6

科学自然同日发文:谷歌开源AlphaFold2代码,细胞学迎来新时代

 2 years ago
source link: http://jandan.net/p/109315
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

科学家在采自青藏高原的冰芯里发现了15000年前的未知病毒

majer @ 2021.07.23 , 09:32

4

科学自然同日发文:谷歌开源AlphaFold2代码,细胞学迎来新时代

Science和Nature同日竞相发文:谷歌母公司Alphabet旗下的AI实验室DeepMind宣布公开一款AI的源代码。名为AlphaFold2的AI将降低整个细胞生物学和药物研发领域的从业门槛。

大约50年以来,分子生物学家一直猜测,蛋白质分子长链在空间中的折叠结构,是由链上的氨基酸种类和顺序唯一决定的——由此我们就可以按部就班地拼接氨基酸来得到特定功能的酶,或者仅通过小分子的顺序来预测蛋白质大分子的功能,而无需实验——但这并不是一个容易解决的问题。

实际上,潜在结构的数目是如此之大,以至于研究人员推测,对所有可能的分子排列进行采样所花费的时间将超过宇宙的寿命。之前,按照当时人类掌握的理论机制,在已知蛋白质的一级结构和二级结构的条件下,完全无法用来预测三级结构。

但是,如果我们能够解决这个难题(即蛋白质折叠问题),将极大地加快药物开发和疾病建模的能力,并带来远远超出当前想象的应用。

因此,尽管面临挑战,但数十年来,研究人员一直在努力寻找解决方案。

1990年代开始进行了名为CASP(蛋白质结构预测的关键评估)的严格实验,用于检验科学家们设计出的能够预测蛋白质折叠的理论系统。

去年,DeepMind的AlphaFold提供了准确性前所未有的3D蛋白质结构预测模型。

在实验中,DeepMind为AlphaFold使用了一种新的深度学习架构,该架构能够理解和计算3D蛋白质的“空间图”,从而预测支撑其折叠结构的分子结构。

AI系统被喂了大约170000种蛋白质的结构数据,作为培训,参与到今年的CASP挑战中(CASP14),得分为92.4 GDT。

该数值高于通常的湿实验方法得到的结果——90 GDT阈值,而DeepMind表示,其预测平均仅偏离约1.6埃(约一个原子的宽度)。

欧洲分子生物学实验室的基因组学研究员Ewan Birney说:“当我看到这些结果时,我几乎从椅子上摔了下来。我知道CASP多么严格——它基本上确保了计算模型必须从头开始蛋白质折叠。令人沮丧的是,看到这些模型可以如此精确地做到这一点,而我们有很多方面需要理解,但这确实是科学的巨大进步。”

基本上,AlphaFold背后的团队大概率会拿到一个诺贝尔奖。也就是说计算机和算法科学家会拿到诺贝尔医学和生物学奖。

随后,华盛顿大学蛋白质设计中心的团队受AlphaFold算法的启发,研发了RoseTTFold算法,据说结果精度稍逊于前者,但计算开销更少。

唯一令学界担忧的是,DeepMind若为自己的AI申请专利保护,将带来不必要的信息壁垒。甚至会有科学家把大量时间金钱浪费在AI早已解决的问题之上。

今年,DeepMind再接再厉,又升级优化了算法,推出AlohaFold2——比上一版快16倍,或将给细胞和蛋白质科学领域带来一场革命。同时,他们彻底打消了生物学家的疑虑,上周直接宣布:公开AlohaFold2的源代码。

华盛顿大学蛋白质设计中心则迅速跟进,也开源了RoseTTFold的代码。


本文结合去年的译文和今年Nature的报道而成

但事情还没有完。就在本文发出不久,谷歌DeepMind和欧洲分子生物学实验室(EMBL)的研究人员又完全开放了他们利用AI发现的蛋白质的数据库。这一做法实质上让科学界已知的蛋白质类型数量一夜之间翻了一番。

科学自然同日发文:谷歌开源AlphaFold2代码,细胞学迎来新时代
A protein model in the database. (DeepMind/YouTube)

赞一个 (9)


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK