11

一个困扰生物学家50年的问题,被AI突破了

 3 years ago
source link: https://finance.sina.com.cn/tech/2020-12-02/doc-iiznezxs4747326.shtml
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

来源:果壳

众所周知,蛋白质就是一串氨基酸而已。

可是,拿到氨基酸的排列顺序,你能猜出它会折叠出怎样的三维结构么?恐怕很难。就算是天天研究蛋白质的科学家们,也被这个问题困扰了50年。

如今有只AI,能以前所未有的准确率预测蛋白结构。它给出的答案与蛋白质的真实结构之间,大约只差一个原子的宽度:

6VjIJj2.gif!mobile蓝色为AI预测结果,绿色为标准答案丨DeepMind

这只AI名叫AlphaFold,来自谷歌DeepMind,和会下棋的AlphaGo师出同门。它刚刚在蛋白结构预测比赛CASP14上,超越所有对手获得优胜。

消息发表之后,学界备受鼓舞。AlphaFold的存在,仿佛让科学家拥有了上帝视角。Nature把马普所生物学家Andrei Lupas的一句评论当做了新闻标题:它会改变一切。

怎样的一场比赛

拿到一个氨基酸序列,每只AI都会给出自己预测的三维结构。

那么,拥有近100位参赛选手的CASP挑战赛,是依靠什么来衡量各位选手的得分?

首先,标准答案是通过低温电子显微镜(Cryo-EM)等等学界标配的实验方法检测蛋白质本身,得出的相对精确的三维结构。

然后,对比标答和选手答案之间的相似度,利用的方法叫做Global Distance Test(全球距离测试,简称GDT)。GDT满分为100,通常只要选手得分超过90,就认为一道题目做对了。

I3eYvm.jpg!mobileGDT评测标准丨DeepMind

把所有题目算在一起,AlphaFold得分的中位数达到了92.4,大约2/3的题目都做对了。这个成绩比其他选手高出一大截。

即便在最难的一组题目“自由建模(Free-Modelling Category)”当中,AlphaFold的中位数也有87.0分,比第二名高出25分。

CASP挑战赛两年一届,从1994年开始至今已经举办了14届,大致相当于蛋白结构预测界的奥林匹克。

比赛创办人之一、马里兰大学教授John Moult毫不吝惜对这只AI的赞美。他说,从某种程度上看,(蛋白结构预测)问题已经解决了。

对于那些AlphaFold预测与标答出现分歧的题目,Moult教授也认为,并不能确定是AI预测出了差错,还是实验室结果本身有问题。

AI是怎样炼成的

那么,AlphaFold的工作原理是怎样的?

DeepMind研究团队说,一个折叠的蛋白质可以视为一张空间图(Spatial Graph):构成蛋白质的每个残基(residue)都是图中一个节点(node),然后有边(edge)把距离相近的节点连在一起。

如此一来,过往已知结构的那些蛋白质,都可以用这样的眼光来看待。在日复一日的训练之中,AI逐渐熟悉了图上节点相连的规律。再遇到陌生考题的时候,便可以按照之前摸出的规律,连出一幅新的图来。

biqEjaf.png!mobile残基相连的方式预测丨DeepMind

2018年,AlphaFold官宣之初,便拿下了CASP13冠军。虽然,那时它的得分中位数没有达到90,也就是总体上没达到系统判定正确的分数线,却也远远超越了其他选手。

从那时起,欢呼和质疑一并到来了。许多人都担心,这只AI用某种人们不知道的方式作了弊。

不过,在一种名叫Orf3a的蛋白质上,AlphaFold证明了自己。加州大学伯克利分校的分子神经生物学家Stephen Brohawn说,AI预测出的蛋白结构,和后来实验室用低温电子显微镜做出的成像十分接近。

那么,AI拥有这样的能力,到底意味着什么?

影响了谁的工作

大约半个世纪以前,有位名叫克里斯蒂安·安芬森的科学家,在研究RNA酶的时候发现:对一些蛋白质来说,只要环境不变,它的天然结构便只由氨基酸序列决定。

bEBbaie.jpg!mobile安芬森丨National Institutes of Health

换句话说,给定一个氨基酸序列,理论上就可以预测出蛋白质的三维结构。

安芬森因此获得了1972年的诺贝尔化学奖。他提出的这条假说也有了个响亮的名号:安芬森原则。

后来的几十年间,科学家们在预测蛋白结构的路上艰难地前行,希望有朝一日能把“理论上”这几个字去掉。

毕竟,蛋白质的功能,要靠折叠成特定的结构才能实现。

而那些设计新药或者新酶的科学家们,如果能了解某种蛋白质的结构,便可以更好地预判某种蛋白质能不能和特定的分子结合,进而带来他们希望看到的反应。

假如AI能够准确预测蛋白质的结构,许多科学家的工作(没有被取代的话)可能都会变得更高效。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK