哥大团队发布首个AlphaFold 2完整复刻版模型，在推理速度、内存占用等方面更具优势

麻省理工科技评论-哥大团队发布首个AlphaFold 2完整复刻版模型，在推理速度、内存占用等方面更具优势

近日，有专家复刻了 AlphaFold 2 模型，以让大众能更容易使用其功能。该复刻版本名为 OpenFold，采用 PyTorch 框架。据 PyTorch 官网：“PyTorch 是一个开源机器学

近日，有专家复刻了 AlphaFold 2 模型，以让大众能更容易使用其功能。

该复刻版本名为 OpenFold，采用 PyTorch 框架。据 PyTorch 官网：“PyTorch 是一个开源机器学习框架，可加速从研究原型到生产部署的路径。”

（来源：GitHub）

AlphaFold 2 是由 AI 公司 DeepMind 开发的深度学习系统，最为人知的是被用于预测蛋白质结构。这可以看作 AI 用于推动科学研究的一个里程碑事件。

对于蛋白质结构的预测有望在生命科学领域产生各种各样的好处，比如加速先进药物的发现和更好地理解疾病。AlphaFold 2 在 2020 年 11 月的蛋白质结构预测技术关键评估（CASP，Critical Assessment of protein Structure Prediction）比赛中总体排名第一（其第一代版本在 2018 年 12 月第 13 届 CASP 大赛中同样获得第一）。这被认为是计算生物学的重大成就，也是朝着数十年来生物学的重大挑战取得的巨大进展。

2021 年 7 月，用 AlphaFold 2 预测蛋白质结构的相关论文发表在 Nature，题为《用 AlphaFold 可以高精度地预测蛋白质结构》（Highly accurate protein structure prediction with AlphaFold）。同时，DeepMind 还向公众公布了蛋白质组数据库，并将 AlphaFold 2 开源。

但 AlphaFold 2 的实际部署比较困难，硬件要求、空间占用、下载时间长等方面对普通开发者不够友好。因此，相关专家和开源社区都在致力于打造一个方便使用的 AlphaFold 2 版本。

本次哥伦比亚大学系统生物学系助理教授穆罕默德·库莱希（Mohammed AlQuraishi）表示，他们构建的可训练 OpenFold 模型是 AlphaFold 2 的第一个完整公开复制品，并已在 GitHub 开源。

（来源：GitHub）

开发人员表示：“OpenFold 再现了（几乎）原始开源推理代码（v2.0.1）的所有功能。我们已经公开发布了模型权重和训练数据，大约 40 万个 MSA（测量系统分析，Measurement Systems Analysis）和 PDB70 文件。”

据了解，模型权重可通过 GitHub 存储库中的脚本获得，而 MSA 则由 AWS（Amazon Web Services，亚马逊网络服务）上的开放数据注册表（RODA）托管。OpenFold 的所有代码都基于 PyTorch 环境，而 AlphaFold 2 是为 JAX 工作流开发的。此外，除了 AlphaFold 的官方参数，OpenFold 支持使用开发人员自己的 Colab notebook 进行推理。

然后，值得一提的是，相比原版 AlphaFold 2，OpenFold 甚至在推理速度、内存占用方面要更具优势。比如超长链的推理、更快的短链推理（速度约为 AlphaFold2 的两倍）、高效的对齐脚本等方面。

研究者表示，在 40GB A100 上最多可以得到约 4600 个氨基酸残基的序列结构，并可以进一步优化。凭借新的可自定义 CUDA 注意内核，占用的 GPU 内存比 FastFold 内核少近四倍。

根据 CAMEO 的验证集上的 GDT_TS 分数，将 OpenFold 和 AlphaFold 2 比较，可以从下面的散点图看到两者的准确度十分接近。甚至平均而言 OpenFold 稍好。研究人员解释说，可能是由于他们的训练集更大。

（来源：Twitter）

据了解，OpenFold 在 A100 GPU 上训练了大约 10 万个计算小时，但 90% 的最终精度仅在前 3000 个计算小时内就达到了。研究人员表示，在最初的快速增长之后，精度增益显着减慢，尽管它仍然逐渐攀升。这对训练 OpenFold 和 AlphaFold 2 变体具有重要意义。

他还提到，本次采用的 GPU 为英伟达发布的 A100，后续希望能在较低端 GPU 上进行训练。目前他们有一个 AlphaFold-Gap 选项，应该很快就会启动并运行多聚体版本（使用 AF2-multimer 权重）。

研究者还表示，即将发表相关的预印本文章，其中包含在培训和研究的大量细节。并说：“我们的 OpenFold 努力远未结束。事实上，这只是一个开始。请继续关注后续发布的激动人心的消息。”

最后，蛋白质折叠是科学家几十年来一直面临的一个问题。据维基百科：“蛋白质折叠是蛋白质链被翻译成其天然三维结构的物理过程，通常是蛋白质变得具有生物功能的‘折叠’构象。”

目前，对其的研究一般通过“X射线晶体学、冷冻电子显微镜和核磁共振”等技术进行实验测定，然而，这些技术的使用在时间和成本方面都耗费较大。

如果能够仅从氨基酸序列中预测蛋白质结构，将大大有助于推进科学研究，可能会导致医学和生物学理解的全面快速突破。

蛋白质折叠涉及了决定折叠稳定结构的原子间力的热力学、蛋白质极快地达到其最终折叠状态的机制和途径，以及如何从其氨基酸序列中预测蛋白质的天然结构等极其复杂问题。

之前，研究人员也应用了许多计算方法来解决蛋白质结构预测的问题，但除了小的简单蛋白质外，它们的准确性并不接近实验技术，从而限制了其价值。OpenFold 与 AlphaFold 2 等 AI 模型预计会在蛋白质折叠问题上发挥越来越重要的作用。

-End-

参考：
https://twitter.com/MoAlQuraishi/status/1459188604723351552
https://github.com/aqlaboratory/openfold#readme
https://en.wikipedia.org/wiki/AlphaFold

Recommend

Ripcord: Desktop Chat Client

国民休闲塔防手游续作！《保卫萝卜4》今日正式上线

还是熟悉的4G 华为nova 10系列上架：四款配色抢先看

20220630的胡言乱语

行程卡摘星后火车票搜索量猛涨三亚有酒店已爆满

索尼公布INZONE新品价格，旗舰M9电竞显示器售价6999元

2022年中国空气压缩机行业进出口市场现状分析进出口结构差异大【组图】

界面三重奏-经验/观点-UICN用户体验设计平台

分布式机器学习：模型平均MA与弹性平均EASGD（PySpark） - orion-orion

Sony one-ups Samsung with its new 1-inch smartphone camera sensor

About Joyk