今天小编分享的科学经验:AI蛋白质诺奖后再登Nature,第一性原理级精度,微软亚研院4年之作,欢迎阅读。
历时四年,微软亚研院 AI for Science 团队发布 AI 驱动的从头算(ab initio)生物分子动力学模拟系统。
直接登上 Nature 正刊。
系统名为AI ² BMD,能够高效模拟含有 10000 多个原子的各种蛋白质,分辨率达到全原子级别,近似达到从头算(第一性原理)的精确度。
且比量子力学方法中的密度泛函理论(DFT)能实现的速度快几个数量级。
AI ² BMD 的出现,可促进药物发现、蛋白质设计和酶工程等领網域的新生物医学研究。
微软研究院院长 Peter Lee 亲自发帖子为自家研究做宣传:
网友们纷纷表示这项研究十分令人着迷,可能会对一些领網域产生颠覆性的影响:
可能会彻底改变我们对生物学和药物发现的认知。
生物分子动力学模拟系统,AI ² BMD
为便于大家理解,作者们还自撰了一篇 Blog,量子位在不改变原意的基础上进行了编译整理,一起来康康 AI ² BMD 到底长啥样。
在介绍 AI ² BMD 之前,先来简单了解一下分子动力学模拟。
生物世界的本质在于其分子及其相互作用的不断变化。理解生物分子的动态和相互作用对于破译生物过程背后的机制以及开发生物材料和药物至关重要。然而通过实验几乎不可能捕捉这些现实生活中的运动。
此前,AlphaFold、RoseTTAFold 等为代表的深度学习方法,已经实现了用实验精度预测静态晶体蛋白结构。
不过精确地在原子分辨率下表征动态仍然是一项非常具有挑战性的任务,特别是当蛋白质发挥作用并与其它生物分子或药物分子相互作用时。
分子动力学(MD)模拟方法将物理学定律与数值模拟相结合,用于探索分子运动与其生物功能之间的关系,已经被广泛使用了几十年。
分子动力学模拟大致可以分为两类:经典分子动力学和量子力学。
经典版本在 2013 年获得诺贝尔奖,强调了其在推动人类理解复杂生物系统方面的关键作用。
量子力学方法中的密度泛函理论(DFT)在 1998 年获得诺贝尔奖,标志着计算化学的一个关键时刻。
不过,经典分子动力学采用分子系统的简化表示,实现长时间构象变化的快速模拟速度,但准确性较低。相比之下,像密度泛函理论这样的量子力学模型提供了自下而上的计算,但对于大生物分子来说,计算成本过高。
由此,微软研究院开发出了基于 AI 的从头算生物分子动力学系统—— AI ² BMD,这也是团队四年研究成果的结晶。
AI ² BMD 能够高效地以全原子分辨率模拟包含超过 10000 个原子的各类蛋白质,达到近似从头计算(第一性原理)的精度。
相比标准模拟技术,它在生物分子模拟方面实现了前所未有的权衡:获得比经典模拟更高的精度,其计算成本虽然高于经典模拟,但比密度泛函理论(DFT)快几个数量级。
AI ² BMD 采用专门设计的通用蛋白质分片方法,将蛋白质分割成重叠的单元,创建了 2000 万个快照的数据集,这也是迄今为止 DFT 层面最大的数据集。
基于团队先前设计的通用分子几何建模基础模型ViSNet,团队用机器学习训练了 AI ² BMD 的势能函数。然后通过高效的 AI ² BMD 模拟系统进行模拟,在每一步中基于 ViSNet 的 AI ² BMD 势能都会以从头计算的精度计算蛋白质的能量和原子力。
通过动力学和热力学的全面分析,AI ² BMD 与实验室数据表现出更好的一致性,例如在蛋白质的折叠自由能和不同现象方面,比经典分子动力学表现更好。
总结来说,AI ² BMD 在分子动力学模拟领網域取得了以下几个方面的重大突破:
从头计算精度:
引入了一种可泛化的 " 机器学习力场 ",这是一种学习原子与分子间相互作用的模型,用于具有从头算精度的全原子蛋白质动力学模拟。
解决泛化问题:
它是首个解决机器学习力场在模拟蛋白质动力学中的泛化挑战的方法,展示了对多种蛋白质进行稳健地从头算分子动力学模拟。
通用兼容性:
AI ² BMD 将量子力学建模从小的局部区網域扩展到整个蛋白质,而且不需要对蛋白质有任何先验知识。这消除了量子力学与蛋白质的分子力学计算之间可能的不兼容性,并将量子力学区網域的计算速度提高了几个数量级,使全原子蛋白质接近从头算计算成为现实。因此,AI ² BMD 为众多下游应用铺平了道路,提供了表征复杂生物分子动力学的新视角。
速度优势:
AI ² BMD 比 x 和其它量子力学方法快几个数量级。支持对超过 10000 个原子的蛋白质进行从头计算,使其成为跨学科领網域中最快的 AI 驱动的分子动力学模拟程式之一。
多样构象空间探索:
对于 AI ² BMD 和蛋白质分子力学模拟的蛋白质折叠和解折叠过程,AI ² BMD 能够探索更多蛋白质分子力学无法检测到的可能构象空间。
因此,AI ² BMD 为研究药物 - 靶标结合过程、酶催化、变构调节、内源性无序蛋白等过程中的蛋白质柔性运动提供了更多机会,与湿实验更好地吻合,为生物机制检测和药物发现提供更全面的解释和指导。
实验一致性:
AI ² BMD 超越了量子力学 / 蛋白质分子力学混合方法,并在不同的生物应用场景中展示了与湿实验室实验的高度一致性,包括 J 耦合、焓、热容、折叠自由能、熔点和 pKa 计算。
作者简介
这项研究共同一作有四位 Tong Wang、Xinheng He、Mingyu Li、Yatao Li,由 Tong Wang、Bin Shao 共同指导。
Tong Wang
Tong Wang 是微软研究院 AI4Science 高级研究员。他在清华大学获得博士学位,并在哈佛大学有访问学者经历。
他的研究重点是分子动力学模拟、量子模拟、计算机辅助药物发现和蛋白质结构预测的算法设计与应用。
Tong Wang 博士以第一作者和通讯作者身份发表了一系列研究,刊登在 Nature Machine Intelligence、Nature Communications、Cell Research 等期刊上,并拥有多项专利。他还是 Nature 系列期刊的审稿人以及 ACS 出版品的荣誉审稿人。
作为团队负责人,他在首届全球 AI 药物开发大赛中获得冠军,并在 NIPS2022 的 OGB 大规模挑战赛中获胜。
邵斌(Bin Shao)
邵斌是微软研究院 AI4Science 资深高级研究经理,于 2010 年 7 月在复旦大学获得博士学位后加入微软。
他的研究兴趣包括蛋白质动力学模拟、计算生物学、机器学习和分布式计算,研究成果已发表在多个顶会和期刊上。
由邵斌团队开发的 Microsoft Graph Engine 正在为微软的多个产品和服务提供支持,如微软 Satori 知识图谱、必应搜索、MSN、Xbox 和认知服务等。邵斌还是开源轻量级 AIMD 模拟程式 LightAIMD 的发起人和主要开发者。
参考链接:
[ 1 ] https://www.nature.com/articles/s41586-024-08127-z
[ 2 ] https://x.com/peteratmsr/status/1854199356850889096
[ 3 ] https://www.binshao.info/
[ 4 ] https://www.microsoft.com/en-us/research/people/watong/