今天小编分享的互联网经验:算法闭源、调用限次,谷歌找到新的AI变现路径?,欢迎阅读。
文|vb 动脉网
美东时间 5 月 8 日,谷歌 DeepMind 与 Isomorphic Labs(DeepMind 创始人创立)宣布推出新一代 AI 生物分子结构模型 AlphaFlod 3。
据悉,新的模型不仅局限于蛋白质结构的预测,它还能够预测 DNA、RNA、配体等生命分子的结构和相互作用,甚至可以预测翻译后修饰(PTM)和离子对相应分子系统结构的影响。研究人员仅需输入一个生物分子复合体的基本描述,几秒后便能收获该复合体 3D 结构的准确预测。
被《Nature 》收录的《Accurate structure prediction of biomolecular interactions with AlphaFlod 3》 对模型的能力进行了详细论证。
据论文数据显示:与现有的预测方法相比,AlphaFlod 3 无需输入任何结构信息的情况下,其准确性已比 PoseBusters 基准上的最佳传统方法高出 50%(一些特殊场景可达 100%),理论上优于现有的基于物理的生物分子结构预测工具。
不过,任何工具的使用都不能脱离实际。经历数天测试,已有不少专家学者引入实际问题对 AlphaFlod 3 的能力评估。就目前测试结果而言,AlphaFlod 3 确实充满潜力,但还不足以 " 颠覆 " 这一领網域。
全生命分子预测,AlphaFlod 3 更接近 AIDD 了
与过往的 AlphaFlod 系列工具类似,AlphaFlod 3 也采取了神经网络架构,并以蛋白质数据库(PDB)中的全球分子结构数据为基础进行训练。不过,AlphaFlod 3 的预测准度在大部分场景中都远超前代产品,且在预测范畴上实现了大规模的扩充。
这些能力的更新来源于 AlphaFlod 3 新引入的主要组件,包括更新版的 Evoformer 模块(现为 Pairformer 模块)、全新的 Diffusion Network 等。其中,Diffusion Network 从点云通过概率扩散预测坐标,进而实现了更高的预测精度。
此外,一些模型上的创新也对 AlphaFlod 3 的预测结果进行了优化。在手性分子等形态相似结构上,算法常会发生预测错误。这类情况下,AlphaFlod 3 采用了交叉蒸馏的方式,让具备 Transform 模型的 AlphaFlod 2 先行预测,再把预测数据添加到 AlphaFlod 3 的训练中,一定程度提升了预测的准确率。
论文展示了部分 AlphaFlod 3 的预测结果。例如对感冒病毒刺突蛋白( 蓝色 )与抗体( 绿松石色 )和单糖( 黄色 )相互作用时的结构预测,与真实结构准确匹配( 灰色的)中,它与实验室得到的结果几近完全匹配(灰色部分)。
对蛋白质和 DNA 结合的分子复合物(7R6R - DNA 结合蛋白)进行预测,预测模型也与实验测定的真实分子结构( 灰色 )完美匹配,且精度达到了远超其他模型的原子级。
在生成预测结果后,AlphaFlod3 还会提供一个置信度分数,评估该次预测结果的准确度,为研究人员提供参考。
论文展示的 AlphaFlod3 的能力对于理解人类免疫反应的各个方面和新抗体的设计至关重要。这一新的工具显然可以通过帮助研究人员了解如何接近新的疾病靶点,进而开发新的方法来追求以前遥不可及的靶点,最终加速药物设计并提高其成功率。
此外,论文提及的 RNA 的预测能力同样具备极大的想象空间。
以往的药物靶点大部分都是蛋白质靶点,但实际上 RNA 会成为一个比较好的潜在靶点。通过阻断 RNA 表达或阻断 RNA 与蛋白质形成复合物,从而阻断蛋白质形成功能,药物的疗效或许会比蛋白质靶点表现更好。
但在过去的采用非 AlphaFlod 工具进行的 RNA 三维结构预测中,绝大部分的预测误差超过了 10 埃,与物理预测方式存在一定差距。理论上要实现 RNA 结构计算相关的应用,精度最好控制在 2-3 埃左右。
如果 AlphaFlod 3 能够攻克 RNA 结果预测,使其预测结果达到跟蛋白质预测差不多的水平,那么这一工具或能优化 mRNA 的蛋白表达,优化其稳定性,加速针对 RNA target 的药物设计,甚至加速将 RNA 本身作为新型药物的药物研发。
算法闭源,AlphaFlod 3 或将开启 AI 分子预测付费时代
在理想情况下,原先需要花大量时间精力和资金才能观察到的现象,现在只需要在 DeepMind 的界面中输入参数,便能在数分钟内得到极高清晰度和准确度的生物大分子模型,甚至明确该大分子细胞系统内部的生化过程,展现如何与抗体、核酸进行反应,因而能在行业之中引起轰动。
但在实际测试中,AlphaFlod 3 的能力或许不如大家期待的那样理想。
颜宁教授团队在微博上表示,AlphaFlod 针对一个糖蛋白的预测不如上一代版本。" 这次的 server 版本我觉得是一个速度和准确度的平衡,正确率不是最好的。我现在手上有三个都是比较奇怪的蛋白,之前我自己搭的 AF2 multimer 可以在很低的 ranking position 找到一两个正确的 conformation,这次的 server 版本测试全军覆没。"
也有学者在试用 AlphaFlod 3 后发现 DeepMind 并没有将文章中引以为傲的蛋白-小分子配体预测任务公开,用户仍然不能自定义配体进行复合物结构预测(aka 对接)。
此外,AlphaFlod 3 也因尚未开源在学界引起激烈讨论。
目前,DeepMind 仅为该模型发布了一个名为 AlphaFlod Server 的公共接口,该接口对可以进行实验的分子施加了限制,仅允许每位用户每天进行 10 次预测,且不提供可能与药物结合的蛋白质结构。
在实际操作中,研究人员为获得最高精度,需要生成大量预测结构并对其进行排名,特别是对于抗体-抗原复合物,预测质量随着模型种子的数量增加而显著提高,因而对工具的筛选功能提出考量。毕竟制药公司并不关心研究人员能找出多少小分子,也不关心提供的分子是自己生成,还是从数据库里筛选,他们只在乎能否找到一个抑制蛋白质的最合适的小分子。
但就 AlphaFlod Server 现阶段可以提供的服务而言,研究人员很难借助这一工具实现期望中的价值。AlphaFlod 3 的使用限制中明确指出预测结果不准商用,也不能用于对接和虚拟筛选,
业内人士认为,AlphaFlod 3 的开源至少会等到 12 月的 CASP16 结束后。但考虑到 Isomorphic Labs 参与了 AlphaFlod 3 的研发工作,DeepMInd 这一次可能不会向学界开源它的开源推理代码或可执行檔案,也不会开源算法和原理。毕竟,这些算法已经成为 Isomorphic Labs 的核心资产。
今年 1 月,Isomorphic Labs 宣布与礼来和诺华达成了两项价值 30 亿美元的药物发现協定,合作涉及针对多种疾病相关蛋白和途径的治疗方法的发现,正与 AlphaFlod 3 对抗原抗体复合体的预测能力、对蛋白配体复合体的预测能力、对蛋白核酸复合体的预测能力紧密相关。
如此来看,AlphaFlod 3 的未来可能会像 GPT 一样被包装成一款商用軟體,面向不同的用户推出不同的版本。譬如,预测结构的排序可能会成为付费项目的一部分,需要研究人员有偿使用。如今绝大多数研究人员已经习惯了在论文之中附上 AlphaFlod 2 的预测结果,但随着工具闭源,这一习惯或许也将逐渐改变。
不过,无论是开源还是闭源,是免费还是商用,我们都应尊重 DeepMind 与 Isomorphic Labs 的选择。毕竟,面对分子生物学理解、调节生物系统复杂的原子相互作用这一命题,AlphaFlod 3 确实带领行业向前迈出了一大步,有望实现在统一的框架内准确预测各种生物分子系统的结构。
因此,合理的商用或许能够进一步为 DeepMind 与 Isomorphic Labs 提供更多支持,推动整个行业更快进入分子生物学的下一个时代。