大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

2024年诺贝尔化学奖:又又又双叒叕是AI?

2024-10-10 简体 HK SG TW

今天小编分享的科学经验:2024年诺贝尔化学奖:又又又双叒叕是AI?,欢迎阅读。

作者:奶树

编辑:蝌蚪

当昨天的诺贝尔物理学奖刚刚颁给了开发了人工神经网络的 AI 之父杰弗里 · 辛顿和约翰 · 霍普菲尔德,大家还在暗想:今年不会 AI 来了个大满贯吧?化学奖也可能给 AI 预测蛋白质结构啊!

于是,不出意外地,瑞典皇家科学院 10 月 9 日宣布,2024 年诺贝尔化学奖一半给了开发人工智能设计蛋白质结构的大卫 · 贝克(David Baker)、另一半则给了开发了人工智能预测蛋白质结构的德米斯 · 哈萨比斯(Demis Hassabis)和约翰 · M · 詹珀(John M. Jumper)。

其实在  RostteFold  和  AlphaFold2  在 2021 年横空出世的时候,结构生物学家、生物化学家、计算生物学家就已经知道,这项成果,肯定值得一个诺贝尔奖。

说起蛋白质,相信不少人其实并不陌生,甚至了解蛋白质是细胞里行使各种功能的 " 元件 "。不仅如此,蛋白质也是组成我们身体的基本物质之一。比如说健身可以锻炼肌肉,但想要肌肉增强变大,就必须有足够的蛋白质供给才行。

餐桌上的鸡蛋、牛奶以及各种肉类都是富含蛋白质的食物,对于人类来说,蛋白质唾手可得;但是,想要得到蛋白质的结构却难于上青天。

富含蛋白质的饮食 | 图源:iSlide

因为蛋白质的结构非常复杂:简单讲,氨基酸组成蛋白质,一个个氨基酸会有叫肽键的结构链接,它的连接可以形成两种不同的角度。

那现在给大家出一个简单数学题:假设有 100 个氨基酸组成蛋白质,那就需要 99 个肽键,99 个肽键有两种不同角度的结构,同时不同角度还会有三种可能的稳定结构,那就是 3 的 198 次方种可能,你要是慢慢穷举,从宇宙爆炸到现在都数不完,这就是利文索尔悖论——蛋白质结构非常非常多样,没办法用穷举来算完。

氨基酸组合过程中不同的二面角会产生不同的结构,因此才有利文索尔悖论这样的无穷种结构可能 | 图源:Wikipedia

结构这么复杂该怎么办?生物学家最直接的想法就是观测,用不同的方法来测量:上世纪五六十年代,用的是 X 光衍射——把蛋白质结晶,然后打上 X 光,通过反射的角度可以推测蛋白质长什么样子,这个难点就是怎么把蛋白质纯化结晶出来。

另一个现在很热门的研究方法叫冷冻电镜,就是利用冷冻切片技术,加上电子显微镜直接看蛋白质结构,但缺点就是非常非常贵,太烧钱了。

冷冻电镜的基本原理 | 图源:Wikipedia

那大家猜猜这么些方法,测量了几十年了,我们分析出来多少个蛋白质结构?其实已经不少了,根据数据库记载,现在实验已经解析了18 万种蛋白质。

但是相对的,我们刚刚说到蛋白质是氨基酸组成的,只要测序技术测得到 DNA 序列,就能推导出蛋白质序列。查找数据库可以发现,现在已知的有十几亿种蛋白质序列,这和 18 万之间差了将近一万倍。

所以结构生物学家就很苦恼——测序太简单了,导致结构生物学远远跟不上测序的速度。

蛋白质结构解析数量变化 | 图源:Nucleic acids research, 2019.

蛋白质序列测序的速度 | 图源:www.ncbi.nlm.nih.gov/genbank/statistics/

所以很多开发算法的计算生物学家就想预测结构,通过算法预测肯定比做实验快很多。但是刚刚也说了利文索尔悖论,预测结构非常非常难,你要是穷举那是天文数字。

所以有很多的计算思路,比如我可以类比,实验解出来的结构我可以类比相似的序列,推测相似的序列会不会有相似的结构,这个叫同源建模;也可以拆开来类比,比完再像缝缝补补拼积木一样把结构拼出来,这个叫穿线法……但是这么多方法都有个问题:精度特别差。这就好像我想看 1080P 的高清视频,但是怎么调都只有马赛克高糊版,看都看不清。

做个类比的话,比如实际的蛋白结构是左图,但是预测结果往往只能得到左图的效果,很多信息都无法得知(仅作示意进行处理,实际并不仅仅是模糊,还会有很多完全不同的差别) | 图源:Wikipedia

为了促进各国科学家不断向前,从 1994 年开始,每两年都会举办CASP,叫蛋白质结构预测关键测试,来评估大家的算法预测准不准,来提高算法的精度。

简单来说就是从各种蛋白质序列里挑几个出来,一边让结构生物学家做实验解出一个 " 标准答案 ",然后计算生物学家就用自己的算法来比,看看谁跟标准答案更接近。

但很遗憾,24 年过去了,仍然进展很慢。

CASP 官网

直到 2018 年,一个叫 AlphaFold 的方法出来,得到了 80 分的高分,两年之后 2020 年 AlphaFold 二代打分到了 90 分,基本就和实验做出来的标准答案一样了。还是刚刚 1080P 的比喻的话,别人预测像个马赛克,但 AlphaFold2 预测就已经差不多 1000P,和 1080P 基本大差不差。

这个大家也知道了,就是 Deepmind 公司的德米斯 · 哈萨比斯和约翰 · M · 詹珀开发的人工智能方法。

AlphaFold2 方法预测的精度远远超过其他算法(图 a),同时预测的结果和实验结果基本吻合(图 b-d)| 图源:Nature, 2021.

随后这个方法开始广泛应用到了生物学上,一发不可收拾。

一是 Deepmind 开发的AlphaFold2算法,在短短几个月时间里,就把几十年结构生物学家解析的没解析完的蛋白质都解了:人体 98% 的蛋白质都试着预测了一遍,其中三分之一能准确预测,还有一些也能大概预测一半多。同时他们声称后面几个月就把数据库扩展到一亿个蛋白质。这就比实验方法快了上万倍了。

基于 AlphaFold2 预测的蛋白质结构数据库

另一个生物学上的应用,是同样基于人工智能算法,由大卫 · 贝克开发的RoseTTAFold,它挑战的是更难的领網域——怎么预测蛋白质和蛋白质相互结合,也在短时间预测了几千种蛋白质的相互结合。

RoseTTAFold 的宣传图,最突出的就是对于蛋白质互作的结构预测

在 AlphaFold2 正式发布后只过了半年多,2022 年 7 月,DeepMind 公司的 CEO,德米斯 · 哈萨比斯就在新闻发布会宣布:我们已经掌握了 " 整个蛋白质世界 "(The entire protein universe)—— AlphaFold 马不停蹄地运转,成功完成了现有蛋白质数据库中全部 2.14 亿种蛋白质的结构预测。

德米斯 · 哈萨比斯 | 图源:Jung Yeon-Je/AFP/Getty

2.14 亿种蛋白质中,有 35% 被评估为高度准确,虽然这个数字看起来不高,但是按照目前实验检测的水平,全部做完也就差不多这个水平——更何况,截至目前实验检测花了几十年也只测出了 14 万种。

仅在 DeepMind 公司宣布完成了 " 整个蛋白质世界 " 三个月后,2022 年 10 月,Meta 公司(原名 Facebook)就拓宽了这个 " 蛋白质世界 " 的边界(‘ dark matter ’ of the protein universe)——他们利用自己开发的大型语言模型算法 ESMFold,预测了 6.17 亿种来自宏基因组信息的微生物蛋白质结构。

ESMFold 算法的准确度虽然略逊于 AlphaFold,但它的优势在于能以 60 倍于 AlphaFold 的速度去预测短序列蛋白质的结构,这就使得它在预测结构相对简单的微生物蛋白质上有了很大的优势。

  6.17 亿种蛋白质结构的全览 | 图源:ESM Metagenomic Atlas

没过几天,AI 又开始颠覆生物学家的认知了——创造蛋白质。

这其实是一个和蛋白质结构预测刚好相反的问题:蛋白质结构预测是从序列到结构,而创造蛋白质是要求从我们希望得到的结构,反推出合适的蛋白质序列。过去这是个计算量巨大的工作,现在 AI 也能完成了。

  四种目前常用的设计蛋白质策略 | 图片翻译自:Nature

相比于大批量预测蛋白质结构,创造蛋白质的目的就更加明确——我们希望能创造出自然界不存在,但是对人类非常有用的蛋白质。

设计蛋白质的尝试还在不断进步和迭代,已经逐渐用到了实际应用当中。例如在 RoseTTAFold 的研究中,利用 ProteinMPNN 和 RoseTTAFold 方法设计出来的蛋白质,不仅在自然界完全不存在,并且大大提高了这些蛋白质结构的稳定性,预计在未来会被用作疾病治疗的抗原抗体,或者生物化学反应所需的生物酶。

蛋白质设计的过程,通过不断改变序列让蛋白质结构趋于稳定(结构的稳定基于 AlphaFold 预测,越红代表越不稳定,越蓝代表越稳定) | 图源:Nature

不少人可能要问了:预测蛋白质结构,到设计蛋白质,有啥用呢?

我们最开始就提到了蛋白质在我们生活无处不在,而蛋白质要发挥功能,基础是要有一定的结构。所以预测蛋白质结构,可以帮助我们更好地理解蛋白质的功能,进而去比如构建蛋白质分子药物,或者研究复杂的生物化学现象。

一个最简单的例子,比如现在我们知道新型冠状病毒的新变异奥密克戎传播力特别强,而这传播关键的刺突蛋白结构,就可以利用人工智能来预测,进而可以推测什么药物或者治疗方法可以更有效的针对奥密克戎。

使用 AlphaFold 预测的奥密克戎突变体的 S 蛋白结构

但同时,虽然说人工智能已经完成了结构生物学家很多的工作,但是这个预测仍然是不完善的:

比如有些复杂的结构,可能结构生物学家实验还没有解析出来,人工智能也就还没办法学习到,因此也预测不出来,所以很多问题仍然需要结构生物学家的深入探究;

还有很多蛋白在发挥功能的时候是一个动态变化的过程,这种时候预测的结果就不准确,还是用 1080P 举例的话,就是理论上是一个 1080P 的视频,但是人工智能在这几秒预测出来是 1080P 高清,那几秒预测出来却是马赛克,所以也不准确。

这些都是人工智能预测蛋白质的瑕疵,但是瑕不掩瑜,人工智能在蛋白质结构预测带给我们的惊喜实在太多了,而这项诺贝尔奖,就是计算科学在生命科学上应用的最好证明。

参考资料:

Callaway E. 'The entire protein universe': AI predicts shape of nearly every known protein [ J ] . Nature, 2022, 608 ( 7921 ) : 15-16.

Lin Z, Akin H, Rao R, et al. Evolutionary-scale prediction of atomic-level protein structure with a language model [ J ] . Science, 2023, 379 ( 6637 ) : 1123-1130.

Callaway E. Scientists are using AI to dream up revolutionary new proteins [ J ] . Nature, 2022.

Ferruz N, Heinzinger M, Akdel M, et al. From sequence to function through structure: deep learning for protein design [ J ] . Computational and Structural Biotechnology Journal, 2022.

Wicky B I M, Milles L F, Courbet A, et al. Hallucinating symmetric protein assemblies [ J ] . Science, 2022, 378 ( 6615 ) : 56-61.

Wang J, Lisanza S, Juergens D, et al. Scaffolding protein functional sites using deep learning [ J ] . Science, 2022, 377 ( 6604 ) : 387-394.

>
熱門排行
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游 衛青柏 | 2023-05-04
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修 集玲琳 | 2023-05-02
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 — 袁曼雁 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花 謝飛揚 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压 習又夏 | 2023-05-05
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包 郟君昊 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”, 袁曼雁 | 2023-05-03
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《 惠惠君 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們