大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

2024年諾貝爾化學獎:又又又雙叒叕是AI?

2024-10-10 简体 HK SG TW

今天小編分享的科學經驗:2024年諾貝爾化學獎:又又又雙叒叕是AI?,歡迎閱讀。

作者:奶樹

編輯:蝌蚪

當昨天的諾貝爾物理學獎剛剛頒給了開發了人工神經網絡的 AI 之父傑弗裡 · 辛頓和約翰 · 霍普菲爾德,大家還在暗想:今年不會 AI 來了個大滿貫吧?化學獎也可能給 AI 預測蛋白質結構啊!

于是,不出意外地,瑞典皇家科學院 10 月 9 日宣布,2024 年諾貝爾化學獎一半給了開發人工智能設計蛋白質結構的大衛 · 貝克(David Baker)、另一半則給了開發了人工智能預測蛋白質結構的德米斯 · 哈薩比斯(Demis Hassabis)和約翰 · M · 詹珀(John M. Jumper)。

其實在  RostteFold  和  AlphaFold2  在 2021 年橫空出世的時候,結構生物學家、生物化學家、計算生物學家就已經知道,這項成果,肯定值得一個諾貝爾獎。

說起蛋白質,相信不少人其實并不陌生,甚至了解蛋白質是細胞裡行使各種功能的 " 元件 "。不僅如此,蛋白質也是組成我們身體的基本物質之一。比如說健身可以鍛煉肌肉,但想要肌肉增強變大,就必須有足夠的蛋白質供給才行。

餐桌上的雞蛋、牛奶以及各種肉類都是富含蛋白質的食物,對于人類來說,蛋白質唾手可得;但是,想要得到蛋白質的結構卻難于上青天。

富含蛋白質的飲食 | 圖源:iSlide

因為蛋白質的結構非常復雜:簡單講,氨基酸組成蛋白質,一個個氨基酸會有叫肽鍵的結構鏈接,它的連接可以形成兩種不同的角度。

那現在給大家出一個簡單數學題:假設有 100 個氨基酸組成蛋白質,那就需要 99 個肽鍵,99 個肽鍵有兩種不同角度的結構,同時不同角度還會有三種可能的穩定結構,那就是 3 的 198 次方種可能,你要是慢慢窮舉,從宇宙爆炸到現在都數不完,這就是利文索爾悖論——蛋白質結構非常非常多樣,沒辦法用窮舉來算完。

氨基酸組合過程中不同的二面角會產生不同的結構,因此才有利文索爾悖論這樣的無窮種結構可能 | 圖源:Wikipedia

結構這麼復雜該怎麼辦?生物學家最直接的想法就是觀測,用不同的方法來測量:上世紀五六十年代,用的是 X 光衍射——把蛋白質結晶,然後打上 X 光,通過反射的角度可以推測蛋白質長什麼樣子,這個難點就是怎麼把蛋白質純化結晶出來。

另一個現在很熱門的研究方法叫冷凍電鏡,就是利用冷凍切片技術,加上電子顯微鏡直接看蛋白質結構,但缺點就是非常非常貴,太燒錢了。

冷凍電鏡的基本原理 | 圖源:Wikipedia

那大家猜猜這麼些方法,測量了幾十年了,我們分析出來多少個蛋白質結構?其實已經不少了,根據數據庫記載,現在實驗已經解析了18 萬種蛋白質。

但是相對的,我們剛剛說到蛋白質是氨基酸組成的,只要測序技術測得到 DNA 序列,就能推導出蛋白質序列。查找數據庫可以發現,現在已知的有十幾億種蛋白質序列,這和 18 萬之間差了将近一萬倍。

所以結構生物學家就很苦惱——測序太簡單了,導致結構生物學遠遠跟不上測序的速度。

蛋白質結構解析數量變化 | 圖源:Nucleic acids research, 2019.

蛋白質序列測序的速度 | 圖源:www.ncbi.nlm.nih.gov/genbank/statistics/

所以很多開發算法的計算生物學家就想預測結構,通過算法預測肯定比做實驗快很多。但是剛剛也說了利文索爾悖論,預測結構非常非常難,你要是窮舉那是天文數字。

所以有很多的計算思路,比如我可以類比,實驗解出來的結構我可以類比相似的序列,推測相似的序列會不會有相似的結構,這個叫同源建模;也可以拆開來類比,比完再像縫縫補補拼積木一樣把結構拼出來,這個叫穿線法……但是這麼多方法都有個問題:精度特别差。這就好像我想看 1080P 的高清視頻,但是怎麼調都只有馬賽克高糊版,看都看不清。

做個類比的話,比如實際的蛋白結構是左圖,但是預測結果往往只能得到左圖的效果,很多信息都無法得知(僅作示意進行處理,實際并不僅僅是模糊,還會有很多完全不同的差别) | 圖源:Wikipedia

為了促進各國科學家不斷向前,從 1994 年開始,每兩年都會舉辦CASP,叫蛋白質結構預測關鍵測試,來評估大家的算法預測準不準,來提高算法的精度。

簡單來說就是從各種蛋白質序列裡挑幾個出來,一邊讓結構生物學家做實驗解出一個 " 标準答案 ",然後計算生物學家就用自己的算法來比,看看誰跟标準答案更接近。

但很遺憾,24 年過去了,仍然進展很慢。

CASP 官網

直到 2018 年,一個叫 AlphaFold 的方法出來,得到了 80 分的高分,兩年之後 2020 年 AlphaFold 二代打分到了 90 分,基本就和實驗做出來的标準答案一樣了。還是剛剛 1080P 的比喻的話,别人預測像個馬賽克,但 AlphaFold2 預測就已經差不多 1000P,和 1080P 基本大差不差。

這個大家也知道了,就是 Deepmind 公司的德米斯 · 哈薩比斯和約翰 · M · 詹珀開發的人工智能方法。

AlphaFold2 方法預測的精度遠遠超過其他算法(圖 a),同時預測的結果和實驗結果基本吻合(圖 b-d)| 圖源:Nature, 2021.

随後這個方法開始廣泛應用到了生物學上,一發不可收拾。

一是 Deepmind 開發的AlphaFold2算法,在短短幾個月時間裡,就把幾十年結構生物學家解析的沒解析完的蛋白質都解了:人體 98% 的蛋白質都試着預測了一遍,其中三分之一能準确預測,還有一些也能大概預測一半多。同時他們聲稱後面幾個月就把數據庫擴展到一億個蛋白質。這就比實驗方法快了上萬倍了。

基于 AlphaFold2 預測的蛋白質結構數據庫

另一個生物學上的應用,是同樣基于人工智能算法,由大衛 · 貝克開發的RoseTTAFold,它挑戰的是更難的領網域——怎麼預測蛋白質和蛋白質相互結合,也在短時間預測了幾千種蛋白質的相互結合。

RoseTTAFold 的宣傳圖,最突出的就是對于蛋白質互作的結構預測

在 AlphaFold2 正式發布後只過了半年多,2022 年 7 月,DeepMind 公司的 CEO,德米斯 · 哈薩比斯就在新聞發布會宣布:我們已經掌握了 " 整個蛋白質世界 "(The entire protein universe)—— AlphaFold 馬不停蹄地運轉,成功完成了現有蛋白質數據庫中全部 2.14 億種蛋白質的結構預測。

德米斯 · 哈薩比斯 | 圖源:Jung Yeon-Je/AFP/Getty

2.14 億種蛋白質中,有 35% 被評估為高度準确,雖然這個數字看起來不高,但是按照目前實驗檢測的水平,全部做完也就差不多這個水平——更何況,截至目前實驗檢測花了幾十年也只測出了 14 萬種。

僅在 DeepMind 公司宣布完成了 " 整個蛋白質世界 " 三個月後,2022 年 10 月,Meta 公司(原名 Facebook)就拓寬了這個 " 蛋白質世界 " 的邊界(‘ dark matter ’ of the protein universe)——他們利用自己開發的大型語言模型算法 ESMFold,預測了 6.17 億種來自宏基因組信息的微生物蛋白質結構。

ESMFold 算法的準确度雖然略遜于 AlphaFold,但它的優勢在于能以 60 倍于 AlphaFold 的速度去預測短序列蛋白質的結構,這就使得它在預測結構相對簡單的微生物蛋白質上有了很大的優勢。

  6.17 億種蛋白質結構的全覽 | 圖源:ESM Metagenomic Atlas

沒過幾天,AI 又開始颠覆生物學家的認知了——創造蛋白質。

這其實是一個和蛋白質結構預測剛好相反的問題:蛋白質結構預測是從序列到結構,而創造蛋白質是要求從我們希望得到的結構,反推出合适的蛋白質序列。過去這是個計算量巨大的工作,現在 AI 也能完成了。

  四種目前常用的設計蛋白質策略 | 圖片翻譯自:Nature

相比于大批量預測蛋白質結構,創造蛋白質的目的就更加明确——我們希望能創造出自然界不存在,但是對人類非常有用的蛋白質。

設計蛋白質的嘗試還在不斷進步和迭代,已經逐漸用到了實際應用當中。例如在 RoseTTAFold 的研究中,利用 ProteinMPNN 和 RoseTTAFold 方法設計出來的蛋白質,不僅在自然界完全不存在,并且大大提高了這些蛋白質結構的穩定性,預計在未來會被用作疾病治療的抗原抗體,或者生物化學反應所需的生物酶。

蛋白質設計的過程,通過不斷改變序列讓蛋白質結構趨于穩定(結構的穩定基于 AlphaFold 預測,越紅代表越不穩定,越藍代表越穩定) | 圖源:Nature

不少人可能要問了:預測蛋白質結構,到設計蛋白質,有啥用呢?

我們最開始就提到了蛋白質在我們生活無處不在,而蛋白質要發揮功能,基礎是要有一定的結構。所以預測蛋白質結構,可以幫助我們更好地理解蛋白質的功能,進而去比如構建蛋白質分子藥物,或者研究復雜的生物化學現象。

一個最簡單的例子,比如現在我們知道新型冠狀病毒的新變異奧密克戎傳播力特别強,而這傳播關鍵的刺突蛋白結構,就可以利用人工智能來預測,進而可以推測什麼藥物或者治療方法可以更有效的針對奧密克戎。

使用 AlphaFold 預測的奧密克戎突變體的 S 蛋白結構

但同時,雖然說人工智能已經完成了結構生物學家很多的工作,但是這個預測仍然是不完善的:

比如有些復雜的結構,可能結構生物學家實驗還沒有解析出來,人工智能也就還沒辦法學習到,因此也預測不出來,所以很多問題仍然需要結構生物學家的深入探究;

還有很多蛋白在發揮功能的時候是一個動态變化的過程,這種時候預測的結果就不準确,還是用 1080P 舉例的話,就是理論上是一個 1080P 的視頻,但是人工智能在這幾秒預測出來是 1080P 高清,那幾秒預測出來卻是馬賽克,所以也不準确。

這些都是人工智能預測蛋白質的瑕疵,但是瑕不掩瑜,人工智能在蛋白質結構預測帶給我們的驚喜實在太多了,而這項諾貝爾獎,就是計算科學在生命科學上應用的最好證明。

參考資料:

Callaway E. 'The entire protein universe': AI predicts shape of nearly every known protein [ J ] . Nature, 2022, 608 ( 7921 ) : 15-16.

Lin Z, Akin H, Rao R, et al. Evolutionary-scale prediction of atomic-level protein structure with a language model [ J ] . Science, 2023, 379 ( 6637 ) : 1123-1130.

Callaway E. Scientists are using AI to dream up revolutionary new proteins [ J ] . Nature, 2022.

Ferruz N, Heinzinger M, Akdel M, et al. From sequence to function through structure: deep learning for protein design [ J ] . Computational and Structural Biotechnology Journal, 2022.

Wicky B I M, Milles L F, Courbet A, et al. Hallucinating symmetric protein assemblies [ J ] . Science, 2022, 378 ( 6615 ) : 56-61.

Wang J, Lisanza S, Juergens D, et al. Scaffolding protein functional sites using deep learning [ J ] . Science, 2022, 377 ( 6604 ) : 387-394.

>
熱門排行
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們