今天小編分享的科技經驗:AI“入侵”生物醫藥史:從暴力破解到Transformer模型三部曲,歡迎閲讀。
文 | 硅谷101
AI正在入侵科學界,特别是生物科技方向。
瑞典皇家科學院在2024年10月宣布了當年諾貝爾化學獎的獲獎者,出乎意料的是—— AI又是大赢家。
2024年的諾貝爾化學獎被授予了Google旗下DeepMind人工智能實驗室的首席執行官Demis Hassabis和總監John Jumper ,以及華盛頓大學蛋白質設計研究所所長David Baker。
其中,Hassabis和Jumper因"蛋白質結構預測"研究獲獎,而Baker則因"計算蛋白質設計"研究獲獎。而此前一天,人工智能先驅Geoffrey Hinton和John Hopfield剛剛榮獲諾貝爾物理學獎。
如果説諾貝爾物理學獎授予人工智能領網域的兩位先驅是眾望所歸,諾貝爾化學獎也花落AI及生物醫療的跨界領網域則有些出人意料。因為即便對AI而言,該領網域也是最難啃的骨頭之一。
然而随着人工智能技術的迅速發展,生物科技行業迎來了新的希望。
這篇文章我們将講述:AlphaFold究竟是何方神聖?AI和生物醫療行業擦出了什麼火花?人類如何靠AI推動生物醫藥技術更快地向前更迭?
01 AlphaFold與新紀元
2020年末,一場看似平常的線上會議,悄然揭開了人工智能與生物學深度融合的新時代。
當時,全世界正在經歷疫情挑戰,但沒有人預料到,一個困擾科學界數十年的難題,會在這樣一個特殊的時刻被攻克。就在那個冬日,人工智能向我們展示了AI與生物學深度融合時代的開端。
Chapter 1.1 線上會議的意外之喜
CASP大會是生物學界備受矚目的盛會,每兩年舉辦一次,被稱為"蛋白質折疊界的奧運會"。
會議聚集世界各地的頂尖科學家,共同探讨一個看似簡單卻極其復雜的問題:如何僅憑一維的分子代碼,準确預測蛋白質的三維結構?
多年來,科學家們在這個問題上進展緩慢,有些研究者甚至将近幾十年的職業生涯都奉獻給了這項事業,然而距離真正的突破遙不可及。
直到2020年11月底、12月初,這個局面被徹底改變。由于全球疫情的影響,這次CASP大會首次以線上形式舉行,與會者們聚集在螢幕前,原本期待着又一次漸進式的進步,然而一場意想不到的驚喜在等着他們。
在這次線上會議上,一位名叫John Jumper的新面孔引起了所有人的注意。他來自谷歌旗下的人工智能部門DeepMind,帶來了一款革命性的工具——AlphaFold2。
Chapter 1.2 AlphaFold2的驚人表現
2020年11月30日,當Jumper通過Zoom展示AlphaFold2的成果時,整個會議室陷入了震驚的沉默。
AlphaFold2在3D蛋白質結構預測方面展現出了前所未有的準确性,其精确度超過90%,遠遠甩開了其他競争對手,領先優勢高達五倍之多。
具體來説,AlphaFold2預測了數十種蛋白質的結構,誤差幅度僅為1.6埃(0.16 納米),差不多原子大小。這遠遠超過了所有其他計算方法,并首次與實驗室中使用的技術(如低温電子顯微鏡、核磁共振和X射線晶體學)的精度相匹配。
此前,這些技術昂貴且緩慢:每種蛋白質可能需要數十萬美元和數年的反復試驗;而AlphaFold卻可以在幾天内找到蛋白質的形狀。
這個突破性的成果在整個科學界引起了巨大的轟動,并立即成為了各大媒體的頭條新聞,因為它幾乎一舉解決了困擾科學界近50年來的蛋白質折疊問題。《自然》雜志在标題裏引用科學家的話説,"它會改變一切"。
AlphaFold2的成功不僅标志着人工智能在生物學領網域的重大突破,更預示着跨學科研究的無限可能。我們邀請到的采訪嘉賓也同樣用"震驚"表達了她和同行們看到AlphaFold2時的感受。
Janice
N-1 Life創始人:
AlphaFold2出現就一騎絕塵,把其他對手都甩在了後面。我覺得對大家是一種徹底震驚的感覺,完全沒有想到AlphaFold2已經可以達到這樣一個高度。
這是生物技術屆第一次如此直觀得感受到,人工智能帶來的颠覆進步。
我們先來解釋一下蛋白質折疊問題為什麼如此重要。
Chapter 1.3 蛋白質折疊
蛋白質是生命的基石,維持着生命活動的正常運轉。
蛋白質的功能與它的三維結構密切相關:就像一把鑰匙必須有正确的形狀才能打開特定的鎖,蛋白質也必須折疊成正确的形狀才能執行其特定的功能。
因此,準确預測蛋白質的三維結構,對于我們理解疾病機理、開發新藥物,以及深入洞察生命運作的奧秘都具有深遠的影響。
長期以來,科學家們一直在試圖從蛋白質的一維氨基酸序列(可以看作是蛋白質的"源代碼")推斷出最終的三維結構。但這個過程,就像是要從一串字母中預測出一個復雜折紙的最終形狀,難度可想而知。
正是因為這個問題的重要性和復雜性,CASP大會才會每兩年舉辦一次,吸引眾多科學家前來展示他們最新的蛋白質折疊預測工具。AlphaFold2的突破,正是在這個背景下顯得尤為重要和令人振奮。
Chapter 1.4 科學界的失落與肯定
AlphaFold2的驚人成果在科學界引起了巨大的反響,反應可謂是喜憂參半。許多科學家對這一突破感到興奮和鼓舞,但也有一些人表現出了謹慎和懷疑的态度。
這并不是AlphaFold的第一次亮相,在2018年12月舉行的第13屆CASP大會上,Deepmind就首次推出了AlphaFold。
它在98個參賽隊伍中名列前茅,預測了43種蛋白質中25種的最準确結構,而同一類别中排名第二的團隊,僅預測了43種蛋白質中的3種最準确結構。
盡管AlphaFold1表現出色,但它的準确性并未達到足以徹底改變整個領網域的水平,在某些情況下仍然無法很好地預測復雜蛋白質的三維結構,因此其影響力相對有限。
然而兩年後的AlphaFold2,出現了巨大的飛躍:其預測準确性,在大多數測試蛋白上達到了接近實驗結構的水平,相較于實驗方法和其他計算方法,它大大縮短了預測時間,使得大規模應用成為可能。
這讓一些研究者拒絕相信,一個AI系統能夠在短時間内解決困擾人類數十年的難題。畢竟有些科學家已經将近三十年的職業生涯都奉獻給了這個問題,突然間看到一個"外來者"取得如此巨大的成功,難免會感到些許失落和不安。
然而在會議的總結發言中,CASP大會的組織者John Moult卻表現出了堅定的信心,他毫不猶豫地宣布:AlphaFold2"在很大程度上解決了"蛋白質折疊問題。這個聲明無疑給這次突破蓋上了權威的印章。
John Jumper
DeepMind人工智能實驗室總監:
十年後,AlphaFold将被視為打開機器學習洪流的時刻,它将真正改變我們對結構生物學和更廣泛的生物學問題的思考方式。
如今距離AlphaFold2給業界帶來震撼已過去了4年,在這個期間DeepMind也在不斷發展。
2021年與歐洲生物信息學研究所(EMBL-EBI)合作,啓動AlphaFold數據庫,納入35萬個蛋白質預測結構,涵蓋了人類、小鼠和其他19種被廣泛研究的生物體產生的幾乎每種蛋白質。
2023年,更是公布了從細菌到人類的幾乎所有已知2億多個蛋白質的可能結構,并将其納入相關數據庫。研究人員説,"可以像在谷歌通過關鍵詞搜索信息一樣輕松地查找蛋白質三維結構"。
AlphaFold 2的代碼也已開源,Hassabis非常驕傲地稱,"我們發布了整個蛋白質宇宙的結構。"
據歐洲生物信息學研究所(EMBL-EBI)估計,在現有的超2.14億個預測的蛋白質結構中,大約35%是高度準确的(高度準确意味着它們與實驗确定的結構質量一樣高);有45%的結構足以在許多應用程式中使用。
2024年5月,谷歌進一步在 《自然》雜志上發表了關于AlphaFold 3的突破性研究,這一最新版本的AI模型,在生物分子結構預測領網域掀起了一場新的風暴。
Chapter 1.5 AlphaFold3
AlphaFold 3由DeepMind和一家名為Isomorphic Labs的初創公司開發。Isomorphic Labs公司其實是DeepMind分拆出來的團隊,甚至還是由Hassabis親自領導。
AlphaFold 3厲害的地方在于它是一個生成式神經網絡模型,可以生成蛋白質、核酸(DNA/RNA)和更小分子的3D結構,并揭示它們如何組合在一起,即史上最強的AI組合架構:Transformer+Diffusion。
這兩個模型我們之前介紹過,而Transformer+Diffusion這個架構也讓它成為了一個單一AI模型。基于這種組合架構,AlphaFold 3的核心突破主要體現在以下幾個方面:
1.全面預測能力:它不僅能生成蛋白質的3D結構,還能預測DNA、RNA和小分子的結構,更重要的是,它能揭示這些分子之間是如何相互作用的。
2.細胞過程模拟:AlphaFold 3可以模拟控制細胞正常運轉的化學變化,為我們理解和預防疾病提供了新的視角。
3.驚人的精度提升:在預測分子相互作用方面,即使在沒有任何結構信息輸入的情況下,它的準确性也比傳統的最先進方法提高了50%。
這使得AlphaFold 3成為生物分子結構預測領網域中,首個超越物理基礎工具的AI系統。
Demis Hassabis将AlphaFold 3的發布稱為一個重要的裏程碑,标志着AI在理解和建模生物學領網域又邁出了關鍵性的一步。
AlphaFold 3超越蛋白質,進入廣泛的生物分子領網域,這一飛躍可以開啓更多變革性科學,從開發生物可再生材料和更具彈性的作物,到加速藥物設計和基因組學研究。
而在藥物研發領網域,AlphaFold 3的潛力尤為突出:它不僅能提高藥物設計的成功率,還為探索新的疾病靶點提供了可能。
Hassabis甚至預測,這可能會發展成一個價值千億美元的產業。
此外,谷歌推出了免費研究平台「AlphaFold Server」,供全球科學家非商業化研究,可以利用AlphaFold 3在10分鍾内預測分子,并測試假設。
當然,并不是用了Transformer + Diffusion架構所有問題都能迎刃而解。在專業人士看來,即使是Transformer加Diffusion這對強力組合,應用在制藥領網域,也還是有一些挑戰。
車興
YDS Pharmatech創始人兼CEO:
所有AI在制藥領網域應用的最大障礙,還是對實驗需求和對科學問題的理解。
因為我們領網域沒有開發自己新的架構,這些LM、Transformer、 Diffusion 其實都是NLP、 CV等領網域開發出來的,最終應用取決于我們要在實驗上達到的目标,再去配合合适的技術來實現。
值得一提的好消息是:谷歌把AlphaFold 3開源了。
此前,AlphaFold3使用上有不少限制:比如研究者無法運行自己的AlphaFold3版本或訪問其底層代碼、每日預測次數也有限制,這也令部分科學家反而認為AlphaFold3的影響力反而會不如AlphaFold2。
或許是諾貝爾化學獎的"刺激",谷歌在11月11日悄悄地把它給開源了!"悄悄"是因為,谷歌甚至都沒有發布一篇新聞,只是在原來的博客文章上進行了一段很小的文字更新:
"2024年11月11日更新,我們已發布了AlphaFold3的模型代碼和權重作為學術用途,以幫助前沿研究。"
也就是説,現在任何人都可以下載AlphaFold3軟體代碼并将其用于非商業用途了。雖然目前只有具有學術背景的科學家才能訪問訓練權重,而且只能在提出請求後才能訪問,但對于學術界,這仍然是個巨大的進步。
Demis Hassabis
谷歌DeepMind首席執行官:
我認為AlphaFold是我們迄今為止構建的最復雜且可能最有意義的系統,我們建立AlphaGo和Alpha Zero的初衷,就是為通用學習系統奠定基礎,并将其應用于現實世界的挑戰,我熱衷于科學挑戰,比如蛋白質折疊,而AlphaFold當然是我們在這方面的第一個重要成果。
硅谷的華源2024年會上,我們采訪到了諾貝爾生理學或醫學獎得主Randy Schekman,他認為AlphaFold會持續颠覆傳統科研的範式。
Randy Schekman
2013年諾貝爾生理學或醫學獎得主:
它會對傳統研究產生颠覆性的影響,但進步的本質就是颠覆,所以這并不可怕。相反,我們需要擁抱這種創新。
AlphaFold的影響是巨大的,唯一的限制就在于人的想象力——如何實現它、如何部署它。
但我并不認為從此我們就不需要做實驗,實驗仍然是推動科學進步的基礎,但AlphaFold肯定會幫助我們更好地所有生成的數據。
02 AI結合生物領網域的其他玩家
Chapter 2.1 ESMFold
2022年,Meta AI研究團隊推出了ESMFold,這是一個強大的蛋白質結構預測模型,并且還公布了6億多種蛋白結構預測結果。
這個龐大的數據庫涵蓋了地球環境樣本中鮮為人知的蛋白質,包括土壤、海洋和人體中的微生物。
Meta表示,在ESMFold預測的蛋白質中,約有三分之一可以以高置信度完成預測。也就是説,當時ESMFold預測出來的蛋白結構數量,相當于AlphaFold2的3倍左右。
ESMFold還在計算效率方面取得了顯著進展。Meta AI研究科學家表示,ESMFold能夠在幾秒鍾内完成單個蛋白質結構的預測。這比之前的方法快了幾個數量級:用ESMFold預測超過6.17億個蛋白質的結構,只花了2周時間。
另外,在單個英偉達V100 GPU上,ESMFold可以在14.2秒内對含有384個殘基的蛋白質進行預測,比AlphaFold2快6倍,而對于較短的序列,它甚至比AlphaFold2快了60倍。
ESMFold在早期的時候有非常多的優點,比如計算速度比較快。另外,它的數據庫早期非常開源。
ESMFold的核心是一個創新的AI模型,由大約十幾名科學家共同打造,它借鑑了類似于ChatGPT的語言預測技術。
Meta的科學家們為ESMFold提供了代表蛋白質遺傳密碼的氨基酸序列,讓AI模型學習如何填補序列中的空白部分。
通過學習已知蛋白質序列與結構之間的關系,ESMFold能夠預測新蛋白質的三維結構。
這項技術的一個顯著優勢是其驚人的速度。
此外,盡管功能強大,ESMFold的設計卻相對輕量,這意味着它可以在普通的GPU上運行,使得更多研究者能夠使用這個工具。
不過,它的缺點也很明顯:準确度較低。不少生物技術業内人士表示,他們更喜歡 AlphaFold,而不是ESMFold,因為它更準确。
由于在AI賦能生物醫藥這件事上,瓶頸不是計算,所以更快并不意味着更好,準确才更重要。
然而,ESMFold項目卻沒有得到扎克伯格的支持:2023年春季,作為Meta公司大範圍裁員的一部分,ESMFold部門被解散。這一舉措使學術界擔憂Meta是否能長期維持數據庫的運行和相關服務,盡管如此,ESMFold的影響力依然顯著。
自2022年發布以來,ESMFold模型每月的下載量約為25萬次,每小時可預測1000種蛋白質結構,多個學術研究團體和生物科技公司已經開始使用這一工具。
相比之下,DeepMind的AlphaFold自2021年首次發布以來,已有來自190多個國家的100多萬研究人員和生物學家使用,查看了300萬種蛋白質結構。
雖然AlphaFold在準确性上仍占優勢,但ESMFold的速度優勢和更大的數據庫為科研人員提供了另一種選擇。只是不知道,遭遇了裁員危機的ESMFold的未來命運如何。
Chapter 2.2 RoseTTAFold
這次諾獎的另外一名獲獎者David Baker帶領團隊開發的蛋白質分析工具系列Rosetta,是生物醫藥界人士的最愛。
2021年,看到AlphaFold2大殺四方,David Baker教授和他的研究團隊,開發出了一種名為RoseTTAFold的新型蛋白質結構預測工具,這一突破性成果為解決長期以來困擾科學界的蛋白質折疊問題提供了新的思路和方法。
David Baker組之前出過很多Diffusion做蛋白設計的,對于計算領網域來説特别ground breaking(開創性的)。
因為以前計算領網域沒有這些工具,現在不但有了,還能有一定的成功率,所以我們都認為非常好。
這尤其體現在David Baker取得進展的領網域:他正在使用人工智能設計自然界中從未存在過的蛋白質,通過設計它們來催化制藥行業。
之前,但這些反應通常效率低下且涉及有毒物質,而通過設計蛋白質來催化這些反應,或者設計用于疫苗研發的新分子,或應用于藥物開發的新藥分子。
這種基于人工智能算法的設計原則,在生產蛋白質或其他分子中的應用,無疑是未來的發展方向,其重要性将不斷提高。
RoseTTAFold的核心是一種創新的深度學習算法。它采用了三軌神經網絡架構,可以同時處理蛋白質的一維序列信息、二維距離信息和三維結構信息。
這種多維度的信息整合使得RoseTTAFold能夠更準确地模拟蛋白質的折疊過程,從而實現高精度的結構預測。與傳統的實驗方法相比,RoseTTAFold具有幾個顯著的優勢:
1.速度快:通常只需幾個小時就能完成一個蛋白質的結構預測,大大縮短了研究周期。
2.成本低:不需要昂貴的實驗設備和試劑,降低了研究門檻。
3.适用範圍廣:可以預測各種類型的蛋白質結構,包括一些難以通過實驗方法解析的蛋白質。
然而RoseTTAFold也存在一些局限性,比如對于一些特殊的蛋白質結構,其預測準确度還有待提高。此外,如何将預測結果與實驗數據有機結合,也是未來需要解決的問題。
不過,在生物醫藥業内人士的眼裏,RoseTTAFold比起Google的AlphaFold和ESMFold,最大的優勢是對生物學的理解。
因為David Baker團隊是科學家而非工程師出身,所以模型裏面融入的生物學的理解和對于結構的理解是更深入的。
這是獨一無二的,而且可能是全世界最好的。
也就是説,RoseTTAFold模型提出了一種全新的思路和底層架構。
我們提到的AlphaFold和OpenAI的GPT-4等語言模型,其實都是從AI技術出發,然後将其應用到生物醫藥等領網域。而RoseTTAFold則從根本上突破了這一傳統路徑,提供了與以往AI驅動模型截然不同的創新方向。
正是這種對生物學多維度、多尺度的理解,使得RoseTTAFold具備天然優勢——它對生物學的理解和輸出更為準确。
在與AlphaFold 2的對比中可以發現,RoseTTAFold計算速度更快,且所需算力更少。這可能是因為它融入了更深入的生物學理解,從而減少了計算時間和資源消耗。
RoseTTAFold甚至可以在普通的GPU上進行計算,但是AlphaFold必須用最好的A100來做。
接下來我們總結下AI入侵生物醫藥行業的三個階段。
03 AI+生物醫藥進化的三階段
Chapter 3.1 早期階段
第一階段:機器學習的簡單應用。
制藥公司在早期嘗試使用機器學習建模來預測藥物效果和生物學反應,但成效甚微,主要因為數據量不足和模型的局限性。
AI技術的起源可以追溯到20世紀60年代,盡管當時還不叫"AI"。
早期的研究主要是嘗試用計算機和定量數學方法,解讀化學結構及其與藥效之間的關系。當時的著名術語叫"定量構效關系"(Quantitative Structure-Activity Relationship,QSAR)。
代表人物Corwin Hansch創立了一個方程,用于定量分析化學分子的結構與其藥效之間的聯系,然而這些研究在當時仍然較為基礎。
70年代和80年代,化學結構數據庫的建立逐漸成為研究的重點。
80年代和90年代,随着計算機技術的興起,全球的化學家和藥物學家開始将化學結構及其生物活性的信息匯總到數據庫中,通過數據庫學習結構特征成為主流。
90年代見證了與Docking相關模型的建立,其中加利福尼亞大學舊金山分校UCSF和牛津大學的研究尤為突出。
Docking又叫分子對接,是一種計算生物學技術,它模拟了小分子(如藥物候選物)與大分子(如蛋白質受體)之間的相互作用,以預測它們如何結合在一起。這項技術在當時是非常先進的,盡管只能在實驗室的大型本地計算機上進行,使用起來也十分受限。
現在在斯坦福的一些實驗室裏面還保留着當時的計算機——特别大,而且都是本地的計算機,實驗室裏有誰需要用這個工具,都只能去那個特定的計算機去嘗試。所以是當時那個時代非常先進的成果。
進入21世紀後,機器學習和深度學習技術逐步應用于藥物發現領網域。第一代AI藥物發現公司出現,通過機器學習分析藥物分子的結構和藥效,嘗試設計新的藥物分子。
同時,高通量篩選技術的普及使得數據產生的速度和量大幅提升,為機器學習提供了大量的數據點,推動了AI在藥物研發中的應用。
Chapter 3.2 深度學習
第二個階段的技術突破是:深度學習算法的出現。它極大提升了生物醫藥領網域的數據處理和分析能力,為復雜的生物學問題提供了新的解決方案。
21世紀初期,生物醫藥領網域主要依賴于大量數據的積累,通過機器學習方法從中提取規律。
真正的轉捩點出現在2010年代初期,深度學習的興起為生物醫藥領網域帶來了前所未有的變革。
再往後,就是人工智能時代了。盡管"人工智能"(AI)這一術語早在計算機領網域廣泛應用,但直到2020年前後,它才在生物醫藥領網域真正得到重視,這一變革的關鍵推動力是AlphaFold等突破性模型的問世。
AlphaFold的成功不僅标志着AI技術在生物醫藥領網域的成熟應用,更是一次劃時代的分水嶺。這些先進的AI工具超越了傳統的數據堆積分析,具備了強大的預測能力,從而加速了生命科學和藥物發現的進程。
AlphaFold出現是一個很重要、劃時代的分水嶺,這個時候大家就開始把所有很相對成熟很多的這些 AI 的工具用到生物醫藥裏面。
它不僅僅是堆疊各種數據,嘗試在數據裏面去找到它的規律,而更多的是有預測性的功能,所以從2020年開始一直到現在,其實時間并不長,但是現在模型迭代非常快,進入了AI助力生命醫學和藥物發現的新時代。
Chapter 3.3 真正的AI時代
第三階段:生物醫藥領網域進入了端到端學習的新時代。
早期的機器學習工具在生物醫藥領網域的應用主要依賴于龐大的數據庫,通過分析已知結構來尋找規律,然而這種方法在預測新結構和功能方面存在局限性。而且傳統的結構-活性關系(SAR)研究需要逐步解析化學分子從化學式到三維構象,再到與蛋白質或藥物靶點的相互作用,每一步都需要明确的關系。
随着人工智能技術的發展,特别是深度學習的引入,生物醫藥領網域進入了端到端學習的新時代:這種方法允許從化學式直接預測分子的功能,中間過程由模型自動處理,減少了人為幹預。
這得益于強大的計算資源和先進的模型,使得科學家不再需要關注每個環節的細節,而是直接獲得高準确率的預測結果。
這時候人就已經跟不上機器的速度。對于科學家來講,現在我們要嘗試去理解并不是每個環節都要有結論,因為就算有結論也不一定是正确的,在化學生物界很難去證實,大家都是在不斷的證偽,產生了很多假設。
這些假設将引導我們走向不同的研究方向,但有時設計的藥物、采取的途徑可能并不正确,這也是生物醫藥領網域之所以困難的原因之一。
在這種情況下,AI可以不用管中間的過程、直接為我們提供一個結果,而且準确率正不斷提升,所以我覺得完全是一個新時代。
AI技術的演進,我們可以從前面提到的Alpha Fold1、2、3代可以看出來:
為了構建AlphaFold1,DeepMind用數千種已知蛋白質訓練了一個神經網絡,直到它能夠僅從氨基酸就能預測出3D結構。
當給定一種新蛋白質時,AlphaFold使用神經網絡來預測氨基酸對之間的距離,以及連接它們的化學鍵之間的角度。
在第二步中,AlphaFold調整了草圖結構以找到最節能的排列,這個程式剛開始時花了兩周時間預測其第一個蛋白質結構,但現在只需幾個小時就能預測出來。
AlphaFold2,則是運用了深度卷積神經網絡來進行訓練。AlphaFold3,就已經是Transformer加Difusion模型了。
Alphafold 1的時候,用的還是傳統的解題思路,但是AlphaFold 2就跳過了這一塊,直接去用深度神經網絡預測了蛋白質的結構。
在蛋白質預測領網域,除了谷歌外還有其他公司也在構建類似的大型模型。例如Meta的ESM Fold、David Baker團隊的Rosetta Fold都是競争對手。
然而到了AlphaFold 3的時代,其準确度已經遠遠超過了其他模型,所以谷歌給到的那麼多資源支持,确實讓他們在領網域内領先了。
了解了計算機技術改造生物醫藥行業的三個階段,下一個問題是:AI技術會帶來什麼樣的革新?
首先,人工智能(AI)技術的應用顯著加速了藥物研發進程,進而降低了成本。
傳統藥物開發通常需要5到10年才能篩選出一個先導化合物(lead candidate),然後再進入臨床試驗階段。AI的引入使這一過程大幅縮短,例如Iambic Therapeutics公司在9個月内開發出一個新分子,并在24個月内進入臨床試驗。
其次,AI的優勢在于減少了對大量化合物合成和實驗室實驗的依賴,更多地利用計算機模拟進行預測和驗證。這使得資源分配從傳統的實驗室實驗轉向計算能力的投入,随着計算技術的不斷革新,預計成本将持續下降。
此外,AI在自然語言處理(NLP)領網域的成功,如ChatGPT的出現,進一步提升了人們對AI在藥物研發中潛力的認識。這促使研究人員探索将大型語言模型(LLM)等先進AI技術應用于藥物開發,以提高效率和成功率。
在ChatGPT出來前,我們探索了純用RL和基于圖的方法,發現成功率較低,且計算成本比較高。
後來ChatGPT太成功了,吸引了大家的注意。加上我們之前嘗試的其他技術路徑,都存在一些不盡如人意的地方。
我們的AI案例主要關注自然語言處理(NLP),在了解ChatGPT的方法後,我們就能夠更好地應用它,這也是我們技術傳承和積累的結果。
04 未來,剛剛開始
毫無疑問的是,AI正在影響生物行業的方方面面。當談到生物科技時,不僅僅是制藥公司,從藥物發現到開發,再到藥物制造、監管、臨床試驗和診斷的各類公司,都在受到AI的影響。
例如,藥企想要進行臨床試驗時,需要向FDA提交數百頁的檔案來證明他們的數據有效,申請藥物的批準。過去,這些工作完全由人來完成,光是準備這些檔案就可能花費100萬美元。
但現在有了AI工具,比如大語言模型和其他用于數據總結和分析的工具,這些時間和費用都可以節省。但這并不意外,因為文本、數值數據、影像處理正好是AI擅長處理的。
AI正被用于評估當前生成的大量數據,這還只是開始,因此其中藴藏着許多機會。
在硅谷101的線下AI論壇上,Fusion Fund的聯合創始人張璐也提到:現在到了AI在醫療健康領網域大顯身手的黃金時期。
AI不僅在醫療健康行業中得到各種應用,包括數字診斷、治療到數字生命科學和數字生物學等。更重要的是,AI也需要醫療健康行業,這個行業有大量高質量的數據,能夠展現AI的能力。
張璐
Fusion Fund創始合夥人:
人類社會產生的數據大約30%是與醫療保健相關的,在這30%的數據中,目前只有5%得到了有價值的分析。
這就像一個尚未開發的金礦,我們還沒挖掘出它的真正價值。現在,人們終于開始嘗試學習并應用新技術,吸引最優秀的人才和資源,推動不同的創新,這些創新會涉及到計算生物學、數字生物學和合成生物學。
對于AI在生命科學領網域的最具潛力的投資方向,張璐甚至還提到了一點,随着Space X Starship的成功發射,意味着未來人類探索宇宙的時間表可能會在五到十年内出現。
太空環境會為數字治療、數字生物學提供哪些新的解決方案、新的結果呢?這也是一個非常有趣的腦洞。
目前AI的應用主要集中在研發階段,雖然在如何把AI整合進生物醫藥的整個鏈條、尤其是商業運營上還在摸索,但已經可以看到不少科技公司的頻繁動作:
英偉達開始頻繁在AI制藥領網域投資出手,2023年的5月至11月,半年間陸續投資了9家AI制藥公司,其中有2013年成立的上市公司,也有剛成立、募集種子輪融資的新公司。
亞馬遜雲科技宣布與生命科學行業商業服務提供商EVERSANA合作,共同推廣AI驅動制藥等應用。
谷歌雲宣布與生物制藥上市公司Insmed合作,利用AI技術提高效率,減少新藥開發和交付的時間
在AI技術飛速發展的新周期中,我們迫切地希望看到科技公司和生物醫藥公司能強強聯手,加速人類的健康醫療水平的進步。
而未來,才剛剛開始。