今天小編分享的科學經驗:大模型重構生命科學!最大基礎模型面世,解鎖DNA超長序列,參數規模達2100億,歡迎閲讀。
生命科學領網域,已經率先進入到基礎模型時代!
今年,化學諾貝爾獎授予了 AlphaFold,AI+Science 受到空前的關注。人們驚嘆于,僅僅是一個蛋白質結構預測模型,就能釋放出如此巨大的行業潛力。
就在當下,在第三屆中國生物計算大會上,全球規模最大的生命科學基礎模型橫空出世——
xTrimo V3,參數規模高達 2100 億,覆蓋蛋白質、DNA、RNA、細胞等七大主流模态。背後玩家正是來自李彥宏孵化創辦的百圖生科。
與應用于其他行業的基礎模型有所不同,他們解碼的是生命語言,而非自然語言,意味着不僅能處理復雜的生物序列,為藥物研發、精準醫療等領網域助力;還能開啓更多的前沿突破,比如在基因進化、合成生物學、設計 / 創造生命等方面創造價值……
這樣一個與我們每個人都息息相關的時代課題,如今竟然先于其他垂直領網域,迎來了首個千億基礎模型。
并且,正像當時 OpenAI 推出提供免費 Token 一樣,它也限時提供免費 Tokens,今年年底之前成功注冊的用户,即可獲得 2000 credits。
什麼概念呢?這相當于用户可以有機會完成 1300 萬氨基酸 Tokens 的微調訓練任務。
來看看究竟這個微觀世界的基礎模型到底是怎麼一回事?
大模型時代下的生命語言解碼
在第三屆生物計算大會上,大模型是整場大會出現的關鍵詞,而大模型在生命科學領網域應用的範式,也成為各個領網域專家的共識——
生命科學領網域有着明顯的特點,實驗驗證過的有标籤的數據很貴很少,已有的數據又是不同場景,很難用來直接訓練任務模型。但它卻擁有着海量未标注數據,像基因組數據,蛋白質序列等,這些數據非常适合用來做預訓練基礎大模型。
大模型基于這些數據預訓練之後,再結合少數标注過生物實驗室數據,學習到對生命系統深層次表征,進而完成像蛋白質結構預測、基因序列分類等下遊任務。
而百圖生科 xTrimo 系列模型,正是其中最具代表性的範式實踐。
此次大會上,百圖生科 xTrimo 系列模型全面更新到 V3 版本,有着三大技術亮點值得關注。
首先從大模型基礎屬性維度來看,這是目前全球規模最大的生命科學基礎大模型,總體參數規模達到了 2100 億。
參數規模越大,意味着藴含更廣泛的知識和擁有更強的泛化能力,因此在各種關鍵問題和任務的解決上有更強的性能和準确性。
換句話説,大模型時代 Scaling Laws,其實在生命科學領網域也同樣奏效。
截至目前,xTrimo 基礎大模型平台在200 個任務模型達到 SOTA 水平,并利用這些任務模型實現了從頭設計全新蛋白質、靶點發現等創新生物項目的突破。
該平台已助力開發了 20 餘種前沿抗體和酶,實現 10 餘個創新靶點及靶點組合的挖掘,并都經過實驗驗證,進入到臨床前研發等後續階段。
再從應用維度來看,此次基礎大模型的發布是個模态全家桶,這是解決行業問題的新利器。
此次發布的 xTrimo V3,覆蓋 DNA、RNA、蛋白質、細胞、小分子、生物視覺和生物知識文本等生命科學 7 個主流模态。
在上一版本已有蛋白質和細胞兩大領網域基礎之上,拓展到了基因組學、轉錄組學、細胞復雜任務、影像分析和文本分析等領網域,從而支持從分子早期研發到生產放大再到後期實驗分析的全流程 AI 建模需求。
而除了實現整個探索過程的 AI 賦能,在一些場景下還會誕生全新的解決路徑。這是因為多模态的覆蓋,讓大模型跨模态協作成為了可能。
百圖生科技術副總裁張曉明列舉了靶點發現這一例子。
現在在細胞尺度多模态大模型視角上,靶點發現也有了新探索,可以先對未擾動的細胞進行蛋白質和細胞的兩種模态的表征,同時擾動 action 可以基于生物基因注釋的文本模态生成擾動的編碼,在圖模型中預測擾動後表達量的變化以及推薦潛在的靶點,最後再通過細胞生物視覺的模型輔助做細胞功能的驗證。
這是一個包括蛋白、細胞、文本和視覺四個模态的協作典型場景,在效果和效率上都有顯著的提升。
而具體到各個模态的部署,我們也能看到很強的應用屬性,為解決問題而生。
比如首個引入 MoE 架構的蛋白質大模型,參數達到千億規模。
我們都知道,通用場景下 MoE 架構有利于垂直細分領網域的處理,同樣在蛋白質領網域也存在這樣的情況,比如像抗體抗原、蛋白酶等,這樣一來在各種具體下遊任務下,實現更好的性能和準确率。
還有像DNA 大模型序列長度躍升至 128K,可以更好的捕獲遠端調控信息,實現了超長序列解碼生命的可能性。
這有點類似于通用大模型具備了長文本讀取能力,由此拓展了大模型能力的邊界,更多場景得到釋放,比如總結報告、故事創作,解放人們的生產力。
最後,再從整個行業生态來看,百圖生科已經占好生命科學 AI 模型提供商這一生态位——
一邊是專業嚴謹、有着自己獨特語言的科學行業,還有大量的知識空間等待人類去探索。一邊是價值逐漸明晰、勢要重塑一切的大模型範式。百圖生科要做的正是他們的連接器。
此次除了基礎大模型的發布,他們還建設了個一站式模型平台,相當于生命科學領網域的大模型基礎設施。
訓練端,他們給出生物多模态的統一訓練框架,從跨模态預訓練、到下遊任務的微調都可以完成。
而在推理端,他們為該領網域量身定制地打造了生物與 AI 融合的計算引擎。
這個值得説道説道。因為在我們日常大模型語境中,可能只需要針對 AI 模型本身進行推理優化,就能在性能和成本上取得很好的效果。但在生物計算實際應用場景中,模型運行 20 分鍾,其中推理僅占 1 分鍾,其餘時間都用于執行生物計算工具。
因此要打造推理引擎,需要将生物 HPC 優化和 AI 模型推理優化都要兼顧到,以及讓他們在流水線上并行運行起來。據介紹,這在多個場景實現十倍以上推理性能的提升。
此外,還配備了系列工具鏈:包含面向多種數據場景和用户需求的Model Builder模塊,支持模型管理和組裝的Model Hub模塊,以及加速模型調用和物理計算的Model Booster模塊等。
而基于過去四年行業探索經驗,他們也系統梳理出了兩大行業解決方案:藥物研發、生物制造,為合作夥伴提供全方位的 AI 模型服務,加速大模型的應用。
以藥物研發為例,他們就能客户定制化構建模型、也能支持像蛋白設計這樣的服務。
比如他們就利用親和力模型設計出多個親和力梯度的抗體,并定制AND GATE算法,組合雙抗實現靶向殺傷腫瘤細胞。通過高通量親和力檢測和 100+ 復雜構型雙抗的表達與驗證,最終交付了具有更佳治療視窗的雙抗。
過去四年間,百圖生科的全球用户已積累超過300 家,包括跨國藥企、產業巨頭、大型 CRO、明星 BioTech、科研機構等,總訂單超 20 億美元,可以説初步完成了技術和商業驗證的閉環,實現產業的初步積累。
如今有了強大的基礎模型底座,他們的目标行業也指向了更廣泛的領網域,包括生物醫藥、生物制造、科研教育等。
這其實也是百圖生科選擇這一生态位的具象展現,那就是鏈接起更多的生态夥伴參與到大模型應用的進程中。
如今生命科學領網域大模型正在加速落地應用,但與此同時挑戰也同樣艱巨,需要生态夥伴攜手來解決。
CEO 劉維就舉了個例子,其數字化和智能化在很多方面尚未實現。諸多研發工作仍然主要以所見即所得的方式進行——
仍然以專家經驗和人類先驗假設為基礎進行實驗驗證假設,或者以在自然界中發現然後進行實驗改造為主。
而只有越來越多的企業完成大模型的賦能,才能帶動整個行業的數字化智能化。
Foundation Model+Science 正在到來
借着百圖生科生命科學基礎大模型的發布,也是時候對「大模型如何賦能生命科學領網域」做個階段性梳理。
首先,跟其他行業一樣,生命科學領網域正迎來全行業的重塑,甚至比其他領網域更快。
僅過去一年時間,傳統藥企巨頭擁抱 AI,像輝瑞、禮來等全球藥企巨頭任命首席 AI 官;科技巨頭紛紛出手布局,諸如谷歌 Meta 英偉達也早已相關探索。還有像賽諾菲,這種全球 TOP10 藥企願意砸超 10 億美金與百圖生科共同打造 AI 模型。
各種生命科學大模型也紛紛被頂刊所接收,比如像百圖生科此前發布的單細胞大模型、千億參數蛋白大模型等工作就多次登上 Nature 子刊封面和學術頂會。相較于其他領網域,這麼一個古老的領網域的發展速度,直接來了個彎道超車。
而從時間維度來看,計算對生命科學的賦能,經歷從單模态單尺度到多模态多尺度的賦能。而在大模型語境下,就是從 "AI+" 到 " 大模型 +" 的時代,如今AI 在生命科學裏的創新應用正在迎來「寒武紀爆發」臨界點。
一切以 AlphaFold 為節點。
傳統依靠實驗室工具和分析手段的方式,價格高昂耗時也長,無法充分發揮數據背後的價值。
随着 AI 深度學習的出現,這個問題迎來了轉機。DeepMind 從人類已确定的 17 萬種蛋白質序列庫中訓練學習得到 AlphaFold,實現了之前遠超其他所有團隊的準确率,開辟了 " 先假設 - 再驗證 - 最後優化假設 " 的幹濕實驗循環閉環。
這時候,生命科學領網域迎來了他們自己的AI1.0時刻。
不過當時還只是聚焦于單鏈蛋白質單一模态,預測準确率還有大量的提升空間,海量的生物數據還沒有被充分挖掘。
而随着自監督範式 Transformer 架構、擴散模型等進展的出現,讓海量各種模态的數據處理、跨模态多尺度協作處理成為了可能,更多潛在的下遊場景被實現,也就是所謂AI2.0 時刻。
就像最新的 AlphaFold3,實現了從單鏈蛋白質結構預測到所有生命分子的結構和相互作用的跨越。
其次,大模型賦能生命科學不僅在降本增效,還在于創新創造。
大模型對千行百業的賦能核心就在于降本增效,同樣在生命科學領網域,大模型可以快速處理和分析大量的生物數據,幫助科研人員更高效地篩選潛在藥物靶點、設計藥物分子以及預測藥物效果,從而在一定程度上降低研發成本、提高研發效率。
不過這只是大模型所帶來的最基本價值。創新創造才是大模型賦能生命科學的核心價值。
生命科學的技術壁壘很大程度上源于生命本質信息的高度復雜性,而這些信息往往隐藏在生命語言中。因此相比于常規自然語言模型,生命科學大模型往往肩負着更為重大的使命,那就是深入到生物進化、基因序列等生命領網域的核心挑戰。大模型就是像是一把鑰匙,打開了一扇通往生命奧秘深處的新大門。
而一旦實現生物數據和序列的解碼,就給當前一些重大難題的解決帶來了可能性。比如精準醫療 / 個性化醫療。
而在基因組學、遺傳病預測和精準醫療等領網域,信息的準确性至關重要。但傳統的方法常常将 DNA 切割成較小的片段進行分析,導致關鍵信息的丢失。
但現在百圖生科模型所實現的 DNA 超長序列,就能完整保留所有基因信息。這讓精準的基因分析成為可能,有助于制定出最适合患者個體的治療方案。
例如,在癌症治療中,完整的基因序列信息可以幫助确定癌細胞中特定的基因突變,從而為靶向治療提供精确的靶點,提高治療效果。
大模型帶來的除了數據處理能力,還有強大的泛化能力,給行業問題解決帶來全新的思路。
生命語言遠比自然語言復雜,模态之間存在清晰的轉化和層級關系。比如 DNA、RNA、蛋白質之間的中心法則;細胞影像,細胞組學,細胞基因表達,功能注釋文本之間對于細胞的聯合表征;從單細胞、多細胞到構成組織。
因此大模型能做的就不僅對現有生物數據的簡單解析,更重要的是能夠推斷未知問題。
比如預測生物結構背後的功能——
可以預測某種新型蛋白質的功能,進而為設計全新的藥物或者生物技術提供可能,而這是傳統研究方法很難做到的創新突破。
還有像藥物發現,以往的研發可能更多地依賴于既有經驗和有限的實驗結果,但大模型可以通過對大量生命數據的學習和分析,提出以前未曾想到的藥物靶點或者研發方向。
而擁有了預見生命科學未知領網域的 " 慧眼 " 之後,也就為合成生物學,或者更為廣泛的生物制造,帶來了可能性。
比如在酶的設計和菌種改造方面,AI 模型通過學習現有的生物數據,生成新的酶序列,并預測其催化功能。通過這種方式加速了生物制造中的酶催化過程,顯著提高了生產效率,并降低了制造成本。
再往前一步,整個工業制造領網域,包括農業、食品、化工、材料、能源等行業都能被賦能覆蓋。
從理解生命到預測生命再到設計、創造生命,這也是大模型為生命科學帶來創新創造價值的重要體現。
它從根本上改變了生命科學的研究路徑和思維方式,推動生命科學朝着更深入、更具前瞻性的方向發展。
相對于其他行業,在生命科學領網域的應用價值更大、前景更高,也就更是一件長期主義的事情了。
這需要生态合作,共同推動產業發展。更需要像百圖生科這樣的玩家站出來提供基礎服務。
現在,百圖生科,邁出了第一步。
>