今天小編分享的科學經驗:登頂Nature 正刊!百度生物計算用AI首次實現mRNA領網域重大進展,歡迎閲讀。
1985 年 11 月 21 日的《自然》封面,是一張來自中國的 " 地圖 "。這張地圖是清代總兵陳倫炯所編撰《海國聞見錄》中的插圖,是中國人開始認知與探索世界的見證,而選用這張封面,是為了配合當期的特别文章《科技在中國》。
那時候,中國正處在改革開放的浪潮中,中國科技登陸國際視野還顯得驚奇與稚嫩。
一轉眼,38 年過去,伴随着中國科技的飛速發展,越來越多的中國科研工作者、科研機構以第一作者的身份,登上被稱作科學金字塔尖的《自然》。
5 月 2 日,《自然》雜志正刊發表了百度在生物計算領網域的突破性研究成果,并以 " 加速預覽 "(Accelerated Article Preview)形式最快發表。
在這篇題目為《Algorithm for Optimized mRNA Design Improves Stability and Immunogenicity》的文章中,提出了 mRNA 序列優化算法 LinearDesign。其不僅開創了 AI 與生物、醫療等領網域融合突破的諸多可能性,也為中國科技走向世界畫上了新的一筆。
在這篇論文裏,我們可以讀到遠超其成果本身的内容,比如 AI 的諸多可能性、一家科技企業的科學擔當,以及中國科技走向世界的遠大胸懷。
" 出人意料 " 的生物計算
相信大家都知道,《自然》只收錄那些在基礎科學領網域具有突破性與重大意義的研究。
或許可以説,百度在生物計算領網域的探索,生動講述了什麼叫 " 永遠不要低估 AI 的可能性 "。
這件事要從新冠疫苗講起,雖然疫情的陰霾已經悄悄過去,但這場疫情讓全球看到了疫苗,尤其是 mRNA 疫苗在公共衞生事業的重要性。
所謂 mRNA 是一種天然分子,其可以產生靶标蛋白或免疫原,從而激活人體的特定免疫反應,以對抗各種病原體。并且其具有 mRNA 不帶病毒成分、沒有感染風險、研發周期短等重要優勢,是人類對抗新冠疫情的殺手锏。
但如此重要的領網域,在疫苗和藥物研發中依舊有一些問題,比如如何才能高效設計出穩定、成藥性更好的 mRNA 序列?
為了解決這個問題,百度基于在 AI 領網域的積累 " 出人意料 " 地将 AI 技術與疫苗研發結合,研發出了登錄《自然》雜志的 LinearDesign 算法。
這一算法運用自然語言處理中網格解析(Lattice Parsing)技術,對 mRNA 疫苗序列進行優化,從而提升疫苗的穩定性和有效性。
( 美國心髒病學家和基因組學家埃裏克 · 托普(Eric J. Topol)在推特上分享百度 LinearDesign 算法 )
這裏劃個重點,LinearDesign 算法可以説是用語言學領網域的知識去攻克了生物醫療上的難題。兩個領網域雖然不能説毫不相關,基本也是相隔萬裏,但是百度對 AI 技術的探索,卻讓二者完成了千裏姻緣一線牽,LinearDesign 算法由此誕生。
2020 年 5 月,面對洶湧而來的疫情,百度研究院推出了全球首個 mRNA 疫苗基因序列設計算法 LinearDesign,并宣布向全球疫苗研發機構及研究中心免費開放。LinearDesign 能在 16 分鍾完成新冠病毒的 mRNA 疫苗序列設計,極大加速新冠疫苗的研發效率。
以新冠病毒的 Spike 蛋白為例,若采用傳統方法尋找一條穩定的 mRNA 序列,需要查看 10632 個 mRNA 序列,堪稱天文數字,但用 LinearDesign 算法,卻可以在 11 分鍾之内找到最穩定的候選序列。
2020 年 12 月,百度憑借 LinearFold 和 LinearDesign 算法在新冠抗疫中的傑出貢獻,榮獲國際頂尖人工智能峰會 The AI Summit 舉辦的 AIconics 獎項的首屆 "AI For Good(人工智能向善)" 獎。
在應用價值之外,LinearDesign 算法還展示了 AI 作為一種底層科學探索工具,在生物與醫學領網域的全新可能性。這種跨越學科的突破力,是《自然》雜志乃至全球科學界更為珍視的。
打開 AI 的深度與廣度
為什麼百度能把 LinearDesign 算法這種 AI+ 生物計算研究做大做強?這可能是我們必須讀懂的另一個關鍵信息。
其原因無他,千錘百煉而已。從 2012 年 AI 方興未艾,到今天 AI 火爆全球,這期間百度對 AI 技術的堅持和探索是始終如一的。這種堅持,滲透到了 AI 技術的各方各面,包括基礎設施研究、算法迭代,以及 AI 的跨學科融合。其中非常多的領網域充滿未知與挑戰,也不符合傳統意義上企業對短期利益的追求。但構建堅實的基礎設施,探索前瞻性技術布局,卻是一家企業赢得未來的關鍵。
AI+ 生物計算,作為 AI 技術的延展性方向,更能體現出百度 " 淡化短期利益,着眼長期發展 " 的技術布局思路。生物計算可以解決蛋白質分析、新藥研發等關鍵問題,其價值巨大,以新藥研發為例,這個領網域具有一種 "3 個 10" 特征,即 10 年、10 億美元、10 萬人才能研發出一種有效的新藥,而如果用 AI 作為藥物研發引擎,将可以極大程度改變新藥研發的範式,帶來難以估量的價值。
這條路價值雖大,但充滿挑戰,在短期内都難以實現商業回報,但百度依舊願意依托 AI 技術與基礎設施的優勢,提前布局這條未來之路。早在 2018 年,百度就正式啓動了計算生物方向的研究。幾年過去,百度在這一領網域已經構建了基礎設施、算法、生态合圍而成的立體創新版圖,比如剛剛提到的 LinearDesign 算法、可以極大加快 RNA 結構預測速度的 LinearFold 算法,一系列創新開始勾勒出百度在生物計算算法層的差異化優勢,而基于飛槳生态打造的生物計算平台 - 螺旋槳 PaddleHelix,則開啓了 AI+ 生物計算底層開發工具的構建,為產學各界探索生物計算奠定了基礎。面向產業生态,百度為產業提供了面向化合物分子、蛋白分子、基因組學信息等領網域預訓練大模型,将自身的技術優勢積極投身到產學研協作當中。就像在 AI 基礎設施層面,百度強調技術、生态與基礎設施的并行,在生物計算領網域,同樣的戰略落地方式也推動了百度自身與生物計算行業的積極發展。
企業進行跨學科探索與底層技術創新,強調長線程和重積累,只有構建出完整的技術序列、技術體系,才能在此基礎上一鳴驚人。無論是在 AI+ 生物計算領網域,還是更為基礎的 AI 技術上,長期主義,始終是百度的王牌。
這樣的以重積累換取高效率的邏輯,展現在百度技術創新的方方面面。比如文心一言發布後的 1 個月内,完成了 4 次技術迭代,相較最初版本推理效率提升了 10 倍。這種技術迭代與產業化應用的效率從何而已?其中,飛槳支撐了文心一言從開發訓練到推理部署的全流程,并且通過聯合優化的方式,大幅提升了大模型的訓練與推理。從中就可以看出,底層技術與工具鏈的長期積累,為新技術的高效率更新奠定了基礎。
百度是如此打開 AI 技術的深度,中國科技也是如此打開走向世界的廣度。
大國科技走向世界
1985 年 11 月,《自然》雜志探讨了中國當時在高能物理、空間探索、地震預測等領網域的科研水平,向世界展示了一個具有蓬勃科研創新活力的中國。
2008 年 7 月,《自然》借着北京奧運的機會發布了中國特刊,向世界介紹了 " 中國目前論文發表數量比除了美國以外的其他國家都要多 ",确定了中國科研實力的地位與價值。
幾十年來,《自然》裏的 " 中國元素 ",可謂與中國科技發展完美同頻,比如在 1997 年時《自然》發表的原創科研論文中只有 0.4% 涉及中國作者,2017 年已增至約 15%。這個數字的變化,恰好佐證了中國科技走向全球的變遷。
在這個過程中,一個角色是不可或缺的,那就是科技企業在整體科研環境中扮演的角色。自信息革命以來,我們可以在歐美發達國家的科技版圖中,看到很多重大創新都是由企業來完成。以 AI+ 生物計算為例,DeepMind 打造的 AlphaFold2 廣受關注。而谷歌母公司 Alphabet,已經在持續推動這一算法在醫療健康、新藥研發等領網域落地,打造了 ChatGPT 的 OpenAI,也在 AI 疾病診療、AI 蛋白質結構預測等領網域進行着探索。
從世界範圍内的趨勢來看,AI+ 生物計算這一重要領網域,主要創新陣地應該在科技企業,并且需要以科技企業為核心,形成產學研互動的良性生态。而百度在生物計算領網域的布局與進取态勢,則在中國科技版圖中補完了這一環節。
中國科技走向全球,走向科技自立自強,離不開企業科研能力的不斷更新。從這個角度看,百度生物計算以第一完成部門身份在《自然》發表論文,可以看作一個新階段的信号。1985 年,是世界看到中國科技;2008 年,中國綜合科研能力跻身世界前列;今天,中國的科學家、學術機構、科技企業,都能作為第一作者登上《自然》,證明中國已經具備了多元化,立體化的科技能力。
中國科技的創新性和獨特性,已經從學術界延伸到產業界,更具有世界眼光,更具有大國擔當。
>