今天小編分享的科學經驗:未來光錐AI For Science社群分享回顧,歡迎閲讀。
近日,未來光錐邀請中科院物理所 / 松山湖材料實驗室研究員劉淼博士,在 AI For Science 社群進行分享,介紹 Al+ 材料科學領網域的近期進展、發展趨勢、觀察與思考。以下為未來光錐對劉淼博士分享内容,以及部分觀眾提問進行的簡要整理。
材料伴随人類文明一同發展,人類進步的階段甚至是用我們掌握、運用材料的能力來定義和劃分的,像是石器時代、青銅時代……材料的改進和革新可以看作是社會進步底層的推動力。但是,改進材料的過程十分漫長。統計表明,材料從發明到商業化平均需要 18 年。
圖片來源:嘉賓制作。數據來源見圖得標注。
現在,已經有很多方式可以克服這個問題。其中一種方式是像鋼鐵俠一樣。
圖片來源:《鋼鐵俠》
在元素周期表上選擇自己喜歡的元素,然後做一個組合,由此找到自己想要的化合物或者材料。然後再做一個更詳細的測試。他找一個材料的時間,不到一分鍾。
我們目前在做的,就是成為鋼鐵俠。我們做了一個材料數據庫 Atomly.net,它包含了很多材料的信息。比如,我們搜索鋁和氮的化合物,它是一個 III-V 族化合物。
圖片來源:Atomly.net
點擊結果,便可以看到非常詳細的信息:晶體結構的信息、原子之間鍵能的信息、結構的對稱性等,對有些結構還有更加高階的計算。
圖片來源:Atomly.net
總之,這個數據庫是像元素周期表一樣的工具,通過這個工具,我們可以搜索自己喜歡的材料。這個數據庫裏的數據是通過第一性原理計算的方式求解而得的。目前,這個數據庫收納了 34 萬無機晶體材料的性質,現階段體量算是相當大了。
數據庫背後的原理是密度泛函理論(Density functional theory ,縮寫 DFT),這個理論的邏輯是,可以像搭積木一樣,将原子在空間中的位置搭出一個結構,只要能搭出一個結構,就能創造出一種新的材料。通過計算,可以解出電子的運動方程,也就是薛定谔方程。随後,就可以推演出材料的性質。性質可以有很多,有一些可以算得很準,有一些可能沒那麼準。如此一來,我們可以從一種非常低成本的方式入手,快速預測給出結構的性質。
圖片來源:嘉賓 PPT
我們的工作是在密度泛函理論之上搭了一個工作流,可以完成自動化的計算。傳統的計算需要我們寫一個輸入檔案交給計算機,讓計算機輸出一個結果,然後我們再分析這個輸出檔案。我們所做的,是把這些環節都變成自動化、流程化的,不需要人為參與的事情。
這個數據庫是如何去做材料的衍生和結構的呢?
圖片來源:嘉賓 PPT
上圖中 ICSD(無機晶體結構數據庫,The Inorganic Crystal Structure Database,簡稱 ICSD)是材料領網域最古老的數據庫,其中的數據大部分是來自實驗的,也就是説人類去合成,或者從自然界找到一些無機晶體,然後做一些結構的表征,得出這個原子在空間中的位置,最後形成晶體結構的檔案描述。ICSD 在 100 多年前創立,初期是從 1800 多個學術期刊中收集數據。ICSD 中只有 6 萬個定義得比較好的無機晶體材料。
我們可以從已知的材料出發,将這個化合物的中的一個元素替換成另外一個元素,比如上圖的例子是把鐵 Fe 替換成钛 Ti,之後便可生成一個新的化合物。這個新生成的化合物保留了之前結構的模板,但它的元素是全新的。通過這個方式,我們可以不停地產生新的化合物。這意味着,我們現階段可以在很大程度繞開實驗,通過超級計算機的強大算力快速擴大化合物的空間。
有了這些數據,我們可以做一些事兒,比如,從化合物相空間中定量地估算某種材料的熱力學穩定性,從而通過計算判斷出哪些化合物是可以被合成出來的。
海量數據帶來的新工具。現有的計算技術可以精确地捕捉化學反應的熱力學行為,可用來評價化學反應路徑的發生概率,從而評價化合物的熱力學穩定性。應用這一工具,可以快速評估任意材料的穩定性。例如:上圖中,energy above hull 代表化合物的熱力學穩定性,energy above hull 為零時,化合物是穩定的。energy above hull 數值越大,化合物越不穩定。
在這個過程中有一些底層的算法,這些算法是用了數據統計的方式,現在也有一些用了人工智能的方式。通過人工智能的方式,可以快速地去估算化合物的穩定性。所以,我們在數據庫中,可以盡量生產出可被合成的、穩定的的化合物。我們現在的感受是,人類已知的化合物空間只是冰山一角,還有大量的未知化合物等着我們去發現。
Lu-H-N 相圖 | 圖片來源見圖得標注
舉個例子(上圖),這是最近的一個超導的材料體系," 镥 - 氫 - 氮 "(Lu-H-N)。3 月份時,美國羅切斯特大學助理教授 Ranga P. Dias 團隊説,這是一個室温超導材料。我們對此做的一件事情是在這個空間裏面去搜索有可能穩定的結構,我們在 0-10GPa 之間沒有搜索到镥 - 氫 - 氮組成的三元化合物,只有穩定的二元相。所以這個方式也側面地告訴我們這個空間的穩定相可能是什麼。通過這個方式,我們可以快速做一些推測和數據分析。
有這麼多數據很自然地就想到可以做人工智能模型,一旦我們訓練一個模型,我們就可以用這個模型去做預測。這個邏輯在人工智能行業,或者是在人工智能 AI for science 行業,是一個常規的發展路徑。但是這個事兒,其實強烈依賴于數據。
數據數量和質量的提升,帶來人工智能預測模型的進步。上圖(左 1 和左 2)例子展示是從小數據集訓練出的模型,泛化本領差。我們将所有的數據帶入機器學習訓練,盡量少做數據清洗,我們就可以得到一個更加真實的、被業界廣泛使用的模型(上圖右 1)。當然,随着數據量逐漸增加,我們的算法也可以做一些改進。當然更多的是,數據量的增加可以讓這個模型變得更好。
我還想簡單介紹一下我們對這個行業的認識,或者是這個行業裏面常規的發展趨勢。上次在未來光錐線下沙龍中,大家已經提到了科學的第五範式。但是傳統上大家普遍接受的科學的四個範式是這樣的:
圖片來源:嘉賓制作
從這個演進邏輯,大家清晰地看到科學的發展方向:通過某種方式,讓我們的預測本領更強。
觀眾提問
觀眾 1
對于元素組分多達十幾種的材料,如合金,您提出的計算方式于這種合金設計是否有指導作用?
劉淼
肯定是可以做的。核心還是數據集的問題。但是,要估算一下做不一樣的元素組合的時候,它需要多大的數據集,然後它這這套合金的過程中,你做合金體系的時候,計算的精确度要多高。離子晶體是不一樣的,離子晶體裏面鍵能和鍵能之間的差别非常大。但是在合金的這個混合過程中,鍵能的變化其實非常細微,你需要計算得非常精确,才可以把它計算清楚。這就需要做特殊的數據集。現階段,我們這個數據集不是特别适合做合金。因為我們的合金比較少,那我們其實在後台做了一個 Heusler 合金的數據集。沒有到你説的有五元、六元或者十幾元的化合物空間,但是我們在做完三元的 Heusler 合金的基礎上,我們把這個數據外推到四元的相空間中的時候,發現還是比較準的。所以它還是有一些外推本領的。所以解決這一套的東西的更好的思路,我感覺還是需要建立足夠大的數據集,然後數據精度足夠高,在這個情況下,你做一個模型有可能可以外推。你説的也是行業中面臨的一個很現實的問題。
觀眾 2
您提到在四年内做出 34 萬的數據,而美國的 Materials Project 用了十幾年。您也提到這些數據基本上都是重新計算的。我很好奇,要如何在這麼短的時間内產生出這麼多數據?是否需要很别大的計算量?你們的計算資源是怎樣的?
這個完全是在我們已經有這套軟硬體體系的情況下,完全是算力決定的。所以如果你有十倍的算力,你可能只用四年的十分之一,可能只用半年時間就能做到那麼多。這個是算力決定的。
擴展閲讀
[ 1 ] http://www.inewsweek.cn/finance/2023-05-15/18501.shtml
[ 2 ] https://v.youku.com/v_show/id_XNTkyMTMyNjIwOA
>