未來光錐AI For Science社群分享回顧

今天小編分享的科學經驗：未來光錐AI For Science社群分享回顧，歡迎閱讀。

近日，未來光錐邀請中科院物理所 / 松山湖材料實驗室研究員劉淼博士，在 AI For Science 社群進行分享，介紹 Al+ 材料科學領網域的近期進展、發展趨勢、觀察與思考。以下為未來光錐對劉淼博士分享内容，以及部分觀眾提問進行的簡要整理。

材料伴随人類文明一同發展，人類進步的階段甚至是用我們掌握、運用材料的能力來定義和劃分的，像是石器時代、青銅時代……材料的改進和革新可以看作是社會進步底層的推動力。但是，改進材料的過程十分漫長。統計表明，材料從發明到商業化平均需要 18 年。

圖片來源：嘉賓制作。數據來源見圖得標注。

現在，已經有很多方式可以克服這個問題。其中一種方式是像鋼鐵俠一樣。

圖片來源：《鋼鐵俠》

在元素周期表上選擇自己喜歡的元素，然後做一個組合，由此找到自己想要的化合物或者材料。然後再做一個更詳細的測試。他找一個材料的時間，不到一分鍾。

我們目前在做的，就是成為鋼鐵俠。我們做了一個材料數據庫 Atomly.net，它包含了很多材料的信息。比如，我們搜索鋁和氮的化合物，它是一個 III-V 族化合物。

圖片來源：Atomly.net

點擊結果，便可以看到非常詳細的信息：晶體結構的信息、原子之間鍵能的信息、結構的對稱性等，對有些結構還有更加高階的計算。

圖片來源：Atomly.net

總之，這個數據庫是像元素周期表一樣的工具，通過這個工具，我們可以搜索自己喜歡的材料。這個數據庫裡的數據是通過第一性原理計算的方式求解而得的。目前，這個數據庫收納了 34 萬無機晶體材料的性質，現階段體量算是相當大了。

數據庫背後的原理是密度泛函理論（Density functional theory ，縮寫 DFT），這個理論的邏輯是，可以像搭積木一樣，将原子在空間中的位置搭出一個結構，只要能搭出一個結構，就能創造出一種新的材料。通過計算，可以解出電子的運動方程，也就是薛定谔方程。随後，就可以推演出材料的性質。性質可以有很多，有一些可以算得很準，有一些可能沒那麼準。如此一來，我們可以從一種非常低成本的方式入手，快速預測給出結構的性質。

圖片來源：嘉賓 PPT

我們的工作是在密度泛函理論之上搭了一個工作流，可以完成自動化的計算。傳統的計算需要我們寫一個輸入檔案交給計算機，讓計算機輸出一個結果，然後我們再分析這個輸出檔案。我們所做的，是把這些環節都變成自動化、流程化的，不需要人為參與的事情。

這個數據庫是如何去做材料的衍生和結構的呢？

圖片來源：嘉賓 PPT

上圖中 ICSD（無機晶體結構數據庫，The Inorganic Crystal Structure Database，簡稱 ICSD）是材料領網域最古老的數據庫，其中的數據大部分是來自實驗的，也就是說人類去合成，或者從自然界找到一些無機晶體，然後做一些結構的表征，得出這個原子在空間中的位置，最後形成晶體結構的檔案描述。ICSD 在 100 多年前創立，初期是從 1800 多個學術期刊中收集數據。ICSD 中只有 6 萬個定義得比較好的無機晶體材料。

我們可以從已知的材料出發，将這個化合物的中的一個元素替換成另外一個元素，比如上圖的例子是把鐵 Fe 替換成钛 Ti，之後便可生成一個新的化合物。這個新生成的化合物保留了之前結構的模板，但它的元素是全新的。通過這個方式，我們可以不停地產生新的化合物。這意味着，我們現階段可以在很大程度繞開實驗，通過超級計算機的強大算力快速擴大化合物的空間。

有了這些數據，我們可以做一些事兒，比如，從化合物相空間中定量地估算某種材料的熱力學穩定性，從而通過計算判斷出哪些化合物是可以被合成出來的。

海量數據帶來的新工具。現有的計算技術可以精确地捕捉化學反應的熱力學行為，可用來評價化學反應路徑的發生概率，從而評價化合物的熱力學穩定性。應用這一工具，可以快速評估任意材料的穩定性。例如：上圖中，energy above hull 代表化合物的熱力學穩定性，energy above hull 為零時，化合物是穩定的。energy above hull 數值越大，化合物越不穩定。

在這個過程中有一些底層的算法，這些算法是用了數據統計的方式，現在也有一些用了人工智能的方式。通過人工智能的方式，可以快速地去估算化合物的穩定性。所以，我們在數據庫中，可以盡量生產出可被合成的、穩定的的化合物。我們現在的感受是，人類已知的化合物空間只是冰山一角，還有大量的未知化合物等着我們去發現。

Lu-H-N 相圖 | 圖片來源見圖得標注

舉個例子（上圖），這是最近的一個超導的材料體系，" 镥 - 氫 - 氮 "（Lu-H-N）。3 月份時，美國羅切斯特大學助理教授 Ranga P. Dias 團隊說，這是一個室溫超導材料。我們對此做的一件事情是在這個空間裡面去搜索有可能穩定的結構，我們在 0-10GPa 之間沒有搜索到镥 - 氫 - 氮組成的三元化合物，只有穩定的二元相。所以這個方式也側面地告訴我們這個空間的穩定相可能是什麼。通過這個方式，我們可以快速做一些推測和數據分析。

有這麼多數據很自然地就想到可以做人工智能模型，一旦我們訓練一個模型，我們就可以用這個模型去做預測。這個邏輯在人工智能行業，或者是在人工智能 AI for science 行業，是一個常規的發展路徑。但是這個事兒，其實強烈依賴于數據。

數據數量和質量的提升，帶來人工智能預測模型的進步。上圖（左 1 和左 2）例子展示是從小數據集訓練出的模型，泛化本領差。我們将所有的數據帶入機器學習訓練，盡量少做數據清洗，我們就可以得到一個更加真實的、被業界廣泛使用的模型（上圖右 1）。當然，随着數據量逐漸增加，我們的算法也可以做一些改進。當然更多的是，數據量的增加可以讓這個模型變得更好。

我還想簡單介紹一下我們對這個行業的認識，或者是這個行業裡面常規的發展趨勢。上次在未來光錐線下沙龍中，大家已經提到了科學的第五範式。但是傳統上大家普遍接受的科學的四個範式是這樣的：

圖片來源：嘉賓制作

從這個演進邏輯，大家清晰地看到科學的發展方向：通過某種方式，讓我們的預測本領更強。

觀眾提問

觀眾 1

對于元素組分多達十幾種的材料，如合金，您提出的計算方式于這種合金設計是否有指導作用？

劉淼

肯定是可以做的。核心還是數據集的問題。但是，要估算一下做不一樣的元素組合的時候，它需要多大的數據集，然後它這這套合金的過程中，你做合金體系的時候，計算的精确度要多高。離子晶體是不一樣的，離子晶體裡面鍵能和鍵能之間的差别非常大。但是在合金的這個混合過程中，鍵能的變化其實非常細微，你需要計算得非常精确，才可以把它計算清楚。這就需要做特殊的數據集。現階段，我們這個數據集不是特别适合做合金。因為我們的合金比較少，那我們其實在後台做了一個 Heusler 合金的數據集。沒有到你說的有五元、六元或者十幾元的化合物空間，但是我們在做完三元的 Heusler 合金的基礎上，我們把這個數據外推到四元的相空間中的時候，發現還是比較準的。所以它還是有一些外推本領的。所以解決這一套的東西的更好的思路，我感覺還是需要建立足夠大的數據集，然後數據精度足夠高，在這個情況下，你做一個模型有可能可以外推。你說的也是行業中面臨的一個很現實的問題。

觀眾 2

您提到在四年内做出 34 萬的數據，而美國的 Materials Project 用了十幾年。您也提到這些數據基本上都是重新計算的。我很好奇，要如何在這麼短的時間内產生出這麼多數據？是否需要很别大的計算量？你們的計算資源是怎樣的？

這個完全是在我們已經有這套軟硬體體系的情況下，完全是算力決定的。所以如果你有十倍的算力，你可能只用四年的十分之一，可能只用半年時間就能做到那麼多。這個是算力決定的。

擴展閱讀

[ 1 ] http://www.inewsweek.cn/finance/2023-05-15/18501.shtml

[ 2 ] https://v.youku.com/v_show/id_XNTkyMTMyNjIwOA