今天小编分享的科学经验:未来光锥AI For Science社群分享回顾,欢迎阅读。
近日,未来光锥邀请中科院物理所 / 松山湖材料实验室研究员刘淼博士,在 AI For Science 社群进行分享,介绍 Al+ 材料科学领網域的近期进展、发展趋势、观察与思考。以下为未来光锥对刘淼博士分享内容,以及部分观众提问进行的简要整理。
材料伴随人类文明一同发展,人类进步的阶段甚至是用我们掌握、运用材料的能力来定义和划分的,像是石器时代、青铜时代……材料的改进和革新可以看作是社会进步底层的推动力。但是,改进材料的过程十分漫长。统计表明,材料从发明到商业化平均需要 18 年。
图片来源:嘉宾制作。数据来源见图得標注。
现在,已经有很多方式可以克服这个问题。其中一种方式是像钢铁侠一样。
图片来源:《钢铁侠》
在元素周期表上选择自己喜欢的元素,然后做一个组合,由此找到自己想要的化合物或者材料。然后再做一个更详细的测试。他找一个材料的时间,不到一分钟。
我们目前在做的,就是成为钢铁侠。我们做了一个材料数据库 Atomly.net,它包含了很多材料的信息。比如,我们搜索铝和氮的化合物,它是一个 III-V 族化合物。
图片来源:Atomly.net
点击结果,便可以看到非常详细的信息:晶体结构的信息、原子之间键能的信息、结构的对称性等,对有些结构还有更加高阶的计算。
图片来源:Atomly.net
总之,这个数据库是像元素周期表一样的工具,通过这个工具,我们可以搜索自己喜欢的材料。这个数据库里的数据是通过第一性原理计算的方式求解而得的。目前,这个数据库收纳了 34 万无机晶体材料的性质,现阶段体量算是相当大了。
数据库背后的原理是密度泛函理论(Density functional theory ,缩写 DFT),这个理论的逻辑是,可以像搭积木一样,将原子在空间中的位置搭出一个结构,只要能搭出一个结构,就能创造出一种新的材料。通过计算,可以解出电子的运动方程,也就是薛定谔方程。随后,就可以推演出材料的性质。性质可以有很多,有一些可以算得很准,有一些可能没那么准。如此一来,我们可以从一种非常低成本的方式入手,快速预测给出结构的性质。
图片来源:嘉宾 PPT
我们的工作是在密度泛函理论之上搭了一个工作流,可以完成自动化的计算。传统的计算需要我们写一个输入檔案交给计算机,让计算机输出一个结果,然后我们再分析这个输出檔案。我们所做的,是把这些环节都变成自动化、流程化的,不需要人为参与的事情。
这个数据库是如何去做材料的衍生和结构的呢?
图片来源:嘉宾 PPT
上图中 ICSD(无机晶体结构数据库,The Inorganic Crystal Structure Database,简称 ICSD)是材料领網域最古老的数据库,其中的数据大部分是来自实验的,也就是说人类去合成,或者从自然界找到一些无机晶体,然后做一些结构的表征,得出这个原子在空间中的位置,最后形成晶体结构的檔案描述。ICSD 在 100 多年前创立,初期是从 1800 多个学术期刊中收集数据。ICSD 中只有 6 万个定义得比较好的无机晶体材料。
我们可以从已知的材料出发,将这个化合物的中的一个元素替换成另外一个元素,比如上图的例子是把铁 Fe 替换成钛 Ti,之后便可生成一个新的化合物。这个新生成的化合物保留了之前结构的模板,但它的元素是全新的。通过这个方式,我们可以不停地产生新的化合物。这意味着,我们现阶段可以在很大程度绕开实验,通过超级计算机的强大算力快速扩大化合物的空间。
有了这些数据,我们可以做一些事儿,比如,从化合物相空间中定量地估算某种材料的热力学稳定性,从而通过计算判断出哪些化合物是可以被合成出来的。
海量数据带来的新工具。现有的计算技术可以精确地捕捉化学反应的热力学行为,可用来评价化学反应路径的发生概率,从而评价化合物的热力学稳定性。应用这一工具,可以快速评估任意材料的稳定性。例如:上图中,energy above hull 代表化合物的热力学稳定性,energy above hull 为零时,化合物是稳定的。energy above hull 数值越大,化合物越不稳定。
在这个过程中有一些底层的算法,这些算法是用了数据统计的方式,现在也有一些用了人工智能的方式。通过人工智能的方式,可以快速地去估算化合物的稳定性。所以,我们在数据库中,可以尽量生产出可被合成的、稳定的的化合物。我们现在的感受是,人类已知的化合物空间只是冰山一角,还有大量的未知化合物等着我们去发现。
Lu-H-N 相图 | 图片来源见图得標注
举个例子(上图),这是最近的一个超导的材料体系," 镥 - 氢 - 氮 "(Lu-H-N)。3 月份时,美国罗切斯特大学助理教授 Ranga P. Dias 团队说,这是一个室温超导材料。我们对此做的一件事情是在这个空间里面去搜索有可能稳定的结构,我们在 0-10GPa 之间没有搜索到镥 - 氢 - 氮组成的三元化合物,只有稳定的二元相。所以这个方式也侧面地告诉我们这个空间的稳定相可能是什么。通过这个方式,我们可以快速做一些推测和数据分析。
有这么多数据很自然地就想到可以做人工智能模型,一旦我们训练一个模型,我们就可以用这个模型去做预测。这个逻辑在人工智能行业,或者是在人工智能 AI for science 行业,是一个常规的发展路径。但是这个事儿,其实强烈依赖于数据。
数据数量和质量的提升,带来人工智能预测模型的进步。上图(左 1 和左 2)例子展示是从小数据集训练出的模型,泛化本领差。我们将所有的数据带入机器学习训练,尽量少做数据清洗,我们就可以得到一个更加真实的、被业界广泛使用的模型(上图右 1)。当然,随着数据量逐渐增加,我们的算法也可以做一些改进。当然更多的是,数据量的增加可以让这个模型变得更好。
我还想简单介绍一下我们对这个行业的认识,或者是这个行业里面常规的发展趋势。上次在未来光锥线下沙龙中,大家已经提到了科学的第五范式。但是传统上大家普遍接受的科学的四个范式是这样的:
图片来源:嘉宾制作
从这个演进逻辑,大家清晰地看到科学的发展方向:通过某种方式,让我们的预测本领更强。
观众提问
观众 1
对于元素组分多达十几种的材料,如合金,您提出的计算方式于这种合金设计是否有指导作用?
刘淼
肯定是可以做的。核心还是数据集的问题。但是,要估算一下做不一样的元素组合的时候,它需要多大的数据集,然后它这这套合金的过程中,你做合金体系的时候,计算的精确度要多高。离子晶体是不一样的,离子晶体里面键能和键能之间的差别非常大。但是在合金的这个混合过程中,键能的变化其实非常细微,你需要计算得非常精确,才可以把它计算清楚。这就需要做特殊的数据集。现阶段,我们这个数据集不是特别适合做合金。因为我们的合金比较少,那我们其实在后台做了一个 Heusler 合金的数据集。没有到你说的有五元、六元或者十几元的化合物空间,但是我们在做完三元的 Heusler 合金的基础上,我们把这个数据外推到四元的相空间中的时候,发现还是比较准的。所以它还是有一些外推本领的。所以解决这一套的东西的更好的思路,我感觉还是需要建立足够大的数据集,然后数据精度足够高,在这个情况下,你做一个模型有可能可以外推。你说的也是行业中面临的一个很现实的问题。
观众 2
您提到在四年内做出 34 万的数据,而美国的 Materials Project 用了十几年。您也提到这些数据基本上都是重新计算的。我很好奇,要如何在这么短的时间内产生出这么多数据?是否需要很别大的计算量?你们的计算资源是怎样的?
这个完全是在我们已经有这套软硬體体系的情况下,完全是算力决定的。所以如果你有十倍的算力,你可能只用四年的十分之一,可能只用半年时间就能做到那么多。这个是算力决定的。
扩展阅读
[ 1 ] http://www.inewsweek.cn/finance/2023-05-15/18501.shtml
[ 2 ] https://v.youku.com/v_show/id_XNTkyMTMyNjIwOA
>