北航孙志梅教授团队:材料高通量集成计算方法与实践
北航孙志梅教授团队:材料高通量集成计算方法与实践
材料基因组计划是实现材料科学技术飞跃和新材料高效研发与设计的基础,是新材料研发的加速器。北京航空航天大学孙志梅教授团队自主研发的可视化多尺度集成的高通量自动计算与数据管理智能平台(ALKEMIE),作为中国高通量计算和数据管理平台的代表,与国际著名高通量计算、数据管理平台Materials Project、Aflowlib、NOMAD等一起被编入由美国国家科学院、国家工程院和国家医学院三院共同编写的全球材料基因组计划10年成就。
北京航空航天大学孙志梅教授长期从事材料的计算模拟研究,尤其是电子和原子尺度的计算,同时也是中国材料基因工程起步和发展的见证者和参与者。在“材料基因工程关键技术与支撑平台”项目支持下,孙志梅团队自主研发出可视化多尺度集成的高通量自动计算与数据管理智能平台(ALKEMIE)。ALKEMIE 作为中国高通量计算和数据管理平台的代表与国际著名高通量计算、数据管理平台Materials Project、Aflowlib、NOMAD 等一起被编入由美国国家科学院、国家工程院和国家医学院三院共同编写的全球材料基因组计划10 年成就。《材料高通量集成计算方法与实践》内容涵盖了计算方法和软件开发以及相应的材料研究实例。计算软件和方法方面包括材料高通量计算软件平台、材料数据库、人工智能辅助的多尺度模拟、电子和原子结构的高效计算方法等;材料研究案例方面包括信息存储材料、异质结材料、二维材料、能源材料等。该书中对计算软件、理论方法和实例的系统介绍可为计算材料领域和材料基因工程领域的研究人员提供指导,将有助于该领域的发展。
段文晖
清华大学教授
中国科学院院士
2023 年5 月于北京
孙志梅等著
北京 : 科学出版社, 2024. 12
ISBN 978-7-03-080375-7
传统“试错-纠错”材料研发模式依赖经验驱动,需通过反复迭代实验优化性能,导致先进材料从研究到应用转化耗时长达10~20年。随着人工智能时代对材料性能需求的激增,按需逆向设计和精准控制性能成为新材料设计的必然趋势。如今,材料基因组计划被视为实现材料科学技术飞跃和新材料高效研发与设计的基础,是新材料研发的加速器。
材料基因组计划(materials genome initiative,MGI)
材料基因组计划是受人类基因组计划(human genome project,HGP)的启发而建立的。在生物学中,基因是一组编码信息,被视为生物体生长和发育的图谱,而在材料领域,基因可被看作是决定其宏观性能的微观特征单元。
材料基因组(materials genome)的概念最早是美国宾夕法尼亚州立大学刘梓葵教授于2002 年提出的。2011 年,美国白宫科技政策办公室启动为提升美国全球竞争力的材料基因组计划,确立了面向未来的集成计算、实验和数据库的材料研发新模式,旨在帮助加速先进材料的设计、发现、开发和部署,并通过将先进的计算和数据管理与实验合成和表征相结合来降低成本。美国国家科学基金会、美国能源部和美国国防部等联邦机构都是MGI 的资助机构,MGI 初始阶段就在资源和基础设施方面投入了超过10 亿美元。随后,不少国家和地区也相继提出了类似的研究计划,如欧盟的“新材料发现NOMAD”项目、德国的“工业4.0”战略、俄罗斯的“2030 年前材料与技术发展战略”和中国的“材料基因工程”(materials genome engineering,MGE)等。
时至今日,经过10 多年的努力,材料基因组计划在全球取得了丰硕的成果。在材料高通量计算平台方面,美国劳伦斯伯克利国家实验室开发了Materials Project(MP),杜克大学开发了AFLOW - π,丹麦科技大学开发了原子模拟环境(ASE),瑞士洛桑联邦理工学院开发了高通量计算引擎(AiiDA),这些平台各有特点,满足不同计算需求,AiiDA还注重保存计算过程数据以便查询。
相比于国外材料基因组计划的研究成果,中国高通量计算起步较晚,但自2016年起,在国家重点研发计划“材料基因工程关键技术与支撑平台”重点专项支持下,中国也涌现出几个较为成熟的材料高通量计算框架和软件。其中可视化多尺度集成的高通量自动计算和数据管理智能平台(artificial learning and knowledge enhanced materials informatics engineering,ALKEMIE)是由孙志梅团队在国家重点研发计划项目“高通量自动流程材料集成计算算法与软件”支持下,基于Python 开源框架自主开发的中国第一个高通量自动流程可视化智能计算和数据管理智能平台。
ALKEMIE 软件主界面详解
ALKEMIE 从设计出发就吸取了国外材料基因相关软件的先进理念,克服了计算过程中可能遇到的兼容性差、接口不统一和功能拓展困难等问题。ALKEMIE 包含材料高通量自动计算模拟(ALKEMIE-Matter Studio,MS)、材料数据库及数据管理(ALKEMIE-Database,DB)、基于人工智能和机器学习的材料数据挖掘(ALKEMIE-PotentialMind,PM)三个核心部分,适用于数据驱动的高效新材料研发。ALKEMIE-MS 的高通量自动纠错流程可实现从建模、计算到数据分析的全程自动无人工干预运行;支持单用户超过10⁴ 量级的并发高通量自动计算模拟。ALKEMIE-MS 是本书重点阐述的内容(第1 章)。
ALKEMIE 平台AMDIV 设计理念
ALKEMIE 分布式高通量智能计算平台架构
ALKEMIE 中可视化机器学习算法:逻辑回归、随机森林和支持向量机的实现流程
材料高通量计算大幅度提高了计算模拟的效率,也产生了海量的数据,这些数据既包含了有用的材料性质数据,也包含了大量重复的无效数据。由于材料成分、结构等的不同,材料的制备工艺和流程及测试方法也不尽相同。对于不同用途的材料,所关注的材料性能和关键指标也有差异。因此,数据库的构建面临一系列问题,如数据存储类型、数据库的兼容性和泛化能力等。幸运的是,在材料基因组计划的广泛支持下,全球涌现出了多个大型数据库或者数据管理平台。例如,
英国剑桥大学开发的COD(Crystallography Open Database)数据库,其包含超过700 万个有机化合物、无机化合物、金属-有机化合物和矿物的晶体结构;
美国劳伦斯伯克利国家实验室开发的MP Database,是材料计算模拟的专用数据平台,不仅收录了材料结构数据,也收录了元素性质、电子结构、弹性张量和能源转换电极性能等数据;
美国杜克大学开发的Aflow-LIB(Automatic Flow Lib),是基于AFLOW-π 高通量软件开发的材料计算数据库,该数据库收录了6400 余条热力学相图数据和超过45 万个四元混合物的材料性质数据;
瑞士洛桑联邦理工学院开发的Materials Cloud,是第一性原理计算元数据的数据库,包括超过752 万条第一性原理结构弛豫流程及纳米多孔材料吸收和扩散相关的材料性质数据;
美国西北大学开发的OQMD(Open Quantum Materials Database),是第一性原理计算热力学数据库,包含了数万个二元、三元和四元相图;
欧洲马克斯·普朗克学会开发的NOMAD(Novel Materials Discovery),是欧洲最大的新材料共享数据库,包含了104.3 TB 的各类材料数据;
日本国立材料科学研究所开发的MatNavi,是多种材料数据的集合,包含聚合物数据库(化学结构、加工、物理性质、NMR 数据)、无机材料数据库(晶体结构、相图、物理性质)、金属材料数据库(密度、弹性模量、蠕变性质、疲劳特性)、电子结构计算数据库等。
ALKEMIE中多类型材料数据库(a)及数据库的关键数据信息(b)
中国目前也发展了多个大型材料数据库共享平台。例如,由国家统筹建设、北京科技大学实施完成的国家新材料数据库平台,包含有色金属材料与特种合金和微观组织模拟的实验数据库、热力学和动力学相关的计算模拟数据库等。孙志梅团队开发的ALKEMIE-DB,是基于高通量智能计算平台ALKEMIE 开发的多类型材料数据库。ALKEMIE-DB 分为隐私数据库和共享数据库两大类,根据数据类型进一步细分为含60 余万组数据的晶体结构数据库、含1 万余条声子能带的声子谱数据库、含20 余万组数据的深度学习赝势数据库、高通量计算工作流数据库等。ALKEMIE-DB 也是本书重点阐述的内容(第1 章)。
材料计算模拟根据时长和体系大小分为原子尺度、分子尺度、介观尺度和宏观尺度模拟,尺度越小模拟精度越高,尺度越大越接近真实体系,但是不同的模拟尺度采用的物理模型和近似原理不同,数据耦合非常困难,而数据驱动的机器学习方法可作为材料多尺度模拟的耦合剂。经典大规模分子动力学常常被用来模拟近似真实材料体系的服役性能,但可靠、精确的原子间势函数的匮乏限制了其广泛应用。基于密度泛函理论(DFT)的从头算分子动力学(AIMD)模拟具有精确的赝势库,但求解本征值所需的巨大计算量限制了AIMD 在大体系和长时间尺度上的模拟。因此,简单方便地获取适用于大规模经典分子动力学的可靠势函数至关重要。近年来,随着计算机技术、计算机视觉和材料基因理念的快速普及和发展,通过高通量计算产生大数据,利用机器学习结合大数据的方法以拟合可靠的、适用于经典分子动力学模拟的势函数成为研究热点。
PotentialMind多尺度机器学习势函数架构设计
北京航空航天大学孙志梅教授团队基于ALKEMIE 智能平台开发的机器学习势函数方法PotentialMind
机器学习势函数的发展主要经历了体系原子个数受限的低维度势函数和泛化能力强、原子个数不受限的高维度神经网络势函数两个发展过程。1995 年,Blank等开发了第一个基于统计学的势函数模型,用于研究氢原子的分子动力学模拟;2009 年,Malshe 等进一步提出了通过神经网络预测经典多体势方程参数的模型。但是,上述模型均不能改变输入的原子个数,因此限制了机器学习势函数的应用。2011 年,Behler 提出原子中心对称函数,通过数学方程解析原子局域环境,构建了输入原子个数不受限的高维度神经网络模型。2018 年,Gastegger 等发展了权重相关的对称函数(wACSF),通过卷积神经网络提升了模型的精度和实用性,但是由于局域近似,无法包含超过截断半径的原子长程相互作用。
孙志梅团队开发了适用于相变材料Sb₂Te₃ 的跨尺度机器学习势函数Potential Mind,该势函数模型与DFT 比较,对能量预测的精度达到99.8%,平均到每个原子上的能量误差值小于0.005eV,对力的预测平均误差为0.6eV/Å。该算法具有很强的扩展性和通用性,易于扩展到多元材料体系中(第2 章)。机器学习势函数方法一方面实现了具有第一性原理精度且更大原子数体系和更长时间尺度的大规模分子动力学模拟;另一方面通过替代求解复杂多体薛定谔方程本征值,使得模拟速度提升2~3 个数量级,这种方法将在模拟近似真实材料体系的服役性能中发挥重要作用。
K₂Sb₈Se₁₃ 多级相变工作原理
(a)相变存储器件结构;(b)~(d)KSS 晶态、非晶态1 与非晶态2之间的可逆相变
石墨烯/InSe 异质结的不同堆垛构型(a)和结合能随范德瓦耳斯间隙距离的变化(b)
开发高效高精度的计算算法和数据驱动的按需设计新材料体系也属于材料基因工程研究范畴,对高效高精准地研发新材料至关重要。针对这些内容,本书也进行了详细阐述,并收录了“高通量自动流程材料集成计算算法与软件”项目的主要成果。第3 章和第4 章分别阐述了半导体能带的高通量计算方法和材料计算中的不确定性及其量化算法;第5 章和第6 章集成了高通量第一性原理计算、分子动力学模拟和实验,阐述了如何从原子到器件高效研发高性能相变材料和相变存储器件;第7 章介绍了多元材料的结构搜索与阻变存储材料设计方法;第8章介绍了超低热导率与高热电优值材料的高通量第一性原理筛选,包括机器学习高效预测Ⅳ-Ⅴ-Ⅵ半导体热电性能;第9、10、11 和12 章分别介绍了新型功能半导体的理论设计、硫系玻璃的第一性原理与分子动力学模拟、二维范德瓦耳斯异质结的设计与应用和新型二维过渡金属碳/氮化物的结构与性能设计。这几章以生动的案例阐述了如何高效高精度地预测材料性能,如何高效按需设计新材料。
综上所述,ALKEMIE 已经研发了集可视化高通量自动计算流程、材料多类型数据库和人工智能方法于一体的新材料智能计算与数据管理平台,但是未来仍有亟须发展的新方向和新方法。
在高通量计算方面,开发从原子、分子、介观到器件的跨尺度模拟方法是目前极具挑战且具有广阔应用前景的热点问题。Martin Karplus、Michael Levitt 和Arieh Warshel 三位科学家因在分子领域发展的量子力学和分子动力学(QM/MM)跨尺度模拟方法而获得了2013 年诺贝尔化学奖。
在材料研究方面,材料体系周期性边界条件和原子局域环境的复杂性,导致难以控制跨尺度模拟的精度,因此,发展高通量跨尺度高并发、自动纠错及数据耦合方法,通过机器学习数据挖掘等算法进一步提升跨尺度模拟精度是未来的研究热点之一。
在材料数据库方面,应该保持开源和共享的发展理念,基于FAIR 数据准则,即可发现(findable)、可获取(accessible)、可互操作(interoperable)和可再利用(reusable),构建包含材料计算和实验元数据及中间数据的高效数据库,发展数据规模更大、种类更丰富的共享数据平台,完善更加通用兼容的数据标准和共享标识均是未来重要的研究方向。
在机器学习领域,材料数据集的构建非常困难。因此,研发基于小数据集的高效机器学习模型训练算法至关重要。由于机器学习模型的黑盒特性,探索可解释性的机器学习模型,阐明模型背后隐藏的物理意义,实现逆向材料成分和结构设计也是未来的热门研究领域。
本书的出版得到了国家科学技术学术著作出版基金的资助;本书研究内容主要是在国家重点研发计划项目“高通量自动流程材料集成计算算法与软件”资助下完成的。特别感谢谢建新院士和段文晖院士在推荐本书申报国家科学技术学术著作出版基金时所给予的大力支持和帮助;也非常感谢段文晖院士为本书写序。最后,我要特别感谢本项目责任专家段文晖院士和杨明理教授,感谢他们对项目的长期指导和帮助,感谢“材料基因工程关键技术与支撑平台”重点专项专家组组长谢建新院士的关心和指导。
本文摘编自《材料高通量集成计算方法与实践》(孙志梅等著. 北京 : 科学出版社, 2024. 12)一书“前言”“序”,有删减修改,标题为编者所加。
↑↑↑点击以上购书链接可购买
责任编辑:张淑晓 孙静惠
(本文编辑:刘四旦)