简体中文  |  English
AI for Materials重要进展:可解释机器学习应用
发布日期:2025-05-23 11:24:18

“为了帮助广大读者更高效地获取学术前沿动态,新材料大数据中心特别推出“论文精选”专栏。本专栏将持续为您精选材料科学领域的优秀论文,以简洁明了的语言,深入浅出地解读论文的核心观点、研究方法和重要结论,让您在忙碌的科研或工作中,也能轻松把握学术脉搏。您也可以访问新材料大数据中心平台入口:https://www.matbd.cn→"领域动态"访问相关信息。


近年来,数据驱动的机器学习在新材料设计研发中取得了巨大的成功,正在变革着新材料的研发模式。但是,由于其强烈的数据依赖性和“黑盒”模型映射机制,阻碍了机器学习在材料科学研究中的应用。可解释机器学习通过材料知识嵌入,增强了模型的泛化能力和预测精度,通过物理化学特征参量筛选和显性内禀关系挖掘,增强了对材料机理的理解,丰富了材料知识,推动了材料科学的发展,成为材料科学智能(AI for Materials)的重要发展方向。

近日,北京科技大学谢建新院士和宿彦京教授团队总结和分析了材料可解释机器学习的算法和功能,综述了在材料成分和微观组织对性能的影响机理研究,材料内禀关系数学表达式的构建,以及数据+知识驱动的新材料发现、关键性能提升、多目标权衡设计、制备加工全过程优化的最新进展,提出了材料可解释机器学习和材料科学智能的发展前景和面临的挑战,相关综述成果“Interpretable Machine Learning Appli-cations: A Promising Prospect of AI for Materials”发表在功能材料领域权威期刊《Advanced Functional Materials》。


人工智能驱动的

材料科学智能研究范式构建

通过发展材料科学知识表示的机器学习语言、材料多模态数据学习和生成算法、材料知识推理及因果关系挖掘算法等,将人工智能引入到材料更底层的科学研究,把复杂的材料问题映射为高维参数空间的聚类、关联、反演、最优点搜寻等机器学习问题,构筑实验科学、理论计算、数据科学和人工智能深度融合的材料科学智能研究范式,如图 1所示,将会加速材料新现象、新规律、新理论和新概念材料的发现,实现材料科学理论的重大突破。材料科学智能是材料科学与人工智能结合的未来重要发展方向,可解释机器学习是通向材料科学智能的重要途径

1.png


图 1 材料实验/计算大数据、经验/知识模型与人工智能深度融合


材料可解释机器学习的

功能与算法体系

材料可解释机器学习是构筑材料科学智能,推动材料科学理论发展和新材料研发的技术途径。材料可解释机器学习是指可以辅助材料机理和规律的理解,挖掘材料内禀关系,以及将材料知识嵌入到数据驱动建模之中等机器学习策略和方法,材料可解释机器学习的主要功能和模型算法如图2所示。


2.png

图 2 材料可解释机器学习的功能和主要算法


材料机理研究的可解释机器学习通常是综合利用物理化学特征参量池构建、关键特征量筛选、特征重要性分析等方法,分析元素、结构和微观组织对材料性能的显性影响规律,实现对材料性能影响机理和物理化学关联的深刻认识。材料内禀关系挖掘一般采用线性回归、多项式回归、决策树、符号回归等“白盒”机器学习算法,结合材料先验知识和机理研究,构建具有物理意义的材料内禀关系的数学表达。材料知识嵌入机器学习是指将材料经验公式、本构关系、材料文本知识、材料多尺度全过程计算仿真信息等知识嵌入到机器学习建模过程之中,让机器学习理解和运用材料理论知识,通过综合利用材料基础理论在问题空间的泛化能力和机器学习在数据空间的拟合优势,增强模型的物理合理性,提升泛化能力和预测精度,实现数据+知识驱动的新材料设计和研发。


计算-实验-数据-AI

融合驱动材料科学变革

计算、实验、数据和人工智能的深度融合,是未来材料科学的变革性发展方向。在突破材料科学难题,创新材料基础理论,加速新材料发现和设计,促进先进材料工程应用等方面,人工智能赋能的新范式将发挥非常突出的作用。将第一性原理计算与机器学习融合,可快速发现、预测和设计新材料微观层次的结构和各种性质,包括光学、电学、磁学和力学等性质。将动力学计算、集成计算材料工程(ICME)与机器学习融合,借助机器学习在高维问题上的表示能力,能够突破复杂非线性材料系统结构的跨时空形成与演化机理、跨尺度关联、多尺度耦合等难题,实现材料成分和制备工艺的“事先优化设计”。研究材料多模态数据表示学习算法、材料知识推理及因果关系挖掘算法,能够有力推动数据+知识驱动的材料研发新范式的形成和快速发展,为材料设计和研发应用提供全新解决方案,为材料创新发展带来颠覆性变革。


远景目标与挑战

材料科学智能远景发展目标是,深度融合计算-实验-数据-人工智能,研究大规模自主计算、自动智能实验、实验结果智能分析、研究过程自主决策等理论和方法,实现根据给定的目标,自动获取新材料研发所需的数据和知识、自主预测和设计组织性能,开展自动和智能实验,然后对实验结果进行智能分析,对研究过程进行自主决策和迭代。基于数据+知识驱动的可解释性机器学习材料设计虽具有广阔的发展前景,但也面临一系列挑战。最主要的、共性的挑战包括以下三个方面

一是大规模、高质量数据的获取总体而言,与材料科学相关、可用于新材料发现的数据仍然非常有限。理论计算、数值模拟和高通量实验是有效积累数据的重要手段。但是,针对成分复杂、制备工艺复杂的材料体系,大规模计算和高通量实验都面临时间和成本等困难。因此,面向材料计算的专用超级计算机建设和专用软件开发,以及自动/自主高通量实验技术开发,可能成为重要应对措施。

二是深度学习等复杂模型的可解释性。高维数据回归、多模态大模型的可解释性,是未来提高预测精度、提升新材料发现准确性面临的重大挑战。解释元素的作用机理和规律,组织的形成和演变规律,对于发现新的材料体系,实现已有材料中互相矛盾的多个性能的权衡设计或同步提升,针对现有高性能合金中稀缺、昂贵和有害元素进行替代设计,具有非常重要的意义。

三是跨尺度、全过程的数字模型的构建。跨时空组织结构的形成与演化,全过程的性能调控原理与方法,是材料科学中最基础、最根本的难题。解决这些难题的可能途径,是融合数据和知识,采用机器学习方法构建数字化的跨尺度内禀关系和全过程关联模型,突破全过程计算和优化时参数双向传递的瓶颈问题。


论文原文

X. Jiang, H. Fu, Y. Bai, L. Jiang, H. Zhang, W. Wang, P. Yun, J. He, D. Xue, T. Lookman, Y. Su, J. Xie, Interpretable Machine Learning Applications: A Promising Prospect of AI for Materials. Adv. Funct. Mater. 2025, 2507734. https://advanced. onlinelibrary.wiley.com/doi/full/10.1002/adfm.202507734


版权所有©北京科技大学 建设与技术支持:信息化建设与管理办公室 京公网安备:110402430062 京ICP备:13030111