人工智能(AI)在材料研究领域的成功,在很大程度上依赖于结构化数据的完整性以及精确描述符的构建。本研究中,北京科技大学宿彦京教授、姜雪副教授带领团队基于一个大型语言模型,提出了一套从材料文本到钢材性能的端到端流程,其目标是实现对性能的高精度定量预测,并探索新型钢材。该流程包括一个名为SteelBERT的材料语言编码器,以及一个多模态深度学习框架,该框架能够将复杂制造工艺的成分和文本序列映射到力学性能上。
我们通过预测得出,在屈服强度(YS)、抗拉强度(UTS)和伸长率(EL)等力学性能方面具有较高的准确性,决定系数(R2)分别达到了78.17%(±3.40%)、82.56%(±1.96%)和81.44%(±2.98%)。
此外,通过针对小数据集下特定钢材设计的额外微调策略,我们展示了如何进一步优化模型性能。仅使用15Cr奥氏体不锈钢的64个实验样本,就获得了一个优化后的模型,对于屈服强度、抗拉强度和伸长率的R2分别为89.85%(±6.17%)、88.34%(±5.95%)和87.24%(±5.15%),该模型要求用户输入加工的成分和文本序列,并输出力学性能。该模型通过建议进行第二轮冷轧和回火处理,有效地优化了制造工艺的文本序列,从而得到了优异的性能,屈服强度达到960MPa,抗拉强度达到1138MPa,伸长率为32.5%,超过了已报道的15Cr奥氏体不锈钢的性能。
相关成果以「Steel design based on a large language model」为题刊登在Acta Materialia上,第一作者:Shaohan Tian(北科大),通讯作者:宿彦京教授(北科大),姜雪副教授(北科大/辽宁省材料研究院),Turab Lookman
【数据概况】
图1. 利用SteelBERT进行力学性能的定量预测。
图2. 资料库分布及提取数据的可视化。a 摘要和全文长度的统计分布直方图。b 由各种钢材标注的自动提取的抗拉强度(UTS)和伸长率(EL)的阿什比图。c 三种性能的统计小提琴图分布。d 各种加工操作出现频率的热图。
图3. SteelBERT评估。a 在验证集上,相对于SteelBERT训练步骤的掩码语言模型(MLM)性能的可视化展示。b 使用不同的大语言模型(LLM)进行加工文本分类。
图4. SteelBERT的可解释性。a 使用SteelBERT模型对摘要嵌入聚类的可视化。与钢材主题相关的收集到的摘要,通过预训练模型被嵌入到一系列长度为768的向量中。然后,我们使用统一流形逼近与投影(UMAP)方法将高维数据降维到二维特征空间,并应用基于密度的空间聚类应用及噪声识别(HDBSCAN)方法,根据相似主题对这些向量进行聚类。b 使用基于上下文的词频-逆文档频率(c-TF-IDF)方法生成主题,以识别每个聚类中的主题。c 利用二维t分布随机邻域嵌入(t-SNE)投影来描绘100种化学元素的词嵌入,这些词嵌入用其相应的符号进行标记,并按过渡金属、碱金属、碱土金属、活泼非金属、后过渡金属、类金属、镧系元素、锕系元素和稀有气体的类别进行分组。相似的元素聚集在一起,反映了元素周期表的拓扑结构。d 一张化学元素周期表,使用不同颜色来表示不同类别的元素。
图5. 屈服强度(YS)、抗拉强度(UTS)和伸长率(EL)在训练集(左上角)、验证集(右下角)和测试集(中间)上的表现。这些点紧密地分布在对角线上,表明预测精度很高。测试集的数据来自于近期的文献,这些数据并不属于训练集和评估数据集的一部分。
图6. 钢材的拉伸试验与表征。a 基体钢和优化钢在25℃、应变速率为1×10⁻⁴ s⁻¹条件下的奥氏体不锈钢(ASS)拉伸应力-应变曲线。b 优化钢1-1的电子背散射衍射图以及晶粒尺寸分布。
【结论展望】
我们提出了一套从材料文本到性能的端到端流程,该流程具有准确性且具备进一步推广应用的能力,基于一个接触过历史钢材文献数据的大型语言模型,以捕捉钢材相关知识和表征信息。
该模型从一个用于钢材发现的定量数据集中“学习”成分、加工工艺和性能之间的关系,不仅准确预测了2022年和2023年所报道的18种钢材的力学性能,还通过微调一个基于文献文本的模型,提高了对64个实验室数据集的预测精度。此外,通过优化加工工艺顺序,获得了超越任何已报道的15Cr奥氏体不锈钢的性能。
钢材的设计需要理解物理学、化学和冶金学知识。尽管钢材研究有着悠久的历史,但设计高性能钢材仍然需要大量的计算资源和实验数据。我们探索了一种主要利用文本特征编码来预测钢材力学性能的流程。这种方法以文献和实验数据为基础进行验证,有助于新材料的开发。与传统的机器学习方法相比,我们的方法解决了在复杂钢材制造过程中提取结构化数据、加工顺序对齐以及解决高维稀疏等问题的部分挑战,而这些问题通常非常耗时。
此外,与单纯基于Transformer解码器的大语言模型相比,该方法在定量回归任务中表现出更优的性能,相对易于实施要求用户输入成分和加工的文本序列,并输出力学性能。开发基于自然语言文本特征的机器学习模型具有巨大潜力,这不仅对钢材,对预测各种材料的性能而言都是很有前景的。
原文链接:
https://doi.org/10.1016/j.actamat.2024.120663