材料基因工程数据库开发团队
材料基因工程数据库开发团队
【骨干成员】
张仰森 北京信息科技大学教授
李永旺 中国科学院山西煤炭化学所研究员,杰青
温晓东 中国科学院山西煤炭化学所研究员
王兴芬 北京信息科技大学教授
【研究背景】
材料基因组技术的核心要素包括三个方面,即高通量材料计算方法、高通量材料实验方法以及材料数据库建设与分析方法。材料基因工程专用数据库是材料研制过程中,研究人员关注的一些参量在空间与时间上的一系列基础数据,是材料的设计与高通量模拟计算的基础,也是高通量材料实验设计的依据。同时,高通量模拟计算和材料制备过程中所得到的实验数据以及通过数据关联分析与计算所得到的数据又可充实材料数据库的内容。材料基因工程专用数据库将为强大的计算分析和理论模拟提供数据支持,减少新材料研发和生产过程中对物理实验的依赖。专用数据库系统将为设计、模拟计算、实验验证提供支持,将材料的设计与研发推进到基于计算与信息技术的综合设计与研发,将大大加快材料研发的速度。
【研究目标】
1. 建立基于成分、结构、工艺、性能、服役行为等多源数据的数据采集算法和材料数据属性标注体系。
2. 设计面向材料基因高通量计算模拟和高通量材料制备实验的数据库结构。
3. 建立相应的统计类数据的统计分析模型和算法,建立关联分析类数据的关联分析模型和算法。
4. 建立大数据分析的数据集群,提供对材料研究的应用服务。
【主要研究内容】
1. 研究多源数据采集及预处理方法,制定材料复杂异构数据融合、管理与共享技术的标准规范,构建材料属性数据的标注体系。
2. 设计多层次跨尺度材料设计、高通量实验验证与表征专用数据库架构,设计合适的数据库存储结构。
3. 采用机器学习与大数据分析技术,对多尺度材料计算与实验数据进行关联分析、材料组织结构的高精度图像处理、非结构化数据挖掘。
4. 构建材料分析与计算的知识图谱系统与知识库系统,为新材料的研发建立推理专家系统,建立新材料研发的趋势预测系统。
5. 构建基于Map-Reduce的新型材料设计与制备的大数据计算平台。
【重要研究进展】
1. 团队利用机器学习中的特征工程概念从大量的计算数据中提取有效的催化材料体系的描述符。参照图1所示的研究思路,使我们可以系统、方便地考察催化剂特征之间的关联,进一步针对甲醇水重整制氢催化过程(重要的氢能制备途径)。利用微观动力学方法,得到了反应的速率,进而得到了活性与特征变量之间的关联。最终我们得到了一系列成功的描述符来进行指导催化剂的理性设计。该工作提出的可视化、系统地得到描述符的方法可以拓展到其他催化体系。
图1 “特征工程”在催化中的研究思路与标准
2. 北京材料基因工程高精尖创新中心(北京信息科技大学分中心)与中科合成油技术有限公司成立产学研合作基地。基地采取“以人工智能计算和大数据为主导,融合实验验证”的催化材料理性设计的模式,正在开发高通量计算预测平台、催化材料智能搜索预测软件、气相反应热力学与动力学数据库、催化材料及物性数据库、数据挖掘软件及以此构建整合的催化材料发现平台,利用此平台进行能源催化材料及新型能源材料的计算和筛选及开发,以期加速能源催化材料及新型能源材料体系的发现和开发过程,同时建立能源催化过程的数据专家系统。初步建设了含碳物种数据库,目前数据库包含超过2000万数据条目。数据库架构及数据挖掘软件架构如图2所示。
图2 材料数据库构建框架及数据库挖掘框架