智能流程制造与材料设计中的大数据和机器学习

111 浏览量更新于2024-01-02 收藏 1020KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

工程5（2019）1017研究智能流程制造：人工智能与流程制造的深度融合-综述大数据为材料研究带来新机遇--机器学习在材料设计Teng Zhoua，b，Zhang，Zhen Songa，Kai Sundmachera，ba过程系统工程，马克斯·普朗克复杂技术系统动力学研究所，马格德堡39106，德国b德国马格德堡奥托-冯-格里克大学过程系统工程，马格德堡39106阿提奇莱因福奥文章历史：2018年11月21日收到2018年12月13日修订2019年2月25日接受在线预订2019年8月22日保留字：大数据数据驱动机器学习材料筛选材料设计A B S T R A C T材料的发展历史上一直是由人类的需求和愿望驱动的，这在可预见的未来可能会预计到2050年，全球人口将达到100亿，这将推动对清洁高效能源、个性化消费产品、安全食品供应和专业医疗保健的需求日益增长。针对目标性能或行为而制造和定制的新功能材料将是应对这一挑战的关键。传统上，先进的材料是通过经验或实验试错方法发现的。随着现代实验和计算技术产生的大数据变得越来越容易获得，数据驱动或机器学习（ML）方法为材料的发现和合理设计开辟了新的范例。在这篇综述文章中，我们简要介绍了各种ML方法和相关软件或工具。突出了在材料研究中采用ML方法的主要思想和基本程序然后，我们总结了最近的重要应用ML的大规模筛选和优化设计的聚合物和多孔材料，催化材料和含能材料。最后，提出结论和展望。©2019 The Bottoms.Elsevier LTD代表中国工程院出版，高等教育出版社有限公司。这是一篇CC BY-NC-ND许可下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍21世纪的许多挑战，从个性化医疗保健到能源生产和存储，都有一个共同的主题：材料是解决方案的核心。传统上，材料是偶然或通过经验过程发现的。一个典型的例子是硫化橡胶，它是在19世纪基于观察（从化合物的随机混合）而预先发现的，即与添加剂如硫一起加热可以提高橡胶的耐久性。随着第一性原理计算方法和工具的巨大发展，以及计算机能力的指数级增长，科学家和工程师现在可以真实地模拟特定应用中材料的性质和行为，从而避免漫长的配方，合成和测试周期。这一领域被称为计算材料科学，是化学和材料科学领域中发展最快的领域之一。然而，尽管在理论*通讯作者。电子邮件地址：zhout@mpi-magdeburg.mpg.de（T. Zhou）。方法和建模工具，所有可能的化学品或材料的理论空间的大小是压倒性的。例如，与生物学相关的分子的数量估计为1060的数量级[1]。因此，不可能找到一种策略来探索这一广阔的结构空间。随着实验和计算数据的增加，材料信息学（MI）领域近年来发展迅速[2]。MI的一个重要任务是利用现有的材料数据，采用数学和信息科学方法预测新材料的性能[3]。实现这一目标的关键是构建一个描述符模型，该模型可以根据一组已知的输入材料特定特征来预测感兴趣的属性。定量结构-性质关系（QSPR）模型是一种以物质结构特征为输入变量的重要描述模型。材料性能的输入与输出之间通常存在着复杂的关系，传统的线性和非线性相关方法难以处理。由于机器学习（ML）方法的发展[4]，这些复杂的关系现在可以有效地建模。ML是人工智能（AI）的一个分支，旨在构建从过去的数据和情况训练的模型。已经开始播放了https://doi.org/10.1016/j.eng.2019.02.0112095-8099/©2019 THE COMEORS.由爱思唯尔有限公司代表中国工程院和高等教育出版社有限公司出版。这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。目录可在ScienceDirect工程杂志主页：www.elsevier.com/locate/eng1018T. Zhou et 其他/工程5 （2019）1017在材料科学中的重要作用，因为它能够从现有数据中学习行为和趋势，而无需了解潜在的物理机制。建立的ML模型可以反过来用于材料发现和设计。ML技术在材料研究中成功应用的一些例子包括预测钢的疲劳强度[5]、合金的物理和机械性能[6]、钙钛矿材料的电子带隙[7]、催化活性[8]和酸解离常数[9]，以及识别有前途的多孔材料[10]、聚合物纳米粒子[11]、混合氧化物催化剂[12]、有机发光二极管（OLED）材料[13]、超导体[14]和光伏材料[15]。文献检索，如图所示。 1 [16]，表明ML是一个快速增长的领域，在材料研究中的应用越来越多。鉴于数据驱动或ML方法在材料研究中的重要性日益增加，本文的目标是强调采用ML方法进行材料研究的主要思想和基本程序，并概述ML在材料发现和设计中的最新重要应用。2. 材料科学如图2所示，几千年来，科学都是由对自然现象的经验观察构成的。几个世纪前，理论科学范式兴起，其特征是各种经典定律、理论和模型的形成。随着几十年前计算机的发明，出现了第三种科学范式，即计算科学，它允许模拟复杂的现实世界第二段所总结的理论基础上的问题。材料科学中的代表性实例是密度泛函理论（DFT）和分子动力学（MD）模拟。实验和模拟产生的大量数据在过去几年中催生了第四种科学范式：（大）数据驱动的科学，以及人工智能方法的普及。近年来发展迅速的AI最重要的子领域是ML。关于“大数据”和“数据驱动”的出版作品数量绝对呈爆炸式增长，如图3[16]。最近，材料基因组计划（MGI）和世界各地的其他类似努力一直在促进材料科学大数据的可用性和可访问性存在许多不同种类的材料属性数据（例如，物理的、化学的、机械的、电子的、热力学的和结构的），其可以从第一原理计算（例如弹性模量）或实验测量（例如热膨胀率）产生。这些大数据为数据驱动技术或ML方法的应用提供了巨大的机会，表1是从参考文献[18]更新的，列出了许多公开可用的数据库，其中包含大量的材料结构和性能。3. 用于材料发现和设计的现代的理论和计算工具使大量的正向问题的有效解决成为可能，也就是说，预测特定材料在特定条件下的性能或行为处理这些问题的方法和工具还不太发达Fig. 1. 关于“机器学习”和“机器学习”+“材料”的出版作品数量（1999年1月至2018年9月）。图2.科学的四种范式：经验、理论、计算和数据驱动。ANN：人工神经网络; SVM：支持向量机。T. Zhou et al. / Engineering 5（2019）1017-10261019图3.第三章。关于“大数据”和“数据驱动”方法的出版作品数量表1公开的分子和固体材料结构和性质数据库。名称描述AFLOW结构和属性存储库，来自无机材料的高通量从头计算AmericanMineralogist Crystal Structure Database晶体结构数据库，包括发表在AmericanMineralogist，The Canadian《矿物学家》、《欧洲矿物学杂志》等。相图与热化学的计算机耦合（CALPHAD）出版各种材料剑桥有机和金属有机晶体结构数据库CatApp一个用于表面化学和多相催化的具有药物样特性的ChemSpider英国皇家化学学会的结构数据库，包含来自一系列来源的材料的计算和实验性质计算材料存储库基础设施，能够从电子结构代码中收集、存储、检索和分析数据CoRE MOF 4000多种金属有机骨架材料的无溶剂原子坐标和孔隙特征晶体学开放数据库有机、无机和金属有机化合物和矿物的结构Dark Reactions Project收集未发表的失败反应GDB数据库一个假想的有机小分子哈佛清洁能源项目计算候选有机太阳能吸收材料的性能无机晶体结构数据库（ICSD）无机晶体结构数据库材料项目已知和假设材料MatNavi针对超导性和热导率各种工程材料的MatWeb数据表，包括热塑性塑料、半导体和纤维Mindat.org矿物、岩石和陨石的开放数据库，以及它们来自的地方NanoHUB最大的纳米技术在线资源Nanomaterials Registry一个权威的、基于网络的纳米材料数据库Nanoporous Materials Explorer包含数千种纳米多孔材料美国国家标准与技术研究院（NIST）化学WebBook气相热化学和光谱数据NIST材料数据存储库上传与特定出版物相关的材料数据NIST原子间势存储库原子间势（力场）NIST标准参考数据一般材料属性数据新材料发现实验室存储库（NOMAD），用于存储所有重要的计算材料科学计算机程序国家可再生能源实验室（NREL）材料数据库可再生能源应用开放式量子材料数据库主要假设材料的计算性质PubChem一个化学分子及其生物活性的热电设计实验室（TEDesignLab）支持新型热电材料加州大学圣巴巴拉分校（UCSB）热电数据库大型热电材料二维（2D）和三维（3D）格式的市售有机分子逆问题--即设计或制造具有特定所需性能的新材料。最近，计算机辅助分子设计（CAMD）方法[19，20]已经被提出并得到显著发展，其目的是合理地选择或设计具有预先指定的所需特性的分子。自其出现以来，CAMD方法已被用于设计溶剂、医药和消费品、工作流体、聚合物、制冷剂和过渡金属催化剂1020吨 Zhou et 其他/工程5 （2019）1017[21与CAMD问题类似，典型的材料设计任务可以定义如下：给定{materials？从实验和/或第一原理计算获得的数据集，具有最理想性能的最佳材料结构和组成是什么？对于材料设计来说，最关键的一步是建立一个模型，该模型可以准确地描述输入材料的特定特征（通常是结构特征）和基于给定{materials？属性}数据集。经典模型的构建在很大程度上依赖于物理洞察力和机制，例如，使用守恒定律和热力学来推导数学公式，其中参数从现有的参考数据回归（通常是线性的或稍微ML走了一条不同的路线：它不依赖于原理或物理见解，而是仅从现有的可用数据中训练具有灵活且通常高度非线性形式的模型。在材料科学中，材料的结构和感兴趣的性质之间通常存在复杂的关系由于这个原因，ML方法已经成为预测材料性能以及材料筛选和优化设计的重要工具图4显示了基于ML的材料发现和设计的一般工作流程。主要包括三个步骤：描述子的生成和降维、模型的建立和验证、材料预测和实验验证。第一步是通过一组描述符或特征以数字方式表示数据集中的材料。此步骤需要有关材料类别和应用的特定领域知识。第二步是基于一组参考材料的已知数据建立描述符和目标属性之间的映射模型。从简单的线性和非线性回归到高度复杂的核岭回归和神经网络的各种ML方法可以用于建立这种映射。在最后一步中，进行逆向设计，以找到新的材料与所需的性能的基础上建立ML模型。然后可以合成最有希望的候选物，并通过实验验证它们的实际性质或性能。3.1. 描述子生成和降一般来说，每种材料的性能取决于一组特定的因素，如晶体结构和粘结强度。出于这个原因，识别与感兴趣的材料性质强烈相关的关键特征或描述符始终是至关重要的。在应用ML过程之前的步骤。一个好的材料描述符至少应该满足以下三个标准：①材料的独特特性，②对目标特性敏感，③易于获得。根据所研究的问题或属性，描述符可以定义为不同的复杂程度[32]。以分子设计为例，如果正在研究非极性有机化合物的沸点或挥发性，则可以在总体水平上定义描述符，例如总分子量。如果目标是预测介电常数，则描述符可能必须包括原子级或至少组级信息。如果涉及催化活性，则描述符必须包含电子级信息的详细信息。Curtarolo等人[33]总结了先前开发的几个重要的材料描述符。最简单的描述符是一维（1D）参数，如分子体积、重量和表面积、电子数和极性。这些描述符携带很少或没有关于材料或分子的实际结构的信息如前所述，当预测某些性质时，代表二维（2D）或甚至三维（3D）结构的描述符是优选的。拓扑描述符考虑分子或材料的2D图形结构，从而反映对称性、分支和原子连接性等特征[34，35]。最常用的拓扑描述符是邻接矩阵[36]和连通性指数[37]。这些描述符的局限性在于它们不包含任何立体化学信息。一个重要的3D材料描述符是径向分布函数（RDF）。RDF，通常用g（r）表示，定义了在距离另一个标记粒子或原子r处找到粒子或原子的概率[38]。这种类型的描述符可以从实验测量，如X射线测量和从头计算得到。大量的数据库（见表1）包含大量大量的材料结构和性能数据。然而，应该注意的是，可用的材料数据通常彼此高度相关。因此，在许多情况下，在构建ML模型之前，有必要使用降维工具对高维数据集进行预处理。主成分分析（PCA），多维缩放（MDS）和线性判别分析（LDA）等几种算法[39]可用于降低特征空间的维度，并帮助识别ML的最相关描述符（或关键特征）。例如，PCA使用正交变换将一组相关变量转换为一组不相关的新变量或主成分（PC）。每台PC都经过选择，图第四章基于ML的材料发现和设计的通用工作流程-T. Zhou等/ Engineering 5（2019）1017-10261021位于最大方差的方向，而与其他PC不相关。PC构成了一个降维空间，可以表示原始数据，信息损失有限Zhou等人[41]采用PCA将12维溶剂描述符空间减少四个新的描述符，然后成功地用于关联和预测溶剂对反应速率的影响。3.2. 模型构建和验证ML算法可以大致分为两类：监督和无监督学习算法。监督学习可以进一步分为回归和分类。在材料设计中，监督学习试图根据一组已知材料及其特性来识别能够预测新材料特性的函数。如果目标属性是连续量（例如，玻璃化转变温度），该过程被称为回归。典型的回归算法是克里格或高斯过程回归[42]、人工神经网络（ANN）[43]和支持向量机（SVM）[44]。如果输出是离散目标（例如，是否有毒、晶体的类型），则搜索预测函数的过程称为分类。决策树[45]和随机森林[46]算法是两种最常用的分类算法。监督学习的目的是找到一个将一组输入数据映射到相应输出属性的函数，而无监督学习则试图识别输入数据本身之间的关系。聚类作为一种典型的无监督学习方法，是将数据集划分为不同的类别或区域，使得数据点处于同一组或簇中的过程比其他集群中的更相似。聚类对于从数据中提取物理见解和基于比较研究发现新的有前途的材料非常有用[47]。最流行的聚类算法是k-均值[48]、层次聚类[49]和隐马尔可夫模型[50]。表2总结了重要的ML方法列表，每个方法的详细介绍可以在参考文献[51]中找到。由于每种方法或算法都有自己的适用性和适用范围，因此选择合适的ML算法是其成功实施的关键一些算法，如最小二乘回归，核岭回归，神经网络和决策树，能够创建属性预测模型。然而，虽然一些算法（主要是基于回归的算法）提供实际的预测函数，其他的（例如，决策树）没有。此外，可用数据的量也可以决定学习算法的选择例如，可以使用诸如克里格和核岭回归的回归方法来适当地处理数万然而，当数据集更大时，应该应用更复杂的学习方法，如深度神经网络[32]。近年来，许多开源软件程序或工具，如scikit-learn，TensorFlow和Chainer已经开发出来，使得非专业人员可以在自己的研究中实现ML方法。Scikit-learn是一个Python包，它集成了各种最先进的ML算法，包括监督式和非监督式。TensorFlow是用于高性能数值计算的软件库。TensorFlow最初由Google AI部门的研究人员和工程师开发Chainer是构造神经网络的强大工具，旨在弥合算法和实现之间的差距。商业软件MATLAB也在工具箱中集成了许多ML算法，如统计学。原则上，数据驱动模型可以记住所有数据在训练集中的点，从而导致对这些数据的极高的准确性。因此，ML模型必须在未用于训练的数据上进行最简单的方法是执行交叉验证，其中模型仅基于部分数据构建，其余数据用于评估或验证。有几种交叉验证策略，其中k折交叉验证方法[52]非常流行。在该策略中，数据集被随机划分为k个大小相同的子组;（k 1）子样本用于训练，剩余的一个子样本用于验证。该交叉验证过程重复k次，其中k个子样本中的每一个仅用作验证数据一次。Kohavi[53]证明，对于真实世界的数据集，模型验证的最佳方法是十重交叉验证，即使计算能力允许使用更多的折叠。另一种广泛使用的验证ML模型的方法是Bootstrap方法[54]。在这里，与原始数据集大小相同的“引导训练集”是通过从原始数据集中一次提取一个样本并在选择后将它们返回到数据集来构建的。因此，某些数据点可能会在bootstrap训练集中出现不止一次，而其他数据点可能根本不会出现。然后将未在训练集中使用的数据点用于模型验证。上述过程可以重复表2重要的ML方法列表。方法类别简要说明最小二乘回归回归输出数据相对于输入要素的最小二乘拟合核岭回归回归将岭回归与核技巧相结合逻辑回归解释一个因变量与一个或多个自变量之间的关系克里格或高斯过程回归回归一种插值方法，其内插值由高斯过程人工神经网络回归，分类SVM回归，分类使用神经元的隐藏层连接输入和输出构建一个模型，该模型预测新示例是否属于某个类别决策树分类通过学习从数据中推断出的决策规则来创建模型以预测目标变量的值特征随机森林分类多决策树k-最近邻分类使用一个数据库，其中数据点被分成几个类，以预测新样本朴素贝叶斯分类一种基于贝叶斯特征k-means clustering聚类的目的是将n个观测值划分为k个聚类层次聚类分析聚类一种聚类分析的方法，它试图建立一个聚类的层次隐马尔可夫模型聚类假设建模的系统是一个马尔可夫过程，具有不可观测（隐藏）状态×××··1022T. Zhou et 其他/工程5 （2019）1017几次，并且平均预测误差被用作模型性能的指标。自举方法的一个优点是，结果可以用置信区间或不确定性来表示，这是其他验证方法不容易获得的特征。3.3. 材料预测与实验验证如图4所示，在建立ML模型之后，可以基于该模型进行逆向设计以找到具有期望特性的材料。这可以通过使用大规模筛选或数学优化来完成。大规模筛选方法的基本思想是首先在设计空间中生成所有可能的候选材料，然后使用学习的模型逐个测试它们[15]。通常，材料的生成必须考虑对材料的表示的几个约束，其通常以基于结构和/或组合的功能的形式。为此，需要一个系统的程序来识别设计空间中的所有材料（或尽可能多的材料）。一旦生成候选项，使用训练模型对其属性的评估就简单而直接。或者，逆向材料设计可以用公式表示为数学优化问题，其中目标属性在结构和成分约束下进行优化[55，56]。基于优化的方法试图在不测试设计空间中所有候选材料的情况下识别有希望的材料。这一特征使得该方法更少地受到组合复杂性的限制。确定性算法[57]或随机算法[58]都可以用来解决公式化的优化问题，从而确定最佳材料。在确定最佳材料后，可以合成它们，并通过实验验证它们的实际性能。如果实验结果与预测值吻合较好，则证实材料具有最高的性能。如果不是，则将设计的材料和相应的实验结果添加到训练集中，并重新训练ML模型4. 应用实例ML加速了几种不同类型材料的开发。在这篇综述文章中，我们选择了专注于三类材料：聚合物和多孔材料，催化材料和含能材料。ML方法在这些材料的发现和优化设计方面的最新应用将在以下章节中重点介绍。4.1. 聚合物与多孔材料聚合物材料具有许多所需的性质，例如高强度重量比、耐腐蚀性、易于成形以及具有低制造成本。由于这些优点，聚合物材料在许多工程领域中得到越来越多基于现有的大量聚合物结构和性能数据，数据驱动或ML方法在聚合物发现和设计中可以发挥重要作用。Breneman等人[59]开发了一种材料基因组学方法，用于基于其热机械性能预测的球形纳米颗粒填充聚合物的优化设计。实验研究用于验证设计结果。Venkateland和Alsberg[60]提出了一种ML模型，用于快速发现具有多种理想特性的新聚合物材料包括高折射率。所得结果通过DFT计算得到了充分的验证。为了促进新的聚合物材料的发展，Wu et al.[61]建立了统计模型来预测有机聚合物的介电常数、带隙、介电损耗角正切和玻璃化转变温度。开发了一组称为无限链描述符的新特征来表征有机聚合物，并将其用作ML的输入来预测上述性质。结果发现，所有获得的ML模型表现出良好的性能在聚合物的性质预测。Sukumar等人[62]演示了如何构建ML模型，用于具有特定电子特性的聚合物的优化设计。模型验证证实，所建立的模型能够对训练集之外的聚合物进行可靠的预测。介电材料传统上由无机材料如瓷、云母和石英制成。然而，当用作介电材料时，聚合物提供了优异的耐化学性、柔韧性、便宜性和针对特定应用的可调谐性的优点。Sharma等人。[11]提出了一种基于分层ML的方法，以加速识别性能优于标准材料的聚合物材料。所测得的介电性能的一些设计的聚合物强烈支持的有效性，所提出的方法为最佳的聚合物的介电常数设计。Mannodi-Kanakkithodi等人[56]通过基于第一原理计算生成的数据构建统计学习模型来进行聚合物微结构设计。聚合物被指纹识别为简单的数字表示，然后使用ML算法将其映射到感兴趣的属性。此外，还采用遗传算法对聚合物组成嵌段进行进化优化，从而直接设计出具有目标性能的聚合物。通过开发聚合物基因组，Mannodi-Kanakkithodi等人[63]还提出了聚合物结构设计的基本路线图，以及扩展到其他聚合物类别和性质的未来方向。金属有机骨架材料作为一种重要的多孔材料，在气体储存和分离等方面具有巨大的应用潜力。此外，MOF的结构构建单元可以组合以合成几乎无限数量的材料。这使得计算方法对于MOF材料的大规模筛选和优化设计非常有用。Fernandez等人[64]报告了MOFs储存甲烷（CH4）的第一个QSPR分析。这些学者研究了的几何特征，即，孔径，表面积和空隙率，以及模拟的甲烷约1.3 105假设的MOFs在1，35，和100巴（1巴= 100千帕）的存储容量的框架密度。在此基础上，建立了多元线性回归模型、决策树模型和非线性支持向量机模型等多种最大似然模型来预测MOFs的甲烷储存量。在每种情况下，1 - 10 -4MOFs用于训练模型，并在约1.2 -10- 5 MOFs的测试集上验证模型的准确性。发现对于35巴的甲烷储存，期望MOFs应该有密度大于对于100巴的甲烷储存，MOFs的密度应大于0.33 gcm-3，空隙率应大于0.62。基于SVM模型的响应面分析，研究人员确定了可能导致极高CH4存储容量的新为了准确预测MOFs中的二氧化碳（CO2）吸收，Fernandezet al.[65]引入了原子属性加权RDF （AP-RDF）描述符，它除了捕捉其几何特征外，还捕捉了周期性材料的化学特征。基于AP-RDF描述符的非线性SVM模型在0.15和1 bar下对CO2平衡负荷都有很好这一结果表明，具有更紧凑的框架和T. Zhou et al. / Engineering 5（2019）1017-10261023原子间距离在6 - 9 μ m范围内，在两种压力下对CO2都表现出较高的亲和力。Ohno和Mukae[66]应用高斯过程回归来关联和预测MOF的平衡CH4负载。基于所建立的模型，可以成功地识别出能够优于模型训练集中的所有材料的最优MOFs。Aghaji等人[10]采用决策树和SVM方法，通过使用材料的几何描述符作为ML输入变量，预测MOFs的CO2吸收能力和CO2/CH4分离结果发现，孔径，空隙率和表面积是最重要的因素，设计最佳的MOFs分离CO2从CH4。Simon等人[67]使用随机森林方法发现了具有巨大潜力的氙和氪分离的新多孔材料。确定了两种高性能材料：磷酸铝沸石类似物和钙基配位网络。这两种材料都已合成，但尚未进行氙和氪分离测试。Fernandez和Barnard[68]开发了ML模型，用于预测MOFs的CO2和氮（N2）吸收能力许多不同的ML技术，包括决策树，k-近邻，SVM，ANN和随机森林方法进行了研究。结果发现，随机森林的方法产生了最准确的预测CO2和N2的吸收能力。基于所建立的模型，确定了最有前途的MOFs的高效CO2/N2分离。Qiao等人[69]应用决策树方法研究了MOFs的几何参数与MOFs膜分离CO2/N2/CH4三元混合气体性能之间的关系。最终确定了七种最佳MOF4.2. 催化材料催化剂用于许多工业过程中。传统上，催化剂的优化设计是经验性的，或者主要依赖于实验。量子化学计算为第一性原理催化剂设计提供了可能。然而，大的计算成本限制了它们的应用相对简单的反应和少量的催化剂候选者。随着实验数据和计算数据的快速增长以及催化信息学的发展，催化剂结构和活性之间的关系现在可以用ML模型很好地描述，这对催化剂的开发非常有用。Huang等人首次尝试使用ML方法进行催化剂设计[70]，他开发了一种人工神经网络模型来描述催化剂组分和催化性能之间的关系提出了一种基于人工神经网络模型的混合遗传算法，并用于多组分催化剂的优化该催化剂设计策略已成功应用于甲烷氧化偶联反应中.发现了几种高性能的Baumes等人[71]采用ANN模型预测水煤气变换反应的催化剂性能。与传统的计算和实验试错方法相比，ML方法在加速发现高性能多相催化剂方面具有巨大的潜力Baumes等人[72]介绍了线性SVM模型来优化烯烃环氧化催化剂。之后，一个非线性SVM模型被训练用于第二个催化反应，即轻质烷烃异构化。基于这两个应用实例，研究人员讨论了SVM在催化剂研究中与其他ML技术（如神经网络和决策树）相比的优势Thornton等人[73]开发了一种ML模型，用于计算筛选超过3 105种用于CO2还原的沸石催化剂。结果发现，需要约6 μ m的最佳腔尺寸以使吸附时的熵-焓变化最大化Corma等人[74]描述了光谱表征描述符如何与传统结构和组成描述符结合使用，以构建催化剂性能预测模型。首先采用PCA从催化剂的X射线衍射（XRD）表征中提取所需的光谱描述符。采用人工神经网络和决策树建模技术建立了性能预测模型通过对介孔钛硅酸盐催化剂环氧化反应的应用表明，光谱描述子的使用可以显著提高ML模型的预测精度，从而提高催化剂设计结果的可靠性混合金属氧化物是通常用作工业催化剂的坚固材料然而，先验地预测它们的催化性能是困难的。使用丁烷氧化脱氢为1，3-丁二烯作为模型反应，Madaan等人。[12]实验合成并测试了15种负载在氧化铝上的混合氧化物。根据实验结果，建立了描述符模型，并用于预测一组1711混合金属氧化物催化剂的性能鉴定并实验验证了六种新的有前途的氧化物催化剂。双金属和多金属催化剂表现出高活性，广泛的热和电化学反应。然而，建模的许多不同的活动网站是一个重大的挑战。Li等人[75]开发了ML模型，用于快速筛选过渡金属催化剂，使用易于获得的催化剂描述符作为模型输入。这些描述符包括吸附位点的局部电负性和有效配位数，以及活性金属原子的固有性质，如离子势和电子亲合势。用训练好的模型对多金属合金进行了电化学CO2还原的筛选。确定了几种有前途的催化剂候选物。Li等人[76]提出了一种基于人工神经网络的框架，用于使用甲醇电氧化作为模型反应快速筛选催化剂催化剂数据库包含的吸附能，通过密度泛函理论（DFT）计算得到了{111}端基模型合金表面的CO和OH以及活性中心的指纹特征，并用于优化人工神经网络的结构和重量参数指纹描述符包括吸附位点的sp-带和d-带特征以及表列的主体金属原子的特性结果表明，用现有的约1000个理想化合金表面数据集训练的人工神经网络模型可以捕捉到复杂的吸附质/金属相互作用，并在探索催化剂的大化学空间方面显示出很高的预测能力Ulissi等人[77]提出了另一种设计催化剂的框架对单晶体的每个稳定的低折射率面的活性位点进行了枚举和编目，产生了数百个可能的活性位点。使用基于人工神经网络的替代模型并行预测这些网站的活动发现了高活性的位点，为后续DFT计算提供了目标将该设计框架应用于镍镓双金属催化剂上CO2的电化学还原基于纳米材料的催化剂通常是破碎成金属纳米颗粒的非均相催化剂。金属纳米颗粒比其本体对应物具有更大的表面积，因此它们的使用导致催化活性增加[78]。Fernandez等人。[79]开发了决策树和ANN模型，以根据DFT计算得出的数据集，从铂纳米颗粒的结构描述符（如粒径、表面积和球形度）预测铂纳米颗粒的催化活性。结果表明，ML技术可用于快速估计催化剂的××1024T. Zhou et 其他/工程5 （2019）1017纳米材料的性质在一个决议，是无法访问的实验和从头算方法。确定了在不久的将来指导纳米催化剂合理设计众所周知，催化活性通常由几个特定的表面位点决定。因此，活性中心的设计是实现高性能多相催化剂的关键。合金纳米颗粒具有可能不同于单晶表面上的活性位点这使得合金纳米颗粒的优化设计非常困难。Jinnouchi和Asahi[8]提出了一种使用局部相似性核的ML方案，这使得可以基于局部原子构型来理解和近似合金纳米颗粒的催化活性。该方法已成功地应用于铑金合金纳米粒子上NO的直接分解反应。数据驱动的建模不仅对多相催化剂设计很重要，而且对均相催化也很重要。Maldonado和Rothenberg[80]总结了为什么、何时以及如何将预测建模用于均相催化剂设计。过渡金属配合物是一类重要的均相催化剂，具有非常复杂的电子结构，直接进行DFT模拟计算非常昂贵。Janet和Kulik[81]使用人工神经网络方法预测过渡金属络合物的电子性质，包括自旋态排序和特定的键长。结果表明，人工神经网络优于其他ML方法，包括支持向量机和核岭回归。所建立的人工神经网络模型为过渡金属络合物催化剂的大规模筛选4.3. 高能材料ML在加速发现高性能含能材料方面发挥着重要作用，包括电池和超导体材料，电子陶瓷和热电材料，以及光伏和钙钛矿材料。Fujimura等人。[82]使用ML方法，根据实验和计算数据，预测373 K下不同组成的锂（Li）导电氧化物作为Li离子材料的电导率。在所建立的ML模型基础上，通过优化材料的成分，对优良的锂离子导体进行了合理的设计晶体结构对锂离子硅酸盐正极材料的物理和化学性能有很大的影响，从而极大地影响其电池应用。三种主要的晶体类型（即，Shandiz和Gauvin[83]使用不同的分类算法预测了硅酸盐基阴极的晶体结构（单斜晶、正交晶和结果表明，随机森林法的预测精度最高。Sendek等人[84]提出了一种大规模计算筛选方法，用于识别锂离子电池固态电解质的有前途的候选作者首次筛选出结构和化学稳定性高、电子电导率低、成本低的含锂12831晶体固体。然后，他们使用逻辑回归开发了一个数据驱动的离子电导率分类模型，以进一步选择表现出快速Li传导的候选材料的数量从12831减少到21，其中一些已经过实验检验。Stanev等人[14]使用了几种ML方案来开发不同的模型，以预测超过1.2 × 104超导体的临界温度。为了提高这些模型的准确性和可解释性，使用来自AFLOW在线存储库的材料数据纳入了新的最后，回归和分类模型被合并到一个管道中，用于搜索整个无机晶体结构数据库（ICSD），以找到具有理想临界温度的潜在新超导体。更成功鉴定了30多种非铜酸盐和非铁基氧化物Scott等人[85]使用人工神经网络方法设计电瓷材料，该方法基于最近建立的包含各种陶瓷化合物的组成和性能信息的数据库采用随机优化算法，考虑到高相对介电常数和低总电荷的特性，搜索最佳材料。结果发现，在某些情况下，已查明的材料与数据库中的材料相似基于对2.5 104已知材料的可用知识，Gaultois等人[86]开发了一个开源的基于ML的引擎，用于评估热电材料的性能。结果表明，该引擎可以识别有前途的热电材料，是不同于已知的。能源需求的增长加上对清洁能源的需求，可能使太阳能电池成为重要的能源供应商。光伏材料和钙钛矿材料是太阳能存储和利用的两种Nagasawa等人[87]利用人工神经网络和随机森林模型对有机光伏应用中的共轭分子进行了筛选从文献中收集了分子量、电子性质和功率转换效率等参数，并进行了ML。结果表明，随机森林模型比基于人工神经网络的模型具有更高的预测精度。Olivares-Amaya等人[15]使用ML技术开发模型，用于预测潜在有机光伏分子的重要电流-电压和效率所获得的模型用于快速筛选有前途的光伏材料，2.6百万种候选化合物。结果表明，苯并噻二唑和噻吩并吡咯同系物是目前最有前途的一组分子的光伏应用。Yosipof等人[88]提出了一种数据挖掘和ML工作流程，并将其应用于分析两个最近开发的基于Ti和氧化铜的太阳能电池库。结果表明，从k-近邻算法建立的ML模型可以得到很好的预测多个太阳能电池的性能。因此，该模型适用于设计基于新的有前途的金属氧化物的更好的光伏太阳能电池。钙钛矿太阳能电池是另一种类型的太阳能电池，其包括钙钛矿结构的化合物-最常见的是基于混合有机-无机铅或锡卤化物的准确预测双钙钛矿材料的禁带宽度对于其在太阳能电池中的应用具有重要意义虽然用于量化带隙的量子力学计算在计算上非常昂贵，但数据驱动的ML方法是有希望的替代方案。Pilania等人[7]开发了一个强大的ML框架，用于有效和准确地预测双钙钛矿的电子带隙。建立的学习模型进行了验证，并用于设计有前途的太阳能电池应用的性能材料居里温度（Tc），即二阶相变温度，是钙钛矿材料的另一个Zhai等人。[55]采用SVM、相关向量机和随机森林方法建立Tc的预测模型。通过k折交叉验证，SVM模型的预测性能优于其他两种模型。潜在的钙钛矿材料与高Tc的SVM模型的基础上，使用遗传算法引导的搜索策略。5. 结论数据驱动的科学，科学的第四范式，已经引起了MGI和材料信息学。MGI和材料信息学的发展彻底改变了这一理念T. Zhou et al. / Engineering 5（2019）1017-10261025材料研究与开发。数据驱动或ML方法不再依赖于实验试错或高通量从头计算，而是在预测各种材料的性质和指导实验人员发现和开发新的高性能材料方面发挥着重要这篇综述文章简要介绍了不同类别的ML算法以及相关的软件和工具。总结了ML方法应用于材料发现和设计的基本步骤。重点介绍了近年来在高分子材料、多孔材料、催化材料和含能材料的大规模筛选和合理设计尽管有大量的成功应用，但这一令人兴奋的课题在很大程度上仍处于起步阶段，相信在可预见的未来，ML将在加速各种功能材料的开发中发挥越来越重要的作用确认作者感谢德国马克斯·普朗克学会的财政支持。遵守道德操守准则Teng Zhou、Zhen Song和Kai Sundmacher声明他们没有利益冲突或财务冲突需要披露。引用[1] 2005年10月20日，中国科学院院士。进入未知化学空间的随机航行产生了所有可能的药物样化合物的代表性库。 J Am Chem Soc 2013;135（19）：7296-303.[2] 拉詹·K材料信息学：材料的“基因”和大数据。Annu RevMater Res 2015;45（1）：153-69.[3] Jain A ， Ong SP ， Hautier G ， Chen W ， Richards WD ， Dacek S ， et al.Commentary ： thematerialsproject ： amaterialsgenomeapproachtoaccelerating materialsinnovation. APL Mater2013;1（1）：011002.[4] MichalskiRS，Carbonell JG，Mitchell TM，editors. 机器学习：一种人工智能方法。Berlin：Springer-Verlag.[5] AgrawalA ， Deshpande PD ， Cecen A ， Basavarsu GP ， Choudhary AN ，Kalidindi SR. 探索数据科学技术，从成分和工艺参数预测钢的疲劳强度。IntegrMater Manuf Innovation2014;3：8.[6] Karak SK，Chatterjee S，Bandopadh

下载后可阅读完整内容，剩余1页未读，立即下载