机器学习在化学工程中的应用及挑战

161 浏览量更新于2024-01-22 收藏 1.24MB PDF 举报

AI赋能

人工智能机器学习

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

工程7（2021）1201研究AI赋能流程制造-透视化学工程中的机器学习：优势、劣势、机遇和威胁马腾河Dobbelaerea，Pieter P.放大图片作者：Plehiersa，Ruben Van de Vijvera，Christian V.史蒂文斯b，Kevin M.Van Geema，a化学技术实验室，材料、纺织和化学工程系，根特大学，根特9052，比利时b比利时根特9000根特大学生物科学工程学院绿色化学与技术系SynBioC研究小组阿提奇莱因福奥文章历史记录：收到2020年2021年1月16日修订2021年3月22日接受2021年7月29日在线提供保留字：人工智能机器学习反应工程过程工程A B S T R A C T化学工程师依赖模型进行设计、研究和日常决策，通常会带来潜在的巨大财务和安全影响。几十年前，将人工智能和化学工程结合起来进行建模的努力无法实现预期。在过去的五年里，数据和计算资源的可用性不断增加，导致了基于机器学习的研究的复苏。最近的许多努力通过开发用于化学应用的大型数据库、基准和表示以及新的机器学习框架，促进了机器学习技术在研究领域的推广。与传统建模技术相比，机器学习具有显著的优势，包括灵活性、准确性和执行速度。这些优势也伴随着弱点，例如这些黑箱模型缺乏可解释性最大的机会涉及在时间有限的应用中使用机器学习，例如实时优化和规划，这些应用需要高精度，并且可以建立在具有自学习能力的模型上，以识别模式，从数据中学习，并随着时间的推移变得更加智能。当今人工智能研究的最大威胁是不恰当的使用，因为大多数化学工程师在计算机科学和数据分析方面的培训有限。尽管如此，机器学习肯定会成为化学工程师建模工具箱中值得信赖的©2021 THE COUNTORS.Elsevier LTD代表中国工程院出版，高等教育出版社有限公司。这是一篇CC BY-NC-ND许可下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）中找到。1. 介绍在130年的化学工程中，数学建模对于工程师理解和设计化学过程是非常宝贵的。Octave Levenspiel甚至指出，建模是化学工程的主要发展[1]。今天，在一个快速发展的世界中，挑战比以往任何时候都多。预测某些事件结果的能力是必要的，无论这些事件是否与发现和合成用于新疾病的活性药物成分有关，或与提高工艺效率以满足更严格的环境法规有关。这些事件的范围从表面反应的反应速率或反应器中反应的选择性到对该反应器的热供应的控制预测可以*通讯作者。电子邮件地址：Kevin. UGent.be（K.M. Van Geem）。使用已经构建了几个世纪的理论模型。描述粘性流体行为的然而，这些模型中的许多不能被解析地求解为现实系统，并且需要相当大量的计算能力来数值地求解这一缺陷使得大多数工程师首先使用简单的模型来描述现实。一个重要的历史性但仍然相关的例子是普朗特在计算化学中，科学家和工程师愿意为了时间而放弃一些准确性这种意愿解释了密度泛函理论的流行，然而，在许多情况下，需要更高的精度。几十年的建模、模拟和实验为化学工程界提供了大量的数据，这增加了根据经验进行预测的选择，作为额外的建模工具包。机器学习模型https://doi.org/10.1016/j.eng.2021.03.0192095-8099/©2021 THE COMEORS.由爱思唯尔有限公司代表中国工程院和高等教育出版社有限公司出版。这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表工程杂志首页：www.elsevier.com/locate/engM.R. Dobbelaere，P.P.普莱耶河Van de Vijver等人工程7（2021）12011202是统计和数学模型，可以从经验中“学习”并发现数据中的模式，而无需明确的基于规则的编程。作为一个研究领域，机器学习是人工智能（AI）的一个子集。AI是机器执行通常与智能生物（如人类）行为相关的任务的能力。如图1所示，这个领域并不是特别新。“人工智能”一词从那时起，花了十多年的时间才首次尝试将人工智能应用于化学工程[5]。在1980年代，随着基于规则的专家系统的使用，该领域做出了更大的努力，是最简单的人工智能到那时，机器学习领域已经开始发展，但在化学工程界，除了一些例外，机器学习的发展滞后了大约10年。20世纪90年代，随着聚类算法、遗传算法和最成功的人工神经网络（ANN）的采用，可以观察到人工智能在化学工程中应用的出版物突然增加。然而，这一趋势并未持续下去。文卡[6]指出缺乏强大的计算能力和创建算法的艰巨任务可能是导致这种利益损失的原因。过去的十年标志着深度学习的突破，深度学习是机器学习的一个子集，它构造人工神经网络来模仿人脑。如上所述，人工神经网络在20世纪90年代在化学工程师中流行这些新的发展触发了化学工程师，这反映在该主题的论文数量呈指数级上升在过去，人工智能技术永远不会成为化学工程的标准工具;因此，可以问这是否是最终的时刻。在这篇透视文章中，我们将首先概述当今机器学习中应用于化学工程的三个主要环节。接下来，机器学习在化学工程中不断增长的潜力将被批判性地讨论;我们将研究利弊，并列出为什么机器学习在化学工程中仍然“热门”或最终成为“不热门”的可能原因2. 机器学习ABC2.1. 机器学习ABC中的机器学习方法由三个重要环节组成，如图所示。 2：数据、表示和模型。机器学习方法中的第一个正如稍后将讨论的那样，所使用的数据也被证明是机器学习过程中最薄弱的环节实际上，包含来自实验、第一原理计算或复杂仿真模型的结果的任何数据集都可以用于训练模型。然而，由于收集大量准确数据的成本很高，因此习惯上使用“大数据”方法-使用来自各种现有来源的由于真实实验的成本研究数字化的增加为科学界提供了大量的开源和商业数据库。常用的化学信息来源的例子是Reaxys[7]，Sciencore[8]和ChemSpace[9]用于反应化学和性质; GDB-17[10]用于小药物样分子;国家标准与技术研究所（NIST）[11]和国际纯粹与应用化学联合会（IUPAC）[12]用于分子性质，如溶解度。此外，还创建了几个基准测试数据集，以便在不同的机器学习模型之间进行比较。这些基准的示例是用于量子化学性质的QM 9和Alchemy[13];以及用于溶解度的ESOL[14]和FreeSolv[15]。在使用任何数据集进行基于机器学习的建模之前，应该采取几个步骤来确保所使用的数据具有足够高的质量。确保数据质量的一般方面（从生成到存储）称为数据策展。更多细节图1.一、人工智能、机器学习和深度学习的时间轴。关于化学工程中人工智能的出版物的演变表明，出版物的增加之后是一个不感兴趣的阶段目前，化学工程中的人工智能再次处于M.R. Dobbelaere，P.P.普莱耶河Van de Vijver等人工程7（2021）12011203图二、化工机器学习的三个主要环节，每一个环节都对最终的预测性能有影响，应该谨慎处理。关于数据策展的必要性和后果的进一步讨论。机器学习（更具体地说，是深度学习方法）和传统建模之间在数据使用方面存在一些差异。首先，人工神经网络从数据中学习并训练自己，尽管这样做需要大量的数据。因此，训练数据集通常包含数万到数十万个数据点。其次，数据集被分成三个而不是两个集：训练集、验证集和测试集。训练集和验证集都用于训练阶段，而只有训练集中的数据用于拟合。验证集是一个独立的数据集，在训练阶段提供模型拟合的无偏评估。测试集评估最终模型与未知数据的拟合，通常是模型质量的主要指标。2.2. 机器学习ABC中的机器学习方法中的第二个重要环节是如何在模型中表示数据。即使数据已经是数字格式，选择将构成模型输入的变量或特征也会对模型性能产生重大影响。这个过程被称为特征选择，并且已经成为几项研究的主题[16限制所选特征的数量可以降低训练和执行模型的计算成本，同时提高整体准确性。这个特征选择过程在所谓的深度学习方法中不太重要，深度学习方法被认为是在内部选择那些被认为重要的特征[20]。然后，由基本过程参数组成的输入层（例如，压力，温度，停留时间），进料表征（例如，蒸馏曲线，进料组成），或催化剂性质（例如，表面积，煅烧时间）通常是足够的[21然而，在非数值数据（如分子和反应）的情况下，表示数据的任务变得更具挑战性。化学工程任务通常涉及分子和/或化学反应。为这些数据类型创建合适的数字表示本身就是一个发展中的领域。在计算机应用中，分子组成通常由基于行的标识符表示，例如简化分子输入行输入系统（SMILES）[28]或（IUPAC）国际化学品分类系统（IUPAC）。标识符（InChI）[29]，或作为三维（3D）坐标。最近，自引用嵌入式字符串（SELFIES）[30]已经被开发为一种为机器学习应用设计的分子字符串表示。分子信息被转换成特征向量或张量，其用作深度神经网络或另一机器学习模型的输入表示分子的第一种方法是使用（一组）精心选择的分子描述符，例如分子量，偶极矩或介电常数[31生成分子特征向量的另一种方式是从3D几何形状开始库仑矩阵[34]、键袋[35]以及距离、角度和二面角的直方图[36]是基于几何的表示的几个示例。然而，3D坐标或计算的特性在许多应用中通常不可用在这种情况下，可以从分子图开始创建表示，从而产生所谓的基于拓扑的表示。在基于拓扑的表示中，只有基于线的标识符可用。存在直接将基于线的标识符转换为具有来自自然语言处理的技术的表示的编码器[37-这是通过将简单的原子和键特征添加到分子图中，然后在原子和键之间迭代地传输信息来基于摩根算法[61]的圆形指纹[42-这些指纹是所谓的固定分子表示，因为它们在机器学习模型的训练期间不会改变。它们在药物设计中仍然很受欢迎，可以快速预测候选药物的物理，化学和生物学特性[63]。由于固定的表示向量在每个预测任务中都用相同的向量表示分子，因此这种类型的输入层似乎与深度神经网络的定义相冲突，深度神经网络被假设为学习重要特征[64]。越来越多的人倾向于学习如何代表分子[47，52]，而不是人工设计特征向量，因为人们认为更好地捕获特征将导致更高的准确性，数据更少，计算成本更低[53，58]。学习的分子表示作为预测模型的一部分被创建。从几个初始分子开始M.R. Dobbelaere，P.P.普莱耶河Van de Vijver等人工程7（2021）12011204特征-例如重原子、键类型和环特征-创建在训练期间更新的分子表示。这种选择还表明，取决于预测任务，分子具有不同的代表性。可以使用Gilmer等人[59]回顾的消息传递神经网络框架来描述各种各样的学习的基于拓扑的表示[47-整个分子图中原子和键信息的加权传递是消息传递神经网络的特征。存在许多不同的表示，复杂程度不等，但重要的是要注意，尚未开发出适用于所有类型分子性质的单一表示[65]。对于表示分子的现有技术的更详细的概述，读者可以参考David et al.[60]第一章。化学反应是比分子更复杂的数据类型。与基于线的分子标识符类似，反应可以通过反应SMILES[66]和反应InChI（RInChI）[67]来识别，而SMIRKS[66]识别反应机制。至于分子，化学反应也应该按顺序矢量化在机器学习模型中很有用。最直接的方法是从分子描述符（例如，[2019-07 -18][另一种方法是根据积极参与反应的原子和键来学习反应表示[73]。反应也可以保持为文本（通常为InChI），并且通过神经机器翻译，有机反应产物然后被认为是反应产物的翻译[58，742.3. 机器学习ABC中的机器学习方法的最后一个先决条件是建模策略。有各种各样的机器学习模型可供选择。模型可以以不同的方式进行分类，可以根据目的（分类或回归）或学习方法（无监督，监督，主动或迁移学习）。一般来说，术语因此，许多目前被称为机器学习方法的技术在被称为机器学习之前很久就已经在使用了。两个这样的例子是高斯混合建模和主成分分析（PCA），分别起源于19世纪末[81]和20世纪初[82，83]。这两个例子现在都被认为是未监督的机器学习算法。其他类似的无监督聚类方法是t分布随机邻居嵌入（t-SNE）[84]和基于密度的噪声应用空间聚类（DBSCAN）[85]。图3显示了无监督学习技术和监督学习技术之间的差异，并为特定任务提供了有用算法的非穷举列表。在无监督学习中，算法不需要任何无监督学习技术在化学工程中有着广泛的应用.Palkovits R和Palkovits S[86]使用k均值算法[87]根据催化剂的特征对催化剂进行聚类，并使用t-SNE对高维催化剂表示进行可视化t-SNE不仅用于催化，还是可视化高维数据的首选方法;它还用于化学过程中的故障诊断[88，89]和预测反应条件[69，90]。PCA是另一种用于降低维度的算法，化学工程师多次使用它来确定训练集中占最大方差的特征[91此外，PCA用于离群值检测[93，98]。用于检测异常的其他算法包括DBSCAN和长短期记忆（LSTM）[99，100]。感兴趣的读者可以参考GéronBook[101]进一步介绍机器学习算法。当数据集被标记时，也就是说，当每个数据点的正确分类已知时，可以使用监督分类方法，如决策树（以及扩展的随机森林）[102，103]。支持向量机是另一种可能的监督分类方法[104]。尽管支持向量机通常用于分类目的，但已经进行了扩展以允许通过支持向量机进行回归回归问题需要监督或主动学习方法，尽管原则上任何监督学习方法都可以并入主动学习方法。人工神经网络及其所有可能的变体[105-根据应用，可以选择前馈ANN（用于基于特征的分类或回归），卷积神经网络（用于图像处理）或递归神经网络（用于异常检测）。化学工程师可能会遇到用于表示分子的卷积神经网络（见第2.2）[42-60]和ANN [32，33，47，91，114 -117]，支持向量机[32]或内核岭回归[36，118]用于预测表示的人工神经网络已被用作黑盒建模工具，用于催化[23]，化学过程控制[119]和化学过程优化[120]中的许多应用。当标签已知时，用于对数据点进行分类的流行算法是k-最近邻，其已用于例如化学过程监测[121，122]和催化剂聚类[86，123，124]。3. 优势在本节和以下各节中，我们将详细介绍化学工程师使用机器学习的优势、劣势、机会和威胁。图4总结了在接下来的部分中所描述的内容。机器学习技术在化学和化学工程中已经流行起来，因为它揭示了人类科学家无法发现的数据模式。与物理模型相比，物理模型明确地依赖于物理方程（由发现的模式产生），机器学习模型不是专门编程来解决某个问题的。对于分类问题，这意味着没有一个明确定义的决策图三. 无监督和监督机器学习算法概述;包括有用算法的非详尽列表。GMM：高斯混合建模; LSTM：长短期记忆;t-SNE：t分布随机邻居嵌入。M.R. Dobbelaere，P.P.普莱耶河Van de Vijver等人工程7（2021）12011205见图4。在化学工程中使用机器学习作为建模工具的优势，弱点，机会和威胁。功能必须编程。对于回归问题，这意味着不必推导或参数化详细的模型方程[80]。这些优点允许有效地升级到大型系统和数据集，而不需要大量的计算资源。一个例子是目前使用机器学习预测量子化学性质的热潮[32，33，35通常的从头开始这些方法通常需要数小时或数天来计算单个分子的性质。训练有素的机器学习模型可以在几分之一秒内做出准确的预测。当然，其他可以准确预测的快速技术已经开发出来，但与机器学习模型相比，它们的应用范围有限[125]。无法外推是机器学习的主要弱点，但应用范围可以通过简单地添加新的数据点来扩展。主动学习[126，127]可以用最少量的新数据扩展范围，这对于标记昂贵的情况是理想的（即，寻找数据点的真实值），如量子化学计算[116]或化学实验[72，128，129]。此外，现有的机器学习模型，如ChemProp[47]和SchNet[130，131]，可以随时使用，不需要经验。一般来说，机器学习已经变得非常容易使用scikit-learn[132]和TensorFlow[133]等软件包，以及Keras[134]（现在是TensorFlow[133]的一部分）或PyTorch[135]等框架，这些框架将深度学习模型的训练限制在几行代码中。这样的软件包和框架使科学家有机会将注意力转移到研究的物理意义上，而不是花费宝贵的时间开发高级计算机模型。4. 弱点机器学习方法的主要弱点之一是它们的黑箱性质。给定一个特定的输入，这些方法提供一个输出。这种情况如图所示。五、基于为了评估模型在测试数据集上的统计性能，可以对生成的输出的准确性和可靠性做出某些陈述。模型超参数的详细分析（例如，ANN中的节点数）可能是乏味的，但是可以提供对已经由模型学习的相关性的一些了解。然而，为某些行为提取物理上有意义的解释是不可行的。因此，无论其速度和准确性如何，机器学习模型都是解释性研究的糟糕建模选择。这种可解释性的缺乏导致了设计适当的机器学习模型的困难。与任何模型一样，机器学习模型可以过拟合或欠拟合数据，适当的模型位于两者之间。过度拟合的风险通常比机器学习模型的欠拟合风险大得多，并且取决于训练数据的质量和数量以及模型的复杂性。过拟合是模型结构的内在属性，不依赖于超参数的实际值-它可以与用非常高阶的多项式拟合（噪声）线性数据集进行比较。在深度学习中，过拟合通常表现为过度训练的形式，当模型被多次显示相同的数据时就会出现这种情况。这导致模型记忆噪声，而不是捕获一般模式。过度训练可以通过比较模型在训练数据上的性能与其在验证和测试数据集上的性能来识别。如果训练性能比验证性能好得多，则模型可能过度训练。找到训练时期的数量通常是一项困难的工作。为了避免过度拟合，机器学习模型需要一个停止准则，例如在其他优化问题中。在传统建模中，模型通常涉及相对于现实的至少某种形式的简化，这种停止标准通常基于训练数据集上的性能变化，因为实现训练数据的高准确性是由于简化的主要挑战。在训练数据集上实现准确性是M.R. Dobbelaere，P.P.普莱耶河Van de Vijver等人工程7（2021）12011206图五、解开黑盒模型的结果。差的结果通常与所使用的训练集有关当测试超出应用范围时，应发出警告好的结果需要验证，以了解模型学习了什么这通常不是机器学习模型的问题;相反，挑战主要在于在模型没有直接训练的数据上实现高精度。因此，停止标准应该基于模型在“看不见”数据上的性能-所谓的验证数据集。为了严格地测试优化的数据集，需要一个完全独立的数据集-测试数据集，这也是传统建模方法中的常见做法。机器学习方法的最后一个但往往是关键的弱点是所使用的数据本身。如果数据集中有太多的系统错误，网络本身就会产生系统错误，这就是所谓的有些形式或来源的错误可以相对容易地识别，而其他人一旦犯了错误，就很难找到。正如在每一种统计方法中一样，可能存在离群值。在小数据集上训练的模型比在大数据集上训练的模型更受一些离群值的影响。这就是为什么在机器学习中，不仅质量很重要，数量也很重要。系统误差的一种可能的解决方案是从数据集中手动删除这些点;也可以使用异常检测算法，如 PCA[69 ， 92] ， t-SNE[137 ， 138] ，DBSCAN[139，140]或递归神经网络（LSTM网络）[111，141，142]。最近，已经开发了用于异常检测的基于自学习无监督神经网络的方法[143][144除了简单的离群值，数据点实际上总是有可能是错误的。这样的数据点可能是来自测量错误的实验的一个样本，或者来自一整套不正确进行的实验。一个例子可以是来自化学分析的结果，其中仪器未被校准。在一组系统错误的数据上进行训练是特别危险的，因为模型会将错误的趋势视为真理。通过对公布的数据进行认真审查，此示例说明了数据策展的重要性，它确保所使用的数据准确、可靠和可再现。显然，数据只有在可用时才能被管理。尽管数十年的建模、模拟和实验为化学工程界提供了大量的数据，但这些数据通常存储在研究实验室中。企业或公司，因此不容易获得。即使在数据可访问的情况下，例如从内部数据库，可用数据也可能对机器学习不完全有用。这同样适用于使用文本挖掘技术从研究论文或专利中提取的数据[147]。这些数据可能没有用的原因是，一般来说，只有成功的实验被报道，而失败的实验仍然没有发表[148]。此外，对于人类化学工程师来说似乎是无意义的实验或操作条件然而，机器学习算法不知道这些边界，不包括这些“琐碎”的数据可能会导致错误的5. 机会机器学习方法的许多优点提供了各种应用机会，最近的发展提供了减轻一些最重要的批评的方法几乎任何经过训练的机器学习方法都具有极高的执行速度，这使得这些方法非常适合于在预定义系统边界内的精度和速度非常重要的应用此类应用的例子包括前馈过程控制和高频实时优化[149虽然经验模型往往缺乏这些应用的准确性，详细的基本模型很少足够快，在基础模型上训练的机器学习模型可以提供类似的准确性，但计算成本与经验模型相同。在这种情况下，模型在高级数据上进行训练，并试图预测经验结果与真实值之间的差异[152，153]。无监督算法可用于过程控制应用中，以发现实时数据中的异常值[93]。更准确、快速的预测和可靠的工业数据相结合，为创建数字孪生模型和更好的控制提供了机会，从而实现更高效的化学工艺。在多尺度建模方法中可以进行类似的观察，其中各种不同尺度的现象被M.R. Dobbelaere，P.P.普莱耶河Van de Vijver等人工程7（2021）12011207模型化，导致一组复杂且强耦合的方程。机器学习在这些应用中的潜力在很大程度上取决于多尺度方法的目标。如果目标是获得对较低尺度现象的基本见解，则机器学习由于其黑箱性质而不可取。然而，如果将较小尺度合并到该方法中以便获得用于较大尺度现象的更准确的模型，则机器学习可以用于替换用于较小尺度的缓慢基本模型，而不影响较大尺度现象的可解释性最后一个机会在于为机器学习的一个主要缺陷提供答案：它的不可解释性。可解释的机器学习系统的问题并不是化学工程问题所独有的-它几乎在任何决策系统中都遇到过[154在催化领域，人们试图合理化机器模型到底学习了什么[158]。然而，这一尝试仍然没有提供对模型结果的任何直接解释。图5示出了用于解释为什么获得特定结果的工作流程。当如果模型输出了一个好的结果，例如化学反应预测器给出了正确的产物，那么只有在检查了预测的基础之后才应该信任模型。解释模型结果的第一步是量化各个预测的不确定性[159，160]，因为这给出了模型在其自身决策中的置信度的概念[115，161 一个相对简单的方法是通过集成建模。这种方法已经在天气预报中使用了几十年，几乎可以与任何类型的模式结合使用[165还创建了几种算法来确定某些输入特征对输出的影响程度[168]，或者查看模型对某个输出使用哪些训练点[169，170]。当结果在化学或物理上看起来不合理时，应该通过寻找对抗性的例子来验证模型，而不是验证模型[159]。此外，通常在数据集中发现原因，数据集中存在错误数据或偏倚[171，172]。另一种使机器学习模型更加交互的方法-更好的方法是在模型本身中包括化学相关的和有充分根据的信息。解释仍然需要大量的后处理，但是如果使用人类可读的输入并且模型架构不是太复杂，它仍然是一个可行的任务。使用分子指纹作为输入的非常复杂的递归神经网络几乎不可能解释，因为模型输入对人类来说已经很难破译。在风险管理中，类似地，人们可以提出一个6. 威胁机器学习模型的可访问性既是研究的主要优势，也是研究的主要威胁。虽然机器学习可以被任何具有基本编程技能的人使用，但由于缺乏算法知识，它也可能被滥用。今天，有大量的机器学习算法可用，并且参数和超参数的大量组合是可能的。即使对于有经验的用户，机器学习仍然是一种合理的试错方法。由于研究人员通常无法解释为什么一种算法有效而另一种算法无效，一些人将机器学习视为一种现代炼金术[174]。此外，大多数已发表的文章都没有提供源代码，或者只有伪代码，这使得复制工作变得不可能[175，176]。尽管化学和化学工程没有那么多正如社会科学所做的那样[177]，由于机器学习在该领域的不可复制的使用越来越多，怀疑主义可能会在社区中增长。在Gartner的炒作周期[178]中除了不负责任地使用算法--而且可能更严重--是对结果的误解。算法的黑盒性质使得很难，而且往往几乎不可能理解为什么会得到某个结果。此外，模型可能会因为错误的原因而给出正确的结果[159]。因此，研究人员在使用机器学习时应该记住统计学的一个重要规则：它是关于相关性，而不是因果关系。另一种机器学习的不合理使用发生在模型离开其创建的应用范围时。应用范围由训练数据集决定，并且是有限的。在测试未知数据点时，研究人员应检查这些点是否在应用范围内。当点超出范围时，应向用户发出警告信号，表明模型性能较差[92]。图5的下半部分描述了如何通过查看训练集来找到获得差结果的原因。使用聚类算法的开源应用程序可用于评估数据准确性及其应用范围[180]。在化学工程研究中应用机器学习的最后一个威胁是，到机器学习技术。在将计算机和数据科学应用于化学和化学工程时，不仅要了解所使用的工具，还要了解其应用的过程。因此，在不久的将来，关于如何使用机器学习算法的简单培训可能会变得不够。相反，良好的人工智能和统计方法教育将成为化学工程本科课程的关键。另一方面，计算机科学家和专家之间需要就所研究的主题进行更多的合作。尽管缺乏训练的研究人员可能会错误地使用计算工具，但计算机和数据科学家在不完全熟悉所研究的主题时可能会获得次优结果。更多的跨学科研究以及机器学习专家和化学专家之间的共生可能是避免幻想破灭的一种方法。7. 结论和展望在过去的十年中，机器学习已经成为化学工程师工具包中的一个新工具事实上，由于其执行速度，灵活性和用户友好的应用程序，化学工程师对机器学习的兴趣越来越浓厚。这种流行的另一面是误用机器学习或误解黑箱结果的风险以下三个建议可以帮助提高机器学习模型的可信度，并将其转化为更有价值和更可靠的建模方法。首先，在社区内保持对数据和模型的轻松和开放访问是很重要的。高质量的数据和开源模型鼓励研究人员将机器学习作为一个工具，并赋予他们专注于他们的主题，而不是编程和收集数据的能力。第二，但与第一点有关，是创建可解释的模型。由于机器学习已经在其他研究领域建立，因此化学应用的新模型通常受到现有算法的启发。因此，该领域将最受益于研究为什么某种输出是从给定的输入中产生的，而不是从M.R. Dobbelaere，P.P.普莱耶河Van de Vijver等人工程7（2021）12011208维护黑盒最后一个建议是投资于深刻的算法教育。虽然化学工程师通常具有非常强的数学和建模技能，但理解图形界面背后的计算机科学是任何建模人员的先决条件这也应该能够界定模型的应用范围，这对于了解模型何时进行内插和何时进行外推至关重要最后一点绝对是最关键的：机器学习模型应该是可信的模型，只有当模型在其训练集之外使用时，才能保持警惕。确认作者感谢欧洲研究委员会（ERC）在欧盟地平线2020研究和创新（818607）下的资助Plehiers和Ruben Van de Vijver分别获得了来自佛兰德研究基金会（ FWO ）的博士（ 1150817N ）和博士后（3E013419）奖学金的财政支持。遵守道德操守准则马腾河Dobbelaere，Pieter P. Plehiers，Ruben Van de Vijver，Christian V. Stevens，and Kevin M. Van Geem声明他们没有利益冲突或财务冲突需要披露。引用[1] 利文斯皮尔岛化学工程建模。化学与工程科学2002;57（22- 23）：4691-6.[2] 斯托克斯GG。论不可压缩流体的定常运动。在：数学和物理论文。剑桥：剑桥大学出版社; 2009年。p. 1-16号。法语[3] 纳维尔角流体运动法备忘 Mem Acad Sci InstFr 1827;6：389-440. 法语[4] 普兰特湖你的小弟弟会让你很失望的。In：Riegels FW，editor. 路德维希·普朗特已经准备好了。Berlin：Springer; 1904.p. 484 -91. 德语.[5] Siirola JJ，Powers GJ，Rudd DF.系统设计的综合：III。一个过程概念生成器。AIChE J 1971;17（3）：677-82.[6] Venkatasubramanian V.人工智能在化学工程中的承诺：终于来了吗？ AIChE J2019;65（2）：466-78。[7] Reaxys [Internet].阿姆斯特丹：爱思唯尔; c2021 [引自2021年1月4日]。可从以下网址获得：https://www.elsevier.com/solutions/reaxys[8] CAS Scientist [Internet].Columbus ： American Chemical Society; c2021[cited 2021 Jan 4].可从以下网址获得：https://www.cas.org/products/scifinder[9] ChemSpace [Internet]. Monmouth Junction：Chemspace US Inc.; c2021 [2021年1月4日引用]。可从以下网址获得：https://chem-space.com/about[10] Ruddigkeit L，van Deursen R，Blum LC，Reymond JL.在化学宇宙数据库GDB-17中列举了1660亿个有机小分子。JChem Inf Model 2012;52（11）：2864-75.[11] NIST Chemistry WebBook。华盛顿特区：国家标准与技术研究所，美国商务部;c2018[ 引自 2021年 1 月 4 日 ] 。可从以下网址获得：https://webbook.nist.gov/chemistry/[12] 佩蒂特县IUPAC稳定常数数据库。国际化学杂志2006;28（5）：14-5.[13] Chen G，Chen P，Hsieh CY，Lee CK，Liao B，Liao R，et al. Alchemy：aquantum chemistry dataset for benchmarking AI models. 2019. arXiv ：1906.09427。[14] 德莱尼JS。ESOL：直接从分子结构估算水溶性。化学信息计算科学杂志 2004;44（3）：1000-5.[15] Mobley DL，Guthrie JP. FreeSolv：实验和计算的水合自由能数据库，带有输入文件。J Comput Aided Mol Des 2014;28（7）：711-20.[16] 霍尔MA。基于相关性的机器学习特征选择[论文]。汉密尔顿：怀卡托大学，1999年。[17] Khalid S，Khalil T，Nasreen SA.机器学习中的特征选择和特征提取技术综述。In：Proceedings of 2014 Scienceand Information Conference; 2014年8月27日至29日;英国伦敦。New York：IEEE;2014.[18] 薛B，张M，布朗WN，姚X.特征选择的进化计算方法综述。 IEEE Trans EvolComput 2016;20（4）：606-26.[19] 蔡军，罗军，王 S ，杨 S. 机器学习中的特征选择：一个新的视角。神经计算2018;300：70-9.[20] Szegedy C，Toshev A，Erhan D.用于物体检测的深度神经网络。在：NIPS 2013-神经信息处理系统会议第二十七届年会的会议记录。2013年12月9日USA.神经信息处理系统基金会; 2013年。[21] Bassam A，Conde-Gutierrez RA，Castillo J，Laredo G，Hernandez JA. 汽油辛烷值吸附分离直链和支链烷烃的直接神经网络建模。燃料2014;124：158-67.[22] DeOliveira FM ， de Carvalho LS ， Teixeira LSG ， Fontes CH ， LimaKMG，CâmaraABF，et al. 用人工神经网络模型预测柴油-生物柴油混合燃料的十六烷指数、闪点和硫含量. Energy Fuels2017;31（4）：3913-20.[23] 李宏，张智，刘智.人工神经网络在催化反应中的应用。催化剂2017;7（10）：306。[24] Abdul Jameel AG，Van Oudenhoven V，Emwas AH，Sarathy SM.核磁共振波谱与人工神经网络预测辛烷值。能源燃料2018;32（5）：6309-29。[25] Plehiers PP，Symoens SH，Amghizar I，Marin GB，Stevens CV，Van GeemKM. 蒸汽裂解建模中的人工智能：用于详细流出物预测的深度学习算法。工程2019;5（6）：1027-40。[26] Cavalcanti FM，Schmal M，Giudici R，Brito Alves RM.应用人工神经网络筛选水煤气变换制氢催化剂。J Environ Manage 2019;237：585-94.[27] 黄波S，Al R，Sin G.使用深度学习和蒙特卡罗模拟进行工厂数据驱动过程建模的集成框架。计算机化学工程2020;143：107071。[28] 魏宁格湾SMILES是一种化学语言和信息系统。1. 介绍方法和编码规则。化学信息计算科学杂志1988;28（1）：31-6.[29] Heller S，McNaught A，Stein S，Tchekhovskoi D，Pletnev I. InChI- 世界化学结构标识标准。 J Cheminform 2013;5（1）：7.[30] Krenn M，Häse F，Nigam A，Friederich P，Aspuru-Guzik A.自引用嵌入字符串（SELFIES）：100%鲁棒的分子字符串表示。Mach Learn Sci Technol 2020;1（4）：045024.[31] 杨伟华，王伟华，王伟华. 机器学习和分子描述符使不对称催化中的合理溶剂选择成为可能。Chem Sci2019;10（27）：6697-706。[32] Yalamanchi KK ， van Oudenhoven VCO ， Tutino F ， Monge-Palacios M ，AlshehriA ， Gao X 等人， Machine learning to predict standard enthalpy offormation ofhydrocarbons. J Phys Chem A 2019;123（38）：8305-13。[33] YalamanchiKK，Monge-Palacios M，van Oudenhoven VCO，Gao X，SarathySM. 估算环烃生成焓的数据科学方法。J Phys Chem A 2020;124（31）：6270-6.[34] Rupp M，Tkatchenko A，Müller KR，von Lilienfeld OA.使用机器学习快速准确地建模分子原子化能量。物理学评论快报2012;1

下载后可阅读完整内容，剩余1页未读，立即下载