生物燃料预测神经网络：图边注意力的D-MPNN模型优势与性能增强

96 浏览量更新于2024-01-22 收藏 1.46MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

能源与人工智能10（2022）100201基于图边注意力的有向消息传递神经网络（D-MPNN）预测生物燃料相关物种韩旭，贾明 *，常亚超，李耀鹏，吴少华大连理工大学海洋能源利用与节能教育部重点实验室，大连116024H I G H L I G H T S G R A P H I C A LA B S T AC• 本文研究了应用定向消息传递神经网络（D-MPNN）进行深度学习的方法生物燃料相关物种的定量结构-性质关系（QSPR）研究框架，并提出了D-MPNN中的图边缘注意力（GAE）。• 建议的注意机制是表明能够提高D-MPNN模型在预测生物燃料相关物种的特性方面的性能。• 这项工作还讨论和测试了用于生物燃料的QSPR来自一般观点。A R T I C L EI N FO保留字：深度学习生物燃料定量结构-性质关系机器学习分子图神经网络A B标准基于图神经网络（GNN）的预测模型近年来在包括生物燃料组分在内的有机物的定量结构-性质关系（QSPR）建模中受到越来越多的关注。对于生物燃料相关物种的性质预测任务，本工作应用了定向消息传递神经网络（D-MPNN）框架，一种新兴类型的GNN，并在D-MPNN架构上结合了图形注意力以提高其能力。利用其他常用的机器学习方法进行建模，证实了D-MPNN的优势。图边缘注意力（GEA）提出的D-MPNN层，并成功地提高模型的准确性实施后。来自QM9数据和其他4个数据集的相对较大的子集形成了广泛的目标属性（例如，热力学性质、点火性质、表面张力等）是为模型选择的。对这些数据集的物种分布进行了细分分析，以进行更明智的建模。由于生物燃料物种的数据可用性往往是相关建模任务的主要障碍，这项研究表明，当使用2000~5000的中等数据大小时，D-MPNN与建议的GEA注意机制的性能得到最大的增强。一些讨论是关于数据问题和使用机器学习方法和图形关注生物燃料特性的预测建模，指出需要更多的数据，更好的物种分布，是生物燃料的代表。* 通讯作者：联系地址：大连理工大学海洋能利用与能源转换教育部重点实验室，大连，116024。电子邮件地址：jiaming@dlut.edu.cn（M.Jia）。https://doi.org/10.1016/j.egyai.2022.1002012022年9月5日网上发售2666-5468/© 2022作者。出版社：Elsevier Ltd这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）。可从ScienceDirect获取目录列表能源与AI期刊主页：www.sciencedirect.com/journal/energy-and-aiX. Han等人能源与人工智能10（2022）10020121. 介绍氧代烃是生物燃料相关物种的主要组分[1-3]，由于其碳中和和低烟尘排放，由于这些用于运输燃料应用的物种的物理和化学性质在过去没有得到很好的研究，并且广泛的新物种值得发现作为生物燃料候选物，因此对这些物种的性质的有效表征有很大的需求[5由C、H和O三种元素组成，这一类别有大量可能的物种，具有各种结构和官能团。因此，为了燃料设计和反应建模的目的，在实验上表征所有潜在候选物质的物理/化学性质是不切实际的。由于量子力学计算的复杂性，使用自下而上的基于原理的模拟[10，11]也是非常昂贵的。燃料在应用端的诸多性能，如十六烷值、滞燃期、粘度、闪点等，将使基于分子结构的大规模原理模拟更加难以实现。近年来，基于机器学习的量化结构-由于现代机器学习的快速发展以及来自实验和从头算模拟的数据的日益可用性，QSPR方法[12，13]已经取得了巨大的进步。与量子力学计算方法相比，机器学习的主要优势是其在预测建模方面的优越计算效率。用于QSPR的常见机器学习方法包括从线性回归导出的方法（例如，LASSO[14]，弹性网络[8]），支持向量机[15在过去的十年中，深度学习对许多物理科学领域产生了重大影响，特别是在物理化学和生物学领域。图形神经网络（GNN）[21，25大多数正在研究的GNN架构可以归类为消息传递神经网络（MPNN）的通用框架，该框架首先由Gilmer等人正式定义。[21]第20段。作为主要GNN的推广在分子图的MPNN模型中，通常原子被表示为由节点表示，而键由边表示。传统上，消息从一个节点通过它们之间的边传递到它的相邻节点。MPNN的一些常见形式是门图神经网络[29]（GG-NN）、图注意力网络[30，31]（GAT）、GraphSAGE[32]、图卷积神经网络（GCN）[33]、层次化消息间传递[28]等。在所有领域的可用QSPR研究中，GNN最近被Schweidtmann等人成功应用于生物燃料十六烷值的预测。[34]。它利用了k-GNN[35]模型，该模型将节点的邻域作为新的单位节点特征。这是一个有意义的开始，而使用GNN作为建模工具的进一步研究仍然需要用于氧合物的适当预测，以了解其作为生物燃料的潜力最近，一个新开发的模型框架称为定向消息传递神经网络[36，37]（D-MPNN）被认为是有前途的，并已得到广泛接受。最近许多新的研究[38-D-MPNN的独特之处在于边是有向的，并且边而不是原子是消息的源和接收者。这两个特征防止消息的信息被重复地传递回其源，从而减少噪声。在这些研究中，Dobbelaere等人[38]。应用D-MPNN对环烃、多环烃和氧合物的热力学性质进行了计算，并与高斯混合模型的计算结果进行了比较。Grambow et al.[40].建立了D-MPNN模型预测气相基元反应活化能，得到了较准确的结果。这些先前的研究实现了原始的D-MPNN架构，而最近提出了D-MPNN的一些变体提高GNN模型性能的一种常见方法是引入图形注意力。Qian等人最近进行的一项研究[39]。通过设计一种注意系统，对D-MPNN进行了这样的尝试，该注意系统具有与原始D-MPNN纠缠在一起的复杂结构该模型架构也可用于分子性质预测，但倾向于携带大尺寸的参数集，这可能不适合典型的生物燃料应用，因为该领域缺乏相当大的数据集。另一方面，D-MPNN可以通过类似于普通MPNN中的GAT模型[30，31]的简单图形注意力从算法研究的角度来看，值得研究这样的模型变体。关于碳氢化合物和氧合物的数据集，除了QSPR的基准QM9数据集[42]给出了12个基本的分子性质，缺乏高水平性质的大型数据集，如润滑性，沸点，闪点等。大多数这样的数据集[8，35，43，44]仅由几百个甚至不到一百个物种组成。这些数据集主要是实验数据的集合，需要花费大量的时间和物理资源来获得，并且遭受测量的巨大不确定性。同时，由于物种的属性与其结构之间的关系非常复杂，过于简单的模型在映射这种关系方面的潜力较小。注意力机制通常可以在提高模型容量时对有限数量的参数（或时间和空间上的有限复杂性）提供更多的杠杆作用，如原始GAT工作中所述[30]。此外，对于分子性质，例如十六烷值、闪点、润滑性、沸点等，关键因素可能来自分子中的某些键或官能团。在这种情况下，具有组分原子或键的特征的未加权聚合的模型往往会在其预测性能方面受到影响。直觉上，图形注意力适合处理这种情况。本研究对生物燃料相关物种通过使用D-MPNN及其注意力嵌入变体来预测各种属性，以及其他一些常见的机器学习框架进行比较。为了提高模型性能，我们提出了D-MPNN层的图形注意力，而不是原子的键特征。这种类型的注意力被称为图边注意力（GEA）。此外，为了研究全局注意力的效果，还测试了由Vinyals等人开发的set2set注意力的性能。[45]用于图中的全局池化，并已广泛用于许多研究。对于生物燃料研究，原子级分子性质（特别是热力学性质），以及十六烷值和闪点等高级物理/化学性质，对于燃料设计都很重要。这项工作选择了四个高质量的生物燃料相关物种的数据集，具有广泛的大小和属性。分析了不同官能团在数据集中的分布情况，为QSPR研究提供了参考。广泛研究了注意力对D-MPNN模型的影响。由于数据集的大小是生物燃料物种QSPR研究的关键限制因素，因此研究了数据大小与模型性能之间的关系，以评估所提出的注意力系统对不同数据集大小的任务的适用性。2. 数据集和分析在这项研究中测试了三个公开的数据集。第一个是从基准QM9数据集中提取所有可用的物种，其中只有C，H和O中的元素。由此产生的数据集，在本文的其余部分命名为QM 9-CHO，大小为50，678个分子。每个分子最多有9个重原子（非氢原子）.这是一个相对较小的分子大小，但它已被证明是检查各种机器学习模型的有效方法此外，消息传递操作是本地化的，因此往往是不变的分子大小的扩展。在这项工作中，数据集的12个目标变量与X. Han等人能源与人工智能10（2022）1002013图1.一、（a）QM 9-CHO和（b）bio-FP数据集中由各重要氧合官能团组成的物质计数。图二. （a）QM 9-CHO和（b）bio-FP数据集中包含每种重要类型碳键结构的物质计数。图三. （a）QM 9-CHO和（b）bio-FP数据集中关于分子中环数的物质计数。原始QM9数据，但通过每个目标的高斯归一化重新缩放。与生物燃料最直接相关的目标特性因此，在这些属性上训练的模型可以作为模型在高级属性上性能的参考。氧化是热力学和键能性质，另外两个数据集是大气下的闪点（FP）包括0 K时的雾化能量u0298.15 K时的热容cv，298.15 K时的焓h298，298.15 K，吉布斯其他性质涉及分子的振动性质、电子能量和空间分布。显然，后面这些属性与反应行为的的物种对的宏观尺度Saldana et al.的压力[43]。以及Schweidtmann等人的十六烷值（CN）数据集[34]。在本文的其余部分中，它们分别被命名为bio-FP和bio-CN。Saldana et al.[43].虽然Schweidtmann等人也提供了氯化萘的数据，但其不确定性很高，而且不如Schweidtmann等人[34]的数据更新。总的来说，有631个物种的生物FP数据的实验数据，而大小为X. Han等人能源与人工智能10（2022）1002014见图4。在GEA的协助下，生物燃料QSPR的D-MPNN框架的一般示意图。生物氯化萘更小，只有236个物种。FP和CN都是气化和氧化过程中复杂物理化学相互作用的结果。它们是一个物种在特定的物理化学过程中有多容易着火的表征。至于生物燃料的其他一些重要宏观物理性质，Florian等人的数据集。也被使用。具体而言，基于数据大小和数据质量，从原始数据集中选择了570种物质的沸点（BP）和561种物质的表面张力（ST）数据。在下面的工作中，它们分别被称为生物BP和生物ST。在QM 9-CHO数据集中，90.3%的物种是氧合物。请注意，该数据集中的大多数氧代物种都不被认为是生物燃料的可行候选者然而，由于数据量大，官能团和分子结构对物种性质的影响化石燃料通常涉及的官能团和结构的分解见图1和图2。 1和2.可以看出，在含氧官能团中，醚在QM 9-CHO数据集中占主导地位，而只有一小部分（5.2%）的物质具有酯基，没有物质具有羧基。二甲醚（DME），这是近年来被视为一个羟基在QM 9-CHO中也显著存在，如对氧代烃所预期的。可能是由于QM 9-CHO最多9个重原子的限制，所有物质中只有非常小的一部分（1.4%）是芳香族的，并且没有稠合苯，这是聚芳烃（PAH）物质的主要类型的官能团在bio-FP数据集中，酯和醚都占据了显著的比例。比例bio-FP中的芳烃分数（18.7%）远高于QM 9-CHO。在bio-FP数据集中没有看到碳三键。生物-FP数据集还由大量的烃类物质组成。因此，分子的氧相关行为的学习将更具挑战性，因为数据集本身已经相当小。图3显示了对数据集循环结构的进一步了解。QM 9-CHO中多环结构（主要是单键）的主要存在可能使模型偏向于更紧张的C-C多环结构在bio-FP数据集中的存在可以忽略不计，因为大多数生物燃料候选物都是开放的。链结构。以上对QM 9-CHO和bio-FP的分析表明，两个数据集在其物种的结构分布上存在明显差异。关于bio-BP和bio-ST数据集，以及更小的bio-CN数据集，它们被证明与bio-FP数据集相似。QM 9-CHO数据集主要由正常生物燃料不常见的环结构组成，并且还显示出官能团之间的显著不平衡，这可以通过关注分子的某些键或区域的注意力机制来部分克服，但总体上羟基、羰基和醚基的充分存在可以支持训练的深度学习模型的良好泛化。然而，由于分子结构分布的这些巨大差异，人们不应该期望从QM 9-CHO数据集到生物燃料的高级性质的小数据集的可靠转移学习。这表明需要更好的模型来从小数据集中捕获分子特征，因为我们试图在这项工作中执行。在建立模型之前了解数据集物种分布是有用的，因为通常情况下，模型预测性能可能受到用于训练它的数据集的限制3. 建模在本节中，我们首先简要回顾了D-MPNN方法，然后介绍了我们模型中还将提供重要的模型设置3.1. D-MPNN分子图的D-MPNN模型框架在Yang等人的工作中有详细说明。[36]。它使用键而不是原子作为信息接收器。由于键变量有方向，每个键基本上由两个方向相反的变量表示。一个完整的D-MPNN，就像一个典型的MPNN一样，由几个消息传递层组成，这些层形成消息传递阶段和读出阶段，通常涉及全局操作（即，全局池化）以将图形信息转换成结构化特征。简言之，对于分子图G，考虑原子v，节点（原子）特征向量Xv和边缘（键）特征向量hvw通常遵循：X. Han等人能源与人工智能10（2022）1002015∑nv∈G⃒VWVWkVVW={（）\}VWUVVWVW，是一个德国大众=τhvw+Wmvw大众vVWv一vvVKhsum=（5）v∈Gh平均值=1∑hv（ 6）其中n是分子中原子的总数。然后将来自图的这个特征向量馈送到全连接神经网络模型（FCN）中，该模型最终输出物种的目标属性值。该算法使用开源Chemprop软件包实现[47]。3.2. 注意方法基于上述D-MPNN模型的基线框架，将注意力算法并入模型的不同部分。在D-MPNN中采用注意力机制仅见于Qian等人的一篇近期文献[39]。迄今为止，提出了一种结构复杂、参数规模较大的有向图注意力神经网络系统。这种复杂程度往往不适合用公开的生物燃料相关物种属性的相对较小的数据集进行建模。以前提出的普通MPNN的注意力模型GAT[30]是一个参数大小非常有限的基线图注意力公式。受其架构的启发，我们提出了一个类似的图形注意力机制，图形边缘注意力（GEA），D-MPNN层。图1给出了一个用于QSPR研究的D-MPNN框架的一般示意图，该框架结合了本工作中提出的GEA。四、在具有GEA的D-MPNN中，eu，v，w=σ.阿尔法猫。Wht，Wht））（ 7）图五. 我们的模型架构的插图与注意。注重avw=softmax。其中vw是计算的注意力向量，α是可学习向量，并且σ是一个非线性函数，在整个研究中，它被选为泄漏整流线性单元（Leaky-ReLU）。当注意力被并入时，原始消息表达（即，当量（1）成为模型的每个部分都是可选的。mt+1=∑a大众，kht（九）mt+1= ∑ht（一）k∈{N（v）\w}大众汽车t+1k∈{N（v）\w}.0t+1）经常使用多个注意力头。则方程中的项Wm t+1。(2)可以变成所有W im t+1的串联，attention heads，i是attention number。其中ht∈RD是在层t∈ {1， 2，.， T }的键特征消息，W是要训练的权重矩阵，τ是用作激活函数的非线性函数，并且W 是节点的集合连接到v不包括w。对于D-MPNN模型中的最后一个消息传递层（在t T处），节点隐藏特征是关联的。与消息一起发送，然后传递到节点：对于最后一个D-MPNN层，其中消息被传递到节点，注意力是通过ev，w=σ. 一只猫。xv，hT））（10）av=softmax。ev，k∈{N（v）}）（11）mT=∑hTw∈N（v）（三）其中v是计算的注意力向量。当GEA成立时，消息表达式最初是Eq. （3）成为h=τ。W猫。XmT））（4）mT=∑av，khT（十二）其中xv是原子v的输入节点特征，hv是节点v的隐藏特征，Wa是学习的权重矩阵X。在读出阶段，来自最后一个D-MPNN层的每个节点的特征将通过简单kVkV其中其对应于相邻节点k。（二V，k∈N（v）X. Han等人能源与人工智能10（2022）1002016的池化方法（总和或平均值）或复杂的全局特征提取算法转换为固定大小的向量，本文选择了set 2set池化方法[45]。总和合并和平均值合并的公式为：其中av，k是v中对应于邻居节点k的元素。总体而言，本文提出的D-MPNN层的GEA系统类似于普通MPNN的GAT模型。接下来，在读出阶段中，在等式（1）中的原始池化操作被执行。(5) 和（6）可以用图的set2set注意力模型代替，如Vinyals等人所提出的。[45]。这种注意力模型是全球最流行的注意力模型之一。简而言之，它涉及循环使用长短期记忆（LSTM）从输入和形式X. Han等人能源与人工智能10（2022）1002017图六、注意三种测试模型架构（M1、M2和M3）。表1D-MPNN（M0模型）与其他机器学习模型在QM 9-CHO中归一化属性值的RMSE检验误差上的比较，训练大小为70%。财产机器学习算法D-MPNN LASSO SVM RF GBDT XGBoost MLP表3通过M1模型（和括号中的基线D-MPNN M0模型）对QM 9-CHO中归一化特性的RMSE检验误差，作为训练数据大小的函数，作为50，678个物种的总数据集的一部分。粗体表示来自注意力并入模型的误差低于来自基线模型的误差的情况。2009年12月31日0.132 0.342 0.213 0.177 0.222 0.178 0.1980.110 0.281 0.215 0.202 0.226 0.176 0.2202009 - 2009两年期方案预算0.090 0.112 0.078 0.1040.002 0.048 0.085 0.014 0.008 0.014 0.0742980.002 0.048 0.085 0.014 0.010 0.014 0.0682980.002 0.048 0.085 0.0142980.002 0.048 0.085 0.015 0.007 0.014 0.062表2D-MPNN（M0模型）与其他机器学习模型在四个较小数据集中属性值的RMSE检验误差的比较，即，bio-FP、bio-CN、bio-BP和bio-ST。机器学习算法（0.4305）α0.0455（0.0449）同性恋0.2885（0.2908）卢莫0.0963（0.0976）差距0.1318（0.1320）cv0.0524（0.0520）u00.0014（0.0019）（0.480）0.078（0.082）0.341（0.343）0.111（0.109）0.151（0.151）0.083（0.085）0.020（0.031）（0.510）0.173（0.198）0.383（0.389）0.126（0.128）0.175（0.175）0.163（0.179）0.156（0.179）（0.554）0.317（0.361）0.430（0.436）0.146（0.151）0.196（0.202）0.299（0.325）0.318（0.377）（0.630）0.564（0.568）0.548（0.563）0.192（0.198）0.253（0.263）0.516（0.513）0.580（0.584）D-LASSO SVM RF GBDT XGBoostMLP298MPNN沪公网安备31010502000115号298（0.0017）（0.029）（0.181）（0.379）（0.585）中国8.93 10.72 11.29 13.37 11.40 12.45 9.97沪公网安备31010502000114号g2980.0029（0.0020）0.015（0.027）0.153（0.180）0.317（0.385）0.582（0.584）ST [mN/m]0.56 1.87 1.33 1.53 1.40 1.36 1.50原子和键的矢量通过RDKit[50]。的输入功能通过将查询与来自具有那些注意力权重的节点特征的聚合连接来生成新输入。到目前为止，完整D-MPNN模型中三个不同位置中每一个的注意力机制都是用GEA描述的，作为D-MPNN层的新定义的注意力类型。注意力不一定会集中在一起。但是通常，最后一个D-MPNN层中的GEA总是被包括在内，因为这往往会产生更好的结果，这将在本文后面显示。GEA-D-MPNN的整体模型架构如图5所示。我们模型的代码是建立在原始的Chemprop包上的[47]。3.3. 模型设置和培训样品物种的分子结构最初以SMILES格式输入程序[49]，并转换为初始特征μα0.4310.0450.5970.1500.5230.1370.5050.1140.5470.1110.5260.0920.6130.118物业培训数据百分之七十作为原始尺寸20% 10%最终数据集百分之五百分之一homo0.2910.6080.4650.4060.4850.4030.452亩0.42880.4810.5130.5530.622R20.10880.1460.1940.2710.468（0.1095）（0.149）（0.201）（0.299）（0.485）兹普韦0.00890.0150.0770.1840.332（0.0087（0.014（0.097）（0.220）（0.334u0.00210.0170.1510.3170.580（0.0018）（0.025）（0.177）（0.385）（0.583）H0.00230.0210.1560.3200.580X. Han等人能源与人工智能10（2022）1002018原子和键与Yang等人[36]使用的相同。对于原子，有8个离散输入特征，包括其元素，质量，芳香性，杂化等。对于键，有4个离散输入特征，包括键类型，环归属等。对于QM 9-CHO输出，目标物种属性值在用于模型之前进行高斯归一化。对于基线D-MPNN模型（注释为M0），对于QM 9-CHO模型，消息传递层的数量d和每个层的宽度w设置为（5，600），而对于bio-FP、bio-CN、bio-BP和bio-ST模型，设置为（3，160）这些数字的选择基于早期模型优化的结果。在原始D-MPNN框架[36]中建议作为可选输入的其他分子指纹不包括在我们的模型中，因为在我们的情况下，它们建立了过大的全局特征向量，形成噪声，这往往会降低模型预测准确性并干扰我们关于注意力影响的每种燃料的性质是X. Han等人能源与人工智能10（2022）1002019见图7。M1和M0模型关于两个选定目标属性（alpha和zpve）的比较。数据大小是用于训练模型的物种数量。测试误差是归一化属性变量的RMSE分配一个单独的模型，而不是在多任务模式下训练。在读出阶段，QM 9-CHO数据集的D-MPNN模型采用Eq. （5）当对于bio-FP、bio-CN、bio-BP和bio-ST数据集，采用如等式2中的平均聚集函数。(6).最终的FCN块是完全连接的神经网络，由一个隐藏层和一个输出层组成。隐藏层的大小与D-MPNN层的宽度相同。每个D-MPNN层的参数集不与其他层共享。除GEA中的激活外，本工作中使用的所有激活都是ReLU。关于注意力，有三个模型架构（如图6所示）要训练和测试。第一个架构，标注为M1，只有模型的最后一个消息传递层具有GEA，模型的其余部分作为基线架构M0保持不变。第二个架构，注释为M2，也以等式的形式将GEA合并在倒数第二个消息传递层和第二个消息传递层中。（7 - 9）除了最后一个消息传递层中的GEA之外。第三个架构，注释M3，除了在最后一层的GEA，在读出阶段采用set2set全局注意力。QM 9- CHO模型的所有GEA均采用8个关注点，而生物FP、生物CN、生物BP和生物ST模型的GEA均采用4个关注点，因为较小的数据量和较高的数据不确定性会增加过度拟合的风险对于set2set算法，处理步骤的数量被设置为3，LSTM模块只有一层。除了D-MPNN及其注意力嵌入变体之外，还使用了一些常用的机器学习模型框架来提供基线精度，并展示了D-MPNN在预测任务中的优势。这些框架包括LASSO，支持向量机（SVM），随机森林（RF），梯度提升决策树（GBDT），XGBoost和多层感知器（MLP）。见图8。在数据大小为2534（QM 9-CHO数据集的5%）时训练的M0（上图）和M1（下图）的α模型之间关于（a）预测α值和（b）D-MPNN编码器的t-SNE分量的比较，绘制的醚（红色）、酯（蓝色）、醛（绿色）和酮（黄色）的物质各为1000。X. Han等人能源与人工智能10（2022）10020110××表4通过M2模型（和括号中的M1模型）对QM 9-CHO中归一化特性的RMSE检验误差，作为训练数据大小的函数，作为50，678个物种的总数据集的一部分。粗体表示来自注意力并入模型的误差低于来自基线模型的误差的情况。财产训练数据大小占原始数据集的一小部分70% 20% 10% 5% 1%采用网格搜索法对上述机器学习算法进行了优化，其中LASSO的收缩权为1 × 1010102]，核固定为RBF; RF、GBDT和XGBoost的树的数量分别为200、120和120;当训练数据大于1000时，叶节点中的样本数为2;这些决策树算法的最大树深度位于[6，20]或不受限制;每个MLP模型有两层，第一层大小mu0.46490.4840.5250.5520.624在[50，300]的范围内，并且第二层大小为100;保持阿尔法人（0.4288）0.0454（0.0455）0.3104（0.2885）（0.481）0.082（0.078）0.348（0.341）（0.513）0.199（0.173）0.392（0.383）（0.553）0.323（0.317）0.437（0.430）（0.622）0.556（0.564）0.559（0.548）主成分分析的分量数在[50，150]中。其他被测试或忽略的超参数设置在Scikit-learn中保持默认值。每个预测任务（物种属性）中的超参数设置各不相同。虽然不能保证最佳卢莫0.09570.1160.1320.1500.187准确性，超参数进行测试，以显示小的空间，信号，间隙r2（0.0963）0.1466（0.1318）0.1300（0.1088）（0.111）0.160（0.151）0.155（0.146）（0.126）0.185（0.175）0.203（0.194）（0.146）0.204（0.196）0.276（0.271）（0.192）0.255（0.253）0.445（0.468）在确定之前，有进一步的改进。对于QM 9-CHO数据集，使用不同的分数大小分别训练具有相同架构的模型，以研究数据大小对模型性能的影响模型经过训练Zpve0.00830.0150.0900.1780.32410倍交叉验证对于给定比例的训练数据，其余的（0.0089）cv0.0533（0.0524）（0.015）0.093（0.083）（0.077）0.192（0.163）（0.184）0.294（0.299）（0.332）0.500（0.516）将数据平均分为验证数据和测试数据。本文的比较研究将为我国中小企业如何应对中小企业的规模限制提供有益的建议。u00.0009（0.0014）u2980.0013（0.0021）h2980.0015（0.0023）g2980.0007（0.0029）表50.029（0.020）0.034（0.017）0.028（0.021）0.026（0.015）0.163（0.156）0.165（0.151）0.155（0.156）0.165（0.153）0.318（0.318）0.316（0.317）0.319（0.320）0.318（0.317）0.566（0.580）0.566（0.580）0.564（0.580）0.568（0.582）训练生物燃料相关的D-MPNN模型。4. 结果和讨论在本节中，介绍了训练的D-MPNN模型的结果以及对不同位置注意力影响的讨论。如表1中显示的建模结果所示，当应用于本研究中使用的QM 9-CHO数据集时，D-MPNN证明具有优于其他机器学习框架的明显优势。与D-MPNN相比，XGBoost始终提供相对更好的性能，M3模型（和括号中的M1模型）在QM 9-CHO中的归一化特性的RMSE检验误差，作为训练数据大小的函数，作为50，678个物种的总数据集的一部分。粗体表示来自注意力并入模型的误差低于来自基线模型的误差的情况。财产训练数据大小占原始数据集的一小部分70% 20% 10% 5% 1%比其他的机器学习模型更好。这不仅是由于基于决策树的集成方法在学习高度复杂的非线性关系中的固有能力，而且还可能是由于作为输入的一些分子特征的离散性质，这些特征可以由决策树更好地处理。LASSO似乎是最不能够建模分子特性。但一些仔细的特征工程，计算非线性的性质-结构关系，mu0.44390.4960.5180.5500.601会很麻烦，但可能会改善结果。而性能阿尔法人（0.4288）0.0504（0.0455）0.2891（0.2885）（0.481）0.192（0.078）0.335（0.341）（0.513）0.220（0.173）0.397（0.383）（0.553）0.370（0.317）0.430（0.430）（0.622）0.606（0.564）0.534（0.548）普通机器学习模型的性能各不相同，与D-MPNN相比，它们的差异相对较小。这验证了D-MPNN或GNN的固有优势，即能够直接对具有局部细节的图结构进行卢莫0.09760.1130.1330.1390.175在处理其他四个小数据集时，如表2所示，间隙r2（0.0963）0.1334（0.1318）0.1333（0.1088）（0.111）0.155（0.151）0.167（0.146）（0.126）0.172（0.175）0.208（0.194）（0.146）0.191（0.196）0.297（0.271）（0.192）0.233（0.253）0.518（0.468）D-MPNN仅对CN和ST表现出一定的优势。从实验中判断，小规模和大的不确定性，在四个小数据集上的准确性显著提高一些其他机器学习模型也可以擅长学习这种类型的Zpve0.08930.1180.1150.2430.363数据集。例如，SVM以处理离群值而闻名，（0.0089）cv0.0522（0.0524）（0.015）0.162（0.083）（0.077）0.186（0.163）（0.184）0.322（0.299）（0.332）0.551（0.516）大数据不确定性，特别是当特征尺寸较大而数据尺寸较小时。表2所示的性能确实表明，u00.12790.1790.1740.4090.610这在QM 9-CHO中是看不见此外，一个复杂的（0.0014）u（0.020）（0.156）（0.318）（0.580）像D-MPNN这样的深度学习模型通常对数据2980.1276（0.0021）h2980.1327（0.0023）0.178（0.017）0.179（0.021）0.185（0.151）0.183X. Han等人能源与人工智能10（2022）10020111（0.156）0.411（0.317）0.410（0.320）0.611（0.580）0.612（0.580）尺寸因此，看到D-MPNN在CN和ST上的表现优于其他常见的机器学习模型实际上是令人惊讶的。然而，D-MPNN在小数据集上的分子g2980.1251（0.0029）0.181（0.015）0.175（0.153）0.407（0.317）0.611（0.582）房地产研究有很多不确定性。虽然人们可能会应用一种自我监督的方法，预训练模型来单独学习图形属性，就像之前对GNN的研究中所做的那样[51]，使其成为一个它们使用Scikit-learn库实现。输入要素是标准RDkit 2D要素，经过标准化后，要素大小为200.对于容易出现多重共线性的LASSO或容易出现小数据集噪声问题的MLP，当主成分分析（PCA）被证明可以提高对测试属性的预测时，也可以在模型之前使用PCA主要超参数快速学习者随后的监督任务和较少依赖于大数据，这样一个复杂的方法是留给未来的研究。总的来说，表1和表2的结果表明，D-MPNN是一个有前途的框架，生物燃料相关物种的QSPR任务，并在此基础上的进一步发展是有价值的。对于有和没有GEA模块的D-MPNN之间的比较，如表3和图4所示。7、测试结果误差来自于X. Han等人能源与人工智能10（2022）10020112见图9。通过不同模型对bio-FP和bio-CN数据集进行RMSE检验误差，包括平均误差及其标准差。属性值未规范化。见图10。通过不同模型对bio-BP和bio-ST数据集进行RMSE检验误差，包括平均误差和标准差。属性值未规范化。QM 9-CHO的M1模型（仅具有最后一层GEA的模型）大多低于M0模型（没有任何关注的模型）。在所有48对M1和M0模型中，有38对表明M1的表现优于M0。这表明最后一层D-MPNN上的GEA使模型的性能得到了提升。特别是，当训练数据大小为总数据集的5%或10%时，分别为2534和5068个物种，M1在所有属性上都优于M0，其中许多属性的RMSE降低超过15%为了深入了解用5%数据大小训练的M0和M1模型之间的不同性能，为该数据集中的四种重要氧代物种类型中的每一种随机选择1000个物种，即，醚、酯、醛和酮，以观察模型如何区分它们。t分布随机相邻嵌入（t-SNE）用于对α模型的编码输出（在FCN块之前）的600个特征执行非线性维数降低。在图8（b）中，仔细的比较表明，M1比M0更能区分这四种类型的物质，对于后者，醚、醛和酮在相当大的区域内没有分离的迹象。这意味着在最后一层使用GEA的M1模型能够更好地捕获重要的官能团。然而，如总数据集的70%作为训练大小，当使用大数据集进行训练时，M1没有明显的优势。一个可能的原因是，训练数据足够大，准确率相当高，可能没有太多的潜力可以进一步改进。的事实适度小的训练大小有利于M1模型，这表明在这种情况下，即使参数大小与数据大小相比已经很大，但通过引入GEA，模型也不会过度参数化。关于以总数据集的1%作为训练大小的情况，尽管来自M1的大多数RMSE低于来自M2的RMSE，但是， M0，RMSE值的减少太小，无法证明GEA在此训练规模下具有真正的效果。因此，在适度小的训练大小范围内，最后一个D-MPNN层中的GEA确实提高了模型性能，至少对于QM 9-CHO数据。如果我们进一步将GEA添加到倒数第二个D-MPNN层，则结果通常不会显示出明显的改进，这表明该层中的GEA不太有效，如表4中M2和M1之间的比较所示。这可能是由于下一层传递的消息会稀释这一层的注意力权重所产生的效果。这也可能是因为大多数碳原子仅与两个重原子成键，在这种情况下，当目标是另一个有向边缘时，输入有向边缘的注意权重没有意义，因为只有一个输入边缘可用。这与最后一个D-MPNN层不同，因为目标是一个节点，并且在这种情况下有两个来自重原子的输入边，如图3所示。因此，最后一层D-MPNN上的GEA是最有效的一个，并且在较低层中进一步添加GEA可能是无效的。关于set2set的全局关注度，从表5中可以看出，在比较M3和M1模型时，它实际上降低了准确性。只有在某些情况下（特别是当训练

下载后可阅读完整内容，剩余1页未读，立即下载