高能材料机器学习虚拟筛选与定制性能

72 浏览量更新于2024-01-22 收藏 2.27MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

工程10（2022）99研究材料基因组工程-文章基于机器学习的高能材料按需定制虚拟筛选宋四维，王毅，陈芳，米妍，张清华中国工程物理研究院化学材料研究所，四川绵阳621900阿提奇莱因福奥文章历史记录：2021年3月30日收到2021年10月25日修订2022年1月15日接受2022年2月24日在线提供保留字：高能材料机器学习高通量虚拟筛选分子特性合成A B S T R A C T由于试验和错误的研究效率低，寻找具有定制性能的含能材料一直是一个重大挑战本文提出了一种结合领域知识、机器学习算法和实验的方法来加速新型含能材料的发现。建立了一个高通量的虚拟筛选（HTVS）系统，该系统集成了按需分子生成和机器学习模型，涵盖了分子性质预测和晶体堆积模式评分利用所提出的HTVS系统，具有有前途的性质和期望的晶体堆积模式的候选分子25112个分子。晶体结构和性质的研究表明，目标分子具有良好的压缩性能，与预测结果相一致，从而验证了所提出方法的有效性.这项工作展示了一种新的研究范式，发现新的高能材料，并可以扩展到其他有机材料没有明显的障碍。©2022 The Bottoms.Elsevier LTD代表中国工程院出版，高等教育出版社有限公司。这是一篇CC BY-NC-ND许可下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）中找到。1. 介绍含能材料是一类特殊的反应性物质，在一定的外界刺激下，通过强烈的氧化还原反应可以释放出巨大的能量。自2000多年前中国古代发现黑火药以来，这些材料为人类的进步和繁荣做出了重大贡献[1，2]。在使用先进的含能材料时，能量、灵敏度和热稳定性是最受关注的三个特性[3然而，能量、灵敏度和热稳定性之间总是存在相互矛盾和制约的关系。总的来说，高能量含能材料的机械敏感性增加和热稳定性下降总是伴随着。因此，开发同时具有高能量、低灵敏度和良好热稳定性的新型含能材料仍然是一个巨大的挑战。已经开发了用于指导含能材料设计的经验模型，例如用于预处理的*通讯作者。电子邮件地址：ywang0521@caep.cn（ Y.Wang ），qinghuazhang@caep.cn（Q.张）。炸药爆炸性能和硝基装药法预测机械感度[7，8]。然而，这些经验模型很少用于实验合成前的大规模预筛选，因为耗时的量子计算是负担不起的，而且推断能力是不确定的。长期以来，新含能材料的发现严重依赖于科学直觉，通过实验和传统的试错过程[9]，效率低，不确定性高[10]。随着大数据时代的到来，含能材料的研究范式发生了深刻的变化[11，12]。与经验模型相比，机器学习模型通常在准确性、泛化能力和处理非线性问题的能力方面具有各种优势[13]，因此广泛应用于材料科学的各个领域[14在这里，我们展示了一个机器学习辅助的高通量虚拟筛选（HTVS）系统，用于加速发现具有良好平衡的能量安全特性的新高能材料。该HTVS系统将机器学习模型与高通量分子生成相结合，有助于从25112个生成的分子结构中快速筛选出有希望的靶分子。筛选出的化合物也具有相对高的可能性拥有石墨状晶体https://doi.org/10.1016/j.eng.2022.01.0082095-8099/©2022 THE COMEORS.由爱思唯尔有限公司代表中国工程院和高等教育出版社有限公司出版。这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表工程杂志首页：www.elsevier.com/locate/engS.宋，Y。Wang，F. Chen等人工程10（2022）99100XP.ω-iPN-1y-yiN-1.Σ¼ ð ÞN我我精度1. y<$yω5N.Σ这种特殊的晶体堆积模式通常表现出更好的能量安全特性。在进一步评估合成可行性的基础上，通过三步反应合成了一种有前途的稠合[5，6]双杂环主链基含能材料7，8-二硝基吡唑并[1，5-a][1，3，5]三嗪-2，4-二胺（以下简称ICM-104）对合成材料性能的研究表明，这种新型含能材料具有能量高、感度低、热稳定性好等综合性能。这些发现证明了所提出的HTVS系统的有效性，以及机器学习在设计高性能含能材料方面的巨大潜力。验证。选择决定系数（R2）作为改装评分（公式1）。（3），其中y为平均值。平均绝对误差（MAE）用于评估模型性能，并由方程给出。（四）、在所有等式中，i和N是指第i个样本和样本的总数。N-1关于我们aik<$xω;xi<$<$1<$1/4a，h，k.X;XTkIi-1Y22. 方法2.1. 数据准备和扩充N-1y yR2¼1 -i¼0i1/4N-1ð3ÞMAE¼1X. y-yω。ð4Þ1/4从过去几十年的文献中收集到的来训练属性回归模型。该数据集包含各种结构的分子，涵盖脂肪族、芳香族、单环和多环化合物（详细样本和数据来源见附录A中的数据集1）。附录A中的图S1提供了有关数据集的更多特征，例如数据分布。在训练回归模型之前，所有数据以80：20的比例随机分为训练数据和测试数据。训练数据被进一步分成训练集，用于训练模型和调整超参数的五重交叉验证的验证集。也就是说，验证集包括五个部分，每个部分用于验证一次，而其余四个部分用作训练集。最终的测试分数是根据在培训过程中没有使用的保留测试数据计算的为了训练分类模型，我们从剑桥晶体数据中心（CCDC）准备了365个标记为“0”（表示不像石墨）的条目和22个标记为“1”（表示像石墨）的条目（参见附录A中的数据集2）。显然，数据量太小，不适合深度学习。因此，我们使用简化的分子输入行输入规范（SMILES）枚举技巧增强了数据，该技巧生成了表示相同分子的多个不同SMILES字符串。SMILES枚举，由Arús-Pous提出等人[23]和Bjerrum[24]，是一种用于分子深度学习的新型数据增强技术。标记为“0”和“1”的SMILES扩大后，总样本量扩大到4000多人。在训练卷积神经网络（CNN）和长短期记忆（LSTM）模型时，保留了400个样本来评估所提出的模型的性能2.2. 特征与模型特征（即，分子描述符），包括自定义描述符和电拓扑指纹提取使用的分类模型的CNN和LSTM使用Pytorch包构建。为了准备输入，从整个数据集的SMILES中自动提取字典。字典的细节如下：‘c’,‘4’, 因此，SMILES字符串被转换为大小为[120，23]的二维（2D）数组。对于LSTM模型，SMILES的长度限制为120，允许的字符与字典中的字符相同。此外，CNN包含两个2D卷积层和三个全连接层。2D卷积层的滤波器大小为16和32，而内核大小分别为最大池化层的内核大小为2。全连接层的宽度分别为800、100和2。整流线性单元（ReLU）用于激活函数。LSTM的隐藏大小为64，层数为20.对于这两种深度学习架构，损失函数由交叉熵定义，并且使用学习率为0.001的Adam优化器准确度（由等式定义）（5）、平衡精度（由等式定义）（6））和F1评分（由等式（6）定义）。（7））被选为评估模型性能的指标，其中TP、FP、TN和FN分别代表真阳性、假阳性、真阴性和假阴性为了说明深度学习架构的必要性，基于描述符的K-最近邻（KNN）作为基线进行了测试然而，SMILES枚举不应用于训练KNN模型，因为基于不同SMILES的描述符表示相同的分子是完全相同的。1我我1/41TPTN平衡精度：1/2TP/FN/TN/FP/600RDKit 库。属性模型通过在 Scikit-learn 包中实现的核岭回归（KRR）算法进行训练在KRR算法中，预测值（y*）可以表示为内部预测的加权平均值（ai）F1分数¼2精度×召回精度×召回TPð7Þ在新样本（x*）和训练样本（x）之间进行转换给定核函数（k）（等式1），① ①）。因此，学习过程涉及使用等式（1）计算系数矩阵（a，并且ai是a的第i个条目）。其中X、Y、k和I分别是样本矩阵、标签矩阵、正则化参数和单位超参数包括内核函数使用网格搜索方法和五重交叉调整，精密度¼TP/ FP/8mm召回TP9TPFFN为了对可能性进行评分，在预测过程中使用了SMILES枚举技巧在20个微笑中，1000多条含能材料数据是S.宋，Y。Wang，F. Chen等人工程10（2022）99101Pω20-分子，具有类石墨结构的分子的比例（p）可以在分类之后获得（等式10）。（10））。将上述过程重复十次以减轻SMILES枚举中的随机性，并且将p的总和作为最终得分（等式10）。（11））。20年p¼i<$1i;yωi2f0;1g1010在Bruker（USA）Avance Neo 400 NMR光谱仪上收集1H和13C光谱，分别在400和100 MHz下操作。使用具有电喷雾电离（ESI）的Shimadzu LCMS-IT-TOFTM质谱仪收集高分辨率质谱（HRMS）。使用标准BAM落锤和BAM摩擦测试仪进行冲击和摩擦灵敏度测量。化合物的生成热由使用氧弹量热计测量的燃烧热计算。标准的爆炸特性分数¼Xpið11Þ使用Explo5（版本6.02）软件计算1/12.3. 制备与表征虽然本文报道的化合物对外部机械刺激（例如，冲击和摩擦），在合成过程中使用高腐蚀性浓硫酸。因此，我们建议使用安全设备，如防护手套、外套、面罩和防爆挡板。2.3.1. 制备的 4-硝基-3，5-吡唑二胺盐酸盐4-硝基-1H-吡唑-3，5-二胺根据先前报道的路线制备[25]。将浓盐酸（3 mL）加入到4-硝基-1H-吡唑-3，5-二胺（3 mmol，0.429g）在甲醇（5 mL）中的悬浮液中。搅拌10分钟后，过滤得到的浅黄色固体，用乙酸乙酯（EtOAc）洗涤，得到4-硝基-1H-吡唑-3，5-二胺盐酸盐（产率80%）。2.3.2. 8-硝基吡唑并[1，5-a][1，3，5]三嗪-2，4，7-三胺的制备该中间体是根据先前报告的路线制备的，略有变化[26]。首先，将4-硝基-1H-吡唑-3，5-二胺盐酸盐（3 mmol，0.54g）悬浮于THF（20 mL）中。在乙醇(11 mL）。然后，将双氰胺（4mmol，0.33g）加入悬浮液中。将混合物在80 °C下回流6小时。在搅拌过程中，溶液中逐渐出现橙色固体。过滤橙色固体，并在80 °C下用水进行结晶，得到黄色固体（8-硝基吡唑并[I，5-a][1，3，5]三嗪-2，4，7-三胺;产率60%）。2.3.3. ICM-104的制备在冰水浴中，将8-硝基吡唑并[1，5-a][1，3，5]三嗪-2，4，7-三胺（3 mmol，0.63 g）分批加入浓硫酸（6 mL）中然后，向溶液中滴加30%过氧化氢（2.5mL）在室温下搅拌3小时后，将反应用碎冰淬灭，并将溶液用EtOAc萃取然后，使用旋转蒸发除去EtOAc收集浅黄色固体作为目标化合物（ICM-104;产率42%）。目标化合物的核磁共振（NMR）数据如下：1H NMR（二甲基亚砜（DMSO）-d6，400 MHz）d：8.81 ppm（s，1H，NH 2），8.56 ppm（s，1H，NH 2），8.04 ppm（s，1H，NH 2），7.77 ppm（s，1H，NH 2）; 13 C NMR（DMSO-d 6，100 MHz）d：162.41，153.61，150.44，147.42，109.47 ppm（图1A）。附录A中的S12）。的高分辨率电喷雾电离质谱（ESI-HRMS）数据如下：ESI-HRMS：m/z[M + H]-计算值：239.0283;实测值：239.0282（1）。红外（IR;KBr，cm-1）：3483.42，3431.90 、 3333.44 、 3205.61 、 1684.94 、 1633.17 、 1605.24 、1565.96、1523.60 、 1491.91 、 1453.41 、 1396.89 、 1340.13 、 1291.72 、1242.11、1220.57、1091.12、983.45、881.85、851.93、807.86、784.96、775.28、728.80，714.26，600.36，550.32。元素分析计算值为C 25.01%、H1.68% 和 N 46.66%; 元素分析实测值为 C 24.67% 、 H 1.82% 和N46.40%。3. 结果和讨论3.1. HTVS系统HTVS系统的框架和组件如图1所示。HTVS系统的功能如下（图1（a））。首先，高通量分子生成模块可以生成大量高能分子（图1（b））。然后，将生成的分子导入到性质预测器中，以进行快速准确的性质计算。属性预测器包含密度、爆速、爆压和分解温度的四个训练模型，使用相同的复合分子描述符集作为输入（图1（c））。借助于该性质预测器，可以基于预测的性质过滤出具有相对高能量、低灵敏度和良好热稳定性的潜在分子。然后将初步筛选出的具有所需性质的分子送入晶体结构分类器中以进一步评估形成石墨状层状晶体结构的可能性。最后，在评估合成的可行性之后，选择具有有希望的性质和形成石墨样层状晶体结构的高概率的分子进行实验合成和表征。这种HTVS系统可以帮助实验化学家通过分子生成和筛选过程定制高能材料，而不是花费大量的时间和精力进行试错。3.2. 功能集和属性模型除了数据之外，特征（即，分子描述符）是确定机器学习模型的准确性的另一个因素。我们的复合特征集（CDS）由两部分组成。第一部分包括来自电拓扑态（E-state ）指纹的与碳（C）、氢（H）、氧（O）、氮（N）和卤素元素相关的指纹，其已被广泛用于构建用于预测分子性质的不同模型[27然而，结构域知识可以降低学习复杂性并提高特定任务的准确性;因此，我们定义了包含另外29个分子描述符的自定义描述符集（附录A中的表S2）。该自定义描述符集增强了对分子形状和组成的描述，例如最佳拟合平面（PBF）和氧平衡（OB），这将有助于了解高能材料的特性使用热图可视化密度数据上的自定义描述符的相关性（图1）。 2（a））。热图表明，大多数自定义描述符并不显著相关，这对训练模型是有益的。主成分分析（PCA）用于可视化我们的CDS在密度数据中捕获基础模型的能力[30]。当这些特征组合成45个主成分时，累积方差达到0.993的值（图2（b），左）。此外，可视化了主成分（PC 14和PC 2）的最具信息性的投影（图11）。 2（b））。S.宋，Y。Wang，F. Chen等人工程10（2022）99102Fig. 1. HTVS系统的框架和组件。(a)机器学习辅助HTVS的框架;（b）使用启发式枚举的分子生成示意图;（c）属性模型和类石墨结构分类模型的训练示意图;（d）CNN输入的独热编码(e)CNN的架构具有不同密度的样本分布相对集中，并且观察到明显的颜色梯度，这意味着特征在捕获密度数据中的底层模型方面是有效的。在使用KRR算法[31]训练模型后，我们通过分别比较训练集和测试集上的观测值和预测值，验证了模型预测密度的性能（图31）。 2（c））。我们发现观测值和预测值之间存在显著的一致性（图1）。2（c），左），它们之间的偏差遵循几乎正态分布（图2（c），右）。在学习曲线中，随着在训练样本中，训练（红色）和交叉验证（绿色）曲线逐渐接近相同的不对称（图2（d）），表明我们的模型训练得很好（即，没有观察到过拟合或欠拟合）。测试数据集的决定系数（R2）和MAE为0.93，0.042g·cm-3（图10）。 2（e））。的高精度密度模型可以来源于大量的数据和合理的特征化方法，它可以在一定程度上同时捕获分子和晶体的特征。以相同的复合分子描述子集作为输入，对爆速（Dv）、爆压（P）和分解温度（Td）的预测模型进行训练。如图2（e）所示， Dv、P和 Td模型的测试数据集的 R2值分别为0.83（MAE：236.3m·s-1）、0.82（MAE：2.379 GPa）、和0.62（MAE：30.8°C）。（对于培训和评估-这些模型的验证，见附录A中的图S2。）交叉验证评分和训练稳定性检验的更多结果汇总于附录A的表S3中。值得注意的是，相比与以往的工作相比，我们的模型在准确性、有效性和全面性方面表现出竞争力（附录A表S4）。除了上述四个属性（例如，密度、爆炸速度、爆炸压力和分解温度），灵敏度是高能材料的核心性能。然而，训练灵敏度的通用模型仍然很因此，仍然高度期望用于处理灵敏度预测的替代方法。3.3. 类石墨层状晶体结构为了找到一种更可靠的方法来快速筛选具有低灵敏度的潜在含能分子，我们尝试将撞击灵敏度的直接预测转化为类石墨层状晶体堆积的特殊结构鉴定，因为在含能材料中，类石墨层状晶体结构与低撞击灵敏度之间存在广泛公认的密切关系[32晶体结构与分子结构有关;特别是，倾向于形成强非键相互作用的某些官能团可能主导晶体的形成。在以前的一些研究中，深度神经网络被用于预测晶体结构，这启发了我们寻求深度学习的帮助[35，36]。根据上述考虑，选择CNN和LSTM[37，38]来捕获化学直觉，该化学直觉可以区分分子之间可能的类石墨晶体结构。CNN是使用one-hot编码训练的，S.宋，Y。Wang，F. Chen等人工程10（2022）99103图二. 属性模型的特征分布与模型评价。(a)密度数据上的特征分布的自定义描述符集及其热图;（b）密度数据上的大多数信息组分的特征和分散的PCA;（c）密度数据的训练集（绿色）和测试集（紫色）上的奇偶性图和偏差分布，其中红色（橙色）虚线是训练（测试）数据的偏差的正态分布曲线;（d）密度模型的学习曲线（红色的训练曲线和绿色的交叉验证曲线）;（e）四个训练模型的测试分数（Dv：爆速;P：爆压;Td：分解温度）。分子SMILES字符串作为输入（图 1（c，d））[39，40]，并承担一个典型的架构（图。 1（e））。LSTM直接使用SMILES作为输入进行训练此外，一个KNN模型使用CDS作为将输入（CDS +KNN模型）训练为基线。如图3所示，训练过程的比较表明SMILES_Onehot + CNN模型优于SMILES + LSTMS.宋，Y。Wang，F. Chen等人工程10（2022）99104图3.第三章。分类模型的比较。（a）SMILES_Onehot + CNN模型的训练过程和混淆矩阵;（b）SMILES + LSTM模型的训练过程和混淆矩阵;（c）CDS +KNN模型的混淆矩阵;（d）测试数据的模型度量。模型，因为前者的训练和测试损失较低，而前者模型的准确性/平衡准确性高于后者模型。具有最低测试损失的SMILES_Onehot +CNN（epoch 15）的转储模型的混淆矩阵也比SMILES + LSTM表现得更好，因为后者具有将石墨样（1）错误分类为非石墨样（0）分子的更强倾向相比之下，CDS +K NN模型表现出较差的性能，特别是在平衡精度（0.65）和混淆矩阵方面。这种现象是可以理解的，因为在CNN和LSTM模型中，更多关于分子结构的信息（例如，原子和取代基的排列，我们认为这对预测晶体堆积），而在CDS +K NN模型中，这些信息在特征化过程中被压缩。我们还尝试了更简单的架构（例如，决策树和基于CDS的神经网络，如附录A中表S5中的数据所示），这表明SMILES_Onehot +CNN在准确性方面具有绝对优势。最后，将SMILES_Onehot + CNN模型与SMILES枚举技巧相结合，以评估具有类石墨晶体结构的潜在分子的可能性[41]。可能性值表示一个分子形成的倾向一种类似石墨的层状结构;因此，它可以帮助我们S.宋，Y。Wang，F. Chen等人工程10（2022）99105并从高到低评估这些分子的可能性。以这种方式，石墨状层状晶体结构的筛选步骤变得更加稳健。3.4. 高能分子的高通量产生和筛选我们使用启发式枚举方法来生成分子（图1）。 1（b））通过自制脚本（图。附录A中的S3）[42，43]。近年来，研究人员对基于稠合杂环的含能材料（例如，稠合的[5，5]双杂环和[5，6]双杂环含能分子）。在这方面，已经报道了一系列有前途的稠环高能分子[44在这里，我们专注于由稠合的[5，6]双杂环骨架和取代的硝基/氨基构成的高能分子。最初，分子生成模块的输入结构包含五个不同的[5，6]双环碳环。在N-取代（从1 N到7 N）过程之后，我们获得了355个不同的稠合[5，6]双杂环骨架（图1）。 4（a））。基于分子生成的可接受的时间消耗和实验合成的可行性，稠合[5，6]双杂环骨架中的大多数取代基位点被限制为四个（参见图11中的散点图）。 S2）的情况下。因此，产生了25112个可能的稠合[5，6]双杂环分子，其涉及引入在结构净化和去重之后，将硝基/氨基转化为355个不同的稠合[5，6]双杂环骨架如图如附录A中的S4所示，生成的分子接近模型的适用范围。然后将生成的25112个高能分子输入到性质预测器中，以预测其性质（包括密度、Dv、P和Td）并筛选它们（参见附录A中补充数据1中的预测结果）。整个探索的分子空间和逐步筛选可以在彩色映射三维（3D）散点图（图4（b））和甜甜圈图（图4（c））中可视化。25112个分子的性质符合一些含能材料的一般规律，如密度与Dv/P之间的线性关系。观察到密度和分解温度之间的负相关性（图4（b））。我们取典型含能材料（1，3，5 - 2，2，3 - 2，4三硝基-1，3，5-三嗪烷（trinitro-1，3，5-triazinane，RDX）作为筛选的第一标准的密度大于1.80g·cm- 3的分子数从原来的25112个减少到3141个（图 4（b））。彩色三维散点图显示Td高于280 °C的分子（红点）大多位于Dv值相对较低的区域（约8000m·s-1）。怎么--Dv大于8800m·s-1的分子（蓝点）主要分布在Td值见图4。产生和筛选分子的过程。(a)[5，6]双杂环骨架生成过程的图示;（b）原始和不同筛选步骤中分子的彩色映射3D散点图（黑色、绿色和粉红色点分别表示密度/Dv平面、密度/P平面和Dv/P平面上的投影）;（c）原始和不同筛选步骤中不同硝基原子取代的稠合[5，6]双杂环分子的比例S.宋，Y。Wang，F. Chen等人工程10（2022）99106（约160 °C）（图4（b））。当分别引入能量（Dv> 8400 m·s-1）和热稳定性（Td> 280 °C）的筛选标准（标准确定见附录A中的图S5）时，满足要求的分子数从3141个减少到1144个（图S5）。 4（b）;最后，他们到达了值99（图） 4（b）和附录A图。 S6）。填色的环形图清楚地显示了随着筛选标准的逐步引入，不同氮取代的[5，6]双杂环分子的比例的变化（图10）。 4（c））。在引入密度（> 1.80 g·m-3）和能量（Dv> 8400 m·s-1）的筛选标准后，五-（天蓝色）、六-（橙色）和七-（海军蓝色）氮原子取代的稠[5，6]双杂环分子量分别从5.31%、0.84%和0.06%增加到20.10%、4.02%和0.61%，表明分子骨架中高含量的氮有利于提高稠[5，6]双杂环分子的能量（高密度和Dv）然而，高氮含量将降低分子热稳定性，导致分解温度低于280 °C。与此相反，在密度（>1.80 g·cm-3）和能量（Dv> 8400m·s-1）的筛选条件下，一个（蓝色）和两个（红色）氮原子取代的稠合[5，6]杂环分子的比例分别从10.35%和30.72%下降到0和0.96%，表明负极性的氮原子取代[5，6]杂环分子的结构是负极性的。低氮含量对分子筛能量的影响克里斯通过密度（> 1.80 g·cm-3）和能量（Dv> 8400 m·s-1）筛选，得到了三氮取代的稠合[5，6]双杂环分子（绿色）在过滤的1144个候选物中显示出相对高的百分比（26.84%）;然而，它们的分解温度不能满足高温稳定性（Td> 280°C）的标准，主要是因为三氮原子取代的稠合[5，6]双杂环分子的含氮量仍然较低。满足密度和能量标准的筛选分子通常含有多个硝基（约3或4个）（附录A中的图S7），尽管多个硝基的强吸电子效应会降低分子稳定性，使其不满足分解温度标准（Td> 280 °C）。总的来说，在三步筛选之后，所有99个筛选的分子都具有四个氮原子（紫色; 4 N）取代到稠合的[5，6]双杂环分子中，这是因为它们的分子骨架中的氮含量和硝基数目都是合理的。然后将这99个高能分子输入到类石墨结构分类器中，以评估它们形成特殊的类石墨层状晶体结构的分数。每个分子的预测重复五次;结果总结在图5（a）和数据集2中。基于排序的平均得分，从高到低，前五个分子结构显示在图5（b）中。在评价这五种分子的合成可及性（附录A中的图S8）后，发现分子2(as如图5（b）所示; ICM-104）从未被报道过，并且在合成上是可行的。因此，选择分子2用于后续实验。3.5. 合成与性能研究令人鼓舞的是，按照设计的合成路线，我们成功地通过三步反应图五、用于形成特殊的类石墨层状晶体结构的刻痕。（a）99个候选物形成石墨状层状晶体结构的平均得分（误差条表示五个预测的平均偏差）;（b）根据它们各自的平均得分分类的前五个分子的结构S.宋，Y。Wang，F. Chen等人工程10（2022）99107反应（第2.3节）。在缓慢蒸发其EtOAc溶液的溶剂后，获得了适用于X射线衍射的ICM-104单晶（附录A中的表S6）。正如预期的那样，ICM-104具有类石墨层状晶体堆叠结构，空间群为P2 1/c（图6（a））。在分子结构中，一个硝基在超分子平面外（角度为66.7°），这是由于两个相邻硝基之间的排斥作用（图11）。 6（a））。ICM-104的超分子平面由氨基和氮基团之间的氢键构成（图6（a））。这一结果表明，我们训练的类石墨结构分类模型有助于识别具有独特的类石墨晶体堆积的新的高能分子在ICM-104的结构表征之后，我们的注意力转向通过将实验/计算结果与使用所提出的模型预测的结果进行比较来评估预测模型的实用性如图 6（b），图六、IC M - 1 0 4 的晶体结构和性质。（a）ICM-104的3D类石墨层状晶体堆叠、2D超分子平面和分子几何形状(b)ICM-104、2，4，6-三氨基-1，3，5-三硝基苯（TATB）和2，6-二氨基-3，5-二硝基吡嗪-1-氧化物（LLM-105）的预测和测量/计算性质之间的比较（墨绿色表示通过实验测量或使用Explo 5（v6.02）计算的性质，而淡紫色表示通过所提出的机器学习模型预测的性质）;（c）ICM-104、LLM-105和TATB的硝基电荷、最大静电势（ESP）和电荷平衡的比较（1 kcal = 4.19×103 J）;（d）ICM-104、LLM-105和TATB的层滑动的能量变化，其中深黄色表示所选择的滑动层。S.宋，Y。Wang，F. Chen等人工程10（2022）99108ICM-104的预测密度、Dv和P分别为1.828 g·cm-3、8422 m·s-1和29.8GPa（图6（b）中的绿色直方图），所有这些都接近实验密度（1.825g·cm-3 ）和计算的 D v 和 P 值（ 8551 m·s-1 和 29.8 GPa; 使用Explo 5 v6.02 获得）（图 6 （ b ）中的淡紫色直方图）。 6（b））。装饰-位置温度（Td）在实验（326 °C）和预测（286 °C）结果之间表现出约40 °C的明显偏差。这种偏差的主要原因是ICM-104晶体是由强分子间氢键构成的，而我们目前的复合描述子集主要集中在分子水平上，对分子间相互作用的描述能力较弱。ICM- 104的分解温度令人印象深刻，为326 °C（附录A中的图S9），接近2，6-二氨基-3，5-二硝基吡嗪-1-氧化物（LLM- 105; 342 °C）和2，4，6-三氨基-1，3，5-三硝基苯（TATB; 350 °C）的分解温度。采用Kissinger和Ozawa方法计算了ICM-104的非等温动力学表观活化能（Ea）。ods，分别为615和594 kJ·mol-1（图S9），表明ICM-104具有优异的热稳定性。高度分解ICM-104的高温可归因于其类石墨晶体结构，这有利于提供比LLM-105（247.72 kJ·mol-1;附录A中图S10）更好的热稳定性和相对更强的触发键（键离解焓为260.63 kJ·mol-1此外，ICM-104 β b-低冲击（测量值为35 J）和摩擦（测量值值> 360 N）灵敏度。同时，我们对TATB（1.882g·cm-3，7964m·s-1，26.8 GPa，317°C）和LLM的预测结果表明，105（1.906 g·cm-3，8537 m·s-1，31.5 GPa和289 °C）接近其测量/计算结果（图6（b））。通过详细的实验评估以及与TATB和LLM-105的性能比较（附录A中的图6（b）和表S7），发现ICM-104是一种有前途的耐热不敏感含能材料。从分子结构和晶体堆积的角度，定性地解释了ICM灵敏度低的原因104. 利用三个分子因子，包括硝基电荷、最大静电势（ESP）和电荷平衡，评估分子在机械刺激下的稳定性（这些因子使用Gaussian 09D.01和Multiwfn 3.7计算）[50，51]。如图6（c）所示，在三种化合物中，TATB无疑具有最低的分子敏感性。LLM-105与ICM- 104相比，LLM-105（44.6kcal·mol-1和0.243）优于ICM-104（60.7kcal·mol虽然LLM-105的硝基电荷（此外，我们还用力场法计算了层间滑移过程中的能量变化，以评价晶体堆积对低灵敏度的贡献。如图6（d）所示，能量变化的强度遵循LLM-105 > ICM-104 TATB的降序。ICM-104的类石墨层状晶体结构使其对机械外力的缓冲效果优于LLM-104的波状晶体结构。105. 然而，扭曲的硝基在滑动过程中可能在层间引起强烈的排斥力。因此，ICM-104的能量变化仍比TATB剧烈。基于上述分析，ICM-104的机械敏感性介于LLM-105和TATB之间是合理的。通过与最近报道的稠环化合物的比较，可以进一步突出ICM-104的突出综合性能，如图S10所示。在我们最近的工作中，我们的机器学习辅助HTVS系统也被应用于高能熔铸材料的探索[53]。总的来说，我们自主建立的机器学习辅助HTVS该系统已经显示出巨大的潜力，指导发现新的高能材料与所需的结构和性能。4. 结论在这项工作中，开发了一个机器学习辅助的HTVS系统，并应用于指导含能材料的发现。该HTVS系统集成了高通量分子生成和机器学习模型。高通量分子生成模块负责通过启发式枚举快速和广泛地生成合适的分子结构。机器学习模型由属性预测器和类石墨结构分类器组成。属性预测器包含四个经过良好训练的回归模型（密度、爆速、爆压和分解温度），而结构分类器（来源于CNN分类模型）实际上是类石墨层状晶体结构的可能性预测器基于该HTVS系统，我们从25112个可能的[5，6]双杂环分子结构中快速锁定了有希望的含能分子ICM-104。进一步的实验研究表明，ICM-104具有预期的良好性能，包括良好的爆轰性能（密度= 1.825 g·cm-3，Dv= 8551 m·s-1，P= 1.000）。29.8 GPa）、低灵敏度（撞击灵敏度为35 J，摩擦灵敏度为35J）、灵敏度大于360 N），以及良好的热稳定性（起始在326 °C下）。这项工作证明了我们的机器学习辅助HTVS系统在快速发现具有有前途特性的新高能材料方面的潜力。此外，所提出的系统方法可以扩展到发现其他有机功能材料。致谢作者承认博士。吉林大学王玉阳教授感谢科学挑战项目（TZ2018004）和国家自然科学基金（21875228、21702195）的资助。遵守道德操守准则Siwei Song、Yi Wang、Fang Chen、Mi Yan和Qinghua Zhang声明他们没有需要披露的利益冲突或财务冲突。附录A.补充数据本文的补充数据可在https://doi.org/10.1016/j.eng.2022.01.008上找到。引用[1] 高H，施里夫JM.唑基含能盐。Chem Rev 2011;111（11）：7377-436。[2] Núñez-Quintero D，Hernán-Rivera SP.炸药中硝基的光谱建模。In：Szu HH，editor.ProceedingsVolume6247 ， IndependentComponentAnalyses ，Wavelet，Unsupervised Smart Sensors，and Neural Networks IV; 2006 Apr 17 -21; Orlando，FL，USA.[3] DippoldAA，KlapötkeTM. 二硝基-双-1，2，4-三唑-1，10-二醇和衍生物：通过引入N-氧化物设计高性能不敏感含能材料。 J Am Chem Soc2013;135（26）：9931-8.[4] Baxter AF，Martin I，Christe KO，Haiges R.甲脒铵硝基甲酸盐：一种不敏感的黑索今替代品。 J Am Chem Soc 2018;140（44）：15089-98。[5] Zhao G，He C，Kumar D，Hooper JP，Imler GH，Parrish DA，et al. 1，3，5-Triiodo-2 ， 4 ， 6-Trinitrobenzene （ TITNB ） frombenzene ： balancingperformance and highthermal stability of functional energetic materials. ChemEng J2019;378：122119.S.宋，Y。Wang，F. Chen等人工程10（2022）99109[6] 李S，王英，齐春，赵翔，张杰，张S，等.三维含能金属有机骨架：高能材料的合成与性能.北京：科学出版社，1999. Angew ChemInt Ed Engl 2013;52（52）：14031-5.[7] Kamlet MJ，Jacobs SJ. 爆炸化学I. 一种计算C-H-N-O炸药爆轰性能的简便方法JChem Phys1968;48（1）：23-35.[8] 张C，舒Y，黄Y，赵X，董H。硝基化合物撞击感度与硝基电荷相关性的研究。物理化学杂志B 2005;109（18）：8978-82.[9] WangY，Liu Y，Song S，Yang Z，Qi X，Wang K，et al. 通过材料基因组方法加速发现不敏感的高能量密度材料。Nat Commun 2018;9（1）：2444.[10] Gu GH，NohJ，Kim I，Jung Y. 可再生能源材料的机器学习 JMater Chem A2019;7（29）：17096-117.[11] Agrawal A，Choudhary A.材料信息学与大数据：实现材料科学的“第四范式”。APL Mater2016;4（5）：053208。[12] 巴特勒KT，戴维斯DW，卡特赖特H，伊萨耶夫O，沃尔什A。分子和材料科学的机器学习。Nature2018;559（7715）：547-55.[13] Muratov EN，Bajorath J，Sheridan RP，Tetko IV，Filimonov D，Poroikov V，et al. QSAR无边界Chem Soc Rev 2020;49（11）：3525-64。更正：Chem Soc Rev2020;49（11）：3716。[14] Lu S，Zhou Q，Ouyang Y，Guo Y，Li Q，Wang J.通过机器学习加速发现稳定的

下载后可阅读完整内容，剩余1页未读，立即下载