可解释的深度学习预测鱼类生物浓缩因子的新模型

79 浏览量更新于2023-12-06 收藏 1.84MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

生命科学中的人工智能2（2022）100047研究文章利用可解释的深度学习对鱼类的生物浓缩因子进行建模赵琳琳a，弗洛里安·蒙塔纳里b，亨利·赫伯尔a，塞巴斯蒂安·施密特c，aBayer AG，Crop Science Division，Field Solutions，Monheim 40789，GermanybBayer AG，Pharmaceuticals Division，Machine Learning Research，Berlin 13353，GermanycBayer AG，Crop Science Division，Regulatory Science，Monheim 40789，GermanyaRT i cL e i nf o关键词：生物富集因子QSAR多任务学习EXplainable AI环境安全a b sTR a cT生物富集系数（BCF）是化学品环境风险评估中的一个重要参数，与工业和学术研究相关，也是许多监管背景下的要求。它代表了一种物质在有机组织或整个动物中积累的潜力，最常在鱼类中测量。然而，动物福利的原因，生产量的限制，和成本推动需要替代方法，允许准确和可靠的生物浓缩系数的估计在电脑上。我们提出了一个新的深度学习模型来预测化学结构的BCF值，该模型优于当前可用的模型（在外部测试集上，RMSE为0.68，RMSE为0.59个对数单位;在要求严格的聚类分裂验证中，RMSE为0.70，RMSE为0.74个对数单位）。��该模型基于编码为CDDD描述符的分子表示，并利用具有测量的logD值的大型内部数据集作为辅助任务。此外，我们开发了一种基于SMILES字符替换的事后可解释性方法，以将我们的预测与原子级解释相结合。这些灵敏度分数突出了分子中最重要的部分，可以帮助更好地理解预测和设计新分子。1. 介绍生物浓缩系数（BCF）表示化学品在有机组织或活动物（通常是鱼类）中积累的趋势。它被定义为实验室中稳态条件下生物体中的浓度与周围水相中的浓度之比[1]。通常，该比率被归一化为试验微生物的固定脂质含量（5%）。常见的测试物种是黑头呆鱼，蓝鳃太阳鱼或虹鳟鱼。BCF值是全球环境危害和风险评估所必需的，并用作选择或设计具有更良性环境特性的新化学品的优化标准。然而，对于根据OECD指导原则305[1]进行的BCF研究和满足全球监管要求，每个试验分子需要200多只试验动物。即使是筛选级别的研究仍然需要大约30只实验动物才能可靠。显然，人们强烈希望将脊椎动物测试最小化，许多利益相关者正在联合起来。一个突出的例子是欧洲委员会[2]和美国环境保护署[3]遵循的3R战略，以减少、改进和取代动物试验。计算机模拟模型是这些努力的基本组成部分，但它们需要准确、可靠，并在理想情况下提供机械见解并指出其局限性或不确定性。∗ 通讯作者。电子邮件地址：bayer.com（S. Schmidt）。https://doi.org/10.1016/j.ailsci.2022.100047已经开发了多种定量结构-性质/活性关系（QSAR模型），用于从分子结构预测生物浓缩系数（见最近的两项比较研究[4，5]）。许多这些模型中的大多数依赖于水-辛醇分配系数（Kow）和具有不同复杂性的分子结构的附加特征。最著名的模型之一是Meylan[6]的BCF模型，该模型在US-EPA的EPISuite [7]中实现化学物质[4，5]。这是一个基于logKow的线性回归模型，几种分子亚结构的校正因子列表已证明Kow是生物体水和脂质之间物质分配的良好替代品[8]，但该方法也有一些局限性，特别是对于氢键供体、极性或离子化合物，与储存脂质或辛醇相比，其与膜脂质的相互作用更强[4，8，9]。因此，需要额外的描述符来覆盖这些相互作用。除了水-脂质分配之外，其他过程，如吸收或消除的动力学限制、代谢和特异性相互作用（如与蛋白质结合），对于完整的机械理解和更好地预测生物累积也很重要[4]。除了机理方面，BCF模型的预测能力通常受到实验研究数量少、数据可靠性和异质性不同以及化学空间和BCF范围覆盖不平衡的限制。此外，交易者往往有接收日期：2022年9月28日;接收日期：2022年11月2日;接受日期：2022年11月16日2022年12月2日在线发布2667-3185/© 2022作者。由Elsevier B. V.发布。这是一个CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）可在ScienceDirect上获得目录列表生命科学期刊首页：www.elsevier.com/locate/ailsciL. Zhao，F. Montanari，H. Heberle等人生命科学中的人工智能2（2022）1000472在预测性能和可解释性之间做出选择。前者通常使用更复杂的模型来实现，而后者对于不太复杂的模型更容易实现。评估复杂的“黑盒”模型的单个预测的可靠性近年来，深度学习模型已成功用于不同的分子性质预测[10，11]。常见的建模策略涉及来自预先计算的完全连接的网络分子指纹[12]或潜在表示[13]并且，当有足够的训练数据可用时，使用图卷积网络（GCN）进行端到端训练[14，15]。在低数据状态下，就像X学中经常出现的情况一样，对分子表示（如SMILES或InChI代码）进行无监督的预训练可以提供强大的表示，可以在可用的标记数据上进行微调[16，17]。QSAR深度学习模型的复杂性增加了对同样强大的可解释性方法的需求[18这些对于在模型中获得信任、理解其局限性以及在性质优化和分子设计过程中支持用户的知识和直觉至关重要。QSAR模型的EXplanations可以采用原子属性[21，22]（特别是GCN[23，24]）、特征重要性[25]（使用SHAP[26]等软件包）或子结构重要性[27]的形式。反事实[28]和活动假设[29]方法也被提出，它们解释了一个特定的预测，通过选择具有类似结构但不同的其他示例，来了在这项工作中，我们提出了一个新的模型预测BCF，它解决了上述的一些困难。特别是，我们利用了深度学习和可解释性领域的最新进展。该模型建立在CDDD描述符上[13]，这是SMILES格式分子结构翻译的自动编码器模型的学习表示。这提供了化学空间的连续表示，避免了分子特征或子结构的手动定义。我们使用多任务学习方法来同时预测logBCF和logKow。这种方法通过利用大的可用logKow数据集作为辅助任务来解决可用BCF数据集的小尺寸。选择logKow作为辅助任务是基于数据可用性、与BCF的已知相关性以及文献中先前的工作，这些工作证明了logKow的迁移学习后BCF预测的改善[30]。为了克服上述预测性和间预测性之间的权衡，preability，我们在深度学习模型的基础上开发了一个可解释性模块。它基于SMILES字符串替换，特别适用于基于CDDD描述符构建的模型，无论使用何种机器学习算法。输出量化了输入SMILES中每个字符对预测BCF或Kow值的影响。在ue我们在剩下的工作中将得到的字符得分命名为敏感性得分。我们探索了Kow预测的灵敏度分数与基本化学知识之间的一致性，并检查了对称分子的分数的稳健性。我们将整个官能团的灵敏度评分与文献中已知的亲脂性校正因子进行比较。我们表明，我们的模型能够识别分子背景，这是一个显着的优势，经典的基团贡献方法，采用固定的贡献，在所有分子中的给定官能团。最后，通过比较对Kow和BCF终点的解释，我们可以检索已知的机制效应，如代谢。2. 方法2.1. 数据用于模型训练的EX实验BCF数据取自Grisoni等人[4]。他们通过合并用于开发BCF QSAR模型的三个数据集和45种具有特殊代谢或已知Kow-BCF关系的化合物（例如，拟除虫菊酯、有机磷化合物、全氟化和多氯化化合物）。在化学方面，在cal空间中，这一组涵盖了广泛的化学类别，包括脂族和芳族烃、醇、胺、酯、酰胺、醚、酚、苯胺、杂芳族化合物、硝基芳族化合物、有机氯、有机磷酸酯、磺酸和硫醇。在使用类别方面，这一组包括工业化学品、农用化学品、制药、植物次生代谢物和污染物。所有生物浓缩系数值均指整条鱼的湿重，并未按脂质含量标准化，而脂质含量是科学文献中最常见的形式，也是大多数可用的定量构效关系模型的校准基础。该组包含草甘膦和2，2-二氯丙酸的两个重复条目。后者的logBCF值非常相似，我们保持了平均值。然而，草甘膦的生物浓缩系数值出现了显著差异。因此，我们仅保留与农药特性数据库（PPDB[31]）中给出的值一致的条目。为了构建外部测试集，我们在PPDB[31]（截至2022年3月8日）既不是我们训练数据集的一部分，也不是Meylan模型[6，7]训练集的一部分。仅保留指定质量水平为4或5的条目，这意味着终点已由PPDB提供商审查和管理，并在大多数情况下用于监管目的为了保持我们的建模方法的可行性，我们排除了含有金属原子的分子和异构体之间BCF差异超过0.8 log单位的此外，我们根据原始研究报告或公开的终点列表交叉检查了数据的可靠性。这导致了对敌百虫、螺螨酯、Meta苯二甲酰咪唑、敌百虫胺的校正，并将涕灭威、乙烯唑啉、1-十二烷醇和丙烯腈从该集合中删除。但是，我们无法检查CA。三分之一的分子，因为数据源没有精确引用。最终的测试集总共包含80个分子。水-辛醇分配系数的EX实验数据（logD）基于HPLC筛选方法，从内部数据集中获得63，127种化合物在中性pH下的含量。与指中性分子的logP或logKow相反，logD指中性分子和所有（去）质子化物质的总和。因此，它也直接适用于具有酸性或碱性性质的分子。logD数据集的36个分子与BCF数据集重叠。使用中性pH值下logD 值的内部模型（ RMSE=0.3 ，有关方法的详细描述，请参见Montanari et al.[32]）。2.2. 分子结构和描述符所有分子结构用常规工作流程标准化，所述常规工作流程标准化电荷，仅保留最大片段（剥离盐抗衡离子），清除立体信息，使碱、质子酸去质子化，并使互变异构体规范化。最后，生成规范的非异构SMILES代码作为每个分子的结构表示。所有规范的SMILES字符串都由CDDD编码器编码[13]到512维描述符，而无需CDDD进行任何进一步的预处理。请注意，这规避了CDDD管道施加的适用性域限制（logP约5至7;分子量12至600g/mol; 3至50个重原子），并从我们的数据集中排除了约3%的分子。有关此决定的影响的讨论，请参见适用领域小节。在这个阶段，必须从训练集中排除9个分子，因为它们含有Sn，而Sn不是CDDD词汇表的一部分此外，我们使用RDKit[33]为每个分子生成了10个随机SMILES字符串，并以与上述标准SMILES相同的方式2.3. 培训、验证和外部测试集为了避免在模型训练期间潜在的信息泄漏或对子集的偏差，将来自组合的BCF和logD的化合物L. Zhao，F. Montanari，H. Heberle等人生命科学中的人工智能2（2022）1000473∑�� 表1聚类分割：每个聚类中每个任务的化合物数量集群0123456化合物数量（BCF任务）118196361105280399化合物数量（logD任务）8687537621,359271010,66282556078通过相似性对数据集进行聚类。为此，计算了半径6的圆形指纹，折叠为2048矢量长度，并应用k均值聚类，k=10。合并较小的簇以确保每个簇中存在足够的具有BCF标记的化合物。所得分区示于表1中。最小的集群，19种含有高分子量（>400 g/mol）聚氟化分子的生物浓缩因子化合物被视为离群值，并从我们的交叉验证过程中排除。我们所有的交叉验证例程都是在这些集群分裂上进行的，无论是单任务模型还是多任务模型。对于涉及超参数优化和模型选择的训练过程，采用嵌套交叉验证[34]来避免评估模型性能时的乐观偏差。嵌套交叉验证有效地使用数据来创建一系列数据分割（训练，验证和测试）。当仅为固定模型结构调整超参数时，使用简单的留一簇交叉验证。仅在模型训练完成后，才编译和使用包含来自PPDB的80个分子的外部测试集（参见数据部分）。这两个BCF数据集都作为补充信息提供。2.4. 建模方法2.4.1. 单任务模型使用CDDD嵌入作为输入特征，在BCF数据上训练支持向量回归机（SVR）、随机森林（RF）和XGBoost。采用嵌套聚类交叉验证进行超参数优化和模型选择。我们交叉验证的训练结果表明，CDDD描述符与SVR结合使用效果最好，如前所述[13]。最优支持向量回归机采用径向基函数作为核函数，核函数系数为1/512，最优正则化强度为1。��此外，在BCF数据集上建立了一个简单的线性回归模型（scikit-learn默认设置的普通最小二乘法），内部logD值作为唯一的自变量，以及一个将平均logBCF值作为预测值的零模型。这两个模型是非常简单的基准，可以用来衡量更复杂方法的改进。2.4.2. 多任务学习模型由于已知logD与BCF密切相关（我们数据中的Pearson回归系数为0.752），并且我们内部有一个大型logD数据集，因此我们开发了一个结合两个终点的多任务模型。该模型基于CDDD嵌入，在其余文本中，将其更改为xBCF。模型架构非常简单，两个维度为600和50的完全连接的隐藏层（见图1）同时预测logD和logBCF值。在稠密层中使用整流线性单元（ReLU）作为非线性变换函数。使用简单的系数加权策略来平衡损失函数中的单个任务损失，损失函数可以表示为��=��+(1 −��)��,(1)where=（−）2scintills和分别是logBCF和logD的均方误差s（MSE）;∈（0，1）是logBCF损失的加权系数，以平衡两个任务之间的学习。��此外，对512维描述符（最佳速率0.2）和第一隐藏层（最佳速率Fig. 1. 基于CDDD描述符的xBCF多任务模型的模型结构。0.4）。BCF数据集通过替换采样获得更高权重，以匹配logD数据集大小。在超参数搜索期间，仅针对logBCF性能对损失加权系数进行了优化;最终最佳值为0.01。下游网络采用留一聚类交叉验证，通过随机梯度下降进行优化，动量为0.9，学习率为0.005.此外，采用提早停止以避免过度拟合，其中在优化期间微调耐心及历元数目。本文中指定的所有超参数值都是通过在广泛的超参数网格上优化损失函数获得的。训练脚本和所有最优超参数都可以在支持信息中找到。2.4.3. 文学模式为了比较，我们采用了几个公开的和众所周知的生物浓缩因子定量构效关系模型. Meylan[6]和Arnot-Gobas[35]模型使用EPI Suite[7]中的BCFBAF模块以批处理模式运行。在该设置中，Meylan模型使用KOWWIN模块[36]在内部估计logKow，用于其基于回归的方法，校正项取决于分子的官能团。Arnot-Gobas模型是一种基于生理学的模型，使用KOWWIN的相同logKow估计值，并包括基于官能团、logKow和分子量的生物转化估计值我们使用的参数化的上层营养水平。此外，使用VEGA计算机平台[39]的CAESAR[37，38]模型（版本2.1.15）和KNN-跨读模型（版本1.1.1）CAESAR是一个基于二维结构和物理化学描述符的径向基函数神经网络的共识模型KNN-Read-Across模型计算相似性指数[40]并从训练集中选择三个最相似的分子。最终BCF预测是所选分子的加权平均值。VEGA报告可靠性低的分子被认为超出了模型的适用范围OPERA[41]（v2.8）是一种用于物理化学和环境归宿特性的QSAR模型套件我们将其加权k-最近邻模型用于logBCF（LogBCFv2.6，QMRF：Q17- 24 a-0023），包括内部结构标准化预处理步骤。最近的其他文章[42，43]报告了结果，但没有分享他们的模型，因此无法与我们的方法进行比较。2.5. 性能度量使用决定系数（α2）和均方根误差（RMSE）作为评价模型性能的拟合优度指标。结合留一法交叉验证，在整个BCF和logD数据集上计算了BCF2和BCF 2。为例如，当选择聚类A作为验证集时，在其余聚类上训练的模型预测聚类A中的化合物。这个过程-L. Zhao，F. Montanari，H. Heberle等人生命科学中的人工智能2（2022）1000474��图二. 说明字符替换方法。对每个簇重复during，直到所有化合物被预测一次，然后对所有簇的预测计算度量2.6. 解释方法为了解释我们的BCF模型，我们借用了事后扰动方法、特征消融和遮挡的思想[44，45]。目的是建立一种无梯度的方法来评估单个SMILES特征的重要性。通常，这样的方法用基线值替换原始输入特征以创建扰动输入。预计一个特征越重要，其替换将导致预测的变化越大。把它正式地放在上下文中 BCF模型，设：��×→2为模型，将热编码的SMILES字符串（词汇大小��和长度��）发送到两个目标端点（她的logBCF和logD）。假设∈×是的扰动版本，其中第个字符被基线字符替换，则目标中字符的归因（或敏感性得分）可以写为�� =�� （ �� ） −�� （ �� ）， ��∈{0 ， 1 ， ��. ， − 1} ， ∈ { 0 ， 1}.（二）正的预测值表示当字符串中的替换为基线;负的预测值表示当字符“"替换为基线时，预测值会增加。因为什么是好的基线字符并不立即明显，我们测试并比较了两种不同的方法。字符删除类似于在自然图像的属性方法中通常用作参考的黑色图像[46]，我们查看删除特定输入字符的效果。在实践中，我们依次用一个伪字符“A”替换每个字符，该伪字符不属于CDDD允许的词汇表。CDDD特征编码管道忽略此类不支持的字符，并有效地从输入SMILES中删除感兴趣的字符。或者，我们建议将输入SMILES的字符敏感度得分定义为期望值当一个特定的位置被任何字符占据时，（见图2）。形式上，对于长度为λ的给定SMILESλ的位置λ处的字符，其预测目标λ的属性定义为：��=��(��)− 1 ∑��（��n ��），��∈{0，1，��.，}，∈ { 0，1}（3）∣∣2.7. 可视化可解释性方法的原始输出是每个SMILES字符的敏感性得分。为了便于可视化和结果分析，我们使用了与这项工作并行开发的XSMILES[47]。XSMILES是一个交互式可视化库，它将2D分子图与条形图相结合。这两者是交互式连接的，允许用户在特定的SMILES字符（和相关的分数）与分子的特定原子或亚结构之间建立联系。图是使用XSMILES v0.6.3创建的，分别针对logBCF、logD和Di_r2的以下设置：调色板BayerBlRd 9/RdBu_9_reverse/PuOr_9_reverse，颜色域[-0.7，0，0.7]/[-1，0，1]/[-0.7，0，0.7]，阈值[0.25，0.5，0.75]，高-光真。3. 结果和讨论3.1. 生物浓缩系数预测模型在本节中，我们评估了新的XBCF多任务模型，并证明了其在预测logBCF与基线模型、单任务模型和文献中广泛使用的模型的一致性方面的预测能力增强。我们用留一簇交叉验证（LOCO）评估了我们的模型，其中分子簇由在训练集的剩余子集上训练的模型预测。通过这种方法，预测不会受到训练集中非常相似的分子的影响。因此，我们可以测量模型的泛化（外推）能力。与随机分割或留一交叉验证技术相比，LOCO通常导致不太乐观的性能指标。表2总结了训练集的性能结果。正如预期的那样，空模型表现不佳，但可以提供基线参考点。logD作为唯一描述符的线性回归已经可以提供logBCF的合理估计，RMSE为0.911 log单位。在我们测试的简单机器学习方法中，SVR结合CDDD在嵌套交叉验证实验中表现出最好的性能，并且是这里作为我们最好的单任务模型的一个。SVR和新的XBCF模型都以舒适的幅度优于基线模型。xBCF的随机SMILES数据扩充并未导致预测性改善（XBCFrandSML在表2中）。XBCF还实现了令人印象深刻的预测性，��∈��logD（��2 得分为0.908）及其拟合优度，如在整个训练数据，是非常高的（0.958和0.993的log-��和��词汇表一起。 ��分别��是位置BCF和logD的扰动dSMILES��，参见图。 3）。值得一提的是，由字符代替。��来自Transformer模型的分子表示 [21,48]前，L. Zhao，F. Montanari，H. Heberle等人生命科学中的人工智能2（2022）1000475表2在BCF训练集上评估的性能指标模型评价#molR2 logBCFRMSE logBCFR2 logDRMSE logD模型（平均值）LOCO1026-0.0931.413-0.0661.884线性（LogD）LOCO 1026 0.546 0.911--SVR LOCO 1026 0.701 0.739*适用于整套的生物浓缩系数a1045 0.956 0.276 0.993 0.147xBCF LOCO 1026 0.703 0.736 0.908 0.554XBCF randSML LOCO 1026 0.691 0.751 0.908 0.550Meylan整个BCF训练集1026 0.735 0.695--Meylan不包括Meylan训练集535 0.662 0.829--Arnot-Gobas整个BCF训练集1026 0.448 1.005--Vega Read-across整个BCF训练集b1018 0.928 0.362--Vega Read-across excl.Vega训练集184 0.704 0.784--Vega Read-across inside ADc0.7180.680-- 凯撒整个BCF训练集10260.5890.867-- 凯撒不包括训练集6560.4551.001-- -一种CAESAR inside ADc 162 0.727 0.795OPERA整个BCF训练集1026 0.783 0.630--OPERA不包括训练集576 0.6720.800OPERA inside ADc 523 0.704 0.747--在包括具有19个多聚氟化分子的簇1的整个数据集上训练模型B 模型没有预测8个分子。C 排除适用域（AD）之外或存在于模型的训练集中的分子。图三. xBCF预测与实验值之间的相关性（左：训练集拟合优度，中：交叉验证训练集，右：外部测试集）。三角形代表多氯联苯的一个子集，在LOCO环境中，其XBCF低估了logBCF在我们的实验中，训练的图神经网络[23]为了进行比较，我们在BCF训练集上使用了各种公开可用的模型。请注意，我们不能重新训练这些模型，也不一定知道它们原始训练集的组成。在可能的情况下，我们提供了来自我们的BCF训练集的分子子集的性能指标，这些分子子集不是所采用模型的原始训练集的一部分。如果随预测提供了适用性领域的信息，我们还测试了排除适用性领域之外的预测或标记为低可靠性的预测的效果。总的来说，我们观察到我们的数据集有很大比例用于训练这些模型。这并不奇怪，因为实验BCF数据是稀缺的，我们采取了一个数据集，从文献中已经用于模型开发。正如预期的那样，与各自新的分子子集相比，所有测试的模型在整个集合上的表现都明显更好。模型一个极端的例子是Vega跨读模型，超过80%的分子是训练集的一部分。此外，该模型简单地将实验值作为预测输出，导致看似出色的性能（RMSE为0.36）。然而，新分子的性能急剧下降（RMSE为0.78）。将评估限制在适用范围内的分子可以提高性能，通常建议这样做。事实上，Vega Read-across和CAESAR模型在具有中等或高可靠性的分子上表现更好。从测试的模型中，只有Vega Read-across能够超越我们的xBCF模型，但仅当考虑适用性范围内的分子时，即当训练集中存在非常相似的分子这限制了184个分子中的102个的适用性。另一方面，我们的xBCF模型在全套分子上进行了评估。此外，LOCO评估过程涉及一定程度的外推，这意味着该模型即使对于新的化学类别也是有用的我们还比较了在整个训练数据上训练的XBCF与外部测试集上的其他模型的性能（表3和图3）。与模型的训练集几乎没有重叠，这允许直接比较。补充信息中提供了一个交互式图，显示了不同模型在测试集上的各个预测。在测试集上，XBCF优于所有其他模型。由于与训练集的相似性更高，与交叉验证结果相比，性能指标（0.68的RMSE对于其他模型，与训练数据相比，外部测试集是一项要求更高的任务，许多模型无法正确预测这些分子。有些模型甚至难以超越线性logD模型，这可能表明过度拟合。一般来说，Infe-较高的性能可能有几个原因。首先，我们收集的数据虽然经过了仔细的检查，但可能没有训练集那么严格，训练集已经在多个作品中进行了检查和使用。因此，实验的BCF值可能略高于L. Zhao，F. Montanari，H. Heberle等人生命科学中的人工智能2（2022）1000476表3具有80种化合物的独立logBCF测试集的性能指标模型#molR2RMSE模型（平均值）80-1.4571.632线性（LogD）800.5000.736SVR800.5390.707xBCF800.6760.593Meylan800.3120.864阿尔诺戈巴80-0.0361.060Vega交叉阅读a790.3250.850Vega交叉读取（AD内部）290.2480.773CAESARb80-0.5231.285CAESAR（AD内）70.7230.636歌剧b800.2210.919OPERA（AD内部）660.2720.916a训练集中存在2个分子;1个分子无法预测。B 1个分子存在于训练集中。更吵。其次，最近测试的分子与模型训练集中的分子不太相似。第三，测试集中的分子更大，我们可以假设，更难预测。我们期望能够很好地泛化的模型在这个集合上表现得相当好。在这种情况下，xBCF中使用的多任务方法比其他模型更具优势，因为它的训练集包含更多样化的分子，而且多任务学习通常有助于泛化[49，50]。图3，图2显示了一组具有非常高的实验logBCF值的分子，我们的CV模型将其低估了1-2个log单位。这类物质完全由具有6至9个氯原子的多氯联苯（PCB）组成。其他氯原子较少的PCB仅被我们的模型略微低估，在预期的误差范围内。其他非联苯的多氯分子也被很好地预测。这些多氯联苯的数据来源于一项研究，FoX等人[51]仅报告了根据摄取和净化速率确定的动力学BCF，不幸的是，与我们的大多数数据集不同，未报告稳态BCF。因此，我们无法断定这种行为是否确实是这些多氯联苯的一个特殊特征，或者是数据是否充分EPA-ECOTOX中多氯联苯的一般搜索[52]数据库和OECD QSAR ToolboX[53]显示，大多数多氯联苯的logBCF值在3和5之间（而不是5和6），这将更符合我们的模型预测。同样有趣的是，在最终模型中，低估几乎消失了（其中PCB被包含在训练集中），这表明模型架构足够灵活，可以解释如此复杂的特征。3.2. xBCF模型的适用范围我们的模型立体信息不能被考虑并且在预处理步骤期间被去除。CDDD最初设计用于分子量范围高达600 g/mol的分子，但我们的模型预测分子量高达886 g/mol的logBCF，准确性没有明显降低。训练集中的logBCF值范围为-1.7至6.1。在我们的数据集中，我们还没有确定任何特定类型的分子，我们的模型失败或表现明显更差。我们的检查包括离子型、大分子、亲脂性和具有多个氢键供体或受体部分的分子。因此，我们假设XBCF的适用域覆盖具有分子量的有机分子的整个空间高达900 g/mol。请注意，XBCF的适用范围受益于我们内部进行logD测量的额外60k分子。如果有疑问，可以将logD的xBCF预测与实验数据进行比较，以交叉检查模型是否正确捕获了分子的亲脂性。3.3. xBCF模型新分子的预期预测误差可以从外部测试集上的性能度量和交叉验证结果导出。虽然测试集上0.59 log单位的RMSE可以被视为代表有机分子的指示，0.74 log单位的簇分裂交叉验证RMSE代表新类型有机化学中不属于xBCF模型的训练集。此外，我们还提供了确认性检查，可以检测模型故障，从而提高成功预测的可靠性。我们在增强的BCF集上训练了另一个版本的XBCF，其中每个化合物由RDKit生成的10个不同的随机SMILES表示。在交叉验证期间，所得xBCF randSML模型显示出与原始XBCF模型相似的性能（见表2）。我们计算了每种化合物的10个SMILES预测的标准差，并确定了与预测误差的轻微相关性（参见支持信息）。我们的结论是，随机SMILES预测的高分布表明不确定性增加。这可能是由于CDDD编码器中的不确定性或下游生物浓缩系数预测模型。作为第二个确认性检查，我们可以将预测的logD值与实验logD值进行比较。在高度不一致的情况下（例如，>2 log单位），则该分子的CDDD编码器可能存在问题。然而，没有观察到logD和logBCF预测误差之间的强相关性（见支持信息）。最后，logD和logBCF的敏感性评分（见下文）可与专家的期望相比。3.4. SMILES性格敏感度评分作为局部解释方法我们对BCF的新预测模型的目标是双重的：首先，我们希望建立尽可能好的模型，在化学空间中推广，并可用于研究项目，以优先考虑想法并发现化学系列的潜在问题。其次，我们希望为环境风险评估提供可靠的替代昂贵的动物研究。为此，良好的预测是至关重要的，但可能需要额外的支持信息来增加对我们方法的信任。因此，我们建议将预测与局部解释相结合，这些解释提供了对预测的logD和logBCF值的定性或半定量解释，并有助于识别分子中最重要的部分和特征。显示在输入化学结构上的这种灵敏度分数具有若干优点。它们可以被看作是对模型行为的可验证性检查，因此允许用户获得对模型的信任或识别潜在的错误和偏见。当以更探索的方式使用时，解释可以帮助发现未知的机械效应，或者可以指导新分子的合理设计。考虑到这些目标，我们引入了两种输入微扰方法来获得有符号的原子级灵敏度分数。结合智能可视化，这些方法允许检查每个感兴趣的输入分子的模型预测。因为它们是无梯度的，所以这些方法可以被广泛应用，而与所使用的下游建模算法无关。我们的可解释性方法在概念上受到Sheridan[18]在2019年提出的方法的启发。在他的方法中，查询分子中的原子依次被原子“Na”取代（通常不与有机分子中的共价键一起发生），原子重要性通过将存在Na原子时的预测活性减去存在原始原子时的预测活性而获得。我们不替换分子结构中的原子，而是处理输入SMILES字符串，并删除每个字符（字符删除方法）或替换为包含的每个可能的SMILES标记在CDDD词汇表（替代法），然后计算预测的差异，以原始输入SMILES。与基于原子的方法相比，我们的方法允许提取SMILES字符串中的非原子字符的信息，如环的开/关L. Zhao，F. Montanari，H. Heberle等人生命科学中的人工智能2（2022）1000477图四、 LogD灵敏度评分可视化小分子与单字符，单原子或单组的变化。或分支点。另一方面，这可能使解释更加困难。例如，高敏感度分数实际上可能暗示到一个不存在的原子的非影响，这将是在该位置，字符串如果存在。重要的是要注意，这些方法总是反映输入字符串的变化，并不代表对所需属性的绝对贡献。因此，我们更喜欢将所得数值称为灵敏度分数，因为它们表示预测值相对于给定分子中一个微粒特征的变化的灵敏度程度。应用字符替换或删除方法的一个直接问题是输入分子的这种修饰的化学意义（注意，该问题也适用于Sheridan的方法）。用其他字符（或原子）替换通常会导致语法上无效的SMILES或不稳定的分子。尽管如此，CDDD编码器即使对于无效扰动输入SMILES也能够生成连续嵌入。然后，这些嵌入可以用于通过CDDD解码器生成类似的（有效的）分子。虽然从化学的角度来看是人为的，但这些小的扰动使我们在非常接近原始输入的点周围探测模型的局部行为，这一概念也用于众所周知的LIME方法[54]。由此产生的敏感性分数是依赖于上下文的，而不是基于规则的系统，该系统将相同的含义分配给所有分子中的特定子结构，而不管上下文如何。当然，上下文指的是输入SMILES，因此不同的SMILES符号会导致敏感度分数的微小变化。我们在支持信息中提供了基于随机SMILES的示例，这些示例显示了解释的定性稳定性3.5. 性格敏感度评分在我们的方法开发过程中，我们面临的一个主要困难是缺乏敏感性评分的基础事实。尽管可以计算（和测量）不同分子之间的差异（以logD或BCF为单位），但不可能将这些差异映射到原子上或者角色它们不是真实的物理实体，L. Zhao，F. Montanari，H. Heberle等人生命科学中的人工智能2（2022）1000478图五、对称分子的 LogD灵敏度可视化。左：字符替换方法。右：字符删除方法。也不能严格地从理论概念中推导出来。这特别适用于SMILES字符，但也适用于原子输入特征或指纹，除非对分子量或Crippen的logP [20]等合成的基于原子的加性然而，在我们的例子中，我们感兴趣的是生物系统中真正的物理化学性质。因此，在我们的分析中，我们主要依赖于化学专家的预期和物理有机化学领域的定性模型[55]，这些模型在过去几十年中已被证明在解释反应性和化学性质方面非常有用此外，我们还提供了示例性指南，以帮助用户解释敏感性分数。我们注意到，这些可解释性概念的更严格的发展是未来研究的重要和有前途的努力3.5.1. 解释方法比较作为第一步，我们提供了一些例子，说明这些解释符合受过训练的物理有机化学家的一般（常识）期望，并强调了一些可以指导解释的特殊待遇。我们专注于logD，因为预测模型在这项任务上表现得更好，并且与BCF相比，辛醇-水分布的热力学基础很好理解并且不那么复杂。我们从改变有机小分子中的单个原子开始（图4）。这两种方法（删除和替换）提供了定性相似的解释，符合专家的预期。然而，由于其不同的设计，它们显示出一些显着的差异一般来说，来自替代方法的分数表示在特定字符改变时预测的变化，而删除方法反映该字符的去除。一个说明性的例子是甲苯：取代方法为脂肪族碳（CH3基团，字符“C”）分配中等灵敏度分数，因为取代物是一种有机化合物。这种特性的变化将导致苯酚等，其具有明显较低的logD。另一方面，删除方法分配几乎为零的值，因为C字符的去除导致苯分子，其具有几乎相同的预测logD值。所描绘的实施例的另一个结果是碳原子通常导致正灵敏度得分，而氧原子导致负得分。我们将其归因于它们形成氢键的能力对于羧酸可以观察到甚至更强的效应，其在中性pH下带负电荷，导致非常低的logD值。对于苯甲酸，编码COOH基团的字符的灵敏度得分具有大的负值，包括非原子字符，如等号和括号。在这种情况下，苯环碳原子的灵敏度得分非常小，因为它们对logD的影响很小in this molecule分子.为了探索该方法的鲁棒性和我们的模型正确识别模式的能力，即，官能团，我们进行了对称分子的测试。图5显示了一些结果的敏感性。这些分子含有共价等价的官能团，它们在分子中共享相同的环境，因此应该具有相同的性质。然而，输入的SMILES字符串不反映对称性，因此我们的模型必须从自己的内部表示中推断出这一知识。总体而言，这些分子的对称性定性地反映在属性值中，这意味着该模型能够识别官能团及其分子周围环境，而与它们在SMILES字符串中作

下载后可阅读完整内容，剩余1页未读，立即下载