基于人工智能的蜜蜂毒性评估应用程序的发展与验证

34 浏览量更新于2023-12-06 收藏 2.33MB PDF 举报

生命科学

人工智能

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

生命科学中的人工智能1（2021）100013研究文章BeeToX AI：一个基于人工智能的Web应用程序，用于评估急性毒性化学物质对蜜蜂的影响何塞·TMoreira-Filhoa，1，罗西奥C.Bragab，1，Jade Milhomem Lemosa，Vinicius M.放大图片作者：Alvesc.Borbaa，Wesley S.放大图片创作者：MichaelD，Michael D.穆拉托夫c，f，放大图片作者：Bruno J. Neves a，aLabMol-Laboratory for Molecular Modeling and Drug Design，Faculty of Pharmacy，Universidade Federal de Goiás，Goiás 74605-170，Brazilb InsilicAll Inc.，巴西圣保罗，邮编04363-090c美利坚合众国北卡罗来纳大学教堂山分校Eshelman药学院分子建模实验室，NC 27599dCentro Universitário de Anápolis，UniEVANGÉLICA，Goiás 75083-515，Brazil国家毒理学计划替代毒理学方法评价机构间中心，NIEHS，Durham，NC 27560，美国f巴西帕拉伊巴联邦大学药物科学系，帕拉伊巴58059-900aRT i cL e i nf o保留字：意大利蜜蜂人工智能传粉者生态学机器学习预测建模a b sTR a cT化学诱导的死亡是蜜蜂最近灭绝的主要原因。就此，我们开发了一个创新的人工智能网络应用程序（BeeToXAI），用于评估化学品对意大利蜜蜂的急性毒性。最初，我们通过结合随机森林和分子指纹开发并外部验证了用于分类的QSAR模型（外部设定准确度为91%），以预测化学品对蜜蜂造成急性接触毒性和急性经口毒性的可能性。然后，我们开发和外部验证回归QSAR模型（ε2= 0.75）使用前馈神经网络（FNNs）。之后，最佳模型在公开的BeeToX AI Web应用程序（http：//beetoX ai.labmol.com.br/）中实现。 BeeToX AI的输出是：具有估计置信度的to xicity预测，适用性域估计，以及相对结构片段对toXICITY贡献的颜色编码图。作为对BeeToX AI性能的额外评估，我们收集了一组已知蜜蜂毒性的外部杀虫剂，这些杀虫剂未包含在我们的建模数据集中。BeeToXAI分类模型能够正确预测五种农药中的四种。急性接触毒性模型正确地预测了所有八种农药。在这里，我们证明了蜜蜂-到X人工智能可以作为一种快速的新方法来预测蜂蜜中化学品的急性毒性蜜蜂1. 介绍农药在保护植物和减少昆虫和病原体造成的大规模农作物损失方面发挥着重要作用[1，2]。然而，文献中描述了农药对水生和陆地生态系统的几种有害影响，特别是对非目标物种，如鱼类，蚯蚓，鸟类和蜜蜂[3，4]。在过去的几年中，人们越来越关注杀虫剂对蜜蜂的影响[5在觅食或花蜜，花粉，收集水时，蜜蜂可能无意中被各种杀虫剂污染[10]。通常，受污染的蜜蜂将这些有害化学物质带回蜂巢，可能对整个蜂群产生亚致死或致死效应[10，11]。蜜蜂的急剧灭绝对全球粮食安全和地球生态系统稳定构成严重威胁[12，13]。因此，科学咨询机构和政府机构采用标准化方案来测试活性农药成分对成年蜜蜂（Apis mellifera）的急性毒性[14美国环境保护署（EPA）传粉者风险评估指南缩略语：ACC，准确度; AD，适用域; AUC，受试者工作特征曲线下面积; D s，Dice相似性; D T，适用域阈值��; Cohen' s k a p p a ; L D 5 0 ，诱导 5 0 % 人群死亡的半数致死剂量 ; M A C C S ，分子访问系统 ; M C C ， M a t t h e w s 相关系数 ; M L ，机器学习 ; N P V ，阴性预测值 ; O C H E M ，在线化学建模环境 ; O E C D ，经济合作与发展组织 P P V ，阳性预测值 ; Q S A R ，定量结构与毒性 / 活性关系 ; R F ，随机森林 ; S E ，灵敏度 ;S M I L E S ，简化分子输入线输入规范 S P ，特异性 ; SVM，支持向量机; Tc，Tanimoto系数; US EPA，美国环境保护局; 5 F C V ， 5 折交叉验证。∗ 通讯作者。电子邮件地址：brunoneves@ufg.br（B.J. Neves）。1 这些作者对这项工作作出了同样的贡献。https://doi.org/10.1016/j.ailsci.2021.100013接收日期：2021年10月27日;接收日期：2021年11月9日;接受日期：2021年11月11日2021年11月14日网上发售2667-3185/© 2021由Elsevier B. V.发布这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）可在ScienceDirect上获得目录列表生命科学期刊首页：www.elsevier.com/locate/ailsciJ.T.莫雷拉-菲柳布拉加Lemos等人生命科学中的人工智能1（2021）1000132提供了一个短期和长期的战略，以评估农药对蜜蜂构成的风险[16]。这些动物可能通过间接接触植物表面、经口摄入受污染的水或食物或在标准养殖实践中使用农药时直接接触农药残留。如果农药的拟议使用模式表明蜜蜂可能接触农药，则农药登记必须进行急性接触和口服毒性研究[16]。急性毒性试验使用导致50%人群死亡的半数致死剂量（LD 50），检查农药短期暴露（24-96 h）后的效应主要的接触途径是通过接触（即，直接喷雾）或口服培养（即，花蜜和花粉）。接触和经口给药的毒性试验报告的毒性值均为微克/蜜蜂。如果农药��美国环保署估计，农药注册所需的研究费用约为13，400美元，用于蜜蜂急性毒性，对蜜蜂的半现场研究达到每种化学品133，300美元[19]。了解成本高，耗时长的特点，实验测定、计算机模拟模型已经成为一种实用的解决方案，可用作筛选工具，并在综合测试策略中使用，以避免动物测试以及降低成本和化学废物[20]。计算策略遵循“3R”原则动物实验的替代、改进和减少[21]。更简单的方法是基于这样的概念，即具有结构相似性（交叉读）[22]或某些亚结构（结构警报）[23]的化合物具有增加的概率来共享相同的X- icological性质[22]。然而，越来越多的人担心结构警报会导致过多的化学物质与X有关，这质疑了它们作为X性标记的可靠性[23]。因此，由于缺乏透明度和可解释性，它们在X射线学监管中的使用受到阻碍[23]。因此，定量结构-活性/毒性关系(QSAR/QSTR）模型已被开发为实验测试和基于规则的方法的替代方法。QSAR建模揭示了化合物的结构特性与相应的生物学/毒理学特性之间的关系[22这些特征使未测试化学品的毒性根据其化学结构得到更准确的预测[23]。目前，最现代的QSAR方法是使用人工智能方法开发的，例如机器学习（ML）和深度学习（DL）算法[25，26]。ML是一个不断增长的人工智能领域，它使用不同的统计技术使计算机能够从化学和生物学或X学数据中学习，而无需为此任务进行明确编程。这些算法能够捕获相关描述符之间的复杂非线性关系（即，分子性质的数学表示虽然QSAR在生态毒理学领域广泛应用，但很少有免费提供的基于QSAR的工具，具有图形界面，可用于评估化学品对蜜蜂的口服和急性接触毒性[29，30]。同样，没有QSAR模型的报告，以评估急性口服毒性的化学品蜜蜂。此外，一项批判性分析显示，绝大多数已发布的模型不符合OECD原则[31]，以及数据管理[32以往QSAR研究的主要缺点包括：（i）缺乏数据整理和重复分析的证据[29，36例如，尽管Wang等人开发的模型。[29].并在BeeToX Web应用程序中实现，具有良好的预测性能，(DA)对预言的机械解释并不支持，vided。此外，我们在其数据集中发现了60多个重复，这可能导致模型的高估。其可靠性用于评估化学诱导的蜜蜂急性毒性是不确定的。因此，本手稿描述了一个易于访问、开源、面向公众的Web应用程序（Bee- ToX AI：http：//beetoX ai.labmol.com.br/）的开发和应用，以使广泛的利益相关者（包括监管者、受监管行业、研究科学家和公众）能够民主化地访问这些预测QSAR模型BeeToX AI是第一个预测蜜蜂急性接触和口服毒性的网络应用程序，完全符合严格的预测建模实践[35]和经合组织指南[31]。2. 材料和方法2.1. 数据集包含蜜蜂实验急性毒性数据的化合物数据集（A.从科学文献[40-52]以及US EPA的Ecoto x数据库[53]、EFSA的Open-FoodTo x数据库[54]和在线化学建模环境（OCHEM）数据库[55]中收集了意大利产）。数据整合产生了由2543种农药和农药样化合物组成的未固化数据集，这些化合物代表不同的类别（例如，杀虫剂、除草剂、杀真菌剂）并且具有广谱的毒性机制。然后，如US EPA试验指南[16]所述，使用11μg/蜜蜂的阈值，将 48小时后记录的对成年蜜蜂具有中等致死剂量（LD50，μg/蜜蜂）的化合物分类为XIC和NON-XIC。根据蜜蜂暴露类型（接触和口服），将化合物分为两个独立的数据集。数据集的简要描述如下：• 接触暴露数据集（文件S1）：615种化合物与蜜蜂接触暴露的LD50数据。其中LD 50≤11微克/只的有毒化合物229种，LD50≤11微克/只的无毒化合物>11微克/蜜蜂）。• 口服暴露数据集（文件S2）：211种化合物，具有蜜蜂接触暴露的LD50数据。结果表明，该菌含有93种毒性化合物（LD50≤11μ g/蜂）和118种非毒性化合物（LD50>11微克/蜜蜂）。2.2. 数据监护根据Fourches及其同事[32-34]提出的方案，使用Standardizerv.16.9.5.0（ChemAX on，Budapest，Hungary）仔细标准化所有化学结构和相应的LD50数据简单地说，添加明确的氢，而盐、混合物、聚合物和有机金属化合物被去除。此外，对特定化学型（如芳环和硝基）进行了标准化。然后，我们进行了重复分析和排除。采用了不同的标准，具体如下：• 分类QSAR模型：（i）如果重复样本与X线学结果不一致（例如，toXic vs nontoX ic），则两个条目都将（ii）如果重复报告的结果相同，则数据集中将保留一个条目，而另一个条目将被排除。去除重复样本后，接触暴露数据集有382种化合物（toX ic：112，nontoXic：269），而口服暴露数据集有169种化合物（toX ic：71，nontoXic：98）。• 回归QSAR模型：（i）目视检查一式两份，（ii）如果一式两份显示效价不一致，则排除两个条目;（iii）如果报告的效价相似，则计算值的平均值，并在数据集中保留一个条目。随后，将LD50值转换为μM范围内的负对数（−log）单位（pLD50）在该过程结束时，接触暴露数据集有218种化合物，而口服暴露数据集有142种化合物。J.T.莫雷拉-菲柳布拉加Lemos等人生命科学中的人工智能1（2021）1000133��=（）（）2.3. 化学空间分析A.由to XIC和nonto XIC化合物形成的化学空间。和2044种商业杀虫剂（未测试对意大利蜜蜂的影响）。通过绘制相似性图来分析从农药产品信息系统数据库[56]收集的意大利蜜蜂属（Mellifera），并使用OSIRISDataWarrior软件v.05.02.01[57]生成。相似性图使用摩擦力场方法，该方法转换化合物（节点）之间的相似性（顶点）。该方法包括以下步骤：（i）在2D空间中随机定位所有化合物;（ii）使用Tanimoto系数（Tc）和FragFP描述符计算所有化合物之间的相似性矩阵;（iii）最相似邻居（Tc）的位置>0.8）;以及（iv）逐步重新定位所有化合物，以确保相似的分子彼此靠近[57]。2.4. 分类模型这些模型是在Python v.3.658中开发的，遵循QSAR建模的最佳实践[35]，并且完全符合OECD原则，用于监管目的的QSAR建模验证，即，一先验分布与似然函数P（D1：t）相结合|��）：��给定模型��乘以先验概率P（��）。在此过程中，贝叶斯优化通过基于目标的过去评估超参数构建代理函数（概率模型）来找到最大化目标函数（G均值得分）的超参数[66，67]。选择几何（G）均值为评分器，因为它衡量了多数（非Xic）和少数（Xic）类的分类性能之间的平衡。2.4.4. 移轴使用Scikit-learn v.0.24.2[65]中实施的阈值移动方法校准QSAR模型。该方法使用通过受试者工作特征（ROC）曲线获得的0至1范围内的不同概率阈值，以找到具有最大G均值的阈值。因此，更容易准确地预测少数类示例。为了使用G均值作为模型边界类，我们实现了一个Python类来覆盖Scikit-learn框架中的X值预测及其概率。随后，对概率值进行缩放，以估计预测的置信度，如下所示：定义的终点，明确的算法，定义的适用范围，适当的拟合优度，鲁棒性和预处理措施，−�� min（��）最大值（）−最小值（）��（二）如果可能的话，还有一个机械的解释[31]。2.4.1. 分子指纹在开源化学信息学软件RDKit[59]中计算分子存取系统（MACCS）密钥、Morgan（ECFP样）和MonteMorgan（FCFP样）指纹，直径为4ECFP是捕获高度特异性原子信息的圆形指纹，能够表示大量精确定义的结构特征[61]，而FCFP指纹捕获功能特征（即，氢键供体和受体、芳族、卤素、碱性和酸性基团）[62]。2.4.2. 数据集分割和5重交叉验证提出了一种通用的COM接触和口语数据集分割流程图其中，min（min）表示测量范围的最小值max（max）表示测量范围的最大值，∈[min（��概率k在区间[0，1]上，k= min（k）映射到0，max（max）映射到1。2.4.5.模型性能采用准确度（ACC）、灵敏度（SE）、特异度（SP）、阳性预测值（PPV）、阴性预测值（NPV）、Matthews相关系数（MCC）和受试者工作特征曲线下面积（AUC）评价QSAR模型的内部和外部预测性能。这些指标计算如下：TP + TN如补充图S1所示。最初，数据集被分为建模集（80%的化合物）和外部集（20%的化合物）。ACC =N（3）使用随机分布方法。模型集用于通过5重外部交叉验证（5FCV）方法生成QSAR模型，而外部集用于评估SE =TPTP + FNTN（四）模型的预测能力。使用相似性SP = TN + FP（5）地图这些图表明，外部集合化合物占据与建模集合化合物相同的化学空间。对建模集进行5FCV方法，其中生成五个相等大小的子集。共使用四个子集（建模集的80%）构建QSAR模型（训练集），使用剩余的20%子集（测试集）评价QSAR模型的稳健性PPV =TPTP + FPNPV =TNTN + FNTP x TN − FP x FN（六）（七）QSAR模型开发了五次，允许五个子集中的每一个用作瞬时测试集。5FCV建模过程MCC = ��（随后使用外部保持集评估模型性能。AUC =∑[（SE我100+1）（SP100+1–2.4.3. QSAR建模与超参数优化使用Scikit-learn v.0.24.2[65]中实现的支持向量机（SVM）[63]和随机森林（RF）[64]算法开发QSAR模型。由于ML的性能与其超参数密切相关，因此使用Scikit-Optimize v.0.7.4[66]中实施的贝叶斯方法对模型进行了优化。在这项工作中探索的超参数的详细信息可在支持信息中找到。贝叶斯优化可以定义如下：其中N表示化合物的数量，TP和TN表示真阳性和真阴性的数量，FP和FN表示假阳性和假阴性的数量。除了上述模型评价指标外，还使用Cohen��该统计参数通过以下公式计算：TP + TNP-1000��∝ P D1∶ N-甲基-N-（2-甲氧基苯基）-2-甲基-N-（2-甲氧基苯基）��其中，Xi是第i个样本，并且（Xi）是目标函数在Xi处的观测值。累积观测值D1：t ={X1：t，n（X1：t）}。J.T.莫雷拉-菲柳布拉加Lemos等人生命科学中的人工智能1（2021）1000134NPr（λ）=Pr（e）=N（10）（TP + FP）x（TP + FN）+（TN + FN）x（TN + FP）（11）J.T.莫雷拉-菲柳布拉加Lemos等人生命科学中的人工智能1（2021）1000135∑��（��=1κ = Pr（π）−Pr（π）1− Pr（π）（十二）2.6. 模型解释贡献图[72，73]是从QSAR模型生成的，以vi-其中Pr（e）是假设的偶然一致性概率，Pr（a）表示模型的预测分类与已知分类之间的相对观测一致性。2.4.6. 适用域（AD）任何QSAR模型不仅需要表现出良好的准确性，而且还需要表征外部预测的可靠性。为了解决后者，使用预测化合物（A）和训练集化合物之间的Dice相似性（D）来(B)[69]第二章。通过以下公式计算Dc：使导致急性接触和口腔毒性的碎片和原子溶解。在这里，原子的“重量”被认为是预测概率差异（分类模型）或pLD50差异（回归模型），当指纹中对应于原子的位被移除时获得。然后，使用归一化权重为了在类似地形图的图中对原子着色，其中绿色表示对X的负贡献（即，预测概率或pLD50在比特被移除时增加），而红色表示对X的正贡献（即，当比特被移除时，预测概率或pLD50减小）[73]。2.7. 模型实现|+的||+|B|DS = A类（13）其中在任一侧上具有竖条的集合是指集合的基数，即，在这个集合中的位数（指纹）。使用的是表示两个集合的交集（两个集合共有的位）。然后，定义AD阈值（DT）来估计外部预测的可靠性：DT = y σ + Zσ（14）其中，m是平均D 在预测和训练下的化合物��BeeToX AI Web应用程序是在多平台框架上实现的，其技术可以支持对微服务无服务器和Kubernetes环境的大规模需求[74]。后端服务使部署新的算法和实验变得容易，同时保持相同的服务器架构和API。API与JSON基础设施一起工作，并允许与其他计算机软件（例如，KNIME或自定义前端）。集成的主要语言是 Python[58] ， RDKit[59] ， Scikit-learn[65]，uWSGI对于设定的化合物，λ是Dλ的标准差，Z是任意的，trary参数来控制显著性水平。我们将此参数Z的默认值设置为0.5。如果复合距离超过D，[75]、JavaScript [76]、Flask [77]、Matplolib [78]和Seaborn [79]。BeeToX AI还包括用JavaScript[80]，这是由最流行的Web浏览器支持。 Java或预测可能被认为是不太可信的[70]。2.5. 回归模型TFlash插件不需要使用该应用程序。我们的后背和前面-最终使用GitLab[81]，用于持续集成（CI）的CI/CD，持续交付（CDE）和持续部署（CD）。应用程序然后，使用 Keras （ https://keras.io/ ）和 Tensor TensorFlow（www.tensor Tensorow.org ）作为后端开发了基于前馈神经网络（FNN）的回归模型。最初，使用随机分布方法将数据集分为建模集（80%的化合物）和测试集（20%的化合物）。然后，使用μM范围内的ECFP 4指纹和pLD50值开发回归模型。FNN的架构根据以下组合进行了优化：层类型（密集），隐藏层的数量（3-7），激活函数（ReLU，Elu，Selu），输出层函数（sigmoid），模型优化器（Adam）。“均方误差”被用作损失函数。以“平均绝对误差”作为衡量模型优劣的参数。以下超参数用于进一步的FNN训练：epoch数（1-200），dropout（0.001）和batch size（5-30）。使用Scikit-learn v.0.24.2[65]中实现的支持向量回归（SVM）[63]和RF[64]算法进行模型的基线比较。使用相关系数（RMSE）、均方根误差（RMSE）和平均绝对误差（MAE）评价回归模型的预测性能[71]。��这些指标计算如下：∑（−）2��到生产。3. 结果和讨论在本研究中，我们整合并仔细编辑了最大的化合物急性毒性数据（LD 50）成人A。蜜蜡树属。根据实验性急性毒性试验期间蜜蜂暴露的类型，将化合物分为以11μ g/蜂为阈值，将化合物分为对XIC（≤11μ g/蜂）和非对XIC（>11μ g/蜂）两类. 如美国环保署测试指南[16]中所述。随后，我们使用标准协议仔细策划了接触和口头数据集[32数据管理是构建预测QSAR模型的关键一步目前已确认的26个亚种间的基因型差异很大。意大利产的蜜蜂可以直接影响对化学品的反应[83]。遗憾的是，保存在公共数据库中的大多数化学品没有提供亚种信息此外，当由不同实验室进行毒性试验时[84]，以及当在同一实验室中对单一亚种的不同菌落进行试验时，通常会出现相当大的差异[85]见附件。另一方面，同一化合物可以多次注册。��2=1 −��==�� 1个∑（−��）2��2=1��（十五）（十六）时间在建模和外部设置。使用包含重复数据集的数据集构建的QSAR模型，如果结果不相似，则准确度较低，如果结果相同，则性能过于乐观[34]。尽管如此，数据整理程序并没有统一应用于一些QSAR模型的开发[29，36接触和口服数据集中的化合物数量见∑��|��−��|表1. 经过数据整理和重复删除，联系人博览会-��=��=1个|��|（十七）sure数据集有382种化合物（toX ic：113，nontoX ic：269），而口服暴露数据集有169种化合物（对Xic：71，非对Xic：98）。的在上述方程中，Δ L ΔL Δ L表示实验pLD50值，Δ L Δ L Δ L表示实验pLD50值，表示预测的pLD50值，分别是训练集和测试集中的化合物数量，并且是训练集的实验值的平均值。��数据集进一步划分（图）。S1）进入建模（80%）和外部-最终（20%）集。因此，接触数据集中的305种化合物用于模型开发，而其余77种化合物（20%）用于验证模型。同样，口服的135种化合物J.T.莫雷拉-菲柳布拉加Lemos等人生命科学中的人工智能1（2021）1000136表1接触和经口暴露数据集的建模和外部验证集中化学品的分布。回归模型使用ECFP 4 + RF构建的模型证明了在为急性接触性开发的所有其他模型中的最佳内部性能（ACC = 0.89; SE = 0.70; SP = 0.96;和Emax=0.71）。使用ECFP 4 + SVM建立的模型表现出最好的内部性能，到XicNontoX ic急性经口给药敏感性（ACC = 0.87; SE = 0.75; SP = 0.96;=��0.74）。联系人数据集造型套装90 215 174外螺纹23 54 44共计113 269 218口头数据集造型套装57 78 114外螺纹14 20 28共计71 98 142数据集用于模型开发，而剩余的34种化合物用于验证模型。数据集分割的总体质量如补充图S2所示，其表明外部集合化合物相对分布在建模集合化合物的化学空间的所有区域中。另一方面，对于开发回归模型的数据集，在数据整理和重复删除后，接触暴露数据集有218种化合物，而口服暴露数据集有142种化合物。将数据集分为建模（80%）和外部（20%）集后，接触数据集的174种化合物用于模型开发，44种化合物用于验证模型。以同样的方式，口服数据集的114种化合物用于模型开发，28种化合物用于验证模型。3.1. 化学空间分析通过使用接触和口服暴露数据集以及从农药产品信息系统数据库中收集的2044种农药进行化学空间分析[56]。通过使用相似性图将两个数据集分别绘制在农药数据库上进行分析（图1）。 1）[57]。如图1所示，两个数据集在结构上是不同的，包含- 类似化合物的较小簇（黑色圆圈），并涵盖农药化学空间的所有区域。这一发现与我们之前的观察结果非常相关，即广泛的化学类别（药物，工业用途，农药，化妆品）具有相似的结构，化合物的性质取决于其化学结构，而不是其工业类别[86]。当分析接触数据集的结果时（图1a），发现大多数邻苯二甲酸和非邻苯二甲酸化合物不共享相同的簇，并且在口腔数据集中观察到类似的特征（图1d）。该分析表明，两个数据集都具有很少的X值（即，结构相似的化合物，但在X性方面存在很大差异）[87来自接触数据集的簇1-3的代表性化合物第1类含有至XIC拟除虫菊酯;第2类含有至xic来自口腔数据集的聚类1-3的代表性化合物簇1包含对-XIC硫代磷酸酯;簇23.2. 分类模型的性能通过结合两种ML方法（RF和SVM）以及三种指纹集：MACCS，FCFP和ECFP（直径4：FCFP 4，ECFP 4;直径8：FCFP 8，ECFP 8），共开发了20个分类模型。总结了急性接触性和急性经口性在表S1和S2中。简而言之，ACC值范围在0.81-0.89之间��此外，外集被用来评估QSAR模型的预测能力由于模型构建中不涉及外部集合化合物，因此所得性能反映了模型预测新化合物的毒性的能力。结果表明，使用FCFP 4 + RF、ECFP 4 + RF和ECFP 8 + RF构建的模型（表S1）在为急性接触性开发的所有其他模型中显示出最佳的外部预测性（ACC = 0.90; SP = 0.98;AUC= 0.73）。然而，这些模型具有有限的能力来正确地预测XIC化合物（SE = 0.70）。使用MACCS +RF开发的模型（表S2）显示，在为急性经口毒性开发的所有其他模型中，外部预测性最好（ACC = 0.88; SE = 0.86; SP = 0.90;和Emax=0.76），表明该模型对新化合物的毒理学潜力分类具有更高的准确性。3.3. 不平衡分类在不丢失数据的情况下提高预测置信度，即，无需平衡数据，我们尝试了概率估计的阈值移动校准[90]。从机制上讲，分类模型也输出一个连续值，作为给定案例所属的概率到一个输出类。概率可以解释为或者说，每个人都有属于自己的信仰。在这里，使用急性接触和口腔数据集独立训练分类模型，以区分XIC与NON-XIC化合物。通常，将预测概率值小于0.5的值指定为非邻苯二甲酸类化合物，将值大于或等于0.5的值指定为邻苯二甲酸类化合物。然而，为使用不平衡数据进行分类而开发的QSAR模型通常为少数类别提供较差的概率估计值（0.5）[91，92]。有鉴于此，探讨了0至1范围内的不同概率阈值，以找到反映最佳性能的最佳阈值。表S3和S4分别总结了急性接触毒性和急性经口毒性校准模型的统计性能详情。一般而言，阈值移动导致这些QSAR模型的统计性能显著改善（图2a）。如表2和图2a所示，将阈值从0.5变更为0.32改善了针对急性接触开发的FCFP4 + SVM模型的ACC（+4%）、MCC（+14%）和AUC（+16%）。在此基础上，将该模型获得的调整后的概率阈值作为预测新化合物急性接触毒性在阈值移动校准后，还研究了急性经口毒性模型的性能，尽管它们是使用具有与XIC和NON-XIC化合物相似比例（1：1.4）的数据集生成的。针对急性经口毒性开发的校准模型的统计特征见表2和S4。根据雷达图（图2b），阈值移动校准并没有导致这些模型的内部和外部性能的明显改善。因此，阈值移动校准未用作预测新化合物急性经口毒性的调整参数。从统计角度来看，我们的建模方法使外部预测分类模型的开发成为可能。然而，构建用化合物的小数据集训练的QSAR模型必须始终被认为是微妙的，因为它可能会受到各种缺陷的影响，例如AD以外的化学品的不一致分类。此外，这些模型的机械解释可能是挑战。考虑到过多的病理机制的总和，每个机制都涉及不同的生物化学途径，最终产生结果。J.T.莫雷拉-菲柳布拉加Lemos等人生命科学中的人工智能1（2021）1000137Fig. 1. 来自接触（a）和口服（c）数据集的对氯和非对氯化合物的结构分布以及农药的化学空间。三个高度相似的化合物簇用黑色圆圈突出显示并编号。(b)以及（d）表示分别在接触和口腔数据集中突出显示的聚类1- 3的代表性化合物。红色三角形代表对氯化合物，绿色正方形代表非对氯化合物，灰色圆圈代表从农药产品信息系统数据库中收集的农药。Tanimoto系数>0.8的化合物通过顶点连接。背景中的配色方案表示相邻项的数量。(For有关本图图例中颜色的解释，请参阅本文的网络版本。）表2为急性接触性和急性经口毒性开发的最佳QSAR模型的统计特征指纹图谱方法PT集ACC SE SP PPV NPV AUC覆盖率急性接触与毒性模型��FCFP4 SVM 0.32a建模0.87 0.78 0.90 0.77 0.91 0.68 0.68 0.84 0.650.91 0.78 0.96 0.90 0.91 0.77 0.78 0.87 0.70ECFP8 RF 0.37a建模0.88 0.78 0.93 0.81 0.91 0.71 0.71 0.85 0.640.90 0.74 0.96 0.89 0.90 0.74 0.75 0.85 0.67ECFP4 RF 0.26a建模0.86 0.80 0.89 0.75 0.91 0.68 0.68 0.84 0.68急性经口毒性模型EX胸骨0.90 0.83 0.83 0.93 0.75 0.75 0.88 0.74MACCS RF 0.50b建模0.82 0.74 0.88 0.82 0.82 0.63 0.63 0.81 0.750.88 0.86 0.90 0.86 0.90 0.76 0.76 0.88 0.85ECFP8 SVM 0.50b建模0.84 0.75 0.91 0.86 0.84 0.68 0.68 0.83 0.660.85 0.86 0.85 0.80 0.89 0.70 0.70 0.85 0.79FCFP4 RF 0.50b建模0.84 0.67 0.96 0.93 0.80 0.65 0.67 0.81 0.68总面积0.85 0.64 1.00 1.00 0.80 0.68 0.72 0.82 0.79RF，随机森林; FCFP 4，直径为4的功能类指纹; ECFP 4，直径为4的扩展连接指纹; ECFP 8，直径为8的扩展连接指纹; SVM，支持向量机; PT，概率阈值; ACC，准确度; SE，灵敏度; SP，特异性; PPV，阳性预测值; NPV，阴性预测值��; Cohen's kappa; MCC，Matthews相关系数; AUC，ROC曲线下面积;覆盖率，适用范围内测试集或外部集化合物的比例。a阈值移动校准后获得的统计结果。b违约概率阈值统计结果。J.T.莫雷拉-菲柳布拉加Lemos等人生命科学中的人工智能1（2021）1000138图二. 使用标准概率值和阈值移动校准，比较针对（a）急性接触性和（b）急性经口接触性开发ACC：准确性; SE：灵敏度; SP：特异性; PPV：阳性预测值; NPV：阴性预测值;ROC：Cohen's kappa; MCC：Matthews相关系数; AUC：ROC曲线下面积。(For在此图图例中，对颜色的引用的解释，请读者参考这篇文章的网络版本3.4. 回归模型根据前一节的结果，我们使用FNN开发了回归模型，旨在预测蜜蜂急性接触和急性经口毒性的pLD50 我们评估了急性接触和急性口腔数据集的不同FNN配置和超参数的组合。最佳性能是基于RMSE2和RMSE之间的最佳平衡来确定的。测试的超参数及其对模型性能的影响如图3所示。最初，我们评估了每个数据集的不同隐藏层数量，因为深度对模型复杂性有很大影响，并且可能导致模型的过度拟合。正如我们在图3a，b中所看到的，五个隐藏层显示了急性接触性模型的最佳结果，而六个隐藏层提高了急性口腔接触性模型的性能。此外，ReLU激活函数在所有测试函数中显示出最好的结果（图3c，d）。此外，对于急性接触和急性口腔模型，20和15的批量显示出最佳性能，结果（图1）。 3 e、f）。在找到最佳组合后，我们发现最具预测性的急性接触模型（RMSE2= 0.75，RMSE = 0.39，MAE = 0.32）是使用五个隐藏层生成的，减少了后续隐藏层中的神经元数量[分别为512，256，128，16和4（图3g）]，ReLU激活函数，批量大小为20，199个epoch。另一方面，最佳急性口腔模型（RMSE2= 0.75，RMSE = 0.68，MAE =0.53）是使用6个隐藏层生成的，减少了后续隐藏层中的神经元数量[分别为512，256，128，64，32和16（图3h）]，ReLU激活函数，批量大小为15，142个epoch。我们还使用ECFP 4指纹作为基线模型来训练RF和SVR方法，以检查数据集的可建模性。SVR算法在非线性问题[63]，而RF在QSAR研究中引起了很大的兴趣，因为它对超参数不敏感[64]。对于两个急性至毒性终点，基于优化FNN（R2≥ 0. 75）的回归模型显示出优于RF和SVR（R2≤ 0. 41）模型的性能，表明建模数据集不具有易于区分的模式，并且无偏倚。3.5. 与公开可用模型的3.5.1. 分类模型已经开发了几种分类方法来评估化学品对蜜蜂的急性毒性，因此表3中列出了它们的统计性能比较。总体而言，本研究中报告的分类模型（ACC = 0.91，MCC =0.78）显示出比Como等人（ACC = 0.84，MCC = 0.67）[37]、Venko等人（ACC = 0.77，MCC = 0.48）[38]、Wang等人（ACC =0.83，MCC = 0.59）生成的分类模型更高的性能[29]、Li等人（ACC = 0.90，MCC = 0.76）[39]和Singh等人。（分类和多类分类的ACC分别为0.87和0.89）[36]。另一方面，我们的模型显示出与Carnesecchi等人[93]开发的QSAR相当的统计性能。(ACC=0.90，MCC = 0.78）。尽管如此，值得注意的是，这些比较不应该被严格解释，因为训练集和测试集的不同组成和大小被用来构建模型。此外，Carnesecchi et al.[30]第30段。开发的外部预测QSAR评估混合物对蜜蜂（ACC = 0.96，MCC = 0.90）。�� 虽然这些模型可能有助于填补蜜蜂的X学评估的部分空白，但不适合将它们与我们基于活性成分的模型进行比较，因为J.T.莫雷拉-菲柳布拉加Lemos等人生命科学中的人工智能1（2021）1000139图3. 针对急性接触和急性口腔回归模型评估不同的架构和超参数。（a）评估的隐藏层数量及其��急性接触外部集的

下载后可阅读完整内容，剩余1页未读，立即下载