生命科学中的人工智能：基于分子图像的活性基团预测

79 浏览量更新于2023-12-06 收藏 990KB PDF 举报

生命科学

人工智能

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

生命科学中的人工智能1（2021）100022研究文章从分子图像中学习官能团化学，可以准确预测活性基团☆Javed Iqbal，Martin Vogt，Jürgen Bajorath生命科学信息学系，B-IT，LIMES程序单元化学生物学和药物化学，Rheinische Friedrich-Wilhelms-Universität，Friedrich-Hirzebruch-Allee 6，D-53115Bonn，GermanyaRT i cL e i nf o保留字：卷积神经网络迁移学习分子图像分析官能团活性分析a b sTR a cT通过深度学习进行的图像分析的进展已经催化了最近在化学信息学和药物设计中使用分子图像来预测化合物性质和其他应用的建模。对于图像分析和分子图的表示学习，卷积神经网络（CNN）代表了首选的计算架构。在这项工作中，我们研究了是否可以使用不同复杂性的CNN从化合物图像中学习官能团（FG）及其区别化学特征的问题，以及这些知识是否可以转移到其他预测任务中。我们已经证明，频繁发生的FG是全面学习的，导致高度准确的多标签FG预测。此外，我们已经确定，CNN获得的FG知识足以通过迁移学习准确预测化合物活性参数（AC）。在AC数据上重新训练FG预测模型优化了卷积层权重，进一步提高了预测精度。通过特征权重分析和可视化，为CNN学习FG化学并转移这些知识的能力提供了理论基础有效的AC预测。介绍深度学习在包括生物学和医学在内的不同领域显著推进了图像分析[1除自然语言处理外，图像分析近年来一直是深度学习的增长领域之一，这对其在不同领域的日益普及做出了很大贡献。在用于图像处理和分类以及从图形表示学习的深度学习架构中，卷积神经网络（CNN）发挥了重要作用[1，4-6]。图像和图形分析的进展也对化学产生了影响，其中分子图像最近已用于表征学习和预测各种化合物性质[7尽管基于图像的方法是否可以进一步提高基于常规化学描述符的机器学习的性能水平仍有待确定提出了利用分子图像数据的概念，并取得了一些有希望的结果。在基于图像的化学应用以及分子图的表示学习中，CNN架构优先使用。在另一项概念验证研究中，我们最近基于图像数据[15]预测了由具有显著效力差异的活性结构类似物对形成的活性类似物（AC）[14]。AC在药物化学中特别令人感兴趣，因为它们捕获具有大生物效应的小化学修饰，因此富含结构-活性关系信息[14]。对于基于图像的AC预测，还使用了CNN架构[15]。AC预测代表了一项特殊的任务，因为在这种情况下，测试实例是化合物对，而不是单个分子。因此，在AC预测中，阴性类别由具有小的或没有效力差异的活性结构类似物对组成。AC首先正确地缩略语：A，准确度; AC，活动度; API，应用程序编程接口; AUC，曲线下面积; BA，平衡准确度; CGR，反应浓缩图; CNN，卷积神经网络; EA，基于多标签示例的平均值; E-F1，基于多标签示例的平均值F1; EMR，精确匹配率; EP，基于多标签示例的平均精度; ER，基于多标签示例的平均召回率; FG，功能组; IV-3，Inception-V3模型; I-FG，使用ChEMBL化合物预训练的IV-3; I-FG（F），微调的I-FG; I-FG（R），重新训练的I-FG; I-IN，使用ImageNet预训练的IV-3; I-IN（F），微调的I-INI-IN（R）：重新训练的I-IN; MCC，Matthews相关系数; MMP，匹配的分子对; P，精度; R，召回率; ROC，受试者操作特征; SCNN，简单CNN模型; I-IN（F）/（R），I-IN微调/重新训练。☆鉴于他作为主编的角色，Jürgen Bajorath没有参与这篇文章的同行评审，也无法获得有关同行评审的信息本文编辑过程的全部责任委托给了郑明月*通讯作者。电子邮件地址：bajorath@bit.uni-bonn.de（J. Bajorath）。https://doi.org/10.1016/j.ailsci.2021.100022接收日期：2021年11月17日;接收日期：2021年11月24日;接受日期：2021年11月24日2021年11月27日网上发售2667-3185/© 2021作者。由Elsevier B. V.发布。这是一个CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）可在ScienceDirect上获得目录列表生命科学期刊首页：www.elsevier.com/locate/ailsciJ. Iqbal，M. Vogt和J. 巴约拉特生命科学中的人工智能1（2021）1000222图1.一、卷积神经网络图示了SCNN（顶部）和IV-3（底部）架构使用具有新设计的用于表示化合物对的描述符向量的核函数的支持向量机进行预测[16]，并且基于图像的预测产生了相当的准确性[15]。在这项工作中，我们使用AC预测作为测试案例，以调查官能团化学是否可以从分子图像中学习并转移到其他预测任务中。因此，设计了两步学习方法，如下所述研究概念形成如本文所定义的AC的化合物（参见下文）共享其核心结构，并且通过取代基（R-基团、官能团）的替换来区分因此，如果能够从图像中学习不同的官能团（FG）并在化合物中识别它们，则可以检测区分AC和非AC化合物对中的化合物的FG，从而为AC预测提供基础。对于我们的分析，识别了频繁发生的FG。首先尝试使用CNN从分子图像中学习FG，然后通过迁移学习将这些知识应用于预测AC。因此，根据该分析方案，AC的成功预测将证实从化合物图像学习FG化学的能力迁移学习[17，18]是指通过从已经导出模型的相关任务中转移知识来学习新任务的过程。迁移学习应用于机器学习中，以在存在相关预测任务的情况下导出模型，特别是当单个任务的训练数据量有限为了便于分析，预先训练了深度CNN架构并以不同的方式进行微调使用化合物图像进行预训练以学习FG化学并基于FG的存在或不存在对化合物进行准确分类。然后，只有这些CNN模型的最后一层被微调，用于基于迁移学习的AC预测的复杂任务。或者，使用AC数据重新训练在复合图像或一般图像数据上预训练的作为对照，使用随机权重初始化的模型只接受过交流数据的训练方法和材料功能组使用Ertl[19]引入的FG识别算法从化合物中提取代表常见FG的子结构。该方法识别分子中的所有杂原子以及通过非芳族双键或三键连接到其他碳或任何杂原子的碳原子、缩醛碳以及氧杂环丙烷、氮丙啶和硫杂环丙烷环，并将连接的标记原子的子集组合成FG[19]。然后将FG与原子环境信息（即，键合的碳或氢原子），并分配给遵循与FG识别算法相关的泛化方案的不同类[19]。分子图像表示使用RD-试剂盒应用程序编程接口（API）将每种化合物表示为分子对象[20]。对于每种化合物，使用RDkit Chem.Draw软件包（版本2020.03.5）生成500×500像素的高分辨率便携式网络图形图像[20]。将图像大小调整为300× 300PIX el，并从最大pix el值255中减去每个通道的每个PIX补充图S1显示了示例性分子图像表示。将所有图像矩阵的PiXel值转换为32位浮动点格式并归一化为0-1的范围。使用openCV（版本4.5.0）处理图像[21卷积神经网络结构两种不同的CNN架构被组装用于FG的多标签分类和AC的预测并进行比较。简单的架构图1a所示的基本/简单CNN架构（称为SCNN）先前用于基于图像的AC预测的概念验证[15]。该CNN架构包括两个卷积层，具有32个内核，分别为3× 3和5× 5的滤波器大小，用于提取关键图像特征。卷积层之后是池化层、丢弃层和密集层。使用最大池作为池层，以计算每个卷积特征图的每个块中的最大值。添加了一个dropout层以避免过度拟合。为了在复合图像或反应浓缩图（CGR）表示（见下文）上训练SCNN模型，对输入层进行了修改，以接受300× 300分辨率的图像。作为最终层激活函数，sigmoid和softmax分别用于FG多标签分类和AC预测。模型使用Adam优化器进行训练，以最大限度地减少二进制交叉熵损失，FG多标签分类和AC预测的初始学习率分别为10−3和10−5。CNN层使用TensorFlow（版本2.2.0）[24]和Keras（版本2.4.3）[25]。复杂架构作为复杂的CNN架构，使用了深度为42层的Inception-V3（IV-3）[26]，如图2b所示。IV-3代表了GoogleNet[27]架构的进一步改进版本。第四- 3模型以前用于ImageNet大型视觉识别挑战数据的分类分析为了在复合和CGR表示上训练IV-3模型，输入层的感受场被修改为接受300×300分辨率的图像，J. Iqbal，M. Vogt和J. 巴约拉特生命科学中的人工智能1（2021）1000223图二. 反应的浓缩图。对于由具有共享核心和两个交换片段的一对化合物组成的MMP（顶部），显示了相应的CGR表示（底部）。零级键表示为虚线。步幅2.对于迁移学习，IV-3架构略有修改，将最后一个全连接层替换为三个全连接层，输出维度分别为500、1000和2000个神经元。作为最终层激活函数，sigmoid和softmax分别用于FG多标签分类和AC预测。模型使用Adam优化器进行训练，以最大限度地减少二进制交叉熵损失，FG多标签分类和AC预测的初始学习率分别为10−3和10−5。模型架构使用TensorFlow（版本2.2.0）和Keras（版本2.4.3）实现。匹配的分子对和活性参数匹配的分子对（MMP）被定义为一对化合物，仅通过在单个位点的化学修饰来区分[29]。因此，MMP非常适合代表AC[30]。从化合物中，MMP通过系统地片段化单个环外单键并在索引表中组织核心结构和取代基来产生[29]。对于取代基，应用用于区分片段的大小限制以将MMP限制为典型结构类似物对[30]。因此，允许取代基含有至多13个非氢原子，并且核必须是取代基的至少两倍大此外，对于MMP化合物，取代基之间的非氢原子的最大差异设定为8[30]。此外，只有当在多种MMP中发现其核心结构时，才保留来自化合物活性类别的MMP如果两种结构类似物的效价差异至少为100倍（Δ pKi≥2.0），则由具有相同活性的两种化合物形成的MMP被归类为AC[30]。为了避免AC预测中的效力差异依赖性边界效应，允许形成非AC MMP的化合物具有至多10倍的效力差异。反应图像表示MMPs可以使用缩合反应图（CGR）方法在单个图中表示[31]。CGR形式主义最初被设想为基于不变部分的叠加来组合反应物和产物图[31]。由此产生的CGR是一个完全连通的图，其中每个节点代表一个原子，每条边代表一个键。在CGR中，MMP的共享核心，两者交换取代基片段表示为单个假分子。使用内部Python脚本生成MMP CGR，并使用RDKit API将其转化为假分子较大的片段通过单键与核心连接，较小的片段通过假设的零级键与核心连接[32]。对于每个假分子，使用RDkit Chem.Draw软件包（版本2020.03.5）[20]生成具有500 × 500像素的高分辨率便携式网络图形图像，如图所示。二、将图像重新调整为300× 300像素。每个piX el值为从255的最大pixel值中减去，以反转颜色并将白色转换为黑色背景。将所有图像矩阵的PiXel值转换为32位浮点格式，并归一化为0-1的范围。使用openCV（版本4.5.0）处理CGR图像[21MMP CGR图像使用12个CGR旋转生成，旋转角度为30°，包括默认（0°）、±30°、±60°、±90°，±120°、±150°和180°图像旋转如补充说明所示图S2。特征可视化Grad-Cam算法[33]用于从训练的CNN模型的卷积层中提取空间将所得卷积特征图激活权重的基于像素的平均PIXEL值映射到原始图像以进行可视化。业绩计量官能团多标记分类CNN模型的FG多标签分类性能使用五种不同的性能指标进行评估，包括基于多标签示例的平均准确率（EA），精确匹配率（EMR），平均精度（EP），平均召回率（ER）和平均F1得分（E-F1）[34，35]。定义作为补充方法提供。活动预测训练CNN模型以系统地区分AC和非AC MMP。CNN模型的分类性能使用受试者操作特征（ROC）曲线和ROC曲线下面积（AUC）进行评估。此外，使用六个性能指标评估模型性能，包括总体准确度（A）、平衡准确度（BA）、精确度（P）、召回率（R）、加权平均F1评分[36]和马修斯相关系数（MCC）[37]。定义作为补充方法提供。复合活动课从ChEMBL（版本26）[38]中提取了五种具有高置信度活性数据的在最高试验置信度（ChEMBL置信度评分9）下，在直接相互作用试验中针对单一人类靶标检测化合物。作为效价测定，需要测定独立的平衡常数（pKi值）。对同一化合物的多次测量进行平均，前提是所有值均在一个数量级内;否则，忽略该化合物。表1报告了化合物活性类别和MMP/AC统计。官能团的识别从属于992个活性类别的80，641种独特的ChEMBL化合物中，选择了具有25-35个非氢原子大小范围的46，671种化合物，使得为随后的分析生成的这些化合物的图像具有可比的从这些化合物中，通过算法共提取了257，663个FG[19]，并选择了100个最常见的只有110种化合物不含任何这些FG，留下46，561种独特的化合物用于随后的建模。J. Iqbal，M. Vogt和J. 巴约拉特生命科学中的人工智能1（2021）1000224表1化合物活性类别、匹配的分子对和活性参数。AC非AC MMP取代基酪氨酸激酶ABL（CHEMBL1862）345 378 21 152 2655 106 3325-脂氧合酶激活蛋白（CHEMBL 4550）883 4227 57 556 23，720 216 783腺苷A3受体（CHEMBL256）1378 531 83 246 5116 497 596大麻素CB2受体（CHEMBL253）1698 518 124 302 5425 528 800总结了基于目标的化合物活性类别的组成，并提供了每个类别的MMP/AC统计数据。报告目标名称，并在括号中给出ChEMBL目标ID。表2多标记官能团分类。公制IV-3型SCNN型EA 0.96（±0.01）0.44（± 0.02）EMR 0.89（±0.01）0.07（± 0.01）EP 0.97（±0.01）0.51（± 0.01）ER 0.99（±0.01）0.68（± 0.02）E-F1 0.98（±0.01）0.56（± 0.02）前100个FG的SMILES表示作为补充方法提供结果和讨论功能群训练SCNN和IV-3模型，从46，561种化合物的图像中学习100种最常见的FG。这些模型被设计为从每种化合物中学习关键特征，并将输出映射到100维FG向量，其中每个值根据其等级代表相应FG存在的概率分布。对于模型训练和测试，使用严格报告的技术[39，40]将化合物及其图像用FG多标记分层分为三个独立试验的训练（70%）和测试（30%）集。表2将测试结果报告为不同性能测量的平均值和标准偏差IV-3模型得出的EA为0.96，EMR为0.89，EP为0.97，ER为0.99，E-F1为0.98，而SCNN模型的准确性要低得多，EA为0.44，EMR为0.07，EP为0.51，ER为0.68，E-F1为0.56。对于IV-3和SCNN模型，报告了三次独立预测试验中不同性能指标的平均值表3迁移学习绩效。EMR值表明，IV-3模型全面学习了100种FG，并准确分类了89%的测试化合物。相比之下，SCNN模型仅正确分类了7%的化合物。因此，只有复杂的IV-3模型能够以高精度学习与最常见的100个FG相对应的关键图像特征。因此，选择具有最高EMR值的IV-3模型，其中FG权重来自用ChEMBL化合物进行的预训练，用于转移学习（称为I-FG模型）。通过迁移学习为了研究所获得的FG知识的可移植性，使用具有预训练权重的I-FG模型来预测AC。为了进行比较，IV-3模型与ImageNet的预先计算的权重[28]也被使用（称为I-IN模型）。对于每个迁移学习模型，所有预先训练的层权重保持不变，最后三个完全连接的层除外，允许在微调期间优化权重对于AC预测，根据表1，使用在五种不同化合物活性类别中识别的AC的CGR图像表示对模型进行微调。根据活性类别，通过从149-4227 AC和979 - 23，720非AC MMP的组中随机取样70%的AC和非ACMMP图像，进行10次独立试验的微调然后在剩余的30% AC和非ACMMP图像上测试所得模型表3和图3（左栏）总结了I-FG和I-IN模型的性能发现两种模型都具有预测性，但具有特定FG权重的I-FG始终比具有一般图像权重的I-IN更准确。I-FG模型对不同活性类别的平均BA值为0.63-0.86，MCC值为0.31-0.73，F1值为0.35-0.76。此外，对于不同类别，I-FG产生的ROC AUC值分别为0.87、0.90、0.82、0.82和0.96，而I-IN产生的值分别为0.75、0.86、0.77、0.85和0.91。此外，使用微调的I-FG模型的迁移学习对于所有活动类别都是稳定的，正如非常低的标准差所示。总的来说，这些结果反映了整体的...目标型号A BA MCC F1 P R4550 I-FG 0.88（±0.01）0.73（±0.03）0.49（±0.02）0.55（±0.04）0.63（±0.07）0.51（±0.09）I-IN 0.80（±0.04）0.65（±0.05）0.28（±0.03）0.38（±0.08）0.40（±0.09）0.43（±0.17）256 I-FG 0.92（±0.01）0.76（±0.05）0.52（±0.05）0.55（±0.05）0.57（±0.08）0.57（±0.12）I-IN 0.90（±0.04）0.70（±0.08）0.42（±0.06）0.43（±0.10）0.58（±0.19）0.44（±0.21）253 I-FG 0.91（±0.01）0.63（±0.04）0.31（±0.04）0.35（±0.05）0.44（±0.08）0.31（±0.09）I-IN 0.88（±0.03）0.62（±0.05）0.24（±0.05）0.28（±0.07）0.34（±0.08）0.30（±0.14）204 I-FG 0.94（±0.01）0.86（±0.03）0.73（±0.04）0.76（±0.04）0.77（±0.06）0.76（±0.07）I-IN 0.91（±0.02）0.75（±0.05）0.57（±0.06）0.60（±0.06）0.72（±0.12）0.54（±0.12）1862 I-FG 0.88（±0.01）0.70（±0.03）0.42（±0.04）0.48（±0.04）0.53（±0.07）0.45（±0.07）I-IN 0.87（±0.03）0.66（±0.11）0.34（±0.15）0.36（±0.20）0.56（±0.18）0.37（±0.27）对于每个模型，报告了10项独立试验中不同活性类别（根据表1通过CHEMBL靶标ID识别）的平均A、BA、MCC、F1、P和R值以及标准差（括号内）。目标名称MMPs独特的核心独特的取代基MMPs独特的核心独特凝血酶（CHEMBL204）332149136597996251J. Iqbal，M. Vogt和J. 巴约拉特生命科学中的人工智能1（2021）1000225图三. 受试者工作特性曲线。来自单个AC预测试验的最佳CNN模型的性能在微调（左列）和重新训练（右）后在不同活动类别的ROC曲线中进行监测。对于每条曲线，AUC值报告在括号中。J. Iqbal，M. Vogt和J. 巴约拉特生命科学中的人工智能1（2021）1000226见图4。卷积层激活权重的映射。将不同模型的第五卷积层的平均梯度权重映射到示例性MMP的CGR图像并显示。从蓝色（0）到绿色（0.5）再到红色（1）的连续颜色代码表示从0到1的权重。于（a）中，比较来自微调I-FG及I-IN AC预测模型的权重。在（b）中，比较了微调和重新训练的I-FG模型观察到的优化卷积层权重的变化用红色圈出。J. Iqbal，M. Vogt和J. 巴约拉特生命科学中的人工智能1（2021）1000227准确的AC预测，从而为学习FG化学和迁移学习方法的能力提供概念验证。使用重新训练的模型进行活动预测除了迁移学习之外，还重新训练了用不同权重初始化预训练的I-FG和I-IN模型在对70%的AC和非AC MMP图像进行重新训练期间，在所有CNN层上优化权重。除了I-FG和I-IN之外，还重新训练了用随机权重初始化的IV- 3和SCNN架构。然后将这四个模型用于AC预测和比较。在大多数情况下，重新训练产生了预测模型，如补充表S1和图3（右栏）所示。重新训练后，I-FG和I-IN的平均性能与I-IN相当或略优于I-IN，但I-FG预测比I-IN预测更稳定与I-FG模型相比，I-IN模型的性能在在I-FG和I-IN的重新训练过程中，模型学习了特定的局部结构特征，并相应地进一步优化了预训练的权重，从而略微提高了分类性能。此外，IV-3和SCNN与随机权重初始化的预测精度一般较低。例如，对于活动类别4550，I-FG的平均BA值：0.88（±0.02）， I-IN：0.81（±0.17），IV-3：0.74（±0.02），SCNN：平均MCC值分别为0.77（±0.02）、0.65（±0.35）、0.56（±0.02）和0.47（±0.17）。对于主动- 城市类253，模型的预测精度普遍下降，并接近IV-3和SCNN模型的随机预测水平。在这种情况下，获得的I-FG：0.67（±0.04）、I-IN：0.70（±0.03）、IV-3：0.56（±0.02）和SCNN： 0.54 （ ±0.05）的平均BA值分别为0.38 （±0.03 ）、0.43（±0.03）、0.19（±0.05）和0.12（±0.13）。总体而言，在AC和非ACMMP图像上重新训练I-FG和I-IN也产生了有意义的AC预测。旋转图像变量化学家在图像中很容易识别FG，分子的方向。然而，对于使用CNN的图像分析，不能确保方向独立性，并且应该进行评估。因此，为了评估分子取向对模型性能的影响，生成AC和非AC MMP的旋转CGR图像的测试集。使用每个MMP的11个旋转图像变体再次测试微调和重新训练的I-FG、I-IN、对于每个MMP CGR表示，以30°的增量生成11个不同的旋转，如方法和材料部分所述，并如补充图S2所示。结果总结见补充图S3。有趣的是，微调和重新训练的I-FG模型基本上都以旋转不变的方式保留了它们的原始性能，三个活动类别（1862，204和256）仅略有减少，如图S3 a所示。相比之下，I-IN模型显示性能显著降低对于剩余的两个活动类别（4550和253），所有模型均失败（图S3 b）。因此，通过I-FG对FG化学的学习导致了一些（但不是全部）化合物类的AC预测中的图像旋转不变性。官能团化学教学对不同CNN模型的卷积层的特征权重的分析可能有助于更好地理解FG化学是如何学习的。因此，从MMP CGR图像的不同AC预测模型中提取卷积层权重然后将重量映射到图像上并可视化。图4示出了代表性示例。在图4a中，比较了微调I-FG和I-IN模型的特征权重。一个令人信服的观察是，微调的I-FG模型检测到杂原子作为特定的化学特征，参与了大多数FG的形成。另一方面，I-IN模型检测到更一般的化学特征，包括核心结构和FG。这些观察结果为I-FG模型的成功迁移学习提供了理论基础，因为其能够特异性识别区分形成AC和非AC MMP的化合物的FG图图4 b比较了微调和重新训练的I-FG模型的特征权重，这些模型最初经历了相同的FG学习过程。基于AC和非AC MMP图像的重新训练然后优化权重，导致重新训练的模型在AC预测中的精度略微提高，如上所述该比较表明，在这种情况下，重新训练选择性地优化了氮原子上的权重，并降低了氧原子的优先级。因此，该模型清楚地区分了最初从化合物图像和频繁出现的FG中学习的特定化学特征结论在这项工作中，我们已经解决了是否可以使用不同的CNN架构从复合图像中学习FG的问题，以及这种知识是否足以用于基于化合物对的AC预测，这在很大程度上依赖于检测FG替换，导致不同的化合物效力差异。因此，研究了一种迁移我们还证明，迁移学习可以通过在AC和非AC MMP图像上重新训练CNN模型来代替从面向FG的预训练中重新训练优化的卷积层权重，从而进一步提高AC预测精度。最后，通过CNN模型-内部特征权重的分析和可视化，为学习FG化学和转移这些知识提供了理论基础。总之，我们的分析结果证实了CNN从化合物图像中学习FG化学的能力，并进一步扩展了AC预测的方法框架。竞争利益作者声明，他们没有已知的竞争性经济利益或个人关系，可能会影响本文报告的工作。补充材料与本文有关的补充材料可在在线版本中找到，网址： doi ：j.ailsci.2021.100022。引用[1]作者：Rawat W，Wang Z.图像分类的深度卷积神经网络：全面综述。Neur Comput2017;29：2352-449.[2] Shen D，Wu G，Suk H-I.医学图像分析中的深度学习。Ann Rev BiomedEng2017;19：221-48.[3] [10]杨文，李文.Deep learning for细胞图像分析NatureMeth 2019;16：1233-46.[4] 孙毅，薛波，张明，严国国刚。进化深度卷积神经网络用于图像分类。IEEE TransEvol Comput2019;24：394-407.[5] 张S，童华，徐J，马杰斯基R.图卷积网络：一个全面的审查。Comput SocNetw2019;6：1-23.[6] ChenM，Wei Z，Huang Z，Ding B，Li Y.简单而深刻的图卷积网络-工程. Proc Mach Learn Res 2020;119：1725[7] Gomes J，Ramsundar B，Feinberg EN，Pande VS，用于预测蛋白质-配体结合能力的原子卷积网络。arXiv预印本2017.[8] ChuangKV，Gunsalus LM，Keiser MJ.学习药物化学的分子表示法J Med Chem2020;63：8705[9] SzegedyC，Io Zee S，Vanhoucke V，Alemi A.Inception-v4、Inception-ResNet和剩余连接对学习的影响arXiv preprint 2016.[10] 吴GB，西格尔C，Vishnu A，Hodas NO，贝克N. Chemception：具有最少化学知识的深度神经网络与专家开发的QSAR/QSPR模型的性能相匹配。arXiv预印本2017.J. Iqbal，M. Vogt和J. 巴约拉特生命科学中的人工智能1（2021）1000228[11]Goh GB，Siegel C，Vishnu A，Hodas N.使用基于规则的标签进行弱监督学习：用于可转移化学性质预测的ChemNet。在：第24届ACM SIGKDD知识发现数据挖掘国际会议论文集; 2018。p. 302-10[12][10]杨文辉，陈文辉. ToX ic Colors：使用深度学习仅从图形图像预测化合物的x性。JChem Inf Model 2018;58：1533[13]本德·科尔特斯-奇里亚诺KekuleScope：预测癌细胞系敏感性和化合物的效力。J Cheminf2019;1：41.[14]Stumpfe D，Bajorath J. E.药物化学中的活性探索。J Med Chem 2012;55：2932-42.[15]Iqbal J，Vogt M，Bajorath J.基于图像使用卷积神经网络。J Comput Aided Mol Des 2021 in press. doi：10.1007/s10822-021-00380-y。[16]张文辉，张文辉.使用支持向量机预测活动时间J Chem Inf Model 2012;52：2354[17]潘SJ，杨Q.迁移学习研究综述IEEE传输知识数据工程2009;22：1345-59.[18]杨强，张毅，戴伟，潘世杰.迁移学习。剑桥，英国：剑桥大学出版社;2020年。[19]Ertl P.一种识别有机分子中官能团的算法。J Chemin- form2017;9：36.[20] 兰德鲁姆湾RDKit：开源化学信息学2021。 https://www.rdkit.org。[21][10]李晓，王晓.OpenCV简介载于：2012年第35届国际会议会议记录; MIPRO; 2012年。p. 1725-30年。[22] OpenCv. OpenCV library 2014. https://www.opencv.org。[23] 布拉德斯基湾OpenCV库。多博医生的。J Softw Tools 2000;25：120-5.[24] Abadi M，Barham P，Chen J，Chen Z，Davis A，Dean J，Devin M，GhemawatS，Irv- ing G，Isard M，Kudlur M，Levenberg J，Monga R，Moore S，MurrayDG ， Steiner B ， Tucker P ， Vasudevan V ， Warden P ， Wicke M ， Yu YZX.TensorFlow：一个大规模机器学习系统。第12届USENIX操作系统设计与实现研讨会（OSDI 16），萨凡纳，佐治亚州; 2016年。[25] 肖莱湾Keras 2021。https://github.com/keras-team-keras.[26] Szegedy C，Vanhoucke V，Io Zee S，Shlens J，Wojna Z.重新思考计算机视觉2015的初始架构。 https://arxiv.org/abs/1512.00567。[27] Szegedy C ， Liu W ， Jia Y ， Sermanet P ， Reed S ， Anguelov D ， Erhan D ，Vanhoucke V，Rabinovich A.更深入地进行卷积。康奈尔大学图书馆; 2014年。http://arxiv.org/abs/1409.4842[28] [10] Russakovsky O，Deng J，Su H，Krause J，Satheesh S，Ma S，Huang Z，Karpathy A，Khosla A，Bernstein M，Berg AC，Fei-Fei L. ImageNet大规模视觉识别挑战赛。Int J Comput Vis 2015;115：211[29] Hussain J，Rea C.在大数据集中识别匹配分子对（MMPs）的计算效率算法。JChem Inf Model 2010;50：339[30] HuX ， HuY ， VogtM ， StumpfeD ， BajorathJ.MMP-peptides ：systematicidentifica-基于匹配的分子对的活性测定。J Chem Inf Model 2012;52：1138-45.[31]A Fourches D，Hoonakker F，Solov'ev VP.亚结构片段：编码反应、分子和超分子结构的通用语言。J Comput Aided Mol Des2005;19：693-703.[32] 克拉克AM。分子结构的精确特化：零级情况键和明确的氢计数。J Chem Inf Model 2011;51：3149[33] [10]杨文，李文.Grad-CAM：通过基于代理的本地化从深度网络中获取视觉体验Int JComput Vision，Springer Sci Bus Media LLC 2019;128：336[34] Godbole S，Sarawagi S.多标记分类的判别方法。In：Dai H，Srikant R，Zhang C，editors.知识发现与数据挖掘的进展。pakdd 2004年。Berlin，Heidelberg：Springer;2004.p. 22-30分钟。[35] Sorower MS. A literature survey on algorithms for multi-label learning，18. 科瓦利斯：俄勒冈州立大学; 2010. p. 1-25[36] 钦乔河MUC-4评估指标。第四届信息理解会议论文集。美国计算机语言学家，1992：22-9。[37] 马修斯BW。T4噬菌体溶菌酶二级结构的预测和观察比较。生物化学和生物物理学报1975;405：442-51.[38] GaultonA，Hersey A，Nowotka ML，Patricia Bento A，Chambers J，Mendez D，Mu-towo P ， Atkinson F ， Bellis LJ ， Cibrian-Uhalte E ， Davies M ， Dedman N ，Karlsson A，Magarinos MP，Overington JP，Papadatos G，Smit ILA. 2017年的ChEMBL数据库。核酸研究2017;45：D945-54。[39] 谢希迪斯K，祖马卡斯G，弗拉哈瓦斯I.关于多标签数据的分层。In：GunopulosD，Hofmann T，Malerba D，Vazirgiannis M，editors. 数据库中的机器学习ecml pkdd2011。Berlin，Heidelberg：Springer; 2011. p. 145比58[40] SzymakenskiP，Kajdanowicz T.网络视角下的多层次贝尔数据。第一届不平衡领域学习国际研讨会论文集：理论与应用。机器学习研究进展，74; 2017。p. 22比35

下载后可阅读完整内容，剩余1页未读，立即下载