人工智能在生命科学中的三维分子定量构效关系研究

195 浏览量更新于2023-12-06 收藏 792KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

生命科学中的人工智能3（2023）100065研究文章基于CNN偏最小二乘模型的分子三维定量构效关系研究徐翔霍a，b，徐俊b，c，徐明远a，徐伟，陈洪明a，陈伟a广州实验室，中国b五邑大学生物技术与健康科学学院，中国c中山大学药学院，广州510006ABsTRA cT基于配体的虚拟筛选在蛋白质结构不可用的情况下起着重要作用。在基于配体的方法中，准确快速地预测蛋白质-配体结合常数对于降低计算成本和有效地探索化学搜索空间至关重要。在这里，我们提出了一种基于CNN的方法，称为L3 D-PLS，用于在没有目标结构的情况下建立定量构效关系。在L3 D-PLS中，设计了CNN模块用于从对齐配体周围的网格中提取关键的相互作用特征，偏最小二乘（PLS）模型将结合率与预训练CNN模块的提取特征相匹配。在30个公开的预比对分子数据集中，L3 D-PLS优于传统的CoMFA方法。这一结果突出了L3 D-PLS可以用于基于小数据集的先导物优化，这在药物发现活动中通常是真实介绍基于配体的虚拟筛选是常用的计算机辅助药物发现方法之一[1]，已成为先导化合物鉴定、先导化合物优化和筛选器跳跃的常规过程。在基于配体和基于配体的方法中，定量构效关系（QSAR）分析旨在发现一系列分子结构与其相关生物学性质之间的统计学显著相关性[2]，指导铅系列的优化传统的QSAR模型通常使用分子生物化学性质/描述符[3]、特定亚结构的组成或基于力场的相互作用能等来构建。许多统计方法，包括多元线性回归（MLR）[4]、主成分分析（PCA）[5]、主成分回归（PCR）[6]、偏最小二乘法（PLS）[7]，用于将这些描述符与生物活性或DMPK性质[8]进行拟合。QSAR模型的一般工作流程如图所示。1.一、在预测配体-蛋白质结合亲和力时通常有两种情况，一种是使用蛋白质-配体复合物结构的基于物理的模拟方法，如FEP[9]，热力学积分[10]或伞形采样方法[11]。这些方法源于统计力学，可以通过复杂结构的采样计算，提供精确的蛋白质-配体结合亲和力的估计。例如，FEP+在计算的和实验的相对结合自由能之间显示出相当大的相关性，平均误差范围仅为1 kcal/mol[12]。虽然近几十年来蛋白质结构的研究有了很大的发展，但是对于某些靶点，如离子通道，且对于某些药物发现活动而言，靶结构信息缺失仍然是非常常见。在另一种情况下，必须依赖基于配体的方法来估计配体结合能力，这也称为定量结构-活性关系建模（QSAR）。虽然历史上已经提出了一些基于2D的QSAR方法[13]，如Free-Wilson[14]，Hansh-Fujita方法[15]和Klopman提出的基于片段的QSAR模型，但使用分子相互作用场（MIF）的基于3D的QSAR模型[16]可以提供关于基于3D的分子性质和生物活性之间关系的化学见解。然而，化合物的生物学性质是其三维结构的函数，因此这些方法仍然存在由于缺乏3D配体结构信息而导致的局限性[17]，否则可以为药物化学家阐明配体结合模式和修饰化学结构以改善生物活性提供明确的指导。为了解决这一问题，比较分子场分析（CoMFA）方法是第一种也是最常用的尝试，用于在QSAR建模中统一3D空间信息[18]。在CoMFA中，引入一系列探针原子，通过计算探针原子与配体在分子周围三维晶格上的静电相互作用能和空间位阻相互作用能来描述配体的三维PLS方法进一步用于提取分子相互作用场（MIF）与生物活性之间的关系。继 CoMFA 方法之后，其他 3D QSAR 方法如CoMSIA[19]，EVA[20]，WHIM[21]也被提出用于桥接分子结构和生物活性。这些三维定量构效关系模型需要选择一个模板构象，模仿配体的生物活性构象和所有模板构象的一个困难是，这些∗ 通讯作者。电子邮件地址：junxu@biocheemomes.com（J. 徐）、明远。X u. gmail.com（M. Xu），chen_hongming@gzlab.ac.cn（H. 陈）。https://doi.org/10.1016/j.ailsci.2023.100065接收日期：2022年11月7日;接收日期：2023年1月21日;接受日期：2023年2月21日2023年2月24日在线提供2667-3185/© 2023由Elsevier B. V.出版这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）可在ScienceDirect上获得目录列表生命科学期刊首页：www.elsevier.com/locate/ailsciX. Huo，J. Xu，M. Xu等人生命科学中的人工智能3（2023）1000652⎡0 10免费WiFi��⎣⎢⎥⎦��图二、L3 D-PLS用于结合分析预测的工作流程。Fig. 1. QSAR模型的工作流程。该方法的基础是在3D网格上的数千个交互特征中进行变量选择。近几十年来，机器学习技术以监督、无监督、半监督学习的形式为QSAR领域带来了新的方向，特别是在结合亲和力的准确预测方面[22]。早期的尝试包括引入线性回归[23]、核岭回归[24]、支持向量机[25]和随机森林[26]等模型来改进预测的准确性。例如，提出了一种随机森林回归模型RF评分[27]，用于预测蛋白质-配体结合亲和力。随着深度学习（DL）方法的最新发展，RosENet[28]、GAT-Score[29]等示例尝试引入CNN（卷积神经网络）模型或图神经网络[30]来提取蛋白质-配体复合物结构的结构特征，并大大提高蛋白质-配体结合率的预测准确性[31]。基于DL的方法的一个独特特征是它们可以处理大的输入特征并可进行自动特征提取。虽然基于DL的方法已被应用于蛋白质-配体相互作用的研究，但将DL方法应用于基于配体的3DQSAR模型的研究还很缺乏，这可能是由于基于配体的QSAR数据集通常很小。涉及从多通道网格信息中提取真实信息和PLS模块，以将CNN导出的特征与生物活性数据相关联。B. 数据集和标准方向共有30个公开可用的数据集用于模型评估，并从PyCoMFA网站下载[32]。这些数据集由PyCoMFA程序使用，PyCoMFA程序是CoMFA模型的python版本，并且在每个数据集中，所有分子都是预先比对的。为了确保模型不受初始旋转和平移的影响，所有每个数据集中的分子结构都经过了标准化过程。首先将坐标系的原点移动到整个构象集的几何中心，然后旋转以与构象集的主轴取向矢量通过对整个分子坐标集C进行PCA分析，获得主轴相对于原始轴的{x，y，y}，如等式⑴。{，，}=（）（1）��然后，旋转的坐标��' 可以获得第i个在这里，我们提出了一种新的基于网格的三维QSAR方法，L3 D-PLS，仅基于配体信息来建模蛋白质-配体结合能力。在L3 D-PLS中，设计了CNN模块用于推导配体的N-甲基-N-甲基等式（2）。��′=（��）（）�� （）（）��从多通道的旋转和立体电位相关的特征��预对准配体的3D网格信息和偏最小二乘法=（0 −��1 0 0）0��⎥⎤⎡⎢cos��0��⎤⎥(PLS)模型将绑定精度与预训练的输出进行拟合，CNN模块。在一系列30个公开的预比对分子数据集中，L3 D-PLS优于传统的CoMFA方法⎢⎣0−��⎥⎦⎢⎣−��0cos��⎥⎦×cos−0��（二）方法A. L3 D-PLS工作流程L3 D-PLS模型的整个工作流程如图2所示。首先，对齐的分子经过一个准备过程，以标准化分子位置，以确保它们是旋转和平移不变性。将坐标系的原点移动到对齐构象的几何中心，并且还旋转XYZ轴以与构象集合的主轴对齐。其次，以一定的步长将整个构象集合围成一个网格，然后让一组探针原子穿过网格，计算探针原子0 0 1式中，θ0表示第i个分子的原始坐标，θ1为分子集合的几何中心��C. 分子相互作用场网格预对准分子的分子相互作用场（MIF）网格的生成与CoMFA方法[33]相同，源自Autogrid[4]中嵌入的半经验自由容量场。默认情况下使用八种类型的探针原子，包括探针、探针、探针和探针，如表1所示。��探针原子i和分子原子j之间的相互作用如等式（3）<$等式（5）所示。以及每个网格点上的每个分子一旦基于能量的特征��（）=��−��（三）收集分子，多层CNN模型用于fea-��X. Huo，J. Xu，M. Xu等人生命科学中的人工智能3（2023）100065350��50图三. （a）L3 D-PLS和（b）L3 D-MLP的模型结构。表1Autogrid 4 MIF计算中的八种默认探针原子类型。MLP模块预测生物活性。对于两种模型，pIC50的平均标准误（MSE）用作损失函数，如下所示：��= 中国（中国）（6）��= ��−�� ∗�� ∗��（四）本文采用 Pytorch 框架构建 CNN 模型， PLS 代码来自 Scikit-learnpython pack-age。E. 模型评估基准数据集的组成见表2。在30个不同的公开数据集上，L3 D-PLS的性能用相关系数ε2和交叉验证的ε2进行了评估。对于一组预测值和参考值的集合，均如等式（7）所示定义：��2=1−∑��（��=��−��∗�� ∗��（五））对于测试集中的化合物计算了RP2，然而，对于小的化合物，��其中参数为：、、、和两种原子类型，其中��req是原子i和j之间相互作用能量阱底部的预定义平衡距离，m是阱的深度，n和m是Autogrid[4]中的系数。MIF网格数据在一个大小为30 μm、间隔为0.375 μ m的网格体中计算D. L3 D-PLS模型构建在本研究中，除了L3 D-PLS模型，另一个模型L3 D-MLP也被创建用于比较。模型架构如图3所示。如图3所示，总共七个卷积层和两个密集层用于处理网格数据以生成嵌入特征。七个3D卷积层的卷积核的大小分别为128、256、512、1024、512、128和256。模型输出为化合物的p=50值。对于L3D-MLP模型，SIX超致密层（即，MLP模块）与生物活性数据相关，而在L3 D-PLS模型中，PLS模型取代了基准数据集，如AT2，进行了5倍交叉验证计算交叉验证的平均方差和平均方差2，以评价模型的性能。为了训练L3 D-PLS模型，将L3 D-MLP模型的最后一个密集层的输入作为输入描述符，然后用描述符训练PLS模型，其中使用等式（6）中的MSE损失。L3 D-PLS和L3 D-MLP均采用分段常数衰减学习率衰减方案和Adam优化器进行训练。在模型中使用了ReLU激活函数结果和讨论A. 分子晶格的平移、旋转和标度对生物活性预测目前的研究目的是使用基于3D-QSAR方法的深度学习方法来预测小分子与蛋白质的结合能力。在这里，我们介绍一种方法，它结合了思想符号探针原子H非氢键氢键HD高清供体1 H-键氢C非氢键脂肪族碳A.非氢键芳香碳N非氢键氮不适用受体1氢键氮OA系统受体2氢键OX ygenSA受体2氢键硫X. Huo，J. Xu，M. Xu等人生命科学中的人工智能3（2023）1000654⎢⎥表230个公共QSAR基准测试的组成数据集索引数据集分子数量活动范围总培训测试培训测试1Ace11476382.14 9.882.7米9.942ACHE11174374.34磅9.52磅4.27米9.22米3BZR14798496.34磅8.92磅5.52磅8.85磅4GPB6644221.3米4.8米1.4米6.8米5COX2282188944.03米8.77米4.03米8.7米6DHFR3612371243.3 9.813.57磅9.4磅7Therm7651250.52 8.820.52磅10.17磅8THR-18859294.57米8.48米4.36米8.38米9ATA9472222.64 7.532.64 6.7210AT22828N/A4.27 8.2N/A11CCR57563125.14 - 8.075.29米8.64米12YOPH393542.26磅6.628磅2.85 6.17813KOA393187.66磅9.602磅6.921磅9.553磅14MX2929N/A-2.41 8. 65N/A15DAT423663.76米7.81米6.04 - 7.1616TP2A2525N/A2.89磅6.43磅N/A17CBRA3232N/A4.3.7N/A18AI7878N/A-1.65 2. 85N/A19HIVPR113932010.96元10.7米20GSK3B4234810.15美元6.89磅8.4磅21类固醇2121N/A5.322磅9.74磅N/A22GHS3131N/A5.05 - 8.52N/A23D2r383265.66磅10.3磅5.65磅8.55磅24D4r383266.28磅10.3磅7.22米9.37米25地西泮DI/DS4242N/A-3.42 0. 67N/A26地西泮4242N/A5.55 8.77N/A27安定DS4242N/A6.41米10N/A28THR-28872164.357磅8.377磅4.745磅8.481磅29尝试8872164.796英镑7.699英镑4.337磅7.638磅30FXa8872163.745 6.0464.284磅5.509磅“不适用”表示数据不可用。在三维网格上计算分子场的CoMFA方法和深度神经网络方法。通过对3D分子场数据应用卷积神经网络，可以导出小分子结构的3D特征，并且它们与结合常数相拟合。但是，从三维网格和分子构象中得到的相互作用数据是旋转和平移变量。因此，我们首先研究平移和旋转操作如何影响模型质量。为了验证旋转对结合亲和力预测的影响，我们在BZR数据集上构建了L3 D-PLS和L3 D-MLP模型，作为示例情况，当对齐的构象围绕Z轴以20°的步长间隔从0°旋转到360°时，同时网格是固定的。模型性能如表3所示。当一个分子绕Z轴旋转时��，旋转矩阵X表示为方程（8）：四、⎡cos�� −�� 0 ⎤��(��)= ��00 0 1（八图四、分子在z轴上的转动与转动矩阵X有关。表3��不同旋转下BZR测试集上的BZ2数据集旋转（°）L3D-MLPL3D-PLSBZR00.1270.02620-0.011-0.15440-0.041-0.41160-0.136-0.314800.073-0.075100-0.111-0.377120-0.247-0.485140-0.051-0.066160-0.066-0.331180-0.276-0.519200-0.111-0.38220-0.301-1.061240-0.181-0.579260-0.177-0.511280-0.197-0.552300-0.118-0.254320-0.206-0.622340-0.106-0.242旋转后的新分子坐标C如等式（9）。��′=��其中，x0是原始坐标。X. Huo，J. Xu，M. Xu等人生命科学中的人工智能3（2023）1000655从表3中可以看出，由于3D-CNN不是旋转不变性，小分子在网格空间中的旋转明显影响了模型质量的准确性。此外，我们还研究了网格中分子平移对结果的影响X. Huo，J. Xu，M. Xu等人生命科学中的人工智能3（2023）1000656表4BZR和TP2A数据集上的BZ2具有不同的翻译。数据集模型原始结果翻译后的结果BZRL3D-MLP0.1270.0921L3D-PLS0.0250.022TP2AL3D-MLP0.4280.439L3D-PLS0.9170.865通过简单地增加晶格中沿X轴的所有构象1 π，结果如表4所示。在那里，观察到预测精度略有下降，表明基于3D-CNN的特征提取可能对平移不那么敏感。并考察了网格尺寸对模型预报精度的影响改变网格框的大小，并在三个不同的数据集上建立模型，结果见表5。看起来当尺寸从51 μm增加到61 μ m时，它的准确性通常会略有下降，这意味着太大的boX对基于CNN的特征提取不利B. L3 D-PLS在30个数据集为了解决上述旋转和平移变化，我们设计了一个标准的制备步骤，使对齐的分子旋转和平移不变性，如方法部分所述。比较了Py-CoMFA、L3 D-MLP和L3 D-PLS三种QSAR模型的性能。表6显示了20个测试集的预测值和参考值之间的差值。��L3 D-PLS在10个数据集上表现最好，PyCoMFA和L3 D-MLP分别在7个和3个数据集上表现最好。与Py- CoMFA模型相比，L3 D-MLP和L3 D-PLS在10和12个数据集上表现出更好的性能对于没有可用测试集的其他基准数据集，通过5倍交叉验证中的RISK2评估了三个QSAR模型的性能，结果列于表7中。��类似地，L3 D-PLS模型在10个模型中的6个中表现最好，而PyCoMFA和L3 D-MLP模型分别在三个和一个数据集上给出最佳结果。L3 D-MLP模型的性能不佳反映了深度学习方法在小数据集上的局限性，而3D-CNN的组合PLS方法优于传统的CoMFA方法，表明3D-CNN方法在从高维数据中捕捉关键交互特征方面的优势。L3 D-PLS模型在9个数据集上的性能平均绝对误差（MAE）和均方根误差的性能也优于L3 D-MLP和PyCoMFA模型，其中L3 D-PLS模型在9个基准数据集中的8个中实现了更好的性能（如表S1所列）。L3 D-PLS的RMSE和MAE平均值分别为0.366和0.283，均优于PyCoMFA和L3 D-MLP。我们还进行了WilcoX on signed-rank检验，以验证L3 D-PLS的统计学优势。在PyCoMFA和L3 D-MLP的RMSE结果之间的检验中，p值为0。017，而MAE结果为0.028。在L3 D-PLS和L3 D-MLP之间的检验中，RMSE和MAE结果分别为0.05和0.07。这表明L3 D-PLS的统计优势。在这些随机选择的数据集上的实验pH50值和L3 D-PLS预测、PyCoMFA、L3 D-MLP之间的相关性描绘在图5、S2和S3中。表5网格大小对模型性能的影响数据集模型网格大小51 × 51 × 5153 × 53 × 5355 × 55 × 5561 × 61 × 61GPBL3D-MLP0.2840.2760.2620.251L3D-PLS0.2580.2480.2510.241D2rL3D-MLP0.0340.0300.0270.028L3D-PLS0.5120.5010.4600.432THRL3D-MLP0.4210.4170.4190.417L3D-PLS0.4400.4460.4320.434表6在20个数据集上，3个模型的预测值与参考值之间的RMSE和RMSE数据集分子数��2均方根误差PyCoMFAL3D-PLSL3D-MLPPyCoMFAL3D-PLSL3D-MLPAce1140.5230.3360.374N/A0.3320.320Ache1110.5250.3320.264N/A0.2980.379BZR1470.0460.0250.127N/A0.4510.472GPB660.2460.2570.2510.4660.2720.700COX22820.0720.3220.368N/A0.3640.328DHFR3610.5690.2610.328N/A0.3490.413Therm760.5650.5210.466N/A0.2750.295THR880.6620.4330.417N/A0.2730.265ATA94-1.402-1.070-0.253N/A1.1360.903CCR575-0.3020.221-0.1120.2140.2141.007YOPH390.9330.7670.7030.1410.3610.428KOA390.6600.6950.3110.2030.1440.460DAT42-4.3230.151-0.4460.1750.1390.166HIVPR1130.4970.5020.401N/A0.2530.377GSK3B420.2660.3660.282N/A0.2780.520D2r380.4200.4320.0280.2080.1860.399D4r38-0.1340.365-0.1060.4550.3680.389THR-2880.4160.4330.417N/A0.2730.265尝试880.6550.5640.142N/A0.2720.427FXa88-0.1600.183-0.042N/A0.3780.556“不适用”表示数据不可用。X. Huo，J. Xu，M. Xu等人生命科学中的人工智能3（2023）1000657表7在20个数据集上，3个模型的预测值与参考值之间的RMSE和RMSE数据集分子数��2均方根误差PyCoMFAL3D-PLSL3D-MLPPyCoMFAL3D-PLSL3D-MLPAT2280.1900.3200.370N/A0.3750.341MX290.7700.7500.1100.6390.6881.329TP2A250.6200.9200.430N/A0.1290.321CBRA320.6200.6900.5100.5310.1560.837AI780.5000.2200.190N/A0.4030.413地西泮_DS420.4200.7300.0600.4980.3260.726类固醇210.7000.7200.0500.7420.6993.376GHS310.3200.5200.3800.5540.4690.530地西泮_DI420.4200.7300.060N/A0.2060.500“不适用”表示数据不可用。图五. 在9个随机选择的数据集上，包括（a）CBRA，（b）D2 R，（c） D4 R，（d）DAT，（ e）DS，（f）GHS，（g）GPB，（h）KOA，（i）MX，L3 D-PLS预测值与参考值之间的相关性��结论在目前的研究中，提出了3D-CNN模型，通过多通道网格获得预对齐小分子的空间和静电特征，然后将这些特征与PLS算法相结合以拟合生物活性数据。该方法适用于在靶点信息不确定的情况下进行三维定量构效关系研究，并已在30个公开的分子数据集上进行了应用。建立了L3 D-MLP、L3 D-PLS两种模型，并与传统的三维定量构效关系方法CoMFA进行了比较。结果表明，L3 D-PLS模型的性能最好，而L3 D-MLP模型的性能不如CoMFA方法。L3 D-MLP的较差性能可能是由于所有的30个数据集并不是大数据集，因此深度学习方法并没有显示出它的优势。无论如何，结合基于3D-CNN的特征提取和基于PLS的线性相关技术的L3 D-PLS模型显示出改进的结果。L3 D-PLS的卷积机制限制了其可解释性。尽管可以根据以下差异估计化学基团对pIC 50的贡献：在原始配体和没有这个化学基团的类似物之间，仍然很难从单个预测中提供药效信息。该方法对于只有配体信息的小数据集上的三维定量构效关系建模仍然是有用的。在下一步的工作中，将引入图的注意力机制，以提高系统的可解释性.代码可用性L3 D-MLP和L3 D-PLS的源代码可从https获得//github.com/huoX uX inag/L3D-PLS.git.提供支持信息1. L3 D-PLS训练过程中的损失、学习率和W2的演变如图S1所示。2. 参考骨密度50值、Pycomfa和L3 D-MLP预测值之间的相关性如图S2-S3所示。X. Huo，J. Xu，M. Xu等人生命科学中的人工智能3（2023）10006583. PyCoMFA、L3 D-MLP和L3 D-PLS预测的MAE和RMSE如表S1所示。��表S2中示出了在具有随机化的MIF和原始MIF的三个数据集上训练的L3 D-PLS的R2。竞争利益作者声明，他们没有已知的竞争性经济利益或个人关系，可能会影响本文报告的工作数据可用性数据将根据要求提供补充材料与本文有关的补充材料可在在线版本中找到，网址： doi ：j.ailsci.2023.100065。引用[1] Geppert H，Vogt M，BajorathJ.基于配体的虚拟筛选的当前趋势：分子表征，数据挖掘方法，新的应用领域和性能评价。JChem Inf Model 2010;50：205[2] Papa E，DeardenJ，Gramatica P.通过物理化学特性和结构理论分子描述符预测生物浓缩系数的线性Chemosphere 2007;67：351[3] Karelson M，Lobanov VS，Katritzky AR. QSAR/QSPR研究中的量子化学描述符。化学评论1996;96：1027-44.[4] Viswanadhan VN，Mueller GA，Basak SC，Weinstein JN.基于神经网络的QSAR算法（PCANN）与基于全息图和多元线性回归的QSAR方法的比较：应用于1，4-二氢吡啶类钙通道拮抗剂。化学信息计算科学杂志2001;41：505[5] [10]李晓，李晓，李晓.环境QSAR数据的大变量分析。第一部分-建立在主成分分析（PCA），偏最小二乘法（PLS）和统计分子设计（SMD）的基本框架。MolDivers2006;10：169-86.[6] [10]杨文军，李文军.多条线路-用回归分析和主成分分析法预测2-芳基-1，3，4-噻二唑类化合物的抗结核活性。QSAR Comb Sci 2006;25：56-66.[7] Loader R，Singh N，生物有机医学化学通讯2006;16：1249[8] [10]杨文，杨文.分层PLS建模，用于预测一组结构多样的蛋白质-配体复合物的结合。JChem Inf Model 2006;46：1154[9] Cole DJ，Tirado-RivesJ，Jorgensen WL.蛋白质-配体结合和抑制剂设计的分子动力学和蒙特卡罗模拟。Biochim Biophys Acta 2015;1850：966-71.[10] MitchellMJ，McCammon JA. 用热力学积分法计算自由能差：获得精确值的困难。计算化学杂志1991;12：271[11] KästnerJ. 雨伞取样。电线计算分子科学2011;1：932-42。[12] Abel R，Wang L，Harder ED，Berne BJ，Friesner RA. 通过增强的自由能计算推进药物开发。Acc Chem Res 2017;50：1625-1632.[13] Roy K，Das NR.综述了二维定量构效关系的原理、理论和应用。当前药物代谢2014;15：346-79。[14] 库比尼河威尔逊分析理论，应用及其与Hansch分析的关系。Quant Structure-Activity Relation1988;7：121-33.[15] Srikanth，K.; Kumar，C.; Goswami，D.; De，A.; Jha，T.，取代苯磺酰谷氨酰胺类肿瘤抑制剂的定量构效关系研究。2001年[16] Chakravarti SK，Saiakhov RD，Klopman G.优化预测性能的案例超专家系统模型使用的适用性域的个人X- icity警报。JChem Inf Model 2012;52：2609[17] Ajmani S，Jadhav K，Kulkarni SA.基于k-近邻法的三维QSAR及其解释JChemInf Model 2006;46：24-31.[18] Mittal RR，Harris L，McKinnon RA，Sorich MJ. 部分电荷计算方法是影响CoMFA QSAR预测精度的重要因素。JChem Inf Model 2009;49：704-709.[19] Silverman B，Platt DE.比较分子矩分析（CoMMA）：无分子叠加的3D-QSAR。医学化学杂志1996;39：2129-40.[20] Turner DB，Willett P，Ferguson AM，Heritage TW.定量构效关系研究中eva描述符的开发与验证。ACS Publications; 1997.[21] Todeschini R，Vighi M，Provenzani R，Finizio A，Gramatica P.QSAR研究中使用WHIM描述符的建模和预测：异质化学品对大型蚤的毒性Chemosphere 1996;32：1527[22] Feinberg EN ， Sur D ， Wu Z ， Husic BE ， Mai H ， Li Y ， Sun S ， YangJ ，Ramsundar B ， Pande V. PotentialNet for molecular property prediction.ACSCent Sci 2018;4：1520-30.[23] 爸爸，E.;Dearden，J.;Gramatica，P.J.C.，通过理化性质和结构理论分子描述符预测生物浓缩因子的线性QSAR回归模型。2007，67，351[24] 李柏生，杨荣福，高启德。无限核岭回归及其在QSAR建模中的应用神经计算2015;158：127-33.[25] 梅华，周毅，梁刚，李志。支持向量机在QSAR建模中的应用。中国科学通报2005;50：2291-6.[26] Polishchuk PG，Muratov EN，Artemenko AG，Kolumbin OG，Muratov NN，Kuz 'minVE. 随机森林法在水生生物毒性QSAR预测中的应用JChem Inf Model2009;49：2481[27] Zilian D，Sotri Pastier CA.一种基于随机森林的评分函数，用于改进蛋白质-配体复合物的亲和力预测。JChem Inf Model 2013;53：1923-33.[28] 张军，张军，李军. RosENet：通过利用分子力学能量和3D卷积神经网络的集合来提高结合能力预测JChem Inf Model 2020;60：2791[29] 李， Y.; Tarlow， D.; Brockschlauf， M.;泽梅尔河门控图序列神经网络。 arXivpreprint2015.[30] 刘K，孙X，贾L，马J，邢H，吴J，高H，孙Y，Boulnois F，范J。Chemi-Net：用于准确预测药物性质的分子图卷积网络。IntJ Mol Sci 2019;20：3389.[31] Gomes，J.; Ramsundar，B.; Feinberg，E.N.; Pande，V.S.，用于预测蛋白质-配体结合的原子卷积网络arXiv预印本2017.[32] 拉格诺河www.3d-qsar.com：一个为所有电子设备提供3-D QSAR的门户网站-Py-CoMFA Web应用程序作为从预对齐数据集构建模型的工具。JComput Aided MolDes 2019;33：855[33] Cramer RD，Patterson DE，Bunce JD.比较分子场分析（CoMFA）。1. 形状对类固醇与载体蛋白结合的影响。JAm Chem Soc 1988;110：5959-67.

下载后可阅读完整内容，剩余1页未读，立即下载