人工智能辅助下的多靶点抑制剂发现及优化方法

63 浏览量更新于2023-12-06 收藏 1.61MB PDF 举报

生命科学

人工智能

身份认证购VIP最低享 7 折!

30元优惠券

生命科学中的人工智能1（2021）100008方法用于发现多靶点配体的计算机管道：基于DNMT 1/HDAC 2抑制的表观多药理学费尔南多·D放大图片作者：Prieto-Martíneza，Eli Fernán-de Gortarib， José L. 梅迪纳-佛朗哥c，L. Michel Espinoza-Fonsecad，aInstituto de Química，Universidad Autónoma de México，04510 Mexico City，Mexicob葡萄牙布拉加国际伊比利亚纳米技术实验室纳米安全部cDIFACQUIM研究小组，墨西哥国立自治大学化学学院药学系，04510墨西哥城，墨西哥d心律失常研究中心，内科，心血管医学部，密歇根大学，Ann Arbor，MI 48109，美国aRT i cL e i nf o保留字：分子深度发生器网络DNA甲基转移酶表观遗传学组蛋白去乙酰化酶机器学习分子优化开放科学a b sTR a cT由于药物开发过程的耗时和昂贵的性质以及低成功率，寻找新的治疗化合物仍然是一项压倒性的任务。依赖于一种药物-一个靶点范例的传统方法已被证明不足以治疗多因素疾病，导致向多靶点方法的转变。在这种新兴的范例中，具有非靶向和混杂相互作用的分子可能导致优选的治疗。在这项研究中，我们开发了一个通用管道，将机器学习算法和深度生成器网络相结合，以训练能够识别推定药效学特征的双重抑制剂分类器。作为一个案例研究，我们专注于靶向DNA甲基转移酶1（DNMT）和组蛋白脱乙酰酶2（HDAC 2）的双重抑制剂，这两种酶在表观遗传调控中起着核心作用。我们使用这种方法来确定双重抑制剂从一个新的大型天然产物数据库中的公共领域。我们使用对接和原子模拟作为补充方法来建立最佳命中和DNMT 1/HDAC 2之间的配体相互作用特征。通过使用基于配体和结构的组合方法，我们发现了两种有前途的新型sca bolds，可用于同时靶向DNMT 1和HDAC 2。我们的结论是，所提出的管道的灵活性和适应性具有预测能力的simi，更大的或衍生的方法，并且容易适用于发现靶向许多其他治疗相关蛋白质的小分子。介绍表观遗传景观包括一系列与基因调控相关的蛋白质家族。这些机制涉及组蛋白侧链周围的化学修饰，从而改变其稳定性或有利于蛋白质-蛋白质相互作用[1]。目前，研究人员已经转向表观遗传学，作为癌症或阿尔茨海默氏症等慢性疾病的缺失环节组蛋白脱乙酰酶（HDAC）是临床相关表位靶点的一个突出例子。人类基因组包括18种HDAC同种型，根据其与酵母蛋白的序列同源性分为4类[3]。迄今为止，HDAC抑制剂构成了治疗肿瘤的新替代方案。其他研究表明HDAC抑制剂的治疗应用增加，包括作为抗炎药[4]和抗病毒剂[5]。这类治疗的一个重要问题是药物安全性，因为HDAC保留了催化性Zn2+核心，而强效抑制剂通常会导致泛HDAC抑制和多效性效应，但没有明确的机制。行动[6]。最近的研究提出了其他epi靶点的集体抑制，例如阅读者（例如，溴结构域）或其他结构域- ER（例如，DNA-5-甲基转移酶），以提高其生物活性和临床疗效[7]。因此，对表观遗传多药药理学或表观多药药理学的研究正在兴起[8DNA甲基化是将甲基基团添加到胞嘧啶以产生5-甲基胞嘧啶[11]。该反应由DNA甲基转移酶（DNMT）催化，DNMT包括DNMT 1和DNMT3A/B，DNMT 1具有维持作用，因为它保留了甲基化模式，DNMT 3A/B负责从头DNA甲基化[12]。实验证据表明，这种表位标记的有丝分裂遗传在衰老和肿瘤发生过程中具有复杂的意义[13]。DNMT抑制的药理学潜力是无可辩驳的，但大多数临床批准的抑制剂包括核苷，其具有长期安全性问题，如线粒体毒性[14，15]。因此，迫切需要寻找新的非核苷类化合物或特殊结构作为DNMT抑制剂[16]。信件应寄给谁。电子邮件地址：eli. inl.int（E. Fernán-de Gortari），medinajl@unam.mX（J.L.Medina-Franco），lmef@umich.edu（L. Michel Espinoza-Fonseca）。https://doi.org/10.1016/j.ailsci.2021.100008接收日期：2021年8月24日;接收日期：2021年9月8日;接受日期：2021年9月9日2021年9月12日网上发售2667-3185/© 2021作者。由Elsevier B. V.发布。这是一个CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）可在ScienceDirect上获得目录列表生命科学期刊首页：www.elsevier.com/locate/ailsciF.D. Prieto-Martínez，E.Fernán-de Gortari，J.L.Medina-Franco等人生命科学中的人工智能1（2021）1000082Fig. 1. 在这项工作中提出的CADD管道集成了基于配体和基于结构的方法，用于虚拟筛选DNMT 1/HDAC 2双重抑制剂。计算机辅助药物设计（CADD）使药物的开发和研制发生了革命性的变化。尽管CADD仍有几个需要改进的领域[17]，但它已直接促进了70种临床使用药物的开发[18]。CADD主要采用两种方法：基于结构的药物设计（SBDD）和基于配体的药物设计（LBDD）。SBDD是一种常见的方法，主要依赖于分子建模和模拟，而LBDD专注于小分子特征化和高维数据的表征。计算方法已经显示出对于单靶分子的显著成功，但是多靶药物设计的主要挑战是针对期望的治疗效果选择靶组合[19]。在SBDD方法中，预期蛋白质之间的口袋相似性可获得更好的结果和命中富集[20]。从LBDD的角度来看，多目标分子的狩猎场是小分子化学空间的假定截取最近，机器学习方法结合片段或sca搜索已经产生了有希望的结果[21]。尽管有这些进展，但能够告知多靶点药物的结构-活性关系（SAR）的预测模型（即，结构-多活性关系）高度依赖于可用数据的多样性、大小和质量。在过去的几十年里，许多来自机器学习和自然语言处理的计算工具现在能够将分子结构信息从少量实验数据转化为适用于生成计算机生成的新型化合物的有用表示。将这些新算法应用到药物发现管道中代表了减少资源支出的一大步，从而提供了为学术界和发展中国家等非传统市场参与者提供广泛的增长机会[22多靶点药物治疗的发展，调节与特定疾病相关的不同生物靶点[25，26]，代表了一个具有挑战性的药理学问题，因为参与疾病生理病理学的蛋白质信号传导网络的高度复杂性[27]，促进了用于设计主关键化合物的有效工具。文献中描述了特权瘢痕的示例，包括苯二氮卓类作为镇静剂[28]、CCK拮抗剂[29]和溴结构域抑制剂[30]。这些结构可以作为先导化合物开发[31]或化学库设计[32]的起点，因此迫切需要进一步研究和表征[33]。为了克服这些挑战，在这项研究中，我们引入了一个CADD管道，该管道集成了SDBB和LBDD方法，用于双重抑制剂的虚拟筛选（图1）。作为一个案例研究，我们应用这种虚拟筛选方案来识别DNMT 1/HDAC 2双重抑制剂。该管道基于开放获取的数据和工具，使用公共分子库和药物化学组的记录。这种方法利用了传统的机器学习分类器，一种多目标粒子群表1用于分类训练和化合物生成的数据集。数据集编号来源[42]第四十二话[43]第四十三话[44]第四十四话[44]第四十四话优化算法，以及深度生成器网络潜在空间来训练用于虚拟筛选的双抑制剂分类器[34，35]。我们成功地从大型天然产物公共储存库中产生了符合要求的新分子假设。方法数据集采集和预处理我们训练了两个分类器作为群优化器目标函数的未来参数，以将优化算法引导到化学空间的我们使用先前发表的精选数据集获得了DNMT1 抑制剂的分子生物活性公开信息 [36] 。该数据集使用ChEMBL25[37]中可用的活性数据进行富集，选择IC50值低于100μ M的化合物。此外，我们从我们小组报告的数据集中检索了HDAC2抑制剂[38]。我们使用Fourches等人报告的参数过滤和整理了[39]第39段。我们使用Open Babel[40]和DataWarrior（v. 5.2.1）[41]来执行规范线性记谱线输入系统cSMILES、质子化状态、分子性质值（在五规则和三规则范围之间）以及金属盐、小碎片和重复条目的删除本研究中考虑的化合物总数总结于表1中。通过使用RDKit（v.2018.09.3）和Mayachemtools计算不同子集，[45]在OX ford Protein Informatics Group网站上的HDAC诱饵[46]。对于DNMT1抑制剂，使用活性化合物数据集作为参考，使用DeepCoy[44] 在使用提供的DeepCoy脚本选择顶级诱饵之后，生成感兴趣的化合物以匹配150：1诱饵与参考比的DUD-E描述符。最后，在DataWarrior中计算两组的以下描述符：分子量（MW）、拓扑结构（topo）、逻辑极性表面积（TPSA）、cLogP、可旋转键的数目、sp3碳原子的分数、H-键受体和供体的数目F.D. Prieto-Martínez，E.Fernán-de Gortari，J.L.Medina-Franco等人生命科学中的人工智能1（2021）1000083我们对七个自动缩放的属性进行了主成分分析（PCA），以进行分析和可视化。独立的DNMT 1和HDAC 2分类器数据预处理。在RDKit Python模块[34]的帮助下，将每个数据集点表示为Morgan二元指纹（n=2）[47]和七个先前描述的分子描述符的级联向量。考虑到数字特征的差异，每个表示都是标准化的，使用Python中的Scikit-learn模块[48]减去均值并缩放到单位方差模型训练和验证。我们比较了每个数据集的四种不同分类算法的性能（即， DNMT 1和HDAC 2）：逻辑回归（LRC）、决策树（DTC）、随机森林（RFC）和极端梯度提升分类器（Xgboost分类器; XGBC）。比较是使用Scikit-learn和xg- boost[49] Python模块进行的。每个模型都通过十重交叉验证和网格搜索优化进行训练和验证，以调整各自的超参数。最后，我们为两个分类器选择了逻辑回归模型，考虑到其与群优化器架构的兼容性以及与最佳性能模型Xgboost相比的性能。物发生公开可获得的少量双重抑制剂使得几乎不可能应用传统的机器学习方法来确定负责双重DNMT 1/HDAC 2抑制的一般分子模式。为了克服这一限制，我们应用了一种多目标分子粒子群优化器，该优化器耦合到从深度生成器网络获得的连续潜在空间，该深度生成器网络通过从SMILES到7500万个分子的规范SMILES的转换过程进行预训练[34]。该算法使用RDKit函数，如药物相似性[50]，合成可达性[51]和分配系数来构建用于指导化合物生成的目标函数目标函数允许包含内部模型作为其参数的一部分，从而能够包含预先训练的分类器将化学空间限制在一个富含与双重抑制相关的假想多靶化合物的区域内。在这项工作中，评分功能包括对药物设计的一般理想参数的评估，包括药物相似性、合成可及性、重原子计数、子结构匹配;还包括DNMT 1抑制剂和HDAC 2抑制剂预训练分类器。目标函数=22.5（DNMT在-抑制剂分类）+22.5（HDAC抑制剂分类）+15（类药物函数） +40（合成可及性函数 + 大环惩罚函数 + 重原子计数函数+ChEMBL_Structure+ Sub-structure_Match）。我们选择这些特定权重以平衡所生成分子的结构特征，考虑到先前在治疗和过滤过程中建议用于DNMT 1[52]和HDAC 2[53]的药效学元素。子结构匹配查询是N-（p-甲基苯乙基）-苯甲酰胺。基于选择性HDAC 2抑制选择该化合物，其可能与锌相互作用以外的其他机制有关，例如氢键网络[54]。为了进一步限制生成的化合物的化学空间，我们选择了四种结构不同的查询作为优化起点（分子种子，图1）：格列本脲（DNMT抑制剂）、帕诺司他（HDAC抑制剂和低DNMT抑制剂;[16]）、15 a（纳米级）。最大的双重抑制剂）[55]和SAHA（HDAC抑制剂，也是15 a和帕比司他的结构基础产生推定的双重抑制剂我们采用前面描述的评分函数，从选定的种子开始生成1000至2500个分子（平均30个优化步骤和45次运行）。对所得结构进行半自动选择过程，以避免这些分子发生器产生不常见的亚结构、复杂的化学模式、重复分子、小多样性集或结构不正确的化合物[56]。考虑到生成分子的phar-macophoric特征，我们的假设认为，许多这些分子包含足够的结构信息，以阐明产生生物反应所需的一般模式在一个或两个选定的生物目标。为了进一步增加推定的双重抑制剂的分子多样性，我们使用DeepCoy生成器为每个生成的结构添加了10个诱饵。最后，我们随机选择每个结构获得的10个诱饵之一，得到大约1：1的阳性和阴性样本的平衡比例。对最终数据集进行预处理，并如独立DNMT 1和HDAC 2数据集所述进行表示。双重抑制剂分类器Xgboost[49]的开发是为了控制过拟合，改善性能，并与其他传统的非集成算法相比提高计算速度。因此，我们选择了这种分类方法，应用网格搜索进行超参数调整，然后进行十重交叉验证。最终双重抑制剂分类器的训练是使用上一节所述的生成的推定双重抑制剂的数据集完成的。虚拟筛选天然产物在药物发现中仍然具有至关重要的作用[57]。通常通过寻找治疗剂的试错过程来策划，因此几乎三分之一的FDA批准的新化学实体来源于天然来源并不奇怪[58]。出于这个原因，我们选择了公共领域中可用的大型天然产物集合作为虚拟筛选的化学空间：天然产物数据库COCONUT，其中包含从53个数据源收集的超过406，076种独特的天然产物[59]。值得注意的是，这项工作中提出的虚拟筛选方案可以与任何小分子数据库一起使用。使用用生成的分子训练的模型，我们选择了类别概率值在0.5和0.9之间的化合物。我们还去除了高度卤化的分子（即，具有三个或三个以上卤素取代的结构）和MW高于650 Da的结构;根据MW分布选择该值作为截尾（见支持性信息中的图S1和S2）。使用来自DataWarrior的分子PathFp描述符（编码多达七个原子线性链的二进制散列向量）的T分布随机邻居嵌入（t-SNE）[60]，对所得分子进行降维和可视化。由此产生的颜色编码的分类器概率2D空间用于选择命中，每个节点表示低维分子嵌入，每个边表示相邻节点之间的相似性。这样，一对在概率上有很大差异的连接化合物[61]第61话，你可以说是一个很小的概率。可以将弥散解释为连续SAR。天然产物命中在命中选择和检查之后，对化合物进行一系列分析以更好地表征它们作为双重DNMT 1/HDAC 2抑制剂的推定相互作用第一步涉及命中物与Yuan等人合成的化合物12 a（支持信息中的图S8）和15 a（图2）之间的易混淆的药物比对[62]。这是通过pharmACOphore完成的，因为该实用程序基于蚁群优化元启发式算法进行比对评分[63]。将从先前分析中选择的命中物对接到DNMT 1（PDB ID：3SWR）和HDAC 2（PDB ID：6WBW）以测试它们的推定相互作用F.D. Prieto-Martínez，E.Fernán-de Gortari，J.L.Medina-Franco等人生命科学中的人工智能1（2021）1000084图1. 用于分子群优化的种子化合物的化学结构。图二. 通过主成分分析的性质空间的二维分子表示：DNMT 1（左）和HDAC 2（右）。从策展数据集获得的阳性命中显示为蓝色圆圈，而非活性命中（诱饵）显示为红色圆圈。DNMT1的主成分协方差回收率约为51%（PC 1）和30%（PC 2），HDAC 2的主成分协方差回收率约为53%（PC 1）和21%（PC 2）。更多详细信息，请参见支持信息中的表S1。关于epi enzymes我们进行了与植物的分子对接（v.1.2）[64]。结合位点定义在每种蛋白质的共结晶配体周围的10 μ m球体内;使用晶体结构中发现的方向作为参考，基于其3D相似性和相互作用，进一步检查并选择每次命中的25个方向。在Tesla V100 GPU上使用AMBER在含有150 mMNaCl的溶液中使用全原子分子动力学模拟（MD）将最佳蛋白质-配体模型松弛 200 ns[65] 。在所有情况下，我们使用 AMBER 19SB[66] 和General AMBER[67]力场来模拟蛋白质，水，离子和小分子。使用MDTraj（v.1.9.4）[68]和Contact Map（v.0.7.0）[69]分析轨迹。结果和讨论DNMT1和HDAC 2数据集使用PCA的化学空间的视觉表示（协方差值见支持信息中的表S1）显示出显著差异。表2DNMT 1分类器的准确度和混淆矩阵DNMT1 LRC DTC RFC XGBC真阴性98 96 95 99假阴性0 0 0 0假阳性1 3 4 0真阳性106 106 106 106平均准确度98.87 97.72% 99.03% 98.54%平均SD 1.21% 1.49% 1.07% 1.35%最佳精度99.03% 99.19% 100% 98.54%最佳参数：XGBC：booster =飞镖，故障诊断码： cri-熵 = 熵， max_depth =7,分离器=随机， LRC ：C=100，阶级重量 =平衡， penalty= l2，max_iter：400 ， solver ： lbfgs ， RFC ：crite- rion= gini ，max_features=auto，min_samples_leaf=1，min_samples_split= 2，n_estimators= 500。表3HDAC2分类器的准确度和混淆矩阵DNMT1活性物和诱饵之间的关系（图2）。这是ev-根据计算的描述符（支持信息中的图S1-S3）中的特性分布，特别是与溶解度和极性相关的特性分布，相比之下，对于HDAC2，可以观察到明显的重叠，因为诱饵覆盖了可视化空间上的类似区域（图2）。化合物在化学空间中的分布是DeepCoy使用超过25个描述符和大量迭代（每个活性分子约1000-2000个诱饵）来构建诱饵的结果。[44].我们还假设，在这个化学空间中可以观察到DNMT 1诱饵的更好覆盖。为了平衡模型的计算成本和准确性，我们选择了每个活性分子150个诱饵，这些诱饵表现出比原始DUD-E更好的性能[44]。分类与选型通过网格搜索模型比较，我们选择逻辑回归作为性能最好的模型。DNMT 1和HDAC 2抑制剂的交叉验证、混淆矩阵和总体平均准确度结果如下：HDAC2 LRC DTC RFC XGBC真实负数343 389 392 389假阴性2 11 2 0假阳性7 13 10 13真阳性341 332 341 343平均准确度98.52% 95.39% 98.17% 97.72%平均值SD 0.85% 0.70% 0.91% 0.百分之九十最佳精度98.97% 96.69% 96.69% 97.85%分别在表2和表3此外，我们计算了所有情况下的最佳精度值，代表微调超参数后获得的整体精度（表2）。最佳参数：XGBC：booster= gblineal，DTC：criterion= entropy，max_depth= 14 ， splitter= random ， LRC ： C=10 ， class_ weight=balanced ， penalty= 12 ， max_iter ： 400 ， solver ： lbfgs ， RFC ：criterion=gini ， max_features=auto ， min_samples_leaf=1 ，min_samples_split= 2，n_estimators= 1000。F.D. Prieto-Martínez，E.Fernán-de Gortari，J.L.Medina-Franco等人生命科学中的人工智能1（2021）1000085图三. 通过主成分分析生成的二元抑制剂的性质空间的二维可视化表示。从策展数据集获得的阳性命中显示为蓝色圆圈，而非活性命中（诱饵）显示为红色圆圈。通过主成分分析获得视觉表示。PC1和PC2的协方差回收率分别约为49%和27%。更多详细信息，请参见支持信息中的表S1。据报道，RFC往往优于LRC [70，71]。在这项研究中，我们发现LRC产生了与RFC相似的结果，具有适度的计算资源（例如，具有四个CPU核心的典型膝上型计算机或台式计算机）。此功能是性能的关键，该算法，因为虚拟筛选活动通常在包含105虽然可以认为LRC方法的性能改进是以准确度为代价实现的，但最近的一项研究表明，LRC和其他算法在预测类似复杂度的结果方面没有显著差异（即，高维度）[73]。此外，XGBC产生了与LRC相似的值，超参数选择显示表4DNMT 1/HDAC 2双分类器的准确性和混淆矩阵。VS_Model_One运行XGBC_VS真阴性108假阴性6假阳性9真正的积极115平均准确度93.13%平均SD 2.71%最佳精度93.13%XGBC使用线性助推器获得最佳结果（表2-3）。尽管如此，LRC模型简化了其实施，因为模块依赖性存在于管道的进一步步骤中。生成对偶抑制剂我们发现，对于生成的二元化合物，诱饵覆盖率显著提高（图3），这可能归因于对属性空间划界的更高控制，因为分子种子具有共同的性状和特征。这对结果的影响很明显;例如，类别不容易分离，因此进一步支持了上面提出的假设。生成的化合物的化学空间覆盖显示诱饵之间的计算性能的整体保存。双重抑制剂分类的模型训练和验证通过生成的化合物和诱饵，训练了一个独立的分类器。我们训练一个XGBC来完成使用Python Xgboost库的虚拟筛选任务。模型验证和优化遵循与DNMT 1和HDAC 2分类器相同的步骤。结果总结见表4。见图4。 A t-SNE维数由DataWarrior中包含的PathFp描述符表示的筛选分子的简化和网络表示。在网络中，化合物被表示为通过其结构相似性连接的节点。每一个节点都是用颜色编码的，输出概率是由对偶抑制器的分类器计算出来的F.D. Prieto-Martínez，E.Fernán-de Gortari，J.L.Medina-Franco等人生命科学中的人工智能1（2021）1000086图五. 两个簇的节点邻域中具有较高概率成员。(A)（ B）概括了图 1所示的分子簇和化学结构。四、最佳参数：助推器=飞镖我们发现，超参数优化产生了更好的结果的基础上辍学的自适应回归树（DART）方法。这种集成算法被认为是为了防止在梯度提升树（GBT）中经常发现的过度专业化[74]。我们还选择了这个特定的模型，因为它在GBT中的使用，并且因为这个算法在蛋白质-配体相互作用建模中表现出了显着的性能[71]。验证过程是依赖于数据的，因为类别不平衡可能导致分类或预测上的伪影。从这个意义上说，ROC曲线用于通过使用以曲线下面积作为比较的主要值。在此，我们包括十重交叉验证和ROC曲线。基于此，用LRC获得的独立分类器（DNMT 1和HDAC2）表现出良好的一致性和性能。除了ROC曲线，我们还计算了马修斯相关性，系数（MCC）来测试开发的分类器的预测能力（参见支持信息中的表S2）。该系数最初是为了评估分类性能而开发的，因为它直接从混淆矩阵中获得。MCC的可能值范围从-1到1，零相当于随机机会[75]。MCC提供了一些优于传统指标的优势，例如准确性和/或F1评分[76，77]。此外，MCC足够强大，即使在“不利”情况下（如类别不平衡）也可以评估模型的预测能力机器学习活动中的另一个常见问题是过度拟合。事实上，如果在模型训练期间没有运用因果关系，算法往往泛化能力较差。为了克服这个问题，最佳实践包括使用验证集和提前停止[79]。Ad-technology措施包括超参数调整;对于逻辑回归惩罚，如L1和L2，通常用于避免过度拟合。对于XGBoost，缓慢的学习速率和早期停止被强烈推荐为最佳实践。对于下文所述的案例研究，数据也可能产生过度拟合。考虑到遵循特定药效学特征来设计DNMT（核苷或带电胺）和HDAC（羟基肟酸盐）抑制剂的趋势，我们使用SBDD的共识方法进行命中修剪。天然产物COCONUT数据库[80]中包含的天然产物涵盖了广泛的化学空间，因此提供了一个很好的案例研究，以确定F.D. Prieto-Martínez，E.Fernán-de Gortari，J.L.Medina-Franco等人生命科学中的人工智能1（2021）1000087见图6。虚拟筛选命中和参考化合物的药效学比对。为了简单起见，仅示出了化合物对。CNP 0012378 （碳原子以青色显示） ;CNP0136972 （碳原子以品红色显示） ;CNP0241750 （碳原子以紫色显示） ;CNP0390399 （碳原子以粉色显示）和 CNP0404639（碳原子以灰色显示）。在所有情况下，我们使用化合物15a（橙色显示的碳原子）作为参考。见图7。二维相互作用图DNMT1和本研究中获得的双配体之间的对接复合物。潜在的双重抑制剂。我们的方案共回收了1239种化合物（占整个数据库的0.3%）（图4）。基于评分值和t-SNE连通性，我们确定了两个主要集群（A和（2）选择合适的化合物。在图4中，颜色标度有助于鉴定具有双重抑制所需性状的较高概率的化合物。另一方面，连接性指导化合物之间高度结构相似性的识别。然而，我们注意到，当将连通性图解释为具有异质着色的聚类可能指示活动性时，必须谨慎[81]。簇A（6个化合物，图4）显示出一致的概率值，主要是由于结构保守性。该簇中的多样性来源于在sca-内酯，1-oX o-六氢-2H-吡咯并[1，2-a]吡嗪-7-基-脲的主链中发现的片段（图5A）。因此，该交联剂具有明显的连续SAR，主要区别在于与脲部分相邻的芳族取代基。然而，仔细观察，当分类器的概率低于0.7时，相邻标度会发生显著变化。对照组，簇B（32种化合物，图（4）表现出较强的异质性。双重活动评分的分布，即，网络表示暗示双重活动的突然变化。我们发现，大多数最好的化合物共享一个共同的骨架：2-{5，11-二氧代-6aH-异吲哚并[2，1-a]喹唑啉-6-基]}乙酰胺（图1）。 5 B）。在该簇中，相邻化合物之间的主要差异是取代基链的长度和链末端的封端基团的大小从虚拟筛选中出现的结垢的结构如图2所示。虚拟筛选命中比对的分子建模我们使用COCONUT数据库中发现的命中进一步探索了药效相似性。我们选择了五个命中基于根据本研究中使用的分类评分;具体而言，我们从簇A中选择了两种分子（CNP 0136972和CNP 0241750，图5 A），代表具有连续SAR的瘢痕，从簇B中选择了三种分子（CNP 0012378、CNP 0390399和CNP 0404639，图5 A）。 5 B），代表具有更多F.D. Prieto-Martínez，E.Fernán-de Gortari，J.L.Medina-Franco等人生命科学中的人工智能1（2021）1000088见图8。二维相互作用图HDAC2和双配体之间的对接复合物在这项研究中获得。图2. 在COCONUT数据库中发现的虚拟筛选命中中存在Murcko标记。异质SAR我们的研究结果表明，计算命中共享pharmacophoric的相似性与用于化合物生成的分子种子。因此，我们进行了药理学元素的非弹性比对。该方法基于这样的概念，即对齐的化合物在与其靶标结合时具有相似的结构排列，从而便于使用空间标准分析保守的相互作用模式[82]。我们的分析表明，最佳命中给出了与参考双重化合物的良好匹配（图6）。与化合物15a的命中的比较揭示了相互作用元件的共同空间分布在用虚拟筛选方法发现的命中之间共享（图6）。重要的是要注意，虽然比对是一种LBDD方法，不能提供对推定结合模式的直接了解，但它支持共同模式可以导致双重DNMT 1/HDAC 2活性的药效团假说的假设。DNMT 1和HDAC 2上的命中的分子对接对于上下文，我们总结了每个靶标的已知相互作用模式和重要残基。更多参考文献可参见支持性信息中的图S9-S10，其说明了DNMT 1和HDAC 2与本研究中用作对照的抑制剂的相互作用。对于DNMT 1，与抑制相关的主要蛋白质-配体相互作用是谷氨酸，这通过有效抑制剂中带电胺的重复出现特征得到证明[83]。与核苷相互作用的其它重要残基包括由残基F1145和W1170形成的疏水二联体。最近有人提出，残基N1578可作为疏水极性谷氨酸子口袋和口袋的疏水/芳香区之间的桥梁，为DNMT 1抑制提供了一种未探索的特性[16]。HDAC抑制剂的设计通常依赖于锌结合基团[84]其产生有效但非特异性HDAC化合物。因此，已经提出了几种假设来指导HDAC 2的选择性抑制剂的设计最近的观察结果表明氢键具有选择性[85]。其他化合物，如苯甲酰胺，对锌中心的相互作用较弱然而，苯甲酰胺也显示出对I类HDAC的选择性[86]。计算命中的分子建模显示出足够的相互作用特征，通过筛选的化合物的对接姿势说明，显示出与共晶参考的良好一致性，HDAC 2存在更高的偏差（图1A和1B）。第7和第8段）。我们推测，这种差异主要是由于缺乏锌锚和化合物的大小。尽管如此，在共享的场景中观察到了姿势的一致性因此，HDAC 2的绑定模式可能不是最具代表性的。F.D. Prieto-Martínez，E.Fernán-de Gortari，J.L.Medina-Franco等人生命科学中的人工智能1（2021）1000089由于结合口袋的预先存在的构象，这是SBDD方法中发现的众所周知的偏倚[87，88]，因此是推测性的。与药效组比对相似，进行了共结晶配体对接位姿的分子叠加，以鉴定推定的结合构型（支持性信息中的图S11-S12）。为此，我们使用互补的LBDD和SBDD方法来比较药效比对，并进一步了解双重DNMT1/HDAC 2抑制所需的分子特征配体-蛋白质复合物的分子动力学模拟我们进行了MD模拟，以确定通过分子对接预测的配体-蛋白质相互作用的稳定性，并检查结合口袋中分子的取向和构象的潜在变化。对接姿势的选择是SBDD[89]中的一个重大挑战，因此我们选择了一致和发散姿势来进一步分析计算命中的相互作用特征。通过这种方式，可以更好地区分真正的粘合剂和诱饵[90]。结果表明，计算命中和蛋白复合物在生产运行期间相对稳定（支持信息中的图S13-S32）。图S32和S33中的直方图显示了MD模拟中的接触并发这些是基于蛋白质和配体之间的距离阈值计算的。并发可用于识别绑定事件中的亚稳态所有命中均显示与F1145和W1170的合理亲合性;其他值得注意的接触包括与SAM和sinefungin形成接触的S1146，以及与N1578的接触，N1578是新型DNMT 1抑制剂的主要接触[16]。对于HDAC2，预测的配体比DNMT 1中更易移动，尽管这可能是考虑到它们在结合口袋中的大小和方向的固有行为一个显著的特征是分子与苯丙氨酸的疏水接触。在其他研究中也得到了类似的结果[91]。分子模拟结果（对接和动力学模拟）支持双重抑制的假设。结论药物发现努力正在寻找新的方法或优化策略以减少高损耗率和所涉及的成本。多元药理学成为一个有前途的场所，以更好的治疗，然而，这增加了合理设计的复杂性墨西哥儿童医院计算生物学和药物设计部门Federico Gómez授予访问本工作中描述的用于模型训练、诱饵生成和分子优化的高计算clus-ter I x tlilton的这项研究得到了密歇根州安娜堡市密歇根大学高级研究计算所提供的计算资源和服务的部分支持。补充材料与本文有关的补充材料可在在线版本中找到，网址：doi：j.ailsci.2021.100008。引用[1] Zaware N，Zhou MM.表观基因组阅读器结构域的化学调节剂作为癌症和炎症的新兴表观遗传疗法。 Curr Opin Chem Biol 2017;39 ： 116-25. doi ：10.1016/j.cbpa.2017.06.012。[2] Adhikari N，Jha T，Ghosh B.在多种疾病条件下剖析组蛋白去乙酰化酶3：选择性抑制作为一种有前途的治疗策略。 JMed Chem 2021;64 ： 8827-69.10.1021/acs.jmedchem.0c01676。[3] 罗伯特C，拉苏尔FV。HDAC抑制剂：DNA损伤和修复的作用。Adv Cancer Res2012;116：87-129. doi：10.1016/B978-0-12-394387-3.00003-3。[4] Leus NG，Zwinderman MR，Dekker FJ.组蛋白去乙酰化酶3（HDAC 3）是NF-κ B介导的炎症反应中的新兴药物靶点。 Curr Opin Chem Biol 2016;33： 160-8.10.1016/j.cbpa.2016.06.019。[5] JulgB，Barouch DH. HIV-1根除的新免疫策略 J Virus Erad 2015;1：232-6.[6] Jain AK，Barton MC.溴结构域组蛋白阅读器与癌症。JMol Biol 2017;429：2003-10. doi：10.1016/j.jmb.2016.11.020。[7] 段永成，张世杰，石晓杰，金丽芳，于婷，宋艳，关永艳。靶向组蛋白表观遗传调节剂间串扰的双重抑制剂在肿瘤治疗中的研究进展。欧洲医学化学杂志2021;222：113588。doi：10.1016/j.ejmech.2021.113588。[8] NavejaJJ， Medina-Franco JL.表观药理学中表观遗传靶点的药理学相似性的见解。今日药物发现2018;23：141-50。d o i ：10.1016/j.drudis.2017.10.006.[9] Tomaselli D，Lucidi A，Rotili D，Mai A.表观遗传多药理学：表观药物发现的新领域。Med Res Rev 2020;40：190doi：10.1002/med.21600。[10] 加内桑·德莱拉两次成功的奇迹：多靶向表观遗传因子的扩展宇宙。Curr OpinChem Biol 2020; 57：135 - 54. doi：10.1016/j.cbpa.2020.05.009。[11] 埃斯特勒·M癌症的表观遗传学。新英格兰医学杂志2008;358：1148-59。doi：10.1056/NE-JMra072067。[12] Nishiyama A， Nakanishi M.导航癌症的 DNA甲基化景观。 Genet 2021. d o i ：10.1016/j.tig.2021.05.002。[13] Ming X，Zhu B，Li Y.DNA甲基化的有丝分裂遗传：不仅仅是复制和浆糊。J Genet Genomics 2021;48：1doi：10.1016/j.jgg.2021.01.006。本文介绍了一个通用的CADD流水线，集成LBDD[14] 拉弗亚德A，希廷格G，沙达波S.增加线粒体对X-和SBDD以支持双目标化合物发现和设计。作为案例研究，我们使用公共数据集和开放获取软件成功开发了DNMT 1/HDAC 2抑制剂的分类器该分类器在COCONUT天然产物数据库中发现了两个有希望的标准，该数据

下载后可阅读完整内容，剩余1页未读，立即下载