没有合适的资源?快使用搜索试试~ 我知道了~
深度学习的片段连接方法在靶向药物设计中的应用
生命科学中的人工智能2(2022)100035研究文章SyntaLinker-Hybrid:用于靶向药物设计的深度学习方法Yu Fenga,b,Yuyao Yangb,Wenbin Denga,Xiang,Hongming Chenb,Xiang,Ting Ranb,Xianga中山大学药学院(深圳),广州510006b药物和疫苗研究部,广州实验室,广州510530,中国aRT i cL e i nf o保留字:深度生成模型迁移学习基于片段的药物设计a b sTR a cT靶向药物设计在药物发现中引起了广泛的关注但是,如何有效地探索目标化学空间是一个巨大的挑战基于片段的药物设计(FBDD)已显示出其潜力,这东西在这项研究中,我们引入了一种基于深度学习的片段连接方法,即SyntaLinker- Hybrid,用于目标特异性分子的生成。通过进行迁移学习和片段杂交,该方法允许生成大量的连接片段,以将给定的末端片段组装成具有靶特异性的分子。这项工作表明,该方法有能力为各种目标生成目标特异性结构。我们认为,它的适用可以扩大到更广泛的目标范围。介绍药物发现是寻找满足以下条件的化合物的过程:在巨大的1060 ×100,100的理论化学空间中,包括所需的生物活性、最佳的靶向选择性和ADMET性质等的过多标准[1]。这个过程是如此漫长和昂贵,它经常被描述为因此,有效探索化学空间的方法变得至关重要。在很长的历史中,搜索空间集中在货架上的天然产品和合成化合物。近几十年来,组合化学(CC)、高通量筛选(HTS)和DNA编码的化学文库极大地扩展了实际化学空间[3如今,随着ML/AI技术在虚拟筛选中的应用,药物化学家对可访问的虚拟化合物库的化学空间越来越感兴趣[8],这远远超过了真实的化学空间[9,10]。已经提出了许多计算方法来生成虚拟化合物库[9,11-一种典型的方法是通过片段杂交利用基于片段的化学空间[16,17]。然而,这种方法通常支持化合物文库大小的组合扩展[18],这由于不可计算的计算成本而不利于虚拟筛选。为了解决这个问题,已经提出了一些基于片段的方法来直接建立以目标为中心的虚拟化合物库。代表人Al-出租包括BREED[19]、FluX [20,21]、BROOD[22]等。毫无疑问,这些方法通过分析已知生物活性化合物的关键和特权子结构(称为片段),可用于挖掘药学相关区域[23]。尽管如此,生成的化合物通常通过将各种化学部分或侧链连接到有限数量的化合物骨架上而被限制在一个小的化学空间中。此外,它们在很大程度上依赖于穷举搜索或随机搜索算法[11,24,25]。因此,需要能够快速设计大量具有高度结构新颖性和目标特异性特征的化合物的基于片段的新方法。近年来,已经提出了许多基于深度学习的分子生成模型[26-深度生成模型可以直接从结构数据中学习,而不需要像传统计算方法那样使用显式枚举规则来生成分子。在这些模型中,基于片段的生成模型得到了特别的发展。例如,Alessio Micheli等人报告了一种深度学习模型,用于逐个片段地生成分子[35],而最近也公布了一种用于逐个原子地生成片段的生成算法[36]。此外,Ola Engkvist等人基于包含大量分子标记的数据集训练了一个深度生成模型,这些标记具有用于分子生成的相应装饰[37]。这些方法大多是适应铅优化。因此,提出了一些关于片段连接的方法,用于药物的从头设计. 夏洛特·M迪恩等人开发了一个基于图形的深度生成∗ 通讯作者。电子邮件地址:dengwb5@mail.sysu.edu.cn(W. Deng),chen_hongming@gzlab.ac.cn(H. Chen),ran_ting@gzlab.ac.cn(T. Ran)。https://doi.org/10.1016/j.ailsci.2022.100035接收日期:2021年12月24日;接收日期:2022年4月9日;接受日期:2022年4月14日2022年4月25日在线提供2667-3185/© 2022作者。由Elsevier B. V.发布。这是一个CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)可在ScienceDirect上获得目录列表生命科学期刊首页:www.elsevier.com/locate/ailsciY.冯,Y.杨,W. Deng等人生命科学中的人工智能2(2022)1000352图1.一、 SyntaLinker-Hybrid创建虚拟化合物库的工作流程。名为DeLinker的工具以三维方式连接两个片段[38]。我们的小组构建了一个名为Syn- taLinker[39]的Transformer模型,以连接从ChEMBL数据库[40]中提取的末端片段对。最近的几份报告表明,深度生成模型甚至可以在转移学习[41,42]时针对特定目标进行定制,其中集中了生物活性化合物[28,43]。遵循这一想法,我们引入了一种基于SyntaLinker的工作流程,即SyntaLinker-Hybrid,通过进行迁移学习和片段杂交来产生目标特异性分子SyntaLinker-Hybrid工作流程开始于通过使用来自ChEMBL数据库的大量片段对训练先前的SyntaLinker模型来学习分子的“隐式组装规则”。然后,通过对某个药理学靶点的活性化合物进行迁移学习,在该靶点上定制先验模型构建目标导向的SyntaLinker模型。为了扩展模型的搜索空间,进行片段杂交以将来自不同活性化合物的末端片段组合成用于模型采样的杂交末端片段对,其可以产生多个连接片段以将给定的末端片段组装成具有靶特异性的分子。事实上,这项工作已经被广泛地应用于通过产生激酶抑制剂样结构来使激酶抑制剂的sca-hopping发生突变[44]。为了在更广的范围内对工作流程进行评价,我们将其应用扩展到其他四个药物靶点属于不同的蛋白质家族。工作流程的能力通过化学空间分析、定量构效关系(QSAR)研究和分子对接等方法验证了该方法的有效性。材料和方法SyntaLinker-Hybrid工作流程SyntaLinker是一种深度生成模型,可以生成连接片段以将两个末端片段组装成分子。 该模型是建立在一个Transformer架构与多个编码器-解码器堆栈。每个堆栈还由多头自注意子层和位置前馈网络(FFN)子层组成。为了准备模型训练,将训练集中的每种化合物分成两个末端片段和一个接头片段。然后通过one-hot编码方法将四元形式的SMILES模式(例如“末端片段1、连接片段、末端片段2、原始化合物”)转换为输入嵌入。通过嵌入式表示,可以构建SyntaLinker模型并进行采样,以使用末端片段对作为输入输出分子结构。关于SyntaLinker方法的更多详细信息可以在我们以前的工作中找到[39]。SyntaLinker-Hybrid通过将trans-fer学习过程引入模型训练和将片段杂交模块引入模型采样来扩展上述工作流程(图1)。迁移学习从SyntaLinker的先验模型开始,该模型在一个大型化合物集上训练,该化合物集并不特定于目标。相比之下,迁移学习的数据集必须来自目标复合集,并且应该设置特别小的学习率(默认值为0.0001)。同时,训练步长根据经验设置为50,000步,以避免过度拟合。模型检查点每1000步保存一次,最后一个用于模型采样。SyntaLinker模型构建的其余设置(如批量大小)与我们先前研究中使用的设置相同。至于片段杂交,属于不同化合物的末端片段随机组合以形成许多杂交片段对。然后,杂交片段对通过以下方式组装成分子:对迁移学习模型进行采样为确保性别平等的目标特异性在分子杂交中,用于杂交的末端片段来源于相应目标的活性化合物的片段化。此外,我们使用连接基的键长作为对样品结构的约束。键长的范围基于配对末端片段所属的原始结构中的接头长度来决定。数据准备由于在迁移学习之前必须建立先验模型,因此我们使用与我们先前研究中使用的相同的ChEMBL片段集进行先验模型训练。这些片段来源于大规模ChEMBL数据库中化合物的片段化,这将确保现有模型能够充分学习已知分子中的片段组装。然后,我们选择了对四种焦油具有生物活性的化合物Y.冯,Y.杨,W. Deng等人生命科学中的人工智能2(2022)1000353表1用于模型构建和评估的数据集。目标名称活性物质数量训练集中验证集中测试集中BRD413242234277273FXR7142334291285HDAC135447302912902DRD2431116,16820182007TFP:末端片段对。进入临床试验,如BRD4、HDAC1、FXR和DRD2,以建立SyntaLinker的迁移学习模型。每个目标都报告了数千种活性化合物,这似乎是一个足以进行转移学习的规模。我们从ChEMBL数据库中检索了BRD 4、HDAC1和FXR的活性化合物,而从EXCAPE-DB数据库中找到了DRD 2靶向化合物[45]。Ki/KD或IC50/EC50小于1 μM的化合物仅用于模型构建。目标化合物的数量示于表1中。MMP切割算法[46]用于如上所述分解化合物结构,同时计算接头片段的键长。这种切割方法可以产生化合物的多个切割路径,这意味着每个化合物可以产生一个以上的末端片段对。因此,末端片段对组的大小通常比相应的化合物组增加数倍。将每个靶标的末端片段对集合以8:1:1的比例分成训练、验证和测试子集,用于模型构建和评估(表1)。应注意,三个子集中的所有末端片段均用于片段杂交。模型评估基于测试集中的末端片段对,在生成分子的有效性、唯一性、新颖性和恢复性方面评估深度生成模型。这些指标是用方程计算的。(1)(4)分别。有效性是指生成的分子中化学有效结构的百分比,使用RDKit包进行检查[47]。单一性是指有效结构中非重复分子的百分比。新颖性是指在测试集中未发现的唯一有效分子结构的百分比。回收率是指在生成的集合中回收的测试集结构的百分比。来分析化学空间覆盖。还使用基于oetoolkit的程序Flush基于Taylor聚类算法[49]聚类来自基于Foy指纹[51]计算的Tanimoto相似性[50],相似性阈值0.5用于聚类。采用MoE软件(2020版)计算了分子量(MW)、脂水分配系数(LogP(o/w))、水溶解度(logS)和拓扑极性表面积(TPSA)等理化性质。QSAR研究基于非线性SVM分类模型[52]对每个靶标进行QSAR研究。该模型是使用scikit-learn模块和Python编程环境构建的[53]。将活性复合集按比例分为训练集和测试集, 三比一此外,基于随机选择的600种活性化合物,使用有用诱饵数据库(DUD)[54]中实施的方法生成每个靶标的33,500个诱饵分子。诱饵化合物组也使用相同的比率分成训练组和测试组(表S1)。将活性化合物和诱饵分子的训练集组合用于训练模型,并将测试集的组合用于模型评估。训练和测试集中的所有化合物都编码为基于计数的ECFP 6指纹。 网格搜索最高马修斯相关系数(MCC)[55],以获得最佳的超参数,如c最终模型中的值和类权重。此外,Min-Max内核被用作数据相似性的度量[56]。类的不平衡是通过分配类的权重与类的频率成反比来处理的。分子对接有效性= 化学上有效的微笑生成的微笑唯一性=非重复的有效结构数生成集中的有效结构数(一)(二)进行分子对接以评估结合潜力 生成的分子。使用薛定谔软件(2020版),采用滑翔对接算法[57]进行计算。从RCSB PDB数据库下载用于对接的蛋白质结构。BRD 4、DRD 2、FXR和HDAC 1的PDB代码为3MXF、6LUQ,新奇=生成集中未在测试集中的唯一有效结构的数量生成集中唯一有效结构的数量(三)分别为1OSV和4BKX。在前三种结构中,高活性化合物共结晶。对于HDAC 1,晶体结构为 与其底物肽复合作为活性位点处的配体。首先,蛋白质结构是用Protein Prepa制备大师模块中的定量向导配体的低能构象Recovery =生成的测试集中恢复的测试集结构的数量测试集结构数量化学空间分析(四)通过LigPrep模块生成,其中列举了所有互变异构体和异构体。采用Epik算法[58]确定pH7.0下的电离状态。使用受体网格生成模块,通过然后,以Glide-SP精度进行对接,化学空间可以通过各种描述符来表征,例如结构和物理化学性质。在这项研究中,MACCS指纹[48]被用作结构描述符来表示化学空间。它由一个166维的二进制向量组成,每个维度对应一个预定义的种子结构。然后,对分子指纹进行主成分分析(PCA为每个化合物保存10个对接姿势,并将GlideScore用作评分函数。OpenEye软件(版本2020)中的ROCS方法[59]核密度估计(KDE)[60]分析用于计算对接分数和形状相似性的统计概率分布。Y.冯,Y.杨,W. Deng等人生命科学中的人工智能2(2022)1000354表2模型评估的统计数据。图二. 通过对迁移学习模型(标记为采样)和活性化合物(标记为活性)进行采样而生成的分子之间的化学空间比较。统计BRD4FXRHDAC1DRD2TLaGMbTLaGMbTLaGMbTLaGMb生成分子27302730285028509020902020,07020,070有效性76.74%86.12%45.16%百分之九十点七七64.59%88.08%73.39%86.73%唯一性67.02%81.62%72.80%89.02%66.34%86.75%69.65%84.95%新奇85.33%百分之九十九点五三87.51%百分百87.19%百分百87.97%百分之九十九点五三恢复88.41%3.86%60.94%0.00%84.18%0.00%百分之九十二点五5.23%注:a)基于目标特定活性化合物的迁移学习模型b)在ChEMBL数据库上构建的先验模型结果和讨论迁移学习模型在这项研究中,我们将SyntaLinker-Hybrid工作流程应用于四个目标。针对每个目标,构建了迁移学习模型。使用末端片段对测试集对模型的有效性、唯一性、新颖性和恢复性进行了评估。还将这些统计数据与使用相同片段集对先验模型进行采样所得的统计数据进行比较,因为先验模型是针对一般目标构建的。如表2所示,在迁移学习生成的分子中,三个目标具有超过60%的化学有效结构为Y.冯,Y.杨,W. Deng等人生命科学中的人工智能2(2022)1000355在FXR中,仅45%生成的分子是有效的,可能是由于其较小的训练集,尽管测试集的大小与BRD 4相当(表1)。换句话说,训练集的大小可能会影响生成分子的有效性。这也通过在基于大规模化合物库构建的先前模型下生成的分子的高有效性来验证。对于所有目标,迁移学习模型生成的分子的唯一性小于先验模型的唯一性。这这是可以理解的,因为迁移学习理论上集中在与目标相关的化学空间上,这可能导致冗余采样。因此,迁移学习模型生成的分子的新颖性也低于先前模型,尽管它们中的绝大多数具有新颖的结构。特别是高回收率-Y.冯,Y.杨,W. Deng等人生命科学中的人工智能2(2022)1000356图三. 生成的分子和活性化合物的物理化学性质的Box图。标记S代表取样分子,而标记A代表活性化合物。Y.冯,Y.杨,W. Deng等人生命科学中的人工智能2(2022)1000357见图4。通过对迁移学习模型进行采样而生成的接头(标记为采样接头)和活性化合物的接头(标记为活性接头)之间的化学空间比较。表3基于片段杂交的迁移学习模型的采样分子生成.参数BRD4FXRHDAC1DRD21%杂交片段对16,19126,993194,719879,336所选片段对的10,00010,00010,00010,000生成的分子100,000100,000100,000100,000有效分子数量75,32963,14366,46890,736独特分子数量67,99356,32362,61875,007匹配分子数量30,92023,89225,70534,302表明迁移学习模型确实学习了装配规则位于目标集中的化学空间中的分子。此外,最后10个检查点模型的结果似乎没有大的差异(表S2),因此最后一个将用于以下计算。此外,学习率、批量大小和较少的训练步骤明显地影响生成分子的有效性,但对新颖性和回收率的影响较小(表S3)。分子世代如上所述,引入片段杂交以配对来自不同活性化合物的任何两个末端片段。如表3所示,杂交程序可以产生非常大的通过穷举法计算片段对的数量。1%片段对的数量高达数万对。考虑到计算成本,我们随机选择了10,000个片段对用于模型采样,并且每对产生10个分子。在这样的原位中,生成的分子中有效分子的百分比与通过先前的模型评估获得的百分比相当,其中成对的末端片段来自相同的化合物。尽管FXR的百分比仍然低于其他目标,但其风险性甚至增加。有趣的是,所有目标的唯一性值都得到了改善,这可能是由于大多数混合片段对不存在于迁移学习模型的训练集中。特别地,大多数靶具有超过40%的包含输入末端片段的独特有效分子(我们将它们命名为匹配分子)。Y.冯,Y.杨,W. Deng等人生命科学中的人工智能2(2022)1000358图五. 通过对迁移学习模型进行采样(标记为采样)和随机选择的化合物(标记为随机)生成的分子的活性概率直方图分布。综上所述,利用杂交片段对进行sam-1检测是可行的。即使大多数片段对从未出现在训练集中,也要使用迁移学习模型。值得注意的是,一些碎片可能在现实生活中并不共存,我们通过化学空间分析、活性预测和分子对接对这些生成的分子进行了仔细的研究。生成分子我们特 别关注匹配 分子的化学 空间,因为 这些分子符 合基于SyntaLinker的片段连接算法的精神。如图2所示,这些分子完美地覆盖了 所有目标的可用活性化合物的整个化学空间,这表明迁移学习对定位目标特定化学空间是有效的。在这4个靶点中,DRD 2的分子组显示出与有效活性化合物更多的化学空间重叠,尽管匹配的分子仅占有效分子的一小部分。这可能是因为活性化合物DRD2的结构多样性更高(图S1)。HDAC 1也存在类似的情况。BRD4和FXR具有相对较少的活性化合物多样性,因此重叠区域较小。然而,这两个目标的迁移学习模型探索了相当大的潜在化学空间,并且生成的分子的结构多样性也增加了(图S1)。这表明迁移学习模型可以有效地探索目标集中的化学空间。这也反映在四个目标的化学空间中的均匀采样上。生成的分子和活性分子之间的结构相似性化合物显示产生了许多新的结构(图S2)。生 成 的 分 子 的 理 化 性 质 与 活 性 化 合 物 一 致 , 如 MW 、 logP(o/w)、logS和TPSA。总的来说,生成的集合与其相应的活动集合具有相似的值范围(图3)。一些小的分歧仍然存在。此外,分布的差异并不总是一致的所有数据集。例如,除了DRD 2数据集之外,生成分子的平均分子量似乎略大于活性化合物的平均分子量。然而,尽管接头尺寸较大,但接头和杂合片段对的分子量单独地与活性化合物的分子量相当(图S3)。我们假设生成的分子的分子量由连接体和末 端 片段 的 组 合 类似 地 , 对 于 BRD 4 、HDAC 1 和 DRD 2 , logP(o/w)和logS值具有更宽的范围,但是生成的FXR组与其活性化合物组相比显示出窄的范围TPSA范围扩大到所有目标,这表明生成了分子可以具有更多的杂原子。此外,我们还进行了合成能力分析,并与已知活性化合物进行了比较.我们可以看到生成集和活动集表现出相同的范围 SA评分(图S4)。低的平均SA分数表明,生成的分子可能具有相当大的合成能力。接头片段当SyntaLinker模型作为一台机器来学习链接时, 根据分子中两个末端片段之间的规则,我们进一步计算了-Y.冯,Y.杨,W. Deng等人生命科学中的人工智能2(2022)1000359见图6。通过对转移学习模型进行采样(标记为采样)、对可用的活性化合物进行采样(标记为活性化合物)和对随机选择的化合物进行采样(标记为随机)生成的分子的对接分数的KDE分布。表4从生成的分子和活性化合物中提取的接头数量。目标活性化合物接头生成连接器BRD49137964FXR5585057HDAC123247794DRD229406578确定了生成的分子和活性化合物之间的接头片段的结构。为了进行比较,我们专门提取了匹配分子的接头片段。对于所有靶标,与活性化合物接头的数量相比,产生了数倍的接头(表4)。这在一定程度上解释了所产生的分子的化学空间覆盖范围的扩大,因为在所产生的分子和活性化合物之间具有一致的化学空间覆盖范围的HDAC 1和DRD 2仅显示出所产生的接头的数量的小幅增加。事实上,生成的连接器也有同样的趋势 在化学空间覆盖中,作为所有靶标的生成分子(图4),尽管大多数生成的接头不存在于可用的活性化合物中。与生成的分子一样,生成的接头与活性化合物接头具有较小的结构相似性(图S5)。换句话说,可以容易地实现所生成的接头的结构新颖性迁移学习模型。此外,生成的接头也具有比从活性化合物中提取的接头更高的结构多样性(图1B)。S6)。活动预测为了进一步评估生成分子的靶特异性使用由真实活性化合物和诱饵分子组成的分子集合来构建SVM模型。如表S4所示,所有目标的SVM模型都高验证kappa分数表明模型甚至具有良好的预测化合物的质量[61]。然后,我们应用模型来预测匹配的分子。如图5所示,预测FXR、HDAC 1和DRD 2的大多数匹配分子是活性化合物。即使对于BRD 4,仍有大约一半的匹配分子被预测为活性化合物。此外,该分子组中的活性命中的比例明显高于从ChEMBL数据库中随机选择的化合物组中的这证实了迁移学习模型具有生成目标特定分子的能力。此外,我们将概率大于0.9的分子作为活性命中物,并发现它们的化学空间也覆盖了活性化合物,并探索了一些额外的空间(图2)。S7)。此外,就与活性化合物的结构相似性而言,它们在整个世代组中具有相似的分布(图1)。 S8)。Y.冯,Y.杨,W. Deng等人生命科学中的人工智能2(2022)10003510见图7。生成的分子和参比活性化合物之间结合位姿的形状相似性的KDE分布。结合评价我们通过分子对接研究了所产生的分子的结合潜力。为了简单起见,仅匹配的分子被预定位用于对接。超过90%产生的分子可以成功对接到靶标(表S5)。将对接结果与活性化合物以及一些随机选择的化合物的对接结果进行比较(图6)。关于对接得分,生成的DRD 2组显示出比那些随机选择的化合物总体更好的对接结果(较低的得分表示更好的对接结果),并且其得分分布与已知的活性化合物非常相似。对于FXR和HDAC 1,只有一小部分生成的分子具有比随机选择的化合物更好的分数,并且这些分子也表现出与已知活性化合物相似的分数分布。生成的BRD 4组并没有显示出比随机选择的化合物更好的评分结果。但是,这是可以接受的,因为BRD 4的活性化合物组处于相同的情况。此外,我们发现最佳10%评分的分子大多预测为活性化合物(概率>0.95)(表S5)。相比之下,最差的10%得分分子中活性命中的比例很小。这意味着很可能从最佳得分列表中找到活性化合物。随后,将所产生的分子的结合位姿与活性化合物进行比较。对于BRD 4、FXR和DRD 2,我们选择了在对接蛋白质结构作为参考。 由于HDAC 1晶体结构中的配体是肽,因此将临床试验中的化合物MS-275对接到活性位点,并将其对接位用作参考。比较显示,FXR和DRD 2具有大部分形状相似性大于0.5的分子,但BRD 4和HDAC 1仅具有小部分(图7)。这一结果似乎与 对接结果,因为后两种靶的大量产生的分子具有比活性化合物更差的对接结果。此外,得分最高的10%分子中高度相似的分子(相似度>0.5)的比例大于得分最高的10%分子中高度相似的分子(相似度> 0.5)的比例。最差的10%这意味着得分较好的分子通常与活性化合物具有相似的结合位姿最后,我们研究了所产生的分子的结合模式一在最好的10%评分分子中选择具有高形状相似性的代表性分子用于分析(图1A和1B)。S9-S12)。所选分子和相应参比化合物的结构见表S6。可以看出,FXR和HDAC 1的分子与参比化合物具有高度相似的结构。参比化合物中的接头基团被类似结构替代。因此,绑定姿势彼此完美对齐(图8)。BRD 4和DRD 2的分子具有与参比化合物完全不同的结构,但它们的结合位姿也以相同的取向叠加。此外,关键药效团特征匹配良好。Y.冯,Y.杨,W. Deng等人生命科学中的人工智能2(2022)10003511见图8。代表性生成化合物(黄色棒)的结合姿势与参比活性化合物(绿色棒)对齐。蛋白质显示为绿色卡通。结论在本研究中,我们将SyntaLinker-Hybrid工作流程扩展到属于不同蛋白质家族的四个靶标。所有迁移学习模型都表现出很强的生成目标特定结构的能力。大部分化学上有效的分子含有从活性化合物中提取的末端片段。而且,分子多样性和结构新颖性是高度合格的。另一方面,末端片段的片段杂交并不影响分子的生成,尽管几乎所有的片段组合在现有的活性化合物中从未见过。然而,在片段杂交下产生的分子的有效性与待组装的末端片段来自相同化合物的情况相当。更重要的是,生成的分子覆盖了活性化合物的整个化学空间,探索了潜在的靶向空间。这也通过生成的接头的化学空间分析得到证实。此外,我们还采用QSAR模型和分子对接来评价靶点特异性。结果表明 大多数生成的分子具有成为活性化合物的潜力,它们不仅具有良好的对接分数,而且表现出与活性化合物相似的结合位姿。特别是,在得分最高的分子中具有高度相似结合位姿的那些分子具有相似的结构或药效团特征。因此,很有可能使用这种深度学习方法从生成的分子中发现新的活性化合物。我们相信,SyntaLinker-Hybrid工作流程可扩展至更多药物靶标,以进行靶向药物设计。竞争利益作者声明,他们没有已知的竞争性经济利益或个人关系,可能会影响本文报告的工作。致谢我们要感谢Miru Tang博士在语言复习方面的帮助。资金本研究得到了广州市基础与应用基础研究基金的资助.补充材料与本文有关的补充材料可在在线版本中找到,网址:doi:j.ailsci.2022.100035。引用[1] Satyanarayanajois SD,Hill RA. 2020年的药物化学Future Med Chem 2011;3:1765-86.[2] 李平斯基,霍普金斯.为生物学和医学导航化学空间。Nature 2004;432:855-61.[3] 穆诺斯湾开源药物研发能否重新推动制药创新?临床药理学治疗2010;87:534[4] Fabian LV,Thomas C,Karina MM,Marc AG,Adel N,Richard AH,Jose LMF.整合虚拟筛选和组合化学加速药物发现。梳状化学高通量筛选2011;14:475-87。[5] 阿普尔顿湖组合化学和高温超导-喂养一个贪婪的过程。今日药物发现1999;4:398-400。[6] Homon CA,Nelson RM.高通量筛选:使能和促进药物发现过程。在:新药发现和开发的过程。CRC Press; 2006. p. 97比120[7] Rienzo M,Jackson SJ,Chao LK,Leaf T,Schmidt TJ,Navidi AH,Nadler DC,Ohler M,Leavell MD.高效率小分子生物合成的高通量筛选。2020年的Metab工程。[8] 沃尔特斯可湿性粉剂虚拟化学图书馆J Med Chem 2019;62:1116-24.[9] van Hilten N,Chevillard F,Kolb P.计算机辅助药物发现中的虚拟化合物库。JChem Inf Model 2019;59:644Y.冯,Y.杨,W. Deng等人生命科学中的人工智能2(2022)10003512[10] 科达德克湾组合化学的兴起、衰落和再发明Chem Commun 2011;47:9757[11] Saldívar-González FI,Huerta-García CS,Medina-Franco JL.基于化学信息学的化学库枚举教程。JCheminform 2020;12:64.[12] 放大图片作者:Han T.化学空间导航的下一个层次:远远超出可识别的化合物库。今日药物发现2019;24:1148-56。[13] 龚志,胡刚,李勤,刘正,王芳,张新,熊军,李平,徐勇,马荣。化合物库:最新进展及其在药物发现中的应用。 Curr Drug Discov Technol 2017;14:216-28.[14] Claudio NC,Andrew JWO.药物发现中的配体对接和基于结构的虚拟筛选。CurrTop Med Chem 2007;7:1006[15] Bruno OV,Richard E,Maria AM.基于结构的虚拟配体筛选:最近的成功案例。梳状化学高通量筛选2009;12:1000[16] Sydow D,Schmiel P,MortierJ,Schumamer A. KinFragLib:使用子袋聚焦片段化和重组探索激酶抑制剂空间JChem Inf Model 2020;60:6081[17] 杨 建 芳 , 王 芳 , 姜 伟 , 周 国 勇 , 李 昌 忠 , 朱 晓 丽 , 郝 广 芳 , 杨 广 芳 。PADFrag: 为 探 索 药 物 发 现 的 生 物 活 性 片 段 空 间 而 建 立 J Chem Inf Model2018;58:1725-30.[18] [103]杨文,王文,王文.碎片数据库FDB-17 JChem Inf Model 2017;57:700[19] PierceAC,Rao G,Bemis GW. BREED:通过已知配体的杂交产生新型抑制剂应用于CDK2、p38和HIV蛋白酶。医学化学杂志2004;47:2768-75.[20] 放大图片作者:FechnerU,Schneider G. FluX(1):基于片段从头设计的虚拟合成方案JChem Inf Model 2006;46:699[21] 放大图片作者:FechnerU,Schneider G. FluX(2):基于配体的从头设计的分子突变和交叉算子的比较 J Chem Inf Model 2007;47:656-67.[22] 王立宏,张晓刚,王晓宏,张晓刚. 基于配体的先导化合物生成--通过BROOD在重新组装方法中考虑化学可及性J Cheminform 2012;4:O20.[23] TaylorRD,MacCoss M,Lawson ADG. 结合FDA批准药物的分子标记:应用于药物发现。 J Med Chem 2017;60:1638-47.[24] Nisius B,Rester U.片段测序:一个基于三维片段的配体设计的自动化工作流程。JChem Inf Model 2009;49:1211[25] SudM,Fahy E,Subramaniam S. 脂质的虚拟化合物文库的基于模板的组合计数JCheminform 2012;4:23.[26] De Cao , N.; Kipf , T. MolGAN : 小 分 子 图 的 隐 式 生 成 模 型 。https://arxiv.org/abs/1805.119732018.[27] [10]杨晓波,李晓波.drugAN:一种先进的生成对抗自动编码器模型,用于从头生成具有所需分子特性的新分子。Mol Pharm 2017;14:3098[28] Segler MHS,Kogej T,Tyrchan C,Waller MP.用递归神经网络生成药物发现的聚焦分子库。ACS Cent Sci 2018;4:120[29] Gómez-Bombarelli R,Wei JN,Duvenaud D,Hernánal-Lobato JM,Sánchez-Len- geling B,Sheberla D,Aguilera-IparraguirreJ,Hirzel TD,Adams RP,Aspuru-Guzik A.使用数据驱动的分子连续表示的自动化学设计。ACS Cent Sci2018;4:268[30] Makhzani,A.;Shlens,J.;Jaitly,N.;古德费洛岛弗雷湾对抗性自动编码器。https://arxiv.org/abs/1511.05644v22015.[31] 金,W.; Barzilay,R.; Jaakkola,T.用于分子图生成的联合树变分自动编码器。https://arxiv.org/abs/1802.043642018.[32] 陈宏,王毅,王伟,刘伟.深度学习的兴起在药物发现方面。今日药物发现2018;23:1241[33] [10]杨文,杨文.一种基于潜在向量的生成对抗网络的从头分子生成方法。JCheminform 2019;11:74.[34] Blaschke T,BajorathJ.Compound design using generative neural networks.药物发现中的人工智能2020;75:217。[35] [10]杨文,李文.用于基于片段的分子生成的深度生成模型。在:第二十三届国际人 工 智 能 和 统 计 会 议 论 文 集 , 108; 2020 。 第 2240- 2250 页 。 编 辑 PMLR :Proceedings of Machine LearningResearch.[36] Had field,T.; Imrie,F.; Merritt,A.; Birchall,K.;迪恩角将靶点特异性药效学信息转化为用于片段提取的深度生成模型https://www.biorxiv.org/content/10.1101/2021.10.21.465268v12021.[37] [10]李文,李文,李文.基于SMILES的深度生成sca装饰器,用于从头药物设计。JChem- inform 2020;12:38.[38] ImrieF,Bradley AR,van der Schaar M,Deane CM. 用于3D链接器设计的深度生成模型JChem Inf Model 2020;60:1983[39] 杨勇,郑S,苏S,赵C,徐军,陈华。SyntaLinker:使用深度条件Transformer神经网络自动连接片段。Chem Sci 2020;11:8312[40] Bento AP,Gaulton A,Hersey A,Bellis LJ,ChambersJ,Davies M,KrügerFA,Light Y,Mak L,McGlinchey S,Nowotka M,Papadatos G,Santos R,Overington JP.ChEMBL生物活性数据库:更新。Nucleic Acids Res 2014;42:D1083[41] 杨志华,李志华,李志华.深度神经网络中的特征如何可转移?Adv Neural InfProcess Syst 2014:3320[42] 彼得斯,医学博士; Ruder,S.;史密斯,N.A.调还是不调?使预先训练的表征适应不同的任务。https://arxiv.org/abs/1903.059872019.[43] 张文辉,张文辉,张文辉. 通过深度强化学习进行分子从头设计JCheminform2017;9:48.[44] 胡亮,杨英,郑松,徐军,冉涛,陈华。激酶抑制剂可以通过深度学习方法避免跳跃JChem Inf Model 2021;61:4900[45] SunJ,Jeliazkova N,Chupakin V,Golib-Dzib JF,Engkvist O,Carlsson L,WegnerJ, Ceulemans H,Georgiev I,Jeliazkov V,Kochev N,Ashby TJ,Chen
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功