没有合适的资源?快使用搜索试试~ 我知道了~
生命科学中的人工智能2(2022)100039研究文章JAK1抑制剂的分类和SAR研究的机器学习方法杨振武1人,田玉佳1人,孔跃3人,朱玉山2人,艾夏燕1人,1.化学资源工程国家重点实验室,制药工程系,P.O. 地址:北京市北三环东路15号北京化工大学53信箱,邮编:中国2&北京化工大学生命科学与技术学院国家生物燃料能源研发中心,北京100029,北京,R中国3Hyper-Dimension Insight Pharmaceuticals Ltd. 北京市朝阳区建国路108号A座511室北京市朝阳区东三环北路甲2R. 中国aRT i cL e i nf o保留字:深度神经网络(DNN)Janus激酶1(JAK1)抑制剂分子建模构效关系亚结构分析a b sTR a cTJanus激酶1(JAK1)是基因转录的关键调节因子,抑制JAK1可以干预包括类风湿性关节炎和克罗恩病在内的许多疾病。在这项研究中,我们收集了一个数据集,2982 JAK1抑制剂,通过MACCS指纹和Morgan指纹表征分子。我们使用支持向量机(SVM),决策树(DT),随机森林(RF)和极端梯度提升树(XGBoost)算法构建了16个传统的机器学习分类模型。此外,我们利用深度神经网络(DNN)开发了四个深度学习模型。由RF和Morgan 指 纹 建 立 的 最 佳 模 型 ( Model 3B ) 在 该 模 型 上 的 准 确 度 ( ACC ) 达 到 93.6% , Mathews相 关 系 数(MCC)为0.87。测试集。此外,我们进行了通过分析两类指纹图谱的重要关键字,发现吡唑、吡咯并三唑并嘧啶和吡唑并嘧啶等亚结构在高活性JAK 1抑制剂中频繁出现。介绍JAK家族蛋白作为非受体蛋白酪氨酸激酶,在免疫细胞和造血细胞中发挥重要作用。它们还参与细胞生长、存活、发育和分化[1]。迄今为止,已鉴定出该家族的四个成员(JAK1、JAK2、JAK3和TYK2)[2,3],其通过磷酸化和随后的信号转导和转录激活因子(STAT)的激活来抑制来自细胞因子受体的信号传导[1]。由JAK调节的JAK/STAT信号通路是基因转录的关键调节因子,还已知它被超过50种不同的细胞因子受体激活,接受来自促炎细胞因子、促炎细胞因子、造血细胞生长因子和代谢细胞因子的信号。依赖于被激活的细胞因子受体,不同的JAK/STAT途径被刺激[4]。因此,JAK治疗已被提议作为各种骨髓增生性和炎症性疾病的潜在治疗干预,包括骨髓增生性肿瘤(MPN)、类风湿性关节炎(RA)、银屑病和炎症性肠病(IBD)[5]。此外,一些研究人员认为JAK1、JAK2和STAT3的持续激活会导致癌细胞系的增殖[6]。生化和遗传研究- 研究表明JAK 1是最广泛使用的JAK。体外研究∗ 通讯作者。电子邮件地址:yanax@mail.buct.edu.cn(A. Yan)。https://doi.org/10.1016/j.ailsci.2022.100039使用JAK 1缺陷细胞的研究证明了其在I型和II型IFN(例如IFN-γ/IFN β和IFN-γ)以及IL-10介导的信号转导中的关键作用。此外,JAK 1参与利用gp 130受体亚基的细胞因子(包括IL-2、IL-4、IL-7、IL-9、IL-15和IL-21)下游的信号传导,并调节一组关键的促炎性细胞因子,包括IL-6和利用gp 130亚基的其他细胞因子,如IL-11、白血病抑制因子(LIF)、制瘤素M(OSM)、睫状神经营养因子和G-CSF[7,8]。���因此,重要的是开发新的有效的JAK 1抑制剂用于治疗某些炎症、自身免疫性疾病和癌症。如表1所示,美国食品药品监督管理局(FDA)于2011年、2014年和2019年批准RuXolitinib用于治疗中/高危骨髓纤维化(MF)[9]、氢脲(HU)缺乏或不可耐受的真性红细胞增多症(PV)[10]和类固醇难治性(SR)急性移植物抗宿主病(GVHD)[11],EMA于2015年批准其用于治疗PV。基于RuX-奥利替尼治疗特应性皮炎(AD)的III期试验[12]也已在北美和欧洲进行。托法替尼是一种泛JAK抑制剂,最初用于治疗类风湿性关节炎(RA)[13]。 先后在美国、日本获批,目前在全球得到认可。 最近,托法替尼已被各种国际监管机构批准用于治疗银屑病关节炎(PsA)[14],包括FDA,EMA,接收日期:2022年4月11日;接收日期:2022年6月2日;接受日期:2022年6月6日2022年6月8日网上发售2667-3185/© 2022作者。出版社:Elsevier B.V.这是CC BY许可下的开放获取文章(http://creativecommons.org/licenses/by/4.0/)可在ScienceDirect上获得目录列表生命科学期刊首页:www.elsevier.com/locate/ailsciZ. Yang,Y.田氏Y. Kong等人生命科学中的人工智能2(2022)1000392表1JAK1的批准药物和正在进行临床试验的有前景的JAK1抑制剂药物a结构b状况c疾病dRuX olitinib(INC424)FDA批准FDA批准,欧盟批准FDA批准III期[9]第九章PV[10]GVDH[11]AD[12]托法替尼(CP690,550)FDA批准,日本批准FDA批准,EMA批准,NICE批准IIIIII期RA[13]PsA[14]UC[15][第16话]Baricitinib(INCB 28050)FDA批准,EMA批准二期RA[17,18]SLE[26]Upadacitinib(ABT494)FDA批准,EMA批准RA[19,20]Filgotinib(GLPG0634)欧盟批准,日本批准第三阶段[21]第二十一话加州大学[22]伊他替尼(INCB 039110)I期二期aGVHD[23]cHL[24]PF-06700841第二阶段Psg[25]Solcitinib(GSK2586184)治疗II期SLE[27](接下页)Z. Yang,Y.田氏Y. Kong等人生命科学中的人工智能2(2022)1000393表1(续)药物a结构b状态c疾病dPF-04965842III期[第28话]a药物的名称,“已停止”意味着该药物已停止进一步开发。b药物的结构式。c药物的开发阶段。FDA:美国食品药品监督管理局; EMA:欧洲药品管理局; EU:欧盟; NICE:英国国家卫生与临床研究所。dGVHD:移植物抗宿主病; aGVHD:急性移植物抗宿主病; RA:类风湿性关节炎; AA:斑秃; UC:溃疡性结肠炎; AD:特应性皮炎; SLE:系统性红斑狼疮; cHL:经典型霍奇金淋巴瘤; MF:骨髓纤维化; PV:真性红细胞增多症; PsA:银屑病关节炎; AS:强直性脊柱炎。英国国家健康与临床实验室(NICE) 同时,溃疡性结肠炎(UC)[15]和强直性脊柱炎(AS)[16]的III期试验正在进行中。除托法替尼外,Baricitinib、Upadacitinib和Filgotinib已在美国、欧盟和日本获批用于治疗 RA[17 此 外 , Baricitinib 、 Filgotinib 、 Itacitinib 、 Solcitinib 、 PF-06700841和PF-04965842正在进行I期至III期临床试验,其适应症包括UC[22]、急性移植物抗宿主病(aGVHD)[23]、经典型霍奇金然而,Solcitinib对SLE的试验失败导致临床试验停止构效关系(SAR)是药物化学研究的重要内容之一SAR分析为确定分子活性的关键结构特征提供了基础,也为筛选临床导向的候选分子提供了基础[29]。定量构效关系(QSAR)是一种化学数据分析方法,通过在计算的描述符之间建立线性或非线性关系来预测分子性质本研究旨在构建JAK 1抑制剂强/弱活性分类模型,并分析其构效关系。五种机器学习算法,包括支持向量机(SVM)、决策树(DT)、随机森林(RF)、极端梯度提升(XGBoost)和深度学习算法(DNN)[38]用于建立JAK1抑制剂的分类模型。MACCS分子指纹[39]和摩根分子指纹[40]用于表征建模期间的分子结构。此外,对重要指纹进行了SAR分析,以确定高活性JAK1抑制剂的重要亚结构特征。材料和方法数据集我们从CHEMBL[41]、Reaxys[42]、sci finder[43]三个数据库和65篇文献[44每种抑制剂的生物活性的特征在于:从分子结构和生物活性值,分子[30]。一些机器学习(ML)方法被应用于IC50。构建SAR和QSAR模型,如决策树(DT)[31],随机森林(RF)[32],支持向量机(SVM)[33],极端梯度增强(XGBoost)[34]和人工神经网络(ANN)[35]。分子描述符用于表征化合物的物理和化学性质或结构特征。在建模中,需要尝试不同的描述符以获得最佳效果 模型的几个已发表的JAK1抑制剂的计算工作提供了所选系列的JAK1抑制活性的结构要求的分析。Sarithelium等人[36]第30段。收集了100个吡唑衍生物,建立了JAK 1和JAK 2的三维QSAR比较模型,在测试集上得到Q2分别为0.8243和0.6917Itteboina等人[37]建立了30个咪唑并吡咯并吡啶衍生物的3D-QSAR模型,并对13个分子的模型性能进行了评价, 一套测试设备。qloo2为0.504,rncv2为0.948,rpred2为0.52。CoMSIA模型的qloo2为0.518,rncv2为0.951,rpred2为0.53。 随后,该团队建立了60个JAK 1抑制剂分子的3D-QSAR模型[7],并用25个分子验证了该模型。最终得到Q2分别为0.525和0.534,rpred2分别为0.52和0.54。Keretsu等[4]对51个吡咯并嘧啶-4-胺衍生物进行了3D-QSAR研究,建立了基于配体的CoMFA模型(Q2= 0.5,R2= 0.96),基于受体的CoMFA模型(Q2=0.78,R2= 0.98)。以上工作都是基于小数据集建立模型。本工作我们的模型建立在2982种抑制剂的数据集上,这是迄今为止最大的数据集。我们逐一检查了从数据库下载的抑制剂(酶法测量活性,受体是智人单蛋白),然后我们删除重复数据以构建JAK1抑制剂数据集。对于上述数据集,这些抑制剂的IC50值范围为0.07 nM至50000 nM。我们参考了三项研究来定义化合物[6,109,110]。我们删除了IC50值在50 nM和100 nM之间的化合物,然后将IC50小于50 nM的化合物定义为高活性,IC50大于100 nM的化合物定义为弱活性。结果,整个数据集由2982种JAK 1抑制剂组成,其中包括1712种高活性抑制剂和1270种弱活性抑制剂。整个数据集显示在补充材料中的JAK1_dataet.csv中。将数据集分为训练集和测试集我们使用两种方法将数据集划分为训练集和测试集。(1)随机分割:我们利用Python的scikit-learn[111]模块中的随机分割函数将数据集分割为一个训练集。一组含有2236种抑制剂(1279种高活性抑制剂和957种弱活性抑制剂),一组含有746种抑制剂(433种高活性抑制剂和313种弱活性抑制剂)。(2)自组织映射(SOM)[112]:我们使用SONNIA软件[113]对2982个抑制剂进行SOM拆分,具体过程按以下步骤进行:(I) 每个神经元中的抑制剂被分开。(II) 对于高活性神经元和弱活性神经元,如果神经元中只有一个抑制剂,则分配Z. Yang,Y.田氏Y. Kong等人生命科学中的人工智能2(2022)1000394图1. SOM聚类结果(36×54),输入为166位MACCS描述器.高活性抑制剂,用红色表示;弱活性抑制剂,用蓝色表示;突触神经元容纳高活性抑制剂和弱活性抑制剂,用黑色表示。进入训练集;如果神经元中有两个抑制剂,则将其中一个随机分配到训练集,另一个分配到测试集;如果神经元中有三个抑制剂,则将两个抑制剂随机分配到训练集,一个分配到测试集;当神经元中抑制剂的数量大于或等于4时,将可被4整除的部分以3:1的比例拆分,剩余部分按上述步骤处理。(III) 对于连接的神经元,我们根据第二步单独分离高活性抑制剂和弱活性抑制剂。通过上述SOM分裂过程,我们得到了包含2219个抑制剂的训练集(高:弱= 1277:942)和包含763个抑制剂的测试集(高:弱= 435:328)。分布 SOM结果如图1所示。分子指纹分子指纹是一种分子表征方法,通过判断分子是否具有特定的子结构将分子结构转换为比特流。在这项研究中,我们使用了两种类型的分子指纹,MACCS(166位)和Morgan指纹(4096位)来表征分子结构,这两种指纹都是由Python中的RDKit[114]工具包EX趋向连接指纹(ECFP)是一种摩根指纹,它是基于ECFP算法(摩根算法的变体)的环形指纹[40]。 根据不同的需要,通过改变半径和位数,摩根指纹理论上可以表征任何大小和任何数量的分子特征。随着半径和位数的增加,摩根指纹中包含的有效信息将逐渐增加。然而,随着比特数的增加,摩根指纹将成为非常冗余的稀疏矩阵(大部分信息为0)。因此,有必要根据不同分子的特性选择合适的半径和位数。摩根指纹的这一特点为指纹分析提供了高度的自由度。在本研究中,我们计算了半径为4的4096位摩根指纹。为图2. (a)指纹分析过程;(b)树形图,以根节点为例:'Morgan 1772 = 0.5'表示判断分子<是否在下一个包含Morgan 1772键的节点中,“ T r u e ” 表 示 下一 个 节 点 中 的 分 子 不 包 含 M o r g a n 1 7 7 2 键 , “ F a l s e ” 表 示 下 一个 节 点 中 的 分 子 包 含 M o r g a n1 7 7 2 键 ; “ G i n i ” 表 示 G i n i 指 数 ,其 决 定 树 的 分 裂 ; “ S a m p l e s ” 表 示 满 足 判 断 条 件 的 数 据 的 数量 ;“值”中左边的数字表 示 弱 活 性 分 子 的 数 量 , “ 值 ” 中 右 边 的 数 字 表 示 高活 性分 子 的 数量 。在两个分子指纹中,我们计算每个比特的方差,然后删除方差小于平均方差的比特。其目的是避免由于某个位置上的信息过于一致而导致无效信息。用于建模的最终分子指纹分别为80位(MACCS)和958位(Morgan指纹)。指纹分析法为了更准确地分析描述符,我们使用所有的化合物来训练模型,计算信息熵[31]根据RF模型对每个描述符进行分析,并对每个描述符的重要性进行排序。此外,我们使用sklearn.tree.export_graphviz[111]可视化决策树模型,并分析树图中重要叶节点上的指纹。的过程和树形图如图2所示。图2中节点的颜色代表化合物的纯度。节点内活性越弱的化合物,颜色越接近冷色调;相反,节点内活性越高的化合物,颜色越接近暖色调。我们根据我们在以前的工作中所做的排名结果对每个描述符进行SAR分析[115]。我们只关注一些最重要的指纹。对于末端的叶节点,我们首先确定它和根节点之间的路径,然后确定路径上每个经过的节点所代表的指纹根据这些信息,叶节点中的化合物可以从数据集中获取。根据这些化合物的指纹图谱,总结了它们的特征,并从中找出了具有代表性的化合物。这些化合物由相同指纹的不同组合形式组成,可能对化合物的生物活性产生不同的影响。前80名MACCS指纹和前100名Morgan指纹的描述符重要性排名结果见补充材料中的表S1和表S2。化学多样性为了评估数据集的化学多样性,我们计算了所有化合物的SlogP和分子量,SlogP分布为:Z. Yang,Y.田氏Y. Kong等人生命科学中的人工智能2(2022)1000395()下一页 ||∑()∑()()+1α=���图3. 所有化合物的SlogP和分子量的可视化。颜色越深,该区域的化合物分布越密集分子量分布在184.24 ~ 671.80之间。可视化结果如图3所示。这两个属性的广泛分布也表明了我们数据集的广阔化学空间。我们通过Murcko Sca Elementold测量了我们数据集的多样性。Mur- cko Sca聚类是一种将常见的Sca聚类聚集在一起的有效方法,对于检查多样性和聚类非常有用我们通过去除其侧链(任何非环,非连接 原 子 被 定 义 为 侧 链 原 子 ) 获 得 了 数 据 集 中 每 个 分 子 的 主 要sca_id[116]。然后,我们通过使用RDKit中的MurckoScaf- fold模块获得Murcko sca模型[114]。因此,在我们的数据集中有1057个主要这些观察结果可以说明我们数据集的化学此外,我们计算了训练和测试集中的化合物之间的Tanimoto指数[117],这些化合物根据长度为1024的ECFP按每种方法划分。谷本指数如公式(1)所示,计算结果的直方图如图4所示。哪里两个分子特征re-binding和re-binding是描述两个分子特征re-binding的描述符。图4. 基于ECFP指纹的训练集和测试集之间化合物的Tanimoto指数的频率直方图。(a)随机方法下训练集与测试集之间化合物Tanimoto指数的频率直方图。(b)SOM方法下训练集与测试集之间化合物Tanimoto指数的频率直方图。百分比表示Tanimoto指数的频率,其中Tanimoto指数分别大于0.6和小于0.6。决策树决策树(DT)是一种树结构,其中每个内部节点表示对属性的测试,每个分支表示测试输出,������∩���������������������,���=(一)每个叶节点表示一个类别。训练决策树包括������|���+的||��� − |∩|��� ∩���|两个过程:生长阶段和修剪阶段。集合分裂| ���|| ���|| ������|生长阶段的标准如公式(2)和(3)所示:Tanimoto指数表示两个集合的相似性,从图4中可以看出,用随机法或SOM法划分的训练集和测试集的化合物的Tanimoto相似性都集中在小于0.6的范围内,分别占98.25%和98.19用该方法划分的训练集和测试集的化合物相似度因此,根据模型的性能指标来评价模型的性能是客观的���������������=��� ��� 1 −��� ���(2)=1���������������������������������������=��������������������� ���(3)=1公式(2)是基尼指数,公式(3)是交叉熵测试集上的预测。index,其中,每个类别的样本的分数是与������机器学习算法本研究涉及的算法有:支持向量机(SVM)、决策树(DT)、随机森林(RF)、极值梯度法(EGA)、一个给定的子集。��������������� ������, --���������������������������������(������)−������������������(������+1)(四)使用Boosting Tree(XGBoost)和深度神经网络(DNN)来构建分类模型。公式(4)[31]是修剪准则,其中,���������������树在观测集上的错误率为′,()是���������������������Z. Yang,Y.田氏Y. Kong等人生命科学中的人工智能2(2022)10003962√树的叶子���。在对所有倒塌的子树进行评估后在树的最小值中,得到最小值的子树被取为树的最小值+1。 复杂度是复杂度参数。在本研究中,DT 算 法 需 要 优 化 的 参 数 是 criterion 、 max_features 、 max_depth 和max_leaf_nodes。我们使用网格优化方法在四维空间中找到最佳参数组合。随机森林随机森林(RF)是一种基于装袋的集成方法[118]。 它随机地建立和集成多个决策树以创建一个最优结构。为了对数据集进行分类, 在分类时,计算每棵树的得分以做出最终决定。这个过程重复了很多次,最终的预测是 从不同的组成决策树导出的每个预测的函数[32]。在这项 研 究 中 , 需 要 为 RF算 法 优 化 的 参 数 是 criterion 、 max_features 、max_depth、max_leaf_nodes和n_estimators。我们使用网格优化方法在五维空间中找到最佳参数组合支持向量机支持向量机(SVM)利用和函数将数据转换到高维空间,建立最优分离超平面[33]。������������������������(有一个比ANN更好的拟合效果[38]。因此,近年来在许多领域得到了广泛应用。在我们的研究中,DNN是使用pytorch[121]工具包 在python中,使用scikit-learn[111]toolkit和matplotlib[122] toolkit用于绘图。我们基于两种分裂方法和两种类型的描述符构建了四个DNN模型。对于这两种类型的描述符,由于不同的输入,我们使用不同的网络结构。我们在每两个隐藏层之间添加了一个正则化层和Relu激活函数。正则化层可以有效地防止过拟合。Relu函数可以防止梯度消失,加快训练过程。输出时,使用sigmoid作为激活函数。sigmoid函数在二进制分类问题中具有相对较好的效果。在每个模型训练过程中,我们分两个阶段进行训练,每个阶段使用不同的优化器和损失函数,使用批量训练方法,并且总是保持每个批次包含25个化合物。 第一阶段使用Adam优化器,BCE损失函数和相对较大的学习率。Adam优化器计算效率高,适用于大规模数据和参数场景。从第一阶段找到最优模型,将其重新加载以进行第二阶段训练。我们可以降低学习率或保持不变,这取决于模型的收敛程度。在第二阶段,我们使用SGD优化器来加快训练过程。最后,我们从第二阶段的训练中选出最佳模型。所有模型的网络结构如图所示补充材料中的S1至S4模型评价指标������������=1‖���⃗‖−∑��������� ���(⃗⋅���⃗+���)+∑��� ���(6)������������本研究采用的模型评价指标为:准确性核函数K表示为公式(5),它接受两个参数,对参数使用特定的映射,然后返回它们的点积值。假设两个数据点分别为101和102这是一个映射[119]。公式(6)表示由t和常数t定义的超平面,其中t是训练样本的数量���������i= 1,������拉格朗日乘子是拉格朗日乘子,而拉格朗日乘子被称为拉格朗日量[120]。���在这项研究中,支持向量机的超参数C和伽玛的确定网格优化方法。极限梯度增强ficity(SP),其计算方法见式(7-10)。ACC =1000���+1000���������������+������+������MCC =−���������������������(+)(+)���������������������������������������SE =���0������������SP =������������������(七)(八)(九)(十)XGBoost是一种对梯度提升决策树进行优化的算法,可以大大提高计算性能。这些优化包括用于处理稀疏数据的新的树学习算法;理论上合理的加权分位数草图过程能够在近似树学习中处理实例权重此外,并行和分布式计算大大提高了学习速度.更重要的是,XGBoost利用核外计算来大大增加数据计算的数量[34]。然而,太多的可调参数导致XGBoost在优化过程中需要更多的计算能力。在这项研究中,需要优化的参数是gamma 、 n_estimators 、 max_depth 、 min_child_weight 、 subsample 、colsample_bytree、reg_alpha和learning_rate。我们采用分步优化策略,先优化前四个参数,再优化后四个参数。深度神经网络人工神经网络(ANN)通过模仿大脑的神经结构来处理复杂的问题。它们是可以根据功能目标修改其内部结构的系统,特别适合解决非线性问题[35]。深度神经网络(DNN)是一种具有多个隐藏层的神经网络。它通过反向传播算法不断更新其内部参数[38]。由于DNN的网络结构比较复杂这里TP是真阳性,TN是真阴性,FP是假阳性,FN是假阴性。在训练过程中还使用了三重交叉验证(3-CV)、五重交叉验证(5-CV)、十重交叉验证(10-CV)、留一法验证(LOO)和ROC曲线作为评价指标。结果和讨论机器学习模型的结果和性能基于两种类型的分子指纹,两种训练/测试集分裂方法和四种传统的机器学习算法,建立了16个分类模型:四个SVM模型(模型1A,1B,1C、1D)、四个DT型号(型号2A、2B、2C、2D)、四个RF型号(型号3A、3B、3C、3D)、四个XGB型号(型号4A、4B、4C、4D)。所有型号的最佳参数见补充资料中的表S3至S6。如表2所示,所有模型在测试集上的ACC和MCC值分别高于84.6%和0.68。除DT模型外,SVM、RF和XGB算法在生物活性预测方面表现相当好。与这三种算法相比,DT模型表现出相对较差的性能。DT算法的拟合和推广能力稍弱是由于以下两个限制:DT的决策边界只能平行于坐标轴; DT对单个数据特别敏感ROC曲线=1=1(ACC)、Matthews相关系数(MCC)、灵敏度(SE)、特异性(PR)、Z. Yang,Y.田氏Y. Kong等人表2生命科学中的人工智能2(2022)1000397由传统机器学习算法(SVM,DT,RF和XGB)开发的分类模型的性能训练集测试集型号ID算法训练/测试集a描述符ACC(%) 3-CV(%)b5-CV(%)b10-CV(%)bLOO(%)cMCCACC(%)SE(%)dSP(%)dMCC型号1ASVM2219/763MACCS96.790.591.391.491.50.9392.794.789.90.85型号1B摩根97.892.392.893.192.80.9593.695.990.50.87型号1C2236/746MACCS97.091.191.692.192.20.9491.892.890.40.83型号1D摩根96.792.893.293.593.60.9392.193.190.70.84模型2ADT2219/763MACCS90.986.887.087.987.60.8287.887.887.80.75型号2B摩根94.490.090.091.691.00.8891.592.989.60.83型号2C2236/746MACCS91.887.387.388.688.60.8384.687.380.80.68模型2D摩根94.991.091.892.792.30.8989.891.287.90.79型号3ARF2219/763MACCS93.489.089.390.390.00.8791.292.289.90.82型号3B摩根94.992.292.592.791.90.8993.695.690.90.87型号3C2236/746MACCS94.690.490.490.790.70.8989.190.886.90.78模型3D摩根94.792.392.493.292.60.8991.292.689.10.82模型4AXGB2219/763MACCS97.590.390.891.490.80.9592.494.989.00.84模型4B摩根95.491.792.292.792.20.9593.395.490.50.86型号4C2236/746MACCS97.490.491.191.892.00.9590.292.687.00.80型号4D摩根97.392.592.693.292.40.9492.093.889.50.83a训练集或测试集中JAK1抑制剂的数量。“2219/763” represents the highly active/ weakly active inhibitor sets obtained by SOM splitting method;B k折交叉验证,k = 3,5,10。C 留一法验证。D SE:灵敏度; SP:特异性。表3DNN模型的性能。训练集测试集型号ID训练/测试集a描述符ACC(%) SE(%)bSP(%)bMCCACC(%)SE(%)bSP(%)bMCC模型5A2219/763MACCS97.6196.698.40.9593.190.295.20.86型号5B摩根98.569998.20.9794.592.795.90.89模型5C2236/746MACCS97.7296.898.40.9591.690.192.60.83模型5D摩根97.4596.398.30.9592.889.595.20.85a训练集或测试集中JAK1抑制剂的数量。“2219/763” represents the highly active/ weakly active inhibitor sets obtained bySOM splitting method; “2236/746” represents the highly active/ weakly active inhibitor sets obtained by random splittingB SE:灵敏度; SP:特异性。在补充材料中的图S5至S8中显示了所有型号。所有传统机器学习模型的AUC值都在0.88以上。表4模型3B与其他19个模型之间的p值采用多重成对统计检验。从分子表征的角度,所建立的所有模型在测试集上,Morgan指纹的表现优于MACCS,这表明Morgan指纹更适合我们的数据集。在数据集分割策略上,所有基于SOM方法的训练集/测试集分割模型在测试集上的表现均优于随机分割方法,验证了SOM分割方法构建的数据集的合理性。表3显示了使用DNN算法构建的四个模型的性能。其中,模型5A采用MACCS指纹和SOM分裂法构建;模型5 B采用Morgan指纹和SOM分裂法构建;模型5C采用MACCS指纹和随机分裂法构建;模型5D采用Morgan指纹和随机分裂法构建。 的ROC曲线 所有DNN模型如图S9所示,它们的学习曲线见补充资料图S10 ~ S13。所有DNN模型的AUC值均在0.96以上。为了衡量模型的优越性,我们使用了统计学方法。测试以量化模型之间的性能差异。De- long检验[123]用于比较两种模型AUC值之间的差异。为了控制由于多个成对比较而导致的家族错误率(FWER)[124],我们使用错误发现率(FDR)校正[125]来调整多个成对比较的p值。AUC(I)是模型1(I)的AUC值,AUC(J)是模型1(J)的AUC值;B 基于Delong检验的pC 根据FDR校正调整p模型1(I)模型2(J)AUC(I)aAUC(J)p值bp值(调整)c型号3B型号2C0.98450.8824>0.0001>0.0001型号3B模型2A0.98450.924>0.0001>0.0001型号3B型号2B0.98450.9615>0.0001>0.0001型号3B模型2D0.98450.927>0.0001>0.0001型号3B型号3C0.98450.95620.00030.0012型号3B型号3A0.98450.97230.00070.0023型号3B模型5C0.98450.96190.00260.0070型号3B模型5A0.98450.97230.00320.0075型号3B模型4A0.98450.97510.00480.0102型号3B型号1A0.98450.97420.00540.0102型号3B型号1C0.98450.96520.00780.0135型号3B型号4C0.98450.9670.00970.0153型号3B模型5D0.98450.96880.02320.0339型号3B模型3D0.98450.96940.03010.0408型号3B型号1D0.98450.97160.05320.0674型号3B型号4D0.98450.97180.05640.0669型号3B型号1B0.98450.98240.45480.5083型号3B型号5B0.98450.98290.56810.5997型号3B模型4B0.98450.98520.65850.6585Z. Yang,Y.田氏Y. Kong等人生命科学中的人工智能2(2022)100039表88MACCS94QNMACCS指纹键和子结构分析。MACCS类关键a高度/ 弱B代表性亚结构d代表性化合物e1类MACCS 129(1),MACCS 155(1)、MACCS 94(1)、MACCS 118(1)2类MACCS 129(1),MACCS 155(1)、MACCS 94(0)、MACCS 42(1)1144/117147/46MACCS129ACH2AACH2AMACCS155A!CH2!一MACCS 118ACH2CH2A > 1MACCS 42F伊他替尼IC50 = 5 nM3类MACCS 129(1),MACCS 155(0),MACCS 70(1),MACCS 138(0)33/2MACCS129ACH2AACH2A分子2960 IC50 =0.07 nMMACCS70QNQ4类MACCS 129(0),MACCS 52(1)、MACCS 111(1)、20/517MACCS138 QCH2A> 1MACCS52NNMACCS111NACH2A分子628 IC50 =2.2 nM分子115 IC50 =6833 nMZ. Yang,Y.田氏Y. Kong等人生命科学中的人工智能2(2022)100039表99a(1)表示分子包含此MACCS密钥,(0)表示分子不包含此MACCS密钥。b该类抑制剂中高活性抑制剂和弱活性抑制剂的数量比c在所列的MACCS关键示例中,红色是匹配的结构,底线是与结构相对应的SMARTS,以及所涉及的符号的含义:A:任何有效的周期表元素符号; Q:氦原子;任何非C或非H原子;!:链状或非环状键;!在键类型指定链式键之前dMACCS密钥对对应于抑制剂中的部分子结构,红色是匹配的结构。e这类抑制剂的代表性分子,红色是匹配的亚结构。Z. Yang,Y.田氏Y. Kong等人生命科学中的人工智能2(2022)10003910表6摩根指纹键和子结构分析。摩根组指纹为子组设置关键帧强/弱b对应典型化合物d第1组摩根1772(0),摩根2895(1),摩根4078(1)353/1摩根1772摩根2895组2摩根1772(0),摩根2895( 0 ) , 摩 根1357(1),摩根2722(1)2A 358/1分组分组2B 10/3摩根4078摩根1357摩根2722伊他替尼IC50 = 5 nM巴瑞替尼IC50= 4 nM亚组2C 6/0托法替尼IC50= 1.6 nM亚组2D 72/3分子1373 IC50= 0.5 nM2 E 13/0分组分子2797 IC50 =0.11 nM分子2922 IC50 =0.85 nMZ. Yang,Y.田氏Y. Kong等人生命科学中的人工智能2(2022)10003911(接下页)Z. Yang,Y.田氏Y. Kong等人生命科学中的人工智能2(2022)10003912表6(续)Morgan指纹钥匙a组3摩根1772(0),Morgan2895(0),Morgan1357(1),Morgan2722(0)高/低b3A分组104/313B亚组294/20对应子结构c典型化合物d分子2960 IC50 =0.07 nM分组3C 75/15分子2791 IC50 =0.16 nM亚组3D 26/4分子2848 IC50 =1.44 nM3E 30/0分组分子2280 IC50= 3 nM亚组3F 37/0分子2177 IC5020
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- AA4MM开源软件:多建模与模拟耦合工具介绍
- Swagger实时生成器的探索与应用
- Swagger UI:Trunkit API 文档生成与交互指南
- 粉红色留言表单网页模板,简洁美观的HTML模板下载
- OWIN中间件集成BioID OAuth 2.0客户端指南
- 响应式黑色博客CSS模板及前端源码介绍
- Eclipse下使用AVR Dragon调试Arduino Uno ATmega328P项目
- UrlPerf-开源:简明性能测试器
- ConEmuPack 190623:Windows下的Linux Terminator式分屏工具
- 安卓系统工具:易语言开发的卸载预装软件工具更新
- Node.js 示例库:概念证明、测试与演示
- Wi-Fi红外发射器:NodeMCU版Alexa控制与实时反馈
- 易语言实现高效大文件字符串替换方法
- MATLAB光学仿真分析:波的干涉现象深入研究
- stdError中间件:简化服务器错误处理的工具
- Ruby环境下的Dynamiq客户端使用指南
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功