没有合适的资源?快使用搜索试试~ 我知道了~
医学信息学解锁26(2021)100699用于预测安全信号的药物间的不良放大图片作者:HebaIbrahim a,b,* El Kerdawy c,d,A. Abdo a,e,A. Sharaf Eldin a,f埃及开罗Helwan大学计算机和人工智能学院ab埃及药品管理局埃及药品警戒中心,埃及开罗c开罗大学药学院药物化学系,开罗Kasr El-Aini街,邮政信箱。Box 11562,Egyptd药物化学系,药学院,新吉萨大学,新吉萨,22公里开罗埃及开罗阿拉伯开放大学计算机系f埃及北西奈,西奈大学信息技术和计算机科学学院A R T I C L EI N FO保留字:机器学习药物相互作用预测药物警戒信号检测A B S T R A C T药物相互作用(DDI)是一个主要的公共卫生问题,占非预期临床药物不良事件的30%。DDI信号检测的信息学研究在过去十年中不断发展。我们的目标是提供一个增强的机器学习(ML)框架,以高精度预测新的DDI安全信号。我们提出了一个基于相似性的机器学习框架,称为“SMDIP”,使用DrugBank作为最可靠的制药知识库之一。在这项研究中,DrugBank提供了最新的药物信息,包括DDI,靶标,酶,转运蛋白和载体。我们使用Russell-Rao测量DrugBank上可用的生物和结构信息来计算药 物 之 间 的 相 似 性 , 以 表 示 稀 疏 特 征 空 间 。采用逻辑回归进行DDI分类,重点是寻找关键的相似性预测因子。在选定的DDI关键特性上部署了六种类型的ML模型。我们的研究表明,与相关研究相比,SMDIP具有良好的预测性能,结果如下:AUC 76%,精确度82%,准确度79%,召回率62%,特异性90%,F-测量78%。为了进一步证实SMDIP的可靠性和可重复性,我们研究了SMDIP对治疗丙型肝炎感染的直接作用抗病毒(DAA)药物的未知子集的影响。预测40种新型DAADDI与这些药物的药代动力学和药效学特征一致。此外,来自药物警戒文献的几份报告证实了我们的框架结果。这些评价表明,SMDIP是一个很有前途的框架,揭示DDI,这可以在药物开发,上市后监测和公共卫生领域的多方面可行。1. 介绍1.1. 背景和意义Drug–drug interaction (DDI) is considered one of the leading causesof drug failure and market withdrawal of new drugs [1在药物开发阶段进行了许多临床前和临床检查,以避免DDI [3]。然而,许多DDI在上市前阶段未被检测到,因此DDI检测方法依赖于等待足够的上市后证据积累;在此期间,许多患者可能会受到影响。DDI检测方法受到无法在临床试验中筛选的大量可能的药物-药物-不良反应组合的阻碍。因此,主要的制药公司的目标是在药物开发过程的每个阶段检测潜在的安全问题,包括DDI [4]。此外,DDI的不良反应(AE)正在对公共卫生产生风险,可能使药物治疗复杂化并导致严重的患者结局。DDI占所有药物不良反应(ADR)的30%以上[5]。约70%的DDI与临床相关,导致大多数ADR,并可能导致显著的发病率和死亡率[6]。DDI潜力随着多种药物使用率的增加而急剧扩大,特别是在老年人群中[7]。DDI可以根据不同的标准进行分类。就严重程度而言,DDI可分为三类:轻度、中度和重度[8]。就机制而言,DDI分为* 通讯作者。埃及开罗赫勒万大学计算机和人工智能学院电子邮件地址:pharma_heba@hotmail.com(H. 易卜拉欣),艾哈迈德.埃尔克道维@ cu.edu.eg(A.M.埃尔克道维),阿曼尼. aou.edu.eg(A.Abdo)。https://doi.org/10.1016/j.imu.2021.100699接收日期:2021年4月24日;接收日期:2021年8月3日;接受日期:2021年8月11日在线预订2021年2352-9148/©2021的 自行发表通过Elsevier 公司这是一个开放接入文章下的CCBY-NC-ND许可证(http://creativecommons.org/licenses/by-nc-nd/4.0/)中找到。可在ScienceDirect上获得目录列表医学信息学期刊主页:www.elsevier.com/locate/imuH. Ibrahim等人医学信息学解锁26(2021)1006992药效学(PD)和药代动力学(PK)[9一般来说,根据Ferdousi,R.等人[13],基于PD的DDI代表比基于PK的DDI小得多的类别。大约86%的DDI是PK介导的相互作用,主要涉及抑制/诱导负责合并处方药物生物转化的肝细胞色素P450(CYP 450)酶,而只有14%与PD介导的DDI有关[13]。生物医学文献中已报道了一些导致PK介导DDI的生物元素的实例[141.2. 相关文献已采用许多基于信息学的方法,使用上市后数据检测DDI模式,其中药物安全性报告由患者、HCP和制药公司自发收集,并由监管卫生机构维护[21然而,近年来,研究工作已转向预测建模,包括机器学习(ML),以在上市前或接近上市日期的药物发现过程中披露未知的DDI[21]。两种主要类型的ML方法用于此目的:基于网络[27-近年来,基于网络的ML方法已被提出用于DDI预测,因为它们具有从多个数据源(例如,化学、生物学、靶标、基因组、药理学数据库)提取和整合先验知识的相关能力。一些基于网络的ML方法构建了药物靶标网络,通过测量网络连接的强度或通过识别共享药物靶标或药物途径的药物对来发现DDI [272013年,Cami等人[36]提出了一种预测药物相互作用网络(PPIN)框架,通过利用“Vantage R x“数据库中所有已知DDI的网络拓扑结构来预测DDI基于药物和ADR的内在和分类学特性,PPIN报告了48%的灵敏度,90%的特异性和81%的受试者工作特征曲线下面积(AUROC)。同年,Huang等人[28]进行了一项基于蛋白质-蛋白质相互作用(PPI)网络的研究,用于系统预测PD DDI。他们开发了两种网络拓扑度量,以整合药物对之间的表型和基因组相似性。他们报告了9626例潜在PD DDI,准确率为82%,召回率为62%。2014年,ChengF.等人[29]提出了一种异构网络辅助推理(HNAI)框架,用于大规模预测配体-受体DDI。他们的工作取决对集药品表型, 治疗性的, 化学的, 和 基因组 特性. 他们采用了五种传统的ML算法来预测DDI。HNAI模型的关键发现是使用五重交叉验证评估的受试者工作特征(ROC)曲线下面积(AUC)(0.67)适中。2019年,Cheng F.等人报道了一种基于网络的方法,用于预测FDA批准的抗高血压药物的有益药物组合与不良DDI的区别。使用了三种类型的实验证明的临床数据源。本研究采用两种拓扑测度来捕捉人类蛋白质-蛋白质相互作用组中两个药物-靶标模块和一个疾病模块之间的关系。使用基于网络的亲合性度量(SAB)来捕获两个药物-靶标模块之间的拓扑连接,而Z分数用于捕获药物和疾病模块之间的网络亲合性。结果,通过组合几个决策规则,可以区分六种不同的用于DDI预测的基于相似性的ML方法大多是双向的,nary分类tasks任务.二进制相似性度量基于否定匹配的包含和排除而不同[31]。 此外,一些措施考虑加权的正/负匹配以获得优化的性能[32]。二进制相似性度量的三个主要类别是基于汉明、基于相关和基于内积措施 [33 ]第33段。 基于Hamming 措施 提供简单地表示两个二进制字符串之间的差异的数字,而基于相关性的测量利用相关系数。基于二进制向量的点积来计算内积度量。维拉尔角等人[34-使用药物结构相似性信息进行DDI预测,总体精度为0.26,灵敏度为0.68,特异性为0.96 [34]。稍后,Vilar,S.等人[35]成功地将基于相似性的模型应用于基于相互作用特征指纹(IPF)的DDI预测。Vilar等人开发了一种基于相互作用特征指纹(IPF)的DDI预测模型通过将标准DDI矩阵X乘以IPF矩阵X生成交互似然矩阵X。提供了一个包含17,230个DDI候选药物及其潜在药理学效应的数据库,以支持DDI检测和药物警戒数据分析相关决策。该方法报告的精密度值范围为0.4至0.5。不幸的是,该方法仅采用已知的DDI,而没有关于药物的其他数据,假设类似的药物可能显示类似的相互作用。之后,研究人员在基于相似性的研究中遵循了一个新的方向,通过该研究,各种药物信息被整合。戈特利布A. 等人[38]提出了推断药物相互作用(INDI)方法基于化学和副作用的相似性,并为每种药物组合计算了49个特征。采用逻辑回归(LR)预测CYP450相关PK DDI以及PD DDI。他们利用两个数据源提取已知DDI和其他子集的相应严重程度。2014年,Vilar,S.等人提出了一种整合药物对的五个相似性指纹的方案,用于大规模DDI预测。该研究报告了稳健的AUROC> 0.95。维拉尔角等人[37]在2015年扩展了他们的工作,使用FDA安全数据库(FAERS)针对特定类型的不良DDI。他们基于相似性的方法依赖于捕获化学和药理学特征。结果显示,与传统上应用于PV数据库的数据挖掘算法比例报告率“PRR“相比,灵敏度、特异性和精确度增强。 Tatonetti,NP.等人[26]提出了一种算法,用于使用来自亚利桑那州退伍军人事务医院的一个验证集来识别不良事件报告中的隐藏DDI。作者建立了8个logistic回归模型来预测高胆固醇、肾损害、糖尿病、肝功能损害、肝毒性、抑郁症、高血压和自杀等8种 ADR的 DDI 。八 种模 型的 AUC 值范 围为 0.51至0.71 。2017 年,Ferdousi,R.等人[13]进行了一项研究,旨在基于从两个公开可用的数据库(DrugBank KEGG)提取的药物对之间的生物元素的相似性,通过计算预测DDI。&他们比较了12种相似性度量来区分真阳性DDI(即已知DDI)的能力。他们可以提取250,000个潜在的DDI,根据他们的预测得分分为低,中等,高和非常高。然而,作者仅定性验证了少数预测的DDI相关性,无法进行定量评价。尽管上述研究已经取得了相当大的进步,但仍需要进一步的预测精度以及灵敏度和特异性之间的合理权衡。我们开发了一个框架来克服这个问题,通过混合相似性矩阵构建和合并的架构,探索最佳特征集和监督ML模型。出于相似性矩阵构建和合并的目的,开发了一种受Vilar等人和Ferdousi等人[13,36]启发的可扩展探索性方法,用于DDI预测。这种探索性方法使得异质药物相似性特征的插补能够积极增强DDI预测。许多以前的研究广泛基于传统的ML算法,证明合理的解决方案,在DDI预测的背景下。在这项研究中,我们提出了基于相似性的ML药物相互作用预测(SMDIP)框架,该框架使用基于内积的相似性模型进行特征选择,并使用完善的ML模型,以利用增强的稀疏特征空间来提高DDI预测性能。SMDIP是一个H. Ibrahim等人医学信息学解锁26(2021)1006993多相管道如图1所示,在第一阶段,我们在从DrugBank获得不同药物-药物描述符(2D化学结构、靶标、酶、转运蛋白和载体)的信息和已知DDI数据后生成二元矩阵。然后,我们计算相应的药物-药物描述符的相似性,得到五种类型的药物相似性矩阵。在下一阶段,我们研究了信息量最大的相似性特征,以便更好地预测DDI,其中所选的相似性特征子集被集成到一个特征集中。在接下来的步骤中,使用集成的相似性特征矩阵和标准DDI矩阵来训练不同的监督ML算法。SMDIP在DDI发现上下文中利用了以前的方法,但是在构建基于内部的相似性矩阵和探索要在各种ML模型中实现的最佳特征集时所表示的架构是新颖的,并且针对底层研究问题进行了高度调整。SMDIP的所有组成部分在材料和方法部分中得到充分说明。分层Kfold交叉验证来计算各种性能指标,用于基准测试我们的框架。一项病例研究调查了治疗丙型肝炎的药物,以进一步证明SMDIP预测未知DDI的能力。这些结果证实,在类似的情况下,与先前的方法相比,SMDIP可以增强标记新DDI的性能。2. 材料和方法2.1. 第一阶段:数据采集和预处理第2.1.1至2.1.4小节说明了SMDIP的阶段I的方面2.1.1. 数据源从DrugBank数据库下载各种药物信息(V 5.1)[39]。DrugBank是一个全面的、可免费访问的在线生物信息学和化学信息学数据库,包含详细的药物数据(例如化学、DDI、药理学和药学数据)以及药物生物学信息(例如靶标、途径、序列、酶)[40]。由于机器学习需要使用大型训练集、结构化或标记数据进行学习,DrugBank为研究人员提供了这些特权。许多基于DrugBank开发的计算方法都取得了很好的结果[41]。2.1.2. 标准DDI矩阵我们从综合DDI数据库DrugBank(公共版本5.1.3,于2019年2月7日发布)中获得了已知DDI信息。我们排除了生物、营养和研究药物,并将最终参考DDI集限制为小分子和已批准药物(见图2)。这是由于生物药物构象的复杂性,例如,其中结构相似性不能通过MACCS指纹计算。超过724,000种DDI组合对应于独特的9949种小分子获批药物,可从 *中的DrugBank下载。Xml文件格式。这些DDI组合代表PK和PD相互作用。我们使用这个XML文件通过构造定制的Python代码来生成二进制DDI矩阵X(1:存在DDI,0:不存在DDI)。注意到DDI的严重程度和类型(轻微,中度,重大)方面在DrugBank公开发布中不可用2.1.3. ChCaTaETr二元矩阵筛选了DrugBank列表中的9949种不同的小分子药物提取药物-载体对、药物-靶标对、药物-酶对和药物-转运蛋白对的列表,以开发用于预测不良PK和PD DDI的SMDIP框架。这些名单是合并矩阵X 为的整个预处理 数据集。它值得构造对应于四种类型的二进制鳍的特征空间提到输入特征主要来自文献筛选步骤(第1.2小节),其中所选特征已报告为DDI发现研究中的预测因子载体、靶标、酶、转运体等生物要素的指纹图谱。请注意,这些指纹有相同的药物清单。每个特征由一组描述符组成,表示为位向量。每个位的值被编码为1(正),其中药物与相关生物元素相关联,或者被编码为0(负),其中药物与相关生物元素相关联。图1.一、I期-预测药物不良相互作用的SMDIP框架。H. Ibrahim等人医学信息学解锁26(2021)1006994D∩2.1.4. Russell Rao相似性计算和特征缩放在 该 子 阶 段 中 , 计 算 Russell-Rao ( RRao ) 指 数 以 表 达 输 入ChCaTaETr二进制位串之间的二进制相似性,用于以化学、靶标、酶、转运蛋白和载体相似性表示的五种类型的药物-药物相似性。根据Ferdousi,R.等人[13],在探索从DrugBank检索的已知DDI时,Rao测量优于涉及广泛的Tanimoto系数(TC)的11个二元相似性测量。RRao是内积相似性度量之一,仅考虑两个指纹之间的正匹配,范围从0(无相似性)到1(最大相似性)[41]。Rao公式可以定义为:SRao(x,y)=xy(一)图二. 下载的药物数据集的批准状态 从 DrugBank版本5.1.3。药物与相关的生物元素无关。 载体、靶标、酶和转运蛋白特征的位载体的长度为81个不同的载体、2800个不同的靶标、355个不同的酶和197个不同的转运蛋白。除了生物信息,相同药物列表的2D化学结构被用作SMDIP框架的第五特征类型。从DrugBank数据库(版本5.1.0)中以SMILES格式检索化学结构信息。然后,使用MoE 2010.10软件计算具有166个密钥描述符位的MACCS子结构。每个MACCS片段比特串被编码为1(子结构存在)或0(子结构不存在)。生成矩阵,使得在最终指纹表示中仅保留每种药物存在的位位置(编码为1)。例如,药物阿巴卡韦具有在酶指纹中表示的三种酶介导的相互作用:位置23,其编码与酶“脱氢酶6”的缔合在下文第3.1小节中,ChCaTaETr数据集总结见表1。ChCaTaETr表示化学(Ch)、载体(Ca)、靶标(Ta)、酶(E)和转运蛋白(Tr)二元指纹。表1从DrugBank数据库V5.1.3下载的ChCaTaETr数据集的统计。药物间不良小分子药物(n(%))9949(88%)生物技术药物(n(%))1343(12%)药物对总数(n)1,057,785阳性DDI(n(%))428,559在等式(1)中,x,y是其中X和y特征指纹都具有值1(即,正匹配)的比特数,d是每个特征向量的比特长度,并且SRao表示药物对xy的RRao相似性度量。此时,特征空间维度已经被缩减为仅五个二进制相似度值(S Ch、SCa、S Ta、S E、S Tr)。对于每个药物-药物对,将五个特征相似性组合到一个向量(命名为ChCaTaETr)中,其中保留药物-药物对的相同ID。然后,我们使用参考DDI矩阵将每个药物对映射到其DDI标签(第2.1.2小节)。如图3所示,每个药物对的五个特征相似性向量的ChCa-TaETr矩阵,其中已经生成了由每个药物对的DDI标签定义的2D化学亚结构、载体、靶标、酶和转运蛋白的RRao分数。上述降维步骤旨在创建数据集投影,从而为预测模型提供全新且更少的输入变量。这有助于减少ChCaTaETr指纹的稀疏性、存储空间和减少计算运行时间。这种降维被认为是特征选择的间接方面[42]。此外,使用Z分数将输入相似性指数值缩放到[0,1]的范围内,以不支配训练和倾斜模型参数,并最终增强ML算法的预测性能。2.2. 阶段II.a:特征选择在整个子阶段,我们采用了逻辑回归(LR)已被用于使用从Sklearnlinear_model导入的cross_val_score方法,针对ChCaTaETr数据集中RRao方案的所有可能组合,实现了25个LR模型。根据AUC和预测准确度(ACC)评价LR模型对所有可能ChCaTaETr排列的预测性能。2.3. 阶段II.b我们已经针对以下的整个数据集级联了五个RRao相似性向量{SCh(xi,yj),SCa(xi,yj),STa(xi,yj),SE(xi,yj),STr(xi,yj)}:阴性DDI(n(%))(40.51%)629,226(59.49%)将1,057,785个药物对合并到一个矩阵(ChCaTaETr集)中,以便能够使用排除的药物对(n)11,022最终药物对(n)1,046,763药物特征指纹位数(n)二维化学结构(MACCS)166承载件81目标2800酶355运输机197排除的药物对(所有RRao评分=0且DDI标签=0)11,022DrugBank参考集(第2.1.2小节)。在基本研究目标的背景下,我们将预测阶段II分为两个子阶段。首先,我们采用逻辑回归(LR)分类器到各种RRao相似性方案中,以评估每种方案在预测DDI中的作用,然后在准确性和AUC估计方面对其预测性能进行基准测试。基于这个子阶段的结果,我们实现了六种机器学习(ML)算法:逻辑回归[44],朴素贝叶斯[45],随机森林分类器[46H. Ibrahim等人医学信息学解锁26(2021)1006995+TN+FP+===1=2。图三. ChCaTaETr矩阵的片段X. S1_maccs:药物对的2D化学结构的RRao相似性得分; S2_carr:药物对的载体蛋白的RRao相似性得分; S3_target:药物对的靶蛋白的RRao相似性得分; S4_enz:药物对的酶靶的RRao相似性得分; S5_transs:药物对的转运蛋白的RRao相似性得分。人工神经网络[48,50],支持向量机[51-53]2.4. 第三阶段为了评估SMDIP的预测性能,我们设计了分别在“train_test_split”和分层K- fold上完成的基 准测试阶段train_test_split用于外部验 证,而stratifiedKfold用于内部验证。分层K折交叉验证(CV)意味着每个折近似值在每个子集中保留两种类型的类标签的相同比例。尽管DDI和非DDI类别略有不平衡(参见第4.1小节),但我们采用了最保守的方法,即使用五重分层CV来减少潜在的不良预测性能。通过使用Sklearn CV模块的“train_test_split”功能将原始ChCaTaETr数据集随机分为0.2:0.8的比例,生成训练和独立测试集第3.3.1和3.3.2小节强调了定量分析的详细信息。指标和定性评价。预测的显著DDI(真阳性加假阳性)数量。精度度量越接近1.0,分类模型在数据集中仅区分相关DDI的能力就越好。召回率(也称为灵敏度/TPR)对应于相对于所有阳性DDI被正确认为是阳性的DDI预测的比例。召回分数越接近1.0,它就越能表达识别数据集中所有相关DDI的能力。特异性(也称为真阴性率/TNR)测量参考标准中所有阴性相互作用(TN)中被错误认为阳性的非DDI的比例。接近1.0的高特异性分数表明ML模型如何避免错误DDI。F1分数是查全率和查准率的调和平均值,通常用于评估二元分类器。F1分数对针对极端值的查全率和查准率度量给予相同的权重。例如,如果一个二元分类器的精度为1.0,召回率为0.0,那么简单平均值将为0.5,但F1得分将为0。这里,可以通过使用混淆矩阵X的条目根据以下等式来计算上述度量:精度=TPTP+TNFN(2)2.4.1. 定量评价为了评估所提出的SMDIP的预测性能,我们采用了六个指标:AUC-ROC,准确度,精确度,召回率(也称为灵敏度),特异性和f1分数。AUC-ROC是假阳性率(FPR)曲线与真阳性率(TPR)曲线的曲线下面积,标度范围为0 - 1。AUC值越大,ML模型的预测性能越好。同样,其他性能指标的得分(以准确度、精确度、召回率、特异性和f1得分表示)范围为0-1。准确度定义了精密TPTP+FP召回TPTP+FN专属性TNTN+FPF评分精密度。 召回精确度+召回率2.4.2. 定性评价(三)(四)(五)(六)正确预测的DDI到预测DDI的总数。 准确度指标越接近1.0,ML模型在数据集中找到所有相关DDI的能力就越好。精度定义方法返回的真实DDI除以总和一组潜在DDI候选者可以基于满足以下一个或多个标准来定性确认。我们筛选了用于HCV-G4治疗的DAA药物的潜在DDI作为我们的用例H. Ibrahim等人医学信息学解锁26(2021)1006996+--for this study研究.a. 临床研究(病例报告、观察性研究、临床试验等)在文献中对相互作用进行了临床报告。b. 药品监管机构网站将这种相互作用作为一个新出现的安全性问题进行了警告c. 在产品专论(例如,FDA标签[54])中的2.5. 实验环境使用Microsoft EXcel、PyCharm V 3.5和Power BI软件包收集并构建下载的DrugBank数据的二进制矩阵。‘Jupyter notebooks ‘Azure NotebooksPythonScikit-Learn工具包(缩写为Sklearn)适用于机器学习任务[56]。3. 结果3.1. ChCaTaETr基质共生成了1,057,785个连接2561种获批小分子药物的药物对(参见图2)。通过从下载的 * 中提取临床报告的DDI(总数:724,155)构建标准DDI矩阵。DrugBank V 5.1.3的Xml文件(于2019年2月7日发布)。使用该标准DDI集进行映射,用于标记ChCaTaETr数据中每个药物对的DDI标签 其中428,559个药物对(40.51%)标记为DDI,629,226个药物对(59.49%)标记为非DDI。然后,如第2.1.4所示,计算每个药物对的五个RRao相似性。因为它们对于SMDIP是非代表性的,所以从原始ChCaTaETr集中排除了5个特征向量的RRao相似性为零并且标记为非DDI的11,022个药物对。ChCaTaETr数据集特征总结见表1。ChCaTaETr表示化学、载体、靶标、酶和转运体二元指纹。DDI:药物相互作用; FP:指纹图谱。药物特征的数量表示描述符的数量。为ChCaTaETr集的初始筛选生成相关矩阵,以可视化5个特征变量和结局变量(即DDI标签)之间的依赖性。‘Correlation相关性的值在1和1之间,其中大于零的值指示正线性关系,反之亦然。图4显示DDI类别与ChCaTaETr特征之间的正相关。酶转运蛋白特征、酶DDI类、转运蛋白DDI类和化学结构DDI类之间的相关性最高。&&&&这表明,酶,转运蛋白和化学结构的相似性可能是DDI预测的最有用的信息。发现ChCaTaETr功能之间的非标准化是由于到它们的Rao值的巨大变化,其中零值占主导地位。这可能会影响ML算法的性能,其中一个特征可能主导其他特征。为了克服这种影响,我们使用Sklearn中的Z分数缩放功能对所有ChCaTaETr特征向量应用特征缩放。使用以下公式[57]在相似范围内缩小每个ChCaTaETr功能。见 图 4 。 ChCaTaETr 数 据 集 的 相 关 矩 阵 。 S1_MACCS : 化 学 结 构 相 似 性 ;S1_carr:载体相似性; S1_target:靶标相似性; S1_enz:酶相似性; S1_transs:转运蛋白相似性。ChCaTaETr分别表示化学、载体、靶标、酶和转运蛋白。3.2. 所有可能子集选择方法我 们 采 用 了 25 个 LR 模 型 , 使 用 从 Sklearn linear_model 导 入 的cross_val_score 方 法, 使 用根 据 AUC 和 预测 准 确度 ( ACC ) 评价 了ChCaTaETr置换LR模型的预测性能。表2显示了使用10倍交叉验证的不同相似性方案的LR模型的AUC-ROC比较。从组合-1至组合-25的LR模型的AUC值在0.5069至0.7839的范围内显著增加。这种可变性揭示了考虑多个RRao的重要性表2在ChCaTaETr数据集的不同相似性方案上采用的逻辑回归(LR)模型的性能。组合集相似方案号AUCACCID预测器预测器1 Ch 1 0.5691 0.58572 Ca 1 0.5069 0.59463 Ta 1 0.5230 0.60724 E1 0.7355 0.76615.5568 0.63476 Ch-Ca 2 0.5744 0.59007通道-钽2 0.5857 0.60288 Ch-E9 Ch-Tr 2 0.6059 0.63271011 Ca-E2 0.7372 0.766112 Ca-Tr 2 0.5605 0.635413 Ta-E2 0.7459 0.769814 Ta-Tr 2 0.5768 0.648415 E- Tr2 0.7556 0.779216 Ch-17 Ch - Ca -E3 0.7595 0.766118 Ch - Ca-Tr 3 0.6086 0.6341192021 Ta - E- Tr3 0.7652 0.782622 Ch -23 Ch -比例值特征A=值特征A-平均特征AStandardDeviation特征A(七)2425 ChCaTaETr5 0.7839 0.7842AUC:曲线下面积; ACC:预测准确度; Ch:化学结构; Ca:载体; Ta:靶标; E:酶;Tr:转运蛋白。H. Ibrahim等人医学信息学解锁26(2021)1006997++更好的DDI预测。对于基于单个特征的LR模型(方案1至5),基于RRaoE特征的LR模型显示出最高的性能(AUC:0.7355,方案4)。对于基于双重特征的LR模型(方案6至15),最高AUC值显示为酶化学结构和酶的综合特征。 传送者。同样,对于基于三重和二次特征的LR模型(方案16至24),最高AUC值是涉及酶特征信息的模型。组合用于信息的RRao相似性方案,包括结构{Ch}、PK {E,Tr}和PD {Ca,Ta}特征,导致最高的预测性能(0.7839,方案25)。观察到AUC值从0.5069(方案2)显著改善至0.7839(方案25),增加约28%,并且在基于酶的LR模型中AUC值从0.7355(方案4)增加至0.7839(方案25),增加近5%。ACC值也从0.5857(方案1)显著改善至0.7842(方案25),约提高20%0.6446至0.7599,如图5所示。与生物医学文献中报告的先前研究相比,SMDIP显示出令人满意的DDI预测结果使用测试、训练和验证数据集获得了SMDIP中六个实现的ML算法的预测性能结果(见表3)。RFC、ANN和SVM分类器在AUROC、准确性、召回率和F1分数方面显示出相当的预测性能结果,其次是KNN和LR分类器。NB在AUROC、准确性、召回率和F1分数方面RFC和ANN分类器在实际应用中具有比SVM算法计算量小的优点。3.4. SMDIP与其他基于相似性的方法在DrugBank数据集为了研究SMDIP在DDI预处理上增强这些结果与文献研究强调的早些时候,显示大多数DDI是PK介导的,其中酶主要起作用。这一发现强调了在任何ML模型中掺入药物的酶靶点3.3. SMDIP框架这项研究提出了机器学习框架SMDIP将生物信息和二维化学结构的相似性整合基于特征选择方法的性能结果(见第3.2小节),使用特征方案“ChCaTaETr”实现了六种类型的监督ML建模。使用Sklearn的默认概率得分0.5来过滤感兴趣的组合,预测了约36,266种连接2561种获批小分子药物的新型潜在DDI。AUCROCs的范围从我们将其性能评分与一些最先进的方法进行了比较[13,29,34表S1突出显示了那些提出在DrugBank数据集上进行基于相似性建模的研究的一致性,其目的是对药物进行二进制分类并发现隐藏的DDI(无论相互作用类型如何)。表S1中所示的分数被应用于具有最高性能的方法(例如,所提出的SMDIP框架中的RFC性能分数)。在AUC、精确度、召回率、特异性、F1测量和准确度(如适用)方面与8种最先进的方法进行了比较。如表S1所示,SMDIP是唯一一项除SMDIP外,几乎所有研究都未能在精密度、灵敏度和特异性方面取得令人满意的平衡性能。Vilar et al.报告了最高AUC(0.98)2014年。然而,当在两个不同的数据集上应用相同的模型时,AUC评分显著降低(0.73和0.75)。图五. ROC曲线显示了ChCaTaETr数据集上six分类模型的性能。AUC:曲线下面积; NB:朴素贝叶斯; LR:逻辑回归; KNN:k-最近邻; ANN:神经网络; RFC:随机森林分类器; SVM:支持向量机。H. Ibrahim等人医学信息学解锁26(2021)1006998表3机器学习模型(MLM)在ChCaTaETr数据集上的性能,使用指标:AUC,准确性,精确度,召回率,特异性和F1评分。数据集类型度量AUC精度精度召回特异性F1评分平均值真实DDI(n)传销测试安0.75950.78530.820.620.900.7852864培训0.75760.78390.810.610.900.782099845-CV0.74070.77160.820.570.910.76195520测试RFC0.7599 *0.7858 *0.820.620.900.7852869培训0.75930.78550.820.610.900.782105755-CV0.74080.77200.820.570.910.76195000测试NB0.64460.69940.830.340.950.6629115培训0.64460.70010.820.340.950.661164275-CV0.61290.67620.830.260.960.6290497测试LR0.75570.78340.820.600.910.7851657培训0.75370.78180.820.600.910.772051885-CV0.73620.76930.820.550.920.76189813测试SVM0.75960.78530.820.620.900.7852929 *培训0.75770.78390.810.610.900.782102565-CV0.49990.52360.440.310.690.51113313测试15k-KNN0.75660.78370.820.610.910.7852026培训0.75530.78270.820.600.910.782070145-CV0.75830.73090.770.580.880.75199013AUC:曲线下面积; 5-CV:五倍交叉验证; avg.:平均; ANN:神经网络; RFC:随机森林分类器; NB:朴素贝叶斯; LR:逻辑回归; SVM:支持向量机; KNN:K-最近邻。0.67),这引起了人们对该方法的鲁棒性和再现性的担忧。在作者2013年的研究中发现了类似的结局请注意,同一项研究报告的精确度评分范围为0.45至0.50 [35]。SMDIP性能与其他八种方法相比在精度方面的优越性是突出的,包括Ferdousi等人,唯一一项使用Rao指数的研究,其生物学特征与我们的研究相同。通过向ChCaTaETr特征方案添加2D结构相似性,SMDIP与Ferdousi等人相比在精度上实现了10%的显著提高。虽然Song D等人。[58]方法在大多数指标上表现出更高的性能,但SMDIP在召回方面明显优于它。基于这些结果,SMDIP证实了其发现隐藏DDI的能力,而其他最先进的方法表现不佳。3.5. 病例研究:新型丙型肝炎治疗为了验证SMDIP预测新型DDI的能力,本小节介绍了近年来批准用于治疗丙型肝炎病毒基因型4(HCV-G4)感染的直接作用抗病毒药物的病例研究。接下来的三个小节展示了如何实施SMDIP来预测近年来引入市场的3.5.1. 埃及的HCV流行病HCV-G4是埃及的一个主要公共卫生问题,其流行率是世界上最高的。HCV-G4是埃及患者中超过90%的HCV感染的主要原因[60,61]。HCV相关并发症导致高年死亡率患者开始服用第一剂DAA药物[67]。McQuaid,T.等人展示了DAA在HCV中的不同抗病毒机制的概述[68]。在治疗HCV患者时大量使用DAA可能会在与其他药物联合给药时触发DDI安全性信号。因此,我们首先提出了一个SMDIP作为一般框架来预测DDI,然后提出了一个案例研究,重点是DAA-DDI预测作为一个国家利益。3.5.2. 基于DAA子集基于第4.3小节中展示的通用数据集“ChCaTaETr”的性能结果表4提供了DAA子集上RFC性能的详细摘要特征和结果。这表明DDI预测在DAA子集中得到了保持。3.5.3. DAA治疗除了DrugBank中报告的DAA DDI外,如表4所示,SMDIP预测的新型DAA-DDI不表4丙型肝炎新疗法(DAA)的新DDI预测示例。DDI:药物间相互作用; DAA:直接作用的抗病毒剂; NSAID:非甾体抗炎药; SOF:索非布韦; DAC:达卡他韦;Ledi:ledipasvir; Velp:维帕他韦; Gleca:格列匹韦; SIM:西美瑞韦; Pibre:匹布他韦。符号“*”表示在埃及注册的药物。符号“**”表示文献中未证实DAA-药物B相关性。(约70万人死亡)[62]。在2007年至2014年期间,聚乙二醇干扰素和利巴韦林的48周方案组合是标准治疗[63]。然而,HCV-G4显示出较差的类别/适应症药物A相互作用药物B参比品干扰素反应(50%),除了显著的ADR [64]。口服直接作用抗病毒药物(DAA)的开发是一个真正的突破,改变了埃及HCV-G4治疗的前景对于迟发性恶心,与癌症化疗Gleca(1.0)*Fosnetupitant[73],[82]治愈率达95%,疗程短(12周[83]第一次世界大战
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功