没有合适的资源?快使用搜索试试~ 我知道了~
基因调控网络的推断方法和性能评估——EnGRNT:使用集成方法推断基因调控网络
医学信息学解锁27(2021)100773EnGRNT:使用集成方法推断基因调控网络拓扑特征提取Hakimeh Khojasteha,Alireza Khanteymoori a,*,Mohammad Hossein Olyaeeba伊朗赞赞大学计算机工程系b伊朗戈纳巴德大学工程学院计算机工程系A R T I C L EI N FO保留字:生物信息基因调控网络构建方法特征提取支持向量机不平衡数据分类A B S T R A C T从基因表达数据预测基因调控网络(GRNs)的计算方法的发展是一项具有挑战性的任务。已经开发了许多机器学习方法,包括监督的、非监督的和半监督的,以推断基因调控网络。这些方法中的大多数忽略了类不平衡问题,这可能导致降低预测网络中调节相互作用的准确性。因此,开发一种考虑不平衡数据的有效方法是一项关键任务。在本文中,我们提出了EnGRNT(Ensemble methods for Gene Regulatory Networks using Topologicalfeatures)方法,使用基于集成的方法以高精度推断GRNs。我们比较了不同尺度条件下模拟网络的最先进的推理方法的性能。实验结果表明,推理方法的适当性依赖于微阵列数据中表达谱的大小和类型。除了多因素的实验条件下,所提出的方法优于unsupervised方法。因此,所提出的方法可以提供令人满意的性能来推断网络的(150)个节点在实验条件下(敲除,击倒,和多因子)的GRN。对于大型网络,考虑生物条件以选择合适的算法是至关重要的。本研究的目的是探索有效的方法来推断GRN,这有助于生物学家和医学专家的药物设计。1. 介绍基因调控网络的推理是生物信息学和计算生物学领域的一个重大挑战。推理意味着从高通量表达数据中改进基因调控网络的结构。这种改进涉及从实验提取的网络中去除噪声或向其添加丢失的边缘[1GRN通常表示为图,其中节点表示基因,边表示基因之间的调控相互作用。利用微阵列和其他最近的技术如下一代测序,可以确定在给定条件和时间下描述细胞状态的基因的表达水平。由于遗传或环境因素可以通过特定疾病的风险来解释,因此发现基因-基因或基因-环境相互作用对于更好地理解影响疾病风险的因素可能至关重要[4]。GRNs的推理,以改善其结构有潜在的影响,医学和药物设计;而通过湿实验室实验发现基因之间的联系是昂贵和耗时的[1,5]。基因调控网络的拓扑结构对于理解转录因子(TF)如何调控基因表达并导致细胞行为如生长、分化和对刺激的反应至关重要。已经开发了许多基于机器学习来推断GRN的方法,包括无监督学习方法[6-无监督方法[6],MRNET [9]和ARACNE [8]是信息论方法,它们使用基因对之间的相互信息来重建基因调控网络。基于互信息(MI)提出了其他方法,包括三向互信息[20]、条件互信息(CMI)[21]、PCA-CMI [22]方法,最后给出了改进PCA-CMI方法的JRAMF [3]方法。与专门使用基因表达数据来推断GRN的无监督方法不同,除了基因表达数据之外,监督学习方法如SIRENE [14],GENIES [13]和CompareSVM [12]还需要TF和靶基因之间的已知调控相互作用来训练模型。半监督方法是这两种机器学习方法的星际状态,具有特殊的* 通讯作者。电子邮件地址:khojasteh. gmail.com(H. Khojasteh),khanteymoori@gmail.com(A. Khanteymoori),mh. gmail.com(M.H. Olyaee)。https://doi.org/10.1016/j.imu.2021.100773接收日期:2021年8月16日;接收日期:2021年10月21日;接受日期:2021年10月24日2021年10月28日网上发售2352-9148/©2021的 自行发表通过Elsevier 公司这是一个开放接入文章下的CCBY-NC-ND许可证(http://creativecommons.org/licenses/by-nc-nd/4.0/)中找到。可在ScienceDirect上获得目录列表医学信息学期刊主页:www.elsevier.com/locate/imuH. Khojasteh等人医学信息学解锁27(2021)1007732图1.一、提出的方法的工作流程。表1无监督和监督方法在击倒实验条件下的预测准确度(AUC)大小Aracne斯皮尔曼(Spearman)MRNETEnGRN(S形)EnGRN(径向)EnGRNT(S形)EnGRNT(径向)100.28450.30540.27960.750.6250.750.75300.30310.40190.39840.6830.60710.68060.6458500.31230.43950.4570.66350.60930.63190.65841000.3680.50010.49850.55770.54980.57440.60781500.33890.47730.4820.5450.52970.56030.60472000.28780.44840.42730.54330.52740.54820.63025000.30280.47220.46890.50830.50220.53910.5682H. Khojasteh等人医学信息学解锁27(2021)1007733+-表2敲除实验条件下无监督和监督方法的预测准确度(AUC)大小Aracne斯皮尔曼(Spearman)MRNETEnGRN(S形)EnGRN(径向)EnGRNT(S形)EnGRNT(径向)100.47420.49950.47640.750.750.96670.6667300.29860.32480.33320.66670.63750.65620.6667500.33320.48310.48080.66340.7030.64670.65161000.3760.49760.48340.55890.5720.57020.60181500.34630.46780.46650.54510.57140.56070.60522000.3050.44610.44220.53190.55470.53790.65045000.29340.46060.45590.51430.51120.53450.596表3在多因素实验条件下,无监督和监督方法的预测精度(AUC)大小Aracne斯皮尔曼(Spearman)MRNETEnGRN(S形)EnGRN(径向)EnGRNT(S形)EnGRNT(径向)100.56360.59380.5740.750.8750.79190.6667300.3270.43070.43420.63750.6250.63890.6429500.37320.66860.66670.61310.71190.59010.66721000.45720.58560.56490.56020.54770.5680.66361500.40070.79020.75550.53170.52760.55040.61342000.40270.71620.70530.52650.53050.5470.6285000.40510.70460.69760.51790.51790.5350.5491表4所有无监督和有监督方法的预测准确度(AUC)(三个实验条件的大小Aracne斯皮尔曼(Spearman)MRNETEnGRN(S形)EnGRN(径向)EnGRNT(S形)EnGRNT(径向)100.44070.46620.44330.750.750.81940.6944300.30950.38580.38860.66240.62320.65850.6518500.33950.53040.53480.64660.67470.62290.6591000.40040.52780.51500.55890.55650.57080.62441500.36190.57840.5680.54060.54290.55710.60772000.33180.53690.52490.53390.53750.54430.63625000.33370.54580.54050.51350.5110.53620.5711方法包括用标记和未标记的数据训练模型。 Maetschke等人[23]对这三种机器学习方法进行了综合分析,得出结论,在大多数情况下,监督学习方法比其他方法具有更好的性能。在本文中,我们提出了一个监督学习为基础的方法命名为EnGRNT推断GRNs,这是不同于以往的作品在两个方面。首先,对于每个TF,我们认为GRN推理作为一个二元分类问题。在我们的问题中,TF和靶基因之间已知的调控关系的数量(第1类)远少于TF和靶基因之间不存在的调控关系的数量(第1类)[24]。因此,我们处理不平衡数据分类。一些先前的方法忽略了这一挑战,并通过将大多数样本分类为阴性来获得高准确度[12]。在这项工作中,我们使用Under-bagging [25]集成学习算法来解决不平衡问题。使用这种方法,我们为每个TF制作了各种引导程序,并使用每个引导程序训练分类器。所有局部模型最终都提供了一个集成推理引擎,该引擎可以集成它们,从而预测网络中的新相互作用,甚至在必要时修改基因调控网络。其次,Fire等人。[26]表明拓扑特征可以用于提高社交网络分析中链接预测的准确性。在这项工作中,我们扩展了他们的技术,以解决一个重要的生物信息学问题,即GRN推理。为此,我们执行了特征提取阶段,在该阶段中,我们提取了监管网络的拓扑特征集在那里-因此,EnGRNT是一种基于监督学习的方法,从GRN中提取的表情数据和拓扑特征来训练集成分类器,并最终改进GRN结构。为了研究所提出的方法对已知的真实网络,评估进行模拟数据和稳定状态的大肠杆菌(E。coli)[24]。此 外 , 还 介 绍 了 三 种 最 先 进 的 信 息 论 网 络 推 理 方 法 , 即INVESTIGATION [6]、MRNET [9]和ARACNE[8]的方法应用于模拟的E. coli数据集。与有监督的方法不同,无监督的推理算法仅适用于基因表达谱的基因网络构建。信息论方法通过估计成对基因表达谱互信息(Mij)来识别候选相互作用[27]。MRNET(最小冗余网络)方法使用称为冗余减少-增强(最小冗余最大相关性)的特征选择技术重建网络,该技术基于测量基因之间的互信息(Mij)[9]。为了推断网络,针对每个基因(作为目标基因)的特征选择算法在其余基因的集合上执行。这些基因被认为是该靶基因的调节因子。相关网络(Relevance Network,简称ARNET)是基于互信息的最简单的方法[28]。对于每个基因对,估计互信息(Mij),并且如果互信息大于阈值,则在基因i和j之间创建交互。该算法是一个扩展的ARMNET [6]。该方法计算与互信息值的实验分布相关的分数。ARACNE算法(用于精确蜂窝网络重构的算法)是ARACNET的另一个扩展,其应用数据处理不等式(DPI)来过滤间接交互[8]。该算法独立地考虑每个三重边,并计算三重边内每个基因对的互信息(MI)。因此,每个三重态的最弱边被解释为间接相互作用并被移除。实验结果表明,该方法优于以往的无监督推理方法,并且拓扑特征与基因表达数据相结合的应用提高了推理方法的性能。的 休息 的 本文 是 有组织 如下 部分 2首先H. Khojasteh等人医学信息学解锁27(2021)1007734(-)图二、 所有无监督和有监督方法的 预测 准 确 度( AUC )(三个实验条件的平均值)。提供了数据集、性能指标,并简要回顾了建议的方法。在下文中,详细描述所提出的方法。结果和讨论见第3节。最后,第4节总结了结论。2. 材料和方法2.1. 材料根据数据集的来源不同,采用不同的方法处理模拟数据和真实数据。真实数据来源于标准网络和表达水平数据的生物实验。然而,真正的调控网络尚未通过实验验证,但它们已在生物机制中观察到[29]。因此,这些已知的TF和靶基因之间的调控相互作用应主要从RegulonDB[24]其他数据库中提取。一些方法已经应用了模拟数据集,其中表达数据被用于通过某种计算机模拟人为地进行扰动[30]。由GeneNetWeaver[31]从基因大小(10、30、50、100、150、200和500)和实验条件类型(敲除、敲除和多因子)的不同节点(基因数量)提取的大肠杆菌数据。GeneNetWeaver [31]是一个生成基准测试的开源工具。网络和数据集,它应用了真正的微阵列纲要(来自第一种方法)以及合成数据。该工具模拟并生成各种敲除、敲除和多因子的大肠杆菌基因表达谱数据集杆菌在击倒在实验中,一个或多个基因的表达减少。在基因敲除实验中,一个基因的表达完全失活,而在多因子实验中,一些基因的表达值通过一个微小的随机数被扰动。2.2. 性能度量为了评估不同推理方法的性能,GRN算法生成预测边缘的排名列表该列表根据预测的置信度排序因此,列表中的第一条边对应于具有最高置信度的边通过考虑两个方向,具有N个基因的网络中可能的边的数量是N N1。从排序的边列表中,通过设置截止点k来获得k个边的互连网络,该截止点k将第一个k个边视为存在,其余的边视为不存在。因此,k是控制预测网络中边数的参数[32]。评价指标是评价分类性能的关键因素。证明GRN推断方法有效性的度量之一是应用受试者工作特征(ROC)曲线[33]。为了绘制ROC曲线,只需要真阳性率(TPR)和假阳性率(FPR)。TPR定义了在测试期间所有可用的阳性样本中有多少真阳性结果。另一方面,FPR定义了在测试期间所有可用的阴性样本中出现多少假阳性结果。 ROC空间由FPR和TPR分别定义为X轴和y轴,其描绘了真阳性(益处)和假阳性(成本)之间的相对权衡。此外,为了评估质量,H. Khojasteh等人医学信息学解锁27(2021)1007735∈()图三. 无监督和监督方法在击倒实验条件下的预测准确度(AUC)。本文提出的方法,并与其他方法进行了比较,AUC(接收操作者特征曲线下的面积)已被使用。AUC是一个衡量推理方法质量的指标。用于分类的期望AUC被限制为0。5和1(AUC 0. 5, 1)。当AUC接近0时。5,表明预测并不比偶然猜测更好,AUC接近1代表非常准确的预测[34]。2.3. 该方法所提出的方法的概要如图1所示,它由四个基本阶段组成:1) 生物学知识:GRN推理被认为是一个二元分类问题,它需要提取一系列的生物知识来训练分类器。首先,在不同的生物学实验条件下提取GRN中的所有转录因子及其相应的靶基因。2) 拓扑特征提取:在此阶段,提取特定于监管网络的一组拓扑特征。GRNs具有一定的拓扑特性,影响基因的调控过程。这些网络具有高度中心性节点,充当许多基因的调节器。此外,这些网络具有反映网络中特定性能的局部属性。3) 训练每个TF的集成分类器:从阶段1提取的生物知识以及在阶段2中获得的拓扑特征用于训练集成分类器。由于这些训练集是高度不平衡的,因此有必要应对这一挑战。在对于每个TF,通过Under-Bagging算法进行各种引导。接下来,对于每个TF,基于基因表达数据和提取的拓扑特征训练二进制分类器的集合。4) 预测新的相互作用和重建基因调控网络:在最后阶段,推测调控网络中的新相互作用。最后,通过分类器集成获得的输出确定需要修改现有网络或应移除某些交互在下文中,我们将分别描述如何处理这些阶段。2.3.1. 生物知识在这一阶段,我们提取GRN中的所有TF及其相应的靶基因。为此,需要两种类型的输入首先,列出基因及其在实验条件下的表达值它是给定实验条件下表达谱纲要中第二,转录因子与靶基因之间已知的调控关系列表这些列表通常可以从实验法规的可用数据库中建立,例如E.coli基因。2.3.2. 拓扑特征提取基因调控网络被认为是有向图。如果我们只考虑编码TF的基因,我们可以简单地想象一个网络,该网络中的节点、TF生成器和链路H. Khojasteh等人医学信息学解锁27(2021)1007736∑C(i)=B()下一页出来见图4。 敲除实验条件下无监督和监督方法的预测准确度(AUC)。与基因间的调控相互作用相对应。这样的网络(或图)自然具有方向边,例如,通过遗传调节产物X激活Y基因是通过产物Y激活X的完全不同的过程[32]。在 的 上下文 的 基因 监管 网络, 几种拓扑考虑的性质:(1)GRN中的每个基因通常受到连接器,这意味着将网络的一部分与另一部分连接起来。这个特征被称为介数中心性[35]。此功能通常用于查找充当从图的一部分到另一部分的桥梁的节点。介数中心度根据以下公式为所有网络节点计算:少量的其他基因;传入的相互作用导致的分布是狭窄的;(2)少数基因(称为枢纽)调节一个大的σst(i)s=闪烁=iσst(二)其他基因的数量;因此,由外向相互作用导致的分布是广泛的,可能是幂律的;(3)调节网络对内部波动(蛋白质产生的随机性)或外部信号(温度、氧气水平、营养丰度的变化)是鲁棒的。这种特性也存在于其他生物组织的许多层次中。(4)调控网络显示出模块化结构,特别是,与随机网络相比,呈现了某些子图(网络基序)[32]。在该阶段,基于GRN的拓扑性质,可以提取以下特征:其中,σst是从节点s到节点t的最短路径的总数,σsti是从节点i通过的最短路径的数量。介数中心性随着网络中顶点的数量而增加,因此其归一化版本通常被认为是在0和1之间居中。归一化介数中心性通过将等式(2)除以网络中的可能边的数量来计算,而与节点i无关。因此,所有网络节点的归一化介数中心度计算如下:C*(i)=2CB(i)(3)出度(deg* ):基因调控网络的拓扑结构是B(n-1)(n-2)由枢纽节点主导,枢纽节点比网络中的其他节点具有更高的出度。基于这些网络的知识,可以发现这些节点是调节靶基因的相同转录因子(TF)。假设GRN包括n个节点(基因),对于所有节点,根据等式(1)计算归一化出度:聚类系数(Ci):在图论中,聚类系数是图中节点倾向于形成聚类的程度的度量。这个共同的属性被称为模块性,这意味着整个基因网络由许多可识别的基因或模块组成,每个基因或模块对应于功能。度*(i)=度+(i)(一个)在网络中因此,聚类系数是另一个输出n-1可以从这些网络中提取的特征此外,Wu et al.介数中心性(CB):GRN中的中心节点充当网络[36]提出了一种度相关的聚类系数用于链接预测H. Khojasteh等人医学信息学解锁27(2021)1007737=I图五、 在多因素实验条件下,无监督和监督方法的预测精度(AUC)。在复杂的网络中。与经典的聚类系数不同,新的系数是非常强大的,特别是在稀疏网络与低平均聚类系数优于。因此,所有网络节点的聚类系数由以下等式计算Bagging [25]代表bootstrap aggregation,它通过从整个训练数据集中随机采样数据(带有替换)来获得分类的多样性每个样本用于训练分类器,这些分类器可以是相同类型或不同类型。简单多数表决是C2ti(4)ki(ki-1)用于融合所得到的模型。Boosting [38]类似于bagging的集成学习方法,因为它对数据进行了重新采样。但是,它策略性地对训练数据的子集进行采样,其中ti是通过节点i的三角形的数量,ki是节点i的度数。2.3.3. 训练每个TF在本节中,我们首先简要介绍了班级不平衡问题。在分类中,当代表一个类的实例数量小于来自其他类的实例数量时,数据集被称为不平衡。当一个类(次要类或正类)在数据集中的样本数量很小时,就会出现不平衡问题。关于推理问题,TF和靶基因之间已知的调控关系的数量远少于TF和靶基因之间不存在的特定调控关系的数量。由于不平衡问题的重要性,已经开发了一类技术来克服这一挑战[37]。在所提出的方法中,我们专注于基于集成的方法,其中包括在这样一种方式,每个分类器的训练与不同的训练集的训练训练样本的操作。包围学习方法,如bagging [25]和boosting [38]传统上提供了有希望的结果,以提高分类中的预测精度。这些技术已被广泛用于多个领域和应用程序,以提高计算效率。几个弱分类器。分类器通过n路多数表决进行组合。例如,如果有三个分类器,则随机选择训练数据的第一子集,按照boosting算法以信息方式选择第二子集。基于第一和第二分类器两者彼此不一致的实例对第三子集进行采样。因此,在数据融合期间,创建强分类器。由于Bagging集成的简单性和良好的泛化能力,人们已经提出了许多方法来处理类不平衡问题。bagging和数据预处理技术的混合通常比它们在boosting中的集成更简单。在这些方法中,关键因素是收集每个引导副本的方式,即如何考虑类不平衡问题,以在每次迭代中获得有用的分类器,而不忽略多样性的重要性[37]。Bagging家族中的主要算法之一是UnderBagging算法,我们使用它来解决GRN中的类不平衡问题。在所提出的方法的阶段3中,阶段1和阶段2的组合产生如图1所示的训练集。首先,针对每个TF,将训练集划分为两个训练和测试子集通过应用UnderBagging算法,创建了各种引导程序,H. Khojasteh等人医学信息学解锁27(2021)1007738≥≤分类器用每个bootstrap训练。对于每个TF,训练二元分类器的集合以基于基因表达数据和拓扑特征区分已知受该TF调节的基因的列表和未知受该TF调节的基因的列表。由于我们对TF测量的表达水平与其靶基因之间的关系没有足够的了解,我们假设如果两个基因受相同TF调节,则它们可能表现出相似的表达模式[12,14]。对于与每个TF相关联的每个局部模型,使用支持向量机(SVM)作为集成分类器。采用此分类器的原因是它已成功应用于GRN推理[12,14,23]。在所提出的方法中,作为支持向量机的内核,高斯核。因为它成功地用于SIRENE [14]和CompareSVM [12],并且他们讨论了高斯核与其他核相比,在所有实验条件下通常具有最佳性能。此外,对于像微阵列这样的数据,样本数量远小于特征数量,选择高斯核似乎更符合逻辑[39]。应该注意的是,为了进行更多的研究,还为SVM实现了sigmoid内核,以比较它们的性能。2.3.4. 基因调控网络的重建在拟议方法的第4阶段,确定了监管网络的新互动。通过使用每个TF的局部模型,可以将新基因的列表分配给每个TF的局部模型。如果从分类器获得的分数满足阈值,则将在这些分类器的预测之间进行多数投票,并且最终将确定新基因是否由该TF调节。最后一个阶段是结合局部模型的所有分数,以降序分数对候选TF-基因相互作用进行3. 结果和讨论为了评估所提出的方法,我们已经调查了21个子网络相关的E。杆菌为了证明性能,提出的方法没有拓扑特征提取阶段(称为EnGRN)也进行。为了更好地评估,它与基因调控网络构建领域的三种常见的无监督方法ARACNE [8],MRNET [6]和MRNET [9]进行了比较。我们使用Chang等人开发的SVM库LIBSVM。[40]用于实现所提出的方法。无监督方法由R中的minet包[34]执行,并使用Spearman我们使用两种不同的内核在微阵列模拟数据中评估了EnGRNT的预测精度。我们在模拟的E.由GeneNetWeaver [31]在三种不同的生物实验条件下提取的不同节点(基因数量)的大肠杆菌数据,范围从10到500。表1为了更好地说明所提出的方法的改进,在图2至图5中,绘制了三种实验条件(击倒、敲除和多因子)下每个21个子网络的AUC值以及三种实验条件(全部)的平均值。如图2所示,使用两种内核(高斯和S形)的方法总体上具有比无监督方法更高的AUC。根据Figss。2-5 , 除 多 因 素 实 验 条 件 外 , 无 监 督 方 法 ( RISK , MRNET 和ARACNE)的预测精度一般较低。在下文中,我们首先评估非监督方法的预测精度。在无监督的方法中,ESTA(Spearman)和MRNET对所有生物条件都有类似的结果。如图所示,ARACNE表现非常差。2比5对于敲除和敲除实验条件,在所有的实验条件下,RBT(Spearman)和MRNET的表现都很差,并不优于随机猜测,但在多因子实验条件下,它们能够在具有(150)个节点的网络上表现出比监督方法更好的性能。结果表明,除多因素实验条件外,无监督方法在GRN推理中的准确率很低。我们的研究表明,在所有实验条件下,所提出的方法具有良好的预测精度。如图1A和1B所示。3和4,所提出的方法具有较高的预测精度比其他方法在敲除和敲除实验条件。与无监督的方法相比,所提出的方法使用sigmoid内核的准确性超过了90%,甚至在淘汰实验条件下的网络与10个节点。在多因素实验条件下,对于(100)个节点的网络,该方法在两种核函数下的预测精度均高于EnGRN。然而,正如预期的那样,在大多数情况下,使用高斯核的预测性能优于S形核,如图5所示。Spearman和MRNET方法在更大的网络中优于监督方法。这些结果表明,采用集成方法来训练支持向量机与建议的拓扑特征结合基因表达数据进行了很好的执行。除了在多因素实验条件下,该方法的性能优于无监督的方法.在具有(30)个节点的小网络的情况下,拓扑特征的提取对于提高推理方法的性能不是非常有效,这是由于简单的拓扑和缺少具有期望拓扑值的节点,但是在较大的网络中,拓扑特征的应用提高了预测性能。目前基于机器学习的方法可以分为三大类:监督学习、无监督学习和半监督学习。EnGRNT被归类为基于监督学习的方法,该方法将GRN推理问题转化为每个转录因子的二元分类问题。训练数据集中的类的分布从轻微的偏差到严重的不平衡不等,其中少数类中有一个例子,多数类中有数百个例子。不平衡的分类对预测建模提出了挑战。这导致模型具有较差的预测性能,特别是通过将大多数样本分类为阴性[12]。为了解决这个问题,我们利用了Underbagging集成方法,为每个TF提供了几个引导程序。此外,EnGRNT采用拓扑特征,以提高在重建的GRNs的链接预测的准确性。这项工作的结果证实了以前的研究,在大多数情况结果表明,监督学习方法比其他方法具有更高的预测精度。然而,当节点数超过150时,在多因素实验条件下,无监督方法(RNN和MRNET)的性能优于监督方法。还观察到,需要在不同规模的网络中进行大量迭代,以估计方法的预测准确度这项评估最重要的观察结果是,没有一种通用的方法来推断所有生物条件下的GRN。平均而言,除多因素实验条件外,无监督方法的准确率较低。我们的实验结果表明,拓扑特征的应用可以有效地提高GRN推理方法的预测精度。总之,EnGRNT可用于在实验条件(敲除、击倒和多因子)下使用高斯核以可接受的精度推断网络(150)节点的对于大型网络,考虑生物条件以选择合适的算法是至关重要的。我们已经采用了默认的参数设置的机器学习算法研究的文件。4. 结论重建基因调控网络(GRNs)的结构是生物信息学领域的一项重要任务,H. Khojasteh等人医学信息学解锁27(2021)1007739对理解生物体中发生的生命过程产生了深远的影响。本文提出了一种基于监督学习的GRN推理方法EnGRNT.所提出的方法包括两个阶段。首先,GRN推理被认为是一个二元分类问题,对每个TF单独执行。第二,使用一组拓扑特征来提高GRN推理的准确性。通过在模拟数据集上对EnGRNT的结果进行评估,我们发现该方法可以有效地克服数据不平衡的挑战,并且与传统方法相比可以提供有希望的结果。我们还计划探索其他参数设置(例如,在SVM中具有不同参数值的不同内核)。正如最近的一系列出版物所表明的那样,使方法免费可用是开发实际有用的模型 或 方 法 的 主 要 趋 势 , EnGRNT 的 源 代 码 可 以 在https://github.com/Khojasteh-hb/EnGRNT上免费获得。竞合利益作者声明本研究无竞争利益。确认我们要感谢 来自伊朗赞詹大学 机器学习和生物信息 学实验室(MLBL)的同事们的帮助。引用[1] Byron Ka,W JTL。利用时间序列表达数据推断基因调控网络的最新生物信息学工具的比较综述。IntJ Data Min Bioinf2018;20(4):320-40。[2] SulaimanyS,Khansari M,Masoudi-Nejad A. 生物网络的链接预测潜力。IntJ Data Min Bioinf 2018;20:161-84.[3] 周聪,张世文,刘芳. 一种基于折刀重建和算术平均融合的基因调控网络集成重建方法。IntJ Data MinBioinf 2015;12(3):328-42.[4] LeeY,Kim H,Park T,Park M. 基于聚类的多因子降维方法在数量性状基因互作分析中的应用。 Int J Data MinBioinf 2018;20:1-11.[5] Liu W,et al.,Inferring gene regulatory networks using the improvedmarkovblanket discovery algorithm. Interdiscipl Sci Comput Life Sci2021:1-14.[6] FaithJJ等人,从表达谱纲要中对大肠杆菌转录调控进行大规模映射和验证。PLoS Biol2007;5(1):e8.[7] 马巴赫湾基因网络的进化逆向工程 2009年[8] Margolin AA,et al. ARACNE:an algorithm for the reconstruction ofgeneregulatory networks in a mammalian cellular context. BMC Bioinf 2006;7(增刊1):S7。1.一、[9] Meyer PE,et al.大型转录调控网络的信息理论推断。EURASIPJ Bioinf Syst Biol2007;9(1):79879。[10] 作者:Jalilkhani M. TIGRNCRN:使用聚类和细化网络的基因调控网络的可信推断。J Bioinf Comput Biol2019;17(3). 1950018 -1950018。[11] PirgaziJ,Khanteymoori AR.一种基于卡尔曼滤波和线性回归鲁棒基因调控网络推理方法。PLoSOne 2018;13(7):e0200094.[12] Gillani Z等人,CompareSVM:基因规律性网络的监督支持向量机(SVM)推理。BMC Bioinf 2014;15(1):395.[13] 基因:基于监督分析的基因网络推理引擎。 Nucleic Acids Res 2012;40:W162-7(Web服务器问题)。[14] MordeletF,Vert JP. SIRENE:监管网络的监督推理生物信息学2008;24(16):176 -82.[15] 放大图片作者:J.仅从阳性和未标记的数据中学习基因调控网络。 BMC Bioinf2010;11(1):228.[16] DaoudiM,Meshoul S,Tahi F. 基因调控网络推理的机器学习方法。国际生物科学杂志Biochem. Bioinform2019;9(2):82-9.[17] ErnstJ,et al.大肠杆菌中转录因子-基因相互作用的半监督预测方法。PLoSComput Biol2008;4(3):e1000044.[18] 作者声明:Chen J. 使用机器学习算法的基因调控网络的半监督预测。J Biosci2015;40(4):731-40。[19] 放大图片作者:Turki T,Wang JT,Rajikhan I.结合有监督和无监督方法推断基因调控网络。2016年第15届IEEE机器学习与应用国际会议(ICMLA)。IEEE;2016.p. 140比5[20] Luo W,Hankenson KD,Woolf PJ.使用连续三向互信息从高通量基因表达数据学习转录调控网络。BMC Bioinf2008;9:467.[21] Wang K等人,人类B细胞中转录因子活性的翻译后调节剂的全基因组鉴定。 NatBiotechnol 2009;27(9):829-39。[22] 基于条件互信息的路径一致性算法从基因表达数据中推断基因调控网络。Bioinformatics 2012;28(1):98-104.[23] Maetschke SR,et al.,Supervised,semi-supervised and unsupervisedinference ofgene regulatory networks。 简报Bioinf 2014;15(2):195-211.[24] Salgado H , et al. RegulonDB ( version 5.0 ) : Escherichia coli K-12transcriptionalregulatorynetwork , operonorganization , andgrowthconditions. Nucleic AcidsRes 2006;34(Database issue):D394-7.[25] 布雷曼湖装袋预测器。Mach Learn 1996;24(2):123-40.[26] [10]刘晓波,李晓波.使用计算高效拓扑特征的社交网络中的链接预测。在:隐私,安全,风险和信任(PASSAT)和2011年IEEE第三届国际社会计算会议(SocialCom)。IEEE; 2011年。p. 73比80[27] 覆盖TM。信息论的基本原理。 John Wiley&Sons; 1999.[28] Butte AJ,Kohane IS.互信息相关网络:使用成对熵测量的功能基因组聚类。2000年生物计算1999:418-29。世界科学。[29] Zhao M,et al.基因调控网络推理技术的综合概述和批判性评价。简报Bioinf2021;22(5).[30] SlawekJ.使用集成方法从表达数据推断基因调控网络。 2014年。[31] 放大图片作者:J. GeneNetWeaver:网络推理方法的计算机基准生成和性能分析。 Bioinformatics 2011;27(16):2263-70.[32] Bellot Pujalte P.研究基因表达数据的基因调控网络推理方法。 2017年。[33] Bradley AP. ROC曲线下面积在机器学习算法评估中的应用。PatternGeneva1997;30(7):1145-59.[34] Meyer PE,Lafitte F,Bontempi G,minet. AR/Bioconductor软件包,用于使用互信息推断大型转录网络。BMC Bioinf 2008;9(1):461.[35] 布兰德斯介数中心性的快速算法 数学社会学杂志2001;25(2):163-77.[36] 吴Z,林Y,赵Y。基于聚类能力的无参数相似性指数用于复杂网络中的链接预测,第1504卷; 2015,01018。arXiv预印本。[37] [10]杨文,杨文.类不平衡问题的集成综述:基于bagging、boosting和混合的方法。IEEE Transactions on Systems,Man,and Cybernetics,Part C(Applications and Reviews)2012;42(4):463-84.[38] 沙皮雷弱学习能力的优势。 Mach Learn1990;5(2):197-227.[39] 徐庆荣、张庆春、林清君. 支持向量分类的实用指南 2003年。[40] 张CC,林CJ. LIBSVM:一个支持向量机的库。ACMtransactions onintelligent systems and technology(TIST)2011;2(3):27.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功