没有合适的资源?快使用搜索试试~ 我知道了~
埃及信息学杂志18(2017)151全文基于基因表达的癌症分类Sara TarekShahab,Reda Abd Elwahab,Mahmoud Shoman埃及开罗大学信息技术系计算机和信息学院阿提奇莱因福奥文章历史记录:2016年9月4日收到2016年10月23日修订2016年12月6日接受2016年12月20日在线发布关键词:微阵列肿瘤分类基因表达特征选择Enhancementk-NN计算机科学机器学习A B S T R A C T基于分子水平研究的癌症分类因其能为不同类型的癌症提供系统、准确和客观的诊断而受到研究者的关注。最近的一些研究已经使用数据挖掘方法、机器学习算法和统计方法来研究癌症分类问题,以达到对基因表达谱的有效分析同时研究数千个基因的特征为癌症分类问题提供了深刻的见解。它引入了大量的数据准备探索。它还被广泛应用于药物发现,癌症预测和诊断等领域,这是癌症治疗的一个非常重要的问题。此外,它有助于了解基因的功能和基因之间的相互作用,在正常和异常的条件。这是通过在不同条件下监测基因的数量--基因表达数据来实现的本文提出了一种有效的集成方法。包围分类器不仅提高了分类的性能,而且提高了结果的置信度。使用集成分类器的动机是,结果较少依赖于单个训练集的特性,并且因为集成系统优于集成中最佳基本分类器的性能©2016制作和主办由Elsevier B.V.代表开罗计算机和信息学院大学这是一篇CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍脱氧核糖核酸或DNA存储所有生命所需的遗传信息,以建立,功能和发展。DNA被认为是所有生物体的蓝图,因为它的组成部分编码了维持生命所需的所有信息。这种遗传信息在细胞分裂过程中被保存下来并从一个细胞传递到另一个细胞,在这个过程中,一个母细胞分裂成两个新的子细胞。脱氧核糖核酸分子形成一个双螺旋结构,并以非常精确的顺序排列在一起.然后,形成DNA螺旋的基本四个分子单元以特定的排列进行测序,使得一条链上的每个组分只能与DNA螺旋中的某个组分键合。*通讯作者。电子邮件地址:gmail.com(S. Tarek),r. fci-cu.edu.eg(R.Abd Elwahab),m. fci-cu.edu.eg(M. Shoman)。开罗大学计算机和信息系负责同行审查。另一股。DNA复制是通过破坏两条链之间的键--双螺旋--而每条链形成一条匹配的链,再一次重新键合和重新扭曲。基因组-整个DNA序列-为合成各种RNA分子提供了模板RNA的主要类型是信使RNA(mRNA)、转移RNA(tRNA)和核糖体RNA(rRNA)。DNA的主要功能之一是构建负责执行大多数细胞功能的蛋白质。构建蛋白质的过程包括两个主要步骤:即,转录阶段,其中DNA分子被转录成信使RNA或mRNA(其是一种核糖核酸RNA);和翻译阶段,其中mRNA被翻译成蛋白质一旦蛋白质被构建,基因就被表达。测量基因表达的标准技术是测量mRNA而不是蛋白质。使用mRNA序列的原因是它们与互补的RNA或DNA序列杂交,而蛋白质缺乏这种特性。基因表达水平代表细胞在不同生物学状态下产生的RNA量。因此,在细胞分裂过程中,如果细胞患有疾病-即癌症或恶性肿瘤-导致基因改变或突变,基因的不可控行为将传递给子细胞。http://dx.doi.org/10.1016/j.eij.2016.12.0011110-8665/©2016制作和主办Elsevier B. V.代表开罗大学计算机和信息学院这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。制作和主办:Elsevier可在ScienceDirect上获得目录列表埃及信息学杂志杂志主页:www.sciencedirect.com152S. Tarek et al./ Egyptian Informatics Journal 18(2017)151此外,某些基因表达值将受到影响,因此可以通过监测RNA来实现表达水平由于DNA微阵列技术的显著进步,在特定的实验环境和条件下可以同时测量这项技术使得在分子水平上理解生命成为可能,并能够生成大规模的基因表达数据。此外,它还产生了许多分析见解,因为它产生了大量的基因数据,可以通过使用几个统计和机器学习过程来管理它们,从而快速准确地分析这些数据为了将DNA微阵列样品从它们的模拟形式(其是以高密度阵列打印在玻璃显微镜载玻片上的DNA序列)转换为数字形式(其是可以处理和操纵的基因表达数据矩阵),需要完成几个步骤。标准的技术是从两个细胞中转录mRNA,并将它们逆转录成cRNA,用荧光染料标记它们(如果是癌性的,则为红色,如果是良性的,则为绿色)。将两种样品分布在整个微阵列上,以便与它们相应的cDNA杂交(标记的cDNA试图与微阵列上它们的互补cDNA结合,以便在称为杂交的过程中形成双链分子)。因此,杂交就像是某种基因存在的检测器。然后扫描载玻片以获得每种染料的数值强度。然后,可以将基底扫描为可以通过图像处理技术操作的图像;颜色的强度对应于每个基因转录的mRNA的数量。通过比较基因在两种不同实验条件下的颜色强度,可以监测基因表达水平。对于单个芯片上的所有基因,基因表达值为:log2IR=IG其中IR是红色染料的强度,IG是绿色染料的强度。DNA微阵列技术提供了大量的重要的数据准备探索。这些大量的数据存在几个问题。首先,在正确的条件下提取样本的过程非常难以满足,并且涉及高水平的噪声。第二,有成千上万的基因表达,而样本只有几十个,这需要在实际分类之前排除不相关的基因。在不同癌症类型或类别之间选择区分基因是一个主要的研究领域。第三,已经揭示了几个权衡,如保持准确率与确保泛化,控制复杂度与提高分类器的性能,提高性能与内存要求。这些因素影响了癌症分类算法的效率。2. 相关工作Okun[1]提出了一个在Colon数据集上实现的集成系统。滤波器特征选择模型用于减轻过拟合的影响。实现了三种不同的基因选择方法;即,向后消除希尔伯特-施密特独立准则该集成由五个基本分类器组成,每个基本分类器使用K-最近邻“K-NN”,其中K的值不同,可以是3个或5个最近邻。K-NN分类器的选择是合理的,因为它由于样本量小,使用了支持的重新替换误差估计再替代估计的支持Tor基于这样的理论,即远离决策边界的点比靠近决策边界的点应具有更高的置信度,支持的再替换误差估计量是低方差的,并且一般也是低偏差的。与交叉验证和自助误差估计相比,它非常有竞争力,特别是对于小样本问题[6]。虽然系统的结果看起来很吸引人,但是,通过考虑一些要点,它可以进一步改进。首先,由于癌症分类域的敏感性,期望更准确的输出结果,使得误差最小化。在该现有系统中,原样集合系统的总集合误差为6.5%,这是相对较高的。其次,现有系统仅针对结肠数据集进行了测试,而需要针对各种癌症数据集进行测试的更全面的系统。第三,在小样本量的情况下,由于过拟合,替代是非常低的偏见,支持或传播的错误分类的实例的错误是不实际的适合。这是因为它有助于增加偏差;特别是过度拟合规则分类器。第四,将基分类器的投票组合成一个预测决策的方法的选择应考虑准确性- 或者说是整体成员的重量这是为了确定合奏成员应在多大程度上参与最终决定。此外,还应考虑做出决策的数据集的大小(例如,朴素贝叶斯组合)。此外,从生物学的角度来看,选择保留特征“基因”的语义目前,已经提出了一些微阵列数据的特征选择技术[53. 拟议系统我们提出了一个集成系统,它是一组单独训练的分类器,其决策通常与多数投票,加权投票或其他相对简单的技术,如堆叠或朴素贝叶斯组合相结合。研究表明,通常集成分类器优于小队中最好的成员分类器的性能[8所提出的系统解决了现有系统的前三个缺点;即,提高结果准确性,将集成技术应用于更多的癌症类型,以及减轻过度拟合的影响所提出的系统框图如图所示。 二、图中的阴影框表示在该框中完成了以下几点解释了每个模块的功能以及在每个模块中所做的修改:基因表达数据集:在该模块中,定义了系统将运行的数据集。在这些数据集上执行的操作顺序在文件读取、加载和连接到数据集存储库之间定义。所提出的集成系统已被应用于Colon数据集,就像[11]介绍的现有系统中的情况一样。此外,针对白血病和乳腺癌数据集对所提出的系统进行了修改、调整和测试,以提高将所提出的系统应用于不同癌症类型的信心,并强调所提出的系统应用于该敏感领域的适用性预处理模块:预处理模块根据基因表达数据集模块中定义的数据集对待处理的数据集进行预处理。准备工作包括滤波、阈值处理、对数变换和数据归一化。在实际分类之前必须完成这些程序。●●S. Tarek et al./ Egyptian Informatics Journal 18(2017)151153X.Zð Þ我是一个很好的朋友,我的朋友12基因筛选模块:在癌症分类方面,这种大量的微阵列数据并没有带来更多的区分力;降低了分类器的准确性。因此,特征需要减少到具有能够区分不同类别的最显著特征或基因的特征子集。因此,特征选择(也称为子集选择)的目的是去除冗余或不相关的特征,以降低分类的复杂性减少误差估计的方差,有时也减少偏差[1]。与交叉验证不同,BRE利用整个可用数据,根据训练集上的可用样本生成M个人工测试样本。已经证明,BRE比传统的误差估计技术(如LOO和0.632引导程序[5])更准确和更快。支持的再置换误差可以定义为:这样,减少了计算时间和存储需求,并提高了分类器的预测能力。这反过来又提高了分类精度,促进了数据可视化1Ne^ω<$N1/1的1fωix-xidxIyi<$0<$Zfωix-xidxIyi<$1并通过揭示特征之间的相互关系来提供对基础数据的更好理解。特征选择的另一个优点是它减轻了过度拟合的影响。过度拟合导致的泛化不足导致训练阶段的高精度水平;然而,非常糟糕的性能-使得N是样本数,fωx是成对支撑核平滑函数,旨在通过在区间[0,1]中取值来减小方差,并且可以表示为fω1ex p.x2mm我我对看不见的样本和结果进行分析发生这种因为分类器学习了所有关于i¼2pD=2rD-2r2训练数据(即,记住它),因此在预测新样本的类别成员时,其性能是出乎意料的。特征选择可以分为三个主要类别的基础上的方式相结合的特征子集的分类模型:包装器,过滤器和嵌入式方法。所提出的系统利用三种不同的特征选择算法:–后向消去希尔伯特-施密特独立准则–基于极值分布的基因选择–奇异值分解熵基因选择分类集成模块:该集成系统由5个基分类器组成,所有基分类器均采用3-NN算法.每个分类器利用自己的特征选择参数,以确保集成的多样性前三个分类器采用不同基因数的BAHSIC特征选择算法进行选择。从基因库中选择的基因第四个基础分类器利用具有自动算法的EVD基因选择算法来定义要选择的基因的数量;通过该算法选择的基因的数量对于结肠数据集是49个基因,对于白血病数据集是224个基因,并且对于乳腺癌数据集是5127个基因;最后一个基础分类器利用SVD熵基因选择算法;通过该算法返回的基因的数量对于结肠数据集是240个基因,对于白血病数据集是187个基因,如所提出的系统的框图中所描绘的,系综的第二和第三分类成员的参数已经被改变,以改善整体系综性能并增加系综小队中的多样性。后处理模块:为了提高准确性,并因此提高由集合做出的决定的确定性,已经对现有系统进行了某些修改后处理模块可以分为两个主要的子模块:–错误估计模块:在基因表达数据中,使用无偏分类错误估计器评估机器学习算法的性能是一个重要问题。Braga-Neto[8]提出了一种称为“支持重替换误差”(BRE)的误差估计器,该误差估计器基于通过在每个数据实例处设置合适的内核来支持数据实例。BRE不太倾向于偏见,并被认为是是一个非常快的误差估计相比,其他误差估计,如自助。它是由一个小数目的Monte Carlo样本计算的。支撑具有以下效果:其中,r是标准偏差,支持的错误,而不是用户定义的参数。图1显示了如何使用Marsaglia极坐标法生成M个随机正态分布样本。Marsaglia极坐标方法的目的是从一个统一的伪随机数产生高斯伪随机数。这是通过以下方式实现的:a. 对于M个采样点,使用Box-Müller变换生成一对均匀分布的数字。b. 将点从区间[0,1]转换为新的区间[-1,1],的以下简单方程:u i<$2 u i-1;i<$1; 2;r<$u2<$u2c. 如果rP 1或r = 0,则转到(a.)d. 否则,如果r 1,这意味着点对(u1;u2)是单位圆e. 将(u1;u2)变换为正态分布点p- -f. 根据问题中训练点的当前均值和标准差z0i<$l<$zir;i<$1;2获得所第一个修改是在BRE的实施。更方便的是不传播错误分类的训练实例的错误,因为这进一步增加了偏差。通过设置ri = 0-这意味着不对点i进行支撑,偏差减小。然而,它增加了误差估计的方差。在使用低方差和高偏差分类器的情况下(例如,K-NN、朴素贝叶斯、CART等),增加变化有助于降低分类器过拟合的趋势(现有系统的第三个缺点这个版本的BRE是称为半支持重新替换错误“sRRE”。SBRE在处理小规模问题时比BRE产生更好的结果,例如图1.高斯分布随机抽取的样本在单位圆内均匀分布。●●a0级●154S. Tarek et al./ Egyptian Informatics Journal 18(2017)151开始乳腺DS的名结肠白血病负荷白血病(D*N)预处理白血病DS预处理乳腺DS负载乳房(D*N)选择信息基因以最小化基因表达的维数DS读取DS名称预处理结肠DS上样结肠(D*N)设计了五个基分类器(K-NN)的嵌入系统,每个基分类器采用不同的FS算法应用EVD特征选择应用基本FS应用基本FS应用基本FS应用SVD熵特征选择C1C2C3C4C5设置支持误差= 0基因数量= 25基因数量= 50基因数量= 5图2. “基于基因表达的癌症分类”拟议系统的框图图3.流程图显示了拟议系统的执行逻辑1用原始N个样本测试集成分类器(Ci,i = 5),预测模式S. Tarek et al./ Egyptian Informatics Journal 18(2017)1511551没分类正确吗?是错误(C4)计算分类器Ci,i = 5的计算加密错误计算BCI界限计算性能特征将全体成员的预测与多数投票相错误(C5)错误(C3)错误(C2)错误(C1)终止打印性能char.绘制ROC曲线图使用Marsaglia polar的多变量正态分布(M= 10)的样本点增加错误分类的错误计数增加错误计数器保存M*N个样本分类K-NN使用marsaglia极坐标算法计算估计值sd。计算属于每个类图3(续)微阵列数据结合最近邻分类器,如[6]所推荐的。此外,它甚至比其他误差估计器快数千倍[11,6,12]。– 多数投票模块:集成分类过程的最后一步是组合集成成员分类器的预测。它不同于非常简单的形式的投票计数或多数表决,其将样本分配给由集合成员预测的最大数量的投票(平局被任意打破)的类,加权投票考虑集合成员的权重或准确性,以便确定集合成员参与最终决策的程度。所提出的系统采用简单多数表决作为组合技术。– 分类性能特征:为了衡量用于分类任何数据集的算法的性能,将性能特征统一起来是合理的统计-如分类准确率或真或假阳性率-将用于比较和评估不同算法运行期间获得的结果。引入了受试者工作特征曲线(ROC)、ROC下面积和贝叶斯可信区间(BCI)等性能指标,以涵盖更多方面的结果。为了构建ROC曲线,分类器需要提供一个分数或概率估计,表示所使用的测试集中每个实例的类成员资格。这些概率与测试集实例的实际类标签和预测类标签一起使用,以计算TPR和FPR。构造ROC列表的一种方式曲线下面积(AUC)是一种总结ROC曲线的方法。通过将曲线上每两个后续点之间的ROC由于AUC是一个面积,因此它156S. Tarek et al./ Egyptian Informatics Journal 18(2017)151值在0和1之间变化。随机猜测的AUC为0.5,用从原点(0,0)到点(1,1)的直线表示。为了实现,使用Matlab,因为它提供了丰富的有用工具箱库,如生物信息学工具箱TM和统计学工具箱TM。这反过来又促进了整个研究所需的计算和分析。所提供的流程图(图3)以有序的方式示出了基于基因表达数据集的癌症分类的过程,并且包括处理数据和将所提供的样本分类到其相应类别中的各个阶段。通过读取数据集的名称开始的癌症分类过程需要被操纵;在所提出的系统的情况下,考虑三个数据集,每个数据集在分类过程本身之前具有其自己的预处理步骤-如稍后部分中所解释的。通常,基因表达数据集具有高维性。因此,必须考虑基因选择机制。它涉及在大量可用基因中找到信息量最大的基因。该系统使用三种不同的特征选择方法来选择最佳的基因子集,并将其传递给分类。该集成的前三个成员采用BAHSIC基因选择算法,每个成员选择的基因数目不同,第四个成员采用EVD算法,第五个成员采用SVD算法。在基因选择发生后,数据集准备好通过分类系统进行探索。所选择的子集用作分类器的训练集。建议的系统适用于一个委员会的分类器,其决定,然后结合称为集成系统。所设计的集成系统由五个基本分类器。在所提出的系统中,K-NN算法被选择在基分类器的设计,因为它的简单性,因为通常基于相似性的分类器不忽略相关性和基因的相互作用。 虽然K-NN存在可扩展性问题,但它可以很好地处理小规模的数据,例如癌症五个基本分类器并行工作,如下所示:所选子集中的每个样本-由三个使用的基因选择算法之一生成-被传递到相应的3-NN分类器。所讨论的分类器旨在预测样本的正确标签。如果样本被正确分类,则semi-BRE开始基于该正确分类的样本生成十个人工测试样本。换句话说,BRE开始使用Marsaglia极坐标算法(如前一节所述)按因子(M = 10)支持每个训练样本,使用这些样本测试分类器以计算误差,更新用于统计目的的误差计数,并保留支持样本的分类决策供以后使用。如果样本被错误分类,则不需要对其进行支持以避免传播错误。Semi-BRE更新错误计数并进入下一个样本。在对所有样本进行分类后,计算集成中每个分类器的半BRE误差。集成分类的最后一步是将所有基本分类器的保留预测组合起来,以形成整个集成系统的最终决策。每个样本都被分配到得票多的班级计算总体误差并将其与基本分类器的决策进行比较4. 拟议系统的结果和分析在本节中,检查所提出的系统获得的结果。所提出的系统的结果进行了比较与相关的工作结果。对于性能测试,计算总集成错误率、基本分类器错误、AUC和BCI。针对三个基准癌症数据集进行实验;即,白血病、结肠癌和乳腺癌数据集:白血病数据集:急性白血病数据首次发表于[3]。Dettling[4]通过以10为底的对数变换和特征选择对这些数据进行了结果,经过数据预处理后,实际上有3571个基因。给出了72个个体(3571 ×72)上3571个基因表达值的基因表达矩阵以及类别索引(72 ×1)的向量。白血病数据集可在www.ncbi.nlm.nih.gov/pmc/articles/PMC151171上找到。结肠数据集:结肠肿瘤是在结肠组织中发现的一种癌性生长。结肠数据集见[1]。它包含了62个结肠标本的2000个基因的表达谱,其中40个正常组织标记为数据可在http://microarray.princeton.edu/oncology上查阅。数据集预处理包括以10为底的对数乳腺癌数据集:该数据集包含乳腺癌患者的结局预测。它包括24,481个基因的表达水平。训练数据包含78个样本,其中34个样本标记为“复发”,其来自5年内发生远处转移的患者,其余44个样本标记为“未复发”,其来自首次诊断后至少5年的疾病保持健康的患者。相应地,在测试数据集中有12个复发和7个非复发样本。数据集可以在www.example.com上找到http://datam.i2r.a-star.edu。sg/krbd/BreastCancer/BreastCancer.html。如表1所示,结果集合中的前三个基础分类器利用BAHSIC特征选择算法[2],用户定义所选基因的数量以返回进行分类,而分类由3或5最近邻分类器完成。 将值50、5和25作为BAHSIC算法的输入,表示从基因库中选择的基因数量。支持误差率为15.0%,23%和16.1%;贝叶斯可信区间为[12.5,18.1],[20.6,27.3]和[13.5,AUC分别为0.92、0.80和0.91。在5个基因的情况下,BAHSIC算法的预测精度很差,基因越多,性能越好。第四集成成员利用EVD基因选择以及3-最近邻分类器。Monte-Carlo样本数为10。通过EVD基因选择算法选择的基因的数目是49个基因。EVD基因选择优于BAH-SIC算法,且选择的基因数基本相同支持误差率为9.5%;贝叶斯可信区间为[7.4,12.0],AUC为0.97。第五个集成成员利用SVDEntropy特征选择与简单的排名作为挑选基因的标准,以及3-最近邻分类器。Monte-Carlo样本的数量保持为10。统计学分析结果表明,该模型的支持误差率为8.1%,贝叶斯可信区间为[6.3,10.6],AUC为0.97;●●●●●●●●●●●●S. Tarek et al./ Egyptian Informatics Journal 18(2017)151157表1总结实施特征选择算法后返回的基因数量与错误率(%)。提议的系统特征选择BAHSICEVDSVDBAHSICEVDSVD基础分类器BC1BC2BC3Bc4Bc5BC1BC2BC3Bc4Bc5基因(结肠DS)50525493165052549240错误(Colon DS)13.4031.1016.609.208.9012.7427.5818.8710.329.03基因(白血病)505256118750525224187错误(白血病)4.8630.427.781.671.677.2227.368.471.392.64基因(乳腺DS)50525512712365052551271236错误(乳房DS)1.9031.032.590.001.720.8637.762.760.001.72共筛选出316个基因。也就是说,分类性能与EVD基因选择算法相似,但它是用六倍的额外基因实现的多数投票被用来将所有五个集合成员的分类器预测组合成一个决定。结果表明,在单次运行中,集合成员获得的误差分别为11.77%、30.16%、17.10%、8.71%和7.90%,而集合误差仅为6.5%,集合误差的BCI为[4.90 8.80],曲线下面积为0.97;由五个基本分类器选择的基因数目分别等于50、5、25、49和316。集成的性能优于最佳集成成员分类器的性能。图4示出了当应用于第一基准数据集(即白血病癌症数据集)时来自原样系统和所提出的系统的结果。如图4所示,(a)AUC = 0.98的原样集成的ROC曲线;4(b)贝叶斯后验分布原样集成BCI = [0.90,2.60]和集成误差= 1.39%; 4(c)AUC增加到AUC = 1.00的建议集成系统的ROC曲线; 4(d)贝叶斯后验分布图显示BCI曲线向左移动,这意味着更好的分类准确性BCI = [0.10,0.60];通过五个基础模型分类器识别率分别为7.22%、27.36%、1.39%、2.64%和1.94%而所提出的系统的总集成误差仅为0.00%。图5示出了当应用于第二基准数据集(即,Colon cancer数据集)时来自原样系统和所提出的系统的结果。 图5(a)原样的ROC曲线合奏其中AUC = 0.97; 5(b)贝叶斯后验分布原样集合BCI = [4.90,8.80]且集合误差= 6.5%; 5(c)提出合奏系统哪里AUC增加5(d)贝叶斯后验分布图显示,BCI曲线向左移动,表明分类精度更高BCI = [2.70,5.80],单次运行的基本分类器获得的误差分别为12.74,27.58,18.87,10.32和9.03。而所提出的集成系统图6示出了当应用于第三基准数据集(即乳腺癌数据集)时来自原样系统和所提出的系统的结果。 图6(a)原样的ROC曲线合奏其中AUC = 1.00; 6(b)贝叶斯后验分布整体BCI = [0.30,1.60]; 6(c)AUC = 1.00的拟议整体系统的ROC曲线; 6(d)贝叶斯后验分布图显示BCI曲线向左移动,这意味着更好的图4.当应用于白血病数据集时,在(a)ROC曲线和(b)贝叶斯后验分布方面,比较原样集成系统和所提出的系统的性能158S. Tarek et al./ Egyptian Informatics Journal 18(2017)151图5.当应用于Colon数据集时,在(a)ROC曲线和(b)贝叶斯后验分布方面,as-Is集成系统和所提出的系统的性能之间的比较。图6.在(a)ROC曲线和(b)贝叶斯后验分布方面,在乳腺数据集上应用时,原样集成系统和拟议系统的性能比较。分类准确度BCI = [0.10,0.70];单次运行基础分类器获得的误差等于1.21,37.76,2.76,0.00,和1.72,而建议的集成系统从上述分析中,可以得出结论,所提出的系统的结果表明,当应用于结肠癌和白血病癌症时,性能特征增强对于乳腺癌,建议和现有的系统记录S. Tarek et al./ Egyptian Informatics Journal 18(2017)151159表2概述了现有集成和所提出的集成系统的性能特征性能特性原有系统拟议系统结肠白血病乳腺结肠白血病乳腺包围错误6.5%百分之二点六0.52%3.87%百分之零点一四0.00%BCI[4.90,8.80][1.10,3.00][0.30,1.60][2.70,5.80][0.20,0.90][0.10,0.70]AUC0.970.951.000.991.001.00令人印象深刻的结果。表2总结了结肠癌、白血病和乳腺癌数据集的总体分类误差、BCI和AUC指标。5. 结论在这份报告中,一个新的集成系统的癌症分类的基础上基因表达谱。该方法导致了一个快速和适当的系统,优于[1]建议的系综系统。它还克服了三个解决的缺点;即,提高结果的准确性,覆盖更多的癌症类型,并减轻over-fitting.in这项工作的影响,K-NN分类器已被用作集成的基本成员。在未来的工作中,更多不同的分类器可以被用作基础成员。此外,该系统可以应用于其他基准,特别是多类数据集。致谢如果没有那些为编写和完成本文件作出贡献的人的宝贵协助和支持,在此,我要对各位导师在我学习期间的热情指导、不断支持和亲切鼓励表示衷心的感谢。引用[1] 奥肯岛生物信息学的特征选择与集成方法:算法分类与实现。Med Inform SciRef2011。[2] Song L,Smola A,Gretton A,Borgwardt KM,Bedo J.通过依赖估计进行监督特征选择。 上一篇:Proceedings of the 24th International机器学习会议。ACM; 2007年。第823- 830页。2007年6月[3] Li W,Sun F,Grosse I.基于极值分布的基因选择标准在判别微阵列数据分析中的应用。J ComputBiol 2004;11(2-3):215-26.[4] 杨伟华,王伟华,王伟华. 一种新的生物数据无监督特征过滤方法。生物信息学2006;22(14):e507-13.[5] Doughterer,Sima C,Hanczar B,Braga-Neto UM.分类误差估计器的性能。Curr Bioinform 2010;5(1):53-67。[6] 布拉加-内托UM,面团。交叉验证对小样本微阵列分类有效吗?生物信息学2004;20(3):374-80.[7] Guyon I,Weston J,Barnhill S,Vapnik V.使用支持向量机进行癌症分类的基因选择。 Mach Learn 2002;46(1-3):389-422.[8] Vu TT,Braga-Neto UM.装袋在小样本基因组和蛋白质组数据分类中有效吗?EURASIP J Bioinf Syst Biol 2009;2009(1):1.[9] 昆切瓦湖组合模式分类器:方法与算法。JohnWiley& Sons; 2004.[10] 西 格 尔 先 生 机 器 学 习 基 准 测 试 和 随 机 森 林 回 归 。 CenterBiofinform MolecBiostat 2004.[11] AlonU,Barkai N,Notterman DA,Gish K,Ybarra S,Mack D,LevineAJ. 通过寡核苷酸阵列探测的肿瘤和正常结肠组织聚类分析揭示的基因表达的广泛模式。Proc Natl Acad Sci1999;96(12):6745-50.[12] 布拉加-内托UM,面团。交叉验证对小样本微阵列分类有效吗?生物信息学2004;20(3):374-80.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Fisher Iris Setosa数据的主成分分析及可视化- Matlab实现
- 深入理解JavaScript类与面向对象编程
- Argspect-0.0.1版本Python包发布与使用说明
- OpenNetAdmin v09.07.15 PHP项目源码下载
- 掌握Node.js: 构建高性能Web服务器与应用程序
- Matlab矢量绘图工具:polarG函数使用详解
- 实现Vue.js中PDF文件的签名显示功能
- 开源项目PSPSolver:资源约束调度问题求解器库
- 探索vwru系统:大众的虚拟现实招聘平台
- 深入理解cJSON:案例与源文件解析
- 多边形扩展算法在MATLAB中的应用与实现
- 用React类组件创建迷你待办事项列表指南
- Python库setuptools-58.5.3助力高效开发
- fmfiles工具:在MATLAB中查找丢失文件并列出错误
- 老枪二级域名系统PHP源码简易版发布
- 探索DOSGUI开源库:C/C++图形界面开发新篇章
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功