基于决策树的癌症基因表达数据分析:比较不同决策树方法和属性选择的效果

201 浏览量更新于2023-12-10 收藏 995KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

制作和主办：ElsevierEgyptian Informatics Journal（2011）12，73开罗大学埃及信息学杂志www.elsevier.com/locate/eijwww.sciencedirect.com原创文章一套基于决策树的癌症基因表达数据Mohmad Badr Al Snadra，Hesham Mohamed El-Deebb，*，Khaled Badranc，Ibrahim Ali Al Khlilca埃及萨达特管理科学学院计算机科学系b现代技术信息大学计算机科学系，埃及c军事技术学院计算机科学系，埃及收稿日期：2010年12月28日;接受日期：2011年2011年7月23日在线发布*通讯作者。摘要微阵列分析，特别是癌症基因表达谱分析的主要挑战之一是确定在癌细胞中高度表达而在正常细胞中不表达的基因或基因组。监督机器学习技术与微阵列数据集一起使用，以建立分类模型，改善对不同疾病的诊断。在这项研究中，我们比较了九种决策树方法的分类精度;这些方法分为两大类;第一类是单决策树C4.5，CART，决策树桩，随机树和REPTree。第二类是Ensample 决策树，如Bagging （C4.5 和REPTree ），AdaBoost （C4.5 和REPTree ），ADTree和Random Forests。除了前面的比较分析，我们评估这些方法的行为与/不应用属性选择（A.S.）技术，如卡方属性选择和增益比属性选择。通常，集成学习方法：装袋，提升和随机森林;由于其机制的性质，提高了单个决策树的分类准确性，该机制从一个数据集生成多个分类器，并为他们的分类决策投票增强值随时间变化电子邮件地址： badr_senousy_arcoit@yahoo.com （工商管理硕士） Snews ）， hmeldeeb14@yahoo.com （ H.M.El-Deeb ），khaledBadran@hotmail. com （ K. Badran ）， ibrahim. gmail.com（I.A.A. Khlil）。1110-8665© 2011计算机和信息学院，开罗大学。制作和主办Elsevier B.V.保留所有权利。开罗大学计算机和信息系负责同行审查。doi：10.1016/j.eij.2011.04.003关键词基因芯片;癌症;分类;决策树;决策树样本;属性选择74M.B. Snorge等人1/4fg1/4fg4.99-6.19%之间。在大多数数据集和分类方法中，增益比属性选择略微提高了分类准确性（约1.05%），因为集中在最有希望的基因上，这些基因具有区分数据集的有效信息增益还有，集成分类器的卡方属性评估由于消除了一些信息基因而略微降低了分类准确性。©2011计算机和信息学院，开罗大学。由爱思唯尔公司制作和主持All rights reserved.1. 介绍基因组核糖核酸（RNA）表达研究允许系统的方法来了解基因表达谱与疾病状态或细胞不同发育阶段之间的关系。微阵列分析提供了关于细胞的整个转录谱的定量信息，使得药物和治疗改进、疾病诊断和可理解的基础细胞生物学成为可能。DNA微阵列技术允许在重要的生物过程中和相关样品的集合中同时观察数千个基因的表达水平[1]。来自微阵列分析的数据集能够测量不同细胞的分子特征，成为数据挖掘、人工智能和机器学习技术的重要应用，以提供生物信息学知识。在实践中，监督机器学习技术与微阵列数据集一起使用，以构建分类模型，从而改善对不同疾病的诊断，易于解释[2，3]。1.1. 生物学背景细胞是每个生命系统的基本工作单位所有指导它们行动所需的指令都包含在化学脱氧核糖核酸或简称DNA中。DNA分子是由四个基本分子单元即核苷酸组成的双链聚合物。氮碱基包括腺嘌呤（A）、鸟嘌呤（G）、胞嘧啶（C）和胸腺嘧啶（T）。基因组为合成各种RNA分子提供了模板。将基因的DNA序列转录成RNA的过程称为基因表达。一个基因的表达水平表明该基因的RNA在细胞中产生的近似拷贝数，它与相应蛋白质的数量相关。这种机制控制哪些基因在细胞中表达，并作为1.2. 微阵列数据格式来自微阵列实验的基因表达数据集可以由实值表示。表达式矩阵1/fGi;jj16i6n;16j6mg其中列Gg~1;g~2;. . . ;g~m形成基因的表达模式，行SS~1;S~2;. . S~n .白血病的基因表达微阵列数据集的实例显示于表1中。该表将数据组织成m列（基因）和n行（样本），其中m根据准确度通常从千到十万变化。而根据先前收集的数据集，n总是小于200个样本[5]。类别列表示样本的实际类别。对于所示的实施例，AML代表急性髓性白血病，ALL代表急性淋巴细胞性。我们的研究提供了九个决策树方法的性能比较。本文的其余部分组织如下。在第2节中，我们简要介绍了癌症分类领域面临的挑战。在第3节中，我们给出了问题的定义。在第4节中，我们利用决策树和微阵列分类。在第5节中，我们讨论了这一领域的相关工作。在第6节中，我们探讨了这项工作中使用的方法。在第7节中，我们描述了实验装置。在第8节中，我们给出了结果和分析。第9节是论文的结论2. 癌症分类的挑战基因分类作为一个研究领域，由于其独特的问题性质，提出了新的首先，挑战来自可用基因表达数据集的独特性质;其中大多数这些数据集的样本量低于200，而每个元组中有数千到数十万个基因第二，这些（基因）中只有少数与所研究的疾病相关。第三，来自数据集中固有的噪声（生物和技术）的存在。第四个挑战来自应用领域，例如准确性是癌症分类任务中的一个重要标准，但在癌症领域，生物相关性和分类准确性并不是我们想要实现的唯一目标。3. 问题定义没有一个分类器优于其他分类器，例如，分类精度取决于分类方法、基因选择方法和数据集[7，8]。在这项研究中，我们将使用的符号提供的应卢等。[9]的文件。设X1;X2;. ;Xm是基因G1;G2;.的随机变量。其中Xi具有域dom（Xi），域dom（Xi）是基因Gi的表达值范围。表1微阵列数据决策表。样本属性（基因）类别基因1基因2... .基因m1G（1，1）G（1，2） .. .G（1，m）所有2G（2，1）G（2，2） .. .G（2，m）所有. . ......... .. ......你好。所有. . ......... .. ......你好。AML一套基于决策树的癌症基因表达数据分类算法751/4fg联系我们¼表2混淆矩阵。预测类实际等级C1C1 TPC2 FPC2FNTN设C为类标签的随机变量，dom C 1;.. . K，其中K是表示类的总数设t1/4 ft：X1;t：X2;. 表示m个基因的表达值的大小为m的元组设T ={（t1，c1），（t2，c2）... （tn，cn）} 指示一培训设置的n 元组，哪里i½ f 1; 2;. ng， ci2dom（C）是元组ti的类标签。设测试集为St1;t2;. ;t l 其中，l是测试集。找到一个分类函数Class，它给出了S上的最大分类精度，其中分类精度通过将正确分类的实例数除以实例总数来计算。允许代表用于评估最复杂分类器的基准数据集[12]。目前大多数微阵列数据收集在包含大量样本的集中存储库中，如国家生物技术信息中心（NCBI）的基因表达综合库（ GEO ）或欧洲生物信息学研究所（ EBI ）的ArrayExpress[13]。不幸的是，这样的存储库太大，包含来自使用不同协议的各种来源的数据，以作为数据集的基准集合。我们的研究利用了EBI收集的最大的公开可用的基因表达测量数据库之一。这是目前用于评价分类方法的最合适的基因表达样本集合之一[11]。5.相关作品从旧的最近邻分析和决策树到新的SVM支持向量机，有许多算法用于构建分类模型[6]。为准确度TP公司简介ð1Þ例如， Xiaosheng Wang 等人 [5] 比较了 NB （朴素贝叶斯）、DT（决策树）、SVM（支持向量机）和k-NN（k-最近邻）算法的性能，几个属性选择（卡方，信息增益，Re-真阳性（TP）=预测阳性病例数实际上是积极的。真阴性（TN）=实际为阴性的预测阴性病例数。假阳性（FP）=实际为阴性的预测阳性病例数。假阴性（FN）=实际为阳性的预测阴性病例数。表2说明了阳性和阴性元组的混淆矩阵。4.决策树和微阵列分类决策树的主要优点之一是能够生成可理解的知识结构，即，层次树或规则集，模型用于预测或分类新病例时的低计算成本，处理符号和数字输入变量的能力，明确指示哪些属性对预测或分类最重要[10]。有两个缺点，也代表了过去使用决策树进行微阵列分析问题的主要弱点。第一个是它们的不稳定性，这与第二个缺点密切相关，即，当样本数量太少时，很难分支树。决策树的不稳定性通过集合方法成功解决，其中从初始数据集的不同子集构建多个树以提高最终分类器的鲁棒性。不幸的是，分类器集合的知识理解能力水平非常低，不适合解释所获得的知识。有一些研究探讨了从分类器集合中提取知识的问题[11]，但所有这些研究都太有限了，对实际应用没有帮助。决策树分支的质量对分类器的最终成功由于微阵列研究中每次实验的高成本，lief-F和对称不确定度），他们研究的平均准确度在69.33%和90.01%之间。Peter等人。[14]使用偏最小二乘（PLS）回归作为特征选择方法，并比较几种集成模型的性能，其研究中的预测准确度在61.2和61.2之间。99.4. Hong Hu等人[7]提供了新的样本方法，并将其与几种著名的样本方法进行了比较，前列腺数据集的准确率在60%之间，肺癌数据集的准确率在98.9%之间。Aik Choon等人[15] 比较了单个决策树算法和基于集成的决策树（Bagging，AdaBoost）算法。准确率在52.38%~ 93.29%之间。表3显示了癌症分类的相关工作。6. 方法6.1. 分类方法在本实验研究中，我们重点研究了九种公共决策树方法，其中一些方法构建了单决策树，如 C4.5 、 CART 、REPTree 、 RandomTree 和 Decision-Stump 。另一种是Ensample决策树，如ADTree，Random Forests，Bagging和AdaBoost。这些方法简要描述如下：Quinlan提出的C4.5算法自顶向下决策树库[16]。该算法是ID3的后继算法，ID3在每一步确定最具预测性的属性，并基于该属性分割节点。每个节点都代表某个属性值上拆分标准计算如下：– Calculate the expected information needed to classify atuple inXm新闻中心 pilog2pilog21/1现在仍然可以接受的研究与100或更少的sam-其中，pi是概率，在D中的一组属于类Ci。●●●●76M.B. Snorge等人XjjjX×.Σð Þ¼一1/1jD jJ一12表3有关工程关于癌症分类AdaBoos(Ad)、Bagging（Ba）.作者数据集Att. 选档分类器准确度[%]Xiaosheng Wang et al. [五]《中国日报》结肠NBC4.5SVMk-NN迟88.7190.3287.187.1INF.85.4885.4887.187.1RF87.185.4887.187.1苏87.191.9487.188.71最高精度平均精度结肠91.9483.1074CNS9072.3362DLBCL87.9370.7054白血病197.2292.013肺10097.9547前列96.0890.9766乳腺88.4669.3911白血病298.2587.593Peter J. Tan等人[14]数据集白血病PLS维数单C4.5 94.3RF96.2Ad C5.095.7MML斜森林96.7乳腺65.271.267.969.2中枢神经61.264.563.265.9结肠80.984.782.788.8肺9896.298.299.4前列8390.688.191.3前列6569.351.553.2洪虎。等[7]数据集C4.5RFAd C4.5Ba C4.5乳腺62.961.961.966肺9598.396.197.2淋巴瘤78.780.985.185.1白血病79.286.187.586.1结肠82.375.877.482.3卵巢95.794.195.797.6前列33.352.433.342.9Aik Choon Tan et al. [第十五条]数据集C4.5Ba C4.5Ad C4.5白血病91.1891.1891.18乳腺63.1689.4789.47肿瘤转归8588.3388.33结肠95.1693.5590.32肺92.6293.2992.62前列67.6573.5367.65前列腺结局52.3885.7176.19– Calculate the expected information required to classify atuple fromMD信息中心信息中心选择具有最大增益比的属性作为最佳分裂属性。CART（分类和回归树），它是基于Breiman等人[17]的论文的分析。是二叉决策树，它在每个节点上分割一个变量。项jDjj充当第j个分区的权重。jD j–增益A信息A信息D信息-信息A信息D信息4A– Calculate split information of attribute取决于因变量的类型（分类或数值）CART类似于C4.5，但使用基尼指数作为分割标准，计算方法如下Xm吉尼·德·拉克斯1 -pSplitInfo A转换器Mj1jDjjlogjDjjDjjjDjð5Þ二进制拆分的属性A的基尼指数计算如下：GiniDjD2jGiniDjD2jGiniD 8– Calculate gainGainRation AGainASplitInfo Að6ÞjDj jDjRandomTree：正在构建一棵树，在每个节点上随机选择属性。它不进行修剪。2CART方法还可以生成分类树，1/12我ð7Þ一套基于决策树的癌症基因表达数据分类算法77DecisionStump：是一种为名义和数字分类任务构建简单二进制决策“树桩”（1级决策树）的算法。它通过从树桩延伸第三个分支或将“失踪”作为单独的属性值来处理任务值。它可以进行回归（基于均方误差）或分类（基于熵）[18]。REPTree：算法是一种快速决策树学习器，它也基于C4.5算法，可以产生分类（离散结果）或回归树（连续结果）。它使用信息增益/方差构建回归/决策树，并使用减少错误修剪（带回退）对其进行修剪。拟合）。ADTree：应用交替决策树，它是决策树、投票决策树和投票决策树的推广.该算法的提升程序使决策树算法产生准确的分类器。分类器是对许多决策树进行多数投票的形式，但具有较小且易于理解的分类规则[19]。随机森林：通过重新采样属性的集成决策树方法，由Leo Breiman提出[19]。这种早期的随机决策树方法结合了装袋和随机特征选择方法来生成多个分类器。基于CART方法的随机森林。Bagging：由Leo Breiman[20，21]提出，它使用引导技术对训练数据集D进行重采样.以形成重新采样的数据集Di.D中的每个样本在任何试验中被抽取的概率为1/n。最常见的预测类标签将是最终的分类结果。AdaBoost：Boosting方法首先由Freund[22]开发。初始分类器是从原始数据集构建的，其中每个样本的平均分布比率为1。在Boosting方法训练数据集Di中，根据样本在先前数据集Di-1中的预测精度，使得样本之间的比例不同。如果样本在Di-1中具有较低的预测准确率，则它将在Di中被赋予较高的权重，因此得到较高的位置。在Di中选择的可能性。图1示出了集成分类器的概述。6.2. 数据预处理在成千上万的表达水平被测量的基因中，并不是所有的基因都需要分类。我们需要选择少数与分类高度相关的基因称为信息基因。卡方（v2）属性评估。卡方（v2）方法通过测量特征相对于类的卡方统计量来v2值v2XXn½Aia<$m-Ea<$m ]2ð9Þm¼V1/1Ei图1集成分类器概述。其中V是a的可能值的集合，n是类的数量，Ai（a = V）是第i个类中的样本的数量，a=v，E i（a=v）是A i（a = v）的期望值;Ei（a=v）=P（a=v）P（ci）N，其中P（a=v）是a=v的概率，P（ci）是标记有第i类的一个样本的概率，N是样本的总数[23]。表4微阵列数据集的描述，其中AML：急性髓性白血病，ALL：急性淋巴细胞白血病，AD：腺癌，SQ：鳞状细胞癌，COID类癌，NL：正常肺。BR：乳腺，PR：前列腺，LN：肺，CO：结肠，PA：患者，CO：对照。数据集号样品基因不。类别肿瘤正常乳腺62163834319胸部186163824343结肠3674581818肺288163826919前列146126266581前列腺2108125549216前列腺3188163839296肺119710937ADNL平方COID139172120多组织10316383BRPRLNCO26262823白血病727130所有AML4626淋巴瘤6016381PACO402078M.B. Snorge等人增益比特性评估。期望信息（熵）用于根据较高信息基因对D中的属性进行排序，并消除具有低增益比的属性。（7）和（8）。6.3. 数据集在本研究中，我们选择了11个微阵列数据集，这些数据集是乳腺癌、乳腺癌1、肺癌2、前列腺癌（与肿瘤相邻的正常前列腺组织与肿瘤组织）、前列腺癌2、前列腺癌3和淋巴瘤，这些数据集收集自EBI，http://www.ebi.ac.uk/array-express和多种组织[24]、肺癌[24]、结肠肿瘤[25]、白血病[24]，从GEO储存库中收集。最新的四个数据集已经在许多以前的研究中进行了广泛的测试[25表4提供了微阵列数据集的简要描述。7. 实验装置从EBI和GEO收集了11个数据集，用于评估分类性能。这些数据集在表3中简要描述。本文中描述的所有实验都是使用Weka 3.7.1机器学习环境中的库进行的[28]。许多研究在分类任务中使用Weka，例如[26，29]。使用九个选定的决策树分类器构建分类模型，这些分类器在上文中进行了简要描述（第6.1节），并且使用两种类型的属性选择（卡方、增益比）来减少可用基因的初始集合，并在选定的属性子集上评估这些方法每种分类方法都在Weka环境中“原样”使用图2癌症分类系统。在分类性能比较之前或期间进行。将每种特征选择方法与比较中包含的所有9种分类模型结合使用。我们还使用10倍交叉验证评价了分类方法的 AUC 。对于 bagging 和AdaBoost方法，我们使用（C4.5）和REPTree作为分类器，每个实验应用10次迭代我们将DNA微阵列的机器学习工作分为三个主要阶段.第一阶段是属性选择，第二阶段是选择合适的预测器，第三阶段是产生模型评估，如图所示。二、8. 结果和分析我们报告了九种方法的结果，这些方法用于研究决策树预测疾病状态的有用性。对于每种方法，我们评估了原始数据集（无属性选择）的分类准确性，并使用卡方和增益比作为属性选择。首先，我们将这些方法应用于乳腺癌。图3显示了这些方法的准确性。我们注意到随机森林、AdaBoost（C4.5）和AdaBoost（REPTree）在原始数据集上具有更高的准确率（ 98.39% ）， AdaBoost （ C4.5 ）在卡方属性选择（96.77）和增益比属性选择（98.39%）下具有更高的准确率。其次，我们将该方法应用于结肠癌。图4显示了该方法的准确性。我们注意到AdaBoost（C4.5）在原始数据集上表现出更高的准确率（ 100% ），而 RandomForest ，CART ， AdaBoost （ C4.5 ）， Ada-Boost （ REPTree ）和Bagging（REPTree）在增益比属性选择上表现出相同且更高的准确率（97.22%），而DecisionStump在卡方属性选择上表现出更高的准确率（97.22%）。第三，我们将该方法应用于白血病数据集;图5显示了该方法的准确性。我们注意到Bag-ging（REPTree）对原始数据集的准确率较高（93.06%），AdaBoost（REPTree）对卡方属性选择（95.83%）和增益比属性选择（97.22%）的准确率较高。第四，我们将该方法应用于lung 1数据集。图6显示了方法的准确性，我们注意到Ada-Boost（REPTree）在原始数据集（95.43%）和卡方属性选择（94.42%）上给出了更高的准确性，而 Bagging （ C4.5 ）在增益比属性选择（93.91%）上给出了更高的准确性。第五，我们在lung 2数据集上应用这些方法。图7显示了这些方法的准确性，我们注意到 CART ， Ada-Boost（ C4.5 ）在原始数据集上给出了更高的准确性（97.73%），而CART在增益比属性选择上给出了更高的准确性（98.86%），AdaBoost（C4.5）在卡方属性选择上给出了更高的准确性（97.73%）。第六，我们将这些方法应用于淋巴瘤数据集。图8显示了该方法的准确性，我们注意到随机森林、 Bagging（REPTree）和AdaBoost（C4.5）在原始数据集上给出了高精度（100% ），而ADTree、 Decision-Stump 、CARTAdaBoost（C4.5）、Bagging（REPTree）和REPTree在增益比属性选择下给出了准确性（100%），而随机森林AdaBoost（C4.5）在卡方属性选择下给出了更高的准确性（100%）。第七，我们将该方法应用于前列腺数据集。图9显示了该方法的准确性，我们注意到，一套基于决策树的癌症基因表达数据分类算法79图3乳腺数据集上方法的准确性。图6方法在lung1数据集上的准确性。图4结肠数据集上方法的准确性图5方法在白血病数据集上的准确性80MB Snorge等人图7方法在lung2数据集上的准确性。图8淋巴瘤数据集上方法的准确性。图9前列腺数据集上方法的准确性Bagging（REPTree）在原始数据集上具有更高的准确性（75.34%），卡方属性选择（72.60%）和增益比属性选择（75.92%）。图 10 显示了方法的准确性，我们注意到 Ada-Boost（C4.5），AdaBoost（REPTree）和Bagging（C4.5）在原始数据集上给出了更高的准确率（91.67%），Bagging（C4.5）在卡方属性选择（90.74%）和增益比属性选择（91.67%）下给出了更高的准确率，我们也将该方法应用于其余数据集。表5总结了这些方法的最小和最大准确度。通过计算每个数据集上所有方法的平均准确度，从图11中我们注意到AdaBoost（C4.5）在原始数据集上给出了更高的平均准确度（91.23%），并且使用卡方属性选择（90.83%）和Bagging（REP- Tree）给出了更高的平均准确度增益比属性选择（92.64%）。此外，我们注意到Ensamples决策树显著提高了单个决策树分类器（如C4.5和REPTree）的准确性。在这项研究中，我们打算使用来自相同癌症类型的几个数据集来关注以下事实：重要的是对来自相同癌症类型的样本进行分类。一套基于决策树的癌症基因表达数据分类算法81图10前列腺2数据集上方法的准确性。表5 总结了这些方法在Breast1、Multi tissues和Prostate3数据集上的准确性增益比A。S.卡方AS.原始数据方法%乳房1最大值Acc.Ad（C4.5）98.39 Ad（C4.5）86.05 Ba（REPTree）81.40分钟Acc.RT 67.44 ADTree 75.58 RT 77.91最多可容纳多种纸巾Acc.Ad（C4.5）97.09 Ad（REPTree）95.15 CART 94.17前列腺3分钟Acc.DS 44.66 DS 47.57 DS 46.60最大Acc.RF 98.94 RF 100 Ad（C4.5）99.47分钟Acc.ADTree 86.70 DS 86.7 DS 86.70图11所有数据集方法的平均准确度实验室，以及相同的预处理算法，和相同的微阵列类型。9. 结论该实验研究通过使用11个癌症微阵列数据集来比较不同的9种决策树算法的分类性能。这些算法包括五种单决策树（ C4.5 ， REPTree ， CART ， DecisionStump 和RandomTree ）以及四种样本决策树方法 AdaBoost（ C4.5 ）， AdaBoost （ REPTree ）， Bagging （ REP-Tree），Bagging（C4.5），ADTree。此外，研究了属性选择对决策树建模的影响。从得到的结果中，我们可以突出一些有趣的结论：样本方法（AdaBoost，Bagging和随机森林）显着提高了单决策树的分类精度，由于建立了几个分类器和投票技术。AdaBoost（C4.5）的准确性优于其他在原始数据集上不使用属性选择的采样方法。 AdaBoost （ REPTree ）、AdaBoost（C4.5）在卡方属性评估方面优于其他方法，Bagging（REPTree）在增益比属性方面优于其他方法。增益比属性选择显著提高了大多数数据集和分类方法的分类器准确度，但卡方属性选择82 MB Snorge等人由于消除了一些信息基因，分类准确性更高，如C4.5。通过分析多类微阵列数据集（lung1.多组织数据集），我们注意到CART和AdaBoost（C4.5）在原始数据集上优于其他方法。而AdaBoost（REPTree）优于卡方属性选择。通常，Bagging（C4.5）和AdaBoost（C4.5）优于增益比属性选择。最后，决策树由于其可解释性而对生物学家特别有吸引力，能够突出哪些基因实际上在干扰分类任务，并且结果表明决策树分类器可能在未来的微阵列分析中发挥重要作用但是，从微阵列数据集中压缩树共享的少量基因仍然是关键标准，因为缺失这些基因意味着缺失分类结果。引用[1] Arma R ， Marcos IL ， Taboada V ， Ucar E ， Iranbul B ，FullaondoA，Pedro L，Zubiaga A.利用机器学习程序进行自体免疫疾病的微阵列分析。IEEE Trans Inform Biomed 2009;13（3）：341[2] 杨伟，刘伟.决策树模型的介绍。化学计量学杂志2004;18：275[3] Cho S，Won H.用于癌症分类的dna微阵列分析中的机器学习。第一届亚太生物信息学会议生物信息学2003：189[4] MramorM，LebanG，DemsZaharJ，ZupanB. 基于可视化的癌症微阵列数据分类分析。J Biofinform AdvAccess 2007：1-7.[5] Wang X，Gotoh O.用于基于微阵列的癌症分类的稳健基因选择方法。癌症信息2010：15[6] Sweilam NH，Tharwat AA，Abdel Moniem NK.支持向量机在癌症疾病诊断中的比较研究。 Egyptian Inform J 2010;11（2）：81[7] 胡宏，李军，王宏，戴嘉德，史明.一种用于微阵列数据分类的最大多样性多决策树算法。In：Conferences in research andpractice in information technol- ogy（CRPIT），vol. 73，2006.[8] 放大图片作者：Peterson L，Coleman M.基于机器学习的受试者操作特征（ROC）曲线用于癌症研究中DNA微阵列的清晰和模糊分类。Int J Approx Reason 2008;47：17-36.[9] Saeys Y，Inza I，Larra P.生物信息学特征选择技术综述。生物信息学2007;23（19）：2507[10] 何燕，张辉。探索基于蚁群算法的基因表达数据分析。ArtIntell Med 2009;47：235[11] Stiglic G，Mertik M，Podgovic V，Kokol P.在微阵列分析中使用小集合的视觉解释。在：基于计算机的医疗系统CBMS会议，第34卷，2006年。p. 691-5[12] Dupuy A，Simon R.发表的微阵列研究的癌症结果和统计分析和报告指南的批判性评论。J Cancer Inst 2007;99：147[13] Barrett T ， Troup D ， Wilhite S ， Ledoux P ， Rudnev D ，Evangelista C ， et al. Mining tens of millions of expressionprofiles- database and tools update. 见： Nucleic Acids Res ，Conference of National Cancer of Biomedical Institute NCBI，第5卷，2007。第760- 765页。[14] Peter J. Tan，David L.特雷弗岛Dix，用基于树的分类算法从微阵列数据构建分类模型。在：2007年第20届澳大利亚人工智能进展联合会议。[15] 放大图片作者：David G.在基因表达数据上进行机器学习以进行癌症分类。开放的思想J Lim 2003：75-83.[16] 小昆兰C4.5：机器学习程序。Morgan Kaufmann; 1993.[17] 安德烈·K微阵列基因表达数据的项目反应理论建模。MetZvezki 2009;6（1）：51[18] 放大图片作者：Frank E.数据挖掘：实用的机器学习工具和技术。第二版。San Francisco：Morgan Kaufmann; 2005.[19] 布雷曼湖随机森林[20] 布雷曼湖装袋预测器。Machine Learning 1996;24（2）：23-140.[21] Bauer E，Kohavi R.投票分类算法的实证比较：Bagging，Boosting和变体。Machine Learning 1999;36（2）：105[22] Freund Y，Schapire RE.使用一种新的boosting算法进行实验。1996年，国际机器学习会议。pp. 148比56[23] Elham C，Mohammd T，Seraj K，Zolghadri J.一种基于卡方检验的改进模糊特征聚类和选择。Int Multi Conf Eng ComputScient 2009;8：978[24] Stefano M，Pablo T，Jill M，Todd G.基于重采样的基因表达微阵列数据的类发现和可视化方法。荷兰印刷：KluwerAcademic Publishers; 2003年。[25] Alon U，Barkai N，Notterman DA，Gish K，Ybarra S，MackD，Levine AJ.通过寡核苷酸阵列探测的肿瘤和正常结肠组织聚类分析揭示的基因表达的广泛模式。Proc Natl Acad Sci USA1999;96（12）：6575-6.[26] Karegowda1 AG，Manjuna AS，Jayaram MA.增益比属性选择与相关性属性选择的比较研究。Int J Inform Technol KnowManage 2010;2（2）：271-7.[27] Golub TR ， Slonim DK ， Tamayo P ， Huard C ， GaasenbeekM，Mesirov JP，Coller H，Loh ML，Downing JR，CaligiuriMA，Bloom field CD，Lander ES.癌症的分子分类：通过基因表达监测进行分类发现和分类预测。Science 1999;15：286[28] [10]杨文辉，张文辉. WEKA手册版本3-7-1。汉密尔顿，新西兰：怀卡托大学; 2010年。[29] 梁耀，洪耀。基因选择和微阵列数据分类的多过滤器多包装方法。IEEE/ACM Trans Comput Biol Biofinform 2010;7（1）.

下载后可阅读完整内容，剩余1页未读，立即下载