深度神经网络及大象搜索优化在微阵列数据分析中的应用

153 浏览量更新于2024-01-14 收藏 881KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报大象搜索优化结合深度神经网络用于微阵列数据分析Mrutyunjaya PandaUtkal大学计算机科学与应用系，Vani Vihar，Bhubaneswar，印度阿提奇莱因福奥文章历史记录：2017年8月1日收到2017年12月2日修订2017年12月3日接受在线发布2017年保留字：基因表达大象搜索萤火虫搜索深度学习分类精度Tukey HSD检验A B S T R A C T尽管在微阵列基因表达数据分析方面有大量的研究，但它仍然为研究人员有效地分析大而复杂的基因表达特征（基因）选择方法对于理解样品之间的生物学和非生物学变异的差异是至关重要的为了解决这个问题，大象搜索（ESA）的优化，提出了从大量的微阵列数据中选择最佳的基因表达萤火虫搜索（FFS）也被用来了解大象搜索方法在特征选择过程中的有效性。基于随机梯度下降的深度神经网络作为具有softmax激活函数的深度学习（DL），然后用于减少的特征（基因），以便根据基因表达水平更好地实验在十个最流行的癌症微阵列基因选择数据集上进行，这些数据集从UCI机器学习库中获得通过所提出的基于大象搜索的深度学习方法获得的实证结果与最近发表的文章一致，适用于未来的生物信息学研究。最后，通过单因素方差分析和事后Tukey检验进行统计显著性检验，©2017作者制作和主办：Elsevier B.V.代表沙特国王大学这是一CC BY-NC-ND许可下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍基因是生物遗传信息的基本存储单位从技术角度来看，它可以被视为构成染色体一部分的不同核苷酸序列。微阵列数据分析是一项相对较新的技术，其目的是通过在不同的实验条件下对大量基因进行准确的医学诊断，由于微阵列数据集的昂贵和复杂的性质，在某种程度上难以预测，因此需要使用适当的统计工具进行仔细的实验以进行富有成效的分析。基因表达是将基因的DNA序列映射到相应的mRNA序列，再映射到蛋白质的氨基酸序列微阵列数据分析是一项具有巨大机会的强大技术电子邮件地址：mrutyunjaya. utkaluniversity.ac.in基因表达谱描述了细胞中成百上千个与相应蛋白质相关的基因的表达水平，有助于人们理解生物学过程的细胞机制数据挖掘有助于从如此庞大而复杂的微阵列基因表达数据集中提取有意义的观察结果，作为后基因组癌症诊断，以揭示基因如何调控的细节;基因如何影响细胞的癌性突变以及其性能如何取决于各种医学实验条件等等。微阵列数据集在行中呈现样品或条件，而在列中提供相应的基因。分类数据挖掘是以最佳方式处理特定疾病的患者基因表达谱的最大印象，促使在该领域进行更多的研究以提高预测准确性。由于微阵列数据分析中存在大量的基因，因此总是建议进行一些潜在的基因（特征）选择算法，以找到最具信息量的基因，以减少维数灾难。这还可以与最佳可能的分类器一起应用，以正确地预测样本，从而实现高准确度，降低计算成本，更重要的是，然后可以针对该患者的治疗定制高效和有效的诊断和预后。https://doi.org/10.1016/j.jksuci.2017.12.0021319-1578/©2017作者。制作和主办：Elsevier B.V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comM. Panda/ Journal of King Saud University941微阵列数据分析需要一个明确的目标，以确保其成功实施，以促进整个社会的更大事业，正如Tjaden和Cohen（2006）所引用的那样。聚类是使用K均值聚类和自组织映射（SOM）进行基因谱微阵列数据分析的流行技术之一（Sheng-Bo et al.，2006年; Young，2009年）。Alshamlan等人（2013）提出了一个全面的研究目标和方法的癌症微阵列基因表达分析，并得出结论，详细调查在这一领域的可用方法。研究人员发现，大多数使用微阵列基因表达谱的癌症研究包含各种疾病的比较（Simon，2009; Wang et al.，2007）和它们的预测，因此寻求使用分类算法而不是聚类算法（Doughnut等人，1995年）。支持向量机（SVM）最初被认为是用于二元分类的微阵列数据分析的最流行和完善的分类方法之一（Platt等人，2000年）。但是，由于许多癌症数据集是多类的，研究人员已经提出使用SVM的许多变体，例如：DAGSVM（Platt et al.，2000）、进化SVM（ESVM）（Huang和Chang，2007）、基于遗传算法的SVM（GASVM）（El Akadi等人，2009）和模糊SVM（FSVM）（Mao等人， 2005年）。许多人还提出了基于神经网络的分类器，以进行有效和高效的微阵列数据分析，包括： 2007）、极限学习机（ELM）（Zhang等人，2007）、改进的小波神经网络（WNN）（Zainuddin和Pauline，2009）、概率神经网络（PNN）（Berrar等人， 2003）和随后的人工神经网络（SAAN）（Roland等人， 2004年）。除了单一分类或聚类方法用于基因分类外，集成方法也被研究者所采用多类分类问题，但是注意到集成方法与单个分类器方法相比不能提高性能（Ghorai等人， 2010年）。作者（Kothandan和Biswas，2016）提出了基于核的方法和决策树之间的比较，以探索识别参与癌症途径的miRNA的最佳预测模型。考虑到所有上述考虑，可以得出结论，一个有效的基因选择方法是一个必须与新的方法，其次是一个有前途的快速分类器的发展，更好的基因预测与可接受的准确性。这促使我们使用一种新的基于大象搜索的优化与深度神经网络分类器进行进一步的实验，以提高具有两类、三类和四类分类的不同微阵列数据集的性能。1.1. 动机和目标即使有许多研究认为使用基于过滤器或基于包装器或这两者的混合来寻找用于更好的临床诊断的信息量最大的基因的子集，但是在用于获得对临床诊断的新见解的新基因选择（特征选择）方法的性能方面仍然有很多要实现。考虑到基因选择是 NP 难的（Patrenahalli和Fukunaga，1977），并且从基因表达谱中找到最佳基因对于获得预测准确性确实是一个挑战有几个建议使用分类和聚类方法来解决这个问题，增加新的多目标优化和某种合适的分类器来解决二进制和多类微阵列数据集，作为文献中存在的未来范围因此，我们的动机是通过使用基于随机梯度下降的深度学习分类器的有效的基于大象搜索的优化来解决这个问题。此外，我们还比较了已经建立了萤火虫搜索优化检查我们提出的方法的有效性。最后，通过与其他相关工作的比较，验证了本文的建议。2. 材料和方法本节讨论本文采用的数据集和方法2.1. 使用的数据集我们使用公开可用的微阵列数据集（Liu et al.，2005;Zhu等人，2007年），我们在本文中建议的研究，详情如下：前列腺癌：该数据集包含用于二进制分类的肿瘤与正常样本的分类。训练数据集包含52个前列腺肿瘤样本和50个正常样本。该数据集包含12，600个癌症基因。白血病（ALL-AML）：该数据集包含骨髓样本，从6817个人类基因中收集了超过7129个探针，其中38个样本（27个ALL和11个AML）用于训练目的，34个样本（20个ALL和14个AML）用于测试目的。该数据集用于二进制分类。结肠肿瘤：该数据集包含62个样本，其中40个样本为阴性（肿瘤活检来自肿瘤），22个样本为阳性（活检来自同一人结肠的健康部分）。基于所测量的置信度水平的置信度，从6500个基因中选择2000个。这属于二元分类。DLBCL-斯坦福：弥漫性大B细胞淋巴瘤（DLBCL）数据集包含47个样本（24个来自“生发中心B样”组，23个来自“活化B样”组），其中每个样本由4026个基因表达表示。这是用于2类分类。Lung-H：Lung-Harvard数据集包含用于分类的多类（5类）。这具有203个肺肿瘤样品（139个肺腺癌样品（标记为ADEN）+21个鳞状细胞肺癌样品（标记为SQUA）+20个来自肺类癌的样品（标记为COID）+6个来自小细胞肺癌的样品（标记为SCLC）和17个正常肺样品（标记为NORMAL），每个样品由12，600个基因组成。卵巢癌：卵巢癌的数据集使我们了解了区分血清中蛋白质组模式是否有卵巢癌症状的情况。有相似家族史的妇女患乳腺癌的可能性最大。该数据集是从253个样本（162个卵巢样本和91个正常样本）的质谱产生的蛋白质组谱中获得的。原始光谱数据包含15，154 M/Z（分子质量/电荷）识别度的每个样品的相对强度振幅。这是用于2类分类。乳腺癌：该数据集包含78例患者的样本（34例为复发类别，其中患者在5年内发生远处转移，其余为相同时间段内健康患者的非复发类别）。数据集中存在的基因总数为24，481。原始比率数据中“NaN”符号的值100.0.这是用于二进制分类。MLL：该数据集包含3类（常规急性淋巴细胞（ALL）、急性髓性白血病（AML）和混合系白血病（MLL））。MLL易位基本上见于婴儿白血病和化疗诱导的白血病，具有统一和独特的模式来分类所有类别。SRBCT：SRBCT（小圆蓝细胞肿瘤）数据集包含四种不同类型的儿童癌症肿瘤，如尤因家族肿瘤（EWS942M. Panda/ Journal of King Saud University肉瘤（BL）和横纹肌肉瘤（RMS）。这些肿瘤的基因表达值基于对不同治疗方案的治疗和复发的反应，CNS：CNS（中枢神经系统）数据集提供胚胎性肿瘤患者的结局预测。这包含总共60个样品（21个是存活的，39个是失败的），具有7129个基因。这是用于2类分类问题。2.2. 用方法本节重点介绍了本文采用的基因选择和分类方法。2.2.1. 基因选择方法基因（或称为特征）选择对于大数据集的降维具有极其重要的意义。选择代表数据集中原始基因的最小最佳基因可以导致以可接受的准确度给出更快的结果。生物启发式搜索算法是一种流行的基因选择方法，它似乎可以最有效地解决各种大规模、NP难和多模态的复杂问题。经典的搜索方法会产生局部最优解，因此与全局搜索优化方法（如遗传算法和粒子群优化算法等）相比，它们更快，并提供最佳的精度。局部搜索方法需要很好地理解初始起始点，没有初始起始点，它可能不会产生有效的结果，相反，全局搜索方法不依赖于这种初始理解，并且不太可能陷入局部最小值（Eslami等人，2013年）。下面的部分讨论了两个有希望的基因selec-我们的实验方法。2.2.1.1. 萤火虫搜索萤火虫搜索（FFS）最初由Yang（2010）提出，被认为是最新的基于种群的全局优化方法之一，它通过模仿萤火虫的闪烁行为来工作。实现的简单性和高效的计算使FFS成为理想的选择，与人工蜂群（ABC），粒子群优化（PSO）和蚁群优化（ACO）相比，仅举几例（Kora和Sri RamaKrishna，2016）。大约有2000种萤火虫，它们是能够闪烁短暂而有节奏的光的小昆虫，这反过来又吸引了其他萤火虫。由于光线强度的吸引力随着距离的增加而减小，萤火虫只能在几百米的范围内可见。算法中使用的目标函数与萤火虫的荧光行为相关联萤火虫随机移动，如果它没有发现比它更亮的萤火虫，否则它会跟随最亮的邻居。Firefly算法的工作过程如图所示。1.一、使用Firefly算法的优势在于以下几点。dFFA处理多峰优化问题的自然方式是将整个种群划分为子群，然后将每个子群划分为局部模式，在每个局部模式中，存在全局最优解，dFFA通过其多个代理之间的非线性吸引行为收敛得更快。[4]简单性使得它在各种优化问题中很受欢迎2.2.1.2. 大象搜索大象搜索算法（ESA）（Deb等人， 2015）是一种高度非线性、多模态的全局优化技术，其灵感来自于象群的生物习性。大象搜索被认为是一个很好的优化技术，其强化在局部搜索空间，以获得更好的解决方案。它提供了覆盖合理搜索空间的全局最优解，而不会陷入局部最优。Fig. 1.萤火虫搜索算法工作程序.M. Panda/ Journal of King Saud University943此外，在这个过程中，当两只雄象碰撞时，它们根据它们的不等质量彼此相对移动，其中它们的视觉范围描绘了它们移动物体的半径质量代表适应值，质量较高的大象将另一头大象拉出来，成为赢家，然后进一步寻找更好的位置，寻找食物。值得注意的是，雄象在雌象附近漫游，而不是独立移动，以探索自己寻找食物的最佳位置。大象搜索优化过程的伪代码如图2所示。该搜索算法执行以下任务。d最佳可能的解决方案是通过迭代过程实现的d当地的搜索由一些雌性大象首领领导，以获得最佳结果的可能性更高。d公象是游骑兵，领导象群，使整个象群能够走出局部最优。在实施大象搜索的同时，针对其有效性解决了以下问题。d每头大象的视觉范围是固定的，可以用欧几里得距离计算。可以观察到，雄性大象的视觉范围比雌性大象更好d第二，在两头或更多大象在搜索视觉范围的情况下，采用当前的适应值进行比较。具有更高适应值的大象将被保留，其他大象可以被随机移除。d在这个基本的ESA（大象搜索算法）中，观察到仅存在单个雌象群，并且没有群的分离。d如果一头大象死亡，新的同性别小象出生，以保持群体的性别平衡和固定的2.3. 深度学习深度学习（Min等人， 2016）被称为通用近似器，因为其从输入到输出的映射为y = f（x），以找出数据集中存在的属性x和y之间的相关性。神经网络是根据人脑的工作模式进行模式识别的。深度学习（深度神经网络或DNN）在深度方面不同于传统的神经网络这就是为什么深度学习也被称为至少三个隐藏层可以被认为是深度学习。深度学习还可以被视为具有特征层次结构，因为它们将特征从一层组合和聚合到下一层这样，它增加了复杂性和抽象层次，使其成为处理非常大和高维复杂数据集的一个很好的选择深度学习与传统学习方法的性能比较如图所示。3.第三章。深度神经网络需要设置许多超参数以用于实现，并且同时，应当注意，使用梯度下降算法找到该超参数的最佳值集合可能是不可行的，这是由于几个约束，如数据集是实数和离散的混合;每个约束都是随机的。图3.第三章。深度学习与数据大小大象搜索算法（ESA）初始化大象组（）当满足停止标准或要使用的迭代次数时，移动雄象如果两个不同的大象群体在视觉范围内进行，则避免局部最优（）然后在这种情况下，由组长（）雌象深搜索（）然后执行Elephant死和新的大象出生（）最后，更新每个组end while后处理和手术图二. 大象搜索优化过程。944M. Panda/ Journal of King Saud University超参数难以单独优化，并且找到局部最小值需要大量时间。最初，深度神经网络的权重足够小，使得激活函数（这里使用softmax激活函数）以大梯度值线性操作。深度神经网络的学习率应该有效地选择，此外，从输入来看，需要更多的网络容量，因此需要大量的隐藏层。需要L1或L2正则化方案来检查深度神经网络是否可以提供更好的解决方案。在这个过程中，三个隐藏层被认为是ReLu（Rectified Linear Unit），而在输出层，softmax激活函数与MCXENT（多类交叉熵）相结合。任何隐藏层都不应小于输入层节点的四分之一。对于较大的数据大小，建议使用更多的隐藏层。同时，如果选择与输入节点相同数量的隐藏层，则存在身份丢失的机会，同时，太多的隐藏层可能导致噪声和过拟合。为了避免过拟合，可以采用L1和L2正则化。为了更好的参数学习，epoch的数量既不能太少，也不能太大，以避免对训练数据的过拟合。迭代定义了一行中小批量参数更新的次数。小批量是指在计算梯度和参数更新时一次考虑的示例数量。即使迷你批量大小的选择在很大程度上取决于应用，大小1将不会提供等位性的益处;大小10对于GPU来说太小，但对于CPU来说是可接受的;但是，大于10到100的大小可以提供预期的结果。为了更快的训练成为可能，随机梯度下降（SGD ）优化与Nesterov动量更新相结合，本文使用。在该基因选择和分类策略中使用的参数设置如下：d萤火虫搜索/大象搜索：吸收类型-0.001（设置萤火虫种群成员的吸收系数），Betamin-0.33（设置萤火虫成员的零距离吸引力），加速器类型-正常，混沌系数-4.0，混沌映射类型-logistic映射，迭代次数-20目标类型-优点/多目标，群体大小-20（群体中的颗粒）。报告频率-20（设置生成报告的频率）d深度学习（深度神经网络）：激活函数- Softmax，权重初始化方法-XAVIER，偏差初始化-1.0，分布函数-正态分布，学习率-0.1，偏差学习率-0.01，动量-0.9，随机梯度下降的更新器- NESTEROVS，梯度归一化阈值-1.0，损失函数-损失MCXENT，ADA- DELTA的rho参数-0.0，ADADELATA Epidemic参数- 1.0E-6，RMSPROP的RMS延迟参数-0.95，ADAM的平均衰减参数-0.9，ADAM的方差参数-0.999，Epochs的个数-10，优化算法- SGD（随机梯度下降），批量大小-100，种子-1，小数位数-2深度神经网络分类器的伪代码如图所示。四、这里，S =选定集合，C =候选集合，并且F^ S[ C]。输入权重=WF，选定的输入权重，如使用属性选择的在S = Ws，Wc作为候选权重中，GF指示对应于WF的梯度，GFj指示GF以从C中选择一个特征，诸如第j个特征，WFj指示WF，其中新选择的输入权重表示与WF中的第j个输入节点相关联的权重。S^S[F] j和C= CnFj指示S和C将被更新通过分别添加或移除j。ADADELTA（Zeiler，2012）是一种基本上用于深度学习分类器中的梯度下降方法的每维学习速率方法，其计算开销最小，无需手动调整学习速率（因此是动态适应），并且在选择超参数时对噪声数据具有鲁棒性。ADAM（Kingma and Ba，2015）是一种简单直接的随机梯度下降优化方法，用于有效地自适应估计低阶矩。通过这种方式，计算需要更少的内存，这很有趣。3. 实验结果和讨论在此，我们提出了我们的实验结果，并讨论其在微阵列基因表达谱的有效性。图 5示出见图4。深度神经网络算法的伪代码。M. Panda/ Journal of King Saud University945图五. 实验过程。表1基于萤火虫搜索的深度学习分类器优化Sl.No.数据集原始属性（基因）实例班数简化属性（基因）以秒为单位的准确度（%）1前列腺癌12,601102251891.2487.262白血病（ALL-AML）713038224631.841003结肠肿瘤20016225620.4377.434DLBCL-斯坦福402747218050.7989.365肺-哈佛12,6012035530415.5393.116卵巢癌15,15525323517.2397.247乳腺癌10286260.7565.398MLL12,58272319014.5980.569SRBCT23088347680.6393.9810CNS712972215260.4556.67表2基于大象搜索的深度学习分类器优化SL.号数据集原始属性（基因）实例班数简化属性（基因）CPU时间（秒）精度%1前列腺癌12,601102242671.3388.242白血病（ALL-AML）713038210440.3192.113结肠肿瘤20016225720.4179.034DLBCL-斯坦福402747217170.4491.495肺-哈佛12,601203545452.9294.106卵巢癌15,15525323841.6799.217乳腺癌10286261.0973.438MLL12,58272319015.1380.569SRBCT23088343060.6683.1410中枢神经系统712972216210.4753.34（CNS）本研究所进行的实验过程。作为特征选择过程的一部分，输入微阵列数据集分别应用于大象搜索（图2）以及萤火虫搜索优化过程（图1），以获得简化的特征（基因）。然后将减少的特征应用于深度神经网络分类器（图4）作为深度学习过程，以获得更好的基因表达分类。为了解决神经网络模型训练过程中可能出现的数据过拟合问题，采用10次交叉验证方法，将整个训练数据分成10个子集，然后运行10次分类算法。首先，训练数据的9/10部分用于训练模型，其余1/10用于测试目的。该过程继续，直到每个1/10子集被精确地用于模型的验证一次。最后通过计算平均分类准确率来了解所提分类算法的有效性。最后，结果进行了验证，得到的分类精度和CPU模型的建立时间。预测准确度或分类准确度可以作为正确分类的样本数量与样本总数之间的比率来获得。表1和表2展示了所提出的FFS方法，基于ESA的深度学习。从表1和表2中可以看出，深度学习几乎适用于所有数据集，除了CNS数据集。这可能是由于可用于分类的实例数量较少此外，表3中提供了比较研究，以了解所提出的方法的有效性。比较结果表明，该方法对所有的微阵列数据集都达到了相当的准确性.在验证表3中给出的其他工作的适用性时，观察到Vural et al. （2015）已经使用奇异值分解以及信息增益来减少属性的数量，直到它们获得的数量小于样本的数量，并且Mukkamala等人（2005）提出了他们使用不同数量的减少的属性的工作。在这个方向上向前迈进了一步，表4和5提出了一个比较分析，与其他工作的分类精度和执行时间（以秒为单位），用于建立分类模型。从表4和表5中的结果可以看出，所提出的ESA-DL在所有数据集的所有其他算法中是最快的;在淋巴瘤和前列腺癌数据集中提供了最佳的准确性，并且对于其他数据集提供了可接受的准确性。还可以观察到FFS-DL在白血病数据集中是最好的，而ELM（Yashoda和Ponmuthurammalingam，2015）在MLL中是最好的SRBCT数据集了解基因数量的减少可能在实现微阵列数据分析的高准确性方面起着至关重要的作用，与研究人员提出的最新工作进行了广泛的比较，如表6所示。从表6中可以明显看出，FFS + DL对于白血病数据集是100%准确率，ABC-SVM对于所有其他数据集是最好的946M. Panda/ Journal of King Saud University表3准确度（%）与一些现有研究的比较（第1部分）。方法/数据集ALL-AML结肠肿瘤SRBCT龙和DLBCL前列腺癌SVM97.1483.8795.1893.698.7–Vural et al.（2015）ANNVural等人（2015年）91.4383.8795.1892.1294.81–Random Forest Vural et al. （2015年）91.4387.186.7590.6490.91–PSA（Glinsky等人，（ 2004年第10期）–––––77MARSwith 6 attributes Mukkamala et al. （2005年）–––––68.2随机森林6属性Mukkamala等人（2005年）–––––80.2LGPwith 6 attributes Mukkamala et al. （2005年）–––––92.1我们的（FFS + DL）10077.4293.9893.1189.3687.26我们的（欧空局+DL）92.1179.0383.1494.191.4988.24表4准确度（%）与一些现有研究的比较（第2部分）。方法数据集%准确度执行时间（秒）箱形图的上尾和下尾之间的范围很小，只有一个数据点落在下尾之下，如在ESA-DL（或ESA-DNN）的情况下。总之，详细评估ESA+的性能Pillar NN（Susmi等人， 2015）ALL-AML85.6采用ABC-SVM的DL方法，如表6所示（%）NN（Susmi等人，2015年）ELM（Yashoda和Ponmuthurammalingam，2015）BPN（Yashoda和Ponmuthurammalingam，2015）（白血病）82.3579 2555 49准确度，使用箱形图的图形表示如图6所示。从图6中可以看出，ABC-SVM与所有其他SVM相比表现更好为了验证实验结果并得出正确的结论，我们建议使用单因素方差分析和事后Tukey HSD（诚实显著性差异）检验来进行统计分析。欧空局+DL（我们的）FFS + DL（我们的）100 0.79统计显著性检验（Haynes等人， 2013年）。获得的结果统计学显著性检验后的结果见表7至表11。ELM（Yashoda和Ponmuthurammalingam，2015）BPN（Yashoda和Ponmuthurammalingam，2015）淋巴瘤（DLBCL）65 3047 533.1. ANOVA的结论与单因素方差分析的F统计量对应的p值欧空局+DL（我们的）FFS + DL（我们的）89.36 0.79表5准确度（%）与一些现有研究的比较（第3部分）。高于0.05，表明对于该显著性水平，处理没有显著差异Tukey HSD检验以及其他多重比较检验（如Scheffe或Bonferroni）可能无法缩小哪对治疗存在显著差异的范围。尽管我们提出的ESA-DNN和ABC-SVM并不表明存在在单因素方差分析中，我们仍然进行多重比较检验，以揭示结论的任何新性。在某些情况下，一小组配对的Bonferroni检验可能显示出显著性，即使单因素方差分析表明我们用于比较分析的数据中有太多的噪音和随机性。3.2. Tukey HSD检验我们提出的ESA + DL在大多数情况下都达到了与ABC-SVM几乎接近的精度，但在Colon数据集的情况下精度较低。为了对多个数据集获得的准确度结果进行更深入的可视化;绘制了各种算法的箱形图，如图6所示。从图6中可以看出，在某些情况下（表3和表6），较少数量的基因选择在准确性方面表现更好，而在其他情况下（表4和表5），我们提出的具有大量基因的方法在可接受的准确性方面工作良好而与单因素ANOVA的F统计量对应的p值低于0.05，这强烈表明一对或多对治疗具有显著差异。在此，我们使用k = 2个处理，对于这些处理，应将Tukey我们首先基于k = 2次处理和m = 8次误差项自由度，在学生化范围分布中显著性水平a = 0.01和0.05（p值），确定Tukey-Kramer HSD Q统计量的临界值当Qa = 0.01，k = 2，m =0时，我们得到了Q的临界值，a= 8分别为4.7452和3.26123.3. 事后Tukey HSD测试计算器结果事后Tukey HSD检验通过评估Qi，j是否大于所有相关治疗对的临界Qi，j值进行计算。ELM（Yashoda和Ponmuthurammalingam，前列腺8520（2015年）BPN（Yashoda和Ponmuthurammalingam，6437（2015年）ESA + DL（我们的）88.241.33FFS + DL（我们的）87.261.24ELM（Yashoda和Ponmuthurammalingam，MLL（2015年）9115BPN（Yashoda和Ponmuthurammalingam，6630（2015年）ESA + DL（我们的）8115.13FFS + DL（我们的）80.5614.59ELM（Yashoda和Ponmuthurammalingam，SRBCT9810（2015年）BPN（Yashoda和Ponmuthurammalingam，7822（2015年）ESA + DL（我们的）93.980.66FFS + DL（我们的）92.770.63M. Panda/ Journal of King Saud University947P我P表6准确度（%）与一些现有研究的比较（第4部分）：括号内显示的是减少的基因算法结肠白血病肺SRBCT淋巴瘤ABC-SVM（Alshaman等人，（ 2016年）95.61（20）93.05（14）97.91（8）95.36（10）96.96（5）GA-SVM（Alshaman等人，（ 2016年）93.53（83）91.99（51）95.83（62）92.77（74）93.93（43）PSO-SVM（Alshaman等人，（2016年）93.55（78）95.83（53）94.79（65）93.97（68）96.96（8）PSO-SVM（Qi等人，（2007年）85.48（20）94.44（23）–––PSO-SVM（Javad和Giveki，2013）87.01（2000年）93.06（7129）–––GA-SVM（Peng等人，（2003年）93.55（12）––––mRMR-GA（El Akadi等人，（2009年）–––九五（五）–ESVM（Huang和Chang，2007）––95.75（7）–--ESA + DL（我们的）79.03（572）92.11（1044）94.1（4545）93.98（306）91.49（1717）FFS + DL（我们的）77.42（562）一百（2463）93.11（5304）92.77（768）89.36（1805）见图6。用于准确度比较的箱形图。表7统计学显著性检验，采用单因素ANOVA和事后Tukey HSD检验表9ESA-DNN和ABC-SVM的Tukey HSD结果。总和xi平均值x<$95.7780 90.1220平方和2019 - 04 - 25 00：00：00样本方差s23.3969 39.7008 28.0407样品标准品dev. 1.8431 6.3009表10Scheffé多重比较STD. dev. 平均值0.82422.81781.6745治疗对舍费t统计Scheffép值谢弗推论还通过使用学生化范围分布以及对应于Qi，j观测值的p值进行检验。表9-11 中的统计数据从上述所有讨论中，我们发现：深度学习无法表现得更好，因为当选择一个复杂的模型来从一个简单的问题中学习时，它可能会过度拟合此外，深度学习在很大程度上取决于网络的深度;它被设想在复杂问题中工作得很好。公ESA-DNN与ABC-SVM 1.9265 0.0902074不显著应当理解，与两类分类相比，直接多类分类导致低准确度。同时，由于基因芯片数据集经过约简后，样本数仍然较少，与属性数相比，要获得较高的准确率也是一项非常具有挑战性的工作。与现有的研究相比，统计显著性检验和事后检验阻碍了对模型的深入理解，无法从众多模型中选出最佳模型。表8k = 2个独立处理的单因素方差分析（ESA-DNN和ABC-SVM）。源平方和SS自由度m均方MSF统计量p值治疗79.9758179.97583.71140.0902误差172.3906821.5488––总252.36649–––（描述性统计）k = 2个独立项ESA + DNN和ABC-SVM）。治疗Tukey HSDTukey HSDTukey HSD治疗ABC-SVM合并总数ESA + DNN对Q统计量p值推理观察结果N5510ESA-DNN与ABC-SVM2.72450.0902088微不足道478.8900450.6100929.5000948M. Panda/ Journal of King Saud University表11Bonferroni和Holm多重比较。治疗对Bonferroni和HolmT-统计量Bonferronip值邦费罗尼推论霍尔姆p值Holm推论ESA-DNN与ABC-SVM1.92650.0902074微不足道0.0902074微不足道4. 结论和今后的范围从本文进行的文献检索和实验中可以理解，可靠和详细的分析对于癌症分类的基因表达数据分析的成功至关重要。由于基因表达数据集是复杂的数据集，因此新基因的选择以及有效和高效的分类策略需要对疾病的诊断给予最大的关注。结果表明，大象搜索法可以从数据集中的大量冗余基因中选出最合适的基因。最有前途的，最近的深度学习分类技术，然后发现有前途的具有良好的准确性。单因素方差分析和事后Tukey HSD检验被用来检查该方法的适用性。结果认为，我们提出的方法是同样显着的最好的方法在文献中迄今为止。此外，我们提出的方法的有效性是在未来的大数据集与大量的样本以及大量的属性进行测试。引用Tjaden，B.，Cohen，J.，2006.微阵列数据解释的计算方法综述。Appl. 真菌生物技术，生物信息学6，7-18。Sheng-Bo，G.，Lyu，M.R.，洛克，T. M.，2006.基于互信息的基因选择用于多类癌症的分类。在： 2006 年计算智能和生物信息学国际会议论文集 - 第三卷，序列。ICIC'06。Springer-Verlag，pp. 454- 463杨，Y. T.，2009.高效的多类癌症诊断算法，使用全局相似性模式。Comput. Stat.数据分析53（3），756-765。https://doi.org//j.csda.2008.08.028.Alshamlan，Hala M.，Badr，Ghada H.，Alohali，Yousef，2013.癌症微阵列基因表达谱研究的目的与方法。 2013年世界工程大会论文集，WCE 2013，2013年7月3日至5日，英国伦敦。西蒙，R.，2009年DNA微阵列表达数据的分析最佳实践研究临床血液学22（2），271-282。Wang，L.，美国，Chu，F.，谢伟，2007.使用极少数基因的表达进行准确的癌症分类。IEEE/ACM Trans.Comput. Biol. 生物信息学 4（1），40-53.Doughnut，J.，科哈维河，Sahami，M.，1995.连续特征的有监督和无监督离散化。在：机器学习：诉讼第十二届国际会议。Morgan Kaufmann，pp. 194-202.普拉特，J.C.，克里斯蒂安尼尼，N.，Shawe-Taylor，J.，2000.多类分类的大边缘dags。在：神经信息处理系统的进展。 MITPress，pp. 547- 553黄鸿L.，Chang，F.- L.，2007. ESVM：进化支持向量机，用于微阵列数据的自动特征选择和分类。生物系统90（2），516-528。ElAkadi，A.，胺，A.，El Ouardighi，A.，Aboutajdine，D.，2009年提出了一种基于最小冗余最大相关（ mrmr ）和遗传算法（ GA ）的基因选择方法。在：IEEE/ACS计算机系统和应用国际会议，AICCSA 2009年，pp。 69比75毛，Y.，Zhou，X.，中国科学院，π，D.，Sun，Y.，黄世聪，2005.基于模糊支持向量机和基因选择二叉决策树的多类癌症分类。 J. BioMed. Biotechnol.2（8），160-171。张，R.黄，G- B、Sundararajan，N.，Saratchandran，P.，2007.使用极端学习机进行多类别分类用于微阵列基因表达癌症诊断。IEEE/ACM传输计算生物信息学4（3），485- 495。Zainuddin，Z.，Pauline，O.，2009.改进小波神经网络用于微阵列基因表达数据的癌症早期诊断。在：IJCNN2009国际神经网络联合会议，pp。 3485- 3492Berrar，D.，Downes，S.，Dubitzky，W.，2003.使用基因表达谱和概率神经网络进行多类癌症分类。在：太平洋生物计算研讨会，pp。 5比

下载后可阅读完整内容，剩余1页未读，立即下载