没有合适的资源?快使用搜索试试~ 我知道了~
基于记忆的布谷鸟搜索算法在基因表达特征选择中的应用
医学信息学解锁24(2021)100572基于记忆的布谷鸟搜索算法在基因表达特征选择中的应用Malek Alzaqebah,PhDa,b,Khaoula Brikia, b,Nashat Alrefaia, b,Sami Brinia, b,Sana Jawarneh c, Mutasem K. Alsmadi d,*,Rami Mustafa A. Mohammad e,IbrahimALmarashdeh d,法哈德·AAlghamdid,Najoud Aldhafferi f,Abdullah Alqahtani fa伊玛目Abdulrahman Bin Faisal大学理学院数学系,P.O. Box 1982,31441,City of Dammam,沙特阿拉伯b&阿卜杜勒拉赫曼·本·费萨尔伊玛目大学基础应用科学研究中心,P.O. Box 1982,31441,达曼,沙特阿拉伯cAbdulrahman Bin Faisal大学社区学院计算机科学系,P.O. Box 1982,31441,City of Dammam,沙特阿拉伯d Abdulrahman Bin Faisal大学应用研究和社区服务学院信息管理系,P.O. Box 1982,31441,City of Dammam,沙特阿拉伯eAb d u l r a h m a n B i n Fa i s a l 大 学 计算机科学和信息技术学 院 计 算机 信 息 系 统 系 ,P.O. Box 1982,沙特阿拉伯达曼f P.O.伊玛目阿卜杜勒拉赫曼·本·费萨尔大学计算机科学和信息技术学院计算机信息系统系。Box 1982,31441,City of Dammam,沙特阿拉伯A R T I C L EI N FO保留字:布谷鸟搜索算法选择分类芯片癌症预测和记忆方法A B S T R A C T癌症预测在癌症研究领域中已被证明是重要的。这种重要性促使许多研究人员回顾机器学习方法,使用基因表达数据集预测癌症结果。该数据集由许多基因(特征)组成,这些基因(特征)可能会误导机器学习方法的预测能力,因为某些特征可能会导致混淆或不准确的分类。由于寻找最具信息量的癌症预测基因具有挑战性,因此建议使用特征选择技术从大型复杂数据集中挑选重要且相关的特征。在这项研究中,我们提出了布谷鸟搜索方法作为一种特征选择算法,指导下的内存为基础的机制,以保存由最佳解决方案确定的信息最丰富的功能。存储器的目的是在每次迭代时跟踪所选择的特征,并找到提高分类精度的特征。建议的算法已与原始算法使用微阵列数据集进行了对比,所提出的算法已被证明产生良好的效果相比,原始和当代的算法。1. 介绍近年来,特征选择已成为癌症研究的一个热点。特征选择被认为是一个NP难问题[1,2]。问题的复杂性出现在选择信息量最大的特征,这将有助于预测方法以最少数量的特征和令人满意的性能对数据进行高精度分类。癌症是一种当一个或多个细胞开始发生突变时发生的疾病。这可能发生在细胞生长过程中,当细胞开始以异常的方式反应时,例如不受控制地复制自己。随着一系列的突变,癌细胞可能会扩散到身体的其他部位。从而也感染其他细胞如今,癌症分类已经使用了先进的技术,如微阵列技术来进行研究。微阵列数据可以同时测量数千个基因,基因表达数据集作为输出[3]。该技术也已成功地应用于许多问题,并取得了优于其他技术,特别是在医疗领域。微阵列还显示出诊断患有特定疾病的患者的能力。因此,该技术用于检测癌症等疾病。微阵列数据集最重要的弱点是大维度和特征之间复杂的相互关系[4]。为了解决这些问题,需要剔除不相关基因,* 通讯作者。电子邮件地址:maafehaid@iau.edu.sa(M.Alzaqebah),kabriki@iau.edu.sa(K.Briki),nalrefai@iau.edu.sa(N.Alrefai),ssbrini@iau.edu.sa(S.Brini),sijawarneh@iau.edu.sa(S.Jawarneh),mkalsmadi@iau.edu.sa(M.K.Alsmadi)。https://doi.org/10.1016/j.imu.2021.100572接收日期:2021年2月1日;接收日期:2021年3月29日;接受日期:2021年3月31日2021年4月14日网上发售2352-9148/©2021的 作者。发表通过 Elsevier 公司这是一个开放接入文章下的CCBY-NC-ND许可证(http://creativecommons.org/licenses/by-nc-nd/4.0/)中找到。可在ScienceDirect上获得目录列表医学信息学期刊主页:http://www.elsevier.com/locate/imuM. Alzaqebah等人医学信息学解锁24(2021)1005722=⊕表1数据集描述。数据集样品基因类疾病Alon6220002结肠癌[14]Golub7271292白血病[15]戈登18112,5332肺癌的治疗Gravier16829052乳腺癌[17]Pomeroy6071282CNSET [18]Shipp5868172淋巴瘤[19]Subramanian5010,1002不适用[20]田17312,6252骨髓瘤[21]西4971292乳腺癌[22]基亚雷蒂12812,6252白血病[23]孙18054,6134神经胶质瘤[24]杨24812,6256白血病[25]微阵列数据也应该减少[5,6]。在基因表达中,最常见的任务是特征或基因选择,其目的通常是鉴定具有高预测性能的最佳基因。在分类过程中,重要的是将数据分成两个或多个具有相同特征的类。在生物医学领域,当使用具有高维度和低样本量的微阵列数据时,最困难的部分是分类,例如基于癌症分类的微阵列数据集。由于基因子集的数量庞大,使得数据不稳定,容易出现过拟合,因此被认为是一个挑战。此外,较小的基因子集适用于分类程序,并且比例重叠结果是一种稳健的方法,因为它提供了较低的错误率[7]。选择最合适的特征选择方法包括在预处理阶段是必不可少的。这样做将加强对癌症诊断、预测和分类的分析和评价。文献表明,研究人员已经提出了许多特征选择方法,以减少指定预测模型期间的训练时间和计算复杂度。三种主要的特征选择方法是可用的:过滤器,包装器和嵌入式方法。这些技术根据其与分类器的关联进行分类[8]。过滤器方法意味着根据独立于分类器的特征之间的相关性来挑选特征,如参考文献[9]中所述。另一方面,包装器技术通过优化模型训练期间的准确性来评估属性的有效性。相反,在嵌入式技术中,特征选择过程与分类阶段相关联,如参考文献中所述。[10、11]。在这种方法中,选择最重要的特征集的过程被集成在分类模型的结构中,以提供用于选择特征的测量[12]。微阵列的维度非常高,因此扩展了搜索空间的维度。因此,需要一种有效的搜索算法来缩小维数并克服分类过程中可能出现的过拟合问题。因此,在当前的研究中,我们提出了一种基于自适应记忆的新算法来增强特征选择过程:叫做“基于记忆的布谷鸟搜索算法”基于解决方案的适应度值和改进行为(改进计数)自适应地构建记忆, 以 保 持 先 前 的 历 史 记 录 。每次迭代的解决方案。支持向量机用于建立分类模型,根据其分类鲁棒性,这可以通过与其他算法的效率比较来证明[13]。2. 微阵列数据集本节提供了12个微阵列数据集的描述。表一简要说明了本研究中采用的已发表数据集。Alon在1999年提出的结肠癌数据集(Alon 1999)由2000个基因和62个实例组成[14]。40实例22例为肿瘤活检,22例为同一患者结肠健康细胞活检的正常情况。在Golub等人提出的白血病数据集中(Golub 1999),在1999年[15],数据集有72个样本和7129个基因。在Gordon于2002年提出的肺癌数据集(Gordon 2002)中[16],该数据集有12533个基因和181个组织样本,分为两类:150个腺癌和31个恶性胸膜间皮瘤。乳腺癌(Gravier 2010),由Gravier于2010年提出[17],包含2905个基因和168个样本(Pomeroy 2002)。Pomeroy在2002年提出的oTumor [18]包含7128个基因和60个样本,分为两类:21个存活和39个失败。o 淋巴瘤(Shipp2002)数据集由Shipp在2002年提出[19],包含6817个基因和58个样本分为两类。32例来自康复患者,26例来自致死性疾病患者。o Subramanian分为两类[20]。o 骨髓瘤(Tian 2003)由Tian于2003年提出[21],包含12个,625个基因和173个样本。o West在2001年提出的乳腺癌(West 2001)数据集[22]包含7129个基因,49个样本分为2类。o 白血病(Chiaretti 2004)数据集由Chiaretti于2004年提出[23],包含12,625个基因和128个样本,分布为2类。o Sun在2006年提出的胶质瘤(Sun 2006)[24]数据集包含54,613个基因和180个样本,分为4类。o Leukemia(Yeoh 2002)由Yeoh在2002年提出[25],包含12个,625个基因和248个样本分为6类。3. 提出的布谷鸟搜索特征选择算法布谷鸟搜索(CS)算法由Yang和Deb于2009年提出[26]。它的灵感来自于布谷鸟的专性育雏寄生行为,布谷鸟将其卵留在其他一些较小的鸟类(如八哥)的巢中。当蛋孵化时,椋鸟把杜鹃雏鸟当作自己的孩子一样抚养。当它开始长得比巢中的其他小鸟大时,布谷鸟的小鸟会排挤其他的小鸟,以至于它们被完全赶出了巢。在CS算法中,巢代表解的种群,每个蛋表示巢中的一个可能解,布谷鸟蛋表示新的解。由LevyFlight提出,一个更好的新解决方案被一个更差的解决方案所取代。CS算法有三个主要规则,描述如下[26]:每只布谷鸟随机选择一个巢,并在其中产下一个蛋。具有最高质量蛋的理想巢被忽略,在接下来的迭代中进行改进在每一个巢(预定义的巢数)中,宿主杜鹃发现一个奇怪的蛋的概率为<$[0,1]。一旦发现了这个奇怪的蛋,宿主杜鹃就会决定要么放弃这个蛋,要么离开这个巢,在另一个地方建造另一个巢。CS算法通过使用马尔可夫链模型来发现新解,在CS算法中,该方法被称为Levy飞行方程(1)[26]。Xi=Xi+αLevy(λ)( 1)其中Xi是解,α是步长,其中α>0,α1在大多数情况下 λ是布谷鸟i的新解的Levy分布系数。前面的公式是随机步长的随机公式。通常,随机步骤是马尔可夫链,其中以下位置仅基于当前位置(如公式1中的第一项),并且公式1中的第二项是转移概率,在公式中表示逐项乘法。其中步长乘以随机生成的值···M. Alzaqebah等人医学信息学解锁24(2021)1005723Fig. 1. CS算法伪代码[26].图二. 提出了基于记忆的布谷鸟搜索算法。M. Alzaqebah等人医学信息学解锁24(2021)1005724表2CS算法参数。参数值人口规模10迭代100Pa0.3А1λ1.5随机运动就是列维飞行在Levy飞行中,随机步长在探索搜索空间方面效果更好。本质上,Levy飞行提供随机步长,而随机步长由公式2 [26]中假设的大步长的Levy分布通常,λ的范围在[1:3]的范围内。布谷鸟的连续跳跃在这里有效地使一个随机步骤的过程,响应于具有大尾部的幂律步长分布。然而,对于新的解决方案,必须通过远场随机化产生相当大的部分,并且这些位置将与现有的最佳解决方案相距足够远。这将确保系统不会陷入局部最优。这里的随机化更有效,因为步长很大并且是重尾的。CS算法首先随机初始化种群,然后在每次改进迭代中选择一个随机解(布谷鸟)。对选定的解进行Levy飞行以生成新的解,然后将解在种群中随机定位(nest)被选中。新解决方案将位于选定的位置图3.第三章。 比较了CS、PSO、GA和GSA算法在Acc.所提出的算法包括两个主要阶段,如下:4.1. 建立记忆这个阶段是为了保持一些解决方案与他们以前的状态和适应度值是在下面的矩阵X:Sol 1-0 Sol 1-1 Sol 1-2..溶液1-MSSol 2-0 Sol 2 - 1溶液2-MS如果它比那个地方的解决方案更好的话 图 1显示整体:CS算法的过程。·····溶液N-0在图1中,适应度是预测精度,其中目标是最大化由支持向量机(SVM)产生的预测精度(适应度)。在保证分类鲁棒性的基础上,采用支持向量机建立分类模型。这是通过与其他算法的效率比较来测试的[13]。4. 基于记忆的布谷鸟搜索算法基本的CS算法使用Pa作为废弃巢的一部分,并生成全新的解决方案。这一步似乎是不有效的CS算法的过程的早期阶段,因为在早期阶段的解决方案已经没有机会进一步改进。此外,在后期阶段,解决方案将丢失一些有价值的信息,因为它们被放弃,并且将很难开始新的解决方案来改进,因为没有足够的迭代。因此,提出了一种简单的存储器,以防止在早期或后期阶段放弃解决方案。它还将保留未改进的计数器(没有改进解决方案的更改在记忆中找到的。这将有助于选择被放弃的解决方案。图2显示了基于内存的布谷鸟搜索算法的过程。表3溶液N-1溶液N-2..溶液N-MS其中,表示总体列中的解决方案的行是内存大小(MS)。索引为0的列表示迄今为止找到的最佳解决方案。由于内存是自适应的,因此内存大小被设置为迭代次数除以种群大小。因此,如果执行更多的迭代,则需要具有更大大小的存储器4.2. 更新策略一旦找到改进的解决方案,它将被推到索引1(索引0用于保留最佳解决方案),然后同一行中的其他解决方案将向右移动,从内存中删除最后一个。这将提供保持最后改进的MS解决方案,使得在若干次非改进移动之后,算法将返回到先前的解决方案,并尝试找到与手头的解决方案不同的新解决方案。5. 调查结果和讨论本节研究所建议的比较CS,PSO,GA和GSA的精度和平均精度。数据集CSPSOGAGSAACC平均接入ACC平均接入ACC平均接入ACC平均接入Alon87.586.585.985.085.985.181.981.8Golub100.098.6100.097.7100.097.2100.097.2戈登100.0100.0100.0100.0100.0100.0100.0100.0Gravier81.480.582.480.383.682.480.680.4Pomeroy76.574.575.072.275.075.070.870.8Shipp100.098.6100.0100.098.398.3100.098.9Subramanian77.577.370.069.272.568.365.064.2田82.680.181.975.882.681.878.978.4西74.265.772.270.769.767.267.266.4基亚雷蒂90.289.892.183.992.189.391.288.9孙72.971.172.271.972.972.071.571.0杨95.995.797.997.697.596.695.4695.1M. Alzaqebah等人医学信息学解锁24(2021)1005725表4使用准确性和选定功能指标比较CS与两个版本数据集CS改良CSACCAvgSTD.SF平均SFACCAvgSTD.SF平均SFACCDevACCDevAlon87.586.50.011213111293.7194.090.60.0193201202.6Golub100.098.60.006718624702100.0100.00.0000650715.6戈登100.0100.00.000081466187.5100.0100.00.000012061262.5Gravier81.480.50.007318831864.384.582.90.0097299291.9Pomeroy76.574.50.01872513921.786.081.30.0285754713.2Shipp100.098.60.005746424236.1100.0100.00.0026655712.3Subramanian77.577.30.006265885794.587.581.10.02019981009.4田82.680.10.007881418185.284.182.10.008812871259.1西74.265.70.02434253691.281.778.40.0216684714.6基亚雷蒂90.289.80.004881058150.392.191.10.008712211268.7孙72.971.10.00971637526145.877.875.30.021555165457.4杨95.995.70.002534643636.598.097.40.004112441263.6当在12个微阵列数据集中测试时,该方法的描述在表1中给出。 CS的参数设置表2中列出了基于初步实验选择的租金m。在基本CS算法中,pa和α参数是固定的[26]。CS算法中的参数pa、α和λ分别设置为0.3、1和1.5,其中存储器大小设置为迭代次数除以种群大小。本文中用于比较的所有结果都是在具有Intel i5-6200 2.30 GHzCPU和8.0 GB RAM的PC上进行的此外,在31次单独运行中进行了统计结果在特征数量和分类精度方面对算法数据集分为测试组和训练组,其中80%的微阵列数据集用于训练阶段,其余20%用于测试目的[27]。本节对四种著名的基于群体的技术( CS算法、引力搜索算法(GSA)、遗传算法(GA)和粒子群优化(PSO))的结果进行了评估,这些技术被用来判断所提出的方法的性能。所提供的方法的评估是在准确性和平均分类准确性(Acc)方面进行的。表3显示了CS、PSO、GA、GSA算法的准确度(Acc)和平均准确度(Av-Acc)。粗体字体的值代表其他值中最好的值。可以观察到,在处理12个数据集时,CS算法能够在Acc和平均Acc图图3示出了通过测量所发现的准确度和平均准确度。CS算法和三种基于种群的算法(PSO,GA和GSA)的所有芯片数据集在这项工作中使用我们可以观察到,见图4。 CS和改良CS算法在准确度方面的比较。算法-在两个数据集(Golub和Gordon)中获得了100%的准确性。一般来说,CS算法可以在12个数据集中的9个数据集中显示出比其他变体更高的精度。5.1. 对拟议方法在本节中,研究了两种算法(CS算法和基于存储器的CS(修改的CS))的比较结果,以判断所建议方法的性能。建议的方法的评价是关于挑选的特征的数量、挑选的特征的平均数量、总体准确度、平均准确度和每种技术的t检验的P值来表4显示了CS算法与该算法修改版本此外,还注意到修改后的CS可以相对超过其他竞争对手处理12个数据集。与所有12个数据集上的其他变体相比,CS算法无法呈现更高的准确性对于Golub、Gordon和Shipp数据集,CS算法和Modified CS算法获得了100%的分类准确度;然而,为了达到这个准确度,CS算法分别使用了Golub、Gordon和Shipp数据集中的1862、8146和4642个特征,而Modified CS仅使用了650、1206和655个特征。改进的CS算法在求解Alon、Golub、Gordon和Shipp数据集时达到了100%。表4显示,在所有考虑的数据集中,与原始CS算法相比,所选特征和平均所选特征可以提供较差的数字。基于表4中的所选特征,观察到修改图五. CS和改良CS算法在所有数据集的选定特征方面的比较。M. Alzaqebah等人医学信息学解锁24(2021)1005726图六、在CS算法上测试的微阵列数据集的Bo X和须图。图7.第一次会议。在改进的CS算法上测试的微阵列数据集的Bo X和须图。与原始数据集相比,CS算法显著减少了选择的特征数量。此外,在选定的功能方面,修改后的CS在10个数据集(除了Pomeroy和West数据集)上优于原始CS。这表明,修改影响的结果,因为算法,保持访问的解决方案和记忆一些有价值的信息。这有助于进一步的调查和搜索,因为它将防止在早期或晚期放弃解决方案。然后,明显地观察到,当与CS算法相比时,修改的CS在所有方面都优于CS算法。对比12个数据集。图在图4和图5中,每条线分别表示每个微阵列数据集的拾取特征的数量(#SF)、CS算法的准确度值和CS算法的修改版本。图4中的上线表示修改的CS算法,并且图5中的上线表示修改的CS算法。 5表示CS算法。图图6和图7提供了BOX和须状图,该图显示了从八个数据集的CS和修改的CS算法获得的每个解决方案的准确度值的分布,M. Alzaqebah等人医学信息学解锁24(2021)1005727==表5使用准确度、平均准确度和所选特征指标比较两个版本的P值。数据集间p值最佳精度。CS平均精度。选定数量与改良CS相比CS与改良CS功能. CS与改良CSAlon3.74E-140.329.35E-51Golub1.19E-110.081.95E-14戈登NA0.0051.32E-12Gravier2.51E-155.1E-052.00E-46Pomeroy1.18E-190.451.82E-12Shipp3.75E-137.17E-058.94E-18Subramanian6.32E-110.90008.02E-15田3.58E-100.03006.17E-60西8.36E-180.42007.61E-11基亚雷蒂0.09871.00E-50.0424孙0.06601.00E-50.2950杨0.00051.00E-50.0333表6改进CS算法与最新算法之间的比较。该工作用于检验零假设,这意味着由两种算法产生的结果是相等的。上述t检验已经应用于来自表3中可用的两种算法中的每一种的每个微阵列数据集的准确度、平均准确度和挑选特征的数量。这里考虑的t检验的零假设是基于准确度和特征数量的CS算法的两个版本之间没有差异。决策规则规定,当P值0.05时,我们必须拒绝零假设.<当P值0.417>0.05时,则接受零假设。然后,我们可以确定CS算法和修改的CS算法在准确性方面没有差异。同样,如果P值0.013 0.05,零假设被拒绝,<并且我们决定CS算法和改进的CS算法的平均精度。通过类似的计算,t检验已经应用于来自两种不同算法中的每一种的每个微阵列数据集的选定特征和t检验的零假设是平均值无差异 之间 的 两 CS 算法 基于 对 选择的特征。如果P值=0.017 0.05,P值=0.0002,<<改进CS算法最先进的Acc结果0.05则零假设被拒绝,我们决定存在CS算法和改良CS之间的显著差异算法在选定的功能和平均选定的功能。它数据集访问最先进的访问Alon94.0Huijuan等人,2017年[11] 83.41Mundra等人,2010年[31] 91.10Mafarja等人,2017年[33] 87.00Golub100.0Huynh等人,2018年[29]100.00Cilia等人,2019年[30] 99.44结果表明,改进的CS算法在准确性和选择特征数方面均优于CS算法。综合考虑两种算法的所有结果、精度和所选特征,可以看出,改进CS算法是上级它可以用最少的数量生成最高的精度戈登100.0Güçkiran等人,2019年[28]100.00Huynh等人,2018年[29]100.00Mundra等人,2010年[31] 99.90Cilia等人,2019年[30]100.00当应用于一些癌症微阵列数据集时,表5描述了应用于每个微阵列数据集的准确度、平均准确度和所选特征的P值的结果,Huynh等人, 2018年[29] 79.80Arias-Michele 2015年 [34] 76.20两种不同的算法。请注意,表5表示31次运行的结果相同。波默罗伊86.0Güçkiran等人,2019年[28] 79.80Mundra等人,2010年[31]92.10Güçkiran等人,2019年[28] 85.00Arias-Michele 2015年 [34] 63.30表5中粗体字体的P值具有显著性(P值0.05)。<然后,决策规则规定,如果P值0.05,我们应该拒绝零假设,我们将决定存在差异0.05),因此决策规则表明我们应该接受空hy。假设如果P值>0.05,我们将确定无差异West 81.7 Güçkiran等人, 2019年[28]89.80Chiaretti92.1Huynh等人,2018年[29] 85.20CS算法和改进的CS算法在精度、平均精度和所选特征方面的差异。有四太阳77.8Güçkiran等人,2019年[28] 88.30Le Thi等人,2017年[36] 72.30Güçkiran等人,2019年[28]83.30比较中的数据集对所有指标都很重要。就准确度、平均值而言,9、7和11个数据集的p值为0.05<&2012年美国职业棒球大联盟[37]Wang等人,2007年[32]99.70我们的成果每个盒X图中的中位数由将盒X分为两个水平部分的线表示,如果结果在中位数周围成正态比例,则观察到正态分布。从图 6我们可以观察到一些数据集的结果是正确的-通常在中位数附近;像Gravier,Pomeroy和Sun。 中位数以上的数据较为分散。我们还可以注意到在较高的极端处的五个异常值。但在图6中,对于改进的CS算法,8个数据集中的7个数据集的观察结果显示出对称分布,最小值、中值和最大值彼此接近。因此,我们的修改CS算法的鲁棒性得到证实。5.2. 统计检验统计显著性检验用于确定两种方法之间是否存在任何重大区别采用t检验,精度和特征选择的数量。综合所有结果,当应用于某些癌症微阵列数据集时,改进的CS算法可以用最少的特征数生成最高的准确度。表6根据从这些算法获得的最佳准确度,显示了改良CS算法与最先进算法之间的比较,其中粗体显示了最佳准确度。表6显示,改进的CS算法在12个数据集中获得了8个最佳结果,Güçkiran等人[28]获得了5个最佳结果,Huynh等人[29]获得了2个,其次是Cilia等人,2019 [30],Mundra et al. [31],Wang et al. [32],实现了一个最佳结果。因此,改进CS算法是优于所有其他算法。6. 结论本文提出了一种基于记忆机制的特征选择算法,并在高维微阵列数据集上进行了测试。提出的两种CS算法(CS和Modified CS)被广泛用于处理12个微阵列M. Alzaqebah等人医学信息学解锁24(2021)1005728数据集。改进的CS算法采用基于记忆的机制,帮助算法记忆解的行为。这些功能在搜索过程中带来了改进,并记录了种群中每个解决方案的数量。这节省了迭代次数并改进了种群中的每个解。对两个版本的总体分类准确率、所选特征和平均分类准确率进行了详细的比较。改进的CS算法在特征选择方面取得了原混合CS算法中的最佳位置。此外,当将改良CS算法与最新技术算法进行比较时,其具有可比性和优越性。在其他人口为基础的算法和不同的问题,如车辆路径问题和灵活的作业车间调度建议的记忆机制的有效性评估将是我们未来工作的主题。竞合利益作者声明,他们没有已知的可能影响本文所报告工作致谢非常感谢伊玛目Abdulrahman Bin Faisal大学的科学研究主任。 这项研究的资金来自伊玛目Abdulrahman Bin Faisal大学,题为使用Metaheuristic算法进行乳腺癌诊断的自动医学成像系统引用[1] 好的。关于特征选择:以指数级的不相关特征作为训练样本进行学习。麻省理工学院;1998年。[2] 陈波,洪军,王勇.最小特征子集选择问题。计算机科学与技术杂志1997;12(2):145-53.[3] 蔡Z,Goebel R,Salavatipour MR,Lin G.选择不相似基因进行多类分类,在癌症分型中的应用。 BMC Bioinf 2007;8(1):206.[4] 曹军,张玲,王波,李芳,杨军。基于多支持向量数据描述的多肿瘤分类快速基因选择方法。J Biomed Inf2015;53:381[5] WangY,Tetko IV,Hall MA,Frank E,Facius A,Mayer KF,Mewes HW.基因从微阵列数据中选择癌症分类-一种机器学习方法。计算机生物化学2005;29(1):37-46.[6] MundraPA,Rajapakse JC. 基因和样本选择使用T-评分与样本选择。JBiomed Inf 2016;59:31-41.[7] Mahmoud O,Harrison A,Perperoglou A,Gul A,Khan Z,Metodiev MV,Lausen B.一种基于比例重叠得分的功能基因组实验分类特征选择方法。BMCBioinf 2014;15(1):274.[8] Alzaqebah M,Alrefai N,Ahmed EA,Jawarneh S,Alsmadi MK. 邻域搜索方法与蛾优化算法作为一种包装方法的特征选择问题。IntJ Electr Comput Eng 2020;10(4):3672.[9] 王春,杨燕.不平衡分类的双邻域最近邻算法。国际应用数学杂志2020;50(1)。[10] Kumar V B,Vijayalakshmi K和Padmavathamma M.糖尿病预测和分类的混合数据挖掘方法[11] 陆宏,陈杰,严克,金勤,薛毅,高志。一种用于基因表达数据分类的混合特征选择算法。神经计算2017;256:56-62.[12] Bol o'n-CanedoV,Sa' nchez-Marono N,Alonso-BetanzosA,BenítezJM,HerreraF.微阵列数据集和应用特征选择方法综述。Inf Sci2014;282:111-35.[13] 阿布萨姆拉河特征选择与分类方法的比较研究神经胶质瘤的基因表达数据。 Procedia Computer Science 2013;23:5-14.[14] Alon U,Barkai N,Notterman DA,Gish K,Ybarra S,Mack D,Levine AJ. 通过聚类分析揭示肿瘤和正常组织的基因表达的广泛模式寡核苷酸阵列探测的结肠组织。Proc Natl Acad Sci Unit States Am1999;96(12):6745-50.[15] Golub TR,Slonim DK,Tamayo P,Huard C,Gaasenbeek M,Mesirov JP,Coller H,Loh ML,Downing JR,Caligiuri MA.癌症的分子分类:通过基因表达监测发现和预测类别。科学1999年;286(5439):531[16] Gordon GJ,Jensen RV,Hsiao L-L,Gullans SR,Blumenstock JE,Ramaswamy S,Richards WG,Sugarbaker DJ,Pasto R.将微阵列数据转化为使用肺癌和间皮瘤中的基因表达比率的临床相关癌症诊断测试。癌症研究2002;62(17):4963-7。[17] [10]杨文辉,张文辉. T1T2淋巴结阴性乳腺癌患者的预后DNA特征基因染色体癌2010;49(12):1125[18] Pomeroy SL,Tamayo P,Gaasenbeek M,Sturla LM,Angelo M,McLaughlinME,Kim JY,Goumnerova LC,Black PM,Lau C.基于基因表达的中枢神经系统胚胎肿瘤预后预测。Nature 2002;415(6870):436[19] Shipp MA,Ross KN,Tamayo P,Weng AP,Kutok JL,Aguiar RC,GaasenbeekM,AngeloM,Reich M,Pinkus GS. 弥漫性大B细胞淋巴瘤预后预测通过基因表达谱分析和监督机器学习。 Nat Med 2002;8(1):68-74.[20] Subramanian A,Tamayo P,Mootha VK,Mukherjee S,Ebert BL,Gillette MA,Paulovich A,Pomeroy SL,Golub TR,Lander ES.基因集富集分析:一种基于知识的全基因组表达谱解释方法。Proc美国国家科学院2005;102(43):15545[21] 田娥,詹F,沃克R,拉斯穆森E,马Y,巴洛吉B,肖内西Jr JD。的Wnt信号拮抗剂DKK 1在多发性骨髓瘤溶骨性病变发展中的作用 新英格兰医学杂志2003;349(26):2483-94。[22] WestM,Blanchette C,Dressman H,Huang E,Ishida S,Spang R,Zuzan H,Olson JA,小马克斯,小内文斯。利用基因表达谱预测人类乳腺癌的临床状态。Proc NatlAcad Sci Unit States Am2001;98(20):11462-7.[23] [10]李晓,李晓.成人T细胞急性淋巴细胞白血病的基因表达谱鉴定了对治疗和生存有不同反应的患者的不同亚群 血液2004年;103(7):2771[24] 孙L,Hui A-M,Su Q,Vortmeyer A,Kotliarov Y,Pastorino S,Passaniti A,MenonJ,作者声明:J.神经元和神经胶质瘤源性干细胞因子诱导脑内血管生成。癌细胞2006;9(4):287-300.[25] Yeoh E-J,Ross ME,Shurtleff SA,Williams WK,Patel D,Mahfouz R,BehmFG,Raimondi SC,Relling MV,Patel A.通过基因表达谱对儿童急性淋巴细胞白血病的分类、亚型发现和预后预测。癌细胞2002;1(2):133[26] 作者:YangX-S,DebS. 布谷鸟搜索通过L'evy航班。上一篇:WorldCongressonNature&生物启发计算NaBIC); 2009年。p. 210- 4[27] 作者:FriedmanJ,Hastie T,Tibshirani R.统计学习的要素2001;1(10)。[28] GüçkiranK,Cantürk Istec,OüzyilmazL. 使用SVM、MLP和RF与特征选择方法Relief和LASSO对DNA微阵列基因表达数据进行分类。Süleyman Demirel ÜniversistesiFen Bilimleri Energüsü Dergisi2019;23(1):126[29] Huynh P-H,Nguyen V H和Do T-N。随机集成斜决策树用于基因表达数据分类。在第九届信息和通信技术国际研讨会的会议记录,页。137-144。[30] Cilia ND,De Stefano C,Fontanella F,Raimondo S,Scotto di Freca A.微阵列数据集特征选择和分类方法的实验比较。信息2019;10(3):109.[31] Mundra PA,Rajapakse JC.基于t统计量的支持向量癌症分类的基因和样本选择。神经计算2010
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功