没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报采用改进的多目标元启发式算法从高维癌症数据中识别重要生物标志物般若波罗蜜多辩经印度奥里萨邦布巴内斯瓦尔国际信息技术学院计算机科学与工程系阿提奇莱因福奥文章历史记录:收到2020年2020年12月22日修订2020年12月22日接受2021年1月7日在线提供保留字:癌症数据分类基因选择最小化NoG最大化分类精度Fisher评分多目标混沌Jaya算法A B S T R A C T在高维癌症数据中识别最突出的生物标记或具有高分类准确度的基因仍然是机器学习研究人员面临的一个新兴挑战。由于该挑战具有两个目标,即最小化基因数量(NoG)和最大化分类准确率(CAP),因此该问题可以建模为二元多目标方法。在这项工作中,多目标Jaya算法的修改版本,多目标混沌Jaya(MOCJaya),建议选择最小的NoG与高CAP。首先,一个过滤器的方法,即Fisher评分被应用到预先选择的信息基因。然后,MOCJaya算法被用于选择关键基因和分类癌症数据。为了评估所设计的算法的有效性,考虑了十个二进制和多类癌症数据集。在这里,建议的算法进行了比较多目标混沌遗传算法(MOCGA),多目标混沌粒子群优化(MOCPSO),多目标Jaya(MOJaya),多目标PSO(MOPSO),和非支配排序遗传算法(NSGA-II)模型。此外,MOCJaya算法与其他17个现有的模型进行了比较。实验结果和比较分析表明,MOCJaya分类的阳性和阴性样本的癌症数据集在高CAP与较小的NoG。版权所有©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍高维微阵列数据往往遭受高维灾难,因为它由少量的样本或实例与大量的属性或基因。因此,需要最相关的特征子集来降低微阵列数据集的分类复杂性(Ochs,2010;Han,2015; Maulik,2011; Zheng,2011)。传统的基因选择过程分为特征提取和特征选择两部分。在特征提取中,原始特征集被转换为使用*通讯作者。电子邮件地址:c117007@iiit-bh.ac.in(P.P. Debata),puspanjali@iiit-bh.ac.in(P.Mohapatra)。沙特国王大学负责同行审查制作和主办:Elsevier线性和非线性技术(Bicciato等人,2003),而从原始特征中选择特征的小子集(DerMaaten等人, 2009)在特征选择方法中。本文重点研究了特征选择方法 根据评估措施,特征选择被分类为过滤器、包装器和混合器(Ang等人,2016)技术。过滤器方法侧重于度量学习任务前的特征的内在特征,而包装器方法则围绕着机器学习算法,其评价标准主要是基于分类错误率或准确率。Wrapper方法使用一些Meta启发式算法,这些算法与机器学习算法一起进行最佳特征选择,例如使用支持向量机(SVM)的模糊后向特征消除(Azizet al.,2016)、具有极端学习机(ELM)的遗传算法(Shukla等人,2018),多群SVM(García-Nieto和Alba,2012),PSO与K-最近邻(KNN)(Kar 等人,2015)、具有SVM的GA( Hernandez 等 人 ,2007 ) 、 具 有 SVM 的 遗 传 蜂 群 ( GBC )( Alshamlan 等 人 ,2015 ) ; 具 有 SVM 的 人 工 蜂 群 ( ABC )( Alshamlan 等 人 , 2015 ) 、 使 用 KELM 的 猫 群 优 化 ( CSO )(Mohapatra等人,2016年),https://doi.org/10.1016/j.jksuci.2020.12.0141319-1578/©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.com《般若波罗蜜多辩》和《般若波罗蜜多辩》。Mohapatra沙特国王大学学报4744Σ. - 是的Σ2Þ.5.Σ使用SVM的纠错输出码(HE-ECOC)(Liu等人, 2016年),马尔可夫毯(MB)与NB(王,2014年)和分布式排名过滤器(DRF)与基于相关性的特征选择(CFS)(Bolón-Canedo等人,2015年)。这些包装器方法能够发现基因-基因相互作用,从而提高基因选择过程的性能 。 然 而 , 在 高 维 数 据 的 情 况 下 , 这 些 技 术 的 计 算 开 销 很 高(Alshamlan等人,2015年)。混合方法是将过滤器方法和包装器方法的优点结合起来的一种方法在该方法中,首先应用过滤器技术来选择最显著的基因,然后应用包装器方法来搜索基因的最佳子集。在高维癌症数据的分类中,两个主要目标是集中的,即最小化基因的数量(NoG)和最大化分类准确率(CAP)。因此,该问题可以映射为二元多目标模型.近年来,几种多目标优化技术吸引研究人员同时最小化NoG和最大化CAP,而不是单目标优化技术,即NSGA-II(Ravi等人, 2017)、MOPSO(Zhao和Suganthan,2011)、MOCGA(Qi等人, 2006)、多目标萤火虫算法(MOFA)(Marichelvam等人,2013 ) 、 CMOPSO ( Sun 等 人 , 2019 ) 、 多 目 标 重 力 搜 索 算 法( MOGSA ) ( Rashedi 等 人 , 2018 ) 、 基 于 多 目 标 教 学 的 优 化( MOTLBO ) ( Patel 和 Savsani , 2016 ) 和 多 目 标 差 分 进 化(MODE)算法(Cheng等人, 2016年)。虽然这些方法有效地处理了多目标问题中的一个特定问题,但它们不能解决所有优化模型中的各种问题。因此,总是存在着解决具有不同特征的问题的新方法的可能性。通常,元启发式算法经历该模型在10个基准高维癌症数据集上实现.此外,该算法与其他17个现有的模型,也进行了比较。一些性能指标,如10倍交叉验证方法的准确性,选择的NoG,灵敏度,MCC,F-测量,和特异性被用来衡量所提出的算法的有效性其余部分的工作安排如下:第2节讨论所有支持和建议的方法部分。第3节涵盖了实验设置部分。第四部分是结果分析部分。结论部分在第5中讨论。2. 方法本节讨论了本研究中使用的所有支持和建议的方法。2.1. KELM模型Huang等人(Huang,2011)提出了KELM,其中内核函数在基本ELM中解释。KELM将线性不可分模型映射到高维特征空间,实现线性可分性,提高了分类准确率。在基本ELM;gshbh1由方程式(1),g(s)表示输出函数,s表示样本,h(s)和H表示隐藏层的输出矩阵,b表示输出权重。为了使KELM更加普遍化,稳定,则添加正则化参数(C)。现在,B将是COM-推测如下:两个阶段,即多样化和强化(Alba和Dorronsoro,2005年; Olorunda和Engelbrecht,2008年)。在分散阶段,算法在不同的有利区域内搜索,b¼HT.HHT1-1页CQCT2特定的搜索空间。在集约化阶段,该算法探索整个有利区域的最佳结果,然后是多样化阶段(Lozano和García-Martínez,2010)。在这里,采用Jaya优化算法(Rao,2016),因为该算法在这两个阶段之间进行了适当的平衡。不仅如此,Jaya算法能够处理约束和无约束优化问题. 它是在保留最好的基础上设计的,特征h(s)可以由核函数映射为如下所示的等式h<$HH T;hij<$h <$s ih s j¼k si sjð3Þ应用Eq. (2) 和等式(3) 由方程式(1),我们将得到以下等式:2千吨1千吨去掉最差的一个。该算法也不需要任何T.不1米-1六 、 7 .第一次会议。1-14算法的具体参数。在这项工作中,一个新开发的多目标的ver-Jaya算法的一种新的混沌概念,称为MOCJayagsHbhsHHH2CT¼64kssN7hCT建议。这里,两个多目标变量,即非-优势排序和拥挤距离(Ravi等人,2017)被认为是将单目标Jaya算法扩展到二进制多目标Jaya算法。这项工作有两个目标,如最小化的NoG和最大化的ACP。这里,ACP由内核ELM(KELM)计算。Fisher评分(Gu等人,1202)在这项工作中应用于预先选择基因。本研究的主要贡献如下:- 首次将MOJaya算法应用于高维癌症数据分类- 为了获得更快的收敛速度,混沌理论包含在该算法中。- 利用非支配排序和拥挤距离算子对Pareto最优解进行排序,分别选择最优解。- 建议的方法用于选择最相关的生物标志物和分类癌症数据的同时。在这项工作中,径向基函数(RBF)作为核函数(黄和Siew,2004年)。径向基核可以表示如下:Kx;ye-akx-yk5其中a表示内核参数。 从等式(4)Eq. 显然,KELM取决于两个参数,例如正则化系数(C)和核参数(a)。因此,这些参数将被有效地优化。2.2. Jaya算法Jaya是一种优化(Rao,2016)方法,不需要任何特定的面向算法的参数。该算法计算时间短,实现复杂度低,收敛速度快. Jaya算法的步骤详细说明为算法1:《般若波罗蜜多辩》和《般若波罗蜜多辩》。Mohapatra沙特国王大学学报4745- 是的Σ. .- 是的好吧- 是 的好吧.×2f···GFS10000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000n1nj;k;in采用排序方法来表示Pareto最优解的排序。算法1:Jaya算法输入总体大小、设计变量数和迭代次数输出全局最佳解1.设置总体的大小、设计变量的数量和作为停止条件。2.从人群中获得最好和最差的解决方案。3.根据最佳和最差解决方案的结果将通过应用方程改变(六)、 Z0j;k;i=Zj;k;ir1;j;i最好的þZ j;k;i-r2;j;iZ j;最差;i-在第i次迭代期间,Z j;k;i是第k个候选项的第i个变量的值。这里,k是总体大小,i是迭代次数,j被认为是设计变量的数量。4.然后将现有的解决方案与修改后的解决方案进行比较,如果发现修改后的解决方案更好,则将其与前一个解决方案交换,否则将保留前一个解决方案5.从第2步到第4步的程序将重复进行,直到最大数量。迭代次数达到。2.3. 通过过滤器方法在这项工作中,一个过滤器技术被应用到预先选择的最显着的基因,其次是一个包装器的方法来搜索的最佳子集的基因。在各种滤波器技术中,Fisher评分(Gu等人,1202)在这项工作中应用于预先选择基因。该方法采用Fisher准则,根据特征的得分独立地选择每个在此,使用Fisher评分选择一系列500个排名靠前的基因(取自(Dashtban和Balafar,2017))作为过滤的基因子集。在Fisher评分基因预选方法中,被视为输入。这里,F表示特征或基因的数量,S表示实例或样本大小。然后,为了计算基因fi的Fisher得分(FS),应用以下等式:这里,t表示迭代次数,xt是第t混沌迭代的值,x0的初始值是在其间任意创建的(Ochs,2010)。2.5. 建议的MOCJaya办法这里,MOCJaya算法与两种方法结合,即优势排序和拥挤距离(g)(Rao,2016)双目标癌分类问题.非-优势排序(NDS)和拥挤距离(CWD)评估方法确定最优解。例如,解决方案-tion与最高水平(排名=第一章和最高 g值是最好的解决方案,反之亦然。如果多于一解位于同一秩上,则具有最高秩的解CWD被认为是最好的一种。Pcs n. 我-我iPcS. ri2由方程式(7),s n表示第n个类中的样本数,c表示类的总数,li表示平均值,rimal solutions.让我们考虑,F是要优化的目标函数的数量,k是要优化的解的数量。表示第n次n的i th特征。n要分类。支配准则:一个解k1支配另一个解2.4.具有混沌学习策略的在这项工作中,Jaya算法的变体之一,混沌Jaya(CJaya)被使用。该算法建立在混沌理论基础上。该算法使收敛速度更快,并提供了更好的搜索空间探索,而不考虑局部最优值(Wang,2017; Yu,2018)。在数学上,混沌被定义为确定性动力系统的随机性。为了在不同的优化算法中解释混沌理论,应用了各种具有各种数学方程的混沌映射。本文从各种函数出发,利用Logistic映射函数的简单性,将其用于产生混沌随机数。(八)、xt1¼4xt 1-xt8其中x t 是混沌映射在第t时刻迭代CJaya算法的工作原理与Jaya算法相同主要的变化是,在CJaya算法中的随机数本文用Logistic混沌变量代替Jaya算法的两个随机变量r1和r2。人口更新为0分。好吧. Z-是的X射线-是的 -- . Z-是的Σð9Þ¼Zj;k;iþxt;j;i最 佳;ij;k;it;j;i最 差;ij;k;ik 2当且仅当Obj i≤Obj i对于所有i = 1,2,.. . ,F and Obj ik10:512DKF1e-ykF1- 目标j-1cwdj<$cwdjð10Þ仅在一次运行和一种溶液中进行一次因此,计算函数的总次数=迭代次数×迭代次数。对象最大值-对象最小值f f人口×数量的运行。这里,j被认为是排序列表中存在的解Objj 1是第j解的第f个目标函数的结果,Objmin和Objmax分别是算法:2建议的MOCJaya算法投入:人口规模(P),迭代(I),f f第f个目标函数在当前人口分别。2.5.3. 数学实现在数学上,多目标优化问题可以建立如下:优化:Gx½½g1x;g2x;· · ·;gFx;F>1andx2X]11受制于:Mjx≥0;j <$1;2;3;···;A12Njx≥0;j< $1; 2; 3;···;B13Lbj≤xj≤Ubj;j<$1; 2; 3;·· ·;C≤14在Eqs。(11)、(12)、(13)和(14),F表示取了多少个目标函数,C表示变量的数目,A和B分别表示不等式约束和等式约束的个数,Mj,Nj,Lbj和Ubj分别表示等式约束、不等式约束和第j变量癌症分类问题有两个目标函数,一个是最小化函数(等式2)。(15)),另一个是最大化函数(等式2)。(16)),即g1½min无G15μ g和g2¼max最大值根据Eq. (9)在得到最佳和最差的解决方案之后。然后,将修正后的解与初始解合并,形成2s解.再次,应用非支配PF和拥挤距离评估程序对这2个s的解决方案,并找出其中的最佳解决方案图 1描述了流程图,算法2描述了建议的MOCJaya算法的步骤。如果基因的子集具有与所提取的特征相同的D维度,则每个解是Xi={c; c ;Xi;Xi;···; Xi},其中i={1,2,3. . ,N}。号变量(d),适应度函数(f)输出:具有最小NoG子集的1:开始2:初始化P、I、f和d。3:对于每个解决方案,使用C,c和预先选择的特征子集找出Obj1,Obj2(两个目标函数)4:计算nds和cwd。5、找出非劣解。将解排列成不同的非支配水平,并为每个非支配水平分配一个秩(秩1被认为是最佳秩)6:根据nds设置最佳和最差解决方案和CWD。7:集合,I = 18:while I Maximum_ Iteration do9:如果P == 1,则10:通过应用等式11,找到混沌映射xm的值(八)11:更新等式中的两个随机值r1和r2(6)使用等式(八)12:对于i = 1:P做13:根据最佳非支配解,使用等式14更新解位置(九)14:结束15:其他16:如果(curr_fit17:继续步骤10至1418:其他19:休息。20:如果结束21:如果结束22:将更新的解决方案与初始解决方案合并(例如,初始解(n)+更新解(n)= 2n)23:然后,找出2n的Obj1,Obj2解决方案如果解由n位组成,则前2位保留给c,c和n-2位编码之间的基因子集(Ochs,2010)使用变换函数(1表示选择,0表示该特定特征的拒绝),即Xi=[c,c,0,1,1,,0]。这里,转换函数用于将连续形式将特征值转换为离散二进制形式。该函数(Eq. (17)定义如下:24:同样,计算2n解的nds和cwd,选择非支配解,并将解排列成不同的非支配水平25:根据解的非支配性水平对解进行排序。(for例如,等级1被认为是最佳等级)ym¼MK0;否则ð17Þ26:从2n个解中根据其非支配水平和cwd提取最佳n个解。由方程式(十八)logsig。ymmð18Þ27:I = I +1第28章:结束29:获得具有最佳CAP和最小NoG子集的最佳解决方案在这里,我们计算的是类的平均测试精度Fier(KELM),采用10倍CV法。在每次迭代中,MOCJaya方法计算Obj1,Obj2(两个目标函数)30:结束《般若波罗蜜多辩》和《般若波罗蜜多辩》。Mohapatra沙特国王大学学报4747图1.一、建议的MOCJaya方法流程图《般若波罗蜜多辩》和《般若波罗蜜多辩》。Mohapatra沙特国王大学学报4748图二. 一次运行10倍CV的机制。表1初始化用于实验的所有算法的参数MOCGA NSGA-II MOCPSO MOPSO MOCJaya KELM人口数量= 100迭代数量=100交叉概率= 0.95突变概率= 0.5总体数量= 100迭代数量=100 C1和C2 = 2.05惯性重量= 1最大速度=65%人口数量= 100迭代数量=100人口数量= 100迭代数量=100C和c = [2-7,2-8,.. . 、27、28]表2基准微阵列数据集的描述。表4在10个标准微阵列数据集上使用KELM的过滤方法(Fisher评分)对前M NoG进行CAP。数据集尺寸样本特征类结肠肿瘤(Alon,1999)62×2000 62 2000 2前几位基因的数据集数量各自准确度(%)白血病(Golub,1999)72×7129 72 7129 2结肠肿瘤[10,20,50,100,200,[73.76,80.09,83.10,87.57,卵巢癌(Petricoin和Emanuel,2002)乳腺癌(Zexuan Zhu,2007)淋巴瘤-3(Zhu等人,(2007年)253× 15154253 15,154 297× 24,482 97 24,482 262× 4026 62 4026 3五百人]白血病[10,20,50,100,200,五百人]卵巢癌[10,20,50,100,200,五百人]乳腺癌[10,20,50,100,200,88.67、86.73][74.76,81.09,89.26,97.53,98.72,98.75][81.76,91.58,98.45,98.26,97.75,97.92][83.62,89.53,93.5,96.65,96.75,MLL(朱泽轩,2007)72×12,582 72 12,582 3ALL-AML-3(Zhu等人,2007年)72 × 71297271293五百人]淋巴瘤-3 [10,20,50,100,200,九十五点九二分][83.62,96.82,100,100,100]ALL-AML-4(ZexuanZhu,2007)72×7129 72 7129 4五百人]MLL [10,20,50,100,200,[79.86,84.62,88.82,94.25,SRBCT(Zhu等人, 2007年)88 × 23088823084五百人]97.82,97.42]肺癌(Bhattacharjee,2001)表3混淆矩阵的描述。203× 12600203 12,600 5ALL-AML-3[10,20,50,100,200,五百人]ALL-AML-4[10,20,50,100,200,五百人]SRBCT[10,20,50,100,200,五百人]肺癌[10,20,50,100,200,五百、一千、一千二、一千五百][52.73,50.36,89.72,94.34,93.75、94.62][78.6,82.62,89.52,93.6,96.85,96.32][62.73,65.72,86.53,96.84,100,一百个。[84.56,90.8,91.42,93.26,94.45,94.92、95.86、95.72、95.45]混淆矩阵实际值负正预测阴性TN FN阳性TP TN3. 实验装置3.1. 实验配置本工作的所有实验都在以下平台上进行:操作系统:Windows10,CPU:Intel(R)Core(TM)i5- 7200 U(2.5 GHz),内存:8 GB RAM,使用的语言:MATLAB(版本:R2015 b,64位)。在此,为了无偏实验,应用10倍CV方法来评估《般若波罗蜜多辩》和《般若波罗蜜多辩》。Mohapatra沙特国王大学学报4749粗体值显示为最高值。MOCJaya算法在一个倍,从整个数据集的30%的样本进行测试,其余70%的样本被认为是用于训练目的。 图 2定义了一次运行中10倍CV的机制。为了避免Meta启发式算法的随机性,在这项工作中进行了10次运行,并将这些运行的平均值视为最终结果。3.2. 参数初始化本文将多目标混沌遗传算法(MOCGA)、多目标混沌粒子群算法《般若波罗蜜多辩》和《般若波罗蜜多辩》。Mohapatra沙特国王大学学报4750表5MOCJaya-KELM算法在10个微阵列数据集上的10倍CV性能指标的平均性能数据集准确度%Sn %Sp %Fm %MCC %千帕%结肠肿瘤97.67九十六:四十二九十七比六十三九十七比六十三93.08九十四分二十六秒白血病99.2397.8610099.4298.1198.16卵巢癌10010098.9299.1599.6999.15乳腺癌99.2499.8298.3598.8599.0499.36淋巴瘤-399.8210096.8397.6298.8297.52MLL99.6510097.6297.8398.1298.62ALL-AML-398.9199.3499.1299.1297.7699.32ALL-AML-499.0410098.6299.1298.3298.85SRBCT100100100100100100肺癌99.1599.8710099.7298.6199.16表6所有模型在10倍CV下的平均准确率比较数据集NSGA-IIMOCGAMOPSOMOCPSO莫贾亚莫克贾亚结肠肿瘤90.3291.5593.9494.2794.7597.67白血病93.0694.1794.4496.1498.8499.23卵巢癌97.6397.8998.4298.6298.89100乳腺癌92.1694.8695.2398.3499.199.24淋巴瘤-395.1696.3996.7797.1298.999.82MLL92.9694.8796.4297.8499.2699.65ALL-AML-394.4495.2295.839697.2298.91ALL-AML-494.1696.7598.6499.1498.8299.04SRBCT93.9894.5995.1895.8198.59100肺癌93.8695.3796.7498.198.1999.15粗体值显示为最高值。表7在10倍CV下,比较了三种具有混沌概念的多目标元启发式算法的所有性能指标的平均值类数据集Sn %Sp %Fm %MCC %千帕%二进制类结肠肿瘤MOCGA89.8290.2189.8890.5689.62MOCPSO94.2193.3295.3892.6294.02莫克贾亚96.4297.6397.6393.0894.26白血病MOCGA94.0693.8294.2193.8993.56MOCPSO95.8294.8893.6293.5695.88莫克贾亚97.8610099.4298.1198.16卵巢癌MOCGA95.8996.8295.6296.5696.89MOCPSO98.8299.8999.4298.8199.56莫克贾亚10098.9299.1599.6999.15乳腺癌MOCGA94.8293.8894.3894.8394.62MOCPSO98.1298.8998.8297.8198.86莫克贾亚99.8298.3598.8599.0499.36多类淋巴瘤-3MOCGA93.8994.3293.6294.1694.09MOCPSO96.8297.0396.6395.8896.26莫克贾亚10096.8397.6298.8297.52MLLMOCGA94.8293.8293.5694.3294.62MOCPSO97.4296.8297.0996.8697.09莫克贾亚98.6497.6297.8398.1298.62ALL-AML-3MOCGA94.8893.5693.3893.8394.62MOCPSO95.8894.5695.6295.5695.89莫克贾亚99.3499.1299.1297.7699.32ALL-AML-4MOCGA96.6595.8695.9296.5696.62MOCPSO99.8297.8899.6298.8499.04莫克贾亚98.7298.6299.1298.3298.85SRBCTMOCGA94.4293.6593.8594.1694.56MOCPSO95.6294.8694.6795.5295.72莫克贾亚100100100100100肺癌MOCGA94.8293.6795.2894.9695.18MOCPSO98.8599.8898.4299.2198.64莫克贾亚99.8710099.7298.6199.16粗体值显示为最高值。(MOCPSO)、多目标Jaya(MOJaya)、多目标PSO(MOPSO)和非支配排序GA(NSGA-II)算法《般若波罗蜜多辩》和《般若波罗蜜多辩》。Mohapatra沙特国王大学学报4751性能始终良好。这些算法的参数初始化在表1中给出。《般若波罗蜜多辩》和《般若波罗蜜多辩》。Mohapatra沙特国王大学学报4752MCC---¼ðÞ¼3.3. 数据集描述图3.第三章。TP TNFPFNPTPFPTPFNTNFPT NFNFNð19Þ所有的实验都是在10个微阵列数据集上进行的。表2给出了这十个微阵列数据集的详细阐述3.4. 业绩衡量属性本研究采用混淆矩阵、总体准确率、敏感度(召回率)、特异度、MCC、精确度和F-测度等性能指标对模型的性能进行了评价。混淆矩阵:以真阳性(TP)、真阴性(TN)、假阳性(FP)和假阴性(FN)值的形式表示。表3定义了混淆矩阵。马修斯相关系数(MCC)(Zhu等人, 2007年):这是从预 测的相关系数观 察 到 的MCC值的范围在1到1之间。如果MCC值将为1,则模型完全分类。灵敏度(Sn):确定真阳性样本在总样本中所占的比例,称为真阳性率(TPR)。它显示在Eq。(20).锡TP20TP特异性(Sp):它标识真阴性样本在总样本中的比例,称为假阳性率(FPR)。专属性、精密度和F-测量值见等式(21),(22)和(23)分别类和观察类。这是通过混淆矩阵使用等式计算的。(十九)、SPTNTNð21Þ●●●●《般若波罗蜜多辩》和《般若波罗蜜多辩》。Mohapatra沙特国王大学学报4753价格:1/41/4访问图3(续)精密压力压力TP公司简介ð22Þ它反映了完全一致。观察者ved预期2Pr SnKappaKpaacc-ACCð24ÞF-测量值:Fm ¼ × ×ð23Þ1-预期访问权限简体中文● Kappa(Kpa):这是通过比较观察到的准确度计算的观察员vedTP公司简介�� þðFP þTN Þ×ðFN þTN Þð25Þracy(在等式中观察到的acc)(25))和预期准确度(预期访问由方程式(26))使用Eq. (24页)。如果Kappa值为1,则预期访问量TPFPTNFNTPFPFN公司简介ð26Þ《般若波罗蜜多辩》和《般若波罗蜜多辩》。Mohapatra沙特国王大学学报47544. 结果和讨论4.1. 从预过滤要素在这项工作中,过滤器的方法(Fisher评分)被应用到选择最突出的功能最初,并减少与前M个重要属性的数据集。这里,M值的范围为(Ochs,2010)。然后,将简化的数据集(具有预先选择的基因子集)转发到KELM进行分类。首先,价值观参数C和c值分别表示为0和1。活泼地在表4中,顶部M的分类准确率百分比为显示了在10个标准微阵列数据集上通过KELM分类器使用过滤方法(Fisher评分)选择的基因。从表4中可以清楚地看出,精确度百分比增加到一定M个基因,并且在此之后精确度不改变或降低。例如,结肠肿瘤、白血病、卵巢癌、乳腺癌、淋巴瘤-3、MLL、ALL-AML-3、ALL-AML-4、SRBCT和肺癌在200个特征处获得88.67%的最高准确度,在200个特征处获得98.72%的最高准确度,在50个特征处获得98.45%的最高准确度,在200个特征处获得96.75%的最高准确度,在100%的最高准确度。在50个特征时,97.82%在200个特征时,94.62%在500个特征时,96.85%200个特征时为100%,1000个特征时为95.86%。在找到最佳的基因子集后,这些子集被转发到MOCJaya集成KELM(MOCJaya-KELM)模型。4.2. 结果来自MOCJaya-KELM此外,结肠肿瘤、白血病、乳腺癌、MLL、ALL-AML-4和SRBCT的前200个特征子集、卵巢癌和淋巴瘤-3的前50个特征子集、ALL-AML-3的前500个特征子集和肺癌的前1000个特征子集分别传递到MOCJaya-KELM 模 型 在 这 里 , 我 们 在 具 有 10 倍 CV 的 MOCJaya-KELM模型中迭代了每个数据集10次,因为在每次运行中有可能获得具有不同性能的不同特征子集。表5显示了在10次单独运行中具有10倍CV的微阵列数据集上的准确度、灵敏度、特异性、MCC、F-测量和Kappa的平均结果。为了进行无偏比较,建议的模型与其他五个模型,如MOCGA,MOCPSO,MOJaya,MOPSO和NSGA-II模型进行了比较。表6显示了所有模型的分类精度,并观察到建议的MOCJaya模型优于所有模型。在对医学数据进行分类时,灵敏度较高意味着阳性样本分类良好,特异度较高意味着阴性样本分类良好。表7显示了在10倍CV中具有混沌概念的三种多目标元启发式算法之间的所有性能度量的平均值之间的比较。根据表7,二进制类和多类数据集(即,结肠肿瘤、白血病、卵巢癌、乳腺癌、淋巴瘤-3、MLL、ALL-AML-3、SRBCT和肺癌)在MOC-1中具有较高的敏感性和特异性Jaya的比较,这表明MOCJaya模型分类阳性和阴性样本有效。此 外 , 图 图 3 ( a ) -3 ( j ) 示 出 了 所 有 十 个 微 阵 列 数 据 集 中MOCGA、MOCPSO、MOJaya、MOPSO和NSGA-II模型的收敛图。从这些图中可以清楚地看到,由于混沌概念的集成,混沌模型的收敛速度比非混沌模型快。因此,混沌概念显著地提高了收敛速度.4.3. 通过MOCJaya-KELM在这项工作中,我们提出的模型的主要目的是最小的最大CAP的NoG在这里,MOCCJaya-KELM模型在10次运行期间使用最佳解决方案选择信息量最大的生物标记物。表8显示了每个数据集中主要有助于诊断目的的这些基因。根据表8,建议的模型从结肠肿瘤数据集选择5个基因,从白血病数据集选择4个基因,从卵巢数据集选择3个基因,从乳腺癌数据集选择5个基因,从ALL-AML-3数据集选择4个基因,从ALL-AML-4选择4个基因,从淋巴瘤-3数据集选择4个基因,从MLL选择5个基因,从SRBCT数据集选择5个基因,从肺癌数据集4.4. 模型的执行时间和计算复杂度本文提出的模型分为两个阶段,即过滤阶段(Fisher评分)和包装阶段(MOCJaya-KELM)。因此,总执行时间取决于两个阶段所花费的时间。表9显示了这两种方法所用的时间。十个微阵列数据集的阶段。根据表9,结肠肿瘤、白血病、卵巢癌、乳腺癌、淋巴瘤-3、MLL、ALL-AML-3、ALL- AML-4、SRBCT和肺癌数据集中的整个建议 模 型 的 运 行 时 间 分 别 为 145.713 、 154.84 、 46.77 、 134.775 、55.959 、 143.182 、 179.855 、 183.797 、 152.066 、 152.067 、152.068、152.069、15239.201respectively.本文将MOCJaya与KELM相结合,以高精度找出最小基因数。因此,MOCJaya-KELM模型的时间复杂度取决于以下变量:总体大小(N),样本大小(S),迭代次数(I),适应度函数的成本(Cf)和维数(Dm)。MOCJaya-KELM模型的时间复杂度可以估计为Eq. (27).OMOCJaya;KELM初始化种群IωOKELM更新MOCJaya中解的位置1000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000 MOCJaya中的解决方案27表8在MOCJaya-KELM中运行10次期间使用最佳溶液选择生物标记基因。微阵列数据集选择的NoG基因名称结肠肿瘤5Z50753、H08393、M63391、M26383、J02854白血病4M27891
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- 京瓷TASKalfa系列维修手册:安全与操作指南
- 小波变换在视频压缩中的应用
- Microsoft OfficeXP详解:WordXP、ExcelXP和PowerPointXP
- 雀巢在线媒介投放策划:门户网站与广告效果分析
- 用友NC-V56供应链功能升级详解(84页)
- 计算机病毒与防御策略探索
- 企业网NAT技术实践:2022年部署互联网出口策略
- 软件测试面试必备:概念、原则与常见问题解析
- 2022年Windows IIS服务器内外网配置详解与Serv-U FTP服务器安装
- 中国联通:企业级ICT转型与创新实践
- C#图形图像编程深入解析:GDI+与多媒体应用
- Xilinx AXI Interconnect v2.1用户指南
- DIY编程电缆全攻略:接口类型与自制指南
- 电脑维护与硬盘数据恢复指南
- 计算机网络技术专业剖析:人才培养与改革
- 量化多因子指数增强策略:微观视角的实证分析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功