没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报基于精英主义的多目标差分进化特征选择:一种具有有效冗余度量的Subrat Kumar Nayaka,Pravat Kumar Routb,Alok Kumar Jagadevc,Tripti Swarnkarda印度奥里萨邦Bhubaneswar-30Siksha 'O' Anusandhan大学计算机科学与工程系b印度奥里萨邦Bhubaneswar-30Siksha 'O' Anusandhan大学电气和电子工程系c印度奥里萨邦布巴内斯瓦尔KIIT大学计算机工程学院d印度奥里萨邦Bhubaneswar-30,Siksha 'O' Anusandhan大学计算机应用系阿提奇莱因福奥文章历史记录:2017年4月2日收到2017年7月18日修订2017年8月13日接受2017年8月15日在线提供保留字:多目标特征选择差分进化滤波方法相关系数互信息A B S T R A C T现实世界的数据本质上是复杂的,除此之外,大量的特征为复杂性增加了更多然而,与数据相关联的特征在本质上可能是冗余的和错误的。为了处理这种类型的特征,特征选择在计算学习中起着至关重要的作用。数据集维数的降低不仅减少了分类所需的计算时间,而且通过去除误导特征来提高分类精度。提出了一种基于精英主义的多目标差分进化特征选择算法(FAEMODE),其新颖之处在于目标形式化,即考虑了特征间的线性和非线性依赖关系,以处理数据集的冗余和不需要的特征。最后,选择的特征子集的23个基准数据集进行测试,使用10倍交叉验证与四个著名的分类器认可的结果。所提出的方法与七个过滤器的方法和两个传统的,以及三个基于元启发式的包装方法进行了比较分析验证。结果表明,该方法可以被认为是一个强大的过滤方法的特征选择在各个领域。©2017作者。制作和主办:Elsevier B.V.代表沙特国王大学这是一CC BY-NC-ND许可下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍1.1. 上下文分类问题通常涉及大量的特征。然而,所有这些特征可能不是分类所必需的或相关的。它们中的许多在性质上是冗余的和错误的,这可能降低分类算法的效率。因此,用最少数量的有用和相关特征表示数据是探索性数据分析中的一个关键和重要挑战。这个问题可以通过特征选择(FS)来解决,其中只有特征的相关特征可以选择*通讯作者。电子邮件地址:subratnayakdpb@gmail.com(S.K.Nayak),pkrout_yahoo.com ( P.K.gmail.com ( A.K.Jagadev ) , soauniversity.ac.in(T.Swarnkar)。沙特国王大学负责同行审查制作和主办:Elsevier数据集将被选中。 去除冗余和不相关的特征有助于降低数据集的维度,简化分类器的模型,加速学习过程并提高整体性能(Xue等人,2016年)。从广义上讲,特征可以分为四大类,如不相关、弱相关和冗余、弱相关但非冗余和强相关(Yu和Liu,2004)。相关特征是那些拥有关于相应数据集的最大信息的特征冗余特征是指与相关特征提供相同信息的相关特征然而,由于特征之间复杂的交互作用,从现有的特征中选择最相关的特征是一项困难的任务。很有可能的是,一个单独工作良好的相关功能在与其他功能一起工作时可能会变得无关,反之亦然(Xue et al.,2013年a)。由于FS过程处理大的搜索空间,因此任务可能更加困难。随着数据集特征的增加,搜索空间呈指数增长。因此,在大多数情况下,对最佳特征子集的选择的穷举搜索实际上是不可能的(Xue等人, 2016年)。为了解决这个问题,各种搜索算法http://dx.doi.org/10.1016/j.jksuci.2017.08.0011319-1578/©2017作者。制作和主办:Elsevier B.V.代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comS.K. Nayak等人/沙特国王大学学报175提出了随机搜索、完全搜索、启发式搜索、贪婪搜索等算法。然而,这些FS方法中的大多数遭受陷入局部最优和高计算成本(Xue等人,2016年)。因此,寻找一种有效的全局搜索方法,以更好的FS已被推动,以解决这些问题。进化计算技术是一种高效的全局搜索技术。由于这种性质,它们引起了金融服务领域许多研究人员的注意。根据评估标准,目前的FS算法可以大致分为两种类型:过滤器方法和包裹方法(Dash和Liu,1997; Guyon和Elisseeff,2003;Xue等人,2016年)。这两者之间的主要区别在于,包装器方法需要学习算法的帮助,而评估特征子集和过滤器方法则不需要(Paul和Das,2015)。然而,过滤器方法被认为是更一般化的,需要更少的计算时间,而包装器方法虽然计算昂贵,但它们的性能通常优于过滤器方法。1.2. 相关工作和动机数据挖掘中对FS的需求促使人们在研究领域引入了许多算法。在过去的几十年里,在这方面做了许多工作。本节简要回顾了有关FS的文献。这包括对过滤器和包装器FS方法的调查。此外,我们的动机背后的原因已经在这里阐述。已被考虑用于滤波器特征选择的常见评估度量是信息度量、相关度量、距离度量、一致性度量、模糊集理论和粗糙集理论(Xue等人, 2016年)。 其中,引起许多研究人员注意的测量是信息测量(即互信息)(Wang等人,2015年)。这被认为是更一般的,并且对噪声或离群数据不敏感(Huang等人, 2007年)。 算法,例如最小冗余最大相关性准则( mRMR )(Han- chuan Peng 等人,2005)、互信息特征选择器(MIFS)(Battiti,1994)、归一化互信息特征选择(NMIFS)(Estevez等人,2009)、均匀信息分布下的互信息特征选择器(MIFS-U)(Kwak和Choi,2002)以及具有类相关冗余的基于互信息的特征选择(MIFS-CR)(Wang等人,2015)已经使用互信息作为特征选择的标准度量。然而,这些过滤器的特征选择方法很可能陷入局部最优,因为他们遵循贪婪搜索技术,以逐步选择功能。Relief算法(Kira and Rendell,1992)是常用的过滤方法之一,根据与目标概念的相关性为每个特征分配权重通过使用距离度量来测量相关性这个概念的主要缺点是它忽略了冗余特征,因为它试图找到所有有用的特征,而不考虑它们之间的冗余。最近,已经引入了许多FS算法,其中顺序前向选择(SFS)(Whitney,1971)和顺序后向选择(SBS)(Marill和Green,1963)是最常用的包装方法。与这些方法相关的问题是,一旦完成FS,所选择的一个不能在评估的后期阶段被移除,反之亦然(Xue等人,2013年a)。为了解决这个问题,Stearns(1976)提出了这里,该算法首先执行l次前向选择,并且在第二阶段中,它执行r次后向拒绝。虽然它克服了SFS和SBS的问题,但主要任务是确定合适的值(l,r),这在实际意义上是相当困难的(薛例如,2016年)。为了克服这种情况,Pudil等人(1994)提出了两种浮动FS方法,如顺序向前浮动选择(SFFS)和顺序向后浮动选择(SBFS)。这两种算法的任务是自动确定l和r的值,但它们存在局部极小问题。一个非常大的空间总是与一个FS问题和功能交互增加价值的复杂性。为了搜索质量特征子集,EC技术既不需要任何领域知识,也不对搜索空间做任何假设。因此,现在的研究人员更喜欢EC技术比传统的搜索方法。最近提出了许多与EC技术相关联的滤波器方法。遗传算法(GA)是流行的进化算法之一,在(Xueet al.,2016,2013 b;Spolaôr等人,2011年)。类似地,粗糙集理论和模糊集理论以及GA已被用于(Banerjee例如,2007)和(Chakraborty,2002)分别作为滤波器方法。Chakraborty(2002)使用基于GA的技术来优化FS的基于模糊集的适应度函数。Chakraborty(2008)使用了与粒子群优化(PSO)算法(Chakraborty,2002)相同的目标函数,结果表明PSO比GA对FS的性能更好。在过去的十年里,电子商务技术在包装FS过程中的应用增长了许多倍基于遗传编程,Muni等人(2006)介绍了一种用于同时FS的基于树的分类器设计算法。在(Nakamura et al.,2012)是一种包装方法。在这里,BBA与最优森林分类器杂交,通过提高精度来产生所需的特征。两种基于PSO的单目标FS算法,例如常用的PSO算法(ErFS)和具有两阶段适应度函数(2SFS)的PSO在(Xue et al.,2013年a)。为了进行性能比较,将这两种方法与其他两种常规方法进行比较,例如线性前向选择(LFS)(Gutlein等人,2009)和贪婪逐步向后选择(GSBS)(Caruana和Freitag,1994)。实验结果表明,这两种基于粒子群算法的FS方法优于传统的FS方法。基于单目标优化,Wanget al.(2014 )表明DE 对于FS的性能优于GA 、PSO、蚁群优化(ACO)和和声搜索。随着上述单目标FS算法,许多多目标FS算法已被提出来处理过滤器以及包装器的方法。在(Xue et al., 2012年)。在这里,信息理论被认为是评估功能之间的相关性然而,粗糙集理论以及多目标PSO已经应用于过滤器FS(Cervante等人,2013; Xue等人,2014年a)。类似地,基于ACO的多目标滤波器FS在(Ke等人, 2010年)。粗糙集理论被认为是该方法的相关性度量工具Hamdani等人(2007)利用NSGAII提出了一种多目标滤波器FS模型。Wang etal. (2015 )提出了一种具有类依赖冗余的 FS 多目标进化算法(MECY-FS),并声称该算法在预测紧凑特征子集方面更有效。作者还构造了一种用于MIFS-U的基于冗余测度的多目标进化FS算法(MEFS-U),仅用于比较然而,在这两种情况下,特征子集的大小都固定为特征总数的50%因此,特征子集的大小不能减少超过50%。这可以被认为是该算法的缺点,因为它缺乏自动找到数据集的特征子集的大小的潜力在(Xue et al.,2013年a)。在这里,176S.K. Nayak等人/沙特国王大学学报i;gni;gn8V:12345LBLBUBJUB12345作者试图同时优化两个目标,如分类精度最大化和特征数量最小化在(Xueet al.,2014年b)。这里和上面一样,Xue et al.试图最小化分类错误率和数据集的特征数量这里所代表的结果反映了多目标方法优于单目标FS方法。最近,Paul和Das(2015)介绍了一种FS方法,其中使用基于分解的多目标进化算法(MOEA/D),同时进行类间和类内的距离分别被最大化和最小化通过提供在初始化之后,当前群体的每个目标向量X1;gn经历突变阶段以产生突变 向 量 V1;gn , 其 中 , ;NP. 这 可 以 通 过 遵 循 突 变 策 略 之 一 来 实 现(Hamdani等人,2007年)。使用DE=Rand=2=bin策略对gn代的突变向量Vi;gn的评估已在以下等式中实例化Vi;gn¼Xri;gnF·Xri;gn-Xri;gnF·Xri;gn-Xri;gn1这里,ri;ri;ri;ri;ri是在范围[1,NP]内随机生成的整数,它们不仅相互排斥,而且与索引i不同。F是[0,2]内的常数和实控制参数。利用目标载体Xi;gn和突变载体Xi; gn,实验结果,他们声称他们的包装器FSV1;gn,对应的试验向量U1;gn;U1;2i;gn;......的人。;uD属方法优于FS的一些基准算法。差异进化(Differential Evolution,DE),Storn和Price(1997)是一种较新的全局数值优化在交叉阶段。这可以使用以下等式来举例说明。并且是研究领域中最广泛使用的元启发式优化技术之一(Das等人,2016年)。因为它的少i;gn¼ji;gnJ如果n=1,则n= 1,则n = 1,ð2Þ该算法具有计算量小、收敛速度快等优点,优于遗传算法(GA)、遗传程序设计(GP)等其它EC技术。因此,DE已被用作包括FS的许多领域中的有效技术(Khushaba等人,2008,2011; Al-Ani等人,2013; Li等人, 2014年)。然而,多目标DE至今尚未用于滤波FS方法中(Xue等人,2016年)。在这项工作中,一个过滤方法使用精英主义的基础上,提出了一种多目标差分进化算法(FAEMODE)xi;gn否则这里,CR是在[0,1]之间变化的常数,并且表示范围[1,D]内的随机整数。在选择过程中,评估和比较每个试验向量及其对应的目标向量的适应度具有更好适应度值的解将在下一代中领先这可以表示如下。修好了这项研究已经扩大了考虑两个流行的措施,如相关系数和互信息的特征评估。 通过这样做,不仅线性Xi;gn1U i;gn;如果f<$Ui;gn<$6f<$Xi;gn<$;Xi;gn;否则ð3Þ在所提出的方法中考虑了相关性,而且还考虑了特征之间的非线性相关性。本文的其余部分组织如下。第2节简要回顾了本工作中使用的所有经典方法和概念关于所提出的FAEMODE的新概念的讨论在第3节中给出,并且在第4节中说明了逐步实现。实验研究和结果讨论的一部分,其中所提出的算法的性能被证明,是详细的第5节。最后,第6节结束了工作。2. 材料和方法本节详细介绍了所有已纳入拟议方法的经典方法和概念。2.1. 差分进化进化优化是Storn和Price(1997)提出的一种基于种群的启发式进化优化技术。这是一种有效的全局优化技术,以其简单性,有效性和鲁棒性而闻名。这吸引了许多研究人员对DE在各个领域的关注本节简要介绍经典DE。DE的工作原理分为四个基本步骤:初始化,变异,交叉和选择。在初始化时,初始化控制整个工作过程的一些调节参数,例如比例因子(F)、交叉率(CR)、群体大小(NP)和总代数最重要的是,具有其所有候选解的大小为NP的D维种群在由预定义的下和上界限X LB¼ fx1;... ;x Dg和X UB 1/4fx1;. . ;xDg.这里,fUi;gn和fXi;gn表示试验和tar的适应度值。分别得到向量。这三个过程将重复进行,直到达到最大代数(GN)2.2. 多目标优化为了在两个或多个冲突目标之间进行权衡,需要制定多目标问题。FS问题可以通过同时优化(最小化/最大化)N个目标函数来表示为多目标优化问题优化WF这里,Fs是数据集的所有可能的特征集,W是优化所需的目标函数集。在这里,最优意味着最小或最大,这取决于目标的性质。为了方便起见,我们最小值越好。然后我们可以重写Eq。(4)如下。尽量减少WF现在,帕累托最优可以通过同时最小化N个目标来实现。当且仅当它不被任何人支配时,它才能成为帕累托前沿的一考虑两个解s1和s2,其中s1;s22S.解s2被s1支配,如果●fis16fis2;8i;i21; 2;···;N6●f j=1个1233l 2 .ll151 2 1 2 12PP1 2 12仔细分析可以发现这两个目标的矛盾性质特征数量越多,D值越大因此,第一目标的最大化可能会通过选择具有更多特征的特征子集来错误地增加冗余然而,第二个目标试图通过减少特征的数量来控制负面影响,即。降低R值,这反过来又减少了特征的数量。考虑到上述两个目标,所提出的算法的整体适应度可以用公式表示如下。尽量减少最小工作压力1;R=123.2. 最优解对于大多数情况下Pareto前沿的最佳折衷解的选择,人们考虑了一个有效性指标,返回良好的但是通过这样做,所选择的有效性指标可能不考虑已经被考虑用于优化的所有目标正因为如此,本文中遵循的模糊概念(Abido,2003)可以被认为是用于确定最佳折衷解决方案的决策者。如下描绘了已经被遵循以将隶属度值分配给帕累托前沿集合PFi的每个个体的隶属度函数非支配的解决方案的帮助下,方程。(十四)、比如说,对于k = 2,可以用下面的方式计算2 21 2l1l1l2l3l3像这样,将评估k的lk,并且在帕累托前沿中lk值为最大值的非支配解将是期望的折衷解。4. 用于特征选择的本节详细阐述了所提出的算法的逐步实现4.1. 该算法在FAEMODE算法开始之前,需要初始化一些参数。参数设置详见第(5.1)节。FAEMODE的整个伪代码已在算法1中总结,并在后续章节中详细说明。算法1. FAEMODE的伪代码1.开始8><1;如果PFmax-PFPFi6PFmin2.找到搜索空间将被均匀随机化的上界和下界在我们的例子中,它是[1,0]。l¼i我 ;如果Maxminð13ÞiPFmax-PFminPFiPFiPFi<<3.对搜索空间进行统一随机化,我我0;如果PFiP PFmax初始化种群的上界和下界,给你,我 表示第i个Pgn 1/4 fX1;gn;. ;X NP;gng.4.While(未达到最大生成数)//目标函数,而PF最大和PF最小象征着最大-停止标准我我最小值和最小值。对于每个非支配解k,lk表示归一化隶属函数,并且可以如下计算。4.1.突变:根据等式1中所描绘的变体,为每个单独的靶向量X1:gn生成突变体向量V1:(一).PMlk我4.2.交叉:生成试验向量Uð14Þi;gni;gn 从N帕累托MLNn11/1这里,Npareto是Pareto前沿的非支配解的数量,M表示目标函数的数量。最好的折衷解是lk是最大值的解.为了使这个概念更清楚,下面举一个例子。让因此,三个非支配解的两组适应度值可以描述如下。V使用Eq。(二)、4.3.选择:使用以下步骤为下一代生成新种群4.3.1将目标向量Xi;gn和试验向量Ui;gn合并以形成维度为2NPD的矩阵。4.3.2按照第(4.3)节的方法,根据联合矩阵对应解的阈值对数据集进行预处理,通过使用Eq.(十二)、4.3.3为每个人111PF3122PF3使用Eqs. (6)、(7).4.3.4按照非支配秩和拥挤距离的升序排列所有2个NP数的解(Deb现在找到这三个非支配解的每个适应度函数的最大值和最小值,即PFmax;PFmax;PFmin和PFmin。使用这四个值和Eq. (13)可以将成员资格值分配给上述矩阵的每个成员。因此,新的隶属度值矩阵被公式化,并且可以被可视化如下。例如, 2002年)。4.3.5基于非支配性和拥挤距离选择联合矩阵的非支配解的前NP个数作为下一代的目标向量(这保留了精英主义的概念)。5.达到最大生成(终止)后11标准),最佳的最优解决方案可以按照第3.2节。126.所选最佳的活动要素数1 2解决方案是所需的结果。通过使用每个适应度函数的隶属度值,可以将归一化的隶属度值分配给每个适应度函数。7.算法结束2PF2LL对应的目标向量X1;gn和突变向量S.K. Nayak等人/沙特国王大学学报179i;gni;gnD我LBLB.为了使事情更清楚,整个算法的流程已经由图1中的流程图表示。除此之外,整个工作的概述已在图中描绘。 二、4.2. 人口表示和初始化任何基于群体的元启发式优化技术都包括多维问题空间,其中每个粒子表示相应问题的解决方案。对于FS问题,每个解决方案都代表了特征的组合然而,特征的组合是由一定的规则决定因此,具有多个解决方案的群体表示待优化以找到最佳组合的特征的不同组合该算法的主要目标是通过丢弃不相关的特征来找出相关且有用的特征这里,具有 D 维特征的 NP 粒子的群体 Pgn 可以表示为P gn¼fX1;gn;. ;X NP;gng 并且每个解X i;gn,其中i^l; 2;. ;NP,概括为图二. 整个工作的概述。其中下限和上限分别为1和0,D表示数据集的特征总数。代表特征的唯一组合的每个解决方案代表每个特征的阈值。考虑到这一点,最初的人口-Xi;gn¼ fx1;......的人。;xDG. 这个群体应该覆盖整个NP的定义 第一代的颗粒,即gn 1/40,通过在推荐的下限和上限内用随机数均匀地初始化每个属性来搜索空间描述如下。1D1D2x1x2···x3X LB¼ fxLB;. ; XLBg和XUB1/4 fXUB;.. ; xUBg分别。为了考试-ple,当前生成的第i个解决方案的第j个属性gn 1/40由以下公式产生:JJPgn¼641;gn..1;gn....1;gn.75ð17Þxj¼xj100μmd½0;1-- (c)j1;2;:;D;161中性粒细胞2中性粒细胞·· ·xNP;gnFig. 1. FAEMODE流程图初始化初始化种群采用均匀在相应数据集的规定限度内开始随机化即.是使 用 第 ( 3.2 ) 节 从帕累托前沿找到折衷解。没找到变异载体对于单个目标向量使用等式停止生成试验向量从相应和使用等式将试验载体和目标载体合并,每个载体的大小形成一个种群大小。使用选定的要素子集根据每个单独的解决方案更新数据集,并查找生成大小的适应度矩阵。根据适应度矩阵对联合种群进行非支配排序利用非支配秩和拥挤距离选择最优解作为下一代算法的目标向量数据集EModE所 选 要素子集分类与10 FCVPCC适应度函数MI结果FAEMODE选择交叉突变XDXUB180S.K. Nayak等人/沙特国王大学学报111nn2x551;gn111nnn6464.Xx阈值大于0.5的元素反映了Pgn中相应特征的激活。因此,Pgn以这样的方式生成,即每行的至少一个元素应该具有大于0.5的阈值,这模拟了数据集应该具有至少一个特征。4.3. 适应度评估每个数据集都需要在适应度评估之前进行预处理在预处理解决方案时,可以根据其对应的阈值仔细选择每个活动特征因此,具有所有活动特征的改革解决方案可以被指定用于适应度计算。这可以用下面的例子来说明。让我们考虑一个数据集(DATA),它有五个特征和n个实例。数据集和群体Pgn可以表示如下。2数据1数据2·· ·数据53.计算滤波器FS方法,分别在MIFS-CR和MIFS-U中使用两个单独的冗余度量。然而,两个传统的包装方法和最近提出的单目标和两个多目标的进化元分析的包装FS方法已被考虑到性能评估。5.1. FAEMODE使用的数据集和参数设置在本文中,23个基准数据集被认为是评估的目的。然而,只有9个数据集已被用于比较过滤FS方法。这些数据集是研究人员最熟悉的基准,并在过去十年中发表的许多论文中广泛用于FS领域的性能比较。表1列出了这些基准数据集的简要总结。带有粗体字母的数据集已用于滤波器方法性能评价。用于每个真实数据集的详细描述,可以参考UCI数据¼.数据1......数据2·· ·数据75ð18Þ存储库(Bache和利希曼,2013年度)和LIBSVM数据库(Chang和Lin,2001年)。选择的特征子集,这是亲的结果11;gn.21;gn···x1;gn3通过10倍交叉验证(FCV)对提出的算法进行了评估整个数据集。怀卡托环境知识分析-P gn¼..1 2NP;gn....·· ·xNP;gn75ð19Þ姐妹(Weka)(Hall Eibe Frank等人, 2009年)用于业绩评价目的。保持实验环境相似的文章最多,使用最频繁的分类考虑第一个解决方案,如果元素x131;gn41;gn算法,K-最近邻(KNN)(Aha等人, 1991年),天真具有大于0.5的阈值,则将被考虑用于适应度评估的数据集被描绘如下。2数据1数据3数据43贝叶斯(NB)(John和Langly,1995)、径向基函数神经网络( RBFNN ) ( Moody 和 Darken , 1989 ) 和 C4.5 ( Quinlan ,1993)被选择用于性能比较。然而,为了使分析公平,1NN被认为是比较过滤器数据¼64..数据1..数据3..数据475ð20Þ方法和5NN用于比较包装器方法。为了评估滤波方法的性能,受试者工作特征(ROC)的曲线下面积(AUC)具有虽然数据集的维数减少了,但与数据集的每个实例相关的类信息必须保持不变。像这样,对于群体的每个解决方案,数据集根据每个特征的相应阈值进行重构此后,基于相应的降维数据集,使用第(3.14.4. 终止标准重复变异、交叉、选择和适应度评估的步骤,直到达到最大代数(GN)。优化的字符串或染色体表示FS问题的解决方案,其组合表示最佳可能的特征子集。5. 数据集上的实验和结果讨论在本节中,建议FAEMODE方法已与一些著名的基准测试技术,以测试其有效性。基准方法如下。在最初的四种基于滤波器的方法中,mRMR(Hanchuan Peng等人, 2005)、MIFS(Battiti,1994)、NMIFS(Estevez等人, 2009)和MIFS-U(Kwak和Choi,2002)进行了性能比较。除此之外,最近提出的特征冗余测量MIFS-CR(Wang等人, 2015年)也与拟议的一个。在第二阶段,将所提出的算法与MECY-FS和MEFS-U(Wang等人,2015年)。MECY-FS和MEFS-U是基于多目标进化算法用了这被认为是比分类中的性能评估的准确度更好的度量(Ling等人,2003年)。本文通过大量的实验,对该算法的性能进行了分析,找出了能得到较好结果的参数。参数列于表2中。高的CR值和低的F值产生最好的表1基准数据集的详细信息。●5X;xandx●n●数据集#类#特性联系我们虹膜34150玻璃69214乳腺癌210683酒313178心脏213270澳大利亚214690动物园717101车辆418846淋巴418148蘑菇2228124德语数字2241000WBCD230569电离层234351萨蒂马吉7366435Kr-vs-kp2363196波形3405000Spambase2574701声纳260208剪接2613190希尔谷2100606麝香1号2166476DNA21805186心律失常16279452S.K. Nayak等人/沙特国王大学学报181表2FAEMODE的参数设置世代数(GN)150F(比例因子)0.3CR(交叉率)0.9NP(人口规模)50搜索空间维度(D)数据集的要素总数结果在我们的案子里。因此,CR和F已分别初始化为0.9和0.3。终止标准取决于数据集获得最佳特征子集所需的平均代数。根据这一点,已经进行了一些试验,以最终确定该值,并且对于本工作中考虑的所有数据集,该值最终确定为150(GN¼5.2. 实验结果及分析为了了解所提出的模型的稳定性,在每个数据集上进行了40次独立运行。据观察,对于每个运行,所提出的算法产生一组非支配的解决方案。每一次都将具有最佳折衷值的解视为最优解. AUC和分类准确度已经在40个最佳解决方案上平均。为了评估特征的平均数量,将每个特征子集的特征数量相加,然后平均40。这里考虑的用于与所提出的算法进行比较的所有其他算法的结果参考了该论文(Wang等人,2015年;保罗和达斯,2015年)。需要注意的是,基于所选特征子集的最终分类是对所有数据集使用10倍交叉验证进行的在这里,考虑到四个最流行的分类技术,如KNN,NB,RBFNN和C4.5,该模型在选定的特征子集方面的有效性得到了证明。此外,所提出的方法进行了比较的基础上的百分比特征减少。在本节中,所提出的方法不仅与其他过滤器方法进行了比较,而且与最近的一些包装方法进行了比较,以证明其有效性。图图3-11表示用于过滤器方法中的性能评估的每个数据集的帕累托前沿。这里展示了40个模拟结果中的一个,以直观地描述每个数据集的帕累托前沿值得注意的是,对于每个数据集,所提出的模型足以提供人口规模的帕累托前沿。此外,最优折衷解是从一组非支配的解决方案中选择的Pareto前沿只。表3为了更好地分析这些表格,采用基于等级的方法进行绩效评价。该方法产生的最高AUC值将标记为等级1,AUC值最差的方法将标记为等级6。现在已经对九个基准数据集实现的排名进行了平均,并且与其他方法相比,具有最低平均排名值的方法可以被认为是FS的最佳方法。为了使事物更具可比性,我们考虑了另外两个标准。首先,AUC值对所有9个数据集的平均值进行了平均,具有最佳平均值的方法可以被认为是最佳方法。类似地,第三个标准讨论了一种方法在AUC方面表现最好的情况的数量。因此,具有最高值的方法可以被认为是最佳方法。然而,标准差增加了绩效评估的权重。此外,表11在这里,从平均分类图三. 澳大利亚数据集的帕累托前沿。见图4。 Hill Valley Dataset的Pareto前沿。精度表15显示了FAEMODE实现的每个数据集的特征子集的平均大小。5.2.1. 与传统滤波器FS方法的比较在本节中,将MIFS、NMIFS、mRMR、MIFS-U和MIFS-CR等五种滤波器方法与提出的FAE- MODE算法在九个数据集的AUC方面进行比较此外,这些方法的选择的特征子集进行了分析,基于四种分类技术,如KNN,NB,RBFNN和C4.5和比较结果分别描绘在表3,4,5和6。应该注意的是,在特征选择中有贡献,并且这些仅用于测量所选特征子集的质量。182S.K. Nayak等人/沙特国王大学学报图五. 电离层数据集的帕累托前沿。图六、Kr-vs-kp数据集的帕累托前沿图7.第一次会议。淋巴数据集的帕累托前沿图8.第八条。Mushroom Dataset的Pareto front在表3中,已经证明了所提出的算法FAEMODE与所有五种滤波器方法在平均AUC方面的比较使用10个FCV和KNN(K = 1)分类器对所提出的多目标方法的结果--特征子集进行了测试。从表3可以看出,FAEMODE在所有情况下都优于MIFS、NMIFS和mRMR。此外,所提出的一个产生更好的结果,在九个数据集对MIFS-U和九个对MIFS-CR分别为七总体而言,FAEMODE在九个数据集中的六个数据集中表现最好。在淋巴,电离层,Kr-vs-kp,声纳,剪接和DNA的情况下,所提出的方法占主导地位,其他具有巨大的利润。如果考虑所有数据集的所有独立平均值的AUC最重要的是,与其他过滤方法相比,所有数据集的标准偏差都特别好。考虑到等级,可以观察到FAEMODE在所有策略中的平均排名最低,为1.66在表4中,表示了与NB分类器的方法的比较在Lymph数据集的情况下,所提出的算法以较大的幅度击败了其他算法如果可以深入分析,可以发现在其余的情况下,所有方法都表现得同样好。然而,如果考虑该数量,则MIFS-CR在9种情况中的4种情况下表现最好,而所提出的方法在9种情况中的3种情况下表现最好。在声纳的情况下,NMIFS、mRMR和MIFS-CR等方法超过FAE-MODE的最大值为
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- 利用迪杰斯特拉算法的全国交通咨询系统设计与实现
- 全国交通咨询系统C++实现源码解析
- DFT与FFT应用:信号频谱分析实验
- MATLAB图论算法实现:最小费用最大流
- MATLAB常用命令完全指南
- 共创智慧灯杆数据运营公司——抢占5G市场
- 中山农情统计分析系统项目实施与管理策略
- XX省中小学智慧校园建设实施方案
- 中山农情统计分析系统项目实施方案
- MATLAB函数详解:从Text到Size的实用指南
- 考虑速度与加速度限制的工业机器人轨迹规划与实时补偿算法
- Matlab进行统计回归分析:从单因素到双因素方差分析
- 智慧灯杆数据运营公司策划书:抢占5G市场,打造智慧城市新载体
- Photoshop基础与色彩知识:信息时代的PS认证考试全攻略
- Photoshop技能测试:核心概念与操作
- Photoshop试题与答案详解
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功