没有合适的资源?快使用搜索试试~ 我知道了~
[沙特国王大学学报一种新的基于约束特征值优化的特征选择方法Amina Benkessirata,Nadjia Benblidiaa,a阿尔及利亚Blida第一大学LRDSI实验室阿提奇莱因福奥文章历史记录:收到2021年2021年6月7日修订2021年6月22日接受2021年7月15日在线提供保留字:特征值计算特征选择优化分类A B S T R A C T在现实生活中的分类应用中,在给定大量候选特征的情况下,选择能够确保足够样本分类的模型特征通常是棘手的。我们的主要贡献有三个方面:(1)评价特征的相关性和冗余性。(2)将特征选择问题定义为带线性约束的特征值计算问题(3)以有效的方式选择最佳特征我们考虑了20个UCI基准数据集来验证和测试我们的方法。并将所得结果与应用最广泛的方法之一mRMR、传统方法和两种现代方法进行了实验结果表明,我们的方法可以提高分类任务,使用只有20%的传统功能。版权所有©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍近年来,人们对数据挖掘和机器学习给予了相当大的关注,以研究特 征 选 择 方 法 ( Wang 和 Feng , 2019; Benkessirat 和 Benblidia ,2019)。特征选择方法已经成为机器学习(ML)过程的主要部分(Kumar和Minz,2014; Han等人,2011 a; Tang等人, 2019年)。事实上,一组特征可能会不必要地大,并且包含冗余和/或不相关的特征,这些特征需要大内存来存储所有特征,实现所需结果的相当长的处理时间,或给定噪声特征的有偏差的结果(Kumar和Minz,2014;Guyon和Elisseeff,2003; Dash和Liu,1997)。因此,在处理这些问题,在这项研究中提出了几种技术,旨在确定一个相关的子集的功能,从原来的集合。换句话说,特征的子集(Alpaydin,2009; Witten等人,2016年)对我们的产出变量贡献最大。(i.e.目标变量)。*通讯作者。电子邮件地址:benkessirat. etu.univ-blida.dz(A. Benkessirat),benblidia@gmail.com(N. Benblidia)。沙特国王大学负责同行审查制作和主办:Elsevier功能的相关性取决于系统的目标(Kumar和Minz,2014; Blum和Langley,1997)。特征可以被分类为不相关的、弱相关的或强相关的。然而,必须从原始集合中删除一个不相关的特征。相反,如果存在子系综V,其中V的性能优于V{f}的性能,则特征f是弱相关的如果特征f在所选子系综中的缺失意味着系统性能的显著恶化,则特征f特征选择方法旨在从n个特征中选择一组k个特征,这些特征在不改变其语义的情况下更好地描述给定问题(Alpaydin,2009; Han等人,2011年b)。然而,为了选择最佳特征,我们需要执行扩展-空间中的研究2n-1候选人(Alpaydin,2009)。这个问题已经被证明是NP难1(Kumar和Minz,2014;Han等人,2011年a; Sahrashekar和Sahin,2014年)。要找到一个全局最优的解决方案似乎很有挑战性。一些作者指出,一个集合的性能除了依赖于其成员的独特性之外,还依赖于相关性。因此,选择最佳功能通常涉及相关性和唯一性之间的折衷。特征选择的一般程序包括四 个 步 骤 ( Kumar 和 Minz , 2014; Benkessirat 和 Benblidia ,2019):1NP-Hardis决策问题的复杂性类,这些问题本质上比那些可以在多项式时间内通过非确定性图灵机解决的问题更难。当一个组合优化问题的决策版本被证明属于NP-完全问题类时,则该优化版本是NP-难的。https://doi.org/10.1016/j.jksuci.2021.06.0171319-1578/©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comA. Benkesirat和N. 本布利迪亚沙特国王大学学报4837---●子集生成,● 子集评估,● 停止标准,● 结果验证近年来,已经提出了几种特征选择方法,这些方法可以分为三类:基于排序的方法,基于聚类的方法和基于优化的方法。在本文中,我们提出了一种新的特征选择方法,包括以下步骤:将问题表述为一般的优化问题,并将其简化为具有线性约束的特征值为了解决我们的问题,基于用于特征值计算的幂迭代方法开发了一种有效的迭代方法(Xu等人,2009年)。该方法通常收敛于最优解,因此可用于解决各种优化问题。事实上,我们的主要目标是opti-objective一个标准,同时考虑冗余和相关性。然后在20个不同的UCI2数据集上测试这种基于优化的特征选择方法,这些数据集具有各种类型的特征(Asuncion和Newman,2010)。论文的其余部分分为以下几节。第2节回顾了相关工作,第3节介绍了建议的解决方案。第4节讨论了在9个数据集上的实验结果,最后是第5节,提供了一个总体结论和对未来工作的建议。2. 相关工作已经开发了几种特征选择方法,并成功地应用于各种各样的领域和应用中,例如:图像检索(Annrose等人,2018)、基因组分析(Pes等 人 , 2017 ) , 入 侵 检 测 ( Mohammadi 等 人 , 2019 ) , 遥 感(Zhong等人,2018)和文本分类(Tang等人,2019年)。在本节中,我们根据前面提到的类别对相关工作进行了回顾。2.1. 基于排序的方法这类方法在一个评价标准下对原始集合中的每个特征进行排序,然后选择具有比预定义阈值最大排序的特征,或者根据排序的降序迭代地选择,直到获得期望的k个特征Cilia等人(2019)提出了一种新的FS方法。他们的方法基于不同的单变量度量对特征进行排序,并使用贪婪搜索方法选择特征。他们的方法最大限度地提高了分类精度。在他们的工作中,他们使用标准的手写字符真实字数据库测试了所提出的方法。实验结果证实了他们的建议的有效性。实验结果还表明,他们的建议大大降低了计算复杂度。然而,在这种情况下,分类性能非常有限。在Hancer等人(2018)的另一项研究中,提出了一种基于互信息概念的新过滤标准,ReliefF算法和Fisher评分;即互信息特征选择方法MIFS。建议的标准试图选择最高2UCI它是UCI的机器学习库,为开源数据集提供最新资源由ReliefF和Fisher Score确定的分级特征,同时提供特征和类标签之间的相互关联。他们使用UCI存储库中的12个数据集测试了所提出的方法。结果表明,该准则优于MIFS在单目标和多目标框架。研究结果还表明,将特征选择作为一个多目标问题来考虑通常可以提供更好的性能,关于特征子集的大小和分类精度。2.2. 聚类方法这类方法旨在将特征分组到不同的聚类中。使得相同聚类内的特征被认为是充分相关的。因此,去相关特征属于不同的聚类。可以基于相关系数和互信息等来计算特征之间的相关性。Mitra等人(2002)描述了一种基于特征之间相似性的无监督特征选择算法,以处理冗余问题。在这里,该方法不需要执行任何搜索功能,因此非常快。他们还介绍了一种新的特征相似性度量。该算法具有通用性和多尺度表示能力。在Zhou et al.(2014)的另一项研究中,提出了一种基于k-means聚类特征选择的文本分类方法。在这里,他们使用k-means方法为每个类捕获几个聚类中心,然后选择中心中的高频词作为分类的文本特征k均值算法提取的词不仅能很好地代表各个类的聚类,而且语义表达质量高。此外,他们使用三个普通文本数据库测试了所提出的方法。基于其特征选择方法的分类器表现出比原始分类器更好的文本分类性能。Saha和Das(2018)考虑了模糊数据聚类以及自动组件数量检测和特征选择的问题在这里,模型选择标准被用来解决的问题,组件数量的选择,并提出了评估标准,并测试他们提出的方法经验,以展示其有效性。然而,Panday等人(2018)引入了两种无监督的特征选择算法,该算法利用了一种依赖于聚类的特征加权机制,反映了给定特征的聚类内相关度在这里,他们将这些建议与其他两个流行的替代方案进行了比较。实验表明,他们的算法优于替代品。2.3. 基于优化的方法这一类将特征选择问题转化为优化问题。大多数方法使用许多控制参数,这些参数需要调整以获得更好的性能。Allam和Nandhini(2018)提出了一种新的基于包装器的特征选择方法,称为基于二进制教学学习的优化(FS BTLBO)算法,该算法只需要常见的控制参数,如种群大小和多个代,即可从数据集中获得最佳特征的子集。不同的分类器被用来设置他们的研究目标。结果表明,FS BTLBO在Wisconsin诊断乳腺癌(WDBC)数据集上以最少的特征数产生了更高的准确性Arora和Anand(2019)提出了蝴蝶优化算法(BOA)的二进制变体,以便在包装模式下选择用于分类目的BOA可以有效地-●●A. Benkessirat和N. 本布利迪亚沙特国王大学学报4838-PX¼P2ð Þfg 2 f-g1 - 2f g 2 f-gzp最近地探索特征空间,以获得最优或接近最优的特征子集,从而最小化给定的适应度函数。这些二进制因此,大的Mi;i对应于最相关的特征,而大的Mi;j对应于冗余度较小的特征。因此,算法是然后相比与五个最先进的方法和四个最新的高性能优化算法-通常,n的大值1/1M i;j意味着一个好的子集。上Rithms他们使用UCI存储库中的21个数据集测试了所提出的方法。实验结果证实了他们提出的方法在改进分类方面基础上制定的选择的k大小子集为(Alpaydin,2009年):最大重量Mw;n与其他基于Wrapper的算法相比,具有更高的准确性然而,将BOA算法与另一种基于种群的元启发式算法混合,并通过使用增强的初始化方法来改善计算时间,s:t wi¼k1/1wi2 f0; 1gð1Þ在这种情况下,可以用更接近最优的解池开始优化当wi1时,将选择第i个特征,并将其相关性计入目标函数中。约束然而,通过对相关著作的研究,限制:ni¼1 wk控制所选子集的大小。问题(1)基于排序的方法在选择特征时呈现直观的感觉。然而,他们没有考虑到隐含的和显式的特征之间的关系。基于聚类的方法有几个限制,例如:(a) 在它们中的大多数中,用户必须预先指定聚类器的数目,并且(b)对输入参数非常敏感。基于优化的方法从特征的随机子集作为初始种群开始。因此,所得到的结果是敏感的初始化和它们的有效性强烈依赖于初始选择。3. 该方法在没有专家干预的情况下自动确定给定问题的相关特征是一个困难的问题。基于上述相关工作的局限性,在这项研究中,我们提出了一个扩展,以填补差距,从排名为基础的方法和优化为基础的方法的优点受益。我们提出的特征选择方法是基于线性约束的特征值,具有以下突出特点。它考虑了特征之间的冗余以及特征与目标类之间的相关性;它从性能矩阵的特征值开始,以确定最佳相关特征。3.1. 预赛在本节中,提出了特征选择问题的一些数学公式。3.1.1. 数学公式定义1. 一个训练集LetL<$f <$fi;ci<$j i<$1. . mg是训练集。其 中 ,fi 2 R n是第i特征 (n个是的number的features),ci Class是相应的类标签。定义2.性能矩阵设置性能矩阵M2 R nxn以记录所有特征的性能。对角线一个标准的0-在什么接下来,我们重新定义它以有效地解决它。3.1.2. 评价尺度为了获得更高的相关性,选择与目标类具有更高互信息的特征此外,为了获得更高的多样性,选择在它们之间具有较小互信息的特征。定义3.互信息(Zhou等人,2019年)。设x和y是两个随机变量,它们的互信息I<$x;y<$由它们的概率密度函数p<$x <$;p<$y<$和p<$x;y<$定义:Ix;yZZpx;ylogpx;ydxdy23.2. 我们的建模在本节中,我们将我们的问题视为最大割问题Mc-k的一个实例。定义4.最大割问题:对于给定的图G,最大割是其大小至少是任何其他割的大小的割也就是说,它是将图的顶点划分为两个互补的集合S和T,使得集合S和集合T之间的边的在图中寻找最大割的问题被称为最大割问题。最大割问题旨在识别将顶点集合划分为两个部分的分区,该分区最大化边上的权重之和,其中在给定无向图和边上的非负权重的情况下,该分区的每个部分中具有一端(Yang等人, 2020年)。如前所述,我们将把特征选择问题的每一个实例都看作是最大割问题的一个实例,这一选择是因为投影功率方法是最近提出的一种解决最大割问题的有效方法。实际上,“投影功率方法”的复杂度对于每个循环是O n 2,并且在大量实验之后证明,它在一些迭代之后收敛(Xu等人, 2009年)。在我们的问题公式(1)中,权重wi可以取值于0; 1 .然而,在Mc-kwi1; 1 .因此,为了将我们的特征选择问题简化为最大割问题,我们进行以下变量变换。令z i2 w i1.这样,当W0; 1,zi1;1。(1)的目标函数变为:条目Mi;i 表示第i个特征与目标类T的相关性4并且非对角线条目Mi;j测量成对分集,在第i个和第j个特征之间。作为我们工作的一部分,对角项使用Fisher得分计算,非对角项使用互信息计算。其中e是一个大小为1的n向量。因此,考虑到上述变量变换,我们的问题将写为:●●●●●3A. Benkesirat和N. 本布利迪亚沙特国王大学学报4839maxz e M z e;[2019 -04-21]z2 f-106g1;1g2 f-gp公司简介¼1/2ci¼ þn=BTBBT-1 c;10不4s:tzT e¼2k-n;zi2 f- 1; 1gð4Þ3.3. 带线性约束的为了使(4)中的目标函数均匀化,并使约束成为一个很好的二次型,我们建议执行一些变量扩张.让美国扩大的向量zz1;z2;::;zn到z z0;z1;::;zn,令z01。z现在是一个(n+1)大小矢量。考虑到这种扩展,我们构建了一个新的矩阵A2 R.一杯0eT MMT eMð5Þ考虑到这个矩阵和新扩展的向量z,(4)的等价形式可以用更简洁的形式来写(4)的等价形式可以写成:最大Zs:tzT e¼2k-n 1我在(6)中,z2:n中的k个最佳值表示选择了相应的特征。离散约束z i1;1使我们的问题成为NP难问题所以,为了缓解这个问题,我们替换离散约束Z2 f-1;1g<$n<$1<$ 通过规范约束kzk ¼1.然后,问题公式变为:最大Zs:tzT e¼2k-n 1kz k<$pn1z0¼1ð7ÞFig. 1. 所提出方法的流程图。我们将上面对向量z的约束写成Bz = c,其中:11:1分钟10: 0H= AATi= 0;P= I-BTBBT-B;c/2ωk-n 1;1c<$q1-jn0j2;B被构造为满足第一和第三约束,目标函数然后,问题公式变为:zPHn0jjPHn0jj重复0;maxzTAz Bz ckz k<$pn1ð8ÞuPhzi;jjPHZijjzi1 <$ui1n0;i i1个;直到z收敛本文中提出的松弛(8)是非凸的,并且类似于具有线性约束的最大特征值计算,这使得优化问题复杂化。幸运的是,最近提出了“投影功率法”(Xu et al.,2009年),并在这里应用于找到问题(8)的解决方案。我们的方法的所有步骤都总结在图中。1中的问题(8),并详细给出了算法1中问题(8)的解法。算法1:通过约束特征值优化的FS输入:矩阵M记录特征性能- 根据(5)计算矩阵A- 求解优化问题(8):返回z。4. 实验和结果为了验证所提出的方法的有效性,基于来自UCI的机器学习(ML)数据存储库的20个真实世界数据集在本节中,我们首先描述了我们研究中使用的数据集,然后概述了ΣB¼A. Benkessirat和N. 本布利迪亚沙特国王大学学报4840公司简介×jSjXi采用的实验和评价指标。在此之后,我们提出了我们的发现和实验结果。4.1. 数据集说明在我们的研究中,使用了来自文献的20个数据集来验证我们提出的方法。这些数据集来自不同的领域,包含多个特征,具有许多实例和各种 类别 。数 据集 属性 的 详细 总结 见表 1 (Asuncion和 Newman,2010)。4.2. 方法和评价标准我们的特征选择方法不与特定的分类器卷积。因此,我们期望由该方案选择的特征在各种类型的分类器上具有良好的性能。为了测试这一点,我们考虑了数据挖掘社区中经常使用的两种最有影响力的算法(Wu例如,2008),即支持向量机SVM和决策树DT。SVM被认为是最鲁棒和准确的方法,DT提供了一种有效的决策方法(Wu等人, 2008年)。我们进行了一系列的实验,以评估-基于DT和SVM进行分类。在我们的实验中采用的方法描述如下:直接在原始数据集上执行DT和SVM(无特征选择的分类)并评估其性能(基线分类器)。一组特征,我们只对具有选定特征子集的数据集应用DT和SVM,并评估其有效性(基于InfFS方法的分类器)。执行一系列半监督特征选择测试SSFS方法(Sechidis和Brown,2018);每次我们改变所选特征数量的百分比(k)。在每个获得的特征子集上,我们仅对具有所选特征子集的数据集应用DT和SVM,并评估其有效性(基于SSFS方法的分类器)。在这里,我们简要介绍了文献中最知名的方法,即mRMR。Penget al.(2005)提出了一种基于最小冗余度和最大相关度准则的特征选择新方案。给定输入数据,样本和M特征Xxi;i1;. . . M,并且目标分类变量c;mRMR被定义为:最大U/D;R/D;U/D-R/D这样,最大相关性标准计算如下:D¼maxDS;cD¼1XIxi;c其中,最小Redundance准则计算为:R¼ minR SR¼1XIxi;xj● 执行一系列的测试我们的本征FS,每次我们改变jSjxi;xj所选特征的数量的百分比(k)。每获得的特征子集,我们只在具有所选特征子集的数据集上应用DT和SVM,并评估其有效性(基于特征FS的分类器)。执行最小冗余最大相关mRMR方法的一系列测试(Wu等人,2008);每次我们改变所选特征的数量的百分比(k)。在每个获得的特征子集上,我们仅对具有所选特征子集的数据集应用DT和SVM,并评估其有效性(基于mRMR方法的分类器)。执行无限特征选择InfFS方法的一系列测试(Roffo等人,2020年);每次我们改变一些选定特征的年龄百分比(k)。每一个获得的子表1实验中使用的数据集的属性然 而 , 值 得 注 意 的 是 , 基 线 分 类 器 , 即 基 于 mRMR 的 分 类器;InfFS;SSFS方法和基于本征FS的分类器在相同的实验环境中实现。由于样本数量有限,我们选择了交叉验证策略,该策略允许同时使用整个数据集进行训练和验证。在这里,我们将数据集分为k个部分(折叠),对于每次迭代,我们选择一个部分k,将其用作测试部分。其余部分(其他k-1部分的联合)用于训练。所有实验均采用52-折交叉验证法进行.在那里,我们将数据集分为两部分,分别用于五个不同的时间:训练部分和测试部分。数据集缩写实例特征类心律失常Arr45227916听力学AUD2266924澳大利亚信贷审批ACA690142平衡Bal52643小尺寸BS2043乳腺癌BC28692乳腺癌的早期症状BCW699103汽车测评CE172864国会投票记录CVR435162皮肤科Der3663416玻璃鉴别GI214106肝属Hep155192图像分割是2310197虹膜IR15043字母识别LR200001626多特征傅立叶M2f20007610多fea karhunen-loveMFKL20006410麝香1号MU14761662麝香2号MU265981662动物园动物园101167●●2●●A. Benkesirat和N. 本布利迪亚沙特国王大学学报表24841¼¼使用DT分类器的平均准确度结果总结。mRMRInfFS_SSSFS本征FS DT_基线平均MaxK平均最大K平均MaxK平均最大kCE82.5186.820.768.47 70.020.279.1580.930.582.5186.82 0.794.24BC67.869.440.569.53 70.840.366.2367.270.370.8573.21 0.465.10M2f73.0374.170.272.44 73.370.270.0171.530.373.1374.91 0.271.35IR94.3495.60.877 94.130.593.8194.930.595.8696 0.595.6Arr63.0163.670.360.26 62.880.459.7063.140.763.5364.47 0.262.47AUD72.3372.420.361.96 67.030.371.9472.30.772.3372.42 0.371.85MFKL78.3979.570.478.28 79.080.478.5679.10.478.5679.3 0.377.83BCW94.5394.820.593.74 94.760.395.9396.420.694.1994.47 0.694.04LR81.7383.100.766.84 81.880.778.8783.110.780.3883.10 0.782.31BS57.1457.140.357.140.357.1457.140.357.1457.14 0.357.14ACA80.0180.610.582.16 82.630.572.0380.040.784.6687.06 0.280.78CVR94.9895.030.794.01 94.130.792.8394.090.695.1096.9 0.794.03Der87.8293.280.785.90 88.970.789.3191.480.787.1694.36 0.793.2Hep81.3482.120.477.17 79.420.377.1577.310.383.3684.5 0.676.92GI51.956.470.653.02 56.760.751.2255.330.753.1758.62 0.656.64Mus171.0471.380.571.43 72.520.768.5570.820.771.4373.01 0.770.91Mus292.8293.420.792.09 92.490.690.9592.890.593.6494.84 0.593.03是91.6293.640.693.03 96.650.691.3592.660.790.8992.7792.75Zo81.9982.940.682.65美元0.681.7082.940.582.7983.94 0.583.24Bal64.2265.660.561.81 62.850.563.565.760.567.5670.25 0.579.75我们的模型使用train部分进行训练,并使用test部分进行测试因此,我们获得了五个训练的合奏和每个测试的准确估计。最后,我们只考虑了这五个准确度的平均值。将这五个精度估计的平均值作为最终实验结果。文献中已经提出了几种度量方法来评估基于分类的系统,特别是二进制分类问题(Dash和Liu,1997)。在这项研究中,我们评估的预测模型,使用上述分类器,基于不同的评价标准。这些措施是众所周知的,ML场(Keuchel等人,2003年; Benkessirat和Benblidia,2019年)。分类准确度(ACC)是分类算法获得的真阳性和真阴性在总实例数中的比例使用公式(Alpaydin,2009)确定:AccTNTPTPFPFNTNð10Þ精度(Pr)是正确的预测阳性实例的比例,并且使用公式(Witten等人, 2016年):表3PrTPTPFPð11Þ图二. 分类精度采用DT分类器。使用DT模型的F1评分和错误率结果。数据集F1评分误差kCE 0.72 0.12 0.70.85 0.12 0.4M2F 0.75 0.15 0.30.01 0.50.79 0.28 0.20.19 0.6MFKLBCW 0.96 0.04 0.6LR 0.84 0.04 0.150.29 0.30.12 0.2CVR 0.960.06 0.7肝炎0.78 0.29 0.6穆1 0.77 0.15 0.7穆2IS 0.94 0.05Zo 0.88 0.14 0.50.21 0.5●●A. Benkessirat和N. 本布利迪亚沙特国王大学学报表448422¼ ð Þ使用SVM模型和“线性”核函数的平均准确度结果总结。mRMRInfFS_SSSFS本征FS SVM_基线平均MaxK平均MaxK平均MaxK平均MaxKCE70.0870.170.768.9970.020.270.1370.570.770.0870.170.770.45BC70.3270.830.870.0970.910.769.7270.070.570.3270.690.571.25M2f81.2784.660.383.3884.510.480.0181.620.381.7384.820.281.38IR95.5796.530.878.8695.200.595.0594.530.396.1397.20.897.33Arr64.1765.700.265.1566.640.663.8065.530.763.7565.150.163.89AUD71.4074.780.361.9667.030.372.7373.690.371.7875.860.370.97MFKL95.7395.950.894.2795.510.795.1595.60.695.7096.010.896.15BCW95.8996.280.694.7796.570.795.8396.570.796.1296.450.796.22LR75.8281.720.854.9678.670.769.2180.60.774.8381.720.885.41BS76.8584.290.573.4277.140.575.1481.430.578.6383.430.582.86ACA85.685.920.585.6585.650.477.0985.960.685.5286.520.285.3CVR94.2594.900.694.3694.830.394.4494.690.495.2496.210.594.97Der91.6595.820.792.4995.000.592.4594.980.789.4295.080.792.21Hep82.3882.50.582.0682.880.480.6181.730.382.1383.270.479.23GI46.2752.050.750.3952.690.353.2059.160.650.9762.590.759.03Mus175.4377.80.776.4178.430.576.6578.990.675.4078.110.772.69Mus292.5993.450.692.7393.880.792.9394.020.793.5896.220.794.86是88.3094.250.793.3493.940.590.8094.530.789.7896.990.594.42Zo89.1792.060.789.5290.290.788.6491.180.788.6491.470.792.35Bal67.1276.610.564.6266.390.565.3067.820.565.4268.010.588.59表5使用SVM模型和mRMRInfFS_SSSFS本征FS SVM_基线平均MaxK平均最大K平均最大k平均MaxKCE82.3786.560.768.99 70.020.779.0686.56 0.782.3786.560.7 89.01BC70.4371.530.571.03 72.170.569.3970 0.572.7874.350.4 69.02M2f31.8360.270.260.830.219.2931.54 0.331.8760.6211.31IR94.2695.330.882.20 92.940.594.6794.67 0.596.1597.130.5 94.53Arr55.3761.150.0254.200.254.254.2 0.455.4260.950.02 54.20AUD40.1958.910.161.96 67.030.337.3740.8 0.340.2859.780.09 33.36MFKL16.1363.290.130.40 72.940.223.9645.71 0.336.4488.080.1 10.78BCW95.9096.390.594.95 96.080.595.9496.14 0.595.9396.250.5 94.50LR90.9293.590.774.33 92.350.687.1693.6 0.789.8593.590.7 87.80BS79.8288.570.574.28 78.570.575.1481.43 0.481.7188.570.5 82.86ACA80.9584.700.483.85 84.740.474.5381.78 0.582.8486.0363.26CVR92.6394.620.490.86 94.690.392.8196.41 0.391.8293.930.3 79.66Der52.7772.820.340.75 53.850.343.6261.56 0.355.0673.930.3 30.33Hep79.0082.120.378.81 78.850.478.9279.23 0.378.7782.120.3 78.85GI57.0859.710.655.54 60.690.556.4359.43 0.751.9759.290.7 56.35Mus160.0567.170.357.52 60.570.357.0358.24 0.361.4370.050.3 56.6Mus288.2590.240.387.96 88.870.387.6387.65 0.688.5891.4487.64是91.3893.340.593.23 93.420.591.4990.75 0.690.2192.380.4 85.13Zo85.8286.760.579.80 81.970.486.5888.82 0.387.1788.240.4 57.35Bal65.0666.710.765.15 66.760.565.2667.0566.9571.430.3 82.86F1得分(F1)是测试准确性的量度,并且使用公式(Witten等人, 2016年):F1TP12TP1FPFN上述措施是针对二元分类问题提出的。但是,它们可以通过将其中一个类视为正类而将其余类视为负类来扩展到多分类问题。然后,各个类的这些测量值的平均值成为整个模型的最终值TP:实例为正的正确预测数。FP:实例为正的错误预测的数量。FN:实例为负的错误预测数。TN:实例为负的正确预测数。我们选择使用准确度来突出TP和TN,从而确定系统的有效性。作为准确性的补充,F1评分用于突出FN和FP。最后,精确度用于确定FP的成本何时较高。.4.3. 实现细节本文提出的方法和所有竞争性方法都在Matlab中实现,使用MatlabR2018b。所有的实验都是在一个系统上执行与英特尔酷睿i5- 93000 HCPU,2.40 GHz x 8,16 GB RAM与交换分区,和GeForce GTX1650/PCIe/SSE 2 GPU。4.4. 结果在这一节中,每个分类器的结果;第一个分类结果是基于DT分类器,最后,SVM分类器获得的结果。●●●●●A. Benkesirat和N. 本布利迪亚沙特国王大学学报表64843使用“多项式”核函数的SVM 模型的平均准确度结果总结。mRMRInfFS_SSSFS本征FS SVM_基线平均MaxK平均MaxK平均MaxK平均MaxKCE82.4686.990.769.2170.020.278.6784.990.782.4686.990.795.67BC68.3070.270.47071.820.366.5069.090.370.6273.420.561.95M2f79.3083.320.381.2682.380.275.5278.710.379.3083.510.276.07IR95.2895.460.580.1493.660.594.4794.80.496.1896.260.492.93Arr56.3761.630.354.8559.730.453.5558.50.354.2461.680.321.72AUD63.6066.930.361.9667.030.363.8567.230.363.5568.400.356.46MFKL94.7395.40.394.2895.540.595.3095.840.494.9895.910.393.87BCW94.7495.590.493.8695.480.394.8395.570.394.6395.020.493.47LR90.5993.760.772.7692.810.785.9393.070.789.3493.760.793.98BS79.4288.570.573.2175.710.575.1481.430.581.7188.570.581.43ACA79.4184.430.480.7583.930.371.8476.740.582.2785.570.277.26CVR93.9594.410.693.6994.10.395.7296.480.394.5294.90.595.66Der86.8891.890.791.1992.130.789.6492.380.787.4992.310.790.64Hep78.1781.050.379.5281.350.777.8880.960.780.1182.50.281.92GI53.7960.970.757.8859.130.554.2557.330.754.6861.940.755.06Mus178.0982.140.780.5081.960.778.6980.310.779.9482.890.783.85Mus295.5496.080.595.4295.790.794.5696.610.795.5696.950.597.28是93.0095.160.695.4895.790.794.1395.260.692.994.730.592.7Zo89.8190.880.590.1595.710.489.8290.590.690.3991.080.488.82Bal63.4165.670.564.1064.060.564.2066.520.564.3266.720.572.334.4.1. 基于DT分类器的分类结果该实验的目标是将基线DT分类器与基于DT的本征FS以及与基于mRMR、InFS和SSFS的DT进行比较。分类准确度见表2。报告了不同数量的所选特征的最大精度和平均精度从表2中,我们可以看到,与基于mRMR、InFS和SSFS的DT相比,在所有情况下,基于本征FS的DT在分类方面都有显著的改进,并且与基于MMR、InFS和SSFS的DT相比,在大多数情况下,基线DT分类器,特别是乳腺癌数据集;因此,在特征选择之前和之后实现的最佳准确率分别为
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功