特征选择算法稳定性研究综述

74 浏览量更新于2024-01-17 收藏 1.05MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

制作和主办：Elsevier沙特国王大学学报特征选择算法的稳定性研究综述乌特卡什·马哈德奥·海尔河Dhanalakshmiba印度迪马普尔那加兰邦国家技术学院计算机科学与工程系b印度卡拉伊卡尔普度切里国家技术学院计算机科学与工程系阿提奇莱因福奥文章历史记录：收到2019年2019年6月10日修订2019年6月24日接受在线预订2019年保留字：特征选择知识发现稳定性鲁棒性不稳定性扰动A B S T R A C T特征选择技术是一种知识发现工具，它通过分析最相关的特征来提供对问题的理解。特征选择的目的是通过列出重要的特征来构建更好的由于现有的高吞吐量技术及其最近的进步导致高维数据，因此特征选择在此类数据集中被视为方便和强制性的这实际上质疑了传统特征选择算法的可解释性和稳定性。特征间的高度相关性经常会产生多个同样最优的特征，这使得传统的特征选择方法不稳定，从而导致选择特征的不稳定性，降低了选择特征的可信度。稳定性是它产生的特征偏好对训练样本扰动的鲁棒性。稳定性表示特征选择方法的再现能力。在评估特征选择性能时，特征选择算法的高稳定性在本文中，我们提供了一个概述的特征选择技术和不稳定的特征选择算法。我们还提出了一些解决方案，可以处理不同来源的不稳定性。©2019作者（S）。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。内容1.导言. 10612.特征选择技术10622.1.基于过滤器的特征选择10622.2.基于包装器的特征选择10622.3.嵌入式技术10623.特征搜索策略10623.1.前向顺序选择（FSS）10623.2.反向顺序选择（BSS）10633.3.登山（HC）10634.特征选择稳定性度量的属性10634.1.完全定义10634.2.上下限10634.2.1.确定性选择？最大稳定度................................................................................................................................................................................10634.2.2.最大稳定性？确定性选择............................................................................................................................................................................... 10634.3.第1063章机会*通讯作者。电子邮件地址：utkarshkhaire@gmail.com（U.M.）Khaire）。沙特国王大学负责同行审查。https://doi.org/10.1016/j.jksuci.2019.06.0121319-1578/©2019作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.com毛勒海尔河Dhanalakshmi/沙特国王大学学报10614.4.单调性10635.稳定措施10635.1.指数/子集稳定性（SS）10645.1.1.汉明距离（HD）10645.1.2.Dice-Sorensen............................................................................................................................................................................................................................5.1.3.谷本距离（TD）10645.1.4.Jaccard.........................................................................................................................................................................................................................................5.1.5.Kuncheva指数（KI）或稠度指数（IC）10655.1.6.重叠基因/特征的百分比（POG）10655.1.7.一致性措施（CM）10655.1.8.对称不确定度（SU）10665.2.等级稳定性（SR）10665.2.1.Spearman....................................................................................................................................................................................................................................5.2.2.堪培拉距离（CD）10665.3.重量稳定性（SW）10665.3.1.Pearson........................................................................................................................................................................................................................................6.第1067章不稳定6.1.特征信息策略10676.2.特征相关性10676.3.样品加权10686.4.参数优化10686.5.密集搜索方法10686.6.组特征选择10686.6.1.数据驱动组生成10696.7.包围特征选择10696.7.1.数据扰动10696.7.2.函数扰动10707.讨论10718.结论1071竞争利益声明参考文献10711. 介绍高通量技术如下一代测序（NGS）、微阵列、质谱（MS）等的最新进展为研究人员鉴定疾病的遗传原因打开了新的大门（Mohammadi等人，2016; Taylor等人，2015年）。放射组学是一种新兴技术，其中医学图像提供关于肿瘤生理学的关键信息（Parmar等人， 2015年）。这些高通量表示受到维数灾难的影响，因此需要适当的计算方法来从中提取知识（Hinrichs等人， 2019年）。微阵列数据包含许多异质性因素，因为它包含基因组中每个可能基因的表达科学证明，负责某些生物过程的基因彼此相关，并且某些基因是其他基因的激活剂或抑制剂（Perthame et al.，2016年）。在高维数据中，例如微射线数据集，不相关的特征可能会干扰真实特征，这反过来又会在数据中引入异质性并在特征之间产生依赖性统计分析在依赖特征的情况下失去其重要性因此，我们必须选择在估计中起重要作用并且是独立的特征。识别这些表达模式与表型行为具有有意义的生物学联系的独立基因（特征）对于知识发现是重要的在微阵列分析中，生物学家的目标是发现解释微阵列数据行为的少量特征（Kumar和Valsala，2013）。来自微阵列数据的选择性有意义的生物标志物对于患者分层和个体化医学策略的发展是重要的（Huang et al.， 2015年）。从机器学习的角度来看，控制特征的数量有助于减少过度拟合，从而更好地预测训练数据上特征空间的维数建立模型的挑战和知识发现的有效性问题因此，建议创建鲁棒的分类器和预测模型时，每类样本与特征的比例为10：1（Kanal andMr.Raskekaran，1971）。特征选择背后的原因是，在减少的特征空间上训练的分类器比在原始大特征空间上构造的分类器更鲁棒和可再现。在特征选择中，我们特别搜索特征或相关特征。不提供有用信息的特征被称为不相关特征，不提供比当前选择的特征更多信息的特征被称为冗余特征（Kumar和Minz，2014）。与类变量不相关或不相关的特征称为噪声，噪声实际上在预测中引入偏差并降低分类性能。因此，为了提高预测性能，需要对噪声进行处理，并通过降维使其成为可能。它可以通过特征提取或特征选择来实现（Drotár等人， 2015年）。在特征提取中，通过为数据选择新的基础，从原始输入中导出新的特征特征选择有助于通过找到有效定义数据的特征子集来直接评估特征的子集成为NP-困难问题（Sahrashekar和Sahin，2014）。为了处理这个问题，我们尝试使用一个次优的过程与可跟踪的计算。我们需要注意另一个主要问题，即特征依赖于响应变量而不是预测变量。特征子集选择使分类器能够专注于重要的特征，而忽略可能的误导性特征。从计算复杂性的角度来看，在分类过程中包含一组简约的特征有助于快速扩展具有附加特征的许多学习算法（Dunne etal.， 2002年）。1062毛勒海尔河Dhanalakshmi/沙特国王大学学报一个更好的特征选择算法应该总是提供诸如洞察数据、更好的分类器模型、增强非相关特征的生成和识别等优点。它还应该有助于理解特征和目标变量之间的关系，减少解决特定问题的计算需求，在观察数量小于特征数量的高维数据集的情况下有效降维，它可以帮助改善用于解决特定问题的预测器性能，并提高成本和时间方面的效率。特征选择过程有助于知识发现，发现的特征可以直接用于未来的研究。在生物信息学中，重要特征的识别可以提示新的代谢途径，并有助于识别特定细胞过程之间的隐藏联系（Dunne et al.， 2002年）。当添加或移除新的训练样本时，特征选择算法的稳定性产生一致的特征子集（Xin等人，2015年）。一个特征选择算法只有在训练数据变化下产生相似特征时才是稳定的。忽略特征选择算法的稳定性问题可能会得出错误的结论。在高度相关的特征中，丢弃与所选特征相关但仍与响应变量相关的特征是不稳定性的主要原因之一（Kamkar等人，2015年）。如果输入信息中的小变化导致输出中的大变化，则问题被称为病态（Cui等人，2019年）。相对于输入数据的不稳定性会产生差异很大的输出，并使解决方案不可靠。正则化的思想将不适定问题转化为稳定形式。正则化修改了学习算法，它减少了泛化误差，但没有训练误差。稳定性的动机来自于增加领域专家在分析结果和选择对输入数据的扰动相对鲁棒的特征中的信心（Kalousis等人，2007年）。稳定性提供了最好的客观标准，以便我们可以选择我们的特征选择算法，这将提供高质量的特征子集，并提供更高的置信度，在更好的分类性能。通过并行稳定性分析加强特征选择方法，开发出高质量的特征子集（Goh和Wong，2016）。在知识发现中，稳定性在识别重要特征的特征选择中起着重要作用（George和Cyril Raj，2015）。特征选择算法在输入数据的扰动下选择不同的子集，尽管这些子集中的大多数在分类性能方面是等效的（Li等人，2015年）。这种不稳定性降低了专家对选定特征进行验证的信心。因此，建立一种严格的方法来选择可靠和显著的特征是非常重要的，这些特征对选择偏差很强（Ambroise和McLachlan，2002）。在稳定性方面，由于特征选择技术的稳定性与所选特征的置信度关系不大，因此以学习算法的性能作为目标函数。然而，稳定性较差并不意味着每种情况下的分类率较低（Somol和Novovicová，2010）。稳定性有助于分类错误率的偏差-方差之间的权衡（Geman等人，1992年）。特征选择算法和分类算法的稳定性估计并没有在特征选择算法和分类算法的不稳定性之间建立一个界限。这个问题可以通过优先稳定性的概念来解决（Chen et al.，2019年）。从理论上讲，特征选择误差的偏差-方差分解之间的权衡提出，为了获得更稳定的特征，我们不必牺牲预测精度。偏差-方差之间更好的权衡导致更稳定的结果，并基于以下方面提高了准确性：选择的特征。基于边缘的实例加权方差减少是一种更好的方法，可以在偏差方差之间实现更好的权衡（Han and Yu，2012）。基于边缘的实例加权技术根据训练集中每个样本的影响力对每个样本进行加权，以估计特征相关性。假设裕度用于度量给定实例的特征相关性。最后，将加权训练集作为特征选择算法的输入，以选择重要特征。以下因素对特征选择算法的稳定性负责：数据集的离散性（m）、所选特征的数量（k）、样本大小（n）、数据的方差、测量的对称性（其中算法的稳定性值应该对结果的顺序不敏感）、用于特征选择的标准和特征选择算法的复杂性（Loscalzo等人，2009年）。除了这些因素之外，还有其他导致不稳定性的因素，例如：设计算法而不考虑稳定性，多组真实标记的存在以及维度的诅咒，其中在数千个特征中只有少量样本是不稳定性的重要来源（He和Yu，2010）。2. 特征选择技术在本节中，我们讨论了文献中提出的各种特征选择技术。2.1. 基于过滤器的特征选择数据的重要特征用于评估特征子集中的特征添加的重要性（Khoshgoftaar等人，2013年）。这种技术被异化为两个不同的类别：基于秩和基于子集评估。基于等级的类别使用一些单变量统计技术来评估每个个体特征的等级，而不考虑特征之间的相互关系（Yang和Mao，2011）。这种技术在识别冗余特征时失败。基于子集评估的类别使用多元统计技术来评估整个特征子集的排名。多变量统计技术的优点是，它考虑了特征的相关性，不需要分类器，比包装器技术更有效在计算复杂度方面。多变量技术的主要缺点是，与单变量排序技术相比，它更慢且更不稳定。联合互信息和最小非线性方法滤波技术的最大值在准确性和稳定性之间产生最佳折衷（Bennasar等人， 2015年）。2.2. 基于包装器的特征选择该技术在特征选择过程中引入了监督学习算法。它基于子集评价技术对特征进行排序.在选择特征时考虑特征之间的相关性和依赖性。考虑预测算法的偏差有助于优化算法的性能。在支持向量机（SVM）中，在SVM的学习期间将权重分配给每个特征（Zheng等人，2019年）。包装器技术的主要缺点是计算昂贵，由于搜索的最佳设置从大空间的维度。包装器技术有很高的过拟合风险。SVM-递归特征消除（RFE）和贪婪前向选择（GFS）策略是一些例子，Wrapper方法毛勒海尔河Dhanalakshmi/沙特国王大学学报1063-112.3. 嵌入式技术在构造分类器的同时搜索最优特征子集选择最优特征子集的方法是特定于给定的分类算法。嵌入式技术的优点Lasso回归（Cynthia等人，2019; Kang和Huo，2019）和弹性网（Zou和Hastie，2005;Xiao和Biggio，2015）是一些嵌入式技术。3. 特征搜索策略在本节中，我们讨论了文献中不同特征选择技术所使用的不同特征选择策略。3.1. 前向顺序选择FSS的目标是创建最佳特征子集，忽略不相关和不重要的特征（Wan，2019）。它在每次迭代中搜索最佳特征，并添加到空的最佳特征集合中。如果已添加所有功能，或者如果在添加任何进一步的特征之后没有改进，则搜索停止并返回重要特征的当前最优集合。3.2. 反向顺序选择BSS的目标是在开始时考虑所有特征的贡献，然后尝试删除最不相关和冗余的特征，留下较小的最佳特征子集（Wan，2019）。它从完整的数据集中搜索要在每次迭代中删除的特征随后的集合由一些验证过程进行评估。如果新特征子集的评价率优于前一特征子集，则替换当前最佳特征子集。这个过程会一直持续下去，直到所有的特征都从数据集中删除，并得到一个空集。BSS在计算性能方面优于FSS。3.3. 爬山（HC）在HC中，每次从数据集中添加或删除一个特征。它从随机特征集中搜索最佳特征，然后切换子集中每个特征的当前状态。通过定义迭代选择最优集合。在达到最后一次迭代的极限后，返回最后一组最佳特征（Wan，2019）。4. 特征选择稳定性度量该稳定性估计器通过取所有被选子集对的平均相似度来计算特征选择算法对输入数据扰动的鲁棒性稳定性度量的主要挑战是当特征选择算法产生不同基数的特征子集每个稳定性度量都应该满足给定的属性（Nogueira和Brown，2016）：4.1. 完全定义有时特征选择过程在重复n次时会产生不同大小的特征集。一个好的稳定性度量应该总是考虑这个属性。4.2. 上下界为了更好地理解稳定性测度，稳定性测度的值假设稳定性度量的定义范围为[，+ ]，则输出值0.9将无意义。4.2.1. 确定性选择？最大稳定性图 1（左）（Nogueira和Brown，2016年）显示了Lustgarten度量针对不同数量的选定特征的不同稳定性值，其中其他方法显示了针对不同数量的选定特征的最大稳定性的恒定值。4.2.2. 最大稳定性？确定性选择在图1（右）（Nogueira和Brown，2016）中，Wald对于不同数量的所选特征。其他方法显示不同的稳定性值为不同数量的选定功能。4.3. 机会修正该属性确保当特征选择过程选择随机数量的特征时，其估计的稳定性值应该是恒定的。假设，如果过程P1选择5Fig. 1. Lustgarten测量值对于不同数量的选定特征的稳定性值[左]。Wald1064毛勒海尔河Dhanalakshmi/沙特国王大学学报XX X2M表1稳定性措施的性质。P2选择6个特征，估计的稳定-Hisp;HispjSjkk¼ 14.4. 单调性特征子集之间的交集越大，稳定性越高（Nogueira，2018）。不同稳定性测量的性质在表1中给出。无论特征Si是否在交叉验证中被选择，汉明距离对稳定性结果具有相同的影响这将导致对稳定性的信心降低，特别是当所选特征的数量与数据集的总体维度相比非常少时对于总W个特征子集，总汉明距离Ht被给出为：5. 稳定措施特征选择算法的输出可以是以下形式：jWj- 1Ht¼1/ 1jWjSi;Sjjli1每个特征的加权得分，每个特征或重要特征子集的排名。这些被称为特征选择算法的评价标准。这一评价标准分为S中所有成对特征子集的总稳定性由平均归一化汉明距离（ANHD）定义（Mohana，2016）。分成两部分（Mostafa等人， 2019年）：抗氧化剂;硫代硫酸钠2ω Htð3Þnω j Wj ω j Wj-1个别评价：在这个排名的功能是根据其相关程度分配。加权评分：w =（w1，w2，，wm），w2W RmA排序：r =（r1，r2，，rm），1≤ ri≤ m子集评估：在此特征子集使用搜索策略构建。子集生成是一种基于特征的搜索，每个状态在搜索空间中指定一个用于评估的特征子集。特征子集：s =（s 1，s 2，.. .. . . ..ANHD的结果在（Mohammadi et al.， 2016年）。0表示算法最稳定，1表示算法根本不稳定ANHD的缺点是它不能处理所选特征的不同大小由于ANHD不具有对偶然性的修正性，因此它具有欺骗性.归一化汉明指数（NHI）表示为：NHINUSi;Sj 1-HHINUSi;Sj4用平均归一化汉明指数（ANHI）定义了W中所有成对特征子集的总体稳定性。2ωPjWj-1PjWj（c）联系我们JNHIJIN Si;Sj稳定措施分为三类（Mohana，2016年）：安海S Si< $1 j <$i1jWj ω j Wj-1ð5Þ● 指数/子集稳定性（SS）● 等级稳定性（SR）● 重量稳定性（SW）5.1. 指数/子集稳定性（SS）所选的特征子集表示为大小为“m”的二进制ANHI的值表示所选fea的变化真子集ANHI的值越高，提供的特征子集变化信息越多在计算两个子集之间的交集时，汉明距离测量失败5.1.2. Dice-Sorensen它计算两个选定特征子集之间的重叠（Mohana，2016）。的特征。稳定性通过重叠量计算骰子S S2j Si\ Sjj6在所选特征的整个子集之间。指数稳定性的测量值如下所示：i;jjSijjSjj5.1.1.汉明距离（HD）这计算了两个子集之间的重叠量（Mohana，2016）。它与所选特征子集的二进制向量一起工作。对于较大的m，H（Si，Sj）变得更小，这导致更稳定的算法。DSI给出的结果在（Mohammadi et al.，2016年）。0表示两个子集完全不相交，1表示两个子集彼此相同DSI有时会给出稍微好一点的有意义的稳定性结果，因为它们不被子集的并集所分割。另一方面，tanimoto距离和jaccard●●我J稳定措施完全定义界限最大修正为机会单调性JaccardUUUU汉明UUUU骰子UUUUPOGUUU昆切瓦UUUnPOGUUUWaldUUUCW相对UUUUTanimotoUUUU对称UUUU堪培拉UUUSpearmanUUUUPearsonUUUU特点和程序M值应相等L.我日益 -Sjð1Þ毛勒海尔河Dhanalakshmi/沙特国王大学学报1065X2Xð; Þ ¼K. ..Σ-X2X..S\S-ij-jWj ω j W- 1j我JjSij公司简介�P于我��JZ捕获特征之间的相关性，并考虑这样的i;jSij- Ej Si\ Sjjkω m-k12minj Sij; Sj-max0;j Sij Sj我JMð; Þ ¼5.1.3. 谷本距离（TD）Tanimoto距离计算特征的两个子集之间的重叠量，并产生在（Mohammadi等人， 2016年）。0表示两个子集完全相同值表示该方法不稳定。调整后的稳定性测量（ASM）是新的稳定性测量，其结合了多个测量的结果（Lustgarten等人，2009年）。它可以计算大小不等的子集的稳定性不相交，1表示两个子集彼此相同。它是Jaccard指数的广义版本jWj- 1ASM¼jWj SaSi; Sj15TS; S 1-jS ij。S j。-2 j S i\S jj我Jð7ÞjWj ω j W- 1j1/1jli1你好。S j。 - j S i\S jj5.1.4. JaccardJaccard系统间的相似性度量对于评价不同特征选择方法之间的相似性出现。它提供了特征选择方法的多样性。它比较两种不同特征选择方法在同一输入数据集上的行为，有时还比较两种特征选择方法在两个具有相同特征的不同数据集上的行为JS SjSi\ SjjjSi[ SjjjWj- 1jWjð8Þ选择设置。5.1.6. 重叠基因/特征百分比（POG）它通过以下方式度量所选特征子集的一致性：简体中文1/1XJ Si; Sj9jli1对所选特征子区域之间的相交量进行集. POG是非对称的，即POG（Si，Sj）稳定性指数（JS）给出的结果在（Mohammadi等人， 2016），其中接近0的值表示特征选择算法不稳定，接近1的值表示算法稳定。的数据集中的样本数量影响Jaccard杰克2016）。这将是对称的，如果|SI| 为|SJ|POG Si SjjSi\SjjjSijð16Þ卡片索引可以考虑特征的相关性，使用：POG矩阵测量了原始表达基因之间的一致性。POG的缺点是它没有考虑到JCiqiqiqu。Si\Sj. fCið10Þ特征之间的相关性。为了克服POG的缺点，引入了POGR（Mohana，2016）。K = Si和SjPOGRINGS; S. Si\Sj. Zð17Þ-PP1JCiKZ = Si中不存在于Sj中但与S中至少一个基因显著正相关的基因的数目。当k = m时，TD和JI都给出了较高的结果TD和JI是有效的相比，DSI时，选定的特征子集有作为一个单一的特征。POG和POGR的标准化版本放弃了结果之间的依赖关系。不同的基数他们不考虑的维度数据集（m），同时计算相似性，但是它们包括测量中所选特征的数量（k）nPOG S S. S i\S j. - E j S i\S jj185.1.5. Kuncheva指数（KI）或一致性指数（I）nPOG RS;S。Si\Sj. -E. . Si\Sj. ΣþEðZÞ我我Jð19ÞCiJjSj-E。. S\S -E估计量指示特征子集之间的较高重叠。为了克服这个缺点，KI使用了修正项，该修正项丢弃了两个所选特征子集之间的偶然交集（Kuncheva，2007）。这也被称为一致性指数（Ic）。. S i\S j. ω m-kESi\ Sj¼共享功能E（Z）= Si中与 Sj中的特征不共享但正相关的特征的数量。POG和POGR被间隔束缚（Mohammadi等人， 2016年）。类似地，nPOG和nPOGR在【-1，1】KI的结果在[-1，1]范围内1表示子集Si和Sj相同。1表示两个子集没有交集。0表示独立绘制的列表。平均数采用成对一致性指数来计算两个以上子集的一致性。5.1.7.一致性措施（CM）不同稳定性估计器在同一系统上产生的稳定性值在不同范围内有界，这使得它们难以比较（Somol和Novovicová，2010）。现有的度量方法大多只适用于特征选择问题jWj- 1美国国际信用卡jWjIcSi; Sj 13一个子集（k）的预先指定的大小。为了克服上述问题，已经引入了新的修改的稳定性措施。的1/1jli1引入了新的相似性度量来改善Ic：jSijωjSjj（Mohammadi等人， 2016年）。值1的稳定性度量表示稳定的特征选择算法，并且值0表示低水平的特征选择算法稳定性。这一评估的阶段，Saint-Si;Sj.. . - 是的.ð14Þ能力基于特征出现的频率X是子-表示S中所有特征的Y的集合Ff是特征的出现次数Sa的结果在[1，1]的范围内。0值表示独立抽取的随机特征的稳定性，正值表示特定特征选择方法稳定，负值表示特定特征选择方法稳定f在系统S中。N是系统S中任何特征出现的次数特征f出现的最小值（Fmin）是1，最大值（Fmax）是特征f2 X的稳定性值2fCi =不同特征之间的相关值之和对于P个选定的数据子集，稳定性由下式给出：jÞ由于所选特征子集的大小很大，Ic Si; SjjWj ω j W- 1j设计的稳定性措施产生的结果范围为-m1066毛勒海尔河Dhanalakshmi/沙特国王大学学报X;Þ ¼—iJ¼--X2ASRCCR;RiJX;--Pωx2Sifs XNPPF最大值-F最小值RitR jt在（Mohammadi et al.，2016年）。0指示特征f仅存在于sys中的n个子集中的一个子集tem S.1表示特征f存在于系统S的每个子集5.2.1. Spearman特征Ri和Rj的两个排序集合的稳定性由下式给出2系统S中特征f的一致性（C（f））被给出为：CfFf-Fminð20ÞSRCC R R 16Rit-Rjtt 1mm m2-1mð27ÞF最大值-F最小值定义整个系统1×1000SRCC的值在[ 1，1]的范围内。当SRCC值为1时，两个等级的特征是相同的，而当SRCC值为1时，正好相反0表示Ri和Rj之间没有相关性。所有特征子集的总体稳定性为：jXjfsXjWj- 1Þ¼jWj SRCCYRi;Rj该测量过分强调较低频率特征，因此引入了加权一致性CW（S）（Lustgarten等人， 2009年）。jWj ω j W- 1j5.2.2. 堪培拉距离（CD）1/1jli1顺时针方向旋转XFfωFf-Fminð22Þ此度量显示两个等级之间的绝对差集合（Mohana，2016）。CD的价值与每当m> |X|，它表明，功能存在于更多的因此CW（S）> 0。当所选要素子集的大小特征的数量。m的值越大，CD的值越大。M所选特征子集的大小更接近于数据集。在这种情况下，将CW（S）应用于各种特征选择，CD Ri; RjXjRit-Rjtjð29Þ选择方法可能产生不太可信的结果。产生具有不同大小子集的系统称为子集大小偏差相对加权一致性（CW）解决了这个问题CD的加权版本可以定义为：k1Pmjminf Rit; k< $1g- minf Rjt; k< $1gj（c）联系我们 Jrel问题通过抑制子集的大小的影响，WCD-R-Rt¼ 1minf Rit; k= 1g- minf Rjt; k= 1gð30Þ系统CD的结果被限制在两者之间（Mohammadi等人，CW相对S YCWS-CWminN; n：YCWmax <$N ;n<$- CWmin<$ N; n：Y<$N2- j Yj N- D2ð23Þ2016年）。前k个特征被认为是最重要的特征。当除以m时，CD和WCD都被归一化。5.3.重量稳定性（SW）CW最小值jYj ω N n-124这些度量考虑特征集f的权重，而计算H2-N-D- Hω n提高了特征选择算法的鲁棒性。它以CW最大值D= N mod|Y| H = Nmod mNωn-125- 用于数据中的完整特征集的两组权重Wi和Wj设置并返回它们之间的相关性作为稳定性。这些措施的主要缺点是它不能处理不同大小的功能的子集。CWrel将随机性纳入特征选择。5.1.8.对称不确定度（SU）SU是一种基于熵的非线性相关性（Mohana，2016）。在计算稳定性时，考虑的是特征值，而不是特征指标。SU识别所有选定子集中的相关特征。信息增益，IG（S i|S j）= IG（S j| S i）这个性质使得SU是对称测度.苏有一个不受欢迎的支柱-不受任何常数约束的条件。5.3.1. 皮尔逊PCC计算特征的所选子集的权重之间的相关性（Geman等人，1992年）。PCC返回范围为[ 1，1]的结果。1表示权重向量完全相关，1表示权重向量反相关。0表示权重向量之间没有相关性。对于更大数量的特征，权重接近0表示更高的稳定性。PCC是对称稳定性度量。Σ IG SijSj我JPCCW;WPWit-lWiWjt-lWjð31ÞSuSi; Sj 2HSHSð26ÞijqP2P2IG=信息增益= H（Si）-H（Si| S j）H（S i）=熵=p xlog 2 p xH（S）i| S j）=y 2 Sjpyx 2 Sipxjy ω log 2pxjy每对所选特征的IG计算使得SU在计算上昂贵。SU的结果受选择特征数k的影响，当k= m时，SU的结果会变得更糟。5.2.等级稳定性（SR）特征之间的相关性进行评估，量化的稳定性的特征选择方法使用特征排序。这些度量的主要缺点是它们不能处理子集具有不同基数的特征。l=特征集f的平均值在（Geman等人， 1992）不同的特征选择算法应用于数据集，用于获得特征的等级、权重和子集。与使用特征的排名（SR）相比，通过使用特征的权重（SW）的稳定性评估提供了更好的理解，因为它使用实际的最高稳定性由Sw给出。使用子集的稳定性值（SS）与其他两个措施不相关。所选特征子集的高基数表明特征共有的概率更大。因此，稳定性值也会增加。Zheng等人（2019）提出了一种新的稳定性估计器，它满足稳定性度量的所有期望性质。该新颖的稳定性度量给出为：t1/2你看-我看Wjt-lWj毛勒海尔河Dhanalakshmi/沙特国王大学学报1067PiN- 1我1mf2Uz± 1-mi± 1 ið32Þ已经分析了业务流的行为特征以从移动应用的业务数据中选择重要特征（Liu等人， 2019年）。-k。1--k设计了一个度量来测量流动特征的漂移程度基于此，复合度量对特征进行排名歧视f2¼ NP f1-P f33k-=在z中的N个特征集上选择的特征的平均数量f2 = zf的样本方差。估计量的值在（Mohammadi等人，2016年）。6. 解决不稳定性到目前为止，我们有各种方法来解决特征选择算法的不稳定性。在这一部分中，我们试图涵盖现有文献中的所有方法。图二.总结了解决不同不稳定性来源6.1. 特征信息策略特征信息策略基于类变量的准确度量等评价标准来度量每个特征的重要性。然后从这些高度重要的特征中选择稳定的特征（Liu等人，2017年）。特征在此基础上，设计了基于功率和漂移度评价的特征选择（DDFS）算法，以发现具有区分性和稳定性的特征。DDFS选择具有高鉴别能力但漂移程度较低SVM-REF是一种多变量迭代向后特征选择方法。它在评估特征的相关性时考虑了特征之间的相互作用（Lahmiri 和Shmuel ，2019）。为了提高对输入数据扰动的稳定性在每次迭代中计算所有特征的累积排名分数（CRS），用于计算每个特征在创建类之间差异时的重要性该参数结合了从不同子集获得的特征的排序具有高累积排名的特征是负责疾病的基因的稳健且精确的集合。6.2. 特征相关性特征相关性计算特征之间的连接。协方差套索（C-LASSO）算法利用特征协方差矩阵计算特征之间的协方差。它解决了L1-范数的不稳定性.C-LASSO的目标函数如下所示（Kamkar，2016）：非线性嵌入重要性（FINE）方法用于argmin12gT1基于特征在低维空间中对准确分类的贡献的特征的排序。该低维特征空间经由非线性逼近性降低（NLDR）（Ginsburg等人，2016年）。由于低维特征对小数据扰动的敏感性较低，特征排序比传统的滤波方法更稳定。Jb;Xb;X使得，X≥0，tr（X）= 1X=协方差矩阵k，g=调谐参数b34即使显著特征的数量很少，多敲除程序也能保证错误发现率（FDR）控制，并且具有比单敲除程序更好的统计特性（Gimenez和Zou，2018）。Knockoff程序允许我们在控制FDR的同时发现重要功能。仿制品的优点是，如果我们有一个很好的特征X模型，那么我们可以识别重要的特征，而无需考虑输出Y如何依赖于特征X。通过对K个多重敲除进行平均，降低了最小拒绝次数的阈值，从而提高了功率和稳定性。提取混合特征比提取基本特征更好，因为它包含了特征的流入行为流入模型拟合和稀疏性是回归模型精度的重要组成部分。调整参数，平衡这两个组件之间的权衡。科恩的kappa系数被用来衡量两个特征集之间的相似性。协方差SVM（C-SVM）使用凸目标函数识别特征之间的相关性并选择相关特征（Kamkar等人，2015年）。SVM与弹性网络惩罚的组合产生新的正则化形式，以基于特征之间的相关性找到特征之间的连接（Ye等人，2011年）。最大-最小相关熵准则（MMCC）是一种新的特征选择公式。相关熵是信息论学习中的一种局部相似性度量图二. 一种稳定的网络特征选择方法。1068毛勒海尔河Dhanalakshmi/沙特国王大学学报（Randall等人，2019年）。核宽度影响相关熵的性能，较小的核宽度是造成数据丢失的原因。相反，高的核宽度使得相关熵对高腐败和非高斯噪声的抵抗力较弱。MMCC的ANHD值几乎达到0，这表明MMCC对噪声和离群值的鲁棒性（Storn和Price，1997）。MMCC算法没有“内存不足”问题（Brest等人，2006年）。协同蛋白质组学的组合网络用于克服其被动覆盖和一致性问题（Bensimon等人，2012; Goh等人，2012年）。基于排名的网络算法（RBNA）是一种基于网络的算法，其证明了其在选择具有高稳定性的重要特征的情况下的实用性（Selvaraj等人，2018年）。介绍了三种基于区域的核评估基准方法：1。SNET（子网）（Liu等人，2019年）2.FSNET（模糊SNET）（Soh等人，2011年）和3。PFSNET（配对FS

下载后可阅读完整内容，剩余1页未读，立即下载