基于最近邻互信息的特征选择算法提升分类性能

需积分: 16 2 下载量 120 浏览量 更新于2024-09-06 收藏 539KB PDF 举报
"这篇论文研究了一种新的特征选择算法,该算法基于最近邻互信息(Nearest Neighbor Mutual Information, NMI),旨在解决邻域信息系统中人为设定邻域参数的问题。通过对样本与其最近同类和异类样本的距离计算,定义了样本的最近邻,以此确定信息粒子的大小,并引入了最近邻互信息的概念。论文采用前向贪心搜索策略构建了基于NMI的特征选择算法,并在两个不同的基分类器和八个UCI数据集上进行了实验,结果显示该模型能在减少特征数量的同时保持较高的分类性能,优于多种流行算法。" 在特征选择领域,目标是找出一个最优的特征子集,这个子集应该能最大化保留原始数据的信息,同时降低维度,提升模型的泛化能力和效率。特征选择的方法通常按照搜索策略和评价准则来划分,如前向、后向、包裹式搜索等。评价准则的选择至关重要,它直接影响到特征子集的质量。 本文提出的最近邻互信息是信息度量的一种扩展,它考虑了样本与其最近邻的关系,不仅适用于离散数据,也能处理连续型数据。传统的信息度量,如互信息(Mutual Information, MI),主要用来评估特征与类别标签之间的相关性以及特征间的相互依赖性。然而,这些方法在处理连续数据时可能会遇到挑战,因为它们可能无法有效地捕捉非线性关系。 NMI特征选择算法的核心思想是通过计算样本与最近邻样本的互信息来评估特征的重要性。互信息是一种无参数的统计量,可以量化两个随机变量之间的相互依赖程度,不受变量分布的影响,这使得它特别适用于不确定性和非线性关系的情况。在前向贪心搜索策略中,特征被逐一添加到子集中,每次添加都基于NMI指标来判断是否能显著提高子集的分类性能。 实验部分,作者对比了提出的NMI特征选择算法与其他流行算法(如MIFS、MRMR、FCBF)在UCI数据集上的表现,证明了新算法在减少特征数量的同时,能够保持甚至提升分类准确率,体现了其在降维和保持数据重要信息方面的优势。 这项研究提出了一种新颖的特征选择策略,即基于最近邻互信息的算法,它有效地解决了传统互信息方法在处理连续数据时的局限性,并通过实验证明了其在提高分类模型性能方面的有效性。这种方法对于数据挖掘、机器学习和模式识别领域的特征工程具有重要的实践意义。