基于最近邻互信息的特征选择算法提升分类性能

需积分: 16 120 浏览量更新于2024-09-06 收藏 539KB PDF 举报

"这篇论文研究了一种新的特征选择算法，该算法基于最近邻互信息（Nearest Neighbor Mutual Information, NMI），旨在解决邻域信息系统中人为设定邻域参数的问题。通过对样本与其最近同类和异类样本的距离计算，定义了样本的最近邻，以此确定信息粒子的大小，并引入了最近邻互信息的概念。论文采用前向贪心搜索策略构建了基于NMI的特征选择算法，并在两个不同的基分类器和八个UCI数据集上进行了实验，结果显示该模型能在减少特征数量的同时保持较高的分类性能，优于多种流行算法。" 在特征选择领域，目标是找出一个最优的特征子集，这个子集应该能最大化保留原始数据的信息，同时降低维度，提升模型的泛化能力和效率。特征选择的方法通常按照搜索策略和评价准则来划分，如前向、后向、包裹式搜索等。评价准则的选择至关重要，它直接影响到特征子集的质量。本文提出的最近邻互信息是信息度量的一种扩展，它考虑了样本与其最近邻的关系，不仅适用于离散数据，也能处理连续型数据。传统的信息度量，如互信息（Mutual Information, MI），主要用来评估特征与类别标签之间的相关性以及特征间的相互依赖性。然而，这些方法在处理连续数据时可能会遇到挑战，因为它们可能无法有效地捕捉非线性关系。 NMI特征选择算法的核心思想是通过计算样本与最近邻样本的互信息来评估特征的重要性。互信息是一种无参数的统计量，可以量化两个随机变量之间的相互依赖程度，不受变量分布的影响，这使得它特别适用于不确定性和非线性关系的情况。在前向贪心搜索策略中，特征被逐一添加到子集中，每次添加都基于NMI指标来判断是否能显著提高子集的分类性能。实验部分，作者对比了提出的NMI特征选择算法与其他流行算法（如MIFS、MRMR、FCBF）在UCI数据集上的表现，证明了新算法在减少特征数量的同时，能够保持甚至提升分类准确率，体现了其在降维和保持数据重要信息方面的优势。这项研究提出了一种新颖的特征选择策略，即基于最近邻互信息的算法，它有效地解决了传统互信息方法在处理连续数据时的局限性，并通过实验证明了其在提高分类模型性能方面的有效性。这种方法对于数据挖掘、机器学习和模式识别领域的特征工程具有重要的实践意义。

weixin_38743481

粉丝: 698
资源: 4万+

基于最近邻互信息的特征选择算法提升分类性能

基于最近邻互信息的特征选择技术研究

基于最近最远邻与互信息的高效特征选择算法

学习驱动的高维数据c-近似最近邻查询优化算法

论文研究-基于SURF和快速近似最近邻搜索的图像匹配算法.pdf

论文研究-基于最近邻策略的入侵检测方法研究.pdf

论文研究-新的基于最近邻聚类的属性离散化算法.pdf

论文研究-一种基于角相似性的k-最近邻搜索算法.pdf

论文研究-基于信息熵的子图匹配算法.pdf

论文研究-基于局部不变特征的图像匹配算法.pdf

室内定位算法研究：基于最近邻、改进最近邻和贝叶斯方法

最新资源