提升高维数据分析精度:改进的PM-MD集成分类器

需积分: 9 0 下载量 117 浏览量 更新于2024-08-13 收藏 995KB PDF 举报
本文主要探讨了在高维数据分析中遇到的"Hubness"问题,这是一种现象,即某些样本在高维空间中的分布过于集中,导致它们对分类性能产生负面影响。针对这个问题,现有的研究已经尝试了五种不同的降Hubness策略来提升分类效果,然而这些策略各有局限性,无法满足所有场景的需求。 为了解决这一局限,作者提出了一个改进的PM-MD(Probabilistic Model-based Multiple Classifier)分类器集成方法。PM-MD集成的核心思想是结合K-近邻算法(K-Nearest Neighbors, KNN)和分类器的类支持向量,通过比较决策表(由KNN确定)和分类器产生的支持向量之间的相似性来评估每个分类器的竞争力权重。这种集成策略旨在通过结合多个分类器的优点,增强整体的分类能力。 原始的PM-MD方法在处理高维数据集时,可能会因为高斯势函数对距离的弱化作用而导致区分度不足。为了改善这种情况,作者创新地引入了欧氏距离来直接计算决策表,从而提高分类精度。这种方法更直接地考虑了样本间的实际距离,有助于增强模型在高维空间中的表现。 实验结果在12个UCI数据集上验证了改进后PM-MD分类器集成的优势。结果显示,相较于单一的PM-MD,集成策略不仅提供了更稳定且优秀的分类性能,而且改进后的PM-MD进一步提升了分类精度。这对于处理复杂高维数据的场景具有重要的实际意义,证明了该方法的有效性和普适性。 本文的研究贡献在于提出了一种有效的降Hubness和分类器集成策略,通过优化决策表计算和距离度量,显著提高了高维数据分析的准确性和稳定性。这对于IT领域的机器学习和数据挖掘应用具有重要的参考价值。