改进的高维数据选择性贝叶斯分类器提升准确率

需积分: 10 3 下载量 190 浏览量 更新于2024-09-07 收藏 211KB PDF 举报
该篇论文主要探讨了"一种改进的选择性贝叶斯分类器"这一主题,作者是仝瑶瑶,来自中国矿业大学信息与电气工程学院。论文关注于解决高维数据处理中的问题,特别是在分类准确率提升方面。传统的朴素贝叶斯分类器因其条件独立性假设受到限制,即在给定类别条件下,属性间被假设相互独立,这与实际数据可能存在的相关性不符。为改善这一点,作者借鉴了选择性贝叶斯分类器的思想,但注意到其在处理高维数据时的效率问题,特别是忽视了类别内部特征的相关性。 论文的核心创新在于提出了一种新的特征选择方法,它结合了类别最大相关性和属性最小冗余原则,并引入了一个调节因子。这个调节因子的作用是动态调整类别相关性对特征选择的影响,以更好地满足朴素贝叶斯的条件独立性假设。通过改变这个因子的值,可以平衡属性之间的相关性和类别间的关联性,从而提高分类的准确性。作者通过在4组UCI数据集上的实验验证了这一改进方法的有效性,结果显示,相较于传统方法如最大相关性和类别相关性最大法,改进后的选择性贝叶斯分类器表现出了更好的分类效果。 此外,论文也提到了其他学者的工作,如Langly和Sage的原始选择性朴素贝叶斯分类器以及Peng的MRMR特征选择方法,这些都在论文中作为对比和背景进行了讨论。作者指出,尽管MRMR方法在降维方面表现出色,但它未能充分处理类别内特征的相关性。因此,他们的工作旨在填补这一空白,为高维数据分类提供更精确和高效的解决方案。 总结来说,这篇论文深入研究了如何在保持朴素贝叶斯分类器基本原理的同时,通过改进的特征选择策略来适应高维数据的特点,以期提高分类精度。后续的研究方向可能包括进一步优化调节因子的计算方法,以及探索在更大规模和更复杂的数据集上的应用潜力。