层次式文本分类中Naïve Bayes的优化方法

下载需积分: 12 | PDF格式 | 341KB | 更新于2024-09-06 | 54 浏览量 | 举报

"这篇论文探讨了层次式文本分类中Naïve Bayes方法的改进策略，旨在解决该方法在处理文本分类时对全局数据分布的过度依赖以及数据偏斜问题。作者张博锋和苏金树来自国防科学技术大学计算机学院，徐昕则来自机电工程与自动化学院。他们提出的方法利用层次结构的特性，通过概率条件的调整，使得分类决策在每个内部类别的子类局部数据上进行，从而减少全局数据分布的影响，缓解数据偏斜问题。实验结果证明了改进方法在层次式分类中的性能提升显著。" Naïve Bayes方法是一种基于贝叶斯定理的分类算法，由于其计算效率高和易于实现，在文本分类中广泛应用。然而，它的主要缺点在于假设特征之间相互独立，即“naïve”假设，以及对训练数据分布的依赖。在实际应用中，当某些类别的样本数量较少时，Naïve Bayes可能会因缺乏足够的统计信息而导致分类不准确。论文指出，层次式文本分类提供了一种结构化的标签系统，可以利用这种结构来优化分类过程。传统的Naïve Bayes在层次分类中仍然使用全局类别概率估计，这可能导致在数据偏斜的情况下分类性能下降。为了克服这一问题，作者引入了层次结构，并在每个内部类别的子类中进行局部概率条件估计，这样能更好地适应局部数据分布，减轻全局数据分布对分类决策的影响。在论文中，作者可能详细讨论了如何实施这个改进策略，包括如何利用层次结构来估计类别概率，以及如何在子类级别上进行决策。此外，他们还可能通过实验对比了改进的Naïve Bayes方法与标准Naïve Bayes方法以及其它文本分类算法（如kNN、支持向量机等）的性能，以验证新方法的有效性。这篇论文的贡献在于提出了一种针对层次式文本分类的Naïve Bayes改进方法，通过利用层次结构的特性来优化分类性能，尤其是对于样本分布不均衡的情况。这对于进一步提高文本分类的准确性和应对大数据环境下的文本分类挑战具有重要的理论和实践意义。