类别相关词频特征权重算法提升文本分类性能

需积分: 13 3 下载量 161 浏览量 更新于2024-09-09 收藏 1015KB PDF 举报
"这篇论文介绍了一种名为CDF-AICF的新颖特征权重算法,该算法针对文本分类中的问题,即传统基于文档频率的特征权重算法忽视词频信息以及特征与类别的关系表达不准确的问题。CDF-AICF算法考虑了特征在不同词频下的文档频率,同时引入了类别相关文档频率(CDF)和平均逆类频率(AICF)这两个新概念,以更准确地反映特征对类别的影响力和区分能力。通过与五种其他特征权重度量方法的对比实验,CDF-AICF在三个数据集上的分类表现优越。该研究由张羚、陆余良和杨国正完成,他们在数据挖掘理论及其应用方面有着深入研究。" 在文本分类任务中,特征选择和权重计算是关键步骤,因为它直接影响到分类器的性能。传统的特征权重算法,如TF-IDF(词频-逆文档频率),主要依赖于文档频率来衡量一个词的重要性,但忽略了词在文档内的出现次数(词频)。这种做法可能导致某些频繁出现但对分类至关重要的词被低估。为了解决这个问题,论文提出的CDF-AICF算法引入了词频维度,使得特征的权重能够反映它在不同词频下的文档分布情况。 类别相关文档频率(CDF)是一个创新的概念,它量化了特征在特定类别中出现的频率,从而反映了特征对类别的表现力。而平均逆类频率(AICF)则是用来衡量特征区分不同类别能力的指标,它考虑了特征在整个数据集中出现的逆类频率的平均值。这两个指标结合使用,可以更全面地评估特征的分类价值。 实验部分,研究人员将CDF-AICF与TF-IDF、IDF、BF-IDF、TF以及词频平方根(TF square root)这五种常见的特征权重度量方法进行了对比,实验结果表明CDF-AICF在三个不同的文本分类数据集上都取得了最优的分类效果。这证明了新算法在处理文本分类问题时的有效性和优势。 这篇论文提供了一个改进的特征权重计算框架,它不仅考虑了词频信息,还通过引入新的度量标准,提升了特征与类别关系的表达精度。这一贡献对于文本分类领域的研究和发展具有重要意义,可能为未来的文本挖掘和信息检索应用带来更好的性能。