提升文本分类质量:基于文档类密度的特征权重算法

需积分: 0 0 下载量 8 浏览量 更新于2024-09-07 收藏 1.39MB PDF 举报
"这篇论文介绍了一种新的特征权重计算方法,称为基于文档类密度的特征权重算法(TF-IDCD),用于改善文本分类的效果。该方法针对传统特征权重算法的局限性,通过引入文档类密度的概念来衡量特征的重要性。文档类密度是通过计算包含特定特征的文档数量与同一类别内所有文档总数的比例来定义的。实验结果表明,TF-IDCD算法在F1宏平均和F1微平均指标上优于其他常见的特征权重算法,显示了其在中文文本分类任务中的优越性能。此研究受到了国家自然科学基金和北京市长城学者资助项目的支撑,由周鹏程、刘旭敏和徐维祥等研究人员合作完成。" 在文本分类领域,特征权重计算是关键步骤,它决定了哪些特征对分类结果的影响更大。传统的特征权重算法如TF-IDF(词频-逆文档频率)着重于考虑一个词在文档中的频率以及在整个文集中的普遍性。然而,这种算法可能忽视了一些在特定类别中具有高区分度但全局出现频率较低的特征。因此,TF-IDCD算法被提出,它通过文档类密度来捕捉这些特征在特定类别中的重要性。 TF-IDCD算法的核心是文档类密度,它度量了特征在某一类别内的集中程度。如果一个特征在某个类别中的文档密度高,那么这个特征就被认为是该类别的重要标志。这样,算法就能更好地识别出那些在特定类别中频繁出现但在其他类别中不常见的特征,从而提高分类的准确性。 在实验部分,研究人员使用了两个中文数据集来比较TF-IDCD与其他四种算法(可能包括TF-IDF和其他常见的文本分类方法)的表现。实验结果表明,TF-IDCD在F1宏平均和F1微平均这两项评估指标上均取得了显著的提升。F1宏平均是所有类别的F1分数的平均值,而F1微平均则是考虑所有正负样本的精确度和召回率的调和平均。这两个指标的提升意味着TF-IDCD在分类多个类别时能保持更均衡的性能,并且整体分类效果更优。 这项研究为文本分类提供了一个新的视角,强调了在特定类别内特征分布的重要性。TF-IDCD算法的提出有助于改进文本分类模型,尤其对于处理大量文本数据和多类别分类问题时,能够提供更准确的分类结果。未来的研究可能会进一步探索如何结合其他机器学习方法,如支持向量机(SVM),以优化基于文档类密度的特征选择和分类性能。