不平衡文本特征选择新方法提升分类精度

需积分: 9 0 下载量 32 浏览量 更新于2024-08-12 收藏 285KB PDF 举报
本文主要探讨了面向不平衡文本的特征选择方法,针对传统特征选择方法中存在的一些不足,特别是在处理类别分布严重不平衡的文本数据时的问题。研究者首先分析了传统特征选择方法所依赖的四项基本信息元素,包括特征的重要性、相关性、区分度和频率等因素。 在深入理解这些元素的基础上,作者提出了一个强类别信息的度量标准,这个标准强调了在不平衡数据集中,特别是对于少数类别的关注度。通过引入这一新概念,研究人员旨在设计出一种更有效的特征选择策略,它能够平衡对少数类和多数类样本的处理,从而提升类别分类的精度。 该方法不仅考虑了词频因子,这是许多文本挖掘任务中的基础,还特别关注类别信息因子,以确保在处理不平衡数据时,不会因为多数类的大量信息而忽视了少数类的重要特征。实验部分,研究者选择了reuter.21578数据集进行测试,结果显示,与传统的IG(Information Gain)和CHI(Chi-squared)方法相比,该新型特征选择方法在微平均和宏平均指标上都有明显的提升,这意味着它在整体性能和类别均衡性上都表现得更为优秀。 关键词:特征选择方法、不平衡数据集、强类别相关、文本分类。这篇论文的主要贡献在于提供了一种实用的解决方案,帮助解决不平衡文本分类问题,这对于许多实际应用,如垃圾邮件过滤、情感分析等具有重要意义,因为在现实世界的数据集中,类别分布往往是不均匀的。通过这种方法,我们不仅可以提高分类的准确性,还可以提高模型的稳健性和鲁棒性,使得模型在面对复杂和不平衡的文本数据时更加高效和有效。