改进型DFS-sCHI算法:解决不平衡数据集下的特征词降维与分类精度提升

需积分: 10 0 下载量 15 浏览量 更新于2024-09-08 收藏 1.06MB PDF 举报
本文研究了一种针对不平衡数据集下的特征词两面性问题的新型降维算法——DFS-sCHI。在传统的DFS(递归特征消除)特征选择算法中,存在两个主要缺陷:一是没有充分考虑样本分布的不均衡性,二是未充分理解负特征词对类别划分的重要影响。DFS算法在处理这类数据集时可能会导致特征选择偏向于多数类别,忽视了少数类别的重要信息。 为了改进这一问题,作者们将DFS与经典的卡方检测算法(CHI)结合起来,提出DFS-sCHI算法。通过引入负特征词的概念,该算法将它们视为影响类别划分的关键因素,有助于解决类别间特征词分布不均的问题。负特征词通常表示与某个类别关联度较低但对分类有显著区分作用的词语,这对于处理不平衡数据集尤其关键。 实验结果显示,在处理不平衡数据集时,DFS-sCHI相较于原始的DFS算法在分类精度上有了显著提升。这表明,通过结合卡方检测的统计检验方法和对负特征词的考虑,DFS-sCHI能够更有效地提取出对分类有价值的特征,从而提高模型的性能。 作者团队包括付鑫、王洪国、邵增珍和杜秋霞,他们分别来自山东师范大学信息科学与工程学院和山东省物流优化与预测工程技术研究中心,研究领域涵盖了文本分类、信息抽取、智能计算、智能物流和大数据分析等。他们的工作受到了山东省科技发展计划、山东省经信委软科学计划以及国家自然科学基金等多个项目的资助。 本文的主要贡献在于提出了一个适用于不平衡数据集的特征选择策略,这在现实世界的数据分析中具有广泛的应用价值,尤其是在处理文本数据,如社交媒体、新闻文本等,其中类别分布往往存在明显的不平衡性。通过DFS-sCHI,我们可以期望在这些场景下获得更精确、更具代表性的特征子集,从而提高机器学习模型的预测能力和泛化能力。