改进型DFS-sCHI算法：解决不平衡数据集下的特征词降维与分类精度提升

需积分: 10 178 浏览量更新于2024-09-08 收藏 1.06MB PDF 举报

本文研究了一种针对不平衡数据集下的特征词两面性问题的新型降维算法——DFS-sCHI。在传统的DFS（递归特征消除）特征选择算法中，存在两个主要缺陷：一是没有充分考虑样本分布的不均衡性，二是未充分理解负特征词对类别划分的重要影响。DFS算法在处理这类数据集时可能会导致特征选择偏向于多数类别，忽视了少数类别的重要信息。为了改进这一问题，作者们将DFS与经典的卡方检测算法（CHI）结合起来，提出DFS-sCHI算法。通过引入负特征词的概念，该算法将它们视为影响类别划分的关键因素，有助于解决类别间特征词分布不均的问题。负特征词通常表示与某个类别关联度较低但对分类有显著区分作用的词语，这对于处理不平衡数据集尤其关键。实验结果显示，在处理不平衡数据集时，DFS-sCHI相较于原始的DFS算法在分类精度上有了显著提升。这表明，通过结合卡方检测的统计检验方法和对负特征词的考虑，DFS-sCHI能够更有效地提取出对分类有价值的特征，从而提高模型的性能。作者团队包括付鑫、王洪国、邵增珍和杜秋霞，他们分别来自山东师范大学信息科学与工程学院和山东省物流优化与预测工程技术研究中心，研究领域涵盖了文本分类、信息抽取、智能计算、智能物流和大数据分析等。他们的工作受到了山东省科技发展计划、山东省经信委软科学计划以及国家自然科学基金等多个项目的资助。本文的主要贡献在于提出了一个适用于不平衡数据集的特征选择策略，这在现实世界的数据分析中具有广泛的应用价值，尤其是在处理文本数据，如社交媒体、新闻文本等，其中类别分布往往存在明显的不平衡性。通过DFS-sCHI，我们可以期望在这些场景下获得更精确、更具代表性的特征子集，从而提高机器学习模型的预测能力和泛化能力。

weixin_39840387

粉丝: 790
资源: 3万+

改进型DFS-sCHI算法：解决不平衡数据集下的特征词降维与分类精度提升

朱伟事理的两面共9页.pdf.zip

论文研究-Photonic crystal fiber based high-temperature fiber-optic Fabry-Perot interferometric sensors.pdf

把握经济全球化的两面性宣贯.pdf

论文研究 - 精神损失时的精神两面：主题分析研究

区块链保护个人信息存“两面性”.pdf

法律和金融视角下区块链经济两面性分析--基于区块链技术的共性与个性认识.pdf

通信行业2022年度策略：双碳与元宇宙，能源革命与信息革命的一体两面（101页）.pdf

银行业行业点评报告政府债发行加速企业贷款票据冲量特征明显-4页.pdf.zip

电信设备-换热器背对背设置两面进出风移动空调.zip

区块链技术两面性分析——法律和金融视角.pdf

最新资源