改进型DFS-sCHI算法:解决不平衡数据集下的特征词降维与分类精度提升
需积分: 10 15 浏览量
更新于2024-09-08
收藏 1.06MB PDF 举报
本文研究了一种针对不平衡数据集下的特征词两面性问题的新型降维算法——DFS-sCHI。在传统的DFS(递归特征消除)特征选择算法中,存在两个主要缺陷:一是没有充分考虑样本分布的不均衡性,二是未充分理解负特征词对类别划分的重要影响。DFS算法在处理这类数据集时可能会导致特征选择偏向于多数类别,忽视了少数类别的重要信息。
为了改进这一问题,作者们将DFS与经典的卡方检测算法(CHI)结合起来,提出DFS-sCHI算法。通过引入负特征词的概念,该算法将它们视为影响类别划分的关键因素,有助于解决类别间特征词分布不均的问题。负特征词通常表示与某个类别关联度较低但对分类有显著区分作用的词语,这对于处理不平衡数据集尤其关键。
实验结果显示,在处理不平衡数据集时,DFS-sCHI相较于原始的DFS算法在分类精度上有了显著提升。这表明,通过结合卡方检测的统计检验方法和对负特征词的考虑,DFS-sCHI能够更有效地提取出对分类有价值的特征,从而提高模型的性能。
作者团队包括付鑫、王洪国、邵增珍和杜秋霞,他们分别来自山东师范大学信息科学与工程学院和山东省物流优化与预测工程技术研究中心,研究领域涵盖了文本分类、信息抽取、智能计算、智能物流和大数据分析等。他们的工作受到了山东省科技发展计划、山东省经信委软科学计划以及国家自然科学基金等多个项目的资助。
本文的主要贡献在于提出了一个适用于不平衡数据集的特征选择策略,这在现实世界的数据分析中具有广泛的应用价值,尤其是在处理文本数据,如社交媒体、新闻文本等,其中类别分布往往存在明显的不平衡性。通过DFS-sCHI,我们可以期望在这些场景下获得更精确、更具代表性的特征子集,从而提高机器学习模型的预测能力和泛化能力。
2022-11-09 上传
2019-08-16 上传
2021-11-13 上传
2020-05-26 上传
2022-02-16 上传
2024-05-22 上传
2021-09-14 上传
weixin_39840387
- 粉丝: 790
- 资源: 3万+
最新资源
- Fisher Iris Setosa数据的主成分分析及可视化- Matlab实现
- 深入理解JavaScript类与面向对象编程
- Argspect-0.0.1版本Python包发布与使用说明
- OpenNetAdmin v09.07.15 PHP项目源码下载
- 掌握Node.js: 构建高性能Web服务器与应用程序
- Matlab矢量绘图工具:polarG函数使用详解
- 实现Vue.js中PDF文件的签名显示功能
- 开源项目PSPSolver:资源约束调度问题求解器库
- 探索vwru系统:大众的虚拟现实招聘平台
- 深入理解cJSON:案例与源文件解析
- 多边形扩展算法在MATLAB中的应用与实现
- 用React类组件创建迷你待办事项列表指南
- Python库setuptools-58.5.3助力高效开发
- fmfiles工具:在MATLAB中查找丢失文件并列出错误
- 老枪二级域名系统PHP源码简易版发布
- 探索DOSGUI开源库:C/C++图形界面开发新篇章