改进的正则化互信息特征选择算法在分类中的应用
需积分: 3 133 浏览量
更新于2024-09-08
收藏 564KB PDF 举报
“基于正则化互信息改进输入特征选择的分类算法”
在当前的数据分析领域,特征选择是一项至关重要的任务,特别是在处理大量特征的数据集时。由于存在冗余特征,这些特征不仅会增加计算负担,还可能降低模型的性能和效率。互信息(Mutual Information, MI)作为一种衡量两个随机变量间依赖性的信息理论工具,被广泛应用于特征选择算法中,因为它能捕捉非线性的关系,不受变量分布的影响。
本文提出的“基于正则化互信息改进输入特征选择的分类算法”(NMIFS-FS2)旨在解决基于MI的传统特征选择方法中的一个关键问题:如何确定冗余度参数β。传统方法中,特征与类别的MI被用来评估特征的重要性,但这种方法通常需要手动设定β值,这在实际应用中往往很困难。NMIFS-FS2算法通过考虑特征组合与类别的MI,而不是单一特征,有效地规避了这一问题,从而无需预先确定β值,扩大了算法的应用范围。
NMIFS-FS2算法的核心在于,它使用特征组合的MI来度量特征的相关性和重要性,这有助于识别那些单独看起来不显著,但组合起来能提供更多信息的特征。这种方法提高了特征选择的准确性和鲁棒性,减少了对参数调整的依赖。
为了证明算法的有效性,作者进行了两组实验,对比了NMIFS-FS2与其他几种传统分类算法的性能。实验结果表明,NMIFS-FS2在分类精度、稳定性以及计算复杂度上均表现出优越性,证明了其在特征选择领域的创新性和实用性。
参考文献中,[3]提出了知识增益(Knowledge Gain, KG)作为特征选择函数,满足特定约束条件,以构造高性能的特征选择方法。[4]介绍了无监督的特征选择方法UFS-MI,利用UmRMR(无监督最小冗余最大相关)标准来评估特征的重要性,考虑了相关度和冗余度。[5]则探讨了基于互信息的MIFS和MIFS-U算法,这两个算法引入了冗余度参数β来量化特征间的冗余。
潘果的这项研究通过引入正则化互信息的概念,改进了特征选择的策略,提高了分类算法的性能,降低了计算复杂度,并且避免了冗余度参数的不确定性,为特征选择提供了一个新的有效途径。
2019-07-22 上传
2019-09-12 上传
2019-07-22 上传
2019-09-12 上传
weixin_38743481
- 粉丝: 696
- 资源: 4万+
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍