信息增益混合特征选择提升垃圾邮件过滤准确性
需积分: 9 200 浏览量
更新于2024-09-08
收藏 525KB PDF 举报
该篇论文主要探讨了"基于信息增益的混合垃圾邮件特征选择方法",发表在《计算机工程与应用》(Computer Engineering and Applications)杂志2012年第48卷第27期。随着互联网的普及,垃圾邮件问题日益严重,据统计,中国网民每周平均接收到的垃圾邮件数量庞大,这不仅威胁网络安全,还对社会和个人经济带来负面影响。因此,有效处理垃圾邮件成为全球关注的研究课题。
特征选择在垃圾邮件过滤中扮演着关键角色,它能减少计算复杂性,提高分类效率。论文作者指出,常见的特征选择方法包括词频统计、CHI统计、互信息和信息增益等。这些方法在筛选特征时考虑的是特征的重要性,然而它们可能忽视了特征间的冗余性,这可能导致分类性能的下降。
针对这一问题,作者提出了一个混合特征选择方法,结合信息增益这一经典统计量,考虑了特征词之间的条件概率以及分类的区分度。这种方法旨在通过消除特征间的冗余来提升分类准确性。信息增益是一种度量特征对目标变量预测能力的方法,它通过计算特征与类别之间的关联性来确定特征的重要性。
论文的核心贡献在于提出了一种新的策略,它不仅对特征进行排序,还通过统计分析和分类器的性能优化来去除那些不必要或重复的特征。实验结果显示,这种混合方法在垃圾邮件过滤任务中表现出色,显著提高了邮件分类的精确率,从而降低了计算负担,优化了分类器的性能。
这篇论文深入研究了特征选择在垃圾邮件过滤中的作用,并通过创新的方法提升了过滤效率和准确性,对于提高邮件系统的实用性具有重要的理论和实际意义。
2019-09-10 上传
2019-09-07 上传
weixin_38744270
- 粉丝: 329
- 资源: 2万+
最新资源
- SSM Java项目:StudentInfo 数据管理与可视化分析
- pyedgar:Python库简化EDGAR数据交互与文档下载
- Node.js环境下wfdb文件解码与实时数据处理
- phpcms v2.2企业级网站管理系统发布
- 美团饿了么优惠券推广工具-uniapp源码
- 基于红外传感器的会议室实时占用率测量系统
- DenseNet-201预训练模型:图像分类的深度学习工具箱
- Java实现和弦移调工具:Transposer-java
- phpMyFAQ 2.5.1 Beta多国语言版:技术项目源码共享平台
- Python自动化源码实现便捷自动下单功能
- Android天气预报应用:查看多城市详细天气信息
- PHPTML类:简化HTML页面创建的PHP开源工具
- Biovec在蛋白质分析中的应用:预测、结构和可视化
- EfficientNet-b0深度学习工具箱模型在MATLAB中的应用
- 2024年河北省技能大赛数字化设计开发样题解析
- 笔记本USB加湿器:便携式设计解决方案