信息增益混合特征选择提升垃圾邮件过滤准确性

需积分: 9 3 下载量 200 浏览量 更新于2024-09-08 收藏 525KB PDF 举报
该篇论文主要探讨了"基于信息增益的混合垃圾邮件特征选择方法",发表在《计算机工程与应用》(Computer Engineering and Applications)杂志2012年第48卷第27期。随着互联网的普及,垃圾邮件问题日益严重,据统计,中国网民每周平均接收到的垃圾邮件数量庞大,这不仅威胁网络安全,还对社会和个人经济带来负面影响。因此,有效处理垃圾邮件成为全球关注的研究课题。 特征选择在垃圾邮件过滤中扮演着关键角色,它能减少计算复杂性,提高分类效率。论文作者指出,常见的特征选择方法包括词频统计、CHI统计、互信息和信息增益等。这些方法在筛选特征时考虑的是特征的重要性,然而它们可能忽视了特征间的冗余性,这可能导致分类性能的下降。 针对这一问题,作者提出了一个混合特征选择方法,结合信息增益这一经典统计量,考虑了特征词之间的条件概率以及分类的区分度。这种方法旨在通过消除特征间的冗余来提升分类准确性。信息增益是一种度量特征对目标变量预测能力的方法,它通过计算特征与类别之间的关联性来确定特征的重要性。 论文的核心贡献在于提出了一种新的策略,它不仅对特征进行排序,还通过统计分析和分类器的性能优化来去除那些不必要或重复的特征。实验结果显示,这种混合方法在垃圾邮件过滤任务中表现出色,显著提高了邮件分类的精确率,从而降低了计算负担,优化了分类器的性能。 这篇论文深入研究了特征选择在垃圾邮件过滤中的作用,并通过创新的方法提升了过滤效率和准确性,对于提高邮件系统的实用性具有重要的理论和实际意义。