TSVM-NB算法:提升垃圾邮件过滤效率与精度

6 下载量 27 浏览量 更新于2024-08-29 3 收藏 1.25MB PDF 举报
本文主要探讨了改进的朴素贝叶斯算法在垃圾邮件过滤领域的应用,特别是在2017年发表于《通信学报》的一篇研究论文中。作者杨雷、曹翠玲、孙建国和张立国提出了TSVM-NB算法,这是一种结合了朴素贝叶斯(Naive Bayes)和支持向量机(Support Vector Machine, SVM)的创新方法。 首先,该研究利用朴素贝叶斯算法对初始的样本集进行初步训练。朴素贝叶斯是一种基于概率统计的简单但强大的分类器,它假设各个特征之间相互独立,这在处理高维数据时简化了计算。然而,对于实际的垃圾邮件数据,可能存在某些特征之间的关联性未被充分考虑,朴素贝叶斯的独立性假设可能并不完全适用。 为了克服这一问题,研究者引入了支持向量机。SVM通过寻找最大边界来分割不同类别的样本,构建最优分类超平面。在这个过程中,TSVM-NB算法会剔除那些与最近样本类型不一致的样本,这种方法称为修剪策略。这样做的目的是减少样本空间的维度,增强类别间的区分度,同时提高每个样本所属类别内的独立性。 通过这个过程,TSVM-NB算法能够有效地消除冗余属性,提取出关键的分类特征子集。这些特征子集不仅减少了计算复杂性,而且提高了垃圾邮件过滤的效率。在实际的仿真实验中,算法展现了明显的性能提升,包括分类速度、召回率和正确率的提高。分类速度的提升意味着更快地处理大量邮件,而召回率和正确率的提高则确保了过滤系统在区分垃圾邮件和非垃圾邮件时的准确性。 这篇研究提供了一个有效的方法来优化朴素贝叶斯算法,使之更适合垃圾邮件过滤场景,尤其是在处理大规模和高维度数据时。其核心在于结合SVM的优化能力和朴素贝叶斯的简单性,通过特征选择和修剪策略,提升了算法在实际应用中的表现,为邮件过滤系统提供了新的解决方案。