加权朴素贝叶斯算法在邮件过滤中的应用

需积分: 0 152 浏览量更新于2024-09-06 收藏 606KB PDF 举报

“基于加权朴素贝叶斯的邮件过滤方法，王辉，黄自威，通过对内容邮件过滤技术中MI特征提取算法的研究，结合朴素贝叶斯分类算法，提出特征项区分度的概念，深入分析特征项在分类中的差异，提出兼顾特征项区分度和互信息的特征提取算法，并最终提出了一种加权朴素贝叶斯算法，以更高效地解决基于内容的邮件过滤问题。” 这篇论文探讨了如何利用机器学习方法，特别是朴素贝叶斯分类器，来提升垃圾邮件过滤的效果。在邮件过滤领域，准确识别并过滤掉垃圾邮件是一项重要的任务，因为这些邮件不仅会浪费用户的时间，还可能包含有害内容或进行欺诈活动。朴素贝叶斯算法是一种常见的文本分类工具，它基于概率模型，通过计算特征项出现的概率来决定邮件的类别。论文中，作者王辉和黄自威首先对MI（Mutual Information，互信息）特征提取算法进行了研究，这是一种用于识别文本中有用特征的方法，它可以衡量特征项与类别之间的关联程度。然而，MI特征提取可能无法充分考虑到特征项在分类过程中的区分能力差异。为了解决这个问题，他们引入了一个新的概念——特征项区分度（Feature Term Discrimination, FTD）。FTD可以量化每个特征项在区分垃圾邮件和非垃圾邮件时的能力，从而帮助优化特征选择。论文提出了一种结合FTD和MI的特征提取算法，该算法能够在选择特征时既考虑特征项的互信息，又考虑其区分垃圾邮件的能力。通过这种方式，可以得到一个更加高效的特征集，能够更准确地反映邮件的类别信息。接下来，作者将FTD整合到分类算法的设计中，发展出了一种加权朴素贝叶斯算法。在这个算法中，不同的特征项根据其区分度被赋予不同的权重，使得分类器在决策时能更重视那些具有更高区分度的特征。这种方法有望改善分类性能，提高过滤的准确性和稳定性。实验结果显示，改进后的加权朴素贝叶斯算法在召回率、精确率和正确率等关键指标上均有所提升，表明其在垃圾邮件过滤上的表现优于传统朴素贝叶斯算法。这不仅意味着更高的过滤效率，还意味着更少的误判，即减少了将非垃圾邮件误判为垃圾邮件的可能性，以及将垃圾邮件漏过的情况。这篇论文提供了一种新颖的邮件过滤策略，通过引入特征项区分度的概念并结合加权朴素贝叶斯，提升了垃圾邮件过滤的准确性和鲁棒性。这对于提高电子邮件系统的安全性，减少用户受到垃圾邮件干扰具有实际意义，也对未来的文本分类和信息过滤研究提供了有价值的参考。

http://www.paper.edu.cn

- 1 -

中国科技论文在线

基于加权朴素贝叶斯的邮件过滤方法

王辉，黄自威

基金项目：国家自然科学基金(61300216)；教育部博士点基金（20124116120004）；河南省教育厅科学技术

研究重点项目(13A510325)

作者简介：王辉（1975-），男，副教授，主要研究方向：网络信息安全. E-mail: wanghui_jsj@hpu.edu.cn

（河南理工大学计算机科学与技术学院，焦作 454000）

摘要：通过对内容邮件过滤技术中 MI 特征提取算法研究，结合朴素贝叶斯分类算法，本文

提出了特征项区分度的概念，深入分析特征项在分类中区分能力之间的差异，提出一种兼顾

特征项区分度和互信息的特征提取算法；通过进一步将区分度添加到分类算法设计中，最终

提出一种加权朴素贝叶斯算法，高效地解决基于内容邮件过滤问题。实验结果证明，改进后

的算法在召回率、精确率和正确率上均有明显提高，且分类性能更加稳定。 10

关键词：垃圾邮件；特征提取；特征项区分度；加权朴素贝叶斯

中图分类号：TP391

A Novel Spam Filtering Method Based on Weighted Naive

Bayes 15

WANG Hui, HUANG Ziwei

(College of Computer Science and Technology,Henan Polytechnic University,Jiaozuo 454000)

Abstract: In allusion to MI feature extration algorithm and naive bayes algorithm, this paper

introduces the concept of the Feature Term Discrimination(FTD),analyse the discrepancy of the

separating capacity of various feature terms in the categorizing process, and put forward a kind of 20

feature extraction algorithm which give consideration to both FTD and MI. By further add FTD to

the design of classification algorithm,a weighted naïve bayes algorithm is presented to solve the

problem of content-base filtering efficiently.The experimental results show that the improved

algorithm has increased significantly in terms of the recall rate, precision rate and accuracy rate ,

and the performance of classification is more stable. 25

Key words: Spam, Feature extraction, Feature items discrimination, Weighted naïve bayes

0 引言

电子邮件作为一种高效的沟通渠道被广泛应用，但大量的垃圾邮件也随之产生。2013 年

第一季度中国反垃圾邮件状况调查报告显示，中国电子邮箱用户平均每周收到 14.6 封垃圾30

邮件，占总体收到邮件比例的 37.3%，环比上升四个百分点

[1]

。垃圾邮件不仅占用网络资源，

降低网络的运行效率，而且耗费收件人大量时间和精力，已经严重威胁到计算机网络信息安

全

[2]

因此，反垃圾邮件技术的研究具有重要的社会意义。

针对垃圾邮件的处理，目前主要以过滤技术为主，其中基于内容的过滤方法在当今的垃

圾邮件过滤中应用最为广泛

[3]

。在基于内容的过滤中，有两个阶段对分类结果的影响尤为重35

要：(1)特征提取阶段，采用适当的方法进行特征提取，建立有效的特征项库

[4]

；(2)分类阶

段，设计有效的分类算法，达到最佳的分类效果

[4]

。

常用的特征提取方法有信息增益(Information Gain,IG）、χ

统计(Chi-square,CHI)和互信息

(Mutual Information,MI)等。它们基于不同的度量标准，但都是通过一定的评估方法计算出每

个特征项的度量值，选取排列靠前的 N 个特征项作为特征项库

[5]

。其中 MI 算法计算复杂度40

低，能以量化的形式度量特征间的不确定程度，并且能有效的度量特征间的非线性关系，是

目前普遍采用的特征相关评价准则

[6]

。

常用的分类算法主要包括支持向量机(SVM)、K 近邻(KNN）和朴素贝叶斯(Naïve Bayes）

等。其中 Naïve Bayes 算法理论基础深厚，计算复杂度低，且对缺失数据不太敏感，与其他

分类方法相比具有理论上的最小误差率，经过 Graham 的推广，成为目前企业应用较多的解45

下载后可阅读完整内容，剩余7页未读，立即下载

weixin_39841856

粉丝: 491
资源: 1万+

加权朴素贝叶斯算法在邮件过滤中的应用

改进的TF-IDF-FC加权朴素贝叶斯分类算法

Omnicat-Bayes实现朴素贝叶斯文本分类教程

基于朴素贝叶斯的垃圾邮件过滤算法研究与实现

论文研究-改进的朴素贝叶斯垃圾邮件过滤算法.pdf

论文研究-基于属性加权的朴素贝叶斯分类算法.pdf

论文研究-新的基于最小风险的贝叶斯邮件过滤模型.pdf

论文研究-基于引力模型的朴素贝叶斯分类算法.pdf

论文研究-基于朴素贝叶斯和EM算法的软件工作量缺失数据处理方法.pdf

Lucene框架下的最小风险概率加权朴素贝叶斯算法在垃圾邮件过滤中的应用

实验室管理系统 微信小程序+SSM毕业设计 源码+数据库+论文+启动教程.zip

最新资源

实验室管理系统微信小程序+SSM毕业设计源码+数据库+论文+启动教程.zip