Hadoop MapReduce下的贝叶斯垃圾邮件过滤优化

96 浏览量更新于2024-09-01 1 收藏 705KB PDF 举报

"本文主要探讨了在Hadoop平台上利用MapReduce改进贝叶斯垃圾邮件过滤算法，以提高过滤效率和准确性。通过优化判定类别阈值，实验结果显示，这种方法能降低正常邮件误判率，提升垃圾邮件识别的准确率和F值。" 在当前的信息化时代，电子邮件成为日常交流的重要工具，然而随之而来的是垃圾邮件的问题日益严重。据统计，中国网民中有相当一部分受到垃圾邮件的困扰。面对这种挑战，各种垃圾邮件过滤技术应运而生，包括基于黑白名单、规则和内容统计的方法。其中，贝叶斯垃圾邮件过滤因其较高的分类准确性和能力而被广泛采用。然而，该方法的不足在于处理效率低，且需要大量训练数据，这在处理海量邮件时显得力不从心。 Hadoop作为一种分布式计算框架，其MapReduce模型为处理大数据问题提供了强大的支持。本文正是基于这一背景，对贝叶斯垃圾邮件过滤算法进行了MapReduce的并行化改造。MapReduce模型通过将大规模数据集分解成多个小任务并行处理，显著提升了计算速度，非常适合处理大量邮件数据。贝叶斯定理是实现垃圾邮件过滤的关键，它利用统计学原理来判断邮件内容属于垃圾邮件的概率。在Hadoop环境下，Map阶段负责将邮件数据分片并应用贝叶斯模型进行预处理，Reduce阶段则整合各个Map的结果，进行最终的垃圾邮件判定。通过调整判定类别的阈值，可以进一步优化分类效果，降低正常邮件被误判为垃圾邮件的几率，同时提高对垃圾邮件的识别精度。实验表明，结合MapReduce的贝叶斯垃圾邮件过滤算法在保持高分类准确性的前提下，显著提升了处理效率。F值作为评价分类器性能的指标，其提升意味着系统在精确性和召回率上都有所改善。因此，这种改进策略对于应对海量垃圾邮件的挑战具有实际意义，为云计算环境下的邮件过滤提供了新的解决方案。总结来说，Hadoop平台上的贝叶斯垃圾邮件过滤技术通过MapReduce并行计算和阈值优化，有效解决了传统算法的效率和资源消耗问题，提高了邮件过滤系统的整体性能。这项研究对于理解如何利用大数据处理技术改进传统算法具有重要的理论和实践价值。未来的研究可能进一步探索如何在更复杂的邮件环境中优化此系统，以及如何集成更多的机器学习策略来提升过滤效果。

Hadoop平台下垃圾邮件过滤技术研究平台下垃圾邮件过滤技术研究

传统的贝叶斯垃圾邮件过滤系统虽然具有较高的分类准确性，但是在处理邮件时存在效率低、消耗资源量大的

问题。本文针对贝叶斯垃圾邮件过滤算法进行了在Hadoop MapReduce下的研究，并对判定类别的阈值进行了

优化，实验表明，本文提出的算法降低了正常邮件的误判率，提高了垃圾邮件判定的准确率和F值，同时提高了

垃圾邮件过滤的效率。

　　摘摘要要：传统的

　　关键词　关键词： Hadoop；垃圾邮件；贝叶斯；MapReduce

0 引言引言

　　电子邮件作为网络最基本的服务，已成为人们生活中不可或缺的一部分。截止2014年12月，中国网民规模达到6.49亿，

电子邮件用户规模3.9亿，占网民总数的60.1%[1]。在其中充斥着的海量垃圾邮件给人们的生活带来了困扰，如何处理海量垃

圾邮件已经成为亟待解决的重要问题。

　　在目前存在的垃圾邮件过滤技术中，以过滤垃圾邮件时使用的过滤方法作为分类点，可将这些垃圾邮件过滤技术分为以下

三种：基于黑白名单的过滤技术[2]、基于规则的过滤技术[3]、基于内容统计的过滤技术。其中，贝叶斯垃圾邮件过滤技术分

类能力和准确性较高，但其前期需要对训练样本进行大量的训练学习，对训练样本依赖性较强。海量垃圾邮件的出现使得传统

的方法无法满足需要，随着云计算Hadoop的出现和发展，Hadoop MapReduce模型为海量垃圾邮件的过滤提供了新思路。

　　针对传统贝叶斯垃圾邮件过滤算法的缺点，本文对贝叶斯垃圾邮件过滤算法与MapReduce编程模型的结合进行了研究，

提出了垃圾邮件过滤的数学模型，并在此基础上对判定邮件所属类别的决策分类方法给出了一定的改进。

1 研究基础介绍研究基础介绍

　　　　1.1 贝叶斯定理贝叶斯定理

　　贝叶斯定理由条件概率和全概率组成，主要用于在已知事件A发生的条件下，判断A是伴随着{B1，B2，…，Br}中哪个事

件发生。E是随机试验，对于E的每一次事件A发生的概率，记为P（A）。设A，B为两个事件，且P（A）>0。如果两个事件A

和B不是相互独立的，并且已知事件B中的一个事件已经发生，则能得到关于P（A）的信息。这反映为A在B中的条件概率，

其计算公式如式（1）所示：

　　P（A）通常称为先验概率，而条件概率P（A|B）称为后验概率。

　　对于一个统计实验，样本空间S是所有可能结果的集合，并且{B1，B2，…，Br}是S的一个划分。令{p（A）；AS}表示定

义在S中所有事件的一个概率分布。式（2）为贝叶斯定理的表示：

　　　1.2 Hadoop平台下邮件流提取和流重组的实现平台下邮件流提取和流重组的实现

　　电子邮件流重组就是对所有五元组中端口为25和110的TCP流进行重组。通过对TCP流序列号的排序重组即可以重组出原

邮件流。在建立TCP连接的三次握手时，发送方和接收方会相互发送TCP头部中的握手报文（即SYN报文，其中SYN=1），

而在结束时会互相发送TCP头部中FIN报文（即FIN报文）。通过获取以上两种报文，可以容易地通过FIN报文与SYN报文的

seq差值与FIN报文大小的和，求出本条TCP流的长度。用来区别不同的TCP流的标志为五元组[4]（即源IP、源端口号、目的

IP、目的端口号、传输层协议），其能够对不同的TCP会话进行区分。Hadoop平台下流提取重组的MapReduce[5]过程如图1

所示。

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38502762

粉丝: 0
资源: 925

Hadoop MapReduce下的贝叶斯垃圾邮件过滤优化

Hadoop 平台相关技术

hadoop平台的关键技术和应用领域。

hadoop平台运维规范

如何搭建hadoop平台

基于Hadoop平台的Hbase数据存储在快递行业的适用性研究国外研究现状

基于Hadoop平台的个性化图书推荐系统的研究

Hadoop平台搭建与数据分析实验小结

大数据 hadoop平台 标书

Hadoop平台是什么

搭建Hadoop平台完成分布式存储

最新资源

大数据 hadoop平台标书