Hadoop支持的MapReduce贝叶斯过滤模型提升邮件处理效率

需积分: 0 4 浏览量更新于2024-08-05 收藏 299KB PDF 举报

基于Hadoop的贝叶斯过滤MapReduce模型是一种创新性的解决方案，针对传统分布式大型邮件系统在处理海量邮件时所面临的挑战。这些挑战主要包括编程复杂性高、处理效率低下以及前期训练所需的大量资源。为解决这些问题，研究者们将传统的贝叶斯过滤算法进行了并行化的改造，引入了云计算的强大计算能力，特别是利用了MapReduce模型，该模型在大数据处理方面具有显著的优势。 MapReduce是一种分布式计算模型，它将复杂的任务分解成一系列的子任务，然后在多台机器上并行执行，最终汇总结果。Hadoop是Apache基金会开发的一个开源框架，提供了分布式文件系统HDFS（Hadoop Distributed File System）和MapReduce计算模型，特别适合于大规模数据处理。通过将贝叶斯过滤算法与Hadoop结合，可以有效地分发和处理邮件过滤任务，降低了单机系统的压力，提高了系统的扩展性和容错性。在这一模型中，邮件的训练和过滤过程被优化，通过并行化处理，能够更快速地对海量邮件进行分类，判断其是否为垃圾邮件。实验结果显示，相比于传统的分布式计算方法，基于Hadoop的贝叶斯过滤MapReduce模型在召回率、查准率和精确率等多个关键指标上表现优异，这意味着它在保证准确度的同时，显著减少了邮件过滤的成本，并显著提升了系统的执行效率。此外，该研究还得到了国家“863”计划基金、国家自然科学基金和南京航空航天大学基本科研业务费专项基金的支持，显示出其在学术界和工业界的双重价值。作者团队由曾青华、袁家斌教授和张云洲硕士组成，他们的合作展示了云计算技术在实际应用中的深度集成和优化。基于Hadoop的贝叶斯过滤MapReduce模型是一项重要的技术创新，它为大规模邮件系统提供了一种高效、易编程且资源节约的解决方案，对于提升邮件过滤系统的整体性能和可持续发展具有重要意义。

————————————

基金项目

基金项目基金项目

基金项目：

：：

：国家“863”计划基金资助项目(2009AA044601)；国家自然科学基金资助重点项目(61139002)；南京航空航天大学基本科

研业务费专项基金资助项目(NS2010230)

作者简介

作者简介作者简介

作者简介：

：：

：曾青华(1987－)，女，硕士，主研方向：云计算，并行计算；袁家斌，教授、博士、博士生导师；张云洲，硕士

收稿日期

收稿日期收稿日期

收稿日期：

：：

：2012-10-15 修回日期

修回日期修回日期

修回日期：

：：

：2013-01-01 E-mail：

：：

：zeng_qh@126.com

基于

基于基于

基于

Hadoop

的贝叶斯过滤

的贝叶斯过滤的贝叶斯过滤

的贝叶斯过滤

MapReduce

模型

模型模型

模型

曾青华

曾青华曾青华

曾青华，

，，

，袁家斌

袁家斌袁家斌

袁家斌，

，，

，张云洲

张云洲张云洲

张云洲

(南京航空航天大学计算机科学与技术学院，南京 210016)

摘

摘摘

摘要

要要

要：

：：

：传统分布式大型邮件系统对海量邮件的过滤存在编程难、效率低、前期训练耗用资源大等缺点，为此，对传统贝叶斯过

滤算法进行并行化改进，利用云计算 MapReduce 模型在海量数据处理方面的优势，设计一种基于 Hadoop 开源云架构的贝叶斯邮

件过滤 MapReduce 模型，优化邮件的训练和过滤过程。实验结果表明，与传统分布式计算模型相比，该模型在召回率、查准率和

精确率方面性能较好，同时可降低邮件过滤成本，提高系统执行效率。

关键词

关键词关键词

关键词：

：：

：云计算；MapReduce 模型；Hadoop 架构；贝叶斯算法；垃圾邮件；反垃圾邮件过滤

Hadoop-based MapReduce Model of Bayesian Filtering

ZENG Qing-hua, YUAN Jia-bin, ZHANG Yun-zhou

(School of Computer Science and Technology, Nanjing University of Aeronautics and Astronautics, Nanjing 210016, China)

【

【【

【Abstract】

】】

】There are some disadvantages of mass mail filtering for large mail systems on the traditional distributed system including

programming difficulties, low efficiency, mass system and network resources consumed. Taking advantage of the high performance of the

cloud computing in processing data processing effectively, a MapReduce model of Bayesian mail filtering based on Hadoop is proposed. It

improves the traditional Bayesian filtering algorithms and optimizes the mail training and filtering processes. Experimental results show

that, compared with traditional distributed computing model, the Hadoop-based MapReduce model of Bayesian anti-spam mail filtering

performs better in recall, precision and accuracy, reduces the cost of mail learning and classifying and improves the system efficiency.

【

【【

【Key words】

】】

】cloud computing; MapReduce model; Hadoop framework; Bayesian algorithm; spam mail; anti-spam mail filtering

DOI: 10.3969/j.issn.1000-3428.2013.11.012

计算机工程

Computer Engineering

第 39 卷第 11 期

Vol.39 No.11

2013 年 11 月

November 2013

··

·先进计算与数据处理

先进计算与数据处理先进计算与数据处理

先进计算与数据处理·

··

文章编号

文章编号文章编号

文章编号：

：：

：1000—

——

—3428(2013)11—

——

—0057—

——

—04

文献标识码

文献标识码文献标识码

文献标识码：

：：

：A

中图分类号

中图分类号中图分类号

中图分类号：

：：

：TP338.6

概述

概述概述

概述

随着

Inernet

数据规模的增加和应用类型的丰富，海量

数据的存储和分析处理给传统的系统框架带来巨大的挑

战。云计算的出现和发展，打破了传统分布式垃圾邮件过

滤系统的固有模式，新型分布式并行编程模型的提出，为

海量数据计算处理提供了新的思路。

本文以垃圾邮件过滤问题为背景对云计算的

MapReduce

模型进行研究。现有的邮件过滤产品，主要采用贝叶斯算

法、黑白名单、基于关键词和规则等

[1-2]

技术在传统分布式

计算系统中进行实现，普遍存在集中管理难、成本高、维

护困难、重复建设等问题

[3]

。其中，贝叶斯邮件过滤技术是

一种基于内容统计的过滤技术，具有较强的文本分类能力

和较高的准确性。但在传统分布式实现中，前期由大量垃

圾邮件和合法邮件组成的样本集的训练过程，占用较多的

系统资源和网络资源

[4-5]

。文献

[6]

利用粗糙集

(Rough Set, RS)

在处理不精确、不一致及不完备信息问题的有效性，提出

了基于

Rough Set

的加权朴素贝叶斯分类算法，克服了朴素

贝叶斯分类中的条件独立性假设问题。文献

[7]

提出一种最

小风险的贝叶斯决策，根据误判与漏判之间的代价比值，

设定阈值，进行分类决策，即根据计算得到邮件的后验概

率，采用人为设定概率阈值的方法进行分类决策。文献

[8]

提出一种新型的最小风险的贝叶斯决策，从直线几何分割

的角度改进了贝叶斯邮件分类决策模型，并定义了新的风

险因子，但仍然是一种基于概率阈值的分类决策。

本文设计并实现一种基于

Hadoop

开源云架构的分布

式贝叶斯邮件过滤

MapReduce

编程模型，一方面对传统贝

叶斯过滤算法进行并行化改进，另一方面利用

MapReduce

模型在海量数据处理方面的优势优化邮件样本集的训练过

程与待过滤邮件的过滤过程。

研究背景

研究背景研究背景

研究背景

2.1 Hadoop

云计算

云计算云计算

云计算

云计算是网格计算、分布式计算、并行计算等传统计

下载后可阅读完整内容，剩余3页未读，立即下载

郭逗

粉丝: 33

Hadoop支持的MapReduce贝叶斯过滤模型提升邮件处理效率

基于Hadoop的朴素贝叶斯分类(MapReduce实现).zip

基于hadoop的朴素贝叶斯分类器

基于Hadoop和MapReduce实现的朴素贝叶斯分类器源码+项目说明.zip

基于hadoop/MapReduce分布式架构的朴素贝叶斯分类器+源代码+文档说明

基于Hadoop实现的朴素贝叶斯分类(MapReduce实现)+源代码+文档说明+数据集

Hadoop与MapReduce课程设计Java基于朴素贝叶斯的文本分类器项目源代码+课程设计报告

Hadoop2.0下MapReduce实现朴素贝叶斯算法源码解析

基于Hadoop实现贝叶斯分类器教程

Hadoop MapReduce下的贝叶斯垃圾邮件过滤优化

基于贝叶斯网络和MapReduce的社交网络用户相似性发现方法

最新资源