
————————————
基金项目
基金项目基金项目
基金项目:
::
:国家“863”计划基金资助项目(2009AA044601);国家自然科学基金资助重点项目(61139002);南京航空航天大学基本科
研业务费专项基金资助项目(NS2010230)
作者简介
作者简介作者简介
作者简介:
::
:曾青华(1987-),女,硕士,主研方向:云计算,并行计算;袁家斌,教授、博士、博士生导师;张云洲,硕士
收稿日期
收稿日期收稿日期
收稿日期:
::
:2012-10-15 修回日期
修回日期修回日期
修回日期:
::
:2013-01-01 E-mail:
::
:zeng_qh@126.com
基于
基于基于
基于
Hadoop
的贝叶斯过滤
的贝叶斯过滤的贝叶斯过滤
的贝叶斯过滤
MapReduce
模型
模型模型
模型
曾青华
曾青华曾青华
曾青华,
,,
,袁家斌
袁家斌袁家斌
袁家斌,
,,
,张云洲
张云洲张云洲
张云洲
(南京航空航天大学计算机科学与技术学院,南京 210016)
摘
摘摘
摘 要
要要
要:
::
:传统分布式大型邮件系统对海量邮件的过滤存在编程难、效率低、前期训练耗用资源大等缺点,为此,对传统贝叶斯过
滤算法进行并行化改进,利用云计算 MapReduce 模型在海量数据处理方面的优势,设计一种基于 Hadoop 开源云架构的贝叶斯邮
件过滤 MapReduce 模型,优化邮件的训练和过滤过程。实验结果表明,与传统分布式计算模型相比,该模型在召回率、查准率和
精确率方面性能较好,同时可降低邮件过滤成本,提高系统执行效率。
关键词
关键词关键词
关键词:
::
:云计算;MapReduce 模型;Hadoop 架构;贝叶斯算法;垃圾邮件;反垃圾邮件过滤
Hadoop-based MapReduce Model of Bayesian Filtering
ZENG Qing-hua, YUAN Jia-bin, ZHANG Yun-zhou
(School of Computer Science and Technology, Nanjing University of Aeronautics and Astronautics, Nanjing 210016, China)
【
【【
【Abstract】
】】
】There are some disadvantages of mass mail filtering for large mail systems on the traditional distributed system including
programming difficulties, low efficiency, mass system and network resources consumed. Taking advantage of the high performance of the
cloud computing in processing data processing effectively, a MapReduce model of Bayesian mail filtering based on Hadoop is proposed. It
improves the traditional Bayesian filtering algorithms and optimizes the mail training and filtering processes. Experimental results show
that, compared with traditional distributed computing model, the Hadoop-based MapReduce model of Bayesian anti-spam mail filtering
performs better in recall, precision and accuracy, reduces the cost of mail learning and classifying and improves the system efficiency.
【
【【
【Key words】
】】
】cloud computing; MapReduce model; Hadoop framework; Bayesian algorithm; spam mail; anti-spam mail filtering
DOI: 10.3969/j.issn.1000-3428.2013.11.012
计 算 机 工 程
Computer Engineering
第 39 卷 第 11 期
Vol.39 No.11
2013 年 11 月
November 2013
·
··
·先进计算与数据处理
先进计算与数据处理先进计算与数据处理
先进计算与数据处理·
··
·
文章编号
文章编号文章编号
文章编号:
::
:1000—
——
—3428(2013)11—
——
—0057—
——
—04
文献标识码
文献标识码文献标识码
文献标识码:
::
:A
中图分类号
中图分类号中图分类号
中图分类号:
::
:TP338.6
1
概述
概述概述
概述
随着
Inernet
数据规模的增加和应用类型的丰富,海量
数据的存储和分析处理给传统的系统框架带来巨大的挑
战。云计算的出现和发展,打破了传统分布式垃圾邮件过
滤系统的固有模式,新型分布式并行编程模型的提出,为
海量数据计算处理提供了新的思路。
本文以垃圾邮件过滤问题为背景对云计算的
MapReduce
模型进行研究。现有的邮件过滤产品,主要采用贝叶斯算
法、黑白名单、基于关键词和规则等
[1-2]
技术在传统分布式
计算系统中进行实现,普遍存在集中管理难、成本高、维
护困难、重复建设等问题
[3]
。其中,贝叶斯邮件过滤技术是
一种基于内容统计的过滤技术,具有较强的文本分类能力
和较高的准确性。但在传统分布式实现中,前期由大量垃
圾邮件和合法邮件组成的样本集的训练过程,占用较多的
系统资源和网络资源
[4-5]
。文献
[6]
利用粗糙集
(Rough Set, RS)
在处理不精确、不一致及不完备信息问题的有效性,提出
了基于
Rough Set
的加权朴素贝叶斯分类算法,克服了朴素
贝叶斯分类中的条件独立性假设问题。文献
[7]
提出一种最
小风险的贝叶斯决策,根据误判与漏判之间的代价比值,
设定阈值,进行分类决策,即根据计算得到邮件的后验概
率,采用人为设定概率阈值的方法进行分类决策。文献
[8]
提出一种新型的最小风险的贝叶斯决策,从直线几何分割
的角度改进了贝叶斯邮件分类决策模型,并定义了新的风
险因子,但仍然是一种基于概率阈值的分类决策。
本文设计并实现一种基于
Hadoop
开源云架构的分布
式贝叶斯邮件过滤
MapReduce
编程模型,一方面对传统贝
叶斯过滤算法进行并行化改进,另一方面利用
MapReduce
模型在海量数据处理方面的优势优化邮件样本集的训练过
程与待过滤邮件的过滤过程。
2
研究背景
研究背景研究背景
研究背景
2.1 Hadoop
云计算
云计算云计算
云计算
云计算是网格计算、分布式计算、并行计算等传统计