第 34 卷 第 3 期
2014 年 8 月
桂 林 理 工 大 学 学 报
Journal of Guilin University of Technology
Vol34 No3
Aug 2014
文章编号:1674 -9057(2014)03 -0584 -05 doi:103969 /j.issn1674 -9057201403030
基于 Hadoop 的 Apriori 算法与实现
孙赵旭
a
,谢晓兰,周国清
b
,倪金生
b
,胡 莘
b
(桂林理工大学 a信息科学与工程学院;b广西空间信息与测绘重点实验室,广西 桂林 541004)
摘 要:针对传统 Aprion 数据挖掘算法平台的硬件瓶颈以及算法运算耗时、需要重复扫描数据库等缺点,
提出了一种基于 Hadoop 平台应用 MapReduce 模型与 Hbase,对 Apriori 进行云端的迁移和优化的算法,并
与其他的改进 Apriori 算法进行了分析与比较。实验结果表明:新的云端算法降低了时间复杂度,使其可
以更好的进行数据处理。
关键词:数据挖掘;云计算;Hadoop;Hbase;MapReduce;Apriori
中图分类号:TP393;TP31 113 文献标志码:A
目前,传统的数据挖掘模型已不适用于多维
度、多噪声的海量 GIS 数据,由于传统的挖掘平
台自身在计算处理能力上具有局限性,同时,平
台在硬件方面遇到瓶颈,而在挖掘算法方面又遇
到软件性能制约
[1]
,因此,研究一种新的 GIS 海
量数据的挖掘平台和高效的数据挖掘实现模型是
当前急需解决的问题。云计算和新的并行编程模
式 MapReduce 的出现
[2]
,为上述问题的解决提供
了基础。云计算具有快速与弹性的资源配给的特
点,这为数据 处 理带来了 新 型低成本计 算 环境,
可以很容易组建一个有着强大计算能力 的平台,
为海量数据分析提供强大的计算力
[3]
。
1 Hadoop 平台、Hbase 以及 Apriori 算法
1 1 Hadoop 简介
Hadoop 是 Apache 软件基金会开发的、开源分
布式基础系统架构,它的特点是可以使分布式计
算平台的开发更加容易,使其方便并行处理大规
模数据。它使用 Java 语言进行开发,可以广泛地
移植到各种软硬件平台上。Hadoop 的子项目众多,
其中运用最多 的就是 大 名 鼎鼎的 HDFS (hadoop
distributed file system )、 MapReduce 和 Hbase
[4]
,
这 3 项组成了 Hadoop 的技术架构 (图 1)。
图 1 Hadoop 的技术架构
Fig1 Technical architecture for Hadoop
MapReduce 的主要思想是从函数式编程语言
里借鉴来的,它包含 2 个重要函数:Map (映射)
函数和 Reduce (化简) 函数。Map 函数由用户自
己定义,它接受一个输入对,之后会生成一个中
间的 KeyValue 对集,之后 MapReduce 库会把其中
具有相同的 Key 的中间值 Combine (连接) 在一
起,之后再传递给 Reduce 函数 (它也是用户自定
义的)。Reduce 函数会接受中间 Key 和其相关的
Value 集,再将其合并 Value 使之成为更小的 Value
集
。
收稿日期:2013 -03 -16
基金项目:国家高技术研究发展计划项目 (2013AA12A402);广西自然科学基金项目 (2013jjAA70124);广西空间信息与测
绘重点实验室基金项目 (桂科能 1103108 -25;桂科能 1207115 -13)
作者简介:孙赵旭 (1987—),男,硕士,研究方向:云计算。
通讯作者:谢晓兰,博士,教授,xie_xiao_lan@foxmailcom。
引文格式:孙赵旭,谢晓兰,周国清,等.基于 Hadoop 的 Apriori 算法与实现 [J].桂林理工大学学报,2014,34 (3):584
-588.