第38卷第10期
计算机科学
V01.38
No.10
2011年10月
Computer
Science
Oct
201l
基于云计算平台Hadoop的并行k-means
聚类算法设计研究
赵卫中1’4
马慧芳孔4
傅燕翔3 史忠植4
(湘潭大学信息工程学院
湘潭411105)1
(西北师范大学数学与信息科学学院
兰州730070)2
(湘潭大学机械工程学院
湘潭411105)3
(中国科学院计算技术研究所智能信息处理重点实验室北京100190)4
摘要随着数据库技术的发展和Internet的迅速普及,实际应用中需要处理的数据量急剧地增长,致聚类研究面临
许多新的问题和挑战,如海量数据和新的计算环境等。深入研究了基于云计算平台Hadoop的并行k-means聚类算
法,给出了算法设计的方法和策略。在多个不同大小数据集上的实验表明,设计的并行聚类算法具有优良的加速比、
扩展率和数据伸缩率等性能,适合用于海量数据的分析和挖掘。
关键词云计算,Hadoop平台,并行bmeans,MapReduce
Research
on
Parallel
k-means
Algorithm
Design
Based
on
Hadoop
Platform
ZHAO
Wei-zhonga’4
MA
Hui—fang’4
FU
Yan-xiang
SHI
Zhong-zhi4
(College
of
Information
Engineering。xiangtan
University,Xiangtan
411105,China)1
(College
of
Mathematics
and
Information.Northwest
Normal
University。Lanzhou
730070。China)2
(College
of
Mechanical
Engineering,Xiangtan
University,Xiangtan
411105,China)3
(Key
Laboratory
of
Intelligent
Information
Processing,Institute
of
Computing
Technology,Chinese
Academy
of
Sciences,Beijing
100190,China)4
Abstract
In
the
past
decades,data
clustering
has been
Studied
extensively
and
a
ITiass
of
methods
and
theories
have
been
achieved.However,with
the
development
of
database
and
popularity
of
Interact,a lot
of
new
challenges
such
as
massive
data
and
new
computing
environment
lie
in
the
research
on
data
clustering.We
conducted
a
deep
research
on
parallel
k-means
algorithm
based
on
Hadoop.which
is
a
new
cloud
computing
platform.We
showed
how
t0
design
paral—
lel
k-means
algorithms
on
Hadoop.Experiments
on
different
size
of
datasets
demonstrate
that
our
proposed
algorithm
shows
good
performance
on
speedup,scaleup
and
sizeup.Thus
it
fits
tO
data
clustering
on
huge
datasets.
K.鄂腻Cloud
computing,Hadoop,Parallel
k-means,MapReduce
1
引言
聚类是数据挖掘中重要的研究课题之一。所谓聚类。就
是将物理或抽象对象的集合组成为由类似的对象组成的多个
类或簇的过程。由聚类生成的簇是一组数据对象的集合,同
一簇中的对象尽可能相似,而不同簇中的对象尽可能相异[J]。
随着数据库技术的成熟和数据应用的普及,商业、企业、科研
机构或者政府部门都积累了大量的、以不同形式存储的数据。
如何存储、处理这些海量数据,以及迸一步从中挖掘出有用
的、可以指导应用的知识,成为~个棘手的问题。在面对海量
数据时,现有的聚类算法在时间复杂性和空间复杂性上遇到
了瓶颈,这也是聚类算法研究领域中亟需解决的问题之一。
解决该问题的一个思路就是将并行处理技术应用到聚类中,
设计出高效的并行聚类算法,来提高聚类算法处理海量数据
时的性能。
云计算作为一种新兴的商业计算模型得到了人们的广泛
关注[2-5]。Hadoop是一个可以更容易开发和并行处理大规模
数据的云计算平台,它的主要特点包括扩容能力强、成本低、
效率高以及可靠性好等。Hadoop平台由两部分组成:Ha—
doop分布式文件系统(HDFs)[6j和MapReduce计算模型”]。
HDFS采用M/S架构,一个HDFS集群是由一个管理节
点(Namenode)和一定数目的数据节点(Datanode)组成,每个
节点均是一台普通PC。在使用上,HDFS与单机上的文件系
统非常类似,同样可以建目录,创建、复制、删除文件,查看文
件内容等。但其底层实现上是把文件切割成块,然后这些块
分散地存储于不同的数据节点上。每个块还可以复制若干
到稿日期:2010-11-01返修日期:2011-03—21
本文受国家自然科学基金(60933004,60975039。61072085).国家973项目(2007CB311004),
西北师范大学青年教师科研能力提升计划骨干项目(NWNU—LKQN一10-1),湘潭大学博士启动基金(10QDZ42),湖南省教育厅一般项目
(09C967)资助.
赵卫中(1981--),男.博士,讲师,主要研究领域为机器学习、数据挖掘、算法分析与设计。E-mail:zhaoweizhong@gnmiL
tom;马慧芳(1981一)。
女,博士,副教授,主要研究领域为机器学习、数据挖掘;傅燕m(1979-),女,讲师,主要研究领域为人机界面交互;史蒯[(1941--),男,研究员,
博士生导师,主要研究领域为人工智能、机器学习、神经计算、认知科学。
·
166·
万方数据