第 61卷 第 4 期
2015年 8 月
武汉大学学报(理学版)
J. Wuhan Univ. (Nat. Sci. E d.)
VoL 61 No. 4
Aug. 2015,368〜 374
D01:10. 14188/j. 1671-8836. 2015. 04. 012
基于云环境K-means聚类的并行算法
高 榕 \ 李 晶 ' 肖雅夫\ 祝孙静\ 彭卫平2
( 1 . 武汉大学计算机学院,湖北武汉,430072;
2 . 武汉大学动力与机械学院,湖北武汉,430072)
摘 要 :K-means聚类算法只能保证算法收敛到局部最优,从而导致聚类结果对初始点的选择非常依赖,同时
在面对海量数据时容易因运算次数增多而使聚类过程耗时增加. 针对 上述 问 题 及 结 合海量数 据 的 特性,本文提出
了一种基于云环境的并行聚类算法,该 算 法利 用Canopy聚 类算法思想并结合二分 查 找 思 想 对K-means算法进行
优 化 ,同时采用“ 极限点” 原则使之避免了聚类过程中的局部最优,然 后利 用 顺序 组合 式 MapReduce编程模型实现
了算法的并行化扩展. 实验结果 表 明:在 大数据集 上 ,该 算 法 比 同 样 部 署在 Hadoop集 群 上 运 行 的 K-means算 法 ,
在加速 比、准确率、扩 展率、算法效率方面具有较大的优势.
关 键 词 :海量 数据 ;聚 类 ;K-means算 法 ;Canopy算 法 ;MapReduce
中图分类号:TP 301 文献标识码:A 文章编号:1671-8836(2015)04-0368-07
Parallel Algorithm Based on K-means Clustering in Cloud Environment
GAO Rong1,LI Jingu ,XIAO Yafu1,ZHU Sunjing1,PENG Weiping2
(1. School of Computer,Wuhan University, Wuhan 430072 , Hubei, China;
2. School of Power and Mechanical, Wuhan University, Wuhan 430072,Hubei, China)
Abstract: K-means clustering algorithm can only guarantee convergence to local optimum, which results in great
dependence on the initial point selection, as well as the additional time consumption in the clustering process due to the
operation number increase in coping with the massive data. To solve the problems in K-means algorithm, and learning
characteristics of data, a parallel clustering algorithm based on cloud computing platform is developed in this thesis.
Considering the principle “Limit p o i n t,,, b a s e d on Canopy algorithm and dichotomy algorithm, the proposed algorithm
globally optimizes efficient clustering the original massive data and avoids the local optimum in the process of cluste
ring. Then it uses sequential combined MapReduce programming framework for parallel programming on the improved algo
rithm. Experiments on large size of dataset demonstrate that our proposed algorithm shows better performance on speed-up
ratio,rate of expansion, and higher accuracy and efficiency than the parallel K-means algorithm on Hadoop does.
Keywords: massive data; cluster; K-means algorithm; Canopy algorithm ; MapReduce
o 引 言
聚 类 [1夂 作 为 数 据 挖 掘 领 域 中 一 种 工 具 已 经 广
泛 的 应 用 于 许 多 领 域 ,包 括 图 像 分 类 、生 物 信 息 学 、
智 能 推 荐 等 . 当 前 ,受 限 于 内 存 容 量 和 内 核 处 理 速
度 ,现 有 聚 类 方 法 用 于 海 量 数 据 处 理 时 ,均 存 在 伸 缩
性 与 扩 展 性 较 差 等 问 题 [3]. 因 此 ,随 着 并 行 计 算 的 快
速 发 展 ,将 云 计 算 技 术 [卜6]与 聚 类 分 析 结 合 ,设 计出
基 于 云 环 境 的 分 布 式 聚 类 算 法 ,从 而 提 高 聚 类 分 析
的 效 率 ,已 经 成 为 当 前 聚 类 算 法 的 研 究 热 点 .
常 用 的 聚 类 算 法 分 为 :划 分 方 法 、层 次 [7]方 法 、
基 于 密 度 [s]的 方 法 、基 于 网 格 [9]的 方 法 .作 为 基 于 划
分 的 聚 类 算 法 的 典 型 代 表 ,K -m eans算 法 [1°'12]具 有
结 构 简 单 、易 于 实 现 等 多 方 面 的 优 点 . 但 是 K-means
算 法 依 然 存 在 如 下 问 题 :1 )在 聚 类 结 果 中 容 易 出 现
局 部 最 优 而 不 是 全 局 最 优 ;2 )聚 类 过 程 中 迭 代 总 次
收稿日期:2014-09-10 t 通信联系人 E-mail: leejingcn@msn. com
基金项目:国家髙技术研究发展计划(863)(2012AA040910),国家自然科学基金(51275362)资助项目
作者简介:髙 榕 ,男,博士生,现从事机器学习、数据挖掘方面的研究. E-mail:gaorongl98149@163. com