云环境下并行K-means聚类算法的性能优化

需积分: 15 132 浏览量更新于2024-08-17 收藏 334KB PDF 举报

本文主要探讨了在云计算环境下，针对K-means聚类算法的局限性，提出了一种新型并行聚类算法。K-means算法由于其收敛到局部最优的问题，使得聚类结果对初始点选择敏感，且在处理大规模数据集时，计算复杂度和时间消耗显著增加。针对这些问题，研究者借鉴了Canopy聚类算法的思想和二分查找策略，对K-means算法进行了优化。Canopy算法通过预筛选减少原始数据集的大小，减少了迭代次数，从而提高了算法的效率。作者们进一步引入了"极限点"原则，这个原则旨在防止算法陷入局部最优，保证全局最优解的可能性。通过这种方法，算法能够更好地处理海量数据，并在保证准确性的同时，避免了对初始点过度依赖的问题。为了实现算法的并行化，文章采用了顺序组合式MapReduce编程模型。MapReduce是一种分布式计算模型，将大数据处理任务分解为多个独立的小任务，分布到多台机器上并行执行，最后汇总结果。这显著加快了聚类过程，特别是在Hadoop集群等大规模分布式环境中。实验结果显示，相较于在Hadoop集群上运行的传统K-means算法，这种基于云环境的并行K-means算法在加速比、准确率、扩展率以及算法效率等方面表现出显著的优势。它不仅能够在处理大数据集时提供更快的聚类速度，而且在处理性能和精度上也有所提升，这对于大数据分析和机器学习领域的实际应用具有重要意义。因此，本文的研究不仅提升了K-means算法的性能，还展示了云计算环境如何通过并行计算技术优化传统算法，使之适应现代数据处理需求，对于推动大数据处理和云计算技术的发展具有重要的理论和实践价值。

第 61卷第 4 期

2015年 8 月

武汉大学学报(理学版）

J. Wuhan Univ. (Nat. Sci. E d.)

VoL 61 No. 4

Aug. 2015，368〜 374

D01：10. 14188/j. 1671-8836. 2015. 04. 012

基于云环境K-means聚类的并行算法

高榕 \ 李晶 ' 肖雅夫\ 祝孙静\ 彭卫平2

( 1 . 武汉大学计算机学院，湖北武汉，430072;

2 . 武汉大学动力与机械学院，湖北武汉，430072)

摘要：K-means聚类算法只能保证算法收敛到局部最优，从而导致聚类结果对初始点的选择非常依赖，同时

在面对海量数据时容易因运算次数增多而使聚类过程耗时增加. 针对上述问题及结合海量数据的特性，本文提出

了一种基于云环境的并行聚类算法，该算法利用Canopy聚类算法思想并结合二分查找思想对K-means算法进行

优化，同时采用“ 极限点” 原则使之避免了聚类过程中的局部最优，然后利用顺序组合式 MapReduce编程模型实现

了算法的并行化扩展. 实验结果表明：在大数据集上，该算法比同样部署在 Hadoop集群上运行的 K-means算法，

在加速比、准确率、扩展率、算法效率方面具有较大的优势.

关键词：海量数据；聚类；K-means算法；Canopy算法；MapReduce

中图分类号：TP 301 文献标识码：A 文章编号：1671-8836(2015)04-0368-07

Parallel Algorithm Based on K-means Clustering in Cloud Environment

GAO Rong1，LI Jingu ，XIAO Yafu1，ZHU Sunjing1，PENG Weiping2

(1. School of Computer，Wuhan University, Wuhan 430072 , Hubei, China；

2. School of Power and Mechanical, Wuhan University, Wuhan 430072，Hubei, China)

Abstract： K-means clustering algorithm can only guarantee convergence to local optimum, which results in great

dependence on the initial point selection, as well as the additional time consumption in the clustering process due to the

operation number increase in coping with the massive data. To solve the problems in K-means algorithm, and learning

characteristics of data, a parallel clustering algorithm based on cloud computing platform is developed in this thesis.

Considering the principle “Limit p o i n t，，， b a s e d on Canopy algorithm and dichotomy algorithm, the proposed algorithm

globally optimizes efficient clustering the original massive data and avoids the local optimum in the process of cluste

ring. Then it uses sequential combined MapReduce programming framework for parallel programming on the improved algo

rithm. Experiments on large size of dataset demonstrate that our proposed algorithm shows better performance on speed-up

ratio，rate of expansion, and higher accuracy and efficiency than the parallel K-means algorithm on Hadoop does.

Keywords: massive data； cluster； K-means algorithm; Canopy algorithm ； MapReduce

o 引言

聚类 [1夂作为数据挖掘领域中一种工具已经广

泛的应用于许多领域，包括图像分类、生物信息学、

智能推荐等 . 当前，受限于内存容量和内核处理速

度，现有聚类方法用于海量数据处理时，均存在伸缩

性与扩展性较差等问题 [3]. 因此，随着并行计算的快

速发展，将云计算技术 [卜6]与聚类分析结合，设计出

基于云环境的分布式聚类算法，从而提高聚类分析

的效率，已经成为当前聚类算法的研究热点 .

常用的聚类算法分为：划分方法、层次 [7]方法、

基于密度 [s]的方法、基于网格 [9]的方法 .作为基于划

分的聚类算法的典型代表，K -m eans算法 [1°'12]具有

结构简单、易于实现等多方面的优点 . 但是 K-means

算法依然存在如下问题：1 )在聚类结果中容易出现

局部最优而不是全局最优；2 )聚类过程中迭代总次

收稿日期：2014-09-10 t 通信联系人 E-mail: leejingcn@msn. com

基金项目：国家髙技术研究发展计划（863)(2012AA040910)，国家自然科学基金（51275362)资助项目

作者简介：髙榕，男，博士生，现从事机器学习、数据挖掘方面的研究. E-mail:gaorongl98149@163. com

下载后可阅读完整内容，剩余6页未读，立即下载

weixin_38680247

粉丝: 4
资源: 922

云环境下并行K-means聚类算法的性能优化

k-means聚类算法及matlab代码-CS205_final_project:使用OpenMP，MPI和CUDA进行并行集群

k-means_openmp_并行_cuda_k-means算法_

基于python的K-Means聚类算法设计与实现

在聚类分析算法中为什么要选用K-MEANS聚类分析

k-means聚类算法python优化

k-means聚类并行化

k-means聚类算法的优点

k-means聚类算法优化

k-means聚类算法的优化

k-means聚类时间复杂度

最新资源