并行化K-means改进算法在大数据聚类中的应用

研究论文

53 浏览量更新于2024-08-26 收藏 543KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

"一种K-means改进算法的并行化实现与应用" 本文是一篇研究论文，主要讨论了如何应对大数据环境下K-means聚类算法的挑战。K-means算法是一种广泛应用的无监督学习方法，用于将数据集分割成K个簇，但其对初始中心点的选择敏感，可能导致收敛到局部最优解，且处理大规模数据时计算效率较低。针对这些问题，作者提出了一种基于Hadoop的分布式改进K-means算法。首先，论文引入Canopy算法来优化K-means的初始化阶段。Canopy算法是一种快速聚类方法，能够快速粗略地预处理数据，找出潜在的簇结构，并生成初步的聚类中心。通过Canopy算法，可以减少K-means算法因初始中心选择不当导致的局部最优问题，提高聚类的稳定性。然后，作者结合MapReduce编程模型，实现了算法的并行化。MapReduce是一种用于处理和生成大数据集的编程模型，它将数据处理任务分解为“映射”（Map）和“化简”（Reduce）两个阶段。在映射阶段，数据被切分并在多个节点上并行处理；在化简阶段，结果进行整合。这种并行化策略使得改进后的K-means算法能够在分布式环境中高效运行，显著提升了处理大规模数据的能力。此外，论文还对相似度度量方法进行了改进，使其适应于文本聚类。在文本数据中，相似度度量通常涉及到词频、TF-IDF等特征。改进的相似度度量方法可能涉及更复杂的语义理解或上下文分析，以提高聚类的准确性。实验结果表明，提出的并行化改进K-means算法不仅在聚类准确率上有良好表现，而且具备良好的扩展性，能够有效处理海量数据。这为大数据环境下的聚类问题提供了一个可行且高效的解决方案，尤其适用于需要快速聚类和高精度结果的应用场景。关键词涉及：Canopy算法、Hadoop、MapReduce、并行K-means以及文本聚类，表明了该研究的主要技术路线和应用领域。文章的发表对于理解并解决大数据中的聚类问题具有重要的理论和实践意义。

资源详情

资源推荐

第 46 卷第 1 期电子科技大学学报 Vol.46 No.1

2017年1月 Journal of University of Electronic Science and Technology of China Jan. 2017

一种K-means改进算法的并行化实现与应用

李晓瑜

，俞丽颖

，雷航

，唐雪飞

1,2

(1. 电子科技大学信息与软件工程学院成都 610054；2. 成都康赛信息技术有限公司成都 610054)

【摘要】随着数据的爆炸式增长，聚类研究作为大数据的核心问题之一，正面临计算复杂度高和计算能力不足等诸多问

题。提出了一种基于Hadoop的分布式改进K-means算法，该算法通过引入Canopy算法初始化K-means算法的聚类中心，克服传

统K-means算法因初始中心点的不确定性，易陷入局部最优解的问题。本算法在Canopy(罩盖)中完成K-means聚类，并在Canopy

间完成簇的合并，聚类效果稳定，迭代次数少。同时，结合MapReduce分布式计算模型，给出改进后算法的并行化设计方法

和策略，进一步通过改进相似度度量方法，将该方法用于文本聚类中。实验结果证明该算法具有良好的准确率和扩展性。

关键词 canopy算法; hadoop; mapreduce; 并行k-means; 文本聚类

中图分类号 TP311 文献标志码 A doi:10.3969/j.issn.1001-0548.2017.01.001

The Parallel Implementation and Application of an Improved K-means

Algorithm

LI Xiao-yu

,YU Li-ying

, LEI Hang

, and TANG Xue-fei

1,2

(1.School of Information and Software Engineering, University of Electronic Science and Technology of China Chengdu 610054;

2. Chengdu COMSYS Information Tech. Co., Ltd Chengdu 610054)

Abstract Following with the growth of massive data, clustering research , as one of the core problems of big

data, is faced with more and more problems such as high computing complexity and lack of resource. It has

proposed an improved parallel K-means algorithm based on Hadoop. To overcome the problem that the traditional

K-means algorithm often has local optimal solution due to the randomness choose of initial center, we introduce

Canopy algorithm to initialize clustering center and apply K-means algorithm on canopy. Meanwhile, clusters are

merged among canopies. The result is stable and iteration number is less. Meanwhile, it presents methods and

strategies of the improved algorithm, combined with the distributed computing model of MapReduce. Furthermore,

we introduce a new method of text clustering by improving the similarity of measurement. The experiment results

indicate the validity and scalability of our method.

Key words canopy algorithm; hadoop; mapreduce; parallel k-means; text clustering

收稿日期：

2015 − 06 − 03；修回日期：215 − 12 − 09

基金项目：国家科技支撑计划项目(2012BAH87F03)；中央高校基本科研业务费(ZYGX2014J065)

作者简介：李晓瑜(1984 − )，女，博士，主要从事大数据分析与应用、量子计算和量子信息等方面的研究.

随着计算机和存储技术的快速发展，在商业、

社会、工程和医学等各方面都会产生大规模的数据，

人们开始关注如何对大规模的海量数据进行分析和

科学研究，进而辅助商业决策和企业管理，高效地

发现隐藏在数据中的有用知识。因此，对海量数据

的挖掘得到了广泛的研究和关注。

聚类分析是数据挖掘领域最重要的研究方向之

一。“物以类聚，人以群分”，聚类算法是将物理或

抽象的对象分成相似对象集合的过程。簇是数据对

象的集合，同一簇中的对象彼此相似，而与其他簇

中的对象相异

[1-2]

。与其他数据挖掘方法相比，聚类

不需要先验知识，就可以完成数据的分类。聚类算法

可以分为基于划分的、密度的、模型的等多种类型

[3]

。

在基于划分的聚类算法中，K-means算法被广泛

使用，它具有算法数学思想简单、收敛速度快且易

于实现等多种优点

[4]

，但存在需要事先制定聚类个

数，以及由于中心点选择的随机性而易陷入局部最

优解的问题。随着数据量的增大，传统的K-means

算法在对海量数据集进行分析时，已经很难满足现

实需要。针对传统K-means算法的缺点，已有很多学

者在K-means的基础上提出了改进措施。文献[5]针

对初始聚类中心选择的问题，提出了一种基于最优

划分的聚类中心选择算法，该算法通过对数据集进

行初始划分，确定K-means的初始中心，提高了聚类

下载后可阅读完整内容，剩余8页未读，立即下载

weixin_38646706

粉丝: 4
资源: 1005

并行化K-means改进算法在大数据聚类中的应用

基于Spark的K-means算法的并行化实现与优化1

基于python的K-Means聚类算法设计与实现

k-means并行算法简述

k-means聚类算法python优化

k-means聚类算法优化

写一个改良的k-means算法

k-means聚类算法的优化

在聚类分析算法中为什么要选用K-MEANS聚类分析

k-means未来发展趋势

K-means算法优缺点

并行程序设计k-means

k-means聚类分析的优势

mapreduce实现k-means

利用mapreduce实现k-means

python Kmeans重要参数

openmp实现kmeans

详细解释多核kmeans聚类的公式

介绍一下sklearn中kmeans的函数，并解释一下各个参数的作用

kmeans聚类算法的优点

最新资源