Flink优化的CK-means：大数据并行聚类加速与性能提升

需积分: 10 21 浏览量更新于2024-08-13 1 收藏 1.38MB PDF 举报

在大数据时代，K-means算法因其简单高效而被广泛应用，但其在处理大规模数据集时面临两个主要挑战：一是容易陷入局部最优解，二是聚类速度相对较慢。针对这些问题，本文提出了一个改进的CK-means优化及并行策略，该策略结合了Flink平台的优势。首先，从算法优化的角度，作者引入了Canopy算法来解决初始化质心的问题。Canopy算法是一种预分层的方法，它通过快速的层次聚类先确定一个大概的聚类数目k，这样可以避免K-means在不知k值的情况下盲目搜索，从而减少了算法陷入局部最优的可能性。选取合适的初始质心有助于提高整体聚类结果的质量。其次，文章着重探讨了在Flink平台上实现的并行化加速策略。Flink作为一个流处理框架，非常适合处理实时或批处理的大数据场景。作者设计了一种专门针对CK-means的并行化策略，通过将数据集分割成多个子集，每个子集在不同的计算节点上独立执行，大大提高了聚类的速度。同时，他们对不同的并行度进行了深入分析，以了解并行化对计算耗时的影响，发现随着并行度的增加，聚类速度起初会显著提升，但当超过某个阈值后，由于通信开销等因素，计算耗时可能会有所增加。实验部分展示了改进后的CK-means算法相对于原始K-means在性能上的显著提升。在Iris数据集上，算法的准确率与迭代次数的比值提高44.79%，在Wine数据集上提升了32.03%，这表明优化策略有效改善了算法的效率和精度。此外，实验还证实了不同并行度下，CK-means的聚类耗时呈现出先降后升的趋势，最小聚类耗时与数据集大小成正相关，这意味着在合适并行度下，可以有效地利用硬件资源，实现更好的性能。本文的工作在大数据背景下对K-means算法进行了重要的优化和并行化处理，为实际应用中的大规模数据聚类提供了一种有效且高效的解决方案。这不仅提升了算法的性能，也为其在实时数据处理和分布式计算环境中的广泛应用奠定了基础。

收稿日期：２０１９０８３０；修回日期：２０１９０９２１　　基金项目：国家自然科学基金资助项目（６１９６６０３５，６１５６２０８６）；新疆维吾尔自治区教育

厅创新团队项目（

ＸＪＥＤＵ２０１６Ｓ０３５）

作者简介：赵鑫（１９９４），男，河南新乡人，硕士研究生，主要研究方向为数据挖掘；汪丽娟（１９９４），女，甘肃定西人，硕士研究生，主要研究方向

为流式数据处理；行艳妮（１９９４），女，陕西渭南人，硕士研究生，主要研究方向为数据挖掘；赵邁（１９９３），女，新疆克拉玛依人，硕士研究生，主要研

究方向为时空数据索引、遥感图像处理；赵京霞（１９９５），女（满族），内蒙古锡林浩特人，硕士研究生，主要研究方向为图像处理；钱育蓉（１９８０），女

（通信作者）（满族），山东德州人，教授，博士，主要研究方向为网络计算和遥感图像处理（ｑｙｒ＠ｘｊｕ．ｅｄｕ．ｃｎ）．

改进的ＣＫｍｅａｎｓ优化及并行策略



赵　鑫

１

，汪丽娟

１

，行艳妮

１

，赵　邁

２

，赵京霞

１

，钱育蓉

１

（１．新疆大学软件学院，乌鲁木齐８３００９１；２．新疆大学信息科学与工程学院，乌鲁木齐８３００４６）

摘　要：针对大数据背景下Ｋｍｅａｎｓ存在选取质心导致的局部最优解、聚类速度慢的问题，提出一种Ｆｌｉｎｋ平台

下的ＣＫｍｅａｎｓ聚类优化及并行策略。从算法优化层面，采用Ｃａｎｏｐｙ算法确定聚类数目ｋ并选取初始质心；从

并行化加速层面，基于

Ｆｌｉｎｋ平台设计了一种面向ＣＫｍｅａｎｓ的并行加速策略，并分析不同并行度对计算耗时的

影响。经实验，相较于

Ｋｍｅａｎｓ算法，ＣＫｍｅａｎｓ算法的准确率与迭代次数间的比值更高，算法性能更优，在ｉｒｉｓ

数据集中性能比提升４４．７９％，在ｗｉｎｅ数据集中性能比提升３２．０３％；同时证明了不同并行度下ＣＫｍｅａｎｓ算法

的聚类耗时呈现先下降后上升的趋势，其聚类耗时的最小值与数据集的大小相关。

关键词：大数据；加速策略；内存计算；并行化；聚类算法

中图分类号：ＴＰ３９１　　　文献标志码：Ａ　　　文章编号：１００１３６９５（２０２０）１１０１７３２８７０５

ｄｏｉ：１０．１９７３４／ｊ．ｉｓｓｎ．１００１３６９５．２０１９．０８．０２８４

ＯｐｔｉｍｉｚａｔｉｏｎａｎｄｐａｒａｌｌｅｌｓｔｒａｔｅｇｙｏｆｉｍｐｒｏｖｅｄＣＫｍｅａｎｓ

ＺｈａｏＸｉｎ

１

，ＷａｎｇＬｉｊｕａｎ

１

，ＸｉｎｇＹａｎｎｉ

１

，ＺｈａｏＹｉ

２

，ＺｈａｏＪｉｎｇｘｉａ

１

，ＱｉａｎＹｕｒｏｎｇ

１

（１．ＣｏｌｌｅｇｅｏｆＳｏｆｔｗａｒｅ，ＸｉｎｊｉａｎｇＵｎｉｖｅｒｓｉｔｙ，Ｕｒｕｍｑｉ８３００９１，Ｃｈｉｎａ；２．ＣｏｌｌｅｇｅｏｆＩｎｆｏｒｍａｔｉｏｎＳｃｉｅｎｃｅ＆Ｅｎｇｉｎｅｅｒｉｎｇ，ＸｉｎｊｉａｎｇＵｎｉｖｅｒｓｉｔｙ，

Ｕｒｕｍｑｉ８３００４６，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：Ｕｎｄｅｒｔｈｅｂａｃｋｇｒｏｕｎｄｏｆｂｉｇｄａｔａ，Ｋｍｅａｎｓｈａｓｌｏｃａｌｏｐｔｉｍｕｍｓｏｌｕｔｉｏｎａｎｄｓｌｏｗｃｌｕｓｔｅｒｉｎｇｓｐｅｅｄｃａｕｓｅｄｂｙｃｈｏｏ

ｓｉｎｇｃｅｎｔｒｏｉｄ．ＴｈｅｐａｐｅｒｄｅｖｅｌｏｐｅｄａｎｅｗｃｌｕｓｔｅｒｉｎｇｏｐｔｉｍｉｚａｔｉｏｎａｎｄｐａｒａｌｌｅｌａｌｇｏｒｉｔｈｍＣＫｍｅａｎｓｂａｓｅｄｏｎＫｍｅａｎｓ．Ｆｏｒａｌｇｏ

ｒｉｔｈｍｏｐｔｉｍｉｚａｔｉｏｎ

，Ｃａｎｏｐｙａｌｇｏｒｉｔｈｍｃｏｕｌｄｄｅｔｅｒｍｉｎｅｔｈｅｎｕｍｂｅｒｏｆｃｌｕｓｔｅｒｓｋａｎｄｓｅｌｅｃｔｔｈｅｉｎｉｔｉａｌｃｅｎｔｒｏｉｄ．Ｆｏｒｐａｒａｌｌｅｌｉｚａｔｉｏｎ

ａｃｃｅｌｅｒａｔｉｏｎ，ＦｌｉｎｋｐｌａｔｆｏｒｍｃｏｕｌｄｈｅｌｐｔｏｄｅｓｉｇｎａｐａｒａｌｌｅｌａｃｃｅｌｅｒａｔｉｏｎｓｔｒａｔｅｇｙｆｏｒＣＫｍｅａｎｓ．Ｉｔａｌｓｏｃｏｕｌｄａｎａｌｙｚｅｔｈｅｉｍｐａｃｔ

ｏｆｄｉｆｆｅｒｅｎｔｐａｒａｌｌｅｌｉｓｍｄｅｇｒｅｅｓｏｎｃｏｍｐｕｔｉｎｇｔｉｍｅｃｏｎｓｕｍｉｎｇ．ＥｘｐｅｒｉｍｅｎｔｓｓｈｏｗｔｈａｔＣＫｍｅａｎｓａｌｇｏｒｉｔｈｍｈａｓｈｉｇｈｅｒａｃｃｕｒａｃｙ

ａｎｄｂｅｔｔｅｒｐｅｒｆｏｒｍａｎｃｅ．Ｔｈｅｐｅｒｆｏｒｍａｎｃｅｒａｔｉｏｉｎｔｈｅｉｒｉｓｄａｔａｓｅｔｉｓｉｎｃｒｅａｓｅｄｂｙ４４．７９％，ａｎｄｔｈｅｐｅｒｆｏｒｍａｎｃｅｒａｔｉｏｉｎｔｈｅ

ｗｉｎｅｄａｔａｓｅｔｉｓｉｍｐｒｏｖｅｄｂｙ３２．０３％．ＴｈｅｃｌｕｓｔｅｒｉｎｇｔｉｍｅｏｆＣＫｍｅａｎｓａｌｇｏｒｉｔｈｍｕｎｄｅｒｄｉｆｆｅｒｅｎｔｐａｒａｌｌｅｌｉｓｍｄｅｇｒｅｅｓｄｅｃｒｅａｓｅｓ

ｆｉｒｓｔａｎｄｔｈｅｎｒｉｓｅｓ

，ａｎｄｔｈｅｍｉｎｉｍｕｍｃｌｕｓｔｅｒｉｎｇｔｉｍｅｉｓｒｅｌａｔｅｄｔｏｔｈｅｓｉｚｅｏｆｔｈｅｄａｔａｓｅｔ．

Ｋｅｙｗｏｒｄｓ：ｂｉｇｄａｔａ；ａｃｃｅｌｅｒａｔｉｏｎｓｔｒａｔｅｇｙ；ｍｅｍｏｒｙｃｏｍｐｕｔｉｎｇ；ｐａｒａｌｌｅｌｉｚａｔｉｏｎ；ｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｓ

　　随着数据量的增长，对存储一体性能的大数据处理框架的

需求也随之增长，如Ｈａｄｏｏｐ、Ｓｐａｒｋ

［１，２］

等典型的大数据批处理

框架虽然吞吐量大，但数据处理实时性较低。因此，近年来涌

现出了一大批实时计算系统

［３～５］

，如ＡｐａｃｈｅＦｌｉｎｋ

［６～１０］

、

ＡｐａｃｈｅＳｔｏｒｍ、ＪＳｔｏｒｍ、Ｈｅｒｏｎ、ＳｐａｒｋＳｔｒｅａｍｉｎｇ等。其中，Ａｐａｃｈｅ

Ｆｌｉｎｋ是一个集流处理与批处理于一体的开源大数据计算框架，

它具有低延迟、高容错的特性。目前，机器学习算法在大数据领

域的应用越来越多，而

Ｋｍｅａｎｓ算法作为典型的机器学习算法，

在大数据领域的应用更是十分广泛，但当前的Ｋｍｅａｎｓ结合大

数据的研究大多数基于批量计算框架下进行

［１１～１３］

，在流计算

框架下的研究较少。而当前部分流计算框架也支持机器学习算

法，如流计算框架

Ｆｌｉｎｋ支持机器学习库ＦｌｉｎｋＭＬ。因此，针对流

计算环境下Ｋｍｅａｎｓ算法存在迭代次数多、计算耗时长等问题，

结合大数据处理框架Ｆｌｉｎｋ实时性的优势，提出一种基于Ｆｌｉｎｋ

平台对Ｃａｎｏｐｙ算法改进的Ｋｍｅａｎｓ算法作并行化加速，提高Ｋ

ｍｅａｎｓ

算法的聚类速度。本文所做的工作如下：

ａ）为避免聚类结果陷入局部最优解，本文基于Ｃａｎｏｐｙ算

法选择聚类初始质心及聚类数目ｋ。用Ｃａｎｏｐｙ算法将原始数

据集聚成多个类，即生成多个Ｃａｎｏｐｙ，每一个Ｃａｎｏｐｙ代表一个

类，生成的

Ｃａｎｏｐｙ数量即为聚类算法的ｋ值，并在每个Ｃａｎｏｐｙ

中选择一个质心或距中心值最近的点作为初始质心。

ｂ）基于Ｆｌｉｎｋ平台对改进后的Ｋｍｅａｎｓ算法作并行计算。

首先，用ＨＤＦＳ将大规模数据集划分成多个小的数据集；其次，

对每一个数据子集作聚类计算，从而降低数据获取阶段及聚类

计算阶段的耗时；最后，分析随着并行度增加对任务各阶段计

算耗时的影响。

１　相关技术

１１　ＡｐａｃｈｅＦｌｉｎｋ

ＡｐａｃｈｅＦｌｉｎｋ是一个由两类节点构成的开源分布式流式

处理框架，分别是：

ａ）主控节点，它是运行ＦｌｉｎｋｊｏｂＭａｎａｇｅｒ的

后台服务节点，

ｊｏｂＭａｎａｇｅｒ是Ｆｌｉｎｋ计算集群的核心，负责任务

调度（ｓｃｈｅｄｕｌｉｎｇｔａｓｋｓ）、管理检查点（ｍａｎａｇｉｎｇｃｈｅｃｋｐｏｉｎｔｓ）以

及错误恢复（ｆａｉｌｕｒｅｒｅｃｏｖｅｒｙ）等，在Ｆｌｉｎｋ中的地位相当于

ｓｔｏｒｍ中的ｎｉｍｂｕｓ；ｂ）计算节点，它是运行ＦｌｉｎｋｔａｓｋＭａｎａｇｅｒ后

台服务的节点，ｔａｓｋＭａｎａｇｅｒ负责监听ｊｏｂＭａｎａｇｅｒ分配的任务，

并在一个ＪＶＭ进程内用一个或者多个线程，在Ｆｌｉｎｋ中的地位

相当于ｓｔｏｒｍ中的ｓｕｐｅｒｖｉｓｏｒ。Ｆｌｉｎｋ的计算框架可抽象为一种

第３７卷第１１期

２０２０年１１月　

计算机应用研究

ＡｐｐｌｉｃａｔｉｏｎＲｅｓｅａｒｃｈｏｆＣｏｍｐｕｔｅｒｓ

Ｖｏｌ３７Ｎｏ１１

Ｎｏｖ．２０２０

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38548434

粉丝: 3
资源: 945

Flink优化的CK-means：大数据并行聚类加速与性能提升

K-means仿真代码

K-Means算法

ck-nntest:CK-NN测试

ck-upgrade-demo:Kubecon 2021-快速迷人的Kubernetes升级策略演示

ck----硬件驱动

[信息办公]时机商计(CK-ERP) v0.16.1_ck-erp.zip

[信息办公]时机商计(CK-ERP) v0.16.1_ck-erp.zip源码PHP项目源代码下载

ck-ext-far-manager-plugin:CK扩展

CK-Gallery-开源

ck-contract-reading

最新资源