Spark环境下的K-means初始中心点优化研究与展望

需积分: 9 191 浏览量更新于2024-08-13 收藏 1.63MB PDF 举报

"Spark环境下K-means初始中心点优化研究综述" Spark是一个高效的分布式内存计算框架，它被广泛用于大数据处理任务，包括机器学习算法的实施。K-means是聚类算法的一种，常用于无监督学习，通过迭代寻找数据的最佳分组。然而，K-means算法的一个关键问题是其对初始中心点的选择高度敏感，这可能导致聚类结果的不稳定性，甚至产生多个不同的解决方案。因此，优化K-means算法的初始中心点选择成为提高聚类效果和算法效率的重要课题。 K-means算法的基本步骤包括选择初始中心点、分配数据点到最近的聚类中心、重新计算中心点以及重复这个过程直到满足停止条件。由于初始中心点的选择直接影响算法的收敛性和最终结果，所以很多研究都集中在如何在Spark环境下更有效地选择这些中心点。在Spark中，研究人员提出了一些优化策略。一种常见的方法是基于数据分布的采样技术，如K-means++，它通过随机选择一个数据点作为初始中心，然后按照距离该中心点的平方距离概率分布来选择下一个中心，以此类推，以降低聚类中心过于集中的可能性。此外，还有基于多线程并行化的策略，通过将数据分割到多个工作节点并在每个节点上独立执行K-means，最后合并结果以获得全局最优解。另一些研究则探索了基于分布式环境的特定优化。例如，通过预处理数据，减少不必要的计算，或者利用Spark的弹性分布式数据集(RDD)特性，实现数据的高效并行处理。还有一些方法采用局部搜索或全局搜索策略，寻找可能的最优初始中心点集合，以期望达到更好的聚类效果。尽管已有许多关于Spark环境下K-means初始中心点优化的研究，但这个问题仍然具有挑战性，尤其是在大规模数据集上。未来的研发可能会关注以下几个方向：一是开发更高效的分布式初始化方法，能够在大量数据中快速找到具有代表性的中心点；二是结合其他机器学习技术，如深度学习或强化学习，以自动学习和调整初始中心点；三是设计适应动态数据流的在线K-means算法，能够实时更新和优化中心点。 Spark环境下的K-means初始中心点优化是大数据分析领域的重要研究领域，对提升聚类质量和算法效率有显著影响。随着计算资源和技术的不断发展，我们可以期待更多创新方法来解决这一问题，推动K-means算法在大数据场景下的应用。

书书书

　　收稿日期：２０１８１０３１；修回日期：２０１８１２０３　　基金项目：国家自然科学基金资助项目（６１５６２０８６，６１４６２０７９，６１９６６０３５）；新疆维吾尔自

治区教育厅创新团队资助项目（ＸＪＥＤＵ２０１６Ｓ０３５）；自治区研究生创新项目（ＸＪ２０１９Ｇ０７２，ＸＪ２０１９Ｇ０６９，ＸＪ２０１９Ｇ０７１）

　　作者简介：行艳妮（１９９４），女，陕西渭南人，硕士研究生，主要研究方向为数据挖掘（１３７７４２９０２４＠ｑｑ．ｃｏｍ）；钱育蓉（１９８０），女，教授，博士，主

要研究方向为网络计算和遥感图像处理；南方哲（１９９４），女，硕士研究生，主要研究方向为计算机视觉和单图像超分辨率重建等；赵京霞（１９９５），

女，硕士，主要研究方向为图像处理与模式识别．

Ｓｐａｒｋ环境下Ｋｍｅａｎｓ初始中心点优化研究综述



行艳妮，钱育蓉，南方哲，赵京霞

（新疆大学软件学院，乌鲁木齐８３００４６）

摘　要：为了能够及时了解Ｓｐａｒｋ环境下经典聚类算法Ｋｍｅａｎｓ的最新研究进展，把握Ｋｍｅａｎｓ算法当前的研

究热点和方向，针对Ｋｍｅａｎｓ算法的初始中心点优化研究进行综述。首先介绍了内存计算框架Ｓｐａｒｋ和

Ｋｍｅａｎｓ算法，并分析了Ｋｍｅａｎｓ算法聚类不稳定性的成因和影响，其目的在于指出优化Ｋｍｅａｎｓ算法的重要

性；详细介绍了目前在Ｓｐａｒｋ环境下优化Ｋｍｅａｎｓ初始中心点的主要方法和最新研究现状，并展望了Ｋｍｅａｎｓ初

始中心点优化问题的未来研究方向。

关键词：Ｋ均值算法；分布式内存计算框架；算法优化；聚类算法

中图分类号：ＴＰ３９１　　　文献标志码：Ａ　　　文章编号：１００１３６９５（２０２０）０３００１０６４１０７

ｄｏｉ：１０．１９７３４／ｊ．ｉｓｓｎ．１００１３６９５．２０１８．１０．０６０９

ＳｕｒｖｅｙｏｆｏｐｔｉｍｉｚａｔｉｏｎｏｎＫｍｅａｎｓａｌｇｏｒｉｔｈｍｉｎＳｐａｒｋ

ＸｉｎｇＹａｎｎｉ，ＱｉａｎＹｕｒｏｎｇ，ＮａｎＦａｎｇｚｈｅ，ＺｈａｏＪｉｎｇｘｉａ

（ＣｏｌｌｅｇｅｏｆＳｏｆｔｗａｒｅ，ＸｉｎｊｉａｎｇＵｎｉｖｅｒｓｉｔｙ，Ｕｒｕｍｑｉ８３００４６，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：ＩｎｏｒｄｅｒｔｏｕｎｄｅｒｓｔａｎｄｔｈｅｌａｔｅｓｔｒｅｓｅａｒｃｈｐｒｏｇｒｅｓｓｏｆｔｈｅｃｌａｓｓｉｃａｌｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍＫｍｅａｎｓｉｎＳｐａｒｋｅｎｖｉｒｏｎ

ｍｅｎｔ

，ａｎｄｇｒａｓｐｔｈｅｃｕｒｒｅｎｔｒｅｓｅａｒｃｈｈｏｔｓｐｏｔｓａｎｄｄｉｒｅｃｔｉｏｎｓｏｆＫｍｅａｎｓａｌｇｏｒｉｔｈｍ，ｔｈｉｓｐａｐｅｒｒｅｖｉｅｗｅｄｔｈｅｉｎｉｔｉａｌｃｅｎｔｅｒｐｏｉｎｔ

ｏｐｔｉｍｉｚａｔｉｏｎｒｅｓｅａｒｃｈｏｎＫｍｅａｎｓａｌｇｏｒｉｔｈｍ．Ｆｉｒｓｔｌｙ，ｉｔｉｎｔｒｏｄｕｃｅｄｔｈｅｍｅｍｏｒｙｃｏｍｐｕｔｉｎｇｆｒａｍｅｗｏｒｋＳｐａｒｋａｎｄＫｍｅａｎｓａｌｇｏ

ｒｉｔｈｍｓ，ａｎｄａｎａｌｙｚｅｄｔｈｅｃａｕｓｅａｎｄｅｆｆｅｃｔｓｏｆｃｌｕｓｔｅｒｉｎｇｉｎｓｔａｂｉｌｉｔｙｏｆＫｍｅａｎｓａｌｇｏｒｉｔｈｍ，ｗｈｉｃｈｐｏｉｎｔｅｄｏｕｔｔｈｅｉｍｐｏｒｔａｎｃｅｏｆ

ｏｐｔｉｍｉｚｉｎｇＫｍｅａｎｓａｌｇｏｒｉｔｈｍ．Ｔｈｉｓｐａｐｅｒｉｎｔｒｏｄｕｃｅｄｔｈｅｍａｉｎｍｅｔｈｏｄｓａｎｄｔｈｅｌａｔｅｓｔｒｅｓｅａｒｃｈｓｔａｔｕｓｏｆｏｐｔｉｍｉｚｉｎｇｔｈｅｉｎｉｔｉａｌ

ｃｅｎｔｅｒｐｏｉｎｔｏｆＫｍｅａｎｓｉｎＳｐａｒｋｅｎｖｉｒｏｎｍｅｎｔｉｎｄｅｔａｉｌ

，ａｎｄａｌｓｏｄｉｓｃｕｓｓｅｄｔｈｅｆｕｔｕｒｅｒｅｓｅａｒｃｈｔｒｅｎｄｓｉｎｉｎｉｔｉａｌｃｅｎｔｅｒｐｏｉｎｔｏｐ

ｔｉｍｉｚａｔｉｏｎｏｆＫｍｅａｎｓ．

Ｋｅｙｗｏｒｄｓ：Ｋｍｅａｎｓ；ｄｉｓｔｒｉｂｕｔｅｄｍｅｍｏｒｙｃｏｍｐｕｔｉｎｇｆｒａｍｅｗｏｒｋ；ａｌｇｏｒｉｔｈｍｏｐｔｉｍｉｚａｔｉｏｎ；ｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍ

０　引言

Ｋｍｅａｎｓ作为机器学习

［１］

迭代聚类算法中的一种经典算

法，在数据挖掘

［２］

和模式识别方面得到了广泛应用。由于

Ｋｍｅａｎｓ算法运行时初始聚类中心点和簇数的不确定性，使聚

类结果存在着很大的不稳定性，以致于算法处理数据时会出现

准确率降低、收敛速度慢等问题，特别是近年来，随着全球计算

机和信息技术的迅猛发展，Ｋｍｅａｎｓ在处理规模日益增长的数

据

［３］

时，聚类效果不佳和算法效率低下等缺点表现得更加明

显，无法满足实际大数据场景下的应用需求。在大数据环境

下，针对

Ｋｍｅａｎｓ算法的初始聚类中心点优化问题，很多学者

首先在Ｋｍｅａｎｓ算法中使用各类改进算法优化其中心点选取

过程，以减少算法迭代次数，提高收敛速度和准确性；同时基于

Ｓｐａｒｋ

［４，５］

内存计算框架，进一步提高了算法处理大规模数据的

效率以及对大数据的适应能力。本文详细介绍了Ｋｍｅａｎｓ算

法的几种改进方法，以及其在Ｓｐａｒｋ环境下的并行化现状。

１　Ｓｐａｒｋ内存计算框架

Ｓｐａｒｋ是由Ｂｅｒｋｅｌｅｙ的ＡＭＰＬａｂ于２００９年提出的一种由

Ｓｃａｌａ语言实现的大数据计算框架，既兼容了Ｈａｄｏｏｐ

［６］

中Ｍａｐ

Ｒｅｄｕｃｅ

［７］

的可扩展性和容错性等优点，同时引入了内存计算的

概念。Ｓｐａｒｋ采用弹性分布式数据集

［５］

（ｒｅｓｉｌｉｅｎｔｄｉｓｔｒｉｂｕｔｅｄ

ｄａｔａｓｅｔ，ＲＤＤ）数据结构将算法的中间结果保存在内存中，使其

更适用于反复迭代运行的应用程序，如交互式数据挖掘和机器

学习算法；并通过数据集血统（ｌｉｎｅａｇｅ）

［５，８］

和检查点机制

［９］

实

现了系统容错，解决了迭代算法在

Ｈａｄｏｏｐ下不断进行磁盘访

问而造成的性能损失问题。由于

Ｓｐａｒｋ能够部署在通用平台

上，并具有可靠性（ｒｅｌｉａｂｌｅ）、可扩展性（ｓｃａｌａｂｌｅ）、高效性（ｅｆｆｉ

ｃｉｅｎｔ）、低成本（ｅｃｏｎｏｍｉｃａｌ）等优点

［１０］

，目前已被广泛应用于大

规模数据处理过程。

为支持不同应用场景下的大数据处理，

Ｓｐａｒｋ已经发展成

为包含众多子项目的大数据计算平台。如图１所示，包括了基

于Ｓｐａｒｋ核心组件的可扩展机器学习函数库ＭＬｌｉｂ

［１１，１２］

，实现

了基于ＲＤＤ的Ｋｍｅａｎｓ算法，并且初始中心选取采用了

Ｋｍｅａｎｓ算法

［１３］

，然而ＭＬｌｉｂ中的Ｋｍｅａｎｓ算法核心没有改

变，在执行过程中仍存在大量不必要的距离计算，影响算法的

运算效率。因此基于

Ｓｐａｒｋ的Ｋｍｅａｎｓ算法并行化

［１４，１５］

研究

仍在进行中。其中，Ｓｐａｒｋｃｏｒｅ是Ｓｐａｒｋ生态系统的核心；Ｓｐａｒｋ

ＳＱＬ

［１６］

和Ｓｈａｒｋ

［１７］

支持结构化数据ＳＱＬ查询与分析的查询引

擎；

ＭＬＢａｓｅ提供了机器学习功能的系统，ＭＬｌｉｂ为底层的分布

式机器学习库，还有并行图计算框架

ＧｒａｐｈＸ

［１８］

、流计算框架

Ｓｐａｒｋｓｔｒｅａｍｉｎｇ

［１９］

、内存分布式文件系统Ｔａｃｈｙｏｎ及资源管理

框架Ｍｅｓｏｓ

［２０］

等子项目，这些子项目在Ｓｐａｒｋ上层提供了更高

第３７卷第３期

２０２０年３月　

计算机应用研究

ＡｐｐｌｉｃａｔｉｏｎＲｅｓｅａｒｃｈｏｆＣｏｍｐｕｔｅｒｓ

Ｖｏｌ．３７Ｎｏ．３

Ｍａｒ．２０２０

下载后可阅读完整内容，剩余6页未读，立即下载

weixin_38660295

粉丝: 6
资源: 911

Spark环境下的K-means初始中心点优化研究与展望

Spark框架下分布式K-means算法优化方法.pdf

Spark MLlib 实现 K-means 算法

spark 聚类机器学习

kmeans聚类算法分类API

聚类算法，mareduce并行实现用代码怎么实现

最新资源