大数据集多聚类中心的加速K-means算法：高效收敛与低内存消耗

需积分: 50 71 浏览量更新于2024-08-12 收藏 1.23MB PDF 举报

随着信息技术的飞速发展，大数据时代的到来对数据处理能力提出了新的挑战。本文档聚焦于2016年的研究工作，标题为"针对多聚类中心大数据集的加速K-means聚类算法"，其核心问题在于传统K-means聚类算法在面对海量数据（如10万条数据规模）和高维度（可能涉及多个聚类中心）的情况下，其时间和内存消耗已经无法满足实际应用的需求。 K-means算法是一种常用的无监督学习方法，尤其适用于数据集分组。然而，随着数据规模的增长，每个聚类中心的计算复杂度显著提高，特别是当聚类中心数量增多时，每次迭代都需要更新所有数据点到每个中心的距离，这导致了时间和空间效率的下降。原有的Elkan算法通过避免重复计算，对近邻数据点的距离只计算一次，从而在一定程度上缓解了这个问题，但它仍然存在局限性。为了克服这一挑战，研究人员提出了一种新型的加速K-means算法，结合了动态类中心调整和Elkan三角判定的思想。动态类中心调整意味着在聚类过程中，不是固定地将所有数据分配到最近的中心，而是根据数据分布的实时变化调整中心的位置，这样可以更快地收敛到最优解。而Elkan三角判定则是利用三角不等式来优化距离计算，避免不必要的重复，进一步减少了计算量。实验结果显示，这种改进算法在大规模数据和大量聚类中心的场景下，不仅收敛速度明显加快，而且内存消耗显著降低。这对于大数据分析和挖掘等领域具有重要意义，因为快速且高效的聚类方法能够帮助研究者在有限的时间内处理和理解大量数据，提升数据分析的准确性和效率。论文的作者团队包括张顺龙、库涛和周浩，他们分别在可视化数据挖掘、感应网络技术和物联网技术等领域有着深厚的研究背景。这篇论文不仅展示了技术上的突破，也体现了跨学科合作的优势，为未来的数据处理和机器学习提供了有价值的新思路。总结来说，该论文的核心贡献是提出了一种加速K-means算法，通过动态类中心调整和Elkan三角判定技术，有效解决了大数据集多聚类中心情况下K-means算法的性能瓶颈，对于推动大数据时代下的高效数据处理具有实际价值。

　　收稿日期：２０１４０６２５；修回日期：２０１４０８１９　　基金项目：国家科技支持计划资助项目（２０１２ＢＡＨ１５Ｆ０５）；吉林省科技型中小企业技术

创新基金资助项目（１２Ｃ２６２１２２０１３９９）；国家自然科学基金资助项目（６１２０３３１６１，５１２０５３８９）

　　作者简介：张顺龙（１９９０），男，四川隆昌人，硕士研究生，主要研究方向为可视化数据挖掘（ｔｏｚｈａｎｇｓｈｕｎｌｏｎｇ＠ｆｏｘｍａｉｌ．ｃｏｍ）；库涛（１９７９），男，

副研究员，博士，主要研究方向为感应网络技术、现实挖掘与社会计算、智能信息处理、印刷电子工艺及装备；周浩（１９８３），男，吉林人，中级工程

师，主要研究方向为物联网技术．

针对多聚类中心大数据集的加速Ｋｍｅａｎｓ聚类算法



张顺龙

１，２

，库　涛

１，２

，周　浩

３

（１．中国科学院沈阳自动化研究所，沈阳１１００１６；２．中国科学院大学，北京１０００４３；３．吉化集团吉林市软信技

术有限公司，吉林吉林１３２０２１）

摘　要：随着数据量、数据维度呈指数发展以及实际应用中聚类中心个数的增多，传统的Ｋｍｅａｎｓ聚类算法已

经不能满足实际应用中的时间和内存要求。针对该问题提出了一种基于动态类中心调整和Ｅｌｋａｎ三角判定思

想的加速Ｋｍｅａｎｓ聚类算法。实验结果证明，当数据规模达到１０万条，聚类个数达到２０个以上时，本算法相比

Ｅｌｋａｎ算法具有更快的收敛速度和更低的内存开销。

关键词：ＤＩＡＣＫ；加速Ｋｍｅａｎｓ；聚类；三角定理

中图分类号：ＴＰ３０１．６　　　文献标志码：Ａ　　　文章编号：１００１３６９５（２０１６）０２０４１３０４

ｄｏｉ：１０．３９６９／ｊ．ｉｓｓｎ．１００１３６９５．２０１６．０２．０２１

ＡｃｃｅｌｅｒａｔｅＫｍｅａｎｓｆｏｒｍｕｌｔｉｃｅｎｔｅｒｃｌｕｓｔｅｒｉｎｇｏｆｂｉｇｄａｔａｓｅｔｓ

ＺｈａｎｇＳｈｕｎｌｏｎｇ

１，２

，ＫｕＴａｏ

１，２

，ＺｈｏｕＨａｏ

３

（１．ＳｈｅｎｙａｎｇＩｎｓｔｉｔｕｔｅｏｆＡｕｔｏｍａｔｉｏｎ，ＣｈｉｎｅｓｅＡｃａｄｅｍｙｏｆＳｃｉｅｎｃｅｓ，Ｓｈｅｎｙａｎｇ１１００１６，Ｃｈｉｎａ；２．ＵｎｉｖｅｒｓｉｔｙｏｆＣｈｉｎｅｓｅＡｃａｄｅｍｙｏｆＳｃｉｅｎｃｅｓ，

Ｂｅｉｊｉｎｇ１０００４３，Ｃｈｉｎａ；３．ＪｉｈｕａＧｒｏｕｐＪｉｌｉｎＳｏｆｔＩｎｆｏｒｍａｔｉｏｎＴｅｃｈｎｏｌｏｇｙＣｏ．Ｌｔｄ，ＪｉｌｉｎＪｉｌｉｎ１３２０２１，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：ＴｈｅＫｍｅａｎｓａｌｇｏｒｉｔｈｍｉｓｔｈｅｍｏｓｔｐｏｐｕｌａｒｃｌｕｓｔｅｒａｌｇｏｒｉｔｈｍ，ｂｕｔｆｏｒｂｉｇｄａｔａｓｅｔｃｌｕｓｔｅｒｉｎｇｗｉｔｈｍａｎｙｃｌｕｓｔｅｒｓ，ｉｔ

ｗｉｌｌｔａｋｅａｌｏｔｏｆｔｉｍｅｔｏｆｉｎｄａｌｌｔｈｅｃｌｕｓｔｅｒｓ．Ｔｈｉｓｐａｐｅｒｐｒｏｐｏｓｅｄａｎｅｗａｃｃｅｌｅｒａｔｉｏｎｍｅｔｈｏｄｂａｓｅｄｏｎｔｈｅｔｈｏｕｇｈｔｏｆｄｙｎａｍｉｃａｌ

ａｎｄｉｍｍｅｄｉａｔｅａｄｊｕｓｔｍｅｎｔｏｆｔｈｅｃｅｎｔｅｒＫｍｅａｎｓｗｉｔｈｔｒｉａｎｇｌｅｉｎｅｑｕａｌｉｔｙ．Ｔｈｅｔｒｉａｎｇｌｅｉｎｅｑｕａｌｉｔｙｗａｓｕｓｅｄｔｏａｖｏｉｄｒｅｄｕｎｄａｎｔ

ｄｉｓｔａｎｃｅｃｏｍｐｕｔａｔｉｏｎｓ；ＢｕｔｕｎｌｉｋｅＥｌｋａｎ’ｓａｌｇｏｒｉｔｈｍ，ｔｈｅｃｅｎｔｅｒｓｗｅｒｅｄｉｖｉｄｅｄｉｎｔｏｏｕｔｅｒｃｅｎｔｅｒｓａｎｄｉｎｎｅｒｃｅｎｔｅｒｓｆｏｒｅａｃｈ

ｄａｔａｐｏｉｎｔｉｎｔｈｅｆｉｒｓｔｐｌａｃｅ，ａｎｄｏｎｌｙｔｈｅｔｒａｃｋｓｏｆｔｈｅｌｏｗｅｒｂｏｕｎｄｓｔｏｉｎｎｅｒｃｅｎｔｅｒｓｗｅｒｅｋｅｐｔ；Ｏｎｔｈｅｏｔｈｅｒｈａｎｄ，ｂｙａｄｊｕｓ

ｔｉｎｇｔｈｅｄａｔａｐｏｉｎｔｓｃｌｕｓｔｅｒｂｙｃｌｕｓｔｅｒａｎｄｕｐｄａｔｉｎｇｔｈｅｃｌｕｓｔｅｒｃｅｎｔｅｒｉｍｍｅｄｉａｔｅｌｙｒｉｇｈｔａｆｔｅｒｆｉｎｉｓｈｉｎｇｅａｃｈｃｌｕｓｔｅｒ’ｓａｄｊｕｓｔ

ｍｅｎｔ

，ｔｈｅｎｕｍｂｅｒｏｆｉｔｅｒａｔｉｏｎｗａｓｅｆｆｅｃｔｉｖｅｌｙｒｅｄｕｃｅｄ．Ｔｈｅｅｘｐｅｒｉｍｅｎｔｒｅｓｕｌｔｓｓｈｏｗｔｈａｔｔｈｉｓａｌｇｏｒｉｔｈｍｒｕｎｓｍｕｃｈｆａｓｔｅｒｔｈａｎ

Ｅｌｋａｎ’ｓａｌｇｏｒｉｔｈｍｗｉｔｈｍｕｃｈｌｅｓｓｍｅｍｏｒｙｃｏｎｓｕｍｐｔｉｏｎｗｈｅｎｔｈｅｃｌｕｓｔｅｒｃｅｎｔｅｒｎｕｍｂｅｒｉｓｌａｒｇｅｒｔｈａｎ２０ａｎｄｔｈｅｄａｔａｓｅｔｒｅ

ｃｏｒｄｓｎｕｍｂｅｒｉｓｇｒｅａｔｅｒｔｈａｎ１０ｍｉｌｌｉｏｎ，ａｎｄｔｈｅｓｐｅｅｄｕｐｂｅｃｏｍｅｓｂｅｔｔｅｒｗｈｅｎｔｈｅｋｉｎｃｒｅａｓｅｓ．

Ｋｅｙｗｏｒｄｓ：ＤＩＡＣＫ；ｆａｓｔｋｍｅａｎｓ；ｃｌｕｓｔｅｒｉｎｇ；ｔｒｉａｎｇｌｅｉｎｅｑｕａｌｉｔｙ

　引言

聚类是一种典型的数据挖掘方法，在识别数据内部结构方

面有重要的作用。ＭａｃＱｕｅｅｎ

［１］

在１９６７年提出的Ｋｍｅａｎｓ算法

是最经典的聚类算法，其目标是将数据集划分成多个类，使类

中各点的相似性尽可能大而类间的相似性尽可能小。由于其

方法简单，对球状类有很好的聚类效果，在图像处理、模式识

别、人工智能等方面得到了广泛的应用。

但是，随着互联网技术的发展，数据量以及数据维度呈指

数发展，面对成百万上千万条记录的数据集，传统

Ｋ均值聚类

算法在时间和空间复杂度上都难以处理。针对这一问题，国内

外许多学者展开了相关方面的研究对算法进行了改进。文献

［２，３］通过自适应调整学习速率一定程度上加快了迭代过程

中类中心的单步移动速率；文献［４，５］通过对数据集随机抽样

进行聚类，有效地将时间消耗降低到传统聚类的２０％～４０％，

但丢失了很多样本信息，对于分布不均匀的数据集，甚至可能

丢失整个类；采用树结构存储类中心点

［６，７］

或者数据点

［８，９］

可

大大加快低维数据点搜索最近邻类中心的过程；文献［

１０～

１２

］分别在数据预处理与聚类阶段对数据进行降维处理，减少

了距离计算的时间；文献［１３～１５］提出的等均值搜索与部分

失真搜索方法通过引入部分失真值以减少搜索空间，避免不必

要的维度计算；近几年智能算法也被广泛应用于聚类分析，文

献［１６～１８］分别提出了结合遗传算法和粒子群算法的Ｋ均值

聚类，该类算法有更好的全局寻优能力，但对收敛速度的提升

却很有限；文献［１９，２０］提出只对同一数据在相邻两次迭代中

改变了其中心点的样本点重新计算归类。文献［２１］通过采用

新的相似性度量函数提高了算法发现不同形状类的能力，同时

在一定程度上加快了算法收敛速度；文献［

２２］中，Ｅｌｋａｎ利用

三角不等式判定原则避免了大量不必要的距离计算，从而有效

将多聚类中心大数据集上的

Ｋ均值聚类时间开销降低到传统

算法的１０％～２０％，是到目前为止对该类聚类加速效果最好

的方法。然而该算法随着聚类中心的增多和样本数据集的增

大，额外的内存开销会快速增大；

Ｇｒｅｇ

［２３］

对Ｅｌｋａｎ的算法进行

了改进，只维护数据点到第二近类中心的距离下限，解决了

Ｅｌ

第３３卷第２期

２０１６年２月　

计算机应用研究

ＡｐｐｌｉｃａｔｉｏｎＲｅｓｅａｒｃｈｏｆＣｏｍｐｕｔｅｒｓ

Ｖｏｌ．３３Ｎｏ．２

Ｆｅｂ．２０１６

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38738189

粉丝: 5
资源: 954

大数据集多聚类中心的加速K-means算法：高效收敛与低内存消耗

K均值聚类，多维度

大数据集快速谱聚类算法

Charles Elkan的快速k-means算法的代码

聚类加速-基于CUDA加速K-means聚类算法实现-附项目源码-优质项目实战.zip

k-means聚类算法k-means聚类算法k-means聚类算法k-means聚类算法.txt

基于K-means算法的光伏曲线聚类研究 关键词：k-means 光伏聚类 聚类 参考文档：基于改进 K-means 聚

K-means-cluster.rar_K均值聚类算法_cluster算法_k-means++_k均值聚类原理

模糊聚类分析matlab源代码-GBK-means-Clustering-Algorithm:GBK-means-聚类算法

GBK-means-Clustering-Algorithm:该存储库包含基于Matlab的'GBK-means聚类算法的实现：对K-means算法的改进。-matlab开发

K均值聚类(K-Means聚类)-聚类算法-聚类可视化-MATLAB代码

最新资源

基于K-means算法的光伏曲线聚类研究关键词：k-means 光伏聚类聚类参考文档：基于改进 K-means 聚