K-means聚类优化：高效确定最佳聚类数算法

需积分: 37 152 浏览量更新于2024-08-12 收藏 395KB PDF 举报

"该资源是一篇发表在《计算机应用》2014年第34卷第5期的学术论文，由王勇、唐靖、饶勤菲和袁巢燕四位作者撰写。文章主要探讨了如何解决K-means聚类算法在确定最佳聚类数时的困难，提出了一种新的高效算法。该算法通过数据分层确定聚类数的搜索范围上限，并利用聚类有效性指标来评估类内相似性和类间差异，从而找到最佳聚类数。实验结果证明，该算法能快速且有效地确定最佳聚类数，对数据集的聚类效果表现出色。" 正文: K-means聚类算法是一种广泛应用的无监督学习方法，用于将数据集分割成多个簇，每个簇内的数据点相互相似，而不同簇之间的数据点差异较大。然而，K-means算法的一个关键挑战是需要预先设定聚类的数量（K值），而合适的K值选择往往直接影响到聚类结果的质量和稳定性。这篇论文针对这一问题，提出了一种新的高效率K-means最佳聚类数确定算法。首先，该算法采用样本数据分层策略来确定聚类数的搜索范围上限。通过对数据进行层次分析，可以发现数据的内在结构，从而给出一个合理的K值上限，避免了盲目搜索可能导致的计算资源浪费。接着，为了在搜索范围内找到最优的K值，论文设计了一种聚类有效性指标。这种指标能够量化类内的一致性和类间的分离度，即衡量了聚类后的数据点在簇内的紧密程度以及不同簇之间的差异。通过比较不同K值下的指标值，可以确定使得类内相似性和类间差异达到最佳平衡的K值，即为最佳聚类数。仿真实验结果显示，该算法不仅能在较短的时间内找到最佳聚类数，而且聚类效果良好，提高了K-means算法的稳定性和准确性。这种方法对于处理大规模数据集和需要自动确定聚类数的场景具有较高的实用价值。关键词中的“数据分层”是指将数据按照某种规则逐级划分，帮助识别数据的层次结构；“聚类有效性指标”是用来评估聚类质量的工具，它可以反映聚类的凝聚度和分离度；“相似性程度”是度量数据点之间相似性的度量，常用的距离或相似度函数如欧氏距离、余弦相似度等；而“最佳聚类数”则是指能最大化数据聚类效果的聚类数量。这篇论文贡献了一种创新的、基于数据分层和聚类有效性指标的K-means最佳聚类数确定方法，为K-means聚类算法的应用提供了更有效的优化手段，尤其适用于需要自动化处理和优化聚类效果的场景。

Journal of Computer Applications

计算机应用，

2014

，

34(5):

1331

-1335

ISSN

1001-9081

CODENJYIIDU

2014-05-10

http: /

/阳

joca. cn

文章编号:

1001 - 9081

(2014

)05-1331-05

doi: 10.

11772/j.

issn. 1001-908

2014. 05. 1331

高效率的

K-means

最佳聚类数确定算法

王勇，唐靖，饶勤菲，袁巢燕

(重庆理工大学计算机科学与工程学院，重庆

400054)

(

*通信作者电子邮箱

ywang@

cqu

edu.

cn)

摘

要:针对

K-means

聚类算法通常无法事先设定聚类数，而人为设定初始聚类数目容易导致聚类结采不够稳定

的问题，提出一种新的高效率的

K-means

最佳聚类数确定算法。该算法通过样本数据分层来得到聚类数搜索范团的

上界，并设计了一种聚类有效性指标来评价聚类后类内与类间的相似性程度，从而在聚类数搜索范围内获得最佳聚

类数。仿真实验结采表明，该算法能够快速、高效地获得最佳聚类数，对数据集聚类效采良好。

关键词

:K-means

聚类;数据分层;聚类有效性指标;相似性程度;最佳聚类数

中图分类号

凹

文献标志码

High efficient K-means algorithm for determining optimal number of clusters

WANG

Yong

TANG

吨，

RAO

Qingfei

YUAN

Chaoyan

( College 01 Computer

Science

Engineering, Chongqing University 01 Technology, Chongqing

400054

, China)

喝

tract:

The cluster number is not generally set

K-means clustering algorithm beforehand, and artificial initial

clustering number easily leads to the problem of unstable clustering results. A high-efficient algorithm

for

dete

口

nining

the

K-means optimal clustering number

was

presented. The algorithm got the upper bound of the number of clustering search range

through stratified sample data and designed a new kind of effective clustering indicator

evaluate the clustering degree

similarity between and within class after clustering. Thus the optimal number of clusters was obtained in the search range

the

clusters number. The simulation results show that the algorithm can obtain the optimal clustering number fast and accurately

and the dataset clustering effect is good.

Key

words:

K-means clustering; data stratification; clustering validity index; degree of similarity; optimal number of

clusters

引言

聚类是一个将整体的数据对象划分为以类或簇存在的包

含局部数据对象的过程。聚类

-3]

源于数据挖掘、统计学、生

物学、机器学习等众多领域，现如今聚类分析已经广泛应用于

模式识别、数据分析以及图像处理等研究领域。经过专家学

者的研究，目前的聚类算法可以归纳为如下几类:划分方法、

层次方法、基于密度的方法、基于网格的方法、基于模型的方

法和高维数据的方法。其中

均值聚类算法[川

叫

mea

皿

丑

clu

山

怡

eri

由

吨

电

19orit

由

盯

，

K-means)

是基于划分的经典聚类算法之

一，因其简洁、高效而得到了广泛的应用。但是

K-means

聚类

算法也不可避免地存在缺点:无法事先确定合适的聚类数目，

导致聚类质量不高。获取良好聚类效果关键在于确定最佳的

聚类数目。为克服传统

K-means

算法的不足，文献

[5J

提出采

用类内距离和类间距离的比值作为评价准则函数，将准则函

数取得最小值时对应的聚类数作为最佳聚类数。该算法有效

解决了用户在缺乏经验时对样本聚类数随机确定的问题，但

随着样本数据量的增大，算法的运行时间也随之增加。针对

大多数聚类算法要求事先给定聚类数目的难题，文献

[6J

提

收稿日期

:2013-11-27

;修回日期

:2013-12-25

。

出利用二分思想递归分裂簇内相似度大于给定阔值的簇，同

时，合并簇间相似度小于给定阔值的簇来获得最终聚类数目。

该算法有效解决了聚类数无法事先确定的问题，但是该算法

簇内相似度阔值

和簇间相似度阔值

的确定是个难题，取

值过高或过低都会影响聚类的效果和质量。文献

[7J

提出一

种新的最佳聚类数方法，该算法利用近邻传播(

Affinity

Propagation

AP)

聚类算法产生的聚类数

Kmax

作为聚类数搜

索范围的上界，并运用

Sil

(

Silhouette)

指标分析聚类效果，确

定最佳聚类数。但

算法对于比较松散的聚类结构，倾向

于产生较多的局部聚类，使得算法产生的聚类数往往偏多，最

终不能给出准确的聚类结果。

针对上述算法在确定最佳聚类数时都存在一定的问题，

本文设计了一种新的聚类有效性指标，并在此基础之上，提出

一种基于

K-means

高效率的最佳聚类数确定算法。通过对样

本数据进行阔值分层快速确定

K-means

算法的聚类数搜索范

围上限，并确定聚类数搜索范围，利用新的聚类有效性指标评

价聚类后类内与类间的相似性程度，从而在聚类数搜索范围

内获得最佳聚类数。

基金项目:重庆市教委资助项目(

0821

)

;重庆理工大学研究生创新基金资助项目

(YC

013218

)。

作者简介:王勇(1

974

- )

，男，重庆人，副教授，博士，主要研究方向:多媒体、网络;

唐靖

(1988

，女，湖南永州人，硕士研究生，主要研究

方向:图像处理;

饶勤菲(1

990-)

，男，江西吉安人，硕士研究生，主要研究方向:图像处理，

袁巢燕(1

987

- )

，女，安徽合肥人，硕士研究生，

主要研究方向:无线传感器网络、嵌入式技术。

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38629801

粉丝: 2
资源: 870

K-means聚类优化：高效确定最佳聚类数算法

KMeans_elbow：使用“肘标准”为K-means算法确定最佳聚类数的代码

实验 Spark ML Bisecting k-means聚类算法使用

test4_k-means_K-Means聚类_k-means聚类算法_K._

K-means_聚类；k-means_

Matlab用k-means实现聚类算法

DP-means k - means聚类算法的比较

图像高维数据的K-means自适应聚类算法

一种优化初始中心的K-Means粗糙聚类算法

K-means-master_k-means_k-means聚类算法_K._

k-means.rar_K-Means聚类_K._k-means_k-means 聚类_say7s2

最新资源