K-means聚类优化：密度函数法与小类合并策略

需积分: 9 164 浏览量更新于2024-08-11 收藏 187KB PDF 举报

"K-means初始聚类中心优化算法研究 (2007年) - 毛韶阳 & 李肯立" 本文探讨了K-means聚类算法的一个关键问题，即其对初始聚类中心选择的敏感性。K-means算法在执行过程中容易陷入局部最优解，导致聚类结果的不准确性。为了解决这一问题，研究者提出了一种基于密度函数法的多中心聚类算法，并结合小类合并操作来优化聚类过程。 K-means算法的基本思想是通过迭代将数据点分配到最近的聚类中心，并更新这些中心以反映所属数据点的均值。然而，如果初始聚类中心选择不当，算法可能会收敛到非最优的解决方案。因此，选择合适的初始中心对于获得高质量的聚类结果至关重要。文中提到的新算法在每次迭代时倾向于发现超球面簇，这种策略对于处理非球形或者延伸状的不规则数据簇特别有效。密度函数法被用来识别高密度区域，这些区域可能代表潜在的簇中心。通过多中心聚类，可以生成多个可能的聚类结构，然后通过小类合并策略，将相似的小簇合并成更大的簇，从而提高聚类的质量和稳定性。多中心聚类算法与小类合并运算的结合，不仅可以避免K-means算法的局部最小问题，还能处理更复杂的数据分布情况。这种优化方法在处理具有不同形状和大小的簇时表现出了更好的适应性和鲁棒性，尤其对于那些传统K-means难以处理的延伸或不规则簇。论文还讨论了聚类分析在数据挖掘中的重要性，并指出了优化聚类算法对于提升数据分析效率和准确性的重要性。中图分类号和文献标识码表明，这篇研究属于计算机科学与信息技术领域的专业论文，旨在为相关领域的研究人员提供一种改进聚类效果的方法。该研究为K-means算法提供了一个改进方案，通过优化初始聚类中心的选择，提高了聚类算法的性能，特别是在处理非典型形状簇的情况下。这为大数据分析、模式识别和其他需要聚类任务的应用提供了有价值的理论和技术支持。

书书书

第

卷第

期重庆邮电大学学报!自然科学版"

$%&’!"

(%’#

)**+

年

月

-%./01&%234%0

8079:/;7<

%2>%;<;10?@:&:A%BB.07A1<7%0;

(1<./1&CA7:0A:

’)**+

EFB:10;

初始聚类中心优化算法研究

毛韶阳

李肯立

湖南大学计算机与通信学院

长沙

$!%%&"

湖南人文科技学院数学系

娄底

$!’%%%

摘

要

由于

()*+,-.

算法对初始中心的依赖性而导致聚类结果可能陷入局部极小

而采用密度函数法的多中心

聚类并结合小类合并运算的聚类结果明显优于

()*+,-.

的聚类结果

该算法的每一次迭代都是倾向于发现超球

面簇

尤其对于延伸状的不规则簇具有良好的聚类能力

关键词

聚类分析

()*+,-.

多中心聚类算法

小类合并

中图分类号

/01!!

!!!!!!!!!

文献标识码

文章编号

!3’1)&"45

"%%’

%$)%$"")%$

G:;:1/A4%0EFB:10;707<71&A&.;<:/70

A:0<:/%

<7B1&1&

%/7<4B

62789,:)

;

=>(+-)?@

!#8A9::?:BC:*

EF+G,-HC:**E-@A,F@:-

IE-,-J-@K+G.@F

;

C9,-

.9,$!%%&"

0#L#C9@-,

"#M+

,GF*+-F:B6,F9+*,F@A.

IE-,->-.F@FEF+:BIE*,-@F@+.

8A@+-A+,-H /+A9-:?:

=:EH@$!’%%%

0#L#C9@-,

DI;</1A<

8@-A+F9+H+

+-H+-A+:B()*+,-.,?

:G@F9*:-F9+@-@F@,?A+-F+G*,

;

.@-N@-F:F9+?:A,?*@-@*E*

F9++O)

+G@*+-F,?G+.E?F:BF9+*E?F@).++HA?E.F+G@-

P,.+H:-F9+H+-.@F

;

BE-AF@:-*+F9:H,-H *+G

.*,??A?E.F+G:PK@)

:E.?

;

.EG

,..+.F9,F:B()*+,-.A?E.F+G@-

#QK+G

;

@F+G,F@:-:BF9@.,?

:G@F9*@-A?@-+.F:H@.A:K+G9

+G).

9+G+A?E.)

F+G#/9+,?

:G@F9*9,.P+FF+GA?E.F+G@-

,P@?@F

;

+A@,??

;

B:G@GG+

E?,G,-H+OF+-H,P?+A?E.F+G.#

J%/?;

A?E.F+G@-

,-,?

;

.@.

()*+,-.

*E?F@).++HA?E.F+G@-

:G@F9*

6C2

*+G

.*,??A?E.F+G

引

言

聚类就是将物理或抽象对象的集合分组成为由

类似的对象组成的多个类的过程

由聚类所生成的

簇是一组数据对象的集合

在同一个类中的对象之

间具有较高的相似度

而不同类中的对象差别较大

()*+,-.

算法的基本思想是由一些初始点或者

代表点开始

每个簇均围绕着一个聚类中心分配对

象

所有基于中心的聚类方法都存在着

个普遍的

问题

如何选择合适的初始聚类种子

这些方

法只适合发现球状簇

面对延伸状的簇或者大小差

别很大的簇无能为力

本文提出的多中心聚类算法

*E?F@).++HA?E.F+G@-

:G@F9*

6C2

将主要解

决这两方面的问题

其中心思想是

用密度函数法求

得样本数据空间的多个聚类中心

一个延伸状或者

较大形状的簇都可以看成是一些独立的超球面簇的

结合

因此任何一个延伸状或者较大形状的簇就可

以用多个聚类中心来联合代表

暂时将较大的簇或

延伸的簇分成若干个小类

最后通过小类合并算法

形成最终类

聚类算法

聚类分析是非监督模式识别的一类重要方

法

’

(

聚类的目的就是根据某种准则

将一个集合

划分为可以用来表示系统行为的一些子集

()

*+,-.

算法属于聚类技术中一种基本的划分方法

具有简单

)

快速的优点

然而该算法对初值的依赖

性很强

初值选取的不同往往导致聚类结果相当不

稳定

其次

它是基于目标函数的聚类算法

一般都

采用梯度法求解极值

’

(

由于梯度法的搜索方向总

是沿着能量减小的方向进行

因此当初始聚类中心

选择不当时

算法极易陷入局部极小点

近几年来

人们提出了多种改进和优化的方法

文献

’

(

考虑

了类结构中的多种对称性质

提出了一种改进的基

于类对称的距离量度

可以有效发现超球面以外的

具有较对称形状的簇

文献

’

(

采用多次取样数据

集两次聚类以获取最优初值的思想

有效地解决了

()*+,-.

算法对初始值的选择具有较大依赖性的问

题

文献

’

(

采用了多中心代表的思想

将多个种子

点分配给一个类

用一棵最小生成树体现了非凸面

收稿日期

"%%’)%!)!$

基金项目

国家自然科学基金项目

3%3%1%41

3%"’$%"3

3%1’1%&R

3%$%1%%"

%#教育部重点项目

%4!"&

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38532139

粉丝: 5
资源: 910

K-means聚类优化：密度函数法与小类合并策略

( 2007_k-means++, the advantages of careful seeding

K-means聚类算法改进与应用研究

仿射传播聚类优化K-means算法的研究与应用

affinity propagation聚类算法

AP聚类算法的源代码

ap聚类算法（java实现版本）

近邻传播聚类源码（C++）

改进的K-means算法：解决初始值依赖与计算量问题

K-means算法改进与应用：客户细分研究

蚁群算法在数据挖掘中的应用：K-means改进与组合策略

最新资源