分级混合聚类法：自组织神经网络与熵优化

需积分: 5 89 浏览量更新于2024-08-12 收藏 220KB PDF 举报

"一种新的分级混合聚类法 (2003年)，马宝萍，南京师范大学控制科学与工程系" 在模式识别领域，聚类分析是一项基础且重要的任务，用于将数据集中的对象根据其相似性进行分组。传统的聚类方法如系统聚类法、模糊聚类法（如FCM、PCM算法）和自组织特征映射（SOM）各有优缺点。其中，模糊聚类算法虽然能够处理不确定性，但需要预先设定分类数量，这在实际应用中往往难以确定，且对初始条件敏感，容易陷入局部最优。针对模糊聚类算法的这些问题，论文提出了一种新的分级混合聚类法（Hierarchical Hybrid Clustering Method, HHCM）。这种方法结合了自组织神经网络（Kohonen SOM）和基于熵的聚类算法，旨在提高聚类效率和保证聚类结果的有效性。首先，SOM用于对原始数据进行特征提取，减少数据维度并提取关键信息，然后基于熵的聚类算法对简化后的数据进行聚类，无需预设类别数目，降低了计算复杂度。传统的模糊聚类算法如FCM（Fuzzy C-Means）和PCM（Partitioning Around Medoids）在优化过程中可能会遭遇局部最优问题，影响聚类质量。文献中提到的方法，如将Kohonen SOM与FCM结合，虽然可以提升算法速度，但仍然无法完全避免陷入局部极小值。另一方面，基于熵的聚类方法虽然不需要预设类别，但其有效性检验缺乏直接标准，可能导致非最优的聚类结果。 HHCM算法的独特之处在于其分级和混合的特性。分级体现在算法分为两个阶段，第一阶段通过SOM进行预处理，第二阶段使用熵为基础的聚类，降低了对初始条件的依赖。混合则体现在结合了监督学习（SOM）和无监督学习（熵聚类）的策略，提升了整体聚类性能。此外，由于它无需预设类别数，所以更具灵活性，适应性强。通过实例，论文展示了HHCM算法在实际应用中的良好表现，能够有效地避免陷入局部极小值，提高了聚类速度，降低了计算复杂度，同时也保证了聚类的有效性。这种方法对于那些对计算效率有高要求且类别数目不明确的数据集来说，提供了一种有效的解决方案。 HHCM是一种创新的聚类方法，它融合了神经网络与熵理论，克服了传统模糊聚类算法的部分局限性，为大数据环境下的高效聚类分析提供了新的思路。

第

卷第

期

南京师范大学学报(工程技术版)

3 No.l

2003

年

JOURNAL

NANJING

NORMAL

UNIVERS

fl'

Y(ENGINEERING

AND

TECHN

ρGY)

∞

一种新的分级混合聚类法

马宝萍

(南京师范大学控制科学与工程系，

21α

，南京)

[摘要]

为了克服模糊嚷类算法的不足，提出了一种新的分级混合蝶讼，利用自组织神经网络对数据初步进行特征挺

仪，

再利用基于娟的聚类算法进行聚类，从而既提高了藻类过程的效率，又保证了聚类纺裂的有效性.

[关键词]

聚类，自组织梢'经网纷，情

[中图分类号

]TP18

，

[文献标识码

，

[文章编号

]1672-1292-

(2003)01-0022-ω

聚类分析是模式识别的基本内容之一，常用的聚类方法有系统聚类法、模糊聚类法、自组织特征映

射等等，系统聚类法是以多元统计分析为基础的数学分类方法，其产生与应用已有很长的历史，而模糊

聚类法和自组织特征映射则是目前模式识别中的研究热点.

模糊聚类算法(如

FCM

、

PCM

算法等等)的一个共同特点就是要求事先确定分类数目，而这个要求

在很多实际情况中是难以满足的，因此使其应用受到一定的限制，同时上述算法还具有对初始条件敏

感、容易陷人局部极小值等不足.文献

[1]

采用

Kohonen

自组织网络与

FCM

结合的聚类方法，提高了

FCM

算法的速度，但仍不可避免地会陷入局部极小值.文献

[2]

提出了一种基于'摘的聚类方法，元需预先指定

聚类数，并且待定参数较少，但文中没有对聚类有效性进行直接检验，难以保证聚类结果为最优.

大量的文献报导都旨在改进聚类算法的性能，却极少研究如何提高聚类过程的效率.事实上在进行

聚类有效性检验时，需要对多种可能的聚类数进行重复地计算和比较，计算量非常大，耗时很长.

为了提高聚类的速度及效率，同时保证聚类有效性，本文提出一种新的分级混合聚类法(

Hierarchi-

cal

Hybrid

Clustering

出

，

HHCM)

，通过实例说明该方法的聚类结果较好，并且克服了陷入局部极小值

的问题.

分级混合聚类法

本文提出的分级混合聚类法的流程图如图

所示.

其中

HHCM

算法分两步进行，第一步利用

Kohonen

自组织网络对

数据进行特征提取，第二步采用基于娟的聚类法.该方法的特点是元

需事先指定分类数目，并且计算量较小

.HHCM

的结构如图

所示.

其中

屿，鸟，…

，

CRP

为待分类的数据样本

，

问

，

, ... ,

1..1

为第一级聚类的结果，通常而运

m<n

，

也就是说这一步起

到了数据压缩的效果，为下一级聚类作好准备

，

v=!

叭，叫，…

，

1 c

为第二级聚类得到的类的中心.需要说明的是在聚类之前，要对数

据进行标准化处理，例如对

中的第

个变量:

计算样本均值

￡

=lbu

(1)

芦

样本极差

Rs=1

衷

:(zu)-1272n(

劣

ÿ);

i=I

,2,…,p

(2)

收稿日朔:

2003-02-18.

初始化

HHCM

聚类算法

调整

HHCM

叶

娘类有效性检验

的有关参数

Yes

得到聚类结果

结束

回

分级混合襄樊算法流程回

作者简介:马宝排，女

.1973-

，工学博士.南京师范大学控制科学与工程系讲师，主要研究方向为模糊连锁与控制、神经网络.

一

•

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38651165

粉丝: 4
资源: 901

分级混合聚类法：自组织神经网络与熵优化

聚类法(系统聚类法 动态聚类法 模糊聚类法)

高斯混合聚类算法实现C++

论文研究-一种新的混合聚类分析算法.pdf

一种新的软聚类投票法及其并行化实现

一种混合聚类算法及其应用 (2006年)

一种基于遗传算法的混合聚类技术

一种新的最佳聚类数确定方法

分级聚类算法

一种基于自组织分级聚类的数据挖掘方法 (2005年)

Matlab实现高斯混合聚类

最新资源

聚类法(系统聚类法动态聚类法模糊聚类法)