CURE算法：层次聚类的经典改进

需积分: 10 95 浏览量更新于2024-09-10 3 收藏 327KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

层次聚类方法的CURE（Combinatorial Unions of Representative Elements）算法是一种创新的层次聚类算法，它针对传统聚类方法的局限性进行了改进。CURE算法的核心思想是结合质心聚类和个体代表法的优点，避免了单一质心或对象可能无法全面反映整个类别的问题。它的运作过程分为以下几个步骤： 1. 初始化阶段：CURE算法开始时，每个数据对象被视为一个单独的类别。它并非一开始就构建一个大的簇，而是选择具有代表性的样本点，这些点能体现数据集的整体分布。 2. 选择代表性点：算法通过挑选那些在数据空间中分散度较高的对象作为初始代表点。这种选择使得代表点能够覆盖数据的不同部分，从而增加对复杂形状簇的适应性。 3. 合并与收缩：接着，CURE寻找距离最远的两个代表点所属的类，并合并它们。这个过程是通过计算类间距离并进行合并操作实现的。合并的同时，可能会调整代表点，使其更接近新簇的中心。 4. 迭代优化：算法重复上述步骤，不断合并最不相似的类，直至达到预定的聚类数量或者类间距离超过预设阈值。这体现了层次聚类的“自底向上”策略，即由小到大构建聚类结构。 5. 处理异常值：CURE算法特别适合处理存在孤立点或非球形簇的情况，因为它不会过度依赖某一点来定义整个簇，而是通过多个代表点来提供更稳健的聚类结果。 6. 终止条件：当满足预先设定的终止条件，如达到期望的聚类数量或类间的平均距离不再明显变化时，算法停止。总结来说，CURE算法通过其独特的代表点选择和合并策略，克服了传统层次聚类在面对复杂形状和异常值时的不足，为实际应用中的数据聚类提供了更强大和灵活的工具。其优势在于能够在保持聚类有效性的同时，提高对各种类型数据集的适应性。

资源详情

资源推荐

第５卷第１１期２００５年１１月

１６７ｌ一１８０７（２００５）１１—００２２—０３

科

技

和

产业

Ｓｃｉｅｎｃｅ

Ｔｅｃｈｎｏｌｏｇｙ蚰ｄ

Ｉｎｄｕｓｔｒｙ

Ｖ０１．５

Ｎｏ．１１

Ｎｏｖ．２００５

⑥２００５

Ｓｃｉ．。ｒｅｃｈ．Ｉｎｄ．

层次聚类方法的ＣＵＩｍ算法研究

魏桂英郑玄轩

（北京科技大学管理学院，北京１０００８３）

摘要：层次聚类方法是一种发展比较早、应用广泛的聚类方法。本文重点总结研究了聚类技术中层次聚类方法的典型算法一

ｃＩ瓜Ｅ算法，并给出了一个详细的手工解析示例。

关键词：ｃＩ瓜Ｅ算法；层次聚类；聚类

学科分类号：哪１１

文献标识码：Ａ

１层次聚类方法

层次聚类方法【１１（Ｈｉｅｒａｒｃｈｉｃａｌ

Ｃｌｕｓｔｅｒｉｎｇ

Ｍｅｔｈｏｄ）

是一种发展比较早、应用广泛的聚类方法，按采用“自

顶向下（Ｔｏｐ—Ｄｏｗｎ）”和“自底向上（Ｂｏｔｔｏｍ—Ｕｐ）”两种

方式，分别被称为分解型层次聚类法（Ｄｉｖｉｓｉｖｅ

Ｈｉｅｍｒｃｈｉｃａｌ

Ｃｌｕｓｔｅｒｉｎｇ）和聚结型层次聚类法

（ＡｇｇＩｏｍｅｒａｔｉｖｅ

Ｈｉｅｒａｒｃｈｉｃａｌ

Ｃ１ｕｓｔｅｒｉｎｇ）。层次聚类方

法采用一种迭代控制策略，使聚类逐步优化。它是按

照一定的相似性判断标准，合并最相似的部分或者分

割最不相似的部分。

分解型层次聚类法，首先将所有对象置于一个类

中（即将所有的对象看成一个类），然后逐渐细分，使

其变为越来越小但个数越来越多的类，直到每个对象

独自构成一类，或满足了一定的终止条件．例如达到

了某个希望的聚类数目。或者两个最近的类之间的距

离超过了阈值。

聚结型层次聚类法，首先将每个对象（自身）作一

个类，然后合并这些原子类为越来越大的类，直到所

有的对象都在一个类中。或者满足某个终止条件为

止。大多数层次聚类方法都属于这类方法，只是它们

在类间距离定义描述方面有所不同。

２

ＣＵＲＥ算法思路和步骤

绝大多数聚类算法或者擅长处理球形和相似大

小的聚类．或者在存在孤立点时变得比较脆弱。

ＣＵＲＥ［２］采用了一种新颖的层次聚类算法．该算法选

择基于质心和基于代表对象方法之间的中间策略。它

不同于单个质心或对象来代表一个类，而是选择数据

空间中固定数目的具有代表性的点。一个类的代表点

通过如下方式产生：首先选择类中分散的对象，然后

根据一个特定的分数或收缩因子“收缩”或移动它们。

在算法的每一步，有最近距离的代表点对（每个点来

自于一个不同的类）的两个类被合并。

每个类有多于一个的代表点使得ＣＵＲＥ可以适

应非球形的几何形状。类的收缩或凝聚可以有助于控

制孤立点的影响。因此，ＣＵＲＥ对孤立点的处理更加

健壮，而且能够识别非球形和大小变化比较大的类。

针对大型数据库，ＣＵＲＥ采用随机取样和划分两种方

法组合：一个随机样本首先被划分，每个划分被部分

聚类。

ＣＵＲＥ算法的思想主要体现在如下几个方面［３］：

（１）ＣＵＲＥ算法采用的是聚结层次聚类。在最开

始的时候，每一个对象就是一个独立的类，然后从最

相似的对象开始进行合并。

（２）为了处理大数据集，采用了随机抽样和分割

（Ｐａｎｉｔｉｏｎｉｎｇ）手段。采用抽样的方法可以降低数据

量，提高算法的效率。在样本大小选择合适的情况下，

一般能够得到比较好的聚类结果。另外，ＣＵＲＥ算法

还引入了分割手段，即将样本分割为几个部分，然后

针对各个部分中的对象分别进行局部聚类．形成子

类。再针对子类进行聚类，形成新的类。

（３）传统的算法常常采用一个对象来代表一个

类，而ＣＵＲＥ算法由分散的若干对象．在按收缩因子

移向其所在类的中心之后来代表该类。由于ＣＵＲＥ算

法采用多个对象来代表一个类．并通过收缩因子来调

节类的形状，因此能够处理非球形的对象分布。

（４）分两个阶段消除异常值的影响。ＣＵＲＥ算法

作者简介：魏桂英，女，北京科技大学管理学院讲师，研究方向：管理信息系统。

　万方数据

下载后可阅读完整内容，剩余4页未读，立即下载

「已注销」

粉丝: 41
资源: 5

CURE算法：层次聚类的经典改进

CURE算法基础讲义

用C++实现的CURE算法的源码

matlab层次聚类算法

使用SC和DBI聚类算法评价指标对Ex2、Ex4、Ex5中使用Kmeans、层次聚类、DBSCAN算法对鸢尾花的聚类结果进行比较分析

k-means算法与层次聚类方法相比的优缺点

层次聚类算法与kmeans

划分聚类和层次聚类有什么区别‘

简述层次聚类两种算法的基本思想和区别

层次聚类算法理论基础

K-Means、层次聚类、DBSCAN算法的开源工具可以推荐哪些

kmeans聚类算法跟层次聚类算法有什么区别

层次聚类算法与kmeans对比分析

层次聚类算法 和EM聚类算法的详细介绍

层次聚类和DBSCAN算法的具体内容分别是什么

层次聚类算法请详细说明

stata划分聚类和层次聚类

层次聚类算法轮廓系数

基于最小距离的层次聚类和基于最小生成树的层次聚类有什么区别

你这是属于聚合的层次聚类还是分割的层次聚类

层次聚类算法的应用实例

最新资源

层次聚类算法和EM聚类算法的详细介绍