优化层次聚类：BIRCH与CURE算法解析 - CSDN文库

5星 · 超过95%的资源 89 浏览量更新于2023-04-29 1 收藏 342KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

本文主要介绍了两种层次聚类的优化算法——BIRCH和CURE，这两种算法针对大规模数据集和非球形分布提供了更高效的解决方案。在机器学习领域，层次聚类是一种常见的无监督学习方法，用于将数据点组织成一个树状结构，表示数据之间的相似性。然而，传统的层次聚类算法如AGNES在处理大规模数据时效率较低。为了克服这个问题，出现了优化算法，如BIRCH（平衡迭代削减聚类法）和CURE（使用代表点的聚类法）。 BIRCH算法的核心思想是使用聚类特征树（CLTree）存储数据，这是一种高度平衡的树结构，具有分枝因子和类直径两个参数。分枝因子限制了树节点的最大子节点数，类直径则定义了簇内点的最大距离。BIRCH的优点在于其线性时间复杂度，适用于大规模数据集，但它的局限性在于假设数据分布为凸形或球形，并且需要预先设定聚类个数和簇的相关参数。 CURE是对BIRCH的一种优化，旨在处理非球形分布的数据。与AGNES不同，CURE不使用所有点或类中心来表示类别，而是从每个类中抽取一定数量的代表点，并通过收缩因子使其靠近类中心，以适应非球形形状。这种方法减少了噪声对聚类的影响，提高了对非球形场景的适应性。尽管CURE在某些场景下表现优秀，但由于其他密度聚类方法的出现，如DBSCAN，它的应用相对较少。在实际应用中，如使用Python的scikit-learn库，可以调用Birch类进行BIRCH算法的聚类操作。该类提供了多个参数，如threshold（阈值），branching_factor（分枝因子），n_clusters（聚类数）等，以调整模型性能。总结来说，BIRCH和CURE是层次聚类的优化算法，它们通过创新的数据结构和策略提升了处理大规模数据和非球形分布的能力。BIRCH利用聚类特征树实现线性效率，而CURE则通过代表点和收缩因子来适应非球形簇。在实际应用中，选择合适的算法需考虑数据的特性和需求。

资源详情

资源推荐

机器学习（聚类七）机器学习（聚类七）——层次聚类的优化算法层次聚类的优化算法

上篇博客介绍的层次聚类，尤其是AGNES这一传统的层次聚类算法。这篇博客介绍层次聚类的优化算法。

优化算法优化算法

BIRCH算法算法

BIRCH算法(平衡迭代削减聚类法)：聚类特征使用3元组进行一个簇的相关信息，通过构建满足分枝因子和簇直径限制的聚类

特征树来求聚类，聚类特征树其实是一个具有两个参数分枝因子和类直径的高度平衡树；分枝因子规定了树的每个节点的子女

的最多个数，而类直径体现了对这一类点的距离范围；非叶子节点为它子女的最大特征值；聚类特征树的构建可以是动态过程

的，可以随时根据数据对模型进行更新操作。

优缺点：

适合大规模数据集，线性效率；

只适合分布呈凸形或者球形的数据集、需要给定聚类个数和簇之间的相关参数；

CURE算法算法

CURE（对BIRCH的优化，但很少有人用。因为不如后面讲的密度聚类方法）

CURE算法(使用代表点的聚类法)：该算法先把每个数据点看成一类，然后合并距离最近的类直至类个数为所要求的个数为

止。但是和AGNES算法的区别是：取消了使用所有点或用中心点+距离来表示一个类，而是从每个类中抽取固定数量、分布

较好的点作为此类的代表点，并将这些代表点乘以一个适当的收缩因子，使它们更加靠近类中心点。代表点的收缩特性可以调

整模型可以匹配那些非球形的场景，而且收缩因子的使用可以减少噪音对聚类的影响。

优缺点：

能够处理非球形分布的应用场景

采用随机抽样和分区的方式可以提高算法的执行效率

代码实现代码实现

基于scikit的API创建模拟数据，使用BRICH算法对数据进行聚类操作，并比较n_clusters参数的作用。

API

class sklearn.cluster.Birch(threshold=0.5, branching_factor=50, n_clusters=3, compute_labels=True, copy=True)

代码代码

from itertools import cycle

from time import time

import numpy as np

import matplotlib as mpl

import matplotlib.pyplot as plt

import matplotlib.colors as colors

from sklearn.preprocessing import StandardScaler

from sklearn.cluster import Birch

from sklearn.datasets.samples_generator import make_blobs

## 设置属性防止中文乱码

mpl.rcParams['font.sans-serif'] = [u'SimHei'] mpl.rcParams['axes.unicode_minus'] = False

## 产生模拟数据

xx = np.linspace(-22, 22, 10)

yy = np.linspace(-22, 22, 10)

xx, yy = np.meshgrid(xx, yy)

n_centres = np.hstack((np.ravel(xx)[:, np.newaxis],

np.ravel(yy)[:, np.newaxis]))

#产生10万条特征属性是2，类别是100,符合高斯分布的数据集

X, y = make_blobs(n_samples=100000,n_features=2, centers=n_centres, random_state=28)

#创建不同的参数（簇直径）Birch层次聚类

birch_models = [

Birch(threshold=1.7, n_clusters=None),

Birch(threshold=0.5, n_clusters=None),

Birch(threshold=1.7, n_clusters=100)

] #threshold：簇直径的阈值， branching_factor：大叶子个数

#我们也可以加参数来试一下效果，比如加入分支因子branching_factor，给定不同的参数值，看聚类的结果

## 画图

final_step = [u'直径=1.7;n_lusters=None',u'直径=0.5;n_clusters=None',u'直径=1.7;n_lusters=100']

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余2页未读，立即下载

weixin_38616120

粉丝: 7
资源: 944

会员权益专享

图片转文字

全年可省5，000元立即开通

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈