层次聚类与划分聚类：算法解析

版权申诉

97 浏览量更新于2024-06-26 收藏 688KB PDF 举报

"5聚类之层次聚类基于划分的聚类(k.pdf" 本文主要探讨了层次聚类（Hierarchical Clustering）这一重要的聚类方法。聚类是数据挖掘中的一个基础任务，它的目标是将数据集中的样本按照相似性或距离关系分组，形成不同的类别。层次聚类是一种递归地将对象分组成越来越大的簇的方法，它有两种主要的形式：凝聚的层次聚类（Agglomerative）和分裂的层次聚类（Divisive）。 1. 层次聚类的原理：层次聚类基于样本之间的距离度量，通过构建一个树状结构（Dendrogram）来表示数据的聚类关系。在这个过程中，可以采用不同的距离计算方法，如最短距离法、最长距离法、中间距离法和类平均法。其中，类平均法因其在处理大数据集时的良好性能而受到广泛应用。 2. 凝聚的层次聚类（Agglomerative）：这种自下而上的方法开始时，每个样本被视为一个独立的簇。随后，算法逐步合并距离最近的簇，直至所有样本都合并成一个大簇。这个过程可以通过最小化簇间距离来确定合并的顺序。例如，最短距离法会将距离最近的两个簇合并，直到形成所需的簇数或满足特定条件为止。 3. 分裂的层次聚类（Divisive）：相反，自上而下的分裂方法从包含所有样本的大簇开始，然后逐渐拆分簇，直到达到预设的簇数量。这种方法通常较少使用，因为从全局簇开始拆分可能在早期就做出错误的决策，导致后续无法纠正。 4. Linkage策略：在层次聚类中，Linkage策略用于决定如何衡量两个簇之间的相似性。常见的Linkage方法包括最短距离法（Single Linkage）、最长距离法（Complete Linkage）、中间距离法（Average Linkage）和类平均法（Ward's Method）。类平均法因能较好地平衡簇的扩张和收缩，且具有单调性，故在实践中更受欢迎。 5. 新的层次聚类算法：随着数据规模的增长和数据类型的多样化，出现了如BIRCH（Balanced Iterative Reducing and Clustering Using Hierarchies）这样的算法，它适用于数值型大数据集，通过树形结构预先对数据进行划分，然后结合其他聚类方法进行优化。此外，还有针对分类属性数据的ROCK算法和利用动态建模的Chameleon算法，它们分别针对不同数据特性提供了有效的层次聚类解决方案。层次聚类提供了一种直观的方式来理解和可视化数据的聚类结构，但选择合适的聚类方法、距离度量和Linkage策略对于获得高质量的聚类结果至关重要。在实际应用中，需要根据数据的特性和分析需求来灵活选择和调整这些参数。

平方误差准则，误差的平方和

SSE

作为全局的目标函数，即最小化每个点

到最近质心的欧几里得距离的平方和。此时，簇的质心就是该簇内所有数据

点的平均值。

选择

个点作为初始质心

repeat

将每个点指派到最近的质心，形成

个簇重新计算每个簇的质心

until

簇不发生变化或达到最大迭代次数

时间复杂度：

O(tKmn)

,其中，

为迭代次数，

为簇的数目，

为记录数，

为维数

O((m+K)n)

，其中，

为簇的数目，

为记录

空间复杂度：

数，

为维数

K-Means

算法的详细过程

从上图中，我们可以看到，

A, B, C, D, E

是五个在图中点而灰色的点

是我们的种子点，也就是我们用来找点群的点。

有两个种子点，所以

K=2

。

然后，

K-Means

的算法如下：

①随机在图中取

(这里

K=2

)个种子点。

②然后对图中的所有点求到这

个种子点的距离，假如点

离种子点

层次聚类与划分聚类：算法解析

5聚类之层次聚类基于划分的聚类(k (3).pdf

5聚类之层次聚类基于划分的聚类(k (2).pdf

根据划分的聚类算法.pdf

5聚类之1. 层次聚类基于划分的聚类(k.pdf

5聚类之1. 层次聚类基于划分的聚类(k.docx

层次聚类.pdf

层次聚类代码.zip_层次聚类_层次聚类 MATLAB_层次聚类MATLAB_层次聚类代码

基于划分的聚类算法.pdf

基于python的数据处理和模糊层次聚类.pdf

凝聚层次聚类的matlab代码.zip_层次聚类_层次聚类 MATLAB_层次聚类MATLAB_层次聚类算法_聚类

最新资源