层次聚类与划分聚类:算法解析
版权申诉
145 浏览量
更新于2024-06-26
收藏 688KB PDF 举报
"5聚类之层次聚类基于划分的聚类(k.pdf"
本文主要探讨了层次聚类(Hierarchical Clustering)这一重要的聚类方法。聚类是数据挖掘中的一个基础任务,它的目标是将数据集中的样本按照相似性或距离关系分组,形成不同的类别。层次聚类是一种递归地将对象分组成越来越大的簇的方法,它有两种主要的形式:凝聚的层次聚类(Agglomerative)和分裂的层次聚类(Divisive)。
1. 层次聚类的原理:
层次聚类基于样本之间的距离度量,通过构建一个树状结构(Dendrogram)来表示数据的聚类关系。在这个过程中,可以采用不同的距离计算方法,如最短距离法、最长距离法、中间距离法和类平均法。其中,类平均法因其在处理大数据集时的良好性能而受到广泛应用。
2. 凝聚的层次聚类(Agglomerative):
这种自下而上的方法开始时,每个样本被视为一个独立的簇。随后,算法逐步合并距离最近的簇,直至所有样本都合并成一个大簇。这个过程可以通过最小化簇间距离来确定合并的顺序。例如,最短距离法会将距离最近的两个簇合并,直到形成所需的簇数或满足特定条件为止。
3. 分裂的层次聚类(Divisive):
相反,自上而下的分裂方法从包含所有样本的大簇开始,然后逐渐拆分簇,直到达到预设的簇数量。这种方法通常较少使用,因为从全局簇开始拆分可能在早期就做出错误的决策,导致后续无法纠正。
4. Linkage策略:
在层次聚类中,Linkage策略用于决定如何衡量两个簇之间的相似性。常见的Linkage方法包括最短距离法(Single Linkage)、最长距离法(Complete Linkage)、中间距离法(Average Linkage)和类平均法(Ward's Method)。类平均法因能较好地平衡簇的扩张和收缩,且具有单调性,故在实践中更受欢迎。
5. 新的层次聚类算法:
随着数据规模的增长和数据类型的多样化,出现了如BIRCH(Balanced Iterative Reducing and Clustering Using Hierarchies)这样的算法,它适用于数值型大数据集,通过树形结构预先对数据进行划分,然后结合其他聚类方法进行优化。此外,还有针对分类属性数据的ROCK算法和利用动态建模的Chameleon算法,它们分别针对不同数据特性提供了有效的层次聚类解决方案。
层次聚类提供了一种直观的方式来理解和可视化数据的聚类结构,但选择合适的聚类方法、距离度量和Linkage策略对于获得高质量的聚类结果至关重要。在实际应用中,需要根据数据的特性和分析需求来灵活选择和调整这些参数。
2023-03-28 上传
2022-11-13 上传
2021-06-29 上传
2022-07-14 上传
若♡
- 粉丝: 6309
- 资源: 1万+
最新资源
- Unity UGUI性能优化实战:UGUI_BatchDemo示例
- Java实现小游戏飞翔的小鸟教程分享
- Ant Design 4.16.8:企业级React组件库的最新更新
- Windows下MongoDB的安装教程与步骤
- 婚庆公司响应式网站模板源码下载
- 高端旅行推荐:官网模板及移动响应式网页设计
- Java基础教程:类与接口的实现与应用
- 高级版照片排版软件功能介绍与操作指南
- 精品黑色插画设计师作品展示网页模板
- 蓝色互联网科技企业Bootstrap网站模板下载
- MQTTFX 1.7.1版:Windows平台最强Mqtt客户端体验
- 黑色摄影主题响应式网站模板设计案例
- 扁平化风格商业旅游网站模板设计
- 绿色留学H5模板:科研教育机构官网解决方案
- Linux环境下EMQX安装全流程指导
- 可爱卡通儿童APP官网模板_复古绿色动画设计