层次聚类与划分聚类:算法解析
版权申诉
118 浏览量
更新于2024-06-26
收藏 688KB PDF 举报
"5聚类之层次聚类基于划分的聚类(k.pdf"
本文主要探讨了层次聚类(Hierarchical Clustering)这一重要的聚类方法。聚类是数据挖掘中的一个基础任务,它的目标是将数据集中的样本按照相似性或距离关系分组,形成不同的类别。层次聚类是一种递归地将对象分组成越来越大的簇的方法,它有两种主要的形式:凝聚的层次聚类(Agglomerative)和分裂的层次聚类(Divisive)。
1. 层次聚类的原理:
层次聚类基于样本之间的距离度量,通过构建一个树状结构(Dendrogram)来表示数据的聚类关系。在这个过程中,可以采用不同的距离计算方法,如最短距离法、最长距离法、中间距离法和类平均法。其中,类平均法因其在处理大数据集时的良好性能而受到广泛应用。
2. 凝聚的层次聚类(Agglomerative):
这种自下而上的方法开始时,每个样本被视为一个独立的簇。随后,算法逐步合并距离最近的簇,直至所有样本都合并成一个大簇。这个过程可以通过最小化簇间距离来确定合并的顺序。例如,最短距离法会将距离最近的两个簇合并,直到形成所需的簇数或满足特定条件为止。
3. 分裂的层次聚类(Divisive):
相反,自上而下的分裂方法从包含所有样本的大簇开始,然后逐渐拆分簇,直到达到预设的簇数量。这种方法通常较少使用,因为从全局簇开始拆分可能在早期就做出错误的决策,导致后续无法纠正。
4. Linkage策略:
在层次聚类中,Linkage策略用于决定如何衡量两个簇之间的相似性。常见的Linkage方法包括最短距离法(Single Linkage)、最长距离法(Complete Linkage)、中间距离法(Average Linkage)和类平均法(Ward's Method)。类平均法因能较好地平衡簇的扩张和收缩,且具有单调性,故在实践中更受欢迎。
5. 新的层次聚类算法:
随着数据规模的增长和数据类型的多样化,出现了如BIRCH(Balanced Iterative Reducing and Clustering Using Hierarchies)这样的算法,它适用于数值型大数据集,通过树形结构预先对数据进行划分,然后结合其他聚类方法进行优化。此外,还有针对分类属性数据的ROCK算法和利用动态建模的Chameleon算法,它们分别针对不同数据特性提供了有效的层次聚类解决方案。
层次聚类提供了一种直观的方式来理解和可视化数据的聚类结构,但选择合适的聚类方法、距离度量和Linkage策略对于获得高质量的聚类结果至关重要。在实际应用中,需要根据数据的特性和分析需求来灵活选择和调整这些参数。
点击了解资源详情
点击了解资源详情
点击了解资源详情
2023-03-11 上传
2023-03-11 上传
2023-03-28 上传
2021-06-29 上传
若♡
- 粉丝: 6374
- 资源: 1万+
最新资源
- 正整数数组验证库:确保值符合正整数规则
- 系统移植工具集:镜像、工具链及其他必备软件包
- 掌握JavaScript加密技术:客户端加密核心要点
- AWS环境下Java应用的构建与优化指南
- Grav插件动态调整上传图像大小提高性能
- InversifyJS示例应用:演示OOP与依赖注入
- Laravel与Workerman构建PHP WebSocket即时通讯解决方案
- 前端开发利器:SPRjs快速粘合JavaScript文件脚本
- Windows平台RNNoise演示及编译方法说明
- GitHub Action实现站点自动化部署到网格环境
- Delphi实现磁盘容量检测与柱状图展示
- 亲测可用的简易微信抽奖小程序源码分享
- 如何利用JD抢单助手提升秒杀成功率
- 快速部署WordPress:使用Docker和generator-docker-wordpress
- 探索多功能计算器:日志记录与数据转换能力
- WearableSensing: 使用Java连接Zephyr Bioharness数据到服务器