层次聚类:自下而上与自上而下方法详解及BIRCH应用
版权申诉
3 浏览量
更新于2024-06-26
收藏 688KB PDF 举报
层次聚类是一种基于划分的聚类方法,它通过构建层次结构来组织数据,从而实现聚类过程。层次聚类的基本原理是逐步合并相似度高的样本或类,直至所有数据归并为一个大类或者达到预设的类数。它主要包括凝聚型层次聚类(agglomerative)和分裂型层次聚类(divisive)两种形式。
凝聚型层次聚类,又称为自下而上(bottom-up)方法,从每个个体开始,通过不断寻找最相似的点进行合并,形成类别的层级结构。常用的链接度(linkage)方法包括最短距离法(single linkage)、最长距离法(complete linkage)、中间距离法(average linkage)和类平均法(ward’s method),其中类平均法因其良好的单调性和适度的空间扩张/浓缩特性,通常被广泛采用。
分裂型层次聚类则相反,它是自上而下的过程,从一个大类开始,通过分割相似度较低的部分,逐步细化类别。在实际应用中,选择凝聚型还是分裂型,取决于数据的特点和目标类别的数量,可能需要权衡效率和准确性。
在处理大规模数据时,层次聚类可能会遇到性能瓶颈,因此出现了像BIRCH(Balanced Iterative Reducing and Clustering Using Hierarchies)这样的改进算法,它结合了层次方法和迭代减少,尤其适用于数值型数据。ROCK(A Hierarchical Clustering Algorithm for Categorical Attributes)针对类别型数据设计,强调适应不同类型的数据特征。Chameleon(A Hierarchical Clustering Algorithm Using Dynamic Modeling)则采用了动态建模的链接度方法,以提高算法的灵活性和适应性。
为了进一步提升层次聚类的效果,层次聚类常常与其他聚类方法结合,如循环定位(repeated bisectioning),这样可以弥补单一层次聚类方法的不足,提供更准确的聚类结果。层次聚类以其直观的层次结构和灵活的链接度选择,为不同类型的聚类任务提供了有力的工具。
2023-03-11 上传
2022-11-13 上传
2021-06-29 上传
2022-07-14 上传
若♡
- 粉丝: 6358
- 资源: 1万+
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析