层次聚类与划分聚类:算法解析
版权申诉
97 浏览量
更新于2024-06-26
收藏 688KB PDF 举报
"5聚类之层次聚类基于划分的聚类(k.pdf"
本文主要探讨了层次聚类(Hierarchical Clustering)这一重要的聚类方法。聚类是数据挖掘中的一个基础任务,它的目标是将数据集中的样本按照相似性或距离关系分组,形成不同的类别。层次聚类是一种递归地将对象分组成越来越大的簇的方法,它有两种主要的形式:凝聚的层次聚类(Agglomerative)和分裂的层次聚类(Divisive)。
1. 层次聚类的原理:
层次聚类基于样本之间的距离度量,通过构建一个树状结构(Dendrogram)来表示数据的聚类关系。在这个过程中,可以采用不同的距离计算方法,如最短距离法、最长距离法、中间距离法和类平均法。其中,类平均法因其在处理大数据集时的良好性能而受到广泛应用。
2. 凝聚的层次聚类(Agglomerative):
这种自下而上的方法开始时,每个样本被视为一个独立的簇。随后,算法逐步合并距离最近的簇,直至所有样本都合并成一个大簇。这个过程可以通过最小化簇间距离来确定合并的顺序。例如,最短距离法会将距离最近的两个簇合并,直到形成所需的簇数或满足特定条件为止。
3. 分裂的层次聚类(Divisive):
相反,自上而下的分裂方法从包含所有样本的大簇开始,然后逐渐拆分簇,直到达到预设的簇数量。这种方法通常较少使用,因为从全局簇开始拆分可能在早期就做出错误的决策,导致后续无法纠正。
4. Linkage策略:
在层次聚类中,Linkage策略用于决定如何衡量两个簇之间的相似性。常见的Linkage方法包括最短距离法(Single Linkage)、最长距离法(Complete Linkage)、中间距离法(Average Linkage)和类平均法(Ward's Method)。类平均法因能较好地平衡簇的扩张和收缩,且具有单调性,故在实践中更受欢迎。
5. 新的层次聚类算法:
随着数据规模的增长和数据类型的多样化,出现了如BIRCH(Balanced Iterative Reducing and Clustering Using Hierarchies)这样的算法,它适用于数值型大数据集,通过树形结构预先对数据进行划分,然后结合其他聚类方法进行优化。此外,还有针对分类属性数据的ROCK算法和利用动态建模的Chameleon算法,它们分别针对不同数据特性提供了有效的层次聚类解决方案。
层次聚类提供了一种直观的方式来理解和可视化数据的聚类结构,但选择合适的聚类方法、距离度量和Linkage策略对于获得高质量的聚类结果至关重要。在实际应用中,需要根据数据的特性和分析需求来灵活选择和调整这些参数。
2023-03-28 上传
2021-06-29 上传
若♡
- 粉丝: 6454
- 资源: 1万+
最新资源
- 你好,世界
- Day24
- Python-PIL-picture:采用感知哈希算法基于Python-PIL的图像去重
- BookReviews
- 网页游戏java源码-AnagramGame-1:这是我的游戏,我只是测试如何学习如何控制JavaWeb应用程序源代码
- 同济大学论文:又一个同济大学研究生学位论文模板
- pong-game
- 动物怪兽头像系列图标下载
- MATLAB用拟合出的代码绘图-darc-experiments-matlab:使用贝叶斯自适应设计运行延迟和风险选择(DARC)实验
- Redis-x64-4.0.14.2.msi+redis-desktop-manager-0.8.8.384.exe
- sm-engine:代谢物注释引擎,用于成像质谱
- platexcheat:pLaTeX备忘单
- react-basic-image-search
- OpenSC2K:OpenSC2K-Maxis对Sim City 2000进行的开源重制
- mysite
- P-Moontool-开源