简述层次聚类两种算法的基本思想和区别
时间: 2023-07-17 13:56:46 浏览: 95
试验三k-均值聚类算法试验报告.pdf
层次聚类是一种无监督学习算法,于将数据集中的本按照相似进行分组。它的基本思想是通过计算样本之间的似度或距离来建一个层次结构,将最相似的样本逐渐合并,直到最终形成一个由不同的聚类组成的层次结构。
层次聚类算法有两种主要的实现方式:凝聚层次聚类和分裂层次聚类。
凝聚层次聚类(Agglomerative Hierarchical Clustering)的基本思想是从每个样本开始,逐步将最相似的样本合并为一个聚类,直到所有样本都被合并到一个聚类中。这个过程可以通过计算样本之间的距离或相似度来实现。凝聚层次聚类的优点是简单易于理解和实现,但是对于大规模数据集计算开销较大。
分裂层次聚类(Divisive Hierarchical Clustering)的基本思想是从一个包含所有样本的聚类开始,逐步将最不相似的样本分裂出去,形成新的聚类,直到每个样本都形成一个独立的聚类为止。这个过程可以通过计算样本
阅读全文