无监督学习:聚类与层次聚类树图解析

需积分: 43 8 下载量 159 浏览量 更新于2024-08-13 收藏 1.48MB PPT 举报
"层次聚类的树图表达是无监督聚类算法的一种可视化展示方式,通过树状结构呈现聚类的合并过程,其中聚类间的相似性度量是选择合并的关键依据。" 在无监督学习中,聚类是一种常用的技术,它在没有预先指定类别标签的情况下,将数据自组织成不同的群体或类别。无监督学习主要分为两种类型:有监督学习和无监督学习。有监督学习依赖于带有标签的数据,用于训练模型进行分类或回归预测;而无监督学习则是在未知类别标签的情况下,通过探索数据的内在结构来寻找模式或分组。 无监督学习的主要动机在于减少对大量标记数据的依赖,以及适应数据特征随时间变化的情况。它可以作为特征提取或预处理手段,为后续的有监督任务提供帮助,也可以在探索性数据分析中揭示数据的隐藏结构。 聚类作为无监督学习的一部分,其目标是将相似的样本归为一类,而不同类别的样本则具有显著的差异。聚类过程涉及相似性度量,这是决定样本归属的重要标准。常见的相似性度量包括欧氏距离、曼哈顿距离、余弦相似度等,这些度量用于计算样本之间的相似程度。 层次聚类是一种聚类方法,它通过构建树形结构(即树图或dendrogram)来表示样本之间的关系。层次聚类有两种基本策略:凝聚型和分裂型。凝聚型是从每个样本作为一个单独的聚类开始,然后逐步合并最相似的聚类,直至达到预设的聚类数量或满足特定的合并条件。分裂型则相反,从整个数据集作为一个大聚类开始,然后不断分裂,直到每个聚类包含单个样本。 在树图中,聚类的合并顺序和相似性度量直接体现在分支结构上,越接近底部的分支代表相似性较低的样本,而越靠近顶部的分支则代表相似性较高的样本。通过切割树图的不同高度,可以得到不同数量的聚类。选择合适的切割位置通常依赖于聚类的准则函数,比如最小生成树法、最大距离法或基于连通性的方法。 除此之外,还有其他的聚类方法,如基于迭代最优化的K-means算法,它通过迭代更新聚类中心来优化聚类结果;基于划分的聚类方法如DBSCAN,根据密度来划分样本,发现任意形状的聚类。 层次聚类的树图表达是一种直观的无监督聚类工具,它能够清晰地展示数据的层次结构,帮助理解数据的聚类特性,并且对于选择合适的聚类数量提供了可视化支持。在实际应用中,结合不同的相似性度量和聚类准则,可以有效地进行无监督学习的聚类分析。