层次聚类的两种类型:凝聚与分裂法

需积分: 49 0 下载量 193 浏览量 更新于2024-08-25 收藏 2.06MB PPT 举报
层次聚类是数据挖掘中的一个重要概念,用于在数据集中发现潜在的结构和组织,通常分为凝聚聚类和分裂聚类两种主要类型。 凝聚聚类(Agglomerative Clustering)是一种自底向上的聚类方法。它从每个数据点独立为一个簇开始,然后在每一步中,通过计算并合并两个最相似的簇,直至所有数据点形成一个单一的簇。这种方法强调的是数据之间的亲和力,通过不断聚合,确保内部簇的紧密度最大化。凝聚聚类常用于构建层次结构,例如生成聚类树(Dendrogram),便于可视化和理解数据之间的关系。 相反,分裂聚类(Divisive Clustering)则采取自顶向下的策略,将所有数据点初始化为一个大的簇,然后逐渐分割这个簇,直至达到预先设定的簇数量(如k-means算法)或者每个簇仅包含一个数据点。这种做法更关注如何将数据划分到最合适的类别中,以实现簇间的分离。 聚类分析是无监督学习的一种形式,其目的是根据对象的相似性自动发现隐藏的模式。在聚类过程中,主要目标是最大化簇间的差异(intra-cluster distances)和最小化簇内的差异(inter-cluster distances)。确定簇的数量是一个挑战,需要根据具体应用和业务需求来选择合适的方法,如肘部法则(Elbow Method)或轮廓系数(Silhouette Coefficient)。 聚类分析的应用广泛,可以用于理解具有相似特性的对象群体,比如文档、基因、蛋白质或股票等,以及数据预处理,为后续的分析(如回归、主成分分析、分类或关联规则挖掘)提供简化和压缩。此外,聚类还有助于图像处理中的特征提取,以及在K近邻搜索中进行区域搜索。 评估聚类质量是关键,理想的聚类应该具有高簇内相似性和低簇间相似性。常用的质量度量包括相似性度量(如欧氏距离、余弦相似度等)、轮廓系数等,但最终用户满意度是决定聚类效果的最终标准。在实际操作中,需要根据特定的距离函数和数据类型(数值型、分类型等)来调整度量方法,并可能对变量赋予权重以反映其在问题语境中的重要性。