无监督学习与聚类:非度量相似性函数解析

需积分: 43 8 下载量 129 浏览量 更新于2024-07-10 收藏 1.48MB PPT 举报
"非度量的相似性函数-无监督聚类算法" 在无监督学习领域,聚类是一种常用的数据分析方法,它旨在无类别标签的情况下,根据数据自身的特性将样本分为不同的群体或聚类。聚类的目标是使得同一聚类内的样本尽可能相似,而不同聚类间的样本尽可能不相似。非度量的相似性函数在此过程中扮演了关键角色,它允许我们比较两个向量的相似性而不依赖于传统的距离度量。 非度量的相似性函数并不遵循欧几里得距离等度量规则,而是基于特定的相似性原则。对称性是非度量相似性函数的一个基本要求,即当两个样本具有某种程度的相似性时,函数的值应较大。一个常见的非度量相似性函数是归一化内积,也称为余弦相似度,它通过计算两个向量的夹角余弦来衡量它们之间的相似性。余弦值接近1表示两个向量方向接近,相似性高;余弦值接近0则表示方向差异大,相似性低。 无监督学习与有监督学习相对,后者依赖于已知的类别标签来训练模型,而无监督学习则是在没有这些标签的情况下进行。无监督学习的应用包括聚类、概率密度估计等,特别是在大规模数据集的预处理和特征提取中。无监督学习的一个动机是降低标记数据的成本,通过先在小规模有标签数据上训练初步模型,再在大规模无标签数据上应用,或利用无监督学习捕捉数据中随着时间变化的特征以提升分类效果。 聚类作为一种无监督学习方法,有多种实现策略,如基于迭代最优化的方法(如K-means)、基于划分的方法(如单一链接、完全链接、平均链接等)以及层次聚类。在聚类过程中,相似性度量的选择至关重要,常见的度量包括欧几里得距离、曼哈顿距离、切比雪夫距离等度量距离的方法,以及Jaccard相似度、余弦相似度、皮尔逊相关系数等非度量的相似性函数。 相似性度量的选择直接影响聚类结果的质量。例如,在高维数据中,欧几里得距离可能会导致所谓的“维数灾难”,此时余弦相似度可能更合适,因为它不考虑向量的长度,只关注它们的方向。而当数据包含不同尺度的特征时,需要对数据进行预处理,如标准化或归一化,以便各种度量能够公平地比较样本。 无监督聚类是通过非度量的相似性函数对无标签数据进行分组,以揭示数据的内在结构和模式。聚类可以作为独立的数据分析工具,也可以作为其他机器学习任务的预处理步骤,而选择合适的相似性度量是实现有效聚类的关键。