聚类算法详解：基于划分的方法与K-Means

需积分: 0 131 浏览量更新于2024-08-05 收藏 1.07MB PDF 举报

"聚类算法是无监督学习的一种方法，旨在将数据集中的对象根据相似性归类，使得同一类内的对象相似度高，类间差异性大。主要分为基于划分、层次、密度、网格、模型和模糊六种方法。本文重点关注基于划分的聚类算法，特别是k-means算法及其变种。 1. 基于划分的聚类：这种算法首先确定聚类的数量，然后选择初始中心点，通过迭代更新中心点直至达到稳定状态。k-means是最典型的代表，其时间复杂度为O(nkt)，n为对象数量，k为簇数，t为迭代次数。k-means变种包括k-medoids、k-modes、k-medians和kernel k-means等。 2. 距离度量：在聚类中，样本之间的相似度通常通过距离来衡量。常见的距离度量方法包括： - 闵可夫斯基距离（Minkowski Distance）：p=1对应曼哈顿距离，p=2对应欧式距离，p趋于无穷大则为切比雪夫距离。欧式距离广泛使用，但对异常值敏感。在数据分布不均匀时，可以考虑使用曼哈顿或切比雪夫距离。 - 夹角余弦相似度：衡量两个向量在多大程度上指向相同的方向，值域在-1到1之间，1表示完全相同，-1表示方向完全相反。 - 杰卡德相似系数与距离（Jaccard Similarity and Distance）：常用于衡量集合间的相似性，适用于处理稀疏数据。 3. 数据预处理：在计算距离之前，可能需要对数据进行标准化处理，如z-score标准化，即将每个特征减去其均值，除以其标准差，以消除不同特征尺度的影响，使各维度具有可比性。 k-means算法流程如下： 1. 初始化：选择k个初始质心（中心点）。 2. 分配：将每个数据点分配到最近的质心所在的簇。 3. 更新：重新计算每个簇的质心，即簇中所有点的平均值。 4. 重复步骤2和3，直到质心不再显著移动或达到预设的最大迭代次数。 4. 局限性：k-means算法有一些局限，例如对初始质心的选择敏感，可能陷入局部最优解；对于非凸形状的簇识别能力有限；需要预先设定簇的数量k，这在实际应用中往往未知。 5. 解决策略：可以通过多次运行k-means并选择最优结果，或者使用更复杂的变体如DBSCAN（基于密度的聚类）来应对非凸簇。对于k值的选取，可以尝试Elbow Method或Silhouette Method等方法进行评估。聚类算法是数据分析的重要工具，尤其在数据探索和模式识别阶段。理解各种距离度量方法和算法的优缺点，有助于选择合适的聚类策略，提高数据分析的准确性和有效性。"

可以看到，上述处理开始体现数据的统计特性了。这种方法在假设数据各个维度不相关的情况下利用数据分布的特

性计算出不同的距离。如果维度相互之间数据相关（例如：身高较高的信息很有可能会带来体重较重的信息，因为

两者是有关联的），这时候就要用到马氏距离（Mahalanobis distance）了



2. 夹角余弦相似度：

对于向量

余弦相似度最常见的应用就是计算文本相似度。将两个文本根据他们词，建立两个向量，计算这两个向量的余弦

值，就可以知道两个文本在统计学方法中他们的相似度情况。实践证明，这是一个非常有效的方法。

余弦距离和欧式距离一般是不等价的。比如说，夹角一样的两条边，边的距离是不一样的。但是两个向量的模长=1

时，其欧式距离和余弦距离是等价的。如果向量模长归一化为1。那么将该训练数据丢到k-means里面去，使用欧

式距离，也等价于使用了余弦距离。推导如下：



3. 杰卡德相似系数与距离（Jaccard）：

Jaccard（杰卡德）相似性系数主要用于计算符号度量或布尔值度量的样本间的相似度，适用于样本只有（0,1）的

情况，又叫二元相似性。无法衡量差异具体值的大小，只能获得“是否相同”这样一种结果。等于样本集交集个数和

样本集并集个数的比值，公式如下：

，



与Jaccard系数相反的Jaccard距离：用两个集合中不同元素所占比例来衡量两个集合（样本）的区分度:

将杰卡德相似性度量应用到基于物品的协同过滤系统中，并建立起相应的评价分析方法。与传统相似性度量方法相

比，杰卡德方法完善了余弦相似性只考虑用户评分而忽略了其他信息量的弊端，特别适合于应用到稀疏度过高的数

据，下面是几个常用的应用场景：

（1）过滤相似度很高的新闻，或者网页去重

（2）考试防作弊系统

（3）论文查重系统



剩余11页未读，继续阅读

东方捕

粉丝: 22

聚类算法详解：基于划分的方法与K-Means

k-modes聚类算法1.rar

fcm聚类算法研究fcm聚类算法，fcm聚类算法，

使用numpy实现的聚类算法（包括时空聚类算法）

一种基于 Hash 函数抽样的数据流聚类算法1

基于python聚类算法的实现-包含：最大最小距离算法、近邻聚类算法、层次聚类算法、K-均值聚类算法、ISODATA聚类算法

k-means聚类算法k-means聚类算法k-means聚类算法k-means聚类算法.txt

基于KMeans聚类的协同过滤推荐算法推荐原理、过程、代码实现 Canopy聚类算法 KMeans+Canopy聚类算法 聚类算法程序实现 KMEans聚类算法代码java

DPC.rar_DPC_DPC聚类算法_dpc聚类_密度聚类算法_聚类算法

聚类算法使用numpy实现的聚类算法（包括时空聚类算法）.zip

聚类算法综述以及主流算法对比的研究课程作业+python、聚类算法+聚类算法综述

最新资源

基于KMeans聚类的协同过滤推荐算法推荐原理、过程、代码实现 Canopy聚类算法 KMeans+Canopy聚类算法聚类算法程序实现 KMEans聚类算法代码java