首页k-means算法 python实现

k-means算法 python实现

时间: 2023-09-19 17:01:07 浏览: 114

k-means算法是一种常用的聚类算法，它通过将样本点划分为K个不同的簇而被广泛应用。下面是用Python实现k-means算法的步骤： 1. 初始化：选择K个随机的中心点作为初始的聚类中心。 2. 分配：对于每个样本点，计算其与各个聚类中心的距离，并将样本点分配给距离最近的聚类中心。 3. 更新：对于每个聚类，计算其所有样本点的均值，将该均值作为新的聚类中心。 4. 重复步骤2和3，直到聚类中心不再发生变化或达到预定的迭代次数。以下是Python代码实现k-means算法的伪代码： ``` 1. 导入相关的库： import numpy as np 2. 定义k-means函数： def k_means(data, K, max_iter): centroids = np.random.choice(data, K) # 随机选择K个聚类中心 for _ in range(max_iter): clusters = [[] for _ in range(K)] # 初始化K个簇 for point in data: distances = [np.linalg.norm(point - centroid) for centroid in centroids] # 计算样本点和各个聚类中心的距离 cluster_idx = np.argmin(distances) # 找到距离最近的聚类中心的索引 clusters[cluster_idx].append(point) # 将样本点分配给距离最近的簇 new_centroids = [np.mean(cluster, axis=0) for cluster in clusters] # 计算新的聚类中心 if np.all(centroids == new_centroids): # 判断是否收敛 break centroids = new_centroids # 更新聚类中心 return clusters, centroids 3. 调用k-means函数： clusters, centroids = k_means(data, K, max_iter) ``` 其中，`data`是输入的样本数据，`K`是簇的个数，`max_iter`是最大迭代次数。返回的`clusters`是分配好的样本点簇的列表，`centroids`是最终得到的聚类中心点的坐标。

阅读全文