首页使用python实现k均值聚类

使用python实现k均值聚类

时间: 2023-08-31 10:12:26 浏览: 102

以下是使用Python实现k均值聚类的示例代码： ```python import numpy as np import matplotlib.pyplot as plt # 生成数据集 np.random.seed(123) X = np.random.randn(50, 2) # 定义k均值聚类算法 def k_means(X, k, max_iters=100): # 随机选择k个聚类中心 centroids = X[np.random.choice(X.shape[0], k, replace=False)] for i in range(max_iters): # 计算每个样本到聚类中心的距离 distances = np.sqrt(((X - centroids[:, np.newaxis])**2).sum(axis=2)) # 分配样本到最近的聚类中心 labels = np.argmin(distances, axis=0) # 更新聚类中心 new_centroids = np.array([X[labels == j].mean(axis=0) for j in range(k)]) # 如果聚类中心不再变化，则停止迭代 if np.allclose(centroids, new_centroids): break centroids = new_centroids return centroids, labels # 聚类并可视化结果 centroids, labels = k_means(X, k=3) plt.scatter(X[:, 0], X[:, 1], c=labels) plt.scatter(centroids[:, 0], centroids[:, 1], marker='x', s=200, linewidths=3, color='r') plt.show() ``` 在本例中，我们使用numpy和matplotlib库生成和可视化数据集。然后，我们定义了一个k_means函数来实现k均值聚类算法。在函数中，我们首先随机选择k个聚类中心，然后在循环中进行以下步骤： 1. 计算每个样本到聚类中心的距离； 2. 分配样本到最近的聚类中心； 3. 更新聚类中心。在每次循环后，我们检查聚类中心是否发生变化。如果聚类中心不再变化，则停止迭代。最后，我们调用k_means函数并使用matplotlib库可视化聚类结果。

阅读全文