使用python实现k均值聚类
时间: 2023-08-31 10:12:26 浏览: 102
以下是使用Python实现k均值聚类的示例代码:
```python
import numpy as np
import matplotlib.pyplot as plt
# 生成数据集
np.random.seed(123)
X = np.random.randn(50, 2)
# 定义k均值聚类算法
def k_means(X, k, max_iters=100):
# 随机选择k个聚类中心
centroids = X[np.random.choice(X.shape[0], k, replace=False)]
for i in range(max_iters):
# 计算每个样本到聚类中心的距离
distances = np.sqrt(((X - centroids[:, np.newaxis])**2).sum(axis=2))
# 分配样本到最近的聚类中心
labels = np.argmin(distances, axis=0)
# 更新聚类中心
new_centroids = np.array([X[labels == j].mean(axis=0) for j in range(k)])
# 如果聚类中心不再变化,则停止迭代
if np.allclose(centroids, new_centroids):
break
centroids = new_centroids
return centroids, labels
# 聚类并可视化结果
centroids, labels = k_means(X, k=3)
plt.scatter(X[:, 0], X[:, 1], c=labels)
plt.scatter(centroids[:, 0], centroids[:, 1], marker='x', s=200, linewidths=3, color='r')
plt.show()
```
在本例中,我们使用numpy和matplotlib库生成和可视化数据集。然后,我们定义了一个k_means函数来实现k均值聚类算法。在函数中,我们首先随机选择k个聚类中心,然后在循环中进行以下步骤:
1. 计算每个样本到聚类中心的距离;
2. 分配样本到最近的聚类中心;
3. 更新聚类中心。
在每次循环后,我们检查聚类中心是否发生变化。如果聚类中心不再变化,则停止迭代。
最后,我们调用k_means函数并使用matplotlib库可视化聚类结果。
阅读全文