k-means聚类分析 python不调库实现
时间: 2024-06-13 22:08:08 浏览: 109
K-means聚类分析与python实现
K-means聚类是一种常见的无监督学习算法,它将数据集分成K个簇,每个簇包含最接近其质心的数据点。K-means算法的基本思想是:首先随机选择K个点作为初始质心,然后将每个数据点分配到最近的质心所在的簇中,接着重新计算每个簇的质心,重复以上步骤直到质心不再发生变化或达到预定的迭代次数。
以下是Python实现K-means聚类分析的代码:
```python
import numpy as np
def kmeans(X, K, max_iters=100):
# 随机初始化K个质心
centroids = X[np.random.choice(len(X), K, replace=False)]
for i in range(max_iters):
# 计算每个样本到质心的距离
distances = np.sqrt(((X - centroids[:, np.newaxis])**2).sum(axis=2))
# 将每个样本分配到距离最近的质心所在的簇中
labels = np.argmin(distances, axis=0)
# 更新每个簇的质心
new_centroids = np.array([X[labels == k].mean(axis=0) for k in range(K)])
# 如果质心不再发生变化,则退出循环
if np.all(centroids == new_centroids):
break
centroids = new_centroids
return centroids, labels
```
其中,X是一个n×m的矩阵,表示n个样本的m个特征;K是簇的个数;max_iters是最大迭代次数。函数返回K个质心和每个样本所属的簇的标签。
阅读全文