k-means算法原理
时间: 2024-01-19 18:16:03 浏览: 88
K-means算法是一种常用的聚类算法,其原理如下:
1. 随机选择K个初始聚类中心。
2. 将每个样本点分配到距离其最近的聚类中心。
3. 根据分配结果,更新每个聚类的中心点,即将每个聚类中的样本点的均值作为新的聚类中心。
4. 重复步骤2和步骤3,直到聚类中心不再发生变化或达到预定的迭代次数。
K-means算法的目标是最小化样本点与其所属聚类中心之间的距离的总和,即最小化聚类内的方差。通过迭代更新聚类中心,K-means算法能够将样本点划分为K个不同的聚类。
K-means算法的优点是简单、易于实现,并且在处理大规模数据集时具有较高的效率。然而,K-means算法也有一些缺点,例如对初始聚类中心的选择敏感,可能会陷入局部最优解。
以下是一个使用K-means算法进行聚类的示例代码:
```python
from sklearn.cluster import KMeans
import numpy as np
# 生成随机数据
np.random.seed(0)
X = np.random.randn(100, 2)
# 使用K-means算法进行聚类
kmeans = KMeans(n_clusters=3, random_state=0)
kmeans.fit(X)
# 获取聚类中心
centroids = kmeans.cluster_centers_
# 获取每个样本所属的聚类
labels = kmeans.labels_
# 打印结果
print("聚类中心:")
print(centroids)
print("样本所属的聚类:")
print(labels)
```
阅读全文