k-mediods聚类算法Python
时间: 2023-11-19 09:09:57 浏览: 102
k-mediods是一种常用的聚类算法,与k-means类似,但它使用的是实际数据点中的中心点(medoids),而不是简单的平均值。以下是Python实现的基本步骤:
1. 初始化k个medoids,可以是随机选择的数据点。
2. 对于每个数据点,计算其与所有medoids之间的距离,并将其分配到最近的medoid所在的簇。
3. 对于每个簇,选择一个非medoid数据点,将其作为新的medoid,并计算新的簇分配。
4. 如果新的medoid导致更小的总距离,则接受它并更新簇分配。否则保留原来的medoid。
重复步骤3和4,直到没有更改的簇分配或达到最大迭代次数。
下面是一个简单的Python实现:
```python
import random
import numpy as np
def kmedoids(X, k, max_iter=100):
m, n = X.shape
# 随机初始化medoids
medoids = random.sample(range(m), k)
# 初始化簇分配
clusters = np.zeros(m)
for i in range(max_iter):
# 更新簇分配
for j in range(m):
distances = [np.linalg.norm(X[j] - X[m]) for m in medoids]
cluster = np.argmin(distances)
clusters[j] = cluster
# 更新medoids
for cluster in range(k):
indices = np.where(clusters == cluster)[0]
costs = [sum([np.linalg.norm(X[i] - X[j]) for j in indices]) for i in indices]
new_medoid = indices[np.argmin(costs)]
if medoids[cluster] != new_medoid:
medoids[cluster] = new_medoid
else:
break
else:
continue
break
return medoids, clusters
```
其中,X是n个m维数据点的矩阵,k是簇数,max_iter是最大迭代次数。返回medoids和clusters,分别表示medoid的索引和每个数据点所属的簇。
阅读全文