用k-means 方法对手写集数据进行聚类分析。用python实现
时间: 2023-11-21 19:11:15 浏览: 105
K_means_iris_dataset.zip_iris_k-means_kmeans clustering
好的,下面是用K-means方法对手写数字数据集进行聚类分析的Python代码:
```python
from sklearn.datasets import load_digits
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
import numpy as np
# 加载手写数字数据集
digits = load_digits()
X = digits.data
y = digits.target
# 使用K-means算法进行聚类分析
kmeans = KMeans(n_clusters=10, random_state=0).fit(X)
labels = kmeans.labels_
# 统计每个簇中数字出现的次数
counts = np.zeros(shape=(10, 10))
for i in range(len(labels)):
counts[labels[i], y[i]] += 1
# 绘制聚类结果图像
fig, ax = plt.subplots(10, 10, figsize=(8, 8))
for i in range(10):
for j in range(10):
ax[i, j].imshow(kmeans.cluster_centers_[i].reshape(8, 8), cmap='gray')
ax[i, j].axis('off')
if j == 0:
ax[i, j].set_ylabel(i, fontsize=10)
if i == 9:
ax[i, j].set_xlabel(j, fontsize=10)
ax[i, j].set_title(int(counts[i, j]), fontsize=10)
plt.tight_layout()
plt.show()
```
在这个代码中,我们首先使用load_digits函数加载手写数字数据集,然后将其特征存储在X中,将其标签存储在y中。接着,我们使用KMeans函数创建一个k-means对象,其中n_clusters参数指定了簇的数量,random_state参数指定了随机数种子。然后,我们使用fit函数对数据进行聚类,并使用labels_属性获取每个样本所属的簇的标签。
接下来,我们统计每个簇中数字出现的次数,并使用imshow函数将每个簇的聚类中心可视化为8x8的灰度图像。最后,我们使用axis和title函数添加坐标轴和标题,并使用tight_layout和show函数显示图像。
希望这个回答能够帮助您解决问题,如果您有任何其他问题,请随时提出!
阅读全文