逐句注释import matplotlib.pyplot as plt from sklearn.cluster import KMeans from sklearn.metrics import silhouette_score import pandas as pd data = pd.read_csv('xigua.csv') # 加载数据 print(data) print(data.shape) X = data.iloc[: ,1:3].values print(X) print(X.shape) plt.scatter(X[:, 0], X[:, 1], c = "red", marker = 'o', label = 'None') plt.ylabel('Sugar content') plt.xlabel('density') plt.legend(loc = 2) plt.show() #运用数学方法计算k的取值 score = [] for i in range(10): model = KMeans(n_clusters = i + 2) model.fit(X[:, 1:3]) #计算轮廓系数,系数取值范围[-1,1],越接近1的,k的值越好 score.append(silhouette_score(X[:, 0:2], model.labels_, metric = 'euclidean')) plt.figure(figsize = (5, 4)) plt.plot(range(2, 12, 1), score) plt.show() #n_clusters表示k的取值,也就是聚成簇的数量 #fit()函数:做的就是模型训练 kmeans = KMeans(n_clusters = 3, random_state = 0, ).fit(X[:, 1:3]) label_pred = kmeans.labels_#获取聚类标签 print(label_pred) centroids = kmeans.cluster_centers_ #获取聚类簇心 print(centroids) #绘制结果 x0 = X[label_pred == 0] x1 = X[label_pred == 1] plt.scatter(x0[:, 0], x0[:, 1], c = "red", marker = 'o', label = 'label0') plt.scatter(x1[:, 0], x1[:, 1], c = "green", marker = '*', label = 'label1') plt.ylabel('Sugar content') plt.xlabel('density') plt.legend(loc = 2) plt.show()
时间: 2023-09-12 15:07:35 浏览: 189
解决matplotlib.pyplot在Jupyter notebook中不显示图像问题
这份代码主要是对西瓜数据集进行聚类分析,下面是逐行的注释:
```
import matplotlib.pyplot as plt # 导入绘图库
from sklearn.cluster import KMeans # 导入kmeans聚类算法
from sklearn.metrics import silhouette_score # 导入轮廓系数评价指标
import pandas as pd # 导入数据处理库
data = pd.read_csv('xigua.csv') # 加载数据
print(data) # 打印数据
print(data.shape) # 打印数据的形状
X = data.iloc[:, 1:3].values # 取第2列和第3列作为特征
print(X) # 打印特征
print(X.shape) # 打印特征的形状
plt.scatter(X[:, 0], X[:, 1], c="red", marker='o', label='None') # 绘制散点图
plt.ylabel('Sugar content') # y轴标签
plt.xlabel('density') # x轴标签
plt.legend(loc=2) # 图例位置
plt.show() # 显示图像
score = [] # 初始化轮廓系数列表
for i in range(10): # 循环计算轮廓系数
model = KMeans(n_clusters=i + 2) # 聚类模型
model.fit(X[:, 1:3]) # 训练模型
# 计算轮廓系数,系数取值范围[-1,1],越接近1的,k的值越好
score.append(silhouette_score(X[:, 0:2], model.labels_, metric='euclidean'))
plt.figure(figsize=(5, 4)) # 创建图像
plt.plot(range(2, 12, 1), score) # 绘制轮廓系数图像
plt.show() # 显示图像
kmeans = KMeans(n_clusters=3, random_state=0).fit(X[:, 1:3]) # 聚类模型
label_pred = kmeans.labels_ # 获取聚类标签
print(label_pred) # 打印聚类标签
centroids = kmeans.cluster_centers_ # 获取聚类簇心
print(centroids) # 打印聚类簇心
x0 = X[label_pred == 0] # 获取第一类样本
x1 = X[label_pred == 1] # 获取第二类样本
plt.scatter(x0[:, 0], x0[:, 1], c="red", marker='o', label='label0') # 绘制第一类样本的散点图
plt.scatter(x1[:, 0], x1[:, 1], c="green", marker='*', label='label1') # 绘制第二类样本的散点图
plt.ylabel('Sugar content') # y轴标签
plt.xlabel('density') # x轴标签
plt.legend(loc=2) # 图例位置
plt.show() # 显示图像
```
这段代码的目的是对西瓜数据集进行聚类分析,首先通过读取数据集获取特征,然后绘制散点图观察数据的分布情况,接着通过计算轮廓系数来确定最优的聚类簇数,再利用KMeans算法进行聚类分析,并绘制聚类结果的散点图。
阅读全文