ax[i].scatter(centroids[:,0],centroids[:,1],s=120,marker="x",c="black",linewidth=3)‘

这段代码是用来在二维坐标系上绘制聚类中心点的散点图的。具体解释如下： - `ax[i]`：表示在第 i 个子图上进行绘制； - `scatter()`：表示绘制散点图的函数； - `centroids[:,0]`：表示聚类中心点在 x 轴上的坐标； - `centroids[:,1]`：表示聚类中心点在 y 轴上的坐标； - `s=120`：表示散点的大小为 120； - `marker="x"`：表示散点的形状为 x； - `c="black"`：表示散点的颜色为黑色； - `linewidth=3`：表示散点的边框宽度为 3。总的来说，这段代码是用来在图像上标记出聚类中心点的位置和形状，并且让它们突出显示。

plt.scatter(centroids[:, 0],

据引用和引用[2]中的内容，可以得知plt.scatter()函数用于绘制散点图，其中centroids[:, 0]表示散点图中点的x坐标，而y坐标需要根据具体情况进行填写。如果是绘制数据集中的点，则可以使用data[:,1]表示y坐标，如果是绘制聚类中心点，则需要根据具体情况填写y坐标的值。示例代码如下： ```python import numpy as np import matplotlib.pyplot as plt # 随机生成100个点的数据集 data = np.random.randint(low=1, high=30, size=(100, 2)) # 随机生成3个聚类中心点 centroids = np.random.randint(low=1, high=30, size=(3, 2)) # 绘制数据集中的点 plt.scatter(data[:, 0], data[:, 1], s=50, c='b', alpha=0.5) # 绘制聚类中心点 plt.scatter(centroids[:, 0], [10, 20, 30], s=200, c='r', marker='*', alpha=0.8) plt.title('scatter diagram', fontsize=20, c='r') plt.show() ``` 在上述代码中，我们随机生成了100个点的数据集和3个聚类中心点，然后使用plt.scatter()函数绘制了数据集中的点和聚类中心点。其中，centroids[:, 0]表示聚类中心点的x坐标，而y坐标分别为10、20、30。

代码改进：import numpy as np import pandas as pd import matplotlib as mpl import matplotlib.pyplot as plt from sklearn.datasets import make_blobs def distEclud(arrA,arrB): #欧氏距离 d = arrA - arrB dist = np.sum(np.power(d,2),axis=1) #差的平方的和 return dist def randCent(dataSet,k): #寻找质心 n = dataSet.shape[1] #列数 data_min = dataSet.min() data_max = dataSet.max() #生成k行n列处于data_min到data_max的质心 data_cent = np.random.uniform(data_min,data_max,(k,n)) return data_cent def kMeans(dataSet,k,distMeans = distEclud, createCent = randCent): x,y = make_blobs(centers=100)#生成k质心的数据 x = pd.DataFrame(x) m,n = dataSet.shape centroids = createCent(dataSet,k) #初始化质心,k即为初始化质心的总个数 clusterAssment = np.zeros((m,3)) #初始化容器 clusterAssment[:,0] = np.inf #第一列设置为无穷大 clusterAssment[:,1:3] = -1 #第二列放本次迭代点的簇编号，第三列存放上次迭代点的簇编号 result_set = pd.concat([pd.DataFrame(dataSet), pd.DataFrame(clusterAssment)],axis = 1,ignore_index = True) #将数据进行拼接，横向拼接，即将该容器放在数据集后面 clusterChanged = True while clusterChanged: clusterChanged = False for i in range(m): dist = distMeans(dataSet.iloc[i,:n].values,centroids) #计算点到质心的距离（即每个值到质心的差的平方和） result_set.iloc[i,n] = dist.min() #放入距离的最小值 result_set.iloc[i,n+1] = np.where(dist == dist.min())[0] #放入距离最小值的质心标号 clusterChanged = not (result_set.iloc[:,-1] == result_set.iloc[:,-2]).all() if clusterChanged: cent_df = result_set.groupby(n+1).mean() #按照当前迭代的数据集的分类，进行计算每一类中各个属性的平均值 centroids = cent_df.iloc[:,:n].values #当前质心 result_set.iloc[:,-1] = result_set.iloc[:,-2] #本次质心放到最后一列里 return centroids, result_set x = np.random.randint(0,100,size=100) y = np.random.randint(0,100,size=100) randintnum=pd.concat([pd.DataFrame(x), pd.DataFrame(y)],axis = 1,ignore_index = True) #randintnum_test, randintnum_test = kMeans(randintnum,3) #plt.scatter(randintnum_test.iloc[:,0],randintnum_test.iloc[:,1],c=randintnum_test.iloc[:,-1]) #result_test,cent_test = kMeans(data, 4) cent_test,result_test = kMeans(randintnum, 3) plt.scatter(result_test.iloc[:,0],result_test.iloc[:,1],c=result_test.iloc[:,-1]) plt.scatter(cent_test[:,0],cent_test[:,1],color = 'red',marker = 'x',s=100)

这段代码实现的是k-means聚类算法，但是有一些地方可以改进： 1. 函数kMeans中的createCent参数可以通过修改为直接传入质心的方式来更加灵活。 2. 函数kMeans中的distMeans参数可以修改为scipy库中的距离函数，如scipy.spatial.distance.cdist，来提高计算效率。 3. 函数kMeans中的clusterAssment可以使用pd.DataFrame来进行初始化，这样可以避免使用np.zeros和np.inf来进行初始化。改进后的代码如下： ```python import numpy as np import pandas as pd import matplotlib.pyplot as plt from sklearn.datasets import make_blobs from scipy.spatial.distance import cdist def randCent(dataSet, k): """ 随机生成k个质心 """ n = dataSet.shape[1] # 列数 data_min = dataSet.min() data_max = dataSet.max() # 生成k行n列处于data_min到data_max的质心 data_cent = np.random.uniform(data_min, data_max, (k, n)) return data_cent def kMeans(dataSet, k, createCent=randCent, distMeans=cdist): """ k-means聚类算法 """ centroids = createCent(dataSet, k) # 初始化质心，k即为初始化质心的总个数 result_set = pd.concat([pd.DataFrame(dataSet), pd.DataFrame()], axis=1, ignore_index=True) # 将数据进行拼接，横向拼接，即将该容器放在数据集后面 clusterChanged = True while clusterChanged: clusterChanged = False dist = distMeans(dataSet, centroids, metric='euclidean') clusterAssment = np.argmin(dist, axis=1) result_set.iloc[:, -1] = pd.Series(clusterAssment) for i in range(k): cent_df = result_set[result_set.iloc[:, -1] == i].mean() # 按照当前迭代的数据集的分类，进行计算每一类中各个属性的平均值 if not cent_df.empty: centroids[i] = cent_df.iloc[:-1].values # 当前质心 clusterChanged = True return centroids, result_set x = np.random.randint(0, 100, size=100) y = np.random.randint(0, 100, size=100) randintnum = pd.concat([pd.DataFrame(x), pd.DataFrame(y)], axis=1, ignore_index=True) cent_test, result_test = kMeans(randintnum, 3) plt.scatter(result_test.iloc[:, 0], result_test.iloc[:, 1], c=result_test.iloc[:, -1]) plt.scatter(cent_test[:, 0], cent_test[:, 1], color='red', marker='x', s=100) ```

ax[i].scatter(centroids[:,0],centroids[:,1],s=120,marker="x",c="black",linewidth=3)‘

plt.scatter(centroids[:, 0],

相关推荐

python matplotlib:plt.scatter() 大小和颜色参数详解

one hot编码：torch.Tensor.scatter_()函数用法详解

d3.scatter:可重复使用的散点图组件

plt.plot(centroids[i][0], centroids[i][1], mark[i]) 设置形状大小

生成代码：python聚类分析绘制散点图r1=pd.Series(kmeans_model.labels_).value_counts() print('最终每个类别的数目为：\n',r1)最终每个类别的数目为： 4 24611 0 15730 3 12111 1 5337 2 4255 dtype: int64

出现了IndexError: too many indices for array: array is 1-dimensional, but 2 were indexed错误，请修改

1、将博客中的K-means算法代码调通； 2、将调通的算法用于给定的data.csv数据文件，假设聚类中心个数为3； 3、将data.csv聚类结果用matplotlib绘制出来。

实现K-Means算法并将算法应用于我给定的鸢尾花数据集iris.txt，给出完整可运行的Python代码

最新推荐

2024年东南亚BCD功率集成电路市场深度研究及预测报告.pdf

基于Springboot的医院信管系统

管理建模和仿真的文件

字符串转Float性能调优：优化Python字符串转Float性能的技巧和工具

Error: Cannot find module 'gulp-uglify

基于Springboot的冬奥会科普平台

"互动学习：行动中的多样性与论文攻读经历"

Python字符串转Float最佳实践：从初学者到专家的进阶指南

data.readline

基于Springboot的社区医院管理服务系统