for iris_type in iris_types: plt.scatter(data[x_axis][data['class'] == iris_type], data[y_axis][data['class'] == iris_type], label=iris_type)

这段代码是用来绘制鸢尾花数据集中两个特征的散点图，其中 `iris_types` 是一个包含鸢尾花三个类别的列表，`data` 是一个包含鸢尾花数据集的 Pandas DataFrame，`x_axis` 和 `y_axis` 分别表示用于绘制 x 轴和 y 轴的特征名称。这段代码会循环遍历 `iris_types` 列表中的每个鸢尾花类别，然后在散点图上绘制该类别的数据点，其中 `data['class'] == iris_type` 是用来选取该类别数据的布尔索引。`label` 参数用于指定每个类别在图例中显示的标签。

data = iris_data.data X = [x[0] for x in data] Y = [x[1] for x in data] # plt.scatter(X, Y, c=iris_data.target, marker='x')

这段代码的作用是从一个名为iris_data的数据中取出数据，并创建两个新的列表X和Y。X列表中的元素是iris_data中data列表中每个子列表的第0个元素，Y列表中的元素是iris_data中data列表中每个子列表的第1个元素。

import numpy as np from sklearn.cluster import MiniBatchKMeans from sklearn.datasets import load_iris from sklearn import preprocessing import matplotlib.pyplot as plt from pylab import mpl from sklearn.cluster import KMeans from sklearn.metrics import silhouette_score from scipy.spatial.distance import cdist # 设置显示中文字体 mpl.rcParams["font.sans-serif"] = ["SimHei"] # 设置正常显示符号 mpl.rcParams["axes.unicode_minus"] = False np.random.seed(5) iris = load_iris() X = iris.data y = iris.target min_max_scaler = preprocessing.MinMaxScaler() X_minmax = min_max_scaler.fit_transform(X) batch_size = 15 num_cluster = 3 clf = MiniBatchKMeans(n_clusters=num_cluster, batch_size=batch_size, init='random') clf.fit(X_minmax) centers = clf.cluster_centers_ pre_clu = clf.labels_ vmarker = {0: '^', 1: 's', 2: 'D', } mValue = [vmarker[i] for i in pre_clu] for _marker, _x, _y in zip(mValue, X_minmax[:, 1], X_minmax[:, 2]): plt.scatter(_x, _y, marker=_marker,c='grey') plt.scatter(centers[:, 1], centers[:, 2], marker='',s=200,c='black') plt.show() #手肘法则最佳k值 def sse_k(): K = range(1, 10) sse_result = [] for k in K: kmeans = KMeans(n_clusters=k) kmeans.fit(iris.data) sse_result.append(sum(np.min(cdist(iris.data, kmeans.cluster_centers_, 'euclidean'), axis=1)) / iris.data.shape[0]) plt.plot(K, sse_result, 'gx-') plt.xlabel('k') plt.ylabel(u'平均畸变程度') plt.title(u'肘部法则确定最佳的K值') plt.show() # 轮廓系统法最佳k值 def sc_k(): K = range(2, 10) score = [] for k in K: kmeans = KMeans(n_clusters=k) kmeans.fit(iris.data) score.append(silhouette_score(iris.data, kmeans.labels_, metric='euclidean')) plt.plot(K, score, 'r-') plt.xlabel('k') plt.ylabel(u'轮廓系数') plt.title(u'轮廓系数确定最佳的K值') plt.show() sse_k() sc_k()

这段代码实现了对 iris 数据集进行聚类分析的功能。具体来说，它使用了 MiniBatchKMeans 算法对 iris 数据进行聚类，并使用了肘部法则和轮廓系数法来确定最佳的聚类数量 k。首先，代码将 iris 数据集导入，然后进行了归一化处理。接着，使用 MiniBatchKMeans 算法对归一化后的数据进行聚类，得到聚类中心和每个数据点所属的聚类类别。最后，使用 matplotlib 绘制聚类散点图，其中每个数据点的颜色、形状表示它所属的聚类类别，聚类中心用星号标出。在绘制完聚类散点图之后，代码使用肘部法则和轮廓系数法来确定最佳的聚类数量 k。具体来说，肘部法则使用 SSE（Sum of Squared Error）来度量聚类的有效性，它的基本思想是随着聚类数量 k 的增加，SSE 会逐渐减小，但当 k 增加到一定程度时，SSE 的下降速度会明显放缓，这个拐点就是肘部，对应的 k 值就是最佳的聚类数量。轮廓系数法则使用轮廓系数来度量聚类的有效性，它的基本思想是聚类效果越好，同一聚类类别内部的数据点越紧密，不同聚类类别之间的数据点越分散，因此轮廓系数的取值范围在 [-1, 1] 之间，越接近 1 表示聚类效果越好，对应的 k 值就是最佳的聚类数量。肘部法则和轮廓系数法都是常用的聚类分析方法。总之，这段代码实现了对 iris 数据集进行聚类分析的功能，并使用了肘部法则和轮廓系数法来确定最佳的聚类数量 k。

阅读全文

for iris_type in iris_types: plt.scatter(data[x_axis][data['class'] == iris_type], data[y_axis][data['class'] == iris_type], label=iris_type)

data = iris_data.data X = [x[0] for x in data] Y = [x[1] for x in data] # plt.scatter(X, Y, c=iris_data.target, marker='x')

相关推荐

python matplotlib:plt.scatter() 大小和颜色参数详解

SVM.zip_SVM Iris分类_UCI SVM_iris_svm预测_uci svm

Python matplotlib通过plt.scatter画空心圆标记出特定的点方法

plt.scatter(iris_data[:,j],iris_data[:,i],c= iris_data[:,-1],cmap='brg')

最新推荐

解决python中显示图片的plt.imshow plt.show()内存泄漏问题

MATLAB新功能：Multi-frame ViewRGB制作彩色图阴影

管理建模和仿真的文件

【实战篇：自定义损失函数】：构建独特损失函数解决特定问题，优化模型性能

在Flow-3D中如何根据水利工程的特定需求设定边界条件和进行网格划分，以便准确模拟水流问题？

XKCD Substitutions 3-crx插件：创新的网页文字替换工具

"互动学习：行动中的多样性与论文攻读经历"

【强化学习损失函数探索】：奖励函数与损失函数的深入联系及优化策略

在Flow-3D中，如何根据水利工程的特定需求设定边界条件和进行网格划分，以便准确模拟水流问题？

Python实现8位等离子效果开源项目plasma.py解读