首页利用sklearn中的make_bolbs()函数随机生成200个样本数据，样本数据特征数为3个，然后利用sklearn 中的KMeans()函数进行聚类分析,并将结果显示出来。

利用sklearn中的make_bolbs()函数随机生成200个样本数据，样本数据特征数为3个，然后利用sklearn 中的KMeans()函数进行聚类分析,并将结果显示出来。

时间: 2024-01-22 18:18:00 浏览: 172

调用sklearn库的K-Means聚类分析实例

5星 · 资源好评率100%

#class sklearn.cluster.KMeans(n_clusters=8, init=’k-means++’, n_init=10, max_iter=300, tol=0.0001, precompute_distances=’auto’, verbose=0, random_state=None, copy_x=True, n_jobs=1, algorithm=’auto’) #参数： #（1）对于K均值聚类，我们需要给定类别的个数n_cluster，默认值为8； #（2）max_iter为迭代的次数，这里设置最大迭代次数为300； #（3）n_init设为10意味着进行10次随机初始化，选择效果最好的一种来作为模型； #（4）init=’k-means++’ 会由程序自动寻找合适的n_clusters； #（5）tol：float形，默认值= 1e-4，与inertia结合来确定收敛条件； #（6）n_jobs：指定计算所用的进程数； #（7）verbose 参数设定打印求解过程的程度，值越大，细节打印越多； #（8）copy_x：布尔型，默认值=True。当我们precomputing distances时，将数据中心化会得到更准确的结果。如果把此参数值设为True，则原始数据不会被改变。如果是False，则会直接在原始数据上做修改并在函数返回值时将其还原。但是在计算过程中由于有对数据均值的加减运算，所以数据返回后，原始数据和计算前可能会有细小差别。 #属性： #（1）cluster_centers_：向量，[n_clusters, n_features] # Coordinates of cluster centers (每个簇中心的坐标？？)； #（2）Labels_:每个点的分类； #（3）inertia_：float，每个点到其簇的质心的距离之和。

好的，下面是代码实现： ```python from sklearn.datasets import make_blobs from sklearn.cluster import KMeans import matplotlib.pyplot as plt # 生成随机样本数据 X, y = make_blobs(n_samples=200, n_features=3, centers=4, random_state=42) # KMeans聚类分析 kmeans = KMeans(n_clusters=4, random_state=42) kmeans.fit(X) # 绘制聚类结果 plt.scatter(X[:, 0], X[:, 1], c=kmeans.labels_) plt.show() ``` 解释一下代码： 1. 我们首先调用`make_blobs()`函数生成了200个样本数据，每个样本数据包含3个特征，共分为4类。 2. 然后我们调用`KMeans()`函数进行聚类分析，设置聚类数为4。 3. 最后我们将聚类结果绘制在二维平面上，通过不同颜色的散点图来表示不同的聚类类别。运行以上代码，你应该可以看到一张散点图，图中的不同颜色代表不同的聚类类别。

阅读全文