k-means聚类算法python实现方法

时间: 2023-06-02 17:01:52 浏览: 157

python实现k-means聚类算法

Python实现的K-Means聚类算法是一种无监督学习方法，用于将数据集分成不同的类别。K-Means算法的核心在于通过迭代找到数据的最佳分组，使得同一组内的数据点相互接近，而不同组之间的数据点相距较远。 **算法步骤** 1. **随机选择初始质心**：从数据集中随机选取k个数据点作为初始质心。在给出的代码中，`initCent`函数负责这一步，它随机选取k个不重复的索引，并将对应的数据点作为质心。 2. **计算距离并分配类别**：对于数据集中每一个数据点，计算其与每个质心的距离，然后将其分配给最近的质心所在的类别。这里使用的是欧几里得距离，由`calDist`函数计算。 3. **更新质心**：重新计算每个类别的质心，即将类别内所有数据点的均值作为新的质心。`doKmeans`函数执行这个过程，它遍历所有数据点，根据距离最近的质心更新类别的成员，并计算新的质心。 4. **迭代**：重复步骤2和3，直到质心不再变化或达到预设的最大迭代次数。在`kmeans_main`函数中，通过`isEqual`函数比较相邻两次迭代的质心，如果相同则算法结束。 **代码实现细节** - `initCent`函数：随机初始化k个质心，使用字典保存质心的坐标及其所属簇的数据。 - `calDist`函数：计算两个向量之间的欧几里得距离。 - `doKmeans`函数：进行一次K-Means迭代，根据当前质心对数据进行分类并更新质心。 - `isEqual`函数：比较两组质心是否相同，如果所有质心坐标都相同则返回1，表示质心没有变化。 - `kmeans_main`函数：主函数，负责整个K-Means算法的运行，包括初始化、迭代和结束条件检查。 **结果测试** 在实际应用中，我们需要一个数据集来测试K-Means算法的效果。提供的数据集是一个虚构的二维数据集，包含了正负两类样本。通过运行K-Means算法，可以观察数据点如何被正确地聚类到相应的类别中。总结来说，Python实现的K-Means聚类算法通过迭代优化数据点的分配，使得每个类别内部的数据点紧密聚集，而类别间的数据点相对分散。在实际项目中，K-Means常用于市场分割、图像分割、文本分类等多种场景，是一种简单且高效的聚类方法。

k-means聚类算法是一种无监督学习方法，用于将数据集分成k个类。其基本思想是将数据集划分为k个簇，每个簇对应一个聚类中心，使得簇内数据点到聚类中心的距离最小，而簇间数据点的距离最大。下面介绍k-means聚类算法的python实现方法。 1.导入相关库和数据集首先需要导入相关库和数据集，本例使用sklearn库中的make_blobs模块生成一个随机数据集。 ``` python from sklearn.datasets import make_blobs import matplotlib.pyplot as plt import numpy as np # 生成随机数据集 X, y = make_blobs(n_samples=200, centers=4, random_state=42) ``` 2.初始化聚类中心 k-means算法需要对聚类中心进行初始化，可以随机选择k个数据点作为初始聚类中心。下面使用numpy库中的random模块随机选择k个数据点。 ``` python # 初始化聚类中心 k = 4 init_index = np.random.choice(X.shape[0], k, replace=False) centroids = X[init_index] ``` 3.迭代更新聚类中心和簇分配 k-means算法迭代更新聚类中心和簇分配，直到聚类中心不再变化或达到最大迭代次数。下面是完整的k-means聚类算法python实现代码。 ``` python def k_means(X, k, max_iter=100): # 初始化聚类中心 init_index = np.random.choice(X.shape[0], k, replace=False) centroids = X[init_index] # 迭代更新聚类中心和簇分配 for i in range(max_iter): # 计算每个数据点到聚类中心的距离 distances = np.sqrt(np.sum((X - centroids[:, np.newaxis])**2, axis=2)) # 簇分配 cluster = np.argmin(distances, axis=0) # 更新聚类中心 for j in range(k): centroids[j] = np.mean(X[cluster==j], axis=0) return centroids, cluster # 调用k_means函数进行聚类 centroids, cluster = k_means(X, 4) # 可视化聚类结果 colors = ['r', 'g', 'b', 'y'] for i in range(4): plt.scatter(X[cluster==i][:, 0], X[cluster==i][:, 1], c=colors[i]) plt.scatter(centroids[:, 0], centroids[:, 1], marker='*', s=300, c='black') plt.show() ``` 运行结果如下图所示，其中四个颜色代表四个簇，黑色星号代表聚类中心。 ![k-means聚类算法python实现结果](https://img-blog.csdn.net/20180725161906370?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaWJvX3J1/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/q/75)

阅读全文

k-means聚类算法python实现方法

相关推荐

k-means 聚类算法与Python实现代码

k-means聚类算法实现

k-means聚类算法python实现

k-means聚类算法实现python

K-Means聚类算法python实现代码

python中实现k-means聚类算法详解

Kmeans聚类算法，PCA降维，层次聚类算法，用Python实现

python实现的使用c-means k-means人群分组聚类算法

一个使用Androidstudio开发的校园通知APP

基于粒子群的ieee30节点优化、配电网有功-无功优化 软件：Matlab+Matpowre 介绍：对配电网中有功-无功协调优化调度展开研究，通过对光伏电源、储能装置、无功电源和变压器分接头等设备协调

C#自定义事件 2024年12月23日

基于校园的互帮互助社交APP全部资料+详细文档+高分项目.zip

Download usage

基于高德地图的校园导航全部资料+详细文档+高分项目.zip

健康中国2030框架下智慧医药医疗博览会方案

qt开发类似于网盘的项目

2023-04-06-项目笔记 - 第三百五十六阶段 - 4.4.2.354全局变量的作用域-354 -2025.12.23

基于Bmob后台搭建的一块校园社区类APP，内置二手交易模块全部资料+详细文档+高分项目.zip

高校学生求职就业平台(编号：24440246).zip

最新推荐

python基于K-means聚类算法的图像分割

Python用K-means聚类算法进行客户分群的实现

k-means 聚类算法与Python实现代码

Python——K-means聚类分析及其结果可视化

python中实现k-means聚类算法详解

GitHub图片浏览插件：直观展示代码中的图像

管理建模和仿真的文件

【OPPO手机故障诊断专家】：工程指令快速定位与解决

求[100，900]之间相差为12的素数对（注：要求素数对的两个素数均在该范围内）的个数

Android IPTV项目：直播频道的实时流媒体实现

基于粒子群的ieee30节点优化、配电网有功-无功优化软件：Matlab+Matpowre 介绍：对配电网中有功-无功协调优化调度展开研究，通过对光伏电源、储能装置、无功电源和变压器分接头等设备协调