python实现二分k-means

二分K-means是一种K-means聚类算法的扩展，用于提高聚类的质量和速度。Python实现二分K-means的步骤如下： 1. 定义K个聚类中心，可以随机选取数据集中的K个点作为初始聚类中心。 2. 对于每个数据点，计算它与每个聚类中心的距离，并将它分配给最近的聚类中心。 3. 对于每个聚类，计算它的平均距离，并选取平均距离最大的聚类进行二分。将该聚类中的数据点按照距离聚类中心的远近排序，然后将排序后的前一半数据点归为该聚类，将后一半数据点归为新的聚类。重复此过程，直到有K个聚类。 4. 对于所有聚类中心，重新计算聚类中心坐标，然后重复步骤2和3，直到聚类中心不再变化或达到最大迭代次数为止。 Python代码实现的伪代码如下： ``` # 导入相关库 import numpy as np # 定义二分k-means函数 def biKmeans(dataSet, k, distMeas=distEclud): # 初始时只有一个聚类，聚类中心为数据集的均值 centroid0 = np.mean(dataSet, axis=0).tolist() centList = [centroid0] # 初始化每个点的聚类 m = len(dataSet) clusterAssment = np.zeros((m, 2)) clusterAssment[:, 1] = distMeas(np.mat(centroid0), dataSet) ** 2 while len(centList) < k: # 初始化新聚类的信息 lowestSSE = np.inf bestCentToSplit = None bestNewCents = None bestClustAss = None # 对现有聚类进行二分 for i in range(len(centList)): # 找到该聚类中的数据点 ptsInCurrCluster = dataSet[np.nonzero(clusterAssment[:, 0].A == i)[0], :] # 对该聚类进行K-means聚类 centroidMat, splitClustAss = kMeans(ptsInCurrCluster, 2, distMeas) # 计算该聚类的SSE sseSplit = np.sum(splitClustAss[:, 1]) sseNotSplit = np.sum(clusterAssment[np.nonzero(clusterAssment[:, 0].A != i)[0], 1]) totalSSE = sseSplit + sseNotSplit # 找到SSE最小的聚类划分 if totalSSE < lowestSSE: lowestSSE = totalSSE bestCentToSplit = i bestNewCents = centroidMat.tolist() bestClustAss = splitClustAss.copy() # 更新聚类的信息 bestClustAss[np.nonzero(bestClustAss[:, 0].A == 1)[0], 0] = len(centList) bestClustAss[np.nonzero(bestClustAss[:, 0].A == 0)[0], 0] = bestCentToSplit centList[bestCentToSplit] = bestNewCents[0] centList.append(bestNewCents[1]) clusterAssment[np.nonzero(clusterAssment[:, 0].A == bestCentToSplit)[0], :] = bestClustAss return np.array(centList), clusterAssment ``` 其中，`dataSet`表示数据集，`k`表示聚类个数，`distMeas`表示距离度量函数（默认为欧氏距离），`centList`表示聚类中心列表，`clusterAssment`表示每个数据点的聚类信息。

阅读全文

python实现二分k-means

相关推荐

python实现的k-means算法

K-Means算法 python实现

python 版本的k-means算法

python实现二分k-means，并查看每个类别的样本数目

python实现的使用c-means k-means人群分组聚类算法

【Bisecting K-means算法】{1} —— 使用Python实现Bisecting K-means算法并处理Iris数据集

python实现k-means聚类算法

k-means-parallel:实现 K-Means++ 和 K-Means Parallel

Python实现K-means及Kernel K-means聚类算法详解

MATLAB与Python实现的k-means调制分类算法

Python新手项目实战：二分K-means算法实践指南

Python实现K-means聚类算法

Python实现Bisecting K-means算法：Iris数据集应用与详解

Python新手指南：k-means算法客户分群基础

二分K-means及其python代码实现

二分k-means和k-means

python怎么查看二分k-means每个类别的样本数目

5.试编写程序，利用本章提供的k-means 算法代码或者 sklearn.cluster. KMeans 算法函数实现二分k-means 算法，对随书资源中的kmeansSamples.txt 文件中的点进行分簇，并与k-means算法的效果进行比较。

5.试编写程序，利用本章提供的k-means算法代码或者sklearn.cluster.KMeans算 法函数实现二分k-means算法，对随书资源中的kmeansSamples.txt文件中的点进行分 簇，并与k-means算法的效果进行比较。

python实现k-means算法

大家在看

基于FPGA的VHDL语言 乘法计算

sdram 资料 原理。

freetts-1.2.2-bin

人工智能技术在数值天气预报中的应用.zip

安装验证-浅谈mysql和mariadb区别

最新推荐

python基于K-means聚类算法的图像分割

k-means 聚类算法与Python实现代码

Python用K-means聚类算法进行客户分群的实现

python 代码实现k-means聚类分析的思路(不使用现成聚类库)

python实现鸢尾花三种聚类算法（K-means,AGNES,DBScan）

免安装JDK 1.8.0_241：即刻配置环境运行

管理建模和仿真的文件

【提升效率与稳定性】：深入掌握单相整流器的控制策略

你看这是ashx映射的cs文件初始代码,你看这里边根本就没有写对action参数进行任何操作但你.ashx?action=submit这样去做他就能返回出数据这是为什么

机器学习预测葡萄酒评分：二值化品尝笔记的应用

5.试编写程序，利用本章提供的k-means算法代码或者sklearn.cluster.KMeans算法函数实现二分k-means算法，对随书资源中的kmeansSamples.txt文件中的点进行分簇，并与k-means算法的效果进行比较。

基于FPGA的VHDL语言乘法计算

sdram 资料原理。