#二分k均值算法（补全代码） """ Parameters: dataSet - 数据集 k - 聚类数 distMeas - 距离类型 Returns: centroids - 类中心数组 clusterAssment - 簇分配结果（包括索引，误差两列） """ # 算法的基本流程 #首先将所有点作为一个属，然后将该簇-分为二，之后选择其中-个簇进续进行划分，选择哪一个簇进行划取决于对其划分是否可以最大程度降低SSE的值，上述基于SSE的别分过程不断重复，直到得到用户指定的属数目为止， #将所有点看成一个簇 #当簇数目小于k时 # 对于每一个簇: # 计算总误差 # 在给定的簇上面进行K-均值聚类(k=2)计算将该簇一分为二后的总误差 # 选择使得误差最小的那个簇进行划分操作 def biKmeans(dataSet, k, distMeas=distEclud):

时间: 2024-03-22 11:39:41 浏览: 60

```python def biKmeans(dataSet, k, distMeas=distEclud): m = shape(dataSet)[0] clusterAssment = mat(zeros((m, 2))) centroid0 = mean(dataSet, axis=0).tolist()[0] centList = [centroid0] for j in range(m): clusterAssment[j,1] = distMeas(mat(centroid0), dataSet[j,:])**2 while (len(centList) < k): lowestSSE = inf for i in range(len(centList)): ptsInCurrCluster = dataSet[nonzero(clusterAssment[:,0].A==i)[0],:] centroidMat, splitClustAss = kMeans(ptsInCurrCluster, 2, distMeas) sseSplit = sum(splitClustAss[:,1]) sseNotSplit = sum(clusterAssment[nonzero(clusterAssment[:,0].A!=i)[0],1]) print("sseSplit, and notSplit: ",sseSplit,sseNotSplit) if (sseSplit + sseNotSplit) < lowestSSE: bestCentToSplit = i bestNewCents = centroidMat bestClustAss = splitClustAss.copy() lowestSSE = sseSplit + sseNotSplit bestClustAss[nonzero(bestClustAss[:,0].A == 1)[0],0] = len(centList) bestClustAss[nonzero(bestClustAss[:,0].A == 0)[0],0] = bestCentToSplit print('the bestCentToSplit is: ',bestCentToSplit) print('the len of bestClustAss is: ', len(bestClustAss)) centList[bestCentToSplit] = bestNewCents[0,:].tolist()[0] centList.append(bestNewCents[1,:].tolist()[0]) clusterAssment[nonzero(clusterAssment[:,0].A == bestCentToSplit)[0],:]= bestClustAss return mat(centList), clusterAssment ```

阅读全文

相关推荐

二分K均值算法matlab代码-KMeanCoreset:KMeanCoreset评估和计算

一种具有特定K簇的多均值聚类方法”的实现.zip_K._k-means聚类算法_聚类

K-means算法是输入聚类个数k，以及包含 n个数据对象的数据库，输出满足方差最小标准k个聚类的一种算法

随机生成k个类中心点（补全代码） #基本思路：随机产生k个点，坐标值介于所有样本数据集坐标的取值区间。 """ Parameters: dataSet - 数据集 k - 聚类数 Returns: centroids - 随机类中心 """ def randCent(dataSet, k):

#修改上述函数，随机质心产生的方法为从已有的样本数据中随机选取k个点。（补全代码） """ Parameters: dataSet - 数据集 k - 聚类数 Returns: centroids - 随机类中心 """ def randCent1(dataSet, k):

自动泊车代码Matlab-499-dataset-analysis:499-数据集分析

RESIDE-dataset-link:RESIDE-数据集链接

k-means-u-star：k-means-u *聚类算法的实现

matlab终止以下代码-srv-dataset-tools:srv-dataset-tools

KMeans-Clustering-Iris-Dataset:使用Iris数据集的KMeans聚类

ms-web-dataset:推荐和聚类算法

k均值聚类算法matlab代码-LMVSC:LMVSC

kaggle dataset:womens-ecommerce-clothing-reviews-数据集

kaggle dataset: cms-estimated-uninsured-people-数据集

kaggle dataset: nys-child-care-regulated-programs-数据集

kaggle dataset: cms-state-summary-of-inpatient-数据集

matlab精度检验代码-Somato-visual-SV-dataset:Somato-visual-SV数据集

kaggle dataset: dark-net-marketplace-drug-data-ago-数据集

去雾算法数据集：NH-HAZE数据集

ffhq-dataset:Flickr-Faces-HQ数据集（FFHQ）

大家在看

LC3 Codec.pdf

项目六 基于stc89c52系列单片机控制步进电机.rar

信息几何-Information Geometry

《程序设计基础》历年试题及答案.pdf

黑金ALINX Zynq UltraScale+MPSoC开发平台ACU19EG 核心板原理图

最新推荐

python中实现k-means聚类算法详解

机器学习实战 - KNN（K近邻）算法PDF知识点详解 + 代码实现

CIFAR-10/100 数据集中文说明

基于鸢尾花数据集实现线性判别式多分类

pytorch 语义分割-医学图像-脑肿瘤数据集的载入模块

Spring Websocket快速实现与SSMTest实战应用

电力电子技术的智能化：数据中心的智能电源管理

通过spark sql读取关系型数据库mysql中的数据

新版微软inspect工具下载：32位与64位版本

如何运用电力电子技术实现IT设备的能耗监控

项目六基于stc89c52系列单片机控制步进电机.rar