Python实现Bisecting K-means算法：Iris数据集应用与详解

112 浏览量更新于2024-08-31 收藏 97KB PDF 举报

Bisecting K-means算法是一种改进版的K-means聚类算法，它通过递归地将数据集分为更小的子集，而非一次性选择固定的K个初始质心。在本文档中，作者展示了如何使用Python实现Bisecting K-means算法，并将其应用到经典的Iris数据集上，这是一个包含150个样本、四个特征的多类分类问题。首先，我们来看看`KMeansClassifier`类的定义，它包含了以下几个关键部分： 1. 初始化函数`__init__`：该函数接受三个参数：K（初始聚类数量，默认为3），`initCent`（初始化中心点的方式，可以是'random'表示随机选择或自定义其他方式），以及`max_iter`（最大迭代次数，防止算法无限运行，默认为500）。类内部维护了几个私有变量，如 `_k`（中心点的数量）、 `_initCent`（初始中心点生成方法）、 `_max_iter`（最大迭代次数）、 `_clusterAssment`（每个样本的最终聚类分配）、 `_labels`（所有样本的最终聚类标签）和 `_sse`（误差平方和，用于评估聚类效果）。 2. `calEDist` 和 `calMDist` 函数：分别用于计算欧氏距离（计算两向量间的平方差的平方根）和曼哈顿距离（计算绝对值之和），这是聚类算法中常用的相似度度量方法。 3. `randCent` 函数：用于随机生成初始的K个质心，确保每个维度上的值均匀分布在数据集中每个特征的最小值和最大值之间。 4. `fit` 函数：是算法的核心，接收一个二维数组`data_X`作为输入，首先检查数据类型是否为`numpy.ndarray`，然后根据`initCent`的方式（默认为随机）生成初始质心，接着进行迭代过程，包括计算每个样本到当前质心的距离、重新分配样本到最近的聚类、更新质心位置，直到达到最大迭代次数或者聚类不再发生变化。当处理Iris数据集时，使用这个Bisecting K-means算法，可以观察到随着递归细分，数据的聚类效果如何随着时间迭代而变化，从而更好地理解各个类别之间的区别。同时，误差平方和 `_sse` 可以用来评估算法的性能，较小的`sse`表明聚类结果更加紧密，模型拟合得更好。总结来说，本篇文档展示了如何通过Python实现Bisecting K-means算法，并且提供了一个完整的流程，包括数据预处理、初始化、迭代和评估，这对于理解和实践聚类分析在实际问题中的应用非常有帮助。

【【Bisecting K-means算法】算法】{1} —— 使用使用Python实现实现

Bisecting K-means算法并处理算法并处理Iris数据集数据集

此处基于此处基于Bisecting K-means算法处理算法处理Iris数据集数据集

bisecting_kmeans.py模块：模块：

import numpy as np

class KMeansClassifier():

"""初始化KMeansClassifier类"""

def __init__(self, k=3, initCent='random', max_iter=500):

# 类的成员数据(变量前用下划线)

self._k = k # 中心点

self._initCent = initCent # 生成初始中心点

self._max_iter = max_iter # 最大迭代次数

self._clusterAssment = None # 点分配结果

self._labels = None

self._sse = None # 误差平方和

def _calEDist(self, arrA, arrB):

"""计算欧氏距离，参数为两个一维数组"""

return np.math.sqrt(sum(np.power(arrA-arrB, 2)))

def _calMDist(self, arrA, arrB):

"""计算曼哈顿距离，参数为两个一维数组"""

return sum(np.abs(arrA-arrB))

def _randCent(self, data_X, k):

"""随机选取k个质心，返回一个k*n的质心矩阵"""

n = data_X.shape[1] # 特征的维度

centroids = np.empty((k,n)) # 使用numpy生成一个k*n的矩阵，用于存储质心

for j in range(n):

minJ = min(data_X[:, j])

rangeJ = float(max(data_X[:, j] - minJ))

centroids[:, j] = (minJ + rangeJ * np.random.rand(k, 1)).flatten() # 使用flatten函数展平嵌套列表(nested list)

return centroids

def fit(self, data_X):

"""参数为m*n维矩阵"""

if not isinstance(data_X, np.ndarray):

data_X = np.asarray(data_X)

m = data_X.shape[0] # 样本的个数

self._clusterAssment = np.zeros((m,2)) # 一个m*2维矩阵，矩阵第一列存储样本点所属的簇的索引值，第二列存储该点与所属

簇的质心的平方误差

if self._initCent == 'random':

self._centroids = self._randCent(data_X, self._k)

clusterChanged = True

for _ in range(self._max_iter):

clusterChanged = False

for i in range(m): # 将每个样本点分配到离它最近的质心所属的簇

minDist = np.inf # 首先将minDist置为一个无穷大的数

minIndex = -1 # 将最近质心的下标置为-1

for j in range(self._k): # k次迭代用于寻找最近的质心

arrA = self._centroids[j,:] arrB = data_X[i,:] distJI = self._calEDist(arrA, arrB) # 计算误差值

if distJI minDist**2:

clusterChanged = True

self._clusterAssment[i,:] = minIndex, minDist**2

if not clusterChanged: # 若所有样本点所属的簇都不改变,则已收敛,结束迭代

break

# 更新质心，将每个簇中的点的均值作为质心

for i in range(self._k):

index_all = self._clusterAssment[:,0] # 取出样本所属簇的索引值

value = np.nonzero(index_all==i) # 取出所有属于第i个簇的索引值

ptsInClust = data_X[value[0]] # 取出属于第i个簇的所有样本点

self._centroids[i,:] = np.mean(ptsInClust, axis=0) # 计算均值

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38589774

粉丝: 4
资源: 952

Python实现Bisecting K-means算法：Iris数据集应用与详解

FCM算法简单实现python

机器学习——iris数据

adt-bundle-windows-x86_64-20190307，包含到android-28

K-means算法和Bisecting K-Means算法对比分析

实验 Spark ML Bisecting k-means聚类算法使用

Bisecting-K-Means:二等分K-Means模式识别算法

K-means算法

优化聚类：Bisecting K-means算法详解与实现

Bisecting K-Means算法优缺点

Bisecting K-Means算法是基于什么的

最新资源