优化聚类：Bisecting K-means算法详解与实现

125 浏览量更新于2024-09-01 收藏 222KB PDF 举报

"本文主要介绍了Bisecting K-means聚类算法的原理与实现，该算法是K-means的一种优化版本，旨在减少因随机选取初始质心导致的聚类不确定性。文章首先解释了在欧几里得空间中，通过误差平方和（SSE）来评估簇质量的方法，然后详细阐述了Bisecting K-means算法的基本思想和执行流程，最后给出了一个简化的Java代码示例。" Bisecting K-means聚类算法是解决数据聚类问题的一种有效方法，尤其针对K-means算法的不足。K-means算法中，初始质心的选择对最终聚类结果有显著影响，可能导致多次运行得到不同的结果。Bisecting K-means则采用了一种递归的二分策略，减少了这种随机性的影响。在聚类过程中，误差平方和（SSE）被用作衡量簇质量的关键指标。SSE是所有数据点到其所在簇质心距离平方的总和，目标是找到使得SSE最小化的簇分配。在欧几里德空间中，SSE的计算涉及每个数据点与最近质心之间的距离，通过不断分割具有最大SSE的簇来寻找最优划分。 Bisecting K-means算法的执行过程可以概括为以下步骤： 1. 初始化：将所有数据视为一个簇C0，设定二分试验次数m以及K-means聚类参数。 2. 挑选具有最大SSE的簇，进行m次二分试验，每次使用K-means算法将该簇分为两个子簇，形成二分结果集合B。 3. 从B中选取总SSE最小的二分方案，将得到的两个子簇加入簇集合C，并从原始簇集合中移除原簇。 4. 重复步骤2和3，直至得到预定数量k的簇。在实际编程实现中，可以利用Java或其他编程语言编写算法。给出的Java代码片段虽然不完整，但展示了如何在循环中调用K-means算法并比较不同二分结果的SSE，以实现Bisecting K-means的核心逻辑。总体来说，Bisecting K-means聚类算法通过迭代和局部最优划分，提高了聚类的稳定性和准确性，适用于处理大规模数据集和需要更精确聚类结果的场景。它在机器学习和数据分析领域有着广泛的应用，如市场细分、图像分析、社交网络分析等。

Bisectingk-means聚类算法实现聚类算法实现

Bisecting k-means聚类算法，即二分k均值算法，它是k-means聚类算法的一个变体，主要是为了改进k-means算法随机选择

初始质心的随机性造成聚类结果不确定性的问题，而Bisecting k-means算法受随机选择初始质心的影响比较小。

首先，我们考虑在欧几里德空间中，衡量簇的质量通常使用如下度量：误差平方和（Sum of the Squared Error，简称

SSE），也就是要计算执行聚类分析后，对每个点都要计算一个误差值，即非质心点到最近的质心的距离。那么，既然每个非

质心点都已经属于某个簇，也就是要计算每个非质心点到其所在簇的质心的距离，最后将这些距离值相加求和，作为SSE去评

估一个聚类的质量如何。我们的最终目标是，使得最终的SSE能够最小，也就是一个最小化目标SSE的问题。在n维欧几里德

空间，SSE形式化地定义，计算公式如下：

Bisecting k-means聚类算法的基本思想是，通过引入局部二分试验，每次试验都通过二分具有最大SSE值的一个簇，二分这

个簇以后得到的2个子簇，选择2个子簇的总SSE最小的划分方法，这样能够保证每次二分得到的2个簇是比较优的（也可能是

最优的），也就是这2个簇的划分可能是局部最优的，取决于试验的次数。

Bisecting k-means聚类算法的具体执行过程，描述如下所示：

1、初始时，将待聚类数据集D作为一个簇C0，即C={C0}，输入参数为：二分试验次数m、k-means聚类的基本参数；

2、取C中具有最大SSE的簇Cp，进行二分试验m次：调用k-means聚类算法，取k=2，将Cp分为2个簇：Ci1、Ci2，一共得到

m个二分结果集合B={B1,B2,…,Bm}，其中，Bi={Ci1,Ci2}，这里Ci1和Ci2为每一次二分试验得到的2个簇；

3、计算上一步二分结果集合B中，每一个划分方法得到的2个簇的总SSE值，选择具有最小总SSE的二分方法得到的结果：

Bj={Cj1,Cj2}，并将簇Cj1、Cj2加入到集合C，并将Cp从C中移除；

4、重复步骤2和3，直到得到k个簇，即集合C中有k个簇。

聚类算法实现

基于上面描述的聚类执行过程，使用Java实现Bisecting k-means聚类，代码如下所示：

@Override

public void clustering() {

// parse sample files

final List<Point2D> allPoints = Lists.newArrayList();

FileUtils.read2DPointsFromFiles(allPoints, "[ ,;\s]+", inputFiles);

// 从文件中读取二维坐标点，加入到集合allPoints中

final int bisectingK = 2;

int bisectingIterations = 0;

int maxInterations = 20;

List<Point2D> points = allPoints;

final Map<CenterPoint,

Set<ClusterPoint<Point2D>>> clusteringPoints = Maps.newConcurrentMap();

// 最终的聚类结果集合

while(clusteringPoints.size() <= k) { // 当得到k个簇，则算法终止

LOG.info("Start bisecting iterations: #" + (++bisectingIterations) + ",

bisectingK=" + bisectingK + ",maxMovingPointRate=" + maxMovingPointRate +

", maxInterations=" + maxInterations + ", parallism=" + parallism);

// for k=bisectingK, execute k-means clustering

// bisecting trials

KMeansClustering bestBisectingKmeans = null;

double minTotalSSE = Double.MAX_VALUE;

for (int i = 0; i < m; i++) {

// 执行二分试验：调用k-means聚类算法，将输入的点集进行二分，得到2个簇，试验执行m次

final KMeansClustering kmeans = new KMeansClustering(bisectingK, maxMovingPointRate,

maxInterations, parallism);

kmeans.initialize(points);

// the clustering result should have 2 clusters

kmeans.clustering();

double currentTotalSSE = computeTotalSSE(kmeans.getCenterPointSet(),

kmeans.getClusteringResult()); // 计算一次二分试验中总的SSE的值

if(bestBisectingKmeans == null) {

bestBisectingKmeans = kmeans;

minTotalSSE = currentTotalSSE;

} else {

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38732307

粉丝: 13
资源: 928

优化聚类：Bisecting K-means算法详解与实现

实验 Spark ML Bisecting k-means聚类算法使用

【Bisecting K-means算法】{1} —— 使用Python实现Bisecting K-means算法并处理Iris数据集

详解Java实现的k-means聚类算法

k-means聚类算法k-means聚类算法k-means聚类算法k-means聚类算法.txt

K-means聚类算法聚类算法

k-means聚类算法,k-means聚类算法

K-means聚类算法 matlab实现

Flink K-Means聚类算法实现

K-Means 聚类算法 java实现

MATLAB 实现 K-Means 聚类算法

最新资源