![](https://csdnimg.cn/release/download_crawler_static/87566101/bg3.jpg)
一、问题背景
目前,对于聚类问题的研究普遍存在于社会生活中的各个领域,如模式识别,
图像处理、机器学习和统计学等。关于对生活中各种各样的数据的聚类分类问题
己经成为众多学者的研究热题之一
[1]
。聚类和分类的区别在于,聚类没有任何先
验知识可循,要通过数据自身的特点,将数据自动的划分到不同的类别中。聚类
的基本形式定义为“在已给的数据集合中寻找数据点集的同类集合。每一个集合
[2]
叫做一个类,并确定一个区域,在区域中对象的密度高于其他区域中的密度” 。
聚类方法有很多种,其中最简单的形式便是划分式聚类,划分式聚类试图将
给定的数据集合分割成不相交的子集,使具体的聚类准则是最优的。实际中应用
最广泛的准则是聚类误差平方和准则,即对于每一个点都计算它到相应的聚类中
心点的平方距离,并对数据集合上的所有点的距离进行求和。一种最流行的基于
最小聚类误差平法和的聚类方法是 K-均值算法。K-均值算法是一种基于划分的
聚类算法,它通过不断的迭代来进行聚类,当算法收敛到一个结束条件时就终止
迭代过程,输出聚类结果。由于其算法思想简便,又容易实现对大规模数据的聚
类,因此 K-均值算法己成为一种最常用的聚类算法之一
[3]
。K-均值算法能找到
关于聚类误差的局部的最优解,是一个能应用在许多聚类问题上的快速迭代算
法。它是一种以点为基础的聚类算法,以随机选取的初始点为聚类中心,迭代地
改变聚类中心来使聚类误差最小化。
K-均值算法由于其聚类过程简单,易于实现,因此已经成为当前最常用的聚
类算法之一。但是 K-均值的算法的聚类结果容易受到初始聚类中心点的选取的
影响,不稳定,且容易受到数据中的噪声点、离群点的影响
[4]
。并且在 K-均值方
法的迭代过程中由于初值的选取就有随机性就会导致聚类容易陷入局部最优,而
找不到全局最优。K-均值缺点详细介绍如下:
第一,K-均值算法中的 K 值必须由用户输入,在算法的流程图中我们可以看
出,K-值是必须是一个用户最先确定的参数。K-均值方法必须在 K-值已知的前
提下才能进行聚类。但是在一些实际问题的求解过程中,自然簇的个数 K 是没
有事先给出的,通常是用户所不知道的。
第二,K-均值聚类算法对于噪声和离群点数据非常敏感,聚类结果很容易受
1