改进的粗k均值聚类算法：解决一致性与离群点问题

133 浏览量更新于2024-08-29 收藏 202KB PDF 举报

"本文提出了一种改进的粗k均值聚类算法，旨在解决Lingras原始算法在处理随机初始化聚类中心和离群点时存在的问题，提高聚类的一致性和收敛性。该方法选择了潜能最大的k个对象作为初始聚类中心，并依据数据对象与这些中心的相对距离来决定其上下近似归属，从而更好地处理边界区域的划分。通过引入广义分类正确率这一评价指标，该算法能够更准确地评估其性能，尤其考虑了下近似集和边界区域的对象。实验结果显示，改进后的算法具有更高的分类正确率、更快的收敛速度以及对离群点的良好鲁棒性。" 在聚类领域，k均值算法是一种广泛应用的无监督学习方法，它将数据集分成k个簇，每个簇的成员是与其他成员相似的数据对象。然而，k均值算法的一个显著缺点是其对初始聚类中心的选择敏感，随机选择可能导致次优的聚类结果。Lingras提出的粗k均值算法尝试解决这个问题，但依然存在一致性差和无法收敛的问题。本文提出的改进算法采用了新的策略来选择初始聚类中心，即选取潜能最大的k个对象，这里的“潜能”可能指的是数据对象到其他对象的平均距离或其他能反映其代表性的度量。这种方法有助于找到更具代表性的中心，从而改善聚类的质量。此外，针对边界区域的处理，算法引入了“上下近似归属”的概念，这允许数据对象根据与聚类中心的距离动态地属于某个簇或者被认为是边界区域的一部分。这种灵活的归属规则可以更好地适应数据的复杂分布，减少边界区域的模糊性。为了评估算法的性能，作者定义了广义分类正确率。传统的分类正确率通常只关注最终聚类的准确性，而忽视了边界区域的处理。广义分类正确率则同时考虑了下近似集（完全属于某簇的对象）和边界区域中的对象，提供了更为全面的评估。仿真实验表明，该改进算法在分类正确率和收敛速度上表现出色，尤其是在面临离群点的情况下，它能够有效地降低离群点对聚类结果的负面影响。这使得该算法在处理包含异常值或噪声的真实世界数据时更具优势。这项工作为聚类算法的研究提供了一个有价值的贡献，改进的粗k均值算法不仅提高了聚类效果，还增强了算法对数据异常的鲁棒性，为实际应用中的数据挖掘和模式识别提供了有力工具。

第 27 卷第 11 期

Vol. 27 No. 11

控制与决策

Control and Decision

2012 年 11 月

Nov. 2012

一种改进的粗 𝑘 均值聚类算法

文章编号: 1001-0920 (2012) 11-1711-04

王莉

1,2

, 周献中

, 沈捷

(1. 南京大学工程管理学院，南京 210093；2. 南京工业大学自动化与电气工程学院，南京 210009)

摘要: Lingras 提出的粗 𝑘 均值聚类算法易受随机初始聚类中心和离群点的影响, 可能出现一致性和无法收敛的聚

类结果. 对此, 提出一种改进的粗 𝑘 均值算法, 选择潜能最大的 𝑘 个对象作为初始的聚类中心, 根据数据对象与聚类

中心的相对距离来确定其上下近似归属, 使边界区域的划分更合理. 定义了广义分类正确率, 该指标同时考虑了下近

似集和边界区域中的对象, 评价算法性能更准确. 仿真实验结果表明, 该算法分类正确率高, 收敛速度快, 能够克服离

群点的不利影响.

关键词: 聚类；粗糙集；粗 𝑘 均值；广义分类正确率

中图分类号: TP18 文献标志码: A

An improved rough 𝒌-means clustering algorithm

WANG Li

1,2

, ZHOU Xian-zhong

, SHEN Jie

(1. School of Engineering and Management，Nanjing University，Nanjing 210093，China；2. School of Automation

and Electrical Engineering，Nanjing University of Technology，Nanjing 210009，China．Correspondent：WANG Li,

E-mail：silyzheda@sina.com)

Abstract: Rough 𝑘-means clustering algorithm proposed by Lingras is sensitive to the initial centers of the 𝑘 cluster and

outliers and may result in identical clustering and non-convergence. In this paper, an improved rough 𝑘-means clustering

algorithm is proposed. The 𝑘 objects with maximum potentials are chosen as initial centers. The absolute distance between

object and center of clusters is considered to decide whether a data object belongs to the lower or upper approximation set

of a cluster, so the division of boundary area is more reasonable. General classiﬁcation accuracy considering the objects in

lower approximation set and boundary area is deﬁned for rough 𝑘-means clustering algorithm, and it is more appropriate for

evaluating rough 𝑘 means clustering. The simulation results show that, the proposed algorithm has the advantages of high

classiﬁcation accuracy and fast convergence, and can also avoid the bad inﬂuence of outlier.

Key words: clustering；rough sets；rough 𝑘-means；general classiﬁcation accuracy

1 引引引言言言

聚类算法是一种数据挖掘的方法, 已广泛地用

于各种领域, 如图像识别、文本分类、基因分析等领

域

[1-6]

. 聚类是指按照某种相似性将一组没有类别标

记的对象分为若干类别, 使得类内对象距离尽量小,

而类与类之间的距离尽可能大

[7]

传统的硬 𝑘 均值聚类算法把每个待辨识的对象

严格地划分到某个类中, 具有非此即彼的性质, 这

种分类的类别界限是分明的

[8]

. 模糊聚类是一种软

划分算法, 类与类之间的界限是不清晰的, 某个对象

在类属上存在中介性, 可以被划分到多个类中, 并用

隶属度来描述对象属于各类的程度. Lingras

[9-10]

将粗

糙集思想引入 𝑘 均值聚类算法, 形成粗 𝑘 均值聚类算

法

[11-12]

. 其主要思想是将每个类用上下近似集来描

述, 下近似集是上近似集的子集, 上下近似集之差为

边界区域. 类下近似集中的对象肯定属于该类, 而边

界区域的对象具有不确定性, 根据现有的知识无法确

定其明确的归属. 粗 𝑘 均值聚类是一种划分式的算法,

需要预先指定聚类数目和聚类中心, 反复迭代计算,

直至收敛时得到最终的聚类结果. 由于知识的不完备,

粗聚类算法将某些根据已有知识无法确定其明确归

属的对象划分到边界区域, 与被错误地划分相比, 这

样更为合理. 在更新聚类中心时, 下近似集的对象被

收稿日期: 2011-05-18；修回日期: 2011-11-04.

基金项目: 国家自然科学基金项目(70971062)；东南大学复杂工程系统测量与控制教育部重点实验室开放课题

(2010A004).

作者简介: 王莉(1979−), 女, 博士生, 从事智能算法、粗糙集理论及应用的研究；周献中(1962−), 男, 教授, 博士生导师,

从事指挥自动化系统理论与技术、智能信息处理与智能系统等研究.

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38660327

粉丝: 8
资源: 952

改进的粗k均值聚类算法：解决一致性与离群点问题

K均值聚类算法

论文研究-改进的层次K均值聚类算法.pdf

论文研究-改进的K均值聚类算法在支持矢量机中的应用.pdf

MKKM（多核k均值聚类算法）KKM（核k均值聚类算法）

改进的K均值聚类算法进行螺丝锁紧分类

一种改进的k_均值聚类算法

覆盖粗K均值聚类算法在白血病细胞核图像分割中的应用

一种改进的K-均值聚类算法的研究.docx

基于平均差异度优选初始聚类中心的改进K-均值聚类算法

一种改进的基于特征赋权的K均值聚类算法1

最新资源