改进模糊c-均值数据预处理：解决初值难题

需积分: 8 200 浏览量更新于2024-08-12 收藏 303KB PDF 举报

本文主要探讨了在数据预处理过程中，针对模糊c-均值（Fuzzy C-Means, FCM）算法的初始值设置问题。Fuzzy C-Means是一种常用的无监督聚类方法，它通过迭代调整每个数据点的隶属度来将数据划分为多个模糊集合，每个集合代表一个潜在的聚类。然而，该算法对初始聚类中心（即初始值）非常敏感，不恰当的选择可能导致算法陷入局部最优解，而非全局最优解。论文提出了一种创新的解决方案，即使用减法聚类（Subtractive Clustering）来初始化FCM的初始值。减法聚类是一种迭代方法，通过不断地从数据集中移除已分配给现有聚类的数据点，形成新的聚类中心，从而避免了对初始值的过度依赖。这种方法的优点在于能够引导算法逐渐接近全局最优解，同时提高了收敛速度。作者还将改进后的FCM应用于模糊规则的生成过程中。模糊规则是模糊逻辑系统的基础，它们描述了不同数据特征间的模糊关系。通过这种方式，不仅优化了聚类效果，还简化了规则设置的过程，使得在不知道具体聚类数量的情况下也能有效地进行数据预处理。论文的实验证明，使用减法聚类初始化的Fuzzy C-Means方法不仅能够在保证全局最优解的同时，显著提升了算法的性能，而且不需要预先设定聚类个数，这使得该方法在实际应用中具有更高的灵活性和实用性。这项研究为数据预处理提供了一种有效且鲁棒的策略，对于提高数据分析和机器学习任务的准确性和效率具有重要意义。

第

卷第

期

2007

年

月

中国民航大学学报

JOURNAL

CIVIL

AVIATION

UNIVERSITY

CHINA

基于改进模糊

均值数据预处理方法的研究

肖春景，杨

慧，刘春波

(中国民航大学计算机科学与技术学院，天津

300300)

No.2

April

,2007

摘

要:在数据预处理过程中模糊

一均值对初值的设定非常敏感，如采初值设置不好容易陷入局部最优解。提出了用减

法聚类对模糊

一均值进行初值设定的方法，并把其应用到了模糊规则的生成过程中，通过实验可知应用此种方

法不但可以得到全局最优解，加快收敛速度而且不必事先给定聚类个数，所以这是一种行之有效的数据预处理

方法。

关键词:减法聚类;模糊

均值;密度指标;数据预处理

中图分类号

:TPl

文献标识码

文章编号:

1001-5000(2007)02-0036-04

Research of Ways

Data Pretreatment

ßased

on Improved Fuzzy c-Means

XIAO Chun-jing,

YANG

时

，

LIU

Chun-bo

(Computer Science and technology Institute ,

，

叫

300300 , China)

Abstract:

It is very sensitivity to its initial value when we use fuzzy

c-means

(FCM)to put up data pretreatmen

will

get into local optimum solution

the setting of initial value is not good. The thesis puts forward a ways that

can

use subtractive clustering to initialize the initial value

FCM

and

uses this means in

the

course of gen-

erating the fuzzy rules. The experiments show that this way

can

gain the optimum solution ,

quicken

the rate

of convergence and

need not to give the cluster number beforehand. 50 it is a good way of

data

pretreat-

men

Key

words:

subtractive clustering; FCM; density;

data

pretreatment

遗传算法是一种模拟生物进化现象的优化算法，

常用来自动生成模糊推理系统的模糊规则，在生成模

糊规则的过程中使用大量的训练数据

[1]

，但是这些训练

数据中存在着冲突和冗余，如果遗传算法想拟合所有

的数据，就会导致遗传算法的寻优速度下降或者可能

出现未成熟收敛现象，所以直接影响到模糊规则生成

的准确性和效率。为了解决数据冲突和冗余问题，学者

们开始对生成模糊规则的训练数据进行各种预处理，

以期望提高生成规则的准确率和效率。石岩曾用模糊

均值方法对数据进行预处理

[2]

，对整个问题效果有了

一定的改善，但这种方法对初值的设定非常敏感，初值

设定的不好会使其结果陷入局部最优解，而且必须事

先给定聚类个数[习。白素琴、高新波等利用遗传算法和

用聚类原型先验知识对

FCM

进行初始化阳]，虽然能

避免陷入局部最优解，但还是不能解决

FCM

需要事先

给定聚类个数的问题。孙才志、王敬东等用混合

统计

方法决定最佳聚类个数[町，但是却不能同时解决初始化

的问题，本文利用减法聚类法与模糊

一均值相结合的

方法对数据进行预处理，不但可以使其收敛到全局最

优解，收敛速度有一定的提高，而且可以根据数据的每

一维对聚类中心的影响自动确定最佳的聚类个数，不

用事先设定聚类个数。通过使用这样的方法对生成模

糊规则的训练数据进行预处理，可以提高模糊规则生

成的效率和准确性。

模糊

均值算法

模糊

一均值泛函

Jm:Mfc

旷→

R+

定义如下

儿

(11"

市

收稿日期

:2006-12-15;

修回日期

:2007-02-05

基金项目:中国民航大学科研基金

(06kym02

，

05yk15m)

作者简介:肖春景(1

978

一)，女，河北唐山人，助教，硕士，研究方向为人工智能.

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38703295

粉丝: 10
资源: 935

改进模糊c-均值数据预处理：解决初值难题

遗传算法改进的模糊C-均值聚类MATLAB源码

模糊C-均值聚类预处理的公共建筑基线负荷预测

基于波形融合与模糊c-均值聚类的SAR图像变化检测方法

改进人工蜂群算法结合模糊C-均值的聚类分析

彩色地图分色算法优化与实现：基于加权模糊c-均值

"基于最小误差校正的模糊c-均值聚类单倍型重构方法

MRI脑肿瘤自动分割方法中基于贪婪蛇模型和模糊C均值优化的研究

粗糙模糊C均值MRI脑肿瘤分割与分析的研究_Methods报道Saudi King大学学报2021

"基于优化模糊C均值聚类和监督分类器的汽车保险欺诈检测

PyVT：血管时空轨迹预处理和分析工具包 - 船舶轨迹数据管理与挖掘

最新资源