模糊C均值聚类算法详解与C语言实现

版权申诉

41 浏览量更新于2024-07-01 收藏 340KB DOCX 举报

模糊C均值聚类算法（Fuzzy C-Means, FCM）是一种基于模糊数学的聚类分析方法，它在处理数据集时允许样本点同时归属于多个类，从而更客观地反映数据的不确定性。算法的核心思想是通过优化一个成本函数，寻找数据点与各个类中心之间的模糊关联程度，即每个样本点的隶属度。研究背景表明，模糊聚类分析算法可以根据需求分为三类：一类是基于模糊等价矩阵的动态聚类，适用于分类数不确定的情况；第二类是模糊C均值聚类，其分类数预先给定，目标是找到最佳的聚类解决方案；第三类是基于摄动的模糊聚类，它考虑了数据的局部变化。在模糊C均值聚类中，关键的概念是隶属度（membership function），它是衡量一个样本点x与类A的关联强度的函数，通常用μ(x)表示，其值域为[0,1]，μ(x)=1表示样本点完全属于该类，而μ(x)>0但小于1则表示样本点对该类有一定的模糊归属。这种模糊性使得算法能够处理数据中的噪声和不精确性。算法的实施需要两个主要参数：聚类数目C和控制参数m。C通常设置为远小于样本总数，确保足够的细分；m则是控制算法的灵活性，较大的m值可能导致过度平滑，较小的m值则接近于hard clustering方法，如Hard C-Means（HCM）。FCM算法的输出是各个类的中心（聚类质心）以及每个样本点的隶属度。 FCM算法的具体步骤包括初始化类中心、迭代更新每个样本点的隶属度和类中心，直到达到收敛条件或达到预设的最大迭代次数。在每一轮迭代中，算法首先计算每个样本点的隶属度，然后根据这些隶属度重新计算类中心，这个过程不断重复，直到类中心不再发生显著变化。总结来说，模糊C均值聚类算法是IT领域中一种强大的无监督学习工具，特别适合处理数据的模糊性和不确定性。理解并掌握这一算法对于数据分析和模式识别工作至关重要，特别是在图像处理、规则挖掘等领域有广泛应用。

改进算法的思想是首先采用随机抽样的办法，从数据集中选取多个样本，

对每个样本应用 FCM算法，将得到的结果作为初始群体，然后再利用遗传算

法对聚类结果进行优化，选取其中的最优解做为问题的输出，由于采样技术

显著的压缩了问题的规模，而遗传又可以对结果进行全局最优化处理，因此

在时间性能和聚类质量上都能获得较满意的结果。

遗传算法是美国 Michigon大学的 John Holland研究机器学习时创立的

一种新型的优化算法，它的主要优点是：遗传算法是从一系列点的群体开始

搜索而不是从单个样本点进行搜索，遗传算法利用适应值的相关信息，无需

连续可导或其他辅助信息，遗传算法利用转移概率规则，而非确定性规则进

行迭代，遗传算法搜索过程中，以对群体进行分化以实现并行运算，遗传算

法经过遗传变异和杂交算子的作用，以保证算法以概率 1 收敛到全局最优解

—具有较好的全局特性，其次遗传算法占用计算机的内存小，尤其适用计算

复杂的非线性问题。

遗传算法的设计部分

（1）种群中个体的确定

聚类的关键问题是聚类中心的确定，因此可以选取聚类中心作为种

群的个体，由于共有 C 个聚类中心，而每个聚类中心是一个 S 维的实数

向量，因此每个个体的初始值是一个 c*s维的市属向量。

（2）编码

常用的编码方式有二进制与实数编码，由于二进制编码的方式搜索

能力最强，且交叉变异操作简单高效，因此采用二进制的编码方式，同

时防止在进行交叉操作时对优良个体造成较大的破坏，在二进制编码的

方式中采用格雷码的编码形式。

每个染色体含 c*s个基因链，每个基因链代表一维的数据，由于原

始数据中各个属性的取值可能相差很大，因此需首先对数据进行交换以

统一基因链的长度，可以有以下两种变换方式。

1 扫描整个数据集，确定每维数据的取值范围，然后将其变换到同

一量级，在保留一定有效位的基础上取整，根据有效位的个数动态的计

算出基因链的长度。

2 对数据进行正规化处理，即将各维数据都变换到相同的区间，可

以算出此时的基因链长度为 10。

（3）适应度函数

由于在算法中只使用了聚类中心 V，而未使用虑属矩阵 u,因此需要

对 FCM 聚类算法的目标函数进行改进，以适用算法的要求，

和目标函数是等价的，由于遗传算法的

适用度一般取值极大，因此可取上式的倒数作为算法的使用度函数。

（4）初始种群的确定

初始种群的一般个体由通过采样后运行 FCM 算法得到的结果给出，

另外的一般个体通过随机指定的方法给出，这样既保证了遗传算法在运

算之初就利用背景知识对初始群体的个体进行了优化，使算法能在一个

较好的基础上进行，又使得个体不至于过分集中在某一取值空间，保证

了种群的多样性。

剩余20页未读，继续阅读

apple_51426592

粉丝: 9841
资源: 9652

模糊C均值聚类算法详解与C语言实现

模糊C均值聚类算法的C 实现代码讲解.docx

模糊C均值聚类算法的C 实现代码 (2).docx

模糊C均值聚类算法的C 实现代码.doc

试验三k-均值聚类算法试验报告 (3).docx

FCM聚类算法的实现 (2).docx

10种聚类算法（附代码展示）.docx

各种聚类算法介绍及对比.docx.docx

基于上下文模糊C均值聚类的图像分割算法.docx

一种改进模糊C均值聚类的电离层杂波分类方法.docx

谱聚类算法 算法简介 (2).docx

最新资源

谱聚类算法算法简介 (2).docx