模糊C均值聚类算法详解与C语言实现

版权申诉

171 浏览量更新于2024-06-29 收藏 682KB PDF 举报

模糊C均值聚类算法（Fuzzy C-Means, FCM）是一种经典的模糊聚类算法，它在数据挖掘和机器学习领域中占有重要地位。该算法的初衷是为了克服传统硬聚类（如K-means）中样本严格归属某一类别的限制，引入了模糊性，使得样本可以同时属于多个类别的概念。 FCM算法的核心思想是通过优化隶属度函数μ_A(x)，来寻找数据点对各个簇的最佳匹配。该函数表示一个对象x对簇A的隶属程度，取值范围在0到1之间，其中1表示完全属于，0表示不属于。算法的目标是找到一个C个簇，使得每个数据点的隶属度满足一定的优化条件，通常采用最小化误差平方和作为目标函数。算法的主要步骤如下： 1. 初始化：首先随机或用户指定初始聚类中心C_1, C_2, ..., C_C，以及控制参数m。 2. 迭代过程： - 计算隶属度：对于每个数据点x_i，计算其对每个簇C_j的隶属度μ_j(x_i) = (||x_i - C_j||^m) / Σ_k=1^C ||x_i - C_k||^m。 - 更新聚类中心：根据每个簇内所有点的加权平均值更新簇中心，C_j = Σ_i μ_j(x_i) * x_i / Σ_i μ_j(x_i)。 - 重复：直至满足停止条件，如隶属度变化足够小或者达到预设的最大迭代次数。 3. 参数选择：FCM算法需要调整的参数包括聚类数量C（通常远小于样本总数），以及柔性参数m。m的大小影响聚类的“模糊”程度，m较大时聚类更为平滑，m较小时更接近硬聚类。 4. 结果解释：最后得到的数据点与簇的隶属度给出了样本在各个类别的“模糊”归属，这对于那些类别边界不清晰、样本间的相似度难以明确划分的问题尤其有用。 FCM算法在实际应用中，如图像分割、文本分类、生物信息学等领域被广泛应用，但需要注意的是，它对初始聚类中心的选择较为敏感，不同的初始设置可能导致不同的结果。此外，对于大数据集，FCM可能会遇到计算效率问题，因此，优化版本如改进的FCM（IFCM）、BFCM等也在不断发展以提高性能。模糊C均值聚类算法以其灵活度和适应性，在处理模糊性和不确定性的数据集时展现出强大的能力，是理解和实现复杂数据聚类问题的重要工具。

改进算法的思想是首先采用随机抽样的办法，从数据集中选取多个样本，

对每个样本应用 FCM 算法，将得到的结果作为初始群体，然后再利用遗传算

法对聚类结果进行优化，选取其中的最优解做为问题的输出，由于采样技术

显著的压缩了问题的规模，而遗传又可以对结果进行全局最优化处理，因此

在时间性能和聚类质量上都能获得较满意的结果。

遗传算法是美国 Michigon 大学的 John Holland 研究机器学习时创立的

一种新型的优化算法，它的主要优点是：遗传算法是从一系列点的群体开始

搜索而不是从单个样本点进行搜索，遗传算法利用适应值的相关信息，无需

连续可导或其他辅助信息，遗传算法利用转移概率规则，而非确定性规则进

行迭代，遗传算法搜索过程中，以对群体进行分化以实现并行运算，遗传算

法经过遗传变异和杂交算子的作用，以保证算法以概率 1 收敛到全局最优解

—具有较好的全局特性，其次遗传算法占用计算机的内存小，尤其适用计算

复杂的非线性问题。

遗传算法的设计部分

（1）种群中个体的确定

聚类的关键问题是聚类中心的确定，因此可以选取聚类中心作为种

群的个体，由于共有 C 个聚类中心，而每个聚类中心是一个 S 维的实数

向量，因此每个个体的初始值是一个 c*s 维的市属向量。

（2）编码

常用的编码方式有二进制与实数编码，由于二进制编码的方式搜索

能力最强，且交叉变异操作简单高效，因此采用二进制的编码方式，同

时防止在进行交叉操作时对优良个体造成较大的破坏，在二进制编码的

方式中采用格雷码的编码形式。

每个染色体含 c*s 个基因链，每个基因链代表一维的数据，由于原

始数据中各个属性的取值可能相差很大，因此需首先对数据进行交换以

统一基因链的长度，可以有以下两种变换方式。

1 扫描整个数据集，确定每维数据的取值范围，然后将其变换到同

一量级，在保留一定有效位的基础上取整，根据有效位的个数动态的计

算出基因链的长度。

2 对数据进行正规化处理，即将各维数据都变换到相同的区间，可

以算出此时的基因链长度为 10。

（3）适应度函数

由于在算法中只使用了聚类中心 V，而未使用虑属矩阵 u,因此需要

对 FCM 聚类算法的目标函数进行改进，以适用算法的要求，

和目标函数是等价的，由于遗传算法的

适用度一般取值极大，因此可取上式的倒数作为算法的使用度函数。

（4）初始种群的确定

初始种群的一般个体由通过采样后运行 FCM 算法得到的结果给出，

另外的一般个体通过随机指定的方法给出，这样既保证了遗传算法在运

算之初就利用背景知识对初始群体的个体进行了优化，使算法能在一个

较好的基础上进行，又使得个体不至于过分集中在某一取值空间，保证

了种群的多样性。

剩余20页未读，继续阅读

G11176593

粉丝: 6923
资源: 3万+

模糊C均值聚类算法详解与C语言实现

模糊C均值聚类算法的C 实现代码.pdf

模糊C均值聚类算法的C 实现代码讲解 (2).pdf

模糊C均值聚类算法的C 实现代码讲解.docx

大数据-算法-核聚类算法及其应用研究.pdf

一种改进FCM的快速优化算法及其应用共5页.pdf-文档整

计算机视觉算法与应用.pdf

聚类分析的案例分析.rar

MATLAB-智能算法30个案例分析.zip

MATLAB培训课程安排.doc.pdf

大数据建模与分析挖掘应用.pdf

最新资源