改进模糊C-均值聚类算法:加速与优化

需积分: 26 1 下载量 149 浏览量 更新于2024-08-12 收藏 916KB PDF 举报
"本文主要介绍了一种改进的模糊C-均值聚类算法,该算法针对传统模糊C-均值算法的局限性进行了优化。在2012年发表于上海理工大学学报的一篇论文中,作者曹易和张宁探讨了如何利用概率密度函数确定初始聚类中心和聚类数量,同时结合竞争学习思想引入抑制因子以加速算法的收敛速度。他们还提出了一种新的有效性指标,该指标兼顾类内差异和类间差异,作为迭代条件的目标函数。通过实验,他们找出了最优参数范围,并通过对比经典模糊C-均值算法,证明了改进算法在收敛速度和聚类质量上的提升。该研究得到了国家自然科学基金和上海市重点学科建设项目的资助。" 模糊C-均值(Fuzzy C-Means, FCM)聚类算法是一种广泛应用的数据聚类方法,它允许样本同时属于多个类别,具有一定的模糊性。然而,FCM算法存在一些问题,如对初始聚类中心敏感、收敛速度慢以及对异常值敏感等。针对这些问题,论文提出了以下改进: 1. 概率密度函数确定初始聚类中心:传统的FCM算法通常随机选择初始聚类中心,这可能导致算法陷入局部最优解。通过使用概率密度函数,可以更科学地估计数据分布,从而选择更具代表性的初始聚类中心,降低陷入局部最优的风险。 2. 引入竞争学习和抑制因子:竞争学习是神经网络中的一个概念,它模拟生物神经系统中神经元之间的竞争关系。在此处,作者将竞争学习的思想应用于聚类过程,通过增加对手之间的抑制因子,使得样本更倾向于归属到距离其最近且聚类强度较高的簇,从而加快算法的收敛速度。 3. 新的有效性指标:传统的FCM算法通常使用类内平方和(Within-Cluster Sum of Squares, WCSS)作为停止迭代的条件。论文提出了一种新的有效性指标,这个指标综合考虑了类内的紧密程度和类间的分离程度,可以更好地评估聚类效果并指导迭代过程。 通过实验,作者确定了最优的参数范围,如模糊因子(即模糊度参数)和迭代次数等,并通过与标准FCM算法的对比,验证了改进算法在实际应用中的优势。这些改进对于处理大规模、高维度数据集尤其有益,可以提供更快的聚类速度和更优的聚类质量。 这篇论文提出的改进模糊C-均值聚类算法是对经典算法的重要补充,它在保留原有算法优点的同时,有效地解决了其中的不足,为数据挖掘和机器学习领域提供了更有效的工具。这种改进对于后续的聚类算法研究和实践具有重要的参考价值。