粒子群伪均值优化的K-means聚类算法:空类问题与性能提升

需积分: 50 6 下载量 73 浏览量 更新于2024-09-05 收藏 581KB PDF 举报
本文主要探讨了粒子群优化(PSO)与K-means聚类算法的结合,特别是针对粒子更新过程中出现的空类问题进行改进的研究。K-means算法因其简单易用而广泛应用于聚类分析,但它对初始聚类中心的依赖性较强,容易陷入局部最优解,且存在聚类个数不稳定、可能出现空类等问题。为了解决这些问题,研究人员尝试将PSO的思想引入,如通过混沌粒子群(CPSO)、变异粒子群(VPSO)、量子粒子群(QPSO)以及KCPSO等方法来增强全局搜索能力和避免局部极小解。 然而,这些改进方法并未完全解决空类问题,因为粒子在连续空间中的更新可能导致空类概率增加。特别是在具有高全局寻优能力的粒子中,空类的出现可能会导致聚类结果偏离期望的类别数量,弱化某些类别的特征,并使数据被错误地分配到其他类。针对这一现象,本文提出了基于多子群粒子群伪均值(PK-means)聚类算法。PK-means算法巧妙地融合了K-medoids的思想和并行粒子群的优势,通过调整认知和社会部分的学习因子,平衡全局寻优和局部寻优的能力,从而有效地减少了空类的出现。 相较于传统的粒子群K-means算法,PK-means算法具有以下优势: 1. 避免或显著减少空类问题:算法设计考虑到了空类的发生机制,通过伪均值的引入,使得粒子更新策略更为智能,从而降低空类产生的可能性。 2. 全局和局部收敛性提升:通过调整学习因子,PK-means能够同时保持较好的全局搜索性能和局部优化效果。 3. 处理孤立点问题:算法对于孤立点的处理更加有效,不会因为孤立点的存在而影响整个聚类过程。 文章通过理论分析和实验对比,展示了PK-means算法在聚类性能上的优越性,尤其是在保证聚类质量的同时,解决了传统方法中存在的空类问题。这为改进的粒子群K-means算法在实际应用中提供了新的解决方案,尤其是在大数据挖掘和机器学习领域,具有重要的研究价值。