改进的SFLA-K-means算法:提升K均值聚类性能与全局优化

需积分: 9 0 下载量 13 浏览量 更新于2024-09-06 收藏 584KB PDF 举报
本篇论文研究主要探讨了MDL理论(Minimum Description Length)在多属性值域划分中的应用,针对K均值聚类算法存在的初始值敏感性和易陷于局部最优问题,提出了一个创新的解决方案。MDL理论是一种信息论框架下的数据压缩方法,强调通过最小化描述数据所需的编码长度来评估模型的复杂度和有效性。 论文首先回顾了K均值聚类算法的基本原理及其局限性,即其结果对初始聚类中心的选择非常敏感,且在处理大规模数据时容易陷入局部最优,这限制了其在实际应用中的性能。为改善这些问题,作者引入了混合蛙跳算法(SFLA)和K均值算法的融合。SFLA作为一种进化算法,结合了模因进化和群体行为的优势,具有全局寻优能力和较快的收敛速度,但可能存在的早熟收敛和退化现象限制了其效果。 在论文中,作者设计了一种改良的混合蛙跳算法(MSFLA),通过混沌搜索优化初始解,并采用新的搜索策略增强算法的优化能力。同时,作者提出根据蛙群的适应度方差动态决定何时启动K均值算法,以此避免过早收敛。这样,MSFLA不仅保留了K均值算法的局部搜索优点,还结合了SFLA的全局优化特性。 实验结果显示,改良后的MSFLA-K-means算法显著提高了聚类精度,并在全局寻优能力和收敛速度上表现优越。对比其他优化技术,如遗传算法、蚁群算法和粒子群算法,MSFLA-K-means算法显示出更好的综合性能,尤其是在处理大规模数据集和防止早熟收敛方面。 因此,这篇论文为解决K均值聚类算法的局限性提供了一个有前景的方法,证明了MDL理论与混合蛙跳算法的有效结合,对于实际的聚类问题处理具有重要的实践价值。通过这种方式,文章不仅深化了我们对K均值算法的理解,也为后续的聚类算法研究开辟了新的方向。