改进k-means算法:优化初始聚类中心提升分类准确率

需积分: 10 1 下载量 156 浏览量 更新于2024-09-04 收藏 339KB PDF 举报
本文档主要探讨了k-means算法在实际应用中遇到的一个关键问题,即初始聚类中心的选择对其最终聚类效果有显著影响。传统k-means算法对此较为敏感,尤其是在大数据集或非均匀分布的数据集中,初始聚类中心的选取可能导致聚类结果不稳定或分类准确率低下。 作者提出了一种改进的k-means算法,旨在解决这个问题。他们的方法基于数据样本的实际分布来优化初始聚类中心。首先,算法采用贪心策略创建K个数据集合,每个集合的大小与整个数据集的实际分布紧密相关。这样做的目的是确保数据在相似属性下的聚合,使得集合内的数据点之间具有较高的相似性。 选择初始聚类中心时,作者建议取每个集合中数据的平均值作为初始中心。这种做法确保了初始聚类中心更接近于理想状态下通过迭代过程逐步形成的最优聚类中心。换句话说,它减少了算法对初始猜测的依赖,提高了算法的稳定性和收敛速度。 理论分析部分深入探讨了新算法的优势,证明了它能够改善聚类性能,特别是在处理复杂数据集时,其结果更为稳定,分类准确率也有所提升。实验结果进一步证实了这一点,显示了改进后的k-means在不同数据集上的优异表现。 这篇论文提供了一种实用且有效的策略,通过考虑数据本身的分布特性来初始化k-means算法,从而提高了聚类任务的效率和准确性。这对于在实际的计算机工程和设计领域,尤其是需要高精度聚类分析的场景,如图像分割、客户分群或异常检测等,具有重要的实践价值。