最小化误差优化的k-means初始聚类中心策略

需积分: 12 2 下载量 36 浏览量 更新于2024-09-06 收藏 983KB PDF 举报
该篇论文深入探讨了"最小化误差平方和k-means初始聚类中心优化方法",针对传统k-means算法存在的对初始聚类中心敏感性和对孤立点易于选择的问题。k-means算法因其简单实现和高效的并行性而广受欢迎,但其贪心性质可能导致局部最优解,初始聚类中心的选择对最终结果至关重要。 论文提出了一种新颖的优化策略,旨在通过最大化减少当前误差平方和来选择初始聚类中心。这种方法在选择新中心点时,不仅考虑了单个数据点与现有中心的距离,还综合考虑了整体误差降低的效果。与最大最小距离法相比,这种策略减少了对孤立点的依赖,因为它更全面地评估了每个候选点对整个聚类效果的贡献。 实验部分,作者使用真实数据集对新方法进行了对比测试,结果显示,相较于传统方法,优化后的k-means在选择初始中心后能显著减少聚类的迭代次数,从而提高了聚类的质量和效率。这对于处理大规模数据集或需要快速收敛的场景尤其有利。此外,人工模拟数据也证实了新方法对孤立点的鲁棒性。 这篇论文为k-means聚类算法提供了一个重要的改进,通过优化初始聚类中心的选择过程,提升了算法的稳定性和性能,特别是在处理复杂数据集时。这一创新可能为后续的聚类算法研究和实际应用提供有价值的参考。