改进的全局K-均值聚类算法:提高效率与去噪

需积分: 9 0 下载量 121 浏览量 更新于2024-08-12 收藏 391KB PDF 举报
本文主要探讨了一种改进的全局K-均值聚类算法,发表于2010年的《陕西师范大学学报(自然科学版)》第38卷第2期。该研究的背景是针对全局K-均值聚类算法在选取最佳初始中心点时存在的问题,即如何提高效率并减少噪音点的影响。作者们借鉴了快速K中心点聚类算法的思想,提出了一种创新的方法。 新方法的核心在于,它不是简单地选择离现有中心点最近的样本作为下一个簇的初始中心,而是倾向于选择那些样本分布相对密集但距离当前簇中心较远的样本。这样做的目的是为了确保新的簇能够包含未被正确划分的密集区域,同时避免将噪声或孤立点错误地选作中心,从而提高了聚类的质量。 这种改进不仅提升了算法的鲁棒性,还能在保持原有聚类效果的同时,显著缩短了聚类的时间。为了验证这一改进的性能,研究者们采用了UCI机器学习数据库的数据以及人工模拟的数据进行了实验测试。实验结果显示,改进的全局K-均值聚类算法相较于传统的全局K-均值和快速全局K-均值算法,在聚类时间上具有明显的优势。 论文的关键字包括:K-均值聚类、全局K-均值聚类、快速全局K-均值聚类以及K中心点法。整体来说,这项研究对K-均值聚类算法的优化具有重要的理论价值和实际应用意义,特别是在处理大规模数据集和提升聚类效率方面。通过这篇论文,读者可以了解到如何利用智能的选择策略来提升聚类算法的性能,这对于数据挖掘和机器学习领域的研究人员来说是一篇值得深入研究的文献。