基于平均密度的adk-means算法:提高k-means聚类效率与稳定性

需积分: 10 0 下载量 100 浏览量 更新于2024-09-05 1 收藏 484KB PDF 举报
本文主要探讨了"基于平均密度优化初始聚类中心的k-means算法"的研究论文,发表于2014年的《计算机工程与应用》杂志,第50卷第20期。论文针对传统k-means算法存在的问题,如初始聚类中心的选择对结果敏感、对孤立点的处理不佳和k值的预设困难,提出了创新性的解决方案。 在传统k-means算法中,初始聚类中心的选择至关重要,但往往容易导致算法陷入局部最优解。作者注意到聚类结果对孤立点的高度依赖,孤立点的存在可能导致聚类效果下降。为解决这个问题,论文提出了一种新的adk-means算法。该算法首先将数据集中的孤立点识别并单独处理,通过计算剩余数据集中样本的平均密度来排除它们对均值计算的影响。然后,算法在大于平均密度的点集中选择聚类中心,遵循最小距离原则将孤立点分配给与其最近的聚类中心,这样可以避免孤立点对最终聚类结果的负面影响。 adk-means算法的主要改进在于优化初始聚类中心的选取过程,这不仅降低了对初始设置的依赖,提高了算法的收敛速度,还增强了聚类的稳定性。此外,通过平均密度的考虑,该算法在处理数据集时能够更好地应对孤立点,从而提升了聚类精度。实验结果证实,adk-means算法相较于传统基于密度优化的k-means算法在性能上有了显著提升,尤其是在处理大规模数据集和减少对孤立点敏感性方面表现出色。 这篇论文提供了一种有效的聚类算法改进策略,对于在实际应用中处理大规模、复杂数据集,特别是需要稳健性和高效性的场景,具有重要的理论和实践价值。