改进的DP-K-means算法:高密度下提升聚类性能

需积分: 12 4 下载量 40 浏览量 更新于2024-09-06 1 收藏 1.42MB PDF 举报
该篇论文深入探讨了K-means算法在实际应用中的局限性,尤其是初始聚类中心选择对聚类效果产生的负面影响。K-means算法由于其初始聚类中心通常是随机选取的,这可能导致聚类结果的不稳定性,从而影响最终的分类效果。为解决这一问题,研究人员李硕和刘书昌提出了一个创新的改进方法——基于高密度最小距离的选择初始聚类中心的DP-Kmeans算法。 DP-Kmeans算法的核心思想是通过寻找数据集中高密度区域的中心点作为初始聚类中心,而非简单的随机选取。这种方法的优势在于,高密度区域通常反映了数据的自然结构和特征,选择这样的中心点能够更好地反映数据的分布情况,从而提高聚类的准确性。此外,该算法还具备一定的抗噪声能力,能够在一定程度上处理数据中的异常值或噪声,使得聚类结果更为稳健。 为了验证DP-Kmeans算法的有效性和优越性,研究者在人工数据集和标准的UCI数据集上进行了实验。实验结果表明,相比于传统的K-means算法,DP-Kmeans在聚类精度方面有着显著提升。这不仅证实了算法在实际应用中的有效性,也展示了其在复杂数据集上的优良性能。 关键词方面,论文涵盖了“聚类分析”,这是研究的核心领域,强调了K-means算法的改进策略;“K-means”作为改进的基础算法,是论文讨论的重点;“聚类中心”则直接体现了改进的关键所在,即如何选择更优的初始中心;最后,“高密度最小距离”则是DP-Kmeans算法独特且关键的贡献,它揭示了算法选择初始中心的依据和优化策略。 这篇论文通过对K-means算法的深入剖析和改进,提供了一种实用的解决方案,对于提高聚类任务的准确性和鲁棒性具有重要的理论价值和实践意义。在未来的研究中,这种基于密度的初始化策略可能会被广泛应用于各种数据挖掘和机器学习任务中。