改进的K-means算法:离群点检测提升聚类精度

需积分: 45 5 下载量 87 浏览量 更新于2024-08-13 收藏 789KB PDF 举报
"基于离群点检测的K-means算法是一种改进的聚类算法,最初发表于2014年。传统K-means算法因其简单易用和速度快,在实际应用中非常流行。然而,这种算法存在一个主要问题,那就是容易受到噪声数据的影响,这会导致聚类结果不稳定性以及较低的聚类精度。为解决这一问题,论文提出了一种创新方法,即通过离群点检测来增强K-means算法。 在新的算法中,首先通过离群点检测技术识别出数据集中异常的点,这些点在常规情况下被认为是噪声或者与大多数数据点有显著差异。在选择初始聚类中心(种子)时,新算法避免将离群点选作初始中心,从而减少它们对后续聚类过程的负面影响。接着,对非离群点进行聚类后,根据每个离群点到各个已建立聚类中心的距离,将它们分配到最合适的簇中,进一步优化了聚类结果。 该算法的关键在于它能有效地降低离群点对K-means算法的干扰,提高聚类的稳定性和准确性。实验结果显示,即使在给定固定数量的簇的情况下,在标准数据集UCI上,这种方法显著降低了离群点对聚类结果的影响,提升了聚类的精确度和稳定性。研究者还指出,聚类分析作为一种强大的数据挖掘技术,不仅可用于模式识别、空间数据分析等领域,而且在预处理其他数据挖掘方法时也发挥着重要作用。 作者冷泳林等人,结合辽宁省科技厅项目、中国高等职业技术教育研究会规划课题以及辽宁省教育科学项目的支持,对K-means算法进行了深入研究,并展示了他们在数据挖掘特别是离群点处理方面的专业知识。论文的关键词包括聚类、K-means算法、离群点检测和UCI数据集,这些都反映了研究的焦点和贡献。 总结来说,基于离群点检测的K-means算法是通过对原始数据集进行智能筛选和调整,提升聚类性能的有力尝试,这对于在现实世界中处理大规模、高噪音的数据集具有重要意义。"