大数据集下的划分采样初始聚类中心算法优化

71 浏览量更新于2024-09-06 收藏 231KB PDF 举报

本文主要探讨的是"基于划分采样的初始聚类中心算法"，这是一种针对大数据集的聚类中心选取问题提出的新策略。传统上，K-means算法和中心迭代算法在模式识别、图像处理等领域广泛应用，但它们对初始聚类中心的选择非常敏感，可能导致陷入局部最优解。为了改善这一问题，研究者们提出了各种方法来确定初始聚类中心，如SCS算法、Kaufman方法、PB算法、kd-trees算法等。作者们针对大数据集的特点，借鉴了基于密度的划分算法和大规模数据集限定初值的采样算法的思想，设计了一种创新的划分采样算法。该算法的核心在于将聚类子空间在每一维上进行均匀划分，形成多个数据区域，然后根据每个区域内的数据点数量进行采样，以提高采样精度。这种方法有效地降低了数据集的规模，从而在时间和计算效率上取得了优势。通过对不同规模和形状的数据集进行实验验证，结果显示，与现有的初始聚类中心算法相比，这种划分采样算法在准确率和运行时间上都表现出了明显的优势。这表明，该算法不仅能够提高聚类结果的质量，而且能有效避免局部最优陷阱，使得K-means等算法的迭代收敛速度加快。总结来说，这篇论文主要贡献在于提出了一种结合了密度估计、采样策略和聚类子空间划分的初始聚类中心选择方法，为大数据集下的高效聚类提供了新的解决方案。它不仅提升了聚类的准确性和效率，也为解决实际应用中的大规模数据处理问题提供了一种实用工具。

展开