网格与密度结合:簇边缘聚类精度提升算法

需积分: 9 0 下载量 151 浏览量 更新于2024-09-06 收藏 505KB PDF 举报
"该论文提出了一种新的聚类算法,旨在解决基于网格聚类算法在簇边缘精度不足的问题。该算法结合了网格和密度的概念,通过精细化处理位于簇边缘的网格,提高聚类的准确性。作者是张宁、单世民、江贺和张宪超,来自大连理工大学软件学院。实验结果显示,提出的算法在保持较低时间复杂度的同时,能够获得比CLIQUE算法更好的聚类效果。该方法适用于数据密集型场景,尤其适合处理大规模数据集,因为它降低了计算密集度,并且能够处理不规则形状的聚类。" 论文详细内容: 聚类是一种无监督学习方法,用于将数据集分成多个组,使同一组内的数据点彼此相似,而不同组的数据点差异大。常见的聚类算法包括基于划分、层次和密度的方法。基于网格的聚类算法,如CLIQUE,通过将数据空间划分为网格,简化了计算过程,但可能导致簇边缘的聚类质量下降。 本文针对这一问题,提出了一种创新的聚类策略。算法首先采用网格化空间,然后特别关注簇边缘的网格,对其进行更精细的密度分析,以恢复这些不确定数据点的原始信息。通过计算相似度,这些点被正确地分配到相应的簇中。这种方法的优势在于,它能够在保持较低的时间复杂度(优于CLIQUE的O(n)时间复杂度)的同时,提高聚类的精确度。 论文还指出,基于密度的聚类方法,如DBSCAN,虽然能够有效地处理非规则形状的簇并减少噪声的影响,但其计算成本较高。相比之下,新算法通过网格化和密度结合,既保留了密度方法的优点,又降低了计算复杂性。 实验部分展示了在空间数据集上的应用,证明了新算法在相同的时间内能获得优于CLIQUE的聚类结果。此外,由于对数据输入顺序不敏感,新算法适合处理增量数据,对于发现大规模数据集中的任意形状聚类具有显著优势。 关键词涵盖了数据聚类的核心概念,包括基于网格、基于密度以及混合算法的设计。文献标识码和中图分类号则将论文归类到计算机科学与技术领域,特别是数据挖掘和聚类算法的研究。 这篇论文贡献了一种新颖的聚类策略,它通过优化簇边缘的处理,提高了基于网格聚类算法的精度,为大数据分析和聚类问题提供了一个有效的解决方案。