非参数核密度提升的密度峰值聚类算法:更高效与准确性

需积分: 29 10 下载量 200 浏览量 更新于2024-09-07 1 收藏 1.62MB PDF 举报
本文研究的论文聚焦于改进密度峰值聚类算法,特别是在处理密度计算中的主观因素和效率问题。传统的密度峰值聚类算法CFSFDP(clustering by fast search and find of density peaks)存在两个主要缺点:一是需要人为设定截断距离来确定邻域范围,二是依赖于人工选择簇类中心。这些因素可能导致聚类结果的不稳定性。 为了克服这些问题,研究人员提出了一种基于非参数核密度估计的新型聚类算法。非参数核密度估计是一种统计方法,它不需要预先假设数据的分布形式,而是通过数据本身的特性来估计密度,这使得算法能够更客观地处理数据点的局部密度。首先,该算法通过非参数核密度估计技术,准确地计算每个数据点的密度值,这样就避免了硬性截断距离带来的主观性。 接着,通过构建排序图,研究人员设计了一个自动选择簇类中心的策略。这种方法根据数据点的密度值和邻近点的密度对比,自动识别出具有较高密度且周围密度较低的潜在簇类中心。剩余的数据点则按照其与中心点的距离和密度关系被归并到相应的簇类中。 在聚类过程中,算法还引入了邻近相似子簇的合并机制,依据一定的合并准则,例如邻近且相似的簇会被合并,以进一步优化聚类结构。此外,通过检测边界密度,可以有效地识别噪声点,即那些不属于任何簇的孤立点或边缘点,从而提升聚类的准确性。 实验部分,论文展示了新算法在人工测试数据集和UCI真实数据集上的表现。结果表明,相较于原CFSFDP算法,新算法显著降低了对人为干预的依赖,提高了聚类的客观性和准确性。这种基于非参数核密度估计的改进方法对于处理大规模、复杂的数据集具有明显的优势,有助于提高聚类分析的稳定性和有效性。 作者团队由谢国伟、钱雪忠和周世兵组成,他们分别在数据挖掘、数据库技术以及模式识别等领域有所专长,为本文的研究提供了深厚的学术背景和实践经验。这篇研究论文的发表不仅解决了聚类算法中的关键问题,也为后续的相关研究提供了新的视角和技术支持。