密度峰值驱动的高效聚类集成方法

需积分: 0 0 下载量 185 浏览量 更新于2024-08-28 收藏 795KB PDF 举报
本文主要探讨了"基于密度峰值的聚类集成"这一主题,发表于2016年的《自动化学报》第42卷第9期。聚类集成作为一种提升聚类性能的方法,其目标是通过整合多个基础聚类结果来提高最终分类的准确性、稳定性和鲁棒性。在众多聚类集成算法中,作者观察到一个关键点,即基聚类结果可以通过密度指标来描述和理解。 研究者首先对现有的聚类集成算法进行了深入分析,发现这些算法中的核心概念与数据点的密度密切相关。密度是衡量一个点周围密集程度的度量,对于聚类而言,高密度区域通常包含同类数据点,而低密度区域则可能是聚类边界或噪声点。因此,将密度作为表达基础聚类结果的手段,有助于识别不同聚类之间的关联和差异。 接下来,文章引入了改进的最大信息系数(RapidMic)来衡量各基聚类结果之间的相关性。RapidMic作为一种统计量,用于快速计算两个数据序列之间的信息共享程度,这对于评估不同聚类结果间的相似性和异质性非常有效。通过这种相关性,可以量化原始数据在经过不同的基聚类器处理后的密度关系,从而为集成过程提供指导。 然后,文章的核心创新在于提出了一种基于密度峰值(Density Peaks,DP)的聚类集成方法。密度峰值算法是一种有效的无参数聚类算法,它通过检测数据点的三个特性——局部密度、中心点和邻近点的相对密度,来区分核心点、边界的候选点和噪声点。在集成过程中,这个特性被用来选择和融合那些在密度和中心性方面表现最佳的基础聚类结果,以生成更优的集成聚类。 最后,作者通过一系列标准数据集对所提出的模型进行了评估。实验结果显示,与传统的聚类集成模型相比,基于密度峰值的聚类集成方法在聚类效果上表现出更好的性能。这表明该模型在处理复杂数据集和提高集成稳定性方面具有显著优势。 关键词包括聚类集成、近邻传播、密度峰值和相似性矩阵,这些词汇概括了本文的主要贡献和讨论焦点。引用时应参考以下格式:褚睿鸿,王红军,杨燕,李天瑞. 基于密度峰值的聚类集成. 自动化学报,2016, 42(9): 1401-1412。文章的DOI为10.16383/j.aas.2016.c150864,对于对该领域的进一步研究和应用具有重要的参考价值。