密度峰值驱动的高效聚类集成方法

需积分: 0 185 浏览量更新于2024-08-28 收藏 795KB PDF 举报

本文主要探讨了"基于密度峰值的聚类集成"这一主题，发表于2016年的《自动化学报》第42卷第9期。聚类集成作为一种提升聚类性能的方法，其目标是通过整合多个基础聚类结果来提高最终分类的准确性、稳定性和鲁棒性。在众多聚类集成算法中，作者观察到一个关键点，即基聚类结果可以通过密度指标来描述和理解。研究者首先对现有的聚类集成算法进行了深入分析，发现这些算法中的核心概念与数据点的密度密切相关。密度是衡量一个点周围密集程度的度量，对于聚类而言，高密度区域通常包含同类数据点，而低密度区域则可能是聚类边界或噪声点。因此，将密度作为表达基础聚类结果的手段，有助于识别不同聚类之间的关联和差异。接下来，文章引入了改进的最大信息系数（RapidMic）来衡量各基聚类结果之间的相关性。RapidMic作为一种统计量，用于快速计算两个数据序列之间的信息共享程度，这对于评估不同聚类结果间的相似性和异质性非常有效。通过这种相关性，可以量化原始数据在经过不同的基聚类器处理后的密度关系，从而为集成过程提供指导。然后，文章的核心创新在于提出了一种基于密度峰值（Density Peaks，DP）的聚类集成方法。密度峰值算法是一种有效的无参数聚类算法，它通过检测数据点的三个特性——局部密度、中心点和邻近点的相对密度，来区分核心点、边界的候选点和噪声点。在集成过程中，这个特性被用来选择和融合那些在密度和中心性方面表现最佳的基础聚类结果，以生成更优的集成聚类。最后，作者通过一系列标准数据集对所提出的模型进行了评估。实验结果显示，与传统的聚类集成模型相比，基于密度峰值的聚类集成方法在聚类效果上表现出更好的性能。这表明该模型在处理复杂数据集和提高集成稳定性方面具有显著优势。关键词包括聚类集成、近邻传播、密度峰值和相似性矩阵，这些词汇概括了本文的主要贡献和讨论焦点。引用时应参考以下格式：褚睿鸿，王红军，杨燕，李天瑞. 基于密度峰值的聚类集成. 自动化学报，2016, 42(9): 1401-1412。文章的DOI为10.16383/j.aas.2016.c150864，对于对该领域的进一步研究和应用具有重要的参考价值。

9 期褚睿鸿等: 基于密度峰值的聚类集成 1403

Kuncheva 等

[30]

研究了聚类的多样性与准确性之

间的关系. Kuncheva 等

[31]

探索出如何利用合适的

多样性提高聚类准确性. Topchy 等

[32]

重点研究了

聚类集成方法的收敛性. Amasyali 等

[33]

就不同因

素对聚类集成性能的影响进行了研究. Zhang 等

[34]

提出了一个广义调整的兰德指数来衡量数据集中两

个基分区之间的一致性. Wang

[35]

设计出基于 CA

树的分层数据聚类结构, 可加速聚类形成, 提升聚类

集成效率. 为了提高聚类集成算法的鲁棒性, Zhou

等

[36]

提出在捕获到稀疏和对称的错误后, 将其整合

到强大和一致的框架下用以学习低秩矩阵. Zhong

等

[37]

认为证据积累是一种有效的框架能够将基分

区转换为关联矩阵, 从而充分利用每个基分区的集

群结构信息. Wahid 等

[38]

研究出的聚类集成方法能

够解决两个不同但相互关联的问题: 从数据集中产

生多个聚类集成结果, 同时产生一个最终的聚类集

成结果.

第三类聚类集成方法主要探索其应用领域. 通

过检测基因表达数据集的基础聚类结构, Yu 等

[39]

提出的聚类集成框架可用于发现癌症基因. Zhang

等

[40]

提出的聚类集成方法可应用于 SAR 图像分

割. Hu 等

[41]

研究了如何使用聚类集成从基因表达

数据集中确定基因簇的问题. 徐森等

[42]

在聚类集成

中引入谱聚类思想, 以解决文本聚类问题. Ye 等

[43]

融合了聚类集成框架与领域知识, 用以实现恶意软

件的自动分类. Zhang 等

[44]

探索出基于聚类集成

对流数据进行数据挖掘的方法. Yu 等

[45]

借助新的

聚类集成方法 BAE (Bagging-Adaboost ensemble)

实现了对真核细胞蛋白质磷酸化位点的预测. 在从

基因表达数据集发现癌症的过程中, 为了降低噪声

基因的影响, Yu 等

[46]

提出两种新的共识聚类框架:

三谱聚类为基础的共识聚类 (SC3) 和双谱聚类为基

础的共识聚类 (SC2). Ammour 等

[47]

提出的聚类

集成方法可应用于图像分割领域, 方法中包含了模

糊 C 均值聚类 (Fuzzy C-means, FCM) 算法和具

有不同邻居效应值的本地信息 FCM 算法 FCM S1,

FCM S2. 为了解决大规模社会媒体网络中的隐身

术检测问题, Li 等

[48]

提出了高阶共同特征和聚类集

成的方法. 受 Chameleon 理念的启发, Xiao 等

[49]

设计出一种半监督的聚类集成模型用于高速列车

行进过程中传动装置的故障诊断. Teng 等

[50]

提出

用基于数据处理分组方法的聚类集成框架 (Cluster

ensemble framework based on the group method

of data handling, CE-GMDH) 提升数据处理技术.

本文提出一种基于改进的 DP 算法的聚类集成

模型, 获得基聚类结果后, 使用 RapidMic 衡量各基

聚类结果之间的相关性, 通过计算得到最大相关系

数矩阵后, 使用改进的 DP 算法进行聚类集成, 获得

最终的聚类集成结果.

3 基于改进的 DP 算法的聚类集成

3.1 聚类集成问题

聚类集成可以分为两个步骤进行. 第一步是使

用基聚类器对原始数据集进行多次聚类, 得到多个

基聚类结果. 这一步可选择两种方式达成: 1) 使用

某一种算法重复运算多次获得基聚类结果; 2) 选用

多种不同的算法进行运算获得基聚类结果. 第二步

是基聚类结果集成, 选取一种适当的聚类集成方法

或者框架, 使之能够最大限度地分析这些结果, 得到

一个对原始数据集最好的集成结果.

3.2 基聚类结果的产生

近邻传播 (Aﬃnity propagation, AP)

[51]

算法

是 2007 年在 Science 上被提出的. 本文选用 AP

算法作为基聚类算法, 与其他算法不同, AP 算法

不需要在一开始指定聚类个数, 所有的数据点均作

为潜在的聚类中心. 通过计算原始数据集的相似

度矩阵, 使用 AP 算法进行聚类, 产生基聚类结果.

假设原始数据集有 n 个数据点, 选用欧式距离作

为相似度的测度指标, 则任意两点之间的相似度为

两点距离平方的负数, 例如对于点 x

和点 x

, 有

G(i, k) = −k x

− x

. 通过计算所有数据点的相

似度, 得到 n × n 维的相似度矩阵 G. AP 算法初始

设定所有 G(k, k) 为相同值 p. 通过参考度 p 的值来

判断某个点是否能成为聚类中心, 参考度 p 直接影

响了最终的聚类数量.

AP 算法传递两种类型的消息: 吸引度值 (Re-

sponsibility) 和归属度值 (Availability). 吸引度值

r(i, k ) 表示从点 i 发送到候选聚类中心 k 的数值消

息, 反映了 k 点是否适合作为 i 点的聚类中心. 而

归属度值 a(i, k) 表示从候选聚类中心 k 发送到 i 的

数值消息, 反映了 i 点是否选择 k 作为其聚类中心.

r(i, k ) 与 a(i, k ) 越强, k 点作为聚类中心的可能性

就越大, 并且 i 点隶属于以 k 点为聚类中心的聚类

的可能性也越大. 算法运行过程中, 通过迭代过程不

断更新每一个点的吸引度值和归属度值, 直到产生

K 个高质量的聚类中心, 随后将其余的数据点分配

到相应的聚类中.

通过选取不同的 p 值, 重复使用 AP 算法

计算次, 最终可获得 m 个不同的基聚类结果

P = [P

, P

, · · · , P

]. P 为一个 n × m 维的

矩阵, 矩阵的每一行代表每一个数据点在 m 种不同

剩余11页未读，继续阅读

weixin_38614417

粉丝: 5
资源: 915

密度峰值驱动的高效聚类集成方法

多核学习提升密度峰值聚类下的基础矩阵精确估计

密度峰值优化的模糊C均值聚类算法研究

IIOT机械故障自训练诊断系统：Python源码及数据集

基于粒度计算的聚类集成算法研究.pdf

基于粒度计算的聚类集成算法研究.docx

聚类算法程序

产生雷达信号，雷达信号聚类分选

DPA：DPA软件包是Density Peaks Advanced聚类算法的scikit-learn兼容实现。 该算法提供有关群集，其统计可靠性和层次结构的健壮和可视化信息

density.js:JavaScript中友好的内核密度估计！

NeuralEnsembleAnalysis:用于分析神经集成的MATLAB工具箱

最新资源

DPA：DPA软件包是Density Peaks Advanced聚类算法的scikit-learn兼容实现。该算法提供有关群集，其统计可靠性和层次结构的健壮和可视化信息