概率无向图模型优化的近邻传播聚类算法

182 浏览量更新于2024-08-30 收藏 269KB PDF 举报

"基于概率无向图模型的近邻传播聚类算法通过改进传统的近邻传播聚类算法，解决了偏向参数选择困难和簇数量过多的问题，提高了聚类效率和精度。该算法首先为样本数据建立概率无向图模型，然后利用极大团和势函数计算数据样本的概率密度，将此密度作为聚类先验知识应用于偏向参数，进一步通过高斯降噪和簇归并优化聚类结果。实验在UCI数据集上进行，显示提出的算法在聚类效果上优于同类算法。" 近邻传播聚类算法(Affinity Propagation Clustering, APC)是一种无中心的非层次聚类方法，它依赖于样本之间的相似度或亲和力矩阵来确定簇结构。然而，APC中的一个关键挑战是选取合适的“偏向参数”(preference parameter)，这个参数直接影响簇的数量和质量。当偏向参数设置不当，可能会导致过多的簇或者不理想的聚类结果。本研究提出的方法引入了概率无向图模型(Probabilistic Undirected Graphical Model)来解决这个问题。概率无向图模型是一种统计建模工具，能够有效地表示数据之间的复杂关系。在这个模型中，每个数据点被视为图中的节点，节点间的边代表了数据点之间的相似度。通过极大团(Maximal Clique)的计算，可以找出图中具有最高连接度的子集，这些子集往往对应于潜在的簇。同时，势函数用于量化每个节点在图中的重要性，帮助确定数据点的聚类概率密度。将概率无向图模型中计算出的数据样本概率密度作为先验知识，注入到APC的偏向参数中，使得算法在聚类过程中更加智能地处理数据，提高了聚类效率。此外，采用高斯降噪方法可以减少数据噪声对聚类的影响，提高聚类的准确性。最后，簇归并策略则用于合并相近的簇，进一步优化聚类结果，减少簇的数量，使得聚类结构更为合理。在UCI数据集上的实验验证了该算法的有效性。通过对多个标准数据集进行聚类，提出的算法在保持或提高聚类精度的同时，显著降低了聚类簇的数量，表明其在实际应用中具有更好的性能。因此，这种基于概率无向图模型的近邻传播聚类算法为解决聚类问题提供了一种新的思路，尤其适用于处理大规模复杂数据集的聚类任务。

第 32卷第 10期控制与决策 Vol.32 No.10

2017年 10月 Control and Decision Oct. 2017

文章编号: 1001-0920(2017)10-1796-07 DOI: 10.13195/j.kzyjc.2016.0861

基于概率无向图模型的近邻传播聚类算法

覃华, 詹娟娟

†

, 苏一丹

(广西大学计算机与电子信息学院，南宁 530004)

摘要: 针对近邻传播聚类算法偏向参数难选定、生成的簇数目偏多等问题, 提出一种概率无向图模型的近邻传

播聚类算法. 首先为样本数据构建概率无向图模型, 利用极大团和势函数计算无向图中数据样本的概率密度, 将

此概率密度作为一种聚类先验知识注入近邻传播算法的偏向参数中, 提高算法的聚类效率; 并用高斯降噪和簇归

并方法进一步提升算法的聚类精度. 在UCI 数据集上的实验结果表明, 所提出算法的聚类效率和精度均优于相比

较的同类算法.

关键词: 近邻传播聚类算法；偏向参数；概率无向图模型；高斯平滑；簇归并

中图分类号: TP301.6 文献标志码: A

Aﬃnity propagation clustering algorithm based on probabilistic

undirected graphical model

QIN Hua, ZHAN Juan-juan

†

, SU Yi-dan

(College of Computer and Electronic Information，Guangxi University，Nanning 530004，China)

Abstract: In order to solve the problem that the preference of the traditional aﬃnity propagation clustering algorithm is

diﬃcult to choose and the number of generate clusters is likely to be overmuch, an aﬃnity propagation clustering method

based on the probabilistic undirected graph model is proposed in this paper. Firstly, the probabilistic undirected graph

model is constructed for sample data, while the probability density is calculated for each sample data by maximum clique

and potential function. Then the probability density as a priori clustering knowledge is put into the preference of the

aﬃnity propagation algorithm to improve its eﬃciency. The clustering accuracy of the algorithm is further promoted

by using the Gauss noise reduction and cluster merging method. Experimental results on the UCI data sets show better

clustering eﬃciency and accuracy of the proposed algorithm against several other similar algorithms.

Keywords: aﬃnity propagation clustering algorithm；preference；probabilistic undirected graphical model；gaussian

smooth；cluster merging

0 引 󲿑

近邻传播聚类算法 (AP) 是一种新型聚类算

法

[1-2]

, 与传统的 K-means 等聚类算法相比, 它事先不

需要知道类别个数, 根据输入的数据集, 通过反复迭

代自动找出聚类中心, 具有很强的通用性, 目前已被

应用于文本挖掘、图像识别、基因数据处理等领域

[3-6]

但在实际应用中, AP算法存在以下问题: 1)对偏向参

数取值极为敏感, 取值不当易引发迭代震荡, 影响聚

类效果; 2) 产生的簇数目比实际的簇数目多; 3) 处理

复杂数据集耗时长且聚类效果欠佳. 针对 AP算法存

在的这些问题, 有学者提出了相关改进. 文献[7] 通过

对偏向参数及阻尼因子自适应取值, 使聚类结果更加

精准; 文献[8] 引入半监督思想,利用已知标签作为先

验知识对相似度矩阵进行调整, 以提高了 AP 聚类准

确度; 文献 [9] 结合 CVM 压缩与合并方法, 对大型数

据集进行压缩分类预处理, 提高算法的准确率; 文献

[10-11]的 K-AP 算法中, 允许用户预先设定样本聚类

簇数目 K, 减少确定簇数目的计算开销, 提高了计算

效率; 文献 [12] 提出惩罚权重和奖励权重, 减少了算

法的迭代次数; 文献 [13] 提出高斯核函数的自适应

AP 聚类算法, 在一定程度上克服了原有算法对数据

集敏感的问题; 文献 [14] 将概率无向图模型与服务

语义链网络相结合,用概率无向图模型的联合分布概

率优化服务语义链网络.

收稿日期: 2016-07-04；修回日期: 2016-12-11.

基金项目: 国家自然科学基金项目 (61363027)；教育部人文社会科学研究规划基金项目 (11YJAZH080).

作者简介: 覃华 (1972−), 男, 教授, 从事量子计算理论、近似动态规划最优化方法、数据挖掘等研究；詹娟娟 (1993−),

女, 硕士生, 从事数据挖掘的研究.

†

通讯作者. E-mail: cherryzhan1993@163.com

下载后可阅读完整内容，剩余6页未读，立即下载

weixin_38557757

粉丝: 5
资源: 934

概率无向图模型优化的近邻传播聚类算法

matlab做无向图代码-graph-cluster:基于本地搜索的图聚类软件

已知相似度矩阵，如何用近邻传播聚类算法进行聚类分析并返回聚类结果和聚类中心索引

基于近邻传播（Affinity Propagation, AP）聚类算法（Python）

近邻半监督聚类算法的MATLAB实现.pdf

聚类算法详解：从K-means到谱聚类

谱聚类算法实现及其分类精度分析

Python实现多聚类算法详解与课程设计指南

模糊密度聚类算法：一种新的代表点方法

谱聚类算法实现教程与K-means的对比分析

深入理解谱聚类算法原理

最新资源