第 32卷 第 10期 控 制 与 决 策 Vol.32 No.10
2017年 10月 Control and Decision Oct. 2017
文章编号: 1001-0920(2017)10-1796-07 DOI: 10.13195/j.kzyjc.2016.0861
基于概率无向图模型的近邻传播聚类算法
覃 华, 詹娟娟
†
, 苏一丹
(广西大学 计算机与电子信息学院,南宁 530004)
摘 要: 针对近邻传播聚类算法偏向参数难选定、生成的簇数目偏多等问题, 提出一种概率无向图模型的近邻传
播聚类算法. 首先为样本数据构建概率无向图模型, 利用极大团和势函数计算无向图中数据样本的概率密度, 将
此概率密度作为一种聚类先验知识注入近邻传播算法的偏向参数中, 提高算法的聚类效率; 并用高斯降噪和簇归
并方法进一步提升算法的聚类精度. 在UCI 数据集上的实验结果表明, 所提出算法的聚类效率和精度均优于相比
较的同类算法.
关键词: 近邻传播聚类算法;偏向参数;概率无向图模型;高斯平滑;簇归并
中图分类号: TP301.6 文献标志码: A
Affinity propagation clustering algorithm based on probabilistic
undirected graphical model
QIN Hua, ZHAN Juan-juan
†
, SU Yi-dan
(College of Computer and Electronic Information,Guangxi University,Nanning 530004,China)
Abstract: In order to solve the problem that the preference of the traditional affinity propagation clustering algorithm is
difficult to choose and the number of generate clusters is likely to be overmuch, an affinity propagation clustering method
based on the probabilistic undirected graph model is proposed in this paper. Firstly, the probabilistic undirected graph
model is constructed for sample data, while the probability density is calculated for each sample data by maximum clique
and potential function. Then the probability density as a priori clustering knowledge is put into the preference of the
affinity propagation algorithm to improve its efficiency. The clustering accuracy of the algorithm is further promoted
by using the Gauss noise reduction and cluster merging method. Experimental results on the UCI data sets show better
clustering efficiency and accuracy of the proposed algorithm against several other similar algorithms.
Keywords: affinity propagation clustering algorithm;preference;probabilistic undirected graphical model;gaussian
smooth;cluster merging
0 引
近 邻 传 播 聚 类 算 法 (AP) 是一种新 型聚类算
法
[1-2]
, 与传统的 K-means 等聚类算法相比, 它事先不
需要知道类别个数, 根据输入的数据集, 通过反复迭
代自动找出聚类中心, 具有很强的通用性, 目前已被
应用于文本挖掘、图像识别、基因数据处理等领域
[3-6]
.
但在实际应用中, AP算法存在以下问题: 1)对偏向参
数取值极为敏感, 取值不当易引发迭代震荡, 影响聚
类效果; 2) 产生的簇数目比实际的簇数目多; 3) 处理
复杂数据集耗时长且聚类效果欠佳. 针对 AP算法存
在的这些问题, 有学者提出了相关改进. 文献[7] 通过
对偏向参数及阻尼因子自适应取值, 使聚类结果更加
精准; 文献[8] 引入半监督思想,利用已知标签作为先
验知识对相似度矩阵进行调整, 以提高了 AP 聚类准
确度; 文献 [9] 结合 CVM 压缩与合并方法, 对大型数
据集进行压缩分类预处理, 提高算法的准确率; 文献
[10-11]的 K-AP 算法中, 允许用户预先设定样本聚类
簇数目 K, 减少确定簇数目的计算开销, 提高了计算
效率; 文献 [12] 提出惩罚权重和奖励权重, 减少了算
法的迭代次数; 文献 [13] 提出高斯核函数的自适应
AP 聚类算法, 在一定程度上克服了原有算法对数据
集敏感的问题; 文献 [14] 将概率无向图模型与服务
语义链网络相结合,用概率无向图模型的联合分布概
率优化服务语义链网络.
收稿日期: 2016-07-04;修回日期: 2016-12-11.
基金项目: 国家自然科学基金项目 (61363027);教育部人文社会科学研究规划基金项目 (11YJAZH080).
作者简介: 覃华 (1972−), 男, 教授, 从事量子计算理论、近似动态规划最优化方法、数据挖掘等研究;詹娟娟 (1993−),
女, 硕士生, 从事数据挖掘的研究.
†
通讯作者. E-mail: cherryzhan1993@163.com