第
卷第
期
西 南 大 学 学 报
(
自然科学版
)
年
月
(
)
文章编号
:
(
)
基于稀疏表示的近邻传播聚类算法
胡晨晓
,
邹显春
,
陈
武
,
杨
阳
西南大学 计算机与信息科学学院
重庆
摘要
:
借助稀疏表示具有能较好刻画样本之间相似度 的特 点
,
提 出一 种基 于 稀疏 表示 的 近邻 传播 聚 类算 法
仿 真
实验表明
,
本聚类算法较基于其它距离度量的算法能获得更好的聚类效果
关
键
词
:
稀疏表示
;
近邻传播
;
聚类
;
距离度量
中图分类号
:
TP301
文献标志码
:
A
聚类算法在模式识别
数据挖掘
机器学习
数据压缩存 储及城市规 划等方面都 有广泛的应 用
聚
类算法一般可以分为树式聚类算法
划分式聚类算法
网格式聚类算法
密度聚类算法和其它聚类算法等
近邻传播聚类
是新近提出的一种高效聚类算法
不同于经典聚类
算法
传播聚类算法不要求输入的距离矩阵为对称
亦不要求样本之间的距 离大小为正
因而具有更 广
泛的应用空间
近几年得到广泛的研究和关注
类似 其他的基于 距离度量的 聚类算法
近邻传播聚 类算法也依 赖于样本之 间的距离度量
原 始 的 近
邻传 播聚类算法 基于样本之 间的欧式距 离
针对该算法 在高维数据 上的聚类效 果不佳的问 题
廖 予 良 等
人提出了基 于鲁棒路径 相似度的近邻 传 播 聚 类 算 法
本 文 受 稀 疏 表 示 对 噪 声 特 征 的 鲁 棒 性 及 具 有 较
好判别性的 优点启发
将稀疏表示 理论得到的 样本重构系数
转 化 为 样 本 间 的 相 似 性 度 量
再 引 入
到近 邻传播算法 中
提出一种基 于稀疏表示 的近邻传播 聚类算法
在 多 个 数 据 集 上 的 实 验 结 果 表 明
稀
疏表示能够 提高近邻传 播聚类算法 的 效 果
本 文 提 出 的 算 法 较 基 于 其 他 距 离 度 量 的 近 邻 传 播 算 法 能 够
获得更好的 聚类效果
1
近邻传播算法介绍
近邻传播聚类
算法是一种基于近邻信息传递的聚类算 法
它将每个数 据点都当成 网络中的一 个
节点
通过网络中节点的连线进行近邻信息传播来找到最优的类中心点集合
使得所有数据点到最近的类
中心点的相似度之和最大
.
数据集中所有
N
个样本都被视为候选的聚类中心点
为每个样本
x
i
建立与其
它 样本
x
j
的相似度关系
s
i
j
.
s
i
j
值越大
相应的点
x
i
被选为聚类中心点的可能性也越大
.
算法开始
时会假设每个样本数据点成为聚类中心点的倾向程度相同
即
s
i
j
为相同的值
p
.
p
一般定义为相似度
矩阵中的相似度均值
.
近邻传播算法通过不断迭代更新吸引度
和归属度
信息得到聚类结果
.
吸
引度
r
i
j
由样本点
x
i
指向候选聚类中心
x
j
用来表示
x
i
选择
x
j
作为聚类中心点的支持程度
归属度
收稿日期
基金项目
国家自然科学基金资助项目
作者简介
胡晨晓
男
安徽黄山人
硕士研究生
主要从事机器学习
智能
与网络的研究
通信作者
邹显春
副教授