稀疏表示提升近邻传播聚类算法

需积分: 8 119 浏览量更新于2024-08-08 收藏 329KB PDF 举报

"基于稀疏表示的近邻传播聚类算法 (2014年) - 西南大学学报(自然科学版)" 本文主要探讨了一种创新的聚类算法——基于稀疏表示的近邻传播聚类算法。聚类是数据分析中的重要技术，广泛应用于模式识别、数据挖掘、机器学习等多个领域。传统的聚类算法如层次聚类、K-means等，通常依赖于特定的距离度量，如欧氏距离。然而，近邻传播聚类算法（AP算法）突破了这些限制，它不强制要求距离矩阵对称或距离为正，因此适用范围更广。 AP算法的核心是通过传播过程来确定样本间的相似关系，进而进行聚类。在原始的AP算法中，采用的是欧式距离。然而，当处理高维数据时，欧氏距离可能无法有效地捕捉数据的内在结构，导致聚类效果不佳。为解决这一问题，研究者们提出了改进方案，如基于鲁棒路径相似度的近邻传播聚类算法。本文则进一步引入稀疏表示理论。稀疏表示能够很好地刻画样本间的相似度，尤其是对于包含噪声的数据，其鲁棒性和判别性优势明显。作者将样本通过稀疏表示得到的重构系数作为新的相似性度量，用以指导近邻传播的过程。这种方法有望改善聚类性能，降低噪声影响，并增强对复杂数据结构的识别能力。实验结果表明，基于稀疏表示的近邻传播聚类算法在多个数据集上表现出优于基于其他距离度量的AP算法的聚类效果。这意味着，结合稀疏表示的聚类方法在处理高维、复杂或噪声较大的数据时，具有更强的适应性和准确性。这项工作为聚类算法提供了新的思路，即利用稀疏表示来提升聚类的效率和效果。这对于未来在大数据分析、图像处理等领域应用聚类算法具有重要的实践意义，也为后续研究提供了理论基础和参考。通过优化距离度量方式，我们可以期待在聚类任务中取得更精确和有意义的结果。

第



卷第



期



西南大学学报

(

自然科学版

)



年



月

󰁑󰁑 



(



)







文章编号

 

(



)

  

基于稀疏表示的近邻传播聚类算法



胡晨晓



邹显春



陈



武



杨



阳

西南大学计算机与信息科学学院



重庆



摘要

借助稀疏表示具有能较好刻画样本之间相似度的特点

提出一种基于稀疏表示的近邻传播聚类算法



仿真

实验表明

本聚类算法较基于其它距离度量的算法能获得更好的聚类效果



关



键



词

稀疏表示

;

近邻传播

;

聚类

;

距离度量

中图分类号

TP301

文献标志码

聚类算法在模式识别



数据挖掘



机器学习



数据压缩存储及城市规划等方面都有广泛的应用









聚

类算法一般可以分为树式聚类算法



划分式聚类算法



网格式聚类算法



密度聚类算法和其它聚类算法等



近邻传播聚类































是新近提出的一种高效聚类算法



不同于经典聚类

算法









传播聚类算法不要求输入的距离矩阵为对称



亦不要求样本之间的距离大小为正



因而具有更广

泛的应用空间



近几年得到广泛的研究和关注









类似其他的基于距离度量的聚类算法



近邻传播聚类算法也依赖于样本之间的距离度量



原始的近

邻传播聚类算法基于样本之间的欧式距离



针对该算法在高维数据上的聚类效果不佳的问题



廖予良等

人提出了基于鲁棒路径相似度的近邻传播聚类算法









本文受稀疏表示对噪声特征的鲁棒性及具有较

好判别性的优点启发









将稀疏表示理论得到的样本重构系数



转化为样本间的相似性度量



再引入

到近邻传播算法中



提出一种基于稀疏表示的近邻传播聚类算法



在多个数据集上的实验结果表明



稀

疏表示能够提高近邻传播聚类算法的效果



本文提出的算法较基于其他距离度量的近邻传播算法能够

获得更好的聚类效果



1

近邻传播算法介绍

近邻传播聚类







算法是一种基于近邻信息传递的聚类算法



它将每个数据点都当成网络中的一个

节点



通过网络中节点的连线进行近邻信息传播来找到最优的类中心点集合



使得所有数据点到最近的类

中心点的相似度之和最大







数据集中所有

个样本都被视为候选的聚类中心点



为每个样本

建立与其

它样本

的相似度关系













值越大



相应的点

被选为聚类中心点的可能性也越大

算法开始

时会假设每个样本数据点成为聚类中心点的倾向程度相同



即







为相同的值

一般定义为相似度

矩阵中的相似度均值

近邻传播算法通过不断迭代更新吸引度













和归属度









信息得到聚类结果

吸

引度







由样本点

指向候选聚类中心



用来表示

选择

作为聚类中心点的支持程度



归属度



收稿日期



  

基金项目



国家自然科学基金资助项目









作者简介



胡晨晓







男



安徽黄山人



硕士研究生



主要从事机器学习



智能



与网络的研究



通信作者



邹显春



副教授



下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38623080

粉丝: 5
资源: 1002

稀疏表示提升近邻传播聚类算法

基于numpy的时空聚类算法实现

改进的基于密度层次聚类算法：解决CFSFD-P局限

多流形结构分析：主成分与聚类算法在数据处理中的应用

基于MapReduce的分布式近邻传播聚类算法.pdf

近邻传播聚类-MATLAB程序

近邻传播聚类（affinity propagation clustering）MATLAB程序

通过基于K近邻的稀疏表示系数对高维数据进行谱聚类

BDSCAN聚类算法.docx

峰值聚类算法(matlab)

近似谱聚类算法描述.docx

最新资源