超图与自表征技术在谱聚类算法中的应用

需积分: 15 2 下载量 21 浏览量 更新于2024-09-08 收藏 1.06MB PDF 举报
"这篇论文提出了一种新的谱聚类算法,该算法结合超图和样本自表征技术,旨在解决传统谱聚类方法忽视数据间复杂相关性的问题。通过建立数据的超图模型,利用超图拉普拉斯矩阵来描述数据间的多层次关系,并通过l2,1-范数实现样本的行稀疏自表征。最终,基于生成的自表征系数进行谱聚类。实验证明,该算法在Hopkins155等数据集上相较于基于普通图的SSC、SRC等谱聚类算法有更低的聚类错误率,表现出更好的性能。该研究得到了多项基金项目的资助,由广西师范大学和广西师范学院的研究团队完成。" 详细说明: 谱聚类是一种常见的无监督学习方法,其核心是通过对数据的相似性或距离构建图,然后寻找图的最优切割或社区结构。传统谱聚类算法通常基于图的拉普拉斯矩阵,但这种方法仅考虑了数据点之间的二元相互关系,即两点之间的连接与否,而忽略了可能存在的多对多或者更复杂的关系。 超图是一种扩展了普通图的概念,它允许一个顶点与多个其他顶点相连,这更好地模拟了现实世界中数据的多维度相关性。在论文提出的算法中,数据被建模为超图,超图的拉普拉斯矩阵能表达更丰富的结构信息,包括数据间的多层次相互关系。 样本自表征是指通过某种线性变换,使得数据可以近似地表示为其自身的线性组合。在本文中,l2,1-范数被用来促进样本的稀疏自表征,这意味着大多数自表征系数接近于零,只有少数几个系数非零,这有助于找出数据的主要特征并减少噪声的影响。将超图信息融入自表征过程中,可以捕捉到样本之间的复杂相关性,进一步提高聚类效果。 实验部分,研究者在Hopkins155数据集上评估了新算法,Hopkins155是一个用于运动目标检测和聚类的数据集。结果表明,基于超图和样本自表征的谱聚类算法在聚类错误率上优于SSC(Subspace Spectral Clustering)和SRC(Sparse Representation-based Classification)等基于普通图的谱聚类方法,证明了新算法的有效性和优越性。 这篇论文提出了一种创新的谱聚类策略,通过超图模型和样本自表征技术,提升了聚类的准确性和对复杂数据结构的适应性。这种方法对于处理具有复杂相关性的数据集尤其有价值,可能在图像分析、模式识别、社交网络分析等领域有广泛应用前景。