提升聚类性能:基于重建系数的子空间聚类融合算法

需积分: 10 1 下载量 135 浏览量 更新于2024-09-09 收藏 1.09MB PDF 举报
"这篇论文提出了一种新的子空间聚类融合算法——基于重建系数的子空间聚类融合算法(RCSCC),旨在解决稀疏子空间聚类(SSC)和低秩子空间聚类(LRSC)在聚类准确率和稳定性上的不足。RCSCC算法利用重建系数,通过点乘融合SSC和LRSC得到的相似度矩阵,再应用谱聚类来获取最终的聚类结果。实验表明,这种方法提高了聚类的准确率,并增强了聚类的稳定性和鲁棒性。该研究由国家自然科学基金和高等学校博士学科点专项科研基金支持,由许凯和吴小俊等人完成。" 本文主要探讨了子空间聚类在数据挖掘和机器学习中的重要性,特别是针对高维数据集,其中稀疏表示和低秩表示是两个关键概念。稀疏表示(Sparse Representation)是指寻找一个尽可能简洁的线性组合来表示数据,有助于揭示数据的内在结构。低秩表示(Low Rank Representation)则是假设数据分布在低维度的子空间中,通过减少冗余信息来提升模型的解释性和准确性。 SSC和LRSC是两种常用的子空间聚类方法。SSC利用数据的稀疏特性,构建稀疏相似度矩阵,以实现对数据点的分组。然而,SSC可能对噪声和异常值敏感,导致聚类效果不稳定。另一方面,LRSC通过最小化数据的秩来寻找低秩子空间,进而聚类,但其对数据的线性结构假设可能过于严格,影响聚类准确性。 为了克服这两种方法的局限性,RCSCC算法被提出。它基于重建系数,首先分别执行SSC和LRSC,得到各自的相似度矩阵,然后通过点乘运算融合这两个矩阵,这一步骤能够结合两种方法的优点,提高相似度矩阵的质量。融合后的矩阵再输入到谱聚类中,利用谱聚类的全局优化能力,得出最终的聚类结果。这种融合策略能够更好地捕捉数据的复杂结构,提高聚类性能。 实验部分,作者对比了RCSCC与其他子空间聚类方法在多个数据集上的表现,结果显示RCSCC在聚类准确率、稳定性和鲁棒性上都有显著提升。这些实验结果证实了RCSCC的有效性和可行性,尤其是在处理复杂和噪声数据时的优势。 这篇研究提供了一个新颖的子空间聚类融合框架,为高维数据的聚类问题提供了更高效且稳定的解决方案。RCSCC算法有望在图像分析、模式识别、计算机视觉等领域找到广泛应用。