NMFSC:基于非负矩阵分解的高效高维谱聚类

5 下载量 187 浏览量 更新于2024-08-26 1 收藏 375KB PDF 举报
"《通过非负矩阵分解提升高维数据谱聚类》\n\n谱聚类作为一种在机器学习和数据挖掘中广泛应用的子空间聚类方法,其核心在于通过拉普拉斯矩阵的谱分析来挖掘数据的潜在结构,从而实现高效的降维并形成高精度的聚类。然而,在处理高维数据时,特别是当特征维度增加和样本数量增多时,构建一个既能体现数据内在差异又能保证聚类效果良好的亲和矩阵(affinity matrix)是一个重大挑战。传统的方法如稀疏表示基的谱聚类(SRSC)虽然在一定程度上提升了聚类效率,但其亲和矩阵依赖于庞大的稀疏系数向量,这不仅计算消耗大,而且可能导致系数维度过高,难以充分区分数据样本。 为了克服这些局限性,本文提出了一种创新的谱聚类算法——基于非负矩阵分解(Nonnegative Matrix Factorization, NMF)的谱聚类(NMFSC)。NMF是一种特殊的矩阵分解技术,它确保分解后的系数矩阵元素非负,这有助于保持数据的自然结构和可解释性。与SRSC相比,NMFSC利用NMF的系数向量构建亲和矩阵,显著降低了维数问题,使得在大型数据集上的聚类更为高效。NMF系数的维数与样本数无关,远小于稀疏系数,这就使得构建亲和矩阵的过程在计算成本上有了显著的优势。 实验证明,NMFSC在公共基因表达谱(Gene Expression Profiles, GEP)等高维数据集上的性能优于SRSC,显示出在处理复杂数据时的优越性。NMFSC通过结合非负矩阵分解的特性,能够有效地捕捉数据间的相似性和差异,从而在高维数据的谱聚类任务中展现出广阔的应用前景。因此,NMFSC不仅提高了聚类的效率,还可能成为解决高维数据聚类问题的一个有力工具,对于提升大数据分析中的智能决策能力具有重要意义。"