鲁棒图正则化非负矩阵分解在聚类中的应用

3 下载量 142 浏览量 更新于2024-08-26 收藏 513KB PDF 举报
"鲁棒图正则化非负矩阵分解是一种用于聚类的数据挖掘方法,旨在处理含有噪声和异常值的数据。该方法基于非负矩阵分解(NMF)并引入了图正则化的概念,以增强模型的稳定性和对异常值的鲁棒性。文章由来自中国电子科技大学、西南交通大学和佛罗里达国际大学的研究人员共同发表,指出传统NMF方法在衡量图正则化和数据重建质量时对噪声和异常值敏感,因此提出了一种新的RGNMF模型,利用稀疏表示来处理数据中的异常情况。" 在机器学习和数据挖掘领域,非负矩阵分解(NMF)已经成为一种重要的技术,它能够将非负数据矩阵分解为两个非负矩阵的乘积,从而揭示数据的潜在结构和模式。NMF的基本思想是寻找两个非负矩阵W和H,使得原始矩阵V近似等于WH。这种方法常用于图像分析、文本挖掘和生物信息学等领域。 然而,实际应用中,数据往往受到噪声和异常值的影响,导致NMF的效果受到影响。传统的图正则化NMF在构建数据之间的相似性图时,通常使用平方损失函数来度量数据点之间的距离,这使得模型容易受到异常值的干扰。针对这一问题,研究人员提出了鲁棒图正则化非负矩阵分解(RGNMF)模型,其核心在于改进了损失函数,提高了模型对异常值的鲁棒性。 RGNMF模型通过引入鲁棒损失函数(如绝对值损失或Huber损失),而不是平方损失,来降低异常值的影响。此外,模型假设数据中的异常值是稀疏的,即只有少数数据点被错误地污染。因此,RGNMF利用稀疏约束来识别和处理这些异常值,同时保持正常数据点的结构完整性。这样,即使在存在噪声和异常值的情况下,也能更准确地进行数据聚类。 在RGNMF模型中,图正则化部分用于保持数据点之间的拓扑结构,增强聚类效果。通过构建数据点之间的相似性图,模型能够考虑数据的局部结构,使得聚类结果更加稳定。结合鲁棒损失函数,RGNMF在保持原有NMF优点的同时,提升了模型的抗干扰能力。 鲁棒图正则化非负矩阵分解是针对现实世界复杂数据集的一个强大工具,特别是在存在噪声和异常值的场景下。通过改进传统NMF方法,RGNMF为数据聚类提供了一个更稳健的解决方案,对于数据挖掘和机器学习的研究具有重要意义。