多视角离群点检测:局部相似度保留自表达学习算法

需积分: 0 0 下载量 111 浏览量 更新于2024-08-04 收藏 2.39MB PDF 举报
"基于局部相似度保留自表达学习的快速多视角离群点检测" 这篇论文主要探讨了在数据挖掘领域中的一个重要课题——离群点检测。离群点,也称为异常值,指的是那些与正常数据行为模式显著偏离的点。在实际应用中,离群点检测有助于去除干扰信息,揭示数据的内在模式,并且异常值本身可能携带关键信息,特别是在诸如信用卡欺诈检测和网络安全等领域。 论文特别关注的是多视角离群点检测,即在考虑来自多个数据源的情况。多视角数据提供了更全面的信息,但同时也增加了检测离群点的复杂性。多视角数据的一致性意味着它们共同描述同一对象,而互补性则强调不同视角提供的独特信息。这两种属性使得离群点检测更具挑战性。 论文提出了一种名为SRLSP(基于局部相似度保留自表达学习的快速多视角离群点检测)的新算法。SRLSP创新之处在于它结合了自表达学习和相似度学习,能够有效处理各种复杂情况,包括不同数量的视角、无聚类结构的数据、多种类型的离群点、大规模数据集以及在线计算场景。具体来说,SRLSP学习一个共享的相似度矩阵以重构原始数据特征,其相似度学习过程不依赖于数据集结构,并且首次实现了在线多视角离群点检测。 模型构建方面,SRLSP包含了两个子模型:一个是基于L2正则化的自表达学习模型,用于学习数据的内在结构;另一个是图融合的自适应相似度学习模型,通过整合不同视角的信息来优化相似度估计。这两个子模型相互增强,共同保留局部相似度,从而实现高效准确的离群点检测。 这篇论文深入研究了多视角环境下的离群点检测问题,并提出了创新的解决方案,有望提升在复杂数据环境中的异常检测能力,对于数据分析和机器学习领域的实践具有重要意义。