![](https://csdnimg.cn/release/download_crawler_static/87485996/bg3.jpg)
给定一数据集 X={x1,x2,⋅⋅⋅xn}∈Rd×nX={x1,x2,⋅⋅⋅xn}∈Rd×n, 假设这组数据集属于
NN 个线性子空间{Si}Ni=1{Si}i=1N, 子空间维度分别为{di}Ni=1{di}i=1N. 假设属于某线性
子空间 SiSi 的样本足够多, 且张成整个子空间 SiSi, 则 SiSi 中的任意一样本 xx 均能表示为
XX 中除去 xx 的线性组合, 即数据集的“自表示”特性
[7]
, 则有如下子空间学习模型:
min12∥X−XC∥2F+λ∥C∥pmin12‖X−XC‖F2+λ‖C‖p
C∈Rn×nC∈Rn×n 为输入数据 XX 的自表示系数矩阵, 其中 CiCi 为第 ii 个数据 XiXi 由
其他数据表示的系数向量. ∥C∥p‖C‖p 为正则化项, ∥⋅∥p‖⋅‖p 为任意矩阵范数, 如稀疏子空间聚
类的 1-范数∥C∥1‖C‖1
[11]
, 低秩子空间聚类核范数∥C∥∗‖C‖∗
[12]
和 F-范数
[39]
. 然后使用谱聚类算
法对由自表示系数矩阵构建的相似度矩阵 A=12∣∣C+CT∣∣A=12|C+CT|聚类, 获得最终聚类结
果.
学者们发现基于自表示方法利用不同的正则化项可以处理受损数据, 例如, 包含噪声
和异常值的数据, 而且自表示系数矩阵呈现出块对角化的结构, 这非常有利于后续的谱聚类
[7]
处理. 因此, 如何获得鲁棒的自表示系数矩阵是基于谱聚类的子空间聚类算法的关键问题.
然而, 上述子空间模型学习到的自表示结构仅适用于线性子空间. 另一方面, 现实数据
常常具有高维的非线性结构, 传统子空间学习受到限制. 可喜的是, 深度自动编码器可将数
据转换至一个潜在的低维子空间, 捕获数据的非线性结构, 从而获得数据的低维特征表示.
因此与深度神经网络结合的子空间学习旨在低维特征上学习数据的自表示系数, 如深度子
空间聚类算法(Deep subspace clustering, DSC)
[40]
. DSC 首先采用深度自动编码器学习原数据
的低维特征表示, 然后利用一个由全连接网络构成的自表示层来学习数据的相邻关系, 该自
表示层将神经元连接的权重视为同一子空间中数据样本之间的相似度. 其目标函数表示如
下:
min12∥X−X^∥2F+λ12∥Z−ZC∥2F+λ2∥C∥pmin12‖X−X^‖F2+λ12‖Z−ZC‖F2+λ2‖C‖p
其中, X^=fd(Z)∈Rd×nX^=fd(Z)∈Rd×n 为 XX 的重构数据, 式(2)中第一项表示编解码的
保真度, 尽可能少地损失重要信息. 第二项中 Z=fe(X)∈Rk×n (k≪d)Z=fe(X)∈Rk×n (k≪d)为
特征表示矩阵, 结合“自表示”层网络学习自表示系数. fe(⋅)fe(⋅)为编码器网络, fd(⋅)fd(⋅)表示
解码器网络, λ1λ1 和 λ2λ2 为权重参数用于调节各项平衡, 其网络结构如图 1 所示.
图 1 深度子空间聚类网络结构图
Fig. 1 The framework of Deep Subspace Clustering