自监督卷积子空间聚类网络

61 浏览量更新于2023-10-18 收藏 892KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1自监督卷积子空间分簇网络Junjian Zhang< $，Chun-Guang Li <$$>，ChongYouQian，Xianbiao QiQi，HonggangZhang < $，JunGuo <$，and Zhouchen Lin<$北京邮电大学国际信息工程学院加州大学伯克利分校深圳大数据§北京大学机电工程学院机器感知重点实验室（MoE）摘要基于数据自表达的子空间聚类方法已经变得非常流行，用于从位于低维线性子空间的并集中的数据进行学习。然而，子空间聚类的适用性受到限制，因为实际的原始视觉数据不一定位于这样的线性子空间。另一方面，虽然卷积神经网络（ConvNet）已被证明是一个强大的工具，用于提取，与视频序列中的刚性移动对象相关的特征点跨越高达3维的仿射子空间[41];单个数字的手写数字图像的集合也大致跨越低维子空间[8]。在这种情况下，重要的是将数据分割成多个组，其中每个组包含来自相同子空间的数据点。这个问题被称为子空间聚类[42，45]，我们正式定义如下。问题（子空间聚类）。设X∈IRD×N为一个实值矩阵，其列是从u-从视觉数据中提取有区别的特征，训练这种IRD的n个子空间的n个，ni=1{Si}，尺寸ConvNet通常需要大量的标记数据，这在子空间聚类应用中是不可用的S.为了同时实现特征学习和子空间聚类，我们提出了一个端到端的可训练框架，称为自监督卷积子空间聚类网络（S2 ConvSCN），它将ConvNet模块（用于特征学习），自表达模块（用于子空间聚类）和谱聚类模块（用于自监督）组合到联合优化框架中。特别是，我们引入了一个双重的自我监督，利用谱聚类的输出来监督特征学习模块（通过分类损失）和自我表达模块（通过谱聚类损失）的训练。我们在四个基准数据集上的实验表明了双重自我监督的有效性，并展示了我们提出的方法的优越性能。1. 介绍在图像、视频处理等实际应用这样的数据通常可以通过多个低维子空间的并集来很好地近似，其中每个子空间对应于一个类或类别。例如，在变化的照明条件下拍摄的主体的正面面部图像近似地跨越维度高达九的线性子空间[11];d i∈ min{D，N}，其中i = 1，. . . ，n. 子空间的目标聚类是将X的列分割成相应的列，响应子空间。在过去的十年中，子空间聚类已经成为无监督学习中的一个重要课题，并且已经开发了许多子空间聚类算法[2，23，4，27、22、26、5、17、37、53、51、18]。这些方法已成功应用于各种应用，如运动分割[44，40]，人脸图像聚类[3]，基因表达微阵列聚类[28，20]等。尽管子空间聚类在最近的发展中取得了巨大的成功，但由于实际数据不一定与线性子空间模型一致，因此它在实际应用中的适用性非常有限。例如，在面部图像聚类中，实际的面部图像通常不对齐，并且通常包含主体的姿势和表情的变化。子空间聚类不能处理这样的情况下，对应于同一张脸的图像不再位于线性子空间。虽然最近开发了用于联合图像对齐和子空间聚类的技术[21]，但这种参数化模型无法处理更广泛的数据变化，例如变形、平移等。也可以在执行子空间聚类之前使用手动设计的图像的不变性特征，例如SIFT [25]，HOG [1]和PRICoLBP [38]，例如，在[36，35]中。然而，无论是理论上还是实践上都没有证据表明这些特征遵循线性子空间模型。54735474最近，卷积神经网络（ConvNets）在学习人脸/物体分类和检测等广泛任务中的有用图像表示方面表现出卓越的能力[15，31]。特别是，在[16]中显示，当应用于不同类别的图像然而，训练这样的Con- vNet的挑战是，它需要大量的标记的训练图像，这在实际应用中通常是不可用的。为了在没有标记数据的情况下训练用于特征学习的ConvNet，最近已经提出了许多方法，这些方法通过利用子空间的联合中的数据的自表达[36，14，35，54]。具体而言，这些方法通过将学习到的特征归纳为每个特征向量可以表示为其他特征向量的线性组合来监督ConvNet的训练。然而，由于缺乏有效的监督，在这种方法中很难学习到好的特征表示论文投稿在本文中，我们开发了一个端到端的可训练框架，同时特征学习和子空间聚类，称为自监督卷积子空间聚类网络（S2ConvSCN）。在这个框架中，我们使用当前的聚类结果来自我监督特征学习和自我表达模块的训练，这能够显着提高子空间聚类性能。特别是，我们介绍了以下两个自我监督模块：1. 我们引入了一个谱聚类模块，它使用当前的聚类结果来监督学习的自我表达系数。这是通过诱导从自表达生成的亲和性以形成与从聚类生成的当前类别标签2. 我们引入了一个分类模块，它使用当前的聚类结果来监督特征学习的训练。这是通过最小化在特征学习模块之上训练的分类器的输出与从聚类生成的当前类标签之间的分类损失来实现的。我们提出了一个训练框架，其中特征表示，数据自我表达和数据分割联合学习，并在学习过程中交替细化。从概念上讲，初始聚类结果与真实数据分割不完全一致，因此初始自我监督会导致训练错误。尽管如此，特征学习仍然期望受益于这种自我监督，因为存在具有产生有用信息的正确标签的数据。改进的特征表示随后有助于学习更好自表达并因此产生更好的数据分段（即，错误的标签）。我们在四个基准数据集上的实验证明了所提出的方法的优越性能。2. 相关工作在这一节中，我们回顾了子空间聚类的相关工作.为了清楚起见，我们将其分为两类：a）原始空间的子空间聚类; b）特征空间的子空间聚类。2.1. 原始空间中的子空间聚类在过去的几年里，子空间聚类得到了广泛的关注，并开发了许多方法。其中，基于谱聚类的方法是最流行的，例如，[第二、二十三、四、二十七、三、二十二、二十六、五、十七、三十七、五十一、五十三、十八、50]。这些方法将子空间聚类的任务分为两个子问题。第一个子问题是从原始数据中学习一个数据亲和矩阵，第二个子问题是在亲和矩阵上应用谱聚类这两个子问题在一个过程中相继求解[2，23，4，27，26，51]或在多通道中交替求解[5，17，7，53，18]。找到信息亲和矩阵是最关键的一找到信息亲和矩阵的典型方法是基于数据的自表达属性[2，45]，该属性表明子空间的并集中的数据点可以是表示为其他数据点的线性组合，即，xj=i=jc ijxi+ ej，其中ej用于对数据中的噪声或损坏进行建模。预计线性组合-数据点xj的国家使用属于与xj相同的子空间的数据点。为了实现这一目标，使用不同类型的正则化项的线性组合系数。例如，在[2]中，使用了n-1范数来寻找稀疏线性组合;在[23]中，系数矩阵的核范数被用来寻找低秩表示，在[46，51]中，系数矩阵的核范数和核范数的混合被用来平衡线性组合系数的稀疏性和稠密性;和[48]数据相关的稀疏诱导正则化器被用于找到稀疏线性组合。另一方面，还研究了对数据中的噪声或破坏进行建模的不同方式，例如，在[2]中使用了向量范数，在[23]中采用了向量范数，在[9]中使用了相关熵项。2.2. 特征空间中的子空间聚类对于特征空间中的子空间聚类，我们进一步将现有的方法分为两类。第一种类型使用潜在特征空间，其通过Mercer内核诱导，1如果数据点位于仿射子空间的并集中[19]，则线性组合将被修改为仿射组合。5475图1.提出的自监督卷积子空间聚类网络（S2 ConvSCN）的体系结构。它主要由五个模块组成：a）堆叠卷积编码器模块，用于提取卷积特征; b）堆叠式卷积解码器模块，用于与编码器模块一起对卷积模块进行初始化; c）自表达模块，用于学习自表达系数矩阵，并从谱聚类结果中提取自监督信息，对自表达系数矩阵进行精化; d）基于FC层的自监督模块，其构建返回到堆叠卷积编码器模块的自监督路径; e）谱聚类模块，其提供自监督信息以指导自表达模型和FC层模块。带实线框的模块为骨干组件;而虚线框中的模块是辅助组件，以便于整个网络的训练。例如，在一个实施例中，[34，32，49，47]，或者通过矩阵分解构造，例如，[24]、[33]。第二类使用显式特征空间，其通过人工特征提取来设计，例如，[36]，或者从数据中学习，例如，[14、54]。潜在特征空间。许多最近的工作已经采用了核技巧来将原始数据映射到高维潜在特征空间中，在该空间中执行子空间[34、32、49、47]。例如，在k核稀疏子空间聚类方法[34，32]和核低秩表示方法[49，47，12]中使用预定义的多项式和高斯核。不幸的是，不能保证用这种预定义的核导出的潜在特征空间中的数据位于低维子空间中。2另一方面，潜在特征空间也已经通过矩阵分解构造，例如，[24]、[33]。在[24]中，线性变换矩阵和低秩表示是同时计算的;在[33]中，线性变换和稀疏表示是联合优化的然而，学习的线性变换的表示能力仍然有限。2在[12]中，虽然潜在特征空间中的数据矩阵被鼓励为低秩，但特征空间中的数据不必被鼓励与线性子空间的并集对齐。显式特征空间。深度学习由于其以端到端可训练的方式学习层次特征的强大能力而获得了很多研究兴趣[10，15]。最近，有一些作品使用深度学习中的技术在子空间聚类中进行特征提取。例如，在[36，35]中，一个完全连接的深度自动编码器网络具有手工制作的功能（例如，SIFT或HOG特征）与稀疏自表达模型相结合;在[14]中，提出了一种具有附加自表达模型的堆叠卷积自动编码器网络。虽然有前途的聚类精度已被报道，这些方法仍然是次优的，因为既没有潜在的有用的监督信息，从聚类结果已被纳入特征学习步骤，也没有一个join-t优化框架，充分结合特征学习和子空间聚类已经开发。最近，在[54]中，在[14]的框架中采用了具有子空间特定生成器和子空间特定搜索器的深度对抗网络，用于子空间聚类。然而，该算法需要使用每个子空间的维数，而维数通常是未知的。在本文中，我们试图开发一个联合优化框架，结合特征学习和子空间聚类，使有用的自我监督信息，54762F2我我ii=11米（长）从子空间聚类结果可以用来指导映射h（L），···，h（L）被送入解码器网络，1米（长）特征学习和完善自我表达模型。在-受卷积神经网络在构建一个图像，该编码的损失函数解码器网络是重建错误：近年来，对于图像和视频数据集的分类任务[15]和最近的工作[14]，我们将卷积特征提取模块集成到子空间聚类中，以形成端到端可训练的联合优化框架。L0=1∑N2Nj=1xj−1X−X2，（2）2N自监督卷积子空间聚类网络（ Self-SupervisedConvolutionalSubspaceClusteringNetwork ，简称S2ConvSCN）。在S2 ConvSCN中，基于特征提取的堆叠卷积层和基于自表达的亲和学习都通过利用来自光谱聚类的反馈ing.3. 我们的建议：自监督卷积-其中N是训练集中的图像数量。自我表达模块。最先进的子空间聚类方法基于数据的自表达特性，其声明子空间的并集中的每个数据点可以被表达为其他数据点的线性组合[2，45]。为了学习适合于子空间聚类的特征表示，我们采用了一个自我表达模块，该模块施加了以下损失函数：al子空间聚类网络12λC+2Z−ZCFs.t.diag（C）= 0，（3）在本节中，我们将介绍用于联合有限元分析的S2真学习和子空间聚类。我们从介绍开始-其中Z=[客户端]z1，···，zN是一个包含特征的引入我们的网络公式（见图1）。（1）、介绍自我监督模块。最后，我们提出了一个有效的程序，建议的网络训练。3.1. 网络公式化如上所述，我们的网络由特征提取模块、自我表达模块和用于训练前两个模块的自我监督模块组成。特征提取模块。我们提出的S2ConvSCN的一个基本组成部分是特征提取模块，从特征提取模块作为其列，是适当选择的正则化项，约束diag（C）=0可选地用于排除C=I的平凡解，并且λ >0是折衷参数。自我监督模块。一旦获得自表达系数矩阵C，我们就可以计算数据亲和矩阵为A = 1（|C|+的|C|）的情况。随后，可以在A上应用谱聚类以获得A的分割。通过最小化以下成本来实现数据：∑minaijq−q2，s.t. Q∈Q，（4）其用于从原始数据中提取可用于子空间聚类的特征。为了提取局部的fea-Qi、jij2在保持空间局部性的同时，我们采用了由多个卷积层组成的卷积神经网络我们将网络的输入表示为h（0）=x，其中x是图像。卷积层包含一组滤波器w（k）和相关的偏置b（k），i = 1，···，m（k），并产生m（k）个特征图从上一层的输出中述特征图其中Q={Q∈ {0，1}n×N：1<$Q=1<$且rank（Q）=n}是具有n个组的所有有效分割矩阵的集合，并且qi和qj分别是Q的第i列和第j列，指示每个数据点对所分配的聚类的隶属关系。在实际应用中，由于对所有Q∈ Q的搜索是组合的，谱聚类技术通常将约束Q∈Q放宽到QQ∈=I。观察到谱聚类产生标记{h（L）}在网络的顶层L中，ii=1，···，m（L）用于形成输入数据x的表示。具体地，m（L）个特征图{h（L）}m（L）被向量化并连接以形成表示向量z，即，数据集，虽然不一定是正确的，所有数据点的类标签，包含有关数据的有意义的这促使我们监督特征提取和自我表达模型的训练，[z=h（L）（：），···，h（L）][]]（：）、（1）使用谱聚类的输出原则上，从特征提取模块学习的特征应该1其中h（L）（：），···，h（L）m（L）（：）是表示5477包含用于预测数据点的类标签的足够信息因此，我们在特征提取模块之上引入了一个分类层，特征图h（L），···，h（L）的矢量化. 这些以生成与生成的标注对齐的标注1米（长）向量水平连接，然后转置以形成矢量z。为了确保学习的表示z包含来自输入数据x的有意义的信息，特征在谱聚类中。此外，分割亲，由谱聚类引入的二进制分割矩阵也可用于构造二进制分割矩阵，该二进制分割矩阵包含关于哪些数据点应用于表达式的5478j=12j=1JJ一个特定的数据点。因此，我们将谱聚类的目标函数作为网络公式中的损失函数，这具有监督自我表达模块的训练的效果。我们将在以下两节中详细介绍这两个自我监督模块。3.2. 自我表达为了利用谱聚类产生的标签中的信息，我们将谱聚类作为网络的一个模块，它为自我表达模型提供反馈（见图11）①的人。为了了解（4）中谱聚类的目标函数如何提供这样的反馈，我们将（4）重写为C的加权范数，如[17]所示，即，其中，μyj是yj通过softma x的归一化，μπ（yj）表示对应于yj的聚类中心，π（yj）是从谱聚类的输出中获取y j的索引，并且0 ≤ τ ≤ 1是折衷参数。L4的第一项实际上是交叉熵损失，L4的第二项是压缩簇内变化的中心损失。定义这种损失函数的一个重要问题是谱聚类{qj}N的输出仅为输入数据提供伪标签也就是说，在谱聚类的返回结果中，标记到聚类的标签索引-ing是一个未知的置换。因此，来自两个连续时期的类标签可能不一致。为了解决这个问题，我们建议通过匈牙利算法[29]对新的伪标签进行置换，以在将它们馈送到自我监督之前找到连续迭代的伪标签之间的最佳分配1∑ ∑q−q在（6）中具有交叉熵损失的模块。aij<$q−q<$2=|c|ij2：=CQ，（5）2 i、jij22i、j注1. 请注意，谱聚类的输出用于两个相互关联的自我监督模块，因此其中，我们使用了aij=1（|cij|+的|cji|）的情况。从（5）中可以看出，ΔCΔQ测量系数矩阵C和分割矩阵Δ Q之间的差异。当提供Q时，使成本最小化具有强制自表达矩阵C为使得只有当第i和第j个数据点具有相同的类标签时条目cij才是非零的。因此，在网络公式中引入术语“自我表达”有助于自我表达模块的训练。也就是说，可以将先前的谱聚类合并到我们称之为双重自我监督机制。33.4. 培训S2 ConvSCN为了获得端到端的可训练框架，我们通过将（2），（3），（5）和（6）中的成本放在一起来设计S2ConvSCN的总成本函数，如下所示：L=L0+γ1L1+γ2L2+γ3L3+γ4L4，（7）其中，L1=<$C<$$>，L2=1<$Z-ZC<$2，L3=<$C<$Q，并且2F自我表达模式，为精炼提供自我监督，对自我表达矩阵C进行赋形。3.3.特征学习我们还使用由谱聚类生成的类标签来监督特征提取模块的训练注意，谱聚类的输出是指示对n个子空间的成员关系的n维向量（即，簇）。因此，我们将FC层设计为p×N1×N2×n，其中p是提取的卷积特征的维数，其被定义为级联的不同特征图，并且N1和N2分别是两个FC层中的神经元的数量将y表示为FC层的n维输出γ1、γ2、γ3和γ4是四个折衷参数。的权衡参数被粗略地设置成与每项成本的价值，以获得它们之间的平衡。为了训练S2 ConvSCN，我们提出了一个两阶段策略，如下所示：a）预训练堆叠的卷积层以提供S 2ConvSCN的初始化; b）在谱聚类提供的自监督信息的帮助下训练整个网络。第一阶段：预训练堆叠卷积模块。预训练阶段使用成本L0。在此阶段，我们将两个FC层中的权重设置为零，这将产生零输出。同时，我们还将谱聚类的输出设置为零向量，即，qj=0，其中j=1，· · ·，N。这样，两个FC层在此期间处于“休眠”状态其中y∈IRn。注意，输出{qj}N光谱训练前阶段。此外，我们还设置了系数ma-群集将被视为FC层的目标输出，呃。为了利用自监督信息来训练卷积编码器，我们定义了交叉熵损失和中心损失（CEC）的混合，如下所示：1∑NL=（ln（1+e−yq）+τy−µ2），（6）将C作为单位矩阵，这相当于训练S2ConvSCN没有自我表达层。作为可选的预训练，我们还可以使用预训练的堆栈3.虽然用“自我培训”一词也是合理的4Nj=1jπ（yj） 2为了使每个分量尽可能一致（即，是可分离的、自我表达的和块对角的）。54792算法1训练S2ConvSCN的过程要求：输入数据，权衡参数，最大迭代Tmax，T0和t=1。1：通过堆叠CAE预训练堆叠卷积模块。2：（可选）使用自表达层预训练堆叠卷积模块。3：初始化FC层。4：运行自我表达层。5：运行谱聚类层以得到分割Q。6：当t≤Tmaxdo7：固定Q，更新其他部分T0时代8：运行谱聚类一次以更新Q并设置t ←t+1。9：结束时确保：经过培训的S2ConvSCN和Q。扩展耶鲁大学BORL层内核大小渠道内核大小渠道编码器-15 ×5103 ×33编码器-23 ×3203 ×33编码器-33 ×3303 ×35解码器-13 ×3303 ×35解码器-23 ×3203 ×33解码器-35 ×5103 ×33表1.扩展Yale B和ORL的网络设置CAE训练具有自我表达层的堆叠式CAE。第二阶段：训练整个S2ConvSCN. 在这个阶段中，我们使用总成本L来训练整个S2ConvSCN作为一个堆叠的CAE辅助自表达模块，双重自我监督。更具体地说，给定谱聚类结果Q，我们在T0时刻更新S2ConvSCN中的其他参数，然后执行谱聚类以更新Q。为了清楚起见，我们提供了在算法1中训练S2ConvSCN的详细过程.备注2.在总成本函数（7 ）中，如果我们设置γ3=γ4=0，则两个自监督块将消失，并且我们的S2ConvSCN简化为DSCNet [14]。因此，添加额外的预训练阶段将是有趣的，即，使用代价函数L0+γ1L1+γ2L2来训练堆叠卷积模块和自表达层，在调用FC层和谱聚类层之前，这实际上是一个DSCNet[14]。在实验中，如在[ 14 ]中所使用的，我们通过设置最大时期数量Tmax来停止训练。4. 实验评价为了评估我们提出的S2ConvSCN的性能，我们对四个基准数据集进行了实验：两个面部图像数据集，扩展耶鲁B [6]和ORL [39]，以及两个对象图像数据集，COIL 20 和 COIL 100 [30] 。我们将我们提出的 S2ConvSCN与以下基线算法进行比较，包括低秩表示（LRR）[23]，低秩子空间聚类（LRSC）[43]，稀疏子空间聚类（SSC）[3]，核稀疏子空间聚类（KSSC）[34]，匹配正交追踪SSC（SSC-OMP）[52]，高效密集子空间聚类（EDSC）[13]，结构化SSC（S3 C）[18]，具有预训练卷积自动编码器特征的SSC（AE+SSC），具有预训练卷积自动编码器特征的 EDSC（AE+EDSC），深度子空间聚类网络（DSCNet）[14]和深度对抗子空间聚类（DASC）[54]。对于EDSC、AE+EDSC、DSCNet和DASC，我们直接引用[14]和[54]中报道的最佳结果。对于S3C，我们使用具有固定参数α=1的软S3C.我们的系统中使用的S2ConvSCN的体系结构规范每个数据集的实验列于表1和Ta中。表4.在堆叠的卷积层中，我们将水平和垂直方向的内核步幅设置为2，并使用整流线性单元（ReLU）[15]作为激活函数σ（·）。此外，学习率设置为1。0×10−3在我们所有的实验中。整个数据集作为一个批次使用输入. 对于FC层，我们设置N1=N和N2= n。为了求出信息亲和矩阵，我们采用向量1范数和向量2范数定义了信息亲和矩阵，分别记为S2ConvSCN-1范数和S2ConvSCN-2在第二个训练阶段，我们更新堆叠的卷积层，自我表达模型和FC层T0epoch，然后更新一次谱聚类模块，其中T0在我们的实验中设置为5×164.1. 扩展耶鲁B扩展的Yale B数据库[6]由38个受试者的面部图像组成，总共2432张图像，每个受试者在不同照明条件下拍摄约64张正面面部图像，其中每个受试者的面部图像对应于低维子空间。在在我们的实验中，我们遵循[14]中使用的协议：a）每个图像从192×168降采样到48×42像素; b）使用n∈{10，15，20，25，30，35，38}的所有选择进行实验。为了进行公平的比较，我们使用与在DSCNet [14]中使用的，其中三层堆叠卷积编码器分别与{10，20，30}通道一起使用。Extended Yale B上使用的堆叠卷积网络的详细设置如表所示1.一、公共参数γ1和γ2被设置为与DSCNet中的相同，其中γ1=1（对于项λCλ），并且5480102方法LRRLRSCSSCAE+ SSCKSSCSSC-OMP软S3C†东软载波AE+ EDSC公司简介公司简介我们的（2002）我们的（2001）10例受试者15例受试者是说25.8231.4712.8918.6516.2214.0511.017.636.702.171.691.141.12中值26.3031.6413.2317.7617.3414.6910.896.415.522.031.721.141.1420例受试者25例受试者是说28.1427.8126.3018.7218.5618.8916.7910.6710.272.531.751.321.29中值28.2226.8126.5617.8818.0318.5317.1310.8410.222.191.811.341.2830例受试者35例受试者是说40.6131.3529.1922.1326.0720.2920.3813.1013.283.092.651.671.62中值40.7131.7429.5121.7425.9220.1820.4713.1013.213.102.641.691.6038例受试者表2.扩展Yale B上的聚类误差（%）最好的结果以粗体显示，第二好的结果加下划线。γ=1。0×10n−3。对于S2 ConvSCN中使用的特定参数，我们分别为项XiC Q设置γ3= 16，为交叉熵项设置γ 4 = 72。设T0=5，Tmax=10+40n.实验结果示于表2中。我们观察到，我们提出的S2ConvSCN-101和S2 ConvSCN-102显著地降低了聚类误差，并且在n∈ {10，15，20，25，30，35，38}时产生的聚类误差最小，优于所有列出的基线方法.我们注意到，[54]报告的聚类误差为1。44%的扩展耶鲁B，n=38，这比我们的结果略好。为了进一步理解所提出的双重自我监督，我们使用S2ConvSCN-1作为一个例子，并通过消融研究来评估使用双重自我监督模块的效果由于篇幅所限，我们只列出了通过L3使用单个自监督，通过L4使用单个自监督以及使用du-在数据集上的L3加L4的al自我监督表3中的B。作为基线，我们展示了DSCNet [14]的实验结果，它使用了L0+ L1+ L2的损失。从表3中可以看出，仅使用单个自监督模块，即，L0+L1+L2+L3，或L0+L1+L2+L4时，聚类误差减小.与在自表达模块中使用通过频谱聚类损失L3的自监督相比，在FC块中使用通过分类损失L4的自监督更有效。然而，使用双重监督模块进一步减少了聚类错误。4.2. ORL实验ORL数据集[39]由40个不同受试者的面部图像组成，每个受试者在不同的照明条件下具有10个面部图像，具有不同的面部表情（睁开/闭上眼睛，微笑/不微笑）和面部细节（眼镜/不戴眼镜）[39]。当这些照片在水下拍摄时，面部表情的变化，由于非线性和每个对象的小样本量，该数据集对于子空间聚类更具挑战性。在我们的实验中，每个图像从 112×92 降采样到32×32。由于图像尺寸较小，我们将卷积模块中的内核大小减少到3×3，并将通道数设置为{3，3，5}。网络结构的规格如表1所示。对于折衷参数，我们设γ1= 0。1，γ2= 0。01，γ3= 8，γ4= 1。2为我们的S2 ConvSCN。对于微调阶段，我们设置T0= 5和Tmax=940。实验结果示于表5中。同样，我们提出的方法产生最好的结果。4.3. COIL 20和COIL 100的实验为了进一步验证我们提出的S2 ConvSCN的有效性，我们对数据集COIL20和COIL100进行了实验[30]。COIL 20包含20个对象的1440个灰度图像;而COIL 100包含 100 个对象的 7200 个每个图像都被下采样到32×32。用于COIL 20和COIL 100的堆叠卷积网络的设置列于表4中。对于COIL20上的权衡参数，我们设置γ1= 1，γ2=30，与DSC-Net [14]中使用的相同，并且在我们的S 2 Co n vSCN 中设置 γ3= 8 ， γ4=6 ， T0=4 和Tmax=80。对于COIL 100上的权衡参数，我们设置γ1= 1，γ2= 30，与DSC-Net [ 14 ]中使用的相同，并且在我们的S 2 Co n vSCN中设置γ3=8，γ4=7，T0=16，Tmax=110。在COIL20和COIL100上的实验中，我们首先使用堆叠CAE初始化卷积模块，然后在自表达模型的辅助下训练堆叠CAE。这实际上是DSCNet [14]。然后，我们训练整个S2ConvSCN.实验结果列于表5中。可以看出，我们的S2ConvSCN-101和S2ConvSCN-102显著降低了聚类错误.这一结果证实了所设计的双是说19.7630.958.8017.0614.4912.086.345.645.462.231.591.181.18中值18.9129.389.0617.7515.788.283.755.476.092.031.251.091.09是说31.4528.7620.1118.2316.5515.1614.079.307.672.171.731.311.30中值32.1128.9121.4116.8017.3415.2313.9810.316.562.111.801.321.25是说38.5930.6427.5219.9920.4920.7520.4611.2411.562.632.071.711.67中值36.9830.3127.9720.0020.9420.5221.1511.0910.362.812.191.771.72是说35.1229.8929.3625.3327.7523.5219.4511.6412.663.332.671.561.52中值35.1229.8929.3625.3327.7523.5219.4511.6412.663.332.671.561.525481LCC1001CC号科目损失10例受试者15例受试者20例受试者25例受试者30例受试者35例受试者38例受试者是说中值是说中值是说中值是说中值是说中值是说中值是说中值L0+L1+L2（DSC-101[14]）2.232.032.172.032.172.112.532.192.632.813.093.103.333.33L0+ L1+ L2+ L31.581.251.631.551.671.571.611.632.741.822.642.652.752.75L0+ L1+ L2+ L41.321.091.311.301.541.481.481.981.871.611.821.841.921.92L0+ L1+ L2+ L3+ L41.181.091.121.141.301.251.291.281.671.721.621.601.521.52表3.在扩展的Yale B上对S2ConvSCN-101的烧蚀研究3100 14065432100100200300400(a) L、L0和L226002100160011000100200300400(b) L1和L31201008060402000100200300400(c) L4线圈20线圈100层内核大小渠道内核大小渠道编码器-13 ×3155 ×550解码器-13 ×3155 ×550表4.COIL20和COIL100的网络设置7.564.531.500100200300400(d) L490807060504030201000100200300400(e)0.90.850.80.750.70100200300400(f)L31图2. S2ConvSCN的代价函数和聚类误差在Extended Yale B的训练期间，n= 10。自我监督组件，用于正确使用来自谱聚类输出的4.4. 收敛行为为了显示训练迭代过程中的收敛行为，我们在扩展的耶鲁B上进行实验，n=10。我们记录了训练期间的聚类错误和每个成本函数，并将它们作为图中epoch数量二、从图2（a）、（c）、（d）和（e）可以看出，成本函数L、L0、L2和L4，聚类误差迅速下降，趋于为了显示迭代中的更多细节，在图1中。2（b）和（f），给出了δC_（1）、δ C_（1）、δC_（1）和δC_（1）曲线。注意C 成本和相对成本是1tral clusting聚类。相比于CQC，我们认为因此，CSCQ对聚类性能更具指示性。1可以观察到，虽然αCβ1和αCβQ增加，表5.ORL、COIL20和COIL100的聚类误差（%）网络（S2 ConvSCN）。具体而言，在S2ConvSCN中，通过堆叠卷积模块进行特征提取，通过自表达模型进行亲和学习，通过谱聚类进行数据分割，这些都被集成到一个联合优化框架中。通过利用双重自监督机制，谱聚类的输出被有效地用于改进堆叠卷积模块的训练和改进自表达模型，从而导致优异的性能。在基准数据集上的实验验证了该方法的有效性.确认图4，1 倾向于J. Zhang和C.-G. 李受国家支持与图1中的聚类误差曲线一致。第2段（e）分段。5. 结论我们提出了一个端到端的可训练框架，用于同时进行特征学习和子空间聚类，称为自监督卷积子空间聚类4观察到L1和L3的曲线上升是因为所提取的特征Z的条目缓慢收缩，因此C的条目的绝对值缓慢增加，这是由于在每个时期的特征学习中没有归一化步骤。国家自然科学基金项目，批准号：61876022，北京大学机器感知重点实验室（MoE）开放项目基金。H.Zhang博士部分获得国家自然科学基金资助，资助号：61701032和61806184。X.齐先生获深圳市基础研究基金资助。ZDSYS 201707251409055和2017ZT07X152。Z. 林国家973计划资助项目：2015CB352502，国家自然科学基金，批准号：61625301和61731018，高通公司和微软亚洲研究院。106104聚类误差（%）方法ORL线圈20线圈100LRR33.5030.2153.18LRSC32.5031.2550.67SSC29.5014.8344.90AE+SSC26.7522.0843.93KSSC34.2524.6547.18SSC-OMP37.0529.8667.29东软载波27.2514.8638.13AE+EDSC26.2514.7938.88软S3C†26.0011.8741.71公司简介14.255.6533.62公司简介14.005.4230.96DASC [54]11.753.61-S2 Con vSCN-10211.252.3327.83S2 Con vSCN-10110.502.1426.675482引用[1] N. Dalal和B.Triggs 用于人体检测的定向梯度直方图IEEE计算机视觉与模式识别会议，2005年。1[2] E. Elhamifar 和 R. 维达尔稀疏子空间聚类。 IEEEInternational Conference on Computer Vision and PatternRecognition，第2790-2797页，2009年。一、二、四[3] E. Elhamifar和R.维达尔稀疏子空间聚类：算法、理论和应用。 IEEE Transactions on Pattern Analysis andMachine Intelligence ， 35 （ 11 ）： 2765-2781 ， 2013.一、二、六[4] 法瓦罗河Vidal和A.拉维钱德兰鲁棒子空间估计和聚类的封闭形式解。在IEEE计算机视觉和图案识别会议，第1801 - 1807页，2011年。一、二[5] 冯杰，Z. Lin，H. Xu和S.燕.鲁棒子空间分割与块对角先验。在IEEE计算机视觉和模式识别会议上，第3818一、二[6] 答：S. Georghiades，P. N. Belhumeur和D.- J·克里格曼从少数到多数：变光照和姿态下人脸识别的光照锥模型。IEEE模式分析与机器智能学报，23（6）：643- 660，2001年。6[7] X.小郭。通过同时学习数据表示及其亲和矩阵的鲁棒子空间分割。第24届国际人工智能联合会议论文集，第3547-3553页，2015年。2[8] T. Hastie和P. -Y. 西马德手写体字符识别的模型和算法《统计科学》，第54-65页，1998年。1[9] R.赫利湖，加-地Wang， Z.太阳，Y. Zhang和B.李信息论子空间聚类。IEEE Transactions on Neural Networksand Learning Systems，27（12）：26432[10] G.欣顿湖Deng，D. Yu，G.- E. Dahl，A. R. 穆罕默德N. Jaitly，A. Senior，V. Vanhoucke，P. Nguyen和T. N.塞纳特语音识别声学建模的深度神经网络：四个研究小组的共同观点S. IEEE Signal Processing Magazine，29（6）：82-97，2012。3[11] J. Ho，M.- H. Yang，J. Lim，K.- C.李和D J·克里格曼在不同光照条件下对物体外观进行聚类在Proceedings ofIEEE International Conference on Computer Vision andPattern Recognition，第111[12] 皮吉岛里德河Garg，H. Li，和M。萨尔茨曼自适应低秩核子空间聚类。arXiv：1707.04974v4，2019. 3[13] P. 吉，M.Salzmann和H.李有效的稠密子空间聚类。在IEEE Winter Conferance on App

下载后可阅读完整内容，剩余1页未读，立即下载