无监督学习像素嵌入的对象掩码提案方法

112 浏览量更新于2023-10-13 收藏 17.65MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

100520通过对比对象掩码提案进行无监督语义分割0Wouter Van Gansbeke 1 * Simon Vandenhende 1 * Stamatios Georgoulis 2 Luc Van Gool 1 , 201 KU Leuven/ESAT-PSI 2 ETH Zurich/CVL, TRACE0摘要0能够在没有监督的情况下学习图像的密集语义表示是计算机视觉中的一个重要问题。然而，尽管其重要性，这个问题仍然相对未被探索，只有少数几个研究考虑了在狭窄的视觉领域上使用小规模数据集进行无监督语义分割。在本文中，我们首次尝试解决在传统上用于监督情况的数据集上的问题。为了实现这一目标，我们引入了一个两步框架，该框架采用预先确定的中级先验在对比优化目标中学习像素嵌入。这与现有的依赖于代理任务或端到端聚类的工作存在很大的差异。此外，我们讨论了具有包含对象或其部分信息的先验的重要性，并讨论了以无监督方式获得这样的先验的几种可能性。实验评估表明，我们的方法相对于现有的工作具有重要优势。首先，通过在PASCAL上使用K-Means将学习到的像素嵌入直接聚类成语义组，在完全无监督的设置下，尚无先例解决如此具有挑战性的基准语义分割任务。其次，我们的表示在转移到新的数据集（如COCO和DAVIS）时可以改进强基线。代码可在1处获得。01. 引言0将密集的语义标签分配给图像的问题，即称为语义分割，在计算机视觉中非常重要，因为它在自动驾驶、增强现实、人机交互等许多应用中都有应用。为了在这个任务中实现最先进的性能，通常会在包含大量完全注释图像的数据集[15,20,44]上训练完全卷积网络[45]。然而，为数据集中的每个图像获得准确的像素级语义标签是一项费时费力的过程。0* 作者贡献相等 1github.com/wvangansbeke/Unsupervised-Semantic-Segmentation.git0I. 生成对象掩码提案0II. 学习像素嵌入的无监督方法0聚类/0微调0Φ θ0Φ θ0无监督显著性0图1.我们以无监督的方式学习语义分割的像素嵌入。首先，我们使用无监督显著性预测对象掩码提案。其次，我们将获得的掩码作为自我监督优化目标中的先验。最后，像素嵌入可以被聚类或微调为图像的语义分割。0时间和金钱的投入[4]。为了解决这个问题，弱监督方法利用了较弱的监督形式，如涂鸦[43, 65, 66, 72,80]，边界框[16, 37, 56, 80]，点击[5]和图像级标签[56, 66,80]，而半监督方法[16, 26, 28, 56,57]仅使用数据集的一小部分作为标记示例，这两种方法都需要较少的人工注释工作量。尽管取得了持续的进展，但绝大多数语义分割工作仍然依赖于某种形式的注释来训练神经网络模型。在本文中，我们从不同的角度来看待这个问题，即自我监督表示学习。更具体地说，我们的目标是在不使用真值的情况下学习语义分割的像素级表示或嵌入。如果我们获得了一个对语义类别具有区分能力的像素嵌入，我们可以直接使用K-Means将像素聚类成语义组。这解决了完全无监督设置下的语义分割问题。或者，如果有限数量的注释示例可用，可以在半监督或迁移学习设置下进一步微调表示。在本文中，我们主要关注完全无监督设置，但也包括额外的微调。100530为了完整起见，我们进行了调优实验。最近，无监督或自监督技术[36]被用于在没有外部监督的情况下学习丰富而有效的视觉表示。所获得的表示随后可以用于各种目的，包括任务转移学习[24]、图像聚类[2, 3,71]、半监督分类[12]等。流行的表示学习技术使用了一个实例区分任务[78]，即将每个图像视为一个单独的类别，以无监督的方式生成表示。图像及其增强形式被视为该类别的正例，而其他所有图像被视为负例。在实际术语中，实例区分任务被制定为一个非参数分类问题，并使用对比损失[23,54]来建模负实例类别的分布。Purushwalkam和Gupta[61]表明，对比自监督方法学习编码语义信息，因为同一图像的两个视图总是显示同一对象的一部分，而不是其他类别的对象。然而，在这种设置下，不能保证表示还学会区分属于不同语义类别的像素。例如，当前景背景对频繁共现时，例如牛在农田上吃草，属于这两个类别的像素可以共享它们的表示。这使得基于实例区分的现有工作对于我们学习语义像素嵌入的目标来说不太合适。为了解决这些限制，我们提出了一种自监督学习像素级别而不是图像级别表示的方法。所提出的方法包括两个步骤。首先，我们利用无监督的显著性估计器从数据集中挖掘对象掩码提案。这种中层视觉先验在不同数据集之间具有良好的迁移性。在第二步中，我们使用对比框架来学习像素嵌入。对象掩码提案被用作先验 -我们将属于同一对象的像素的嵌入拉在一起，并将其与来自其他对象的像素进行对比。生成的表示按照标准协议在语义分割任务上进行评估。框架如图1所示。我们的贡献是：（1）我们提出了一个两步的无监督语义分割框架，这与依赖代理任务或端到端聚类的最近工作有很大的偏差。此外，我们讨论了具有中层视觉先验的重要性，该先验融合了对象级信息。这与早期将像素基于低级视觉任务（如边界检测）分组的工作形成对比。（2）所提出的方法是第一个能够在像PASCAL这样具有挑战性的数据集上在完全无监督的设置下处理语义分割任务的方法。（3）最后，我们报告了将我们的表示转移到其他数据集时的有希望的结果。0这表明采用中层视觉先验对于自监督表示学习是有用的。02. 相关工作0由于我们的方法主要与无监督的语义分割和表示学习相关，因此我们在下面讨论每个主题的代表性作品。0无监督语义分割。文献中只有少数几篇尝试在完全无监督的设置下处理语义图像分割。一些工作[34,55]采用了端到端的方法 -最大化增强视图之间的离散互信息以学习聚类函数。然而，这些方法只应用于小规模数据集，涵盖了一个狭窄的视觉领域，例如使用卫星图像将天空与植被分离等。相比之下，我们的方法适用于更具挑战性的场景，并将特征学习与聚类解耦。一些工作[29,95]使用从边界获得的分割结果以自监督的方式学习像素嵌入。然而，尚不清楚这些表示是否可以通过离线聚类准则进行后处理以获得离散标签。特别是，评估仅考虑了语义分割检索，这需要一个带注释的训练集。此外，Hwang等人[29]仍然依赖额外的监督来源，如ImageNet预训练和边界注释[1, 79]。0表示学习。这些方法旨在通过解决预先设计的无需手动注释的预训练任务来学习视觉表示。这些预训练任务的例子包括给图像上色[30, 40, 94]，预测上下文[17,49]，解决拼图问题[51, 53]，生成图像[63]，聚类[2, 8,82]，预测噪声[6]，检测伪影[33]，使用对抗训练[18,19]，预测光流[47,88]，计数[52]，修复[58]，预测变换参数[21,92]，使用预测编码[54]，执行实例区分[9, 11, 22, 24, 41,48, 68, 69, 78,85]等。通过这些方法学习到的表示可以随后被转移到学习一个独立的下游任务，例如目标检测。类似地，一些工作尝试通过解决代理任务（例如上色[30, 40, 87, 94]，光流[47,88]，使用共现性[31]等）来学习用于语义分割的像素级表示。不同的是，本文避免了使用代理任务。03. 方法0在本文中，我们旨在从未标记的图像数据集中学习用于语义分割的像素嵌入函数。由于语义分割的目标是为图像中的每个像素分配一个类别标签，因此一个好的像素嵌入函数应该在语义类别上具有辨别力。Push ForcePull ForceΦθΦθΦθXX+X−kwhwhwhziMXMX+MX−k100540图2.MaskContrast以以下方式学习无监督语义分割的像素嵌入。我们使用显著性估计器生成以对象为中心的正样本对（X，X+）和负样本对X − k。模型Φ θ 被训练以最大化X、X+中属于对象的像素嵌入之间的一致性，同时最小化与X −k中对象的像素之间的一致性。0对于图像中的每个像素，一个好的像素嵌入应该在语义类别上具有辨别力。如果后者成立，嵌入函数可以直接用于将像素聚类成语义组，或者在半监督设置下进一步微调。为了解决上述问题，我们采用了一种分而治之的策略。我们认为直接将像素聚类成语义组在端到端的流水线中更加困难，而首先寻找像素可能属于一起的图像区域则更容易。尽管这些信息不能直接得到场景的语义分割，但它给我们提供了一个有用的起点来学习像素嵌入。特别地，我们可以利用获得的区域作为先验，将它们的像素分组在一起。由于先验是在特征学习步骤之前确定的，我们减少了对网络初始化的依赖。这是与现有的端到端学习流水线[34,55]有意的分歧，后者容易依赖于低级图像线索（如颜色、对比度等），如[71]所示。所提出的方法名为MaskContrast，包括两个步骤。在第一步中，我们通过识别图像中的对象来确定一个先验，像素可以在其中分组。中级视觉组，如对象，在数据集之间转移良好，因为它们不依赖于任何预定义的真实类别。在第二步中，我们使用对比损失[23,54]来生成像素嵌入。具体而言，我们将属于同一对象的像素聚集在一起，并将它们与来自其他对象的像素进行对比，如图2所示。这迫使模型将来自视觉上相似的对象的像素映射到更接近的位置，同时将来自不同对象的像素推开。通过这种方式，模型发现了一个可以作为场景的密集语义表示的像素嵌入空间。方法部分进一步组织如下。第3.1节阐述了将对象掩码提议作为语义分割的先验的动机。第3.2节分析了使用无监督显著性估计器从无标签数据集中挖掘对象掩码。第3.3节将先验集成到对比损失中以学习像素嵌入。0将属于相似对象的像素聚集在一起，同时将来自不同对象的像素推开。通过这种方式，模型发现了一个可以作为场景的密集语义表示的像素嵌入空间。方法部分进一步组织如下。第3.1节阐述了将对象掩码提议作为语义分割的先验的动机。第3.2节分析了使用无监督显著性估计器从无标签数据集中挖掘对象掩码。第3.3节将先验集成到对比损失中以学习像素嵌入。03.1. 用于像素分组的中级视觉先验0作为无监督语义分割的起点，我们试图定义一个合适的先验。文献中出现了一些试图通过解决代理任务来对像素进行分组的工作。例如，对图像进行上色[30, 40,94]，预测光流[47,88]，使用共现[31]等。不幸的是，生成的表示与语义类别不一定对齐，因为后者与代理任务的输出是协变的。例如，上色网络对颜色变化敏感，即使这些变化不一定改变场景的语义。这种行为对于语义分割的目标是不希望的。为了克服这些限制，我们采取了一种避免使用代理任务的替代方法。具体而言，我们挖掘对象掩码提议，这些提议覆盖了可能包含对象的补丁。然后可以根据掩码定义先验，即基于共享像素所有权，即如果一对像素属于同一个掩码，我们假设它们应该被分组在一起，并最大化它们像素嵌入之间的一致性。我们假设这是一种比使用代理任务更可靠的像素分组策略。具体而言，我们的方法通过首先识别中级视觉组来构建高级图像分割，而不是通过解决代理任务直接生成完整的分割。这种自下而上的方法在[64]中也提供了动机。同时，所提出的先验可以被看作是一种面向对象的无监督语义分割方法，它为我们带来了几个优势。首先，使用中级视觉线索（如对象信息）可以规范特征表示。特别是，模型不能简单地依赖低级信息（如颜色）将像素组合在一起，而是需要学习更具语义意义的图像特征。这与使用超像素或图像边界作为先验的竞争方法[29,95]不同。其次，对象线索可以对语义分割任务提供高度信息。这一点在利用包含对象信息的弱监督方法的文献中已经得到证明。例如，一些工作[16, 37, 56,80]通过使用对象边界框在分割任务上取得了强大的结果。接下来，我们将展示如何使用无监督显著性估计器生成对象掩码提议。RGBSupervised SaliencyUnsupervised SaliencyWe need to retrieve a set of object mask proposals for theimages in our dataset. The literature [1, 50, 60, 70] offers amultitude of ways to do this. We prefer to use a simple strat-egy to verify whether unsupervised semantic segmentationbeneﬁts from adopting a mid-level visual prior. Moreover,we would like to use a method that does not rely on ex-ternal supervision, or can be trained with a limited amountof annotations. In the latter case, the object mask proposalmechanism should generalize well to new scenes.Based upon our requirements, we propose the use ofsaliency estimation [7, 77] to generate object masks propos-als. Most importantly, various unsupervised methods can beused for this purpose. Several of these works [50, 89, 91]used predictions obtained with hand-crafted priors [35, 42,96, 98] as pseudo-labels to train a deep neural network. Oth-ers [83, 84] relied on videos to learn a salient object detec-tor. Furthermore, on a variety of datasets [14, 73, 81] un-supervised saliency methods have shown to perform on parwith their supervised counterparts [27, 46, 62, 75, 90, 93].Finally, the model predictions transfer well to novel unseendatasets as shown by [50].For completeness, in Section 4 we explore both unsuper-vised [50] and supervised [62] saliency estimation methodsto predict the object masks, and showcase the potential ofour method. Figure 3 shows some examples.L = − logexp(Ψη(X)T · Ψη(X+)/τ)Kk=0 exp(Ψη(X)T · Ψη(X−k )/τ),(1)100550图3.掩码提议。我们分别在DUTS和MSRA数据集上训练了一个有监督（中间）和无监督（底部）的显著性估计器。我们在PASCAL上进行预测。03.2. 挖掘对象掩码提议03.3. MaskContrast: 通过对比显著对象学习像素嵌入0考虑一个带有非重叠对象掩码提议 {M 0 , M 1 , . . . , M N} 的图像数据集 X，这些提议是使用显著性估计器获得的。我们的目标是学习一个像素嵌入函数 Φ θ ： X → Z ，参数化0通过一个具有权重 θ 的神经网络将图像中的每个像素 i映射到 D 维归一化超球面上的点 z i。我们选择了一个归一化的嵌入空间，以使 Φ θ的输出受限。注意，使用这种尺度不变的嵌入将损失与其他可能隐含限制距离范围的设计选择分离，例如权重衰减，如[39]所示。我们构建一个优化目标来学习嵌入函数 Φ θ，具体如下。首先，我们描述如何通过对比学习目标来学习语义上有意义的图像特征。其次，我们修改准则来学习像素嵌入。0学习图像级表示。现有的对比自监督方法（例如[11, 24,78]）通过在图像级别定义的实例辨别任务来学习视觉表示。同一图像的正样本对 ( X, X + )是确保这两个图像都包含同一对象的一部分的。类似地，负样本对 ( X, X − 0 ) , ( X, X − 1 ) , . . . , ( X, X − K ) 的例子0可以发现，这些正样本和负样本从未包含相同的对象。在实践中，我们通过应用数据增强来施加额外的不变性。现在，这些正样本和负样本可以在对比框架中用于学习编码关于对象的语义信息的图像表示。我们通过训练一个图像嵌入函数Ψ η 来实现这个概念，使得正样本对 ( X, X + )的一致性最大化，同时使负样本对 ( X, X − 0 ) , ( X, X − 1) , . . . , ( X, X − K )的一致性最小化。如果我们使用点积来衡量对比对的相似度，对比损失[23, 54]定义如下0其中温度 τ放松了点积。正如[61]所示，模型学习编码对象信息，因为正样本始终保留了同一对象的一部分。此外，由于网络的表征能力是有意限制的，视觉上相似的对象将倾向于被 Ψ η映射到更接近的位置。这两个属性的结合导致图像表示可以直接聚类成语义组（更详细的解释请参见[71]）。上述观察结果展示了如何训练一个编码语义对象信息的模型。接下来，我们将从方程1修改对比损失，以学习像素级的表示。0学习像素级表示。我们采用以下符号表示。设 i是一个像素，z i 是它的像素嵌入。设 m ( i ) 是像素 i所属的对象掩码的索引，即 i ∈ M m ( i )。最后，设平均像素zMn =1|Mn|�i∈Mnzi.(2)Li = − logTraining setup.We use a DeepLab-v3 [10] model withdilated [86] ResNet-50 backbone [25]. The backbone is ini-tialized from MoCo v2 [13] pre-trained on ImageNet, un-less deﬁned otherwise. We train the model for 60 epochsusing batches of size 64. The model weights are updatedthrough SGD with momentum 0.9 and weight decay 1e−4.The initial learning is set to 0.004 and decayed with a polylearning rate scheme. We use the same set of augmenta-tions as SimCLR [11] to generate positive pairs (X, X+),while making sure that each image contains at least a part ofthe salient object (arzMX− , . . . , zMX−100560嵌入 z M n 的对象掩码 M n 的定义如下0优化目标源自像素嵌入空间中的拉力和推力。拉力。在第3.1节中，我们通过共享像素所有权的先验来拉近嵌入空间中的像素。更具体地说，如果两个像素 i, j 属于同一对象，即m ( i ) = m ( j ) ，我们最大化它们的像素嵌入 z i , z j之间的一致性。在实践中，一致性是在像素和它们所属对象掩码的平均嵌入之间最大化的，以便获得一个与像素数量线性缩放的准则，而不是二次缩放。推力。此外，我们需要推力来避免嵌入空间中的模式坍塌。此外，推力应该使视觉上相似的对象的像素在嵌入空间中靠近，而来自不相似对象的像素则被映射得更远。正如前一段所述，这可以通过采用对比损失来实现，该损失将对象的增强视图作为正样本对，将其他对象的视图作为负样本。在这种情况下，推力是在不同对象之间产生的。我们用它们的平均像素嵌入来表示对象。优化目标。我们修改了方程1中的对比损失，以包含所提出的拉力和推力。以对象为中心的裁剪的正样本对 (Ψ η ( X ) , Ψ η ( X + )) 被替换为像素嵌入的正样本对： ( z i , z M X+ ) ，其中 i ∈ M X 。类似地，负样本对 (Ψ η ( X ) , Ψ η( X − k )) 被替换为 ( z i , z M X − k )。我们得到以下优化准则0Li = -log exp (zi ∙ zMX +/τ)0对于像素i ∈ MX。0像素嵌入函数Φθ最大化像素与它们所属对象的增强视图之间的一致性，同时最小化与其他对象的一致性。我们将像素级损失Li应用于所有前景像素。背景像素不进行对比，因为可能存在多个背景对象，我们无法得出确定性的信息。在这种情况下，网络不需要区分落在对象掩码内部还是外部的像素。因此，像素嵌入可以在图像中坍缩为一个单一的向量。为了防止这种情况发生，我们通过包含一个单独的线性头来预测显著性掩码来规范化特征空间。附录提供了MaskContrast的伪代码。0有趣的是，所提出的目标也可以从另一个角度来看待。Wang和Isola[76]表明，对比损失优化了两个属性：（1）正样本特征的对齐和（2）特征分布在归一化超球面上的均匀性。从这个角度来看，我们的优化目标也可以解释为基于共享像素所有权来优化像素嵌入的对齐，同时在超球面上均匀分布像素嵌入。04. 实验04.1. 实验设置0数据集。我们在PASCAL[20]数据集上进行了大部分实验分析，遵循之前的工作[29,95]。训练和评估分别使用trainaug和val划分。我们在COCO [44]和DAVIS-2016[59]数据集上进行了额外的实验，以验证像素嵌入是否可以转移到新场景。我们使用Kirillov等人[38]的注释进行COCO的语义分割任务，并在PASCAL类上进行评估。在DAVIS-2016上，使用表示来计算在视频中传播对象掩码的对应关系。只有第一帧进行了注释，我们在其余帧上评估传播的掩码。我们采用[32]的评估协议，报告区域相似度J和基于轮廓的准确度F得分。0保存在内存库中。0K设置为128。负样本使用网络的动量更新版本进行编码，遵循[24]的方法。我们使用维度D = 32和温度τ = 0.5。0显著性估计。我们测试了无监督和有监督的显著性估计器来挖掘对象掩码提案。我们采用了BAS-Net[62]架构。有监督的显著性模型是在DUTS[74]上训练的。而无监督的显著性模型是使用DeepUSPS[50]中的方法在MSRA[14]上训练的。MSRA包含了较简单的场景，这对无监督训练有益。然而，直接转移预测结果到我们的目标数据集会导致质量下降。因此，我们采用自举过程来改进目标数据集上的预测结果。100570方法LC（MIoU）0有监督显著性模型6.50MoCo v2 [13]（无监督）45.0ImageNet（IN）分类器（有监督）53.10MaskContrast（MoCo v2初始化-无监督显著性模型）58.4MaskContrast（MoCo v2初始化-有监督显著性模型）62.20MaskContrast（IN分类器初始化-无监督显著性模型）61.0MaskContrast（IN分类器初始化-有监督显著性模型）63.9 表1.在PASCAL上线性评估协议下的基准比较。0使用无监督模型时，对于我们的目标数据集（如PASCAL），会导致低质量的掩码提案。我们采用简单的自举过程来改进目标数据集上的预测结果。具体而言，我们使用无监督的DeepUSPS模型在MSRA上生成伪标签，然后通过训练BAS-Net来获得我们的最终显著性估计器。0实现。我们在补充材料中提供了每种方法的实现细节。代码和预先计算的显著性掩码将会提供。0范围。我们采用标准的评估协议[34,95]来评估我们的方法在无监督语义分割中的性能。具体来说，我们使用线性探测（第4.3节），直接聚类（第4.4节）和分割检索方法（第4.5节）来量化像素嵌入是否根据语义类别进行了解耦。这个实验设置与自监督表示学习中通常使用的设置不同，在那里评估重点是将特征表示微调到各种下游任务。为了完整起见，我们在第4.6-4.7节中还包括了额外的微调实验。04.2. 割除研究0我们根据现有工作[95]采用线性评估协议来研究我们框架的不同组成部分的影响。网络权重保持不变，我们在顶部训练一个1x1的卷积层来预测类别分配。由于线性分类器的区分能力较低，像素嵌入需要对语义类别具有信息量，以便以这种方式解决任务。0基准比较。表1比较了几个基准。在显著性特征上应用线性分类器的性能最低（6.5%）。这是可以预料的，因为显著性估计器只能区分两组像素，即显著对象与背景。不同的是，我们的方法发现了一个语义结构化的嵌入空间，其中来自视觉上相似的对象的像素彼此靠近，而来自不相似对象的像素则相距较远。这使得线性分类器能够正确地对像素进行分组（>58.4%）。重要的是，0结果表明，与初始化骨干权重的模型相比，我们的方法的性能有所提高（MoCo从45.0%提高到58.4%，有监督预训练从53.1%提高到61.0%）。我们得出结论，我们的方法的性能不能归因于使用特定的初始化。此外，对于分割任务来说，学习像素级别的表示比学习图像级别的表示更有益。最后，我们观察到当包括额外的监督时，如在ImageNet上进行有监督预训练（从58.4%提高到61.0%），或者使用有监督的显著性估计器（从58.4%提高到62.2%和从61.0%提高到63.9%），性能进一步提高。0掩码提议。表2a比较了三种掩码提议策略。使用显著对象掩码时报告了更好的结果。我们发现，使用分层分割算法提取的区域通常太小，无法代表一个对象或部分。这样，模型就无法学习到对分割任务有用的信息。这从第3.1节的假设得到了证实，即一个好的先验表达了对象信息。0训练机制。表2b消除了一些包含的训练机制。首先，使用增强视图来采样正对组可以改善结果，因为我们学习到了额外的不变性。其次，包含一个记忆库可以进一步提高性能，因为我们可以更好地估计负样本的分布。第三，使用动量更新版本的网络Φθ来编码负样本是有帮助的，因为这可以在记忆库中强制保持一致性（也参见[24]）。总之，这三个机制都对结果有积极的贡献。0超参数研究。表2c研究了使用的温度τ和负样本数量K的影响。根据报告的标准差，我们得出结论，所提出的算法对超参数不太敏感。04.3. 线性分类器0表3a在PASCAL上使用线性评估协议将我们的方法与竞争方法进行了比较。MaskContrastvs.代理任务。该方法明显优于基于代理任务的方法。代理任务不太可能将嵌入与数据集中的语义组对齐。相反，将我们提出的先验，即共享像素所有权，与对比损失相结合，可以得到更具语义意义的像素嵌入。MaskContrastvs.聚类。我们超过了使用聚类目标的IIC[34]。如前所述，聚类强烈依赖于网络初始化，这对学到的特征产生了负面影响，因为网络可能会依附于低层次的信息，如颜色、纹理、对比度等。不同的是，我们通过将先验与网络初始化解耦来抑制这些问题。4.04.34.99.84.44.33.74.4--4.735.038.941.644.2SegSort [29]10.2-Hierarch. Group. [95]24.6-MoCo v2 [13]48.039.0100580Mask Proposals LC0（MIoU）0分层分割[1, 79] 30.5无监督Sal.模型 58.4有监督Sal.模型 62.20(a) 三种掩膜提议机制的比较。0增强记忆动量LC视图编码器（MIoU）0� � � 52.4 � � � 54.0 � � � 55.0 � � � 58.40(b) 使用的训练机制分析。0超参数范围LC0（MIoU）0温度 τ [0.1-1] 56 . 2 ± 1 . 4 负样本数 K[64-1024] 57 . 0 ± 0 . 60(c) 超参数研究。我们报告均值和标准差。0表2. 在PASCAL上线性评估协议下的我们方法的消融研究。表2b-2c报告了使用无监督显著性估计器生成的掩膜的结果。我们使用MoCov2的初始权重。0MaskContrast与对比学习的比较。该方法相对于现有的对比自监督方法报告了更高的准确性。这组工作在全局图像或补丁级别定义了对比损失。自然地，我们的像素嵌入对语义分割任务的预测更有意义，因为我们在像素级别定义了对比学习目标。0MaskContrast与基于边界的方法的比较。最后，我们超越了依赖边界检测器将像素分组在一起的方法。我们认为所使用的显著性掩膜相比于从边界检测器获得的区域包含了更高级别的视觉信息。04.4. 聚类0我们验证特征表示是否可以直接使用离线聚类准则（如K-Means）在语义上有意义地将其聚类成组。聚类数等于真实类别数。使用匈牙利匹配算法将预测的聚类与真实类别匹配，并在五次运行中对结果进行平均。表3b显示了结果。我们学到的像素嵌入可以成功地使用K-Means在PASCAL上进行聚类。相反，先前的工作中获得的特征表示不具备这种行为。在补充材料中应用过聚类的结果。04.5. 语义分割检索0接下来，我们采用检索方法来检查我们在PASCAL上的表示。首先，我们通过对预测掩膜中的像素嵌入进行平均来为每个显著对象计算特征向量。接下来，我们从训练增强集中检索val集对象的最近邻。表4显示了与以下7个类别的最新技术的定量比较：公交车，飞机，汽车，人，猫，牛和瓶子。与之前一样，我们以显著的优势超越了先前的工作。为了方便将来的比较，我们还包括了在所有21个PASCAL类别上评估时的结果。图4显示了一些定性结果。0方法LC0基于代理任务：共现[31] 13.5 CMP [88] 16.5上色[94] 25.50基于聚类：IIC [34] 28.00基于对比学习：Inst. Discr. [78] 26.8 MoCo v2[24] 45.0 InfoMin [69] 45.2 SWAV [9] 50.70基于边界：SegSort [29] † 36.2 层次分组 [95] †48.80ImageNet（IN）分类器（有监督）53.10MaskContrast（MoCo初始化+无监督Sal.）58.4MaskContrast（MoCo初始化+有监督Sal.）62.2MaskContrast（IN有监督初始化+无监督Sal.）61.0MaskContrast（IN有监督初始化+有监督Sal.）63.90(a) 线性分类器。0K-Means0(b) K-Means。0表3. PASCALval上的最新比较结果（MIoU）。(†)表示结果来自[95]。请注意，作者使用了稍微不同的评估协议，即没有使用ImageNet预训练，而是使用完整ASPP解码器的微调。0方法 MIoU（7个类别） MIoU（21个类别）0MaskContrast（无监督显著性） 53.4 43.3MaskContrast（有监督显著性） 62.3 49.60表4. PASCAL val集上语义分割检索的最新比较。我们使用MoCov2初始权重。04.6. 迁移学习0我们研究了我们的像素嵌入的可转移性。表5显示了在ImageNet上进行预训练并在不同的目标数据集上评估生成的像素嵌入的结果。有趣的是，我们的表示在各种数据集上都有很好的转移性。在PASCAL上解决分割任务时，训练一个线性分类器可以改善MoCov2基线（使用无监督显著性模型时，MaskContrast为55.4％，MoCo为45.0％）。在COCO上也可以观察到类似的效果（MaskCon的结果为45.0％）。MoCo v2RGBSupervised ImageNetMaskContrast (Unsup. Sal. Model)100590图4. 在PASCAL上查询的最近邻居。0模型 PASCAL COCO DAVIS '160（MIoU）↑（MIoU）↑ Jm↑ Fm↑0MaskContrast（无监督显著性） 55.4 45.0 78.0 77.8MaskContrast（有监督显著性） 57.2 47.2 82.0 80.9 表5.迁移学习设置。所有模型都在ImageNet上进行了预训练。我们使用MoCo v2初始权重。在PAS-CAL和COCO上，我们报告了线性分类器的结果。在DAVIS上，我们冻结表示并采用了[32]的协议。0与MoCo相比，我们的像素嵌入也很好地转移至DAVIS-2016上的语义对象分割任务。该数据集涵盖了一系列丰富的自然图像增强，如视角变化，遮挡等，而我们的像素嵌入已经学习到了这些不变性。在所有三个基准测试中观察到的收益表明，学习到的表示不仅限于特定数据集。我们得出结论，使用中级视觉先验对自监督表示学习是有用的。04.7. 半监督学习0所提出的方法可以作为语义分割的预训练策略的替代方法。也就是说，模型在PASCAL上以半监督的方式进行微调。我们使用1％，2％，5％，12.5％和100％的训练增强集合作为标记示例。我们从ImageNet的监督预训练中初始化我们的模型。这种权重初始化在语义分割中通常被使用。此外，直接微调以相同方式初始化的模型可作为一个强基准。表6显示了结果。与在ImageNet上进行监督预训练相比，我们的方法生成的表示在微调后表现出更高的性能。当使用无监督和有监督的显著性估计器来预测对象掩码提案时，这一结论成立。可预见的是，当有更多的标记示例可用时，收益变得更小（也参见[97]）。总之，无监督学习像素嵌入可以补充基于图像级优化准则的预训练策略。0图5.在PASCAL上使用1％标记数据进行微调后的定性比较。我们使用在ImageNet上进行监督预训练的方法（中间）或我们的方法（底部）来初始化权重。0标签分数 1% 2% 5% 12.5% 100%0ImageNet分类器初始化 43.4 55.2 62.7 68.4 78.0 +MaskContrast（无监督显著性） 50.5 57.2 64.5 69.0 78.4 +MaskContrast（有监督显著性） 51.5 59.6 65.3 69.4 78.6 表6.PASCAL上的半监督微调（MIoU）。05. 讨论和限制0本文提出了一个基于中级视觉先验的通用两步框架，用于处理无监督的语义分割。所提出的设置防止模型依赖于低级图像特征，这是以前的工作中存在的问题，这些工作依赖于端到端聚类，代理任务或低级视觉线索。相反，MaskContrast学习像素嵌入，其中包含更多语义上有意义的信息（见图4）。因此，我们能够在PASCAL这样的多样数据集上在完全无监督的设置下处理语义分割任务。此外，实验评估显示我们的像素嵌入还具有其他一些有趣的特性：语义分割检索、迁移学习和半监督微调。然而，我们的方法也存在一些限制。对象掩码提案是使用显著性对象估计器获得的，该估计器每个图像只能检索到有限数量的对象。可以探索其他挖掘对象掩码提案的替代方法，以应对更具挑战性的数据集，其中每个图像可能存在多个对象。特别是，我们可以看到使用其他感官数据[67]或其他更适合这种类型图像的技术[60]，这些方法更适合这种类型的图像。然后可以相应地扩展方程3中的优化准则。鉴于我们框架的可行性，我们认为这些是有趣的研究方向。0致谢。作者们感谢丰田公司通过TRACE项目和MACCHINA（KU Leuven，C14/18/065）的支持。[23] Michael Gutmann and Aapo Hyv¨arinen. Noise-co

下载后可阅读完整内容，剩余1页未读，立即下载