无监督学习技术使得实例分割可以在没有手动注释的情况下进行学习，而FreeSOLO是一个基于简单实例分割方法SOLO构建的自监督实例分割框架

106 浏览量更新于2023-10-25 收藏 20.49MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

141760FreeSOLO：无需注释学习分割对象 *0Xinlong Wang 1，Zhiding Yu 2，Shalini De Mello 2，Jan Kautz 2，Anima Anandkumar2，3，Chunhua Shen 4，Jose M. Alvarez 201 阿德莱德大学 2 NVIDIA 3 加州理工学院 4 浙江大学0图1. FreeSOLO在类别不可知实例分割任务中的定性结果。该模型在没有任何手动注释的情况下进行推断，可以在V100 GPU上以16FPS的速度进行推断。最佳观看效果为屏幕显示。0摘要实例分割是一项基本的视觉任务，旨在识别和分割图像中的每个对象。然而，它需要昂贵的注释，如边界框和分割掩码进行学习。在这项工作中，我们提出了一种完全无监督的学习方法，可以在没有任何注释的情况下学习类别不可知的实例分割。我们提出了FreeSOLO，这是一个基于简单实例分割方法SOLO构建的自监督实例分割框架。我们的方法还提出了一种新颖的具有定位感知的预训练框架，可以以无监督的方式从复杂场景中发现对象。FreeSOLO在具有挑战性的COCO数据集上实现了9.8%的AP50，甚至超过了使用手动注释的几种分割提议方法。我们首次成功地展示了无监督的类别不可知实例分割。FreeSOLO的边界框定位明显优于最先进的无监督目标检测/发现方法，相对改进了约100%。0*XW在NVIDIA实习期间完成了这项工作的一部分，CS在阿德莱德大学任职时完成了这项工作。CS为通讯作者。0COCOAP的改进。当仅使用5%的COCO掩码对实例分割进行微调时，FreeSOLO进一步展示了作为一种强大的预训练方法的优越性，超过了最先进的自监督预训练方法9.8%的AP。代码可在以下网址找到：github.com/NVlabs/FreeSOLO01. 引言0实例分割是一项基本的计算机视觉任务，需要识别图像中的对象并在像素级别对每个对象进行分割。实例分割包含了目标检测，因为边界框可以被视为分割掩码的粗略参数化表示。因此，相对于目标检测而言，它是一项更具挑战性和要求更高的任务，需要同时进行实例级别和像素级别的预测。最近，已经取得了显著的进展[1-7]来解决实例分割任务。然而，这项任务的密集预测性质要求在训练过程中进行丰富而昂贵的注释。因此，提出了弱监督实例分割方法来放宽注释要求[8-13]。最新的方法，如BoxInst[11]和Dis-141770coBox[13]已经显著缩小了与完全监督方法之间的差距。然而，它们的竞争结果仍然依赖于包含强定位信息的边界框或点注释。在这项工作中，我们探索了在没有任何注释的情况下学习类别不可知的实例分割。这项工作是基于我们最近的工作SOLO [7]和DenseCL[14]的自监督密集特征学习方法。SOLO采用了一种一阶段设计，其中包含一个类别分支和一个掩码分支，用于编码对象的类别信息和分割提议。我们的主要直觉是这种“自上而下遇见自下而上”的设计允许我们以完全自监督的方式统一像素分组、对象定位和特征预训练。我们提出的框架FreeSOLO包含两个主要支柱：Free Mask和Self-supervisedSOLO，如图2所示。具体而言，FreeMask包含促进网络注意力中的物体性的自监督设计元素。它包含一个“查询-键”注意力设计，其中查询和键是从自监督特征构建的。该方法计算每个查询与所有键之间的余弦相似度，从而获得一组查询条件（种子）注意力映射作为粗略的掩码。粗略的掩码通过其掩码得分进行排序和过滤，然后通过非极大值抑制（NMS）进一步去除冗余的掩码。自监督SOLO然后采用粗略的掩码作为伪标签来训练SOLO模型。由于粗略的掩码可能不准确，自监督SOLO包含一个弱监督设计，以更好地适应标签噪声。然后采用自训练策略进一步改进掩码质量并提高准确性。我们的网络设计与SOLO几乎相同，只有最小的修改，因此推理过程简单快速。FreeSOLO为自监督实例分割这一具有挑战性的问题提供了有效的解决方案。通过从预测的掩码中获得的边界框，FreeSOLO还显示出作为无监督对象发现方法的显著优势。除了上述角色，我们进一步将FreeSOLO视为一种强大的自监督前提任务，用于同时学习对象级别和像素级别的表示。与图像分类[15-17]、目标检测[18,19]和语义分割[20,21]的预训练相比，实例分割的预训练仍然是一个未被充分研究的领域。通常的实例分割不仅需要在像素级别定位对象，还需要识别它们的语义类别。有趣的是，FreeSOLO的设计允许我们以无监督的方式直接学习对象级别的语义表示。在完成预训练后，除了最后的分类层之外，所有学习的参数都可以用来初始化监督实例分割。0• 我们提出了FreeMask方法，它利用SOLO的特定设计以无监督的方式有效地提取粗糙的物体掩膜和语义嵌入。0• 我们进一步提出了自我监督SOLO，它使用来自FreeMask的粗糙掩膜和语义嵌入来训练SOLO实例分割模型，并采用了几种新的设计元素来克服粗糙掩膜中的标签噪声。0•借助上述方法，FreeSOLO首次成功地展示了无监督实例分割的简单有效框架。值得注意的是，它在一些使用手动注释的提案生成方法上表现优于。FreeSOLO还在无监督物体检测/发现的最新方法上表现出色，相对于COCOAP，提高了显著的百分比（+100%）。0•此外，FreeSOLO还作为实例分割的强自我监督预训练任务，用于表示学习。例如，在使用5％标记掩膜对COCO数据集进行微调时，FreeSOLO的性能优于DenseCL[14]，提高了+9.8％的AP。02. 相关工作0实例分割。近年来，实例分割引起了广泛关注。大多数现有的工作都集中在使用完整注释学习实例分割上。自上而下的方法[1, 2, 4,22]从目标检测的角度解决问题，即首先检测对象的边界框，然后分割框中的对象。自下而上的方法[3,23-25]将任务视为标签-然后-聚类问题，例如，首先学习每个像素的嵌入，然后将它们聚类成组。一些最新的方法[5, 6,26-28]尝试将自上而下和自下而上的方法结合起来进行更快的推理和更好的分割。在这些方法中，SOLO通过非常简单的架构展示了有希望的速度/准确性权衡。一些工作探索使用弱注释学习实例分割，例如，图像级和框级标签[8, 9, 11,29]。据我们所知，没有人额外探索完全没有任何标签的实例分割学习。特别是，BoxInst[11]仅使用框注释实现了强大的实例分割结果，证明实例分割可能并不一定比框级目标检测更难解决。我们通过在无监督环境中报告强大的实例分割结果，而不需要任何注释，向前迈出了一步。自我监督学习。为了从无标签数据中学习良好的视觉表示，已经探索了各种预训练任务，例如，着色[30]，修复[31]，拼图[32]和方向判别[33]。突破来自对比学习方法，例如，SimCLR [16]和MoCo[15]执行实例区分预训练任务[34]。除了用于图像分类的预训练[17, 35, 36]之外，一些最新的工作[14, 19,37-39]设计了用于密集预测任务的自我监督预训练方法，例如，对象检测和语义分割。与它们不同，我们的方法不仅可以学习中间表示，还可以训练实例分割器，可以在野外分割对象。我们的FreeSOLO自然成为学习实例分割的强大预训练任务。预训练模型可以无缝地转移到监督微调，并且与现有的预训练方法相比，可以取得显著的收益。Self-Sup.SOLOCoarse masksFinal masksing [31], jigsaw puzzles [32] and orientation discrimina-tion [33].The breakthroughs came from the contrastivelearning methods, e.g., SimCLR [16] and MoCo [15] thatperform an instance discrimination pretext task [34]. Be-sides pre-training for image classification [17,35,36], somerecent works [14, 19, 37–39] design self-supervised pre-training methods for dense prediction tasks, e.g., object de-tection and semantic segmentation. Different from them,our method can not only learn intermediate representations,but also train instance segmenters, which can segment ob-jects in the wild. Our FreeSOLO naturally serves as a strongpretext task for learning representations for instance seg-mentation. The pre-trained model can be seamlessly trans-ferred to supervised fine-tuning and can achieve significantgains compared to existing pre-training methods.141780FreeMask0一组未标记的图像0图2. FreeSOLO概述。首先将未标记的图像输入到FreeMask中生成粗糙的物体掩膜。使用分割掩膜以及它们关联的语义嵌入来通过弱监督训练基于SOLO的实例分割模型。我们使用自我训练来改善物体掩膜分割。0无监督对象发现。已经提出了广泛的无监督对象发现方法，包括统计主题发现模型[40,41]，链接分析技术[42]，组合聚类[43]和基于部分匹配[44]。一些最近的工作[45,46]将对象发现形式化为一个优化问题。LOD[47]进一步提出将无监督对象发现形式化为一个排名问题。然而，现有方法在具有挑战性和复杂场景中取得了有限的成功。此外，这些方法中大多数只能找到对象的粗略边界框。相比之下，我们的方法通过像素级分割掩码在复杂的自然场景中发现和定位对象。通过从预测的掩码中获得边界框，FreeSOLO在无监督对象发现方法中取得了显著的优势。0无监督分割。为了消除对手动监督的依赖，一些对象共分割方法[48-50]对图像集合做出了一个强假设，即在一组图像中分割常见的重复对象。此外，还有一些工作[51-53]探索无监督语义分割。其中一些[51]只处理简单的场景，一些[52,53]仍需要显著对象估计器或边界注释。此外，关键区别在于任务。与语义分割不同，我们的方法0解决了实例分割这个更难的问题，即分割每个对象。03. 方法0背景。我们简要介绍了监督实例分割方法SOLO[7]。SOLO表明可以通过直接将输入图像映射到所需的对象类别和实例掩码来解决实例分割问题，而无需边界框检测或后处理分组。其主要思想是将实例分割概念上划分为两个同时进行的类别感知像素级预测问题。它将输入图像概念上划分为S×S个网格。一个网格单元负责预测中心落入该网格单元的对象的语义类别和分割掩码。模型由两个分支组成，即类别分支和掩码分支。类别分支预测语义类别。掩码分支生成S2大小的掩码，每个网格单元对应一个掩码。具体而言，动态SOLO变体使用动态卷积分别预测掩码核和掩码特征。然后，将掩码特征与预测的掩码核进行卷积以生成掩码。这个操作可以写成：0S = G � F，(1)0其中 G 是卷积核，S 表示所有 S 2个掩码的分数图。然后通过sigmoid操作对S进行归一化，并输入到掩码NMS中形成最终的对象掩码。03.1. FreeSOLO概述0我们提出了一种新颖的自监督实例分割框架，称为FreeSOLO。FreeSOLO不需要任何类型的注释，无论是像素级别的还是图像级别的标签，只需使用一组未标记的图像进行训练。其整体流程如图2所示。我们首先提出了自监督预训练模型生成分割掩码的FreeMask方法。对于每个未标记的图像，可以通过简单的操作快速生成粗糙的对象掩码，例如。*141790在V100GPU上以基于ResNet-50的骨干网络为基础，以每秒21帧的速度运行。我们进一步提出了自监督SOLO，使用来自FreeMask的粗糙掩码和语义嵌入来训练基于SOLO的实例分割器，其中包括弱监督设计、自训练和语义嵌入学习等几个新颖的设计元素。通过FreeSOLO，我们仅使用未标记的图像获得了一个实例分割模型。除了无监督实例分割本身外，训练良好的模型还可以作为下游微调的强大预训练模型。除了最后的分类层之外，所有参数都可以作为强大的初始化转移到监督实例分割中。03.2. Free Mask0FreeMask从未标记的图像中生成对象掩码。如图3所示，给定输入图像，通过自监督训练的骨干模型提取出密集特征图I∈RH×W×E，例如ResNet[54]或任何其他卷积神经网络。这个预训练模型可以来自有监督或无监督的预训练，如下所讨论。我们首先从特征I构建查询Q和键K，它们共同用于生成粗糙的分割掩码。我们通过双线性下采样I形成查询Q∈RH'×W'×E，其中H'和W'表示下采样后的空间尺寸。I本身被用作键集K。对于Q中的每个查询，我们计算它与K中每个键的余弦相似度，从而得到得分图S∈RH×W×N，其中N=H'×W'是查询的总数。这个操作可以表示为：0S i,j,q = sim(Qq, Ki,j), (2)0其中Qq∈RE是第q个查询，Ki,j∈RE是空间位置(i,j)处的键。sim(u,v)表示余弦相似度，通过u和v的ℓ2归一化点积计算，即sim(u, v) = u�v /∥u∥∥v∥。这个过程也可以看作是一个卷积，其中ℓ2归一化的查询Q'和键K'分别是卷积核和要进行卷积的特征。每个归一化的查询被视为一个1×1的卷积核。因此，这个操作也可以表示为：0S = Q' � K'. (3)0然后将得分图归一化为软掩码，通过将得分转换到[0,1]的范围内。我们为每个N个软掩码计算下面进一步定义的'maskness'得分，它作为每个提取的掩码的置信度分数。软掩码使用阈值τ转换为二值掩码。然后，我们根据它们的maskness得分对二值掩码进行排序，并通过掩码非最大值抑制（NMS）去除冗余掩码。整个过程可以表示为：0M = NMS × Maskness(Norm(Q' � K')),0Q: H' × W' × E0K: H × W × E0I0图3. FreeMask方法。给定来自骨干特征I的查询和键，通过查询与键的卷积生成分割掩码。掩码经过NMS形成对象掩码输出。0其中 M 表示FreeMask输出的对象掩码。自监督预训练。FreeMask使用经过自监督的预训练骨干作为起点。我们提出利用通过密集对应进行自监督预训练的模型。具体来说，我们发现与传统的全局图像级对比的自监督学习相比，密集对比学习[14]在我们的FreeMask方法中取得了更好的结果。这可以归因于FreeMask和密集对比学习具有相似的目标。这里我们简要介绍密集对比学习的执行方式。它在输入图像的两个视图之间的局部特征级别上优化了一对一（不）相似性损失。一个局部特征向量，即查询向量，应该与另一个视图中的相应正键相似，同时与其他负键不相似。观察到这也与方程（2）中评估查询和键之间的余弦相似性一致。这也解释了为什么FreeMask提取出合理的掩码。我们相信，对于FreeMask，可能存在更好的预训练方法，例如，解决如何在更高分辨率上学习细粒度表示以生成更好的掩码。我们将这留给未来的研究。金字塔查询。在从I构建查询Q时，我们设计了金字塔查询方法，以生成不同尺度实例的掩码。具体来说，我们设置了一系列的尺度因子，例如[1.0, 0.5,0.25]，在对I进行下采样时，从而得到从大到小的不同尺度的Q列表。所有金字塔查询都被展平并连接在一起作为最终的Q。掩码得分。评估每个生成的粗糙掩码质量需要一个评分函数，该函数无法从注释中学习。我们使用非参数掩码方法[27]，即maskness = 1/Nf * ∑Nfipi，来获得提取掩码的置信度分数。这里Nf表示软掩码p的前景像素数，即具有大于阈值的值的像素数。2·qqq∗∥qqq∗∥2.(8)141800τ。直观地说，这个分数更重视在前景像素上具有高置信度的掩码，并降低对具有不确定前景像素的掩码的权重。与SOLO统一。我们可以看到，方程（4）中的流程与上面背景部分介绍的SOLO的流程是统一的。它们都经过FCN、动态卷积、归一化和NMS操作来生成物体掩码。然而，两者提出的目的是解决不同的问题。后者旨在通过丰富的注释数据学习实例分割，而前者是用于在未标记的图像中分割对象。这为图像中的对象分割提供了统一的视角。03.3.自监督SOLO0我们的目标是使用来自FreeMask的分割掩码和语义嵌入（即具有高级语义的特征嵌入）来训练基于SOLO的实例分割器。我们分别介绍使用粗糙掩码、自训练和语义表示学习的方法。使用粗糙掩码进行学习。在SOLO中，使用Dice损失[55]来监督预测的掩码与其真实标签。然而，对于我们的嘈杂掩码学习的情况，这并不理想。由于掩码是粗糙的，直接将它们用作真实标签的掩码可能会导致不理想的结果。我们建议将粗糙掩码作为一种弱标注类型，并使用它们进行弱监督实例分割。受到最新的弱监督方法Box-Inst[11]的启发，我们通过沿每个轴进行最大操作，将预测的掩码和粗糙掩码投影到x轴和y轴上。模型被监督以最小化预测掩码和粗糙掩码投影之间的差异。损失项可以定义为：0L max proj =0+ L (max y (mmm), max y (mmm�)), (5)0其中L(∙,∙)是Dice损失，mmm和mmm�是预测的掩码和粗糙掩码。maxx和maxy表示沿每个轴的最大操作。我们进一步提出通过沿每个轴进行平均操作将预测的掩码和粗糙掩码投影到x轴和y轴上。动机是最大操作可能会强调粗糙掩码中的异常分割，而平均操作则减弱异常值的影响。此外，平均操作保持了对象掩码的完整形状，这有助于训练。损失项可以写为：0L avg proj =0+ L (avg y (mmm), avg y (mmm�)), (6)0其中avgx和avgy表示沿每个轴的平均操作。我们还使用成对的亲和损失0L pairwise[11]利用了相邻像素在原始图像中具有相似颜色时很可能属于同一类别，即前景或背景的先验知识。总的来说，掩码预测的总损失可以表示为：0L mask = αL avg proj + L max proj + L pairwise, (7)0其中α作为权重用于平衡各种损失项。自训练。通过我们精心设计的损失函数，我们能够使用自由和嘈杂的粗糙掩码训练基于SOLO的实例分割器。如图2所示，实例分割器预测的物体掩码比来自FreeMask的原始粗糙掩码要好得多，这也通过表7c中提高的准确性得到验证。因此，我们建议使用初始训练的实例分割器进行自训练以进一步提高准确性。我们将未标记的图像输入实例分割器并收集其预测的物体掩码。低置信度的预测被删除，剩下的预测被视为一组新的粗糙掩码。我们再次使用方程（7）中的损失函数，使用未标记的图像和新的掩码训练实例分割器。自训练一次已经带来了明显的改进，更多的迭代不会带来额外的收益。语义表示学习。一般的实例分割不仅需要在像素级别定位对象，还需要识别它们的语义类别。在SOLO中，类别分支为每个对象预测语义类别（包括背景）。在我们的情况下，没有注释，我们建议将类别分支解耦为执行两个子任务：前景/背景二分类和语义嵌入学习。前者使用传统的Focal loss [56]进行训练，称为Lfocal。对于后者，我们提出了一种简单的方法来学习基于对象的语义表示。从FreeMask（在第3.2节中介绍），除了分割掩码，我们还可以直接获得发现的对象的语义嵌入。如图3所示，每个掩码与一个查询特征向量Qq ∈RE相关联。在训练实例分割器时，我们在原始类别分支的最后一层平行添加一个分支，该分支由一个单卷积层组成，用于预测每个对象的语义嵌入。给定预测和提取的嵌入qqq和qqq�，我们通过最小化它们的负余弦相似度来训练模型。0L sem = 1 -qqq0类别分支的总损失可以写成：0L cate = L focal + β L sem , (9)141810其中β作为平衡两个项的权重。总体上，我们使用Lmask和Lcate的组合训练实例分割器，分别对应于掩码分支和类别分支的损失。04. 实验 4.1. 实验设置0技术细节。对于FreeMask，输入图像的较短边设置为800像素。阈值τ设置为0.5。除非另有说明，否则采用预训练的ResNet-50[54]架构的DenseCL [14]作为骨干网络。使用矩阵NMS[27]进行掩码NMS。NMS后，我们使用掩码质量阈值0.7过滤掉低质量的掩码。在训练SOLO模型时，我们使用在FreeMask中使用的预训练模型初始化骨干网络。我们将α和β参数设置为0.1和4.0。我们采用简单的复制粘贴策略[57]进行数据增强。在自训练期间，我们将低置信度预测的置信度阈值设置为0.3。数据集。对于FreeSOLO，我们使用COCOtrain2017和COCO unlabeled2017[58]中的图像作为无标签图像集，共包含约241k个图像。这些无标签图像输入到FreeMask中，用于训练实例分割器。FreeMask中的自监督骨干网络在ImageNet上预训练，使用约128万个无标签图像。我们进一步使用COCOval2017，UVO val [59]和PASCAL VOC trainval07[60]数据集进行评估。评估协议。我们使用标准的COCO协议评估自监督实例分割。我们报告在5kval2017分割上的类别无关COCO掩码平均精度（AP）和平均召回率（AR），在0.5到0.95之间均匀分布的10个交并比（IoU）阈值上进行平均。AP同时考虑召回率和精确度，计算从0到1的召回率值的平均精度值。AR允许冗余或随机的检测结果，因为它计算给定每个图像的固定数量的检测结果的最大召回率。为了与无监督目标检测方法进行比较，我们将掩码转换为框，并报告COCO val2017，COCO20k和VOCtrainval07上的框AP。我们进一步通过使用注释进行微调来评估预训练模型。具体而言，我们在COCOtrain2017上对实例分割器进行微调，并在COCOval2017上进行评估。我们提供两种设置，即有限完全注释的图像和有限分割掩码（见附录A.2）。报告所有10个IoU阈值和所有80个类别的平均掩码AP。04.2. 主要结果0自监督实例分割。为了评估自监督实例分割器，我们首先提供了定性结果。0方法 AP 50 AP 75 AP AR 1 AR 10 AR 1000带有注释的MCG [61]为4.6 0.8 1.6 1.9 7.418.2，带有注释的COB [62]为8.8 1.9 3.3 2.9 10.1 22.7。0无注释：FreeSOLO 9.8 2.9 4.0 4.1 10.5 12.70表1. MS COCOval2017上的类别无关实例分割结果。MCG和COB都需要或多或少的注释。0方法 AP 50 AP 75 AP0带有完整注释的SOLOv2与COCO的38.0 20.921.4相比，带有完整注释的MaskR-CNN与COCO的31.0 14.215.9相比，带有LVIS注释的SOLOv2为14.8 5.97.1，带有LVIS注释的Mask R-CNN为18.1 4.1 6.8。0无注释：FreeSOLO 12.7 3.0 4.80表2. UVO验证集上的类别无关实例分割结果。MaskR-CNN的结果来自UVO论文[59]。0定性结果展示了FreeSOLO在类别无关实例分割任务上的表现。如图1所示，没有任何注释，FreeSOLO能够分割出许多不同类别的物体实例。为了与之前的方法进行定量比较，我们在表1和表2中报告了无监督的类别无关实例分割结果。在这个新问题上，我们评估了几种常用的分割提议方法。在比较的方法中，MCG[61]使用注释的BSDS500数据集[63]训练边界检测器，COB[62]在PASCALContext数据集[64]上训练其层次结构和组合分组。相比之下，我们的FreeSOLO方法在没有任何注释的情况下取得了更好的结果。我们进一步与使用完整注释进行训练的监督方法进行比较。值得注意的是，即使与在LVIS数据集[65]上训练的完全监督的Mask R-CNN[2]相比，FreeSOLO的表现也非常接近，例如，在UVO数据集上为4.8% vs 6.8%AP。自监督目标检测。通过将掩码转换为框，我们的自监督实例分割器自然也可以作为自监督目标检测器。我们在COCOval2017基准测试中报告了类别无关目标检测的结果，如表3所示。我们的方法显示出明显优越的性能。为了与现有的目标发现方法进行比较，我们还在VOC trainval07和COCO20k上评估了FreeSOLO进行多目标发现。如表4所示，我们的方法在COCO数据集上大大优于最先进的目标发现方法，包括一项并行工作[66]。其相对改进在COCO数据集上高达100%。监督微调。除了评估自监督的方法之外，我们还对自监督的方法进行了监督微调。具体而言，我们在COCOtrain2017上对实例分割器进行微调，并在COCOval2017上进行评估。我们提供了两种设置，即有限完全注释的图像和有限分割掩码（见附录A.2）。报告所有10个IoU阈值和所有80个类别的平均掩码AP。UP-DETR [18]0.00.00.00.00.00.4Selective Search [67]0.50.10.20.21.510.9DETReg [68]3.10.61.00.63.612.7FreeSOLO12.24.25.54.611.415.3Kim et al. [42]9.5-2.53.9-1.0DDT+ [69]8.7-3.02.4-0.7rOSD [46]13.1-4.35.2-1.6LOD [47]13.9-4.56.6-2.0LOST* [66]19.8-6.77.9-2.5FreeSOLO24.57.210.212.44.45.6141820方法 AP 50 AP 75 AP AR 1 AR 10 AR 1000表3. 在MS COCOval2017上的无监督类别无关目标检测。比较结果直接来自DETReg。0方法 VOC COCO0AP 50 AP 75 AP AP 50 AP 75 AP0表4. 在PASCAL VOC trainval07和MS COCO20k上的多目标发现。LOST*是一个并行工作。0预训练 AP AP 50 AP 75 AP S AP M AP L05%的图像0监督 18.0 32.2 17.6 5.5 18.9 27.8 MoCo-v2 [ 70 ] 19.0 32.719.2 5.4 19.9 28.9 DenseCL [ 14 ] 20.0 33.7 20.5 5.5 21.5 30.1FreeSOLO 22.0 36.0 22.9 6.5 23.2 33.8010%的图像0监督 22.3 38.0 22.9 6.3 24.0 34.8 MoCo-v2 [ 70 ] 23.2 39.023.9 6.7 24.6 36.2 DenseCL [ 14 ] 23.7 39.3 24.5 7.3 25.2 37.1FreeSOLO 25.6 41.6 26.7 8.3 27.5 40.30表5. 有限完全注释图像的监督实例分割。0预训练 AP AP 50 AP 75 AP S AP M AP L05%的掩码0监督 17.8 36.1 15.9 6.3 19.5 27.4 MoCo-v2 [ 70 ] 17.2 34.914.9 5.8 19.0 26.2 DenseCL [ 14 ] 20.1 39.0 18.3 7.6 21.4 31.2FreeSOLO 29.9 50.5 30.5 10.7 32.5 46.7010%的掩码0监督 25.4 45.6 25.1 8.8 26.9 40.7 MoCo-v2 [ 70 ] 25.6 45.125.5 8.7 27.2 40.4 DenseCL [ 14 ] 26.1 45.2 26.3 9.1 28.0 40.8FreeSOLO 31.1 51.4 32.0 11.2 34.1 48.40表6. 有限分割掩码的监督实例分割。0直接使用监督实例分割器，我们还通过使用注释对自监督实例分割器进行细调来评估我们方法的性能。如表5所示，当使用5%的COCO训练图像时，FreeSOLO预训练相比于ImageNet监督预训练提高了4.0%的AP。与最先进的自监督预训练方法相比，也明显提高了，例如比DenseCL [ 14]好2.0%的AP。为了进一步比较具有不同数量掩码注释的预训练方法，在表6中，我们进行了比较。0无标签图像自由掩码输出0图4. Free Mask的定性结果。FreeMask从无标签图像中提取常见对象的粗略掩码。0仅有有限的掩码进行细调实验。当使用5%的掩码进行细调时，FreeSOLO相比于监督预训练取得了显著的9.8%AP增益。这些细调实验表明，FreeSOLO作为一种强大的实例分割预训练方法，优于监督和最先进的自监督预训练方法。04.3.消融研究我们进行消融实验以展示每个组件对FreeSOLO的贡献。消融研究在COCOval2017数据集上进行。使用不同的预训练骨干的FreeMask。在表7a中，我们展示了使用不同预训练骨干的FreeMask的性能。传统的自监督学习方法，如SimCLR和MoCo-v2，相比于监督的ImageNet预训练表现更差。考虑密集对应关系的自监督学习方法，如EsViT和DenesCL，比不考虑密集对应关系的方法表现更好。DenseCL相比于监督和其他自监督方法表现最好。这与我们在第3.2节的假设一致，即DenseCL的目标与FreeMask的目标一致。我们在图4中提供了一些FreeMask的可视化结果。金字塔查询。我们在表7b中比较了FreeMask中使用的不同尺度的查询Q。较小的尺度对于大型对象更好，但对于中小型对象更差。较大的尺度则相反。使用尺度为[1.0, 0.5,0.25]的金字塔查询获得最佳结果。损失函数。在表7d中，我们将我们的弱监督设计与完全掩码监督进行了比较，即使用完整掩码计算的SOLO中使用的原始Dice损失。直接使用粗略掩码对实例分割器提供完全监督会导致不令人满意的结果。我们的弱监督损失大大优于原始的完整掩码损失。在表7e中，我们研究了方程（7）中的掩码损失项。当没有学习Lavgproj时，性能急剧下降，即仅使用来自max操作的投影损失和成对损失，如[11]中所示。当训练时间更长时，模型甚至只分割轮廓（图5）。我们的方法解决了这个问题。-12.30.20.707.92.53.318.32.83.727.72.93.5Lsem?APAP50AP7524.940.526.1✓25.641.626.7w/o ℒ��_��w/ ℒ��_��141830预训练 AR AR S AR M AR L0监督 7.8 0.1 11.3 16.4 SimCLR [ 16 ] 6.1 1.012.1 6.7 MoCo-v2 [ 70 ] 4.7 1.6 8.1 5.4DINO [ 71 ] 3.2 2.8 5.2 0.9 EsViT [ 72 ] 6.30.0 6.0 17.8 DenseCL [ 14 ] 11.5 0.1 6.039.50（a）不同的预训练方法与自由掩码。DenseCL效果最好。0尺度 AR AR S AR M AR L00.25 10.1 0.0 1.9 39.5 1.0 11.3 0.1 6.038.6 金字塔 11.5 0.1 6.0 39.50（b）自由掩码中的金字塔查询。金字塔查询相对于单尺度查询有所改进。0迭代次数 AP 50 AP 75 AP0（c）自训练迭代。‘-1’表示粗糙掩码。‘0’表示没有自训练。0掩码损失 AP 50 AP 75 AP0完全 6.2 1.6 2.4 弱 7.9 2.5 3.30（d）完全监督与弱监督。弱监督设计是有效的。0掩码损失 AP 50 AP 75 AP0组合 7.9 2.5 3.3 - w/o L avg proj 3.81.6 2.0 - w/o L max proj 7.1 1.6 2.6 -w/o L pairwise 6.1 0.9 2.10（e）掩码损失项。每个损失组件都对最终结果有贡献。0（f）语义嵌入。语义嵌入学习改善了微调结果。0表7. FreeSOLO消融实验。所有实验都使用ResNet-50骨干网络。我们报告了COCOval2017数据集上的类别不可知实例分割结果（a-e）和监督微调结果（f）。0图5. 使用和不使用L avgproj进行粗糙掩码学习的定性比较。没有使用L avgproj进行训练的模型在训练时间较长时倾向于只分割轮廓。0通过利用平均操作的投影，我们解决了这个问题，这不仅保留了形状，而且对异常像素不太敏感。自训练。我们的方法通过选择自监督实例分割器的高置信度预测，并再次用它们训练实例分割器来执行自训练。我们在表7c中比较了执行不同自训练迭代的结果。‘-1’表示初始粗糙掩码。零迭代表示从粗糙掩码中学习而没有自训练。我们表明，进行一次自训练已经带来了明显的改进，但是额外的迭代并没有提供额外的收益。语义嵌入。为了验证语义嵌入学习的有效性，在表7f中，我们比较了使用或不使用方程（8）中定义的语义嵌入损失进行训练的模型。这些模型使用10%的完全注释的COCO图像进行微调。结果表明，当使用注释进行实例分割的微调时，语义嵌入损失能够明显改善结果。5.讨论与结论在这项工作中，我们开发了一个简单而有效的自监督实例分割框架。0图6.FreeSOLO的失败案例。我们的方法可能无法定位被截断、拥挤或小的对象。0FreeSOLO。FreeSOLO使得学习分割对象时不需要任何注释，无论是像素级别的还是图像级别的标签。我们希望它的新颖设计元素能为未来的无监督视觉学习工作提供启示，例如无监督全景分割等。限制。由于没有类别标签，我们的自监督实例分割器无法预测检测到的对象的类别，但会生成类别不可知的对象掩码。我们的自监督模型与使用丰富注释训练的监督模型之间仍存在很大差距。我们的方法在某些场景下可能会失败（图6）。我们相信在我们的方法基础上还有很大的改进空间。更广泛的影响。这项工作表明，可以学习到一个不需要任何注释的类别不可知实例分割器。未来，自监督分割器有可能达到甚至超越使用手动注释训练的监督模型的水平，从而消除了为常见对象注释掩码或边界框的需求。我们期望所提出的技术能够在计算机视觉中大大减少一些实例级别识别任务的数据注释工作量。141840参考文献0[1] Yi Li, Haozhi Qi, Jifeng Dai, Xiangyang Ji, and Yichen Wei.全卷积实例感知语义分割。在IEEE Conf. Comput. Vis. PatternRecog.，2017年。1，20[2] Kaiming He, Georgia Gkioxari, Piotr Doll´ar, and Ross Gir-shick. Mask R-CNN。在Int. Conf. Comput.Vis.，2017年。1，2，6

下载后可阅读完整内容，剩余1页未读，立即下载