开放世界实例分割的通用分组网络方法

74 浏览量更新于2023-10-25 收藏 13.29MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

44220开放世界实例分割：利用从学习的成对亲和力中获得的伪地面真实0Weiyao Wang †, Matt Feiszli †, Heng Wang †, Jitendra Malik †§, Du Tran †0† Meta AI Research § UC Berkeley0{weiyaowang,mdf,hengwang,trandu}@fb.com, malik@berkeley.edu0图1. GGN与不同基线方法的比较。(a)来自ADE20K[61]的输入图像（上排）与叠加了地面真实对象掩码的图像（下排）。应用于同一图像的三种不同方法：(b)选择性搜索（SS）[51]，(c)MaskR-CNN[22]和(d)我们的通用分组网络（GGN）来预测前100个提议。上方图像提供了三种方法预测的所有前100个提议，其中红色和绿色框分别表示假阳性和真阳性提议。下方图像只提供真阳性提议。真阳性提议的数量或地面真实对象数用括号表示。在20个地面真实对象中，SS只能召回4个，Mask R-CNN检测到5个，而GGN检测到14个。SS是一种自底向上的非参数方法，因此没有对象性的概念。MaskR-CNN可以生成整个对象的提议；然而，它仍然无法检测到在训练过程中未见过的对象。我们的GGN可以预测整个对象的提议并推广到未见过的类别。0摘要0开放世界实例分割是将像素分组成对象实例而没有预先确定的分类法的任务。这是具有挑战性的，因为最先进的方法依赖于从大型标记数据集中获得的明确的类语义，并且在域外评估性能显著下降。在这里，我们提出了一种新颖的掩码提议方法，通用分组网络（GGNs），不需要语义监督来构建。我们的方法将像素亲和力的局部度量与实例级别的掩码监督相结合，产生了一个训练方案，旨在使模型尽可能通用。我们引入了一种预测成对亲和力（PA）的方法，它是一种学习的像素对之间的局部关系。PA非常适用于未见过的类别。从PA开始0我们构建了一组大规模的伪地面真实实例掩码；结合人工标注的实例掩码，我们训练了GGNs，并在包括COCO、LVIS、ADE20K和UVO在内的各种基准测试中显著优于最先进的开放世界实例分割方法。01. 引言0实例分割是将像素分组成对象实例的任务[22]。在封闭世界设置中，任务是从预定义的分类法中检测和分割对象。相反，开放世界设置要求对任意类别的对象进行分割。对于在封闭世界设置中训练的模型，这意味着不仅要分割“已见”类别（在训练时呈现的类别），还要分割44230在训练过程中未见过的类别（未在训练中见过）[27,54]通常存在较大的性能差距。当前领先的计算机视觉系统在识别和分割方面紧密耦合；这些系统无法分割出无法识别的对象（例如图1(c)）。将在80个COCO[33]类别上训练的MaskR-CNN[22]与一个包含20个类别的子集进行比较，当训练数据中没有这些类别的掩码时，训练分类法中60个类别的平均召回率（AR@100）从49.6%下降到19.9%。如果我们在更大的分类法上进行训练（例如，训练数据中包含1,000多个类别），则“未见”差距仍然很大（表5）。相比之下，人类可以轻松地将他们无法归类的对象分组和分割 -我们中很少有人能够识别6500种雀鸟物种，但我们可以轻松地从树枝上分割出一只栖息的鸟。或者使用另一个经常引用的例子：我们对于一种通用的四足动物体型的熟悉使我们能够分割出马、驴和斑马，甚至是第一次遇到的奥卡比。另一方面，在2000-2015年的计算机视觉中常见的模型（例如[1,4, 6, 18, 51,58]）在类别上并不敏感。它们在对其进行训练的类别上的表现可能不如MaskR-CNN好，但它们在各个类别上都能工作（例如图1(b)）。目标是提供一组适度大小的对象提议，其中包括真实的对象。重点是召回率；精确度是次要的。MCG[4]是一个说明性的例子。它从局部分组开始，产生一组具有一致颜色和纹理的基本区域，“超像素”。这些通常会将对象过分分割；例如，一个人可能会被分割成脸部、躯干、腿部、衣物部分、阴影等。然后，MCG通过考虑区域的各种分组将这些区域组装成对象，并根据一些“物体性”得分对它们进行排序。虽然边缘检测和物体性排名都涉及一些学习，但该方法主要使用手工制作的特征和少量参数，与深度学习的潮流截然不同。我们如何兼顾两者的优点？现代实例分割系统（例如MaskR-CNN）如果提供包含所有视觉类别大量示例的全面训练数据，将会表现出色。虽然我们有无限的原始自然图像供应，但获取掩码注释非常昂贵。已经出现了多种处理此数据问题的方法。自监督学习[10, 11, 20,42]是最为人所知的；自学习[46, 47, 59,62]是另一种方法，基于将高置信度的猜测标签添加到以前未标记的数据中的经典思想，然后将这些“伪地面真实”数据与真实地面真实数据相结合。我们利用了这第二种策略。我们的方法从学习的成对亲和力预测开始。0dictor（图2a），然后是提取和排名片段的模块（图2b，实质上是MCG[4]的一个非常简化版本）。我们可以在任何图像数据集上运行此模块，而无需使用注释；我们提取排名最高的片段作为“伪真实”候选对象。这是一个大型的、类别不可知的集合；我们将其添加到我们（更小的）经过策划的注释数据集中，以训练MaskR-CNN实例分割模块。理想情况下，该模型应该变得更加通用和类别不可知（图2c）。事实上，与相同骨干（MaskR-CNN）的封闭世界训练相比，这种简单的方法在VOC到非VOC跨类别评估上产生了令人印象深刻的增益（表5、表6、表7）：在VOC到非VOC跨类别评估上增加了11％，在COCO到LVIS跨类别评估上增加了3.9％，在COCO到ADE20K上增加了5.8％，在COCO到UVO上增加了5.2％。本文的贡献包括：•一种新颖的方法，通用分组网络（GGNs），用于开放世界实例分割；GGN利用从学习的像素级成对关联生成的额外伪真实监督。•全面的消融实验，提供有关GGNs和开放世界实例分割问题的见解。•GGNs在包括COCO、LVIS、ADE20K和UVO在内的各种基准测试中实现了最先进的开放世界实例分割性能。02. 相关工作0对象和实例分割。在深度学习取得成功之前，对象分割方法通常通过将局部区域分组成整个对象来工作。流行的方法包括基于图的方法[15,18]，归一化割[24]，图割[7]，多尺度组合分组[4]和选择性搜索[51]。自从深度学习以来，端到端的方法在语义分割[37, 39]、实例分割[22]和全景分割[29,52]等问题上证明了它们的成功。尽管共享分割的共同问题，但我们的方法在开放世界设置中是不同的：我们的工作不是假设一个封闭的分类法，而是旨在检测和分割已知和未知的对象。基于成对关联的方法。成对关联在大多数基于图的分割方法[7, 23,24]中被用作定义像素分割的关系图的重要术语。像素级成对关联可以是手工构建的[7, 23, 24]，也可以是学习的[16,17, 28, 34, 35, 40,50]。与成对关联类似，对象边界检测[41,57]是一个双重问题，但提供了较弱的监督（第5节），并且不能直接在非穷举注释上进行训练。与以前的方法不同，我们不是直接使用学习的成对关联进行分割，而是将其用作伪真实生成的中间表示，然后用于训练我们的44240非穷举分割掩膜0预测的成对关联输入图像0生成监督0PA预测0PA预测0a）学习类别不可知的成对关联0b）生成伪真实掩膜0PA对象提案0c）训练通用分组网络（GGNs）0分组0生成监督0图2. 我们方法的概述。（a）首先，训练成对关联预测器（PA Pred.）使用非穷举分割掩膜作为监督来预测成对关联。（b）训练完成后，使用 PA Pred. 预测图像的成对关联。然后，在预测的成对关联图上应用分组模块以生成伪真实掩膜。（c）使用组合了真实掩膜和生成的伪真实掩膜的类别不可知通用对象提案网络（例如，类别不可知的Mask R-CNN）进行端到端训练。0通用分组模型。我们的方法与以前学习的成对亲和力的方法之间的另一个区别来自于问题的开放世界设置。开放世界基准和方法。开放世界设置[5,43]最近已经被重新引入到计算机视觉的各种问题中，例如识别[30,38]，跟踪[36]，检测[25,27,53]和分割[54]。在这些问题中，我们的工作与UVO[54]和OLN [27]最相关。我们与UVO[54]共享开放世界实例分割的兴趣问题。然而，[54]为该问题提供了一个新的基准，而我们的工作提供了一种方法。与并发的OLN工作[27]相比，后者使用基于对象性的损失来实现对未见类别的泛化，我们的方法通过将像素级成对亲和力与局部分组相结合来解决泛化问题。我们的工作和OLN是正交且互补的；如后面所示，我们的方法单独与OLN相当，并在与OLN结合时产生4.5-5.7%的改进（见第5节的表6）。03. 学习像素成对亲和力0分组可以通过像素成对关系在局部上表示：两个相邻像素是否应该被分组在一起。给定一个3通道RGB输入图像I∈R3×H×W，我们考虑一个像素在3×3邻域中的成对关系。这给出了一个像素亲和力映射P∈{0,1}8×H×W，其中Pi,j∈{0,1}8编码了像素(i,j)与其在图像I中的8个相邻像素之间的局部像素级成对亲和力。图4(c)示例了图4(a)和(b)中用粉色和黄色方块标记的两个图像块中心的像素成对亲和力编码。我们使用像素级预测卷积神经网络来预测P（PAPred.，图2(a)），例如FCN [39]和UPerNet[56]。我们指出，这是一个二元对象边界检测的对偶问题（[41,57]），用于训练PAPred.的技术也可以用于二元对象边界检测器，作为我们框架的局部表示。0图3.仅在COCO的Person类上进行训练的预测像素成对亲和力和生成的伪掩模的可视化。尽管在训练过程中只看到Person的掩模，但PA预测器正确捕捉到其他类型对象的像素成对关系（顶行）。通过基于预测的PA对像素进行分组，我们可以生成其他类别的伪掩模（底行）。0从非穷尽分割掩模中进行训练。理想情况下，如果图像中的所有像素都用实例分割掩模进行穷尽注释，例如，所有对象边界都被标记，那么所有相邻像素对可以为学习成对亲和力提供良好的监督信号。然而，实例分割的穷尽注释昂贵且耗时，因此大多数数据集都带有非穷尽的分割掩模（例如COCO[33]）。特别是，无法从背景像素中区分出未在分类中注释的对象。为了解决这个问题，我们只使用具有对象-对象或对象-背景关系的相邻像素来训练成对亲和力；我们忽略不可靠的背景-背景对。此外，成对亲和力的训练是不平衡的：只有边界上的像素具有零值亲和力；所有其他像素与其邻居的亲和力都为1。我们通过计算训练数据子集上正亲和力和负亲和力之间的比率（例如，正亲和力为0.05）来加权正亲和力。0成对亲和力预测器学到了什么？直观上，理想的PA度量应该能够区分实例边界和实例内部：即两个相邻像素是否穿越对象边界。1111111110000111a)b)c)d)e)(1)44250图4.成对亲和力编码和预测。示例输入图像（a）及其相应的真值掩码注释（b）和两个成对亲和力编码向量（c），标有粉色和黄色方块的两个图像块的中心像素。粉色块的中心像素与其8个相邻像素属于同一实例，因此用全1的向量进行编码。黄色块的中心像素位于对象边界上，有4个相邻像素属于背景，因此用一个包含四个0和四个1的二进制向量进行编码。（d）使用现成的边缘检测器[49]对图像（a）进行边缘预测。（e）使用我们的成对亲和力预测器对图像（a）进行成对亲和力预测。我们的预测器仅使用COCO中的人类类别掩码进行训练。最佳观看效果为彩色。0最后，我们指出成对亲和力应该捕捉实例边界的语义；这与视觉边缘图完全不同，因为许多视觉边缘并不是实例边界。图4（d）展示了一个现成的边缘检测器[49]对边缘的预测。斑马背部的许多视觉边缘显然不是对象边界，但仍然被边缘检测器检测到。04. 使用伪GT进行增强0现有的最先进的检测器和实例分割模型，如MaskR-CNN，通常无法检测和分割在训练过程中未见过的新对象。这可能是由于难以将像素分组成未知实体所引起的0由于在训练过程中缺乏监督信号。此外，即使对新颖区域进行了分组和提议，也缺乏对象性的通用概念，并且抑制了这种超出分类法的提议。我们一举两得，通过使用从PA生成的伪GT掩码来训练这些检测器。伪掩码通过像素多样性提供了在训练过程中未见过的新颖片段，并因此增强了对新颖分组和更全面的对象性概念的监督信号。将像素分组成区域。基于预测的成对亲和力，我们利用无类别局部分组算法将像素分组成实例。可以使用连接组件（CC）算法进行分组。CC将所有亲和力独立地处理，使用硬截断阈值来决定像素连接，这可能是一个敏感的参数需要调整。或者可以使用基于图的分层分组（GBH）[15]，它是聚合聚类的一种变体。在分割文献[3,60]中，还使用了定向分水岭变换（OWT），通过归一化切割（gPb）[48]和超度轮廓图（UCM）[2]从图像的边缘图进行分组。根据[2,4]，我们首先将图像成对亲和力图聚合成语义边缘图，使用沿通道维度的池化，例如从8通道减少到1通道。将此语义边缘图传递给OWT生成初始片段，然后通过归一化切割将其边缘全球化。我们将语义边缘图及其全球化版本的平均值作为输入传递给UCM进行分组。我们承认在进一步研究中，这两者的不同线性组合可能效果更好。我们在第5节提供了CC、GBH和OWT+gPb+UCM的不同组件的消融比较。计算对象性。对象性[13]衡量分组质量；在我们的框架中，决定选择哪些伪GT掩码用于训练检测器至关重要。理想的对象性分数应该揭示过分分割和不足分割。在以前的文献中，对象性可以通过低级特征（如形状和轮廓，如MCG[4]）或直接从注释数据中学习（如分类（区域提议网络[45]）或回归（对象定位网络[27]））来建模。我们考虑了这两种类型的对象性。对于低级特征，我们使用预测的成对亲和力来定义每个区域R的对象性分数OPA(R)：0OPA（R）=Inner（R）0R inner - Outer（R）0R boundary0其中Inner（R）和Outer（R）分别是R内部和R边界的亲和力，由R内部或穿越边界的像素对亲和力之和定义。R inner和Rboundary分别表示R内部的像素数和R边界上的像素数。直观地说，我们希望对具有强内部成对亲和力和弱边界亲和力（即强切割）的区域进行高排名。对于学习的物体性，我们考虑来自OLN [27]的得分OOln（R）：44260边界的亲和力。对于学习的物体性，我们考虑来自OLN[27]的得分OOln（R）：0OOln（R）=�0centerness（R）* IoUness（R）（2）0其中centerness（R）和IoUness（R）分别是R的边界框的中心度和IoU预测。我们可以选择通过取平均值来组合OPA和OOLN。通用分组网络（GGNs）。我们从PA预测器和分组模块生成类别不可知的掩码，并使用物体性得分对分组方法提供的区域进行排名（图2b）。然后，我们从每个图像中选择排名靠前的区域作为训练我们的通用目标提议网络的伪GT掩码（图2c）。由于生成伪GT掩码的整个方法都是以类别不可知的分组方式设计的，我们期望伪GT掩码涵盖各种对象和部分，并且更重要的是其中大部分来自未见类别，如图3底部所示。由于我们的GGN在大量和多样的掩码上进行训练，因此预计它能够泛化到未见类别，从而为开放世界实例分割提供了一个很好的解决方案。GGN在像素和模型方面都是通用的：它可以在不同领域的图像上工作，无论是标记还是未标记的，并且可以在任何用于目标检测或分割的架构上工作，例如Faster R-CNN [45]，Mask R-CNN[22]，YOLO [44]或Swin Transformer[37]。采用的方法就是将多类别分类预测头转换为二进制的前景与背景分类头。05. 实验05.1. 实现细节0数据集。我们在COCO17 [33]，LVIS [19]，ADE20K[61]和UVO[54]上进行实验。COCO是一个标准的实例分割基准，包含164k张图像上标注的80个对象类别。LVIS是一个实例分割数据集，具有1203个类别，呈长尾分布。它被标记为一个联合数据集，并且不包含其类别的详尽标签。我们采用LVIS来研究在提供大规模分类法的情况下的跨类别泛化。ADE20k是一个通过对象实例或物品详尽注释的语义分割数据集。UVO是一个YouTube视频（Kinetics400[26]）的视频实例分割数据集，其中包含详尽标记的对象掩码。我们使用ADE20K的验证集（2000张图像）和UVO稀疏数据集（7356帧）来评估野外开放世界分割（第5.4节）。在所有设置中，我们仅使用掩码注释（不包括类别标签）进行开放世界的训练和评估，无类别限制。我们注意到PA预测器、基线方法（例如MaskR-CNN）和GGN都可以访问相同的标记掩码。0骨干架构和损失函数。我们采用UperNet[56]作为我们的PA预测器来学习成对的亲和力。对于训练，我们使用具有ResNet-50骨干的Mask R-CNN[22]作为默认设置的通用分组网络。除非另有说明，模型都是通过ImageNet[12]预训练进行初始化的。我们使用二元交叉熵损失来训练成对的亲和力。我们在第3节中忽略背景-背景亲和力。我们注意到，包括背景-背景亲和力在内的反向传播损失会导致非常差的跨类别泛化（例如，平均召回率下降15%）。排名和选择伪GT掩码。除非另有说明，我们使用OPA（公式1）来排名伪GT掩码。我们每个图像选择前k个伪GT掩码（k ∈[1,3]），其中k被选择为在最小程度上影响已见类别性能的同时提高未见类别性能。训练和评估。我们在MMDet[9]平台上构建模型训练和推理；所有训练都按照默认的1x计划进行。根据以前的目标提议文献[43,51]，我们使用多个IoU阈值（0.5:0.95）上的平均召回率（AR）来评估模型性能。跨类别评估。跨类别泛化是开放世界的一个主要挑战：我们如何检测和分割类别不在训练数据中的对象。我们通过将现有数据集按照它们的类别划分来构建控制环境进行消融实验（表1）。在每个设置中，我们使用相同的类别划分（对于PA没有额外的监督）来训练PA和基线方法。在COCO数据集上，我们遵循常见的做法[27,43]，将COCO划分为与Pascal VOC[14]重叠的20个类别进行训练（已见类别），并使用其余60个COCO独有的类别进行评估（未见类别）。我们进一步通过仅使用“人”类进行训练和其余79个类别进行评估来包括一个极端情况。在LVIS数据集上，一些类别高度重叠：例如，当人穿着衣服时，衣服（“夹克”，“湿式套装”）与“人”高度重叠。在无类别设置中，使用人掩码训练的检测器可以将衣服检测为人，反之亦然。其他高度重叠的类别对的例子包括“球”与“网球”，“酒精”与“啤酒瓶”，或“计算机显示器”与“电视机”。COCO和LVIS共享相同的图像集，但注释不同。LVIS涵盖了1203个类别，其中包括COCO的80个类别。COCO还详尽地注释了属于其80个类别的所有对象的掩码，而LVIS的注释则是为了在各个类别之间保持类似数量的掩码。这意味着一些对象实例，即使它们属于LVIS类别，也没有被注释。由于COCO掩码的注释更详尽，我们使用COCO掩码并使用LVIS掩码验证跨类别重叠。我们发现在COCO分类法之外有67k个LVIS掩码与COCO的IoU> 0.5。44270数据集训练验证图像掩码0COCO 人（1）非人 64k 161k0VOC（20）非VOC 95k 493k0LVIS0COCO（80）非COCO 100k 455k0非COCO（1122）COCO 85k 749k0+人（1123）非人 86k 775k0表1.跨类别泛化评估设置。我们将COCO和LVIS中的类别进行划分以进行评估。0分组 CC GBH WT+UCM +OWT +gPb0Recall@all 14.4 17.1 23.6 23.8 24.20表2.比较不同的分组方法。这些方法应用于相同的亲和力图，并且大致输出相似数量的建议。OWT+gPb+UCM提供了最佳的召回率。0聚合最小最大平均08通道 22.8/19.3 18.1/16.7 22.1/18.901通道 19.9/18.4 NA/NA 23.1/18.50表3.不同PA聚合的效果。通过在已见和未见类别（VOC/非VOC）上的AR@100进行评估，结果用/分隔。由于1通道预测不适用于最大池化，因为预测目标是全1（所有像素至少有一个相邻连接），所以8通道PA预测与最小池化相结合提供了最佳的AR。0掩码。为了确保已见和未见类别之间有明显的区别，我们在跨类别泛化评估的训练和验证中都删除了这些掩码。我们通过在COCO类别上进行训练并在LVIS非COCO类别上进行评估，以及反之亦然，来研究转移性能。05.2. 学习成对亲和力：消融研究0分组机制。我们重新审视不同的分组方法，以从成对的亲和力中构建段掩码：连通组件（CC），基于图的分层[18]（GBH）和基于超度量轮廓图[2]（UCM）的方法。在UCM中，我们消除了分水岭变换（OWT vs.WT）中的方向效应以及包含全局化边缘（gPb）的影响。为了评估，我们从每种方法生成掩码输出，并直接评估其AR。我们调整每种方法的参数，使其平均输出段的数量大致相同。由于CC只提供单个非重叠的输出，而不是像GBH或UCM那样提供分层结构，因此我们使用多个阈值，并使用每个阈值的所有段。我们发现基于UCM的方法明显优于其他两种方法（表2）：CC和GBH基于单个成对关系进行合并决策，而UCM使用两个段之间的所有关系，并且更加稳健。此外，添加方向和gPb进一步改善了分组结果。PA聚合。在UCM中，PA（8个邻居）需要聚合成一个值以供WT使用。聚合可以通过池化操作来实现，并且可以在PA预测之前或之后应用。具体来说，我们可以：（i）训练一个PA预测器来预测一个8通道的PA图，然后在PA预测器的预测输出上应用聚合；或者（ii）训练一个PA预测器来预测一个1通道的PA图，该图是基于真值的聚合版本。我们比较了不同的聚合成对亲和力值的方法（表4），发现最小聚合效果最好。或者，我们可以直接预测聚合的成对亲和力。我们发现，单通道的平均成对亲和力预测与8邻居预测相比效果相当（表4）。我们指出，“1通道，最小”等效于在我们的框架中采用二元边界检测器训练器（例如，HED [57]），其提供的监督信号较PA更弱。0可以通过池化操作来实现，并且可以在PA预测之前或之后应用。具体来说，我们可以：（i）训练一个PA预测器来预测一个8通道的PA图，然后在PA预测器的预测输出上应用聚合；或者（ii）训练一个PA预测器来预测一个1通道的PA图，该图是基于真值的聚合版本。我们比较了不同的聚合成对亲和力值的方法（表4），发现最小聚合效果最好。或者，我们可以直接预测聚合的成对亲和力。我们发现，单通道的平均成对亲和力预测与8邻居预测相比效果相当（表4）。我们指出，“1通道，最小”等效于在我们的框架中采用二元边界检测器训练器（例如，HED[57]），其提供的监督信号较PA更弱。05.3. GGN的跨类别评估0我们使用PA+分组的伪GT掩码来训练开放世界分割的检测器。在有额外真值掩码可用时，我们可以选择使用额外的真值掩码。由于PA在开放世界中具有良好的泛化能力，伪掩码为训练数据提供了更多的多样性，从而提高了下游检测器（GGNs）的泛化能力。我们首先比较了PA与其他候选表示在开放世界分割中的效果。成对亲和力是开放世界的强表示。除了成对亲和力之外，我们还考虑了几种其他类型的中级表示来编码分组并在开放世界中进行泛化：•边缘图是编码分组的强有力替代方法。我们采用了SOTA边缘检测器DexiNed [49]。•预训练的Mannequin网络[32]生成的深度图。•在ImageNet上自监督训练的语义特征上计算的特征亲和力（MoCoV2[11]）。除了边缘图之外，这里的大多数特征都不适合运行UCM来构建分组。因此，我们考虑用所提出的表示（例如深度图或PA）替换RGB输入，以了解该表示在跨类别评估中与RGB相比在开放世界中的泛化能力如何。令人惊讶的是，所有表示都对RGB具有正则化效果，以改善在仅在人物上进行训练时对未见类别的泛化能力（表4）。无论应用方法如何（替换输入或添加伪掩码），成对亲和力都优于所有其他类型的表示。特别是，使用UCM生成边缘的伪GT掩码并没有太多好处，因为在没有语义信息的情况下，边缘图可能会过度分割实体。GGN在跨类别泛化上明显优于基线。我们选择得分最高的伪GT掩码，并将其与真值掩码一起使用；我们删除与分类内GT掩码的IoU重叠大于0.5的伪GT掩码。44280方法替换RGB UCM掩码0RGB深度边缘MoCo PA边缘PA0非人 4.9 10.9 10.5 10.7 14.1 7.9 20.90非VOC 19.9 17.8 21.3 21.8 26.5 19.7 28.70表4.将成对亲和性与其他类型的中级表示进行比较。在某些情况下，所有中级表示都可以帮助泛化到未见类别，但程度不同。成对亲和性相对于边缘图的显著改进表明边界包含语义的重要性。方法通过AR@100进行评估。成对亲和性为开放世界分组提供了最强的泛化信号。0训练（＃类别）掩码PA+ GGN Upper0R-CNN Grouping Bound0COCO数据集0人（1） 4.9 14.6 20.9 49.20VOC（20） 19.9 22.0 28.7 49.60LVIS数据集0COCO（80） 16.5 17.1 20.4 36.10非COCO（1123） 21.7 16.2 23.6 35.10+人（1124） 27.3 18.4 29.1 44.20表5.GGN在超出分类法的类别上表现明显优于基线。GGN还优于通过成对亲和性生成的伪GT掩码（表示为PA+Grouping），证明了通过附加伪GT监督进行实例级训练的好处。上限表示通过在整个分类法（所有类别）上进行训练所达到的AR@100。0GGN在跨类别泛化方面明显优于基线MaskR-CNN（表5）。在COCO数据集上的低到中等规模分类法上，GGN分别在仅训练人类和训练20个VOC类别时，实现了+16%的AR@100增益和+8.8%的AR@100增益。在大规模分类法设置中，GGN在不同设置下的AR@100上实现了1.8%至3.9%的增益。在LVIS的非COCO类别上训练时，增益较小；我们认为这是由于LVIS的细粒度分类法：LVIS中的许多类别是对象的部分或其他类别的部分。在LVIS的非COCO类别上训练时，成对亲和性更接近边缘图。此外，我们评估了通过UCM生成的成对亲和性的伪GT掩码。这相当于我们的GGN，但不使用自顶向下的实例级训练（如图2b所示），表示为PA+Grouping。与MaskR-CNN基线相比，使用学习的成对亲和性进行局部分组在低到中等规模分类法中提供了更强的性能。最后，GGN明显优于PA+Grouping基线，这表明了在伪GT掩码上进行实例级端到端训练的好处。GGN与最先进的目标提议方法相当且互补。目标定位网络（OLN）[27]是一项同时处理开放世界目标提议的工作。OLN提出用分类器替换0骨干基础OLN GGN GGN+ GGN+0OOln OLN0Faster R-CNN 24.9 33.0 31.5 34.7 37.20Mask R-CNN 19.9 26.9 28.7 30.9 33.70表6.GGN与OLN竞争且互补。在VOC上训练并在非VOC上使用AR@100进行评估。采用OOln可以提高伪掩码的排名，从而改善GGN；采用OLN骨干进一步改善。0方法排名ADE20K UVO0AR AP AR AP0选择性搜索 3.8 - 4.7 -0Mask R-CNN 14.7 6.4 40.1 18.50GGN OPA 18.3 7.9 42.6 19.40OPA + OOLN 21.0 9.7 43.4 20.30GGN，伪GT预训练 21.5 9.3 45.3 21.00表7.在ADE20K和UVO上的野外分割结果。GGN在使用相同数量的训练数据和注释时，明显优于基线MaskR-CNN。此外，通过结合OPA和OOLN来增强目标性能，进一步改善了模型性能。最后，用ImageNet伪GT掩码预训练替代ImageNet标签预训练（第5.5节）可以提供额外的改进。0与定位质量预测相结合以避免过度拟合注释对象，这类似于我们通过不在未注释关系中反向传播损失来训练成对亲和力。与OLN不同，生成的伪掩码为训练数据带来了更多的多样性，因此有助于更好地泛化。我们在表6中将GGN与OLN进行比较，发现GGN在盒子AR@100上的性能与OLN相似（-1.5%），在掩码AR@100上提高了1.8%。当将OLN（公式2）用于排名和选择伪GT掩码时，GGN的性能提高了2.2%。当将OLN作为骨干网络时，GGN在将VOC泛化到COCO的跨类别泛化方面取得了新的最佳效果。05.4. 在野外评估开放世界分割05.3节中的消融实验侧重于在受控的开放世界版本中进行跨类别泛化。一个更实际的问题是：检测器在野外的数据集上能否很好地泛化？由于常见数据集（如COCO和LVIS）只有部分注释，这很难评估。在这样的数据集上评估开放世界分割可能无法捕捉到不同方法之间的性能差异，因为它惩罚精度而不奖励召回[8]。为了解决这个问题，我们采用ADE20K[61]和UVO[54]来评估野外开放世界中的通用提议。具体而言，我们将ADE20K或UVO中的每个分割掩码视为一个地面真实语义实体，并评估平均召回率（AR）和平均精度（AP）。这个设置同时评估了分类内和分类外的分割。虽然UVO只包含对象，ADE20K还包括物体掩码。我们强调这是真正的4445464748495051AR@100, COCO23456+1.6394041424344AR@100, UVO+1.91314.014.515.015.516.0AR@100, ADE20kSupervised pre-trained+1.5404244464850AR@100(a) GT (81)(b) Mask R-CNN (16)(c) GGN (30)44290scratch top1 top3 top10每个图像的掩码数量0监督预训练 -1.40scratch top1 top3 top10每个图像的掩码数量0AR@100,LVIS中的非COCO0监督预训练0scratch top1 top3 top10每个图像的掩码数量0监督预训练0scratch top1 top3 top10每个图像的掩码数量0scratch 10% 30% 100%使用的图像百分比0评估COCO评估UVO0(e) Scaling pixels 图 5. GGN 在开放世界实例分割中优于 ImageNet 监督预训练，并展现出有希望的扩展行为。我们将 GGN通过伪GT掩码预训练与 ImageNet 标注预训练在封闭世界（COCO, a）、跨类别（LVIS中的非COCO, b）和开放世界（UVO, ADE20K, c,d）上进行比较。除了封闭世界设置外，伪GT掩码提供的预训练信号比ImageNet标注标签更强（b-d）。此外，当每个图像选择更多的伪GT掩码（a-d）或使用更多像素（未标注图像）（e）时，性能会有所提升。0(f) GGN (9) 图 6. GGN 和 Mask R-CNN 在 ADE20K 和 UVO上的预测可视化。GGN能够更准确地检测到更多实例（用括号表示的数字），并覆盖更多种类的物体。0野外测试，没有在ADE20K或UVO上进行微调。我们将GGN与Selective Search[51]和使用COCO数据集的所有80个COCO类别的GT掩码进行训练的MaskR-CNN基线进行比较（表7）。GGN（通过伪掩码增强）在ADE20K和UVO数据集上的性能（AR和AP）显著优于基线。此外，通过结合OPA和OOLN进行更好的排名进一步提高了模型性能。在UVO和ADE20K上，MaskR-CNN和GGN的定性结果如图6所示（更多详细信息请参见补充材料）。05.5. 使用GGN在未标记的图像上进行预训练0由于基于PA的自下而上分组可以为任何未标记的图像生成掩码，我们假设使用来自额外像素的伪基准掩码对开放世界分割有所帮助。PA生成的掩码在新像素上对新类别具有很好的泛化能力，因此受益于像素的多样性。我们研究了使用ImageNet[12]上未标记图像的伪基准掩码对GGN进行训练的效果。具体而言，我们使用在COCO上使用随机初始化训练的80个COCO类别的PA。我们在ImageNet图像上生成伪基准掩码，并对其进行预训练。0在伪基准掩码上随机初始化的MaskR-CNN上进行训练（18个时期）。然后，我们在COCO注释掩码（80个类别）上对模型进行微调，以进行标准的1x计划。与以前的随机初始化训练设置[21]类似，我们使用GroupNorm[55]进行长时间训练，批量大小较小。结果总结如图5所示。在评估COCO类别（与训练相同，封闭世界）时，使用伪基准掩码进行预训练的性能略低于监督标签预训练（-1.4％）。然而，在开放世界设置中，伪基准预训练始终优于监督训练。我们注意到，与封闭世界[21]不同，ImageNet监督预训练是开放世界的强初始化（见补充材料）。此外，我们观察到伪基准预训练的两种有希望的扩展行为：a.每个图像使用更多的掩码，尽管有些嘈杂，但可以提高性能；使用更多的图像/像素可以提高封闭世界和开放世界实例分割的性能。我们在补充材料中展示了在OpenImages[31]上的图像预训练类似的结果。在COCO注释掩码和PA生成的COCO图像的伪掩码上进行微调可以提供额外的增益（表7中的最后一行）。06. 结论0我们提出了GGN，一种新颖的开放世界实例分割方法，它将学习到的语义边界与分组相结合，为实例级训练生成额外的伪基准。GGN在各种基准测试中明显优于基线方法。GGN与最先进的方法（如OLN[27]）相当，并且与OLN结合使用时，GGN获得额外的6.8％，为开放世界实例分割建立了新的最先进结果。最后，我们展示了GGN在“野外”评估中的稳健性，并且从额外的无标签数据训练中受益。致谢。我们感谢RossGirshick对基线和分组方法的讨论，以及AbhijitOgale对开放世界设置的讨论。[26] Will Kay, Joao Carreira, Karen Simonyan, Brian Zhang,Chloe Hillier, Sudheendra Vijayanarasimhan, Fabio Viola,Tim Green, Trevor Back, Paul Natsev, Mustafa Suleyman,and Andrew Zisserman. The kinetics human action videodataset. CoRR, abs/1705.06950, 2017. 544300参考文献0[1] Radhakrishna Achanta, Appu Shaji, Kevin Smith, AurelienLucchi, Pascal Fua, 和 Sabine S¨usstrunk. Slic超像素, 2010. 20[2] Pablo Arbelaez. 使用超度量轮廓图在自然图像中提取边界.在CVPR Workshops中, 2006. 4 , 60[3] Pablo Arbelaez, Michael Maire, Charless C. Fowlkes, 和Jitendra Malik. 轮廓检测和分层图像分割. IEEE Trans. PatternAnal. Mach. Intell. , 33(5):898–916, 2011. 40[4] Pablo Andr´es Arbel´aez, Jordi Pont-Tuset, Jonathan T.Bar- ron, Ferran Marqu´es, 和 Jit

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

开放世界实例分割的通用分组网络方法

ffn:洪水填充网络，用于在3D卷中进行实例分割

基于深度学习的图像实例分割方法

yolov7 实例分割

实例分割和语义分割有什么区别

yolov8实例分割

一阶段实例分割网络的原理是什么

yolo v7 实例分割

yolov8 实例分割

yolo 实例分割 训练

特征金字塔网络在实例分割中的作用

YOLOv7+实例分割

介绍一下深度学习实例分割模型

yolov5s-seg模型实例分割网络结构

实例分割和语义分割的区别

实例分割中掩码分支与PointRend的区别

基于yolov7的实例分割

图像实例分割和图像语义分割有什么区别

语义分割和实例分割_【图像分割模型】实例分割模型—DeepMask

yolov7实例分割如何改进

mmdetection swin 实例分割

最新资源

yolo 实例分割训练