深度学习模型中的掩模头结构对部分监督实例分割具有强大的泛化能力

40 浏览量更新于2023-10-15 收藏 776KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7015掩模头结构对新颖类分割Vighnesh Birodkar，Zhichao Lu，Siyang Li，Vivek Rathod，JonathanHuang Google{vighneshb，lzc，siyang，rathodv，jonathanhuang}@ google.com摘要当在大型注释数据集上训练时，今天的实例分割模型非常准确，但是大规模收集掩码注释是非常昂贵的。我们解决的部分监督实例分割问题，其中一个可以训练（显着更便宜）的边界框的所有类别，但只使用口罩的类别的子集。在这项工作中，我们专注于一个流行的家庭模型，适用于可区分的裁剪的特征图和预测的基础上产生的裁剪掩模。在这个家族中，我们研究了Mask R-CNN，发现它不是使用建议和地面实况框的组合来训练mask-head的默认策略，而是仅使用地面实况框来训练mask-head，这极大地提高了它在新类上的性能这种训练策略还允许我们利用替代的掩模头架构，我们通过用明显更深的现成架构（例如，1000μ m）替换2-4层的典型掩模头来利用该替代掩模ResNet、沙漏模型）。虽然这些架构中的许多在完全监督模式下训练时表现相似，但我们的主要发现是它们可以以截然不同的方式推广到新的类。我们称之为面具头的能力一般-(a) ResNet-4(b) ResNet-12(c) ResNet-20(d) 沙漏-20对看不见的类进行强掩模泛化效果，并表明在没有任何专业模块或损失的情况下，我们可以在部分监督的COCO实例分割基准中实现最先进的结果。最后，我们证明了我们的效果是一般的，保持在underlying检测方法（包括基于锚，锚免费或没有检测器），并在不同的骨干网络。代码和预训练模型可在https://git.io/deepmac上获得。1. 介绍像COCO [32]这样的大型标记数据集对于基于深度神经网络的实例分割方法至关重要[16，3，38]。然而，收集地面实况掩码可以比边界框注释多花费>10倍的时间。在COCO [32]中，遮罩注释平均需要约80秒，而极端点击[37]在7秒内生成边界框。图1：掩模头架构对用于掩模的掩模预测的影响。看不见的班级尽管从未见过“停车计时器”、“披萨”或“手机”类的掩码从左到右，我们示出了预测更好的掩模的更好的掩模头架构。此外，这种差异仅在评估看不见的类时才明显-如果我们评估看不见的类，则所有四种架构都表现出类似的性能。考虑到框的注释比掩码便宜得多，我们解决了我们将带掩码注释的类称为做好这项任务需要模型在很强的意义上进行泛化，在看不见的类上生成正确的掩码。我们考虑一个通用的裁剪-然后-分割实例分割模型族，其中在图像上提取特征图，然后给定实例周围的紧密边界框，执行可区分的裁剪（例如：7016ROIAlign [16]）。然后将裁剪的特征图馈送到掩模头子网络以产生最终掩模预测。该掩码预测以类不可知的方式执行，使得从类的子集训练的模型可以不改变地应用于新类。这个家族中的一个但是这种方法在看不见的类（例如，在标准的部分监督COCO基准上，它<在看不见的类上实现了 20% 的掩码 mAPvs>40% on seen ，[20]）。因此，先前的方法已经使用，例如，离线训练的形状先验[27]或专业损失[10]产生显著改善的结果。作为一个起点，我们重新审视“天真”的Mask R-CNN，以更好地理解其性能不佳的原因。我们的第一个发现是，用地面实况和建议（通常是嘈杂的）框的组合训练Mask R-CNN mask-head的典型策略是抑制其在新类上的性能虽然在完全监督时，使用噪声建议进行训练会产生稍好的结果，但我们表明，仅使用地面实况框简单地训练面具头对其在看不见的类上的性能产生了令人惊讶的影响（+9 mAP）（请注意，我们遵循在测试时使用预测框的常规程序）。接下来，我们将Mask R-CNN缩小到更通用的crop-then-segment模型家族。我们的第二个主要发现是，在使用上述稍微修改的训练方案的背景下，面罩头部的架构在对看不见的类的概括中发挥了不成比例的影响作用。更具体地说，我们发现，在完全监督下可能表现相似的面具头在部分监督下可能表现不同，以惊人的不同方式推广到看不见的类。虽然用不同的掩模头架构进行实验是自然的，但我们注意到，它们在泛化中的作用在现有文献中尚未被广泛研究，可能是由于以下原因：（1）面罩-头部结构的选择在完全监督的环境中具有有限的影响，(2) 较重的掩模头不利地影响运行时间。和(3) 如上所述，在像MaskR-CNN的体系结构中，使用更好的掩码头的好处在默认训练方案中不一定因此，实例分割中的大多数现有工作已经解决了使用浅（2-4层）完全连接或基于卷积的掩模头。在我们的COCO实验中，我们发现最差和最好的架构之间的差异在可见类上只有1%（绝对mAP），但在不可见类上可能是7%（图1中的示例）。这种差异在视觉上是明显的，并且随后改变了用于决定是否值得使用更重的面罩头的演算我们将某些掩码-头部架构对看不见的类的这种影响称为“强掩码泛化效应”，并用3个代表性模型类来无锚和基于锚的模型，以及完全放弃检测的模型。我们表明，我们的效果是一般的，持有跨底层检测方法（或根本没有检测器），并在不同的骨干网络。我们还确定了建筑特征（如深度和编码器-解码器的安排），经验产生强大的掩模泛化性能。一个主要的发现是，更深的面具头部更好地泛化，尽管与更浅的面具头部相比，更反直觉地过度参数化。我们基于Mask R-CNN [16]的基于锚点的模型采用了20+层深的掩码头，因此我们参考了该模型作为Deep-MARC（用于R-CNN上方的Deep Mask-head）。同样，我们用于大多数消融的无锚模型基于CenterNet[55] ，称为 Deep-MAC （用于 CenterNet 上方的 DeepMask-head）。使用开箱即用的掩码头架构，我们表明Deep-MAC和Deep-MARC都超越了最先进[10] 在COCO部分监督的实例分割设置中，分别具有35.5%和38.7%mAP。由于篇幅所限，我们将一些辅助发现归入附录。其中，我们表明：（1）两阶段训练（即自蒸馏）有帮助，使我们能够在看不见的类别上实现40.4%的掩模mAP（第B.2节）;（2）我们的模型在COCO上的掩模质量方面已经达到了可能的饱和点（第B.1节）-这意味着在这个特定基准上的未来改进更有可能来自检测;和（3）我们证明，我们可以实现令人惊讶的强大的掩模泛化结果，只有1个可见的类（取决于类，C节）。我们将主要贡献总结如下：• 我们确定了部分监督实例分割中的强掩模泛化效应，并表明它是通用的，在底层检测器上保持不变如Mask R-CNN [16]和CenterNet [55]或没有检测器，并且跨越不同的主干（第6节）。• 为了解锁强掩模一般化，我们表明，有必要使用紧密的地面实况框进行训练，而不是组合事实和嘈杂的建议。我们带着这种洞察力重新审视了vanilla Mask R-CNN，并表明仅这种变化就大大提高了看不见的类的性能（第5节）。• 我们确定的特点，导致强大的掩模泛化（第7节）的掩模头架构。在其他方面，我们发现沙漏[36]架构提供了出色的性能。我们使用这些发现来实现COCO部分监督实例分割任务（第8节）的最新结果，其中包括基于CenterNet和Mask R-CNN的模型Deep-MAC和Deep-MARC。70172. 相关工作对象检测和实例分割。在过去的十年中，成功的卷积模型如 Over-Feat [44] ， YOLO [39 ， 40 ， 41 ， 2] ，Multibox [45，8]，SSD [35]，RetinaNet [31]，R-CNN和Fast/Faster version[12，11，43，17]，EfficientDet [46]等。虽然这些作品中的许多作品最初专注于框检测，但最近，许多基准测试都专注于实例分割的更详细问题（COCO [32]，OID v5 [28，1]，LVIS [14]）和全景分割（COCO-Panoptic，[25]），它们在某些应用中可以说是更有用的任务。这篇文献中的一个重要里程碑是Mask R-CNN[16]，它影响了今天的许多SOTA方法（例如，[38，34]），并本身继续作为一个强大的基线。无锚定方法。 State-of-the-art方法目前主要建立在基于锚的方法上，该方法预测相对于以滑动窗口方式布置的固定框的集合的分类/框偏移（称为虽然有效，但基于锚点的方法的性能通常取决于手动指定的设计决策，例如：锚点布局和目标分配启发式，这是从业者要导航的复杂空间。然而，近年来，随着竞争性“无锚”方法的引入，这种垄断已被打破这些较新的无锚方法更简单，更易于扩展，提供有竞争力的性能，因此开始流行。我们的无锚模型（第3节，Deep-MAC）特别是建立在“CenterNet”架构上由于最近的竞争性锚无冰毒-ods存在较少的无锚实例分段ap。在文学上的探索[30，51，52，10]都在（无锚）FCOS[47]框架的顶部添加了掩模预测功能。虽然我们工作的主要重点是部分监督，但我们模型的完全监督版本增加了这一不断增长的工作，在无锚实例分割方法中提供了强大的性能。实例分段的仅框监督。上述方法依赖于对大量标记数据集的访问，其开发成本高，尤其是与框注释相比，具有掩模注释。因此，研究人员已经开始开发不太依赖于掩模注释的方法在这个问题的一个公式中（我们可以称之为严格的框监督），我们要求学习仅给定框注释而没有掩码的实例分割模型[24，42，19，23，48]。然而，这直观上是一种困难的方法，并且所有这些方法的性能仍然与强基线的完全监督性能相差甚远，特别是在mAP的高IOU阈值实例分段的部分监督相反放弃所有掩码注释的极端，Hu等人。[20]引入了部分监督公式，允许将来自一小部分类的掩码注释与所有框注释一起使用。 [20]观察到使用Mask R-CNN的类不可知版本的然而，后来的论文[27，10]重新审视了在检测器顶部附加类不可知掩码头的方法，在这两种情况下，引入了新的架构和额外的损失，以显着提高对新类的泛化ShapeMask [27]建立在RetinaNet上，从观察到的掩模中学习低维形状空间，并使用该空间的投影来指导掩模估计;他们还引入了一种简单的方法来CP-Net [10]是该问题的现有技术，它建立在FCOS [47]的基础上，在掩码分支中添加了边界预测和基于注意力的聚合。我们采取了类似的方法，使用类不可知的面具头，但在这些以前的作品中探索的想法显然是有益的，我们的目标是证明，面具头架构本身发挥了低估，但重要的作用，泛化。值得注意的是，通过利用具有强掩码泛化特性的开箱即用架构，我们表明，仅对训练过程进行微小调整（第5、6节），我们的两个模型Deep-MAC和Deep-MARC在部分监督任务中具有最先进的性能3. 先裁剪后分割实例分割在本文中，我们考虑了一个一般的“裁剪然后分割”模型家族例如，在我们的实验中，我们使用了Mask R-CNN（基于锚点）和Centernet（无锚点）上构建的两个基于检测的实例，以及一个不执行检测的模型（在测试时仅提供边界框作为输入）。该模型系列的示意图如图2所示。我们特别关注在crop-then-segment系列中可以为模型做出的两个选择：（1）当训练（基于检测器的模型的）掩模头时，是裁剪到地面实况框还是裁剪到地面实况框和建议两者，以及（2）使用哪个掩模头架构。正如我们所展示的，为了实现强大的掩码泛化，关键在于（1）仅使用地面真值进行训练，以及（2）使用明显更深的掩码头部架构7018由于输出特征图通常小于图像（步幅 4 或 8 ），CenterNet还预测x和y方向偏移，以恢复每个中心像素处的离散化误差。图2：crop-then-segment实例分割模型家族的示意图。我们确定了导致强掩模生成的两个关键特征：使用一个更深层次的类不可知的面具头，只用地面实况框训练它。在测试时，我们使用预测框。检测分支被标记为可选的，因为我们在第6节中表明，它比通常使用的。为了强调这些方面，我们将我们修改的基于检测的模型称为Deep-MARC（Deep Mask-headsAbove R-CNN）和Deep-MAC（Deep Mask-heads AboveCenterNet）。在这两种情况下，我们保持我们的模型的检测部分与标准实现不变，并且在需要与我们的面罩头架构兼容的情况下仅进行最小的改变下面我们将更详细地讨论我们对Mask R-CNN和CenterNet的修改。Deep-MARC：基于Mask R-CNN的模型。 Deep-MARC基于Mask R-CNN [16]的类不可知版本，其中我们在训练时仅裁剪地面实况框（如上所述），并对Mask R-CNN的掩码预测分支进行微小更改，使检测分支保持不变。默认情况下， Mask R-CNN 将其特征图（使用RoIAlign）裁剪为14×14分辨率，并在预测每个实例的掩码之前上采样到28×28在测试时，这些相对于原始框重新对齐，并将大小调整为原始图像的分辨率。当评估掩模R时-CNN用它默认的面具头，我们保持这条通路不被触及。然而，我们的沙漏（HG）网络的实现需要其输入大小的形式2n，由于其连续的下采样和上采样层。对于我们的HG-20面罩头，我们将特征图裁剪为16×16及以上-在预测类别不可知掩码之前，将样本采样到32×32HG-52型罩式机头的出料和出料尺寸分别为32×32和64×64对于Deep-MARC，我们不使用任何额外的输入到掩码头。Deep-MAC ：无锚模型。我们的 Deep-MAC 架构在CenterNet [55]之上构建实例分割功能，1这是一种流行的无锚检测方法，它相对于其中心对对象进行建模。为了预测边界框，CenterNet输出3个张量：（1）类特定热图，其指示边界框的中心存在于每个位置的概率，(2)指示每个中心像素处的边界框的高度和宽度的类别不可知的2通道张量，以及（3）1不要与Duan等人的CenterNet混淆。[7]的文件。使用CenterNet（Deep-MAC）预测实例掩码。与框相关预测头并行，我们添加第四像素嵌入分支P。对于每个边界框b，我们通过以下方式从对应于b的P裁剪区域Pb：ROIAlign [16]，其产生32×32张量。然后，我们将每个Pb馈送到讨论其架构的掩模头在第6节。我们最后的预测是一个类无关的32×32张量，我们通过一个sigmoid来获得每个像素的概率。我们通过在所有像素上平均的每像素交叉熵损失来训练这个掩模头，并且实例.在后处理期间，根据预测框重新对准预测掩模并将其调整大小为图像的分辨率除了这个32×32裁剪的特征图之外，我们还添加了两个输入，以提高某些面罩头的稳定性（但请注意，我们的主要发现并不依赖于这些额外的投入;见附录A.2.1）：（1）实例嵌入：我们在主干上添加一个额外的头，它预测每像素的嵌入。对于每个边界框b，我们从中心像素提取其嵌入。此嵌入平铺为32×32的大小，并连接到像素嵌入裁剪。这有助于调节面罩头在一个特定的实例上，并从其他实例中消除它的（2）坐标嵌入：受CoordConv [33]的启发，我们添加了一个32×32×2张量，它相对于边界框b保持归一化的（x，y）坐标。4. 实验装置对于本文中的所有实验，我们遵循COCO数据集的典型部分监督实验设置，其中20个Pascal VOC [9]类别在训练时具有实例掩码（作为可见类别），其余60个非VOC类别在训练时不具有实例掩码（作为不可见类别）。在这种情况下，我们主要关心60个看不见的（非VOC）类别的性能，因为它比相反的变体更具挑战性我们将该训练设置表示为仅VOC掩码。唯一的例外是表8，其中我们评估了两种变体以与其他方法进行比较。所有评价均在coco-val 2017集上进行。我们用sigmoid交叉熵训练所有掩码头，并且为了处理部分注释的训练数据，只有在地面真实掩码可用时才考虑每个实例的掩码丢失。下面，我们讨论特定于Deep-MARC和Deep-MAC的实验细节。作为参考，在COCO 上， Deep-MAC 的全监督性能为 39.4 mAP ，Deep-MARC的全监督性能为42.8 mAP。7019M.H. 训练Resnet掩码mAP整体VOC非VOC比例+ GT5023.539.518.2仅GT5029.439.725.9比例+ GT10124.940.919.6仅GT10132.241.129.3表1：掩码R-CNN掩码头部训练的影响（M.H.训练）策略，用于使用Resnet-50-FPN和Resnet-101-FPN主干泛化到看不见的类。所有结果均使用仅VOC掩蔽设置报告。当我们仅用地面实况框训练mask-head时，在看不见的类（非VOC）上的性能有显著的改善在评估时，我们使用预测框。coco-testdev2017 （详见附录，表 9 ），与ShapeMask [27]和CP-Mask [10]竞争。Deep-MARC 我们使用ResNet [18]主干以1024×1024分辨率训练 Deep-MARC ，使用 Detectron 2 [50] 的3×sched- ule 。当使用 SpineNet [6] 主干时，我们以1280×1280分辨率进行训练，并使用ResNet主干初始化为ImageNet检查点，而SpineNet 模型是从头开始训练的。我们所有的模型都使用同步批量归一化[22，15]。Deep-MARC在TF Vision API中实现[5]。我们只改变Mask R-CNN的实现，以支持使用地面实况框的训练。所有其他检测和优化hyperparame- ters保持其默认值不变。Deep-MAC 我们使用具有16个通道的像素嵌入层和具有32个通道的实例嵌入层对于我们所有的模型，我们使用的面具减肥5. 0，并使用同步批处理归一化进行训练。我们使用沙漏-104 [36]骨架进行实验，除非另有说明。我们最好的模型击败了最先进的模型（第8节），以1024×1024的分辨率进行训练，权重从COCO检测检查点初始化。所有其他模型都以512×512进行训练，并从ExtremeNet [56]检查点与CenterNet [55]的原始实现内联初始化。为了获得最佳效果，我们使用CenterNet和Hourglass [36]主干。Deep-MAC构建在开源CenterNet实现之上在TF对象检测API [21]中。所有其他检测和优化超参数都保持其默认值不变5. 仅裁剪到地面实况框Mask R-CNN通常通过在地面实况框和提议的组合上执行ROIAlign来训练-这是一种自然的方法，因为它允许训练分布在统计上更类似于测试时间分布，甚至可以被认为是一种形式。数据扩充对于完整的监督设置，确实，使用地面实况框和建议（例如，表12，附录）。我们的第一个令人惊讶的发现是，这种情况在部分监督设置中的未看到的类上发生了戏剧性的逆转，我们发现只使用groundtruth框进行训练要好得多这种效果在表1中示出，其中我们看到另一方面，仅使用地面实况（仅GT行）进行训练，极大地提高了非VOC（不可见）类的性能，对于这些类，我们在训练时不提供掩码（+7.7mAP和+9.7mAP）。请注意，即使使用仅GT训练，评估也总是使用建议的框进行，就像我们比较的所有其他方法一样。因此，在本文的其余部分，除非另有说明，否则我们只使用groundtruth框进行训练。为什么只使用地面实况盒子训练会有这么大的帮助？我们的假设（在第7节中）取决于下一节的发现，在下一节中，我们看到，当只使用地面实况框进行训练时，面具头架构在泛化中扮演了一个新的6. 用面具头深入在本节中，我们通过改变面罩头结构来拉动第二个杠杆我们的主要发现是，面具头影响泛化看不见的类到一个令人惊讶的程度。在我们的实验中，我们将我们的面罩头部设置为具有不同深度的沙漏[36]（HG）和Resnets [18]（基本和瓶颈我们还使用ResNet瓶颈[1/4]，这是ResNet（瓶颈）掩码头的变体，具有4×更少的通道。我们将所有掩模头的第一层中的通道数量设置为64，增加该梯度。在更深的层中（参见附录，第F节）。我们还将每个维度的卷积的数量设置为在相似深度的掩模头之间大致相似。Deep-MARC 首先，让我们继续我们的基于Mask R-CNN的模型（以下简称Deep-MARC）。在表2中，我们训练基于ResNet-101-FPN的Deep-MARC模型，将默认掩码头（包括4个卷积层）与上述开箱即用的架构（ResNet-4、HG-20、HG-52）进行比较，并报告关于可见和不可见类的掩码mAP。我们首先观察到，当使用groundtruth框进行训练时，所见类的mAP有点依赖于特定的mask-head架构，但最坏和最好情况之间的差异相对较小。小（40. 3→41。第9段）。然而，对于相同的设置，看不见的类上的mAP变化更显著（27. 4→34。4）.这表明掩码头架构在泛化到看不见的类方面起着关键作用，并且而不仅仅是为了更好地适应培训课程事实上7020COCO面膜mAP面罩-头VOC mAP非VOC mAP40号提案+ GT。GT号提案+ GT。GT默认值40.9 41.1 19.6 29.336ResNet-4 39.2 40.3 21.0 27.4型号：HG-20 41.6 41.4 20.6 33.8HG-52 42.0 41.9 20.634.432表2：在具有ResNet-101-FPN主干的仅VOC掩码设置下具有不同掩码头的Deep-MARC的性能，比较了在训练所提出的框和地面实况框时的性能（Prop.+ GT ）和仅地面实况框（GT. ）.我们看到，在看不见的类上的表现显著取决于mask-head，但是更好的mask-head的好处只有在使用groundtruth框进行训练时才是明显的。凭借Hourglass（HG-52）面罩头，没有其他铃铛或哨子，Deep-MARC超越了以前的最先进水平[10]。使用HG-52掩模头而无需建议，足以让Deep-MARC超越之前的SOTA [10]。回到上一节，我们还看到，这种效果与我们选择仅使用地面实况框进行训练有关-如果我们在训练时包括建议，我们的模型在看不见的类上表现得更差，并且没有明确的信号表明什么面具头架构是最好的。Deep-MAC 在图3中，我们绘制了针对我们的无锚Deep-MAC模型的类似研究的结果，这次仅对地面实况进行裁剪，但评估了更多的掩码头变体。并且我们再次看到类似的趋势-虽然所看到的类上的mAP有点依赖于特定的掩模头架构，但影响很小（38. 8→40。0）。然而，对于相同的设置，看不见的类上的mAP显著变化（25. 0→32。（五）。我们还看到深度也起了作用：根据经验，重要的是显著地超过4层以获得最佳性能。从经典的角度来看，这是违反直觉的非常深的掩模头部的过度参数化，但鉴于最近重新思考深度学习的泛化方法[54，53]，这并不令人惊讶然而，深度并不是驱动性别化的唯一因素;在替代方案中，沙漏掩码头为Deep-MAC和Deep-MARC两者的不可见类提供最佳泛化性能。这是幸运的，因为由于连续的下采样层，它也是最有效的存储器掩模头。最后，在表3中，我们表明我们的发现与我们对沙漏主链的选择在使用ResNet-FPN和Hourglass主干时比较掩码头时，我们观察到ResNet主干在看不见的类上的性能较低，但是掩码头架构仍然强烈影响对看不见的类的泛化。强掩模泛化，无需检测器。为了毛皮-为了说明检测体系结构在我们的故事中并不起关键作用，我们考虑我们的模型家族的一个28244 12 20 28 36 44 52掩模头深度图3：掩码头架构和深度对可见（VOC）和不可见（非VOC）类的实例分段性能的影响。尽管在不同的体系结构中，可见类的性能变化不大，但在不可见类的性能上存在显著变化。我们报告仅使用VOC掩蔽设置的结果。面罩头ResNet-101-FPN沙漏-104方块遮罩方块遮罩ResNet-4 32.6 22.6 39.7 26.6沙漏-10 32.2 24.8 39.9 29.4沙漏-20 32.5 26.7 39.7 32.5表3：Deep-MAC主干对各种掩模头的性能的影响。请注意，当我们使用所有盒子进行训练时，盒子mAP相对不变。我们使用仅VOC-Masks设置进行训练，并报告mask mAP。面罩-头部mIOU总体VOC非VOCResNet-4 67.0 78.6 62.1沙漏-20 78.6 81.0 77.8沙漏-52 78.9 81.1 79.2表4：在仅V0 C-Masks设置下，在没有任何检测损失的情况下训练的深度MAC的mIOU。因为我们不能在没有检测器的情况下计算掩模mAP，所以我们报告在完整验证数据集和VOC/非VOC类分割上计算的mIOU。沙漏面具头继续显示强大的非VOC类的面具泛化，即使当他们不与检测器耦合。甚至需要模型来产生检测。在这个最基本的设置中，我们假设每个实例的地面实况框被提供作为输入，并且任务是简单地产生正确的分割掩码。对于此设置，我们使用具有沙漏主干的Deep-MAC架构，裁剪到每个地面实况框并将结果传递到mask-head。由于检测不再是一项感兴趣的任务，因此我们放弃了所有与检测相关的损失，并且仅使用掩码的S形交叉熵损失进行训练。我们还使用平均IOU度量而不是掩码mAP进行评估。表4示出了使用3种不同的掩模-头架构的该实验的结果。我们观察到所有的archi-沙漏ResNet瓶颈[1/4th]ResNet瓶颈ResNet basic沙漏ResNet basicResNet瓶颈ResNet瓶颈[1/4th]非VOC mAPVOC mAP7021面罩-头部变体面罩mAP整体VOC非VOCResNet-20默认31.439.128.8沙漏-20默认34.139.832.2无LRS33.639.231.7无ED31.739.129.2表5：隔离使沙漏架构实现强掩码泛化的因素无LRS =无远程跳过连接。无ED =无编码器-解码器结构，即，无下采样或上采样层。编码器-解码器结构，其中编码器对输入进行下采样，并且解码器对编码器的结果进行上采样，以及b）连接编码器和解码器中的相同大小的特征图的长范围跳跃连接为了孤立地理解每个差异，我们探索了以下效果：（a）用不改变特征图分辨率的层替换下采样/上采样层，以及（b）切断长范围跳过连接。表5显示了相应的消融结果。我们看到，删除长距离跳过连接（无LRS）对性能有很小的负面影响。#扩张卷积层掩码映射更重要的是，我们发现ResNet和Hourglass之间的大部分差距是通过消除Hourglass掩码头中的编码器-解码器结构（无ED）来闭合的。鉴于这些结果，我们得出结论，这种风格的下采样，然后上采样可能会捕捉特别合适的归纳偏见的分割。表6：用扩张卷积(rate=2）在ResNet-20掩模头中分离感受野的效果骨干面罩头Miou整体VOC非VOC公司简介公司简介78.480.477.8公司简介ResNet-471.479.268.8表7：我们可以通过将沙漏网络添加到共享主干而不是在每个提案掩码头中使用它来重现强掩码泛化我们比较了两个网络的相似的深度，其中第一个网络有一个更深的掩模头。为了公平比较，我们在评估时使用地面实况框作为输入并报告mIOU。结构在可见类别上具有相似的性能（ <2.5% 的传播），而在不可见类别上，最好的面罩头（沙漏-52）比最差的（ResNet- 4）表现出>16%。这证实了强掩模泛化的影响发生在检测的自由设置，并与我们的结果为Deep-MAC和Deep-MARC提供了强有力的证据，我们会发现类似的影响，使用其他检测架构。7. 深入研究掩模头架构已经建立了掩模头架构显着影响强掩模泛化在作物然后段模型，我们现在详细研究掩模头，并确定最关键的组件。本节中的所有消融均在Deep-MAC上完成，并使用仅VOC-Masks设置进行培训和评价。是什么让沙漏面具头这么好？我们首先解决的问题是，哪些架构元素是最负责的优越的推广沙漏网络。为了调查，我们专注于20层沙漏和ResNet基本面罩头。Hourglass架构与ResNet主要有两个不同之处：面具头有什么特别的？接下来，考虑到沙漏形面罩头提供了泛化优势，我们问：我们是否可以通过将沙漏网络添加到共享骨干而不是在每个建议的掩码头中使用它来再现这些优点？换句话说，面具头有什么特别之处？在这里，我们表明，答案是否定的，它确实是面具头考虑一个HG-104网络，它是两个沙漏模块的堆栈，每个模块有52层。我们比较了（a）所有104层都位于主干中并且我们使用简单的ResNet-4掩模头的模型与（b）具有HG-52主干和HG-52掩模头的模型。在这两种情况下，输入经历包含在两个沙漏模块内的大约100层，但在第二种情况下，52层掩码头基于每个提案应用。由于与104层主干相比，在主干中使用52层通常产生较差的检测质量，因此我们使用地面实况框作为输入，使得两个模型处于同等地位，并且我们评估mIOU。我们的发现（表7）是，尽管具有稍微更少的总层，但是我们的具有52层面罩头部的模型在看不见的类上比具有4层面罩头部的模型表现出9%mIOU（两个模型在看到的类上具有相似的性能）。更一般地说，这支持我们的假设，即在整个体系结构中，面具头在对看不见的类的泛化方面起着不成比例的重要作用有一个大的接受域就足够了吗？最后，鉴于深度和编码器/解码器结构做得很好，推测这些架构中增加的感受野可能起着重要作用似乎是很自然的为了评估这一假设，我们探索了另外两个面具头部家族：（a）我们用扩张卷积（w/w）替换ResNet掩码头中的vanilla卷积。取代整体VOC非VOC032.239.429.91032.739.130.62032.839.330.77022B型盒。VOC →非VOC（掩模）非VOC → VOC（掩模）ms./ imAPAPAP50AP75APSAPMAPLAPAP50AP75APSAPMAPLMask R-CNN [20]38.618.524.818.111.323.421.724.743.524.911.425.735.156[20]第二十话38.619.739.717.06.421.235.819.646.114.35.116.032.4-MaskX R-CNN [20]38.623.842.923.512.728.133.529.552.429.713.430.241.0-[27]第二十七话45.433.253.135.018.340.243.335.760.336.618.340.547.3224CPMask [10]41.534.053.736.518.538.947.436.860.538.617.637.151.5-Deep-MAC（我们的）44.535.554.638.219.440.350.639.162.641.917.638.754.0232Deep-MARC（我们的）48.638.762.541.022.343.055.941.068.243.122.040.055.9170表8：与其他模型相比，Deep-MAC（基于CenterNet）和Deep-MARC（基于Mask R-CNN）的部分监督性能。我们在coco-val 2017集合上测量面罩mAP带有标签A→ B的顶行指示我们在集合A中的掩码上训练，并在集合A中评估我们的掩码B.边界框（b-box.）AP是所有班级的平均值。我们使用报告推断时间作为毫秒/图像（ms./ im），并与Detectron2 [50]和ShapeMask[27]进行比较。CPMask[10]，MaskX [20] R-CNN没有报告推理时间。速率2），其具有在不改变参数的深度或数量的情况下扩大感受野的效果，以及(b)我们使用具有全感受野的全连接（MLP）掩模头。扩张和FC结果分别见表6和附录A.2.2我们使用两个系列的模型的实验表明，首先，这些模型中没有一个能够达到沙漏面罩头的性能，因此必须有更多的因素在起作用，超出了感受野。另一方面，早期生长感受野似乎在某种程度上有利于泛化（例如，浅FC掩模头优于浅卷积掩模头）。这就提出了一个有趣的问题，我们把它留给进一步的研究：什么样的感受野会帮助未看到的类，而不同时帮助看到的类？在这里，我们基于我们的Mask R-CNN发现（第5节）提出了一个猜想，即使用地面实况框而不是建议进行训练很重要。当在实例上紧密时，地面实况当在有噪声的建议上训练时，我们推测MaskR-CNN试图记住在训练时看到的前景类的类型，因此很难推广到看不见的类。然而，有了精确的提示，也许模型学会了将内部像素与边界像素进行比较以做出此决定，这是一种在类别中更可推广的策略，并且需要足够大的感受野，使得边界像素可以与内部像素相互作用。8. 与最新技术水平的我们现在以更高的分辨率训练模型，Deep-MAC的训练分辨率为1024 ×1024，Deep-MARC的训练分辨率为 1280×1280 。 Deep-MAC 使用 Hourglass-104 主干和Hourglass-100面罩头，而Deep-MARC使用SpineNet-143 [6]主干和Hourglass-52掩码头。通过这些设置，Deep-MAC和Deep-MARC击败了先前的最先进的方法，如表 8所示。 Deep-MARC产生了我们最好的结果，超过了VOC到非VOC的CPMask[10]转4。7%，非VOC到VOC的转移率为4。百分之二。与现有方法相比，我们的方法是端到端可训练的，并且不需要辅助损耗或专业模块。尽管Deep-MAC本身超越了最先进的技术水平，但我们在附录（第B.2节）中表明，使用基于蒸馏的训练（实现 40 的非 VOCmAP），我们可以做得更好。4%的问题）。9. 结论在这项工作中，我们已经确定并研究了令人惊讶的程度，面具头架构影响泛化到看不见的类别，以及这种效果和协议之间的连接裁剪到只有地面实况框在训练时间。通过广泛的实验，我们证明了这种效果的通用性，跨检测方法和骨干网络。通过利用这种强大的掩模泛化效应，我们使用概念上简单的模型在这个问题上建立了一个新的最新技术水平。虽然我们已经采取了初步的步骤，在理解强掩模泛化，如何更好地理解的诱导偏差编码内的掩模头架构，以及如何解释我们的结果理论上仍然是重要的direec- tions。沿着这些思路，我们给读者留下了两篇论文的指针，这两篇论文注意到了类似的经验现象，其中某些架构有效地概括了训练分布之外的数据。深度图像先验工作[49]类似地观察到，沙漏式网络似乎以自然的方式自动捕获图像级统计数据，而无需对数据进行[53]表明，足够深的网络解锁了某种强烈的泛化行为。我们推测，可能有一个共同的分母在发挥作用，进一步探索这些协同作用将是一个富有成果的领域，进一步研究的潜力。从而产生超越细分的有用见解。致谢我们要感谢David Ross提供的周到反馈，以及Pengchong Jin 、 Abdullah Rash- wan 和 Xianzhi Du 对Mask R-CNN代码的帮助。7023引用[1] Rodrigo Benenson Stefan Popov和Vittorio Ferrari大规模的交互式对象分割与人类annotators。在IEEE计算机视觉和模式识别会议论文集，第11700-11709页，2019年。三个[2] Alexey Bochkovskiy，Chien-Yao Wang，and Hong-YuanMark Liao. Yolov4：目标检测的最佳速度和准确性。arXiv预印本arXiv：2004.10934，2020。三个[3] 赵伟蔡和努诺

下载后可阅读完整内容，剩余1页未读，立即下载