高质量实例分割的MaskTransfiner

57 浏览量更新于2023-10-25 收藏 20.94MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Norm44120高质量实例分割的Mask Transfiner0Lei Ke 1 , 2 Martin Danelljan 1 Xia Li 1 Yu-Wing Tai 3 Chi-Keung Tang 2 Fisher Yu 101 ETH Z¨urich 2 HKUST 3 Kuaishou Technology0摘要0两阶段和基于查询的实例分割方法取得了显著的成果。然而，它们的分割掩码仍然非常粗糙。在本文中，我们提出了MaskTransfiner，用于高质量和高效的实例分割。我们的MaskTransfiner不是在规则的密集张量上操作，而是将图像区域分解和表示为四叉树。我们的基于transformer的方法仅处理检测到的容易出错的树节点，并并行地纠正它们的错误。尽管这些稀疏像素仅占总数的一小部分，但它们对最终掩码质量至关重要。这使得MaskTransfiner能够以较低的计算成本预测高度准确的实例掩码。大量实验证明，MaskTransfiner在三个流行的基准测试上优于当前的实例分割方法，在COCO和BDD100K上的两阶段和基于查询的框架上显著提高了3.0个掩码AP，并在Cityscapes上提高了6.6个边界AP。我们的代码和训练模型可在https://github.com/SysCV/transfiner上获得。01. 引言0图像实例分割的进展主要是由强大的目标检测范式推动的。基于Mask R-CNN[12, 21, 24, 28, 34]和最近的DETR[15,17,23]的方法在COCO挑战赛[33]等方面取得了越来越好的性能。虽然这些方法在对象的检测和定位方面表现出色，但是高度准确的分割掩码的预测问题迄今仍然难以解决。如图3所示，最近最先进方法的边界框和分割性能之间仍然存在显著差距，尤其是对于最近的基于查询的方法。这明显表明，掩码质量的改进没有跟上检测能力的进展。在图2中，以前的方法预测的掩码非常粗糙，通常过度平滑物体边界。事实上，高效准确的掩码预测非常具有挑战性，因为需要0粗糙的掩码0四叉树上0不一致的区域0顺序0四叉树节点0顺序掩码标签0序列编码器0节点编码器03 ×0FFN0多头注意力0像素解码器0四叉树变换器0不一致0检测器0最终掩码0输入图像0基础检测器0图1. 我们提出了MaskTransfiner用于高质量实例分割。它首先基于RoI金字塔上的稀疏不一致区域构建四叉树，然后使用带有四叉树注意力的改进transformer共同细化所有树节点。0高分辨率的深度特征需要大量的计算和内存开销[38]。为了解决这些问题，我们提出了MaskTransfiner，一种高质量实例分割的高效基于transformer的方法。在图1中，我们的方法首先识别出容易出错的区域，这些区域主要分布在物体边界或高频区域。为此，我们的网络学习检测不一致的区域，即当降采样掩码本身时信息丢失的区域。这些不一致的像素稀疏分布，仅占总像素的一小部分。然而，由于它们对最终分割性能至关重要，我们只需要处理高分辨率特征图的小部分进行细化过程。因此，我们建立了一个分层四叉树[18]来表示和处理多个尺度上的不一致图像像素。为了改进不一致四叉树节点的掩码标签，我们设计了一个基于transformer而不是标准卷积网络的改进网络，因为标准卷积网络需要在均匀网格上操作。我们的transformer有三个模块：节点编码器、序列编码器和像素解码器。节点编码器首先丰富每个不一致点的特征嵌入。然后，序列编码器将这些编码的特征向量作为输入查询跨多个四叉树层级。最后，像素解码器预测它们对应的掩码标签。比较Mask R-CNN BMask R-CNN PointRend Mask TransfinerSOLQISTRMask Transfiner35373941434547Box APMask AP3.83.83.42.68.1 8.2 4.9 AP44130Mask R-CNN BMask R-CNN SOLQ Mask Transfiner（我们的）PointRend0图2. 在COCO [33]验证集上的实例分割，a）Mask R-CNN [21]，b）BMask R-CNN [12]，c）SOLQ [15]，d）PointRend [28]，g）MaskTransfiner（我们的），使用R50-FPN作为骨干网络，Mask Transfiner在高频图像区域产生了更详细的结果，替代了MaskR-CNN的默认掩码头。放大以获得更好的视图。0两阶段方法基于查询的方法0图3. 使用R50-FPN作为骨干网络的COCOtest-dev数据集上实例分割模型的目标检测和分割之间的性能差距。详细比较见表9。0与MLP [28]不同，顺序表示和多头注意力使得MaskTransfiner能够灵活地以并行方式接受跨级别的稀疏特征点作为输入，对它们的像素关系进行建模，然后在它们之间传播信息，即使在长距离范围内也能做到。我们在COCO、Cityscapes和BDD100K基准测试上对我们的方法进行了广泛的分析，定量和定性结果表明，MaskTransfiner不仅优于现有的两阶段和基于查询的方法，而且在计算和内存成本上与标准变换器用法相比也是高效的。我们在COCOtest-dev上使用ResNet-50建立了一个新的最先进的结果，达到了41.6 AP Mask，明显优于最近的SOLQ[15]和QueryInst [17]。2. 相关工作0实例分割两阶段实例分割方法[2, 6, 8, 12, 16, 21, 24,31]首先检测边界框，然后在每个RoI区域进行分割。MaskR-CNN [21]扩展了Faster R-CNN[35]的FCN分支。后续的工作[7, 12, 25, 26]也为MaskR-CNN模型的系列贡献了力量。一阶段方法[5, 8, 29,30]和基于核的方法[48]，如PolarMask [44]，YOLOACT[1]和SOLO [40,41]，消除了提案生成和特征重新汇集步骤，以更高的效率实现了可比较的结果。基于查询的实例分割方法[15, 17, 19,023,42]，这些方法最近非常新颖，将分割视为一种集合预测问题。这些方法使用查询来表示感兴趣的对象，并在它们上进行分类、检测和掩码回归。在[15,23]中，对象掩码被压缩为使用DCT或PCA算法的编码向量。0算法，而QueryInst[17]采用具有掩码信息流的动态掩码头。然而，图3中检测和分割性能之间的巨大差距表明，这些基于查询的方法生成的掩码质量仍然不令人满意。与上述方法不同，MaskTransfiner针对高质量的实例分割。在我们的高效变换器中，输入查询是不连贯的像素节点，而不是表示对象。我们的方法适用于两阶段和基于查询的框架，且效果显著。实例分割的细化大多数现有的实例分割细化方法依赖于特殊设计的卷积网络[36, 47]或MLP [28]。PointRend[28]使用低置信度分数采样特征点，并使用共享的MLP来细化它们的标签，所选点由MaskR-CNN的粗略预测确定。RefineMask[47]将细粒度特征与附加的语义头作为指导进行融合。后处理方法BPR[36]将图像和初始掩码的边界补丁裁剪为输入，并使用[38]进行分割。值得注意的是，一些方法[11, 14,46]专注于细化语义分割细节。然而，由于更复杂的分割设置，每个图像中的对象数量不同以及需要描绘重叠对象的要求，对于实例分割来说是具有挑战性的。与这些细化方法相比，MaskTransfiner是一种端到端的实例分割方法，使用变换器来纠正错误。要细化的区域是使用轻量级FCN预测的，而不是基于掩码分数的非确定性采样[28]。与[28]中的MLP不同，顺序和分层输入表示使得MaskTransfiner能够高效地将非局部稀疏特征点作为输入查询，其中变换器的强大的全局处理是我们四叉树结构的天然适应。03. Mask Transfiner0我们提出了一种高效处理高质量实例分割的方法。MaskTransfiner的整体架构如图5所示。从基础的对象检测网络（例如Mask R-CNN[21]）中，我们采用了多尺度深度特征金字塔。然后，对象检测头预测实例提议的边界框。该组件还在低分辨率上生成粗糙的初始掩码预测。在给定这些输入数据的情况下，我们的目标是预测高度准确的实例分割掩码。由于大部分分割错误归因于空间分辨率的丢失，我们首先定义这样的不一致区域并分析其特性（第3.1节）。为了在多个尺度上识别和改进不一致区域，我们采用了四叉树（第3.2节）。轻量级的不一致区域检测器以粗糙的初始掩码和多尺度特征作为输入，并以级联的方式预测每个尺度上的不一致区域。这使得我们的MaskTransfiner能够节省大量的计算和内存负担，因为只有一小部分高分辨率图像特征被改进网络本身处理。我们的改进变换器在检测到的不一致区域上操作，详细介绍在第3.3节。由于它在构建的四叉树上的特征点上操作，而不是在均匀网格上操作，我们设计了一个能够同时处理四叉树所有级别的不一致节点的变换器架构。最后，我们提供了MaskTransfiner的训练策略以及实现细节。Input Object Mask 𝑋"𝐹%&'(𝐹)*Much of the segmentation errors produced by existinginstance segmentation methods [15, 21] are due to the lossof spatial resolution, such as the mask downsampling op-erations, small RoI pooling size, and coefficients compres-sion [15, 23], where mask prediction itself is performed ata coarse feature scale. Despite its efficiency, low spatialresolution makes it challenging to predict accurate objectboundaries, due to the loss of high-frequency details. In thissection, we first define incoherent regions, where mask in-formation is lost due to reduced spatial resolution. Then, byanalyzing their properties, we observe that a large portionof the errors are indeed located in these regions.Definition of Incoherent Regions To identify incoherentregions, we simulate the loss of information due to down-sampling in the network by also downsampling the maskitself. Specifically, information is lost in regions where themask cannot be correctly reconstructed by a subsequent up-14%43%56%51.035.544140下采样上采样0恢复的对象掩码压缩的对象掩码0残差差异 � 不一致区域0图4. 通过模拟掩码信息丢失来说明不一致区域的定义。0现有实例分割方法[15,21]产生的大部分分割错误是由于空间分辨率的丢失，例如掩码下采样操作、小的RoI池化尺寸和系数压缩[15,23]，其中掩码预测本身是在粗糙的特征尺度上进行的。尽管其效率很高，但低空间分辨率使得准确预测对象边界变得具有挑战性，因为高频细节丢失了。在本节中，我们首先定义了不一致区域，即由于空间分辨率降低而导致掩码信息丢失的区域。然后，通过分析它们的特性，我们观察到大部分错误确实位于这些区域中。不一致区域的定义为了识别不一致区域，我们通过对掩码本身进行下采样来模拟网络中由于下采样而丢失的信息。具体来说，信息在无法通过后续的上采样正确重建掩码的区域丢失了。03.1. 不一致区域0采样步骤如图4所示。形式上，令Ml为尺度级别l上的二进制真实实例掩码。每个尺度级别的分辨率相差2倍，其中l=0是最细的，l=L是最粗糙的尺度。我们用S↓和S↑分别表示2×最近邻下采样和上采样。然后，尺度l的不一致区域是通过以下方式获得的二进制掩码：0Dl = O↓(Ml-1 ⊕ S↑(S↓(Ml-1))). (1)0在这里，⊕表示逻辑的“异或”操作，O↓表示通过在每个2×2邻域中执行逻辑的“或”操作进行2×下采样。因此，如果原始掩码值Ml-1与其在较细的尺度级别上的重建在至少一个像素上不同，则像素(x,y)的不一致Dl(x,y)=1。直观地说，不一致的区域主要分布在物体实例边界或高频区域上，由由粗糙掩码预测的错误标签导致的缺失或额外的点组成。我们在图6和补充文件中提供了它们的可视化，它们在典型图像上是稀疏且非连续分布的。0表1.在COCO验证集上对不连贯区域进行实验分析。百分比表示不连贯区域在目标边界框中的面积比例。召回率误差是每个目标的所有错误预测像素的比例。精度是在不连贯区域内进行粗糙掩码预测的准确率。粗糙AP是使用粗糙掩码预测整个目标区域的平均精度，而GTAP仅将不连贯区域填充为地面真实标签的平均精度。0百分比召回率误差精度 AP GT 粗糙AP0不连贯区域的特性：在表1中，我们对上述定义的不连贯区域进行了分析。结果显示，大部分预测错误集中在这些不连贯区域，占所有错误预测像素的43%，而仅占相应边界框面积的14%。不连贯区域内粗糙掩码预测的准确率为56%。通过固定边界框检测器，我们进行了一个oracle研究，将每个对象的所有这些不连贯区域用地面真实标签填充，同时将其余部分作为初始掩码预测。与在不连贯区域使用初始掩码预测相比，性能从35.5 AP提升到51.0AP，确实证明了它们对于提高最终性能的重要性。03.2. 用于掩码细化的四叉树0在本节中，我们描述了我们用于检测和细化图像中不连贯区域的方法。我们的方法基于在每个特征尺度上迭代地检测和划分不连贯区域的思想。通过仅对识别到的不连贯像素进行进一步细化，我们的方法仅关注重要区域，从而高效处理高分辨率特征。为了形式化44150我们的方法是使用四叉树结构首先在不同尺度上识别不连贯区域。然后，我们使用第3.3节中详细介绍的网络，为四叉树中的所有不连贯节点预测细化的分割标签。最后，我们利用四叉树将来自多个尺度的新预测进行融合，通过从粗糙到更精细的尺度传播修正后的掩码概率。不连贯区域的检测：图5的右侧部分描述了我们轻量级模块的设计，用于在多尺度特征金字塔上高效地检测不连贯区域。我们采用级联设计，首先将最小的特征和粗糙的对象掩码预测连接起来作为输入，然后使用一个简单的全卷积网络（四个3×3卷积层）和一个二元分类器来预测最粗糙的不连贯掩码。然后，检测到的低分辨率掩码被上采样并与相邻层级的较高分辨率特征融合，以指导更精细的不连贯预测，其中只使用了一个1×1卷积层。在训练过程中，我们强制要求较低级别中由公式1生成的地面真实不连贯点在较高级别特征图中其父节点的覆盖范围内。四叉树的定义和构建：我们定义了一个点四叉树来分解检测到的不连贯区域。我们的结构如图5所示，FPN特征的较高级别（例如28×28的特征分辨率）中的一个黄色点在其相邻的较低级别FPN特征图（例如56×56的分辨率）中有四个象限点。它们都是特征点，但具有不同的粒度，因为它们位于不同的金字塔层级上。与计算机图形学中常规四叉树“单元格”不同，其中一个四叉树“单元格”可以有多个点，我们的点四叉树的细分单元始终是一个单点，点的细分由检测到的不连贯值和二元分类器的阈值决定。基于检测到的不连贯点，我们构建了一个多级分层四叉树，从使用最高级别特征图中的检测到的点作为根节点开始。这些根节点被选择为在较低级别特征图上划分为四个象限，具有更高的分辨率和更多的局部细节。注意，在细节级别上，只有被检测为不连贯的象限点才能进一步分解，不连贯树节点的扩展受限于与先前粗糙级别中不连贯预测相对应的区域。四叉树的细化：我们使用基于transformer的架构来细化四叉树的不连贯节点的掩码预测。我们的设计在第3.3节中描述。它直接作用于四叉树的节点，同时为每个不连贯节点提供细化的掩码概率。四叉树的传播：鉴于细化的掩码预测，我们设计了一种层次化的掩码传播方案，利用了我们的四叉树结构。在低分辨率下给出初始的粗糙掩码预测后，MaskTransfiner首先进行修正。0将点标签归属于四叉树的根级别，然后通过最近邻插值将这些修正的点标签传播到相邻更细级别的四个象限中。标签修正的过程以逐级方式在不连贯的节点上高效进行，直到达到最细的四叉树级别。与仅修正四叉树上最细叶节点的标签相比，通过将修正标签传播到中间树级别的叶节点，它扩大了细化区域，成本可以忽略不计。03.3.掩膜转换器架构0在本节中，我们描述了细化网络的架构，该网络以建立的四叉树上的不连贯点（第3.2节）作为输入，用于最终分割细化。这些点在各个级别上稀疏分布在高频区域中，而且不是空间上连续的。因此，基于均匀网格的标准卷积网络不适用。相反，我们设计了一个细化转换器MaskTransfiner，它可以并行地修正所有不连贯的四叉树节点的预测。准确分割模糊点需要精细的深层特征和粗糙的语义信息。因此，网络需要强大的建模能力，以充分关联点及其周围的上下文，包括空间和跨级别的邻近点。因此，变换器可以接受顺序输入，并通过多头注意力层进行强大的局部和非局部推理，是我们MaskTransfiner设计的自然选择。与[28]中的MLP相比，变换器的强大全局处理是我们四叉树结构的天然选择。它有助于有效融合具有不同粒度的多级特征点信息和显式建模成对点关系。图5显示了我们MaskTransfiner的整体架构。基于分层FPN[32]，实例分割以多级和粗到细的方式进行处理。与每个对象使用单级FPN特征[21]不同，MaskTransfiner将不连贯图像区域中检测到的稀疏特征点作为输入序列，跨RoI特征金字塔级别输出相应的分割标签。RoI特征金字塔给定输入图像，CNN骨干网络配备FPN首先提取用于下游处理的分层特征图，其中我们利用从P2到P5的特征级别。基本对象检测器[15，21]预测边界框作为实例提议。然后通过提取FPN的三个不同级别{Pi，Pi-1，Pi-2}上的RoI特征来构建RoI特征金字塔，其方形大小逐渐增加{28，56，112}。起始0WH/224)，其中i0 =4，W和H是RoI的宽度和高度。最粗糙的级别特征包含更多的上下文和语义信息。𝑸𝑲𝑽FineCoarsePositionalEmbeddingContext𝐶FusedEmbeddingFC112×112FCNUp-sampleConvUp-sampleConv44160点四叉树0不连贯查询序列编码序列顺序预测0边界框头0边界框提议0ROI对齐0骨干网络0序列编码器0多头注意力0规范FFN03 ×0输入图像FPN0粗糙掩膜头0ROI对齐0ROI对齐0粗糙掩膜028 × 28不连贯0检测器0节点编码器0像素解码器0预测0ROI特征0检测到的不连贯掩膜028×280粗糙掩码056×560图5. MaskTransfiner的框架。在点四叉树上，黄色点网格表示需要进一步细分为四个象限的检测到的不连贯区域。不连贯查询序列由来自四叉树三个级别的点组成，用于联合精炼。Transfiner的编码器由节点编码器和序列编码器组成，而像素解码器位于每个自注意查询像素的顶部，并输出它们的最终标签。不连贯检测器在图的右侧部分详细说明了多级不连贯区域（黄色）的检测。更高分辨率的检测受到从较低级别上采样的预测不连贯掩码的指导。0较粗的级别解决了更多的全局信息，而较细的级别解决了更多的局部细节。0输入节点序列根据第3.2节讨论的四叉树以及每个节点的相关FPN特征，我们为基于transformer的架构构建输入序列。序列由四叉树的所有三个级别的不连贯节点组成。因此，得到的序列的大小为C×N，其中N是节点的总数，C是特征通道维度。值得注意的是，由于高度稀疏性，N�HW。此外，由于transformer的置换不变性，序列的排序无关紧要。与标准transformer编码器不同，Transfiner的编码器分为两部分：节点编码器和序列编码器。0节点编码器为MaskTransfiner丰富了不连贯点特征，它使用以下四种不同的信息线索对每个四叉树节点进行编码：1）从FPN金字塔的相应位置和级别提取的细粒度特征。2）基础检测器提供的初始粗糙掩码预测提供了区域特定和语义信息。3）每个RoI中的相对位置编码封装了节点之间的空间距离和关系，捕捉重要的局部依赖性和相关性。4）每个节点的周围上下文捕捉了局部细节以丰富信息。对于每个节点，我们使用从3×3邻域提取的特征，通过全连接层进行压缩。直观地说，这有助于定位边缘和边界，以及捕捉物体的局部形状。如图5所示，首先将细粒度特征、粗分割线索和上下文特征通过FC层连接和融合到原始特征维度中。然后将位置嵌入添加到结果特征向量中。0然后，序列0Transfiner的transformer编码器共同处理四叉树中所有级别的编码节点。因此，transformer可以进行全局空间和跨尺度推理。每个序列编码器层都具有标准的transformer结构，由多头自注意力模块和全连接前馈网络（FFN）组成。为了为不连贯的点序列提供足够的正负参考，我们还使用最粗糙的FPN级别上的所有特征点，尺寸为14×14。与具有深度注意力层的标准transformer解码器[4]不同，MaskTransfiner中的像素解码器是一个小型的两层MLP，它解码树中每个节点的输出查询，以预测最终的掩码标签。训练和推理基于构建的四叉树，我们为MaskTransfiner开发了灵活和自适应的训练和推理方案，其中所有检测到的不连贯节点都被组成一个序列进行并行预测。在推理过程中，为了获得最终的物体掩码，MaskTransfiner在获得不连贯节点的精炼标签后，遵循四叉树传播方案（第3.2节）。在训练过程中，整个MaskTransfiner框架可以以端到端的方式进行训练。我们采用多任务损失函数。0L = λ 1 L Detect + λ 2 L Coarse + λ 3 L Refine + λ 4 L Inc . (2)0这里，L Refine表示不连贯节点预测标签与其真实标签之间的L1损失的细化。二元交叉熵损失L Inc 用于检测不连贯区域。检测损失LDetect 包括基础检测器（如Faster R-CNN[35]或DETR检测器）的定位和分类损失。最后，L Coarse表示由[21]使用的初始粗分割预测的损失。λ {1, 2, 3, 4}是超参数权重 {1.0, 1.0, 1.0, 0.5}。FineCoarsePos.ContextAPAPBAP⋆AP⋆50✓33.820.137.053.8✓✓34.220.437.354.3✓✓✓36.823.940.160.1✓✓✓✓37.324.240.560.744170实现细节 Mask Transfiner 在两阶段检测器FasterR-CNN[35]和基于查询的检测器[4]上实现。我们设计了一个3级四叉树，并使用Detectron2 [43]中实现的MaskR-CNN的超参数和训练计划作为骨干和粗糙掩码头。MaskTransfiner编码器由三个标准Transformer层组成。每个层具有256个特征维度的四个注意力头。在我们的消融研究中，采用R-50-FPN [22]和1×学习计划的FasterR-CNN。对于COCO排行榜比较，我们采用了尺度抖动，较短的图像边缘随机采样自[640, 800]，遵循[26,30]中的训练计划。更多细节请参见补充文件。4. 实验04.1. 实验设置0COCO我们在COCO数据集[33]上进行实验，其中我们在2017训练集上训练网络，并在2017验证集和2017测试集上评估结果。我们采用标准的AP指标和最近提出的边界IoU指标[10]。值得注意的是，边界IoU的AP B是一种专注于边界质量的度量。根据[28]的方法，我们还报告AP �，它使用具有更高质量的LVIS注释[20]评估COCO的验证集，可以更好地揭示掩码质量的改进。Cityscapes我们在Cityscapes[13]上报告结果，这是一个高质量的实例分割数据集，包含2975、500、1525张分辨率为2048×1024的图像，用于训练、验证和测试。Cityscapes专注于自动驾驶场景，包含8个类别（如汽车、人、自行车）。BDD100K我们进一步在BDD100K[45]实例分割数据集上训练和评估MaskTransfiner，该数据集有8个类别，具有12万个高质量的实例掩码注释。我们按照标准做法，使用7k、1k、2k张图像04.2. 消融实验0我们在COCO验证集上进行了详细的消融研究，分析了提出的不连贯区域和MaskTransfiner的各个组成部分的影响。不连贯区域的影响表1分析了第3.1节中描述的不连贯区域的特性，揭示了它们对最终分割性能的重要性。表2通过将细化区域替换为完整的RoIs或检测到的对象边界区域，分析了检测到的不连贯区域的有效性。由于内存限制，完整的RoIs只使用输出尺寸为28×28。比较结果显示，与使用完整的RoIs和检测到的边界区域相比，不连贯区域具有1.8个AP和0.7个AP的优势。为了研究不连贯区域对不同金字塔层级的影响，在表2中，我们还通过移除Mask的细化区域进行了消融实验0表2. 不连贯区域对COCO验证集的影响. AP B0使用边界IoU [10] 进行评估，而AP � 使用LVIS注释。0区域类型 AP AP B AP � AP � 500完整的RoIs (28 × 28) 35.5 21.4 38.3 59.5 边界区域36.6 23.8 40.1 60.2 不连贯区域 37.3 24.2 40.5 60.70不连贯区域（无L 1 ） 36.5 23.5 39.8 59.7 不连贯区域（无L2 ） 36.8 23.8 40.2 60.1 不连贯区域（无L 3 ） 36.7 23.640.0 59.90表3. 在COCO验证集上检测不连贯区域时，较低层次掩码指导的效果。AP和APB是最终性能。0较低层次的指导准确率召回率 AP AP B079% 73% 36.6 23.7 � 84% 86% 37.3 24.20表4. COCO验证集上节点编码线索的分析。0按层次顺序的Transfiner。我们发现所有三个层次对最终性能都有益处，其中L 1 对AP的提升最大，达到了0.8，其中L1 表示具有最小特征尺寸的MaskTransfiner的根层。对不连贯区域检测的消融实验我们通过计算召回率和准确率来评估轻量级不连贯区域检测器的性能。在表3中，通过从较低层次上采样的预测不连贯掩码的指导（图5），检测到的不连贯区域的召回率从74%提高到86%，准确率也从79%提高到84%。需要注意的是，在这里召回率更重要，以覆盖所有容易出错的区域以进行进一步的改进。不连贯点编码的影响我们分析了不连贯点编码中四个信息线索的影响。在表4中，与仅使用细粒度特征相比，具有语义信息的粗分割特征使AP提高了0.4个点。位置编码特征对模型性能有很大影响，AP和APB分别显著提高了2.6个点和3.5个点。不连贯点的位置编码非常重要，因为Transformer架构是置换不变的，分割任务是位置敏感的。周围上下文特征通过聚合局部邻近细节，将分割结果从36.8 AP提升到37.3 AP。四叉树深度的影响在表5中，我们研究了四叉树在不同深度的MaskTransfiner中对分层细化阶段的影响。深度0表示基线，即使用粗分割头部预测而没有细化步骤。输出尺寸比其前一阶段增长了两倍。通过将输出尺寸从28 × 28变化到224 ×224，掩码AP �从38.4增加到40.7，树的深度增加。这表明模型028×2835.237.650.337.717.212.3128×2835.538.450.938.117.210.6256×5636.239.151.938.717.38.93112×11237.340.552.939.517.57.14224×22437.140.753.139.317.45.2ModelAPAPBAP⋆AP⋆50Mask Transfiner (D = 3, H = 4)37.324.240.560.7Mask Transfiner (D = 3, H = 8)37.124.140.260.8Mask Transfiner (D = 6, H = 4)37.424.440.660.9NLA [39] (112×112)36.324.683474.6NLA [39] (224×224)36.680.2180912.4Transformer [4] (28×28)36.137.243686.9Transformer [4] (56 56)36.568.3173592.1Quadtree Depth 1 (28 × 28)Quadtree Depth 2 (56 × 56)Quadtree Depth 3 (112 × 112)Quadtree Attention for Node R1R1R2R3Quadtree Attention for Node R2Quadtree Attention for Node R3Coarse Mask (28 × 28)R4Quadtree Attention for Node R444180表5. 在COCO验证集上使用R50-FPN作为骨干网络的四叉树深度分析。0深度输出尺寸 AP AP � AP L AP M AP S FPS0表6. 在COCO验证集上使用ResNet-50-FPN，MaskTransfiner与MLP和CNN的比较。0CNN (全区域, 56 × 56) 35.7 21.8 38.7 58.80MLP (全区域, 56 × 56) 36.1 23.4 39.2 59.2 MLP (PointRend [ 28 ],112 × 112) 36.2 23.1 39.1 59.0 MLP (不连贯区域) 36.4 23.7 39.759.80表7.Transfiner与标准注意力模型在COCO验证集上的有效性比较。NLA表示非局部注意力 [ 39 ]。0模型 AP FLOPs (G) 内存 (M) FPS0Mask Transfiner (112 × 112) 37.3 16.8 2316 7.1 Mask Transfiner (224 × 224)37.1 38.1 4871 5.20图6.我们基线方法[22]的粗糙掩码预测与在检测到的不一致区域上建立的不同深度的四叉树进行细化的结果的定性比较。底部行可视化了四个采样红色节点在稀疏的不一致区域中的四叉树注意力权重分布。0对于一个对象来说，使用更多级别和更大的输出尺寸确实可以提高分割性能。大型对象在增加尺寸方面获益最大，AP L提高了2.8个百分点。我们进一步发现，当输出尺寸大于112×112时，性能会饱和，而3级Transfiner的计算成本更低，运行速度为7.1fps。图6展示了随着四叉树深度增加的结果，掩码在物体边界周围变得更加细节化。MaskTransfiner与MLP和CNN的比较：我们比较了不同的细化网络选择，包括MLP和CNN结构。MLP采用了三个隐藏层，每层256个通道[28]，而CNN是一个具有四个卷积层和3×3卷积核的FCN[21]。需要注意的是，对于完整的细化区域，由于内存限制，CNN和MLP仅限于RoI尺寸为56×56，而CNN不适用于不一致区域，因为需要均匀的网格。在表6中，我们的MaskTransfiner相对于MLP提高了0.9个AP，这得益于非局部像素级关系建模，我们在所有三个四叉树级别上使用相同的不一致区域进行公平比较。此外，我们还研究了MaskTransfiner的层深度D和宽度W对性能的影响，发现更深和更宽的注意力层只会带来轻微的性能变化。在图6中，我们可视化了Transfiner最后一个序列编码器层的稀疏四叉树注意力图，重点关注几个不一致点。编码器似乎已经能够区分前景实例和背景，点R1的邻近注意区域通过物体边界进行分隔。四叉树结构的有效性：表7比较了MaskTransfiner与不同的注意力机制。与使用3层非局部注意力进行像素关系建模相比，Mask Transfiner具有更好的性能。0MaskTransfiner不仅可以获得更高的准确性，而且在计算和内存消耗方面非常高效。例如，使用多头注意力的MaskTransfiner在相同的输出尺寸下使用的内存比非局部注意力少3倍，这是由于不一致像素的数量较少。与在较小尺寸的56×56的完整RoI区域上运行的标准transformer相比，四叉树细分和推理使得MaskTransfiner只需使用一半的FLOPs计算即可产生高分辨率的224×224预测。需要注意的是，我们的实验中标准transformer的输出尺寸为112×112时会耗尽内存。多级联合细化的效果：给定来自三级四叉树的不一致节点，Transfiner将它们全部组合成一个序列，在单次前向传递中进行联合细化。在表8中，我们将其与在每个级别上分别细化四叉树节点的多个序列进行比较。0.6AP�的性能提升显示了多尺度特征融合和更丰富的全局推理上下文的好处。四叉树掩码传播的效果：在推理过程中，经过MaskTransfiner对所有不一致点进行细化后，我们利用一种分层的由粗到细的四叉树层级掩码传播方案来获得最终的预测结果。与仅在表8中纠正四叉树上最细叶节点的标签相比，传播扩大了细化区域，并将性能从36.5 AP提高到37.0AP。传播带来的计算量很小，因为中间树层级中象限叶节点（一致节点）的新标签值是通过复制其父节点的细化标签值获得的。0表8.多级联合细化（MJR）和四叉树掩码传播（QMP）对COCO验证集的影响。0MJR QMP AP AP B AP � AP � 50036.5 23.7 39.6 59.7 � 36.9 23.9 40.2 60.20� 37.0 24.0 40.1 60.2 � � 37.3 24.2 40.5 60.704.3. 与最先进方法的比较0我们将我们的方法与COCO，Cityscapes和BDD100K的最先进方法进行比较，MaskTransfiner在没有花哨的情况下优于所有现有方法，证明了在两阶段和基于查询的分割框架上的有效性。COCO表9比较了MaskTransfiner与COCO数据集上最先进的实例分割方法。Transfiner在不同的情况下都取得了一致的改进。MethodBackboneTypeAPAP⋆valAPBvalAPBoxAPSAPMAPLnceMethodAPBAPB50APAP50ta-MethodBackboneAPmaskAPbox44190Mask R-CNN BMask R-CNN PointRend Mask Transfiner（我们的方法）0图7. 在Cityscapes验证集上与实例分割方法Mask R-CNN [21]，BMask R-CNN [12]，PointRend [28]和我们的MaskTransfiner进行定性比较。MaskTransfiner产生更自然的边界，同时揭示了小部件的细节，例如汽车的后视镜和高跟鞋。放大以获得更好的视图。有关更多视觉比较，请参阅

下载后可阅读完整内容，剩余1页未读，立即下载