Mask2Former：一种用于通用图像分割的掩码注意力掩码变换器

96 浏览量更新于2023-10-26 收藏 12.28MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

tics, e.g., category or instance membership. Each choiceof semantics deﬁnes a task. While only the semantics ofeach task differ, current research focuses on designing spe-cialized architectures for each task. We present Masked-attention Mask Transformer (Mask2Former), a new archi-tecture capable of addressing any image segmentation task(panoptic, instance or semantic). Its key components in-clude masked attention, which extracts localized features byconstraining cross-attention within predicted mask regions.In addition to reducing the research effort by at least threetimes, it outperforms the best specialized architectures bya signiﬁcant margin on four popular datasets. Most no-tably, Mask2Former sets a new state-of-the-art for panopticsegmentation (57.8 PQ on COCO), instance segmentation(50.1 AP on COCO) and semantic segmentation (57.7 mIoUon ADE20K).57.852.751.150.140.149.557.755.657.012900用于通用图像分割的掩码注意力掩码变换器0Bowen Cheng 1, 2 * Ishan Misra 1 Alexander G. Schwing 2 Alexander Kirillov 1 Rohit Girdhar 101 Facebook AI Research（FAIR）2 伊利诺伊大学香槟分校（UIUC）0https://bowenc0221.github.io/mask2former0摘要0图像分割将具有不同语义的像素分组为不同的01. 引言0像素。将像素分组为不同的语义，例如类别或实例成员，导致了不同类型的分割任务，如全景、实例或语义分割。尽管这些任务在语义上有所不同，但当前的方法为每个任务开发了专门的架构。基于全卷积网络（FCNs）[37]的逐像素分类架构用于语义分割，而基于掩码分类的架构[5,24]用于实例级别的分割，它们预测与单个类别相关联的一组二进制掩码。尽管这些专门的架构[6, 10, 24,37]推动了每个单独任务的发展，但它们缺乏适应其他任务的灵活性。例如，基于FCN的架构在实例分割方面存在困难，导致与语义分割相比，实例分割的架构发展出现了不同的架构。因此，每个任务都需要重复研究和（硬件）优化工作。0* 在Facebook AI Research实习期间完成的工作。0全景0实例0语义0通用架构：0Mask2Former（我们的）MaskFormer0最先进的专门架构：0Max-DeepLab Swin-HTC++ BEiT0图1.最先进的分割架构通常专门针对每个图像分割任务。尽管最近的研究提出了试图处理所有任务并在语义分割和全景分割上具有竞争力的通用架构，但它们在分割实例方面仍然存在困难。我们提出了Mask2Former，这是第一次在多个数据集上的三个研究分割任务上超过了最佳专门架构的性能。0为每个任务设计专门的架构。0为了解决这种碎片化问题，最近的研究[14, 62]已经0试图设计通用架构，能够使用相同的架构（即通用图像分割）解决所有分割任务。这些架构通常基于端到端的集合预测目标（例如DETR[5]），并且能够成功处理多个任务而无需修改架构、损失或训练过程。需要注意的是，通用架构仍然需要针对不同的任务和数据集进行单独训练，尽管它们具有相同的架构。除了具有灵活性，通用架构最近在语义和全景分割方面展示了最先进的结果。然而，目前的研究仍然缺乏对实例分割的探索。0尽管现有的通用架构非常灵活，但通用架构的性能仍然落后于最好的专门架构[14,62]。这引发了一个问题：为什么通用架构没有取代专门架构？0尽管现有的通用架构非常灵活，但通用架构的性能仍然落后于最好的专门架构[14,0尽管通用架构在理论上足够应对任何分割任务，如图1所示，但实际上它们的性能落后于最好的专门架构。例如，最好的报告性能的通用架构[14, 62]在实例分割方面仍然低于SOTA专门架构（>9AP）。除了较差的逐像素分类性能之外，通用架构的训练效率也较低。MaskFormer[14]需要300个epochs才能达到40.1AP，并且只能在32G内存的GPU上适应单个图像。相比之下，专门的Swin-HTC++[6]在仅72个epochs内获得了更好的性能。性能和训练效率问题都阻碍了通用架构的部署。12910尽管现有的通用架构非常灵活，但通用架构的性能仍然落后于最好的专门架构[14,62]。这引发了一个问题：为什么通用架构没有取代专门架构？0然而，通用架构的性能也更难训练。它们通常需要更先进的硬件和更长的训练时间表。例如，训练MaskFormer[14]需要300个epochs才能达到40.1AP，并且只能在32G内存的GPU上适应单个图像。相比之下，专门的Swin-HTC++[6]在仅72个epochs内获得了更好的性能。性能和训练效率问题都阻碍了通用架构的部署。0尽管现有的通用架构非常灵活，但通用架构的性能仍然落后于最好的专门架构[14,62]。这引发了一个问题：为什么通用架构没有取代专门架构？0在这项工作中，我们提出了一种通用的图像分割架构。0我们提出了一种名为Mask2Former的通用图像分割架构，它在不同的分割任务上优于专门的架构，并且在每个任务上都很容易训练。我们建立在一个简单的元架构[14]上，该架构由一个骨干特征提取器[25,36]、一个像素解码器[33]和一个Transformer解码器[51]组成。我们提出了关键改进，以实现更好的结果和高效的训练。首先，我们在Transformer解码器中使用了掩码注意力，将注意力限制在围绕预测的片段周围的局部特征上，这些片段可以是对象或区域，具体取决于特定的语义分组。与标准Transformer解码器中的交叉注意力不同，后者会关注图像中的所有位置，我们的掩码注意力能够加快收敛速度并提高性能。其次，我们使用多尺度高分辨率特征，帮助模型分割小的对象/区域。第三，我们提出了优化改进，例如交换自注意力和交叉注意力的顺序，使查询特征可学习，并去除了dropout，所有这些改进都能提高性能而不需要额外的计算。最后，我们通过在少数随机采样点上计算掩码损失，节省了3倍的训练内存，而不会影响性能。这些改进不仅提升了模型的性能，还使训练变得更加容易，使有限计算资源的用户更容易使用通用架构。0我们在三个图像分割任务上评估了Mask2Former。0我们在四个流行的数据集（COCO [35]，Cityscapes [16]，ADE20K [65]和MapillaryVistas[42]）上评估了Mask2Former在三个图像分割任务（全景、实例和语义分割）上的表现。对于第一个任务，我们在所有研究任务上评估了Mask2Former，以确保其泛化能力。0在所有这些基准测试中，我们的单一架构的表现与专门的架构相当或更好。Mask2Former在COCO全景分割[28]上达到了57.8 PQ，COCO实例分割[35]上达到了50.1AP，ADE20K语义分割[65]上达到了57.7mIoU，使用的是完全相同的架构。02. 相关工作0专门的语义分割架构通常将任务视为逐像素分类问题。0基于FCN的架构[37]独立地为每个像素预测一个类别标签。后续方法发现上下文在精确的逐像素分类中起着重要作用，并专注于设计定制的上下文模块[7, 8,63]或自注意力变体[21, 26, 45, 55, 61,64]。专门的实例分割架构通常基于“掩码分类”。它们预测一组与单个类别标签相关联的二进制掩码。开创性的工作MaskR-CNN[24]从检测到的边界框生成掩码。后续方法要么专注于检测更精确的边界框[4,6]，要么找到生成动态数量的掩码的新方法，例如使用动态核[3, 49, 56]或聚类算法[11,29]。尽管每个任务的性能都得到了提升，但这些专门的创新缺乏从一个任务到另一个任务的泛化能力，导致了重复的研究工作。例如，尽管已经提出了多种用于构建特征金字塔表示的方法[33]，但正如我们在实验中所展示的，BiFPN[47]在实例分割方面的表现更好，而FaPN[39]在语义分割方面的表现更好。全景分割提出了将语义分割和实例分割任务统一起来的方法[28]。全景分割的架构要么将专门的语义分割和实例分割架构的优点结合到一个框架中[11, 27, 31,60]，要么设计新的目标，同等对待语义区域和实例对象[5,52]。尽管有这些新的架构，研究人员仍在为不同的图像分割任务开发专门的架构[20,45]。我们发现，全景架构通常只报告单个全景分割任务的性能[52]，这并不能保证在其他任务上有良好的表现（图1）。例如，全景分割不能衡量架构对实例分割的预测能力。因此，我们不称呼仅在全景分割上进行评估的架构为通用架构。相反，在这里，我们评估我们的Mask2Former在所有研究任务和数据集上，以确保其泛化能力。通用架构已经出现，并且DETR[5]表明基于集合预测目标的掩码分类架构对于任何图像分割任务都足够通用。MaskFormer[14]表明，基于DETR的掩码分类不仅在全景分割上表现良好，而且在语义分割上也达到了最先进的水平。K-Net[62]进一步将集合预测扩展到实例分割。然而，这些架构无法取代专门的模型，因为它们在特定任务或数据集上的性能仍然不如最好的专门架构（例如，MaskFormer[14]无法很好地分割实例）。据我们所知，Mask2Former是第一个在所有考虑的任务和数据集上都优于最先进的专门架构的架构。ciently general to address any segmentation task by assign-ing different semantics, e.g., categories or instances, to dif-ferent segments. However, the challenge is to ﬁnd goodrepresentations for each segment. For example, Mask R-CNN [24] uses bounding boxes as the representation whichlimits its application to semantic segmentation. Inspired byDETR [5], each segment in an image can be represented asa C-dimensional feature vector (“object query”) and can beprocessed by a Transformer decoder, trained with a set pre-diction objective. A simple meta architecture would con-sist of three components. A backbone that extracts low-resolution features from an image. A pixel decoder thatgradually upsamples low-resolution features from the out-put of the backbone to generate high-resolution per-pixelembeddings. And ﬁnally a Transformer decoder that oper-ates on image features to process object queries. The ﬁnalbinary mask predictions are decoded from per-pixel embed-dings with object queries. One successful instantiation ofsuch a meta architecture is MaskFormer [14], and we referreaders to [14] for more details.!×VKQ129203. 带有掩码注意力的掩码Transformer0我们现在介绍Mask2Former。我们首先回顾一个元0掩码分类架构是Mask2Former构建在其上的基础。然后，我们介绍了我们的新的带有掩码注意力的Transformer解码器，这是更好的收敛和结果的关键。最后，我们提出了训练改进，使Mask2Former更加高效和易用。03.1. 掩码分类预备知识0掩码分类架构将像素分组为N个0通过预测N个二值掩码以及N个对应的类别标签，将像素分割成N个分割区域。掩码分类足够03.2. 带有掩码注意力的Transformer解码器0架构，其中我们提出的Transformer解码器（图2右侧）替代了标准解码器。我们的Transformer解码器的关键组件包括一个掩码注意力运算符，它通过将交叉注意力限制在每个查询的预测掩码的前景区域内，而不是关注整个特征图，来提取局部特征。为了处理小物体，我们提出了一种高效的多尺度策略，利用高分辨率特征。它将像素解码器的特征金字塔中的连续特征图依次输入到连续的Transformer解码器层中。最后，我们引入了优化改进措施，提升模型性能而不引入额外的计算。现在我们详细讨论这些改进。0主干网络0像素解码器0Transformer解码器0掩码0类别0掩码注意力0加和归一化0自注意力0加和归一化0加和归一化0掩码0查询特征0图像特征0图2. Mask2Former概述。Mask2Former采用了0与MaskFormer[14]具有相同的元架构，包括主干网络、像素解码器和Transformer解码器。我们提出了一种新的0带有掩码注意力的Transformer解码器，而不是标准的交叉注意力（第3.2.1节）。为了处理小物体，我们提出了一种高效的方式，通过将多尺度特征的一个尺度逐个输入到一个Transformer解码器层中（第3.2.2节）。此外，我们交换了自注意力和交叉注意力的顺序（即我们的掩码注意力），使查询特征可学习，并去除了dropout以提高计算效率（第3.2.3节）。请注意，此图中省略了位置嵌入和中间Transformer解码器层的预测，以便更好地阅读。03.2.1 掩码注意力0上下文特征对于图像分割很重要[7, 8,63]。然而，最近的研究[22,46]表明，基于Transformer的模型收敛缓慢是由于交叉注意力层中的全局上下文，因为它需要很多训练时期才能学会关注局部对象区域[46]。我们假设只有局部特征足以更新查询特征，并且可以通过自注意力来收集上下文信息。因此，我们提出了掩码注意力，这是交叉注意力的一种变体，它只在每个查询的预测掩码的前景区域内进行注意力。0标准的交叉注意力（带有残差路径）计算0Xl = softmax（QlKT）0l）Vl + Xl-1。（1）0这里，l是层索引，Xl∈RN�C指的是N个查询特征。0C维查询特征在第l层和Ql =fQ（Xl-1）∈RN�C。X0表示输入查询特征到Transformer解码器。Kl，Vl∈RHlWl�C是经过变换fK（∙）和fV（∙）的图像特征，而Hl和Wl是我们将在第3.2.2节中介绍的图像特征的空间分辨率。fQ，fK和fV是线性变换。12930我们的掩码注意力通过调节注意力矩阵进行调制0Xl = softmax（Ml-1 + QlKT）0l）Vl + Xl-1。（2）0此外，特征位置（x，y）处的注意力掩码Ml-1为0Ml-1（x，y）=0�0-1，否则为0。（3）0这里，Ml-1∈{0，1}N�HlWl是二值化的输出0（阈值为0.5）是上一个（l-1）-thTransformer解码器层的调整大小的掩码预测。它被调整为与Kl相同的分辨率。M0是从X0获得的二进制掩码预测，即在将查询特征馈送到Transformer解码器之前。03.2.2 高分辨率特征0高分辨率特征可以提高模型性能，尤其是对于小物体[5]。然而，这需要大量的计算资源。因此，我们提出了一种高效的多尺度策略，以引入高分辨率特征，同时控制计算量的增加。我们不总是使用高分辨率特征图，而是利用特征金字塔，其中包含低分辨率和高分辨率特征，并将多尺度特征的一个分辨率逐个地馈送到一个Transformer解码器层。0具体来说，我们使用由生成的特征金字塔0像素解码器的分辨率为原始图像的1/32、1/16和1/8。对于每个分辨率，我们都添加了一个正弦位置嵌入e_pos∈RHlWl�C，参考[5]，和一个可学习的尺度级别嵌入e_lvl∈R1�C，参考[66]。我们按照从最低分辨率到最高分辨率的顺序将它们用于相应的Transformer解码器层，如图2左所示。我们重复这个3层的Transformer解码器L次。因此，我们最终的Transformer解码器有3L层。具体来说，前三层接收分辨率为H1=H/32，H2=H/16，H3=H/8和W1=W/32，W2=W/16，W3=W/8的特征图，其中H和W是原始图像的分辨率。这个模式以循环方式重复出现在所有后续层中。03.2.3 优化改进0标准的Transformer解码器层[51]由三个模块按以下顺序处理查询特征：自注意力模块、交叉注意力模块和前馈神经网络（FFN）。此外，在输入Transformer解码器之前，查询特征（X0）被初始化为零，并与可学习的位置嵌入相关联。此外，对残差连接和注意力图都应用了dropout。0为了优化Transformer解码器的设计，我们改变了自注意力和交叉注意力的顺序（我们的新的“掩码注意力”），使计算更加有效：第一层自注意力的查询特征是独立于图像的，没有来自图像的信号，因此应用自注意力不太可能丰富信息。其次，我们将交叉注意力应用于查询特征，以便在解码器中更好地整合图像信息0我们通过以下三个改进来优化Transformer解码器的设计。首先，我们将查询特征（X0）也设置为可学习的（仍然保留可学习的查询位置嵌入），并且在Transformer解码器中用于预测掩码（M0）之前直接进行监督。我们发现这些可学习的查询特征的功能类似于区域建议网络[ 43]，具有生成掩码建议的能力。最后，我们发现丢弃层是不必要的，并且通常会降低性能。因此，我们在解码器中完全去除了丢弃层03.3. 提高训练效率0由于高分辨率的掩码预测，训练通用架构的一个限制是内存消耗较大，使得它们比内存友好的专门架构更不易访问[ 6 ,24 ]。例如，MaskFormer [ 14]只能在32G内存的GPU上适应一张图像。受到PointRend [30 ]和Implicit PointRend [ 13]的启发，它们展示了一个分割模型可以通过对K个随机采样点而不是整个掩码计算其掩码损失来训练，我们在匹配和最终损失计算中使用采样点计算掩码损失。具体来说，在构建用于二分匹配的成本矩阵的匹配损失中，我们对所有预测和实际掩码均均匀采样相同的K个点。在预测和匹配的实际掩码之间的最终损失中，我们使用重要性采样[ 30]为不同的预测和实际掩码对采样不同的K个点。我们设置K=12544，即112x112个点。这种新的训练策略有效地将训练内存减少了3倍，从18GB减少到6GB每张图像，使得Mask2Former对于计算资源有限的用户更加可行04. 实验0我们证明了Mask2Former是一种有效的架构0通过与专门的最先进架构在标准基准测试上进行比较，我们验证了通用图像分割的有效性。我们评估了我们提出的设计的性能0通过对所有三个任务进行消融实验，我们验证了我们的决策0展示了Mask2Former在标准基准测试之外的广泛应用，取得了四个数据集上的最新成果。数据集。我们使用了四个广泛使用的图像分割数据集来研究Mask2Former，这些数据集支持语义分割、实例分割和全景分割：COCO [ 35 ](80个“物体”和53个“物质”类别)，ADE20K [ 65 ](100个“物体”和50个“物质”类别)，Cityscapes [ 16 ](8个“物体”和11个“物质”类别)methodbackbonequery typeepochsPQPQThPQStAPThpanmIoUpan#params.FLOPsfpsDETR [5]R50100 queries500+2543.448.236.331.1----MaskFormer [14]R50100 queries30046.551.039.833.057.845M181G17.6DETR [5]R101100 queries500+2545.150.537.033.0----MaskFormer [14]R101100 queries30047.652.540.334.159.364M248G14.0Max-DeepLab [52]Max-L128 queries21651.157.042.2--451M3692G-MaskFormer [14]Swin-L†100 queries30052.758.544.040.164.8212M792G5.2K-Net [62]Swin-L†100 queries3654.660.246.0-----12940Mask2Former (我们的) R50 100 queries 50 51.9 57.7 43.0 41.7 61.7 44M 226G 8.60Mask2Former (我们的) R101 100 queries 50 52.6 58.5 43.7 42.6 62.4 63M 293G 7.20Mask2Former (我们的) Swin-L † 200 queries 100 57.8 64.2 48.1 48.6 67.4 216M 868G 4.00表1.在COCO全景val2017上的全景分割，共133个类别。Mask2Former在所有指标上都以较大的优势超越了MaskFormer [ 14]，并且在不同的骨干网络上表现出色。我们最好的模型在PQ上超过了之前最先进的MaskFormer 5.1 PQ和K-Net [ 62 ] 3.2PQ。在ImageNet-22K上预训练的骨干网络用†标记。0“stuff”类别）和Mapillary Vistas [ 42]（37个“things”类别和28个“stuff”类别）。全景和语义分割0在“things”和“stuff”类别上评估分割任务，而实例分割仅在“things”类别上评估。评估指标。对于全景分割，我们使用标准的PQ（全景质量）指标[ 28]。我们进一步报告AP Th0pan，这是在“thing”上评估的AP0使用实例分割注释评估的“things”和“stuff”类别的panopticmIoU，以及仅使用panoptic分割注释训练的相同模型的语义分割的mIoUpan。对于实例分割，我们使用标准的AP（平均精度）指标[ 35 ]。对于语义分割，我们使用mIoU（平均交并比）[ 19]。04.1.实现细节0我们采用[ 14]的设置，但有以下不同之处：像素解码器。Mask2Former与任何现有的像素解码器模块兼容。在MaskFormer [ 14]中，FPN [ 33]被选择为默认选项，因为它简单易用。由于我们的目标是展示在不同分割任务中的强大性能，我们使用更先进的多尺度可变形注意力Transformer（MSDeformAttn）[ 66]作为我们的默认像素解码器。具体来说，我们使用6个应用于分辨率为1/8、1/16和1/32的特征图的MSDeformAttn层，并使用一个简单的上采样层与最终的1/8特征图进行侧连接，生成分辨率为1/4的特征图作为每像素嵌入。在我们的消融研究中，我们展示了这个像素解码器在不同分割任务中提供了最佳结果。Transformer解码器。我们使用第3.2节提出的Transformer解码器，其中L=3（即总共9层）和默认的100个查询。在每个中间Transformer解码器层和Transformer解码器之前，添加了辅助损失和可学习的查询特征。损失权重。我们使用二元交叉熵损失（而不是[ 14]中的焦点损失[ 34 ]）和我们的掩码损失的dice损失[ 41]：Lmask = λceLce + λdiceLdice。我们设置λce =5.0和λdice = 5.0。最终损失是掩码损失和0分类损失：Lmask + λclsLcls，我们设置λcls =2.0用于与ground truth匹配的预测，λcls = 0.1用于“noobject”，即尚未与任何groundtruth匹配的预测。后处理。我们使用与[ 14]完全相同的后处理方法，从二进制掩码和类别预测对中获取期望的全景和语义分割输出格式。实例分割需要每个预测的额外置信度分数。我们将类别置信度和掩码置信度（即平均前景每像素二进制掩码概率）相乘得到最终置信度。04.2.训练设置0全景和实例分割。我们使用Detec-0tron2 [ 57 ]和更新的Mask R-CNN [ 24]基线设置1用于COCO数据集。具体来说，我们使用AdamW [ 38]优化器和步长学习率调度。我们对所有骨干网络使用初始学习率为0.0001和权重衰减为0.05。骨干网络应用学习率乘法器0.1，并且我们通过10的倍数将学习率在总训练步数的0.9和0.95分数处衰减。如果没有另外说明，我们使用批量大小为16训练我们的模型50个时期。对于数据增强，我们使用大规模抖动（LSJ）增强[ 18 , 23]，随机从0.1到2.0的范围内采样一个随机尺度，然后进行固定尺寸裁剪到1024x1024。我们使用标准的MaskR-CNN推理设置，其中我们将图像的较短边调整为800，较长边调整为1333。我们还报告FLOPs和fps。FLOPs是在100个验证图像上平均的（COCO图像具有不同的大小）。每秒帧数（fps）是在V100GPU上以批量大小为1的情况下测量的，通过在整个验证集上的平均运行时间来计算，包括后处理时间。语义分割。我们遵循相同的设置0与[14]相同的方法来训练我们的模型，除了：1）将学习率乘数0.1应用于CNN和Transformer骨干网络，而不仅仅应用于CNN骨干网络[14]中，01 https://github.com/facebookresearch/detectron2/blob/0main / MODEL _ ZOO . md # new - baselines - using - large - scale -jitter-and-longer-training-schedule12950方法骨干网络查询类型训练轮数 AP AP S AP M AP L AP边界 #参数 FLOPs fps0MaskFormer [14] R50 100个查询 300 34.0 16.4 37.8 54.2 23.0 45M 181G 19.20Mask R-CNN [24] R50密集锚点 36 37.2 18.6 39.5 53.3 23.1 44M 201G 15.20Mask R-CNN [18, 23, 24] R50密集锚点 400 42.5 23.8 45.0 60.0 28.0 46M 358G 10.30Mask2Former（我们的）R50 100个查询 50 43.7 23.4 47.2 64.8 30.6 44M 226G 9.70Mask R-CNN [24] R101密集锚点 36 38.6 19.5 41.3 55.3 24.5 63M 266G 10.80Mask R-CNN [18, 23, 24] R101密集锚点 400 43.7 24.6 46.4 61.8 29.1 65M 423G 8.60Mask2Former（我们的）R101 100个查询 50 44.2 23.8 47.7 66.7 31.1 63M 293G 7.80QueryInst [20] Swin-L† 300个查询 50 48.9 30.8 52.6 68.3 33.5 - - 3.30Swin-HTC++ [6, 36] Swin-L†密集锚点 72 49.5 31.0 52.4 67.2 34.1 284M 1470G -0Mask2Former（我们的）Swin-L† 200个查询 100 50.1 29.9 53.9 72.1 36.2 216M 868G 4.00表2.在COCOval2017上的实例分割，共有80个类别。当使用8倍少的训练轮数进行训练时，Mask2Former在AP和AP边界[12]指标上均优于强大的Mask R-CNN[24]基线。我们最好的模型也与COCO上最先进的专门实例分割模型竞争，并具有更高的边界质量。为了公平比较，我们只考虑单尺度推理和仅使用COCO train2017数据集进行训练的模型。在ImageNet-22K上预训练的骨干网络标有†。02）ResNet和Swin骨干网络都使用初始学习率为0.0001和权重衰减为0.05，而不是在[14]中使用不同的学习率。04.3.主要结果0全景分割。我们在COCO全景分割[28]数据集上将Mask2Former与最先进的模型进行了比较，结果如表1所示。Mask2Former0在不同的骨干网络上，Mask2Former的性能始终比MaskFormer高出5个PQ以上，而收敛速度快6倍。使用Swin-L骨干网络，我们的Mask2Former在PQ方面取得了57.8的新的最先进水平，优于现有的最先进[14]5.1PQ和同时进行的工作K-Net [62]3.2PQ。Mask2Former甚至在COCO挑战赛中超过了使用额外训练数据的最佳集成模型（请参见附录A.1的测试集结果）。0除了PQ指标之外，我们的Mask2Former还实现了0与DETR [5]和MaskFormer相比，在另外两个指标上表现更好：AP Th0pan，这是AP eval-0在80个“物体”类别上使用实例分割注释进行评估，并使用全景分割注释转换为语义分割的133个类别进行mIoUpan评估。这表明Mask2Former的通用性：仅使用全景分割注释进行训练，可以用于实例和语义分割。实例分割。我们在COCO[35]数据集上将Mask2Former与最先进的模型进行了比较，结果如表2所示。使用ResNet[25]骨干网络，Mask2Former在使用大规模抖动（LSJ）数据增强[18，23]时优于强大的Mask R-CNN[24]基线，同时需要8倍少的训练迭代次数。使用Swin-L骨干网络，Mask2Former优于最先进的HTC++[6]。尽管我们只观察到与HTC++相比+0.6的AP改进，但边界AP[12]提高了2.1，这表明我们的预测具有更好的边界质量，这要归功于高分辨率的掩膜预测。请注意，为了公平比较，我们只考虑单尺度推理和仅使用COCOtrain2017数据集进行训练的模型。0方法骨干网络裁剪尺寸 mIoU（s.s.） mIoU（m.s.）0MaskFormer [14] R50 512 44.5 46.70Mask2Former（我们的方法） R50 512 47.2 49.20Swin-UperNet [36, 58] Swin-T 512 - 46.10MaskFormer [14] Swin-T 512 46.7 48.80Mask2Former（我们的方法） Swin-T 512 47.7 49.60MaskFormer [14] Swin-L † 640 54.1 55.60FaPN-MaskFormer [14, 39] Swin-L-FaPN † 640 55.2 56.70BEiT-UperNet [2, 58] BEiT-L † 640 - 57.00Mask2Former（我们的方法） Swin-L † 640 56.1 57.30Swin-L-FaPN † 640 56.4 57.70表3. ADE20K验证集上的语义分割结果0150个类别。Mask2Former在不同的骨干网络上（所有Mask2Former模型都使用MSDeformAttn[66]作为像素解码器，除了Swin-L-FaPN使用FaPN[39]）相对于MaskFormer[14]有着很大的优势。我们的最佳模型优于最佳的专用模型BEiT[2]。我们报告了单尺度（s.s.）和多尺度（m.s.）推理结果。在ImageNet-22K上预训练的骨干网络用†标记。0使用ResNet-50骨干网络，Mask2Former提高了性能0在小目标上，Mask2Former相对于MaskFormer的APS提升了7.0，而在大目标上提升最大（+10.6 AP L）。APS的性能仍然落后于其他最先进的模型。因此，在小目标上仍有改进的空间，例如使用DETR[5]中的扩张骨干，这是我们留给未来工作的。语义分割。我们在ADE20K[65]数据集上与最先进的语义分割模型进行比较，结果见表3。Mask2Former在不同的骨干网络上优于MaskFormer[14]，这表明所提出的改进即使在[14]已经是最先进的情况下也能提升语义分割结果。在以Swin-L为骨干网络和FaPN[39]为像素解码器的情况下，Mask2Former取得了57.7的mIoU，创造了新的最先进水平。我们还在附录A.3中报告了测试集的结果。04.4. 消融实验0我们现在通过一系列消融实验来分析Mask2Former。0使用ResNet-50骨干网络[25]进行消融实验。为了测试12960AP PQ mIoU FLOPs0Mask2Former（我们的方法） 43.7 51.9 47.2 226G0- 掩码注意力 37.8 (-5.9) 47.1 (-4.8) 45.5 (-1.7) 213G0- 高分辨率特征 41.5 (-2.2) 50.2 (-1.7) 46.1 (-1.1) 218G0（a）掩码注意力和高分辨率特征（来自高效多尺度策略）带来了最大的收益。更详细的消融实验见表4c和表4d。我们逐个移除一个组件。0AP PQ mIoU FLOPs0Mask2Former（我们的方法） 43.7 51.9 47.2 226G0- 可学习的查询特征 42.9 (-0.8) 51.2 (-0.7) 45.4 (-1.8) 226G0- 先进行交叉注意力 43.2 (-0.5) 51.6 (-0.3) 46.3 (-0.9) 226G0- 移除dropout 43.0 (-0.7) 51.3 (-0.6) 47.2 (-0.0) 226G0- 上述的三个组件中的所有组件 42.3 (-1.4) 50.8 (-1.1) 46.3 (-0.9) 226G0（b）优化改进提高了性能，而不引入额外计算。按照DETR[5]的做法，当查询特征不可

下载后可阅读完整内容，剩余1页未读，立即下载