没有合适的资源?快使用搜索试试~ 我知道了~
Panoptic SegFormer:使用Transformers提升全景分割性能
1280Panoptic SegFormer:使用Transformers深入研究Panoptic SegFormer李志奇1,王文海2,谢恩泽3,于智定4,阿尼玛4,5,何塞M。阿尔瓦雷斯4,平罗3,通路11南京大学2上海人工智能实验室3香港大学4NVIDIA5加州理工lzq@smail.nju.edu.cnwangwenhai@pjlab.org.cnxieenze@hku.hklutong@nju.edu.cnpluo@cs.hku.hkjosea@nvidia.comaanandkumar@nvidia.comzhidingy@nvidia.com摘要全景分割涉及联合语义分割和实例分割的组合,其中图像内容被分为两种类型:事物和东西。我们提出了Panoptic SegFormer,一个通用的框架panoptic分割与变压器。它包含三个创新的组成部分:一个有效的深度监督掩码解码器,查询解耦策略,和一个改进的后处理方法。我们还使用可变形DETR来高效地处理多尺度特征,这是DETR的一个快速有效的版本。具体而言,我们以逐层方式监督掩码解码器中的注意力模块。这种深度监督策略可以让注意力模块快速聚焦于有意义的语义区域。与可变形DETR相比,它提高了性能,并将所需的训练时间减少了一半。我们的查询解耦策略将查询集的职责分开,避免了事物和事物之间的相互干扰。此外,我们的后处理策略通过共同考虑分类和分割质量来解决冲突的掩码重叠,从而在不增加成本的情况下提高了性能。我们的方法提高了6.2%PQ 的 基 线 DETR 模 型 的 准 确 性 。 PanopticSegFormer在COCO测试开发中取得了最先进的结果,PQ为 56.2%它还显示出比现有方法更强的零射击鲁棒性1. 介绍语义分割和实例分割是两个重要且相关的视觉任务。它们的潜在联系最近促使全景分割作为这两项任务的统一[6]。在全景分割中,图像内容分为两类:事物 和 东 西 。 事 物 指 可 数 的 实 例 ( 例 如 , person 、car),并且每个实例都有一个唯一的ID以将其与其他实例565452504846444240050100150200250300350400450500#参数(M)图1.在全景分割中与现有技术的比较COCO val2017拆分的方法Panoptic SegFormer型号在不同型号中优于其他同行Panop- tic SegFormer(PVTv 2-B5 [5])实现了55.4% PQ,超过了先前的方法,参数明显更少。实例.填充物指的是无定形和不可数的区域(例如,天空,草原),没有实例id [6]。最近的作品[1例如,DETR [1]通过在端到端对象检测器的顶部添加全景头来简化全景分割的工作流程与以前的方法[6,7]不同,DETR不需要额外的手工管道[8,9]。虽然简单,但DETR也会引起一些问题:(1)它需要一个漫长的训练过程来收敛;(2)由于自注意的计算复杂度与输入序列的长度平方,因此DETR的特征分辨率是有限的。因此,它使用FPN风格的[1,10]全景头来生成掩模,其总是遭受低保真度边界;(3)它平等地处理事物和东西,但用边界框表示它们,这可能对东西来说是次优的[2,3]。虽然DETR在目标检测任务上取得了优异的性能,但其在全景分割上的优势为了Panoptic SegFormerK-Net口罩成型器Max-DeeplabDETRPQ(%)#参数(M)DETR-R50 [1] 42.8[2]第二届中国国际汽车工业展览会Max-Deeplab-L [2] 451.0MaskFormer-T [3] 42.0MaskFormer-B [3] 102.0MaskFormer-L [3] 212.0K-Net-L [4] 208.9Panoptic SegFormer-B0 24.2Panoptic SegFormer-B2 43.6Panoptic SegFormer-B5 104.949.552.555.443.548.451.147.451.152.754.6COCO Panoptic PQ(%)1281向前资料查询特征面具智慧融合羊羊草天空电子邮件:info@hzc.com.cn掩码解码器∙∙∙ ∙∙∙产品介绍位置解码器边界框∙∙∙������ℎThing QueriesA保险丝A{3,4,5}一Q查询面具足球俱乐部类别FCQ精炼K V∙∙∙编码器F6×扁平化特征令牌事物查询位置感知查询H/32×W/32C5编码器F∙∙∙ ∙∙∙ ∙∙∙高/16×宽/16C4变平高/8×宽/8C3Transformer编码器骨干高×宽×3∙∙∙ ∙∙∙ ∙∙∙C5(a)图2. Panoptic SegFormer概述。Panoptic SegFormer由主干、编码器和解码器组成。主干和编码器输出并细化多尺度特征。 位置解码器的输入是N事物查询和多尺度特征。 我们将来自位置解码器的第N个查询和第N个查询馈送到掩码解码器r。定位解码器的目的是学习查询的参考下面将介绍解码器的细节。我们使用一个掩模方式的合并方法,而不是常用的像素方式的argmax方法来执行推断。为了克服DETR在全景分割上的缺陷,我们提出了一系列新颖有效的策略,大幅度提高了基于transformer的全景分割模型的性能。我们的方法。在这项工作中,我们提出了PanopticSeg-Former , 一 个 简 洁 而 有 效 的 框 架 与 变 压 器 的Panoptic我们的框架设计受到以下观察的激励:1)深度监督在掩码解码器中学习高质量的区分性注意表示方面很重要。2)用同样的配方[1]处理事物和材料是次优的,因为事物和材料之间的性质不同[6]。3)常用的后处理(如逐像素argmax [1-3 ])往往会因极端异常而我们在Panoptic SegFormer框架中克服了这些挑战,如下所示:• 我们提出了一个掩码解码器,利用多尺度at-tension地图生成高保真掩码。掩码解码器是深度监督的,以更好的掩码质量和更快的收敛促进中间层中的区别性注意表示。• 我们提出了一种查询解耦策略,将查询集分解为一个事物查询集,通过二分匹配匹配的东西和另一个东西查询集处理的东西与类固定分配。该策略避免了每个查询中事物和填充物之间的相互干扰,并显着提高了填充物分割的质量请参阅SEC。3.3.1和图3更多细节• 我们提出了一种改进的后处理方法,以生成全景格式的结果。除了比广泛使用的逐像素argmax方法更有效之外,我们的方法还包含一个掩码合并策略,该策略考虑了分类概率和预测掩码质量。仅我们的后处理方法就使DETR的PQ提高了1.3%[1]。我们在COCO [11]数据集上进行了广泛的实验。如图1所示,Panoptic SegFormer显著优于现有技术,例如MaskFormer [3]和K-Net [4],参数少得多。使用可变形注意力[12]和我们的深度监督掩码解码器,我们的方法比以前基于变换的方法需要更少的训练时期(24vs.300+)[1,3]。此外,我们的方法还在实例分割任务上实现了与当前方法[13,142. 相关工作全景分割。全景分割是整体场景理解的一项热门任务[6,15全景分割文献主要将此问题视为实例分割和语义分割的联合任务,其中事物和材料被单独处理[18,19]。基里洛夫等人[6]提出了全景分割的概念和基准,以及直接结合单个实例分割和语义分割模型的输出的基线。从那时起,Panoptic FPN [7],UPSNet [9]和AUNet [20]等模型通过将实例分割和语义分割组合到单个模型中来提高准确性并降低计算开销然而,这些方法通过求解代理子任务来近似目标任务,因此引入了不期望的模型复杂性和次优性能。最近,已经做出努力来统一全景分割的框架。Li等[21]提出了全景FCN,其中全景分割流水线通过类似于CondInst [ 22 ]的“自上而下与自下而上”的双分支设计进行简化在他们的工作中,事物和材料由对象/区域级内核分支和图像级特征分支联合建模。最近的几个作品将事物和东西表示为查询,并执行端-1282∈××× ××通过变压器进行端到端的全景分割。DETR [1]预测事物和材料的边界框,并结合Transformer解码器的注意力图和ResNet [23]的特征图来执行全景分割。Max-Deeplab [2]通过双路径Transformer方面直接预测对象类别和遮罩地面实况查询偶匹配(一)固定分配偶匹配(b)第(1)款而不是东西在DETR之上,MaskFomer [3]使用了一个额外的像素解码器来细化高空间分辨率的特征,并通过将来自像素解码器的查询和特征相乘来生成掩码。由于自我注意的计算复杂性[24],DETR和MaskFormer都使用具有有限空间分辨率的特征图进行全景分割,这损害了性能,并且需要在最终掩模预测中组合额外的高分辨率特征图与上面提到的方法不同,我们的查询解耦策略使用单独的查询集处理事物和内容。尽管事物和材料查询是针对不同的目标而设计的,但它们由掩码解码器以相同的工作流程进行处理这些查询的预测结果是相同的格式,以便我们可以以平等的方式处理它们,图3. (a)方法[1(紫色方块)和填充物(绿色方块)。(b)我们使用一个事物查询集(紫色圆圈)通过二分匹配来定位事物,使用一个内容查询集(绿色圆圈)通过类固定分配策略来预测内容查询被分配给不匹配的查询。骨干,(2)位置解码器被设计用于捕获事物的位置线索,以及(3)掩码解码器用于最终分类和分割。该结构将一幅输入图像X RH×W×3送入主干网络,从最后三个阶段获得特征图C3、C4和C5,其分辨率分别为输入图像的1/8、1/16和1/32。 我们通过一个全连接(FC)层将这三个特征映射投影到具有256个通道的特征映射上,并将它们平坦化为特征向量C3′,C4′和C5′。在这里,我们-完成后处理程序。一个并发工作[4]细LiH2i+2W2i+2 C3′、C4′和C5′的形状是采用类似的思路,使用动态内核来执行实例和语义分割,其目的是利用统一的内核来处理各种分割任务。与此相反,我们的目标是深入研究基于Transformer的全景分割。由于各种任务的性质不同,统一的流水线是否适合这些任务仍然是一个悬而未决的问题。在这项工作中,我们利用一个额外的位置解码器,以协助事情学习位置线索,并获得更好的结果。端到端目标检测。最近流行的端到端对象检测框架启发了许多其他相关工作[13,25]。DETR [1]可以说是这些方法中最具代表性的端到端对象检测器DETR将对象检测任务建模为具有可学习查询的字典查找问题,并采用编码器-解码器Transformer来预测边界框,而无需额外的后处理。DETR大大简化了传统的检测框架,并删除了许多手工制作的组件,如非最大抑制(NMS)[26,27]和锚[27]。Zhu等[12]提出了可变形DETR,通过可变形注意层进一步降低了内存和计算成本。在本文中,我们采用可变形注意力[12]来改进DETR [1]上的效率和收敛性。3. 方法3.1. 整体架构如图2所示,Panoptic SegFormer由三个关键模块组成:Transformer编码器、位置解码器和掩码解码器,其中(1)Transformer编码器用于细化由L1256、L2256和L3256。接下来,使用串接的特征令牌 作 为 输 入 , Transformer 编 码 器输 出 大 小 为(L1+L2+L3)的细化特征256。然后,我们使用第N次和第N次随机初始化的东西和东西查询来描述的东西和东西分开。 定位解码器通过检测事物的边界框来获取位置信息,从而细化第N个事物查询.然后,掩码解码器将事物和填充查询作为输入,并在每一层预测掩码和类别在推理过程中,我们采用了一种基于掩模的合并策略,将来自最终掩模解码器层的预测掩模三点五3.2. Transformer编码器高分辨率和多尺度特征图对于分割任务很重要[7,21,28]。 由于自注意层的高计算成本,基于复杂变换的方法[1,3]只能处理低分辨率特征图(例如,ResNetC5)在他们的编码器,这限制了分割性能。与这些方法不同,我们采用可变形注意力[12]来实现我们的Transformer编码器。由于可变形注意力的低计算复杂度,我们的编码器可以细化并涉及位置编码[24]到高分辨率和多尺度特征图F。3.3. 解码器在本节中,我们首先介绍我们的查询解耦策略,然后我们将解释我们的位置解码器和掩码解码器的细节。作为1283∈∈HWL·×·×··× ×3.3.1查询解耦策略我们认为,使用一个查询集来处理这两件事和东西同样是次优的。由于它们之间有许多不同的性质,事物和材料很可能相互干扰,损害模型的性能,特别是对于 P Qs t 。 为了防止 事物 和 stuff相互干扰 ,我们在Panoptic SegFormer中应用了查询解耦策略,如图3所示。具体地,第N事物查询用于预测事物结果,并且第N素材查询仅针对素材。使用这种形式,事物和东西查询可以共享相同的管道,因为它们具有相同的格式。我们还可以根据不同的特性为事物或东西ARN×h×(L1+L2+L3)和细化查询Q从每个解码器层细化RN ×256,其中N = Nth+Nst是整个查询数,h是注意头数,L1+L2+L3是特征令牌F的长度。类似于方法[1,2],我们直接通过FC层在来自每个解码器层的细化查询Qrefine之上执行每个事物查询需要预测所有事物类别的概率。Stuff查询仅预测其对应的Stuff类别的概率同时,为了预测面具,我们首先将注意力地图A拆分并重塑为注意力地图A3,A4和A5,它们具有与C3,C4和C5相同的空间分辨率。该过程可以被公式化为:任务 在这项工作中,我们使用一个额外的位置解码器(A,A,A)= Split(A),A∈R××h,(1)来检测带有事物查询的单个实例,3 4 5223 4 5 6 7 8 9 9 101112 1213 14 1516 17 18 19 19 1这是一种区分不同情况的方法[6]。掩码解码器接受事物查询和填充查询,并生成最终的掩码和类别。注意,对于事物查询,通过二分匹配策略分配基础事实。对于stuff,我们采用固定类的赋值策略,每个stuff查询对应一个stuff类Thing和stuff查询将以相同的格式输出结果,我们用统一的后处理方法处理这些结果。3.3.2位置解码器在全景分割任务中,位置信息在区分具有不同实例ID的事物方面起着重要作用[22,28,29]。 受此启发,我们采用位置解码器将事物的位置信息引入可学习查询。具体地,给定第N个随机初始化的事物查询和由Transformer编码器生成的细化特征令牌,解码器将输出第N个位置感知查询。在训练阶段,我们在位置感知查询的基础上应用一个辅助的MLP头来预测目标对象的边界框和类别,我们用一个检测丢失检测器来监督预测结果。MLP头是一个辅助分支,可以在推理阶段位置解码器遵循可变形DETR [12]。值得注意的是,位置解码器可以通过预测掩模的质心而不是边界框来学习位置信息。这种无框模型仍然可以实现与我们的基于框的模型相当的结果。3.3.3掩码解码器所示图2(d),提出了掩码解码器,根据给定的查询来预测类别和掩码。掩码解码器的查询Q是来自位 置 解 码 器 的 掩 码 解 码 器 的 键 K 和 值 V 是 从 来 自Transformer编码器的细化特征令牌F投影的。我们首先通过掩码解码器传递事物查询,然后获取注意力地图其中Split()表示拆分和整形操作。之后,如Eq.(2),我们将这些注意力图上采样到H/8W/8的分辨率,并沿着信道维度将它们连接起来,A融合= Concat(A1,Up×2(A2),Up×4(A3)),(2)其中Up2()和Up4()分别表示2次和4次双线性插值运算。Concat()是连接操作。最后,基于融合的注意力图Afused,我们通过11卷积预测二进制掩码。以前的文献[12]认为,DETR收敛缓慢的原因是注意力模块同样关注特征图中的所有像素,并且学习关注稀疏有意义的位置需要大量的努力。我们在掩码解码器中采用了两个关键设计来解决这个问题:(1)使用超轻的FC头从注意力地图生成掩码,确保注意力模块可以由地面真实掩码引导来学习关注哪里该FC头仅包含200个参数,这确保了注意力地图的语义信息与掩码高度相关。直观地说,地面真值掩码正是我们期望的有意义的区域,注意力集中模块。(2)我们在掩码解码器中采用深度监督。每一层的注意力图都将由掩模来监督,注意力模块可以在早期捕获有意义的信息这可以大大加快注意力模块的学习过程。3.4. 损失函数在训练期间,我们的Panoptic SegFormer的整体损失函数可以写为:L=λthingsL things+λ stuffL stuff,(3)其中L 事 物和L 东 西分别是事物和东西的损失。λthings和λstuff是超参数。东西丢失。按照常见的做法[1,30],我们搜索预测之间的最佳二分匹配1284LLL∈L =λ L+(λLthingsdet 代克莱斯∈seg[27]第27话,LΣ我我CLSseg集和地面实况集。具体来说,我们利用匈牙利算法[31]来搜索具有最小匹配成本的排列,该最小匹配成本是分类损失 cls、检测损失det和分割损失 seg 的 总和。因此,事物类别的总体损失函数定义如下:DM算法1:Mask-Wise合并def MaskWiseMergeing(c,s,m):# categoryc ∈RN# confidence scoresRN#maskmRN×H×WSemMsk= np.zeros(H,W)IdMsk = np.zeros(H,W)我CLS我+λsegLi)、(4)order = np.argsort(-s)id = 0其中λcls、λseg和λloc是平衡三个损失Dm是掩码解码器中的层数对于i,顺序为:mi = m[i] 0.5(SemMsk==0)iifs[i]tcnformi<不要保持:Lcls是由Focal实现的分类损失继续m[i]>0。5我seg[32]第三十二话是分段损失,SemMsk[mi] = c[i]det是可变形DETR的损失,用于执行检测。东西丢失。我们使用固定的匹配策略。因此,在stuff查询和stuff类别之间存在一对一的映射。物料类别的损失类似地定义为:DMIdMsk[mi] =idid += 1returnSemMsk,IdMsk初始化为零。 然后,我们对预测结果进行排序,L东西=(λ我CLSLcls +λseg L分段),(5)将排序后的预测掩码依次填充到SemMsk和IdMsk然后我们丢弃置信度分数低于tcls的结果,其中Li和Li与等式中的那些相同。(四)、3.5. Mask-Wise合并推理Panoptic Segmentation要求为每个像素分配一个类别标签(或void)和实例ID(对于填充忽略)[6]。全景分割的一个挑战是它需要生成非重叠结果。最近的方法[1-虽然逐像素argmax策略简单有效,但我们观察到,由于异常像素值,它始终会产生假阳性结果。与逐像素argmax解决每个像素上的冲突不同,我们提出了通过重新解决预测掩模之间的冲突的掩模合并策略。具体来说,我们使用掩模的置信度来确定重叠区域的位置。受先前NMS方法[28]的启发,置信度分数考虑了分类概率和预测的掩模质量。第i个结果的置信度得分可以公式化为:si= p α×平均值(1{m [h,w]>0. 5}mi[h,w])β,(6)移除具有较低置信度分数的重叠仅保留具有足够分数的剩余非重叠部分,以最后,添加每个掩码的类别标签和唯一ID以生成非重叠全景格式结果。4. 实验我们在COCO [11]和ADE20K数据集[33]上评估了Panoptic SegFormer,并将其与几种最先进的方法进行了比较。我们提供了全景分割和实例分割的主要结果。我们还进行了详细的消融研究,以验证每个模块的效果。有关实施细节,请参阅附录4.1. 数据集我们在没有外部数据的COCO 2017数据集[11]上进行实验。COCO数据集包含118K个训练图像和5K个验证图像,它包含80个东西和53个东西。我们进一步证明了我们的模型在ADE20K数据集上的通用性[33],其中包含100件事和50件事。其中pi是第i个结果的最可能类概率。mi[h,w]是像素[h,w]处的掩码logit,α,β用于平衡分类概率和分割质量的权重如算法1所示,掩码合并策略将c、s和m作为输入,分别表示预测类别、置信度得分和分割掩码。它输出语义掩码SemMsk和实例id掩码IdMsk,以将类别标签和实例id分配给每个像素。具体来说,SemMsk和IdMsk首先是4.2. 主要结果全景分割。我们在COCO值集和测试开发集上进行了实验。在选项卡中。1和Tab。2、我们报告了我们的主要结果,并与其他先进的方法进行了比较。PanopticSegFormer在COCOval上达到49.6% PQ,ResNet-50作为主干和单尺度输入,并且它分别超过2.5% PQ和6.2% PQ,超过了先前的方法K-Net [4]和DETR [1]。除1285了出色的表现,1286SML×方法主干历元PQPQ thPQ st#P#F方法主干AP段AP段AP分段AP分段Panoptic SegFormer R501248.052.341.551.0214Panoptic SegFormerR502449.654.442.451.0214DETR [1]R10132545.150.537.061.8306Max-Deeplab-S [2]Max-S [2]5448.453.041.561.9162MaskFormer [3]R10130047.652.540.364.0248Panoptic SegFormerR1012450.655.543.269.9286Max-Deeplab-L [2]最大-L [2] 54 51.157.042.2451.0 1846Panoptic FCN [36] Swin-L† 36 51.8 58.6四十一点六MaskFormer [3]Swin-L†30052.758.544.0212.0792K-Net [4]Swin-L†3654.660.246.0208.9-Panoptic SegFormerPanoptic SegFormerSwin-L<$PVTv2-B5<$242455.855.461.761.246.946.6221.4104.9816349表1. COCO valset上的实验。#P和#F表示参数的数量(M)和 FLOP 的 数 量 ( G ) 。 Panoptic Seg- Former ( R50 ) 在COCOval上实现了49.6%的PQ,超过了先前的方法,如DETR [1]和MaskFormer [3],分别超过6.2% PQ和3.1% PQ。†注意到主干在ImageNet-22 K上进行了预训练。我们的(不含作物)R50 40.4 21.1 43.8 54.7我们的(含作物)R5041.721.945.3 56.3表4. COCO测试开发集上的实例分割。+掩码解码器24 48.5 51.0M214.8G 7.8+查询解耦24 49.6 51.0M214.2G 7.8表5.我们将DETR [1](R50 [23])的全景分割性能从43.4%PQ提高到49.6% PQ,具有更少的训练时期,更少的计算成本和更快的推理速度。carding整理stuff东东queries查询.在选项卡中。4.在COCO测试开发集上给出了实例分割结果 我们实现方法主干PQPQthPQstSQ RQMax-Deeplab-L [2]最大-L [2]51.357.242.482.561.3创新[35]MaskFormer [3]K-Net [4]Swin-L<$ Swin-L<$53.553.355.261.859.161.241.144.546.283.482.082.463.364.166.1Panoptic SegFormerR5050.255.342.481.960.4Panoptic SegFormerR10150.956.243.082.061.2Panoptic SegFormerSwin-L†56.262.347.082.867.1Panoptic SegFormerPVTv2-B5< $55.8 61.9 46.583.0 六十六点五表2. COCO测试开发集实验。†注意到back-bones在ImageNet-22 K上进行了预训练。结果与当前最先进的方法相当如QueryInst [13]和HTC [14],比K-Net [4]高1.8 AP。在训练中使用随机作物可以提高AP 1.3个百分点。4.3. 消融研究首先,我们在Tab中展示了每个模块的效果五、与基线DETR相比,我们的模型具有更好的性能,更快的推理速度,并显着减少了训练时间。我们默认使用Panoptic SegFormer(R50)进行消融实验。方法主干PQ PQth PQst平方RQ位置的影响-编码器 位置解码器#层PQPQ thPQ st表3.ADE 20K valset上的全景分割结果Panoptic SegFormer是高效的。在1个训练策略(12个epoch)下,Panoptic SegFormer(R50)实现了48.0%的PQ,比MaskFormer [3]训练300个epoch的性能高1.5%的PQ。通过视觉Transformer主干Swin-L [34]的增强,Panoptic SegFormer在COCO测试开发上达到了56.2% PQ的新记录,没有铃铛和 whistles ,超过了MaskFormer [3]超过2.9% PQ。我们的方法甚至超过了之前的竞争水平方法,在2.7% PQ上[35我们还通过采用PVTv 2-B5 [5]获得了相当的性能,而与Swin-L相比,Panoptic SegFormer在ADE 20 K数据集上的性能也优于Mask-Former 1.7% PQ [33],参见表1。3 .第三章。实例分段。Panoptic SegFormer可以转换为一个实例分割模型,只需要表6.地址解码器。位置解码器中的层的BER。由于位置解码器层较少,我们的模型在事物上的表现较差,并且它表明通过位置解码器学习位置线索有利于模型更好地处理事物。*注意,我们在位置解码器中预测质量中心,而不是边界框,并且这种无框模型实现了可比较的结果(49.2%PQvs. 49.6% PQ)。Mask-wise合并。如Tab中所示。7,我们在各种模型 上 比 较 了 我 们 的 mask-wise 合 并 策 略 与 pixel-wiseargmax策略。我们使用Mask PQ和Boundary PQ [41]来使我们的结论更可信。采用掩码合并策略的模型总是表现得更好。采用掩模方式合并的DETR比原始DETR的 性 能 高 1.3% PQ [1] 。 此 外 , 我 们 的 mask-wisemerging比DETR的pixel-wise argmax节省了20%的时间,Panoptic FPN [7]R503641.548.531.1--Mask R-CNN [40]R5037.521.139.648.3SOLOv 2 [28]R503642.149.630.7--SOLOv 2 [28]R5038.816.541.756.2DETR [1]R5032543.448.236.342.9248K-Net [4]R5038.619.142.057.7[21]第二十一话R503643.649.335.037.0244SOLQ [25]R5039.721.542.553.1K-Net [4]R503647.151.740.3--HTC [14]R5039.722.642.250.6MaskFormer [3]R5030046.551.039.845.0181QueryInst [13]R5040.623.442.552.8历元PQ#参数FLOPsFPS基线(DETR [1])32543.442.9M247.5G4.9+ 掩模合并32544.742.9M247.5G6.1++ ms变形注意力[12]5047.344.9M618.7G2.7047.050.042.5147.751.142.5248.151.842.56*(无盒)49.253.542.6649.654.442.4BGRNet [37]自动全景[38]舒MaskFormer [3]MaskFormer [3]R50ffleNetV2[39R50R10131.832.434.735.7-- 三十二点二34.5--39.738.0--76.777.4-- 四十二点八43.8帮助查询获取事物的位置信息。选项卡. 6显示了重新-1287PQ(%)0.9(a) 笔记本电脑(得分=0.92)(b) 关于Mask-WiseMerging5045(c) 原始图像403548.046.342.849.647.745.549.848.746.7我们49.948.947.30.8(d) 键盘(得分=0.79)(e) 关于Pixel-wiseArgmax(f) 地面实况300 5 101520253035我们的(不含DS)D-DETR-MS4045 50图4.当使用像素方式的argmax时,键盘被笔记本电脑覆盖(由(e)中的红色圆圈表示)。然而,笔记本电脑的分类概率比键盘高.像素级argmax策略没有利用这一重要线索。通过DETR-R50生成掩蔽对数[1]。方法PQ面罩PQSQRQBoundary PQ [41]PQ SQRQDETR(p)DETR(m)43.444.779.380.253.854.732.833.771.071.145.246.5D-DETR-MS(p)D-DETR-MS(m)46.347.380.081.156.556.837.138.072.172.350.251.0MaskFormer(p)MaskFormer(p*)MaskFormer(m)45.646.546.880.280.480.455.856.857.2-三十六点八37.6-七十二点五72.6-四十九点八51.1Panoptic SegFormer(p)PanopticSegFormer(m)48.449.680.781.658.959.939.340.473.073.452.954.2表7.掩模合并策略的效果。该表显示了不同后处理方法的模型结果,主干是ResNet-50。“(p)”是指使用逐像素argmax作为后处理方法。“(p*)” considers both class probability andmask prediction probability in its pixel-wise argmax strategy [采用逐掩模合并的具有“(m)”的模型历元图5. Panoptic SegFormer和D-DETR-MS的收敛曲线。我们用不同的训练时间表训练模型。“w/o ds” refers that we do notemploy deep supervision in the mask 学习率在曲线跳跃的地方降低第一层第三层第六层结果图6.掩码解码器中不同层的注意力映射。“ds” refers to deep掩码解码器,而注意模块在使用深度监督时关注上一层的目标车。注意力图与最终预测的掩码非常相似,因为掩码是由具有轻量级FC头的注意力图生成的。由于我们的掩码解码器可以从每一层生成掩码,我们评估方法PQ PQthPQst APbox APseg掩码解码器中每层的性能,见表1。10个。在推断期间-表10.掩码解码器中每层的结果表8.查询解耦策略的效果COCOval 2017上各种全景分割模型的 PQ和AP评分。用小面积的口罩。图4显示了使用逐像素argmax的一个典型失败案例。掩码解码器。我们提出的掩码解码器收敛速度更快,因为地面真实掩码引导注意力模块集中在有意义的区域。图5显示了几个模型的收敛曲线。我们只监督掩码解码器的最后一层,而不采用深度监督。我们可以观察到,我们的方法在训练24个epoch的情况下达到了49.6%的PQ,更长的训练几乎没有效果。然而,D-DETR-MS需要至少50个epoch来实现更好的性能。深度监督对于我们的掩码解码器执行更好和更快收敛至关重要。图图6示出了图6中的不同层的注意力图恩,使用前两层的掩码解码器将对和整个面具解码器一样它还可以更快地推断,因为计算成本降低了。PQ_th几乎不受层数的影响,PQ_st在第一层的表现稍原因是位置解码器对事物查询进行了额外的改进。查询解耦策略的效果我们将我们提出的查询解耦策略与以前的DETR8. 在DETR之后,联合匹配使用一组查询来针对事物和素材两者,并将所有查询馈送到位置解码器和掩码解码器两者。对于我们提出的查询解耦策略,我们使用事物查询通过二分匹配来检测事物,并使用位置解码器来细化它们。通过类固定的分配策略来分配填充查询。为了公平的比较,联合匹配策略和我们的查询解耦策略都使用353个查询。我们可以观察w/ds不含DSDETR [1]43.4 48.236.338.831.1D-DETR-MS [12]47.3 52.639.045.337.6[21]第二十一话43.6 49.335.036.634.5我们的(联合配对)48.554.539.544.137.7查询解耦(Query Decoupling) 49.654.442.445.639.5层PQ PQthPQstFps月148.854.340.510.6第249.554.542.09.8第349.654.542.39.3最后49.654.442.47.81288方法清洁是说模糊噪声数字天气运动德福克玻璃高斯高斯冲动枪Speck明亮Contr 萨图尔JPEG 雪斯帕特雾霜Panoptic FCN(R50)43.826.822.523.714.125.028.220.028.331.939.424.338.022.920.029.6 35.3 25.3MaskFormer(R50)47.029.524.928.116.429.531.224.730.934.842.527.541.222.020.431.0 38.5 27.7D-DETR(R50)47.630.325.628.716.829.732.524.931.435.943.128.641.324.521.731.7 39.7 28.7我们的(R50)50.032.926.930.217.531.635.527.935.438.645.731.343.929.024.335.0 41.9 32.3面罩成型器(Swin-L)52.941.737.338.030.439.342.342.542.845.349.743.949.439.735.245.2 48.8 37.9我们的(Swin-L)55.847.241.341.534.342.748.649.548.850.353.850.153.546.944.851.5 53.3 44.3我们的(PVTv 2-B5)55.647.041.541.136.142.548.449.648.450.453.550.853.046.242.450.3 52.9 44.3表11. COCO-C上的全景分割结果。为了减轻实验的工作量,我们使用了COCOval2017中的2000张图像的子集。第三列是16种腐败数据的平均结果。我们提出的战略大大提高了PQ测 试。此外,全景分割模型可以只利用其事物分割结果进行实例分割.然而,以前的全景分割方法总是表现不佳的实例分割任务,即使这两个任务是密切相关的。选项卡. 图8示出了各种方法的全景分割和实例分割性能。我们的查询解耦策略可以在全景分割任务上实现sota性能,同时获得有竞争力的实例分割性能。简而言之,查询解耦策略实现了更高的PQs
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功