没有合适的资源?快使用搜索试试~ 我知道了~
全景、实例和语义关系的关系上下文编码器用于增强全景分割
Shubhankar Borse *Hyojin Park *Hong CaiDebasmit DasRisheek GarrepalliFatih PorikliQualcomm AI Research †{sborse, hyojinp, hongcai, debadas, rgarrepa, fporikli}@qti.qualcomm.com12690全景、实例和语义关系:一种关系上下文编码器以增强全景分割0摘要0本文提出了一种将语义和实例上下文整合到全景分割中的新框架。在现有的工作中,通常使用共享的骨干网络来提取物体(如车辆)和物体(如道路)的特征。然而,这未能捕捉它们之间的丰富关系,这可以用来增强视觉理解和分割性能。为了解决这个问题,我们提出了一种新颖的全景、实例和语义关系(PISR)模块来利用这些上下文。首先,我们生成全景编码来总结语义类别和预测实例的关键特征。然后,将全景关系注意(PRA)模块应用于编码和骨干网络的全局特征图。它产生一个特征图,捕捉到1)语义类别和实例之间的关系,以及2)这些全景类别与空间特征之间的关系。PISR还自动学习将重点放在更重要的实例上,使其对于在关系注意模块中使用的实例数量具有鲁棒性。此外,PISR是一个通用模块,可以应用于任何现有的全景分割架构。通过在Cityscapes、COCO和ADE20K等全景分割基准上进行广泛评估,我们展示了PISR相对于现有方法的显著改进。01. 引言0全景分割[22]提供了一个统一的框架,包括语义和实例分割。其目标是将图像分割成物体和物体。物体包括可计数的对象,如汽车和行人,而物体则指的是不可计数的概念,如天空和植被。为物体生成单独的掩码类似于实例分割,而预测物体的掩码等同于执行语义分割。由于它旨在同时执行两个任务,全景分割提出了超越传统语义或实例分割的挑战。早期的工作[22]提出使用两个独立的模块来执行这两个任务,例如,一个用于实例分割的Mask-RCNN模块和一个基于FCN的用于语义分割的模块。然后,在后处理过程中将这两个输出组合起来生成全景分割。然而,这种情况下的准确性严重依赖于目标检测的质量。此外,使用两个独立的模块会导致冗余计算。0* 这些作者贡献相等。†Qualcomm AI Research是QualcommTechnologies, Inc.的一个倡议。0图1.我们提出的PISR模块将语义和实例分割的特征和预测作为输入,并应用关系注意机制。在这张图片中,我们展示了将PISR应用于具有ResNet50骨干的Panoptic-DeepLab模型时获得的输入/输出对。在许多实例混杂在一起的区域(用白色箭头表示)中,特征和全景预测的改进明显可见。特征图可视化为人类类别。0对于物体,生成全景分割相当于执行语义分割。由于它旨在同时执行两个任务,全景分割提出了超越传统语义或实例分割的挑战。早期的工作[22]提出使用两个独立的模块来执行这两个任务,例如,一个用于实例分割的Mask-RCNN模块和一个基于FCN的用于语义分割的模块。然后,在后处理过程中将这两个输出组合起来生成全景分割。然而,这种情况下的准确性严重依赖于目标检测的质量。此外,使用两个独立的模块会导致冗余计算。12700最近,[27]提出了一种通过自下而上、无框架的方法来同时处理物体和物体的架构。更具体地说,首先预测语义分割标签,然后根据分组像素来识别实例。这种架构提供了一种统一的方法,但它没有考虑语义类别和实例之间的关系。[51]提出的对象上下文表示(OCR)模块允许对语义类别之间的关系进行建模。然而,它是为语义分割任务设计的,没有考虑到实例信息,而实例信息对于全景分割是至关重要的。例如,两个图像可以具有相同的语义类别,但是它们在图像中的各自实例可能非常不同。我们的直觉是,在每个语义类别中,一些实例的视觉外观、大小和姿势可能截然不同,而其他实例可能看起来相似。因此,理解类别和实例之间的关系(例如,视觉相似性)将有助于全景分割。在本文中,我们提出了一种新颖的全景、实例和语义关系(PISR)模块,用于捕捉语义类别和实例之间的关键关系,以进行全景分割。给定一张图像,PISR计算语义类别和关键实例的编码。在此过程中,它自动识别出应该更加关注哪些实例。然后,PISR将注意力应用于这些编码以及全局特征,以捕捉对最终全景分割有用的丰富的上下文关系。PISR是一个通用组件,可以与任何全景分割网络一起使用,例如Panoptic-DeepLab[11],Panoptic FPN [21]和Maskformer[12]。据我们所知,这是首次明确利用语义类别和对象实例之间的关系进行全景分割。我们的主要贡献总结如下:0• 我们提出了一种新颖的Panoptic、Instance和SemanticRelations(PISR)模型,用于捕捉语义类别和实例之间的关系,提供了增强全景分割性能的更丰富的上下文。0•我们设计了一个可学习的方案,用于PISR,以在生成关系特征时自动关注更重要的实例。这提供了一种处理每个图像中不同数量实例的稳健方法。0•PISR是一个通用模块,可以在任何全景分割网络中使用。我们展示了它在多个数据集上显著增强了现有架构。我们还进行了广泛的消融研究,分析了PISR的各个方面。02. 相关工作0全景分割:旨在为每个图像像素分配实例和语义标签的全景分割0分割结合了实例和语义分割。最早用于全景分割的方法之一是利用来自单独的实例和语义分割模型的预测[ 22],但是使用它是低效的,因为这两个模型不共享参数。最近的方法可以分为两类:1)分离表示和2)统一表示。在第一种情况下,使用单个模型对实例和语义类进行分割,但通过两个不同的分支。物体通过框[ 10 , 25 , 50]或使用无框方法[ 49]进行分割。通常使用完全卷积分支对物质进行分割。使用分离表示的其他方法包括AUNet [ 26 ],Panoptic FPN [ 21]和UP- SNet [ 48]。相反,统一表示方法根据从共享层生成的特征对物体和物质进行分割[ 24 , 27]。然而,这些方法在生成特征和进行预测时没有考虑到物体和物质的上下文/关系信息。分割中的关系上下文:最近,研究人员开始研究学习和利用分割的关系信息。[ 12 , 20 ,51 , 55]利用注意机制捕捉图像上的像素相互依赖关系。具体而言,在[ 51]中,作者提出了对象上下文表示(OCR),它捕捉了像素级特征和对象区域表示之间的相关性,并在语义分割中实现了最先进的性能。然而,OCR只考虑整个类别区域,不能用于对象实例。在我们的工作中,我们超越了OCR,并提出了一种新颖的方法PISR,以学习和捕捉物体实例(物体)和物质之间的关系。我们提出的方法可以与任何现有的全景分割架构一起使用,并且可以显著提高分割性能,我们将在论文中看到。在[ 12]中,作者基于查询构建了基于变压器模型的隐式关系。与此不同,PISR是一个通用模块,用于捕捉全景类别之间的显式关系以及每个类别与场景之间的关系。此外,它重新加权每个组件,以便关注更有用的信息并增强任何现有模型,包括基于变压器的模型。03. 提出的方法0本节介绍了我们的新颖的Panoptic、Instance和SemanticRelations(PISR)模型,该模型捕捉了从语义和实例特征到生成更丰富的用于全景分割的最终表示的关系。我们在第3.1节中概述了PISR的概况以及它如何与任何给定的基础架构(例如,现有的全景分割模型)配合使用,然后讨论了它的。0参见[ 2 , 9 , 14 , 17 , 23 , 31 , 37 , 39 , 40 , 43 , 44 ]和[ 3 , 4 , 6 – 8 , 16 , 20 , 33 , 42 , 51 –0[ 55 ]是关于实例和语义分割的最新方法,[ 5]是关于将分割用于其他任务的方法,[ 34 ]是一篇广泛的调查。12710图2. 左:传统的全景分割架构。右:我们提出的可以与任何基础全景分割模型配合使用的全景、实例和语义关系(PISR)框架。0在第3.2节,第3.3节和第3.4节中,我们详细介绍了PISR生成初始全景编码、重新加权和应用注意力捕捉关键相关性的过程。03.1. 应用PISR进行全景分割0通常,通用的全景分割架构由四个部分组成:1)用于特征提取的主干网络,2)输出语义分割的语义生成器,3)输出实例分割的实例生成器,以及4)将这两种类型的分割组合起来生成最终全景分割的后处理模块。如图2(左)所示。我们将这样的全景分割流程称为基础架构,它包括了大多数现有方法。PISR是一个通用模块,可以附加到任何全景分割架构上。这不仅包括传统的架构[11, 21,27],还包括最新的最先进模型[12,41]。首先,它获取语义(物体)和实例(事物)生成器的输出。只使用置信度最高的前K个预测来限制实例为更可靠的实例。我们将这些输出中的每个语义类别和每个选定的实例称为全景类别(例如,汽车类别,人物1,人物2)。PISR为每个全景类别生成一个初始编码,该编码总结了分配给该类别的像素的关键特征。然后,它自动重新加权这些初始编码以突出更重要的特征。接下来,将加权的全景编码输入到全景关系注意力模块中,然后将增强的特征发送到预测阶段生成最终的全景分割。这些步骤如图2(右)所示。当我们对具有PISR的架构进行端到端训练时,我们对最终估计输出应用通常的语义和实例分割损失。此外,我们还对来自基础架构的语义和实例生成器的中间输出施加语义和实例损失。更具体地说,我们的总训练损失函数可以写成如下形式:0L = γ ∙ (L ′ sem + L ′ ins) + L sem + L ins,(1)0其中L sem和Lins分别是预测最终实例和语义分割的损失函数,L ′ sem和L′ ins是中间语义和实例的损失函数0损失函数,γ被视为超参数。对于中间和最终的监督,我们应用与训练每个基础架构所使用的相同的损失函数,如其原始论文中所报告的。例如,当使用Panoptic-DeepLab[11]作为基础模型时,语义分割由交叉熵损失进行监督,而实例掩码由中心热图的均方误差损失和偏移的L1损失进行监督。每个实验的训练细节和超参数在附录中讨论。03.2. 生成初始全景编码0给定主干网络提供的特征,我们生成总结语义类别和选定实例的关键特征的全景编码。生成全景编码的过程如图3(a)所示,并在接下来的内容中进行详细描述。语义编码:假设主干网络生成一个特征图F ∈RC×HW,其中C、H和W分别是特征图的通道数、高度和宽度。将F作为输入,语义生成器产生一个软语义分割图S ∈RNsem×HW,其中Nsem是语义类别的数量,对于每个像素位置,一个概率向量表示该像素属于不同类别的可能性。我们通过将S和F相乘来计算语义编码Esem ∈RNsem×C:Esem = SFT。这些编码包含了语义类别的最显著特征。实例编码:标准的实例预测包含一个质心M ∈ R1×HW和一个质心偏移O∈R2×HW。M是物体性得分,我们使用它来选择置信度最高的前K个质心位置,如图5(e)、(f)所示。给定这K个选定的质心,我们根据它们的质心偏移产生K个初始热图。然后,我们将预测的语义分割S转换为物体和背景的二进制分割,并将其与初始热图相乘以抑制背景。生成的实例热图记为0我们通过执行简单的实例中心回归来生成初始实例热图Hinit∈RK×HW:Hinst(i,j)=1−C(M(i,j)−(i+Ox(i,j),j+Oy(i,j))),其中C是一个归一化常数,(i,j)是像素位置。我们在附录中提供了这些初始实例热图的进一步可视化。to leverage the underlying relational contexts, we devisea Panoptic Relational Attention (PRA) module computingcorrelations across the panoptic categories based on panop-tic encodings. PRA takes global features F and panopticencodings ˜Epan as input. Two stages of attention are thenapplied to extract various types of correlations. The detailsof PRA are shown in Figure 3 (b) and discussed as follows.First, we correlate the weighted panoptic encodingswith the spatial features. This produces a spatial panop-tic feature map: Fsp = gs( ˜Epan)T h(F), where Fsp ∈R(Nsem+K)×HW , and gs and h contain 1×1 and 3×3 con-volutional layers, respectively. This captures the panopticsignals in each pixel location. Next, we take the spatialpanoptic feature map Fsp and correlate it with the weightedpanoptic encodings ˜Epan. This produces the final panopticsegmentation features: Fpan = gq( ˜Epan)T gp(Fsp), whereFpan ∈ RC×HW and gp and gq contain 1×1 convolutionallayers. This final feature map Fpan carries the enhancedpanoptic signals over the spatial pixel locations and is fedto the final prediction stage to generate the semantic andinstance segmentation, and the final panoptic segmentation.12720图3. (a) 生成初始全景编码的详细信息。(b)PISR如何重新加权初始编码,并随后通过使用PRA应用两阶段注意力生成最终的全景分割特征的详细信息。0作为I∈RK×HW。最后,我们通过将I和F相乘来计算实例编码Eins∈RK×C:Eins=IFT。全景编码:将语义编码和实例编码连接起来形成最终的全景编码:Epan∈R(Nsem+K)×C。每个全景编码都总结了语义类别或所选实例的关键特征。03.3. 重新加权全景编码0给定全景编码Epan,我们根据其重要性进一步对其进行重新加权。具体来说,我们使用一个小的2层全连接网络,带有一个sigmoid输出层来生成权重。它以Epan作为输入,输出权重向量ω∈R(Nsem+K)×1。ω中的每个元素都是全景类别的预测重要性分数。然后,我们计算加权全景编码如下:˜Epan=Epan◦[ω],其中[ω]∈R(Nsem+K)×C。0是Epan在C维度上广播的版本,◦是逐元素乘积。通过这样做,PISR学会了关注重要的语义类别和实例,同时抑制不相关的类别。尽管这个重新加权网络采用了简单的结构,但它为PISR提供了更强大的对K的鲁棒性。正如我们将在实验中看到的那样,随着K的增加,这种重新加权使PISR能够生成改进的全景分割,而没有加权的情况下性能可能会下降。通过分析输出权重,我们发现重新加权网络学会了降低场景中不存在的类别和误报的实例的权重。03.4. 全景关系注意力0全景分割需要对场景进行整体理解,包括物体和背景。然而,现有方法没有充分利用语义类别和实例之间的关系。为了使网络能够利用底层的关系上下文,我们设计了一个全景关系注意力(PRA)模块,根据全景编码计算全景类别之间的相关性。PRA将全局特征F和全景编码˜Epan作为输入。然后应用两个阶段的注意力来提取各种类型的相关性。PRA的详细信息如图3(b)所示,并按如下方式进行讨论。首先,我们将加权全景编码与空间特征进行相关。这产生一个空间全景特征图:Fsp=gs(˜Epan)Th(F),其中Fsp∈R(Nsem+K)×HW,gs和h包含1×1和3×3的卷积层,分别。这捕捉了每个像素位置的全景信号。接下来,我们将空间全景特征图Fsp与加权全景编码˜Epan进行相关。这产生最终的全景分割特征:Fpan=gq(˜Epan)Tgp(Fsp),其中Fpan∈RC×HW,gp和gq包含1×1的卷积层。这个最终的特征图Fpan在空间像素位置上携带了增强的全景信号,并被送到最终的预测阶段生成语义和实例分割以及最终的全景分割。03个更大的重新加权网络没有带来显著的改进。04. 实验0在本节(以及补充文件中),我们对PISR在大型基准数据集上进行了全面的性能评估,将其与基线和当前最先进技术(SOTA)进行了比较,并对PISR的各个方面进行了广泛的消融研究。04.1. 实验设置0contains 20,210 training, 2,000 validation and 3,000 test im-ages, with 35 stuff and 115 thing classes.Networks and Training: We implement PISR with sev-eral state-of-the-art base panoptic segmentation architec-tures including Panoptic-DeepLab [11], Panoptic-FPN [21],and Maskformer [12]. We experiment with various back-bones for these models, including ResNet-50, ResNet-101 [18], HRNet-w48 [42], Swin-L [32] and ResNet-50-FPN [21]. When training each base architecture with PISR,we use the original semantic and instance loss functionsfor both intermediate and final supervisions.We followthe original training settings, e.g., hyperparameters, train-ing schedule, etc. Training details and hyperparameters areincluded in the supplementary material.Baseline: In addition to comparing with the existingpanoptic segmentation models, we also implement a strongbaseline where the Object-Contextual Relationship (OCR)module [51] is applied to Panoptic-DeepLab. By comparingwith this baseline, we directly show the advantage of lever-aging both things and stuff relations in PISR, as comparedto OCR which only considers semantic classes.Evaluation Metrics: We use standard metrics to evalu-ate panoptic segmentation performance, including panopticquality (PQ) [22], semantic quality (SQ), and recognitionquality (RQ). We further report PQ scores for things andstuff, denoted as PQth and PQst, respectively. For seman-tic segmentation and instance segmentation predictions, wereport mean Intersection over Union (mIoU) and Mask Av-erage Precision (AP) [29] scores, respectively.12730图4.在PISR之前和之后对三个样本类别(顶部:交通标志,中部:汽车,底部:人)的panoptic分割特征进行可视化。在四列中,我们展示了:(a)输入RGB图像,(b)在PISR之前给定类别的热力图可视化,(c)在PISR之后给定类别的热力图可视化,以及(d)最终的panoptic分割结果。较暗的红色(较浅的蓝色)表示特征图中较强(较弱)的信号。通过PISR,目标类别对象的形状被更准确地捕捉到,并且它们的信号明显更强。在多个实例相互作用的区域,PISR还能够捕捉到更清晰的特征,如人和汽车等实例的清晰边界所示。改进的样本通过方框进行了突出显示。04.2. 热力图可视化0我们通过使用我们提出的PISR(列(c))来展示增强的热力图的可视化效果,以及原始的热力图(列(a))和没有PISR的热力图(列(b))。0在图4的第(b)列中,我们展示了没有PISR的初始panoptic分割特征。对于每一行,我们可视化了一个样本类别的热力图。同一类别的所有选定实例的热力图被叠加在同一张图像上,以便更好地进行可视化。可以看到,PISR显著改善了目标类别的识别,如较暗的红色所示的更强信号。我们还观察到,PISR能够识别出与许多实例相互作用的区域周围的更清晰边界。在图5中,我们展示了两个使用OCR和PISR训练的Panoptic-DeepLab-ResNet50模型的可视化结果。我们将获得的语义和中心(S+C)热力图叠加在“火车”类别上并呈现在一起。我们还展示了两个模型的最终预测结果。可以看到,OCR和PISR都生成了类似的语义热力图;然而,与PISR相比,OCR为“火车”类别预测了多个中心点,导致实例分割结果较差。在这种情况下,尽管两个中间预测结果相似,但PISR能够通过将实例信息纳入其关系注意机制中有效地纠正错误。04.3. 评估结果0Cityscapes:我们在表1和图6中报告了Cityscapes-val数据集上的结果。我们将Panoptic-DeepLab与不同的主干网络作为基础模型,并使用PISR对这些网络进行训练。在表1的第一部分中,我们与最近使用ResNet-50或其变种作为主干网络的方法进行比较。可以看出,我们提出的PISR模块显著提高了基础模型的全景分割性能,并且优于其他流水线。与基线相比,PISR相对于原始Panoptic-DeepLab的增益要大得多。Panoptc FPN [21]RN50-FPN58.133.075.7UPSNet [48]RN50-FPN59.333.375.2Unifying [25]RN50-FPN61.433.379.5LPSNet [19]RN50-FPN60.433.078.6Seamseg [36]RN50-FPN60.233.374.9COPS [1]RN5062.1--Panoptic FCN [27]RN50-FPN61.4--AdaptIS [39]RN5059.032.375.3Panoptic-DL [11]RN5059.932.178.5Panoptic-DL [11] + OCRRN5060.732.179.6Panoptic-DL [11] + PISRRN5062.233.380.2AdaptIS [39]RNX10162.036.379.2UPSNet [48]RN10161.839.079.2Panoptc FPN [21]RN101-FPN61.236.780.4EfficientPS [35]EffB563.938.379.3Panoptic-DL [11]RN10160.533.779.0Panoptic-DL [11]X7163.035.380.5SplitMethodBackbonePQPQthPQst12740图5.OCR和PISR之间的比较可视化。对于(e)和(f),我们将语义热图和实例中心结果叠加在一起显示“train”类。请注意,OCR预测出多个重叠的中心,即使“train”类的实例数量只有一个。OCR不考虑实例特征,因此无法纠正实例预测错误。另一方面,PISR通过分析它们之间的相似性包含每个语义和实例特征,从而成功生成更好的实例掩码和中心。0使用OCR。这是因为PISR考虑了语义类别和关键实例之间的关系,而OCR只利用了语义关系。在表1的第二部分中,我们与使用更大的主干网络(例如ResNet-101,EfficientNet)的SOTA方法进行比较。在这种情况下,我们使用HRNet-w48主干网络。我们增强的PISRPanoptic-DeepLab优于SOTA方法。为了公平比较,我们考虑使用ImageNet预训练权重初始化的这些网络的版本,并进行单尺度推理。40图6显示了使用Panoptic-DeepLab(ResNet-50)在没有和有PISR的情况下获得的定性结果。从突出显示的区域可以清楚地看出,使用PISR相对于基线预测来说,整体分割更准确。例如,PISR成功利用全景关系预测了“building”的正确语义标签(而不是“sky”),即使其中包含了天空的反射。COCO:我们在表2中总结了在COCO数据集上的结果。我们将PISR应用于不同的基础架构和各种主干网络,并与最近的SOTA方法进行比较。可以看出,通过添加PISR,我们显著提高了基础模型的全景分割性能。例如,对于使用ResNet-50主干网络的Panoptic-DeepLab,PISR将PQ得分从35.5提高到38.8,并且优于使用OCR的选项,其PQ得分为37.2。我们还与COCO验证集和测试集上的最新SOTA方法进行比较。我们训练了一个针对全景分割进行修改的基线UPerNet模型。04多尺度推理是一种计算成本较高的技术,原则上可以应用于任何网络,包括PISR增强模型。在我们的评估中,我们不应用多尺度推理,以确保与所有不使用多尺度推理的最新工作进行公平比较。0方法 主干网络 PQ AP mIoU0Panoptic-DL [11] HR48 63.4 36.2 80.60Panoptic-DL [11] + PISR HR48 64.1 37.6 80.70表1.在Cityscapes验证集上的定量评估,以PQ、AP和mIoU为指标。我们使用RN-50(上部分)或其他变种(下部分)作为骨干网络与现有方法进行比较。我们还将PISR应用于具有HRNet-w48骨干网络的Panoptic-DeepLab,并将其与使用更大骨干网络的其他现有方法进行比较。我们报告了使用ImageNet预训练权重初始化的模型性能。RN、RNX、Eff和HR48分别表示ResNet、ResNeXt、EfficientNet和HRNet-w48。灰色行是本文介绍的新模型。每个部分中的最佳结果以粗体突出显示。0验证0UPSNet [48] RN50-FPN 42.5 48.5 33.4 AUNet [26] RN50-FPN 39.649.1 25.2 CIAE (640) [15] RN50-FPN 39.5 44.4 33.1 COPS [1] RN5038.4 40.5 35.2 OANet [30] RN50-FPN 39.0 48.3 24.9 AdaptIS [39]RN50 35.9 40.3 29.3 SSAP [14] RN50 36.5 40.1 32.0 LPSNet [19] RN5039.1 43.9 30.10Panoptic-FPN [21] RN50-FPN 39.2 46.6 27.90Panoptic-FPN + PISR RN50-FPN 42.7 48.7 33.60Panoptic-DL [11] RN50 35.5 37.8 32.00Panoptic-DL [11] + OCR RN50 37.2 38.9 35.70Panoptic-DL [11] + PISR RN50 38.8 40.6 36.20Panoptic-DL [11] HR48 37.8 - -0Panoptic-DL [11] + PISR HR48 40.7 42.6 37.70Panoptic-FCN [27] Swin-L 52.1 58.5 42.3 Pan-SegFormer [28]PvTv2-B5 54.1 60.4 44.6 Pan-SegFormer [28] PvTv2-B2 52.6 58.2 43.3Max-DeepLab [41] Max-L 51.1 57.0 42.2 MaskFormer [12] Swin-L 52.758.5 44.00UPerNet [47] Swin-L 50.3 55.7 42.10UPerNet [47] + PISR Swin-L 52.9 58.9 43.80测试0Panoptic-FCN [27] Swin-L 52.7 59.4 42.5 Refine [38] RNX101-FPN51.5 59.6 39.2 Max-DeepLab [41] Max-L 51.3 57.2 43.40UPerNet [47] Swin-L 50.9 56.7 42.30UPerNet [47] + PISR Swin-L 53.2 59.2 44.20表2. 在COCO验证集和测试集上的定量评估,以PQ、PQ th和PQst为指标。RN和HR48分别表示ResNet和HRNet-w48。灰色行是本文介绍的模型。最佳结果以粗体突出显示。0任务。然后我们将添加了PISR块的UPerNet模型进行比较。我们获得了52.7的PQ分数,比基线模型提高了2.4个PQ。从数字上可以看出,我们的方法在验证集和测试集上与最新的SOTA方法具有可比较的性能,并且排名better accuracy gain as compared to simply scaling up thebackbone. For instance, when switching from ResNet-50to ResNet-101, Maskformer increases its PQ from 34.7 to35.7 on ADE20K, with GFLOPS increased from 116.6 to159.3 and throughput decreased from 21.1 FPS to 19.6 FPS.On the other hand, by adding PISR to Maskformer withResNet-50, we achieve a higher PQ of 36.1, incur a smallerGFLOPS count of 136.0 and only slightly lower through-put of 20.4 FPS. Similarly, for Panoptic-DeepLab, usingPISR allows more accuracy gain and has less computationincrease as compared to scaling up the backbone.Figure 8 provides a graphical illustration on using dif-ferent ways to enhance panoptic segmentation accuracy byadding computation. The grey curve shows the effect ofsimply scaling up the baseline network. The blue dot showsthe accuracy and computation resulted from applying theOCR module. The red curve shows the accuracy and com-putation of using PISR, by varying the intermediate numberof channels in the PISR block. It can be seen that PISRprovides a much better accuracy-computation trade-off ascompared to scaling up the backbone or using OCR. Wealso show the effect of using PISR but without reweightingthe encodings. While this has a lower accuracy and usesless computation, it still provides a favorable trade-off.12750方法 骨干网络 PQ PQ th PQ st SQ RQ0Panoptic-FCN [27] RN50 30.1 34.1 27.3 - - BGRNet [45] RN50 31.8 34.127.3 - - Auto-pan. [46] SV2 32.4 33.5 30.2 - -0MaskFormer [12] RN50 34.7 32.5 38.0 76.3 41.70MaskFormer + PISR RN50 36.1 34.7 39.0 78.3 44.3 MaskFormer RN101 35.734.5 38.0 77.4 43.80MaskFormer + PISR RN101 37.0 35.6 39.7 79.9 45.20表3.在ADE20K验证集上的定量评估。RN和SV2分别表示ResNet和ShuffleNetV2。灰色行是本文介绍的新模型。最佳结果以粗体突出显示。0图6. Cityscapes上的定性结果:(a) 输入图像。(b)使用Panoptic-DeepLab (ResNet-50)的预测结果。(c)应用PISR到Panoptic-DeepLab(ResNet-50)后的结果。整体全景分割质量通过PISR得到了改善。虚线框突出显示了PISR显著提升基线预测的示例区域。0在公共排行榜上位居前列的方法。ADE20K:我们进一步在ADE20K上评估了PISR。从表3中可以看出,通过将PISR应用于在ADE20K上具有SOTA性能的MaskFormer,我们进一步提高了其准确性。例如,当使用ResNet-101骨干网络时,PISR将PQ分数从35.7提高到37.0。图7显示了使用MaskFormer(ResNet-50)在没有和有PISR的情况下获得的定性结果。总体而言,PISR通过更清晰的边界和更完整的物体掩模(例如底部示例中的毛巾)提高了分割质量。此外,PISR能够纠正完全错误的掩模。例如,当仅使用基线模型时(用框突出显示),顶部示例中的托盘被错误地分类为肖像,因为上面
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功