泛光细化网络（PRN）：一种提高全景分割准确性的方法

74 浏览量更新于2023-10-16 收藏 1.79MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

3963全光学细化网络孙波1权健1林哲1莫道海2陈晓11Adobe Inc.{bosu，kuen，zlin，sichen} @adobe.com2史蒂文斯理工philippos. stevens.edu摘要全景分割是将图像中的每个像素唯一地分配给语义标签或单个对象实例的任务，从而生成连贯且完整的场景描述。然而，许多当前的全景分割方法在单独的分支中预测语义类和对象实例的掩码，从而产生不一致的预测。此外，由于现有技术的全景分割模型依赖于框建议，因此预测的为了克服这些局限性，我们提出了泛光细化网络（PRN），它从基础泛光分割模型中提取掩模，并对其进行联合细化，以产生一致的结果。PRN扩展了Panoptic-Deeplab的基于偏移地图的架构，具有几个新颖的想法，包括前景掩模和实例边界框偏移，以及用于改进空间预测的坐标卷积。在COCO和Cityscapes上的实验结果表明，PRN可以显着提高各种全景分割网络的准确结果。1. 介绍全景分割以统一的方式解决语义和实例分割，旨在将每个像素分配给背景类之一（即，stuff）或对象实例之一（即，（22）。通过引入几个开源数据集（例如， Cityscapes [11] ， COCO [33] ， Mapillary Vistas[37]），全景分割自引入以来已迅速成为一个流行的研究主题，导致重大进展[8，9，17，21，24，26，27，34，45，47，49，51]。尽管取得了这一进展，但全景分割结果仍然受到各种伪影的影响。这些伪像中的一些是由于问题的难度，并且是由遮挡、实例之间的视觉相似性等引起的。然而，其他伪影是由所使用的全景分割模型的限制引起的。我们区分了导致实例和内容之间或不同实例之间边界不准确的限制，主要是由于组件图1.顶行：通过MS-PanopticFPN的输入全景分割。第二行：PRN对天空和地面进行较大的校正，对所有实例进行较小的校正。底行：PRN能够恢复输入（左）中请注意，实例掩码的颜色表示实例的索引，而不是其类标签。在低分辨率下操作的全景分割网络，以及由于通常由网络的不同分支进行的语义和实例预测的不完美合并而例如，上述问题在Panoptic FPN [21]的结果中表现出来，Panoptic FPN是一种开创性的全景分割方法。Panoptic FPN是一种两阶段方法，它依赖于Mask R-CNN [15]来提取感兴趣区域（RoI）特征并生成低分辨率（例如，14×14或28 ×28）实例掩码建议。许多subse-3964quent全景分割方法[8，27，26，34，38，40，51]也依赖于基于低分辨率RoI的掩模预测。这样的低分辨率掩模不能精确地捕捉对象边界的精细细节，并且不能实现高质量的分割结果。此外，通常的解释方法训练独立的实例分割和语义分割分支来分别预测实例这通常需要启发式驱动的后处理[21]来解决全景分割图中的实例和填充掩码之间的冲突，可能会产生不满意的结果。为了解决当前全景分割方法的上述弱点，我们提出通过开发用于全景分割的新的专用掩模细化网络来细化其低分辨率掩模预测。我们的设计受到以下观察的启发：单次全景分割网络（如Panoptic-DeepLab [9]）能够预测实例和内容的高分辨率掩码，但与利用对象建议的两阶段方法相比，识别准确率较低我们建议通过重新利用类似于Panoptic-DeepLab的架构来改进图像的初始全景分割，而不是从头开始使用它来分割图像，从而实现两全其美。这使我们能够从正确识别但不精确分割的输出中受益，该输出来自可以获得精确分割边界的框架中的两级全景分割网络，以及学习校正基础全景分割网络的系统误差，如图1B所示。1.如第2节所讨论的，语义分割细化方法在全景分割细化中不足。SegFix [55]可以说是最先进的，但仍然不能生成缺失的掩码，并且在我们的实验中优于PRN。为了实现这些目标，我们扩展了Panoptic- DeepLab架构，其中具有预测每个像素处的前期遮罩和边界框偏移的机制。前景遮罩是类不可知的，这允许网络以高分辨率预测它，从而实现事物遮罩和填充遮罩之间更同时，边界框偏移量在将像素分组到实例中起着重要作用它们通过在编码器和解码器中使用Co- ordConv[35]来辅助。总之，我们提出了全景细化网络（PRN），这是一种通用的，有效的，高效的细化方法，可以训练，以改善任何基础全景分割网络的结果。这是解决现有两阶段全景分割方法的分割质量限制的第一种方法，同时保留或改进其强大的分类性能。本文的贡献如下：• 一个全景细化网络，提高了跨实例和内容的边界一致性，减少了人工智能，事实，由于低分辨率的实例掩码，并能够插入和删除实例掩码。• PRN的架构中的新颖性，诸如前期掩模估计、坐标卷积和每像素实例边界框预测，其实现上述校正并且通常适用。• 广泛的实验和消融研究评估PRN2. 相关工作在本节中，我们将重点介绍采用深度网络的方法，同时承认早期的传统方法也已发表[43，44，53]。有几种方法[8，21，27，26，39，40，51]采用两阶段或自上而下的架构，受 Mask R-CNN [15] 的启发。Kirillov等人[21]使用共享的特征金字塔网络主干赋予Mask R-CNN一个语义分割分支。Li等人。[27]提出了一个统一的框架，例如具有对象级和像素级注意力的材料分割。Porzi等人[39]采用裁剪感知边界框回归损失来处理高分辨率图像中各种尺度的对象，扩展了他们以前的工作[38]。自适应实例选择（AdaptIS）网络[40]基于点建议执行类不可知的实例分割，而基于样本的开集全景分割网络（EOPDSN）[18]可以分割已知和未知的物体。BANet [8]基于双向学习管道，支持实例和语义分割之间的特征级交互类似地，双向图推理网络[49]是一种用于在建议和类级别进行双向特征融合的图卷积网络。上述方法的局限性在于，它们不优化全景损失函数，而是优化被逐层融合引入全景损失Liu等人。[34]提出了一种用于全景分割的端到端遮挡感知网络，该网络还预测了实例的排序。UPSNet [51]依赖于用于语义分割的可变形卷积和Mask R-CNN风格的实例分割，以同时解决这两个子问题SOGNet [52]通过引入场景重叠图来建模实例之间的重叠关系。Li等人。[26]提出了一种端到端网络，它不依赖于启发式后处理，因此统一了训练和推理管道。为了解决实例分割中的遮挡问题，Lazarow et al.[24]对重叠实例掩码之间的我们现在将注意力转向单次（single-shot）或自底向上（bottom-up）方法，这些方法不需要对象提议。PRN也可以应用于这些方法的输出，如第4节所示。Cheng等人[9]引入Panoptic-DeepLab，它采用了与类无关的实例分段分支3965实例中心回归与DeepLab [5]语义分割输出相结合。SSAP [12]是一种基于像素对亲和金字塔的单次实例分割方法，其以分层方式计算两个像素属于同一实例的概率。类别和实例感知像素嵌入（CIAE）[13]学习对语义分类和实例区别信息进行编码的逐像素特征的嵌入像素共识投票[45]使用广义Hough变换进行分割，并使用统一的架构对事物和东西进行联合建模。类似地，Li et al.[28]以完全卷积的方式表示和预测事物和东西，而Kerola等人。[19]提出了高层次的L ova′sz嵌入为同一目的。Axial-DeepLab [47]是一个完全注意力网络，具有新颖的位置敏感轴向注意力层，将非局部交互的自我注意力与位置敏感性相结合。随后的MAX-DeepLab [46]在双路径架构中集成了Transformer和CNN，并使用掩码Transformer直接预测一组对象和填充掩码。检测转换器（DETR）[4]引入了一种基于集合的全局丢失，通过二分匹配强制进行唯一预测，以及一种Transformer编码器-解码器架构。DETR是我们实验中的基础网络之一。随着Transformer技术的快速发展，它已得到扩展[29，54]。还研究了全景分割的其他方面。实时全景分割[17，48]对于机器人和自动驾驶很有价值。Hou等人[17]提出了一种新的单次全景分割网络，该网络利用密集检测和全局自注意机制来实现高帧速率，同时精度损失很小。自动全景方法[50]在全景分割的组件上应用网络架构搜索（NAS）。与我们的工作相关的还有语义[14，5，30]和实例分割[56，10]细化方法。然而，前者不能处理相同类型的实例之间的边界，而后者每次细化一个实例。SegFix [55]是一种最新的模型不可知的后处理方案，它改进了现有方法生成的分割关键的想法是，由于内部像素的标签预测更可靠，它们可以用来纠正边界附近的错误。与PRN不同，SegFix不需要为每个基线方法进行训练，但PRN可以恢复完全丢失的掩码，并删除大的在我们的实验中包括Seg- Fix。全景、实例和语义关系（PISR）模型[2]捕获语义类和实例之间的关系，并且能够增强现有全景分割系统的性能PISR发表得太晚，无法进行详细的比较，但它似乎实现了类似的改进在公共输入上的PRN。3. Panoptic Refinement Network（PRN）我们提出了Panoptic细化网络（PRN），一个编码器-解码器，它联合细化由基础panop- tic分割网络生成的实例和语义分割掩码。我们基于PRN的设计在Panoptic-DeepLab [9]上，因为它可以联合预测实例和内容的高分辨率掩码。这是由于它的单镜头方法和基于中心的实例预测机制。然而，根据Kirillov等人引入的识别质量（RQ）度量，Panoptic-DeepLab的分类准确性较差。[22]第20段。这是由于在逐像素扫描分割训练样本中的严重类别不平衡。训练往往由与实例类别相比在图像中具有更大像素计数的材料类别主导。相比之下，两阶段全景分割方法使用单独的头部来检测和分类实例，因此受类别不平衡的影响较小。这一观察促使我们将Panoptic-DeepLab的角色从从头开始进行全景分割的传统方法改变为全景细化模块，该模块从经过训练的两阶段全景分割网络中获取分类良好但粗略分割的输出，并专注于细化其低分辨率掩模以实现高质量分割。然而，直接应用Panoptic- DeepLab的架构作为细化模块受到若干限制。首先，为了防止过多的内存消耗，语义分割分支其次，使用实例中心预测和中心偏移回归检测实例不够鲁棒，并且可能不正确地将实例分割成多个实例。我们在PRN中引入了一些新的想法来解决这些限制。除了Panoptic-DeepLab中的原始预测分支之外，我们还提出了一个与类别无关的前景掩模预测分支，该分支以与输入相同的高分辨率进行操作。为了使实例预测更鲁棒，PRN的实例分支预测每个前地/实例像素的边界框偏移值，然后将其用于在后处理中对实例像素进行分组。此外，我们通过使用CoordConv使网络更具坐标感知能力来提高PRN3.1. 整体架构如图2、PRN将来自基础网络的RGB图像、PRN由四个部分组成：（1）输入模块，其从RGB图像、实例和语义分割掩模中提取并连接特征，39661111111481美元 3 1$84语义分割133×��×��44CoordConv1、14、2Concatenate一，一，1、1、421、41，4SkipConlineons编码器-解码器（ResNet）1、中心贴图中心偏移贴图Bbox偏移贴图（1 + 2 + 4）×��RGB图像3×��×��上采样×44Rins4.第一章44444∈语义分割133×��×��44后处理PPGBF多数表决最终合并实例分割前景掩模1× ×W输出中心偏移贴图输出框偏移贴图2 + 4 ×× ×W输出中心图1×��×��全景分割一，四，一，四图2.概述了泛光细化网络（PRN）的体系结构。PPGBF是Post-Processing Guided by Bounding Box and Foreground Mask的缩写。图3.Bus实例的绿色像素的4D边界框偏移（红色）的图示出于同一实例的像素应该与同一边界框相关联的直觉，我们设计了一种新颖的4D边界框偏移图，该偏移图补充了中心和中心偏移图，以进一步约束PRN如何检测实例。如图3，四个通道（d1，d2，d3，d4）对应于从像素到实例边界框的顶部，底部，左侧和右侧的距离。边界框偏移贴图构成输入实例贴图的最后四个通道。输入分支。输入图像被馈送到RGB特定的输入分支，该输入分支由两个5 × 5，步幅2卷积(2)一个编码器-解码器网络，用于联合细化输入-输出信号，层以获得RGB特定特征V∈RNen×H×W，姿态和语义分割，（3）任务特定的预测分支，例如语义和前景分割，（4）由预测的前景掩模和每个像素处的边界框引导的后处理模块。其中N_en是编码器的输入通道的数量。输入实例分割掩码被馈送到实例特定输入分支，5、stride- 2卷积层，以产生实例特定的特征V∈Nen×H ×W3.2. 输入处理PRN的输入有三个部分：RGB图像、实例图和语义分割图，所有这些都来自基础全景分割网络。语义分割图通常是下采样的，通常在每个维度上通过因子4。一般来说，输入分支是输入语义分割图具有Ncl个通道，其中Ncl是语义（事物和东西）类的数量。跨所有像素位置的类的标签概率由输入语义分割图表示。它被馈送到特定于语义的输入分支由5×5卷积层组成，以生成根据基础网络的输出格式进行适配语义特征∈RNen×H×W.实例映射。输入实例映射有七个通道。在Panoptic-Deepplab [9]之后，前三个通道表示从基础全景分割网络的输出导出的1D中心图和2D中心偏移图。中心图是指示每个像素是实例中心的概率的热图。在中心偏移贴图中，每个像素都包含将其位置映射到其所属实例中心的2D偏移值。示例参见图4我们将来自所有输入分支的特征与2D归一化坐标图C连接起来，以获得特征图XR（ 3Nen+2 ）×H×W，其中X =Concat（Vrgb，Vins，Vseg，C）. 为了预测中心和边界框偏移值在实例中有效，在diction输出分支中，PRN必须强烈地意识到像素坐标。为此，我们在全景分割中利用CoordConv [35]，将2D归一化坐标图添加到X。此外，CoordConv适用于subse-RGBseg396744∨ ∨∨××R{|关于我们其中，C_de是解码器4输入图像输入偏移映射GT偏移映射预测偏移映射输入语义掩码GT语义掩码输出语义掩码图4.PRN的输入、中间结果和输出示例PRN的最近部分，包括其编码器-解码器网络和实例预测分支，以进一步提高PRN3.3. 编解码器在处理输入之后，编码器-解码器为输出分支生成多尺度深度特征与 Panoptic-Deeplab 相比， Panoptic-Deeplab为实例预测和语义分割输出分支学习单独的解码器我们通过添加解码器层来修改ResNet [16]以构建编码器-解码器网络。首先，我们删除第一个卷积层并插入我们的输入模块，这在第3.2节中已经描述过。其次，我们将CoordConv应用于编码器的每个瓶颈块和解码器的每个层。第三，我们在如Panoptic-Deeplab中那样，通过2D高斯模型由它们的质量中心来怨恨。均方误差（MSE）损失用于惩罚2D高斯编码中心热图中预测与地面实况之间的误差。在推理过程中，采用非最大值抑制（NMS）方法来获得实例中心。中心边界框偏移。在Panoptic-Deeplab中，预测中心偏移以将每个像素与其对应实例的中心点相关联然而，这样的方法远非鲁棒的，并且由于使用了简单的基于中心的标准，经常不正确地将实例分割成多个较小的实例为了robus- tify PRN中的像素分组过程，我们建议应用我们为输入所采用的表示，并额外预测边界框偏移映射。预测的偏移值是从当前像素到当前像素的距离。1 和14 8框的四个边限定它所属的实例16 32通过跳过控制缩放到解码器层联系除此之外，我们的编码器-解码器遵循-低标准编码器-解码器网络的架构细节[1，6]。编码器-解码器架构类似于特征金字塔网络（FPN）[31]，尽管具有更大的网络容量。我们将其输出表示为类似于FCOS [42]（见图）。（3）第三章。我们将边界通过在偏移预测分支中的双声道中心偏移之上预测四个附加输出声道来实现PRN中的框偏移预测。用L1损失训练偏移分支。Y∈Cde×1×1输出通道。3.4. 预测分支编码器-解码器由于编码器-解码器的实例预测分支（1）的输出大小与图像大小相比更小，因此在应用两个卷积层的多个并行分支以预测图像分辨率下的所有实例输出之前，首先将双线性上采样层应用于传入特征Y语义分割。语义分割分支使用与解码器的输出相同的分辨率（1）我们使用交叉熵作为损失来训练语义分割分支。中心点。在PRN中，地面实况实例是代表性的，片段化图在推断期间充当背景过滤器。然而，由于预测具有大量语义类别的密集逐像素分割图的计算和存储器成本，分割图具有相对低的分辨率。为此，我们提出了一个用于PRN的前景掩码预测分支，其输出类不可知（对象）前景掩模来代替语义分割图作为更有效的背景过滤器。给定K个二进制地面实况实例掩码B=Bi i=1，2，.，K，我们使用逐位OR计算目标1D前景掩码为，B1B2. B K.由于前景掩模是单通道的，因此内存消耗变得不那么重要，从而允许网络以与输入图像相同的高分辨率预测前景掩模。这提供了更高的分割保真度，特别是对实例类别，因为与填充掩模接触的实例的边界主要由前景掩模决定。交叉熵损失前景面具在Panoptic-Deeplab中，语义段-3968×用于训练前景掩码分支。3.5. 后处理在推断过程中，有两个后处理步骤导致最终的全景分割图：（1）合并中心和偏移映射以形成实例掩码，(2)合并所述语义分割掩模和实例分割掩模以形成所述最终全景分割图。边界框和前向模板引导的后处理。（PPGBF）。我们设计了一种新的后处理算法的指导下，预测前景蒙板和包围盒偏移图。首先，我们对实例中心热图执行基于关键点的非最大值抑制，以获得中心点预测，保持也高于阈值θ的前k个最高分数。我们设θ = 0。2，k=200。其次，我们将像素分配到中心偏移映射到最近的中心，具有大于0.5的IoU，实例的绑定框由其中心热图的中心点确定。我们移除不能分配给任何中心点最后，我们使用预测的前景遮罩来过滤掉具有背景像素的边界框。多数表决最终合并。给出预测的语义分割和类无关的实例分割结果，我们采用多数投票技术来获得每个实例掩码的类别标签。具体地，预测实例掩码的语义标签由语义分割图中其像素的预测标签的大多数然后，我们合并语义分割和实例分割结果，以获得最终的全景分割图。4. 实验结果在本节中，我们描述了基本的全景分割模型和实验设置，然后是我们的结果和消融研究。(See有关所用外部软件和数据集许可证的详细信息，请参阅补充资料4.1. 基础全景分割网络PRN被训练以细化在相同数据集上训练的基础全景分割网络的结果。在这里，我们使用DETR [4]，实时Panoptic [17]和PanopticFPN [21]的变体DETR [4]是一种最先进的检测方法，在全景分割中表现非常好。实时全景[17]是一种单次全景分割网络，其利用密集检测和全局自注意机制来实现实时性能和接近SOTA的精度。多源全景特征金字塔网络（MS- PanopticFPN）。我们用全景特征金字塔网-作为额外的基础全景分割网络，在多个源数据集上进行预训练，以实现更好的泛化。MS-PanopticFPN包括检测、实例分割和语义分割模块。检测模块基于ATSS[57]，修改为包括分层分类头，具有解耦的对象和分类预测头。检测损失由三部分组成：中心度损失、边界框回归损失和焦点损失[32]。实例和语义分割模块与检测模块共享参数。语义分割分支遵循Hou et al. s[17]设计，但我们依靠骰子[41]和焦点[32]损失进行语义分割。我们还采用了CenterMask的实例分割分支[25] 并使用焦点丢失来训练它。（关于 MS-PanopticFPN的更多详细信息见补充资料。）4.2. 数据集、实验设置和评价我们在两个数据集上评估PRN(1) COCO数据集[33]是一个广泛使用的基准，它是为分割而开发的，但最近添加了填充注释[3]。它包含118K，5K和20K图像，分别用于训练，验证和测试，具有80个事物和53个东西类。(2) Cityscapes[11]是一个街景数据集，包含高分辨率图像（1，0242，048），具有8个事物和11个东西类的像素精确注释。分别有MS-PanopticFPN培训。我们在两个不同的数据集上预训练了MS- PanopticFPN：实例分割是在OpenImages[23]的105个对象类别上预训练的，语义分割是在COCO stuff [3]的 80 个 stuff 类别上预训练的。对于COCO Panoptic数据集[33]，我们调整训练图像的大小，使其短边为640像素，长边不超过1，066像素，并且还应用随机水平翻转和GridMask数据增强[7]。该网络使用具有0.9动量和0.00001权重衰减的随机梯度下降（SGD）进行15万次迭代训练，批量大小为16。我们将初始学习率设置为0.01，并使用余弦退火学习率调度器[36]。PRN培训。对于这两个数据集，我们调整训练图像的大小，使其短边保持在640像素，长边保持在800像素或以下，并应用随机水平翻转和GridMask数据增强。PRN使用Adam优化器[20]进行训练，动量为0.9，权重衰减为0.0001。我们将初始学习率设置为0.001，并使用余弦退火学习率调度器。在COCO上，PRN被训练了15万次迭代，批量大小为16。3969在Cityscapes上，它被训练了60K次迭代，批量大小为32。损失有五个组成部分，见第3.4节：LPRN=λ0Lsem+λ1L中心热图+λ2L中心偏移+λ3L框偏移+λ4L前景。（一）对于所有实验，我们设置λ0=1，λ1=200，λ2= 0。02，λ3= 0。02，λ4=5。方法骨干PQPQThPQSt[21]第二十一话Res50-FPN39.045.928.7[21]第二十一话Res101-FPN40.347.529.5UPSNet [51]Res50-FPN42.548.633.4AUNet [27]Res50-FPN39.649.125.2[13]第十三话Res50-FPN40.245.332.3OCFusion [24]Res5041.349.429.0BANet [8]Res50-FPN41.149.129.1PCV [45]Res5037.540.033.7[17]第十七话Res50-FPN37.141.031.3BGRNet [49]Res50-FPN43.249.833.4统一[26]Res50-FPN43.448.635.5[9]第九话Res5035.1--AdaptIS [40]Res5035.940.329.3AdaptIS [40]Res10137.041.829.9AdaptIS [40]ResNext10142.349.231.8[47]第四十七话Axial-Res50-L43.948.636.8自动全景[50]汽车44.851.435.0HLE [19]Res5037.141.130.9HLE [19]Res10138.142.831.0MS-PanopticFPNRes50-FPN40.646.631.6MS-PanopticFPNPRNRes50*44.450.934.4DETR [4]Res5043.448.236.3美国[4]Res50*45.151.236.5表1. COCO确认集的全景分割结果。* 表示用于PRN的主干，而不是基本网络。评估指标。我们使用全景质量（PQ）[22]作为度量标准报告了两个数据集的验证集结果。PQ捕获识别和分割质量（RQ和SQ），并同时处理东西和事物以统一的方式分类。此外，我们使用PQSt和PQTh分别报告材料和事物类别的性能。4.3. 关于COCO表 1 显示了 COCO 验证集的定量结果。 MS-PanopticFPN实现了与最佳性能方法相当的结果。根据其结果训练的RPN将MS-PanopticFPN的PQ提高了3。百分之八它还提高了其RQ从51。8%至54。9%，其SQ为78。0%至79。百分之六。然后，我们根据DETR [4]的全景分割结果训练RPN，并将其PQ提高1。百分之七。它还提高了其RQ从53。8%至55。7%，其SQ为79。3%至79。百分之八方法骨干PQPQThPQSt[21]第二十一话Res50-FPN57.751.662.2[21]第二十一话Res101-FPN58.152.062.5UPSNet [51]Res50-FPN59.354.662.7AUNet [27]Res50-FPN56.452.759.0OCFusion [24]Res5059.353.563.6PCV [45]Res5054.247.858.9统一[26]Res50-FPN61.454.766.3[9]第九话Res5059.7--AdaptIS [40]Res5059.055.861.3AdaptIS [40]Res10160.657.562.9AdaptIS [40]ResNext10162.058.764.4无缝隙[38]Res50-FPN60.255.663.6SSAP [12]Res50-FPN61.454.766.3HLE [19]Res5059.851.166.1HLE [19]Res10160.651.467.2[17]第十七话Res50-FPN58.852.163.7美国[17]HRNet-W48*60.554.064.6美国[17]Res50*61.955.864.3表2. Cityscapes验证集上的全景分割结果。* 表示用于PRN或SegFix的主干。PRN细化了实时全景网络的结果[17]，并超过了SegFix的性能。值得注意的是，以MS-PanopticFPN作为基础模型的PRN的PQ为9。比Panoptic-Deeplab [9]好3%，即使我们使用Panoptic-Deeplab的部分图4显示了PRN输入、中间结果和输出的示例图5显示了COCO数据集上的定性结果。PRN不仅细化了实例掩码的边界，而且抑制了错误检测的实例，发现了丢失的实例掩码。4.4. Cityscapes的结果Cityscapes数据集的定量结果如表2所示。我们在实时全景的全景分割结果上训练PRN [17]，并将其PQ提高了3。百分之一。与COCO数据集相同，PRN的PQ为2。比Panoptic-Deeplab [9]好2%，尽管相似。使用PRN细化实时全景的结果在表中排名第二，仅次于具有更大主干的AdaptIS [40]。(Both PRN优化的结果优于COCO上AdaptIS的所有变体。我们还将SegFix [55]应用于实时Panoptic的相同输出，并获得较低的整体PQ，较低的物体PQ，以及与PRN相比类似的物体PQ。这并不奇怪，因为SegFix不能添加或删除掩码，但对现有边界的细化有效图6显示了Cityscapes上的实时全景[17]、Seg- Fix [55]和PRN的定性结果SegFix与PRN相比的局限性，无法创建或删除掩码，在这些示例中可见。3970(a)（b）（c）（d）（e）图5. MS-PanopticFPN（上）和PRN（下）在COCO验证集上的定性结果。(The实例掩码的颜色表示实例的索引，而不是其类标签。注意：（a）中被抑制的实例掩码;在（b）中检测卡车，在（c）中检测桥下的天空和平面边界;（d）中的掩码插入、删除和细化;以及（e）中的边界细化和实例分裂。图6. Cityscapes验证集的定性结果。上图：实时全景。中间：SegFix。底部：PRN。(The实例掩码的颜色表示实例的索引，而不是其类标签。黑色像素未标记。）PRN在左侧恢复丢失的在右边，PRN不仅找到了丢失的汽车和人，而且还为标志和交通灯获得了更好的分割掩模4.5. 消融研究我们对COCO确认集进行消融研究，以评价PRN每个组件的有效性我们在这里进行了总结，并在补充中提供了更多细节。我们首先比较两种获得前地掩模的方法：（1）从语义分割分支，或（2）前景掩模分支。后者更有效地证明了我们的设计选择。然后，我们通过应用CoordConv来评估其一致性：（1）仅在编码器层中，（2）仅在解码器层中，（3）在编码器层和解码器层两者中。 PQ提高了额外的1。4%，当CoordConv在编码器中使用，1. 6%时，它是在解码器中使用，和1。9%，两者同时使用。我们可以将PQ进一步提高2。5%时，我们使用预测的边界框在每个像素合并时，中心和偏移量的地图。PQ提高了3。8%，当我们在编码器和解码器层中应用CoordConv并在后处理中使用预测边界框时。4.6. 限制PRN在这一点上的主要限制是，它必须在特定的基础panoptic segmenta- tion网络的结果上训练。实现更普遍的适用性将使其更加有用和方便。5. 结论我们已经提出了一种用于改进全景分割的新架构，其能够减轻最先进的全景分割算法的常见缺点。PRN减少了由实例和填充分段之间的不一致性、相同类型的实例之间的遮挡以及低分辨率实例引起的错误，同时能够恢复丢失的实例，并正确地修复合并和拆分的实例。这是通过引入新的元素来实现的，这些元素包括前地掩模、坐标卷积和预测每个像素处的边界框偏移。我们在具有挑战性的全景分割数据集上对PRN进行了实验验证，证明高度准确的全景分割网络的结果可以得到显着改善。如上所述，一个有趣的未来方向是探索PRN是否以及如何能够很好地推广不同于它所训练的全景模型的结果，可能是通过在各种基础网络上训练它。3971引用[1] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegnet：用于图像分割的深度卷积编码器-解码器架构。TPAMI，39（12）：2481[2] Shubhankar Borse，Hyojin Park，Hong Cai，DebasmitDas，Risheek Garrepalli和Risheh Porikli。全景、实例和语义关系：增强全景分割的关系上下文编码器。在IEEE/CVF计算机视觉和模式识别会议上，第1269- 1279页[3] Holger Caesar Jasper Uijlings 和 Vittorio Ferrari 可可 - 东西：上下文中的事物和东西类。在IEEE/CVF计算机视觉和模式识别上。IEEE，2018年。[4] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测在欧洲计算机视觉会议上，第213-229页[5] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos ， KevinMurphy ， andAlanLYuille.DeepLab：使用深度卷积网络，atrous卷积和完全连接的CRF进行语义图像分割。IEEE TPAMI，40（4）：834[6] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。参见ECCV，第801-818页[7] 陈鹏光。网格掩码数据增强。arXiv预印本arXiv：2001.04086，2020。[8] Yifeng Chen ， Guangchen Lin ， Songyuan Li ， OmarBourahla，Yiming Wu，Fangfang Wang，Junyi Feng，Mingliang Xu，and Xi Li.Banet：具有用于全景分割的遮挡处理的在IEEE/CVF计算机视觉和模式识别会议上，第3793-3802页[9] Bowen Cheng，Maxwell D Collins，Yukun Zhu，TingLiu，Thomas S Huang，Hartwig Adam，and Liang-ChiehChen. Panoptic-DeepLab：用于自下而上全景分割的简单、强大且快速的基线。在IEEE/CVF计算机视觉和模式识别会议上，第12475[10] 何基成、钟智勋、戴宇荣及邓志强。Cascadepsp：通过全局和局部细化实现类不可知和非常高分辨率的分割。在IEEE/CVF计算机视觉和模式识别会议上，第8890-8899页[11] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在IEEE/CVF计算机视觉和模式识别会议上，第3213-3223页[12] Naiyu Gao ， Yanhu Shan ， Yupei Wang ， Xin Zhao ，Yinan Yu，Ming Yang，and Kaiqi Huang.SSAP：使用亲和金字塔的单次实例分割。在国际计算机视觉会议上，第642-651页[13] Naiyu Gao，Yanhu Shan，Xin Zhao，and Kaiqi Huang.学习- ING类别和实例感知像素嵌入快速全景分割。IEEE图像处理学报，30：6013[14] 戈尔纳兹·吉亚西和查利斯·C·福克斯。用于语义分割的拉普拉斯金字塔重构与精化。见ECCV，第519-534页。施普林格，2016年。[15] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具R-CNN。在ICCV，第2961-2969页[16] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。IEEE/CVF计算机视觉和模式识别会议，第770-778页，2016年[17] Rui Hou ， Jie Li ， Arjun Bhargava ， Allan Raventos ，Vitor Guizilini，Chao Fang，Jerome Lynch，and AdrienGaidon.从密集检测中实时全景分割。在IEEE/CVF计算机视觉和模式识别会议上，第8523-8532页[18] 黄在东吴俊英李俊英韩宝亨基于范例的开集全景分割网络。在IEEE/CVF计算机视觉和模式识别上，第1175-1184页[19] Tommi Kerola ， Jie Li ， Atsushi Kanehira ， YasunoriKudo，Al e xisVallet，andAdrienGaidon.用于无建议全景分割的分层lova′sz在IEEE/CVF计算机视觉和模式识别会议上，第14413-14423页[20] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。[21] Alexander Kirillov ， Ross Girshick ， Kaiming He ， andPiotr Doll a'r.光学特性金字塔网络工作。在IEEE/CVF计算机视觉和模式识别会议上，第6399-6408页[22] Alexander Kirillov 、 Kaiming He 、 Ross Girshick 、Carsten Rothe r和PiotrDo

下载后可阅读完整内容，剩余1页未读，立即下载