全光特征金字塔网络：一个单一网络同时进行语义分割和实例分割的强大基线方法

193 浏览量更新于2023-10-18 收藏 1.57MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6399全光特征金字塔网络Ale xanderKirillo v RossGirshick KaimingHePiotrDolla'rFacebook AI Research（FAIR）摘要最近引入的全景分割任务重新激发了我们社区然而，用于该联合任务的当前最先进的方法使用单独的和不相似的网络，例如语义分割，而不执行任何共享计算。在这项工作中，我们的目标是统一这些方法在架构层面，设计一个单一的网络，这两项任务。我们的方法是赋予Mask R-CNN，一种流行的实例分割方法，使用共享的特征金字塔网络（FPN）主干的语义分割分支。令人惊讶的是，这个简单的基线不仅对实例分割保持有效，而且还产生了用于语义分割的轻量级、高性能的方法。在这项工作中，我们对这种带有FPN的Mask R-CNN的最小扩展版本进行了详细的研究，我们将其称为Panop- tic FPN，并表明它是这两项任务的鲁棒性和准确性基线。鉴于其有效性和概念的简单性，我们希望我们的方法可以作为一个强大的基线，并帮助未来的研究在全景分割。1. 介绍我们的社区见证了语义分割的快速发展，其中的任务是为每个像素分配一个类标签（例如，用于填充类）以及最近的实例分割，其中任务是检测和分割每个对象实例（例如，对于事物类）。这些进步得到了简单而强大的基线方法的帮助，包括分别用于语义和实例分割的完全卷积网络（FCN）[41]和Mask R-CNN[24]这些方法在概念上简单、快速、灵活，是这些领域许多后续进展的基础。在这项工作中，我们的目标是为全景分割的联合任务提出一个类似简单的单网络基线[30]，这是一个包含语义和实例分割的任务。虽然在概念上很简单，但设计一个能同时实现两项任务高精度的单一网络，(b)实例分段分支(c)语义分割分支图1：Panoptic FPN：（a）我们从FPN骨干开始[36]，广泛用于对象检测，用于提取丰富的多尺度特征。 (b)正如Mask R-CNN [24]，我们在FPN之上使用基于区域的分支用于实例分割。(c)并行地，我们在相同的FPN特征之上添加了一个轻量级的密集预测分支，用于序列分割。这种带有FPN的Mask R-CNN的简单扩展是这两项任务的快速准确的基线这两种任务的最佳执行方法具有许多不同之处。对于语义分割，具有通过扩张卷积增强的专用主干的FCN[57，10]占据流行排行榜[18，14]。例如分割，具有特征金字塔网络（FPN）[36]骨干的基于区域的Mask R-CNN [242016年10月23日，《2016年10月31日》[37，60，43]。虽然已经有人尝试统一语义和实例分割[46，1，9]，但考虑到它们的并行开发和单独的基准，目前实现每种分割的最佳性能所需的专业化可能是不可避免的。考虑到这些顶级方法的架构差异，人们可能会期望在为两个任务设计单个网络时，牺牲实例或语义分割的准确性相反，我们展示了一个简单，灵活和有效的架构，可以使用一个网络同时生成基于区域的输出（例如分割）和密集像素输出（用于语义分割）来匹配这两个任务的准确性。(a)特征金字塔网络6400图2：使用单个ResNet-101-FPN网络在COCO（上）和Cityscapes（下）上的Panoptic FPN结果我们的方法从实例级识别的FPN [36]主干流行[24]开始，并添加了一个分支，用于与现有的基于区域的分支并行执行语义分割，例如分割，参见图1。在添加密集预测分支时，我们没有对FPN主干进行任何更改，使其与现有的实例分割方法兼容。我们的方法，我们称之为Panoptic FPN，因为它能够通过FPN生成实例和语义分割，在Mask R-CNN框架下很容易实现[23]。虽然Panoptic FPN是具有FPN的Mask R-CNN的直观扩展我们在联合设置中仔细研究了如何平衡两个分支的损失，有效地构建小批量，调整学习率计划，并执行数据增强。我们还探索了语义分割分支的各种设计（所有其他网络组件都遵循Mask R-CNN）。总的来说，虽然我们的方法对精确的设计选择是鲁棒的，但正确地解决这些问题是获得良好结果的关键。当为每个任务独立训练时，我们的方法在COCO [37]和Cityscapes [14]上的实例和语义分割方面都取得了优异的结果。例如分割，这是预期的，因为我们在这种情况下的方法对于语义分割，我们附加到FPN的简单密集预测分支产生的准确性与最新的基于扩张的方法相当，例如最近的DeepLabV3+[12]。对于全景分割[30]，我们证明，通过适当的训练，使用单个FPN解决两个问题，Panoptic FPN具有内存和计算效率，仅比Mask R-CNN产生轻微的开销。通过避免使用具有高开销的膨胀，我们的方法可以使用任何标准的高性能骨干（例如，大ResNeXt [55]）。我们相信这种灵活性，加上我们方法的快速训练和推理速度，将有利于未来的全景分割研究。我们使用我们模型的初步版本（仅限语义分割分支）作为2017年COCO Stuff Segmentation [6]赛道第一名获奖作品的基础。此后，这种单分支模式被2018年COCO和Mapillary挑战赛1的多个参赛项目采用和推广，显示了其灵活性和有效性。我们希望我们提出的联合全景分割基线具有类似的影响力。2. 相关工作全景分割：事物和东西分割的联合任务有着丰富的历史，包括场景解析[51]，图像解析[52]和整体场景理解[56]的早期工作。随着最近引入的联合全景分割任务[30]，其中包括一个简单的任务规范和精心设计的任务指标，有一个新的兴趣在联合任务。今年然而，panoptic挑战赛中的每一个竞争对手都使用了单独的网络，例如语义分割，没有共享计算。1我们的目标是设计一个单一的网络有效的两个任务，可以作为未来工作的基线。任务同时产生的准确性相当于训练两个独立的FPN，大约有一半的计算量。在相同的计算条件下，两个任务的联合网络的性能超过两个独立网络。示例全景分割结果如图所示二、1有关2018年COCO和Mapillary识别挑战赛尚未公布的获奖作品的详细信息，请参阅： http ： //cocosateset 。org/workshop/coco-mapillary-eccv-2018.html 。 TRI-ML在他们最近更新的技术报告中使用了单独的网络来应对挑战，但使用了联合网络[33]（该报告引用了我们工作的初步版本）。6401实例分段：基于区域的对象检测方法，包括Slow/Fast/Faster/Mask R-CNN系列[22，21，48，24]，其在候选对象区域上应用深度网络，已被证明非常成功。最近COCO检测挑战赛的所有获胜者都是在MaskR-CNN [24]和FPN [36]的基础上建立的，包括2017年[39，45]和2018年。1最近的创新包括Cas cade R-CNN[7]，可变形卷积[15]和同步批量范数[45]。在这项工作中，带有FPN的原始Mask R-CNN作为我们基线的起点，为我们提供了出色的实例分割性能，并使我们的方法与这些最新进展完全兼容基于区域的实例分割的替代方案是从逐像素语义分割开始，然后执行分组以提取实例[31，38，1]。这一方向具有创新性和发展前景。然而，这些方法倾向于使用单独的网络来预测实例级信息（例如，[31，1，38]分别使用单独的网络来预测实例边缘、边界框和对象断点我们的目标是为联合任务设计一个单一的网络另一个有趣的方向是使用位置敏感的像素标记[35]来完全卷积地编码实例信息;[46，9]在此基础上建立。然而，基于区域的方法在检测排行榜上仍然占主导地位[37，60，43]。虽然这促使我们从基于区域的实例分割方法开始，但我们的方法将与实例分割的密集预测分支完全兼容语义分割：FCN [41]是现代语义分割方法的基础。为了提高生成高质量结果所必需的特征分辨率，最近的顶级方法[12，58，5，59]严重依赖于使用扩张卷积[57]（也称为atrous卷积[10]）。虽然有效，但这种方法可以大大增加计算和内存，限制可以使用的骨干网络的类型为了保持这种灵活性，更重要的是保持与Mask R-CNN的兼容性，我们选择了不同的方法。作为膨胀的替代方案，可以使用编码器-解码器[2]或编码器-解码器逐步上采样，并将来自前馈网络的高级特征与来自较低级别的特征相结合，最终生成语义上有意义的高分辨率特征（见图5）。虽然扩张网络目前更受欢迎并主导排行榜，但编码器-解码器也已用于语义分割[49，2，20]。在我们的工作中，我们采用了一个编码器-解码器框架，即FPN [36]。与“对称”解码器[ 49 ]相反，FPN使用轻量级解码器（见图10）。（五）。FPN是为实例分割而设计的，它作为Mask R-CNN的默认骨干我们表明，没有变化，FPN也可以非常有效的语义分割。多任务学习：我们的方法与多任务学习有关。一般来说，使用单个网络来解决多个不同的任务会降低性能[32]，但各种策略可以减轻这种情况[29，42]。对于相关的任务，可以从多任务学习中获益，例如。Mask R-CNN中的框分支受益于掩码分支[24]，并且事物类别的联合检测和语义分割也显示出收益[3，8，17，46]。我们的工作研究了多任务训练对东西和事物分割的好处。3. 全景特征金字塔网络我们的方法Panoptic FPN是一个简单的单网络基线，其目标是在实例和语义分割以及它们的联合任务上实现最佳性能：全景分割[30]。我们的设计原则是从Mask R-CNN开始，使用FPN，一个强大的实例分割基线，并进行最小的更改，以生成语义分割密集像素输出（见图1）。3.1. 模型架构功能金字塔网络：我们首先简要回顾FPN [36]。FPN采用具有多个空间分辨率的特征的标准网络（例如，ResNet [25]），并添加了一个带有横向连接的轻型自上而下路径，参见图1a。自上而下的路径从网络的最深层开始，并逐渐对其进行上采样，同时从自下而上的路径添加更高分辨率特征的转换版本FPN生成一个金字塔，通常具有从1/32到1/4分辨率的比例，其中每个金字塔级别具有相同的通道维度（默认为256）。实例分割分支：FPN的设计，特别是对所有金字塔级别使用相同的通道维度，使得很容易附加基于区域的对象检测器，如Faster R-CNN [48]。更快的R-CNN在不同的金字塔级别上执行感兴趣区域（RoI）池化，并应用共享网络分支来预测每个区域的细化框和类标签为了输出实例分割，我们使用Mask R-CNN [24]，它通过添加FCN 分支来扩展Faster R-CNN，以预测每个候选区域的二进制分割掩码，参见图1b。全光学FPN：如前所述，我们的方法是用FPN修改Mask R-CNN，以实现逐像素的语义分割预测。然而，为了实现准确的预测，用于此任务的特征应该：（1）具有合适的高分辨率以捕获精细结构，（2）编码足够丰富的语义以准确地预测类别标签，以及（3）捕获多尺度信息以在多个分辨率下预测填充区域。虽然FPN是为目标检测而设计的，但这些要求-因此，我们建议附加到FPN一个简单而快速的语义分割分支，下面描述。6402六、04.第一章53 .第三章。01 .一、50的情况。3三十二分之一1/161/8四分之一六、04.第一章0二、00的情况。5三十二分之一1/161/8四分之一输出比例输出比例图3：语义分割分支。每个FPN级别（左）通过卷积和双线性上采样进行上采样，直到达到1/4比例（右），然后将这些输出相加，最终转换为像素级输出。语义分割分支：为了从FPN特征生成语义分割输出，我们提出了一种简单的设计，将来自FPN金字塔的所有级别的信息合并到单个输出中。在图3中详细地示出了它。从最深的FPN级别（1/32比例）开始，我们执行三个上采样阶段以产生1/4比例的特征图，其中每个上采样阶段由3×3卷积，群范数[54]，ReLU和2×双线性上采样组成。对于FPN量表1/16、1/8和1/4重复该策略（具有逐渐减少的上采样阶段）。结果是一组相同1/4比例的特征图，然后按元素求和。最终的 1×1 卷积、 4× 双线性上采样和softmax用于以原始图像分辨率生成每像素类别标签。除了填充类之外，该分支还为属于对象的所有像素输出特殊的实施详情：我们使用一个标准的FPN的256个输出通道，每个规模的定量，和我们的语义- tic分割分支减少到 128 个通道。对于（ pre-FPN ）主干，我们使用ResNet/ResNeXt [25，55]模型在ImageNet [50]上使用batch norm（BN）[28]进行预训练。当用于微调时，我们用固定的通道仿射变换代替BN，这是典型的[25]。3.2. 推理与训练全景推理：全景输出格式[30]要求为每个输出像素分配一个类标签（或void）和实例ID（对于填充类忽略实例ID）。由于Panoptic FPN的实例和语义分割输出可能重叠;我们应用[30]中提出的简单该后处理在精神上类似于非最大抑制，并且通过以下操作来操作：（1）基于不同实例的置信度得分来解决它们之间的重叠，（2）重新解决实例和语义分割输出之间的重叠以有利于实例，以及（3）去除标记为“其它”或在给定面积阈值之下的任何填充区域。图4：主干架构效率。我们比较了用于提高语义分割特征分辨率的方法，包括扩张网络、对称解码器和FPN，见图5。我们计算了将ResNet-101应用于200万像素图像时使用的乘加输出比例为1/4的FPN在计算上类似于dilation-16（1/16分辨率输出），但产生4倍更高的分辨率输出。通过膨胀将分辨率提高到1/8，将使用更多的计算和内存。联合训练：在训练过程中，实例分割分支有三个损失[24]：Lc（分类损失），Lb（边界框损失）和Lm（掩码损失）。总的实例分割损失是这些损失的总和，其中Lc和Lb由采样的ROI的数量归一化，并且Lm由前景ROI的数量归一化。语义分割损失Ls被计算为预测和地面实况标签之间的每像素交叉熵损失，由标记的图像像素的数量归一化。我们观察到，这两个分支机构的损失有不同的规模和正常化政策。简单地添加它们会降低其中一个任务的最终性能。这可以通过在总实例分割损失和语义分割损失之间进行简单的损失重新加权来校正。我们最后的损失是：L = λi（Lc+ Lb+ Lm）+ λsLs. 通过调整λi和λs，可以训练与两个单独的任务特定模型相当的单个模型，但计算量约为一半3.3. 分析我们使用FPN预测语义分割的动机然而，考虑我们的方法相对于流行于语义分割的模型架构的内存和计算足迹也很有趣。产生高分辨率输出的最常见设计是扩张卷积（图5b）和对称编码器-解码器模型，该模型具有带横向连接的镜像解码器（图5c）。虽然我们的主要动机是与Mask R-CNN兼容，但我们注意到FPN比通常使用的dilation-8网络要轻得多比对称编码器-解码器效率高1.2倍大致相当于一个膨胀16网络（同时产生4倍更高的分辨率输出）。参见图4。三十二分之一conv→ 2×→ conv→ 2×→ conv→2×128×1/4256×1/16conv→ 2×→ conv→2×128×1/4256×1/8conv→2×128×1/4conv256×1/4128×1/4转换→4×C× 1FPN膨胀对称分解oder多加×1012激活×1096403b5×1024×1/32b5×1024×1/32b5×1024×1/32b5×1024×1/32b5×1024×1/81×256×1/32b4×512×1/16B512/4××1 8b4×512×1/16b4×512×1/16b4×512×1/161×256×1/16b3×256×1/8b3×256×1/8b3×256×1/8b3×256×1/8b3×256×1/81×256×1/8(a) 原始（b）+扩张（c）+对称解码器（d）+非对称解码器（FPN）图5：用于提高功能分辨率的主干架构。(a)一个标准的卷积网络（维度表示为#blocks×#channels×resolution）。(b)一种常见的方法是减少选择卷积的步幅，然后使用扩张卷积进行补偿。（c）U-Net [49]风格的网络使用对称解码器，反映自下而上的路径，但相反。(d)FPN可以被看作是一种非对称的轻量级解码器，其自上而下的路径每级只有一个块，并且使用共享的信道维度。有关这些模型的效率比较，请参见图4。4. 实验我们的目标是证明我们的方法Panoptic FPN可以作为简单有效的单网络基线，用于分割，语义分割及其panoptic分割的联合任务[30]。对于实例分割，这是预期的，因为我们的方法使用FPN扩展了Mask R-CNN。对于语义分割，由于我们只是简单地将轻量级密集像素预测分支（图3）附加到FPN，因此我们需要证明它可以与最近的方法竞争。最后，我们必须证明PanopticFPN可以在多任务设置中训练，而不会损失单个任务的准确性。因此，我们通过测试我们的语义分割方法来开始我们的分析（我们将这种单任务变体称为语义FPN）。令人惊讶的是，这个简单的模型在 COCO [37] 和Cityscapes [14]数据集上实现了有竞争力的语义分割结果。接下来，我们分析语义分割分支与Mask R-CNN的集成，以及联合训练的效果。最后，我们再次在COCO和Cityscapes上展示了全景分割的结果定性结果见图2和图6。我们接下来描述实验装置。4.1. 实验装置COCO：COCO数据集[37]的开发重点是实例分割，但最近添加了填充符号[6]。例如分割，我们使用2017年的数据分割，118 k/5 k/20 k训练/验证/测试图像和80个事物类。对于语义分割，我们使用2017年的stuff数据，其中包含40 k/5 k/5 k分割和92个stuff类。最后，全景分割[30]使用所有2017年COCO图像，其中注释了80个事物和53个东西类。Cityscapes：Cityscapes [14]是一个以自我为中心的街景数据集。它有5k高分辨率图像（1024×2048像素），具有精细的像素精确注释：2975列车、500 val和1525测试。另外还有20k张带有粗略注释的图像可用，我们在实验中不使用这些图像。有19个类，其中8个具有实例级掩码。单任务指标：我们使用每个数据集提供的评估代码为各个任务报告标准的语义和实例分割指标。对于语义分割， mIoU （ mean Intersection-over-Union ） [18] 是COCO和Cityscapes的主要指标。我们还报告了COCO上的fIoU（频率加权IoU）[6]和Cityscapes上的iIoU（实例级IoU）[14]。对于实例分割，AP（类别和IoU阈值的平均精度）[37]是主要指标，AP50和AP75是选定的补充指标。全景分割指标：我们使用PQ（全景质量）作为默认指标来测量Panoptic FPN per-pixel，详情请参见[30]。PQ捕获识别和分割质量，并以统一的方式处理东西和事物这个单一的、统一的度量允许我们直接比较方法。此外，我们使用PQSt和PQTh分别报告材料和物品性能。注意，PQ用于在后处理合并过程应用于语义和实例分支的输出之后评估Panoptic FPN预测。COCO培训：我们使用默认的Mask R-CNN 1 ×训练设置[23]和缩放抖动（[640，800]中的较短图像侧）。对于语义分割，我们预测53个东西类加上一个单一的城市景观培训：我们从32个随机的512×1024图像作物（每个GPU 4作物）构建每个小批量，然后将每个图像随机缩放0.5到2.0倍。我们训练了65k次迭代，从0.01的学习率开始，在40k和55k次迭代时将其降低10倍。这与原始的Mask R-CNN设置不同[24]，但对于实例和语义分割都是有效的。对于语义分割的最大主干，我们执行颜色增强[40]和裁剪自举[5]。对于语义分割，预测所有事物类别，而不是单个由于mIoU的高变异性（高达0.4），我们报告了Cityscapes上每个实验的5次试验的中位性能。6404骨干MiouFLOPs存储器DeeplabV3 [1]ResNet-101-D877.81.91.9PSANet101 [59]ResNet-101-D877.92.02.0马皮里[5]WideResNet-38-D879.44.31.7[第12话]X-71-D1679.60.51.9语义FPNResNet-101-FPN77.70.50.8语义FPNResNeXt-10179.10.81.4(a) Cityscapes Semantic FPN. 性能报告在val集中，所有方法仅使用精细的Cityscapes注释进行训练。主干表示法包括扩张的分辨率'D'（注意[12]使用扩张和编码器-解码器主干）。除了我们的方法外，所有性能最好的方法都使用膨胀。FLOP（乘加×1012）和内存（激活次数×109）是近似值，但信息量很大。对于这些较大的FPN模型，我们使用颜色和裁剪增强进行训练。我们的基线在准确性和效率方面与最先进的方法相当。骨干MioufIoU维拉布[13]堆叠沙漏12.438.8DeepLab VGG 16 [10]VGG-1620.247.5牛津[4]ResNeXt-10124.150.6G-RMI [19]Inception ResNet v226.651.9语义FPNResNeXt-152-FPN28.855.7(b) COCO-Stuff2017 挑战赛结果。我们向在 ECCV（ www.example.com ）举行的 2017 年 COCO Stuff SegmentationChallenge提交了语义FPN的早期版本http://cocodataset.org/#stuff-2017。我们的入口赢得了第一名，没有合奏，我们优于竞争的方法，至少有2个点的利润率在所有报告的指标。宽度城市景观Coco攻击。城市景观Coco6474.139.6总和74.540.212874.540.2Concat74.439.925674.640.1COCO：我们方法的早期版本赢得了2017年COCO-Stuff挑战赛。结果见表1b。由于这是一个早期设计，语义分支略有不同（每个上采样模块在双线性向上扩展到最终分辨率之前都有两个3×3 conv层和ReLU，并且功能是连接的而不是求和的，请与图3进行比较）。正如我们将在不久的消融中显示的那样，结果对于精确的分支设计是相当稳健的。我们的参赛作品接受了颜色增强训练[40]，并在测试时平衡了类别分布并使用了多尺度推理。最后，我们注意到，当时我们使用了一个特定于语义分割的训练计划，类似于我们的Cityscapes计划（但学习率加倍，批量大小减半）。消融：我们执行一些消融来分析我们提出的语义分割分支（如图3所示）。为了与本文中的进一步实验保持一致，我们使用来自COCO Panoptic数据集的材料注释（如所讨论的，其与用于COCO Stuff竞赛的材料注释不同）。表1c示出了在语义分支中具有不同数量的通道的ResNet-50语义FPN。我们发现128在准确性和效率之间取得了很好的平衡。在表1d中，我们比较了用于聚合来自不同FPN级别的特征图的按元素求和和级联。虽然两者的准确性是可比的，但求和更有效。总的来说，我们观察到，新的密集像素标记的简单架构(c) 消融（mIoU）：语义分支中特征的通道宽度为128，在准确性和效率之间取得了良好的平衡(d) 消融（mIoU）：语义分支中的特征图的求和更好，更有效。branch对于精确的设计选择是稳健的。4.3. 多任务训练我们的方法的单任务性能是相当有效的-表1：使用FPN的语义分割。4.2. 语义分割的FPNCityscapes：我们首先将我们的基线Seman- tic FPN与Cityscapes值分割上的现有方法进行比较在表1A中。我们与最近表现最好的方法进行比较，但不与通常使用集成、COCO预训练、测试时间增强等的竞赛实体进行比较。我们的方法是对FPN的最小扩展，与经历了许多设计迭代的DeepLabV3+[12]等系统相比，能够实现强大的在计算和内存方面，语义FPN比典型的膨胀模型更轻，同时产生更高分辨率的特征（见图1）。4）.我们注意到，在FPN中添加扩张可能会产生进一步的改进，但超出了本工作的范围此外，在我们的基线中，我们故意避免正交架构改进，如非本地[53]或SE[27]，这可能会产生进一步的收益。总的来说，这些结果表明，我们的方法是一个强大的基线语义分割。对于语义分割，上一节中的结果证明了这一点，例如分割，这是已知的，因为我们从Mask R-CNN开始。但是，我们可以在多任务环境中联合训练这两项任务吗？为了将我们的语义分割分支与Mask R-CNN中的实例分割分支结合起来，我们需要确定如何训练一个统一的网络。先前的工作表明，多任务训练通常具有挑战性，并且可能导致结果退化[32，29]。我们同样观察到，对于语义或实例分割，添加次要任务可能会降低与单任务基线的一致性的准确性在表2中，我们展示了使用ResNet-50-FPN，对语义分割损失λs或实例分割损失λi使用简单的损失缩放权重，我们可以获得在单任务基线上改进结果的重新加权。具体来说，添加一个具有适当λ s的语义分割分支可以改进实例分割，反之亦然。这可以用来改善单一任务的结果。然而，我们的主要目标是同时解决这两个任务，我们将在下一节中探讨。6405λsMiouAPAP50AP75PQTh0.0-33.955.635.946.60.137.234.055.636.046.80.2539.633.755.335.546.10.541.033.354.935.245.90.7541.132.653.934.645.01.041.532.153.233.644.6+0.1+0.0+0.1+0.2λsMiouAPAP50PQTh0.0-32.258.751.30.168.332.559.252.90.2571.832.859.652.70.572.032.759.552.90.7573.432.858.852.31.074.233.259.752.4+1.0+1.0+1.1(a) COCO上的全景FPN，例如分割（λi= 1）。λiAPMioufIoUPQSt0.0-40.267.227.90.120.140.667.528.40.2525.541.067.828.60.529.241.368.028.90.7530.841.168.228.91.032.141.568.229.0+1.2+1.0+1.1(c)用于语义分割的COCO上的全景FPN（λs= 1）。（b）城市景观上的全景FPN，例如分割（λ i= 1）。λiAPMiouiIoUPQSt0.0-74.555.862.40.127.475.357.662.50.2530.575.558.362.50.532.075.058.262.20.7532.674.358.261.71.033.274.257.461.4+1.0+2.5+0.1(d)Cityscapes上的全景FPN用于语义分割（λs= 1）。表2：多任务培训：（a，b）添加语义分割分支可以在适当调整λ s的单任务基线上略微改善实例分割结果（结果加粗）。注意，λs表示分配给语义分割损失的权重，λs= 0。0用作单任务基线。（c，d）添加实例分割分支可以在具有适当调整的λi的单任务基线上为语义分割提供更大的好处（结果加粗）。如前所述，λi表示分配给实例分割损失的权重，λi= 0。0用作单任务基线。虽然前景看好，但我们对联合任务更感兴趣，其结果如表3所示。骨干APPQThMiouPQStPQR50-FPN×233.946.640.227.939.2CocoR50-FPN33.345.941.028.739.0-0.6-0.7+0.8+0.8-0.2R50-FPN×232.251.374.562.457.7城市景观R50-FPN32.051.675.062.257.7-0.2+0.3+0.5-0.2+0.0骨干APPQThMiouPQStPQR50-FPN×233.946.640.227.939.2CocoR101-FPN35.247.542.129.540.3+1.3+0.9+1.9+1.6+1.1R50-FPN×232.251.374.562.457.7城市景观R101-FPN33.052.075.762.558.1+0.8+0.7+1.3+0.1+0.4(a)全景分割：PanopticR50-FPN与 R50-FPN×2. 使用单个FPN网络同时解决这两个任务，可以产生与两个独立的FPN网络（例如语义分割）相当的准确性，但计算量。损失APPQThMiouPQStPQ替代31.743.940.228.037.5Coco结合33.345.941.028.739.0+1.6+2.0+0.8+0.7+1.5替代32.051.474.361.357.4城市景观结合32.051.675.062.257.7+0.0+0.2+0.7+0.9+0.3(c)训练全景FPN。在训练过程中，对于每个minibatch，我们可以组合语义和实例损失，或者我们可以交替计算损失（在后一种情况下，我们训练的时间是原来的两倍）。我们发现，在每个minibatch的损失相结合的表现要好得多。（b）全景分割：PanopticR101-FPN与 R50-FPN×2. 给定大致相等的计算预算，用于全景任务的单个FPN网络在实体和语义分割方面优于两个独立的FPN网络。FPNAPPQThMiouPQStPQ原始33.345.941.028.739.0Coco分组33.145.741.228.438.8-0.2-0.2+0.2-0.3-0.2原始32.051.675.062.257.7城市景观分组32.051.875.361.757.5+0.0+0.2+0.3-0.5-0.2(d)分组FPN。我们测试了Panoptic FPN的一个变体，其中我们将256个FPN通道分为两组，并将实例和语义分支应用于其自己的128个专用组虽然这带来了混合收益，但我们希望更好的多任务策略可以改善结果。表3：全景FPN结果。6406图6：使用单个ResNet-101-FPN网络在COCO（上）和Cityscapes（下）上获得的更多Panoptic FPNPQPQThPQStArtemis16.916.817.0乐晨26.231.018.9埃因霍温[16]27.229.623.4MMAP-seg32.138.922.0全景FPN40.948.329.7粗PQPQThPQStMiouAPDIN标准[1，34]C53.842.562.180.128.6全景FPN58.152.062.575.733.0(a) COCO测试开发平台上的全景分割。我们将Panoptic FPN提交到COCO测试开发排行榜（有关竞争参赛作品的详细信息，请参阅http：//cocoet.org/#panoptic-leaderboard）。我们只与使用单个网络进行联合任务的实体进行比较。我们不与使用集成的竞争级别实体进行比较（包括集成单独网络进行语义和实例分割的方法）。对于使用一个网络进行全景分割的方法，我们的方法将PQ提高了109个点。(b) 城市景观的全景分割。对于Cityscapes，目前还没有全景分割的公共排行榜相反，我们对Arnab和Torr [1，34]最近的工作进行了比较，他们开发了一种用于全景分割的新方法，称为DIN。DIN是基于区域的实例分割的替代方案的代表，其从逐像素语义分割开始，然后执行分组以提取实例（参见相关工作）。Panoptic FPN，没有额外的粗训练数据或任何铃声和口哨声，优于DIN的4.3点PQ余量。表4：ResNet-101 Panoptic FPN与现有技术的比较。4.4.全景FPN现在我们来看主要结果：测试Panoptic FPN用于Panoptic分割的联合任务[30]，其中网络必须联合准确地输出东西和事物分割。对于以下实验，对于每个设置，我们从{0}中选择最佳λs和λi。5，0。75，1。0}，确保结果不会因λ的固定选择而偏斜。主要结果：在表3a中，我们将两个分别训练的网络与具有单个主干的Panoptic FPN进行了比较。PanopticFPN产生相当的精度，但计算量约为（主干支配计算，因此减少近50%）。我们还通过比较两个单独的网络来平衡计算预算，每个网络都有ResNet- 50主干，Panoptic FPN有ResNet-101，见表3b。使用大致相等的计算预算，Panoptic FPN显着优于两个单独的网络。总之，这些结果表明，联合方法是绝对有益的，我们的Panoptic FPN可以作为联合任务的坚实基线。消融：我们使用ResNet-50对Panoptic FPN进行额外消融。首先，默认情况下，我们在每次梯度更新期间将实例和语义损失结合在一起。一种不同的策略是在每次迭代中交替损失（这可能是有用的，因为不同的增广两个任务都可以使用策略我们在表3c中比较了这两个选项;合并损失显示出更好的性能。接下来，在表3d中，我们与FPN通道被分组为两个集合的架构进行比较，并且每个任务使用两个特征集合中的一个作为其输入。虽然结果喜忧参半，但我们预计更复杂的多任务方法可以带来更大的收益。比较：最后，我们通过比较Panoptic FPN与现有的方法。对于这些实验，我们使用具有ResNet-101主干的Panoptic FPN，没有铃铛和哨子。在表4a中，我们显示Panoptic FPN在最近的COCO Panoptic分割挑战中大大优于所有单一模型条目这为全景分割任务建立了一个新的基线在Cityscapes上，我们将Panoptic FPN与表4b中 [1] 最近提出的 Panoptic 分割方法进行了比较。Panoptic FPN优于[1]，PQ裕度为4.3点。5. 结论我们引入了一个概念上简单而有效的全景分割基线。该方法从具有FPN的Mask R-CNN开始，并向其添加用于密集像素预测的轻量级语义分割分支。我们希望它可以作为未来研究的坚实基础6407引用[1] Anurag Arnab和Philip HS Torr。使用动态实例化网络的逐像素实例分段。在CVPR，2017年。一、三、八[2] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegnet：用于图像分割的深度卷积编码器-解码器架构。PAMI，2017年。3[3] Sean Bell，C Lawrence Zitnick，Kavita Bala，and RossGir- shick.内外网：用跳跃池和递归神经网络检测上下文中的对象。在CVPR，2016年。3[4] 彼得·比林斯基和维克多·普拉萨卡留。 COCO-Stuff2017挑战赛：Oxford Active Vision Lab团队2017. 6[5] SamuelRotaBu lo` ，Loren z oPorzi，andPeterKontakede r.用于 DNN 记忆优化训练的就地激活的 batchnorm 在CVPR，2018年。三五六[6] Holger Caesar Jasper Uijlings和Vittorio FerrariCOCO-材料：上下文中的事物和东西类。在CVPR，2018年。二、五[7] 赵伟蔡和努诺·瓦斯康塞洛斯。Cascade R-CNN：深入研究高质量的对象检测。在CVPR，2018年。3[8] 曹佳乐，庞彦伟，李雪龙。用于联合检测和分割的三重监督解码器网络 arXiv 预印本 arXiv ： 1809.09299 ，2018。3[9] Liang-Chieh Chen，Alexander Hermans，Georg

下载后可阅读完整内容，剩余1页未读，立即下载