Panoptic-DeepLab：基于自底向上方法的强大全景分割系统

2 浏览量更新于2023-10-23 收藏 2.01MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12475Panoptic-DeepLab：一种简单、强、快速的自底向上全景分割基线Bowen Cheng1，2，Maxwell D. Collins2，Yukun Zhu2，TingLiu2，Thomas S.Huang1，Hartwig Adam2，Liang-ChiehChen21UIUC2谷歌研究摘要在这项工作中，我们引入了Panoptic-DeepLab，这是一个简单，强大，快速的全景分割系统，旨在为自下而上的方法建立一个坚实的基线，该方法可以实现与两阶段方法相当的性能，同时产生快速的推理速度。特别是，Panoptic- DeepLab采用了特定于语义和实例分割的双ASPP和双解码器结构。语义分割分支与任何语义分割模型的典型设计相同（例如，DeepLab），而实例分割分支是类不可知的，涉及简单的实例中心回归。因此，我们的单个 Panoptic-DeepLab在所有三个Cityscapes基准测试中同时排名第一，在测试集上设置了 84.2% mIoU ， 39.0% AP 和65.5% PQ的新技术水平。此外，配备MobileNetV 3，Panoptic-DeepLab几乎实时运行单个1025 × 2049图像（每秒15.8帧），同时在Cityscapes上实现了具有竞争力的性能（测试集上的PQ%为54.1）。在MapillaryVistas测试集上，我们的六个模型的集合达到了42.7%的PQ，比2018年的挑战冠军高出1.5%。最后，我们的Panoptic-DeepLab在具有挑战性的COCO数据集上的表现也与几种自顶向下的方法相当。这是第一次，我们证明了一个自下而上的方法可以提供最先进的结果全景分割。1. 介绍由于最近提出的全景质量度量[34]和相关的识别挑战[46，16，53]，统一语义分割和实例分割的全景分割受到了很多关注。全景分割的目标是为图像中的每个像素分配一个唯一的值，对语义标签和实例ID进行它需要识别图像中每个“事物”的类别和范围图1.我们的Panoptic-DeepLab预测了三个输出：语义分割、实例中心预测和实例中心回归。类不可知的实例分割，通过将预测的前景像素分组到它们最接近的预测实例中心，然后通过多数表决规则与语义分割融合，以生成最终的全景分割。属于每一全景分割的任务引入了先前方法不适合解决的挑战。典型地在单独的实例和语义分割文献中使用的模型已经分化，并且在每个设置中基本上不同的方法占主导地位。对于全景分割，自上而下的方法[74，33，40，43，60]将另一个语义分割分支附加到Mask R-CNN [25]，生成重叠的实例掩码以及离散像素语义预测。为了解决冲突，通常采用的启发式算法通过它们的预测置信度得分[34]，或者甚至通过类别之间的成对关系[43]（例如，领带应始终放在个人前面）。此外，语义和实例分割结果之间的差异进行排序，有利于实例预测。虽然有效，但可能难以以快速和并行的方式实现手工制作的算法。另一种有效的方法是开发高级模块来融合语义和实例分割结果[43，40，74]。然而，这些自上而下的方法通常12476由于流水线中的多个顺序处理，导致速度慢。另一方面，自下而上的方法通过预测非重叠段自然地解决冲突。只有少数作品[75，22]采用自底向上的方法，通常从语义分割预测开始，然后进行分组操作以生成实例掩码。以这种顺序处理全景分割允许简单快速的方案，例如多数投票[75]，以合并语义和实例分割结果。尽管获得了有希望的快速推理速度，但自下而上的方法仍然表现出比公共基准测试中流行的自上而下的方法更差的性能兼容性[46，16，53]。自上而下的方法所面临的困难，以及以前对互补方法的研究的缺乏，促使我们建立一个简单，强大，快速的自下而上的全景分割基线。我们提出的Panoptic-DeepLab（图1）在训练过程中只需要三个损失函数，并且在构建现代语义分割模型时引入了额外的边际所提出的Panoptic-DeepLab的设计在概念上很简单，分别采用了针对语义分割和实例分割的双ASPP和语义分割分支遵循任何语义分割模型的典型设计（例如，DeepLab [11]），而实例分割分支涉及简单的实例中心回归[4，30]，其中模型学习预测实例中心以及从每个像素到其对应中心的偏移，通过将像素分配给其最接近的预测中心来实现极其简单的分组操作。此外，通过合并操作的快速GPU实现，Panoptic-DeepLab可提供近实时的端到端全景分割预测。我们在几个流行的全景分割数据集上进行实验。在Cityscapes测试集[16]上，单个Panoptic-DeepLab模型（未对不同任务进行微调）实现了65.5% PQ，39.0%AP和84.2% mIoU的最先进性能，与已发表的作品相比，在所有在Mapillary Vistas [53]上，我们最好的单模型在valset上达到40.6%PQ，而采用-使用6个模型的集合达到了42.2%的PQ值集和42.7%的PQ测试集的性能，超过了 2018 年 MapillaryVistasPanopticSegmentation Challenge的获胜者1.5%的PQ。我们首次展示了自下而上的方法可以在Cityscapes和MapillaryVistas上获得最先进的全景分割结果。在COCO [46]测试开发集上，我们的Panoptic-DeepLab也展示了最先进的结果，与几个自上而下的应用程序相当接近最后，我们提供了广泛的实验结果，并披露了我们的系统中的每一个细节。我们希望我们的Panoptic-DeepLab可以作为一个坚实的基线，以促进对全景分割的研究，特别是从自下而上的角度。2. 相关作品我们对当前的全景分割方法进行了[34]分为两组：自上而下和自下而上的方法。自上而下：大多数最先进的方法都是从自上而下或基于建议的每一个步骤来侦探这些方法通常被称为两阶段方法，因为它们需要一个额外的阶段来生成提案。具体来说，Mask R-CNN[25]通常用于提取重叠实例，然后使用一些后处理方法来解决掩码重叠。剩余的区域，然后填充一个轻量级的填充分割分支。例如，TASCNet [40]学习一个二进制掩码来加强“事物”和“东西”预测之间的一致性。Liu等[52]提出空间排名模块来解决重叠的实例掩码。AUNet [43]引入了注意力模块来指导“事物”和“东西”分割之间的融合。Panoptic FPN [33]赋予Mask R-CNN[25]语义分割分支。UPSNet [74]开发了一种无参数的全景头，通过预测额外的未知类来解决“物”-“物”融合中的冲突 Porzi等人[60]将FPN [45]的多尺度特征与轻量级的DeepLab启发模块[9]相结合。AdaptIS [66]生成带有点建议的实例掩码。自底向上：另一方面，很少有自底向上或无建议的全景分割方法。这些作品通常会预先进行语义分割通过将“事物”像素分组到集群中，在检测实例之前进行选择。第一种自下而上的方法，Deeper-Lab [75]，采用边界框角以及对象中心进行类不可知实例分割，再加上DeepLab语义分割输出[8，10]。最近，SSAP[22]提出基于像素对亲和金字塔[51]使用有效的图分割方法[31]对像素进行分组。不幸的是，考虑到它的简单性（即，用于预测的系统的单次通过），自底向上方法在几乎所有的公共基准上都优于自顶向下方法。在这项工作中，我们的目标是推动自下而上的方法。我们注意到，有几个实例分割工作[77，68，76，2，48，35，56，20，18，44，37，30，51，54，6]，其可以潜在地扩展到自下而上的全景分割。此外，我们的方法与Hough-Voting方法[4，39，21，5]和Kendall等人的近期工作相似。[30]，Uhriget al. [69]和Nevenet al. [54]在这个意义上，我们的类不可知实例分割是通过将前景像素回归到它们的中心来获得的然而，我们的方法12477图2.我们的Panoptic-DeepLab采用双上下文和双解码器模块进行语义分割和实例分割预测。我们在网络主干的最后一块应用atrous卷积来提取更密集的特征图。在上下文模块中采用了Atrous空间金字塔池（ASPP），以及在每个上采样阶段由单个卷积组成的轻量级解码器模块实例分割预测是通过预测对象中心并回归每个前景像素（即，具有预测的“事物”类的像素）到它们相应的中心。然后将预测的语义分割和类不可知的实例分割融合，通过DeeperLab提出的“多数投票”生成最终的全景分割结果比他们的更简单：我们直接预测实例中心位置并将像素分组到它们最接近的预测中心。因此，我们的方法不需要[30]中使用的聚类方法OPTICS [1]或[54]中提出的高级聚类损失函数。最后，我们的模型采用类似于[68，36，55]的并行多头预测框架。关键点表示：最近，关键点表示已被用于例如分割和对象检测。Newell等人[56]通过嵌入向量对像素进行分组。PersonLab [58]生成人物分割掩码，并通过学习偏移其检测到的关键点将其分组为实例。CornerNet[38]通过预测成对的角点和基于[56]的组角点来检测目标。ExtremeNet [79]Zhou等[78]和Duanet al. [19]利用实例中心进行对象检测。遵循相同的方向，我们通过其中心表示每个实例，并进一步表明这种简单的表示能够在多个投影数据集上实现与基于关键点的检测不同，我们的Panoptic-DeepLab只需要类无关的对象中心预测。3. Panoptic-DeepLab如图2，我们提出的Panoptic-DeepLab是以自下而上和单次拍摄的方式部署的。3.1. 架构Panoptic-DeepLab由四个组件组成：（1）为语义分割和实例分割共享的编码器主干，（2）解耦的ASPP模块和（3）特定于每个任务的解耦的解码器模块，以及（4）特定于任务的预测头。基本架构：编码器的主干是从一个ImageNet预训练的神经网络与atrous卷积配对，用于在其最后一个块中提取更密集的特征图。受[14，13，54]的启发，我们分别采用单独的ASPP和解码器模块进行语义分割和实例分割，基于这两个分支需要不同的上下文和解码信息的假设，这在下面的章节中得到了经验验证。我们的轻量级解码器模块遵循DeepLabV3+ [11]，但有两处修改：（1）我们向解码器引入输出步幅为8的附加低级特征，因此空间分辨率逐渐恢复为2倍，以及（2）在每个上采样阶段，我们应用单个5 ×5深度可分离卷积[28]。语义分割头：我们采用[ 75 ]中提出的加权自举交叉熵损失进行语义分割，预测“事物”和“东西”类。通过对每个像素进行不同的加权，这种损失比自举交叉熵损失[72，7，59类无关实例分段头：由Hough Voting [4，30]驱动，我们用质心表示每个对象实例。对于每个前景像素（即，像素，其类别是在训练期间12478groundtruth实例中心由标准偏差为8像素的2-D高斯编码[67]。特别地，我们采用均方误差（MSE）损失来最小化预测热图和2D高斯编码的地面实况热图之间的距离我们使用L1损失进行偏移预测，它只在属于对象实例的像素处激活。在推断期间，预测的前景像素（通过从语义分割预测中过滤掉背景“填充物”区域获得3.2. 全景分割在推理过程中，我们使用一个非常简单的分组操作来获得实例掩码，并使用一个高效的多数表决算法将语义和实例分割合并到最终的全景分割中。简单实例表示：我们简单地用每个物体的质心{Cn：（i n，j n）}来表示它。为了获得中心点预测，我们首先执行关键点-基于实例中心热图预测的非最大值抑制（NMS），本质上等同于对热图预测应用最大池化，并保持其值在最大池化之前和之后不改变的位置。最后，使用硬阈值来过滤出具有低置信度的预测，并且仅保留具有前k个最高置信度得分的位置In experiments, we use max-pooling with kernel size 7, threshold 0.1, and k =200.简单实例分组：获取的实例id每个像素，我们使用一个简单的实例中心回归。例如，考虑位置（i，j）处的预测O（i，j）是具有两个元素的向量，分别表示水平和垂直方向上的偏移的因此，像素的instance_id是在将像素位置（i，j）移动偏移量O（i，j）之后的最接近的实例中心的索引。也就是说，3.3. 实例分割Panoptic-DeepLab还可以生成实例分割预测作为副产品。为了正确地评估实例分割结果，需要将置信度分数与每个预测的实例掩码相关联。以前的自底向上实例分割方法使用一些统计学来获得置信度分数。例如，DWT[2]和SSAP [22]对一些简单的类使用语义分割分数的平均值，对其他较难的类使用随机分数。此外，它们会移除面积低于每个类别的特定阈值的遮罩。另一方面，我们的Panoptic-DeepLab不采用任何启发式或后处理来进行实例分割。受YOLO [62]的启发，我们计算每个实例掩码的类特定置信度得分，如下所示：评分（客观性）×评分（类别）其中Score（Objectness）是从类别不可知的中心点热图获得的未归一化的对象性分数，并且 Score（Class）是从预测的掩码区域内的语义分割预测的平均值获得的。4. 实验Cityscapes [16]：数据集由2975、500和1525张交通相关图像组成，分别用于训练、验证和测试它包含8个Mapillary Vistas [53]：一个大规模的交通相关数据集，包含18K，2K和5K图像，分别用于训练，验证和测试。它包含37个COCO [46]：有118K，5K和20K的图像，培训、验证和测试。数据集由80个“thing”类和53个“stuff”类组成实验设置：我们报告的是平均借条，平均预-ki，j =argmin ||CkK时间复杂度O（i，j）||2精确度（AP）和全视质量（PQ）来评价选择性。Mantic、实例和全景分割结果。我们所有的模型都是使用TensorFlow在32其中k=i，j是在（i，j）处的pix el的预测实例id。我们使用语义分割预测来过滤掉‘stuff’ pixels whose instance id are always set to高效合并：给定预测的语义分割和类别不可知的实例分割结果，我们采用一种快速且可并行的方法来合并结果，遵循DeeperLab [ 75 ]中提出的“多数投票”原则。具体地，预测实例掩码的语义标签通过对应的预测语义标签的多数投票来推断。该操作本质上是累积类标签直方图，因此在GPU中有效地实现，当在1025×2049输入上操作时仅需3 ms。TPU。我们采用与[11]中类似的训练方案。特别地，我们使用“聚”学习率策略[ 50 ]，初始学习率为0。001，微调批量归一化[29]参数，在训练期间执行随机规模数据增强，并使用Adam进行[32]没有重量衰减。在Cityscapes上，我们的最佳设置是通过使用整个图像进行训练来获得的（即，裁切尺寸等于1025×2049），批量为32。在Map- illary Vistas上，我们将图像的最长边调整为2177像素，以处理大的输入变化，并在训练期间以批量大小64随机裁剪1025×1025个补丁在COCO上，我们将图像大小调整为1025 pix- 在最长的一边，并训练我们的模型与裁剪大小12479亚当MSEDe. X2ASPP x2L-CropCSem= 256CIns= 256Sem等只PQ（%）AP（%）mIoU（%）参数（M）M-Adds（B）✓60.361.032.734.378.279.441.8541.85496.84496.84✓✓61.833.878.641.85496.84✓✓✓60.832.779.041.93501.88✓✓✓✓62.533.978.743.37517.17✓✓✓✓✓62.734.579.643.37517.17✓✓✓✓✓✓63.035.380.546.72547.49✓✓✓✓✓✓✓62.135.180.346.88573.86✓✓✓✓--80.343.60518.84表1. Cityscapesvalset的消融研究。亚当：亚当优化器。MSE：实例中心的MSE损失。De. x2：双解码器。 ASPPx2：双ASPP。L-Crop：大裁剪尺寸。CSem=256：语义分割分支中的256（而不是128）个通道。CIns=256：实例分段分支中的256（而不是128）个通道Sem等 Only：仅限语义分割。M-ADD是相对于. r.t.1025×2049输入。方法额外数据翻转MSPQ（%）AP（%）mIoU（%）方法额外数据PQ（%）AP（%）mIoU（%）无额外数据TASCNet [40]55.9--[33]第三十三话58.133.075.7AUNet [43]59.034.475.6UPSNet [74]UPSNet [74]✓✓59.360.133.333.375.276.8无缝隙[60]60.333.677.5AdaptIS [66]✓62.036.379.2DeeperLab [75]SSAP [22]✓✓56.561.1-三十七点三--Panoptic-DeepLabPanoptic-DeepLab✓63.063.435.336.180.580.9Panoptic-DeepLab✓✓64.138.581.5带额外数据TASCNet [40]TASCNet [40]COCO都可✓✓59.360.437.639.178.178.7UPSNet [74]Coco60.537.877.8UPSNet [74]Coco✓✓61.839.079.2无缝隙[60]MV65.0-80.7Panoptic-DeepLabPanoptic-DeepLabMVMV✓65.365.638.839.482.582.6Panoptic-DeepLabMV✓✓67.042.583.1表2. Cityscapesval set. 翻转：添加左右翻转的输入。MS：多尺度输入。MV：Mapillary Vistas。1025×1025 ，批量 64 。我们将 Cityscapes 、 MapillaryVistas和COCO的训练迭代分别设置为60K、150K和200K。在评估过程中，由于PQ [74，40，60]的敏感性，我们将面积小于阈值的所有“填充”片段重新分配为Cityscapes、Mapillary Vistas和COCO的阈值分别为2048、4096和4096。此外，我们采用多尺度推理（尺度等于{0。5，0。751 1 25，1。五一75，2}对于城市景观和Mapil-laryVistas和{0. 5，0。751 1 25，1。5}对于COCO）和左右翻转输入，以进一步提高性能。对于所有报告的结果，除非另有说明，Xception-71[15，61，11]被用作骨干。Panoptic-DeepLab使用三个损失函数进行训练：语义分割头的加权自举交叉熵损失（Lsem）[75];中心热图头的MSE损失（Lheatmap）[67];以及中心偏移头的L1损失（Loffset）[58]。最终损失L计算如下。语义分割GFF-网络[42]--82.3Zhu等[80个]C、V、MV--83.5现代摩比斯广告实验室C，MV--83.8实例分割AdaptIS [66]-32.5-UPSNet [74]Coco-33.0-PANet [49]Coco-36.4-搜狗MMCoco-37.2-科大讯飞Coco-38.0-NJUSTCoco-38.9-AInnoSegmentationCoco-39.5-全景分割SSAP [22]58.932.7-TASCNet [40]Coco60.7--无缝隙[60]MV62.6--Panoptic-DeepLab62.334.679.4Panoptic-DeepLabMV65.539.084.2表3.城市景观测试集。 C：城市景观粗注释。五：城市景观视频。MV：Mapillary Vistas。L=λsem Lsem+λheatmap Lheatmap+λoffsetLoffset具体来说，我们根据DeeperLab [75]，为属于面积小于64×64的实例的设置λ sem=3，并为其他任何地方设置λ sem=1 为了确保损失在相似的量级，我们设置λheatmap= 200和λ offset= 0。01.4.1. 消融研究我们在Cityscapes确认集上进行消融研究，如表1所示。1.一、用Adam优化器取代SGD动量优化器，PQ提高了0.7%。代替使用S形交叉熵损失来训练热图（即，实例中心预测），它通过应用均方误差（MSE）损失来最小化预测热图与2D高斯编码的地面实况热图之间的距离，从而带来0.8%的PQ改进。采用双解码器和12480双ASPP，使我们的PQ提高了0.7%，同时保持了类似的AP和mIoU。在训练期间采用1025×2049（而不是513×1025）的大裁剪尺寸，AP和mIoU分别提高了0.6%和0.9%。最后，在语义分割分支中将特征通道从128增加到256，实现了我们的最佳结果，即63.0%PQ，35.3%AP和80.5%mIoU。多任务学习：作为参考，我们在与最佳Panoptic-DeepLab 相同的设置下训练Semantic-DeepLab（Tab.1），表明多任务学习并没有给mIoU带来额外的增益。注意Panoptic-DeepLab在Semantic-DeepLab上增加了边际参数和4.2. 城市景观Val set：在Tab. 2，我们报告我们的Cityscapes验证集结果。当只使用Cityscapes精细注释时，我们最好的Panoptic-DeepLab，具有多尺度输入和左右翻转，比最好的自下而上方法SSAP的性能高3.0% PQ和1.2% AP，比最好的当使用额外数据时，我们最好的Panoptic-DeepLab 比 UPSNet 高出 5.2% PQ ， 3.5% AP 和 3.9%mIoU，而Seamless高出2.0% PQ和2.4% mIoU。请注意，我们不会利用任何其他数据，例如 COCO ，Cityscapes粗略注释，深度或视频。测试集：在测试集上，我们还采用了[11]中提出的技巧，即在推理过程中，在主干内的最后两个块中分别以速率2和4应用atrous卷积。这一招带来额外的0.4%AP和0.2%的mIoU，但与PQ相比没有改善。我们不使用这个技巧的Mapillary远景挑战。如Tab.所示。3.我们的统一Panoptic-DeepLab实现了最先进的结果，与已发表的作品相比，在所有方法翻转MSPQ（%）PQTh（%）PQSt（%）AP（%）mIoU（%）TASCNet [40]TASCNet [40]✓✓32.634.331.134.834.433.618.520.4--AdaptIS [66]✓35.931.541.9--无缝隙[60]37.733.842.916.450.4DeeperLab [75]32.0---55.3Panoptic-DeepLabPanoptic-DeepLab✓37.738.030.430.647.447.914.915.255.455.8Panoptic-DeepLab✓✓40.333.549.317.256.8表4. Mapillary Vistasval set. 翻转：添加左右翻转的输入。MS：多尺度输入。骨干参数（M）M-Adds（B）PQ（%）AP（%）mIoU（%）Xception-6544.311054.0539.216.456.9Xception-7146.731264.3240.317.256.8HRNet-W48[70]71.662304.8739.317.255.4HRNet-W48+88.872208.0440.617.857.6HRNet-W48+（Atrous）88.872972.0240.517.757.4HRNet-Wider+60.051315.7040.017.057.0HRNet-Wider+（Atrous）60.051711.6939.716.856.5Auto-DeepLab-L+41.541493.7839.315.856.9Auto-DeepLab-XL+71.982378.1740.316.357.1Auto-DeepLab-XL++72.162386.8140.316.957.6Ensemble（前6款）--42.218.258.7表5. Mapillary Vistasval set with different backbones. HRNet-W48+：保留ImageNet预训练头的修改HRNet-W 48。HRNet-W48+（Atrous）：此外，在HRNet的输出步幅32分支中应用速率为2的atrous卷积。HRNet-Wider+：使用大通道可分离卷积的更广泛版本的HRNet。还保留了ImageNet预训练头。HRNet-Wider+（Atrous）：另外，在输出步幅32分支中应用速率为2的atrous卷积。自动- DeepLab-L+：Auto-DeepLab，F= 48 ，并删除原始输出步幅 32 路径中的步幅。 Auto-DeepLab-XL+：Auto- DeepLab，F= 64，并删除原始输出步幅32路径中的步幅。Auto-DeepLab-XL++：此外，还利用了解码器模块中输出步幅8端点的低级特征.我们为所有型号变体采用双ASPP和双解码器模块，除了HRNet-W 48，它遵循[70]中的原始设计。结果得到了多尺度和左右翻转输入。M-ADD是相对于. r.t. 2177 ×2177输入。我们的模型在实例分割跟踪中排名第二，同时考虑到未发布的条目。4.3. 马皮拉里远景Val set：在Tab. 4.我们报告了Mapillary Vistas的试验结果。我们最好的单一Panoptic-DeepLab模型，具有多尺度输入和左右翻转，比自下而上的方法DeeperLab高出 8.3% PQ ，比自上而下的方法Seamless 高出 2.6%PQ。在选项卡中。5.我们报告了三个网络骨干族的结果我们观察到幼稚的HRNet-W 48稍微低于Xception，71.由于Mapillary Vis- tas中的图像分辨率不同，我们发现丰富上下文信息以及保持高分辨率特征非常重要。因此，我们对HRNet [70]和Auto-DeepLab [47]提出了一个简单的修改对于修改后的HRNet，称为HRNet+，我们保留其ImageNet预训练的头部，并进一步附加双ASPP和双解码器模块。对于修改后的自动-方法PQ平方RQPQ ThSQThRQThPQ StSQ街 RQStDeeperLab [75]31.675.540.125.073.433.140.378.349.3AdaptIS [66]36.876.046.333.375.242.641.477.151.3TRI-ML（2018：第2名）Team R4D（2018：第1名）38.741.278.179.148.450.839.037.979.779.748.947.138.245.675.978.447.955.8Panoptic-DeepLab42.778.152.535.975.346.051.681.961.2表6.Mapillary Vistas测试集上的性能DeepLab，称为Auto-DeepLab+，我们删除了原始1/32分支中的步幅（将PQ提高了1%）。总而言之，使用Xception-71 实现了最佳的准确性和速度平衡，而HRNet-W 48+实现了40.6%的最佳PQ。最后，我们的六个模型的集合达到了42.2%的PQ，18.2%的AP和58.7%的mIoU。测试集：选项卡。6总结了我们的Mapillary Vistas测试集结果以及其他性能最佳的方法。我们的入门[12]六个模型的集合达到了42.7%PQ的性能，比2018年Mapillary Vistas Panoptic Segmentation Challenge的获胜者高出1.5%PQ。12481Panoptic-DeepLab（X-71）Panoptic-DeepLab（R-50）Panoptic-DeepLab（MNV3）DeeperLab（X-71）美国（公告牌热门单曲榜）[75]Panoptic-DeepLab（X-71）Panoptic-DeepLab（R-50）Panoptic-DeepLab（MNV3）DeeperLab（X-71）美国（公告牌热门单曲榜）[75]方法骨干输入大小PQ [val]PQ [试验]速度（ms）M-Adds（B）城市景观DeeperLab [75]DeeperLab [75]UPSNet [74]W-MNV2 [64]ResNet-501025 ×20491025 ×20491024 ×204852.356.559.3---303463202---Panoptic-DeepLabMNV31025 ×204955.454.16354.17Panoptic-DeepLabResNet-501025 ×204959.758.0117381.39Panoptic-DeepLabXception-711025 ×204963.060.7175547.49马皮拉里远景Panoptic-DeepLabPanoptic-DeepLabXception-71Xception-71✓39.740.243.944.433.233.8Panoptic-DeepLabXception-71✓✓41.244.935.7表7.COCOval set.翻转：添加左右翻转的输入。MS：多尺度输入。方法骨干翻转MSPQ（%）PQTh（%）PQSt（%）TASCNet [40]ResNet-5040.747.031.0[33]第三十三话AdaptIS [66]ResNet-101ResNeXt-101✓40.942.848.353.229.736.7AUNet [43]ResNeXt-15246.555.832.5UPSNet [74]DCN-101 [17]✓✓46.653.236.7DeeperLab [75]SSAP [22]ResNet-101✓✓34.336.937.540.129.632.0Panoptic-DeepLabXception-71✓✓41.445.135.9表8. COCO测试开发集。翻转：添加左右翻转的输入。MS：多尺度输入。4.4. CocoVal set：在Tab. 7、我们报告了COCO值集的结果。通过单尺度推理，我们的Panoptic-DeepLab比之前最好的自下而上SSAP高出3。2%PQ和Deep-erLab [75]，5.9% PQ。通过多尺度推理和水平翻转，Panoptic-DeepLab实现了41.2%的PQ，为自下而上的方法设置了新的最先进的性能，并使用自上而下的方法进行了优化。测试开发集：在选项卡中。8、报告COCO测试开发集结果。我们的Panoptic-DeepLab是4。5% PQ优于COCO和我们的41. 4%PQ与大多数自上而下的方法相当，而不使用更重的主干[73]或可变形卷积[17]。4.5. 运行时在选项卡中。9，我们报告端到端运行时（即，从输入图像到最终全景分割的推断时间，包括合并语义和实例分割等所有操作），Panoptic-DeepLab在所有三个数据集上使用三个不同的网络骨干（MobileNetV 3[27]，ResNet-50 [26]和Xception-71 [15，61推理速度是在Tesla V100-SXM 2 GPU上测量的，批量大小为1。我们进一步绘制了速度-精度权衡曲线图。3.第三章。我们的Panoptic-DeepLab在所有三个数据集上实现了最佳权衡。4.6. 讨论在这里，我们列出了一些有趣的方面，希望能启发未来的工作自下而上的全景分割。刻度变化：图4示出了Panoptic- DeepLab的可视化。特别是，十字路口（最后2排），CocoDeeperLab [75]DeeperLab [75]UPSNet [74]W-MNV2ResNet-50641 ×641641 ×641800 ×133327.933.842.528.134.3-83119167---Panoptic-DeepLabMNV3641 ×64130.029.83812.24Panoptic-DeepLabResNet-50641 ×64135.135.25077.79Panoptic-DeepLabXception-71641 ×64138.938.874109.21Panoptic-DeepLabXception-711025 ×102539.739.6132279.25表9.端到端运行时，包括合并语义和实例分段。所有结果都是通过（1）无翻转的单尺度输入和（2）无额外推理优化的内置 TensorFlow 库 MNV3 ： MobileNet-V3 。 PQ [val] ： PQ（ % ）在 val 集上。 PQ [test] ：测试（ -dev ）集上的 PQ（%）。注意，MNV3的最后一个块中的通道减少了2倍[27]。65605550050 100 150 200 250 300 350 400 450 500推理时间（ms）(a)PQ与Cityscapes值集上的推理时间（ms）。4035302520050 100 150 200 250 300 350 400 450 500推理时间（ms）(b)PQ与Mapillary Vistas值集上的推理时间（ms）45403530250 50 100 150 200推理时间（ms）(c) PQ与COCO值集图3. PQ与秒我们的Panoptic-DeepLab模型变体在具有挑战性的数据集上实现了更好的速度/准确性权衡。从输入图像到全景分割输出端到端测量推理时间。X71：Xception-71。R-50：ResNet-50。MNV3：MobileNetV3。数据来自Tab。9 .第九条。Panoptic-DeepLab（X-71）Panoptic-DeepLab（R-50）Panoptic-DeepLab（MNV3）DeeperLab（X-71）美国（公告牌热门单曲榜）[75]PQ（%）PQ（%）方法骨干翻转MSPQ（%）PQTh（%）PQSt（%）AUNet [43][26]第二十六话39.649.125.2[33]第三十三话AdaptIS [66]ResNet-101ResNeXt-101 [73]✓40.342.347.549.229.531.8UPSNet [74]ResNet-5042.548.533.4电子探测器2 [71]ResNet-10143.0--UPSNet [74]ResNet-50✓✓43.249.134.1DeeperLab [75]SSAP [22]ResNet-101✓✓33.836.5----PQ（%）DeeperLab [75]DeeperLab [75]W-MNV2Xception-711441 ×14411441 ×144125.232.025.331.6307469--Panoptic-DeepLabMNV32177 ×217728.8-148138.12Panoptic-DeepLabResNet-502177 ×217733.3-286910.47Panoptic-DeepLabXception-712177 ×217737.7-3981264.3212482图像全景预测

下载后可阅读完整内容，剩余1页未读，立即下载