语义图像分割中的空间金字塔池化和编码-解码器的应用

69 浏览量更新于2023-10-13 收藏 1.11MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

语义图像分割Liang-Chieh Chen，Yukun Zhu，George Papandreou，FlorianSchroff，and Hartwig Adam谷歌公司{lcchen，yukun，gpapan，fschroff，hadam} @ google.com抽象。空间金字塔池化模块或编码-解码器结构用于深度神经网络中用于语义分割任务。前一种网络能够通过以多速率和多个有效视场利用滤波器或池化操作探测传入特征来编码多尺度上下文信息，而后一种网络可以通过逐渐恢复空间信息来捕获更清晰的对象边界。在这项工作中，我们建议结合这两种方法的优点。具体来说，我们提出的模型DeepLabv3+通过添加一个简单而有效的解码器模块来扩展DeepLabv3，以细化分割结果，特别是沿着对象边界。我们进一步探索Xception模型，并将深度可分离卷积应用于Atrous空间金字塔池和解码器模块，从而实现更快，更强大的编码器-解码器网络。在PASCAL VOC 2012和Cityscapes数据集上，我们证明了所提出的模型的有效性，在没有任何后处理的情况下，测试集性能分别达到89%和82.1%。我们的论文附带了在https的Tensorflow中公开提供的所提出模型的参考实现：//github.com/tensorflow/models/tree/master/research/deeplab网站。关键词：语义图像分割，空间金字塔池，编码器-解码器，深度可分离卷积。1介绍语义分割的目标是为图像中的每个像素分配语义标签[1，2，3，4，5]是计算机视觉中的基本主题之一基于全卷积神经网络[8，11]的深度卷积神经网络[6，7，8，9，10]在基准任务上显示出对依赖于手工制作特征[12，13，14，15，16，17]的系统的显着改进在这项工作中，我们考虑了两种类型的神经网络，它们使用空间金字塔池化模块[18，19，20]或编码器-解码器结构[21，22]进行语义分割，其中前者通过以不同分辨率池化特征来捕获丰富的上下文信息，而后者能够获得清晰的对象边界。为了在多个尺度上捕获上下文信息，DeepLabv3[23] 应用几个具有不同速率的并行Atrous卷积（称为Atrous2L- C Chen，Y.Zhu，G.帕潘德里欧F.Schroff和H.亚当空间金字塔池化0.5x8x0.5x0.5x图像预测0.5x2x0.5x2x0.5x2x0.5x2x0.5x2x图像预测空间金字塔池化4x0.5x0.5x0.5x4x0.5x图像预测(a) 空间金字塔池化（b）编码器-解码器（c）具有Atrous Conv的编码器-解码器图1.一、我们改进了DeepLabv 3，它采用了空间金字塔池化模块（a），编码器-解码器结构（b）。所提出的模型DeepLabv3+包含来自编码器模块的丰富语义信息，而详细的对象边界由简单而有效的解码器模块恢复。编码器模块允许我们通过应用无卷积以任意分辨率提取特征Spatial Pyramid Pooling，或ASPP），而PSPNet [24]在不同的网格尺度上执行池操作即使丰富的语义信息被编码在最后的特征图中，与对象边界相关的详细信息由于网络骨干内的跨越操作的池化或卷积而这可以通过应用atrous卷积来提取更密集的特征图来缓解然而，考虑到最先进的神经网络的设计[7，9，10，25，26]和有限的GPU内存，提取比输入分辨率小8倍甚至4倍的输出特征图在计算上是不允许的以ResNet-101 [25]为例，当应用atrous卷积来提取比输入分辨率小16倍的输出特征时，必须扩大最后3个残差块（9层）内的特征。更糟糕的是，26个残余块（78层！）如果需要比输入小8倍的输出特征，则将受到影响因此，如果针对这种类型的模型提取更密集的输出特征，则计算密集。另一方面，编码器-解码器模型[21，22]在编码器路径中有助于更快的计算（因为没有特征被扩张），并且在解码器路径中逐渐恢复尖锐的对象边界。试图结合这两种方法的优点，我们建议丰富的编码器模块中的编码器-解码器网络，将多尺度的上下文信息。特别是，我们提出的模型，称为DeepLabv3+，扩展了DeepLabv3[23]通过增加一个简单而有效的解码器模块来恢复对象边界，如图2所示。1.一、丰富的语义信息被编码在DeepLabv3的输出中，通过atrous卷积，可以根据计算资源的预算控制编码器特征的密度。此外，解码器模块允许详细的对象边界恢复。受最近深度可分离卷积的成功[27，28，26，29，30]的启发，我们还探索了这种操作，并通过调整Xception模型[26]，类似于[31]，在速度和准确性方面显示了改进。DeepLabv3+：具有Atrous可分离卷积的编解码器3语义分割，并将atrous可分离卷积应用于ASPP和解码器模块。最后，我们证明了所提出的模型的有效性PASCAL VOC 2012和Cityscapes数据，并达到89.0%和82.1%的测试集性能没有任何后处理，设置一个新的国家的最先进的。总的来说，我们的贡献是：– 我们提出了一种新的编码器-解码器结构，该结构采用DeepLabv 3作为强大的编码器模块和简单而有效的解码器模块。– 在我们的结构中，可以任意地控制提取的编码器特征的分辨率通过atrous卷积来权衡精度和运行时间，这是不可能与现有的编码器-解码器模型。– 我们适应Xception模型的分割任务和应用深度可分离卷积ASPP模块和解码器模块，导致一个更快，更强大的编码器-解码器网络。– 我们提出的模型在PASCAL VOC 2012和Cityscapes数据集上达到了新的最先进的性能。我们还提供了设计选择和模型变体的详细分析。– 我们在 www.example.com research/deeplab上公开了我们提出的模型https://github.com/tensorflow/models/tree/master/的基于Tensorflow的实现。2相关工作基于全卷积网络（FCN）[8，11]的模型在几个分割基准[1，2，3，4，5]上表现出显着的改进有几种模型变体被提出来利用用于分割的上下文信息[12，13，14，15，16，17，32，33]，包括采用多尺度输入的那些（即，图像金字塔）[34，35，36，37，38，39]或采用概率图形模型（如具有有效推理算法[41]的 DenseCRF [40]）[42，43，44，37，45，46，47，48，49，50，51，39]。在本论文中，我们主要讨论了使用空间金字塔池和编码器-解码器结构的模型。空间金字塔池化：模型，如PSPNet [24]或DeepLab [39，23]，在几个网格尺度上执行空间金字塔池化[18，19]（包括图像级池化[52]）或应用具有不同速率的几个并行atrous卷积（称为Atrous Spatial PyramidPooling或ASPP）。这些模型已经显示出有前途的结果，利用多尺度信息的几个分割基准。编码器-解码器：编码器-解码器网络已成功应用于许多计算机视觉任务，包括人类姿势估计[53]，ob-carter [54]。对象检测[54，55，56]和语义分割[11，57，21，22，58，59，60，61，62，63，64]。通常，编码器-解码器网络包含（1）逐渐减少特征图并捕获更高语义信息的编码器模块，以及（2）逐渐恢复空间信息的解码器模块在这个想法的基础上，我们建议使用DeepLabv3 [23]作为编码器模块，并添加一个简单而有效的解码器模块来获得更清晰的分割。4L- C Chen，Y.Zhu，G.帕潘德里欧F.Schroff和H.亚当编码器1x1转换图像DCNNAtrous Conv3x3转换率63x3转换率123x3转换率18图像池1x1转换解码器低级特征上采样4预测1x1转换Concat3x3Conv上采样4图二. 我们提出的DeepLabv 3+通过采用编码器-解码器结构来扩展DeepLabv3。编码器模块通过在多个尺度上应用无规则卷积来编码多尺度上下文信息，而简单而有效的解码器模块沿着对象边界细化分割结果。深度可分离卷积：深度可分离卷积[27，28]或组卷积[7，65]，一种强大的操作，可以减少计算成本和参数数量，同时保持相似（或稍好）的性能。这种操作已经在许多最近的神经网络设计中采用[66，67，26，29，30，31，68]。特别是，我们探索了Xception模型[26]，类似于[31]的COCO 2017检测挑战提交，并在语义分割任务的准确性和速度方面有所改进3方法在本节中，我们简要介绍了无环卷积[69，70，8，71，42]和深度可分卷积[27，28，67，26，29]。然后，我们回顾了DeepLabv3 [23]，它被用作我们的编码器模块，然后讨论了附加到编码器输出的拟议解码器模块。我们还提出了一个修改后的Xception模型[26，31]，它进一步提高了性能，计算速度更快3.1基于Atrous卷积的编解码器心房回旋：Atrous卷积是一种强大的工具，它允许我们显式地控制由深度卷积神经网络计算的特征的分辨率和adjustfilter的视频文件的分辨率，它概括了标准卷积运算。在二维信号的情况下，对于输出特征图y上的每个位置i和卷积滤波器w，在输入特征图x上应用atrous卷积，如下所示：DeepLabv3+：具有Atrous可分离卷积的编解码器5(a) 深度转换（b）逐点转换（c）Atrous深度转换图3.第三章。3× 3深度可分离卷积将标准卷积分解为(a)深度卷积（对每个输入通道应用单个滤波器）和（b）逐点卷积（组合来自跨通道的深度卷积的输出）。在这项工作中，我们探索了在深度卷积中采用atrous卷积的atrous可分离卷积，如（c）所示，速率= 2。y[i]=Σx[i+r·k]w[k]（1）K其中，速率r确定我们对输入信号进行采样的步幅。我们建议感兴趣的读者参考[39]以了解更多细节。注意，标准配置是在hr=1时的特殊配置。通过改变速率值来自适应地修改所述滤波器的视频场。深度可分离卷积：深度可分离卷积，将标准卷积分解为深度卷积，然后是逐点卷积（即，1× 1卷积），大大降低了计算复杂度。具体地，深度卷积针对每个输入通道独立地执行空间卷积，而逐点卷积被用来组合来自深度卷积的输出在TensorFlow中[72]深度可分离卷积的实现在深度卷积中支持Atrous卷积（即，空间卷积），如图所示。3.第三章。在这项工作中，我们将得到的卷积称为atrous可分离卷积，并发现atrous可分离卷积显着降低了所提出的模型的计算复杂度，同时保持相似（或更好）的性能。DeepLabv3作为编码器：DeepLabv3 [23]采用atrous卷积[69，70，8，71]来提取由深度卷积神经网络以任意分辨率计算的特征。这里，我们将输出步幅表示为输入图像空间分辨率与最终输出分辨率（在全局池化或全连接层之前）的比率。对于图像分类的任务，最终特征图的空间分辨率通常比输入图像分辨率小32倍，因此输出步幅= 32。对于语义分割的任务，可以采用输出步幅= 16（或8）以通过去除步幅来在最后一个（或两个）块中并相应地应用ATROUS卷积（例如，对于输出步幅= 8，我们分别将速率= 2和速率= 4应用于最后两个块）此外，DeepLabv3增强了Atrous空间金字塔池化模块，该模块通过应用不同速率的Atrous卷积来探测多个尺度的卷积特征，并具有图像级fea。6L- C Chen，Y.Zhu，G.帕潘德里欧F.Schroff和H.亚当[52]。我们使用原始DeepLabv 3中logits之前的最后一个特征映射作为我们提出的编码器-解码器结构中的编码器输出。注意，编码器输出特征图包含256个通道和丰富的语义信息。此外，可以通过应用无规则卷积以任意分辨率提取特征，这取决于计算预算。建议解码器：来自DeepLabv3的编码器功能通常使用输出步幅= 16进行计算。在[23]的工作中，特征以因子16进行双线性上采样，这可以被认为是朴素的解码器模块。然而，此朴素解码器模块可能无法成功地恢复对象分段细节。因此，我们提出了一个简单而有效的解码器模块，如图1所示。二、编码器特征首先以因子4进行双线性上采样，然后与来自网络主干的具有相同空间分辨率的相应低级特征[73]（例如在ResNet-101中跨步之前的Conv 2 [25]）。我们对低级别特征应用另一个1× 1卷积以减少通道的数量，因为相应的低级别特征通常包含大量通道（例如，256或512），这可能超过了丰富的编码器特征（在我们的模型中只有256个通道）的重要性在级联之后，我们应用一些3×3卷积来细化特征，然后再进行一次简单的双线性上采样，采样系数为4。我们在Sec中显示。4的结果表明，使用输出步幅= 16的编码器模块在速度和精度之间取得了最佳折衷。当以额外的计算复杂度为代价对编码器模块使用输出步幅3.2改良的对齐XceptionXception模型[26]在ImageNet [74]上显示了具有快速计算能力的有前景的图像分类结果最近，MSRA团队[31]修改了Xception模型（称为Aligned Xception），并进一步推动了对象检测任务的性能。这些发现的动机，我们在相同的方向上工作，以适应Xception模型的语义图像分割的任务。特别地，我们在MSRA的修改之上进行了一些修改，即（1）与[ 31 ]中相同的更深的Xception，除了我们不修改入口流网络结构以实现快速计算和存储器效率，（2）所有最大池化操作被具有跨步的深度可分离卷积取代，这使得我们能够应用atrous可分离卷积来提取任意深度的特征图。分辨率（另一种选择是将atrous算法扩展到最大池化操作），以及（3）在每个3 × 3 dependency卷积之后添加额外的批量归一化[75]和ReLU激活，类似于MobileNet设计[29]。详见图4。4实验评价我们使用 ImageNet-1 k [74] 预训练的 ResNet-101 [25] 或修改的对齐Xception [26，31]通过atrous卷积提取密集特征图。我们的实现基于TensorFlow [72]，并公开提供。DeepLabv3+：具有Atrous可分离卷积的编解码器7了图 4.第一章我们对X循环进行了如下改进：（1）更多的层（除了Entry流中的变化之外，对MSRA的修改进行了修改），（2）所有的最大池化操作都被具有跨步的深度可分离卷积所取代，以及（3）在每个3 × 3深度卷积之后添加额外的批量归一化和ReLU，类似于MobileNet。所提出的模型在PASCAL VOC 2012语义分割基准[1]上进行评估，该基准包含20个前景对象类和一个背景类。原始数据集包含1，464（训练），1，449（val）和1，456（测试）像素级注释图像。我们通过[76]提供的额外注释来增强数据集，得到10，582（trainaug）个训练图像。的性能是衡量的像素的交集超过工会平均跨越21类（mIOU）。我们遵循与[23]中相同的训练方案，并将感兴趣的读者参考[23]以了解详细信息。简而言之，我们采用相同的学习速率表（即，“poly”p 〇 li c y [ 52 ]并且在e0处是不可见的。007），cropsize513×513，当输出步幅=16时微调批量归一化参数[75]，以及训练期间的随机尺度数据增强。注意，我们还在所提出的解码器模块中包括批量归一化参数我们提出的模型是端到端训练的，没有对每个组件进行分段预训练。进入流图像Conv 32，3x3，步幅2Conv 64，3x3Sep Conv 128，3x3Conv 128，1x1步幅2Sep Conv 128，3x3Sep Conv 128，3x3，步幅2+Sep Conv 256，3x3Conv 256，1x1步幅2Sep Conv 256，3x39月Conv 256，3x3，步幅2+Sep Conv 728，Conv 728，1x1步幅2Sep Conv 728，3x3Sep Conv 728，3x3，步幅2+中间流动九月转换728，3x3九月转换728，3x3Sep Conv 728，3x3+重复16次出口流Sep Conv 728，3x3Conv 1024，1x1步幅29月转换1024，3x39月Conv 1024，3x3，步幅2+9月转换1536，3x39月转换1536，3x32048年9月转换，3x38L- C Chen，Y.Zhu，G.帕潘德里欧F.Schroff和H.亚当4.1解码器设计选择我们发现“Deep Labv3featuremap”是由DeepLabv3（即，包含ASPP特征和图像级特征的特征），以及[k×k，f]作为具有核k×k和f滤波器的卷积运算。当采用输出步幅=16时，基于ResNet-101的DeepLabv 3 [23]在训练和评估期间对logit进行双线性上采样16。这种简单的双线性上采样可以被认为是一个天真的解码器设计，达到ING的性能为77。PASCAL VOC2012值集为21% [ 23 ]，为1。比在训练期间不使用该朴素解码器好2%（即，在训练期间下采样地面实况）。为了改进这个简单的基线，我们提出的模型“D ee p La b v 3+“增加了编码输出的编码模型，如图所示。二、在解码器模块中，我们考虑了三个不同设计选择的地方，即（1）用于减少来自编码器模块的低级特征图的通道的1×1卷积，（2）用于获得更清晰的分割结果的3×3卷积，以及（3）编码器低级特征是什么应该使用。为了评估解码器模块中1×1卷积的效果，我们使用了[3×3， 256]和来自ResNet-101网络主干的Conv 2特征。即，res2x残差块中的最后一个特征图（具体来说，我们使用跨步之前的特征图）。如Tab.所示。1，将来自编码器模块的低级特征图的通道减少到48或32导致更好的性能。因此，我们采用[1 ×1，48]进行信道缩减。然后，我们为解码器模块设计了3×3卷积结构，并在表1中报告了结果二、我们发现，在将Conv2特征图（跨步前）与DeepLabv3特征图连接后，使用两个3×3卷积和256个过滤器比简单地使用一个或三个卷积更有效将过滤器的数量从256更改为128或将内核大小从3× 3更改为1×1会降低性能。我们还实验了在解码器模块中利用Conv2和Conv3特征图的情况在这种情况下，解码器特征图逐渐上采样2，首先与Conv3连接，然后与Conv2连接，并且每个都将通过[3× 3， 256]操作进行细化然后，整个解码过程类似于U-Net/SegNet设计[21，22]。然而，我们没有观察到显著的改善。因此，最后，我们采用了非常简单而有效的解码器模块：DeepLabv3特征图和通道缩减的Conv2特征图的级联通过两个[3 × 3，256]操作进行细化。请注意，我们提出的DeepLabv3+模型的输出步幅= 4。我们不追求更密集输出特征图（即，输出步幅4）。<4.2ResNet-101作为网络骨干为了在准确性和速度方面比较模型变体，我们在Tab中报告了mIOU和Multiply-Adds。当使用ResNet-101 [25]作为提议的DeepLabv 3+模型中由于atrous卷积，我们DeepLabv3+：具有Atrous可分离卷积的编解码器9编码器解码器MS Flip mIOU Multiply-Addstrain OS eval OS通道mIOU8 16 32 48 6477.61% 77.92% 78.16% 78.21% 77.94%表1.PASCAL VOC 2012val set.解码器1 ×1卷积用于减少来自编码器模块的低级特征图的通道。我们将解码器结构中的其他组件固定为使用[3× 3， 256]和Conv2。特点3× 3 Conv Conv2Conv3结构MiouC【3 ×3，256】78.21%C【3×3，256】×2 78.85%C【3×3，256】×3 78.02%C【3 ×3，128】77.25%C【1 ×1256】 78.07%CC[3 ×3，256]78.61%表2.固定[1×1，48]以减少编码器时解码器结构的影响特色频道我们发现使用Conv2（在跨步之前）特征图和两个额外的[3×3，256]操作是最有效的。VOC 2012valset上的性能。表3. 使用ResNet-101的PASCAL VOC 2012val集的推断策略。trainOS：训练期间使用的输出步幅。eval OS：评估期间使用的输出步幅。解码器：采用所提出的解码器结构。MS：评估期间的多尺度输入翻转：添加左右翻转的输入。能够在使用单个模型的训练和评估期间以不同的分辨率获得特征161677.21%81.02B16878.51%276.18B168C79.45%2435.37B168CC79.77%4870.59B1616C78.85%101.28B1616CC百分之八十点零九898.69B1616CCC80.22%1797.23B168C79.35%297.92B168CC80.43%2623.61B168CCC80.57%5247.07B323275.43%52.43B3232C77.37%74.20B3216C77.80%101.28B10L- C Chen，Y.Zhu，G.帕潘德里欧F.Schroff和H.亚当模型复制ResNet-101修改XceptionTop-1错误Top-5错误22.40% 6.02%20.19% 5.17%表4. ImageNet-1 K验证集上的单模型基线：Tab中的第一行块3包含来自[23]的结果，其示出了在评估期间提取更密集的特征图（即，eval_output_stride= 8），并且采用多尺度输入提高了性能。此外，添加左右翻转输入使计算复杂度加倍，而性能仅略有改善。添加解码器：Tab中的第二行块。3包含采用所提出的解码器结构时的结果。性能从77提高。21%至78。85%或78。51%至79。当使用eval输出stride= 16或8时，分别为35%的perfor-曼斯进一步改善时，使用多尺度和左右翻转输入。粗糙特征图：我们还对使用训练输出步幅= 32（即，在训练期间根本没有无卷积）以用于快速计算。如Tab中的第三行块所示3，添加解码器带来约2%的改进，而仅需要74.20B乘加。然而，性能总是比我们使用训练输出步幅= 16和不同的eval输出步幅值的情况低约1%到1.5%因此，我们更喜欢在训练或评估期间使用输出步幅= 16或8，这取决于复杂性预算。4.3Xception作为网络骨干我们进一步采用更强大的Xception [26]作为网络骨干。接下来[31]，我们做了一些修改，如第2节所述3.2.ImageNet预训练：所提出的Xception网络在ImageNet-1 k数据集[74]上预训练，使用[26]中的类似训练协议。具体来说，我们采用Nesterov动量优化器，动量= 0.9，初始学习率= 0.05，每2个epoch的速率衰减=0.94，权重衰减4e− 5。我们使用50个GPU进行异步训练，每个GPU的批量大小为32，图像大小为299×299。我们并没有非常努力地调整超参数，因为目标是在ImageNet上预训练模型以进行语义分割。我们在Tab中报告了验证集上的单模型错误率。4连同基线一起在相同的训练方案下再现ResNet-101 [25]在修改后的Xception中，当在每个3×3深度卷积后不添加额外的批量归一化和ReLU时，我们使用建议的Xception作为网络骨干的语义分割的结果五、基线：我们首先在Tab中的第一行块中报告不使用所提出的解码器的结果。5，这表明使用Xception作为网络DeepLabv3+：具有Atrous可分离卷积的编解码器11当train_output_stride=eval_output_stride= 16时，主干将使用ResNet-101的情况下的性能提高约2%。进一步的改进也可以通过使用eval输出步幅= 8、在推理期间的多尺度输入以及添加左右翻转输入来获得。请注意，我们没有采用多重网格方法[77，78，23]，我们发现这不会提高性能。添加解码器：如Tab中的第二行块所示。5，对于所有不同的推理策略，当使用eval输出步幅= 16时，添加解码器带来0.8%的改进当使用eval output stride= 8时，改进变得较小使用深度可分离卷积：受深度可分离卷积的高效计算的启发，我们进一步在ASPP和解码器模块中采用它。如Tab中的第三行块所示。5中，乘法加法方面的计算复杂度显著降低了33%至41%，同时获得了类似的mIOU性能。在COCO上进行预训练：为了与其他最先进的模型进行比较，我们进一步在MS-COCO数据集上对我们提出的DeepLabv 3+模型进行预训练[79]，这对所有不同的推理策略都产生了大约2%的额外改进在JFT上进行预训练：与[23]类似，我们还采用了在ImageNet-1 k[74]和JFT-300 M数据集[80，26，81]上进行预训练的Xception模型，这带来了额外的0.8%到1%的改进。测试集结果：由于在基准评估中没有考虑计算复杂度，因此我们选择了最佳性能模型，并使用输出步幅= 8和冻结批归一化参数对其进行训练。最后，我们的 “Dee p La b v 3+”获得了87的性能。 8% 和 89.0%witoutanddwith JFT dataset pretraining.定性结果：我们在图中提供了我们最好的模型的视觉结果。六、如图所示，我们的模型能够很好地分割对象，无需任何后处理。失效模式：如图1的最后一行所示。6、我们的模型在分割（a）沙发vs.椅子，（b）被严重遮挡的物体，以及（c）具有罕见视野的物体。4.4沿对象边界的改进在本小节中，我们使用trimap实验[14，40，39]来评估分割准确度，以量化所提出的解码器模块在边界区域附近的准确度。具体地，我们将形态学算法应用于值集合上的多个然后，我们计算在“v 〇 i d”a b e ls的扩张带（calledtrimap）内的那些像素的平均IOU。就像在电影里一样。在图5（a）中，与朴素的双线性上采样相比，针对ResNet-101 [25]和Xception [26]网络骨干两者实现所述改进的解码当扩张带较窄时，改善更显著。我们已经观察到ResNet-101和Xception分别在2015年和2016年分别有4.8%和5.4%的mIOU改善。12L- C Chen，Y.Zhu，G.帕潘德里欧F.Schroff和H.亚当编码器解码器MS Flip SC COCO JFT mIOU乘加训练OS evalOS表5. 使用mod-时PASCAL VOC 2012值集的推断策略Xception。trainOS：训练期间使用的输出步幅。eval OS：评估期间使用的输出步幅解码器：采用所提出的解码器结构。MS：评估期间的多尺度输入。翻转：添加左右翻转的输入。SC：针对ASPP和解码器模块两者采用深度可分离卷积。COCO：在MS-COCO上预训练的模型JFT：在JFT上预训练的模型。如图所示的最小三元图宽度。我们还可视化采用图中提出的解码器的效果。5（b）。4.5城市景观的实验结果在本节中，我们在Cityscapes数据集[3]上实验了DeepLabv3+，这是一个大规模数据集，包含5000张图像的高质量像素级注释（训练集、验证集和测试集分别为2975、500和1525）和约20000张粗略注释的图像。如Tab.所示。7（a），采用所提出的Xception模型作为DeepLabv 3 [23]之上的网络骨干（表示为X-65），其中包括ASPP161679.17%68.00B1616C80.57%601.74B1616CC80.79%1203.34B16879.64%240.85B168C81.15%2149.91B168CC81.34%4299.68B1616C79.93%89.76B1616CC81.38%790.12B1616CCC81.44%1580.10B168C80.22%262.59B168CC81.60%2338.15B168CCC81.63%4676.16B1616CC79.79%54.17B1616CCCC81.21%928.81B168CC80.02%177.10B168CCCC81.39%3055.35B1616CCC82.20%54.17B1616CCCCC83.34%928.81B168CCC82.45%177.10B168CCCCC83.58%3055.35B1616CCCC83.03%54.17B1616CCCCCC84.22%928.81B168CCCC83.39%177.10B168CCCCCC84.56%3055.35BDeepLabv3+：具有Atrous可分离卷积的编解码器13方法mIOU深层级联（LC）[82]82.7[77]2016年10月17日大型内核问题[60]83.6多路径精炼网[58]84.2ResNet-38 MS COCO [83]84.9PSPNet [24]85.4美国有线电视新闻网IDW-CNN [84]86.3[63]2016年中国国际汽车工业展览会DIS [85]86.8[23]第二十三话[23]第二十三话85.786.9DeepLabv3+（Xception）87.8DeepLabv3+（Xception-JFT）89.0表6.PASCAL VOC 2012测试集结果与性能最佳的模型。807060500 10 20 3040三重图宽度（像素）带BU和解码器的图像(a) mIOU与Trimap width（b）解码器效果图五. （a）当采用训练输出步幅=评估输出步幅=16时，作为对象边界周围的三重图带宽的函数的mIOU。BU：双线性上采样。(b)与朴素双线性上采样（表示为BU）相比，采用所提出的解码器模块的定性效果。在示例中，我们采用Xception作为特征提取器，训练输出步幅=eval输出步幅=16。模块和图像级特征[52]，在验证集上达到77.33%的性能添加所提出的解码器模块显着提高性能到78.79%（1.46%的改善）。我们注意到，删除增强的图像级特征将性能提高到79.14%，这表明在DeepLab模型中，图像级特征在PASCAL VOC 2012数据集上更有效我们还发现，在Cityscapes数据集上，在Xception [26]中的入口流中增加更多层是有效的，与[31]对对象检测任务所做的相同。在更深的网络骨干（在表中表示为X-71）之上构建的结果模型在验证集上获得了79.55%的最佳性能。在val集上找到最佳模型变体后，我们进一步在粗注释上对模型进行微调，以便与其他最先进的模型竞争Xception带解码器ResNet−101带解码器Xception带BUResNet−101带BU平均IOU14L- C Chen，Y.Zhu，G.帕潘德里欧F.Schroff和H.亚当图六、valset上的可视化结果最后一行显示故障模式。骨干解码器ASPP图像级方法粗mIOUResNet-38 [83]CMiou80.6X-65CC77.33PSPNet [24]C81.2X-65CCC78.79马皮里[86]C82.0X-65C CX-71C C79.14DeepLabv3七十九点五五DeepLabv3+C81.382.1(a) valset results（b）测试集结果表7. (a)使用训练精细集训练时，Cityscapesval集上的DeepLabv3+。(b) Cityscapes测试集上的DeepLabv3+。粗：也使用训练额外集（粗注释）本表中仅列出了几种顶级型号模型如Tab.所示7（b），我们提出的DeepLabv3+在测试集上达到了82.1%的性能，在Cityscapes上创下了新的最先进的性能。5结论我们提出的“DeepLabv3+”模型实现了一种基于DeepLabv3的编码解码算法，该算法利用DeepLabv3对丰富的上下文信息进行编码，并采用一个简单有效的解码模块来恢复对象边界。还可以根据可用的计算资源应用无规则卷积以任意分辨率提取编码器特征我们还探讨了Xception模型和atrous可分离卷积，使所提出的模型更快，更强。最后，在PASCAL VOC 2012和Cityscapes数据集上的实验结果表明，该模型具有较好的性能鸣谢我们非常感谢与Haozhi Qi和Jifeng Dai就Aligned Xception进行的宝贵讨论、Chen Sun的反馈以及Google Mobile Vision团队的支持。DeepLabv3+：具有Atrous可分离卷积的编解码器15引用1. Everingham，M.Eslami，S.M.A.Gool，L.V.，威廉姆斯，C.K.I.，Winn，J.，Zisser-man，A.：pascal可视化对象类挑战回顾。IJCV（2014）2. Mottaghi河陈旭，Liu，X.，中国科学院院士，Cho，N.G.，Lee，S.W.，Fidler，S.，Urtasun河Yuille，A.：背景在野外对象检测和语义分割中的作用在：CVPR中。（2014年）3. Cordts，M.，Omran，M.，Ramos，S.，Rehfeld，T.，Enzweiler，M.，Benenson河弗兰克，美国，Roth，S.，Schiele，B.：用于语义城市场景理解的cityscapes数据集在：CVPR中。（2016年）4. Zhou，B.，（1991年），中国地质大学，赵，H.，Puig，X.，Fidler，S.，Barriuso，A.Torralba，A.：通过ade20k数据集进行场景在：CVPR中。（2017年）5. 凯撒H Uijlings，J.，Ferrari，V.：COCO-Stuff：上下文中的事物和东西类。在：CVPR中。（2018年）6. LeCun，Y.，博图湖Bengio，Y.，Haffner，P.：基于梯度的学习应用于文档识别。In：Proc. IEEE. （一九九八年）7. Krizhevsky，A.，萨茨克弗岛Hinton，G.E.：Imagenet分类与深度卷积神经网络。在：NIPS。（2012年）8. Sermanet，P.，Eigen，D.张，X.，Mathieu，M.，费格斯河LeCun，Y.：Overfeat：使用卷积网络集成识别、定位和检测。In：ICLR. （2014年）9. 西蒙尼扬，K.，齐瑟曼，A.：用于大规模图像识别的深度卷积网络。In：ICLR. （2015年）10. 塞格迪角刘伟，Jia，Y.，Sermanet，P.，Reed，S.，Anguelov，D.，Erhan，D.，Vanhoucke，V.，Rabinovich，A.：更深的回旋。在：CVPR中。（2015年）11. 朗J Shelhamer，E.，达雷尔，T.：用于语义分段的全卷积网络。在：CVPR中。（2015年）12. 他，X.，Zemel，R.S.，Carreira-Perpindn，M.：用于图像标记的多尺度条件随机场在：CVPR中。（2004年）13. Shotton ， J. ，Winn ，J. ，Rother， C. ，Criminisi ， A.：Textonboost forimage understanding- ing：通过对纹理、布局和上下文进行联合建模，实现多类对象识别和分割IJCV（2009）14. Kohli，P.，托，pH值，等：用于强制执行标签计数的鲁棒高阶势。IJCV82（3）（2009）30215. 拉迪基湖拉塞尔角Kohli，P.，Torr，P.H.：用于对象类图像分割的关联分层crfs。In：ICCV. （二零零九年）16. Gould，S

下载后可阅读完整内容，剩余1页未读，立即下载