RefineNet：用于高分辨率语义分割的多路径细化网络

198 浏览量更新于2023-10-15 收藏 1.3MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1925RefineNet：用于高分辨率语义分割的林国胜1安东米兰2沈春华2，3伊恩里德2，31南洋理工大学2阿德莱德大学3澳大利亚机器人视觉摘要最近，非常深的卷积神经网络（CNN）在对象识别方面表现出了出色的性能，并且也是语义分割等密集分类问题的首选。然而，重复的子采样操作，如深度CNN中的池化或卷积步幅，会导致初始图像分辨率的显著下降。在这里，我们介绍了RefineNet，这是一个通用的多路径细化网络，它明确地利用了下采样过程中的所有可用信息，从而使用长距离残差连接实现高分辨率预测。以这种方式，可以使用来自早期卷积的细粒度特征来直接细化RefineNet的各个组件采用遵循身份映射思维的剩余连接，这允许有效的端到端训练。此外，我们引入链式残差池，它以有效的方式捕获丰富的背景上下文我们进行了全面的实验，并在七个公共数据集上设置了新的最先进的结果。特别是，我们实现了83的交叉联合得分。4在具有挑战性的PASCAL VOC 2012数据集上，这是迄今为止报告的最佳结果。1. 介绍语义分割是图像理解的重要组成部分。这里的任务是为图像中的每个像素分配一个唯一的标签（或类别），这可以被认为是一个密集分类问题。所谓的对象解析的相关问题通常可以转换为语义分割。最近，深度学习方法，特别是卷积神经网络（CNN），例如，VGG [42]，残差网[24]，在识别任务中显示了值得注意的结果然而，这些方法在密集预测方面这项工作是在G.林博士曾就职于阿德莱德大学和澳大利亚机器人视觉中心。图1.我们的方法在对象解析（左）和语义分割（右）任务上的示例结果。在密集深度或正常估计[13，33，34]和语义分割[36，5]等任务中。多级空间池化和卷积步长通常在每个维度上将最终图像预测减少32倍，从而丢失了许多更精细的图像结构。解决这一限制的一种方法是学习反卷积滤波器作为上采样操作[38，36]，以生成高分辨率特征图。去卷积操作不能恢复在卷积前向阶段中的下采样操作之后丢失因此，它们无法输出准确的高分辨率预测。低层次的视觉信息对于准确预测边界或细节是必不可少的。Chen等人最近提出的DeepLab方法。[6]采用atrous（或扩张）卷积来解释更大的感受野，而无需缩小图像。DeepLab应用广泛，在语义分割方面表现出最先进的性能。这一战略虽然成功，但至少有两个局限性。首先，它需要对大量的细节（高分辨率）特征图执行卷积，这些特征图通常具有高维特征，这是计算昂贵的。此外，大量的高维和高分辨率的特征图也需要巨大的GPU内存资源，特别是在训练阶段。这阻碍了高分辨率预测的计算，并且通常将输出大小限制为原始输入的1/其次，扩张卷积引入了特征的粗略子采样，这可能导致重要细节的丢失。另一种类型的方法利用了interme的特征1926用于产生高分辨率预测的扩散层，例如，[36]中的FCN方法和[22]中的Hypercolumns这些工作背后的直觉是，来自中间层的特征被期望描述对象部分的中级表示，同时保留空间信息。该信息被认为是对来自早期卷积层的特征的补充，早期卷积层编码低级空间视觉信息，如边缘、角、圆等，并且还对来自更深层的高级特征进行补充，所述更深层对高级语义信息（包括对象级或类别级证据）进行编码，但是所述更深层缺乏强空间信息。我们认为，从各个层次的特征是有助于语义分割。高层次的语义特征有助于图像区域的类别识别，而低层次的视觉特征有助于生成清晰、详细的边界以进行高分辨率预测。如何有效地利用中间层特征是一个值得关注的问题.为此，我们提出了一种新的网络架构，有效地利用多层次的功能，生成高分辨率的预测。我们的主要贡献如下：1.我们提出了一个多路径细化网络（ Re-fineNet），它利用了高分辨率语义分割的多个抽象层次的功能。Re-fineNet以递归方式用细粒度的低级特征细化低分辨率（粗）语义特征，以生成高分辨率语义特征图。我们的模型是灵活的，因为它可以很容易地级联和修改2. 我们的级联RefineNets可以有效地进行端到端训练，这对于最佳预测性能至关重要。更具体地说，RefineNet中的所有组件都使用带有身份映射的残差连接[24]，这样梯度就可以直接通过短程和长程残差连接传播，从而实现有效和高效的端到端训练。3.我们提出了一个新的网络组件，我们称之为链式残差池，它能够从一个大的图像区域捕获背景上下文。它通过有效地汇集具有多个窗口大小的特征并将它们与剩余连接和可学习权重融合在一起来实现这一点。4. 拟议的RefineNet在7个公共数据集上实现了最先进的性能，包括 PASCAL VOC 2012 ， PASCAL-Context，NYUDv 2，SUN-RGBD，Cityscapes，ADE20 K和对象解析Person-Parts数据集。特别是，我们实现了83的IoU得分。4在PASCAL VOC 2012数据集上，表现远远优于目前最好的方法DeepLab。为了方便未来的研究，我们发布了RefineNet的源11代码：https://github.com/guosheng/refinenet1.1. 相关工作近年来，CNN已经成为最成功的语义分割方法[18，23]中的早期方法是基于区域建议的方法，其对区域建议进行分类以生成分割结果。最近，全卷积网络（FCNN）[36，5，10]已显示出有效的特征生成和端到端训练，因此已成为最受欢迎的语义分割选择。FCNN还广泛应用于其他密集预测任务，例如，深度估计[15，13，33]、图像恢复[14]和图像超分辨率[12]。这里提出的方法也是基于完全卷积式网络。基于模糊神经网络的方法通常具有低分辨率预测的局限性有许多建议的技术，解决这个限制，并旨在生成高分辨率的预测。[5]中的atrous卷积方法DeepLab-CRF直接输出中等分辨率的分数图，然后应用密集CRF方法[27]通过利用颜色对比信息来细化边界。CRF-RNN [47]通过实现用于密集CRF和FCNN的端到端学习的递归层来扩展这种方法。去卷积方法[38，2]学习去卷积层以对低分辨率预测进行上采样。[34]中的深度估计方法采用超像素池化来输出高分辨率预测。存在几种利用中间层特征进行分割的方法。 Longetal. [36]将预测层添加到中间层，以在多个分辨率下生成预测分数。它们对多分辨率分数求平均以生成最终预测掩码。他们的系统是以阶段方式而不是端到端的方式进行训练的超列方法[22]合并中间层的特征并学习密集的分类层。该方法还采用阶段式训练策略，而不是端到端训练。SegNet [2]和U-Net [40]都在反卷积架构中应用跳跃连接，以利用中间层的特征。虽然有一些相关的工作，它仍然是一个悬而未决的问题，如何有效地利用中间层的功能。我们提出了一种新的网络架构，精炼网，来解决这个问题。Re-fineNet的网络架构与现有方法不同。它由一些专门设计的组件，这些组件能够通过利用低级视觉特征来细化粗糙的高级语义特征。特别是，RefineNet采用了具有识别映射的短程和远程剩余连接，这使得整个系统能够进行有效的端到端训练，从而有助于实现卓越的性能。全面的实证结果清楚地验证了我们的新的网络架构的有效性，利用- ING中间层功能。19272. 背景在介绍我们的方法之前，我们首先更详细地回顾了用于语义分割的全卷积网络的结构[36]，并讨论了最近的扩张卷积技术[6]，该技术专门设计用于生成高分辨率预测。非常深的CNN在对象识别问题上表现出了出色的性能。具体来说，最近提出的残差网络（ResNet）[24]已经显示出比早期架构的阶跃变化改进，并且为ImageNet识别任务预先训练的ResNet模型是公开可用的。因此，在下文中，我们采用ResNet作为语义分割的基本构建块然而，请注意，用任何其他深度网络替换它是简单的。由于语义分割可以转换为密集分类问题，因此可以轻松修改ResNet模型这是通过用密集预测层替换单个标签预测层来实现的，该密集预测层输出每个像素处的每个类别的分类置信度。这种方法如图所示第2段（a）分段。可以看出，在ResNet中的前向传递过程中，特征图（层输出）的分辨率降低，而特征深度，I.E.每层（或通道）的特征图的数量增加。前者是由在卷积和合并操作期间的跨步引起的。根据输出特征图的分辨率，ResNet层可以自然地分为4个块，如图所示。第2段（a）分段。通常，步幅被设置为2，从而当从一个块传递到下一个块时，将特征图分辨率减少到一半。这种顺序子采样有两个效果：首先，它增加了更深层次的卷积的感受野，使滤波器能够捕获更多的全局和上下文信息，这对于高质量分类是必不可少的;其次，有必要保持训练的有效性和易处理性，因为每一层包括大量的滤波器，因此产生具有相应数量的通道的输出。因此，在通道的数量和特征图的分辨率之间存在折衷通常，最终的特征图输出在每个空间维度上都比原始图像小32倍（但有数千个通道）。这种低分辨率特征图丢失了早期低级过滤器捕获的重要视觉细节，导致相当粗糙的分割图。该问题是基于CNN的深度分割方法的众所周知的限制。另一种避免降低分辨率同时保持较大感受野的方法是使用扩张（atrous）卷积。[6]中介绍的这种方法显示了语义分割的最新性能。子采样操作被移除（步幅从2变为1），并且第一块之后的所有卷积层使用扩张卷积。如此膨胀的卷积-的作用，这是一个有效的子采样卷积核，具有增加的效果，而不增加的数量的权重，必须学习的过滤器的感受野大小（见图。第2段（b）分段）。即便如此，存储器中也存在显著的成本，因为与图像子采样方法不同例如，如果我们将所有层中的所有通道保持为原始图像分辨率的至少1/4，并将滤波器通道的典型数量视为1024，那么我们可以看到，即使是高端GPU的内存容量也会很快被非常深的因此，在实践中，当使用深度网络时，膨胀卷积方法通常具有不超过原始大小的1/8而不是1/4的分辨率预测。与扩张卷积方法相比，在本文中，我们提出了一种既能享受去分辨的内存和计算优势，又能产生有效和高效的高分辨率分割预测的方法，如下节所述。3. 该方法我们提出了一个新的框架，提供了多个路径，通过这些路径，来自不同分辨率的信息，并通过潜在的远程连接被同化使用一个通用的构建块，精炼网。图2（c）示出了实现我们的高分辨率语义分割的目标的构建块的一种可能的布置。3.1. 多路径细化如前所述，我们的目标是利用多层次的特点，高分辨率预测与远程残差的连接。RefineNet提供了一种通用的方法来融合粗糙的高级语义特征和更细粒度的低级特征，以生成高分辨率的语义特征图。该设计的一个关键方面确保梯度可以毫不费力地通过网络向后传播到远程剩余连接的早期低级层，确保整个网络可以端到端训练。对于我们的标准多路径架构，我们根据特征图的分辨率将预训练的ResNet（使用ImageNet训练）划分为4个块，并采用具有4个RefineNet单元的4级联架构，每个单元直接连接到一个ResNet块的输出以及级联中的前一个RefineNet块。然而，注意，这样的设计不是唯一的。事实上，我们灵活的架构允许对不同变体进行简单探索。例如，一个RefineNet块可以从多个ResNet块接收输入。我们将在后面的第2节中分析2级级联版本、单块方法以及2级7通道架构。四点三。19281RefineNet1/42RefineNet1/81/43RefineNet4RefineNet1/161/32预测自适应转换RefineNet2x RCU输出转换2x RCU1x RCU2x RCU剩余转化单位多分辨率融合链式残差合并总和ReLU总和总和总和（一）1/41/81/161/32ResNet1/32（c）第（1）款1/4RefineNet（b）第（1）款扩张卷积1/81/161/41/8 1/8 1/8 1/81/32图2.用于密集分类的全卷积方法的比较。标准的多层CNN，如ResNet（a），遭受特征图的缩小，从而在此过程中丢失了精细结构。扩张卷积（b）通过引入atrous滤波器来弥补这一缺点，但即使在现代GPU上，训练计算成本也很高，并且很快达到内存限制。我们提出的架构，我们称之为RefineNet（c），利用不同卷积阶段的各种细节级别，并将它们融合在一起，以获得高分辨率的预测，而无需维护大型中间特征图。参见正文和图。3详情（一）（b）（c）（d）图3.我们的多路径细化网络架构RefineNet的各个组件。RefineNet中的组件使用带有身份映射的残差连接，允许梯度直接通过网络本地传播，并通过远程残差连接直接传播到输入路径，从而实现整个系统的有效端到端训练。我们将RefineNet-m表示为连接到ResNet中块-m输出的RefineNet块在实践中，每个ResNet输出都通过一个卷积层来适应维度。尽管所有的RefineNet共享相同的内部架构，但它们的参数并不受约束，从而允许更灵活地适应各个细节级别。根据图1中的图示。2（c）自下而上，我们从ResNet中的最后一个块开始，并将ResNet block-4的输出连接到RefineNet-4。在这里，RefineNet-4只有一个输入，RefineNet-4作为一个额外的卷积集，它使预先训练的ResNet权重适应手头的任务，在我们的情况下，语义分割。在下一阶段，RefineNet-4的输出和ResNet块-3作为2路输入馈送到RefineNet-3RefineNet-3的目标是使用ResNet block-3的高分辨率特征来细化RefineNet-4 在前一阶段输出类似地，RefineNet-2和RefineNet-1通过融合来自较晚层的高级信息和来自较早层的高分辨率但低级别的特征来重复这种阶段式细化。作为最后一步，最终的高分辨率特征图被馈送到密集的soft-max层，以密集得分图的形式进行最终预测。然后使用双线性插值对该分数图进行上采样以匹配原始图像。请注意，整个网络可以有效地进行端到端训练。............多路输入ReLU3x3转换ReLU3x3转换3x3转换3x3转换上采样上采样多分辨率融合总和链式残差合并5x5游泳池3x3转换5x5游泳池3x3转换5x5游泳池3x3转换1929值得注意的是，我们在ResNet和Re- fineNet模块中的块之间引入了远程在前向传递期间，这些长距离残余连接传达低级特征，所述低级特征对视觉细节进行编码以用于细化粗略的高级特征图。在训练步骤中，远程残差连接允许将梯度直接传播到早期卷积层，这有助于有效的端到端训练。3.2. RefineNet一个RefineNet块的架构如图所示。第3（a）段。在图2（c）所示的多路径概览中，RefineNet-1具有一个输入路径，而所有其他RefineNet块具有两个输入。然而，请注意，我们的架构是通用的，每个Refine块都可以很容易地修改，以接受任意数量的具有任意分辨率和深度的特征图。残差卷积单元。每个Re- fineNet块的第一部分由一个自适应卷积集组成，它主要为我们的任务微调预训练的ResNet权重。为此，每个输入路径顺序地通过两个残差卷积单元（RCU），这是原始ResNet [24]中卷积单元的简化版本，其中批量归一化层被移除（参见。图第3（b）段）。在我们的实验中，每个输入路径的过滤器数量对于RefineNet-4设置为512，对于其余路径设置为256多分辨率融合。然后，所有路径输入由多分辨率融合块融合成高分辨率特征图，如图1B所示。3（c）款。该块首先应用卷积进行输入自适应，其生成相同特征维度的特征图（输入中最小的一个），然后将所有（较小的）特征图上最后，所有的特征地图融合求和。该块中的输入自适应还有助于沿着不同路径适当地重新缩放特征值，这对于随后的求和融合是重要的。如果只有一个输入路径（例如，图中的RefineNet-4的情况。2（c）），则输入路径将直接通过该块而没有改变。链式残差合并。然后，输出特征图经过链接的残差池化块，如图2所示。第3段（d）分段。所提出的链式残差池化的目的是从大的图像区域中捕获背景上下文。它能够有效地池功能与多个窗口大小和融合在一起使用可学习的权重。特别地，该组件被构建为多个池化块的链，每个池化块由一个最大池化层和一个卷积层组成。一个pooling块将前一个pooling块的输出作为输入。因此，当前池化块能够重新使用来自先前池化操作的结果，并且因此能够重新使用来自先前池化操作的结果。从一个大的区域中删除特征，而不使用一个大的池化窗口。如果没有进一步指定，我们在实验中使用两个池化块，每个块的步幅为1。所有池化块的输出特征图通过残差连接的求和与输入特征图融合在一起。请注意，我们使用残差连接的选择也存在于这个构建块中，这再次促进了训练期间的梯度传播。在一个池化块中，每个池化操作之后是卷积，卷积用作求和融合的加权层。预计该卷积层将在训练过程中学习适应池化块的重要性。输出卷积。每个RefineNet块的最后一步是另一个残差卷积单元（RCU）。这导致每个块之间的三个RCU的序列。为了在最后一个RefineNet-1块中反映这种行为，我们在最后一个softmax预测步骤之前放置了两个额外的RCU。这里的目标是在多路径融合特征图上采用非线性操作以生成用于进一步处理或用于最终预测的特征。经过此块后，特征尺寸保持不变3.3. RefineNet中的恒等映射请注意，RefineNet的所有卷积组件都是受残余连接背后的想法启发而精心构建的，并遵循身份映射规则[25]。这使得梯度能够通过RefineNet进行有效的反向传播，并促进级联多路径细化网络的端到端学习。使用带有恒等映射的残差连接允许梯度直接从一个块传播到任何其他块，如He等人最近所示。[25 ]第20段。这个概念鼓励为快捷连接保持干净的信息路径，这样这些连接就不会被任何非线性层或组件“阻塞”。相反，非线性操作被放置在主信息路径的分支上。我们遵循这一指导方针对RefineNet中的各个组件进行去卷积，包括所有卷积单元。正是这种特殊的策略使多级联的RefineNet能够有效地训练请注意，我们在链式残差池块中包含一个非线性激活层（ReLU）。我们观察到，这种ReLU对于后续池化操作的有效性非常重要我们观察到，每个RefineNet块中的一个ReLU不会明显降低梯度流的有效性。在RefineNet中，我们有短距离和长距离的剩余连接短距离剩余连接指的是一个RCU或剩余池组件中的本地快捷连接，而长距离剩余连接指的是RefineNet模块之间的连接，1930表1. Person-Part数据集上的对象解析结果。我们的方法实现了最佳性能（粗体）。方法IOU方法IOU注意事项[7]56.4HAZN [45]57.5[29]第二十九话58.0[28]第二十八话60.2DeepLab [5]62.8DeepLab-v2（Res101）[6]64.9RefineNet-Res 101（我们的）68.6表2.NYUDv 2和Person-Part上的消融实验初始化连锁泳池伊娃足球俱乐部NYUDv2 个人-零件ResNet-50没有没有40.464.1ResNet-50是的没有42.565.7ResNet-50是的是的43.867.1ResNet-101是的没有43.667.6ResNet-101是的是的44.768.6ResNet-152是的是的46.568.8表3.NYUDv2上的分割结果（40类）。方法训练数据像素加速度平均加速度IOUGupta等人[20个]RGB-D60.3-28.6[36]第三十六话RGB60.042.229.2FCN-HHA [36]RGB-D65.446.134.0背景[30]RGB70.053.640.6RefineNet-Res152RGB73.658.946.5ResNet块。通过长距离残差连接，梯度可以直接传播到ResNet中的早期卷积层，从而实现所有网络组件的端到端训练融合块融合多条捷径的信息在这方面，这里的多分辨率融合块的作用类似于ResNet中的常规残差卷积单元中的“求和”融合的作用。在RefineNet中，特别是在融合块中，有一些特定的层可以执行线性特征变换操作，如线性特征降维或双线性上采样。这些层被放置在快捷路径上，这与ResNet [24]中的情况类似。与ResNet中一样，当快捷连接跨越两个块时，它将在快捷路径中包含一个卷积层，用于线性特征维度自适应，这确保特征维度与下一个块中的后续求和相匹配。由于在这些层中仅采用线性变换，因此梯度仍然可以有效地通过这些层传播。4. 实验为了证明我们的方法的有效性，我们在七个公共数据集上进行了全面的实验，其中包括六个流行的室内和室外场景的语义分割数据集，以及一个名为Person-Part的对象解析数据集。分割质量通过交集-并集（IoU）得分[16]、像素准确度和平均准确度[36]来衡量。（a）测试图像（b）地面实况（c）预测图4.我们在Person-Parts数据集上的预测示例。所有班级。正如文献中通常所做的那样，我们在训练过程中应用简单的数据增强。具体来说，我们执行随机缩放（范围从0。七比一3）图像的随机裁剪和水平翻转。如果没有进一步说明，我们应用测试时多尺度评估，这是分割方法中的常见做法[10，6]。对于多尺度评估，我们对同一图像上不同尺度的预测进行平均，以获得最终预测。我们还提出了一个消融实验，以检查组件和我们的模型的几个变体的影响。我们的系统建立在MatConvNet上[44]。4.1. 对象解析我们首先提出我们的结果的任务对象解析，其中包括识别和分割对象的部分。我们在Person-Part数据集[8，7]上进行实验，该数据集为六个人的部分提供像素级标签，包括头部，躯干，上/下手臂和上/小腿。每个图像的其余部分被视为背景。有1717个训练图像和1818个测试图像。我们为这个数据集使用4个链式池块。我们将我们的结果与表1中列出的许多最先进的方法进行比较。结果清楚地证明了比以前的作品的改进。特别是，我们显著优于最近的DeepLab-v2方法[6]，该方法基于用于高分辨率分割的扩张卷积，使用相同的ResNet作为初始化。在表2中，我们提出了一个消融实验，以量化以下组件的影响：如前所述，网络深度、链式残差池和多尺度评估（Msc Eva）。实验表明，这三个因素中的每一个都能提高整体性能.我们在这个数据集上的对象解析的定性例子如图所示。4.第一章4.2. 语义分割我们现在描述我们在六个公共基准上进行密集语义标记的实验，并表明我们的Re-fineNet在所有数据集上都优于以前的方法。1931表4. PASCAL VOC 2012测试集的结果（IoU分数）。我们的RefineNet实现了最佳的整体性能（IoU 83. 4）.方法是说FCN-8s [36]76.834.268.949.460.375.374.777.621.462.546.871.863.976.573.945.272.437.470.955.162.2[38]第三十八话89.939.379.763.968.287.481.286.128.577.062.079.080.383.680.258.883.454.380.765.072.5CRF-RNN [47]90.455.388.768.469.888.382.485.132.678.564.479.681.986.481.858.682.453.577.470.174.7[10]第10话89.838.089.268.968.089.683.087.734.483.667.181.583.785.283.558.684.955.881.270.775.2DPN [35]89.061.687.766.874.791.284.387.636.586.366.184.487.885.685.463.687.361.379.466.477.5背景[30]94.140.784.167.875.993.484.388.4 四十二点五86.464.785.489.085.886.067.590.263.880.973.078.0DeepLab [5]89.138.388.163.369.787.183.185.029.376.556.579.877.985.882.457.484.354.980.564.172.7DeepLab2-Res101 [6]92.660.491.663.476.395.088.492.632.788.567.689.692.187.087.463.388.360.086.874.579.7CSupelec-Res101 [4]92.961.291.066.377.795.388.992.433.888.469.189.892.987.787.562.689.959.287.174.280.2RefineNet-Res10194.960.292.877.581.595.087.493.339.689.373.092.792.485.488.369.792.265.384.278.782.4RefineNet-Res15294.764.394.974.982.995.188.594.745.591.476.390.691.888.188.069.992.365.988.776.883.4表5. Cityscapes测试集上的分割结果方法IOU方法IOUFCN-8s [36]65.3DPN [35]66.8[46]第四十六话67.1背景[30]71.6DeepLab [5]63.1DeepLab-v2（Res101）[6]70.4LRR-4x [17]七十一点八RefineNet-Res 101（我们的）七十三点六(a) 测试图像（b）地面实况（c）预测图5.PASCAL VOC 2012上的分割示例NYUDv2. NYUDv 2数据集[41]由1449张显示室内场景的RGB-D图像组成。我们使用[19]中提供的分段标签，其中所有标签都映射到40个类。我们分别使用795和654张图像的标准训练/测试分割。我们只在RGB图像上训练模型，而不使用深度信息。定量结果见表1。3 .第三章。我们的RefineNet在NYUDv2上实现了最先进的结果。与上面的对象解析任务类似，我们还在NYUDv2数据集上执行消融实验，以评估不同设置的效果。结果见表。二、这项研究再次证明了添加拟议的链式剩余池组件和更深层次的网络的好处，这两者都能持续提高IoU测量的性能。PASCAL VOC 2012[16]是一个众所周知的分割数据集，包括20个对象类别和一个背景类。该数据集分为训练集，验证集和测试集，每个集有1464，1449和1456张图像。由于测试集标签不公开，所有报告的结果均来自VOC评估服务器。按照常见的惯例[5，6，47，35]，训练集通过[21]中提供的附加注释VOC图像以及来自MS COCO数据集的训练数据[31]进行增强。我们将我们的RefineNet在PASCAL VOC 2012测试集上与许多竞争方法进行了比较，显示出优越的性能。我们为这个数据集使用4个池块。我们还使用了一个密集的CRF [27]来进一步完善这一点（a）测试图像（b）地面实况（c）预测图6.我们在Cityscapes数据集上的预测示例。数据集，其产生0的边际改进。验证集上的1%。由于这种密集的CRF后处理仅对我们的高分辨率预测带来非常小的改进，因此我们不将其应用于其他数据集。每个类别的详细结果和平均IoU得分显示在表1中。4.第一章我们的IoU得分为83分。4，这是迄今为止在该验证数据集上报告的最佳结果。2我们在几乎所有类别中都优于竞争方法。特别是，我们的性能明显优于DeepLab-v2 [6]，它使用相同的ResNet-101网络作为初始化，提高了近3个百分点。选定的预测示例如图所示。五、Cityscapes[9]是一个非常新的数据集，来自50个不同的欧洲城市的街景图像。该数据集提供道路、汽车、行人、自行车、天空等的细粒度像素级注释。提供的训练集有2975张图像，验证集有500张图像。总共有19个班被考虑进行培训和评估。测试集地面实况被组织者扣留，2VOC 评估服务器的结果链接： http ： //host.robots.ox.ac.uk:8080/anonymous/B3XPSK.html1932表 6. PASCAL-Context 数据集上的分割结果（ 60 类）。DeepLab-v2使用来自COCO的额外训练数据（100 K图像），而我们只使用VOC训练图像。方法IoU方法IoUO2P [3] 18.1FCN-8s [36] 35.1HO-CRF [1] 四十一点三DeepLab-v2（Res101）[6]四十五点七CFM [11] 三十四点四[10]第10话四十点五背景[30] 四十三点三- -RefineNet-Res 101（我们的）47.1RefineNet-Res 152（我们的）四十七点三表 7. SUN-RGBD 数据集（ 37 类）上的分割结果我们的RefineNet显著优于现有方法。方法列车数据像素加速平均加速度IOULiu et al.[32]Ren et al.[39]Kendall et al. [26日]背景[30]RGB-DRGBRGBRGB−−71.278.410.036.345.953.4−−30.742.3RefineNet-Res101RefineNet-Res152RGBRGB80.457.845.780.658.545.9我们在他们的评估服务器上评估我们的方法。测试结果示于表5中。在这个具有挑战性的设置，丁，我们的架构再次优于以前的方法。一些测试图像以及地面实况和我们预测的语义图如图所示。六、PASCAL 上下文。 PASCAL-Context [37] 数据集为PASCAL VOC图像提供了整个场景的分割标签。我们使用包含60个类（59个对象类别加上背景）的分割标签进行评估，以及提供的训练/测试分割。训练集包含4998张图像，测试集包含5105张图像。结果示于表6中。即使没有额外的训练数据，并且使用相同的101层ResNet基础架构，我们的表现也超过了DeepLab之前的最先进水平。SUN-RGBD[43]是一个分割数据集，包含大约10， 000个RGB-D室内图像，并为37个类别提供像素标记掩码。结果见表1。7 .第一次会议。我们的方法在所有评估指标上都优于所有现有方法，即使我们没有使用深度信息进行训练。ADE20K MIT[48]是一个新发布的场景解析数据集，它在超过20K的场景图像上提供了150个类的密集标签这些类别包括各种各样的对象（例如，人、车等）和材料（例如，天空、道路等）。所提供的由2000张图像组成的验证集用于定量评价。结果示于表8中。我们的方法明显优于[48]中描述的4.3. 级联RefineNet的变体如前所述，我们的RefineNet是灵活的，表8. ADE20K数据集（150个类）的分割结果。我们的方法实现了最佳性能。方法IoU方法IoUFCN-8s [36] 二十九点四DilatedNet [5，46] 三十二点三[48]第四十八话三十四点九SegNet [2] 二十一点六[48]第四十八话二十七点五- -RefineNet-Res 101（我们的）40.2RefineNet-Res 152（我们的）40.7表9. 在NYUDv2上评估4种类型的级联RefineNet变体初始化伊娃足球俱乐部IOU单个ResNet-50没有40.32-级联ResNet-50没有40.94-级联ResNet-50没有42.54-级联双标度ResNet-50没有43.1我们的RefineNet，如选项卡中所列。9 .第九条。单个RefineNet模型仅由一个RefineNet块组成，它从ResNet的四个块中获取所有四个输入，并在单个过程中融合所有分辨率的特征映射。2-级联版本类似于我们的主要模型（4-级联）从图。2 （c），但只使用两个RefineNet模块，而不是四个。对于2尺度模型，输入图像被缩放到1.2和0.6的因子，并被馈送到2个独立的4级联ResNet中。这些变体的详细架构在补充文件中描述。3Tab中的评价。9表明，4级联版本比2级联和1级联版本产生更好的性能，并且使用2尺度图像输入和2ResNet比使用1尺度输入更好。这是由于网络的容量更大。然而，这也导致了更长的训练时间.因此，我们采取使用单尺度4级联版本作为我们所有实验中的标准架构。5. 结论我们提出了RefineNet，一种用于语义分割和对象解析的新型多路径级联架构能够有效地结合高层次的语义和低层次的功能，以产生高分辨率的分割图。我们的设计选择受到身份映射思想的启发，身份映射促进了长距离连接的梯度传播，从而实现了有效的端到端学习。实验表明，该方法为语义标注的发展水平树立了一个新的标志。致谢我们非常感谢澳大利亚研究委员会通过ARC机器人视觉中心CE140100016资助这项研究。C. Shen的参与得到了ARC未来奖学金（FT120100969）的支持。I.Reid它可以以各种方式级联，用于产生变量，Ious architects. 在这里，我们讨论3https://arxiv.org/abs/1611.06612的几个变体1933引用[1] A. Arnab，S. Jayasumana，S. Zheng，和P. H.乇深度神经网络中的高阶条件随机场。欧洲计算机视觉会议。施普林格，2016年。8[2] V.巴德里纳拉亚南，A. Kendall和R.西波拉分段：A用于图像分割的深度卷积编码器-解码器架构。CoRR，2015年。二、八[3] 卡雷拉河Caseiro，J. Batista，and C.斯明奇塞斯库硒二阶合并的Mantic分割2012年欧洲计算机视觉会议论文集8[4] S.钱德拉和我Kokkinos 快速、精确和多尺度的用深度高斯crfs进行语义图像分割的参考欧洲计算机视觉会议论文集，2016年。7[5] L. Chen，G.帕潘德里欧岛科基诺斯角Murphy和A. L.尤尔。基于深度卷积网络和全连接CRF的语义图像分割。在2015年学习代表国际会议的会议记录中。一二六七八[6] L. Chen，G.帕潘德里欧岛科基诺斯角Murphy和A. L.尤尔。DeepLab：使用深度卷积网络，atrous卷积和完全连接的 CRF 进行语义图像分割。 CoRR ，abs/1606.00915，2016。一、三、六、七、八[7] L- C. Chen，Y. Yang，J. Wang，W. Xu和A. L. 尤尔。在─注意尺度：尺度感知语义图像分割。arXiv预印本arXiv：1511.03339，2015年。6[8] X. 陈河，巴西 - 地 Mottaghi ， X. Liu ， S. 菲德勒河Urtasun，以及A.尤尔。检测您可以：使用整体模型和身体部位检测和表示对象。在 Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition 中，第 1971-1978页，2014年。6[9] M.科德茨，M。奥姆兰，S。拉莫斯，T.雷费尔德，M。恩茨韦勒R.贝南森，美国弗兰克，S。罗斯和B。席勒用于语义城市场景理解的cityscapes数据集。在IEEE计算机视觉和模式识别会议论文集，2016。7[10] J. Dai，K. He和J. Sun. BoxSup：利用边界框来监督用于语义分割的卷积网络IEEE InternationalConference on Computer Vision，2015。二、六、七、八[11] J. Dai，K. He和J. Sun.卷积特征掩蔽联合对象和填充物分割。在IEEE计算机视觉和模式识别会议集，2015年。8[12] C. 东角，澳-地C. Loy，K.他，还有X。唐学习深度卷

下载后可阅读完整内容，剩余1页未读，立即下载