Gate-SCNN：用于语义分割的双流CNN架构应用于Cityscapes基准测试中实现了最先进的性能

81 浏览量更新于2023-10-12 收藏 2.39MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1Gate-SCNN：用于语义分割的Towaki Takikawa1，2David Acuna1，3，4Varun Jampani1 <$Sanja Fidler1，3，41 NVIDIA 2滑铁卢大学3多伦多大学4Vector Institutettakikaw@edu.uwaterloo.ca，davidj@cs.toronto.edu，{vjampani，sfidler}@ nvidia.com摘要用于图像分割的当前最先进的方法然而，这可能不是理想的，因为它们包含与识别相关的非常不同类型的信息。在这里，我们提出了一个新的双流CNN架构的语义分割，明确电线形状信息作为一个单独的处理分支，即。形状流，与经典流并行处理信息。这种架构的关键是连接两个流的中间层的新型门。具体而言，我们使用经典流中的较高级别激活来门控形状流中的较低级别激活，有效地去除噪声并帮助形状流仅专注于处理相关的边界相关信息。这使我们能够使用一个非常浅的架构的形状流上的图像级分辨率。我们的实验表明，这导致了一个非常有效的架构，产生更清晰的预测周围的对象边界，并显着提高性能更薄，更小的对象。我们的方法在Cityscapes基准测试中实现了最先进的性能，在掩模（mIoU）和边界（F-score）质量方面，比强基线提高了2%和4%。1. 介绍语义图像分割是计算机视觉中最广泛研究的问题之一，其应用于自动驾驶[43，17，58]，3D重建[38，30]和图像生成 [22 ， 48] 等。近年来，卷积神经网络（CNN）在几乎所有主要的分割基准中都大幅提高了准确性。标准做法是通过将全连接层转换为卷积层来调整图像分类CNN架构以用于语义分割任务[37]。然而，使用分类架构进行密集像素预测有几个作者贡献相等†曾在NVIDIA工作，现就职于Google Research图1：我们介绍了Gated-SCNN（GSCNN），这是一种用于语义分割的新的双流CNN架构，它将形状信息明确地GSCNN使用一种新的门控机制来连接中间层。流之间的信息融合在最后通过融合模块完成。为了预测高质量的边界，我们利用了一个新的损失函数，该函数鼓励预测的语义分割掩码与地面实况边界对齐缺点[52，37，59，11]。一个突出的缺点是由于使用池化层而导致输出的空间分辨率这促使一些作品[52，59，15，35，21]提出了专门的CNN模块，帮助恢复网络输出的空间分辨率。我们认为，在建筑设计中也存在固有的无效性，因为颜色，形状和纹理信息都在一个深层CNN中一起处理。请注意，这些可能包含非常不同数量的与识别相关的信息。例如，可能需要查看完整和详细的对象边界以获得形状的判别编码[2，33]，而颜色和纹理包含相当低级别的信息。这也可以提供为什么残差[19]，跳过[19，53]甚至密集连接[21]导致最突出的性能增益的见解增强额外的连通性有助于不同类型的信息在不同规模的网络深度上流动。然而，通过设计对这些表示进行分离可能会导致更自然和更有效的识别管道。在这项工作中，我们提出了一个新的双流CNN架构的语义分割，明确电线形状信息作为一个单独的处理分支。按面值-5229Gated-SCNN：门控形状CNN语义预测RG形状流边界双任务正则化器5230我们在一个流中保留了经典的CNN，并添加了一个所谓的形状流，它可以单独处理信息。我们明确地不允许融合的信息之间的两个流，直到最顶层。我们架构的关键是一种新型的门，允许两个分支交互。特别是，我们利用包含在经典流中的更高级别的信息去噪的形状流中的激活在其非常早期的处理阶段。通过这样做，形状流集中于仅处理相关信息。这允许形状流采用在全图像分辨率上操作的非常有效的浅架构。为了实现形状信息被定向到所需的流，我们用语义边界损失来监督它。我们进一步利用新的损失函数，该损失函数鼓励预测的语义分割与地面实况语义边界正确对齐，这进一步鼓励融合层利用来自形状流的信息。我们称我们的新架构GSCNN。我们对Cityscapes基准进行了广泛的评估[13]。请注意，我们的GSCNN可以用作任何经典CNN主干上的即插即用。在我们的实验中，我们探索了ResNet-50[19]，ResNet-101 [19]和WideResnet [57]，并在所有方面都显示出显着的改进我们在mIoU方面超过最先进的DeepLab-v3+[11]我们的收获是特别显着的薄和较小的对象（即。电线杆、交通灯、交通标志），我们在IoU方面获得了高达7%的改进。我们进一步评估性能在不同的距离从相机，使用先验作为代理的距离。实验表明，我们始终优于最先进的基线，在最大距离（即，更远的物体）。2. 相关工作语义分割。用于语义分割的最先进的方法主要基于CNN。早期的方法[37，9]将分类网络转换为全卷积网络（FCN），以进行有效的端到端语义分割训练。几项工作[8，32，60，44，20，3，36，23，5]提出在网络输出上使用结构化预测模块，例如条件随机场（CRF），以提高分割性能，特别是在对象边界周围。为了避免昂贵的DenseCRF [29]，[6]的工作在网络输出上使用快速域变换[16]滤波，同时还从中间CNN层预测边缘图。我们还预测边界图，以提高分割性能。与[6]使用边缘信息来细化网络输出相反，我们将学习到的边界信息注入到中间CNN层中。此外，我们提出了专门的网络结构和双任务regu。以获得高质量的边界。最近，性能和推理速度的显着改进已经被新的体系结构设计所驱动。例如，PSPNet [59]和DeepLab [8，11]提出了一种特征金字塔池化模块，该模块通过聚合多个尺度的特征来合并多尺度上下文。与我们类似，[43]提出了双流网络，然而，在他们的情况下，第二流的主要目的是恢复池化层丢失的高分辨率特征。在这里，我们明确地专门化第二流来处理形状相关的信息。一些作品[15，35，49]提出了使用学习到的像素亲和度来跨中间CNN表示进行结构化信息传播的模块。我们建议通过精心设计的网络和损失函数来学习高质量的形状信息，而不是学习特定的信息传播模块。由于我们只是将形状信息与分割CNN特征连接起来，因此我们的方法可以很容易地融入现有网络以提高性能。多任务学习。一些工作还探索了将网络与互补任务相结合的想法，以提高计算机视觉任务的学习效率、预测准确性和通用性。例如，[46，39，27，26，28]的作品提出了使用多任务损失学习共享表示的统一我们的主要目标不是训练一个多任务网络，而是执行一个结构化的表示，利用分割和边界预测任务之间的二元性。[12，4]同时学习分割和边界检测网络，而[31，41]学习边界作为中间表示来帮助分割。与这些工作相反，语义和边界信息仅在损失函数处相互作用，我们将边界信息显式地注入到分割CNN中，并提出了一个双任务损失函数，可以细化语义掩码和边界预测。门控卷积。最近的语言建模工作也提出了在卷积中使用门控机制的想法。例如，[14]提出用门控时间卷积代替递归网络中通常使用的递归连接。[54]，另一方面，提出了使用卷积与软门控机制进行自由形式图像修复， [47] 提出了用于条件图像生成的门控PixelCNN。在我们的情况下，我们使用门控卷积算子的语义分割的任务，并定义的形状和常规流之间的信息流。3. 门控形状CNN在本节中，我们将介绍用于语义分割的Gated-ShapeCNN架构。如图所示二、5231∈RF|F∈∇S∈res残余块门控转换层常规流融合模块分割损失conv1x1conv1x1conv1x1conv1x1图像梯度Res1双任务损失形状流边缘损耗1x1convRes 3Res 21x1convASPP图2：GSCNN架构。我们的架构由两个主流组成。规则流和形状流。常规流可以是任何骨干架构。形状流通过一组残差块、门控卷积层（GCL）和监督来关注形状处理融合模块随后使用Atrous空间金字塔池化模块（ASPP）以多尺度方式组合来自两个流的信息。通过双任务正则器确保分割掩模上的高质量边界。我们的网络包括两个网络流，后面跟着融合模块。网络的第一流（我们通过精心设计的门控卷积层（GCL）和局部监督来强制形状流只处理与边界相关的信息。然后，我们融合的语义区域功能的常规流和边界功能的形状流产生一个精致的分割结果，特别是周围的边界。接下来，我们将详细描述我们的框架中的每个模块，然后是我们的新GCL。常规流。该流表示为θ（I），参数为θ，将具有高度H和宽度W的图像IR3× H × W作为输入，并产生密集像素特征。常规流可以是任何前馈全常规网络，例如基于ResNet [19]或基于VGG [45]的语义分割网络。由于ResNet是语义分割的最新技术，因此我们使用 ResNet 类架构，如 ResNet-101[19] 和WideResNet [57]用于常规流。我们将常规流的输出特征表示为融合模块。该模块表示为γ，参数为γ，将来自规则分支的密集特征表示r作为输入，并以保留多尺度上下文信息的方式将其与形状分支输出的边界图融合。它将区域特征与边界特征相结合，并输出一个精确的语义分割输出。更正式地说，对于K个语义类别的分割预测，它输出一个分类分布f=p（ys，r）=γ（s，r）RK× H × W，它表示像素属于K个类别中的每一个的概率。具体来说，我们使用Atrous空间金字塔池化[11]将边界图s与r合并。这使得我们能够保留多尺度上下文信息，并被证明是最先进的语义分割网络中的重要组成部分。3.1. 门控卷积层由于估计语义分割和语义边界的任务是密切相关的，我们设计了一个新的GCL层，促进信息流从正则流的形状流。GCL是我们架构的核心组件，帮助形状流只支持rRC×H ×W 其中m是常规流的步幅。通过过滤掉其余的信息来删除相关信息。注意∈mM形状流。该流（表示为φ，具有参数φ）将图像梯度I以及常规流的第一卷积层的输出作为输入，并产生语义边界作为输出。该网络的体系结构是由几个残差块交错与门卷积层（GCL）。GCL，解释如下，确保形状流只处理与边界相关的信息. 我们将形状流的输出边界映射表示为sRH×W。由于我们可以从GT语义分割掩码中获得地面实况（GT）二进制边缘，因此我们使用输出边界上的监督二进制交叉熵损失来监督形状流。成形流不包括来自规则流的特征相反，它使用GCL去激活它自己的激活，这些激活被包含在常规流中的更高级别的信息认为是不相关的。我们可以将其视为两个流之间的协作，其中更强大的一个已经形成了对场景的更高级别的语义理解，帮助另一个流从一开始就只关注相关部分。这使得形状流能够采用以非常高的分辨率处理图像的有效浅架构。我们在两个流之间的多个位置使用GCL。令m表示位置的数量，并且令t∈0，1，· ··，m是运行索引，其中rt和stt是-5232∈|∈K∈公元前θ，φL||||注意我们使用GCL处理的相应规则和形状流的中间表示。为了应用GCL，我们首先通过连接rt和st，然后是归一化的1 ×1卷积层C1×1，然后是sigmoid函数σ，来获得注意力映射αt∈RH×Wαt= σ（C1×1（st||rt）），（1）3.3. 双任务正则化器如上所述，p（y r，s）RK× H × W表示融合模块的分类分布输出。设H× W是表示特定像素是否属于输入图像I中的语义边界的势。它通过对分割输出取空间导数来计算，如下所示：哪里||表示特征图的级联。给定注意力图αt，GCL作为元素方式应用于st1K=||（G）|（四）||(4)具有注意力图α的乘积映射，随后是残差连接和具有核wt的通道加权。在每个pix el（i，j）处，GCL的计算公式为：s（i，j）=（stwt）（i，j）其中G表示高斯滤波器。如果我们假设Gt 是以相同的方式从GT语义标签ft计算的GT二元Σ不=（（st（i，j）αt（i，j））+st（i，j））Twt.（二）θ φ，γreg→ =λ3|（五）|(5)p+然后，将形状流传递到形状流中的下一层以进行进一步处理。注意，注意力图计算和门控卷积都是可微的，因此可以端到端地执行反向传播。直观地说，α也可以被看作是一个注意力地图，它对具有重要边界信息的区域进行了更重的加权。在我们的实验中，我们使用三个GCL，并将它们连接到第三，第四和最后一层的常规流。如果需要，双线性插值用于对来自常规流的特征图进行上采样其中，p+包含所有非零的pix el坐标的集合。直观地，我们希望确保边界像素在与GT边界不匹配时受到惩罚，并避免非边界像素主导损失函数。注意，上述正则化损失函数利用边界空间中的边界预测和语义分割之间的对偶性。类似地，我们可以使用来自形状流sRH×W的边界预测来确保二进制边界预测s与预测语义之间的一致性3.2. 联合多任务学习p（y|r，s）：Σθ φ，γ k k我们以端到端的方式与融合模块我们共同Lreg←=λ4k，psp[−y|r，s）]，（6）在训练过程中监督分割和边界图预测。在这里，边界图是一个二进制表示的所有轮廓的对象和材料类的场景（图6）。我们在预测边界图s上使用标准二进制交叉熵（BCE）损失，并在预测语义分割f上使用标准交叉熵（CE）损失：其中p和k在a上运行。分别是图像像素和语义s= 1：s >thrs对应于指示函数和THR是置信阈值，我们在实验中使用0.8。总的双任务正则化器损失函数可以写为：θ φ，γθφ，γθ φ，γθ φ，γθ，φθ φ，γL=Lreg→+Lreg←（7）L=λ1LBCE（s，s∈）+λ2LCE（y∈，f）（3）这里，λ3λ4是两个超参数，其中s∈RH×W表示GT边界，y∈RH×W表示GT语义标签。这里，λ1、λ2是控制损失之间的加权的两个超参数。如图所示在图2中，在将边界图s馈送到融合模块之前执行对边界图s的BCE监督。因此，BCE损失更新常规流和形状流两者的参数。语义类的最终分类分布f由正则化器的权重3.3.1训练期间的梯度传播为了通过等式7反向传播，我们需要计算等式4的梯度。设g=. 对于给定参数η的偏导数可以计算如下：CE损失Lθ φ，γ在末端，如在标准语义段a中。LΣLCE更新所有网络参数。在在边界上的BCE的情况下，我们遵循[51，55]并使用=阿努岛j，l∇G∗∂ζ布雷格湖阿努岛（八）LJ5233- 系数β，用于说明边界/非边界像素之间的高不平衡。由于arg max不是一个可微函数，我们使用Gumbelsoftmax技巧[24]。在回归过程中，我们5234Deeplabv3+S-CNN0.8250.725图3：用于基于距离的评价。图4：diff时的预测作物因素图5：基于距离的评估：不同作物因子下的mIoU比较。方法路s.walkbuild.壁围栏极T形灯T形符号蔬菜地形天空人骑手车卡车总线火车电机自行车是说LRR [18]97.779.990.744.448.658.668.272.092.569.394.781.660.094.043.656.847.254.869.769.7DeepLabV2 [8]97.981.390.348.847.449.657.967.391.969.494.279.859.893.756.567.557.557.768.870.4[32]第三十二话98.082.690.644.050.751.165.071.792.072.094.181.561.194.361.165.153.861.670.671.6PSP-网络[59]98.285.892.857.565.962.671.880.792.464.594.882.161.595.178.688.377.968.178.078.8DeepLabV3+[11]98.284.992.757.362.165.268.678.992.763.595.382.362.895.485.389.180.964.677.378.8我们的（GSCNN）98.386.393.355.864.070.875.983.193.065.195.285.367.996.080.891.283.369.680.480.8表1：Cityscapes价值集上IoU与最新基线的比较Thrs方法路s.walkbuild.壁围栏极T形灯 T形符号蔬菜地形天空人骑手车卡车总线火车电机自行车是说12pxDeepLabV3+我们92.392.280.481.787.287.959.659.653.754.383.887.175.282.381.284.490.290.960.861.190.491.976.680.478.782.891.692.681.078.587.190.092.694.681.879.178.082.280.181.89pxDeepLabV3+我们91.291.378.380.184.886.058.158.552.452.982.186.173.781.579.583.387.989.059.459.889.591.174.779.176.881.590.091.580.578.186.689.792.594.481.078.575.480.478.780.75pxDeepLabV3+我们88.188.772.675.378.180.955.055.949.149.977.983.669.078.674.780.481.083.455.856.686.488.469.075.471.977.885.488.379.477.085.488.992.194.279.476.968.475.174.777.63pxDeepLabV3+我们83.785.065.168.869.774.152.253.346.247.072.079.662.874.367.776.271.875.352.053.180.983.561.569.866.473.178.883.478.275.883.988.091.793.977.975.160.968.569.773.6表2：Cityscapes值集上不同阈值下的边界F评分与基线的比较用温度为τ的softmax近似argmax算子：数据集。我们所有的实验都在Cityscapes数据集上进行。该数据集包含来自德国和邻国27个城市它能-最大kp（yk）exp（（logp（yk）+gk）/τ）包含2975个训练图像、500个验证图像和1525个测试图像。η=exp（（logp（y）+g）/τ）城市景观还包括20，000额外的粗ijjJ（九）注释（即，覆盖单个物体的粗糙多边形）。请注意，我们使用其中gj∈Gumbel（0，I），τ是r型参数r.任务-可以通过使用Sobel核滤波来计算eratorωGω4. 实验结果在本节中，我们在具有挑战性的Cityscapes数据集[13]上对我们框架的每个组件进行了广泛的评估。我们进一步证明了我们的方法的有效性，几个骨干架构和提供- vide定性结果，我们的方法。基线。我们使用DeepLabV3+ [11]作为我们的主要基础。这构成了用于语义分割的最先进的架构，并且可以使用预训练模型。在我们的大多数实验中，我们使用我们自己的DeeplabV3+的PyTorch实现，它与[11]在主干架构的选择上不同。具体来说，我们使用ResNet-50、ResNet-101和WideResNet作为DeeplabV 3+版本的骨干架构为了进行公平比较，在适用的情况下，我们在表格中将其称为基线此外，我们还比较了验证集和Cityscapes基准（测试集）上已发布的最先进方法。边界地面实况，因此粗略子集对于我们的设置并不理想。因此，我们在实验中不使用粗糙的数据。密集的像素注释包括30类，经常出现在城市街道场景，其中19个用于实际的训练和评估。我们遵循[55，56，1]来生成地面实况边界并监督我们的形状流。评估指标。我们使用三个量化指标来评估我们方法的效果1）我们使用广泛使用的交集（IoU）来评估网络是否准确预测区域。2）由于我们的方法旨在预测高质量的边界，我们包括另一个评估指标具体来说，我们遵循[42]中提出的边界度量来评估我们的语义边界的质量。该度量计算沿着预测掩码的边界的F分数，给定距离的小松弛。在我们的实验中，我们使用阈值0.00088，0.001875，0.00375和0.005，它们对应于spond分别为3、5、9和12个像素。与IoU计算类似，我们还在F分数的计算期间移除空白区域。因为边界并不重要-00.8090.7880.7810.7530.7510.7140.6920.636Miou5235×××度量方法ResNet-50ResNet-101wide-ResNetMiou基线71.372.779.2+协鑫公司简介72.973.074.374.779.880.1F-评分基线68.569.873.0+协鑫公司简介71.771.773.373.075.975.6表 3 ：不同规则流的形状流、 GCL 和附加图像梯度特征（Canny）的比较。Cityscapes评分val（%）代表所有类别的平均值，F评分代表边界对齐（th=5px）。图6：馈送到融合模块中的形状流的示例输出。集合λ1 = 20，λ2= 1，λ3= 1和λ4=1时。设τ= 1，表4：在边界质量（F分数）方面的差异阈值处的双重任务损失的影响ResNet-101用于常规流。基础网络参数（%）性能（mIoU）Perf（mF）ResNet-50+0.43+1.7+3.2ResNet-101+0.29+2.0+3.5WideResNet38+0.13+0.9+2.1表5：由于不同基础网络上的形状流，性能改进和参数数量增加的百分比。对于测试集，我们使用验证集来计算F-Scores作为边界对齐的度量。3）我们使用基于距离的评估，在IoU方面，下面解释，为了评估分割模型在离相机不同距离处的性能。基于距离的评估。我们认为，高精度对于小（远）对象也很重要，但是，全球IoU度量并不能很好地反映这一点。因此，我们采取作物不同大小周围的近似（固定）消失点作为代理的距离。在我们的例子中，这是通过沿着除了顶部之外的每个图像侧裁剪100个像素来执行的，并且所得到的裁剪的中心是我们的近似消失点。然后，给定预定义的裁剪因子c，应用裁剪，使得：我们从顶部和底部裁剪c，从左侧和右侧裁剪c2。直观地说，较小的居中裁剪会对距离摄影机较远的较小对象赋予较大的权重。该过程的图示在图3中示出。图4示出了每个裁剪中的示例预测，示出了度量如何能够集中于评估不同大小的对象实施详情。在我们的大多数实验中，我们遵循Deeplabv3+ [11]的方法，但使用实验中描述的简单编码器。我们所有的网络都是在PyTorch中实现的我们使用800800作为训练分辨率和同步批量范数。训练在NVIDIADGX Station上完成，使用8个GPU，总批次大小为16。对于Cityscapes，我们使用1 e-2的学习率和多项式衰减策略。为了消融目的，我们运行了100个时期的训练，并在表1中展示了230个时期的最佳结果。为了我们共同的损失我们Gumbel softmax我们所有的实验都是在城市风景的好布景4.1. 定量评价在表1中，我们比较了GSCNN在区域准确性（由mIoU测量）方面与基线的性能在验证集上报告数字，并在完整图像上计算（无裁剪）。在这个指标中，我们实现了2%的改进，这在这个性能水平上是一个显著的结果。特别是，我们注意到，我们在小对象上获得了显著的改进：摩托车、交通标志、交通灯和电线杆。另一方面，表2比较了我们的方法在边界准确度方面与基线的性能同样，我们的模型表现得更好，在最严格的制度下，比基线表现接近4%。请注意，为了进行公平比较，我们只报告在Cityscapes精细集上训练的模型。所有模型的推断都是在单一尺度上完成的。在图5中，我们示出了我们的方法的性能与基线遵循所提出的基于距离的评估方法。在这里，我们发现，随着作物因子的增加，GSCNN的表现越来越好。GSCNN和DeeplabV3+之间的性能差距从作物因子0处的2%（即，无裁剪）到裁剪系数400时接近6%。这证实了我们的网络实现了显着的改善，为更小的对象位于远离相机。城市景观基准。要获得最佳性能，测试集，我们使用我们的最佳模型（即，常规流是在Mapillary数据集上预训练的 WideResNet [40] ）。训练在 NVIDIADGX Station上完成，使用8个GPU，总批次大小为16。我们用GCL和双任务丢失训练这个网络175个时期，学习率为1 e-2，采用多项式衰减策略。我们还使用统一形式的抽样方案，检索一个800 - 800作物，统一的样本从所有类。此外，我们使用多尺度推理方案，使用尺度0.5，1.0和2.0.我们在训练过程中不使用粗数据，因为我们的边界丢失需要精细的边界注释。方法th=3pxth=5pxth=9pxth=12px基线64.169.874.876.7GCL+ 双重任务65.068.070.873.075.977.277.878.85236图7：我们的方法在Cityscapes测试集上的定性结果。图中显示了预测的分割掩码。图像地面实况Deeplab-v3+ ours图像地面实况Deeplab-v3+ ours图8：预测误差方面的定性比较。请注意，我们的方法产生更精确的边界，特别是对于更小和更薄的对象，如极点。人与人之间的界限也更加清晰。方法粗路s.walk build.壁围栏极 T形灯T形符号蔬菜地形天空人骑手车卡车总线火车电机自行车是说PSP-网络[59]C98.786.993.558.463.767.776.180.593.672.295.386.871.996.277.791.583.670.877.581.2DeepLabV3 [10]C98.686.293.555.263.270.077.181.393.872.395.987.673.496.375.190.485.172.178.381.3DeepLabV3+[11]C98.787.093.959.563.771.478.282.294.073.095.888.073.396.478.090.983.973.878.981.9AutoDeepLab-L [34]C98.887.693.861.464.471.277.680.994.172.796.087.872.896.578.290.988.469.077.682.1DPC [7]C98.787.193.857.763.571.078.082.194.073.395.488.274.596.581.293.389.074.179.082.7AAF-PSP [25]98.585.693.053.859.065.975.078.493.772.495.686.470.595.973.982.776.968.776.479.1TKCN [50]98.485.893.051.761.767.675.880.093.672.795.486.970.995.964.586.981.879.677.679.5我们的（GSCNN）98.787.494.261.964.672.979.682.594.374.396.288.374.296.077.290.187.772.679.482.8表6：Cityscapes测试集上的比较与最先进的方法（有/没有粗略训练）我们只包含已发布的方法。在表6中，我们在Cityscapes基准上比较了已发表的最先进的方法，并在测试集上进行了评估需要强调的是，我们的模型不是在粗糙数据上训练的。令人印象深刻的是，我们可以看到我们的模型一致性优于非常强的基线，其中一些基线还使用了额外的粗训练数据。在撰写本文时，我们的方法也被列为不使用粗数据的已发表方法之首4.2. 消融在表3中，我们使用不同的编码器网络来评估我们的方法的每个组件的有效性。为了公平起见，本表中的比较是相对于我们自己的基线实现（即具有不同骨干架构的DeepLabV3+）结构），使用相同的超参数集和ImageNet初始化从头开始训练。具体来说，我们使用ResNet-50、ResNet-101和Wide-ResNet作为骨干架构。在这里，GCL表示用具有双任务损失的形状流训练的网络，并且双任务表示还在融合层之前添加图像梯度的网络。在我们的网络中，我们使用Canny边缘检测器来检索这样的梯度。从表中可以看出，我们在mIoU方面实现了1%到2%的性能改进，在边界对齐方面实现了约3%的性能改进。另一方面，表4展示了双任务损失在边界对齐的F分数方面的影响。我们说明了它的效果在三个不同的阈值。这里，GCL表示具有在没有双重任务丢失的情况下训练的GCL形状流的网络关于基地-5237图9：Cityscapes测试集的定性结果显示了我们预测的分割掩码的高质量边界。通过找到预测的分割掩模的边缘来获得边界。图10：GCL的alpha通道可视化。线，我们可以观察到，双重损失显着改善边界精度方面的模型的性能。具体地说，通过添加双任务损失，我们看到在最严格的制度下高达3%的改进。4.3. 定性结果在图7中，我们提供了我们的方法在Cityscapes测试集上的定性结果我们通过突出显示我们的方法在图8中表现出色的典型情况来将我们的方法与基线进行比较。具体而言，我们可视化的预测误差两种方法。在这些放大的图像中，我们可以看到一群人站在一个由电线杆密集的区域在这里，Deeplab v3+未能捕获极点，并天真地将其归类为人类。相反，我们可以看到，在我们的模型极点被正确分类，行人的错误边界也变薄。此外，在Deeplab v3+中通常被预测为过度妥协的blob（特别是在更高的距离）的对象（如交通灯）在我们的模型输出中保留了它们的形状和结构。图10提供了来自GCL的α通道的可视化。我们可以注意到门是如何帮助强调传入特征图中边界/区域之间的差异的例如，第一个门强调非常低级别的边缘，而第二个和第三个门关注对象级别的边界。作为门控的结果，我们在形状流中获得了最终的边界图，该边界图准确地勾勒出对象和材料类。该流学习产生高质量的类不可知边界，然后将其馈送到融合模块。形状流输出的定性结果如图6所示.另一方面，在图9中，我们示出了从最终分割掩模获得的边界。注意它们在更薄和更小的物体上的准确性。5. 结论在本文中，我们提出了Gated-SCNN（GSCNN），这是一种新的双流CNN架构，用于将形状连接到单独的并行流中的语义分割。我们使用了一种新的门控机制来连接中间层和一个新的损失函数，该损失函数利用了语义分割和语义边界预测任务之间的二元性。我们的实验表明，这导致了一个非常有效的架构，产生更清晰的预测周围的对象边界，并显着提高性能的薄，小的对象。我们的架构在Cityscapes数据集上实现了最先进的结果，在强大的基线上有了显着改善。致谢。我们感谢Karan Sapra分享他们的DeepLabV3+实现。引用[1] David Acuna，Amlan Kar，and Sanja Fidler. 魔鬼在边缘：从嘈杂的注释中学习语义边界在CVPR，2019年。55238[2] David Acuna，Huan Ling，Amlan Kar，and Sanja Fidler.使用polygon-rnn++对分割数据集进行有效的交互式注释。在CVPR，2018年。1[3] Anurag Arnab和Philip H.S. 乇使用深度高阶crfs的自底向上实例分割。在arXiv：1609.02583，2016。2[4] Gedas Bertasius，Jianbo Shi，and Lorenzo Torresani.基于边界神经场的语义分割。在CVPR，第3602-3610页，2016年。2[5] Siddhartha Chandra和Iasonas Kokkinos基于深度高斯crfs的语义图像分割的快速、精确和多尺度推理。见ECCV，第402-418页。施普林格，2016年。2[6] 陈良杰，乔纳森T巴伦，乔治帕潘德里欧，凯文墨菲，和艾伦L尤伊尔。使用cnn和区分性训练域变换的具有特定任务边缘检测的语义图像分割在CVPR中，第4545-4554页，2016年。2[7] 陈良杰、麦克斯韦·柯林斯、朱玉坤、乔治·帕潘德里欧、巴雷特·佐夫、弗洛里安·施洛夫、哈特维格·亚当和乔恩·施伦斯。寻找用于密集图像预测的高效多尺度架构。在NIPS，第87137[8] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan Yuille. Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义图像分割。T-PAMI，40（4）：834二、五[9] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.使用深度卷积网络和全连接crf的语义图像分割ICLR，2015年。2[10] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。重新思考语义图像分割的atrous卷积。arXiv预印本arXiv：1706.05587，2017. 7[11] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在ECCV，2018。一、二、三、五、六、七[12] 程东才，孟高峰，向世明，潘春红.Fusionnet：边缘感知深度卷积网络-用于遥感港口图像的语义分割。IEEEJournal of Selected Topics in Applied Earth Observationsand Remote Sensing，10（12）：57692[13] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在CVPR，2016年。二、五[14] Yann N Dauphin，Angela Fan，Michael Auli，and DavidGrangier.用门控卷积网络进行语言建模。ICML，第933-941页。JMLR。org，2017. 2[15] Raghudeep Gadde ， Varun Jampani ， Martin Kiefel ，Daniel Kappler，and Peter V Gehler.超像素卷积网络-使用双边接收。参见ECCV，第597-613页。施普林格，2016年。一、二[16] Eduardo SL Gastal和Manuel M Oliveira。用于边缘感知图像和视频处理的域变换。在ACM Transactions onGraphics（ToG），第30卷，第69页中。ACM，2011年。2[17] Andreas Geiger，Philip Lenz，and Raquel Urtasun.我们准备好自动驾驶了吗？KITTI视觉基准套件。CVPR，2012。1[18] 戈尔纳兹·吉亚西和查利斯·C·福克斯。用于语义分割的拉普拉斯金字塔重构与精化。见ECCV，第519-534页。施普林格，2016年。5[19] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。一、二、三[20] 何旭明和斯蒂芬·古尔德。一种基于范例的CRF多实例对象分割方法。CVPR，2014。2[21] Gao Huang，Zhuang Liu，Laurens Van Der

下载后可阅读完整内容，剩余1页未读，立即下载