SPGNet：高效的语义分割网络

179 浏览量更新于2023-10-12 收藏 2.36MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5218SPGNet：场景解析郑博文1，陈良杰，魏运超1，3，朱玉坤，黄子龙1，熊进军2，托马斯S。Huang1，Wen-Mei Hwu1，Honghui Shi2，1，41UIUC，2IBM Research，3ReLER，UTS，4俄勒冈大学摘要多尺度上下文模块和单级编码器-解码器结构通常用于语义分割。多尺度上下文模块从大的空间范围聚合特征响应，而单级编码器-解码器结构编码高层语义身份映射HC挤压W激发C1x1在一个实施例中，解码器路径中的边界信息被解码，并且解码器路径中的边界信息被恢复。相比之下，多级编码器-解码器网络已被广泛用于人体姿态估计，并显示出优于其单级对应物的性能。然而，很少有人尝试将这种有效的设计引入语义(a) [25]第二十五话身份映射H'激发细分在这项工作中，我们提出了一个语义预测指导（SPG）模块，学习重新加权HCGatherWW通过逐像素语义预测的指导来实现局部特征我们发现，通过仔细地重新加权跨阶段的特征，与我们提出的SPG模块耦合的两级编码器-解码器网络可以显着优于具有类似参数和计算的一级对应物。最后，我们报告了语义分割基准Cityscapes上的实验结果，其中我们的SPGNet仅使用“精细”注释在测试集上达到81.1%(b) [24]第二十四话身份映射WCHC监督WH激发引导注意力1. 介绍语义分割[21]作为实现场景理解的一步[30，53，54，67]，是计算机视觉中的一个具有挑战性的问题它指的是为图像中的每个像素分配语义标签（如人和天空）的任务。最近，深度卷积神经网络（DC-NN）[29，31]显着提高了语义分割系统的性能。特别是，以完全卷积方式部署的DCNN [39，48]在几个语义分割基准上取得了显着的结果[14，16，75]。我们观察到两个关键的设计组件之间共享的最先进的语义分割系统。首先，多尺度上下文模块，利用大空间信息，丰富了(c) 我们提出的监督激励机制。图1.三个不同的框架，重新加权本地功能。（a）和（b）中颜色较浅的虚线方形区域表示平均池化操作。地方特色。典型的例子包括DeepLab [7]，它采用了几个具有不同速率的并行atrous卷积[22，43]和PSPNet[73]，它在不同的网格尺度上执行池操作。最近，SENets[25]和GENets [24]采用出于这一动机，我们提出了一个简单而有效的注意力模块，称为语义预测指导（SPG），它学习重新加权本地fea。5219通过逐像素语义预测的指导来获得真实地图值。与“监督和激励”模块[24，25]不同具体来说，我们将语义监督注入到特征图中，然后进行简单的1×1卷积利用S形激活函数（即，的所得到的特征图，称为“激发”步骤）。我们进一步在模块中添加此外，我们学习的另一个重要的设计组件是编码器-解码器结构，其中在编码器路径中捕获高级语义信息，而在解码器路径中恢复详细的低级边界信息系统[1，3，11，35，42，44-编码器-解码器结构仅堆叠一次），已经在几个语义分割基准测试中表现出出色的性能。另一方面，多级编码器-解码器模型[5，27，32，40，41，59，66]，也称为堆叠沙漏网络[41]，通过跨阶段传播信息来迭代地有趣的是，我们观察到，除了[19，49]之外，很少在语义分割的上下文中探索多级编码器-解码器结构。在这项工作中，我们重新审视了Cityscapes数据集上的多级编码器-解码器网络[14]。我们发现，通过仔细选择跨阶段的特征，与我们提出的SPG模块耦合的两阶段编码器-解码器网络可以显着优于具有类似参数和计算的一阶段对应物。在Cityscapes测试集[14]上，我们提出的SPGNet在仅利用“精细”注释时表现出强基线DenseASPP [64]。我们的总体mIoU略落后于并发工作DANet [18]，但详细的类mIoU显示，我们的模型在19个语义类中的14个中优于DANet。此外，我们的SPGNet只需要22个。7%的DANet计算[18]。总结我们的主要贡献：• 我们提出了一个简单而有效的注意模型，称为SPG，它采用了• 我们探索多级编码器-解码器网络的语义分割任务。将我们提出的SPG模块扩展到多级编码器-解码器网络中，进一步提高了性能。• 我们证明了SPGNet在具有挑战性的Cityscapes数据集上的有效性。我们的模型优于强基线DenseASPP [64]，并且在19个语义类中的14个中优于DANet [18我们的SPGNet实现了更好的准确性/速度权衡，仅需22。7%的DANet计算。• 我们提供详细的消融研究以及我们学习的注意力地图的可视化。我们还讨论了使用多级编码器-解码器网络进行语义分割的有效性。2. 相关作品语义分割：大多数最先进的语义分割模型都基于FCN[39，48]。由于网络中的池化或卷积与跨越操作，通常会丢失详细的对象边界信息为了缓解这个问题，可以应用atrous卷积[7，22，43，48]来提取密集特征图。然而，使用最先进的网络骨干提取比输入分辨率小8倍甚至4倍的输出特征图在计算上是昂贵的[20，29，50，52]。另一方面，编码器-解码器结构[1，3，11，19，35，42，44- 46，60，63，72 ]捕获编码器路径中的上下文信息并恢复解码器路径中的高分辨率特征。此外，还探讨了上下文信息。ParseNet [38]利用全局上下文信息，而PSPNet [73]在多个网格尺度上使用空间金字塔池。DeepLab [8，9，37，65]在Atrous Spatial Pyramid Pooling模块中使用了几种具有不同速率的并行Atrous卷积，而DPC [6]对上下文模块应用了神经架构搜索[76]最后，我们提出的语义预测指导（SPG）与分层级联方法[33]相似，该方法对每个像素进行不同的处理。我们的SPG模块不是在网络的早期阶段对简单的像素进行分类，而是根据堆栈网络第一阶段的预测对每个像素进行加权。多级网络：多级网络[5，27，32，40，41，51，57，59，66]已被广泛使用和探索，人体姿态估计多级网络旨在迭代地细化估计。为了最大限度地利用每个阶段的容量，CPM [59]和StackedHourglass [41]不仅将特征传播到下一阶段，还通过1x1卷积将预测的热图重新映射到特征空间，并与特征图连接MSPN [32]通过将前一阶段的编码器-解码器的中间特征传播到下一阶段来进一步优化跨阶段的特征流。MSPN [32]显示出优于具有类似参数和计算的单级对应物的另一方面，堆叠反卷积网络[19]使用多个反卷积网络5220图2. SPGNet的整体结构。为了简单起见，仅示出了两个阶段，并且可以容易地将其推广到更多阶段。(a)我们的编解码器设计(b)上采样模块。(c)跨阶段特征聚合[32]。GAP：全球平均池化[38]。残余块：与ResNet中使用的瓶颈模块相同[20]。上采样：x2的双线性上采样。SPG：语义预测指导模块。用于语义分割。然而，它只跨阶段传递Ad-1999，Zhouet al. [75]提出级联分段模块。在这项工作中，我们发现预测可以作为一个特别注意跨阶段传播有用的功能。注意模块：近年来，注意机制在多个计算机视觉任务中得到了广泛的应用。Chen等人[10]学习注意力模块以合并多尺度特征。Kong和Fowlkes [28]提出了一种门控模块，该模块自适应地选择与不同字段大小合并的特征。最近，自我注意模块[55]已经被几个作品[13，18，23，26，58]探索用于计算机视觉任务。相比之下，我们提出的SPG模块更类似于其他作品，采用'挤压和激发'或'挤压和激发'框架。特别是，挤压和激励网络（SENets）[25]挤压空间维度上的特征，以聚集用于重新加权特征通道的信息。Hu等人[24]用“搜索和激励”操作来概括SENet，其中收集远程空间信息以重新加权（或“激励”）局部特征。出于这一动机，我们提出的SPG模块采用的此外，EncNet [70]还为其全局功能添加了监督。然而，我们的超视是像素级的，而不是图像级的。3. 方法3.1. 整体架构图2显示了我们提出的SPGNet，它由多个阶段组成，每个阶段都基于编码器-解码器架构：编码器在多个尺度上产生密集的特征图，并且还使用全局平均池化（GAP）产生图像级特征向量。解码器从该特征向量开始，并通过使用第3.3节中描述的上采样模块组合对应的编码器特征图来逐渐恢复空间分辨率。我们的SPGNet堆叠了多个阶段，早期的解码器输出被馈送到语义预测指导（SPG）模块（在第3.4节中详细介绍），以生成下一阶段的输入特征。此外，我们采用跨阶段特征聚合[32]，通过利用早期编码器/解码器特征来增强后期编码器，如图2（c）所示。最后阶段的解码器输出被双线性上采样到输入图像分辨率，生成每像素语义预测结果。SPGNet的多级设计受到Stacked Hourglass [41]的启发，用于人体姿势估计。我们的方法与 StackedHourglass的不同之处在于：1）我们仔细设计了每个阶段的编码器-解码器架构，而不是使用对称沙漏网络;2）后一阶段的输入是从SPG模块生成的，而不是简单地传递与前一阶段预测相结合的特征。编码器解码器下一个编码器（c）第（1）款1x11x1编码器解码器编码器解码器SPG（b）第（1）款上采样残余块残余块编码器解码器1/42561/82561/162561/32上采样模块256间隙（一）1x1干5221损失解码器输出特性引导注意力下一个编码器输入功能从每个阶段生成的输出特征已经包含来自多个尺度的信息。这启发我们设计一个简单而有效的SPG模块（图3），它将早期阶段的功能视为“收集”的信息。具体地，前一级解码器输出特征xd∈RH×W×D 首先被送入 1×1 卷积以产生每类logitsxl∈RH×W×C，其中H和W是解码器输出的高度和宽度，D是改变的数目nels是解码器中使用的，C是数据集中语义类的数量。然后，我们通过xl产生每像素、每通道的引导注意力掩码m∈RH×W×D，一个简单的1×1卷积，然后是sigmoid激活。这个引导注意力将在元素上乘以图3. 语义预测指导（SPG）模块。3.2. 编解码器设计沙漏网络[41]为编码器和解码器分配了相等的计算，因此无法在ImageNet上使用预先训练的权重[15]。相比之下，特征金字塔网络（FPN）[36]使用精心设计的分类网络进行编码，并设计一个简单的解码器，仅由最近邻插值组成，以对解码器特征图进行上采样。我们的编码器-解码器设计原理遵循FPN（例如，解码器中的所有特征图包含256个通道），但是我们采用了另外两个组件以使其更高效和有效。首先，我们在输入输出后引入全局平均池[38编码器生成1×1图像级特征，然后进行另一个1 ×1卷积，将其特征通道转换为256。第二，不是使用单个最近邻，插值，我们设计了一个高效的上采样模块，如下一节所述。3.3. 上采样模块如图2（a，b）所示，我们的解码器采用上采样模块来逐步恢复特征图分辨率。具体地，解码器中的每个模块获取两个输入特征图，一个来自编码器，一个来自前一层输出。编码器的输入首先通过残差块进行变换然后，对来自前一层输出的输入进行双线性上采样，并添加到变换后的编码器输出中.我们没有将这个合并的特征直接传递给下一个上采样模块，而是进一步添加另一个残差块，以更好地融合来自两个不同来源的特征。3.4. 语义预测指导使用上下文信息来重新加权特征通道[24，25]已经为图像分类任务带来了显着的改进这个过程通常包括一个“收集”步骤，它在一个大的空间区域收集信息。相反，在我们的多级编码器-解码器网络中，转换后的解码器特征图，从xd顶部的1×1卷积生成，导致注意力增强特征图与残差块类似，该特征图被添加回解码器输出特征xd，然后进行另一个1×1卷积，以产生下一级编码器的输入特征在训练过程中，我们尽量减少最后阶段语义预测和所有先前阶段中的每类logits×1我们提出的SPG模块与SENets [25]和GeNets [24]的不同之处我们进一步验证了显式监督可以提高模型性能。我们提出的SPG模块的好处是双重的：“聚集”步骤被隐式地折叠到编码器-解码器体系结构中，这允许SPG模块在计算上是高效的（大约1%的FLOP增加）并且具有小的存储器占用空间（2.5%）。内存使用峰值提高3%）。同时，语义预测的使用使得SPG模块更具有可解释性。可视化见第4.54. 实验4.1. 数据集我们在Cityscapes数据集[14]上进行了实验，该数据集包含19个类。有5，000张具有高质量注释（称为“精细”）的图像本文仅采用“精”字4.2. 实现细节网络. 我们在编码器模块中采用ResNet [20]。图2中的我们用同步的Inplace-ABN [47]替换BatchNorm层，并在所有的上采样操作。培训设置。我们使用小批量SGD动量优化器，批量大小为8，初始学习率为0.01，动量为0.9，权重衰减为0.0001。在之前的工作[38]之后，我们使用预测1x11x1+Sigmoid1x1C1x1642562562565222ITER方法骨干mIoU（%）#参数#FLOPs†RefineNet [35]ResNet-101七十三。6--[56]第五十六话ResNet-101七十七。6六十五0m的2234 3BSAC [71]ResNet-10178岁1--[28]第二十八话ResNet-10178岁2--PSPNet [73]ResNet-10178岁4六十五7M2117号3B[第68话]ResNet-10178岁951岁6M429 5BDFN [69]ResNet-10179岁。3一百一十二0m的2239 6BPSANet [74]ResNet-101八十1--DenseASPP [64]DenseNet-161八十6三十五4M1240 1BDANet [18]ResNet-10181. 566岁。5M2878 9BSPGNet（我们的）2×ResNet-5081. 1五十九8M654 8B†#FLOP考虑所有矩阵乘法。表1.与Cityscapes测试集上的最新技术水平进行比较学习率由（1-iter）0缩放。9 .第九条。对于数据扩增-Max站，我们采用[0.5，2.0]之间的随机尺度，步长为0.25，随机翻转和随机裁剪。我们在消融研究的“训练“集上训练模型80，000次迭代为了在“test”集上评估我们的模型4.3. 与艺术在表1中，我们报告了我们的Cityscape“测试”集结果。我们只使用与其他模型类似，我们使用多尺度-puts（scales ={0. 75，1。0，1。25，1。五一75，2。0}）。我们还报告了模型参数和计算FLOP（w.r.t.，单个1024×2048输入大小）。我们最好的SPGNet模型变体采用2级编码器-解码器结构，ResNet-50作为编码器骨干和解码器通道=256。我们的模型在Cityscapes上的性能优于大多数性能最好的方法，计算量要少得多。值得注意的是，大多数现有技术的方法主要基于使用atrous卷积来保持特征图分辨率的系统，然而这需要大量的计算（如表 1 中的 #FLOP 所示）。相反，我们提出的SPGNet建立在一个高效的编码器-解码器结构之上，在准确性和速度之间取得了更好的平衡。具体来说，我们的SPGNet的计算几乎是DenseASPP的一半，DenseASPP是以前发布的最先进的模型，只使用精细的注释，但我们的性能是0。5%的mIoU更好。我们还比较了我们的SPGNet与其他并发工作DANet [18]。我们的计算值大约是22。7%的DANet只有0. 4mIoU降解。我们进一步比较每个类的结果与前2个每个-形成方法见表2。令人惊讶的是，我们的SPGNet在19个类中的15个中优于DenseASPP，在19个类中的14个中优于DANet。我们的总体mIoU的主要降级来自于“卡车”类，即10。7 IoU比DenseASPP差，9. 5IOU比DANet更糟糕我们认为这是因为只有少数“卡车”的城市景观和我们的SPGNet需要监督学习引导注意力。4.4. 消融研究在此，我们提供了Cityscapes阀组的消融研究。SPG模块的效果。我们对表3中的SPG设计进行了消融研究。基线是一个简单的2-通过直接将第一阶段解码器特征传递到第二阶段编码器，第一阶段编码器-解码器网络可以被称为第二阶段编码器。该基线模型使用跨阶段特征聚合（CSFA）[32]，其比没有CSFA的情况略好0.18%。我们首先验证是否通过se-mantic预测与解码器功能一起到下一阶段是有帮助的。我们把第一次阶段解码器输出通过应用1×1卷积。转换后的预测和第一阶段的预测之和，编码器输出被传递到下一级（表示为SPG（sum））。达到76。96%的mIoU是0。mIoU比基线好65%。此外，我们提出的SPG模块使用转换后的语义预测来“引用”解码器功能。我们探索两种激发方式：一种是通过在空间维度 H × W （ SPG （ softmax ））上应用softmax，另一种是使用sig，S型（SPG（sigmoid））。SPG（softmax）方案以0证明基线。86%的mIoU，而SPG（sig-moid）方案实现了 77 的最佳 mIoU 。 67% （ 1. 比基线好36%mIoU）。比较SPG（sigmoid）方案（77。67%mIoU）与SPG（总和）方案（76. 96%mIoU），它显示了使用“Excite”重新加权特征的重要性。最后，研究了在SPG模块中加入身份映射路径和监督机制的效果。丢弃图3中的标识映射路径会使性能从77降低。67%到77。24%，而去除对学习的监督，引导注意使成绩下降到77。12%，其中我们的SPG模块退化为“激发和激发”的特殊情况SPG模块与SE/GE模块。为了证明SPG模块的增益来自于监督，我们将SPG模块与其无监督的对应模块进行了比较。[25 ][26][ 27][28][29][29]][29][29]使用SE和GE模块实现分别为77.09 mIoU和77.22 mIoU，两个结果均优于基线76.31 mIoU，并且使用GE略优于SE，这与[24]中的发现一致。然而，他们仍然比使用我们提出的监督和激励（即。SGP，77.67 mIoU）。额外的收益主要来自于在监督激励中增加监督。更多的阶段。我们实验了使用更多阶段的效果，结果如表5所示。与姿态估计中的情况类似，性能随着阶段数量的增加而饱和。但在我们的案例中，5223IOU签署方法是说道路人行道建筑墙栅栏杆交通灯交通植被地形天空人乘用车卡车公共汽车火车摩托车自行车DenseASPP [64] 80.698.7 87.1 93.4 60.762.7 65.6 74.6 78.5 93.6 72.5 95.4 86.2 71.9 96.0 78.0 90.380.7 69.7 76.8DANet [18]81.598.6 86.1 93.5 56.1 63.369.7 77.3 81.3 93.9 72.9 95.7 87.3 72.9 96.2 76.8 89.4 86.5 72.278.2SPGNet（我们的）81.198.8 87.693.8 56.5 61.9 71.9 80.0 82.1 94.1 73.5 96.188.7 74.996.5 67.3 84.8 81.8 71.1 79.4表2.Cityscapes测试集的每类结果SPGNet在19个类别中的13个类别中优于现有的顶级方法#阶段SPGId。辅助核算mIoU（%）#参数浮点数1-74。4811. 7M107。6B编码器组合mIoU（%） #Params#FLOPsResNet-18 + ResNet-1877. 6723. 9M218。0字节2✓（乙状结肠）✗✓七十七。2423岁9M218 0字节（ResNet-18和ResNet-50）。在我们的两阶段SPGNet中，它是有效的-2✓（乙状结肠）✓✗七十七。1223岁9M218 0字节有必要在第一编码器模块中采用更深的主干表3.申报SPG的Cityscapes消融研究确认集所有型号都使用ResNet-18编码器。编号：在SPG中添加身份映射路径。补充：在SPG中增加语义监督。在我们的SPG中使用sigmoid激活，身份映射路径和监督，具有2个阶段，达到最佳性能。表4. Cityscapes对Supervise-and-Excite的消融研究。表7.关于编码器深度的城市景观阀消融研究。使用更深的编码器通常具有更好的性能。所有型号都使用ResNet-18编码器。我们建议的监督-and-Excite优于Squeeze/Gather-and-Excite。骨干#阶段通道OHEM mIoU（%）ResNet-502128✗79岁。81#舞台mIoU（%）#参数浮点数ResNet-502128✓80.10174岁4811个国家。7M一百零七6BResNet-1012128✗八十04277.6723岁9M218 0字节ResNet-1012128✓80.85377. 六十六三十六2M328。5B表 5. 确认集上的 Cityscapes 消融研究。所有型号都使用ResNet-18编码器。两级SPG是最佳选择。饱和非常快，并达到最佳的2级。通过仔细平衡各阶段之间的损失权重，对于具有2个以上阶段的模型，性能可能更好。然而，为了简单起见，我们在本文中只关注两个阶段的模型。编码器组合的影响。我们的两阶段SPGNet可能在每个编码器模块中使用两个不同的主干。如表6所示，虽然采用 ResNet-18+ResNet-50 （即，第一个编码器中的ResNet-18和第二个编码器中的ResNet-50）和ResNet-50+ResNet-18具有相似的参数和计算，在第一阶段使用更深的模型优于另一个。我们认为HTnCLE2✗- -七十六。3123岁9M215 5BResNet-18+ ResNet-5078岁34三十八岁。4M三百三十六0字节2✓（总数）✓ ✓七十六。9623岁9M218 0字节ResNet-50+ ResNet-1878岁83三十八岁。0m的3299B骨干#舞台信道mIoU（%）#参数浮点数ResNet-18112874岁4811个国家。7M一百零七6BResNet-501128七十七。80二十四岁7M212 9BResNet-101112878岁72四十三7M371 7BResNet-152112878岁33五十九4M五百三十1B模块监督mIoU（%）[25]第二十五话✗七十七。09通用电气[24]✗七十七。225224表8.在线硬实例上的城市景观价值消融研究矿业（OHEM）。SPG受益于OHEM。关键是采用R-50+R-50实现最佳性能。为了简单起见，本文中所有的编码器模块都采用相同的网络骨干.编码器深度。在表7中，我们研究了在编码器模块中采用不同主干的效果。我们观察到，使用更深的编码器可以改善结果，并且在2级SPGNet中使用ResNet-50可以在#Params，#FLOPs和性能之间实现良好的权衡。典型的采矿。我们在表8中研究了在线硬示例（或像素）挖掘（OHEM）[4，61，65]的效果。我们将OHM应用于所有阶段（即，每个阶段的解码器输出）。如表所示，使用5225ResNet-101128八十85九十三5M七百八十五3BResNet-101256八十42九十七8M九百七十二。4B表9.解码器通道的城市景观价值消融研究。所有模型都是#Stage=2，并在训练中使用OHEM。256Fang等人[17]第67.60页DPC [6]美国71.34SPGNet（Ours）中国67.23SPGNet（Ours）中国 68.36表10. Pascal Person-Part验证集性能。256引导注意力图4. 方法可视化引导注意。人C数据集。“建筑”是一个常见的“东西”类，“杆”是一个常见的薄“东西”在城市景观。激活在0（蓝色）和1（红色）之间标准化。从图5中，我们观察到几个有趣的行为：• 被引导的注意力学习对象的定位。“事物”的激活OHEM不断提高性能。解码器频道。我们在表9中对解码器通道的效果进行了实验。采用ResNet-50作为编码器骨干和解码器通道=256实现了最佳验证mIoU。翻转和多尺度测试。我们进一步将翻转和多尺度测试添加到最佳模型（具有2个阶段的ResNet-50，在表9中）。通过添加比例={0. 75，1。0，1。25，1。五一75，2。0}，性能从80.91进一步提高到81.86。4.5. 引导注意力在本节中，我们将学习到的引导注意力可视化在我们最好的模型变体中（两个编码器-解码器结构的堆栈，ResNet-50作为编码器骨干）。获得了引导注意图（具有256个通道）通过对第一级解码器输出中的预测应用具有S形激活的1 ×1因此，我们有一个大小为C×256的卷积权重矩阵（图4右上），其中C是语义类在数据集上。为了可视化c类的注意力，我们想知道引导注意力图中的256个通道中c类贡献最大的通道。因此，对于类c，我们提取相应来自C×256矩阵的1×256卷积权重向量（图4中的红色行在向量中，我们然后选择前15个最大权重的索引（图4向量中的黄色元素），用于索引相应的在引导注意力地图中设置通道（图4紫色引导注意力地图的黄色切片），即，引导注意力图中的那些通道对于类别C具有最大的响应。然后，我们可视化的注意力，采取l2范数的选择通道。普通课程。我们在图5中可视化了四个代表性类的学习引导注意力。‘Car’ and ‘Person’• 引导注意力集中在物体共现上。例如，• 引导注意力可以发现小物体。例如，在图5的第三行中存在多个细语义相似的类。我们发现引导注意也能够区分语义相似的类。在图6中，我们可视化了两个语义相似的类的注意力：“人”和“骑手”。对“Rider”的注意力主要针对右侧的Rider实例激发，而不会针对图像左侧的两个人实例激发。我们的引导注意力使传递到下一阶段的特征通过注入监督对语义相似的类更具区分力，使我们的SPGNet在“Person”和“Rider”类上都比其他最先进的模型获得更好的结果，如表所示。二、故障案例。我们的SPGNet混淆了“卡车”、“巴士”和“火车”。我们在图7中可视化了这些类的注意力。我们观察到，这些类别的引导注意力地图通常在同一个ob上一起激活反对。它可能会产生对这些类来说不太明显的特性，导致我们在'Truck'，'Bus'和'Train'上的性能更差，如表所示。二、4.6. 推广到其他数据集为了证明我们的模型可以推广到其他数据集，我们对PAS-CAL VOC 2012 [16]和PASCAL Person-Part [12]进行了更多实验。为在这两个数据集上，我们按照[11]中的设置来训练模型，裁剪大小为513×513，批量大小为28，迭代次数为30，000。骨干信道mIoU（%）#参数浮点数方法额外数据多尺度mIoU（%）ResNet-50128八十1055. 6M467 6BLiang等人[34个]✗✓63.575226图像预测汽车人建筑杆图5.4个普通班级的引导注意可视化引导注意力集中在共同出现的物体/事物的边界图像预测人骑士图6.对人员/骑手的引导注意力进行可视化引导注意能够区分语义相似的类。图像预测卡车公共汽车火车图7.卡车/公共汽车/火车的引导注意可视化我们的失败案例中，引导注意力混淆了卡车/公共汽车/火车。PASCAL VOC 2012：TheSPGNet与一堆叠2个ResNet-50的实现了77.33 mIoU。SPGNet的性能与当前最先进的ResNet-101 DeepLabV 3 +[11]相当，后者在编码器步幅=32的情况下实现了77.37 mIoU。PASCAL Person-Part：表10显示了与Pascal Person-Part最新结果的比较。我们的SPGNet具有2个ResNet-50堆栈，单标度输入和68.36 mIoU多标度输入。请注意，我们的SPGNet不需要额外的MPII训练数据[2]，如[17，62]中所使用的。5. 结论我们提出了SPGNet，它展示了Cityscapes语义分割的最新性能。我们提出的SPG模块采用“监督和激励”框架，通过语义预测的指导对局部特征进行重新加权。SPG模块中的引导注意力地图允许我们直观地解释相应的重新加权机制。我们的实验结果表明，两个-与我们的SPG模块配对的一级编码器-解码器网络可以显著优于具有类似参数和计算的一级对应物。最后，我们计划在未来探索一种计算效率更高的语义分割编码器-解码器结构。致谢本工作部分由IBM-伊利诺伊认知计算系统研究中心（ C3 SR ）支持 - 该研究合作是 IBM AI HorizonsNetwork and Intelligence Advanced Research ProjectsActivity （ IARPA ）的一部分，通过合同 D17 PC00341，ARC DECRA DE 190101315。美国政府有权为政府目的复制和分发重印本，尽管上面有任何版权注释。免责声明：本文中包含的观点和结论是作者的观点和结论，不应被解释为必然代表IARPA、DOI/IBC或美国政府。作者感谢 SamuelRotaBulo ` 和 PeterKontakeder对全局池化内核大小进行了有价值的讨论。5227引用[1] Md Amirul Islam、Mrigank Rochan、Neil DB Bruce和Yang Wang。用于密集图像标记的门控反馈精化网络。在CVPR，2017年。[2] Mykhaylo Andriluka，Leonid Pishchulin，Peter Gehler，and Bernt Schiele. 2D人体姿态估计：新的基准和最先进的分析。CVPR，2014。[3] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegnet：用于图像分割的深度卷积编码器-解码器架构。IEEE TPAMI，2017年。[4] 塞缪尔罗塔但是，Gerhard诺伊霍尔德，和彼得·康席德基于损失最大池的语义图像分割。在CVPR，2017年。[5] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。利用局部仿射场进行实时多人二维姿态估计。在CVPR，2017年。[6] 放大图片作者：Chen Liang-jieh， Maxwell D.Collins，Yukun Zhu，George Papandreou，Barret Zoph，FlorianSchroff，Hartwig Adam，and Jonathon Shlens.搜索用于密集图像预测的有效多尺度体系结构。在NIPS，2018年。[7] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.使用深度卷积网络和全连接crf的语义图像分割2015年，国际会议[8] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE TPAMI，2017年。[9] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。重新思考语义图像分割的atrous卷积。arXiv预印本arXiv：1706.05587，2017.[10] Liang-Jieh Chen，Yi Yang，Jiang Wang，Wei Xu，andAlan L Yuille.注意秤：尺度感知的语义图像分割。在CVPR，2016年。[11] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在ECCV，2018。[12] Xianjie Chen，Roozbeh Mottaghi，Xiaobao Liu，SanjaFidler，Raquel Urtasun，and Alan Yuille.检测您可以：使用整体模型和身体部位检测和表示对象。在CVPR中，第1971-1978页[13] Yunpeng Chen，Yannis Kalatidis，Jianshu Li，ShichengYan，and Jianshi Feng. A 2-nets：双重注意网络。在NIPS，2018年。[14] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在CVPR，2016年。[15] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。CVPR，2009。[16] M.埃弗灵厄姆湖，澳-地凡古尔角，澳-地K. I.威廉斯，J.Winn和A.齐瑟曼。pascal视觉对象类（voc）的挑战。IJCV，2010年。5228[17] 方浩树、卢冠松、方小林、谢建文、戴玉荣、卢策武。通过姿势引导知识转移的弱和半监督人体部位解析。arXiv预印本arXiv：1805.04310，2018。[18] Jun Fu ， Jing Liu ， Haijie Tian ， Yong Li ， YongjunBao，Zhivei Fang，and Hanqing Lu.用于场景分割的双注意网络。在CVPR，2019年。[19] 傅俊，刘静，王宇航，周进，王昌永用于语义分割的堆叠去卷积网络。IEEE TIP，2019年。[20] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。[21] 何旭明，RichardS. Ze m el和MiguelA'。卡雷拉-佩皮。用于图像标记的多尺度条件随机场载于CVPR，2004年。[22] Matthias Holschneider 、 Richard Kronland-Martinet 、Jean Morlet和Ph Tchamitchian。一种利用小波变换进行信号分析的实时算法。在Wavelet：时频方法和相空间，第289-297页一九八九年[23] Han Hu，Jiayuan Gu，Zheng Zhang，Jifeng Dai，andYichen Wei.用于对象检测的关系网络在CVPR，2018年。[24] Jie Hu ， Li Shen ， Samuel Albanie， Gang Sun ，andAndrea Vedaldi.聚集-激发：利用卷积神经网络中的特征上下文。在NIPS，2018年。[25] 杰虎，李申，孙刚。挤压-激发网络。在CVPR，2018年。[26] Zilong Huang ， Xinggang Wang ， Lichao Huang ，Chang Huang，Yunchao Wei，and Wenyu Liu. Ccnet：Criss-crossattentionforsemanticsegmentation. 在ICCV，2019年。[27] Li peng Ke，Ming-Chi

下载后可阅读完整内容，剩余1页未读，立即下载