逐点空间注意力网络用于场景解析

13 浏览量更新于2023-10-13 收藏 1.28MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

PSANet：用于场景解析的逐点空间注意网络赵恒双1 [0000−0001−8277−2706]、张毅2 [0000−0002−2139−8551]、刘树1[0000−0002−2903−9270]、石建平3[0000−0003−3257−8272]、陈昌来4[0000 - 0001 - 5345 - 1591]，林大华2[0000 - 0002 - 8865 - 7896]，Jiaya Jia贾佳雅1， 51香港中文大学2香港中文大学-商汤科技联合实验室3商汤科技4南洋理工大学5腾讯优图实验室@ cse.cuhk.edu.hk{zy217，dhlin}@ ie.cuhk.edu.hk，shijianping@sensetime.com，ccloy@ntu.edu.sg抽象。我们注意到，由于卷积滤波器的物理设计，卷积神经网络中的信息流被限制在局部邻域区域内，这限制了对复杂场景的整体理解。在本文中，我们提出了逐点空间注意力网络（PSANet）放松局部邻域约束。要素地图上的每个位置都通过一个自适应学习的注意力面具此外，实现了用于场景解析的双向信息传播。可以收集其他位置处的信息以帮助预测当前位置，反之亦然，可以分发当前位置处的信息来帮助预测其他的。我们提出的方法在各种竞争场景解析数据集上取得了最佳性能，包括ADE20K，PASCAL VOC 2012和Cityscapes，证明了其有效性和通用性。关键词：逐点空间注意，双向信息流，自适应上下文聚合，场景解析，语义分割1介绍场景分析也就是。语义分割是计算机视觉中的基本且具有挑战性的问题，其中每个像素被分配有类别标签。它是视觉场景理解的关键一步，在自动驾驶和机器人导航等应用中起着至关重要的作用。强大的深度卷积神经网络（CNN）的发展在场景解析方面取得了显着进展[26，1，29，4，5，45]。由于CNN结构的设计，它的感受野仅限于局部区域[47，27]。有限的感受野对完全卷积施加了很大的不利影响表示同等贡献。2H. Zhao，Y.Zhang，S.刘，J.施正中洛伊，D.Lin，J.贾网络（FCN）的场景解析系统中，由于周围的上下文信息的理解不足为了解决这个问题，特别是利用长距离依赖性，已经进行了若干修改。[4，42]提出了通过扩张卷积的上下文信息聚合。在经典的紧凑卷积模型中引入伸缩以扩大接收场。上下文信息聚合也可以通过池化操作来实现。ParseNet [24]中的全局池化模块，DeepLab [5]中基于不同膨胀的空间金字塔池化（ASPP）模块和PSPNet [45]中基于不同区域的金字塔池化模块（PPM）可以在一定程度上帮助提取上下文信息。与这些扩展不同的是，还利用了条件随机场（CRF）[4，46，2，3]和马尔可夫随机场（MRF）[25]。此外，ReSeg [38]中引入了递归神经网络（RNN），因为它能够捕获长程依赖关系。然而，这些基于扩张卷积的[4，42]和基于池化的[24，5，45]扩展以非自适应方式利用所有图像区域的同质上下文依赖性，忽略了不同类别的局部表示和上下文依赖性的差异。基于CRF/MRF的[4，46，2，3，25]和基于RNN的[38]扩展的效率低于基于CNN的框架。在本文中，我们提出了逐点空间注意网络（PSANet）聚合长距离的上下文信息，在一个灵活的和自适应的方式。特征图中的每个位置通过自适应预测的注意力图与所有其他位置连接，从而收集附近和远处的各种信息。此外，我们设计了双向信息传播路径，以全面了解复杂的场景。每个位置从所有其他位置收集信息以帮助预测其自身，反之亦然，每个位置处的信息可以全局分布，从而帮助预测所有其他位置。最后，将双向聚合的上下文信息与局部特征融合，形成复杂场景的最终表示。我们提出的PSANet在三个最具竞争力的语义分割数据集上实现了最佳性能，即、 ADE20K [48] 、 PASCAL VOC 2012 [9] 和 Cityscapes[8]。我们相信，所提出的逐点空间注意模块与双向信息传播范式一起也可以有益于其他密集预测任务。我们提供了所有的实现细节，并将代码和训练模型公开提供给社区1。我们的主要贡献有三方面：– 我们实现了远程上下文聚合场景解析的学习点明智的位置敏感的上下文依赖关系，连同一个双向的信息传播范例。– 我们提出了逐点空间注意力网络（PSANet）从特征图中的所有位置获取上下文信息。每个位置通过自适应学习的注意力地图与所有其他位置连接1https://github.com/hszhao/PSANet点式空间注意网络3– PSANet在各种有竞争力的场景解析数据集上实现了最佳性能，证明了其有效性和通用性。2相关工作场景解析和语义分割。最近，基于CNN的方法[26，4，5，42，45，6]在场景解析和语义分割任务中取得了显著的成功。FCN [26]是第一种用卷积层代替分类网络中的全连接层进行语义分割的方法。DeconvNet [29]和SegNet [1]采用编码器-解码器结构，利用低级层中的信息来帮助细化分割掩码。扩张卷积[4，42]在特征图上应用跳跃卷积以扩大w或k的概率分布。 UNet[33]c〇n c atedd从较低层输出，其中较高层用于信息融合。DeepLab [4]和CRF-RNN [46]利用CRF进行场景解析中的结构预测。 DPN [25]使用MRF进行语义分割。 LRR [11]和RefineNet [21]采用逐步重构和细化来获得解析结果。PSPNet [45]通过金字塔池策略实现了高性能。还有高效率的框架，如ENet [30]和ICNet[44]，用于自动驾驶等实时应用。上下文信息聚合。背景信息在图像理解中起着关键作用。扩张卷积[4，42]在经典卷积核内插入扩张以扩大CNN的感受野。在各种基本分类主干中广泛采用全局池化[19，35，36，13，14]以收获全局表示的上下文信息。Liu等提出的ParseNet [24]利用全局池来聚合场景解析的上下文信息。Chen等人开发的ASPP [5]模块和Zhaoet al.提出的PPM[45]模型用于获得不同的约束条件。 Visin等。提出了ReSeg [38]，它利用RNN来捕获远程上下文依赖性信息。注意力机制。注意机制在神经网络中有着广泛的应用。Mnih等人[28]学习了自适应地选择用于处理区域或位置序列的注意力模型Chen等人[7]学习了几个注意力掩码来融合来自不同分支的特征图或预测。Vaswani等人[37]学习了机器翻译的自我注意力模型 Wang等人[40]通过计算特征图中每个空间点之间的相关矩阵来获得注意力掩码我们的逐点注意力面具与上述研究不同。具体来说，通过我们的PSA模块学习的面具是自适应的，对位置和类别信息敏感。 PSA学习自适应地和具体地聚合每个单独点的上下文信息。4H. Zhao，Y.Zhang，S.刘，J.施正中洛伊，D.Lin，J.贾3框架为了捕获上下文信息，特别是在长范围内，信息聚合对于场景解析非常重要[24，5，45，38]。在本文中，我们制定的信息聚合步骤作为一种信息流，并提出了自适应学习的像素明智的全球注意力地图的每个位置从两个角度来聚合上下文信息的en-tire特征图。3.1制剂一般特征学习或信息聚合被建模为z =1INΣj∈Ω（i）F（xi， xj，∆ij）xj（1）其中，Zi是位置i处的新聚合特征，并且Xi是在输入映射X处的位置i处的特征副本。j∈Ω（i）enumerates与i相关的感兴趣区域中的所有位置，Δij表示位置i和j的相对位置。F（xi，xj，xij）可以是根据操作的任何函数或学习参数，并且它表示从j到i的信息流。注意，通过考虑相对位置ij，F（xi，xj，ij）对不同的相对位置敏感。这里N是归一化的。具体而言，我们简化了配方和设计不同的函数F相对于不同的相对位置。当量（1）更新为z =1INΣj∈Ω（i）F∆ij（xi， xj）xj（2）其中{F∆ij}是一组位置特定函数。它对从positionj到positioni的信息流进行建模。在FΔij（·，·）上的函数i不将源和目标信息作为输入。当在特征图中存在许多位置时，组合（xi，xj）的数量非常大。在本文中，我们简化的公式和近似。首先，我们将F∆ij（·，·）上的函数实现为F∆ij（xi， xj）≈F∆ij（xi）（3）在该近似中，从j到i的信息流仅与目标位置i处的语义特征以及i和j的相对位置有关。基于等式（3），我们重写Eq.（2）作为z =1INΣj∈Ω（i）F∆ij（xi）xj（4）类似地，我们将F∆ij（·，·）上的函数实现为F∆ij（xi， xj）≈F∆ij（xj）（5）点式空间注意网络5i、ji、j图1.一、双向信息传播模型说明。每个位置都其中从j到i的信息流仅与源位置j处的语义特征以及位置i和j的相对位置有关。最后，我们分解和简化的功能，作为一个双向的信息传播路径。合并等式（3）和方程（5）我们得到F∆ij（xi， xj）≈F∆ij（xi）+F∆ij（xj）（6）形式上，我们将这种双向信息传播建模为z =1INΣj∈Ω（i）F（x）x+1∆ijijNΣj∈Ω（i）F∆ij（x j）x j.（七）对于第一项，FΔij（x i）编码在其他位置处的特征可以在什么程度上被呈现。一个关键点将从其他关键点收集到一个标准的关键点。对于第二项，在一个位置处的特征对在其他位置处的特征的重要性由 Fij（xj）表示。一个人的行为是对他人的一种认可。该双向信息传播路径，如图1所示。1，使网络能够学习更全面的表示，这在我们的实验部分中得到了证明。具体来说，我们的PSA模块旨在自适应地预测整个特征图上的信息流，将特征图中的所有位置作为Ω（i），并利用卷积层作为F∆ij（xi）和F∆ij（x j）的运算。FΔij（x i）和FΔij（x j）都可以被认为是预测的注意力值，以聚合特征x j。我们进一步重写Eq。（7）作为z =1Σac x +1Σadx，（8）iN i，jj日N∀ji，jj其中C和d表示逐点处的预测注意力值tentionmapsA和Adfrom‘collect’anddistrite’branches，respectively.3.2概述我们在图中示出了PSA模块的框架。二、PSA模块采用空间特征图X作为输入。我们将X的空间大小表示为H×W。6H. Zhao，Y.Zhang，S.刘，J.施正中洛伊，D.Lin，J.贾C2C2减少H自&适应转换H收集注意力生成HHHCW一个cWZC2C1WWC1C1Concat投影Concat输出HHH输入WWWXC2C2减少H自&适应转换H分布式注意力生成HHWWHDW一个dWZD图二、拟议PSA模块的体系结构。通过如图所示的两个分支，我们通过几个卷积层为特征图X中的每个位置生成像素级全局我们基于以下等式的注意力图聚合输入特征图。（8）生成具有长程上下文信息inc或p或ated的新特征表示，即，例如，Z从该分支的集合开始，并且Z从该分支开始。我们将新的表示Zc和Zd连接起来，并将卷积层与批量归一化和激活层一起应用然后，我们将新的全局上下文特征与局部表示特征X连接。随后是具有批量归一化和激活层的一个或多个卷积层，以生成后续子网络的最终我们注意到，我们提出的PSA模块中的所有操作都是可区分的，并且可以以端到端的方式与网络的其他部分联合训练。它可以灵活地附加到网络中的任何特征地图。通过预测每个位置的上下文依赖性，其自适应地聚合合适的上下文信息。在下面的小节中，我们详细描述了生成两个注意力图的过程，即：、Ac和Ad。3.3点式空间注意力网络结构。PSA模块首先产生两个逐点空间注意力图，即、Ac和Ad通过两个并联分支。虽然它们代表了不同的信息传播方向，但网络结构是相同的。如图2，在每个分支中，我们首先应用具有1 × 1滤波器的卷积层，以减少输入特征图X的通道数量，从而减少计算开销（即，、图中的C2C1<2）的情况。然后应用另一个具有1× 1滤波器的卷积层进行特征自适应。这些层伴随有批量归一化和激活层。最后，一个卷积层负责为每个位置生成全局注意力图我们不是预测每个位置i的大小为H×W的地图，而是预测过度完成的地图h i，即，尺寸为（2H− 1）×（2W−1），覆盖输入端点式空间注意网络7我CC嗨嗨JW我J(a) 收集2H-1IHJ2W-1(b) 分发2W-1图三. 点式空间注意力的图示。特征图因此，对于特征映射X，我们得到一个空间大小为H×W和（2H− 1）×（2W−1）通道的临时表示映射H 如图所示。3，对于每个位置i，h i可以重塑为具有2 H-1行和2 W-1列的空间映射，并以位置i为中心，其中只有H × W值对特征聚合有用。有效区域被突出显示为图1B中的虚线边界框。3.第三章。通过我们的实例化，用于预测不同位置处的注意力图的过滤器集合是不相同的。这使得网络能够通过自适应权重对相对位置敏感。实现该目标的另一个实例是利用全连接层来连接输入特征图和预测的逐像素注意力图。但这将导致大量的参数。注意力地图生成。基于来自该collec 'bran c h的预测的过度完成图H c和来自该distribut e ' bran c h的预测的过度完成图H d，我们分别生成注意力图A c和A d。在所述分类中，在一个位置处，利用所述流程和所述列，我们基于特征来位置岛因此，ac对应于hc中具有H行和W我我从第（H-k）行和第（W-l）列开始的列具体地，注意掩码a_c中第 s行第t列的元素，即、[k，l]是C[k，l]，[s，t]C[k，l]，[H-k+s，W-l+t]， t∈[0，W）（9）其中[·，·]在行和列中查找索引点。该位置映射收集其他位置中的信息以有益于当前位置处的预测。另一方面，我们将当前位置的信息分发给其他位置。在每一个位置，我们预测信息的重要性。当前位置为其他位置。d的生成类似于c。这我我注意力地图有助于分发信息，以便更好地预测。这两个映射编码不同位置对之间的上下文依赖性，以互补的方式，导致改进的信息传播和增强的远程上下文的利用。利用这两种不同的注意力的好处在实验中表现出来。C我我我2H-1JJJJW一一=h8H. Zhao，Y.Zhang，S.刘，J.施正中洛伊，D.Lin，J.贾输入图像ResNet-FCN-主干信息聚合见图4。包含PSA模块的ResNet-FCN骨干网的网络结构。为了更好的表现，还采用了深度监督3.4带FCN的我们的PSA模块是可扩展的，可以连接到FCN结构的任何阶段。我们在图中展示了我们的实例化。4.第一章给定输入图像I，我们通过FCN获取其局部表示作为特征图X，其是PSA模块的输入。与[45]相同，我们采用ResNet [13]作为FCN骨干网。我们提出的PSA模块，然后用于聚合从本地表示的远程上下文信息。它遵循ResNet中的第5阶段，这是FCN主干的最后一个阶段。阶段5中的特征在语义上更强。将它们聚合在一起，可以更全面地表示长期背景。此外，阶段5处的特征图的空间大小较小，并且可以减少计算开销和存储器消耗。参考[45]，我们也使用相同的深度监督技术。如图所示，除了主损耗之外，还应用了辅助损耗支路。4 .第一章3.5讨论已经有了利用上下文信息进行场景解析的研究。然而，广泛使用的扩张卷积[4，42]利用固定的稀疏网格来操作特征图，失去了利用整个图像的信息的能力虽然池化策略[24，5，45]在每个位置捕获具有固定权重的全局上下文最近提出的非局部方法[40]通过计算输入特征图上每对位置之间的语义特征的相关性来编码全局上下文，忽略这两个位置之间的相对位置。与这些解决方案不同，我们的PSA模块通过卷积层自适应地预测输入特征图上的每个位置的全局注意力图，同时考虑到相对位置。此外，注意力图可以从两个角度预测，旨在捕获位置之间的不同类型的信息流。这两个注意力图实际上构建了双向信息传播路径，如图2所示1.一、他们收集ResNet第5深度监督辅助损失PSAResNet阶段1-4处理渗漏都点式空间注意网络9并在整个特征图上分布信息。在这方面，全球汇集因此，我们的PSA模块可以有效地捕获远程上下文信息，适应输入数据，并利用不同的注意力信息，从而更准确的预测。4实验评价所提出的PSANet是有效的场景解析和语义分割任务。我们在三个具有挑战性的数据集上评估了我们的方法，包括复杂场景理解数据集ADE20 K [48]，对象分割数据集PAS-CAL VOC 2012 [9]和城市场景理解数据集Cityscapes [8]。在下文中，我们首先示出了与训练策略和超参数相关的实现细节，然后我们示出了对应数据集上的结果，并将由PSA模块生成的学习掩码可视化。4.1实现细节我们基于Caffe进行实验[15]。在训练过程中，我们将mini-batch大小设置为16，同步的batch normalization和基本学习r在e为0。01. 根据下面的功率系数[5，45]，我们在功率系数处添加了可选的多个滤波器，并且功率被设置为0.9。对于ADE20K数据集上的实验，我们将最大迭代次数设置为150K，VOC 2012为30K，Cityscapes为90K动量和重量衰减分别设置为0.9和0.0001。对于数据增强，我们对所有数据集采用0.5到2之间的随机镜像和随机调整大小我们还为ADE 20 K和VOC 2012数据集添加了-10至10度之间的额外随机旋转和随机高斯模糊。4.2ADE20K场景解析数据集ADE20K [48]对于多达150个类别和多达1，038个图像级类别的各种复杂场景它分为20 K/2K/3 K，分别用于训练、验证和测试。对象和内容都需要为数据集进行解析。对于评估度量，在并集上的按类交集的（Mean IoU）和按像素准确度（Pixel Acc.）被采纳。信息聚合方法的比较。我们比较了几种不同的信息聚合方法的性能，ADE20K的验证集与两个网络骨干，即。例如，ResNet有50层和101层。实验结果列于表1中。我们的基线网络是基于ResNet的FCN，在第4和第5阶段合并了扩张卷积模块，即。例如，对于这两个阶段分别将膨胀设定为2和4。10H. Zhao，Y.Zhang，S.刘，J.施正中洛伊，D.Lin，J.贾方法平均IoU（%）/像素加速（%）表1. 使用不同方法的上下文信息聚合。报告了ADE20K数据集验证集的结果。SSMSResNet 50-基线37.23/78.0138.48/78.92ResNet50+DenseCRFa [18]37.97/78.5138.86/79.32[24]第二十四话40.07/79.5241.22/80.35ResNet50+ASPP [5]40.39/79.7142.18/80.73ResNet50+非本地[40]40.93/79.9741.94/80.71ResNet50+PSP [45]41.68/80.0442.78/80.76ResNet50+COLLECT（紧凑型）41.07/79.6141.99/80.32ResNet50+采集41.27/79.7442.56/80.56ResNet50+分销41.46/80.1242.63/80.90ResNet50+采集+分发41.92/80.1742.97/80.92ResNet 101-基线39.66/79.4440.71/80.17ResNet101+收集42.70/80.5343.68/81.24ResNet101+分销42.11/80.0143.38/81.12ResNet101+采集+分发42.75/80.7143.77/81.51a通用报告格式参数：bi w=3.5，bi xy标准=55，bi rgb标准=3，pos w=2，pos xy标准=1。基于FCN提取的特征图，DenseCRF[18]仅带来轻微的改进。全局池化[24]是一种简单而直观的尝试，用于获取长距离上下文信息，但它平等地对待特征图上的每个位置具有多个分支的金字塔结构[5，45]可以捕获不同尺度的上下文信息。另一个选项是对特征图中的每个位置使用注意力掩模。在[40]中采用了非局部方法，其中通过计算每个成对位置之间的特征相关性来生成每个位置的注意掩码。在我们的PSA模块中，除了每个点的注意力掩码的唯一性之外，我们的逐点掩码是用卷积运算自适应学习的，而不是非局部方法[40]采用的简单矩阵乘法。与这些信息聚合方法相比，我们的方法表现更好，这表明PSA模块是一个更好的选择，在捕获长距离的上下文信息。我们将进一步探讨PSA模块中的两个分支。以ResNet 50为例，采用表1中的高精度流量计（未定义为“+COLLE C T”），我们的单尺度测试结果在平均值方面为41.27/79.74，IoU和Pixel Acc.（%）.，超过基线4.04/1.73。这一重大改进表明了我们提出的PSA模块的有效性，即使在简化版本中只有单向信息流。在我们的双向流模型下（定义为“+ COLLE C T + D I S T R I B UTE”），性能进一步增加到41.92/80.17，在绝对改善方面超过基线模型4.69/2.16，在点式空间注意网络11表2. 方法与ADE20K验证集报告的结果比较。表3. 方法与VOC 2012测试集报告的结果比较。方法平均IoU（%）像素Acc.（%）[26]第二十六话29.39 71.32SegNet [1]21.64 71DilatedNet [42]32.31 73.55[第48话]34.90 74.52[21]第二十一话40.20-[21]第二十一话40.70-PSPNet50 [45]42.78 80.76PSPNet101 [45]43.29 81.39WiderNet [41]43.73 81.17PSANet5042.9780.92PSANet10143.7781.51方法mIoU（%）LRR [11]79.3DeepLabv2 [5]79.7G-CRF [3]80.4SegModel [34]81.8LC [20]82.7[39]第三十九话83.1[31]第三十一话83.6RefineNet [21]84.2ResNet-38 [41]84.9PSPNet [45]85.4DeepLabv3 [6]85.7PSANet85.7相对改善。这种改进对于骨干网来说是普遍的这表明两种信息传播途径都是有效的，并且是互补的。还请注意，我们的位置敏感掩码生成策略对我们的高性能起着关键作用。表示为“（compac t）”的方法是一种将H × W的大小设置为两倍大小的过完备掩码的方法，忽略相对位置信息。如果考虑相对位置，则性能更高。然而，所述组合物确定了所述非局部计算方法，这也表明如我们提出的从特征图自适应学习的长程依赖性优于从特征相关性计算的长程依赖性。方法比较。我们在表2中显示了我们的方法与其他方法之间的比较。在相同的网络骨干下，PSANet的性能高于RefineNet [21]和PSPNet [45]。PSANet 50甚至超过了RefineNet，它以更深的ResNet-152作为主干。它比WiderNet [41]稍微好一点，后者使用了一个强大的主干，称为Wider ResNet。视觉改进。我们在图中展示了解析结果的视觉比较。五、PSANet大大提高了分割质量，与没有PSA模块的分割相比，生成了更准确和详细的预测。我们在补充材料中包括PSANet和其他方法之间的更多视觉比较。4.3Pascal VOC 2012PASCAL VOC 2012分割数据集[9]用于以对象为中心的分割，包含20个对象类和一个背景。在之前的工作[4，5，45]之后，我们利用[12]中的增强注释，得到10，582，1，449和1，456张图像用于训练，验证和测试。我们引入的PSA模块对于对象分割也非常有效，如表4所示。它大大提高了性能，大大超过了基线。12H. Zhao，Y.Zhang，S.刘，J.施正中洛伊，D.Lin，J.贾(a) 图像（b）地面实况（c）基线（d）PSA-COL（e）PSA-COL-DIS图五. ADE20K验证集的视觉改进。提出的PSANet得到更准确和详细的解析结果。‘PSA-COL’ denotes PSANet with ‘COL- LECT’ branch and ‘PSA-COL-DIS’ standsfor bi-direction information ﬂow mode, which further enhances the表4. PSA模块引入的改进。报告了在训练aug集上训练的模型的结果，并在VOC2012的val集上进行了评估。表5. PSA模块引入的改进。结果报告与模型训练的罚款火车集和评估的罚款价值集的城市景观。按照[4，5，45，6]的方法，我们还在MS-COCO [23]数据集上进行预训练，然后在VOC数据集上对系统进行微调。表3列出了不同框架在VOC 2012测试集上的性能- PSANet达到最高性能。如补充材料所示，外观改善明显。类似地，结合PSA模块产生更好的预测。4.4城市景观收集Cityscapes数据集[8]用于城市场景理解。它包含5，000个精细注释的图像，分为2，975，500和1，525个图像，方法平均IoU（%）/像素加速（%）SS MS方法平均IoU（%）/像素加速（%）SS MSRes 50-基线67.12/92.8367.57/92.98+COL76.96/94.7978.00/95.01+COL+DIS77.24/94.8878.14/95.12Res 101-基线70.64/93.8271.22/93.95+COL77.90/95.0279.07/95.32+COL+DIS78.51/95.1879.77/95.43Res 50-基线71.93/95.5372.99/95.76+COL76.51/95.9577.50/96.15+COL+DIS76.65/95.9977.79/96.24Res 101-基线74.83/96.0375.89/96.23+COL77.06/96.1878.05/96.39+COL+DIS77.94/96.1079.05/96.30点式空间注意网络13方法mIoU（%）LRR-4x† [11]71.8[34]第三十四话79.2[39]第三十九话80.1[10]第10话80.5ResNet-38† [41]80.6PSPNet† [45]81.2DeepLabv3† [6]81.3PSANet†81.4表6. 方法与Cityscapes测试集上报告的结果进行比较。使用精细和粗略数据训练的方法用†标记。a 仅使用优良列车组进行b 使用精细训练+精细值设置进行训练培训、验证和测试。30种常见的路、人、车等类别注释，其中19个用于语义分割评估。此外，还提供了另外20，000幅粗注释图像。我们首先示出了基于表5中的基线方法由我们的PSA模块带来的改进，然后在表6中列出了测试集上的不同方法之间的比较，其中具有两个设置，即：例如，仅用精细数据训练和用粗略+精细数据训练。PSANet在这两种设置下均实现了最佳性能。补充材料中包括了几个视觉预测。4.5掩模可视化为了更深入地理解我们的PSA模块，我们将学习到的注意力掩码可视化，如图所示。六、图像来自ADE20k的验证集。对于每个输入图像，我们在两个点（红色和蓝色）显示蒙版，表示为红色和蓝色。对于每个点，我们示出了由“COLLE C T”和“D I S T R I B UTE”构成的掩模。在当前位置，我们发现注意力面具的注意力较低。这是合理的，因为聚合特征表示与原始局部特征连接，原始局部特征已经包含局部信息。我们发现，我们的注意掩模有效地集中在相关区域，以获得更好的性能。例如，在第一行中，用于位于海滩上的红点的掩模为海洋和海滩分配了较大的权重，这有利于红点的预测而天空中的蓝色点的注意力遮罩在其他图像中也发现了类似的趋势。方法mIoU（%）DeepLabv2 [5]70.4LC [20]71.1阿德莱德[22]71.6[32]第三十二话71.8RefineNet [21]73.6珍珠[16]75.4[39]第三十九话77.6[43]78.1PSPNeta [45]78.4ResNet-38 [41]78.5SegModel [34]78.5多任务学习[17]78.5PSANeta78.6PSANetb80.114H. Zhao，Y.Zhang，S.刘，J.施正中洛伊，D.Lin，J.贾(a) 输入图像（b）RED-COL（c）RED-DIS（d）BLUE-COL（e）BLUE-DIS图六、通过PSANet可视化学习的面具。掩码对收集不同上下文信息的位置和类别信息敏感可视化的掩码证实了我们模块的设计直觉，其中每个位置都从附近和远处的区域收集信息上下文信息，以便更好地预测。5总结发言我们已经提出了PSA模块的场景解析。它通过卷积层自适应地预测特征图中每个位置的两个全局注意力图位置特定的双向信息传播被启用以获得更好的性能。通过将信息与全局注意力图聚合，有效地捕获了长距离上下文信息在三个具有挑战性的数据集上进行的大量实验表明了所提出方法的有效性和通用性我们相信所提出的模块可以在社区中推进相关技术。致谢这项工作得到了香港早期职业计划（ECS）（编号24204215）的部分支持。我们感谢商汤研究提供计算资源。点式空间注意网络15引用1. Badrinarayanan，V. Kendall，A.，Cipolla，R.：Segnet：用于图像分割的深度卷积编码器-解码器架构TPAMI（2017）2. Chandra，S.，科基诺斯岛：基于深度高斯crfs的语义图像分割In：ECCV（2016）3. Chandra，S.，Usunier，N.，科基诺斯岛：使用深度嵌入的稠密低秩高斯crfs。In：ICCV（2017）4. Chen，L.，中国地质大学，帕潘德里欧，G.，科基诺斯岛墨菲K Yuille，A.L.：基于深度卷积网和全连接crfs的语义图像分割ICLR（2015年）5. Chen，L.，中国地质大学，帕潘德里欧，G.，科基诺斯岛墨菲K Yuille，A.L.：Deeplab：使用深度卷积网络、atrous卷积和全连接crf的SE-mantic图像分割。TPAMI（2018）6. Chen，L.C.，帕潘德里欧，G.，Schro，F.，Adam，H.：再思考无卷积在语义图像分割中的应用。arXiv：1706.05587（2017）7. Chen，L.，中国地质大学，杨，Y.，王杰，徐伟，Yuille，A.L.：注意秤：尺度感知语义图像分割。见：CVPR（2016）8. Cordts ， M. ， Omran ， M. ， Ramos ， S. ， Rehfeld ， T. ， Enzweiler ， M. ，Benenson河弗兰克，美国，Roth，S.，Schiele，B.：用于语义城市场景理解的cityscapes数据集。见：CVPR（2016）9. Everingham，M. Gool，L.J.V.，威廉姆斯，C.K.I.，Winn，J.M.，齐瑟曼，A.：pascal视觉对象类VOC的挑战。IJCV（2010）10. 加德河Jampani，V.，Gehler，P.V.：通过表示变形的语义视频cnns。In：ICCV（2017）11. Ghiasi，G.，Fowlkes，C.C.：用于语义分割的拉普拉斯金字塔重建和细化。In：ECCV（2016）12. Hariharan，B.，Arbelaez，P.，Bourdev，L.D. Maji，S.，Malik，J.：从反向检测器的语义轮廓In：ICCV（2011）13. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习。见：CVPR（2016）14. Huang，G.，刘志，Weinberger，K.Q.，van der Maaten，L.：密集连接的卷积网络。在：CVPR（2017）15. Jia，Y.，Shelhamer，E.，Donahue，J.，Karayev，S.，朗J Girshick，R.B.，瓜达尔-拉马，S.，达雷尔，T.：Caffe：用于快速特征嵌入的卷积架构。In：ACM MM（2014）16. Jin X Li，X.，Xiao，H.，沈，X.，林芝，杨杰，陈玉，董，J.，刘，L.，杰，Z.等：具有预测特征学习的视频场景解析。In：ICCV（2017）17. Kendall，A.，Gal，Y.，Cipolla，R.：多任务学习使用不确定性来权衡场景几何和语义的损失来源：CVPR（2018）18. Kr¨ahenbu¨hl，P.， Koltun，V. ：在具有高边缘电位的完全覆盖的射频中的电场强度。NIPS（2011）19. Krizhevsky，A.，萨茨克弗岛Hinton，G.E.：使用深度卷积神经网络的Imagenet分类。在：NIPS（2012）20. Li，X.，刘志，Luo，P.，Loy，C.C.，唐X：并非所有像素都相等：通过深层级联的障碍感知语义分割。在：CVPR（2017）21. 林，G.，Milan，A. Shen，C.，Reid，ID：Refinenet：用于高分辨率语义分割的多路径细化网络。在：CVPR（2017）22. 林，G.，Shen，C.，里德身份证van den Hengel，A.：用于语义分割的深度结构化模型见：CVPR（2016）16H. Zhao，Y.Zhang，S.刘，J.施正中洛伊，D.Lin，J.贾23. Lin，T.，夫人M Belon g ie，S. J. 嗨，J.， Perona，P.， Ramanan，D. ，Dolla'r，P.，Zitnick，C.L.：Microsoft coco：上下文中的公共对象In：ECCV（2014）24. 刘伟，Rabinovich，A.，Berg，A.C.：Parsenet：看得更宽，看得更好。arXiv：1506.04579（2015）25. 刘志，Li，X.，Luo，P.，Loy，C.C.，唐X：基于深度解析网络的语义图像分割。In：ICCV（2015）26. 朗J Shelhamer，E.，达雷尔，T.：用于语义分段的全卷积网络。参见：CVPR（2015）27. 罗，W.，李，Y.，Urtasun河Zemel，R.：理解深度卷积神经网络中的有效接收场。在：NIPS（2016）28. Mnih，V.，Heess，N.格雷夫斯，A.，等：视觉注意的循环模型。在：NIPS（2014）29. 诺H Hong，S.，汉，B.：用于语义分割的学习反卷积网络。In：ICCV（2015）30. Paszke，A.，Chaurasia，A.，Kim，S.，Culurciello，E.：Enet：用于实时语义分割的深度神经网络架构arXiv：1606.02147（2016）31. 彭，C.，张，X.，Yu，G.，罗，G.，孙杰：大内核在：CVPR（2017）32. Pohlen，T.，Hermans，A. Mathias，M.，莱贝B：用于街道场景语义分割的在：CVPR（2017）33. Ronneberger，O.，Fischer，P.，Brox，T.：U-net：用于生物医学图像分割的卷积网络。电影：MICCAI（2015）34. 沈，F.，甘河Yan，S.，Zeng，G.：基于结构化补丁预测、上下文crf和引导crf的语义分割。在：CVPR（2017）35. 西蒙尼扬，K.，齐瑟曼，A.：用于大规模图像识别的深度卷积网络。载于：ICLR（2015）36. 塞格迪角刘伟，Jia，Y.，Sermanet，P.，Reed，S.E.，Anguelov，D.，Erhan，D.，Vanhoucke，V.，Rabinovich，A.：更深的回旋。参见：CVPR（2015）37. Vaswani，A.，Shazeer，N. Parmar，N. Uszkoreit，J.，琼斯湖戈麦斯，A.N.，Kaiser，

下载后可阅读完整内容，剩余1页未读，立即下载