完全注意力网络在语义分割上的应用

149 浏览量更新于2023-12-01 收藏 2.38MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文××用于语义分割的完全注意力网络宋琦，1，2李杰，1，2李成红，1*郭浩，1，2黄锐1†1香港中文大学深圳分校2深圳市人工智能与机器人社会研究{qisong，jieli1，haoguo} @ link.cuhk.edu.cn，kevinleexjtu09@gmail.com，ruihuang@cuhk.edu.cn摘要最近的非局部自注意方法已被证明是有效的，在捕捉语义分割的长期依赖。这些方法通常形成RC×C（通过压缩空间维度）或RHW×HW（通过压缩通道）的相似性图来描述沿通道或空间维度的特征关系，其中C是通道的数量，H和W是输入特征图的空间维度。然而，这样的实践倾向于沿着其他维度压缩特征依赖性，因此导致注意力缺失，这可能导致小/薄类别的较差结果或大对象内部的不一致分割。为了解决这个问题，我们提出了一种新的方法，即全注意网络（FLANet），在一个单一的相似映射编码空间和信道的注意，同时保持高的计算效率。具体来说，对于每个通道地图，我们的FLANet可以收获所有其他通道地图的特征响应，以及相关的空间位置，通过一个新的完全注意力模块。我们的新方法在三个具有挑战性的语义分割数据集上实现了最先进的在Cityscapes测试集、ADE 20K验证集和PASCAL VOC测试集上分别为83.6%、46.99%和88.5%。介绍最近，语义分割模型通过捕获长范围依赖关系（Zhaoetal.2017;Yangetal.2018;Yuan ， Chen ， andWang2020;Sunet al.2019），其中基于非本地（NL）的方法是主流（ Zhao et al.2018;Fu et al.2019 a;Huangetal.2019;Zhang et al.2019 a;Zhu et al.2019;Song ， Mei，and Huang2021;Ramachandran et al.2019）。为了生成密集和全面的上下文信息，基于NL的模型利用自我注意机制来探索沿着通道（Cao et al.2019;Zhaoet al.2018）或空间（Huang et al.2019;Yin et al.2020）维度的相互依赖性。我们将NL块的这两种变体分别表示为*这些作者贡献相同。[2]通讯作者。Copyright © 2022，Association for the Advancement of ArtificialIntelligence（www.aaai.org）. All rights reserved.(a)频道NLC×HWC×H×WC×HWHW×CC×CC×H×WC×H×WC×HW(b)空间NLC×H×WConvHW×CC×H×WHW×CConvC×HWC×H×WHW×HWC×H×WConvC×H×WC×H×WHW×C(c)完全注意力阻滞充分重视CH+WC×H×W（H+W）×C×SC×H×W剪切合并合并逆运算图 1 ：非本地块（ NL ）和我们提出的全注意力块（FLA）的架构。传统的自然语言学习算法在通道或空间维度上计算相似性映射，而我们的FLA算法在所有维度上生成相似性映射，并在注意力映射中实现充分的注意力。和（b）中的至少一种。虽然这些探索对语义分割做出了令人印象深刻的贡献，但一个尖锐的问题，即，注意力缺失，大多被忽视。以频道NL为例，频道注意力图RC×C由两个输入的矩阵相乘生成，维数为C HW和HW C。可以发现，在矩阵相乘过程中，每个通道可以与所有其他通道映射连接，同时空间信息将被整合，并且每个空间位置无法感知来自其他位置的特征响应。同样，空间NL中也缺少通道维度之间的交互。我们认为，注意力缺失问题会损害3D上下文信息（CHW）的完整性，因此两种NL变体只能以互补的方式部分受益为了验证这一假设，我们在图2中展示了Cityscapes值集上的每类比较结果。如图所示，通道NL在大型对象（如卡车、公共汽车和火车）中获得更好的分割结果，而空间NL在小/薄类别（如，波兰人，骑手和mbike。他们都失去了精度在某些类别由于上述注意失踪arXiv：2112.04108v1 [cs.CV] 2021年12+v：mala2255获取更多论文100959085807570656055路swalk构建壁围栏杆灯签署蔬菜。地形天空人骑手汽车卡车bus火车姆比凯自行车mIoUChannel NL Spatial NL Dual NL CS NL FLA（Ours）图2：我们的方法的动机和城市景观价值集上注意力缺失问题的定量证据这一观察结果证明：1）空间NL可以增强细节的区分，而通道NL有利于保持大对象内部的语义一致性，2）在网络中堆叠两个NL块仍然存在注意力缺失问题，3）我们提出的FLA可以成功解决注意力缺失问题，因为我们可以通过建模全注意力来实现比所有类别中单个NL块更好的准确性。问题.此外，我们也很好奇，这个问题是否可以通过将两个块依次堆叠来解决。我们表示DANet中的并行连接模式（Fuet al. 2019 a）和顺序的空间-空间NL分别为“双NL”和“CS NL”1.直觉上，当同时使用两个NL时，每个类别的精度增益应不小于单个NL的精度然而，它是观察到的，双NL的性能下降了很多大对象，如卡车和火车，和CS NL得到穷人的IoU结果在一些薄的类别，如杆和mbike。我们可以发现，双NL和CS NL都只能保留通道NL或空间NL带来的部分好处因此，我们可以得出结论：注意缺失问题损害了特征表示能力，它不能通过简单地堆叠不同的NL块来解决。基于此，我们提出了一种新的非局部块，即完全注意力块（FLA），以有效地保留所有维度的注意力。工作流程如图1（c）所示。其基本思想是在计算通道注意图时利用全局上下文信息接收空间响应，从而在单个注意单元中实现充分的注意，具有较高的计算效率.具体地，我们首先使每个空间位置能够从具有相同水平和垂直坐标的全局上下文中收获特征响应其次，我们使用自我注意机制来捕捉任何两个通道图和相关的空间位置之间的完全注意相似性。最后，生成的完全注意相似性被用来重新加权每个通道地图之间的所有通道地图和相关的全球线索集成功能。由于通道NL中没有卷积层，如果我们在通道NL（SC NL）之前采用空间NL，则在两次连续增强之后特征权重往往非常大或非常小，并且训练损失不会收敛。因此未报告此连接模式的性能应该指出的是，我们的方法比以前的作品更有效和高效（Fu et al. 2019 a;Babiloni等，2020年）。由于我们将空间相互作用编码到传统的通道NL中，并在单个注意力图中捕获全部注意力，因此我们的FLA具有较高的计算效率。具体来说，我们的FLA将FLOP显著降低了约83%，并且在计算空间和通道依赖性时仅需要DANet的34%GPU内存使用我们已经进行了广泛的实验上的三个chal，challening语义分割数据集，我们的方法实现了国家的最先进的性能在这些实验。此外，我们的模型优于其他非本地为基础的方法由一个大的利润与相同的骨干网络。我们的贡献主要体现在三个方面：• 通过理论和实验分析，发现非局部自注意方法存在注意缺失问题，影响特征表示的完整性。• 我们将自注意机制重新表述为完全注意的方式，以生成密集和全面的特征依赖，这有效地解决了注意缺失问题。据我们所知，本文是第一个在一个单一的非局部块实现充分的关注。• 我们在三个具有挑战性的语义分割数据集上进行了广泛的实验，包括Cityscapes，ADE20K和PASCALVOC，这证明了我们的方法优于其他最先进的方法。相关工作语义分割语义分割是计算机视觉中的一项重要任务，它预测正确的语义，准确度（%）+v：mala2255获取更多论文∈×图3：完全注意力阻滞的细节。由于在我们的实现中H等于W，因此我们使用字母S来表示合并后的维度，以便清楚地说明。一个图像中所有像素的像素。传统的基于CNN的分类网络只能识别整幅图像的类别，而不能识别每个像素的标签与 CNN 中的全连接层不同， FCN （ Long ，Shelhamer和Darrell2015）利用卷积层来获得分割结果。UNet（Ronneberger，Fischer和Brox2015）采用编码器-解码器结构来恢复由逐步下采样操作损坏的详细信息。为了对不同通道映射之间的相互依赖性进行建模，SENet（Hu，Shen和Sun2018）嵌入了通道特征响应的全局分布。为了增强空间位置之间的全局连接，因此提出了基于自注意力的方法来权衡每个空间位置的重要性，同时牺牲通道注意力。与这些方法不同的是，我们认为注意缺失问题可能会导致语义分割任务中大对象内部的分割不一致或小类别的分割结果较差。因此，在本文中，我们认为通道和空间依赖性是同等重要的，并试图捕捉他们在一个单一的注意单元。自我注意机制。自我注意最初用于机器翻译（Chorowski et al. 2015;Vaswani等人，2017）以捕获远程特征。之后，自注意模块被广泛应用于语义分割领域，其中非局部网络（Wang et al.2018）是开创性的工作。CCNet（Huanget al. 2019）为十字形路径上的每个像素获取上下文信息 AttaNet （ Song ， Mei 和Huang2021）利用条带化操作在垂直方向上对全局上下文进行编码，然后沿水平轴获取长程OCNet（Yuan etal.2021）利用交错的自我注意力方案来模拟全局和局部关系。然而，这些方法构造了一个相似性图来利用沿单维的关系，其中沿其他维的依赖性在矩阵乘法期间被丢弃。去-在空间方向和通道方向的关注下，提出了许多研究。DANet（Fu et al. 2019a）提出了位置注意模块和通道注意模块，以分别沿着空间和通道维度对依赖性进行TESA（Babiloniet al. 2020）将输入张量视为其三模式矩阵化的组合，然后捕获每个维度的相似性。虽然这些方法捕捉到了所有维度上的关系，但它们分别考虑了不同的维度，并且在每个注意图中仍然存在注意为了缓解这个问题，我们提出了一个完全注意的块编码空间和信道的注意力在一个单一的相似性映射具有高的计算效率。方法网络架构在本文中，我们使用ResNet-101（He et al.2016）和HRNetV 2-W 48（Sun et al.2019）作为骨干网络。对于ResNet-101，在最后两层中应用了膨胀卷积以获得更详细的信息，并将输出特征图放大到输入图像的1/8。最初，输入图像由主干网络处理以产生特征图X。之后，我们首先在X上应用卷积层以降低通道维度并获得特征图F。然后，特征图F_in将被馈送到完全注意力块（FLA）中，并生成新的特征图F_o，其在所有维度上聚合非局部上下文信息。最后，密集上下文特征Fo被发送到预测层以生成最终分割图。完全注意力障碍以往的工作试图通过在每个维度上依次应用注意力操作来产生完整的注意力，这会产生很高的计算复杂度，并且单维注意力仍然忽略了其他维度上的相关性为了在单个注意力图中高效地捕获全部注意力，本文提出了一种新的非局部注意力块--全注意力块。具体地说，为了避免增加额外的计算负担，我们试图通过利用全局平均池化结果作为全局上下文先验，将空间交互引入到通道NL机制我们的方法的流水线如图3所示。给定一个输入特征图F，其中C是通道数，H和W是输入张量的空间维度。首先，我们将F馈送到底部的两个平行路径中（即，构造），其中的每一个包含全局平均池化层，随后是线性层。在选择池化窗口的大小时，我们考虑了以下两个方面。首先，为了获得更丰富的全局上下文先验，我们选择在高度和宽度方向上使用不相等的全局池大小，而不是像3 3这样的内核窗口。其次，确保每个水疗中心-初始位置与相应的全局先验相关联具有相同的水平或垂直坐标，即，在计算通道关系时，为了保持空间一致性，我们选择保持一维长度不变。因此，我们采用大小为H×1的池化窗口亲和力F在FoC建设CH+W建设埃夫埃夫重复合并液+线切割CC× 1×WWHF在C× H×W合并拉克什拉克什CH+W重复合并液+线切割CSHWC× H×1C× H×W矩阵复用器+v：mala2255获取更多论文∈∈∈∈∈∈Σ×∈Σ×××和1×W。这给出Q<$w∈RC×1×W和Q<$h∈RC×H×1。之后，我们重复Qw和Qh以形成全局特征Q wRC×H×W和QhRC× H × W。注意，Qw和Qh表示全局分别在水平和垂直方向上的先验，它们将用于实现相应维度上的空间交互。此外，我们沿着H维切割Qw，由此我们可以生成一组大小为RC×W的H切片。类似地，我们沿着W维切割Qh。然后我们合并这两个组以形成最终的全局上下文QR（H+W）×C ×S。剪切和合并操作在图3中详细说明。同时，我们沿着H维切割输入特征F，产生一组大小为RC×W的H切片。类似地，我们沿着W维做这件事。像Q的合并过程一样，这两个组被集成以形成特征KR（H+W）×S ×C。以同样的方式，我们可以生成特征图VR（H+W）×C ×S。之后，我们可以使每个空间位置接收来自同一行和同一列中的全局先验的特征响应，即，通过Affinity操作捕获全部注意力AR（H+W）×C ×CAffinity操作定义如下：A=exp（Qi·Kj），（1）方法主干mIoU（%）简单主干PSPNet（Zhao etal. 2017）ResNet-10178.4AAF（Ke etal. 2018）ResNet-10179.1CFNet（Zhang，Wang，andXie2019） ResNet-101 79.6PSANet（Zhao etal. 2018）ResNet-10180.1ANNet（Zhu etal. 2019）ResNet-10181.3CCNet（Huang etal. 2019）ResNet-10181.4OCNet（Yuan etal. 2021）ResNet-10181.9DGCNet（Zhang etal. 2019b）ResNet-10182.0HANet（Choi，Kim，andChoo2020） ResNet-101 82.1ACNet（Fu etal. 2019b）ResNet-10182.3WSNet（Chen etal. 2020）ResNet-10182.3Flanet（Ours）ResNet-10183.0高级主干SPGNet（Cheng et al.2 ResNet-5081.1DANet（Fu etal. 2019a）ResNet-101+MG81.5ACFNet（Zhang etal. 2019a）ResNet-101+ASPP81.8GALD（Li etal. 2019）ResNet-101+ASPP81.8GFF（Li etal. 2020）ResNet-101+PPM82.3HRNet（Sun etal. 2019）HRNetV2-W4881.6OCNet（Yuan etal. 2021）HRNetV2-W4882.5FLANet（Ours）HRNetV2-W4883.6表1：与Cityscapes测试集上最先进的模型的比较。为了公平比较，所有这些方法都只使用Cityscapes精细数据进行训练。O（（HW）2C），并且通道NL具有计算的i、jCi=1 exp（Qi·Kj）复杂度为O（C2HW）。他们两个都只能捕捉其中，A i，jA表示在特定空间位置处第i和第j声道之间的相关度。然后，我们执行A和A之间的矩阵乘法，V更新每个频道地图与所产生的完整的at-张力。之后，我们将结果重新整形为两组，每组的大小为RC×H ×W（即，合并的逆操作）。我们将这两组信息相加，形成长距离上下文信息。最后，我们将上下文信息乘以尺度参数γ，并对输入特征图Fin执行元素求和运算，以获得最终输出Fo∈RC×H ×W，如下所示：CFoj=γAi，j·Vj+Finj，（2）i=1其中Foj是输出特征图Fo中的特征向量在单一维度上的相似性。为了在所有维度上对特征依赖性进行建模，以前的工作（如DANet）同时应用空间NL和通道NL来分别计算空间和通道关系，这会产生更高的计算复杂度，并占用更多的GPU内存。与以往的作品不同，我们在一个单一的NL块，并在一个更有效的方式实现充分的具体而言，我们利用新构建的全局表示来实现不同空间位置之间的交互，并从所有维度收集上下文相似性。我们的FLA块的时间和空间复杂度都是O（C2（H+W）S）.由于本文中S=H=W，复杂性与通道NL相同，相差一个小常数。实验为了评估拟议的FLANet，我们进行了广泛的在第j个频道映射处。注意，与通过乘以来自相同位置的空间信息来探索信道相关性的传统信道NL方法不同，我们的FLA能够实现不同空间位置之间的空间连接我们利用单个注意力图在空间和信道维度上利用全部注意力通过这种方式，我们的FLA具有更全面的上下文视图，并且对不同的场景更健壮。此外，构造的先验表示带来了全局感受野，有助于提高特征鉴别能力。复杂性分析给定一个大小为C H W的特征图，典型的空间NL的计算复杂度为城市景观实验（Cordts et al. 2016）、ADE 20 K（Zhou等人，2017）和PASCAL VOC（Ev-eringham等人，2017）。2009年）。数据集CityscapesCityscapes是一个用于城市场景分割的数据集，其中包含5K具有精细像素级注释的图像和20K具有粗略注释的图像。该数据集有19个类，每个图像具有1024 2048分辨率。具有精细注释的5K图像进一步分别分成2975、500和1525个图像用于训练、验证和测试ADE20K是一个具有挑战性的场景解析基准。该数据集包含用于训练的20 K/2K图像，+v：mala2255获取更多论文最大值−方法路swalk构建壁围栏极特莱特签署veg.地形天空人骑手车卡车总线火车姆比凯自行车mIoU（%）PSPNet（Zhao et al. （ 2017年）98.686.292.950.858.864.075.679.093.472.395.486.571.395.968.279.573.869.577.278.4AttaNet（宋，梅，黄2021）98.787.093.555.962.670.278.481.493.972.895.487.974.796.371.284.478.068.678.280.5DANet（Fu et al. 2019年a）98.687.193.556.163.369.777.381.393.972.995.787.372.996.276.889.486.572.278.281.5ACFNet（Zhang et al. 2019 年a）98.787.193.960.263.971.178.681.594.072.995.988.174.196.576.689.381.572.179.281.8GFF（Li et al. 2020年）98.787.293.959.664.371.578.382.294.072.695.988.273.996.579.892.284.771.578.882.3Flanet（我们的）98.887.794.364.164.972.478.982.694.273.596.288.776.096.680.293.891.674.379.583.6表2：Cityscapes测试集上的每类结果我们的方法优于现有的方法，并在mIoU达到83.6%方法SS（%）MS+F（%）ShuffleNetV269.270.8+FLA74.776.3ResNet-1871.372.5+FLA76.578.1ResNet-5072.874.1+FLA78.979.7ResNet-10175.676.9+FLA82.183.0图像基线FLANet GT图4：Flanet在Cityscapes验证集上的可视化结果确认被密集地标记为150个材料/对象类别。该数据集中的图像来自不同的场景，具有更多的尺度变化。PASCAL VOCPASCAL VOC是语义分割的黄金基准，它包括20个对象类别和一个背景类。该数据集包含10582、1449、1456张用于训练、验证和测试的图像。实现细节我们的实现基于PyTorch（P aszke et al. 2017），并使用 ResNet-101 和 HRNetV2-W48 从 ImageNet（Russakovsky et al.2015）预训练作为骨干网络。在之前的工作（Yu et al.2018）之后，我们应用poly学习率策略，其中初始学习率乘以（1ITER）0。9、每次迭代后。莫-动量和重量衰减系数设置为0.9和5e-4，分别。所有模型都训练了240个epoch，初始学习率为1 e-2，批量大小为8。我们将Cityscapes和其他数据集的裁剪大小分别设置为768 × 768和520 × 520对于数据增强，我们应用常见的缩放（0.5到2.0），裁剪和翻转来增强训练数据。此外，同步批量归一化用于同步跨多个GPU的批量归一化的均值和标准差。对于评估，采用常用的Mean IoU度量Cityscapes数据集我们首先在Cityscapes测试集上将我们提出的方法与最先进的方法进行具体地说，所有模型都只使用精细注释的数据进行训练，并且比较结果表3：根据各种主干网络，Cityscapes验证集上基线和FLANet之间的消融研究。SS：评价期间的单标度输入。MS：多尺度输入。F：添加左右翻转输入。在表1中进行了总结。在这些方法中，基于自我注意的模型与我们的方法最相关，更详细的分析和比较将在下面的小节中说明。从表1中可以看出，我们的方法大大优于所有基于ResNet-101 或更强主干的先前技术，并实现了83.6%mIoU的最新性能。此外，它实现了与基于一些较大主链的方法相当的性能。表2中报告了详细的每个类别的比较，其中我们的方法在所有类别上都获得了最高的IoU分数，并且大的改进来自骑手，公共汽车，火车和mbike等类别。它也证明了所提出的FLANet在预测远距离对象和保持大对象内的分割一致性方面的好处。消融研究为了证明FLANet的广泛适用性，我们对各种骨干网络进行消融研究，包括ShuffleNetV2（Maet al.2018）和ResNet系列。如表3所示，无论我们使用什么骨干网络，具有FLA的模型的性能都明显优于基线模型此外，我们在图4中提供了FLANet和基线（ResNet-50）之间的定性比较。在图4中，我们使用白色方块来标记具有挑战性的区域。可以观察到，基线很容易错误标记这些区域，但我们提出的网络能够纠正它们，这清楚地表明了FLANet在语义分割方面的有效性。例如，第一排的建筑物，第二排的人行道和远处的火车，第四排的大型卡车与NL方法的比较我们将我们的FLANet与Cityscapes上的几个现有非本地模型进行了+v：mala2255获取更多论文频道NL空间NLDual NL CS NLFLA（Ours）GT图5：Cityscapes验证集上NL方法的定性比较由于空间有限，我们删除了输入图像，只显示分割结果和地面实况（GT）。方法SS（%）MS+F（%）GFLOPs内存（M）基线72.874.1- -+EMA76.477.113.91 98+通道NL75.676.99.66 40+RCCA76.477.516.18 174+空间NL76.277.4103.90 1320+双NL77.178.0113.56 1378+CS NL77.478.2113.56 1378+FLA（Ours）78.979.719.37 436表4：与Cityscapes验证集上现有NL模型的详细比较。GFLOP和内存是使用768 × 768的输入大小将FLA添加到基线，大大增加了mIoU，计算量更少。验证集。我们测量NL块引入的增加的计算复杂度（通过GFLOP的数量测量）和GPU内存使用，并且不计算基线的复杂度。此外，为了加快训练过程，我们在ResNet-50上进行了这些比较实验，批量大小为8。具体而言，表4中比较的NL模型包括1）EMANet中的期望最大化注意力（Li et al. 2019），捐赠为“+EMA”;2）CCNet中的复发性交叉反应（R=2）（Huang et al.2019），捐赠为“+RCCA”; 3）第1节中介绍的两个典型NL区块，分别捐赠为4)第1节中介绍的两种连接模式，分别以“+Dual NL”和“+CS NL”捐赠。此外，根据是否计算通道注意、空间注意和通道-空间注意，表4分为三组。如表4所示，FLA大大优于这些NL方法，复杂度比较结果表明，添加FLA的成本实际上是负数。甚至与EMA和RCCA等轻型设计的模型相比也是如此。此外，可以发现，FLA捕获空间注意力的增加的计算成本是最低的（约9.71 GFLOPs）相比，所有这些空间建模的NL。即使与需要最低计算成本的通道NL相比，我们的FLA也以最小的计算增量优于它2.8%FLA的计算复杂性与我们之前在第3.3节中的理论分析一致。值得注意的是，我们的FLA显着减少GFLOPs约83%，只需要34%的GPU的DANet（双NL）和CS NL的使用时，建模通道和空间的关系。因此，FLA不仅是一种提高分割精度的有效方法，而且是一种实用的轻量级算法设计。FLA的有效性为了进一步证明我们的方法可以成功地解决注意力缺失问题，我们还在图5中给出了几个定性的比较结果。如图5所示，我们可以发现，双NL和CSNL可以在一定程度上结合通道NL和空间NL的优点，并产生更好的分割结果。然而，很明显，有时他们得到错误的预测，即使他们是正确的分类在通道NL和空间NL，如第二行所示的例子。这与我们的主张相一致，即注意力缺失问题会扭曲维度之间的相互作用，并且不能通过堆叠不同的NL块来解决与这些NL方法相比，远/薄类别（例如，第一行中的极点）和在大对象中保持分割一致性的能力（例如，列车在第三排和汽车在最后一排）显着改善后，使用拟议的FLA。每类的定量比较见图2。这种现象还可以证明，FLA可以最佳地对信道方式和空间方式进行建模。+v：mala2255获取更多论文‡高级主干图像通道NL FLA GT图6：Cityscapes验证集上的ChannelNL和我们的FLA的参与特征图的可视化，其中特征图通过沿通道维度进行平均来可视化。方法骨干mIoU（%）简单主干CCNet（Huang et al. 2019年度）ResNet-10145.22GFF（Li et al. 2020年）ResNet-10145.33OCNet（Yuan et al. 2021年）ResNet-10145.40DMNet（He，Deng和Qiao2019）ResNet-10145.50WSNet（Chen et al. 2020年）ResNet-10145.54ACNet（Fu et al. （2019年b）ResNet-10145.90DNL（Yin et al. 2020年）ResNet-10145.97CPNet（Yu et al. 2020年）ResNet-10146.27Flanet（我们的）ResNet-10146.68高级主干HRNetV2（Sun et al. 2019年度）HRNetV2-W4842.99DANet（Fu et al. 2019年a）ResNet-101+MG45.22OCNet（Yuan et al. 2021年）HRNetV2-W4845.50DNL（Yin et al. 2020年）HRNetV2-W4845.82Flanet（我们的）HRNetV2-W4846.99表5：ADE 20K值设置的比较智能关系只使用一个非本地块。注意力模块的可视化为了更深入地了解我们的FLA在将空间注意力编码到通道亲和图中的有效性，我们可视化了关注的特征图并分析了FLA如何改善最终结果。我们还可视化了传统通道NL的参与特征图，以进行进一步比较。如图6所示，Channel NL和我们的FLA都突出了一些语义区域，并保证了道路和建筑物等大型对象内部的一致此外，应注意，FLA的关注特征图比Channel NL的关注特征图更结构化和详细。例如，所有图像的远极点和对象边界都被突出显示。特别地，FLA还可以区分不同的类别，例如，公共汽车和汽车在第三排。这些可视化结果进一步表明，我们提出的模块可以捕获和编码的空间相似性到通道的注意力地图，以实现充分的注意。表6：PASCAL VOC的比较。表示FLANet是在不使用COCO预训练模型的情况下训练的。在ADE20K数据集为了进一步验证我们的 FLANet的有效性，我们在ADE20K数据集上进行了实验，ADE20K数据集是一个具有室内和室外图像的挑战性场景解析数据集。表5报告了FLANet与最先进型号在ADE20K验证集上的性能比较我们的方法实现了46.99%的mIoU分数，比以前的最先进的方法高出0.72%，这是非常重要的，因为这个基准测试竞争非常激烈。CPNet实现了这些方法中以前的最佳性能，并利用学习到的上下文先验知识，监督亲和力损失，以捕获类内和类间的上下文依赖关系。相比之下，我们的FLANet尝试在单个注意力地图中捕获空间和通道依赖关系，并实现更好的性能。PASCAL VOC数据集实验为了验证我们提出的 FLANet的泛化能力，我们在PASCAL VOC数据集上进行了实验。比较结果见表6.基于ResNet-101和HRNetV 2-W 48的FLANet在PASCALVOC测试集上实现了相当的性能，即使其他方法在额外的数据上进行了预训练。结论和今后的工作本文发现，传统的自注意方法存在由乘法运算引起的注意缺失问题。为了缓解这个问题，我们重新制定的自我注意力机制到一个完全的注意力的方式，它可以捕获通道和空间的注意力与一个单一的注意力地图，也具有更低的计算复杂度。具体来说，我们构建全局上下文，将空间交互引入到通道注意力地图中。我们的FLANet在三个语义分割数据集上实现了出色的性能此外，我们还考虑了在传统的空间自然语言中引入通道交互的方法。然而，极高的计算负荷限制了它的实际应用。今后，我们将努力以更有效的方式实现这一目标。方法骨干mIoU（%）简单主干DeepLabv3（Chen et al. （2017年）ResNet-10185.7EncNet（Zhang et al. 2018年）ResNet-10185.9DFN（Yu et al. 2018年）ResNet-10186.2CFNet（Zhang，Wang和Xie2019）ResNet-10187.2EMANet（Li et al. 2019年度）ResNet-10187.7DeeplabV3+（Chen et al. 2018 年）Xception+JFT89.0WSNet（Chen et al. 2020年）ResNet-10188.5Flanet（Ours）ResNet-10187.9EMANet（Li et al. 2019年度）ResNet-15088.2WSNet（Chen et al. 2020年）ResNet-15089.0Flanet（Ours）HRNetV2-W4888.5+v：mala2255获取更多论文致谢这项工作得到了深圳市自然科学基金JCYJ20190813170601651和深圳市人工智能与机器人社会研究所AC01202101006和AC01202101010的部分支持。引用Babiloni，F.;马拉斯岛; Slabaugh，G.;和Zafeiriou，S.2020. TESA：张量元素自注意力通过矩阵化。2020IEEE/CVF计算机视觉和模式识别会议（CVPR），13942曹，Y;徐，J.;林，S.;Wei，F.;和Hu，H.2019年。 GC-Net：Non-Local Networks Meet Squeeze-Excitation Net-works and Beyond. 2019 IEEE/CVF计算机视觉国际会议（ICCVW），1971陈湖，澳 - 地 C. 的 ; Papandreou ， G.; Schroff ， F.; 和Adam，H. 2017.重新思考用于语义图像分割的atrous卷积。arXiv预印本arXiv：1706.05587。陈湖，澳-地C.的; Zhu，Y.; Papandreou，G.; Schroff，F.;和Adam，H.2018年编码器-解码器与atrous可分离卷积的语义图像分割。在欧洲计算机视觉会议（ECCV）上，801-818。陈文; Zhu，X.;孙河;他，J.;李，R.;沈，X.;和Yu，B.2020年。用于语义分割的张量低秩重构在欧洲计算机视觉会议（ECCV）。程，B.;陈湖，澳-地C.的; 魏，Y.;Zhu，Y.;黄志;阿雄，J.道：黄，T.; Hwu，W.- M.;和Shi，H. 2019. SPGNet：场景解析的语义预测指导。2019 IEEE/CVF计算机视觉国际会议（ICCV），5217崔，S.; Kim，J.; Choo，J. 2020.汽车2020 IEEE/CVF计算机视觉和模式识别会议，9370Chorowski，J.; Bahdanau，D.; Serdyuk，D.;周，K.;和Bengio，Y. 2015.基于注意力的语音识别模型。神经信息处理系统进展（ Advances in Neural InformationProcessing Systems，NeurIPS）Cordts ， M.; Omran ， M.; Ramos ， S.; Shakefeld ， T.;Engzweiler，M.; Benenson，R.; Franke，U.; Roth，S.;Schiele，B. 2016.用于语义城市场景理解的cityscapes数据集。 IEEE 计算机视觉与模式识别会议论文集（CVPR），3213Everingham，M.;古尔湖威廉斯角，澳-地K.一、Winn，J.; 和 Zisserman ， A. 2009. Pascal Visual Object Classes（VOC）挑战International Journal of Computer Vision，88：303傅，J.;刘，J.;田，H.;李，Y.;鲍，Y.;方，Z.;还有卢，H. 2019年a。双注意力网络在场景分割中的应用。IEEE计算机视觉与模式识别会议论文集，3146傅，J.; 刘，J.;王玉;李，Y.;鲍，Y.;唐，J.;和Lu，H.2019年b.场景解析的自适应上下文网络。在IEEE计算机视觉国际会议（ICCV）的筹备会上，6748他，J.;邓志;和Qiao，Y. 2019.语义分割的动态多尺度过滤器。2019 IEEE/CVF国际计算机视觉会议（ICCV），3561他，K。张，X.; Ren，S.; Sun，J. 2016.身份映射-在深残留网络ping。欧洲计算机视觉会议（ECCV），630-645。斯普林格。Hu，J.;沈，L.; Sun，G. 2018.挤压-激发网络。在IEEE计算机视觉和模式识别会议论文集，7132黄志;王，X.;黄湖;黄，C.;魏，Y.;和Liu，W.2019年。Ccnet ：语义分割的交叉注意力 IEEE InternationalConference on Computer Vision（ICCV），603Ke，T.-W的; 黄宗羲J.道：刘志;和Yu，S.2018年用于语义分割的自适应相似域。在欧洲计算机视觉会议（ECCV）上。李，X.;张，L.;你，A。杨，M.;杨，K.;和Tong，Y.2019.全卷积网络中的全局聚集与局部分布。英国机器视觉会议（BMVC）。李，X.;赵，H.;汉湖;唐，Y.; Tan，S.;和Yang，K. 2020.用于语义分割的

下载后可阅读完整内容，剩余1页未读，立即下载