非对称非局部神经网络的语义分割

124 浏览量更新于2023-10-12 收藏 1.09MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

593基于非对称非局部神经网络的语义分割Zhen Zhu1人，Mengde Xu1人，Song Bai2人，Tengteng Huang1人，Xiang Bai1人1华中科技大学、2牛津大学{zzhu，mdxu，huangtengtng，xbaihust.edu.cn@songbai.site gmail.com摘要非本地模块是一种特别有用的语义分割技术，但因其计算量过大和占用GPU内存而受到批评。在本文中，我们提出了非对称非局部神经网络的语义分割，它有两个突出的组成部分：非对称金字塔非局部块（APNB）和非对称融合非局部块（AFNB）。APNB在非局部块中利用金字塔采样模块，在不牺牲性能的情况下大大减少了计算量和内存消耗。AFNB是由APNB改编而来的，在充分考虑长程相关性的情况下，融合了不同层次的特征，从而大大提高了性能。语义分割基准上的大量实验证明了我们工作的有效性和效率。按面值-因此，我们报告了Cityscapes测试集上81.3 mIoU的最新性能。对于256×128的输入，APNB比GPU上的非本地块快6倍左右，而GPU运行内存占用量小28倍page.代码可从以下网址获得：https://github.com/ MendelXu/ANN.git。1. 介绍语义分割是计算机视觉中一个长期存在的具有挑战性的任务，旨在准确地预测图像中像素级的语义标签。该任务对于大量现实世界应用非常重要，例如自动驾驶[27，28]，医疗诊断[51，52]等。近年来，深度神经网络的发展促进了一系列作品的出现[1，5，18，26，40，42，46]。Shelhamer等人。 [26]提出了称为全卷积网络（FCN）的开创性工作从那时起，许多作品[5，18]受到启发，将FCN技术应用到深度神经网络中。尽管如此，分割准确性仍然远远不能令人满意。*同等贡献†通讯作者(a) 非局部块（b）非对称非局部块图 1 ：标准非局部块（ a ）和非对称非局部块（ b ）的架构N=H·W，S= N。图2：通用非本地块和我们的APNB之间不同操作的GPU时间（≥1最后一个bin表示所有时间成本的总和。这两个模块的输入大小为256×128。最近的一些研究[20，33，46]表明，如果充分利用长程相关性，性能可以得到改善。然而，仅依赖于卷积的模型在捕获这些长范围依赖性方面表现出有限的能力。一个可能的原因是单个卷积层的感受选择一个大的内核或组成一个非常深的网络能够扩大感受野。然而，这种策略需要大量的计算和参数，因此效率非常低[43]。因此，一些作品[33，46]诉诸于使用全局操作，如非局部均值[2]和空间金字塔池[12，16]。在[33]中，Wang et al. 结合CNN和传统的非局部方法[2]来组成一个名为非局部块的网络模块，以利用图像中所有位置的特征。该模块改进了现有方法的性能[33]。然而，令人望而却步的compu-SoftmaxSoftmax非本地我们Matmul卷积SoftmaxBatchnorm合并液总时间（ms）118.7720.87515.83915.93643.1030.1850.3550.7280.00012.174178.06829.898查询关键值查询关键值1x1转换1x1转换1x1转换1x1转换1x1转换1x1转换样品样品594但其高昂的计算成本和巨大的GPU内存占用阻碍了其在实际应用中的广泛应用。常见的非本地块[33]的架构如图所示第1（a）段。块首先计算彼此之间的所有位置的相似性，这需要计算的相似性的矩阵乘法。复杂度为O（CH2W2），给定一个大小为C×H×W的输入特征图。然后，它需要另一个矩阵乘法的计算复杂度为O（CH2W2），以收集所有位置对自己的影响关于矩阵乘法带来的高复杂度，如果有有效的方法来解决这个问题，而不牺牲性能，我们有兴趣在这项工作我们注意到，只要键分支和值分支的输出保持相同的大小，非局部块的输出大小就保持不变。考虑到这一点，如果我们可以从关键分支和值分支中只采样少数代表点，则有可能在不牺牲性能的情况下显著降低这一动机在图中得到证明。当将键分支和值分支中的大值N改变为小得多的值S（从（a）到（b））时。在本文中，我们提出了一种简单而有效的非本地模块，称为A对称P金字塔N本地B锁（APNB），以减少标准非本地模块[33]的计算和GPU内存消耗，并应用于语义分割。受空间金字塔池化策略[12，16，46]的启发，我们提出将金字塔采样模块嵌入到非局部块中，这可以大大减少矩阵乘法的计算开销，同时提供大量的语义特征统计。这种精神也与子采样技巧有关[33]（例如，最大池化）。我们的实验表明，APNB产生更好的性能比那些子采样技巧与体面的计算减少。为了更好地说明提高的效率，我们比较了APNB和图1中的标准非局部块的GPU时间2、平均10次不同运行的运行时间与相同的配置。我们的APNB大大降低了矩阵乘法的时间成本，因此比非本地块快近5倍。此外，我们还采用APNB来融合深度网络不同阶段的特征，这比基线模型带来了可观的改进。我们称适应块为A对称FN局部B锁（AFNB）。AFNB计算低级和高级特征图的每个像素之间的相关性，产生具有长距离相互作用的融合特征我们的网络是基于标准ResNet-FCN模型构建的，将APNB和AFNB集成在一起。在Cityscapes [9]、ADE20K [49]和PASCAL Context[21]上评估了拟议网络的有效性，达到最佳性能的分别为81.3%、45.24%和52.8%。从时间和空间上看，效率，APNB在GPU上比非本地块快6倍左右，而在GPU上运行内存占用小28倍。2. 相关工作在这一节中，我们简要回顾了语义分割或场景解析的相关工作近年来的研究主要集中在对语境信息的探索上，大致可以分为五个方向：编码器-解码器编码器通常减小特征图的空间大小以扩大感受野。然后将编码的代码馈送到解码器，解码器负责恢复预测图的空间大小。Long等人。 [26]和Noh等人。 [22]使用去卷积来执行解码过程。Ronneberger等人 [25]介绍了跳过连接，以将编码特征桥接到其相应的解码特征，这可以用更多细节丰富分割输出。Zhang等人。 [42]引入了一个上下文编码模块来预测语义类别重要性，并有选择地加强或削弱特定于类别的特征映射。CRF。作为一种可以在机器学习中利用上下文信息的常用操作，条件随机域[15]在与CNN结合进行语义分割时遇到了新的机会[4，5，6，48，31]。CRF-CNN[48]采用了这种策略，使深度网络端到端可训练。Chandra等人。 [4]和Vemulapalli等人。 [31]将高斯条件随机场集成到CNN中，并取得了相对较好的结果。不同的卷积。Chen et al.[5，6] and Yu et al.[40]适应通用卷积扩张的，使网络对全局上下文语义敏感，从而提高了性能。Peng等人。 [24]发现大的内核卷积有助于缓解分割中分类和定位之间的矛盾。空间金字塔池。受空间金字塔池在目标检测中的成功启发[12]，Chen et al.[6]用不同采样权重的扩张卷积替换池化层，并构建Atrous空间金字塔池化层（ASPP）以解释多尺度扩展。Chen等人。 [8]进一步结合了ASPP和编码器-解码器架构，以利用两者的优势并大幅提高性能。从[16]中汲取灵感，PSPNet [46]在特定层之后进行空间金字塔池化，以将不同尺度的上下文特征嵌入到网络中最近，杨等。 [36]指出ASPP层具有受限的感受野，并将ASPP调整为密集连接的版本，这有助于克服这种限制。非本地网络。最近，研究人员[20，33，46]注意到，熟练地利用长期依赖关系595第四阶段第五分类器||||AFNBAPNBCCCCC查询键值查询关值C卷积|| Concatenation矩阵乘法金字塔池化金字塔池化金字塔池化图3：拟议的非对称非局部神经网络概述。为语义分割带来了很大的好处。Wang等人 [33]提出了一种将非局部均值与深度网络相结合的非局部块模块，并展示了其分割效果。与这些工作不同的是，我们的网络独特地将金字塔采样策略与非局部块结合起来，以较小的计算预算捕获不同尺度的语义统计，同时保持了原始非局部模块的优异性能。3. 非对称非局部神经网络在本节中，我们首先回顾了第二节中的非局部块的定义[33]3.1，然后在第3.1节中详细介绍了所提出的不对称金字塔非局部块（APNB）和不对称融合非局部块（AFNB）。3.2和第二节3.3分别。APNB的目标是减少非局部块的计算开销，AFNB提高了非局部块的学习能力，从而提高分割性能。3.1. 重新访问非本地块一个典型的非本地块[33]如图所示。1.一、考虑一个输入特征X∈RC×H×W，其中C、W和H分别表示通道数、空间宽度和高度。使用三个1×1卷积Wφ、Wθ和Wγ将X变换为不同的嵌入φ∈RC×H×W、θ∈RC×H×W和γ∈RC×H×W，φ=Wφ（X），θ=Wθ（X），γ=Wγ（X），（1）其中，C是n个嵌入的通道号。N e xt，三个嵌入被平坦化为大小 C×N ，其中 N 表示空间位置的总数，即N=H·W. 然后，相似性矩阵N×N之后，对V应用归一化以得到统一的相似性矩阵，V→=f（V）。（三）根据[33]，归一化函数f可以采用softmax，resscaling和none的形式。我们在这里选择softmax，它相当于自注意力机制，并被证明在机器翻译[30]和图像生成[43]等许多任务中工作良好。对于γ中的每个位置，注意力层的输出为O=V→×γT，（4）其中O∈RN×C。通过参考非局部块的设计，最终输出由下式给出：Y=Wo（OT）+X或Y=cat（Wo（OT），X），（5）其中，Wo也是通过1×1卷积实现的，用作加权参数来调整非线性项的重要性。本地操作w.r.t. 原始输入X，此外，将信道维度从C*重新定义为C。3.2. 非对称金字塔非局部块非局部网络能够有效地捕获对语义分割至关重要的长然而，与深度神经网络中的正常操作相比，非局部操作非常耗时且消耗大量数据，例如，卷积和激活函数。动机和分析。通过检查非局部块的一般计算流程，可以清楚地发现Eq.（2）和Eq。（4）控制计算。这两个矩阵乘法的时间复杂度都是O（CN2）=O（CH 2W2）。在语义切分中，596V∈R通过矩阵乘法计算为V=φT×θ。（二）网络的输出通常具有较大的分辨率，以保留详细的语义特征[6，46]。这意味着N很大597110输入特征映射Pool1游泳池2池3池4在一个标准的非局部块中，时间复杂度为O（C N2）。理想情况下，S应远小于N。然而，很难确保当S较小时，性能不会在此期间下降太多。正如以前的作品[16，46]所发现的那样，全局和多尺度表示对于分类场景语义是有用的这种表示可以通过空间金字塔池化（Spatial Pyramid Pooling）[16]进行全面雕刻，其中包含图4：金字塔最大值或平均值采样过程的演示(for例如，在我们的训练阶段，N=96×96=9216）。因此，大矩阵乘法是非局部块的低效率的主要原因（参见我们在图2）的情况。一个更简单的流水线如下所示：RN×C×RC×N→RN×N×RN×C→RN×C。（六）联系我们“我的天X当量（2）等式（四）我们持有一个关键而直观的观察结果，即通过将N更改为另一个数字S（S<$N），输出大小将保持不变，RN× C×RC× S→RN× S×RS × C→RN× C。（七）返回到非局部块的设计，改变具有不同输出大小的多个池化层。除了这个优点，空间金字塔池也是无参数的，非常有效。因此，我们在非局部块中嵌入金字塔池，以增强全局表示，同时减少计算开销。通过这样做，我们现在到达非对称金字塔非局部块（APNB）的最终公式，如图3所示。可以看出，我们的APNB源自标准非本地块的设计[33]。一个重要的变化是在θ和γ之后分别添加了一个空间金字塔池化模块，这一采样过程在图中清楚地描述。4，其中在θ或γ之后应用几个池化层，然后四个池化结果被平坦化并连接以用作下一层的输入。我们将空间金字塔池化模块表示为Pn和Pn，其中上标n表示宽度（或N到一个很小的数S，相当于采样几个θ γ从θ和γ的代表点，而不是馈送所有的空间点，如图所示。1.一、因此，计算复杂度可以大大降低。溶液基于以上观察，我们提出在θ和γ之后增加采样模块Pθ和Pγ进行采样表示为θP∈RC<$×S的一类稀疏锚点，高度）的池化层的输出大小（根据经验，宽度等于高度）。在我们的模型中，我们设置n{1，3，6，8}。那么锚点的总数为ΣS= 110 =n2.（十二）n∈{1，3，6，8}γP∈RC<$×S ，其中S是采样锚点的数量。从数学上讲，这是由以下公式计算的：θP=Pθ（θ），γP= Pγ（γ）。（八）φ与锚点之间的相似矩阵VP因此，θP计算如下：VP=φT×θP。（九）注意，VP是大小为N×S的非对称矩阵。然后，VP通过与标准非局部块相同的归一化函数，给出统一的相似性矩阵V→P。注意力输出是通过OP=V→P×γPT，（10）其中，输出的大小与Eq.（四）、在非局部块之后，最终输出YP ∈RC×N是因此，我们的非对称矩阵的复杂性乘法只是ST=（13）N非局部矩阵乘法的复杂性的倍。当H和W都等于96时，非对称矩阵乘法节省了96×96×84次计算（结果见图1）。2）的情况。此外，空间金字塔池化给出了关于全局场景语义线索的足够的特征统计，以补救由减少的计算引起的潜在性能恶化。我们将在实验中对此进行分析。3.3. 非对称融合非局部块融合不同层次的特征有助于语义分割和对象跟踪，如[16，18，26，41，45，50]所示。常见的熔断操作，如添加-扁平孔卡特598给出YP= cat（Wo（OPT）、X）。（十一）连接/级联以逐像素和局部方式进行。我们提供了一种替代方案，这种非对称矩阵乘法的时间复杂度仅为O（CNS），明显低于通过一个非局部块来融合多层次特征的依赖关系，称为融合非局部块。599L81632H标准的非本地块只有一个输入源，而FNB有两个：高级特征图 Xh∈RCh×Nh 和低级特征图Xl∈RCl×Nl。Nh和Nl是Xh和Xl的空间位置的数目，分别Ch和Cl分别是Xh和Xl同样地，1×1卷积Wh和Wl用于将Xh和Xl变换为嵌入Eh∈RC×Nh和El∈RC×Nl，Eh=Wh（Xh），El= Wl（Xl）.（十四）然后，Eh和E m之间的相似矩阵VF∈RNh×NlE1是通过矩阵乘法VF=ET× El.（十五）我们还对V F进行了归一化处理，得到了一个统一的相似矩阵V→F∈RNh×Nl. 之后，我们通过一个类似的矩阵乘法将V→F与E1积分为等式：（4）和等式（10）写作OF=V→F×ET。（十六）输出OF∈RNh×C反映了从El中的所有位置仔细选择的El到Eh的奖金。类似地，将OF馈送到1×1卷积以将通道号恢复到Ch。最后，我们的输出为YF= cat（Wo（OFT），Xh）。（十七）类似于APNB w.r.t. 将空间金字塔池合并到FNB中的通用非局部块可以导出有效的非对称融合非局部块（AFNB），如图2所示。3.第三章。AFNB继承了APNB的优点，在不牺牲性能的情况下比FNB更高效。3.4. 网络架构我们的网络的整体架构如图所示。3.第三章。我们选择ResNet-101 [13]作为我们的骨干网络，遵循大多数以前的作品[38，46，47]。我们移除最后两个下采样操作，并使用膨胀卷积来保持来自输入图像的最后两个阶段11的具体地说，最后三个阶段中的所有特征图具有相同的空间大小。根据我们的实验测试，我们使用AFNB融合Stage4和Stage5的特征。融合的特征随后在阶段5之后与特征图连接，避免了AFNB不能产生准确的增强特征的情况，这些特征充满了来自不同特征水平的丰富的长距离线索，作为APNB的输入，然后1我们将原始特征图大小为1的阶段称为阶段4，有助于发现像素之间的相关性。与AFNB一样，APNB的输出也与其输入源级联。最后，分类器被跟踪以产生通道式语义图，这些语义图稍后从地面实况图接收它们的监督请注意，我们还在[46]的设置之后为Stage4添加了另一个监督，因为它有利于提高性能。4. 实验为了评估我们的方法，我们对三个语义分割数据集进行了详细的实验：Cityscapes [9]、ADE20K [49]和PASCAL Context [21]。在补充材料中，我们在NYUD-V2 [29]和COCO- Stuff-10 K [34.1. 数据集和评估指标Cityscapes[9]是专门为场景解析而创建的，包含5，000张高质量的精细注释图像和20，000张粗略注释图像。该数据集中的所有图像都是在街道上拍摄的，尺寸为2048×1024。的精细注释的图像分为2，975/500/1，525分别用于培训、验证和测试。数据集总共包含30个类注释，而只有19个类用于评估。ADE20K是ImageNet Scene Parsing Challenge 2016中使用的大规模数据集，包含多达150个类。该数据集分为20 K/2K/3 K图像，分别用于训练、验证和测试。与Cityscapes不同，该数据集中的场景和内容都有注释，这给参与方法带来了更多挑战。PASCAL Context[21]给出了PASCAL VOC 2010中整个图像的分割标签，其中包含4，998张用于训练的图像和5，105张用于验证的图像。我们使用60个类（59个对象类别加上背景）注释进行评估。评估指标。我们采用Mean IoU（类间交集的均值）作为所有数据集的评价指标。4.2. 实现细节培训目标。在[46]之后，我们的模型有两个监督：一个在我们模型的最终输出之后，另一个在Stage4的输出层。因此，我们的损失函数由两个交叉熵损失组成，L=Lfinal+λLStage4.（十八）对于Lfinal，我们执行在线硬像素挖掘，这表明在处理困难的情况下。λ设定为0.4。培训设置。我们的代码是基于一个开放源代码尺寸1第五阶段。基于Py的语义分割库[37600最大迭代器[23]第二十三话骨干网络ResNet-101在ImageNet上进行了预训练[10]。我们使用Stochastic Gradient Descent来优化我们的网络，其中我们将Cityscapes和PASCALContext的初始学习率设置为0.01，ADE20K的初始学习率设置为0.02。在训练期间，学习率根据“多”学习率策略衰减其中学习率乘以1-（iter）幂，幂= 0。9 .第九条。对于Cityscapes ，我们从原始图像中随机裁剪出769×769的高分辨率补丁作为训练的输入[7，46]。而对于ADE20K和PASCAL Context，我们分别将裁剪大小设置为520×520和480×480[42，46]。对于所有数据集，我们在[0.5，2.0]范围内应用随机缩放，随机水平-语音翻转和随机亮度作为数据增强方法。Cityscapes实验中的批量大小为8，其他数据集中为16。我们选择[42]或apex中的跨GPU同步批量归一化来同步平均值以及跨多个GPU的批归一化层的标准偏差。我们还在所有实验中应用了辅助损失LStage4和在线硬示例挖掘策略，因为它们对提高性能的效果是在以前的作品中有明确的讨论 [46] 。我们在Cityscapes、ADE20K和PASCAL Context的训练集上分别训练60K、150K和28K次迭代。所有的实验都是在8×Titan V GPU上进行的。推理设置。为了与最先进的方法进行比较，我们对ADE 20K和PASCAL Context应用多尺度整体图像和左右翻转测试，而对Cityscapes测试集应用多尺度滑动裁剪和左右翻转测试。对于快速消融研究，我们仅通过输入整个原始图像对Cityscapes的验证集进行单尺度测试。4.3. 与其他方法的比较4.3.1与非局部块的如第3.2，APNB比标准的非本地块更有效在此，我们给出了我们的APNB和通用非局部块在以下方面的定量效率比较：GFLOPs，GPU内存（MB）和GPU计算时间（ms）。在我们的网络中，非局部块/APNB在训练时接收96×96（769×769输入图像块的1/8）的特征图，而在单尺度测试时接收256×128（2048 ×1024 因此，我们给出了相关统计数据。两种尺寸。这两个区块的测试环境是相同的，即CUDA 9.0下的Titan Xp GPU，没有其他正在进行的程序。请注意，我们的APNB有四个额外的自适应平均池层来计数，而不是非本地块，而其他部分是完全相同的。比较结果见表1。二、我们的APNB在各个方面都优于非本地块。扩大输入大小将为我们的APNB提供进一步的优势，因为方法输入大小GFLOPSGPU存储器GPU时间NBAPNB96× 9696× 9658.015.5（↓42.5）609150（↓459）19.512.4（↓7.1）NBAPNB256× 128256× 128601.443.5（↓557.9）7797277（↓7520）179.430.8（↓148.6）表1：非本地块和我们的APNB之间的计算和内存统计比较.输入要素图的通道号X=C=2048，嵌入φ，φP等.是C=256，活泼地批量大小为1。值越低越好。由方程式（13），N以平方增长增加，而S保持不变。除了单个块效率的比较之外，我们还提供了与两种最先进的方法PSANet [47]和DenseA-SPP [36]在推理时间、批处理大小设置为1的GPU占用（MB）和参数数量（百万）方面的整个网络效率比较根据Tab。2.虽然我们的推理时间和参数数量比DenseASPP [36]大，但GPU内存占用明显较小。我们将此归因于不同的骨干网络：ResNet相对包含更多的参数和层，而DenseNet对GPU内存的要求更高。与以前的先进方法PSANet[47]相比，它与我们共享同一个骨干网络，我们的模型在各方面都更先进这验证了我们的网络是优越的，因为APNB和AFNB的有效性，而不仅仅是有更多的参数比以前的作品。方法骨干感染时间（s）记忆（MB）#参数（M）DenseASPP [36]DenseNet-1610.568797335.63PSANet [47]ResNet-1010.6725233102.66我们ResNet-1010.611337563.17表2：基于整个网络的时间、参数和GPU内存比较。信息时间，Mem.，# Param分别表示推理时间、GPU内存占用和参数数量。结果是从10张2048× 1024图像中获得的平均值。4.3.2性能比较城市景观。为了将Cityscapes测试集的性能与其他方法进行比较，我们仅使用精细注释的数据（包括训练集和验证集）直接训练我们的非对称非局部神经网络进行12万次迭代。如Tab.所示。3.我们的方法优于以往的最先进的方法，达到81.3%的性能。我们给出了几个典型的定性比较与其他方法在图。五、DeepLab-V3 [7]和PSPNet [46]在大型物体上的局部不一致性有些问题，如卡车（第一排），围栏（第二排）和建筑物（第三排）等。而我们的方法不是此外，我们的方法对于像杆（第四行）这样非常纤细的物体也表现得更好。ADE20K。众所周知，ADE20K由于其各种图像大小，大量语义类别以及其训练和验证集之间的即使在这种情况下，我们的方法也取得了比EncNet601方法mIoU（%）基线75.8+ NB78.4+ APNB78.6+ 共熔76.5+ FNB77.3+ AFNB77.1+ 普通融合+NB79.0+ FNB + NB79.7+ AFNB + APNB（完整）79.9表3：Cityscapes测试集与最先进方法的比较请注意，Val列指示是否包括Cityscapes的精细注释的验证集数据进行训练。方法骨干mIoU（%）RefineNet [18]ResNet-15240.70UperNet [35]ResNet-10142.65DSSPN [17]ResNet-10143.68PSANet [47]ResNet-10143.77[44]第四十四话ResNet-10144.30EncNet [42]ResNet-10144.65PSPNet [46]ResNet-10143.29PSPNet [46]ResNet-26944.94我们ResNet-10145.24表4：ADE 20 K验证集与最新技术水平方法的比较。方法骨干mIoU（%）[26]第二十六话–37.8[第19话]–43.3DeepLab-V2 [6]ResNet-10145.7RefineNet [18]ResNet-15247.3PSPNet [46]ResNet-10147.8CCL [11]ResNet-10151.6EncNet [42]ResNet-10151.7我们ResNet-10152.8表5：PASCAL Context的验证集与最先进方法的比较。[42]。值得注意的是，我们的结果优于PSPNet[46]即使它使用更深的主干ResNet-269。PASCAL上下文。我们报告的比较与国家的最先进的方法在表。五、可以看出，我们的模型达到了52.8%的最先进的性能。这一结果有力地表明了我们方法的优越性。4.4. 消融研究在本节中，我们给出了大量的实验来验证我们的主要方法的有效性。文中还给出了几种设计方案，并说明了它们对结果的影响所有的表6：Cityscapes关于APNB和AFNB确认集的消融研究。“+下面的实验采用ResNet-101作为主干，在Cityscapes的精细注释训练集上训练60 K次迭代。APNB和AFNB的有效性。我们的网络有两个主要组成部分：APNB和AFNB。以下将评估每种方法的有效性以及两者的整合。Baseline网络基本上是一个类似于FCN的ResNet-101网络，具有深度监督分支。通过在分类器之前向基线添加非局部块（+ NB），模型，性能提高了2.6%（75.8%→78.4%），如表1所示。六、通过替换正常的非-本地块与我们的APNB（+ APNB），性能稍好（78.4%→78.6%）。当从Stage 4到Stage 5添加一个公共融合模块（ +Com-mon Fusion ）时： Stage 5 +ReLU（BatchNorm（Conv（Stage 4）到Baseline模型，我们也实现了与Baseline相比的良好改进（75.8% →76.5%）。这一现象验证了融合特征策略的有效性两个阶段。用我们提出的融合非局部块（+ FNB）替换普通融合模块，性能进一步提高到0.8%（76.5%→77.3%）。就像-明智的，改变FNB到AFNB（+ AFNB）减少了COM-以较小的性能下降（77.3% → 77.1%）为代价进行了相当大的估算。为了研究融合策略是否能进一步提升竞争激烈的+NB模型，我们将Common fusion添加到+ NB模型（+Common fusion + NB），并实现了0.6%的融合。性能改善（78.4%→ 79.0%）。同时使用融合非局部块和典型非局部块（+ FNB + NB）的性能提高了79.7%。使用APNB和AFNB的组合，即我们的非对称非局部神经网络（图中的 + AFNB + APNB（Full））（3）APNB和AFNB的效果最好，达79.9%抽样方法的选择。如第3.2、采样模块的选择对APNB的性能有很大的影响。正常采样策略包括：最大、平均和随机。当集成到方法骨干ValmIoU（%）DeepLab-V2 [6]RefineNet [18]ResNet-101ResNet-101C70.473.6GCN [24]ResNet-101C76.9DUC [32]ResNet-101C77.6[44]第四十四话ResNet-101C78.1ResNet-38 [34]WiderResNet-3878.4PSPNet [46]ResNet-10178.4BiSeNet [38]ResNet-101C78.9AAF [14]ResNet-101C79.1DFN [39]ResNet-101C79.3PSANet [47]ResNet-101C80.1DenseASPP [36]DenseNet-161C80.6我们ResNet-101C81.3602图像PSPNet DeepLabV3我们的地面实况自行车摩托车火车公共汽车卡车汽车骑手人天空地形植被交通标志交通灯杆栅栏墙建筑人行道路图5：与DeepLab-V3 [7]和PSPNet [46]的定性比较红色圆圈标记了我们的模型特别优于其他方法的地方。空间金字塔池，还有另外三种策略：金字塔最大、金字塔平均和金字塔随机。因此，我们进行了几个实验，以研究他们的影响，结合他们与APNB。如Tab.所示。7、平均抽样法优于最大抽样法和随机抽样法，这与文献[46]的结论一致。我们认为这是因为通过接收平均采样核内所有输入位置的提供信息，得到的采样点信息量更大，与其他两个相比。这种解释也可能是转移到金字塔设置。对比平均值-在相同数量的锚点下进行平齐和金字塔抽样（第三行与第四行）。最后一行），我们可以肯定地发现金字塔池是一个非常关键的因素，有助于显着的性能提升。锚点数量的影响。在我们的例子中，金字塔池化层的输出大小决定了锚点的总数，这会影响APNB的功效。为了研究影响，我们通过改变金字塔平均池化输出大小来执行以下实验：（1，2，3，6），（1，3，6，8）和（1，4，8，12）。如Tab.所7，很明显，更多的锚点以增加计算为代价提高了性能。考虑到功效和效率之间的这种权衡，我们选择（1，3，6，8）作为默认设置。5. 结论在本文中，我们提出了一个非对称的非局部神经网络的语义分割。非对称非局部神经网络的核心贡献是非对称金字塔非局部块，它可以在不牺牲性能的前提下显著提高非局部神经块的效率，减少非局部神经块的内存消耗。此外，我们还提出了非对称融合抽样方法nSmIoU（%）随机1522578.2Max1522578.1平均1522578.4金字塔随机1,2,3,65078.8金字塔最大1,2,3,65079.1金字塔平均1,2,3,65079.3金字塔平均1,3,6,811079.9金字塔平均1,4,8,1222580.1603表7：Cityscapes确认集的消融研究，抽样方法和锚点数量。“注意，当实现随机和金字塔随机时，我们使用numpy。随机选择函数从所有可能的位置随机采样n2个“非局部块以融合不同级别的特征。非对称融合非局部块可以探索不同层次特征之间的长距离空间相关性，这在强基线上表现出相当大的性能改善。在Cityscapes、ADE20K和PASCAL Context数据集上的综合实验结果表明，本文的工作达到了新的水平。在未来，我们将把非对称非局部神经网络应用于其他视觉任务。确认本工作得到了国家自然科学基金61573160的资助。白翔被国家拔尖青年人才支持计划和华中科技大学学术前沿青年团队计划我们衷心感谢华为EI Cloud为我们的论文慷慨提供GPU使用。我们真诚地感谢游安生在整个项目中提供的帮助和建议。604引用[1] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegnet：用于图像分割的深度卷积编码器-解码器架构。IEEE Trans. 模式分析马赫内特尔，39（12）：2481-2495，2017. 1[2] 安东尼·布阿德斯、巴托梅乌·科尔和让-米歇尔·莫雷尔。一种非局部图像去噪算法。在Proc. CVPR，第60-65页，2005中。1[3] 作者： Holger Caesar ， Jasper R R. Uijlings 和 VittorioFerrari。Coco-stuff：上下文中的事物和东西类。在procCVPR，第1209-1218页，2018年。5[4] Siddhartha Chandra和Iasonas Kokkinos基于深度高斯crfs的语义图像分割的快速、精确和多尺度推理。在Proc.ECCV，第402-418页，2016年。2[5] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L.尤尔。使用深度卷积网络和全连接crf的语义图像分割InProc. ICLR，2015. 一、二[6] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L.尤尔。Deeplab：使用深度卷积网络、无纹理卷积和全连接crf进行语义图像分割。 IEEE Trans. 模式分析马赫内特尔，40（4）：834-848，2018. 二、三、七[7] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。再思考无卷积在语义图像分割中的应用。CoRR，abs/1706.05587，2017。六、八[8] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器 - 解码器。在 Proc.ECCV，第833-851页，2018年。2[9] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集在procCVPR，第3213-3223页，2016年。二、五[10] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Fei-Fei Li. Imagenet：一个大规模的分层图像数据库。在Proc. CVPR，第248-255页，2009中。6[11] Henghui Ding ， Xudong Jiang ， Bing Shuai ， Ai QunLiu，and Gang Wang.基于上下文对比特征和门控多尺度聚合的场景分割方法.在Proc. CVPR，第2393-2402页，2018年。7[12] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于视觉识别的深度卷积网络中的空间金字塔池。IEEE传输模式分析马赫内特尔，37（9）：1904-1916，2015. 一、二[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在procCVPR，第770-778页，2016年。5[14] Tsung-Wei Ke，Jyh-Jing Hwang，Ziwei Liu，and StellaX. Yu. 用于语义分割的自适应亲和字段。在 Proc.ECCV，第605-621页，2018年。7[15] John D. Lafferty，Andrew McCallum，and Fernando C. N.佩雷拉.条件随机字段：用于序列数据分段和标记的概率模型。在Proc. ICML，第282-289页，2001中。2605[16] Svetlana Lazebnik，Cordelia Schmid，and Jean Ponce.Be-yond功能包：自然场景类别识别的空间金字塔匹配。在proc CVPR，第2169- 2178页，2006年。一、二、四[17] 梁晓丹，周鸿飞，邢伟。动态结构语义传播网络。在Proc. CV

下载后可阅读完整内容，剩余1页未读，立即下载