自适应上下文网络（AC-Net）：探索场景解析中不同层次上下文和像素需求，提高性能

173 浏览量更新于2023-10-12 收藏 1.26MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6748用于场景解析的傅俊1、4刘静1王余杭1永利2永军堡2金汇堂3汉青路11中国科学2业务增长部，JD.com3南京理工大学4中国科学{傅军，刘杰，卢华琪}@ nlpr.ia.ac.cn，王宇航. gmail.com，{liyong5，baoyongjun}@ jd.com，jinhuitang@njust.edu.cn摘要最近的工作试图通过探索不同层次的上下文来提高场景解析性能，并且通常训练精心设计的卷积网络以同等地利用所有像素上的有用上下文。然而，在本文中，我们发现，上下文的要求是不同的，从不同的像素或区域在每个图像。在此基础上，我们提出了一种自适应上下文网络（AC-Net），根据不同的像素需求，通过全局上下文和局部上下文的竞争性融合来获取像素感知的上下文。具体地说，当给定一个像素时，全局上下文需求通过全局特征与其局部特征之间的相似性来度量，其逆值可以用来度量局部上下文差。（a）.FCN(b). FCN+全球背景(c). FCN+本地环境命令我们分别通过提出的全局上下文模块和局部上下文模块对这两个需求度量进行此外，我们导入多个这样的模块，在不同层次的网络中构建多个自适应上下文块，以获得由粗到细的结果。最后，全面的实验评估证明了所提出的ACNet的有效性，并在所有四个公共数据集上实现了新的最先进的性能，即。Cityscapes 、 ADE20K 、 PASCAL Context 和 COCOStuff。1. 介绍场景解析是一项基本的图像理解任务，其目的是对给定的场景图像执行逐像素分类最新的场景解析方法是基于全卷积网络（FCN）[24]。然而，FCN框架有两个局限性一是*通讯作者图1.与基本FCN相比的性能改进（a.在全球背景的帮助下，扩展的FCN）在城市景观价值集上扩展的FCN+全球背景）和本地背景（c。扩展的FCN+本地上下文）。特别地，通过全局平均池化特征的逐像素增强表示被用作全局上下文，并且具有低级特征的级联表示被用作局部上下文。连续的子采样操作（如池化和卷积步幅）导致初始图像分辨率的显著降低，并且使得用于场景解析的空间细节丢失其次，由于有限的感受野[23，25]或局部上下文特征，每像素密集分类通常是模糊的。最后，FCNs会导致对象边界粗糙、忽略小对象以及对大对象和材料的错误分类等问题。在克服上述限制的各种基于FCN的改进中，提供了利用不同层次的上下文（即，地方背景和全球背景）是主要方向。具体来说，一些方法[22，39，34，9]采用全局池化+Conv+上采样6749从中间层利用多尺度局部上下文，以补充更多的视觉细节。一些方法[2，35]采用扩张的卷积层来捕获具有更大感受野的更广泛背景，同时保持分辨率。此外，通过全局平均池化[23，3，40]获得的图像级特征被提出作为全局上下文来澄清局部混淆。然而，这些基于FCN的变体采用了每像素的统一处理，忽略了不同层次的上下文上的不同的每像素需求。也就是说，来自中间层的局部上下文对于边缘上的像素或小对象的类别预测是必不可少的，而探索图像级表示的全局上下文有利于对大对象或填充区域进行分类，特别是当目标区域超过网络的感受野时我们还可以从图1所示的结果比较中观察到像素敏感上下文建模的必要性，其中局部和全局上下文在不同的对象或东西上实现了不同的改进。因此，如何在端到端训练框架中有效地捕获这种像素或区域感知的上下文对于全面准确的场景解析是一个开放但有价值的研究课题。在本文中，我们提出了一个自适应上下文网络（ACNet）捕捉像素感知的背景下，图像场景解析。与之前的方法不同，AC-Net为每个像素平等地融合不同级别的上下文，生成不同的每像素上下文，即，基于上下文的特征是输入数据的函数，并且也随不同像素而变化。这种自适应上下文生成是通过根据每像素不同需求的来自图像级特征的全局上下文和来自中间层特征的局部上下文的竞争性融合机制来实现的。换句话说，随着对某个像素的全局上下文的关注越多，对局部上下文的关注就越少，反之亦然。通常，全局平均池化特征对大型物体和材料具有语义指导作用，但它缺乏空间信息，这使得它不同于细节特征。因此，我们可以将全局池特征与每个像素的特征进行匹配，从而获得像素成为大对象或空间细节的元素它可以进一步用作像素感知上下文指导以自适应地融合全局特征（全局上下文）和低级特征（局部上下文）。出于这种直觉，我们提出了一个全局上下文模块，以自适应地捕获全局上下文。通过度量全局特征与像素特征之间的相似性，得到像素感知的需求程度，称为全局门控系数。门控系数越大，表明越多的全局上下文和越少的局部上下文可以被融合到像素。然后，我们将全局特征与像素感知的全局门控系数相乘，然后将其添加到像素特征中，使用该全局特征可以消除一些错误标记和不一致的结果进一步纠正。我们还提出了一个本地上下文模块，根据本地上下文的需求来补偿空间细节。具体地说，我们发现，具有不同于全局特征的特征的像素倾向于图像的细节部分，并且需要更多的局部上下文来获得精确的结果。因此，我们将全局门控系数的反向值作为局部门控系数，并将其与低级特征相乘以生成局部门控特征。它强调了像素感知的局部上下文的空间细节，并避免了一些噪声属于大对象的像素。此外，我们重用多个局部门控特征，这类似于一个循环学习过程，并补充了更多的细节信息。我们联合使用一个全局上下文模块和一个局部上下文模块作为自适应上下文块，并将这些块导入到不同级别的网络中。我们提出的ACNet的架构如图2所示。最后，对Cityscapes数据集[5]、ADE20k[42]、PASCAL Context [26]和COCO进行了全面的实验分析。stuff[1]数据集证明了ACNet的有效性本文的主要贡献如下：• 我们提出了一个自适应上下文网络（ACNet），以改善上下文信息融合，根据不同像素的上下文需求。• 提出了一种新的上下文需求度量机制全局池化特征可以自适应地融合到需要大背景的像素中，从而重新获得全局池化特征。从而导致对大物体或材料的错误分类• 我们根据局部上下文的需求改进局部上下文融合，逐步重用局部特征，从而改善了对小对象和边缘的分割结果。• ACNet在各种场景解析数据集上实现了最先进的性能。特别是，我们的AC- Net在Cityscapes上的平均IoU得分为82.3%在不使用粗数据的测试集上，和在ADE20K验证集上，分别为45.90%。2. 相关工作全局上下文嵌入。全局上下文嵌入已经被证明可以有效地改善一些大的语义区域的分类。ParseNet [23]使用全局平均池化特征来增强每个位置的特征。PSPNet[40]在其空间金字塔池化模块中应用全局平均池化来收集全局上下文。该工作[15]通过基于场景相似性的全局上下文网络捕获全局上下文。BiSeNet [33]在编码器结构的顶部添加全局池以捕获全局上下文。EncNet[37]采用编码层来捕获全局上下文并选择性地突出类相关特征图。6750我我本地上下文嵌入。基于U-net的方法通常采用来自低级和中级视觉特征的局部上下文来生成用于高分辨率预测的尖锐边界或小细节RefineNet [22]利用编码器-解码器框架并利用精细获得的低级特征来细化低分辨率分割。ExFuse [39]将辅助监督直接标记到编码器网络的早期阶段，以改善低级上下文。Deeplabv3+ [4]添加了一个简单的解码器模块来捕获本地上下文，优化分割结果。注意力和门控机制。注意机制已被广泛应用于提高分割任务的性能。PAN [17]使用全局池来生成全局注意力，其可以有效地选择通道映射。LRR [10]生成乘法门控以细化从较低分辨率分数图重建的片段边界。Ding等人[7]提出了一种基于RNN的选通机制来选择性地聚合多尺度得分图的方案文献[16，36，14]采用自注意机制对特征之间的关系进行建模。与这些工作不同的是，我们引入了一种数据驱动的门控机制，根据像素感知的上下文需求来捕获全局上下文和局部上下文。3. 自适应上下文网络3.1. 概述背景信息是场景分析任务的有效信息，目前的方法大多将不同的背景信息平均地融合到每个像素上，忽略了像素感知背景的不同需求在这项工作中，我们提出了一种新的自适应上下文网络（ACNet）来衡量全球和本地的上下文补充到每个像素的竞争性融合机制。整体架构如图2所示，它采用预训练的扩张ResNet[13]作为骨干网络，并采用多个自适应上下文块来逐步生成高分辨率分割图。在骨干网络中，我们去除了下采样操作，并在最后的ResNet块中采用扩张卷积，从而获得输出大小为输入图像1/16的密集特征。它可以在保留空间细节和计算成本之间取得平衡[4]。在上采样过程中，采用了三种不同分辨率的自适应上下文块每个自适应上下文块由全局上下文模块、上采样模块和局部上下文模块组成，其中全局上下文模块从高级特征选择性地捕获全局上下文，并且局部上下文模块从低级特征选择性地捕获局部1/21/41/81/16图2.自适应上下文网络（Adaptive Context Network）(Best颜色显示）文本模块及其在自适应上下文块中聚合。3.2. 全局上下文模块全局上下文可以为整个场景图像提供全局语义指导，从而纠正错误分类和不一致的解析结果。然而，全局上下文的好处对于大对象和空间细节是不同的。在探索全局上下文时，有必要对每个像素进行不同的处理，也就是说，一些像素需要更多的全局上下文来进行分类，而另一些像素可能不需要。基于全局池化特征偏好于大对象和填充物且缺乏空间信息的直觉，我们可以将全局特征与每个像素中的特征进行匹配，获得其作为大对象或空间细节的元素的可能性。然后我们可以利用它来自适应地融合全局上下文。为此，我们提出了一个全局上下文模块（GCM）如下。给定一个输入特征映射A∈RC×H ×W，我们使用卷积层之后的全局平均池化来生成全局特征p∈RC×1×1。为了获得全局上下文的像素感知需求（全局门控共有效），我们首先通过计算全局特征p与每个像素i的特征ai∈A之间的欧氏距离D∈RH×W来测量特征相似性，di∈D表示为：di=ai−p2（1）其中a i∈A，i∈[1，2，.，H×W]是A中的第i个位置。注意，较小的di指示第i个位置处的特征更接近全局特征。然后我们生成一个全局门控系数Wg∈RH×W，其被指数函数平滑，wg∈Wg表示为：在下面的小节中，我们将详细介绍全局上下文模块、局部上下文模块和全局上下文模块的设计细节。wg=exp（−di−k）（2）δConv-1自适应上下文块Resnet block-1当地情况模块自适应上下文块上采样模块Resnet block-2全球背景模块Resnet块-3，Resnet块-4（膨胀转换）自适应上下文块6751我我我我图3.自适应上下文模块的具体实现包括（1）全局上下文模块和（2）局部上下文模块。(Best颜色显示）其中k被设置为minH×W（d），用于限制被上采样，公式化为：i=1ig∈（0，1]. δ是一个超参数，它控制着Wl=1−up（Wg）（四）高响应和低反应。最后，我们将全局特征p乘以wg和一个尺度参数α，然后与特征A进行逐元素求和运算，得到最终输出C∈RC×H ×W，ci∈C表示为：其中up（·）表示双线性插值运算。以这种方式，局部门控系数指示越正，像素属于空间细节的可能性越大，则需要的局部上下文越多，反之亦然。然后，我们通过将来自中间层fea的局部特征B∈RC× H × W相乘来获得像素感知的局部上下文（门控局部特征）。ci=αwg p+ai（三）图中的局部选通系数和比例参数eterβ。最后，我们将该功能与upsam-Pled特征E∈RC×H ×W以生成细化特征其中α是学习因子，初始化为1。这里我们采用求和运算代替级联运算进行保存F∈RC×H ×W，fi∈F表示为：记忆全局上下文模块的细节如图3（1）所示。从上述公式可以推断，不同位置处的特征C根据全局门控系数Wg获得不同的全局上下文。通过这种设计，GCM可以选择性地增强语义一致性。并且减少对大对象或材料的错误分类和不一致3.3. 本地上下文模块局部上下文有助于细化对象边界和细节。然而，许多方法融合局部上下文到所有像素，而不考虑局部上下文的不同需求。为了解决这个问题，我们提出了一个本地上下文模块（LCM）选择性地融合本地上下文，以更好地细化分割。如第3.2节所述，具有高响应的全局门控在此基础上，我们可以通过反转全局门控系数的值来获得局部门控系数，其中全局门控系数具有其中cat（·）表示连接操作，并且β是学习因子并且被初始化为1。我们采用串联操作来组合选通的局部特征和高级特征，并且采用卷积层来融合它们。局部上下文模块的细节如图3（2）所示通过这种设计，我们可以根据每个像素的上下文需求有选择地聚合局部此外，我们发现直接多次引入门控局部上下文具体来说，我们通过级联操作重复使用门控局部特征，然后进行三次卷积层。如此反复-租金学习过程补充了每个位置的更多空间细节，并实现了从粗到细的性能改进。值得注意的是，它还没有被讨论在disciplious作品[22，39，35，4]。并通过实验验证了3.4. 自适应上下文块在GCM和LCM的基础上，我们进一步设计了一个自适应上下文块，有选择地同时捕获全局和局部上下文信息。B2. 本地上下文模块WX全局门控系数WG双线性上采样2xCCC一p上采样本地门控系数FX+1. 全局上下文模块双线性上采样C2xE+按元素之和Conv+BN+ReLUx元素乘法 c级联convconvconvconv全球平均合并+转换conv逆相似性度量W6752总iter自适应上下文块是建立在一个级联的架构，高层特征首先送入一个全局上下文模块，有选择地融合全局上下文到每个像素。然后依次通过一个双线性上采样层和一个局部上下文模块学习的恢复和改进功能。为了获得分辨率对应于低级别的功能，我们还扩大了空间分辨率的全局门控系数的双线性上采样操作之前，送入本地上下文模块。在[4]之后，我们在低级特征上应用卷积层以减少通道的数量，从而细化低级特征。在自适应上下文块中，我们引入了一种竞争性的融合机制，根据门控系数的相关性来捕获全局上下文和局部上下文，从而自适应地将合适的上下文融合到每个像素上，以获得更好的特征表示。4. 实验所提出的方法在 Cityscapes [5] ， ADE20K [42] ，PASCAL Context [26]，COCO Stuff [1]上进行了评估。实验结果表明，ACNet在这些数据集上实现了在接下来的小节中，我们首先介绍了数据集和实现细节，然后我们在Cityscapes数据集上进行了详细的比较，以评估我们的方法。最后，我们提出了我们的结果相比，国家的最先进的方法ADE20K，PASCAL上下文，COCO的东西数据集。4.1. 数据集该数据集是为场景解析收集的众所周知的道路场景数据集，其具有用于训练的2，979个图像、用于验证的500个图像和用于测试的1，525个图像。每幅图像都有2048×1024的高分辨率像素与19个语义类。注意到没有粗略数据在我们的实验中使用。ADE20K数据集是一个具有挑战性的场景理解数据集，包含150个类（35个填充类和115个离散对象类）。该数据集被划分为20，210/2，000/3，352个图像用于训练、验证和测试。PASCAL Context数据集广泛用于场景解析，其中包含4，998张用于训练的图像和5，105张用于测试的图像。根据以前的作品[22，37]，我们在60个类别（59个类别和一个背景类别）上评估了该方法。COCO Stuff数据集有171个类别，包括80个对象和91个注释到每个像素的东西。在之前的工作[7，27，22]之后，我们采用9，000张图像进行训练，1，000张图像进行测试。4.2. 实现细节我们采用一个扩张的预训练ResNet架构作为我们的骨干网络，其中最后一个ResNet块中的扩张速率设置为（2，2，2）。在[37，40]之后，我们在最后一个ResNet块的输出上应用具有BN，ReLU的3×3卷积层，以减少通道数量到512。此外，我们采用ResNet block-1和ResNet block-2的输出作为低级特征，其为前两个自适应上下文块提供局部上下文在最后一个自适应上下文模块中只采用了一个全局上下文模块。在前两个自适应上下文块中，我们采用在将其馈送到本地上下文模块之前，在低级特征上进行3×3卷积层。另一个卷积前两个自适应上下文块中的层由分别具有448和256个内核的3×3卷积运算以及随后的BN和ReLU组成。Pytorch用于实现我们的方法。在训练阶段，我们采用了一个多学习率策略，其中初始学习率乘以（1- 1）。ITER）0。9，并启用同步批量归一化[37]。基本学习率设置为Cityscapes 和 ADE20K 为 0.005 ， PASCAL Context 和COCO为0.001。动量和重量衰减系数分别设置为0.9和0.0001。按照[40]，当我们采用块状ResNet101时，采用辅助损耗。此外，我们在训练阶段应用随机裁剪和随机左右翻转，如果在Cityscapes数据集上没有提到，则不使用随机缩放来进行数据增强。4.3. Cityscape数据集上的结果全局上下文模块：首先，我们设计了一个全局上下文模块，根据像素感知的需求自适应地聚合全局上下文。具体来说，我们遵循[2]并建立两个扩张网络（ResNet-50），其产生原始图像的1/8和1/16大小的最终特征图接下来，全局上下文被添加到具有两种不同设置的网络的顶部，这两种设置分别是GC和GCM（GC表示我们直接将全局特征相等地加到每个像素，GCM表示全局上下文模块）。实验结果示于表 1 中。 1 ，我们可以看到 GCM（globalcontextmodule）在两种设置下都比GC获得了更好的性能，特别是对于输出原始图像的1/8大小。这表明了GCM的有效性，同时也表明，如果在扩展的FCN的基础上产生更高分辨率的全局门控系数，GCM的效果会更明显。此外，我们还提供了关于δ的讨论，δ控制全局门控系数的高响应和低响应之间的差异幅度（见第3.1节）。当我们将δ设置为5时，全局上下文模块6753图像FCN系数#1/16系数#1/8系数#1/4我们地面实况图4.对全局上下文模块中的全局门控系数分别在1/16、1/8和1/4分辨率下的可视化结果进行了分析，发现全局门控系数大的像素点更倾向于显示占主导地位的填充物和较大的物体。与FCN相比，该方法在系数较大的区域增强了全局上下文的语义指导，在其他区域提供了更多的局部上下文，从而获得了准确的分割结果。(Best颜色显示）方法mIOU（%）输出尺寸1/161/8RES-5069.1570.83气相色谱法71.2472.77Res-50+GCM（δ=2）72.3674.21Res-50+GCM（δ=5）72.4574.50Res-50+GCM（δ=10）71.8774.30表1. Cityscapes验证集上的全局上下文模块的消融实验，δ表示全局门控系数的差异分布的幅度。方法mIOU（%）RES-5069.15Res-50+GCM72.45Res-50+GCM+LC73.48Res-50+GCM+LCM（1）74.03Res-50+GCM+LCM（2）74.56Res-50+GCM+LCM（3）74.67表2.局部上下文模块在Cityscapes验证集上的消融实验，（η）表示LCM中局部门控特征的η次融合产生最佳性能。我们固定这个值，并在下面的实验中使用原始图像的最低分辨率输出1/16大小。本地上下文模块：我们还提出了一个本地上下文模块来细化空间细节。由于我们需要通过反转全局门控系数来生成每个像素的局部门控系数具体地说，实验是在一个带有GCM的扩展ResNet-50上进行的，然后我们从带有（LCM）和不带有（LC）局部门控系数的ResNet block-2的输出中级联局部特征。结果如表2所示，我们可以看到，表3. Cityscapes验证集上的自适应上下文块的消融实验，#n表示自适应上下文块的数量，MG表示多网格扩张卷积，DA表示训练阶段期间多尺度输入的数据增强，MS表示多尺度测试。上下文将性能从72.45%提高到73.48%。当我们采用局部门控系数有选择地融合局部上下文的每个像素一次，性能进一步提高到74.03%。重用局部门控特性使性能从74.03%持续提高到74.67%。自适应上下文块：我们进一步构建一个自适应上下文块，并将其级联三次以获得高分辨率预测。结果列于表3中。当我们采用三个自适应上下文块（ACB#3）时，正确率提高到76.53%，这验证了我们的方法的有效性。此外，我们在三个具有不同分辨率的自适应上下文块中可视化全局门控系数，如图4所示。这些图像来自Cityscapes的验证集。我们可以发现，具有大的全局门控系数的像素更喜欢占主导地位的东西和大的对象，如第一行的这些东西和对象在我们的方法中得到了改进。另外，全局选通系数小的像素更倾向于小的物体和边缘，如方法mIoU（%）Res-50+ACB#1 74.67Res-50+ACB#2 75.98Res-50+ACB#376.53Res-101+ACB#3 77.42Res-101+ACB#3+MG 78.50Res-101+ACB#3+MG+DA 80.09Res-101+ACB#3+MG+DA+OHEM 80.89Res-101+ACB#3+MG+DA+OHEM+MS82.006754图像ACNet地面实况图像ACNet地面实况图5.Cityscapes验证集上ACNet的示例结果（彩色效果方法Miou道路人行道建筑墙栅栏杆交通灯交通标志植被地形天空人乘用车公共汽车列车摩托车[22]第二十二话73.698.283.391.347.850.456.166.971.392.370.394.880.963.394.564.676.164.362.270DUC [29]77.698.585.592.858.655.56573.577.993.37295.284.868.595.470.978.868.765.973.8ResNet-38 [30]78.498.585.793.155.559.167.174.878.793.772.695.586.669.295.764.578.874.16976.7PSPNet [40]78.4-------------------BiSeNet [33]78.9-------------------PSANet [41]80.1-------------------DenseASPP [32]80.698.787.193.460.762.765.674.678.593.672.595.486.271.996.078.090.380.769.776.8CCNet [14]81.4-------------------DANet [16]81.598.686.193.556.163.369.777.381.393.972.995.787.372.996.276.889.486.572.278.2ACNet82.398.787.193.961.661.871.478.781.794.073.396.088.574.996.577.189.089.271.479.0表4. 在Cityscapes测试集上与最先进的方法进行分类比较。以及“杆”、“人”等。这些空间细节也在我们的结果中得到了细化。在其他图像中也发现了类似的趋势一些改进策略：我们遵循[3，16，12，8，6，11]的通用程序来进一步提高ACNet的性能：（1）一个更深入和强大的网络-ResNet-101。(2)MG：最后一个ResNet块中的不同扩张率（4、8、16）。(3)DA：我们在训练阶段用随机尺度（从 0.5 到 2.2 ）变换输入图像。(4)OHEM：还采用了在线硬示例挖掘。(5)MS：我们应用多尺度输入，尺度{0.5 0.75，1，1.25，1.5，1.75，2，2.25}以及它们的镜像用于推理。实验结果如表 3 所示，当采用更深的骨干（ResNet101）时，ACNet获得了77.42%的平均IoU。多网格扩张卷积算法的性能提高了1.08%。使用多尺度输入（DA）的数据增强带来了另外1.59%的改进。OHEM将性能提高到80.89%。最后，使用多尺度测试，我们在验证集上获得了82.00%的最佳性能。与最先进的方法相比：我们还将我们的方法与Cityscapes测试集上的最先进的方法进行了比较。具体来说，我们只使用精细注释的训练值数据微调ACNet的最佳模型，并提交测试结果到官方评估服务器。对于每种方法，我们报告了每个类别的准确度和平均类别准确度，这些都在原始论文中报告。结果见表。4.我们可以看到，我们的ACNet在测试集上实现了82.3%的最新性能。使用相同的主干ResNet-101 ，我们的模型优于 DANet[16] 。此外，ACNet还超过了DenseASPP[32]，它使用更强大的预训练模型，并且比Deeplabv3+[4]（82.1%）更高，Deeplabv3 +[4]在训练阶段使用额外的粗略注释。4.4. ADE20K数据集在本小节中，我们在ADE20K数据集上进行实验，以验证我们的方法的有效性。根据先前的工作[14，18，37，40，41]，使用具有多尺度输入和多尺度测试的数据增强。我们通过像素级精度（PixelAcc）和类级交集均值（mIoU）来评估ACNet。定量结果如表5所示。使用ResNet 50，扩张的FCN在mIoU和PixelAcc方面获得37.32%/77.78%当采用我们的方法时，性能提高了5.69%/3.23%。当采用更深的主干ResNet 101时，ACNet实现了45.90%/81.96%的新的最先进的性能，优于以前的最先进的方法。在ad-6755骨干方法mIoU（%）[22]第二十二话33.6Ding等人[七]《中国日报》35.7Res-101[第20话]38.9SGR [19]39.1DANet[16]39.7ACNet40.1表8.COCO Stuff测试集上的分割结果表5.ADE20K验证集上的语义分割结果。方法最终评分（%）PSPNet269（2016年第一名）55.38PSANet-101[41] 55.46CASIA IVA JD（2017年第一名）55.47[37] 2016 - 05 - 15ACNet-10155.84表6.ADE 20K测试集上的语义分割结果骨干方法mIoU（%）Ding等人[七]《中国日报》51.6EncNet [37]51.7Res-101SGR [19]52.5DANet [16]52.6ACNet54.1RES-152[22]第二十二话47.3摩根士丹利资本国际[21]50.3Xception-71Tian等人[28日]52.5表7.PASCAL上下文测试集上的分割结果此外，我们还微调我们的最佳模型 ACNet-101 与trainval 数据，并提交我们的测试结果的测试集。ACNet-101的单一型号获得最终分数在ADE20K上执行策略，并将我们的模型与以前的最先进方法进行比较。结果报告于表7中。ACNet获得了54.1%的平均IoU，超过了之前公布的方法。在这些方法中，最近的方法[21，28]使用更强大的网络（例如，ResNet-152和Xception-71）作为编码器网络，并在解码器网络中融合了高、低层特征，我们的方法在性能上比它们有较大的提高。4.6. COCO stuff数据集最后，我们证明了ACNet的有效性COCO的东西数据集。还采用ACNet-101网络。COCO填充物结果报告于表8中。ACNet实现了40.1%的平均IoU性能，这也优于其他最先进的方法。5. 结论本文提出了一种新的ACNet网络来捕获像素感知的自适应上下文场景解析，其中全局上下文模块和局部上下文模块被精心设计并联合使用作为自适应上下文块，以获得每个位置的两个上下文的竞争融合我们的工作的动机是观察到，从高层次的特征的全球背景有助于一些大的语义混乱的区域的分类，而从低层次的视觉特征的局部背景大量的实验表明，ACNet与其他先进的方法相比，具有突出的性能我们相信这样的自适应上下文块也可以扩展到其他视觉应用，包括对象去为55.84%。在这些方法中，大多数方法[40，37，18，38，41，14]试图通过主链顶部特征的聚集变体和关系来探索全局信息。而我们的方法专注于从高、低层特征中获取像素感知的上下文，并取得了更好的性能。4.5. PASCAL上下文数据集在PASCAL Context数据集上进行了实验，进一步验证了ACNet的有效性。我们使用ACNet-101网络与同一列车-骨干方法mIoU（%）像素加速度%扩张的FCN37.3277.78EncNet[37]41.1179.73RES-50GCU[18]42.6079.51PSPNet[40]42.7880.76PASNet[41]42.9880.92ACNet43.0181.01UperNet[31]42.6681.01PSPNet[40]43.2981.39[第20话]43.6881.13Res-101PASNet[41]43.7781.51SGR [19]44.3281.43EncNet[37]44.6581.19GCU[18]44.8181.19ACNet45.9081.966756检测、姿态估计和细粒度识别。鸣谢：本工作得到了国家自然科学基金（61872366）的资助和61872364）和北京市自然科学基金（4192059）引用[1] Holger Caesar Jasper Uijlings和Vittorio Ferrari可可-东西：上下文中的事物和东西类。在IEEE计算机视觉和模式识别会议论文集，第1209-1218页6757[2] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L.尤尔。Deeplab：使用深度卷积网络、无纹理卷积和全连接crf进行语义图像分割。IEEE Transactions on Pattern Analysis andMachine Intelligence。，40（4）：834[3] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。再思考无卷积在语义图像分割中的应用。CoRR，abs/1706.05587，2017。[4] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在欧洲计算机视觉会议（ECCV）的会议记录中，第801-818页[5] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在IEEE计算机视觉和模式识别会议，第3213-3223页[6] Henghui Ding ， Xudong Jiang ， Ai Qun Liu ， NadiaMagnenat Thalmann，and Gang Wang.用于场景分割的边界感知特征传播。在IEEE国际计算机视觉会议论文集，2019。[7] Henghui Ding ， Xudong Jiang ， Bing Shuai ， Ai QunLiu，and Gang Wang.基于上下文对比特征和门控多尺度聚合的场景分割方法.在IEEE计算机视觉和模式识别会议论文集，第2393-2402页[8] Henghui Ding ， Xudong Jiang ， Bing Shuai ， Ai QunLiu，and Gang Wang.语义相关性促进了形状变化的上下文分割。在IEEE计算机视觉和模式识别会议论文集，第8885-8894页[9] 傅俊，刘静，王宇航，卢汉青。用于语义分割的堆叠去卷积网络。arXiv预印本arXiv：1708.04943，2017。[10] Golnaz Ghiasi和Charless C.福克斯用于语义分割的拉普拉斯金字塔重构与精化。在欧洲计算机视觉会议上，第519- 534页[11] 何军军，邓仲英，乔宇。用于语义分割的动态多尺度过滤器在2019年国际计算机视觉会议上[12] Junjun He，Zhongying Deng，Lei Zhou，Yali Wang，and Yu Qiao. 用于语义分割的自适应金字塔上下文网络。在IEEE计算机视觉和模式识别会议论文集，第7519- 7528页[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[14] Zilong Huang，Xinggang Wang，Lichao Huang，ChangHuang，Yunchao Wei，and Wenyu Liu. Ccnet：用于语义分割的交叉注意. arXiv预印本arXiv：1811.11721，2018.[15] Wei-Chih Hung ， Yi-Hsuan Tsai ， Xiaohui Shen ， ZheLin，Kalyan Sunkavalli，Xin Lu，and Ming-Hsuan Yang.使用全局上下文嵌入的场景解析。法律程序中IEEE计算机视觉国际会议，第2631-2639页，2017年。[16] 付军、刘静、田海杰、李勇、鲍永军、方志伟、卢汉青。用于场景分割的双注意网络。在IEEE计算机视觉和模式识别会议论文集，2019年。[17] 李汉超，熊鹏飞，安洁，王凌雪。用于语义分割的金字塔注意力网络arXiv预印本arXiv：1805.10180，2018。[18] 尹力和阿比纳夫·古普塔。超越网格：学习图形表示用于视觉识别。神经信息处理系统的进展，第9245-9255页，2018年[19] Xiaodan Liang，Zhiting Hu，Hao Zhang，Liang Lin，and Eric P Xing.符号图推理遇到卷积。神经信息处理系统的进展，第1858-1868页[20] 梁晓丹，周鸿飞，邢伟。动态结构语义传播网络。在IEEE计算机视觉和模式识别会议论文集，第752-761页[21] Di Lin，Yuanfeng Ji，Dani Lischinski，Daniel Cohen-Or，and Hui Huang.多尺度上下文交织语义分割。在欧洲计算机视觉会议（ECCV），2018年9月。[22] Guosheng Lin，Anton Milan，Chunhua Shen，and Ian D.里德Refinenet：用于高分辨率语义分割的多路径细化网络。在IEEE计算机视觉和模式识别会议上，第5168-5177页[23] Wei Liu，Andrew Rabinovich，and Alexander C.伯格。Parsenet：看得更宽，看得更好。在2016年的学习代表国际会议[24] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。在IEEE计算机视觉和模式识别会议的论文集，第3431-3440页[25] Wenjie Luo ， Yujia Li ，

下载后可阅读完整内容，剩余1页未读，立即下载