没有合适的资源?快使用搜索试试~ 我知道了~
7519基于自适应金字塔上下文网络的语义切分何军军1,2邓中英1周磊1王雅丽1乔宇1,31中国科学院深圳先进技术研究院SIAT-SenseTime联合实验室深圳市计算机视觉与模式识别重点实验室2上海交通大学3香港中文大学摘要最近的研究表明,上下文特征可以显著提高深度语义分割网络的性能.现有的基于上下文的分割方法在构造上下文特征的方法上存在差异,在实际应用中表现也不尽相同。本文首先介绍了上下文特征在分词任务中的三个理想性质。特别地,我们发现全局引导的局部亲和度(GLA)在构造有效的上下文特征中起着至关重要的作用,而这一性质在以前的工作中被很在此基 础 上 , 本 文 提 出 了 自 适 应 金 字 塔 上 下 文 网 络(APCNet)的语义切分方法.APCNet通过多个精心设计的自适应上下文模块(ACM)自适应地构建多尺度上下文表示。具体地,每个ACM利用全局图像表示作为指导来估计每个子区域的局部亲和度系数,然后利用这些亲和度计算上下文向量。我们在三个语义分割和场景解析数据集上实证评估了我们的APCNet,包括PASCAL VOC 2012,Pascal-Context和ADE 20 K数据集。实验结果表明,APCNet在所有三个基准测试中都达到了最先进的性能,在没有MS COCO预训练和任何后处理的情况下,在PASCAL VOC 2012测试集上获得了84.2%的新记录1. 介绍语义分割旨在为每个像素分配类别标签,是计算机视觉中的一个基本但重要的问题,在场景理解,医学成像,机器人视觉等方面有着广泛的应用语义分割的挑战来自于同一对象/事物的内部内容、形状和尺度的变化,以及不同对象/事物之间容易混淆和细微的边界。当前最新技术水平赵玉乔为通讯作者。作者电子邮件为和君-jun@sjtu.edu.cn,{zy.deng1,lei.zhou,yl.wang,yu.qiao} @ siat.ac.cn。语义分割方法大量利用深度卷积神经网络(CNN),例如,全卷积网络(FCN)[22],U-Net [28],从输入图像中提取密集的语义表示并预测像素级标签。经过适当训练后,深度CNN可以通过多层卷积运算和非线性池化/激活函数捕获丰富的场景信息然而,由于CNN的卷积性质,局部卷积特征通常具有有限的感受野。此外,即使具有大的感受野,这些特征也主要描述核心区域,并且在很大程度上忽略了边界周围的背景[23]。 另一方面,来自不同类别的局部区域可以共享附近特征,例如,木制桌子和椅子可以呈现类似的局部纹理。精确的语义分割往往需要不同尺度和大区域的上下文信息,以消除局部区域造成的歧义。为了解决这个问题,许多最近的作品[4,40,20,10,13]将上下文向量聚合到局部卷积特征以提高分割性能。这些方法在构造上下文向量的方式上各不相同,在不同的数据集上表现也不同。 因此,有一个自然的问题,什么是语义分割的最佳上下文。本文试图通过研究最佳上下文向量应具有的理想性质来解决这个问题。原则上,最优上下文向量应该描述与局部特征互补的与分割相关的图像内容,同时该向量应该是紧凑的,包含尽可能少的无关信息。具体来说,我们总结了三个关键属性如下。属性1-多尺度。对于语义分割,整体对象/填充物区域产生重要线索以确定局部像素的语义标签。由于对象通常具有不同的大小和位置,因此有必要构造多尺度表示以从不同尺度捕获图像内容如图1的第一行所示,没有多尺度上下文的方法只能捕获单个尺度中的对象,而丢失其他尺度中的细节。特性2-适应性。并非输入图像中的所有区域都与7520图1.多尺度和全局引导的局部亲和性属性的图示。第一行:多尺度上下文可以捕获不同尺度的对象。第二排:全局引导的局部亲和度算法有利于分割完整的对象和组合对象。同样地,用于确定给定像素的语义标签。包含相关对象的区域可以产生有用的信息,而其他区域可能贡献很少。实际上,相关区域/像素可以存在于给定像素附近,也可以远离给定像素,高度依赖于输入图像的内容和布局因此,重要的是要自适应地识别这些重要的区域,以构建最佳的上下文向量。性质3-全局引导的局部亲和性(GLA)。为了构造有效的上下文向量,需要聚合来自相关像素或区域的特征。在实践中,这可以通过以加权的方式总结它们的特征来实现。因此,有一个问题,估计的亲和权重的聚合。这些权重指示不同区域如何有助于预测局部像素的语义标签。以前的工作[20,10,13]主要用像素和区域的局部表示来估计这些自适应权重,忽略了全局上下文。与这些作品不同,在这里,我们的见解是,本地和全球表示是必要的,以估计强大的亲和力权重。如图1的第二行所示,马的腿很小,并且表现出与雪相似的纹理,雪属于背景类并且主导整个场景。容易将腿分类到背景类别。显然,分割任务可以受益于全局表示。我们将此属性称为全局引导的局部亲和度(GLA),因为局部亲和度权重是用全局表示来引导的接下来,我们从上述属性的角度对现有的基于上下文 的 语 义 切 分 方 法 DeepLab [4] , ParseNet [20] 和PSPNet [40] 分 别 利 用 ASPP ( atrous spatial pyramidpooling ) , GAP ( global average pooling ) 和 PPM(pyramid pooling module)来获得不同尺度的上下文。然而,所有这些上下文向量都只描述固定位置的内容,并且不适应。tive.最近,DANet [10]用精心设计的自我注意机制编码全局上下文。PSANet [13]学习自适应逐像素位置敏感的空间注意力掩模,用于聚合上下文特征。OCNet[37] 在PPM和ASPP中嵌入自注意机制,利用多尺度特性。但是这些方法忽略了上面讨论的全局引导的局部亲和性属性。如表1中所总结的,先前的方法只能说明三种性质中的一些。部分受此启发,本文提出了自适应金字塔上下文网络(APCNet)用于语义分割,有效地构造了具有所有三个属性的上下文表示。具体而言,APCNet设计金字塔自适应上下文模块来捕获多尺度全局表示。主要贡献如下。方法MS自适应GLADeepLab[4]CPSPNet[20]CParseNet[20]PSANet[13]CDANet[10]COCNet[37]CC我们CCC表1.不同的基于深层上下文的语义分割方法比较MS:多尺度,GLA:全球导向的地方亲和力。• 本文总结了上下文向量在语义分割中的三个重要性质,并对近年来基于深度上下文的语义分割方法进行了比较。从这些属性的角度来看。7521JJi、jJ• 我们提出了自适应上下文模块,它利用GLA属性,利用本地和全球的代表性,估计局部区域的亲和力权重这些亲和力进一步允许我们为分割任务构建自适应和多尺度的上下文表示• 我们的方法在三个广泛使用的基准测试上实现了最先进的性能,包括PASCAL VOC 2012,Pascal-Context和ADE 20 K数据集,在PASCAL VOC 2012测试集上获得了84.2%的新记录,无需MS COCO预训练和任何后处理。2. 相关工作最近,基于FCN [22]的方法通过编码上下文信息,在场景解析和语义分割任务上取得了令人满意的性能。但大多数方法只考虑表1中提到的一些属性多尺度背景。 多尺度背景起着关键作用在语义分割中,特别是对于尺度变化很大的对象/东西。 图像金字塔是一种常见的方法以获得多尺度上下文。[9]使用拉普拉斯金字塔来缩放DCNN的输入图像[14]并合并特征图。SegNet [2]、UNet[28]和[5]设计了编码器-解码器架构,分别融合来自编码器和解码器的低级和高级特征映射。PSPNet[40]和DeepLab [4]分别提出了PPM(pyramid poolingmodule)和ASPP(atrous spatial Pyramid pooling)模块来编码多尺度上下文这两个模块在一定程度上是有效的和高效的,但它们平等地对待所有图像区域,而不是以自适应的方式。全球背景。全局上下文对于全面的复杂场景理解尤其重要。 ParseNet[20]提出了一种简单而有效的全局上下文编码方法,通过GAP(global average pooling)进行语义分割。PSPNet [40]利用基于金字塔区域的上下文聚合来利用PPM构建全局上下文。这些方法不能对每个特定像素自适应地进行全局DANet [10]和OC-Net [37]采用自注意捕获远程全局上下文,基于对语义特征计算像素级相似度图而PSANet [13]通过学习逐像素位置敏感的空间注意力掩模来聚合全局上下文计算的逐像素相似性图和学习的逐像素注意力图对每个特定像素都是自适应的,但是这些可以通过聚集多尺度特征与由局部和全局信息引导的学习的自适应亲和力来生成更强大的多尺度和全局3. 方法上下文信息对于复杂场景的分析和语义分割是至关重要的。全局上下文对于捕获远程依赖性并提供对整个场景的全面理解是有用的,而具有不同大小的对象的分割可以受益于多尺度上下文特征。接下来,我们描述了所提出的自适应金字塔上下文网络,该网络在全局图像表示的指导下自适应地构造多尺度上下文向量。3.1. 制剂首先,我们描述我们的问题的数学给定用于分割的图像I,我们计算具有骨干CNN的密集3D卷积特征立方体X,其中Xi表示位置i处的卷积特征向量。并且xi表示用于有效计算的位置i分割任务可以简化为预测像素的语义标签,例如i。针对这个问题的一个直接想法是仅用局部特征Xi来估计语义标签。然而,这种思想忽略了其他领域的相关内容,限制了分割性能.为了解决这个问题,在以前的作品中,已经成功地利用上下文特征来提高分割精度[4,40,20,10,13]。在数学上,我们引入zi=Fcontext(X,i)来表示Xi的上下文特征向量,其中Fcontext表示从位置i处的输入特征立方体中提取zi的函数。以往的上下文分割方法在如何定义F上下文方面存在差异。如第1节中所讨论的,本文旨在设计一种新的上下文,其满足三个属性:1)多尺度,2)自适应,以及3)全局引导的局部亲和性。为了实现这一目标,我们首先将X转换为多尺度金字塔表示。然后,我们自适应地分别为每个尺度构造上下文向量这里我们仅以一个尺度s为例,其他尺度可以以类似的方式处理。 对于这个比例,我们将特征图将图像I的X分解为s×s子区域,从而将X变换为子区域表示的集合,Ys= [Ys,Ys,...,Ys],1 2秒×秒对像素关系,通过计算像素,在特定像素位置上的明智的相似性或卷积缺乏全局信息。当我们的方法学习根据这个划分。对于每个子区域Ys,我们通过平均池化和一个卷积运算将其内容与特征向量ys我们引入亲和力以地方和全球信息为指导的关系。系数αs表示子区域Y不同于以往的工作,我们提出的方法有助于估计语义标签的Xi。然后7522i、ji、j我J我国际新闻报图2.自适应金字塔上下文网络(APCNet)。输入图像被馈送到主干CNN中以获得卷积特征立方体X。X被分解为多尺度金字塔表示。每个尺度的表示被馈送到自适应上下文模块(ACM)中以估计每个局部位置的自适应上下文向量APCNet由多个以par-center方式组织的ACM组成每个ACM由两个分支组成,其中一个分支用于估计GLA亲和系数,另一个分支用于获得子区域表示。将这两个分支的输出相乘以获得自适应上下文向量。最后,APCNet将来自不同尺度的上下文向量和原始特征立方体X连接起来,用于预测输入像素自适应上下文向量可以被计算为,公司简介通过利用全局引导的本地亲和力来定位基本上,ACM实现了Eq.2、网络架构zs=j=1(1)第一次见面示于图2. ACM由两个分支组成。 第一分支的目的是计算亲和系数αs,而第二种方法处理单尺度表示γs。这里的关键问题是如何计算系数αs。理想情况下,α s应通过帐户满足GLA财产-ing的局部特征从xi和全局表示从X给定尺度s和位置j。设g(X)表示X的全局信息表示向量,g是全局信息提取器。在本文中,我们计算详情见下文。在第一个分支中,我们首先用1×1卷积处理X以得到约简的特征映射x,然后通过应用空间全局平均池化和一个1×1卷积来获得全局信息表示向量g(X在x上变换。在接下来的文章中,我们将局部有限元-si,j=fs(xi,g(X),j).那么方程1演变为公司简介zs=fs(xi,g(X),j)ys.(二)j=1图{xi}和全局向量g(X),以计算每个局部位置i的全局引导的局部亲和向量。在我们的设计中,这是通过1×1卷积和sigmoid激活函数来实现的 有人可能会说,利用大的空间卷积。但这导致了穷人-上述Eq. 2在我们的Adap设计中起着关键作用-金字塔上下文网络。3.2. 自适应上下文模块自适应上下文模块(ACM)是我们的自适应金字塔上下文网络中的一个关键组件。原则上,ACM的目标是为每个局部在实验中,部分原因是由于大型过滤器的复杂性。每个亲和向量具有维度s×s,对应于该尺度中的子区域的数量。总的来说,我们有hw个亲和向量,可以将其重塑为大小为hw×ss的亲和图。第二个分支应用自适应平均池化和X上的1×1卷积来获得ys∈Rs×s×512。然后我们将ys重塑为α7523我我我总iterJs2×512,以匹配亲和图。 然后我们将它们相乘并对结果进行整形,以获得由{zs}组成的自适应上下文矩阵zs。采用残差学习来简化训练过程,因此我们将x添加到zs。3.3. 自适应金字塔上下文网络接下来,我们将描述所提出的用于语义分割的自适应金字塔上下文网络(APCNet)APCNet采用主干CNN,例如ResNet或InceptionNet来计算卷积特征立方体X∈Rh×w ×c,其中h,w,c分别表示宽度、高度和通道号然后APCNet将X转换为总共具有S尺度的金字塔具体地说,对于每个尺度s,我们采用自适应平均池化和一个1×1卷积将X变换到特定的空间大小s×s,并获得ys∈Rs×s×c。那么每个y和原始X使用自适应上下文模块(ACM)进行处理,获得每个空间位置的自适应上下文向量zs。总的来说,APCNet包括并行组织的多个ACM。接下来,我们可以将从不同尺度获得的{zs}连接到最终的自适应上下文向量中zi=[z1,z2,..., zS]。最后,我们利用这两个本地功能4.1.实现细节我 们 采 用 ResNet [12]作 为 我 们 的 骨 干 , 它 是 在ImageNet [29]上预先训练的。在[36,4,38]之后,我们将步幅和膨胀率分别设置为骨干网络的最后两级,并且输出特征图是输入图像的1/8大小[4,38,35]。将输出预测双线性插值到目标大小用于预测每个像素的语义标签我们使用多元学习率策 略 lr=initial lr× ( 1 −iter ) power[4 , 5 , 38] 。PASCAL的初始学习率为0.01VOC 2012 [7]和ADE 20 K数据集[42],Pascal- Context数据集[7]为 0.001选择动量为0.9且权重衰减为0.0001的随机梯度下降(SGD)[3]我们在PASCAL VOC 2012[7]和Pascal-Context数据集[24]上训练了80个epoch,在ADE 20 K数据集[42]上训练了120个epoch。在实践中,适当增大裁剪尺寸可以获得更好的性能,因此我们在PASCAL VOC 2012和Pascal-Context数据集上将裁剪尺寸设置为512,在ADE 20 K上将裁剪尺寸设置为576,因为ADE 20 K数据集的平均图像尺寸大于其他两个数据集[4,40,38]。我们随机翻转并将输入图像从0.5缩放到2作为我们的数据增强。我们的评价指标是类交大于并集(mIoU)的平均值。对于多尺度和翻转评估,我们我我我{Xi}和它们的关联上下文向量{zi}来预测每个像素的语义标签。3.4. 与其他方法的关系在本小节中,我们将自适应金字塔上下文网络与其他上下文语义分割方法进行比较。ParseNet [20]通过全局平均池来聚集全局上下文,如果我们只设置调整输入图像的大小到多个比例和水平翻转它们。这些预测被平均作为最终预测[20,40,30,34]。所有实验都是基于PyTorch [26].4.2. Pascal VOC 2012PASCAL VOC 2012 [7]是语义分割的基准数据集,最初包含1,464个用于训练的图像,1,449个用于验证的图像和1,456个用于测试的图像。总共有20个前台对象类和一个后台对象类。Si、j=1,S =1,ys= g(X)。在PSPNet [40]中,设置αs原始PASCAL VOC 2012数据集中的基础类作为ys的固定双线性插值系数。相反,我们的APCNet以自适应的方式估计αs,公式为:2.最近的方法PSANet [13],DANet [10],OCNet [37]也通过引入自适应权重来缓解这个问题这些方法计算成对相似性或学习像素注意力图。 但它们都忽略了g(X)全局指导的重要性。与这些工作不同的是,我们的APCNet不仅考虑了全局引导的局部亲和度与fs,以从局部和全局表示中估计αs,而且还利用了多尺度表示与特征金字塔。4. 实验我们对三个具有挑战性的语义分割和场景解析数据集进行了广泛的实验,以评估我们提出的方法,包括PASCAL VOC 2012 [7],Pascal-Context [24]和ADE 20K数据集[42]。[7]的文件。原始数据集被扩充到10,582张图像用于训练[11]。在[4,38,5]之后,我们在实验中使用这个增强的训练集。我们进行不同的设置实验,以评估我们提出的模块的有效性我们的基线是如上所述的基于FCN的扩展ResNet [4,22]。金字塔的刻度。采用基于ResNet50的FCN [22]和扩展网络作为我们的基线。我们研究了不同pyra设置的APCNet的性能,中尺度(PS)。结果列于表2中。从表2中,我们有以下观察结果。首先,与基线FCN(第一行)相比,所有金字塔尺度设置都显着提高了性能。 第二,金字塔{1,2,3,6}的尺度取得了最好的效果,使基线FCN的性能提高了8.37%(从69.83%78.20%)。我们可以推断,适当设计的金字塔尺度可以帮助有效地捕捉不同尺度的对象的特征在接下来的实验中,我们将α7524采用金字塔尺度{1,2,3,6}。最后,更深的骨干网络,例如。ResNet101可以进一步改善结果。骨干PSmIoU%ResNet50没有一69.83ResNet50{1}下一页77.89ResNet50{1,2}77.48ResNet50{1,2,3}77.60ResNet50{1,2,3,6}78.20ResNet50{1,2,3,6,32}77.29ResNet101{1,2,3,6}80.71表2.不同金字塔规模和骨干的调查。基线是具有扩张网络的基于ResNet50的FCN(无PS)。PS:金字塔尺度,{1,2,3,6,32}:合并特征,1×1,2×2,3×3,6×6,32×32。结果是evalu-基于PASCAL VOC 2012数据集的验证集,单尺度输入。图3显示了我们的APCNet和基准模型FCN的可视化结果。很明显,APCNet由于其金字塔规模而保留了更多的细节(第1行)。它还引入了更少的错误标记像素(第2行和第3行),这导致了比FCN更好的性能。图3.与基线方法比较。为了进一步说明金字塔尺度的有效性,我们将不同尺度的改进可视化在图4. 从 图 中 可 以 看 出 , 单 尺 度 APCNet 不 如 多 尺 度APCNet,因为单尺度APCNet很难分割尺度变化大的对象。更具体地说,在图4的第一行通过多尺度设置,APCNet不仅保留了船舶的最详细信息,而且还正确地分割了每个人。全球引导的本地亲和力(GLA)。我们进行实验w/oGLA与不同的骨干,以验证GLA 在 我 们 的 APCNet 中 的 重 要 性 。 表 3 列 出 了PASCAL VOC 2012数据集验证集上不含GLA的不同骨架的性能。显然,GLA一致地提高不同主链的性能。骨干GLAmIoU%ResNet5077.68ResNet50C78.20ResNet10180.17ResNet101C80.71表3.研究了不同骨干网络的GLA的重要性,PS为{1,2,3,6}。GLA:Global Guided Local Affinity全球引导的本地亲和力。结果在PASCAL VOC 2012数据集的验证集上进行评价,具有单尺度输入。此外,我们将分割结果可视化,以显示图5中GLA的改进。第一行显示,APCNet与GLA可以导致更准确的分割(对于人附近的狗)。第二和第三表明,APCNet与GLA可以减轻分割成不同的类的对象的问题。这验证了GLA引入的全局信息可以帮助更好地理解复杂的上下文和更一致地分割特定对象。培训和评价战略。不同培训和评估策略的结果见表4。我们可以观察到,1)深度监管可以优化学习过程并进一步提高性能,2)将输入图像缩放到多个尺度并左右翻转图像以进行评估是有用的,3)使用原始训练集对训练模型进行微调,在PASCAL VOC2012验证集上将结果提升到82.67%mIoU,没有MSCOCO预训练。骨干DS翻转MS FT mIoU%80.71下载ResNet101C 80.93ResNet101C C 81.33ResNet101C C C 81.93ResNet101C C C C82.67表4.不同环境对培训和评估的影响(1),(2),(3),(4),(5),(6),(7),(8),(9),( 10),(11),( 12),(13),(14),(15),(16),(17),(19)。DS:深度监督[40],Flip:水平翻转输入图像进行评估,MS:多尺度评估,FT:在PASCAL VOC 2012原始训练集上微调训练模型。在PASCAL VOC 2012数据集的验证集上评价结果适应性。如果去掉自适应模块和GLA模块,我们提出的模型可以简化为PSP- Net.因此,我们用我们的实验设置(添加深度监督)作为我们的基线,用主干ResNet101来实现PSPNet,它在PASCAL VOC验证集(单尺度)上获得79.79%的mIoU。使用自适应和GLA模块,性能得到明显改善,如表5所示。7525图4.单尺度和多尺度分割结果的可视化图5.使用/不使用全局引导局部亲和度(GLA)的分割结果的可视化。自适应GLA mIoU(%)C80.19C C80.93表5.改进的性能基于PSPNet与自适应和GLA模块。PSPNet获得79.79%的mIoU。在PASCAL VOC 2012数据集的验证集上评价结果为了评估PASCAL VOC 2012 [19]测试集,我们将金字塔尺度设置为{1,2,3,6},并采用深度监督策略[40]在 增 强 训 练 集 上 训 练 骨 干 模 型 。 主 干 模 型 是ResNet101预训练的在ImageNet上[29]。然后,我们在原始训练集和验证集上对训练模型进行微调。训练结束后,采用多尺度和翻转的方法进行测试.最终结果提交给官方服务器进行评价,与最先进方法的比较见表6。显然,我们的APCNet在所有方面都明显优于其他方法PASCAL VOC 2012的所有类别请注意,APC- Net可以区分看起来非常相似的类别,例如:牛(93.7%)和马(95%)。这可能是由于我们的方法同时考虑了全局和局部信息的GLA特性。在没有对MS COCO数据集[16]进行预训练的情况下,APCNet实现了84.2% mIoU的最先进性能,这证明了我们提出的方法的有效性。在MS COCO预训练的情况下,我们提出的方法在基于骨干ResNet101的方法中也达到了87.13%的mIoU的最佳性能4.3. Pascal上下文Pascal-Context数据集[24]额外注释了PASCAL VOC2010 [8]的整个场景标签。在[38,17]之后,我们在4,998张图像的训练集上训练我们的模型,并在5,105张图像的测试集上进行评估,并在60个类别上报告我们的结果,包括59个前景类别和一个背景类别。表7比较了现有技术方法的性能。在相同的骨干模型下,我们的APCNet大大超过了DeepLab-v2 [4],Enc- Net [38]和DANet [10]。此外,我们的APCNet在Pascal-Context数据集上实现了最先进的性能,从而证明了其对语义分割的有效性。4.4. ADE20KADE 20 K数据集[42]是一个挑战场景解析数据集,提供150类密集标签,由20 K/2K/3 K图像组成,用于训练,验证和测试,重新排序。由于该数据集中场景的多样性和复杂性,很难实现细微的改进。结果7526方法Aero自行车鸟船瓶总线车猫椅子牛表狗马姆比凯人植物羊沙发火车电视mIoU%[22]第二十二话76.834.268.949.460.375.374.777.621.462.546.871.863.976.573.945.272.437.470.955.162.2DeepLabv2[4]84.454.581.563.665.985.179.183.430.774.159.87976.183.280.859.782.250.473.163.771.6CRF-RNN[41]87.539.079.764.268.387.680.884.430.478.260.480.577.883.180.659.582.847.878.367.172.0DeconvNet[25]89.939.379.763.968.287.481.286.128.577.062.079.080.383.680.258.883.454.380.76572.5DPN[21]87.759.478.464.970.389.383.586.131.779.962.681.980.083.582.360.583.253.477.96574.1[第18话]90.637.680.067.874.49285.286.239.181.258.983.883.984.384.862.183.258.280.872.375.3ResNet38[32]94.472.994.968.878.490.690.092.140.190.471.789.993.791.089.171.390.761.387.778.182.5PSPNet[40]91.871.994.771.275.895.289.995.939.390.771.790.594.588.889.672.889.664.085.176.382.6EncNet[38]94.169.296.376.786.296.390.794.238.890.773.390.092.588.887.968.792.659.086.473.482.9我们95.875.884.576.080.696.990.096.042.093.775.491.695.090.589.375.892.861.988.979.684.2表6. PASCAL VOC 2012测试集的每类结果。 我们的方法优于所有以前的最先进的方法,达到84.2%,没有预先训练的MS COCO数据集。方法骨干mIoU%方法骨干mIoU%FCN-8S [22]37.8[22]第二十二话29.39CRF-RNN [41]39.3SegNet [2]21.64ParseNet [20]40.4DilatedNet [35]32.31[6]第六话40.5[42]第四十二话34.90HO CRF [1]41.3[第17话]ResNet15240.7[第18话]43.3PSPNet [40]ResNet10143.29VeryDeep [31]44.5PSPNet [40]ResNet26944.94DeepLab-v2 [4]ResNet101-COCO45.7EncNet [38]ResNet10144.65[第17话]ResNet15247.3SAC [39]ResNet10144.30摩根士丹利资本国际ResNet15250.3PSANet [13]ResNet10143.77EncNet [38]ResNet10151.7UperNet [33]ResNet10142.66DANet [10]ResNet10152.6DSSPN [15]ResNet10143.68我们ResNet10154.7OCNet [37]ResNet10145.08表7. PASCAL-Context数据集上的分割结果为60有背景的班级我们的方法优于所有以前的国家的最先进的方法有很大的利润。不同方法的ADE20K验证集总结见表8。我们的结果优于其他国家的最先进的结果,即使是浅骨干网络。我们还将我们的方法的测试集分割结果提交给官方评估服务器。像素准确率为72.94%,mIoU为38.39%,得分为55.67%,在排行榜上名列前茅。4.5. 总结与ParseNet [20]和PSPNet [40]相比,我们的方法在PASCAL VOC 2012,Pascal-Context和ADE 20 K数据集上取得了更好的结果。这些结果表明,APCNet自适应聚合多尺度上下文的指导下,全球表示。与PSANet[13],OCNet [37]和DANet [10]通过计算每对像素的语义相关性或对特定像素进行卷积来构建语义上下文不同,我们的全局引导局部亲和度更合理,性能更高5. 结论本文讨论了上下文特征的性质,提出了APCNet自适应地构造多尺度上下文表示,我们的ResNet10145.38表8.ADE 20K验证集上的分割结果我们方法优于所有以前的方法。场景解析APCNet引入了自适应上下文模块,该模块利用我们实验室设计的全局引导局部亲和度生成局部亲和度系数大量的实验表明,APCNet可以捕获不同尺度的对象,并且对对象的预测更加完整和一致。APCNet不仅可以嵌入到任何基于FCN的语义分割网络中,而且可以嵌入到网络的任何层中,与输入特征图的大小无关APCNet可以根据其特性和灵活性扩展到其他场景鸣 谢 。本 工 作 得 到 国 家 自 然 科 学 基 金 项 目(61876176,U1613211,U1713208),沈-中国科学院-香港联合实验室zhen研究项目(JCYJ20150925163005055,CXB 201104220032 A)引用[1] Anurag Arnab 、 Sadeep Jayasumana 、 Shuai Zheng 和Philip HS Torr。深度神经网络中的高阶条件随机场。欧洲计算机视觉会议,第524-540页施普林格,2016年。[2] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegnet:一种深度卷积编解码器架构7527用 于 图 像 分 割 。 arXiv 预 印 本 arXiv : 1511.00561 ,2015。[3] 我 在 博 图 。 随 机 梯 度 下 降 的 大 规 模 机 器 学 习 在COMPSTAT’2010的Proceedings施普林格,2010年。[4] Liang-ChiehChen , GeorgePapandreou , IasonasKokkinos,Kevin Murphy,and Alan L Yuille.Deeplab:使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence,40(4):834[5] Liang-Chieh Chen,Yukun Zhu,George Papandreou,Flo- rian Schroff,and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。arXiv预印本arXiv:1802.02611,2018。[6] 戴季峰、何开明、孙建。Boxsup:利用边界框来监督卷积网络进行语义分割。在Proceedings of the IEEEInternational Conference on Computer Vision,第1635[7] Mark Everingham , Luc Van Gool , Christopher KIWilliams,John Winn,and Andrew Zisserman.pascal视觉 对 象 类 ( voc ) 的 挑 战 。 International Journal ofComputer Vision,88(2):303[8] Mark Everingham , Luc Van Gool , Christopher KIWilliams,John Winn,and Andrew Zisserman.pascal视觉 对 象 类 ( voc ) 的 挑 战 。 International Journal ofComputer Vision,88(2):303[9] Clement Farabet ,Camille Couprie, Laurent Najman ,and Yann LeCun. 学 习 场 景 标 记 的 层 次 特 征 。 IEEEtransactionsonpatternanalysisandmachineintelligence,35(8):1915[10] Jun Fu , Jing Liu , Haijie Tian , Zhiwei Fang , andHanqing Lu.用于场景分割的双注意网络。arXiv预印本arXiv:1809.02983,2018。[11] Bhara thHariharan,PabloArbela' ez,RossGirshick,andJi-tendra Malik.用于对象分割和细粒度定位的超列。在Proceedings of the IEEE conference on computer visionand pattern recognition,pages 447[12] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition,第770-778页[13] 佳雅佳。Psanet:用于场景解析的点式空间注意网络。2018年。[14] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。神经信息处理系统的进展,第1097-1105页,2012年[15] 梁晓丹,周鸿飞,邢伟。动态结构语义传播网络。在IEEE计算机视觉和模式识别会议论文集,第752-761页[16] Di Lin,Yuanfeng Ji,Dani Lischinski,Daniel Cohen-Or,and Hui Huang.多尺度上下文交织语义分割。在欧洲计算机视觉会议(ECCV)的会议记录中,第603-619页[17] Guosheng Lin,Anton Milan,Chunhua Shen,and Ian DReid. Refinenet:用于高分辨率语义分割的多路径细化网络。在Cvpr,第1卷,第5页,2017年。[18] Guosheng Lin,Chunhua Shen,Anton Van Den Hengel,and Ian Reid.用于语义分割的深度结构化模型的高效分段训练。在IEEE计算机视觉和模式识别会议论文集(Proceedings of the IEEEConference on Computer Visionand PatternRecognition),第3194-3203页[19] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Fisher Iris Setosa数据的主成分分析及可视化- Matlab实现
- 深入理解JavaScript类与面向对象编程
- Argspect-0.0.1版本Python包发布与使用说明
- OpenNetAdmin v09.07.15 PHP项目源码下载
- 掌握Node.js: 构建高性能Web服务器与应用程序
- Matlab矢量绘图工具:polarG函数使用详解
- 实现Vue.js中PDF文件的签名显示功能
- 开源项目PSPSolver:资源约束调度问题求解器库
- 探索vwru系统:大众的虚拟现实招聘平台
- 深入理解cJSON:案例与源文件解析
- 多边形扩展算法在MATLAB中的应用与实现
- 用React类组件创建迷你待办事项列表指南
- Python库setuptools-58.5.3助力高效开发
- fmfiles工具:在MATLAB中查找丢失文件并列出错误
- 老枪二级域名系统PHP源码简易版发布
- 探索DOSGUI开源库:C/C++图形界面开发新篇章
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功