没有合适的资源?快使用搜索试试~ 我知道了~
基于多尺度上下文交织的语义分割
基于多尺度上下文交织的语义分割Di Lin1, Yuanfeng Ji1 ,Dani Lischinski2, Daniel Cohen-Or1 , 3 ,and HuiHuang11深圳大学2耶路撒冷希伯来大学3特拉维夫大学{ande.lin1988,jyuanfeng8,danix3d,cohenor,hhzhiyan}@ gmail.com抽象。准确的语义图像分割需要综合考虑局部外观、语义信息和全局场景特征。 在过去的预确定的两个工作和这些有用的卷积特征中,现有技术的语义分割方法的主要不同之处在于它们如何选择将这些不同种类的信息组合在一起。 在这项工作中,我们提出了一种新的计划,从不同的尺度,我们称之为多尺度上下文交织(MSCI)的聚合功能。 与以前的方法(通常以单向方式在尺度之间传播信息)相反,我们通过两个LSTM链之间的连接,以双向和循环的方式合并特征映射对。通过在分割任务上训练LSTM单元的参数,上述方法学习如何为像素级语义分割提取强大有效的特征,然后分层组合此外,而不是使用固定的信息传播路径,我们细分成超像素的图像,并使用它们之间的空间关系,以执行图像适应的上下文聚合。我们对公共基准的广泛评估表明,我们方法的所有上述组件都提高了整个网络的信息传播效率,并显着提高了其最终的分割精度。关键词:语义分割,深度学习,卷积神经网络,长短期记忆1介绍语义分割是计算机视觉中的一项基本任务,其目标是将语义对象类别与图像中的每个像素相关联[1-4]。许多现实世界的应用,例如,自动驾驶[4]、医学分析[5]和计算摄影[6]可以受益于提供关于图像内容的详细信息近年来,语义切分的准确性有了很大的提高。这些进步在很大程度上是由全卷积网络(FCN)[7]及其衍生物[8,9]的力量推动的,这些网络是预先训练的黄辉为本文通讯作者2D. Lin,Y.Ji,D.Lischinski、D.Cohen-Or和H.黄空间金字塔池化图像预测图像预测(a) (b)编码器-解码器网络图像(c)多尺度上下文交织网络预测图1:用于将多尺度上下文信息编码成用于每像素预测的分割特征的替代方法空间金字塔池化(SPP)网络(a)和编码器-解码器(ED)网络(b)以单向方式跨层级传播信息。相比之下,我们的多尺度上下文交织架构(c)以双向方式在相邻尺度之间交换信息,并且分层地组合所得到的特征图。图2提供了多阶段循环上下文交织过程的更详细的图示。大规模数据集[10,2]。同样显而易见的是,考虑语义上下文可以更准确地分割单个对象[11 -14,9,15-19]。由卷积网络的更深层提取的特征图编码包含在每个神经元的大感受野中的更高级别的语义信息和上下文。相比之下,较浅的层编码外观和位置。最先进的语义分割方法将粗略的语义上下文信息传播回浅层,产生更丰富的特征和更准确的分割[7,9,17然而,在这些方法中,上下文通常以单向方式沿着特征层级传播,如图1(a)和(b)所示。在本文中,我们主张的想法,更强大的功能,可以通过使规模之间的双向方式交换的背景下学习。我们将这种信息交换称为上下文交织。这里的直觉是,相邻尺度的语义和上下文是强烈相关的,因此特征的描述能力可以通过这种交织而显著增强,从而导致更精确的语义标记。我们的方法如图1(c)所示从多尺度卷积特征图的集合开始,每对连续的特征映射可以是多尺度卷积特征图的集合。基于多尺度上下文交织的语义分割3地图交织在一起,产生一个新的丰富的特征地图。交织使用两个长短期记忆(LSTM)单元链[22]进行建模,它们以双向方式在它们之间重复交换信息,如图2所示。每个交织阶段将特征图的数量减少一个,从而产生分层特征组合方案(图1(c)中的水平层次最后,一个单一的丰富的高分辨率的特征图仍然存在,然后用于每像素的语义标签推理。此外,我们不是使用固定的信息传播路径进行上下文聚合,而是将图像细分为超像素,并使用超像素之间的空间关系来定义图像自适应特征连接.我们通过评估我们的方法并将其与四个公共数据集(PASCALVOC 2012 [1],PASCAL-Context [3],NYUDv 2 [23]和SUN-RGBD [24]数据集)上的一系列最先进的语义分割方法进行比较来证明我们的方法的有效性在PASCAL VOC 2012验证集上,我们的表现优于最新技术水平(平均IoU为85.1%)。在PASCAL VOC 2012测试集上,我们的性能(平均IoU为87.0%)仅次于Chen等人的最新结果。[25],他使用在内部JFT数据集上训练的骨干网络[26 -28] ,而我们的骨干网络是在ImageNet数据集上训练的[10]。2相关工作全卷积网络(FCN)[7]已被证明通过利用在大规模数据[10,24]上预训练的分类网络[29,30,27]的强大卷积特征来有效地进行语义图像分割。由不同卷积层提取的特征图具有逐渐变粗的空间分辨率,并且它们的神经元对应于图像空间中逐渐变大的感受野。因此,不同分辨率的特征图的集合编码多尺度上下文信息。语义分割方法一直试图利用这种多尺度上下文信息来进行准确的分割。在本文中,我们重点研究了两个方面,即,特征组合和特征连接,最近的大多数作品[7,9,18-20,31-33]也探索了这一点,特征组合为了捕获分割特征中的多尺度上下文信息,许多作品结合了具有不同感受野的神经元的特征图已经提出了用于特征图的组合的各种方案 空间金字塔池化(SPP)[34]已成功应用于组合不同的卷积特征图[9,18,20]。通常,馈送到逐像素分类器的最后一个卷积特征图配备有SPP(参见图1(a))。但是SPP丰富的特征图几乎没有被FCN的下采样操作遗漏的详细信息虽然atrous卷积可以保留特征图的分辨率以获得更多细节,但它需要大量的GPU存储预算用于计算[29,30,27]。节省GPU内存并改进分割4D. Lin,Y.Ji,D.Lischinski、D.Cohen-Or和H.黄为了提高性能,一些网络[35,17,19,21]利用编码器-解码器(ED)网络沿着公共FCN架构的自上而下的层次结构逐渐组合相邻的特征图,将语义信息从低分辨率特征图传播到高分辨率特征图,并使用高分辨率特征图来恢复对象的细节(参见图1(b))。最新的工作[25]进一步使用了ED网络以及一个atrous空间金字塔池(ASPP)[20],并结合了多分辨率特征图来丰富信息。在ED网络中,解码器部分的每个特征图仅直接从编码器部分的相同级别的特征图接收信息。但是由编码器部分的相邻较低分辨率特征图提供的强相关语义信息必须通过附加的中间层以到达相同的解码器层,这可能导致信息衰减。相比之下,我们的方法直接结合了深层网络层次结构中的相邻特征图对。它创建新的特征图,这些特征图直接从较低分辨率的特征图接收语义信息和上下文,并从较高分辨率的特征图接收改进的空间细节。此外,在我们的架构中,特征图之间的信息交换是经常性的和双向的,从而实现更好的特征学习。成对双向连接产生所得到的特征图的第二水平层次结构,导致全分辨率上下文丰富的特征图(图1(c)中最右边的特征图),其用于逐像素标签预测。特征连接特征图之间的连接使具有不同感受野大小的神经元之间能够通信,从而产生编码多尺度上下文信息的新特征图基本上,基于FCN的模型[7通常,它们使用具有预定义形状的卷积/池化内核来聚集相邻神经元的信息,并将该信息传播到其他特征图的神经元但是传统的卷积/池化内核仅在局部范围内捕获上下文信息。为了利用更丰富的上下文信息,图形模型与FCN集成[12,13,16]。图形模型在特征图之间建立了密集的连接,使神经元对全局图像内容更加敏感,这对于学习良好的分割特征至关重要。注意,先前的工作使用从特征图单独提取上下文信息的单向连接,其甚至被组合。因此,给定尺度下的学习特征没有被给予最佳地考虑来自所有其他尺度的多尺度上下文信息的机会。与以前的方法相比,我们的双向连接交换多尺度上下文信息,以提高所有功能的学习。我们使用基于图像结构计算的超像素,并使用它们之间的关系来定义不同特征图中神经元之间的交换路径。这使得能够实现更自适应的上下文信息传播。几个先前的作品[31-并且在[37,38]中研究了用于对象检测的信息交换但基于多尺度上下文交织的语义分割5Hl+1t−1Hlt−1Flt−1t−1F1+1Hl+1电话+1Hl电话+1Fl电话+1电话+1F1+1Hl0Fl0HltFltHlTFlTH1+1 0F1+1 0Hl+1不F1+1不Hl+1不不F1+1......图2:在深层次结构中的两个连续特征图之间的多尺度上下文交织绿色箭头将上下文信息从低分辨率特征图传播相反,蓝色箭头将来自高分辨率特征图的信息转发到低分辨率特征图。每个阶段中的橙色圆圈表示LSTM输出的隐藏特征,包括单元状态和门。这些工作没有在不同分辨率的特征图之间交换对于语义分割至关重要的信息。3多尺度上下文交织为了利用多尺度上下文信息,公共网络使用单向连接来组合不同分辨率的特征图,遵循网络层次结构的自上而下的顺序(参见图1(a)和(b))。在这里,我们提出了一个多尺度的上下文交织(MSCI)架构,其中的上下文信息可以沿着不同的维度传播。第一个维度是沿着垂直的深层层次结构(见图1(c)):我们的上下文交织方案具有在相邻特征图之间交换多尺度上下文信息的连接。这种连接是双向的,具有两个不同的长短期记忆(LSTM)链[22],它们在一系列阶段中交织不同分辨率的特征图通过训练LSTM单元,双向连接学习生成更强大的特征图。第二维是沿着水平层次:由我们的双向连接产生的特征图被馈送到上下文交织的下一个阶段,它可以将我们的双向连接记忆的上下文信息编码到新的特征图中。总体MSCI架构如图1(c)所示最初,我们使用骨干FCN来计算不同分辨率的卷积特征图集合{Fl},其中l = 1,...,L和F 1的分辨率最高。图2提供了两个连续特征图F1和F1+ 1之间的上下文交织的更详细视图。为了在F1和F1+ 1之间交换上下文信息,我们构建双向连接L:{Q1,C1- 1+ 1,C1 + 1 - 1}= L(F1,F1 + 1,C1- 1+ 1,C1 + 1 - 1,P1 - 1+ 1,P1 + 1 - 1,T)。 (一)T T6D. Lin,Y.Ji,D.Lischinski、D.Cohen-Or和H.黄K不不K算法1多尺度上下文交织1:输入:1) 上下文交织的每个阶段的级数T2) 卷积特征图的集合F ={F l},其中l = 1,.,L;3) 训练的参数集{(Pl-l+ l,Pl+ l-l)}。2:初始化:1) 用于上下文交织的总共K个相位,其中K=L- 1;2) 假设Q={Qk},其中Q0={Ql|并且Qk=0,k =1,…K;0 03) 一组单元状态{(Cl-1+ 1,Cl+1 -1)},其中Cl-1+ 1,Cl+1 -1=0。3:对于k= l-K,do4: 对于1=1-|Qk−1|− 1do5:{Ql,Cl-l +l,Cl+ l-l}=L(Ql,Q1+ 1,C1 → 1+ 1,C1+ 1 →1,P1 → 1+ 1,P1+ 1 →1,T)kTTk−1k−16:Qk=Qk{Ql},(Cl→l+1,Cl+1 →l)=(Cl→l+1,Cl+1 →l)kT T7:结束8:结束9:输出:分割特征图Ql。双向连接L由两个不同的LSTM链组成一个链具有参数集Pl-l+1。它从F1中提取上下文信息并将其传递给F1+ 1。另一个链具有参数集P1+ 1-1,并且将上下文信息从F1+ 1传递到F1。Cl-1+ 1和Cl+1 -1是两个LSTM的单元状态,并且它们在一开始就被初始化为零如图2所示,信息交换发生在T个阶段上。在每个阶段t,在特征图F1和F1+ 1之间交换信息,得到映射F1和F1+ 1。注意,所得到的特征图Fl具有较高t+1t+1T分辨率为F1+ 1。因此,我们将特征图Fl+1与核函数Fl+1进行去卷积。不Dl+1并加到Fl不以获得组合的高分辨率特征图Ql:fTQ1= F 1+ D1+ 1* F 1+ 1。(二)TfT注意,特征图Ql和单元状态Cl-1+ 1和Cl+1 -1可以是:T T进一步用于驱动上下文交织的下一阶段(下一级水平层次)。沿着LSTM链,特征图包含具有较大感受野的神经元,即,更丰富的全球背景。此外,LSTM的信元状态可以存储在不同阶段交换的上下文信息。由于单元状态的快捷设计[22],来自早期阶段的局部上下文可以很容易地传播到最后阶段,将包括局部和全局信息的多尺度上下文编码到最终特征图。整个MSCI过程总结在算法1中。我们假设MSCI过程总共有K个阶段。算法1的每个阶段产生新的特征图。当每对特征图交织时,对应的单元状态(Cl-1+ 1,Cl+1 -1)被迭代地更新以提供所存储的上下文来辅助下一阶段中的信息交换最后,出-put是高分辨率特征图Q1这是一个关于智慧的经典。fier用于分割。算法1描述了通过基于多尺度上下文交织的语义分割7不n,t不n,tLSTM。我们注意到LSTM参数是可重用的,并且LSTM使用具有反向传播的标准随机梯度下降(SGD)算法进行训练。下面,我们专注于单个上下文交织阶段,因此省略下标k以简化符号。4双向连接在本节中,我们将更详细地描述双向连接,该双向连接使得能够在低分辨率特征图和高分辨率特征图之间相互交换上下文信息。我们的双向连接由原始图像的超像素结构引导给定输入图像I,我们将其划分为非重叠超像素,其对应于一组重新像素。gions{Sn}。令Fl和Fl+1表示我们的图中的两个相邻分辨率特征图t t其中l是分辨率级别,t是LSTM阶段。背景F1和F1+ 1之间的信息交换使用区域de-1来进行。t t由超像素细化。非正式地,在两个级别中的每一个,对于每个区域Sn,我们首先聚集其感受野集中在Sn内的神经元。接下来,我们将Sn及其所有相邻区域在一个级别上的聚合特征加在一起,并将所得上下文信息传递给驻留在区域Sn中的另一级别的神经元。这在两个方向上完成,如图3(a)和3(b)所示。因此,我们丰富了每个神经元的局部聚合上下文信息与其对应的其他级别,以及从周围区域聚合的更全局的上下文。我们的研究结果表明,这显着提高分割精度。形式上,给定特征图Fl和区域Sn,我们首先聚合Sn中的神经元,产生区域上下文特征Rl∈RC:ln,tΣ=(h,w)∈Φ(Sn)Fl(h,w),⑶其中Φ(Sn)表示区域Sn内的感受野的中心的集合。接下来,我们定义更全局的上下文特征MlSn及其相邻区域N(Sn)的特征,通过聚合区域ln,tΣ=Sm∈N(Sn)lm,t.(四)上述特征在Fl和Fl+1之间使用通信协议双向传播。t t一对LSTM链,如图2所示。在第t个阶段中,LSTM单元RRM8D. Lin,Y.Ji,D.Lischinski、D.Cohen-Or和H.黄F1+1 不Fl不F1+1 不Fl不(a)(b)第(1)款图3:双向上下文聚合。特征被划分成由超像素限定的不同区域。我们聚集了位于同一区域的神经元,并沿着双向连接传递相邻区域的信息(a)从低分辨率特征到高分辨率特征;以及(b)从高分辨率特征到低分辨率特征。从F1+ 1、R1、R2和R3生成新特征F1+ 1,Ml,具体如下:电话+1tn,tn,tGl→l+1(h,w)=σ(Wl+1*Fl+1(h,w)+Wl*Rl+WlMl+bl+1),i,tits,in,ta我n,tiGl→l+1(h,w)=σ(Wl+1*Fl+1(h,w)+Wl*Rl+WlMl+bl+1),f,tfts,fn,ta、fn,t fGl→l+1(h,w)=σ(Wl+1*Fl+1(h,w)+Wl*Rl+WlMl+bl+1),o,t奥特斯岛n,ta,on到oGl→l+1(h,w)= tanh(Wl+1*Fl+1(h,w)+Wl*Rl+WlMl+bl+1),c,tc ts,cn,t素八n,t cCl→l+1(h,w)=Gl→l+1(h,w)<$Cl→l+1(h,w)+Gl →l+1(h,w)<$Gl→l+1(h,w),电话+1f,tti,tc,tAl→l+1(h,w)= tanh(Gl→l+1(h,w)<$Cl→l+1(h,w)),电话+1o,t电话+1F1+ 1(h,w)=F1+ 1(h,w)+A1→ 1+ 1(h,w),(5)t+1t t+1其中(h,w)∈Φ(Sn).W和b是卷积核和偏置。由方程式 (5),卷积用*表示,而⊙表示Hadamard乘积。分别为G和C表示LSTM单元的门和单元状态。Al→l+1是Fl+1的增广特征,它们具有相等的分辨率。t+1t我们将增强特征Al→l+1与Fl+1相加,产生新特征基于多尺度上下文交织的语义分割9t+1tF1+ 1用于下一阶段。特征序列Fl以相同的方式定义t+1t如上所述(其中上标l被l+ 1替换,反之亦然)。5实现细节我们使用Caffe平台[39]来实现我们的方法。我们的方法可以基于不同的深度架构[29,40,30],并且我们使用ResNet-15210D. Lin,Y.Ji,D.Lischinski、D.Cohen-Or和H.黄架构[30]在ImageNet数据集[10]上预先训练,作为我们的骨干网络。我们随机初始化我们的基于LSTM的双向连接的参数在训练我们的网络以进行不同基准的评估之前,我们遵循[18,17,20,25]并使用COCO数据集[2]来微调整个网络。给定输入图像,我们应用结构化边缘检测工具箱[41]来计算超像素。根据经验,我们将超像素的比例设置为每张图像1,000。图像被馈送到骨干网络以计算卷积特征。 在[31]之后,我们从每个残差块中选择最后一个卷积特征图作为输入到我们的上下文交织netw或k中的初始特征图。 手法。特别是,使用ResNet-152网络,其中包括res2、res3、res4和res5分别为F1、F2、F3、F4这些特征图的连续对0 0 0 0被输入到我们的基于LSTM的上下文交织模块中,每个模块都有3个双向交换阶段。我们使用标准SGD求解器优化分割网络。我们微调了骨干网络和双向连接的参数在训练过程中,我们使用常见的翻转,裁剪,缩放和旋转图像来增强训练数据。该网络经过微调,学习率为1e−3,用于6万个小批量。在那之后,我们将接下来的60 K个小批量的学习率衰减到1 e-4。每个minibatch的大小设置为12。利用训练好的模型对每幅图像进行多尺度测试,得到分割结果。也就是说,我们使用五个因子(即, {0。四,零。6,0。八,一。0,1。2}),并将不同缩放的版本馈送到网络中以获得预测。对预测进行平均以产生最终结果。6实验我们在四个公共的语义分割基准上评估了我们的方法,这些基准是PASCAL VOC 2012 [1] , PASCAL-Context [3], NYUDv 2 [23] 和 SUN-RGBD[24]数据集。PASCAL VOC 2012数据集[1]已广泛用于评估分割性能。它包含10,582张训练图像以及20个对象类和背景的像素级注释。PASCAL VOC 2012数据集还提供了1,449张图像的验证集和1,456张图像的测试集。我们使用该数据集对我们的网络进行主要评估。我们进一步使用PASCAL-Context,NYUDv 2和SUN-RGBD数据集与最先进的方法进行广泛的比较。我们报告了所有的分割分数的平均交集超过联盟(IoU)。MSCI的消融研究我们的MSCI架构被设计成使得能够在特征图之间交换多尺度上下文信息。它由使用超像素定义的循环双向连接下面,我们报告了我们的方法的消融研究,该研究检查了删除各种关键组件对分割性能的影响。结果总结于表1中。基于多尺度上下文交织的语义分割11我们的方法基于LSTM,每个LSTM都可以被视为一个特殊的递归神经网络(RNN)单元,具有用于记忆的单元状态。通过移除RNN和单元状态,我们有效地禁用了特征映射之间的双向连接。在这种情况下,我们的模型退化为基本FCN,并获得77.8的分割分数,远远落后于我们的完整MSCI模型。RNN细胞国超像素平均IoU77.8CC84.4CC84.3CCC85.1表1:PASCAL VOC 2012确认集的消融实验。分段准确度以平均IoU(%)报告。战略方法VOC 2012上下文w/o组合基本FCN [9]77.841.2SPP [18]81.143.6无层次结构编码器-解码器[17]ASPP [20]81.482.244.346.0[25]第二十五话82.547.4w/hierarchyMSCI85.150.3表2:不同特征组合策略的比较。在PASCAL VOC 2012和PASCAL-Context验证集上评价性能。分割准确度以平均IoU(%)报告。接下来,我们研究细胞状态的重要性我们的方法利用细胞状态在所有的细胞状态从我们的双向连接,我们的方法达到了84的准确性。4%,明显低于85。准确率为1%在我们的方法中,超像素根据图像结构自适应地将特征划分为不同的区域,然后将其用于上下文聚合和交换(图3)。我们移除超像素并插入低分辨率特征图[17,18]以与高分辨率图匹配。因此,每个神经元从局部常规窗口聚合上下文 与我们的完整模型相比,性能下降到84。3%,证明使用超像素来引导上下文聚合的有效性特征组合策略我们的方法以分层的方式组合由双向连接产生的特征在表2中,我们10D. Lin,Y.Ji,D.Lischinski、D.Cohen-Or和H.黄将我们的特征组合策略与其他网络的特征组合策略进行比较[9,18,17,20,25]。为了进行公平的比较,我们通过在ImageNet数据集上使用ResNet-152骨干模型进行预训练,并在COCO数据集和PASCAL VOC2012训练集上对其进行微调来重现比较的网络。在没有任何特征组合的情况下,骨干网FCN模型达到77分。8%。接下来,我们将我们的网络与SPP网络[9,18,20]和编码器-解码器[35,17,19,21,25]网络进行比较。对于SPP网络,我们选择了[18]中提出的最先进的模型进行比较。ASPP网络[20]是SPP网络的变体,并且它可以实现更好的性能。结果比SPP网络。对于编码器-解码器网络,我们选择[17]中提出的模型进行比较。我们还将我们的网络与具有ASPP组件的最新编码器-解码器网络进行了比较[25]。这些模型结合了通过我们的双向连接学习的相邻特征,与没有双向连接的对应模型相比,这通常会导致分割分数提高0.4〜我们发现,我们的方法比其他方法更好地执行。在图4中,我们还可以观察到,MSCI提供了比其他方法更好的视觉结果。val集测试集方法平均IoU方法平均IoUChen等人[9]第一章77.6Wang等人[第四十二届]83.1Sun等人[四十三]80.6Peng等人[19个]83.6Wu等人[第四十四届]80.8Lin等人[17个]84.2Shen等人[45]80.9Wu等人[第四十四届]84.9Peng等人[19个]81.0Zhao等人[18个国家]85.4Zhao等人[18]81.4Wang等人[46个]86.3Lin等人[17个]82.7Fu等[47个]86.6Chen等人[20个]82.7Luo等人[48个]86.8Chen等人[25日]84.6Chen等人[20个]86.9Fu等[47个]84.8Chen等人[25日]89.0MSCI85.1MSCI88.0表3:与其他现有技术方法的比较在PASCAL VOC 2012验证集(左)和测试集(右)上评价性能分割准确度以平均IoU(%)报告。在表3中,我们报告了我们的方法在PASCAL VOC 2012验证集和测试集上的结果,并与最先进的方法进行了比较 在验证集(见表3(左)),MSCI实现了比所有其他方法更好的结果。具体而言,给定基于多尺度上下文交织的语义分割11相同的训练图像集,它优于[18,20,17]中提出的模型,这些模型分别基于SPP,ASPP和编码器-解码器网络。此外,我们还报告了我们的测试集上的结果我们的每个类别的结果12D. Lin,Y.Ji,D.Lischinski、D.Cohen-Or和H.黄图像地面实况ASPP编解码器+ ASPPMSCI图4:ASPP模型[20]、具有ASPP模型的编码器-解码器[25]和我们的MSCI的分割结果。图像取自PASCAL VOC 2012验证集。图像地面实况ASPP编解码器+ ASPPMSCI图5:ASPP模型[20],编码器-解码器与ASPP模型[25]和我们的MSCI的分割结果。这些图像是从PASCAL-上下文验证集中获取的场景。基于多尺度上下文交织的语义分割13测试集可以在PASCAL VOC排行榜1上找到。88的结果0%的百分比仅次于[25]中报告的分数,该分数利用了更强大的骨干网络,在内部JFT-300 M数据集上训练[26我们对三个场景标记数据集进行了额外的实验,包括PASCAL-Context [3],NYUDv 2 [23]和SUN-RGBD [24]。与以对象为中心的PASCAL VOC 2012数据集相比,这些场景标记数据集为对象和东西提供更复杂的逐像素注释,这需要分割网络对图像中的场景进行全面推理我们使用这些数据集来验证我们的网络是否可以很好地标记场景图像。PASCAL-Context数据集[3]包含59个类别和背景,提供了4,998张用于训练的图像和5,105张用于验证的图像在表2中,我们已经使用该数据集将MSCI与其他特征组合策略进行了比较,并发现它在场景标记任务中表现良好我们在图5中提供了几个分割结果表4显示,MSCI在该数据集上优于其他最先进的方法。上下文NYUDv2SUN-RGBD方法Miou方法Miou方法MiouDai等人[49个]40.5Long等人[七]《中国日报》34.0Chen等人[9]第一章27.4Lin等人[第十五条]42.0Eigen等人[50个]34.1Kendall等人[五十一]30.7Lin等人[16个]43.3He等人[五十二]40.1Long等人[七]《中国日报》35.1Wu等人[五十三]44.5Lin等人[16个]40.6Hazirbas等人[五十四]37.8Chen等人[9]第一章45.7Zhao等人[18]45.2Lin等人[16个]42.3Lin等人[17个]47.3Lin等人[17个]47.0Lin等人[17个]47.3Wu等人[第四十四届]48.1Lin等人[55个]47.7Lin等人[55个]48.1MSCI50.3MSCI49.0MSCI50.4表 4 : 与 其 他 现 有 技 术 方 法 的 比 较 。 在 PASCAL-Context 验 证 集(左)、NYUDv 2验证集(中)和SUN-RGBD验证集(右)上评估性能。分割准确度以平均IoU(%)报告。我们在NYUDv 2 [23]和SUN-RGBD [24]数据集上进一步评估了我们的方法,这些数据集最初用于RGB-D场景标记。NYUDv2数据集[23]有1,449张图像(795张训练图像和654张测试图像)和40个类别的像素级注释。SUN-RGBD数据集[24]有10,335张图像(5,285张训练图像和5,050张测试图像)和37个类别的像素注释与PASCAL-Context数据集不同,NYUDv 2和SUN-RGBD数据集由室内场景的图像组成。我们在表4中报告了 MSCI和其他最先进方法我们注意到1 http://host.robots.ox.ac.uk:8080/anonymous/F58739.html14D. Lin,Y.Ji,D.Lischinski、D.Cohen-Or和H.黄成像地面实况图6:MSCI分割结果。图像取自NYUDv 2验证集(左)和SUN-RGBD验证集(右)。[55]中提出的先前方法联合使用RGB和深度信息进行分割,并且分别在NYUDv 2和SUN-RGBD验证集上实现了47.7和48.1的分数即使没有深度信息,MSCI的表现也优于以前的最佳结果。我们在图6中展示了我们在NYUDv 2和SUN-RGBD验证集上的一些7结论语义分割的最新进展可以归因于强大的深度卷积特征以及局部和全局上下文信息的联合考虑。在这项工作中,我们提出了一种新的方法,用于连接和组合来自多个尺度的特征图和上下文。我们的方法使用互连的LSTM链,以便在对应于相邻尺度的特征图之间有效地交换信息。丰富的地图分层组合,以产生像素级语义推理的高分辨率特征图我们已经证明,我们的方法是有效的,优于国家的最先进的几个公共基准。未来,我们计划将MSCI方法应用于更强大的骨干网络和更大规模的数据集进行训练。此外,我们的目标是将MSCI扩展到其他识别任务,如目标检测和3D场景理解。致谢我们感谢匿名评论者的建设性意见。本工作得到国家自然科学基金部分资助(61702338,61522213,61761146002,61861130365),973计划(2015 CB 352501)、广东省科技计划(2015 A030312015)、深圳市创新计划(KQJSCX20170727101233642、JCYJ20151015151249564)、ISF-NSFC联合研究计划(2472/17)。基于多尺度上下文交织的语义分割15引用1. Everingham,M.凡古尔湖威廉姆斯,C.K.,Winn,J.,齐瑟曼,A.:Pascal Visual Object Classes(VOC)挑战。IJCV(2010)2. 林,T. 是的, 我是M Belongie,S., 嗨,J., Perona,P., Ramanan,D. ,Dolla'r,P.,Zitnick,C.L.:Microsoft COCO:上下文中的公共对象In:ECCV.(2014年)3. Mottaghi河陈旭,Liu,X.,中国科学院院士,Cho,N.G.,Lee,S.W.,Fidler,S.,Urtasun河Yuille,A.:背景在野外对象检测和语义分割中的作用在:CVPR中。(2014年)4. Cordts,M.,Omran,M.,Ramos,S.,Rehfeld,T.,Enzweiler,M.,Benenson河弗兰克,美国,Roth,S.,Schiele,B.:Cityscapes数据集用于语义城市场景理解。在:CVPR中。(2016年)5. 陈洪,Qi,X.,尤湖窦,Q,秦杰,Heng,P.A.:DCAN:深度轮廓感知网络,用于组织学图像的对象实例分割医学图像分析(2017)6. Yoon,Y. Jeon,H.G.,Yoo,D.,Lee J.Y. Kweon,I.S.:基于卷积神经网络的光场图像超分辨率。IEEE信号处理快报(2017)7. 朗J Shelhamer,E.,达雷尔,T.:用于语义分段的全卷积网络。在:CVPR中。(2015年)8. 诺H Hong,S.,汉,B.:用于语义分割的学习反卷积网络。In:ICCV.(2015年)9. Chen , L.C. , 帕 潘 德 里 欧 , G. , 科 基 诺 斯 岛 墨 菲 K Yuille , A.L. :DeepLab:使用深度卷积网络,atrous卷积和完全连接的CRF进行语义图像分割。2016年《ArXiv10. Deng,J.,Dong,W.,索赫尔河Li,L.J.,Li,K.,李菲菲:ImageNet:一个大规模的分层图像数据库。在:CVPR中。(二零零九年)11. Hariharan,B. Ar bel'aez,P., Gir shi ck,R., Malik,J. :用于对象分割和细粒度定位的H y p e r c o r o在:CVPR中。(2015年)12. Zheng,S.,中国科学院,Jayasumana,S.,Romera-Paredes,B.Vineet,V.,苏、Z.Du,D.,黄,C.,Torr,P.H.:作为递归神经网络的条件随机场In:ICCV.(2015年)13. 刘志,Li,X.,Luo,P.,Loy,C.C.,唐X:基于深度解析网络的语义图像分割。In:ICCV. (2015年)14. 帕潘德里欧,G.,Chen,L.C.,墨菲K Yuille,A.L.:用于语义图像分割的DCNN的弱监督和半监督学习。arXiv预印本arXiv:1502.02734(2015)15. Lin,D. Dai,J.,贾,J.,他,K.,孙杰:ScribbleSup:用于语义分割的Scribble-supervised卷积网络。在:CVPR中。(2016年)16. 林,G.,Shen,C.,van den Hengel,A.,Reid,I.:用于语义分割的深度结构化模型的高效分段训练在:CVPR中。(2016年)17. 林,G.,Milan,A. Shen,C.,Reid,I.:RefineNet:具有身份映射的多路径细化网络,用于高分辨率语义分割。2016年《ArXiv18. 赵,H.,施,J.,Qi,X.,王,X.,Jia,J.:金字塔场景解析网络。2016年《ArXiv》19. Peng,C. Zhang,X., Yu,G., Luo,G., Sun,J. :Largeker nelma t e r em a t e r e ne l m at e r e ne r e m a t e r e ne l m a t e r e ne r en ArXiv(2017)20. Chen,L.C.,帕潘德里欧,G.,Schroff,F.,Adam,H.:再思考无卷积在语义图像分割中的应用。ArXiv(2017)16D. Lin,Y.Ji,D.Lischinski、D.Cohen-Or和H.黄21. Pohlen,T.,Hermans,A. Mathias,M.,莱贝B:用于街道场景语义分割的全分辨率残差网络。CVPR(2017)22. Hochreiter,S.,Schmidhuber,J.:长短期记忆。03 The Dog(1997)23. Silberman,N.Hoiem,D.,Kohli,P.,Fergus,R.:室内分割和支持RGBD图像的推理。In:ECCV. (2012年)24. Song,S.,Lichtenberg,S.P.,Xiao,J.:SUN RGB-D:RGB-D场景理解基准套件。在:CVPR中。(2015年)25. Chen,L.C.,Zhu,Y.,帕潘德里欧,G.,Schroff,F.,Adam,H.: 用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。arXiv预印本arXiv:1802.02611(2018)26. Hinton , G. Vinyals , O. , Dean , J. : 在 神 经 网 络 中 提 取 知 识 。 NIPS(2014)27. Chollet,F.:Xception:使用深度可分离卷积的深度学习。CVPR(2017)28. 孙角,澳-地Shrivastava,A.,辛格,S.,Gupta,A.:在深度学习时代重新审视数据的不合理In:ICCV. (2017年)29. Krizhevsky,A.,萨茨克弗岛Hinton,G.E.:基于深度卷积神经网络的ImageNet分类。在:NIPS。(2012年)30. 他,K.,张,X.,Ren,S.,孙杰:用于图像识别的深度残差学习。CVPR(2016)31. 林,T. 是的, Doll'ar,P., Gir shi ck,R., He,K., Hariharan,B.Belongie,S. :用于对象检测的Fetur金字塔网络。CVPR(2017)32. 梁湘,沈,X.,冯杰,林,L.,Yan,S.:使用图LSTM进行语义对象解析In:ECCV. (2016年)33. 梁湘,沈,X.,Xiang,D.,冯杰,林,L.,Yan,S.:语义对象分析与hl ocal-globalongshort-ter mmemor y。 In:CVPR. (2016)318534. Lazebnik,S.,施密德角Ponce,J.:除了功能袋之外:用于识别自然场景类别的空间金字塔匹配。在:CVPR中。(2006年)35. Ronneberger,O.,Fisc
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 十种常见电感线圈电感量计算公式详解
- 军用车辆:CAN总线的集成与优势
- CAN总线在汽车智能换档系统中的作用与实现
- CAN总线数据超载问题及解决策略
- 汽车车身系统CAN总线设计与应用
- SAP企业需求深度剖析:财务会计与供应链的关键流程与改进策略
- CAN总线在发动机电控系统中的通信设计实践
- Spring与iBATIS整合:快速开发与比较分析
- CAN总线驱动的整车管理系统硬件设计详解
- CAN总线通讯智能节点设计与实现
- DSP实现电动汽车CAN总线通讯技术
- CAN协议网关设计:自动位速率检测与互连
- Xcode免证书调试iPad程序开发指南
- 分布式数据库查询优化算法探讨
- Win7安装VC++6.0完全指南:解决兼容性与Office冲突
- MFC实现学生信息管理系统:登录与数据库操作
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功