没有合适的资源?快使用搜索试试~ 我知道了~
ZigZagNet:多上下文聚合的对象分割方法
1ZigZagNet:融合自顶向下和自底向上上下文的对象分割狄琳1沈定国1沈思婷1纪元丰1丹尼·利钦斯基2丹尼尔·科恩-奥尔1黄辉1李1深圳大学2耶路撒冷希伯来大学摘要多尺度上下文信息已被证明是必不可少的对象分割任务。最近的工作通过聚合由深度神经网络的不同级别提取的卷积特征图来构建多尺度上下文这通常通过以单向、自上而下和自下而上的方式传播和熔合特征来完成在这项工作中,我们介绍了ZigZagNet,它不仅使用密集的自上而下和自下而上的传播,而且还通过引入自上而下和自下而上层次结构的不同级别之间的路径交叉,以锯齿形的方式聚合了更丰富的多上下文特征图。此外,上下文信息在多个阶段上被交换和聚合,其中来自一个阶段的融合特征图被馈送到下一个阶段,从而产生用于改进分割性能的更全面的上下文我们对公共基准的广泛评估表明,ZigZagNet在语义分割和实例分割任务方面都超越了最先进的准确性。1. 介绍目标分割是计算机视觉中一个长期存在的具有挑战性的它包含各种任务,包括语义和实例分割。最近的先进分割方法显著提高了对象分割的准确性,利用深度卷积神经网络(CNN)的强大功能从大规模数据集中学习。定位对象实例的困难之一源于自然图像中的对象可能以多种尺度出现的事实。由于CNN [18,38,16,40,6]由各种空间分辨率的卷积特征图组成,最近的对象分割方法[25,2,10]使用来自不同CNN级别的卷积特征图来表示不同尺度的内容。不同的卷积特征映射在-本文通讯作者为黄晓辉形成,形成用于对象分割的多尺度上下文因此,最新的方法进一步利用自上而下网络[35,37,21,19,31,32,22,33,30,5](参见图1(a))、密集自上而下网络[1,42](参见图1(b))和连续自上而下/自下而上网络[29,20,24](参见图1(c))来在不同级别之间进行通信。这种自上而下/自下而上网络的动机是跨不同尺度传播多尺度上下文,从而在不同级别上增强特征图。然而,现有技术的方法[29,22,30,24,42]仅沿着单个方向传播上下文信息。在本文中,我们主张交换和结合自上而下和自下而上的上下文,以丰富的上下文信息编码的每个特征图的想法。在该方案中,自顶向下网络将高层大规模语义信息向下传播到网络的浅层,而自底向上网络将较小规模的视觉细节编码到更深的网络层。与单向网络架构不同[29,25,2,10,37,22,33,30,24,1,42],我们的方法迭代地融合自上而下和自下而上网络之间的特征映射,逐渐细化聚合的多尺度上下文信息。更具体地说,我们介绍了ZigZagNet,一种用于融合多尺度上下文信息的新方案,如图1(d)所示。骨干网络(左)为自上而下的网络(中)提取卷积特征图的进展这里,每个特征图对所有更高级特征图的上下文信息敏感。自上而下的网络产生一组新的特征图,这些特征图被馈送到自下而上的网络中(右图)。类似于自上而下的路径,自下而上的路径利用所有较低级别的特征图来增强每个特征图。由自顶向下和自底向上网络产生的特征图以锯齿形方式交换,并融合以聚合来自所有级别的上下文信息然后,由新一轮的自上而下和自下而上的上下文传播使用所得到的特征图。最后,在最后一个阶段的融合特征图用于分割任务。74907491(a) 自上而下的网络(c) 自上而下和自下而上的连续网络(d) ZigZag网络图1.用于传播多尺度上下文信息的不同方法。自上而下的网络(a)和(b)使用较深层来增强较浅的层。由自顶向下网络产生的特征图被进一步传递到自底向上网络(c)。与(a)-(c)相反,ZigZagNet(d)在自顶向下和自底向上网络之间交换特征图,以实现多尺度上下文的更丰富编码。左侧的橙色块表示主干网络的特征图。蓝色和绿色块表示在不同阶段生成的特征图。为了概念上的说明,我们省略了一些重叠的路径,并且仅示出了(d)中的特征图之间的密集路径的子集。图2更详细地描绘了ZigZagNet架构。除了在自顶向下和自底向上网络之间交换信息之外,这两个网络中的每一个都采用了新颖的区域上下文编码(RCE)方案,该方案捕获特征图的多尺度子区域的上下文信息。我们将每个特征图细分为区域,相互传播信息通过使用不同细分的特征映射来计算上下文特征,我们实现了在多尺度子区域中的上下文更丰富的编码。编码的上下文通过密集的路径传播,建模不同特征图的子区域之间的关系。我们的ZigZagNet架构适用于一系列对象分割任务。我们通过在语义分割的公共基准上对其进行评估来展示其有效性(例如,PASCAL上下文数据集[28]和PAS-CAL VOC 2012数据集[9])以及例如分段(例如 , COCO 数 据 集 [23] ) 。 我 们 超 越 了 PASCALContext数据集[28]和PASCAL VOC 2012验证集[9]的最新性能。在PASCAL VOC 2012测试集上,我们的性能与Chen等人报告的性能具有竞争力。[5],他们使用私有JFT数据集[17,6,39]来预训练骨干网络。在具有挑战性的COCO数据集[23]上,我们的方法应用于不同的骨干网络和检测器,从而一致地提高了分割精度。我们将我们的单一模型与以前的方法进行了比较,并在COCO上实现了最先进的结果测试开发集我们的代码包和模型将公开提供。2. 相关工作关于图像分割的文献非常丰富[26,3,43,21,1,42,20,22,15,24]。在下文中,我们将主要介绍语义分割[9,28]和实例分割[14,23]技术,这些技术与我们的工作密切相关,因为它们结合了不同层次的卷积特征图,以聚合多尺度上下文信息。语义分割语义分割方法旨在为对象提供逐像素的标签。全卷积网络(FCN)[26]已用于语义分割并取得了巨大进展。由于下采样操作,卷积特征图具有逐渐更粗糙的分辨率。因此,使用高级特征图[3,43,4]进行语义分割不可避免地会丢失对象的空间上下文。为了解决这个问题,已使用扩张卷积(也称为atrous卷积)来更详细地保留特征图的分辨率。然而,atrous卷积产生许多高分辨率的特征图,需要过大的GPU内存预算。为了节省GPU内存并提高分割精度,骨干FCN是7492不电话+1电话+1电话+1接着是自顶向下网络[35,21,31,32,5](也称为,编码器-解码器网络),其用于传播高级语义信息并将其与低级特征图的空间细节相结合,从而产生具有多尺度上下文信息的高分辨率特征图。不是仅在相邻特征图之间进行通信,而是使用密集路径[1,42]来在所有特征图对之间传播自上而下的上下文。尽管如此,高级特征图没有任何较低级别的上下文信息来丰富其自身的表达能力。与上述语义分割方法不同,我们在自上而下和自下而上两个方向上使用密集路径,影响具有所有上下文信息级别的特征图。在最近的工作中,Lin et al.[20]还交换了自上而下和自下而上的上下文;然而,特征流量仅发生在相邻的特征图因此,需要多个阶段来将上下文传播到相邻的特征图之外,这可能会衰减重要的信息。相比之下,我们的密集路径在上下文传播的每个阶段直接通信所有特征图,从而能够在所有级别上直接有效地增强我们的密集通路采用区域上下文编码来捕获不同特征图中的子区域的上下文。我们不是将各个子区域的上下文构建为全局表示[27,24],而是通过检查每个特征图的多个子区域来计算多尺度子区域的上下文信息请注意,我们的方法不同于传统的空间金字塔池[3,43,4],它使用相邻的子区域来产生上下文特征。我们在所有子区域之间传播信息,为分割任务提供更有效的上下文。实例分割除了像素级标签之外,实例分割还旨在区分各个对象。与用于语义分割的编码器-解码器网络类似,自顶向下网络[37,19,22,33,30]已与FCN骨干一起应用于内部工作时,在每次迭代中,特征图仅从先前迭代接收在我们的工作中,我们融合了自顶向下和自底向上网络在各级产生的特征图,并在所有迭代中使用它们。这意味着在自上而下和自下而上的上下文交换的所有阶段期间,整个上下文信息可用于学习有效特征。3. ZigZag网络所有级别的特征图都可以受益于从所有尺度聚合的上下文信息。然而,最近的方法仅在自上而下和自下而 上 网 络 之 间 建 立 单 向 连 接 ( 参 见 图 1 ( a ) 和(c)),其中来自相邻级别的特征图传播上下文以相互影响。即使最新的作品[1,42]使用密集路径(见图1(b))来加强多尺度特征图之间的上下文传播,但只有最高分辨率的特征图才能感知整个上下文。在这里,我们提出了ZigZagNet架构,其中每个特征图直接通过从所有其他地图中提取的多尺度上下文来增强。更具体地说,ZigZagNet由两个网络组成,一个是自顶向下的网络,另一个是自底向上的网络,如图2所示。每个网络在其层之间具有密集连接,其中每个这样的连接携带由其使用区域上下文编码(RCE)的多尺度上下文增强的特征图,如在第4节中更详细地描述的除了这些密集的路径之外,还有一些路径通过连接自上而下和自下而上金字塔的同一层级的特征图(图2中的红色箭头),在两个网络之间交换信息。每个网络内和网络之间的上下文传播在几个阶段上迭代。更正式地,让t表示阶段(0≤t T),并且Fi,d和Fi,u表示第i个阶段的第t个阶段特征图t t姿态分割与产生高分辨率的自上而下和自下而上的网络,活泼地 在每次迭代中,我们融合特征图Fi,d和用于预测逐像素标签的特征图,例如seg-Fi,u得到Fi,d,并映射Fj,d和Fj,u,得到Fj,u。t t+1t+1t电话+1mentation方法[37,19,22,33,30,29,24]使用所有水平以更好地捕获具有不同尺度的对象实例。最近,连续的自上而下和自下而上的网络[29,24]已经被用来学习更强大的因此,上下文信息在两个网络以锯齿形的方式。图2通过在两个连续阶段中示出每个特征图来说明该过程:阶段t为蓝色,阶段t+1为绿色。具体来说,在阶段t+1,自上而下的网络com-不同层次的特征图具体来说,路径聚合网络[24]附加了一个自底向上的网络,遵循自上而下的网络,将特征图Fi,d∈RH×W×C为:YL最上面和最下面的特征图之间的信息传播。[29]第二十九话:i,dt+1i,dt+1+j=i+1Rj,d,(1)peats自顶向下和自底向上的特征传播,以提取多尺度上下文信息。但在这张网里-其中t=0,. . .,T−1。在我们的实验中,阶段T的总数被设置为3我们对特征图Fi,d进行F=P7493电话+1电话+1电话+1不电话+1电话+1电话+1电话+1电话+1j,dtj,uti,dt+1i,ut+1(a) 自上而下网络(b)自下而上网络图2.ZigZagNet中自顶向下和自底向上的上下文传播自上而下网络(a)和自下而上网络的灰色箭头(b) 表示不同级别的特征图之间的密集路径。红色箭头在自上而下和自下而上网络之间迭代地交换上下文信息,这些网络在多次迭代中生成所有级别的特征图在这里,我们只显示了两个不同级别的特征图,以简化说明。蓝色和绿色块表示在两次连续迭代中计算的特征图。通过对上下文特征图从较高水平{R j,d|j >i}与融合特征图请注意,这里不是融合来自阶段t,如在Eq.(2)对映射Fj,d和Fj,u进行融合。这i,dt+1电话+1∈RH×W×C,定义为:电话+1因为在过程Fj,d的这一点上不已经.可用,并且包含比F j,d更精细的信息。i、dBit=0,i、d不i,uPt+1=σ(Wi,df(F i,d+ F i,u)),否则。(二)最后,使用Eq. (二)t+1t t以产生映射{Pi,d}进行分段。以上,Wi,d是卷积核,σ表示下面,我们重点介绍密集的自上而下和自下而上ReLU激活功能。最初(即,t=0),我们使用Bi,配备RCE以产生背景特征的途径映射Rj,d和Rj,u。为了清楚起见,我们省略符号d、u由骨干FCN计算的特征映射,结构Fi,d. 在下面的迭代中,我们融合Fi,d和从这一点开始。1tF i,u,它们是由前一次迭代中的自顶向下和自底向上网络通过卷积和激活它们的和而产生的。因此,与先前工作中的单向上下文传播不同,我们的自顶向下网络接收自顶向下的先前迭代以及自底向上的上下文以细化新的特征图Fi,d。进一步,我们使用区域上下文编码(RCE)来生成基于子区域的上下文特征图Rj,d,F j,d. 如第4节所述,RCE将子区域的关系编码到上下文特征图中。 通过使用不同尺度的子区域,我们提供了更丰富的上下文F i,d。类似地,我们使用自底向上网络来计算特征映射Fj,u∈RH×W×C,如下所示:4. 区域上下文编码在 本 节 中 , 我 们 详 细 介 绍 了 区 域 上 下 文 编 码(RCE)机制,该机制连接输入特征图的所有子区域,使每个子区域能够灵活地传播如图3所示,这是使用多个并行分支完成的。我们将自顶向下/自底向上网络生成的特征映射输入到每个RCE分支。在每个分支中,我们将特征图划分为规则的子区域。接下来,我们执行加权求和以将所有子区域聚合成全局表示,然后将其分发到所有子区域。这允许每个子区域将信息传递到新特征图的所有子区域。每个分支执行不同的细分,Fj,u=P j,u+Y−1 Ri,u,(3)特征图,生成不同比例的子区域。最后,我们添加所有分支j,dRtFj,d 电话+1Fj,u 电话+1i,uRtRj,d电话+1Fi,dRi,u电话+1不Fi,u 不......FFFP7494哪里j,u.Fj,d电话+1电话+1i=1电话+1t=0,到输入特征,其作为上下文特征映射Ri传播到其他级别的特征映射。因此,由于区域经济合作机制,各种规模的次区域可以从而影响其他特征图的任何位置。Pt+1=电话+1j,uj,dj,u(四)σ(Wt+1<$(Ft+1+Ft)),否则,更详细地,给定特征映射Fi∈RH×W×C,F7495K×KK×KK×KK×KK×KK×KK×K4 4 444由自上而下/自下而上网络产生的,我们将其卷积并划分为K×K个子区域。通过求和每个子区域内的神经元,我们产生一个特征图G我K×K ∈RK×K×C为:Σ我K×K(x,y,c)= (h,w)∈S(x,y)Fi(h,w,c),x=1,…K,y=1,...,K、(5)G其中(x,y)表示Mi的位置.我们使用S(x,y)表示包括Mi中的一组neuron的子区域。 因此,Mi(x,y)是(a)输入特征图(e)背景特征图子区域S(x,y)。我们通过自适应来总结所有子区域特征-考虑到它们的重要性,以连接所有次区域。为此,我们可以简单地使用ReLU应用可学习的K×K卷积G(c)全球代表性激活Mi没有填充物。 这导致(b)特征图(d)次区域C维特征向量(见图3(c))。另一可学习的K×K核用于对这个C维向量进行反卷积,而不进行填充,从而产生一个新的fea。图3.区域上下文编码。我们使用单独的卷积层来处理输入特征图(a),并使用结果真地图Qi∈RK×K×C。 Qi地图从所有我计算子区域的特征(b)。在每个分支机构,我们生产一个连接所有次区域的全球代表(c)。 这一全球然后将分支添加到输入特征图F特征映射Ri∈RH×W×C:以产生表示用于在所有子区域(d)之间传播信息我们使用输入特征图ΣRi(h,w)=Fi(h,w)+K∈{3,5,7}我K×K(x,y),在不同的分支机构。最后,我们将所有分支的结果添加到输入特征映射,产生上下文特征映射(e)。(h,w)∈S(x,y).(六)由方程式(6),我们凭经验使用Fi的3种不同细分(即,3× 3、5× 5或7× 7子区域)来计算我们采用图像翻转,裁剪,缩放和旋转来为网络的训练准备小批量。每个小批次包含16幅图像,并且每幅图像具有473×473的统一分辨率。我们首先使用60 K迷你-一组特征图{Qi{\fn方正粗倩简体\fs12\b1\bord1\shad1\3cH2F2F2F} 通过划分特征图以1 e-3的学习率进行批处理,然后衰减进入更多的次区域,我们大大增加了参数的学习,但实现微不足道的改善。5. 实现细节ZigZagNet网络使用Detectron平台1实现。我们使用在ImageNet数据集[8]上预训练的ResNet-101作为骨干网络。层res2、res3、res4和res5被用作初始{B1,B2,B3,B4}式中的特征图(二)、执行融合和交换上下文信息的三个阶段(T = 3)。融合的特征图{P1,d,P2,d,P3,d,P4,d}用于对象分割任务。我们优化网络与SGD solver我们评估我们的方法的语义分割和实例分割任务。语义分割网络遵循[43,21,4,5]中描述的训练策略,我们调整COCO数据集的图像[23]以在开始时微调网络。具有最高空间分辨率的特征图P1,u用于回归逐像素类别。我们使用softmax损失来惩罚像素方面的错误。1https://github.com/facebookresearch/DetectronMMQ74964 4 44学习率为1e−4,用于额外的60K小批量。持续时间在测试中,我们使用四个因素来调整每个图像的大小(即,{0。6,0。八,一。0,1。二一4})。五个结果图像被馈送到训练模型以分别计算预测对预测进行平均以获得最终结果。实例分割网络我们使用所有融合的特征图(即,{P1,d,P2,d,P3,d,P4,d})来计算每个对象的掩码[34,22]。根据大小对象的边界框[22],我们选择其中一个特征图用于提取ROI特征[12,15]作为对象表示。我们使用三个损失函数,即,分类的softmax损失,边界盒回归的平滑L1损失和掩模回归的像素级softmax损失。我们将图像的短边重新缩放到800,保持图像的纵横比用于训练和测试网络。每个小批次有8个图像。我们在微调网络开始时使用预热策略[13]。在训练过程中,我们使用0.01来衰减学习率0.001和0.0001,以及200K、60K和40K小批量。我们使用阈值为0.5的NMS来减少重叠的分割结果。7497上下文交换特征融合密集路径Miou82.5CC83.6CC84.2CC84.9CCC86.0表1.PASCAL VOC 2012验证套件上的消融实验分割准确度由mIoU(%)测量。6. 实验我们在三个公共基准上评估我们的方法,即,PASCAL VOC 2012 [9],PASCAL Context [28]和COCO [23] datasets.我们使用PASCAL VOC 2012 [9]和PASCAL Context [28]数据集来评估语义分割的准确性(mIoU)。对于实例分割任务,我们在COCO数据集上评估了我们的方法[23]。我们显示了掩码平均精度(掩码AP),这是在不同掩码IoU阈值上计算的标准COCO度量。6.1. PASCAL VOC 2012和上下文数据集的结果PASCAL VOC 2012数据集包含与20个对象类别和背景相关的10,582个训练图像。PASCAL Context数据集包含4,998个训练图像,具有59个类别和背景。我们主要使用PASCAL VOC 2012验证集(1,449张图像 ) 来 评 估 我 们 方 法 的 有 效 性 。 我 们 还 报 告 了PASCAL VOC 2012 测 试 集 ( 1 , 456 张 图 像 ) 和PASCAL上下文验证集(5,105张图像)上的分割精度,以与最先进的方法进行比较ZigZagNet的消融研究我们的ZigZagNet对自上而下和自下而上网络之间的双向交互进行建模,迭代地细化不同级别的特征图。网络具有密集的路径,配备了RCE以丰富上下文信息。我们通过移除关键组件进行消融研究,并检查对分割精度的影响。我们在表1中总结了结果。我们融合特征图以实现多尺度上下文,在自顶向下和自底向上网络之间交换上下文信息。通过移除额外的自底向上网络和密集路径,我们禁用了上下文交换和特征融合。因此,系统降级到编码器-解码器架构[5]并获得82.5的分割分数,显著低于我们的完整模型所获得的86.0的分数。表2.与使用上下文信息的各种方法的比较“SCF”是指在不同级别上对上下文特征图进行求和。在PASCAL VOC 2012验证集上评价性能。我们以mIoU(%)报告分割准确度。接下来,我们研究特征图融合对分割精度的影响。在ZigZagNet中,自上而下和自下而上的网络产生特征图,这些特征图被融合到所有级别的聚合上下文。在没有融合特征映射的情况下,网络只有一次自上而下和自下而上的上下文传播。在这种情况下,自顶向下网络的特征映射从高层上下文学习,但缺乏用于进一步精炼它们自己的低层上下文它随后对自下而上网络的特征图产生了负面影响,并获得了83.6的分割分数,与我们的完整方法相比,再次显著下降。通过仅移除上下文交换,我们将ZigZagNet降级为自上而下和自下而上的上下文传播。在这种情况下,特征融合有助于实现84.2 IoU,这比没有特征融合的一次传播更好(参见表1中实现83.6 IoU的第二种情况但它仍然远远落后于我们的完整模型(86.0 IoU)。最后,我们研究了密集路径的重要性。密集路径使用RCE来提取不同级别的特征图的多尺度区域上下文,这些特征图被合并以有效地增强自顶向下和自底向上的上下文。随着密集路径的移除,我们不允许超出相邻特征图的区域形成有用的上下文信息。这将分数降低到84.9。利用区域上下文的方法我们设计了RCE来模拟多尺度子区域之间的关系。还有其他方法可以使用上下文信息[27,24,31,43,4]来增强子区域的特征。为了公平比较,我们在ZigZagNet中使用这些方法,而不是RCE。结果列于表2中。首先,我们报告的结果编码的全球范围内的子区域。Mostajabi等人[27]和Liu et al.[24]亲-方法MiouMostajabi等人[27日]82.7全球背景Liu等人[24日]83.0Peng等人[三十一]83.4空间金字塔池化Zhao等人[四十三]84.1Chen等人[4]美国84.7多尺度区域背景SCF85.2我们86.07498VOC12阀组VOC 12测试仪上下文值集方法Miou方法Miou方法MiouChen等人[五]《中国日报》84.6Chen等人[4]美国86.9Chen等人[3]第一章45.7自顶向下传播Fu等[第十一届]84.8Zhang等人[第四十二届]87.9Lin等人[21日]47.3Zhang等人[第四十二届]85.8Chen等人[五]《中国日报》89.0Zhang等人[41个]51.7连续传播Shah等人[36个]Fu等[第十一届]79.084.8Shah等人[36个]Fu等[第十一届]84.386.6Liu等人[24日]Shah等人[36个]50.150.8双向传播Lin等人[20个]85.1Lin等人[20个]88.0Lin等人[20个]50.3我们86.0我们88.7我们52.1表3.与其他最先进的方法进行比较在PASCAL VOC 2012验证集、测试集和PASCAL上下文验证集上评价性能分割准确性以mIoU(%)报告。使用完全连接的层将特征图的所有子区域组合为全局上下文。通过使用不同的参数集,全连接层学习适应每个子区域的全局上下文信息。而不是使用全连接的操作,彭等人。[31]采用具有大内核的卷积层来产生全局上下文,这是更具有转换意识的。与上述关注图像全局尺度的方法相比,我们的网络利用多尺度子区域来构建更丰富的上下文,获得更高的分割分数。接下来,我们将我们的网络与使用空间金字塔池来构建子区域上下文的方法进行比较。Zhao等人[43]应用空间金字塔池来提取多尺度子区域内的特征。Chen等人。[4]使用不同的atrous卷积内核来实现可学习的金字塔池,同时与使用较大内核的卷积相比节省了计算。请注意,空间金字塔池[43,4]计算相邻子区域的上下文。相比之下,我们的方法使所有子区域之间的信息交换,这通常会导致1.3-而不是在等式中乘以不同级别的上下文特征图。(1)(3)在自顶向下/自底向上网络生成的特征图上添加不同的上下文特征图。通过此更改,我们观察到与完整模型相比,性能下降了0.8分。类似的观察是由张等人。[42]。我们认为,乘法的方式更好地模型在不同层次的上下文特征映射之间的相互作用。与最先进方法的比较在除了PASCAL VOC 2012验证集之外,我们还在表3中报告了我们在PASCALVOC 2012测试集和PASCAL上下文验证集上的方法结果。我们将我们的网络与最先进的方法进行比较,这些方法可以分为三组。第一组使用(密集)自上而下的网络来传播上下文信息。在第二组中,连续的自上而下和自下而上的网络与上下文信息的单向传播一起使用。我们的方法和林等人提出的背景交织。[20]属于第三组,其中执行上下文的双向传 播 。 值 得 注 意 的 是 , ZigZagNet 在 PASCAL VOC2012验证集和PASCAL Context验证集上优于其他方法。在PASCAL VOC 2012测试集上,我们获得了88.7的分数(参见PASCAL VOC排行榜2上的每个类别准确度)。我们的方法与[5]中提出的网络具有竞争力,该网络使用私有JFT数据集[17,6,39]作为训练骨干网络的附加数据。我们在图4中显示了我们的方法的几个语义分割结果。6.2. COCO数据集上的结果我们在COCO数据集[23]上测试了我们的方法,用于实例分割。COCO数据集包含约120K训练图像,其中包含80个对象类别的掩码注释。我们报告了COCO验证和测试开发集的结果,这些集大约有5K和20K的图像记录。我们使用ZigZagNet输出多尺度特征图,然后对象检测器使用这些特征图来提取用于回归实例掩码的特征。在这里,我们用三种广泛使用的探测器进行实验,即,FCIS [19],可变形RCNN [7]和掩模RCNN[15]。这些探测器主要为2016年至2018年COCO实例分割挑战的冠军做出了贡献。我们还通过使用不同的骨干网络,即,ResNet-101和ResNet-152。所有结果报告于表4中。与不同的基线模型相比,我们的网络提高了1 - 3个点的性能.它表明,我们的ZigZagNet是通用的不同的检测器,以实现性能增益的实例段。2http://host.robots.ox.ac.uk:8080/anonymous/N1OUN0.html7499李等人[19个]Dai等人 [七]《中国日报》他 等人 [第十五条]刘 等人 [24日]我们29.635.737.140.042.0表5.与最先进的单模型方法的比较性能在COCO测试开发集上进行评估。以掩模AP(%)报告准确度。图像地面实况我们的图4.我们的方法产生的六个语义分割结果。前三行来自PASCAL VOC 2012验证集,后三行来自PASCAL上下文验证集。骨干带ZZNet的FCISResNet-10129.2→32.2ResNet-15231.7→33.4可变形RCNNResNet-10136.1→38.2ResNet-15237.9→39.8Mask RCNNResNet-10137.5→39.5ResNet-15239.7→40.8表4.与流行的检测器进行比较,例如分割。在COCO验证集上评估性能。以面罩AP(%)报告准确度。第我们在图5中显示了我们的方法的几个实例分割结果。在表5中,我们将我们的方法与测试开发集上的最先进模型进行了比较。在没有不同模型的集成和多尺度训练/测试的情况下,所有结果都是通过基于ResNet-101骨干的单个模型实现的,以便进行公平的比较。我们的成绩比别人好。7. 结论对象分割的最新进展得益于在大规模数据集上训练的深度神经网络和多尺度卷积人斑马人person人飞盘person人人单人飞盘斑马斑马羊羊人人人人自行车人自行车人摩托车运动球网球拍人人运动球运动球人棒球人棒球蝙蝠人手套交 通信号灯person人卡车总车car汽车7500图5.我们的方法产生的几个实例分割结果。图像取自COCO验证集。特征图。在本文中,我们提出了ZigZag-Net,我们在自上而下和自下而上的网络之间建立双向连接。我们的网络具有密集的路径来平滑各级信息传播,将更丰富的多尺度上下文编码到特征图中。双向连接对于融合和交换上下文至关重要,逐步学习如何使用有用的信息细化特征图。我们的方法在几个公共数据集上的性能优于最先进的方法,显示了其对对象分割的有效性在未来的工作中,我们计划在3D分割任务中探索双向上下文传播,这些任务表现出对象之间更复杂的关系。此外,我们计划设计更高效的网络架构,以更低的计算成本计算上下文信息的能力。致谢我们感谢匿名评论者的建设性意见。本工作得到了973计划(2015CB352501)、国家自然科学基金(61702338,61761146002,61861130365 ) 、 广 东 省 科 技 计 划 ( 2015A030312015 ) 、 深 圳 市 创 新 计 划 ( KQJSCX20170727101233642)、LHTD(20170003)、ISF-国家自然科学基金联合项目(2472/17)、大数据系统计算技术国家工程实验室。7501引用[1] P. Bilinski和V.普利斯卡留用于单遍语义分割的密集解码器快捷连接。在CVPR,2018年。[2] Z.蔡角,澳-地范河,巴西-地S. Feris和N.瓦斯康塞洛斯用于快速目标检测的统一多尺度深度卷积神经网络在ECCV,2016年。[3] L- C. Chen,G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。Deeplab:使用深度卷积网络、atrous卷积和完全连接的crfs进行语义图像分割。arXiv,2016.[4] L- C. Chen,G.帕潘德里欧F. Schroff和H. Adam.重新思考语义图像分割的无环卷积。arXiv,2017.[5] L- C. Chen,Y.Zhu,G.帕潘德里欧F.Schroff和H.Adam.一种用于序列图像分割的带可分离卷积的编码器-解码器。arXiv,2018年。[6] F.胆Xception:使用深度可分离卷积的深度学习。在CVPR,2017年。[7] J. Dai,H.Qi,Y.Xiong,Y.Li,G.Zhang,H.Hu和Y.伟.可变形卷积网络。InICCV,2017.[8] J. Deng,W.东河,巴西-地索赫尔湖J. Li,K. Li和L.飞飞 。 Imagenet : 一 个 大 规 模 的 分 层 图 像 数 据 库 。CVPR,2009。[9] M.埃弗灵厄姆湖,澳-地凡古尔角,澳-地K.威廉斯,J.Winn和A.齐瑟曼。pascal视觉对象类(voc)的挑战。IJCV,2010年。[10] C.- Y. 傅,W.Liu,中国粘蝇A.Ranga、黑腹拟步行虫A.Tyagi和A.C. 伯格。Dssd:解卷积单次激发探测器。arXiv,2017.[11] 傅军,刘军,杨文。Wang和H.陆用于语义分割的堆叠去卷积网络。arXiv,2017.[12] R.娘娘腔。快速R-CNN。在ICCV,2015年。[13] P.戈雅山口多尔河 Girshick, P.诺德豪斯,L. Wesolowski,A. Kyrola,A. Tulloch,Y. Jia和K.他外准确的大小批量sgd:1小时内训练imagenet arXiv,2017.[14] B. 哈里哈兰山口阿尔韦阿埃斯河Girshick和J. 马利克同时检测和分割。2014年,在ECCV[15] K. 他,G. Gkioxari,P. Doll a'r 和R. 娘娘腔。 面具r-cnn。InICCV,2017.[16] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR,2016年。[17] G. Hinton,O.Vinyals和J.Dean. 在神经网络中提取在NIPS,2014。[18] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。NIPS,2012年。[19] Y. Li,H. Qi,J. Dai,X. Ji和Y.伟.完全卷积的实例感知语义分割。在CVPR,2017年。[20] D. Lin,Y. Ji,D. Lischinski、D. Cohen-Or和H.煌多尺度上下文交织语义分割。在ECCV,2018。[21] G. Lin,L.米兰角沈和我里德Refinenet:多路径精化网络,带有标识映射,用于高分辨率语义分割. arXiv,2016.7502[22] T.- Y. Lin,P.多尔河B. 格希克角他,B.Hariharan和S. J·贝隆吉用于目标检测的特征金字塔网络。在CVPR,2017年。[23] T.- Y. 林,M。迈尔,S。贝隆吉,J.Hays,P.Perona,D.Ra-manan , P.Doll a'r 和 C. L. 齐 特 尼 克Microsoftcoco:上下文中的通用对象。2014年,在ECCV[24] S.柳湖,加-地Qi,H. Qin,J. Shi,and J.贾用于实例分段的路径聚合网络。在CVPR,2018年。[25] W. Liu,L.安格洛夫,D。埃尔汉角塞格迪,S。里德角,澳-地Y. Fu和A. C.伯格。Ssd:单发多盒探测器。在ECCV,2016年。[26] J.朗,E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。CVPR,2015。[27] M. Mostajabi山口Yadollahpour和G.沙赫纳洛维奇具有缩小功能的前馈语义分割。CVPR,2015。[28] R. Mottaghi,X. Chen,X. Liu,N.- G.周S W.李,S。菲德勒河Urtasun和A.尤尔。背景在野外对象检测和语义分割中的作用CVPR,2014。[29] A. Newell,K. Yang和J.邓小平更用于人体姿态估计的堆叠沙漏网络。在ECCV,2016年。[30] C.彭氏T.肖,Z. Li,Y. Jiang,X. Zhang,K. Jia,G.Yu和J. Sun. Megdet:大型小型批量物体探测器。在CVPR,2018年。[31] C.彭、X。Zhang,G. Yu,G. Luo和J. Sun.大核问题--通过全局卷积网络改进语义分割。在CVPR,2017年。[32] T. Pohlen,A. Hermans,M. Mathias,和B. Leibe用于街道场景语义分割的全分辨率残差网络。在CVPR,2017年。[33] J. Redmon和A.法哈迪。Yolov3:增量改进。arXiv,2018年。[34] S. Ren , K. 赫 利 河 Girshick 和 J. 太 阳 Faster r-cnn :Towards real-time object detection with region proposalnetworks.2015年,在NIPS[35] O.龙内贝格山口Fischer和T.布洛克斯U-Net:用于生物医学图像分割的卷积网络在MIC- CAI,2015年。[36] S.沙赫湖S. Davis和T.戈德斯坦堆叠U形网:一个简单的自然图像分割方法。arXiv,2018年。[37] A.什里瓦斯塔瓦河Sukthankar,J. Malik和A.古普塔。后面的跳过连接:自上而下的对象检测调制。arXiv,2016.[38] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。arXiv,2014.[39] C. Sun,A. Shrivastava,S. Singh和A.古普塔。在深度学习时代重新审视数据的不合理有效性。InICCV,2017.[40] S. 谢河,巴西-地Girshick,P. 多拉尔,Z。 Tu和K. 他外深度神经网络的聚集残差变换在CVPR,2017年。[41] H. Zhang,K.Dana,J.施,Z.Zhang,X.Wang,中国山核桃A.Tyagi和A.阿格拉瓦尔用于语义分割的上下文编码。在CVPR,2018年。7503[42] Z. Zhang,X. Zhang C.,中国古猿科Peng,L. Cheng和J.太阳Exfuse:增
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功