全景分割任务中，实例级的前景（FG）和语义级的背景（BG）通过注意力引导的统一网络（AUNet）同时进行分割

28 浏览量更新于2023-10-17 收藏 1.64MB PDF 举报

全景分割

研究方法

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7026用于全景分割李彦伟1、2、陈新泽3、朱正1、2、谢灵希4、5、黄冠3、杜大龙3、王新港1中国科学院自动化研究所中国科学院大学3地平线机器人公司4约翰霍普金斯大学5诺亚{liyanwei2017，zhuzheng2014，xingang.wang}@ ia.ac.cn{xinze.chen，guan.huang，dalong.du}@ horizon.ai198808xc@gmail.com摘要本文研究了全景分割，最近提出的任务，分割前景（FG）的对象在实例级以及背景（BG）的内容在语义级。现有的方法大多是分别处理这两个问题，但本文揭示了它们之间的内在联系，特别是FG观测提供了辅助BG理解的互补线索我们的方法，命名为注意力引导的统一网络（AUNet），是一个统一的框架，有两个分支FG和BG分割同时进行。BG分支中增加了两个关注源，即RPN和FG分割掩码，分别提供对象级和像素级关注。我们的方法被推广到不同的骨干，在FG和BG分割中具有一致的准确性增益，并且还在MS-COCO（46.5%PQ）和Cityscapes（59.0%PQ）基准中设置了新的最先进的技术。11. 介绍场景理解是计算机视觉中的一项基本而又具有挑战性的任务，它对自动驾驶和机器人等其他应用产生了很大的经典的场景理解任务主要包括目标检测、实例分割和语义分割。本文考虑了最近提出的称为全景分割的任务[23]，其目的是找到所有前景（FG）对象（命名的事物，主要包括可数目标，如人、动物、工具等）。），同时解析背景（BG）内容（命名为stuff，主要包括类似纹理和/或材料的无定形区域，诸如草、天空、道路等。）在语义层面上。基准算法[23]和MS-COCO panoptic挑战获胜者[1]处理了1这项工作是在地平线机器人公司完成的。(a) 输入图像（b）全景分割(c)前景：事物（d）背景：事物图1.给定图像1（a），全景分割1（b）的目标是在实例级1（c）找到FG事物，在语义级1（d）找到BG事物。同一类的事物共享相同的颜色族，但以不同的强度出现。所有这些结果都是由所提出的方法。该任务通过直接结合FG实例分割模型[15]和BG场景解析[45]算法来完成，该算法忽略了底层关系，并且未能借用事物和素材之间丰富的上下文线索。在本文中，我们提出了一个概念上简单和统一的框架全景分割。为了方便FG事物和BG事物之间的信息流动，我们将传统的实例分割和语义分割网络相结合，形成了一个具有两个分支的统一网络。该策略带来了分割精度的立即改进以及更高的计算效率（因为网络骨干可以共享）。这意味着全景分割受益于FG对象和BG内容提供的补充信息，这为我们的方法奠定了基础。7027更进一步，我们探索了整合更高层次的视觉线索（即，超出从主干的末端提取的特征）朝向更精确的分割。这是通过两个基于注意力的模块来实现的，分别在对象级别和像素级别工作。对于第一个模块，我们参考区域建议，每个区域建议指示一个可能的FG事物，并调整相应区域被认为是FG事物和BG事物的概率。对于第二个模块，我们取出FG分割掩模，并使用它来细化FG事物和BG事物之间的边界。在深度网络的上下文中，这两个模块（分别称为建议注意模块（PAM）和掩码注意模块（MAM））被实现为跨FG和BG分支的附加连接。在MAM中，设计了一个名为RoIUpsample的新层，用于定义固定形状FG蒙版中的像素与相应特征图之间的精确映射函数。在实践中，所有额外的连接都从FG分支到BG分支，主要是由于观察到FG分割通常更准确2。此外，BG素材在被FG素材细化的同时，也通过渐变提供因此，FG和BG分割精度都得到了显著提高。整体方法，命名为注意力引导的统一网络（AUNet），可以很容易地实例化到各种网络骨干，并以端到端的方式进行优化。我们在两个流行的分割基准中评估AUNet，即MS-COCO [28]和Cityscapes [8]数据集，并在PQ方面声称最先进的性能，PQ是一个整合事物和东西准确性的标准度量[23]。此外，通过广泛的消融研究4.2验证了联合优化和两个基于注意力的模块所带来的好处。本研究的主要贡献是为FG和BG分割提供了一个简单统一的框架，该框架在MS-COCO [28]和Cityscapes[8]数据集中达到了最佳性能。此外，本文还研究了FG对象和BG内容所传递的互补信息虽然全景分割作为研究这一主题的自然场景我们的解决方案AUNet是在这一领域的初步探索，但我们期待着沿着这个方向做出更多的努力。本文的其余部分组织如下。第2节简要回顾了相关工作。第3节阐述了拟议的AUNet，包括两个基于注意力的模块。在第4节中展示了实验之后，我们在第5节中结束这项工作。2我们发现，当考虑与一个类别具有相同语义的实例时，事物的像素准确度远高于材料的像素准确度（6.7%的绝对差距），例如。，所有人都被评估为测试中的人我们在相同的MS-COCO语义评估指标上对它们进行评估。2. 相关工作传统的基于深度学习的场景理解研究通常集中在前景或背景目标上[15，45]。最近，对象检测[13，14，34]和实例分割[9，15，25，31]的快速发展使得在更精细的水平上实现对象定位和分割成为可能同时，语义分割的发展[5，6，33，45]提高了场景解析的性能。尽管它们有效，但这些任务的分离导致实例分割中缺乏上下文线索以及个体在语义分割中带来的混乱。为了弥合这一差距，最近，研究人员提出了一项名为全景分割的新任务[23]，其旨在同时完成两项任务（FG实例和BG语义分割）。全景分割：在文献[23]中，作者通过结合实例和语义分割模型给出了全景图分割的基准。后来，在初始化的语义结果之上提出了一种弱监督方法[24]，并且设计了一种端到端方法[11]来组合FG和BG提示。然而，他们的表现与基准相差甚远[23]。与它们不同的是，我们提出的AUNet在端到端的框架中实现了最高的性能。此外，我们还建立了基于提案的实例和FCN的语义分割之间的纽带。最近的作品包括[22，29，40]。实例分割：实例分割的目的是区分同一对象的不同实例。解决这一问题的方法主要有两种，即基于建议的方法和基于分割的方法。基于建议的方法，在准确的区域建议的帮助下，往往取得更高的性能。最近的例子包括 MNC [9] ， FCIS [25] ， Mask R-CNN [15] 和PANet [31]。此外，基于分割的方法聚合像素级线索，结合语义分割[2，26，32]或深度结果[44]。语义分割：随着诸如FCN [ 33 ]的所谓的编码-解码网络的发展，在语义分割[5，6，45]方面取得了快速进展。在分割中，捕获上下文信息起着至关重要的作用，为此提出了各种方法，包括DeepLab [5，6]中用于多尺度上下文的ASPP，用于全局上下文的DenseASPP[41]以及收集上下文先验的PSPNet [45也有人努力使用注意力模块进行空间特征选择，例如[12，42，43]，接下来将详细讨论基于注意力的模块：基于注意力的模块已广泛应用于视觉任务，包括图像处理、视频理解和对象跟踪[7，19，37，46、47]。特别是，SENet [19]通过注意力和门控机制制定了通道关系，非7028RoIAlignX4前台店14x1414x1428x2828x28RoIUpsample类前景事情ROIs框共享功能7x 71024 1024RPN分支RPN类框PiProi共享主干输入SIS''我全景输出背景资料SpamSmamMAMPam后台分支图2.拟议的网络结构。我们采用FPN作为我们的骨干和共享功能与三个并行分支，即前台分支，后台分支，和RPN分支。在训练阶段，以端到端的方式优化网络。在推理阶段，全景结果由事物和填充结果按照第3.4节中描述的方法生成。 “”表示元素求和，绿色的“”表示建议注意模块（PAM）或掩码注意模块（MAM），位置PAM和MAM建模两个分支之间的互补关系PAM和MAM的详细信息如图3所示，图5.红色和绿色箭头分别表示上采样和注意操作本地网络[37]使用非本地过滤器将机器翻译[36]的自注意力在场景理解的范围内，[42]和[43]通过通道注意操作聚合全局上下文信息以及类相关特征。最近，自我注意力和通道注意力被[12]采用，分别在空间和通道维度上对长距离上下文进行建模。在这项工作中，我们建立了前景的东西和背景的东西之间的关系，在全景分割与一系列的粗到细的注意力块。3. 注意力引导统一网络3.1. 问题和基线全景分割任务的目标是理解一个视图中可见的所有事物，这意味着图像中的每个像素都必须被分配一个语义标签和一个实例ID。为了解决这个问题，现有的顶级算法[1，23]直接结合了来自不同模型的实例和语义结果，例如Mask R-CNN [15]和PSPNet [45]。我们将全景分割问题表述为识别和分割所有FG事物并理解所有BG事物。通过这种方式，我们从两个方面解决问题，即统一网络中的前台分支和后台分支（图2）。详细地，给定输入图像X，我们的目标是生成FG事物结果YTh，并且BGSTU F结果YS不正确。因此，泛光学系统重新-结果YPa可以直接使用3.4 节中的融合方法从YTh和YSt生成。的性能如第4.1节所述，通过全景质量（PQ）[23]评价全景结果。为此，我们首先介绍了我们的统一框架全景分割在这一节。然后，详细阐述了我们设计的注意引导模块中的关键要素，包括建议注意模块（PAM）和屏蔽注意模块（MAM）。最后，我们给出了我们的实现细节。在这项工作中，我们将从不同的模型中生成事物和东西的方法视为我们的基线。具体地，基线方法分别从单独的模型MTh和MSt给出事物YTh和stu fYSt的结果。并且FG模型MTh和BG模型MSt被给予类似的主干（例如，，FPN [27]），用于以下统一框架。3.2. 统一框架为了弥合FG事物与BG事物之间的差距，我们提出了注意引导统一网络（AUNet）。与基线方法相比，本文提出的ANET通过共享同一主干将两个模型（MTh和MSt）融合在一起，并从并行分支生成YTh和YStt如图2所示，AUNet在概念上很简单：采用FPN作为主干，从不同尺度提取区分特征，并由所有分支共享与传统方法不同，传统方法直接将MTh和MSt的结果结合起来，所提出的AUNet使用联合损失函数L（在第3.4节中定义）对其进行优化，并在统一的框架中促进这两项任务具体地说，我们采用了基于命题的实例分割7029我我我i，kR×我′i，ki，k模块以在前景分支中生成更精细的掩模M。对于背景分支，设计了从共享的多尺度特征中聚合场景信息的光头。通过这种方式，共享骨干同时由FG事物和BG事物监督，这促进了特征空间中两个分支之间的连接为了更明确地建立FG对象和BG内容之间的联系，增加了两个注意力来源模块我们考虑第i尺度BG特征图与相应的RPN特征图之间的粗注意操作，分别用Si和Pi注意力模式-Ule可以用公式表示为SiPi，其中在后台分支中填充注释。因此，我们提出了一种新的方法来建立FG元素和BG含量之间的互补关系，称为前注意模块（PAM）。如图3所示，我们利用来自RPN分支的上下文线索进行注意操作。在这里，我们给出了这个过程的详细配方′′ ′′给定一个输入特征图Pi ∈CrWH从第i个尺度RPN分支，FG加权映射Mi之前S形激活可以公式化为：Mi=f（σ（f（Pi，wi，1）），wi，2）（1）其中f（·，·）表示协解函数，σ表示操作，如图2所示。而且更好的关系是建立在注意力之间，ReLU激活函数Mi∈R1×W"×H" 意味C′×C×1×1生成的FG加权映射，都是wi，1∈Rrr处理后的特征图Spam和生成的FG片段站掩码P，其可以被公式化为S_（？）wi，2∈R1× Cr ×1×1表示卷积参数。ROIPamROI为了强调背景内容，我们制定了详细情况将在下一节中进行调查注意力加权映射M′为1−sigmoid（Mi）。然后我“C×W"×H"3.3. 注意力引导模块考虑到两者之间的互补关系，第i个尺度激活的特征图Si ∈R s呈现为：可以FG的东西和BG的东西，我们介绍的特点，从前-′i、j=Si，j<$M′<$Si，j（2）地面分支到背景分支，以获得更多的上下文线索。从另一个角度看，注意操作其中，n和n表示逐元素乘法，sum分别，Si，j表示第j层语义特征，连接两个分支也建立了基于建议的方法和基于FCN的方法段-真地图Si∈RCs×W′ ′×H′′。第为此，提出了两个空间注意模块，即建议注意模块（PAM）和掩码注意模块（MAM）。3.3.1建议关注模块在经典的两阶段检测框架中，引入区域提议网络（RPN）[34]来给出预测的二进制类别标签（前景和背景）和边界框坐标。这意味着RPN要素包含丰富的背景信息，这些信息只能从[19]一个简单的背景权重函数，Tion被设计为在注意力操作之后降低无用背景我们认为它可以改进，但它超出了这项工作的范围重新加权的特征映射S′′∈RCs×W′ ′×H′′可以生成为：Ni= sigmoid（GN（f（G（S′），wi，3）（3）S′′=S′<$Ni（4）其中G和GN分别表示全局平均池化和群范数[38]，Ni∈RCs×1×1表示重加权算子，wi，3∈RCs×Cs×1×1表示卷积参数。第k个像素通道，并且S'指示S'中的第k个像素通道。基于PAM的上述公式，我们通过注意操作和背景重新加权函数突出共享特征图中的背景区域。它还通过在反向传播期间增强激活的前景区域的权重来促进事物的学习（参见第4.2节）。图3.设计了用于建立互补关系的建议关注模块（PAM）我们采用这个街区，共享特征的每个尺度，即，、W′′和H′′在各尺度上的变化。在CrxW“xH”CrxW“xH”RPN分支PiConv 1x1Conv 3x3ReLUPiCsxW“xH”MiConv1x1我1-Sigmoid1xW“xH”CsxW“xH”CsxW“xH”后台分支SINi斯建议注意事项背景重新加权Conv 3x3西Conv 3x3间隙Conv 1x1GNSSigmoidCsx1x17030此，“X”表示空间元素级乘法，而“X”表示元素级求和。绿色箭头表示PAM中的操作。GAP和GN表示全局平均池化，组标准化[38]，分别。3.3.2屏蔽注意模块PAM引入语境线索，鼓励背景分支更加关注事物的区域。然而，来自RPN分支的预测粗糙区域缺乏足够的线索来精确表达BG。与RPN特征不同，从前景分支生成的m×m固定形状掩码因此，我们提出了掩模注意力模块（MAM），以进一步建模7031价值×价值）=R（p））=R（p）p1，p1，ypXpPGp2.1p2.2反双线性插值网格点RoIUpsample输出可变大小ROIm× m掩模生成的掩模特征图如图5所示。因此，1×W′×H′形状FG分割掩模需要用于与之前类似的注意力操作现在的问题是：如何从m×m个掩模中再现W′×H′RoI上样：为了解决大小不匹配的问题，我们提出了一个新的可微层称为 RoIUpsample 。具体而言，RoIUpsample的设计类似于RoIAlign [15]的逆过程，如图4所示。在RoIUpsample层中，首先将m×m掩码（Mask R-CNN中的m等于14或28）重新整形为相同大小的RoI（从RPN生成）。然后，我们利用所设计的逆双线性插值来计算在每个掩模箱中的四个规则采样位置（与RoIAlign相同）处的输出特征的值，然后将最终结果相加作为所生成的掩模特征图。为了满足双线性插值[21]的要求，即在双线性插值中，近点的贡献较大，本文给出了一种逆双线性插值的运算公式双线性网格点插值RoIAlign输出可变大小ROI固定维度表示Conv特征图(a) RoIAlign过程(b) 上样过程图4.RoIAlign [15]和我们提出的P1R（p1，1（1−xp）（1−yp）值xx值ygROIUpsample. 设计的RoIUpsample，可以查看作为RoIAlign的逆操作，将特征图从R(p）=的（1− xp）ypR（p）一、二（p2，1）值xx值ygxp（1− yp）值xx值yg（五）FG根据其精确的空间位置进行遮罩。这里我们显示RoIAlign输出和RoIUpsample输入示例，m= 2是一个直观的例子。nR（p2，2）=xpypR（pg）X y其中R（pj，k）表示点pj，k在逆双线性插值之后的结果，R（pg）在此等于输入掩码中的对应值的四分之一，并且归一化权重值x、值y被定义为：值x=x2+（1−xp）2，值y=y2+（1−yp）2（6）p p其中xp和yp分别表示两个轴上网格点pg和生成p1，1之间的距离，如图4（b）所示。注意，对于等式5和6，m×m掩模也可以从生成的W′×H′特征图的前向双线性插值。然后，根据ROI的大小将生成的特征图分配到四个不同的尺度，这与FPN [27]中的因此，生成的FG特征图可用于以下操作。注意操作：与传统的实例分割任务不同，预测的FG掩模被用来在像素级上为背景分支提供更多的上下文指导。我们首先将它们聚集在一起，得到Cm×W′×使用RoIUpsample的H′特征图，如图所示5.然后，可以产生类似于PAM的更精细的1×W′×H′激活BG区关于Intro-为了减少注意力，FG掩码也由语义损失函数监督，这使得能够进一步改进场景理解（对于事物和素材），如第4.2节中所讨论的。采用类似的背景重新加权函数来聚合有用的高亮背景图5.建议的面具注意力模块（MAM）的一个更精细的关系建模。在此，“X”表示空间元素级乘法，而“X”表示元素级求和。红色和绿色箭头分别表示MAM中的上采样和操作。活泼地GAP和GN与PAM相同功能.因此，我们提出的PAM和MAM的FG的东西和BG的东西之间3.4. 实现细节在本节中，我们将详细介绍我们提出的AUNet的训练和推理阶段。训练：正如在3.2节中详细阐述的那样，我们提出的所有整个网络在训练阶段通过联合损失函数L进行优化L=λ1L RPN+λ 2L RCNN+λ 3L Mask+λ 4L Seg（7）CmxW'xH'RoIUpsample功能RoIUpsamplePROIm× m掩模Conv 1x1ReLUCs'xW'xH'Conv 1x1Cs'xW'xH'Cs'xW'xH'1-Sigmoid1x W'xH'后台分支口罩注意事项背景重新加权S帕姆S妈妈间隙Conv 1x1GNSigmoidCs'x1x17032其中LRPN 、LRCNN 、LMask和LSeg分别表示RPN 、RCNN 、实例分割和语义分割损失具体来说，hyperpa-定额表旨在平衡培训过程，对于MS-COCO，λ1至λ4被设置为{1，1，1，0.3}，而对于MS-COCO，λ 1至λ 4被设置为{ 1，0.75，1，1}为城市景观。具体来说，我们采用ResNet-FPN [17，27]作为我们的骨干。前景分支中的超参数按照Mask R-CNN [15]设置。主干在ImageNet上进行预训练 [35]，其余参数在[16]之后初始化作为标准实践[10，17，27]，使用8个GPU来训练所有模型。对于基于ResNet-50和ResNet-101的网络，每个minibatch每个GPU有 2个图像使用小批量随机梯度下降（SGD）对几个时期（MS-COCO为18个时期，Cityscapes为100个时期）进行了优化，权重衰减为4 e-5，动量为0.9。骨干中的批归一化[20]是固定的，组归一化[38]被添加到所有在我们的最终结果的分支。对于MS-COCO[28]，前13个时期的学习率初始化为0.02，并分别在第15和第18个时期除以10在-作为公共评估指标。Microsoft COCO[28]是最适合和最具挑战性的一个新的全景分割任务，详细的注释和高数据复杂性。它包括115k用于训练的图像和5k用于验证的图像，以及20k用于测试开发的图像和20k用于测试挑战的图像。MS-COCO全景标注包括80个事物类别和53个事物类别。我们在训练集上训练我们的模型，没有额外的数据，并在val集和test-dev集上报告结果以进行比较。采用Cityscapes[8]数据集进一步说明了该方法的有效性。详细地说，它包含了2975张用于训练的图像，500张用于验证的图像和1525张用于测试的图像，并带有精细的注释。它还有另外20k个用于训练的粗略注释，这些注释在我们的实验中没有使用。我们报告我们的结果与19个语义标签和8个注释实例类别的val评估指标：我们采用[ 23 ]介绍的评估指标，其计算用于评估的全景质量（PQ）指标。PQ可以解释为分割质量（SQ）和识别质量（RQ）项的乘积：将图像水平翻转并按比例重塑在训练期间具有600像素的短边缘多尺度PQ=n（p，g）∈TPIoU（p，g）|TP||TP|×|T P |+1 |FP |+1 |FN|（八）2 2最终结果采用测试4.3. 对于城市景观[8]，学习率初始化为0.01，然后除以10，svegmentiontiquality（SQ}）vrecognitionquality（RQ）}分别为第68和第88纪元我们从16个随机的512×1024图像裁剪（每个GPU 2个裁剪）中构建每个小批量，然后随机翻转并将每个图像缩放0.5到2.0倍。多尺度测试在4.3中被删除。推理：在推理阶段，通过融合FG事物和BG事物的结果，以类似于[23]的方式产生全景结果。在该阶段中，首先在类似NMS的过程中解决事物的重叠，该过程预测具有较高置信度分数的段。在此过程中还考虑了类别之间的关系。例如，在最终结果中，领带不应被人重叠。然后，通过优先分配实例标签，将非重叠实例片段与填充结果组合。4. 实验在本节中，我们的方法在Microsoft COCO [28]和Cityscapes [8]数据集上进行了评估。我们首先给出数据集的描述以及评价指标。然后我们评估我们的方法，并给出详细的分析。最后与现有的全景图像分割方法进行了比较4.1. 数据集和指标数据集：由于全景任务本身的新颖性，也很少有具有详细全景注释的数据集其中IoU（p，g）表示交集大于并集，在预测对象p和地面实况g之间，真阳性（TP）表示匹配的分段对（IoU（p，g）>0。5），假阳性（FP）表示不匹配的预测片段，而假阴性（FN）表示不匹配的地面实况片段。东西的PQ，SQ和RQ都是也在我们的报告中。4.2. 组件分析和诊断在本节中，我们将逐步分解我们的方法，以揭示每个组件的效果。本节中的所有实验都是在没有额外数据的单个模型中对MS- COCO数据集进行训练和评估的。在这里，我们采用ResNet-50-FPN作为我们的骨干。为了公平计算，我们严格遵循[23]中的合并方法，在进行组件分析时，在训练和推理阶段没有技巧或多尺度数据增强。如表1所示，我们提出的AUNet实现了2的绝对改进。与单独训练方法相比，PQ中的4%4.2.1统一框架如3.2节所述，我们提出的统一框架在并行分支中处理FG事物和BG事物如表1所示，统一框架提高了P QSt和PQTh的性能，这使得1. PQ绝对改善1%。这可以归因于703344表1.MS-COCO数据集上不同全景质量（%）设置之间的比较“rewt”是指在PAM 和MAM 中使用背景权重函数。PQTh和PQSt分别表示事物和材料的PQ。方法PamMAMrewtPQ PQThPQStAPmIoUSep✗✗✗37.247.122.833.444.5E2e✗✗✗38.347.923.933.744.8Pam✓✗✗3948.524.534.245.1PAMr✓✗✓39.448.925.234.445.3MAM✗✓✗38.948.624.234.345.2MAMr✗✓✓39.248.624.934.345.3AUNet✓✓✓39.649.125.234.745.1共享骨干网和联合优化，通过这些技术可以监督网络，使其关注事物和材料的更具区别性的特征。通过共享主干，有效地减少了对事物的误分类，并赋予了事物更多的细节。4.2.2建议关注模块所提出的PAM从不同的尺度上建立了事物和事物之间的互补关系。通过这种方式，二进制分类的RPN分支的语义标签的监督下进行优化。随着东西之间的联系建立起来，网络在P QSt和PQTh中执行一致性增益，如表1所示。背景权重函数证明了它在PQ S t中的有效性。这可以由等式3中的全局平均池化所引入的全局突出显示特征引起，这意味着它选择在全局上下文的指导下聚合突出显示的BG特征。如图6所示，激活的特征图M′强调背景区域与上下文线索。值得注意的是，我们尝试了其他融合方法来进行FG和BG特征融合，如拼接和特征变换后的直接摘要。但这些策略的贡献很小，这意味着关注更适合关系的建立。4.2.3屏蔽注意模块虽然PAM建立了FG对象和BG内容之间的联系，但MAM提供了更精细的背景表示，如第3.3.2节和图6所述。与PAM方法一样，MAM方法在PQ S t和PQ T h两个方面都优于r a w方法。但MAM的浓度略低于PAM。我们猜测这是由于生成的FG分割掩码中缺乏上下文线索造成的。3事实上，我们还评估了采用不同分辨率掩模时的性能，RoIUpsample，即14×14掩膜和28×28掩膜3对RoIUpsample层中的空白区域采用零填充，导致BG上下文为空白这需要在今后的工作中加以研究图6. PAM（第4标度，M′）和MAM中激活BG区域的热图。在背景分支中，红色区域被分配更多权重，而蓝色区域被分配较少权重。所有输入图像都是从MS-COCO值集中采样的。一个.结果表明，高分辨率掩模特征带来了进一步的增益（0。PQ绝对改善1%）。这是合理的，因为如果给定更高的分辨率掩码，RoIUp- sample层会生成更精细的布局。借助后台重权功能，MAM r实现了39. 2%的PQ。4.3. 与最新技术我们将我们提出的网络与MS-COCO [28]test-dev和Cityscapes [8]val集上的其他最先进的方法进行了比较。MS-COCO：如表2所示，所提出的AUNet实现了领先的PQ性能46。MS-COCO数据集中的5%，具体而言，COCO 2018 panoptic challenge [ 1 ]的获胜者在训练和推理阶段采用了许多额外的网络增强功能，例如：、丰富的额外数据（ 110 k 外部注释的 MS-COCO 图像）、多尺度训练、模型集成。此外，考虑到获胜者团队采用的网络增强，级联R-CNN [4]被用于事物，并且还为事物添加了额外的块或标签库[18]。与它们不同的是，拟议的AUNet在统一的框架中实现了最高性能，没有额外的数据或额外的网络增强。更具体地说，AUNet中仅采用基于ResNeXt-152-FPN4的单一过滤掉模型集成带来的改进，我们将AUNet与采用类似骨干但具有额外技能的“北大360”团队进行比较。实验结果表明，本文算法的性能优于它们特别是在PQSt 中，大约4. 9%的绝对进步。此外，AUNet超过了以前的端到端方法，即JSIS-Net [11]，具有19. 3%的绝对间隙，证明了所提方法的有效性。在表2中，很明显，AUNet具有很大的平衡性-4我们使用ResNeXt [39]的64×4d变体，具有可变形conv [10]和非局部块[37]。激活面具激活面具输入图像在MAM 在PAM（第四标度）7034表2.MS-COCO 2018测试开发中的全景质量（%）这里的“extradata”表示使用额外的数据集进行训练，“e2e”表示使用统一的框架工作进行事物和学习预测，并且“enhanceceTh“和“enhanceceSt“指示在网络工作中使用额外的增强技术进行事物和学习方面。 P QTh和P QSt是指事物和研究的PQ结果。我们报告我们的单一模型结果，没有额外的数据或网络增强。方法骨干额外数据E2e增强Th增强StPQ平方RQ PQThSQ ThRQ ThPQ StSQ StRQ StMegvii（Face++）集成模型✓✗✓✓53.283.262.962.285.572.539.579.748.5加勒比集成模型✗✗✓✓46.880.557.154.381.865.935.578.543.8PKU 360ResNeXt-152-FPN✗✗✓✓46.379.656.158.683.769.627.673.635.6[第11话]ResNet-50✗✓✗✗27.271.935.929.671.639.423.472.330.6我们ResNet-101-FPN✗✓✗✗45.280.654.754.483.364.831.376.639.4我们ResNet-152-FPN✗✓✗✗45.580.855.054.783.465.231.676.939.7我们ResNeXt-152-FPN✗✓✗✗46.581.056.155.883.766.332.577.040.7表3. Cityscapes值集上的视觉质量（%）。 PQTh和PQSt表示事物和学习方面的PQ结果。我们将我们的结果与自底向上方法（第一行）进行比较。我们的方程表明，在训练过程中，所有的东西都被认为是背景分支中的一个类别。方法主干PQ PQThPQStAPmIoUDWT [3]VGG16---21.2-SGN [30]VGG16---29.2-Liet. al. [24日]ResNet-10153.842.562.128.6-[15]第十五话ResNet-50---31.5-我们的e区ResNet-50-FPN55.051.257.832.2-我们ResNet-50-FPN56.452.759.033.673.6我们ResNet-101-FPN59.054.862.134.475.6(a)输入图像(b)地面实况(c)我们的结果之间的东西和东西，即使当比较的挑战冠军（没有额外的数据）。这是由于引入了用于建立互补关系的统一框架和注意力引导模块，并在第4.2节中进行了说明。图7给出了使用我们提出的AUNet的最佳性能的直观呈现。城市景观：我们将我们提出的方法与表3中领先的自底向上方法和Mask R-CNN进行了比较。首先，我们采用了与MS-COCO相同的训练策略，即在背景分支中将所有的事物都看作一个类别，记为Ours equu。然而，该策略不如使用所有19个语义标签时的策略，如表3所示。此外，MAM被证明可以降低Cityscapes中的PQ，但在最终结果中被禁用。我们猜测这种下降是由于与先验信息2的不一致造成的，这意味着相对较坏的事物预测可能会给事物提供错误的线索。总体而言，所提出的方法超过了先前的最新技术水平[24]，绝对差距为5.2%。5. 结论本文介绍了AUNet，一个统一的框架，全景分割。与现有方法的主要区别在于，我们将FG（实例级）和BG（语义级）分割统一到一个模型中，因此FG分支通常被更好地优化，可以辅助BG图7. MS-COCO值集上的AUNet结果示例。我们在事物7（c）上的表现甚至比人类的注释7（b）更好。同一类的事物共享相同的颜色族，但以不同的强度出现。通过两个注意力来源（即，建议注意模块和掩模注意模块），它们分别提供对象级和像素级指导。在实验中，我们观察到一致的精度增益在MS-COCO，基于此新的国家的最先进的实现。我们的研究提供了一个重要的信息：在视觉任务中，根据目标的属性将其划分为几个子类通常是有益的，这样可以跨子类传播补充信息以辅助场景理解。全景分割，作为一个新的任务，提供了一个自然的FG的东西和BG的东西之间的分区，但更多的可能性仍然有待探索，并在未来的研究。确认我们要感谢朱家刚和胡一鸣的宝贵讨论。本工作得到了国家重点研究发展计划一号项目的资助。2018YFD0400902和国家自然科学基金61573349。7035引用[1] 泛光排行榜。 http ： //cocosdataset.org/#panoptic-leaderboard. 一、三、七[2] Anurag Arnab和Philip HS Torr。使用动态实例化网络的逐像素实例分段。在CVPR，2017年。2[3] 白敏和拉奎尔·乌塔孙用于实例分割的深分水岭变换。在CVPR，2017年。8[4] 赵伟蔡和努诺·瓦斯康塞洛斯。Cascade r-cnn：深入研究高质量的对象检测。在CVPR，2018年。7[5] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义PAMI，2018年。2[6] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。再思考无卷积在语义图像分割中的应用。arXiv：1706.05587，2017。2[7] Liang-Jieh Chen，Yi Yang，Jiang Wang，Wei Xu，andAlan L Yuille.注意秤：尺度感知的语义图像分割。在CVPR，2016年。2[8] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在CVPR，2016年。二六七[9] 戴季峰、何开明、孙建。通过多任务网络级联的实例感知语义分割。在CVPR，2016年。2[10] Jifeng Dai，Haozhi Qi，Yuwen Xiong，Yi Li，GuodongZhang，Han Hu，and Yichen Wei.可变形卷积网络。InICCV，2017. 六、七[11] Daan de Geus，Panagiotis Meletis，and Gijs Dubbelman.使用联合语义和实例分割网络的全景分割。arXiv：1809.02110，2018。二七八[12] 傅军，刘静，田海杰，方志伟，卢汉庆.用于场景分割的双注意网络。arXiv：1809.02983，2018。二、三[13] 罗斯·格希克。快速R-CNN。在ICCV，2015年。2[14] Ross Girshick，Jeff Donahue，Trevor Darrell和JitendraMalik。丰富的特征层次结构，用于精确的对象检测和语义分割。CVPR，2014。2[15] Kaimi ngHe，Geor giaGkioxari，PiotrDolla'r，andRossGir-shick.面具R-CNN。InICCV，2017. 一二三五六八[16] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun. 深入研究整流器：超越人类对imagenet分类的水平。在ICCV，2015年。6[17] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。6[18] Hexiang Hu ， Zhiwei Deng ， Guang-Tong Zhou ， FeiSha ， and Greg Mori.Labelbank ： Revisiting GlobalPerspectivesforSemanticSegmentation.arXiv：1703.09891，2017年。7[19] 杰虎，李申，孙刚。挤压-激发网络。在CVPR，2018年。二、四[20] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。ICML，2015。67036[21] Max Jaderberg，Karen Simonyan，Andrew Zisserman，等.空间Transformer网络。 2015年，在

下载后可阅读完整内容，剩余1页未读，立即下载