全景分割：一种用于全景分割的端到端遮挡感知网络

166 浏览量更新于2023-10-18 收藏 1.43MB PDF 举报

实例分割

支持向量机

身份认证购VIP最低享 7 折!

30元优惠券

6172实例分支空间排名模块材料支一种用于全景分割的刘环宇1 <$、彭超2、余常倩3 <$、王静波4 <$、刘旭5 <$、余刚2、姜伟11浙江大学、2旷视科技（Face++）、3华中科技大学4北京大学、5东京大学{liuhy，jiangwei zju}@ zju.edu.cn，mikejay0520@163.com，changqianwangjingbo1219@pku.edu.cnyu@hust.edu.cnliuxu@kmj.iis.u-tokyo.ac.jp，yugang@megvii.com摘要传统方法全景分割是一个具有挑战性的课题，它需要为每个像素分配一个类别标签并同时分割每个对象实例传统上，现有的方法使用两个独立的模型，没有共享的功能，这使得流水线效率低下的实现。此外，通常采用启发式方法来合并结果。然而，在合并过程中，对象实例之间的重叠关系很难在没有足够的上下文信息的情况下为了解决这些问题，我们提出了一种新的端到端遮挡感知网络（OANet）用于全景分割，它可以有效地预测实例和（一）（b）第（1）款启发式合并我们的方法在一个单一的网络中的材料分割此外，我们引入了一个新的空间排序模块来处理预测实例之间的已经做了大量的实验来验证我们提出的方法的性能和有前途的结果已经取得了COCO Panoptic基准。1. 介绍全景分割[18]是场景理解的一个新的挑战性课题。目标是为每个像素分配一个类别标签并分割每个对象实例图像中在这个任务中，stuff分割被用来预测无定形区域（注为Stuff），而实例分割[14]解决了可数对象（注为Thing）。因此，该任务可以提供更全面的场景信息，可以广泛应用于自动驾驶和场景解析。以前的全景分割算法[18]通常包含三个独立的组件：实例分段块、填充分段块和合并块，如图1（a）所示。在这些算法中，实例分割块和填充分割块通常是相互独立的[2]这项工作是在Megvii Inc.实习期间完成的。图1.我们的端到端网络与传统方法的对比说明。传统的方法[18]训练两个子网络并进行算法合并.我们的方法可以为两个子任务训练单个网络，并实现可学习的融合方法。没有任何功能共享。这导致明显的计算开销。此外，由于分离的模型，这些算法必须合并相应的分离的预测与后处理。然而，如果没有stuff和thing之间的上下文信息，合并过程将面临实例和stuff之间的正是如上所述，由于三个独立的部分，很难将这种复杂的管道应用于工业应用。在本文中，我们提出了一种新的端到端算法，如图1（b）所示。据我们所知，这是第一个可以在端到端流水线中处理上述问题的算法。更具体地说，我们将物体分割和填充物分割合并到一个网络中，该网络共享主干特征，但为这两个任务应用不同的头分支。在训练阶段期间，骨干特征将通过来自物质和事物监督两者的累积损失来优化，而头部分支将仅在特定任务上进行微调。网络1材料支网络2实例分支网络6173为了解决对象实例之间的重叠关系问题，我们还提出了一种新的算法空间排序模块。该模块学习排名分数，并为实例提供排序依据。一般来说，我们将我们的算法的贡献总结如下：• 我们是第一个提出一个端到端的遮挡感知管道的问题，panoptic segmentation。• 我们引入了一种新的空间排序模块来解决重叠关系的模糊性，这通常存在于全景分割问题中。位置。• 我们在COCO全景分割数据集上获得了最先进的性能。2. 相关工作2.1. 实例分割目前有两个主要的框架，实例分割，包括基于提议的方法和基于分割的方法。基于提议的方法[8，14，24，25，28，29，33]首先生成对象检测边界框，然后对每个框执行掩码预测，例如分割。这些方法与对象检测算法密切相关，例如Fast/Faster R-CNN和SPPNet[12，15，36]。在此框架下，由于不同实例的预测相互依赖，产生了重叠问题.也就是说，像素可能被分配到错误的类别时，由多个掩模覆盖基于分割的方法使用语义分割网络来预测像素类，并通过解码对象边界[19]或自定义字段[2，9，27]来获得每个实例掩码。最后，它们使用自底向上的分组机制来生成对象实例。在[35，37，46]中，RNN方法被用来一次预测每个实例的掩码。2.2. 语义分割近年来，语义分割得到了广泛的研究，并提出了许多新的在强大的深度神经网络[16，21，39，40]的驱动下，FCN [30]通过用卷积层取代图像分类网络的全连接层，成功地UNet [1，38，42，43，47]等编码器-解码器结构可以逐渐恢复分辨率并捕获更多对象细节。全局卷积网络[34]提出了大核方法来缓解分类和定位。DFN [43]设计了一个通道注意块来选择特征图。DeepLab [4，6]和PSPNet [48]使用atrous空间金字塔池或空间金字塔池来获得多尺度上下文。[44]的方法在[5，13，41]中使用多尺度特征来获得足够的感受野。相关数据集也在不断丰富和扩大。目前，有公共数据集，如VOC [11]，Cityscapes [7]，ADE 20 K [49]，Mapillary Vis-[32]和COCO的东西[3]。2.3. 全景分割Panoptic分割任务最早是在文献[18]中提出的，目前针对该任务的研究工作并不多。[22]提出了一种联合执行语义和实例分割的弱监督模型。它对“thing”类使用弱边界框注释JSIS-Net [10]提出了一个具有实例分割头[14]和金字塔填充分割头[48]的单一网络，遵循算法来合并两种输出。Li等人。[23]提出AUNet可以利用提案和掩码级别的注意力，并获得更好的背景结果。2.4. 多任务学习全景分割也可以被视为多任务学习问题。两个不同的任务可以通过策略一起训练UberNet [20]在单个网络中联合处理低，中，高级视觉任务，包括边界检测，语义分割和正常估计。Zamir等人[45]建立一个名为taskonomy的有向图，它可以有效地测量和杠杆化不同视觉任务之间的相关性。它可以避免重复学习，使学习与更少的数据。3. 拟议的端到端框架我们的算法概述如图2所示。在我们的算法中有三个主要组成部分：1）填充分支预测整个输入的填充分割。2）实例分支提供实例分段预测。3)空间排名模块为每个实例生成排名分数。3.1. 端到端网络架构我们采用FPN [26]作为端到端网络的骨干架构例如分割，我们采用原始的Mask R-CNN [14]作为我们的网络框架。我们应用自上而下的路径和横向连接来获得特征图。然后，对RPN进行3×3卷积，得到RPN特征图. 之后，我们应用6174图2.总体框架的说明。给定一幅输入图像，我们使用FPN网络为stuff分支和instance分支提供特征映射。这两个分支生成中间结果，然后传递给我们的空间排名模块。空间排名模块学习每个实例的排名分数作为最终合并证据。ROIAlign [14]层提取对象提案特征并获得三个预测：提案分类得分，提案边界框坐标和提案实例掩码。对于填充分割，两个3×3卷积层堆叠在RPN特征图上。为了多尺度特征提取，然后将这些层与随后的一个3×3卷积层和1×1卷积层连接起来。图3展示了stuff分支的细节。在训练过程中，我们同时监督材料分割和事物分割，作为辅助对象，动作信息可以为内容预测提供对象上下文。在推理中，我们只提取预测的内容并将其归一化为概率。为了打破训练过程中的信息流障碍这里提出的问题可分为两部分：1）特征图上的共享粒度和2）实例丢失和填充丢失之间的平衡。在实践中，我们发现随着更多的特征图被共享，我们可以获得更好的性能。我们要把地图上的内容，连接层，即图3所示RPN头之前的3×3卷积层Ltotal=L rpn cls+L rpn bbox+L cls+L bbox+L mask联系我们图3.一个构建块说明的东西分割子网络.在这里，我们在stuff分支和instance分支中共享主干和跳过连接特性映射此外，我们还对stuff分支的对象和stuff类别进行了预测.至于两个监管的平衡，我们首先在等式1中给出多重损失。实例分支包含5个损失：Lrpncls是RPN对象性损失，Lrpnbbox是RPN边界框损失，Lcls是类-实例分支+λ·Lseg（ stuff+object）+Lsrm联系我们填塞支管（一）其中，Lbbox是对象边界框回归损失，Lmask是用于掩模预测的平均二进制交叉熵损失。作为物质分支，只有一个se-6175图4.空间排名得分地图预测的说明。实例特征图中的像素向量表示该像素中的实例预测结果。红色表示对应的类别对象包括该像素，多个红色通道表示实例之间的遮挡问题我们使用全景分割类别标签来监督空间排名得分图。一个名为Lseg（stuff+object）的mantic分割丢失。超参数λ用于损失平衡，稍后将讨论。Lsrm表示空间排序模块的损失函数，这将在下一节中描述3.2. 空间排名模块现代实例分割框架通常基于具有额外掩码预测分支的对象检测网络，例如Mask RCNN [14]，其通常基于FPN [26]。一般来说，当前的对象检测框架不考虑不同类别之间的重叠问题，因为流行的度量不受该问题的影响，例如，AP和AR。然而，在全景分割的任务中，由于一个图像中的像素的数量是固定的，因此必须解决重叠问题，或者具体地说，一个像素的多个分配。通常，检测分数用于将实例按降序排序，然后按照分数较大的对象位于较低对象之上的规则将它们分配到填充画布。然而，这种启发式算法很容易在实践中失败。例如，让因为person类更自由-将实例分割的大小转换为输入大小的张量特征映射的维度是对象类别的数量，并且不同类别的实例被映射到相应的通道。实例张量初始化为零，映射值设置为1。然后，我们在ten- sor之后添加大型内核卷积[34]以获得排名得分图。最后，我们使用逐像素交叉熵损失来优化排名得分图，如等式2所示。Smap表示输出排名分数图，Slabel表示对应的非重叠语义标签。Lsrm=CE（S映射，S标签）（2）在得到排名得分图之后，我们计算每个实例对象的排名得分，如等式3所示。这里，Si ，j，cls表示类cls的（i，j）中的排名分数值。注意，Si，j，cls已经被归一化为概率分布。mi，j是掩码指示符，表示像素（i，j）是否属于实例。整个实例Pobjs的排序得分由掩码中的像素排序得分的平均值计算。COCO数据集中的Tie边界框的检测得分往往高于Tie边界框。因此通过ΣP=（i，nj）∈objsSi，j，cls·mi，j（三）上面的简单规则，tie实例被person实例覆盖，导致性能下降。我们能通过全景来缓解这种现象吗-objs（i，j）∈objs.mi，jtic注解？也就是说，如果我们强迫网络学习在领带的地方有一个洞的人注释，我们可以避免上述情况吗？如表3所示，我们mi，j=0（i，j）∈instance1（i，j）∈/instance（四）用上述注释进行实验，但只发现衰减的性能。因此，该方法目前不适用。为了解决这个问题，我们采取了一种类似语义的方法，并提出了一个简单但非常有效的算法来处理遮挡问题，称为空间排名模块。如图4所示，我们首先映射结果让当我们将人物掩码和领带掩码转发到该模块中时，我们使用等式3获得这两个对象的空间排名分数。在排序得分内，前一种方法中的排序规则可以更可靠，并且性能得到改善，如下一节中的实验所示。61764. 实验4.1. 数据集和评估指标数据集：我们在COCO全景分割数据集上进行所有实验[18]。该数据集包含118K用于训练的图像，5K用于验证的图像，以及80个类别的事物和53个类别的东西的注释。我们只使用训练图像进行模型训练和验证集上的测试。最后，我们将测试开发结果提交给COCO 2018全景分割排行榜。评价指标：我们使用[18]中定义的标准评估指标，称为全景质量（PQ）。它包含两个因素：1）分割质量（SQ）指标，确保所有类别的质量; 2）检测质量（DQ）仅测量实例类。PQ、SQ和DQ的数学形式如公式5所示，其中p和g是预测和地面实况，TP、FP、FN代表真阳性、假阳性和假阴性。很容易发现SQ是针对匹配实例归一化的共同平均IOU度量，DQ可以被视为检测精度的一种形式。匹配阈值设置为0.5，即如果预测和地面实况的像素IOU大于0.5，则预测被视为匹配，否则不匹配。对于填充类，图像中的每个填充类都被视为一个实例，而不管它的形状如何。在推理过程中，我们将每个图像的最大盒子数量设置为100，连接的填充区域的最小区域设置至于空间排名模块，由于我们现在没有地面真值，实例分支的输出将通过该模块来解决重叠问题。4.3. 网络结构的烧蚀研究在本小节中，我们将重点介绍端到端网络设计的属性有三点应讨论如下：丢失均衡参数、填充分支的对象上下文和两个分支的共享模式。为了避免实验的笛卡尔积，我们只修改特定的参数和控制其他最佳。0.120.100.080.060.04PQ=Σ（p，g）∈TPIOU（p，g）×|TP||TP|1 10.02|TP |+2 |FP |+2 |FN|0.00联系我们分割质量（SQ）4.2.实现细节联系我们检测质量（DQ）（五）010002000300040005000600070008000迭代图5.两个分支中指定图层平均梯度值的图我们在训练过程中选择了一个epoch迭代。这两个分支的学习率是相同的。水平我们选择在ImageNet上预训练的ResNet-50 [16]进行消融研究。我们使用SGD作为动量为0的优化算法。9和重量衰减0。0001采用带预热策略的多阶段学习率策略也就是说，在前2000次迭代中，我们使用线性渐进预热策略，将学习率从0.002增加到0。02. 经过60，000次迭代后，我们将学习率降低到0。002，并进一步将其设置为0。0002，其余20，000次迭代。输入的批量大小设置为16，这意味着每个GPU在一次迭代中消耗两个图像。对于其他细节，我们采用Mask-RCNN的经验[14]。除了对网络的两个分支进行训练外，还应注意空间排序模块。在训练过程中，监督标签是对应的不重叠的语义标签，并将其训练为语义分割网络。我们将不冲突的像素设置为忽略，以迫使网络聚焦于冲突区域。轴是迭代次数，纵轴是骨干最后一层的平均梯度值。λPQPQThPQSt0.236.945.024.60.2537.245.424.90.3336.944.425.40.5036.543.525.90.7535.341.925.41.0---表1.实例分割和填充分割之间的损失平衡损失平衡问题来自于stuff分支和instance分支的梯度不接近的现实。我们对两个分支相对于骨干的最后一个特征图的平均梯度进行统计，其中为了公平性，超参数λ被设置为1。训练填充渐变训练实例渐变平均梯度值6177输入图像不共享结果共享结果图6.特征共享模式可视化。第一列是原始图像，第二列是共享骨干特征结果，最后一列是未共享结果。如图5所示，简单而清楚的是，来自填充分支的梯度主导惩罚信号。因此，我们在等式1中获得超参数λ以平衡梯度。我们在λ ∈[0. 2，0。25，0。33，0。5，0。75，1。0]。时间间隔不是单一的，Stuff-SCObject-SCPQPQThPQStC-三十六7四十三8二十五9CC37.2四十五4二十四岁9表2.关于填充物分割网络的消融研究结果形式，以提高搜索效率。如表1总结，λ=0。25是最佳选择。请注意，如果我们设置λ=1，这意味着实例和填充分支像单独的模型一样训练，网络无法通过我们的默认学习率策略进行收敛。对象上下文是材料分割的自然选择。虽然我们只需要这个分支的预测，但缺乏对象监督将在地面事实上引入漏洞，导致对象周围的上下文不连续。因此，我们进行了一对比较实验，其中所有133个类别都受到监督，另一个类别则受到监督。标志. Stuff-SC表示stuff监督类。它是指预测类的东西。而Stuff-SC和Object-SC都意味着预测所有类。接受了53门课程的训练。表2中的结果显示了具有对象上下文的总体PQ的0.5改进。共享功能是我们网络设计的关键点。分享的好处有两个方面：1）两个分支机构可以从其他监管机构吸收有用的信息，NALS，以及2）如果共享网络仅被计算一次，则可以6178节省计算资源。探讨6179方法骨干PQPQThPQSt没有ResNet-50三十六544. 4二十四岁6Res1-Res5ResNet-50三十七044. 8二十五2+跳接ResNet-5037.2四十五4二十四岁9方法PQPQThPQStArtemis十六岁9十六岁8十七岁0[第10话]二十七岁229岁623岁4方法骨干PQPQThPQSt 平方SQThSQ街DQDQThDQ街基线ResNet-50三十七2四十五4二十四岁9七十七。181. 5七十6四十五7五十四4三十二5带pano-instance GTResNet-5036.143.524.976.180.070.344.552.432.7w/空间排名模块ResNet-5039.0四十八3二十四岁9七十七。181. 4七十6四十七8五十八0三十二5基线ResNet-101三十八岁。8四十六岁。9二十六岁678岁282岁0七十二5四十七455. 9三十四5w/空间排名模块ResNet-10140.750块0二十六岁678岁282岁0七十二5四十九6五十九7三十四5表3.使用我们的空间排名模块方法的MS-COCO全景分割验证数据集的结果。W/pano-instance GT表示使用全景分割地面实况来生成实例分割地面实况。它在两个独立的网络中训练。本表中的所有结果均基于主干ResNet-50。表4.结果是否共享材料分割和实例分割特征。在ResNet-50主干上，共享特征方法在PQ中获得0.7的增益，ResNet-101获得0.7的增益不同共享特征方式的消融研究结果。res 1-res 5意味着只共享ResNet的主干功能。+skip- connection是指共享骨干网和FPN的skip- connection分支.转换设置PQPQThPQSt1 ×1三十八岁。4四十七4二十四岁93 ×3三十八岁。7四十七8二十四岁91×7+7×139.0四十八3二十四岁9表5.空间排序模块卷积设置的结果。1×1表示卷积核大小为1。实验结果表明，较大的感受野可以帮助空间排序模块获得更多的上下文特征和更好的结果。关于共享特征的粒度，我们进行了两个实验，其中浅共享模型仅共享骨干特征，深共享模型进一步共享RPN头之前的特征图，如图3所示。表4显示了不同设置之间的比较，深度共享模型在PQ上优于单独的训练图6显示了共享功能的可视化。4.4. 空间排序模块的消融研究由无重叠注释监督是解决对象排序问题的一个简单的想法。在这里，我们处理全景地面实况并提取非重叠注释用于实例分割。表3的第3行给出了这个想法的结果不幸的是，仅仅替换实例基础事实无助于提高性能，而且可能会大大降低6180表6. COCO 2018全景分割挑战测试开发的结果。实验结果验证了特征共享模式和空间排序模块的有效性。我们使用ResNet- 101作为我们的基本模型。对象的准确率和召回率。这种现象可能是因为COCO中的大多数对象都不满足重叠问题，迫使网络学习不重叠会损害整体性能。图7.空间排序模块的可视化结果。左边两段表示通过我们的模型检测到的实例，det bbox分数表示检测中预测的对象检测分数。空间排名分数代表我们方法的值。本文提出的空间排序模块是为了解决全景图像分割中的重叠问题表5表明，大的感受野可以帮助空间6181输入图像启发式方法我们的方法图8.使用我们的空间排名模块的可视化结果第一列是输入图像，第二列是启发式方法的全景分割结果，最后一列是使用我们的方法的结果。排序模块得到更多的上下文特征和更好的结果。正如我们在表3的ResNet-101的第3行或第2行中看到的那样，与上述端到端基线相比，我们的具体而言，PQTh增加了2.9%，而材料的度量保持不变。这些事实证明我们的空间排名模块的目的是合理的。我们在COCOtest-dev上测试我们的OANet，如表6所示较结果的其他人，我们的方法达到了国家的最先进的结果。有关详细结果，请参阅黑板报。图7解释了我们的空间排名模块的原理。对于示例输入图像，网络预测一个人加上一条领带，它们的边界框得分为0.997和0.662。如果我们用分数来决定结果，领带肯定会被人覆盖。然而，在我们的方法中，我们可以得到每个实例的空间排名得分，分别为0.325和0.878。在新分数的帮助下，我们可以得到正确的预测。图8‡http://cocodataset.org/#panoptic-leaderboard总结了更多的例子。5. 结论本文提出了一种新的端到端遮挡感知算法，该算法将普通的语义分割和实例分割合并到一个模型中。为了更好地利用不同的监督和减少计算资源的消耗，我们研究了不同分支之间的特征共享，发现我们应该共享尽可能多的特征。此外，我们也观察到在全景分割中所提出的特殊排序问题，并设计简单而有效的空间排序模块来处理这个问题。实验结果表明，我们的方法比以前的国家的最先进的模型。确认本研究得到了国家重点科技攻关项目（2004年第10号）的资助2017YFA0700800）。6182引用[1] V.巴德里纳拉亚南，A. Kendall和R.西波拉Segnet：用于图像分割的深度卷积编码器 - 解码器架构。 IEEETPAMI，2017年。[2] M. Bai和R.乌塔松深度分水岭变换用于实例分割.在CVPR，2017年。[3] H. Caesar，J. Uijlings，and V.法拉利Coco-stuff：上下文中的事物和东西类。在CVPR，2018年。[4] L- C. Chen，G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。Deeplab：使用深度卷积网络、atrous卷积和完全连接的crfs进行语义图像分割。IEEE TPAMI，2018。[5] L- C. Chen，Y.杨，J.Wang，W.Xu和A.L. 尤尔。注意比例：尺度感知语义图像分割。在CVPR，2016年。[6] L- C. Chen，Y.Zhu，G.帕潘德里欧F.Schroff和H.Adam.一种用于序列图像分割的带可分离卷积的编码器-解码器。在ECCV，2018。[7] M.科德茨，M。奥姆兰，S。拉莫斯，T.雷费尔德，M。恩茨韦勒R.贝南森，美国弗兰克，S。罗斯和B。席勒用于语义城市场景理解的cityscapes数据集。在CVPR，2016年。[8] J. Dai，K. He和J. Sun.通过多任务网络级联的实例感知语义分割。在CVPR，2016年。[9] B. De Brabandere，D. Neven和L.范古尔基于判别损失函数的语义实例分割。arXiv：1708.02551，2017。[10] D. de Geus、P.Meletis和G.杜伯曼使用联合语义和实例分割网络的全景分割。arXiv：1809.02110，2018。[11] M. Everingham，S. A.埃斯拉米湖凡古尔角，澳-地K. 威廉姆斯J. Winn和A.齐瑟曼。pascal visual object classes挑战：回顾展。InIJCV，2015.[12] R.格希克，J。多纳休，T. Darrell和J.马利克丰富的特征层次结构，用于准确的对象检测和语义分割。CVPR，2014。[13] B. 哈里哈兰山口阿尔韦阿埃斯河Girshick和J. 马利克用于对象分割和细粒度定位的炒作rCVPR，2015。[14] K. 他，G. Gkioxari，P. Doll a'r 和R. 娘娘腔。面具r-cnn。InICCV，2017.[15] K. 他，X。Zhang，S.Ren和J.太阳用于视觉识别的深度卷积网络中的空间金字塔2014年，在ECCV[16] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR，2016年。[17] A. Kendall，Y.Gal和R.西波拉使用不确定性来权衡场景几何和语义损失的多任务学习在CVPR，2018年。[18] A. Kirill ov，K. 赫利河吉希克角 Rothe r和P. 娃娃。全景分割。arXiv：1801.00868，2018年。[19] A. Kirillov、E.列温科夫湾安德烈斯湾萨夫钦斯基，以及C.罗瑟即时切割：从边到实例的多重切割。在CVPR，2017年。[20] I. Kokkinos Ubernet：使用不同的数据集和有限的内存，训练一个通用的卷积神经网络，用于低，中，高层次的视觉。在CVPR，2017年。[21] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。NIPS，2012年。[22] Q. Li，长穗条锈菌A.Arnab和P.H. 乇弱监督和半监督全景分割。在ECCV，2018。[23] Y. Li，X.Chen，Z.朱湖，加-地Xie，G.Huang，黄氏拟谷盗D.c2u和X. 王. 用于全景分割的注意力引导统一网络arXiv：1812.03904，2018。[24] Y. Li，H. Qi，J. Dai，X. Ji和Y.伟.完全卷积的实例感知语义分割。在CVPR，2017年。[25] Z. Li，C. Peng，G. Yu，X. Zhang， Y. Deng和J.太阳Det- net：设计对象检测的主干.在欧洲计算机视觉会议（ECCV）的会议记录中，第334-350页[26] T.- Y. Lin，P.多尔河B. 格希克角他，B.Hariharan和S. J· 贝隆吉用于目标检测的特征金字塔网络。在CVPR，2017年。[27] S. Liu，J. Jia，S. Fidler和R.乌塔松 SGN：用于实例分割的序列分组网络。InICCV，2017.[28] S.柳湖，加-地Qi，H. Qin，J. Shi，and J.贾用于实例分段的路径聚合网络。在CVPR，2018年。[29] S. Liu，X. Qi，J. Shi，H. zhang和J.贾同时检测和分割的多尺度块聚集在CVPR，2016年。[30] J.朗，E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。CVPR，2015。[31] I. Misra、A.什里瓦斯塔瓦A. Gupta，和M。赫伯特多任务学习的十字绣网络。在CVPR，2016年。[32] G. 诺伊霍尔德T. Ol l mann，S. R. Bul o`和P. 孔蒂德河街景语义理解的mapillary vistas数据集。InICCV，2017.[33] C.彭氏T.肖，Z. Li，Y. Jiang，X. Zhang，K. Jia，G. Yu和 J. Sun. Megdet ：大型小型批量物体探测器。在CVPR，2018年。[34] C.彭、X。Zhang，G. Yu，G. Luo和J. Sun.大核问题-通过全局卷积网络改进语义分割。在CVPR，2017年。[35] M. Ren和R. S.泽梅尔端到端的实例分割与经常性的关注。在CVPR，2017年。[36] S. Ren，K.赫利河Girshick和J.太阳Faster r-cnn：Towardsreal-timeobjectdetectionwithregionproposalnetworks.2015年，在NIPS[37] B. Romera-Paredes 和 P. H. S. 乇循环实例分割。在ECCV，2016年。[38] O.龙内贝格山口Fischer和T.布洛克斯U-net：用于生物医学图像分割的卷积网络在MIC- CAI，2015年。[39] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。arXiv：1409.1556，2014。[40] C. 塞格迪 W. 刘先生， Y. 贾， P. Sermanet S. 里德D.安格洛夫，D。Erhan，V. Vanhoucke，和A.拉比诺维奇。更深的回旋。CVPR，2015。[41] F. Xia，P. Wang，L.- C. Chen和A. L.尤尔。放大以看得更清楚：使用分层自动缩放网络的人和对象解析。在ECCV，2016年。6183[42] C. Yu，J. Wang，C.彭角，澳-地Gao，G. Yu和N.桑Bisenet ：用于实时语义分割的双边分割网络。在ECCV，2018。[43] C. Yu，J.Wang，C.彭角，澳-地Gao，G.Yu和N.桑学习用于语义分割的判别特征网络。在CVPR，2018年。[44] F. Yu和V.Koltun.通过扩张卷积的多尺度上下文聚合。arXiv：1511.07122，2015。[45] A. R.扎米尔A. Sax，W.申湖，澳-地J. Guibas，J. Malik和S. Savarese 任务经济学：解开任务转移学习。在CVPR，2018年。[46] Z. Zhang，中国古柏A.G. Schwing，S.Fidler和R.乌塔松基于cnn的单目标实例分割和深度排序。CVPR，2015。[47] Z. Zhang，X. Zhang C.，中国古猿科彭、X。Xue和J.Sun. Ex-fuse：增强语义分割的特征融合.在ECCV，2018。[48] H. Zhao，J. Shi，X. Qi，X. Wang和J.贾金字塔场景解析网络。在CVPR，2017年。[49] B. Zhou，H.Zhao，X.普伊格S。菲德勒，A.Barriuso和A.托拉尔巴。通过ade20k数据集进行场景解析在CVPR，2017年。

下载后可阅读完整内容，剩余1页未读，立即下载