实例分割的混合任务级联

182 浏览量更新于2023-10-18 收藏 1.15MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4974实例分割的混合任务级联陈凯1庞江淼2、3王嘉琪1熊宇1李晓晓1孙树阳4冯万森2刘紫薇1石建平2欧阳万里4陈昌来5林大华1香港中文大学2商汤科技3浙江大学4悉尼大学5南洋理工大学摘要Cascade是一个经典而强大的架构，它提高了各种任务的性能然而，如何将cascade引入实例分割仍然是一个悬而未决的问题。Cascade R-CNN和Mask R-CNN的简单组合仅带来有限的增益。在探索更有效的方法时，我们发现成功的实例分割级联的关键是充分利用检测和分割之间的互惠关系。在这项工作中，我们提出了一个新的框架，混合任务Cascade（HTC），它在两个重要方面有所不同：（1）不是对这两个任务分别执行级联细化，而是将它们交织在一起以进行联合多阶段处理;（2）采用完全卷积的分支来提供空间上下文，有助于区分硬前景和杂乱背景。总体而言，该框架可以逐步学习更多的区别性特征，同时在每个阶段将互补特征集成在一起。在没有花里胡哨的情况下，单个HTC在MSCOCO数据集上获得了比强大的CascadeMask R-CNN基线高38.4%和1.5%的改进此外，我们的整体系统在测试-挑战分裂中实现了48.6掩模AP，在COCO 2018挑战目标检测任务中排名第一。代码可从以下网址获得： https://github.com/open-mmlab/mmdetection.1. 介绍实例分割是一项基本的计算机视觉任务，它在实例级别执行对象的逐像素标记。在自动驾驶和视频监控等现实场景中实现准确和鲁棒的实例分割首先，视觉对象经常受到变形、遮挡和尺度变化的影响。其次，背景杂波使对象实例难以分离。为了解决这些问题，我们需要一个强大的代表，是弹性的外观变化。同时，它需要捕获丰富的上下文信息，以区分对象从杂乱的背景。Cascade是一个经典而强大的架构，它通过多阶段优化提高了各种任务的性能Cascade R-CNN [5]提出了一种用于对象检测的多阶段架构，并取得了令人满意的结果。Cascade R-CNN的成功可以归因于两个关键方面：（1）预测的逐步细化和（2）训练分布的自适应处理。虽然在检测任务上是有效的，但将级联的思想集成到实例分割中是不必要的。与bbox AP相比，CascadeR-CNN和Mask R-CNN [18具体来说，它将bbox AP提高了3。5%，但屏蔽AP 1。2%，如表1所示。造成这种大差距的一个重要原因是不同阶段的掩码分支之间的次优信息流。在后面的阶段中，遮罩分支只受益于更好的局部边界框，而没有直接连接。为了弥合这一差距，我们提出了混合任务级联（HTC），一个新的级联架构，例如分割。其关键思想是通过在每个阶段结合级联和多任务来改善信息流，并利用空间背景来进一步提高准确性。具体来说，我们设计了一个级联的流水线进行逐步完善。在每个阶段，边界框回归和掩模预测都以多任务方式组合。此外，在不同阶段的掩模分支之间引入直接连接-每个阶段的掩模特征将被嵌入并馈送到下一个阶段，如图2所示。整体设计加强了任务之间和跨阶段的信息流，从而在每个阶段进行更好的细化，并对所有任务进行更对于目标检测，场景上下文也提供有用的线索，例如。用于推断类别、尺度等。为了利用这一背景，我们引入了一个完全卷积的分支来执行像素级的东西分割。该分支编码上下文信息，不仅来自前方实例，而且来自背景区域，从而补充边界框和实例掩码。我们的研究表明，空间背景的使用有助于4975来学习更多有区别的特征。HTC易于实现，可以进行端到端培训。没有铃铛和哨子，它实现了2。6%和1。在具有挑战性的COCO数据集上，掩模AP分别比掩模R-CNN和级联掩模R-CNN基线高4%。再加上更好的骨干网和其他通用组件，如变形卷积、多尺度训练与测试、模型集成等方面的研究，取得了49. 测试开发数据集上的0掩码AP，比COCO Challenge 2017的获胜方法高2.3%[28我们的主要贡献总结如下：（1）提出了混合任务级联（HTC）算法，该算法将检测和分割特征交织在一起进行多级处理，有效地将级联算法集成到实例分割中。它实现了COCO测试开发和测试挑战的最先进性能。(2)我们证明了空间上下文有利于实例分割，通过区分前景对象从背景杂波。(3)本文对各种组件和设计进行了深入的研究，为目标检测和实例分割的进一步研究提供了参考和帮助2. 相关工作实例分段。实例分割是在像素级定位图像中的感兴趣对象的任务，其中分割的对象通常由掩模表示这项任务与对象检测和语义分割密切相关[30，22]。因此，用于该任务的现有方法大致分为两类，即基于检测的和基于分割的。基于检测的方法采用传统的检测器来生成边界框或区域建议，然后预测边界框内的对象掩模。这些方法中的许多方法都基于 CNN ，包括 DeepMask [36] ，SharpMask [37]和Instance-FCN [10]。 MNC [11]将实例分割公式化为一个管道，由三个子任务组成：实例本地化、掩码预测和对象分类，并以级联方式训练整个网络端到端。在最近的一项工作中，FCIS [23]扩展了InstanceFCN，并提出了一种完全卷积的方法，例如分段。Mask-RCNN [18]在Faster R-CNN [39]的基础上增加了一个额外的分支，以获得像素级掩模预测，这表明一个简单的管道可以产生令人满意的结果。PANet [28]在FPN [24]中自顶向下的路径之外添加了自底向上的路径，以促进信息流。MaskLab [7]通过结合语义和方向预测来生成实例感知掩码相反，基于分割的方法首先在图像上获得像素级分割图，然后从中识别对象实例。沿着这条线，Zhangetal.[46，45]建议预测实例标签并将局部结果与MRF相结合。Arnab和Torr [1]也使用CRF来识别物质。Bai和Urtasun [2]提出了一种替代方法，将分水岭变换和深度学习结合起来产生能量图，然后通过划分分水岭变换的输出来导出实例。其他方法包括桥接类别级和实例级分割[42]，学习边界感知掩码表示[17]，以及采用一系列神经网络来处理不同的子分组问题[27]。多阶段目标检测。在过去的几年里，目标检测取得了显著的进步。主流对象检测框架通常分为两种类型，单级检测器[29，38，25]和两级检测器[39，12，18，32]。近年来，多阶段检测框架作为一种越来越流行的目标检测范式出现.多区域CNN [14]结合了一种迭代定位机制，可以在框评分和位置细化之间进行更改。Attrac-tioNet [15]引入了一个AttendRefine模块来迭代地更新边界框位置。CRAFT [44]将级联结构并入RPN[39]和Fast R-CNN [16]，以提高建议和检测结果的质量IoU-Net [20]执行渐进式边界框细化（即使没有显式呈现级联级联结构也用于排除容易的阴性样本。例如，CC-Net [31]拒绝浅层的简单ROILi等[21]建议在多个分辨率下操作，以拒绝简单的样本。在所有使用级联结构的作品中，Cascade R-CNN [5]可能是与我们最相关的。Cascade R-CNN包括多个阶段，每个阶段的输出都被馈送到下一个阶段，以获得更高质量的细化。此外，每个阶段的训练数据都是以增加的IoU阈值进行采样的，这本身就可以处理不同的训练分布。虽然拟议的框架也采用了级联结构上，它在几个重要方面有所不同首先，多个任务，包括检测，掩模预测和语义分割，在每个阶段相结合，从而形成一个联合的多级处理流水线。通过这种方式，每个阶段的细化都受益于这些任务之间的相互关系。此外，上下文信息通过用于填充分段的附加分支被利用，并且添加方向路径以允许跨阶段的直接3. 混合任务级联Cascade证明了它在各种任务上的有效性，例如对象检测[5]。然而，为实例分段设计一个成功的架构并不简单。在这项工作中，我们发现，一个成功的例子，4976M1 M2 M3(a) 级联掩码R-CNN（b）交错执行M1 M2 M3SM1M2 M3(c) 掩码信息流(d) 混合任务级联（图中未显示与箱式分支的语义特征融合，以便简洁地呈现。）图1：从级联掩码R-CNN到混合任务级联的架构演变i将Mask R-CNN的架构添加到Cascade R-CNN的每个阶段，如图1a所示。管道公式如下：xbox=P（x，rt−1），rt=Bt（xbox），t t（1）x mask= P（x，r t−1），m t= M t（xmask）.t t其中，x表示骨干网络的CNN特征，xbox和xmask表示导出的t t图2：多级掩码分支的架构。分段级联的目的是充分利用检测和分段之间的相互关系。概况 . 在这项工作中，我们提出了混合任务级联（HTC），一个新的框架的实例分割。与现有框架相比，它在以下几个方面具有独特性：（1）它交错边界框回归和掩码预测，而不是并行执行它们。(2)该算法通过将前一阶段的掩码特征反馈到当前阶段，从而直接加强掩码分支之间的信息流。(3)它旨在通过增加一个额外的语义分割分支并将其与框和掩码分支融合来挖掘更多的上下文信息。总的来说，对框架架构的这些更改有效地改进了信息流，不仅在各个阶段之间，而且在任务之间。3.1. 多任务级联从x和输入ROI。P（·）是一个池化算子，例如，ROI对齐或ROI池化，Bt和Mt表示第t阶段的框和掩模头，rt和mt表示相应的框预测和掩模预测。通过结合级联细化的优点以及边界框和掩码预测之间的相互益处，与单独的掩码R-CNN和级联R-CNN相比，该设计改进了框AP然而，掩模预测性能仍然不令人满意。交错执行。上述设计的一个缺点是，在每个阶段的两个分支在训练过程中并行执行，都采取边界框预测从前一阶段作为输入。因此，这两个分支在一个阶段内不直接交互。为了解决这个问题，我们探索了一种改进的设计，它将box和mask分支交错，如图1b所示。交错执行表示为：xbox=P（ x， rt−1），rt=Bt（ xbox），t t（2）x mask= P（x，r t），m t= M t（xmask）.t t级联掩码R-CNN。我们从Mask R-CNN和Cascade R-CNN的直接组合开始，表示为Cascade Mask R-CNN。具体来说，掩码分支如下-通过这种方式，掩码分支可以利用最新的边界框预测。我们发现，这会提高性能。RPNM1B1M2B2M3B3FRPNB1B2B3FRPNB1B2B3FRPNB1B2B3F1x1转换3x3conv3x3conv3x3转换池池池代诺夫池1x1转换池3x3转换3x3转换池3x3转换3x3转换池代诺夫池池池池池池池池49774倍以上1x12x向上convconv3x34转换1x1转换1x1转换1x1转换3x3转换t−1不t−1t−1不t−1t−1屏蔽信息流。在上述设计中，每个阶段的掩模预测完全基于ROI特征x和框预测rt。在不同阶段的掩码分支之间没有直接的信息流，这阻碍了掩码预测精度的进一步提高。为了更好地设计掩码信息流，我们首先回顾Cascade R-CNN [5]中级联盒分支的设计。重要的一点是，箱形分支的输入特征由前一级和主干的输出共同决定。根据类似的原则，我们8x向上2x向下1x1转换语义特征分割预测通过将前一级的掩模特征馈送到当前级，在掩模分支之间引入信息流，如图1c所示。使用掩码分支之间的直接路径，流水线可以写为：图3：我们通过添加语义分割分支引入补充上下文xbox=P（ x， rt−1），r=B（ xbox），3.2. 分割的空间上下文tt t t tt（三）x掩码=P（ x， r），m=M（F（ x掩码， m-1））））的情况下，为了进一步帮助区分前景和tt t t ttt−1在复杂的背景下，我们使用空间上下文作为一个EF-其中m-表示M的中间特征我们用它作为阶段t-1的掩码表示。 F是一个将当前阶段和前一阶段的特征相结合的功能。这种信息流使得可以对掩模进行渐进细化，而不是在渐进细化的边界框上预测掩模。实施. 根据上面的讨论，我们提出了一个简单的实现如下。有效线索我们添加了一个额外的分支来预测整个图像的每像素语义分割，它采用了完全卷积的架构，并与其他分支联合训练，如图1d所示。语义分割特征是对现有框和掩码特征的有力补充，因此我们将它们结合在一起以获得更好的预测：xbox=P（x，rt−1）+P（S（x），rt−1），r=B（xbox），tt t（六）F（x掩码，m ）=x掩码+ G（m-1））（4）x掩码=P（x，rt）+P（S（x），rt），tt−1ttt−1不m=M（F（ xmask， m-）），在这个实现中，我们采用了RoI特性，tt tt−1解卷积层作为掩码表示m-，其空间大小为14×14。在阶段t，我们需要转发所有具有当前阶段RoI的先前掩码头部以计算m-。其中S指示语义分段头部。在上述公式中，每个阶段的框和掩码头不仅将从主干提取的RoI特征作为输入，而且还利用语义特征，其可以在杂乱的背景上更具区分力。m−=M−（ x掩码），11吨m−=M−（F（ xmask，m−）），语义分割分支。具体地说，该硒-2 2t1.m−=M−（F（ x掩码， m−））。（五）Mantic分割分支S是基于[24]第24话请注意，对于语义分割，单个级别的特征可能无法提供足够的区分能力。因此，我们的设计t−1ttt−2在多个级别上结合特征除了这里，M-表示掩码头M t的特征变换分量，它由4个连续的3 × 3卷积层组成，如图2所示。然后将变换后的特征m-嵌入1 × 1卷积层Gt，以便与合并的主干特征x掩模对齐。最后，G（m−）被加到为了更好的特征表示，我们还结合了具有全局信息的高级图3显示了这个分支的体系结构特征金字塔的每一层首先通过1×1卷积层与公共表示空间对齐然后低水平ttt−1x掩码不通过元素求和随着这一介绍特征图被上采样，并且高级特征图被桥，相邻的掩模分支被带入直接输入。交互作用不同阶段的掩码特征不再是孤立的，而是通过反向传播进行监督。下采样到相同的空间尺度，其中步幅为设置为8。我们根据经验发现，这种设置足以对整个图像进行精细的像素级预测。这些1x1转换4978bbox来自不同级别的变换后的特征图随后通过逐元素求和来融合此外，我们在其上添加了最后，我们简单地采用卷积层来预测像素分割图。总的来说，我们试图保持语义分割分支的设计简单明了。虽然一个更精致的结构可以进一步提高性能，它超出了我们的范围，我们把它留给未来的工作。将Contexts特征融入主框架。众所周知，密切相关的任务的联合训练可以改善特征表示，并为原始任务带来性能增益。在这里，我们建议将语义特征与框/掩码特征相融合，以允许不同分支之间进行更多的交互以这种方式，语义分支直接有助于预测具有编码的空间上下文的边界框和掩码。按照标准实践，给定RoI，我们使用RoIAlign来提取小的（例如， 7× 7或14 × 14）特征块作为表示。同时，我们还将RoIAlign应用于语义分支的特征图，并获得相同形状的特征片，然后通过元素求和来组合来自两个分支的特征3.3. 学习由于上述所有模块都是可区分的，因此可以以端到端的方式训练混合任务级联（HTC）在每个阶段t，箱头预测所有采样ROI的分类得分ct和回归偏移rt掩模头预测用于正ROI的逐像素掩模mt。语义分支预测完整的图像语义分割图。整体损失函数采用多任务学习的形式：ΣT4. 实验4.1. 数据集和评估指标数据集。我们在具有挑战性的COCO数据集上进行实验[26]。我们在2017train（115 k图像）的分割上训练模型，并在2017val和2017test-dev上报告结果。典型的实例注释用于监督 box 和 mask 分支，语义分支由COCO-stuff [4]注释监督。评估指标。我们报告了标准的COCO风格的平均精度（AP）指标，该指标对IoU阈值中的AP进行平均，从0.五比零。95，间隔为0。05.框AP和掩模AP都被评估。对于掩码AP，我们还报告了AP50、AP75（不同IoU阈值的AP）和APS、APM、APL（不同尺度的AP）。在单个TITAN Xp GPU上测量。4.2. 实现细节在所有的实验中，我们采用了3级级联。FPN用于所有主干。为了公平比较，Mask R-CNN和Cascade R-CNN使用PyTorch [33]和mmdetection [6]重新实现我们用16个GPU（每个GPU一个图像）训练检测器20个epoch，初始学习率为0。02，并减少0。分别在16和19个时期后为1。图像的长边和短边分别调整为1333和800，而不改变纵横比。在推理过程中，对象建议由不同阶段的箱头多个阶段的分类掩码分支仅应用于分数高于阈值（默认为0.001）的检测框。4.3. 基准测试结果L=t=1测试bbox测试掩模）+βLseg，我们将HTC与最先进的实例Seg进行比较，测试bboxLt（ci，rt，ct，rt）=Lcls（ct，ct）+Lreg（rt，rt），（mt，mt）=BCE（mt，mt），（七）表1中的COCO数据集上的分割方法。我们还评估了Cascade Mask R-CNN，它在第1节中描述，作为我们方法的强基线Com-掩模Lseg= CE（s，s）。这里，Lt是阶段t处的边界框预测的损失，其遵循与Cascade R-CNN [5]中相同的定义，并将两个项Lcls和Lreg，re-clock组合用于分类和边界框回归。对于Mask R-CNN，朴素级联基线带来3。5%和1. 2%的增长，在框AP和面具AP恢复。值得注意的是，该基线已经高于PANet [28]，最先进的实例分割方法。我们的HTC在以下方面实现了持续改进测试掩模是阶段t处的掩模预测的损失，其采用不同的骨干，证明其有效性。它实现增益为1。5%、1. 3%和1. 1%用于ResNet-50、ResNet-101二进制交叉熵形式如Mask R-CNN [18]。L分段是交叉熵形式的语义分割损失。系数αt和β用于平衡不同阶段和任务的贡献。我们遵循Cascade R-CNN [5]中的超参数设置除非另有说明，否则我们设置α=[1，0。5，0。25]，默认情况下T=3且β=1。和ResNeXt-101。4.4. 消融研究分量分析。首先，我们研究了我们的框架中的主要组件的效果。“Inter- leaved”αt（L+LLL4979表1：与COCO测试开发数据集上最先进方法的比较方法骨干箱AP掩模APAP50AP75APSAPMAPL运行时（fps）[18]第十八话ResNet-50-FPN39.135.657.638.118.738.346.65.3PANet[28]ResNet-50-FPN41.236.658.039.316.338.152.4-级联掩码R-CNNResNet-50-FPN42.736.958.639.719.639.348.83.0级联掩码R-CNNResNet-101-FPN44.438.460.241.420.241.050.62.9级联掩码R-CNNResNeXt-10146.640.162.743.422.042.852.92.5HTC（我们的）ResNet-50-FPN43.638.460.041.520.440.751.22.5HTC（我们的）ResNet-101-FPN45.339.761.843.121.042.253.52.4HTC（我们的）ResNeXt-10147.141.263.944.722.843.954.62.1“掩码信息”表示掩码分支信息流，“语义”表示引入语义分割分支。从表2中，我们可以了解到交错执行将掩码AP略微提高了0。百分之二。掩码信息流有助于进一步的0。6%的改进，语义分割分支导致0. 百分之六。交叉分支执行的有效性。在第3.1节中，我们设计了交错分支执行，以在训练期间从更新的边界框中受益于掩码分支。为了研究这种策略的有效性，我们将其与Mask R-CNN和Cascade Mask R-CNN上的传统并行如表3所示，在这两种方法上，交错执行的性能都优于并行执行，提高了0。5%和0。2%。屏蔽信息流的有效性。我们研究如何引入掩码信息流有助于掩码预测比较阶段的性能。不涉及语义分割分支以排除可能的干扰。从表4中，我们发现引入掩码信息流大大改善了第二阶段中的掩码AP。在掩码分支之间没有直接连接的情况下，第二阶段仅受益于更好的局部化绑定框，因此改进是有限的（0. 8%）。在掩码信息流的情况下，增益更显著（1。5%），因为它使每个阶段都意识到前一阶段的特征。与Cascade R-CNN类似，第3阶段的性能并不优于第2阶段，但它有助于集成结果。语义特征融合的有效性。我们利用上下文特征，通过引入一个语义分割分支，并融合不同分支的功能多-任务学习是有益的，这里我们研究语义特征融合的必要性。我们训练了不同的模型，将语义特征与box或mask或两者都融合，结果如表5所示。简单地添加一个完整的图像分割任务，实现了0. 6%的改善，主要是由于额外的监督。特征融合还有助于进一步增益，熔合具有box和mask分支的语义特征带来额外的0。4%的增益，这表明互补信息增加了框和掩码分支的特征区分度。减肥的影响。引入新的超参数β，因为我们涉及联合训练的另一个任务。我们测试了语义分支的不同损失权重，如表6所示。结果表明，该方法对失重不敏感.4.5. HTC上的扩展与建议的HTC，我们达到49。0掩模AP和2. 与去年的获奖作品相比，绝对提高了3%在这里，我们列出了所有的步骤和额外的模块用于获得性能。表7显示了每个器件带来的步进增益。HTC Baseline。ResNet-50基线达到38。2屏蔽AP。DCN。我们在骨干的最后一级（res5）采用可变形卷积[13SyncBN。同步批量标准化[34，28]用于主干和头部。多层次培训。我们采用多层次培训。在每次迭代中，短边的尺度从[400，1400]中随机采样，长边的尺度固定为1600。SENet-154。除了ResNet- 50之外，我们还尝试了不同的主干，SENet-154 [19]在其中实现了最佳的单模型性能。GA-RPN。我们用GA-RPN [41]生成的建议微调训练的检测器，其召回率比RPN高出近10%。多尺度测试。我们使用5个尺度以及水平翻转在测试时和集成的结果。测试标度为（600，900），（800，1200 ），（ 1000 ， 1500 ），（ 1200 ， 1800 ），（1400，2100）。合奏。我们利用五个网络的实例：SENet-154[19]、ResNeXt-101 [43] 64x4d、ResNeXt-10132 x8 d，DPN-107 [9]，渔网[40]。4980表2：我们设计中每个组件的效果结果报告于COCO 2017 val。级联交错面罩信息语义箱AP掩模APAP50AP75APSAPMAPLC42.536.557.939.418.939.550.8CC42.536.757.739.418.939.750.8CCC42.537.458.140.319.640.351.5CCCC43.238.059.440.720.340.952.3表3：不同方法上并行/交错分支执行的结果方法执行箱AP掩模APAP50AP75APSAPMAPL掩码R-CNN并行38.435.156.637.418.738.447.7交错38.735.657.237.919.039.048.3级联掩码R-CNN并行42.536.557.939.418.939.550.8交错42.536.757.739.418.939.750.8表4：掩码信息流的影响我们评估的阶段明智的和集成的性能与或没有信息流（表示为I.F.）。表6：语义分支损失重量β在COCO 2017 val.βAP AP50AP75APSAPM APL表7：具有更好的骨干和钟状部的结果（掩模AP）Y阶段237.0 58.039.819.439.851.3和COCO测试开发数据集上的哨声。第三阶段36.8 57.2 39.9 18.7 39.8 51.1第一阶段37.458.1 40.3 19.6 40.3 51.5表5：COCO 2017 val上语义特征融合的消融研究。融合APAP50AP75APSAPMAPL-36.557.939.418.939.550.8没有一37.158.639.919.340.051.7bbox37.358.940.219.440.252.3掩模37.458.740.219.440.152.4两37.559.140.419.640.352.64.6. 公共模块我们还对一些用于检测和分割的组件进行了广泛的研究。组件经常在不同的条件下进行比较，如主干、代码库等。在这里，我们提供了一个统一的环境与国家的最先进的对象检测和实例分割框架，以调查的功能，广泛的组件。我们集成了几个通用模块设计用于检测和分割，并在相同的设置下对其进行评估，结果如表8所示。由于我们的经验和资源的限制，有些实现和集成方法可能不是最优的，值得进一步研究。代码将作为基准发布，以测试更多组件。ASPP。我们采用了语义分割社区的Atrous空间金字塔池（ASPP）[8]模块，以在多个尺度上捕获更多图像上下文I.F.测试阶段APAP50AP75 APSAPMAPL0.5三十七点九59.340.719.741.052.5阶段135.556.737.818.738.848.6一百三十八点零59.440.720.340.952.3N阶段236.357.539.018.839.450.6237.959.340.619.640.852.8阶段335.956.538.718.239.149.9337.859.040.519.940.553.2APAP50AP75APSAPMAPL2017年获奖者[28]46.769.551.326.049.164.0我们49.073.053.933.952.361.2HTC基线38.460.041.520.440.751.2+ DCN39.561.342.820.941.852.7+ SyncBN40.762.844.222.243.154.4+ MS列车42.564.846.423.745.356.7+ SENet-15444.367.548.325.047.558.9+ GA-RPN45.368.949.427.048.359.6+ ms检测47.470.652.130.250.161.8+合奏49.073.053.933.952.361.24981图4：COCO数据集上的分割结果示例。我们在FPN之后附加了一个ASPP模块。PAFPN。我们测试了PANet的PAFPN模块[28]。与原始实现的不同之处在于我们不使用 SynchronizedBatchNorm。GCN.我们在语义分割分支中采用全局卷积网络（GCN）[35]。精确的RoIPooling。我们将HTC中的RoI对齐层替换为Precise RoI Pooling [20]。SoftNMS。我们将SoftNMS [3]应用于框结果。表8：COCO 2017 val5. 结论我们提出了混合任务级联（HTC），一个新的cas-cade架构的实例分割。该算法将框分支和掩码分支交织在一起进行多级联合处理，并采用语义分割分支提供空间上下文。该框架逐步完善掩模预测，并在每个阶段将互补特征集成在一起。在没有花里胡哨的情况下，所提出的方法获得1。比MSCOCO数据集上的强级联掩码R-CNN基线提高了5%。值得注意的是，我们的整体系统达到48。6掩模测试挑战数据集上的AP和49.0屏蔽测试设备上的AP。方法APAP50AP75 APSAPMAPLHTC38.059.440.720.340.952.3HTC+ASPP38.159.941.020.041.252.8致谢。这项工作的部分支持HTC+PAFPN38.159.541.020.041.253.0SenseTime集团的合作研究基金HTC+GCN37.959.240.720.040.652.3(CUHK协议编号TS1610626&编号TS1712093），HTC+PrRoIPool 37.959.140.919.740.952.7香港一般研究基金（第HTC+SoftNMS38.359.641.220.441.252.714236516号 14203518号 14224316），和Singa-孔隙MoE AcRF第1层（M4012082.020）。4982引用[1] Anurag Arnab和Philip HS Torr。使用深度高阶crfs的自底向上实例分段。2016年英国机器视觉会议[2] 白敏和拉奎尔·乌塔孙用于实例分割的深分水岭变换。2017年在IEEE计算机视觉和模式识别会议上发表[3] Navaneeth Bodla，Bharat Singh，Rama Chellappa，andLarry S Davis.用一行代码改进目标检测。在IEEE计算机视觉国际会议上。IEEE，2017年。[4] Holger Caesar Jasper Uijlings 和 Vittorio Ferrari Coco-stuff：上下文中的东西类在IEEE计算机视觉和模式识别会议上，2018。[5] 赵伟蔡和努诺·瓦斯康塞洛斯。Cascade r-cnn：深入研究高质量的对象检测。在IEEE计算机视觉和模式识别会议上，2018。[6] Kai Chen，Jiangmiao Pang，Jiaqi Wang，Yu Xiong Li，Shuyang Sun，Wansen Feng，Ziwei Liu，Jianping Shi，Wanli Ouyang，Chen Change Loy，and Dahua Lin. mm检测。https://github.com/open-mmlab/mmdetection，2018.[7] Liang-Chieh Chen，Alexander Hermans，George Papan-dreou，Florian Schroff，Peng Wang，and Hartwig Adam.Masklab：通过语义和方向特征细化对象检测进行实例分割在IEEE计算机视觉和模式识别会议上，2018。[8] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence，（4）：834[9] Yunpeng Chen，Jianan Li，Huaxin Xiao，Xiaojie Jin，Shuicheng Yan，and Jiashi Feng.双路径网络。在神经信息处理系统的进展，2017年。[10] Jifeng Dai ，Kaiming He ，Yi Li ，Shaoqing Ren ，andJian Sun.实例敏感的全卷积网络。2016年欧洲计算机视觉会议[11] 戴季峰、何开明、孙建。通过多任务网络级联的实例感知语义分割。在IEEE计算机视觉和模式识别会议上，2016年。[12] 戴纪峰，易力，何开明，孙建R-FCN：通过基于区域的全卷积网络进行对象检测。神经信息处理系统进展，2016。[13] Jifeng Dai，Haozhi Qi，Yuwen Xiong，Yi Li，GuodongZhang，Han Hu，and Yichen Wei.可变形卷积网络。IEEEInternational Conference on Computer Vision ，2017。[14] 斯派罗·吉达里斯和尼科斯·科莫达基斯基于多区域和语义分割感知cnn模型的目标检测。IEEEInternationalConference on Computer Vision，2015年。[15] 斯派罗·吉达里斯和尼科斯·科莫达基斯参加细化重复：通过输入输出本地化生成活动框建议。2016年英国机器视觉会议[16] 罗斯·格希克。快速R-CNN。IEEE国际计算机视觉会议，2015。[17] Zeeshan Hayder，Xuming He，and Mathieu Salzmann.边界感知实例分割。2017年在IEEE计算机视觉和模式识别会议上发表[18] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick. 面具 R-CNN 。 IEEEInternationalConference on Computer Vision，2017。[19] 杰虎，李申，孙刚。挤压-激发网络。在IEEE计算机视觉和模式识别会议上，2018。[20] 蒋博瑞，罗瑞轩，毛嘉源，肖特特，蒋云英获取用于精确对象检测的定位置信度在2018年欧洲计算机视觉会议[21] Haoxiang Li ， Zhe Lin ， Xiaohui Shen ， JonathanBrandt，and Gang Hua.用于人脸检测的卷积神经网络级联。在IEEE计算机视觉和模式识别会议上，2015年。[22] 李晓晓，刘紫薇，罗平，陈昌来，唐晓鸥。并非所有像素都相等：通过深层级联的难度感知语义分割。在IEEE计算机视觉和模式识别上，2017年。[23] 李毅、齐昊之、戴季风、季向阳、魏一完全卷积的实例感知语义分割。在IEEE计算机视觉和模式识别会议上，2017年。[24] 林宗义、杜拉拉、葛希克、何开明、哈里哈兰、贝隆吉.用于对象检测的特征金字塔网络。IEEE计算机视觉和模式识别会议，2017年。[25] 林宗义、普里亚·戈亚尔、罗斯·格希克、何开明和彼得 · 多尔 · 拉尔。密集目标检测的焦面损失。IEEEInternational Conference on Computer Vision ，2017。[26] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。2014年欧洲计算机视觉会议[27] Shu Liu，Jiaya Jia，Sanja Fidler，and Raquel Urtasun.Sgn：用于实例分段的顺序分组网络。IEEEInternationalConference on Computer Vision，2017。[28] 刘舒，陆琪，秦海防，石建平，贾佳雅。用于实例分段的路径聚合网络在IEEE计算机视觉和模式识别会议上，2018。[29] Wei Liu ， Dragomir Anguelov ， Dumitru Erhan ，Christian Szegedy ， Scott Reed ， Cheng-Yang Fu ， andAlexander C Berg. Ssd：单发多盒探测器。在欧洲计算机视觉会议上，2016年。[30] Ziwei Liu，Xiaoxiao Li，Ping Luo，Chen-Change Loy，and Xiaoou Tang.基于深度解析网络的语义图像分割IEEE国际计算机视觉会议，2015。[31] Wanli Ouyang ， Kun Wang ， Xin Zhu ， and XiaogangWang.用于目标检测的链式级联网络。在2017年IEEE国际计算机视觉会议4983[32] Jiangmiao Pang ， Kai Chen ， Jianping Shi ， HuajunFeng，Wanli Ouyang，and Dahua Lin.天秤座r-cnn：目标检测的平衡学习。在IEEE计算机视觉和模式识别会议，2019。[33] Adam Paszke

下载后可阅读完整内容，剩余1页未读，立即下载