BlendMask：自顶向下与自底向上相结合的实例分割

42 浏览量更新于2023-10-25 收藏 1012KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8573BlendMask：自顶向下与自底向上相结合的实例分割陈昊1人，孙昆阳2人，田智1人，沈春华1人，黄永明2人，严友良3人1澳大利亚阿德莱德大学2中国东南大学3华为诺亚{hao.chen01，zhi.tian，chunhua.shen} @ adelaide.edu.au{sunky，huangym} @yanyouliang@huawei.com seu.edu.cn摘要实例分割是基本的视觉任务之一。最近，全卷积实例分割方法引起了人们的广泛关注，因为它们通常比Mask R-CNN等两阶段方法更简单，更有效。到目前为止，当模型具有相似的计算复杂度时，几乎所有这些方法在掩码精度上都落后于两阶段Mask R-CNN方法，留下了很大的改进空间。在这项工作中，我们实现了改进的掩码预测有效地结合实例级信息和语义信息与较低级别的细粒度。我们的主要贡献是一个搅拌机模块，它从自上而下和自下而上的实例分割方法中汲取灵感。所提出的BlendMask可以用很少的通道有效地预测密集的每像素位置敏感的实例特征，并且仅用一个卷积层来学习每个实例的注意力图BlendMask可以很容易地与最先进的一阶段检测框架结合BlendMask的轻量版本在单个1080Ti上以27 FPS评估时达到36.0 mAP由于其简单性和有效性，我们希望我们的BlendMask可以作为一个简单而强大的基线，用于广泛的实例预测任务。1. 介绍表现最好的对象检测器和分段器的-10遵循两个阶段的范例。它们由一个完全卷积的网络，区域建议网络（RPN）组成，用于对最可能的兴趣区域（ROI）进行密集预测。一组轻量级网络，也就是头部，用于重新对齐ROI的特征并生成预测[22]。掩模生成的质量和速度与掩模头的结构密切相关此外，本发明还提供了一种方法，*同等缴款。这项工作是在K。Sun正在访问阿德莱德大学。信件应寄至C。Shen和Y. 煌口罩图1：混合过程。我们举例说明了学习的基础和注意事项。四个基地和注意力地图显示在不同的颜色。第一排是基础，第二排是注意事项。这里，表示元素的乘积，是元素的和。每个基乘以它的注意力，然后求和得到最终的掩码。独立的头部难以与诸如语义分割的相关任务共享特征，这给网络架构优化带来麻烦。单阶段目标检测的最新进展证明，单阶段方法（如FCOS）在准确性方面优于其使这种单阶段检测框架能够执行密集实例分割是非常期望的，因为1）仅由常规操作组成的模型对于跨平台部署来说更简单和更容易;2）统一的框架为多任务网络体系结构优化提供了方便和灵活性。密集实例分割器可以追溯到Deep-Mask [21]，这是一种自上而下的方法，它使用滑动窗口生成密集实例掩码。掩码的表示在每个空间位置被编码成一维向量尽管它结构简单，但在训练中有几个障碍，使其无法实现卓越的性能：1）特征和掩模之间的局部相干性丢失; 2）特征表示是冗余的，这是因为在每个前景特征处重复编码掩码; 3）在利用跨步卷积进行下采样之后，位置信息被降级。第一个问题是研究戴等。[8]，他们试图通过保持多个位置敏感的地图来保持局部一致性。这个想法已经被探索到了极限基地、、、、、、联系人8574Chen等人[7]他为目标实例掩码的每个位置然而，这种方法以表示效率换取对齐，使得第二个问题难以解决。第三个问题阻止了大量下采样特征提供详细的实例信息。认识到这些困难，一系列研究采取了自下而上的策略[1，19，20]。这些方法产生密集的每像素嵌入特征，并使用一些技术来分组。根据嵌入特征，嵌入策略从简单的聚类[4]到基于图的算法[19]通过执行逐像素预测，局部相干性和位置信息被很好地保留。自下而上方法的缺点是：1）严重依赖密集预测质量，导致低于标准的性能和分段/联合掩码;2) 对具有大量类的复杂场景的泛化能力有限; 3）复杂的后处理技术要求。在这项工作中，我们考虑混合自上而下和自下而上的方法。我们认识到两个重要的前身，FCIS [16]和YOLACT [3]。它们预测实例级信息，如边界框位置，并分别使用裁剪（FCIS）和加权求和（YOLACT）将其与每像素预测相结合。我们认为，这些过于简化的组装设计可能无法提供一个很好的平衡的表示能力的顶层和底层的功能。更高级别的特征对应于更大的感受野，可以更好地捕获有关实例的整体信息，例如姿势，而较低级别的特征可以保留更好的位置信息，并可以提供更精细的细节。一我们工作的重点是研究在完全卷积实例分割中更好地合并这两者的方法。更具体地说，我们通过丰富实例级信息和执行更细粒度的位置敏感掩码预测来概括基于提议的掩码组合的操作。我们进行了广泛的消融研究，以发现最佳尺寸、分辨率、对齐方法和特征位置。具体而言，我们能够实现以下目标：• 我们设计了一个灵活的方法，基于建议的实例掩模预测称为搅拌机，其中包括，通过精确的密集像素特征传递丰富的实例级信息。它可以被添加到大多数对象检测器中，并具有适度的计算开销。在头对头的比较中，我们的混合器超过YOLACT [3]和FCIS [16]中的合并技术1.9，COCO数据集上的mAP分别为1.3点• BlendMask的一个明显优点是，它的推断时间不会像传统的两阶段方法那样随着预测次数的增加而增加，使其在实时场景中更加健壮。• 与Mask R-CNN的掩膜头（通常为28 × 28分辨率）相比分辨率，由于其灵活性和底部模块不严格绑定到FPN。因此，BlendMask能够产生具有更精确边缘的掩模，如图4所示。对于图形等应用程序，这可能非常重要。• BlendMask的性能达到37 mAP。0%与ResNet-50[14]骨干和41。在COCO数据集上使用ResNet-101的3%mAP，超过-形成Mask R-CNN [12]的准确性，同时更快。我们创造了完全卷积实例分割的新记录，超过了TensorMask [7]，2.3点的掩码mAP只有一半的训练迭代和1/5的推理时间。2. 相关工作无锚对象检测对象检测的最新进展揭示了删除边界框锚的可能性[23]，大大简化了检测管道。与其基于锚点的对应部分RetinaNet相比，这种简单得多的设计将盒平均精度（APbb）提高了2.7%这种改进的一个可能的原因是，没有预先定义的锚形状的限制，目标根据其有效感受野自由地匹配到预测特征对我们的提示是双重的。首先，重要的是用适当的金字塔级别映射目标大小，以适合特征的有效接收场。其次，移除锚点使我们能够将更重的任务分配给顶级实例预测模块，而不会引入整体计算开销。例如，推断形状和姿势信息以及边界框检测将花费基于锚的框架比我们多八倍的计算这使得基于锚的检测器难以平衡顶部与底部工作负载（即，学习实例感知映射1与碱）。我们假设，这可能是为什么YOLACT只能学习一个单一的标量系数为每个原型/基础给定的一个实例时，计算复杂性考虑在内。只有使用无锚定边界框检测器，才能消除这种限制。检测-然后-分割实例分割主流的实例分割范例采用两个阶段方法，首先检测对象，然后预测每个提案上的前景掩模该框架的成功部分归功于对齐操作RoIAlign [12]，它为所有单阶段自上而下中缺失的第二阶段RoI头部提供了局部一致性1BlendMask的注意力图和YOLACT的简单权重标量。8575基地搅拌机底部模块塔P5P4P3P2盒联系人C5C4C3C2塔检测器特征BlendMask功能连接可选连接P7P6图2：BlendMask流水线我们的框架建立在最先进的FCOS对象检测器[23]的基础上，只做了最小的修改。底部模块使用主干或FPN特征来预测一组碱基。在检测塔的顶部添加单个卷积层，以产生注意力掩码以及每个边界框预测。对于每个预测的实例，混合器使用其边界框裁剪基础，并根据学习到的注意力地图将它们线性组合。请注意，底部模块可以从“C”或“P”中获取特征方法。然而，在两阶段框架中存在两个问题。对于具有许多实例的复杂场景，两阶段方法的推理时间与实例的数量成正比。此外，ROI特征和所得掩模的分辨率是有限的。我们将在4.3节详细讨论第二个问题。这些问题可以通过用简单的裁剪和组装模块替换RoI头来部分解决。在FCIS中，Liet al.[16]将底部模块添加到检测网络，用于预测由所有实例共享的位置敏感得分图。这种技术首先在R-FCN中使用[9]，后来在MaskLab中改进[5]。k2的每个通道分数图对应于建议的k×k个均匀划分的网格瓦片的一个每一张分数图都代表着发送像素属于对象并且处于特定相对位置的可能性。当然，位置裁剪的更高分辨率会导致更准确的预测，但计算成本也会成倍增加。此外，在某些特殊情况下，FCIS的代表性不足。当两个实例共享中心位置（或任何其他相对位置）时，该裁剪上的得分图表示是模糊的，不可能知道该裁剪正在描述哪个实例。在YOLACT [3]中，使用了一种改进的方法。代替使用位置控制的图块，一组掩码系数与框预测一起学习。然后，这组系数引导裁剪的底部掩模基的线性组合以生成最终掩模。与FCIS相比，预测实例级信息的责任被分配给顶层。我们认为使用标量系数来编码实例信息是次优的。为了突破这些限制，我们提出了一个新的基于提议的掩码生成框架，称为混合，面具顶层和底层表示工作负载由混合器模块平衡。这两个级别都保证在其最佳能力范围内描述实例信息。如我们在第4节中的实验所示，与YOLACT和FCIS相比，我们的混合器模块在不增加计算复杂度的情况下大幅提高了基组合方法使用较低级别的功能细化粗蒙版BlendMask将顶级粗实例信息与较低级别的细粒度合并。这个想法类似于MaskLab [5]和实例掩码投影（IMP）[10]，它将掩码预测与骨干特征的较低层连接起来。差异是显而易见的。我们的粗糙面具就像一个注意力地图。该生成是非常轻量级的，不需要使用语义或位置监督，并且与对象生成密切相关。如第3.4节所示，我们的较低级别特征具有清晰的上下文含义，即使不是由bin或crop引导的解释。此外，我们的混合器不需要像MaskLab [5]和IMP [10]中那样在合并的特征之上建立子网，这使得我们的方法更有效。3. 混合面膜3.1. 整体流水线BlendMask由探测器网络和掩码分支组成。掩码分支有三个部分，一个用于预测得分图的底部模块，一个用于预测实例注意力的顶层模块，以及一个用于合并得分和注意力的混合器模块。整个网络如图2所示。底部模块类似于其他基于提议的完全卷积方法[3，16]，我们添加了一个底部模块预测得分图，我们称之为基础B。B的形状为FPN骨干检测器模块BlendMask模块…8576≥0DDDDdN×K×H×W，其中N为批量，K为数量。然后，我们在每个实体之间应用逐元素乘积S s碱基的数目，H×W是输入大小，s是得分图输出步幅。我们使用DeepLabV3+的解码器，实验其他密集的预测模块也应该没有太大的区别。底部模块的输入可以是骨干特征，如传统的语义分割网络[6]，或特征金字塔，如YOLACT和Panoptic FPN[15]。顶层我们还在每个检测塔上附加一个卷积层来预测顶层注意力A。与YOLACT中的掩模系数不同，对于分辨率为Wl×Hl的每个金字塔，N×K×Hl×Wl，我们的A在每个位置上都是张量形状为N×（K·M·M）×Hl×Wl的注意力分辨率。通过其3D结构，我们的注意力地图可以对实例级信息进行编码，例如，对象的粗略形状和姿态。M通常小于自顶向下方法中的掩码预测，因为我们只要求粗略的估计。我们用K·M·M个输出通道的卷积来预测它在将它们发送到下一个模块之前，我们首先应用FCOS [23]后处理以选择顶部D框预测rd，sd的区域R和得分S，并沿K求和维度来得到我们的掩码logitmd：ΣKmd=sk<$rk， <$d ∈ {1. - 是的- 是的D}，⑷k=1其中k是基的索引。我们在图1中可视化K=43.3.基准和基线我们考虑BlendMask的以下可配置超• R，底层ROI分辨率，• M，顶级预测分辨率，• K，碱基的数目，• 底层模块输入特征，它可以是来自主干或FPN的特征，• 底基、最近邻或双线性池的抽样方法，• 最高层注意力最近P={pd∈R4|d = 1 . . . D} and corresponding atten-相邻或双线性上采样。解A ={ad∈ RK× M × M|d = 1. - 是的- 是的D}。Blender模块是我们BlendMask的关键部分。它结合位置敏感基地根据atten-以生成最终预测。我们将在下一节中详细讨论此模块。3.2. Blender模块混合器模块的输入是底层基础B、所选择的顶层关注A和边界框提议P。首先，我们在Mask R-CNN [12]中使用RoIPoetry来裁剪每个建议pd的基础，然后重新调整大小。gion映射到固定大小的R×R特征映射rd.rd= RoIPool R× R（B，pd），nd∈ {1. . . D}。（1）更具体地说，我们对RoIAlign使用采样率1，即每个采样点一个仓的性能使用最近和双线性池的比较见表6。在训练过程中，我们简单地使用地面实况框作为建议。在推理过程中，我们使用bbox预测。我们将 ad 从 M ×M 内插到 R×R ，使其成为R={rd|d=1. -是的-是的 D}。我们用缩写R K M表示我们的型号。例如，28 4 4表示底层区域分辨率为28×28，4个基地和4×4个顶级实例注意力。默认情况下，我们使用主干功能C3和C5与DeepLabv3+保持一致。最近邻插值用于顶级插值，与FCIS [16]进行公平比较。在底层使用双线性采样，与RoIAlign [12]一致。3.4. 在学习的特征中编码的语义通过检查val2017上生成的基础和注意力，我们观察到了这种模式。在此基础上，Blend-Mask编码两种类型的局部信息，1）像素是否在对象上（语义），2）像素是否在对象的某个部分上（位置敏感）。图3显示了投射到原始图像上的完整基础和注意力。前两个基础（红色和蓝色）检测对象右上角和左下角的点。第三个（黄色）基地激活点更有可能是一个对象。第四个（绿色）基地只在对象的边界上激活位置敏感功能帮助我们分离重叠，′=插值M×M →R ×R（ad），nd ∈ {1.- 是的- 是的D}。（二）stances，这使得BlendMask能够比YOLACT更有效地表示所有积极语义然后a′沿着K维度，使其成为一组得分图sd。sd= softmax（a′），softd ∈ {1. - 是的- 是的D}。（三）2我们尝试的最大M是14。mask使我们的最终预测比FCIS更平滑[16]，并且负数可以进一步抑制实例外激活。我们在表1中将我们的搅拌机与 YOLACT 和 FCIS 的同类产品进行了比较。BlendMask 可以学习比YOLACT 和FCIS 更准确的特征，并且碱基数量少得多（4vs.32vs. 49，参见第4.2节）。一8577(a) （b）最高层的关注图3：学习基础和注意事项的详细视图。左边的四个图像是底层基础。正确的形象是最高级别的关注。注意力的每个位置上的颜色对应于底座的重量，指示面罩从哪个底座的哪个部分组装。4. 实验我们的实验在MSCOCO 2017实例分割数据集上报告它包含123K图像和80类实例标签。我们的模型在train2017分割（115K图像）上进行训练，消融研究在val2017分割（5K图像）上进行最后的结果还在测试阶段.评估指标是COCO掩模平均精度（AP）、IoU0.5（AP50）、0.75（AP75）处的AP以及不同大小APS、APM和APL处的对象的AP。除非特别说明，ImageNet预训练的ResNet-50 [13]被用作我们的骨干网络。DeepLabv3+ [6]解码器，通道宽度为128，用作我们的底层模块。对于消融研究，所有网络都使用FCOS的1×9万次迭代，4个GPU上的批量大小为16，基本学习率为0.01，持续预热1k次迭代。在迭代60K和80K时，学习率降低了10倍。所有超参数都设置为与FCOS相同[23]。在我们所有的表中，推理时间的单位都是“ms”。对于烧蚀实验，我们的模型的性能和时间是在一个1080Ti GPU上每批一个图像来测量的。4.1. 消融实验我们通过对第3.3节中的可配置超参数进行消融实验来研究我们的混合器模块的有效性。合并方式：Blendervs.YOLACTvs.FCIS与我们的方法类似，YOLACT [3]和FCIS [16]都合并了基于提议的底部区域以创建掩码预测。 YOLACT简单地执行底部区域的通道的加权和; FCIS组装位置敏感掩模的作物而无需修改。我们的blender可以被看作是一个概括，其中YOLACT和FCIS合并都是特例：1×1最高分辨率退化为YOLACT;方法APAP50AP75加权和29.752.230.1汇编程序30.352.531.3搅拌机31.653.433.3表1：合并顶部和底部模块的不同策略的比较。这里使用的模型是28 4 4。加权和是我们对YOLACT的类比，将最高分辨率降低到1×1。Assembler是我们对FCIS的类比，其中碱基数量增加到16个，匹配每个区域作物，而无需顶级关注。RM时间（ms）APAPSAPMAPL272.730.614.334.142.528472.931.614.835.245.0773.932.015.335.645.0472.932.514.936.146.056774.133.115.136.647.71477.733.316.336.847.4表2：分辨率：通过改变顶层/底层分辨率的性能，所有模型的基数K=4。最高层的注意力是用最近邻插值的。底部模块使用主干功能C3、C5。性能随着注意力分辨率的增加而增加，在接近1/4的区域大小的分辨率处饱和。FCIS是我们使用固定的一热混合注意力和最近邻顶层插值的情况。结果示于表1中。我们的搅拌机远远超过其他可供选择的产品。我们假设原因是其他方法在顶层缺乏实例感知的指导。相比之下，我们的blender有一个细粒度的顶层注意力图，如图3所示。顶部和底部分辨率：我们用不同的顶部和底部分辨率来测量模型的性能，尝试底部分辨率R为28和56，R/M比为14到4。如表2所示，通过增加注意力分辨率，我们可以在保持运行时间大致相同的情况下合并更详细的实例级信息。请注意，增益在更高的分辨率下减慢，揭示了详细信息的限制8578在顶层形成。因此，我们与两阶段方法不同，增加底层基础池化分辨率不会引入太多计算开销。将其从28增加到56只会在0.2ms内增加推理时间，而掩码AP增加1点。在进一步的消融实验中，我们为我们的基线模型设置R=56和M=7基数：YOLACT [3]使用32个关于推理时间的基数。使用我们的搅拌机，碱基的数量可以进一步减少，甚至只有一个。我们报告我们的模型的碱基数从1到8不等。不同于普通的blender，单基础版本在基础和注意力图上都使用了sigmoid结果如表3所示。由于实例级信息可以用顶级注意力更好地表示，因此我们只需要4个基就可以获得最佳精度。所有后续实验均采用K=4底部特征位置：骨干vs.FPN通过使用FPN特性，我们可以提高性能，同时减少运行时间（见表4）。在后面的实验中，如果没有指定，我们使用FPN的P3和P5作为我们的底部模块输入。插值方法：在Mask R-CNN [12]中，RoIAlign在对齐池化特征以保持局部相干性方面起着至关重要的作用。我们研究了双线性插值对底层ROI采样和顶层注意力重缩放的有效性。如表5所示，将顶部插值从最接近更改为双线性可产生0.2 AP的边际改进。使用RoIPool [11]（最接近）和RoIAlign [12]（双线性）进行底部采样的结果对于这两种分辨率，对齐双线性采样可以将性能提高近2AP。对底层使用对齐的特征更为关键，因为它是预测详细位置我们最终的模型采用双线性顶部和其他改进：我们尝试其他技巧来提高性能。首先，我们在P3上添加辅助语义分割监督，类似于YOLACT[3]。然后我们将底部模块的宽度从128增加到256。最后，我们将基础输出步幅从8减少到4，以产生更高质量的基础。我们通过使用P2和P5作为底部模块输入来实现这一点表7显示KAPAP50AP75130.652.931.6231.253.432.3433.154.134.9833.053.934.9表3：底座数量：56个K7型号的性能.对于一个基的配置，我们对顶部和底部特征都使用S形激活我们的模型只适用于少量的碱基。特征M时间（ms）APAP50AP75C3、C5774.133.154.134.91477.733.354.135.3P3、P5772.533.354.235.31476.433.454.335.5表4：底部特征位置：底部分辨率为56×56、4个基和双线性底部插值的性能。C3、C5使用主干的功能P3、P5使用FPN中的功能插值MAPAP50AP75最近733.354.235.31433.454.335.5双线性733.554.335.71433.654.635.6表5：顶部插值：底部分辨率为56×56、4个基和双线性底部插值的性能。Nearest表示最近邻上采样，bilinear表示双线性插值。对准RMAPAP50AP75最近28730.553.031.6561431.953.633.4双线性28732.454.434.5561433.654.635.6表6：底部对齐：具有4个基和双线性顶部插值的性能。Nearest表示Fast R-CNN [11]中的原始RoIPool，bilinear是Mask R-CNN [12]中的RoIAlign。底部时间（ms）APbbAPAP50AP75DeepLabV3+76.538.833.654.635.6+语义76.539.234.254.936.4+12878.539.134.354.936.6+s/486.439.234.455.036.8原P385.239.034.454.936.8原FPN78.839.134.454.936.8表7：其他改进：我们对所有模型使用56 4 14x14和双线性插值。“+语义”是以语义监督为辅助损失的模式。‘+128’ is the model withbottom module channel size比较了 DeepLab V3+ 和 YOLACT（Proto）中的解码器‘Proto-P3’两者都是用“+semantic”设置训练的。结果通过增加语义损失，检测和分割结果都得到了改善。这是一个有趣的效果，因为实例分割任务本身并没有改善框AP。尽管所有技巧都有助于改进，但我们决定不使用更大的基础分辨率，因为它会使模型每幅图像减慢10 ms。我们还在YOLACT [3]中实现了protonet模块我们包括一个P3版本和一个FPN版本。 P3版本与Yolact。对于FPN版本，我们首先使用3×3卷积将P3、P4和P5的通道宽度更改为128然后将所有特征上采样到s/8并求和。关注-8579方法骨干历元八月时间（ms）APAP50AP75APSAPMAPLMask R-CNN [12]1297.034.656.536.615.436.349.7掩码R-CNN*72C97+36.859.239.317.138.752.1TensorMask [7]转轴-5072C400+35.557.337.416.637.049.1混合面膜1278.534.355.436.614.936.448.9混合面膜36C78.537.058.939.717.339.452.5Mask R-CNN12118.136.258.638.416.438.452.1掩码R-CNN*36C118+38.361.240.818.240.654.1TensorMask72C400+37.359.539.517.539.351.6SOLO [24]+deform convs [24]R-1017272CC--37.840.459.562.740.443.316.417.640.643.354.258.9混合面膜36C101.838.460.741.318.241.553.3混合面膜 *36C94.139.661.642.622.442.251.4+deform convs（interval=3）60C105.041.363.144.622.744.154.5表8：COCO测试的定量结果-开发我们将BlendMask与Mask R-CNN和TensorMask进行比较Mask R-CNN* 是修改后的MaskR-CNN，其实现细节在TensorMask [7]中。带有“aug.”的型号使用具有较短侧程的多尺度训练[640，800]。Mask R-CNN1×和BlendMask的速度是在单个1080Ti GPU上使用maskrcnn基准测试测量的BlendMask* 通过Detectron 2实现，速度差异由不同的测量规则引起'+deform convs（interval = 3）'在[2]之后使用间隔为3的骨干中的可变形卷积。方法骨干NMS决议时间（ms）APbbAPAP50AP75YOLACT快速550 ×55034.232.529.848.331.3YOLACTR-101快速700 ×70046.733.430.949.832.5BlendMask-RT批处理550× ∗47.641.636.861.242.4Mask R-CNN转轴-50批处理550× ∗63.439.135.356.537.6BlendMask-RT36.039.335.155.537.1表9：COCOval2017上与其他最先进方法的速度和精度实时设置比较。YOLACT的测试是使用他们的官方代码和训练模型获得的。Mask R-CNN和BlendMask模型使用Detectron 2进行训练和测量。分辨率550×100意味着在推理中使用较短的边550我们的快速版本BlendMask在准确性方面明显优于YOLACT，并且执行时间相同ing与P2版本相同，只是我们将卷积层减少了一层。辅助语义丢失应用于两个版本。如表7所示，将底层模块从DeepLabv3+更改为protonet不会显著修改速度和性能。4.2. 主要结果我们在COCO测试-开发数据集3上比较了BlendMask与Mask R-CNN [12]和TensorMask [7]。我们使用具有双线性顶部插值的56 4 14由于我们的消融模型严重拟合不足，我们将训练迭代次数增加到270K（3×时间表），将学习率调整到180K，二十四万在Chenet al.的策略[7]，我们使用多-从[640，800]中随机抽取短边进行规模训练。如表8所示，我们的BlendMask 比具有更深FPN的修改后的Mask R-CNN和TensorMask都更好，只使用了它们训练迭代的一半。3为了与TensorMask进行公平的比较，我们用于主要结果的代码库是maskrcnn基准。最近发布的Detectron 2修复了以前存储库中maskrcnn基准测试（ROIAlign和粘贴掩码）的几个问题，并且性能得到了进一步改进。BlendMask也更有效。在V100 GPU上测量，最好的R-101 BlendMask 运行速度为 0.07 s/im ，而 Ten-sorMask然而，我们的混合器模块的典型运行时间仅为0.6ms，这使得复杂场景的额外时间几乎可以忽略不计。相反，对于两阶段Mask R-CNN，如果预测实例的数量增加，则推理时间会增加很多。实时设置我们设计了一个紧凑版本的模型BlendMask-RT，与实时实例分割方法YOLACT [3]进行比较：i）将预测头中的卷积层的数量减少到三个，ii）通过共享分类塔和箱形塔的特征，将它们合二我们使用具有四个卷积层的Proto-FPN，宽度为128作为底部模块。顶部FPN输出P7被移除，因为它对检测较小的对象几乎没有我们训练混合面具-RT和Mask R-CNN采用×3时间表，短边从[440，550]中随机采样。与 YOLACT 相比，在实施方面仍有两个差异。YOLACT将所有图像调整为正方形，更改输入的纵横比。此外，一个并行NMS算法称为快速NMS中使用的YOLACT。8580我们的我们的YOLACT M-RCNN我们的YOLACT M-RCNN我们的我们的YOLACT M-RCNN我们的YOLACT M-RCNN图4：与其他方法的详细比较。左侧的大图像是我们方法的分割结果。我们进一步放大我们的结果，并与右侧的YOLACT [3]（31.2%mAP）和Mask R-CNN [12]（36.1% mAP）进行比较我们的口罩整体质量更高我们没有采用这两种配置，因为它们通常不用于实例分割研究。在YOLACT中，报告了12ms的加速比使用快速NMS。相反，我们在Detectron 2中使用批处理NMS，它可能比快速NMS慢，但不会牺牲准确性。表9中的结果显示，BlendMask-RT比YOLACT-700快7 ms并且高3.3AP。使我们的模型在实时设置下也具有竞争力。我们将我们的模型与最好的官方YOLACT和MaskR-CNN模型进行了比较，这些模型具有ResNet-101主干。面罩如图4所示。我们的模型比Mask R-CNN产生更高质量的掩码。第一个原因是我们预测56×56个掩码，而Mask R-CNN使用28×28个掩码。此外，我们的分割模块主要利用高分辨率功能，保留原始的纵横比，其中Mask R-CNN也使用28×28特征。请注意，YOLACT在以下方面难以区分-同类的姿势彼此接近。BlendMask可以避免这种典型的泄漏。这是因为它的顶层模块提供了更详细的实例级信息，引导碱基捕获位置敏感信息并抑制外部区域。4.3. 讨论与Mask R-CNN的比较类似于Mask R-CNN，我们使用RoIPoisson来定位实例并提取特征。我们通过在RoI采样之前移动R-CNN头的计算来减少运行时间，以生成位置敏感的特征图。避免了重复的掩码表示和重叠建议的计算我们通过使用我们的注意力引导混合器替换R-FCN [9]和FCIS [16]中的硬对齐来进一步简化全局地图表示，对于相同的分辨率，它需要少十倍的通道。BlendMask的另一个优点是它可以产生更高质量的蒙版，因为我们的输出分辨率不受顶级采样的限制。提高Mask R-CNN的RoIPoisson分辨率将引入以下问题。头部计算相对于RoI大小成二次方地增加。更大的ROI需要更深的头部结构。 Different from dense pixelpredictions, RoI foreground predictor has to be aware ofwhole instance- level information to distinguish foregroundfrom other over- lapping instances.因此，特征尺寸越大，需要的子网络越深。此外，Mask R-CNN的推理时间与检测次数密切相关。相比之下，我们的搅拌器模块非常高效（1080 Ti上为0.6ms）。增加检测次数后所需的额外推理时间可以忽略不计，适用于需要稳定预测时间的实时场景。结论我们设计了一个新的混合器模块，用于实例级密集预测任务，它同时使用高层实例和低层语义信息。该系统具有高效、易与不同主流检测网络集成的特点。我们相信我们的BlendMask能够作为Mask R-CNN [12]的替代品，用于许多其他实例级识别任务，如关键点检测。鸣谢感谢华为技术有限公司捐赠GPU云计算资源。8581引用[1] Anurag Arnab和Philip H. S.乇使用深度高阶CRF的自底向上实例分割在proc 英国会议机器视觉，2016年。[2] Daniel Bolya，Chong Zhou，Fanyi Xiao，and Yong JaeLee. YOLACT++：更好的实时实例分割。arXiv预印本arXiv：1912.06218，2019。[3] Daniel Bolya，Chong Zhou，Fanyi Xiao，and Yong JaeLee. YOLACT：实时实例分割。程序界面配置文件可见，abs/1904.02689，2019.[4] Bert De Brabandere，Davy Neven，and Luc Van Gool.基于判别损失函数的语义实例分割。 arXiv 计算 Res.Repository，abs/1708.02551，2017.[5] Liang-Chieh Chen，Alexander Hermans，George Papan-dreou，Florian Schroff，Peng Wang，and Hartwig Adam.Masklab：通过语义和方向特征细化对象检测进行实例分割正在进行IEEE会议对比可见光帕特识别，第4013-4022页[6] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。欧洲药典配置文件可见，第833-851页[7] 陈新蕾，Ross B. Girshick，Kaiming He，and Piotr Dolla'r. Tensormask：密集对象分割的基础程序国际会议对比可见光，abs/1903.12174，2019.[8] Jifeng Dai ，Kaiming He ，Yi Li ，Shaoqing Ren ，andJian Sun.实例敏感的全卷积网络。欧洲药典配置文件可见，第534-549页[9] 戴纪峰，易力，何开明，孙建R-FCN：通过基于区域的全卷积网络进行对象检测。在proc Adv. 神经信息过程系统，第379[10] 傅成阳，塔玛拉·L. Berg和Alexander C.伯格。IMP：实例掩码投影，用于事物的高精度语义分割。arXiv计算Res. Repository，abs/1906.06597，2019.[11] 罗斯湾娘娘腔。快速R-CNN。在Proc. Int. Conf.对比可见光第1440-1448页[12] Kai m ingHe ， Geo r giaGkioxari ， PiotrDol la'r ，andRossB. 娘娘腔。面罩R-CNN。在Proc. Int. Conf.对比可见光，第2980-2988页[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习在proc IEEE Conf.Comp.目视帕特识别，第770-778页[14] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.深度剩余网络中的身份映射。欧洲药典配置文件可见，第630-645页[15] 亚历山大·基里洛夫，罗斯·B.Girshick，Kaiming He，andPiotr Doll a'r. 光学特性金字塔网络工作。在P r oc.IEEEConf. Comp. Vis.帕特识别，第6399-6408页[16] 李毅、齐昊之、戴季风、季向阳、魏一完全卷积的实例感知语义分割。正在进行IEEE会议对比可见光帕特识别，第4438- 4446页[17] 放大图片创作者：林宗毅， Priya Goyal ， Ross B.Girshick，Kaiming He，andP i otrDoll a'r. 密集目标检测的焦面损失。在Proc. Int. Conf.对比可见光，第2999-3007页8582[18] 作者： Michael Maire ， Serge J. Belongie ， JamesHays，PietroPerona，Dev aRa

下载后可阅读完整内容，剩余1页未读，立即下载