深度网络预测实例掩码质量的方法

112 浏览量更新于2023-10-18 收藏 926KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1掩模评分R-CNN黄兆金<$李超黄永超龚昌黄兴刚王<$†华中科技大学启德学院人工智能研究所深圳市华锐机器人有限公司{zhaojinhuang，xgwang}@ hust.edu.cn{lichao.huang，yongchao.gong，chang.huang}@horizon.ai摘要让深度网络意识到自己预测的质量在实例分割任务中，大多数实例分割框架都使用实例分类的置信度作为掩模质量分数。然而，掩模质量，量化为实例掩模和其地面真实值之间的IoU，通常与分类分数没有很好的相关性在本文中，我们研究了这个问题，并提出了掩码评分R-CNN，它包含一个网络块来学习预测实例掩码的质量。所提出的网络块将实例特征和对应的预测掩码一起回归掩码IoU。掩模评分策略可校准掩模质量和掩模评分之间的通过对COCO数据集的广泛评估，Mask Scoring R-CNN为不同的模型带来了一致和明显的增益，并优于最先进的Mask R-CNN。我们希望我们的简单而有效的方法将提供一个新的方向，提高实例分割。我们的方法的源代码可在github.com/zjhuang22/maskscoring_rcnn 上获得。1. 介绍深度网络正在极大地推动计算机视觉的发展，导致了一系列最先进的任务，包括分类[22，16，35]，目标识别[22，16，35[12，17，32，27，33，34]，语义段，站[28，4，37，18]等。从计算机视觉中深度学习的发展，我们可以观察到深度网络的能力正在逐渐从图像级预测[22]发展到区域/框级预测[12]，像素级预测[28]和实例/掩模级预测[15]。进行细粒度预测的能力，这项工作是在黄兆金在地平线机器人公司实习时完成的。通讯作者。不仅需要更详细的标识，而且需要更精细的网络设计。在本文中，我们专注于实例分割的问题，这是一个自然的下一步对象检测移动从粗糙的框级实例识别到精确的像素级分类。具体而言，这项工作提出了一种新的方法来评分的实例分割假设，这是非常重要的实例分割评估。原因在于大多数评价指标都是根据假设得分来定义的，更精确的得分有助于更好地表征模型性能。例如，精确度-召回率曲线和平均精确度（AP）通常用于具有挑战性的实例分割数据集COCO [26]。如果一个实例分割假设没有得到正确评分，则可能会错误地将其视为假阳性或假阴性，从而导致AP降低。然而，在大多数实例分割流水线中，例如Mask R-CNN [15]和MaskLab [3]，实例掩码的得分与框级分类置信度共享，该置信度由应用于pro-bandwidth特征的分类器预测用分类置信度来度量掩码质量是不合适的，因为它只用于区分提案的语义类别，而不知道实例掩码的实际质量和完整性。分类置信度和掩模质量之间的偏差如图所示。1，实例分割假设得到了准确的框级局部化结果和较高的分类得分，但相应的模板不准确。显然，使用这种分类分数对掩模进行评分往往会降低评估结果。与以前的方法，旨在获得更准确的实例定位或分割掩模，我们的方法侧重于评分的掩模。为了实现这一目标，我们的模型为每个掩码学习一个分数，而不是使用其分类分数。为了清楚起见，我们将学习得分称为掩码得分。受实例细分的AP指标的启发，64096410图1.实例分割的示范案例，其中边界框与地面实况具有高重叠和高分类得分，而掩码不够好。Mask R-CNN和我们提出的MSR-CNN预测的分数都附在相应的边界框上方。左边四幅图像显示出良好的检测结果，具有高的分类分数，但掩模质量较低我们的方法旨在解决这个问题。最右边的图像显示了具有高分类分数的良好掩模的情况我们的方法将重新训练高分。可以看出，通过我们的模型预测的分数可以更好地解释实际掩模质量。使用像素级的Intersection-over-Union（IoU）之间的预测掩模和其地面真实掩模来描述实例分割质量，我们提出了一个网络来直接学习IoU在本文中，该IoU被表示为Mask- IoU。一旦我们在测试阶段获得预测的MaskIoU，就通过将预测的MaskIoU与分类分数相乘来重新评估掩码分数。因此，掩码得分知道语义类别和实例掩码完整性。学习MaskIoU与建议分类或掩码预测完全不同，因为它需要将预测的掩码与对象特征进行在MaskR-CNN框架内，我们实现了一个名为MaskIoU头的MaskIoU预测它将掩模头的输出和RoI特征作为输入，并使用简单的回归损失进行训练。我们将所提出的模型，即带有MaskIoU头的Mask R-CNN，命名为Mask Scoring R-CNN（MS R-CNN）。已经对我们的MS R-CNN进行了广泛的实验，结果表明，我们的方法提供了一致和明显的性能改善，这归因于掩模质量和分数之间的对齐。总之，这项工作的主要贡献突出如下：1. 我们提出了Mask Scoring R-CNN，这是解决评分实例分割假设问题的第一它为提高实例分割模型的性能探索了一个新的方向。通过考虑实例掩码的完整性，如果实例掩码具有高分类得分而掩码不够好，则可以惩罚实例掩码的得分。2. 我们的MaskIoU头非常简单和有效。在具有挑战性的COCO基准上的实验结果表明，当使用我们的MS R-CNN的掩码得分而不仅仅是分类置信度时，AP在各种情况下持续提高约1.5%。骨干网2. 相关工作2.1. 实例分割目前的实例分割方法可以大致分为两类。一种是基于检测的方法，另一种是基于分割的方法。基于检测的方法利用最先进的检测器，如Faster R-CNN [33]，R-FCN [8]，以获取每个实例的区域，然后预测每个区域的掩码。Pin-heiro等人[31]建议DeepMask以滑动窗口方式分割和分类中心对象。戴等人[6]提出了实例敏感的FCN来生成位置敏感的映射，并将它们组装起来以获得最终的掩码。FCIS [23]采用具有内部/外部分数的位置敏感映射来生成实例分割结果。He等人[15]提出了Mask R-CNN，它通过添加实例级语义分割分支建立在Faster R-CNN之上基于Mask R-CNN，Chenet al.[3]提出MaskLab，使用位置敏感的分数来获得更好的结果。然而，这些方法中的潜在缺点是掩模质量仅通过分类分数来测量，从而导致上面讨论的问题。基于分割的方法首先预测每个像素的类别标签，然后将它们组合在一起以形成实例分割结果。Liang等人[24]使用光谱聚类来聚类像素。其他工作，如[20，21]，在聚类过程中添加边界检测信息。Bai等人[1]预测像素级能量值并使用分水岭算法进行分组。最近，有一些作品[30，11，14，10]使用度量学习来学习像素嵌入。具体来说，这些方法学习每个像素的嵌入，以确保来自相同实例的像素具有相似的嵌入。然后，对学习的嵌入执行聚类以获得最终的实例标签。由于这些方法没有前-6411MaskR-CNN MSR-CNN10.90.80.70.60.50.40.30.20.100.5-0.6 0.6-0.7 0.7-0.8 0.8-0.9 0.9-1.0MaskIoU(a)(b)（c）第（1）款图2.Mask R-CNN和我们提出的MS R-CNN的比较（a）显示了Mask R-CNN的结果，掩码得分与MaskIoU的关系较小。(b)显示了MS R-CNN的结果;我们用高分和低MaskIoU惩罚每个检测，并且掩码分数可以更好地与MaskIoU相关。(c)显示了定量结果，其中我们对每个MaskIoU间隔之间的得分进行了平均;我们可以看到，我们的方法可以在score和MaskIoU之间有更好的对应关系。为了测量实例掩模质量，它们必须使用平均像素级分类得分作为替代。上述两类方法都没有考虑掩模分数和掩模质量之间的对准。由于掩模分数的不可靠性，如果掩模分数较低，则相对于地面真实具有较高IoU的掩模假设容易被排名为低优先级。在这种情况下，最终AP因此降级。2.2. 检测分数校正有几种方法专注于校正检测框的分类得分，这与我们的方法具有相似的目标。Tychsen-Smith等人[36]提出了Fitness NMS，其使用检测到的边界框与其基础事实之间的IoU来校正检测分数它将盒IoU预测制定为分类任务。我们的方法与此方法的不同之处在于，我们将掩模IoU估计作为回归任务来计算。Jiang等[19]提出IoU-Net，直接回归框IoU，预测的IoU用于NMS和边界框细化。在[5]中，Chenget al.讨论假阳性样本，并使用分离的网络来校正这些样本的分数。SoftNMS [2]使用两个框之间的重叠来校正低得分框。Neumann等人[29]提出Relaxed Softmax来预测标准softmax中的温度比例因子值，用于安全关键型行人检测。与这些专注于边界框水平检测的方法不同，我们的方法是针对分割而设计的。实例掩码在我们的Mask-IoU头中进一步处理，以便网络可以知道实例掩码的完整性，并且最终掩码得分可以反映实例分割假设的实际质量。这是提高智能控制系统性能的一个新方向姿态分割3. 方法3.1. 动机在当前的Mask R-CNN框架中，检测的得分（即，实例分割）假设由其分类得分中的最大元素确定。由于背景杂乱、遮挡等问题，有可能分类分数高，但掩模质量低，如图11所示的例子。1.一、为了定量分析这个问题，我们将来自Mask R-CNN的vanilla mask得分与预测掩码及其地面真实掩码（MaskIoU）之间的实际 IoU 进行具体来说，我们使用 Mask R-CNN 和ResNet-18 FPN在COCO 2017验证数据集上进行实验。然后，我们在Soft-NMS 之后选择检测假设，其中MaskIoU和分类得分都大于0.5. MaskIoU在分类评分上的分布如图所示图2（a）和每个MaskIoU间隔的平均分类得分在图中以蓝色显示第2段（c）分段。这些图表明分类得分和MaskIoU在Mask R-CNN。在大多数情况下，分割评估协议，如COCO，具有低MaskIoU和高分的检测假设是有害的。在许多实际应用中，重要的是要确定检测结果何时可以信任，何时不能[29]。这些激励我们根据MaskIoU为每个检测假设学习校准的掩码得分。在不损失一般性的情况下，我们在Mask R-CNN框架上工作，并提出了MaskScoring R-CNN （ MS R-CNN ），这是一种 Mask R-CNN，具有额外的MaskIoU头模块，可以学习Mask-IoU对齐的掩码分数。我们的框架的预测掩码得分如图所示2（b）和橙色直方图评分6412在图2（c）中。3.2. Mask R CNNMask Scoring R-CNN 在概念上很简单： Mask R-CNN with MaskIoU Head，它将实例特征和预测掩码一起作为输入，并预测输入掩码和地面真实掩码之间的IoU，如图所示。3.第三章。我们将在下面的章节中介绍我们的框架的细节。Mask R-CNN：我们首先简要回顾Mask R-CNN [15]。继Faster R-CNN [33]之后，Mask R-CNN由两个阶段组成。第一阶段是区域支持网络（RPN）。它提出了候选对象绑定框，而不考虑对象类别。第二阶段被称为R-CNN阶段，它使用RoIAlign为每个建议提取特征，并执行建议分类，边界框回归和掩码预测。面罩评分：我们将s掩码定义为预测掩码的得分。理想的s掩码等于预测掩码与其匹配的地面真实掩码之间的像素级IoU，之前称为MaskIoU。理想的S掩码也应该只对地面真值类别具有正值，而对其他类别为零，因为掩码只适用于一个类别。这需要掩码分数在两个任务上很好地工作：将掩模分类到正确的类别，并针对前景对象类别回归建议的MaskIoU。仅使用单个目标函数很难训练这两个任务。为了简化，我们可以将掩码得分学习任务分解为掩码分类和IoU回归，对于所有对象类别表示为smask= scls· siouscls侧重于对提案进行分类，而siou侧重于对MaskIoU进行回归。至于scls，scls的目标是对属于哪个类的提案进行分类，这已经在R-CNN阶段的分类任务中完成。所以我们可以直接对应的分类得分。本文的目标是对sou进行回归，这将在下面的段落中进行讨论。MaskIoU头：MaskIoU头的目标是在预测的掩码和其真实掩码之间回归IoU。我们使用来自RoIAlign层的特征和预测掩码的级联作为MaskIoU头的输入。当连接时，我们使用一个最大池层，其内核大小为2，步幅为2，以使预测的掩码具有与RoI特征相同的空间大小。我们只选择回归地面真值类的MaskIoU（为了测试，我们选择预测类），而不是所有类。我们的MaskIoU头由4个卷积层和3个全连接层组成。对于4个卷积层，我们遵循Mask head，并将所有卷积层的内核大小和过滤器数量分别设置为3和256对于3对于全连接（FC）层，我们遵循RCNN头，并将前两个FC层的输出设置为1024，将最终FC的输出设置为类的数量。训练：为了训练MaskIoU头部，我们使用RPN建议作为训练样本。训练样本需要在建议框和匹配的地面真值框之间具有大于0.5的IoU，这与Mask R-CNN的Mask头的训练样本为了生成每个训练样本的回归目标，我们首先得到目标类的预测掩码，并使用0.5然后，我们使用二进制掩码及其匹配的地面实况之间的MaskIoU作为MaskIoU目标。我们使用102损失来回归MaskIoU，损失权重设置为1。提出的MaskIoU头被集成到Mask R-CNN中，整个网络被端到端训练。推理：在推理过程中，我们只使用MaskIoU头来校准从R-CNN生成的分类得分。具体地，假设Mask R-CNN的R-CNN阶段输出N个边界框，并且其中，top-k（即，k = 100）选择SoftNMS [2]后的评分框。然后将前k个盒子送入Mask头以生成多类掩码。这是标准的Mask R-CNN推理过程。我们也遵循这个过程，并输入前k个目标掩码来预测MaskIoU。将预测的MaskIoU乘以分类分数，以获得新的校准的掩模分数作为最终掩模置信度。4. 实验所有实验都是在COCO数据集上进行的[26]，其中包含80个对象类别。我们遵循COCO 2017设置，使用115k图像训练分割进行训练，5 k验证分割进行验证，20 k测试-开发分割进行测试。我们使用COCO评估指标AP（在 IoU 阈值上取平均值）来报告结果，包括AP@0.5、AP@0.75和APS、APM、APL（不同尺度的AP）。AP@0.5（或AP@0.75）意味着使用IoU阈值0.5（或0.75）来识别预测的边界框或掩码在评估中是否为阳性。除非另有说明，否则AP使用掩码IoU进行评估。4.1. 实现细节我们使用我们的复制掩码R-CNN进行所有实验。我们使用基于ResNet-18的FPN网络进行消融研究，使用基于 FasterR-CNN/FPN/DCN+FPN [9] 的 ResNet-18/50/101将我们的方法与其他基线结果进行比较。对于ResNet-18 FPN，输入图像的大小调整为沿短轴为600 px，沿长轴为1000 px的最大值，用于训练和测试。与标准FPN [25]不同，我们在ResNet-18中仅使用C4，C5用于RPN提案和特征提取器641314x14x4x25614x1428x2828x28256x256xC面罩头骨干网RoIAlignRoIAlign28x28X1Concat MaxPooling输入图像图3. Mask Scoring R-CNN的网络架构输入图像被馈送到骨干网络中，以通过RPN生成RoI，并通过RoIAlign生成RoI特征。R-CNN头和Mask头是Mask R-CNN的标准组件。为了预测MaskIoU，我们使用预测的掩码和RoI特征作为输入。MaskIoU头有4个卷积层（所有卷积层的kernel-size=3，最后一个卷积层使用stride=2进行下采样）和3个全连接层（最后一个卷积层输出C类MaskIoU）。表1. COCO 2017验证结果。我们报告检测和实例分割结果。APm表示实例分割结果，APb表示检测结果。没有C的结果是MaskR-CNN的结果，而有C的结果是MS R-CNN的结果实验结果表明，该方法对不同的骨干网络不敏感。骨干MaskIoU头APmAPm@0.5APm@0.75APBAPb@0.5APb@0.75ResNet-18 FPNC27.729.346.946.929.031.331.231.550.450.833.233.5ResNet-50 FPNC34.536.055.855.836.738.838.638.659.259.242.542.5ResNet-101 FPNC36.638.258.658.439.041.541.341.461.761.845.946.3表2.COCO 2017验证结果。我们报告检测和实例分割结果。 APm表示实例分割结果，APb表示检测结果。在结果区域，第1和第2行&使用Faster R-CNN框架;第3行和第4行&另外使用FPN框架;第5行和第6行&另外使用DCN+FPN。结果表明，所提出的MaskIoU头的一致改进骨干MaskIoU头FPNDCNAPmAPm@0.5APm@0.75APBAPb@0.5APb@0.75C33.935.053.954.036.237.738.638.757.357.442.843.0ResNet-101CCC36.638.258.658.439.041.541.341.461.761.845.946.3CC37.760.340.042.963.447.8CCC39.160.042.443.163.547.7RCNN头7x7x25610241024类框MaskIoU14x14x3x25714x147x7256× 25610241024C马斯基约乌角6414表3.在COCO 2017 test-dev上比较不同的实例分割方法方法骨干APAP@0.5AP@0.75APSAPMAPL中国[7]ResNet-10124.644.324.84.725.943.6[第23话]ResNet-10129.249.5----[23]第二十三话ResNet-10133.654.5----[15]第十五话ResNet-10133.154.934.812.135.651.1[15]第十五话ResNet-101 FPN35.758.037.815.538.152.4[15]第十五话ResNeXt-101 FPN37.160.039.416.939.953.5MaskLab [3]ResNet-10135.457.437.416.938.349.2MaskLab+[3]ResNet-10137.359.836.619.140.550.6MaskLab+[3]ResNet-101（JET）38.161.140.419.641.651.4Mask R-CNNResNet-10134.355.036.613.236.452.2MS R-CNN35.454.938.113.737.653.3Mask R-CNNResNet-101 FPN37.059.239.517.139.352.9MS R-CNN38.358.841.517.840.454.4Mask R-CNNResNet-101 DCN+FPN38.461.241.218.040.555.2MS R-CNN39.660.743.118.841.556.2对于ResNet-50/101，输入图像的大小调整为短轴800px和长轴1333 px，用于训练和测试。ResNet-50/101的其余配置遵循Detectron [13]。我们对所有网络进行了18个epoch的训练，在14个epoch和17个epoch之后，学习率降低了0.1倍。使用动量为0.9的同步SGD作为优化器。为了进行测试，我们使用SoftNMS并保留每个图像的前100个得分检测。4.2. 定量结果我们报告了我们在不同骨干网络（包括ResNet-18/50/101 ）和不同框架（包括 FasterR-CNN/FPN/DCN+FPN [9]）上的结果，结果示于表1和表2中。我们使用APm报告实例分割结果，APb报告检测结果。我们报告了我们复制的Mask R-CNN结果和我们的MS R-CNN结果。如表1所示，与Mask R-CNN相比，我们的MS R-CNN对骨干网络不敏感，并且可以在所有骨干网络上实现稳定的改进：我们的MS R-CNN可以获得显著的改进（约1.5 AP）。特别是对于AP@0.75，我们的方法可以改善基线约2点。表2表明我们的MS R-CNN对不同的框架具有鲁棒性，包括Faster R-CNN/FPN/DCN+FPN。此外，我们的MS R-CNN不会损害边界框检测性能;事实上，它稍微改进了边界框检测性能。test-dev的结果在表3中报告，仅报告实例分割结果4.3. 消融研究我们在COCO 2017验证集上全面评估了我们的方法，并将ResNet-18 FPN用于所有的abla-实验研究。MaskIoU头输入的设计选择：我们首先研究了MaskIoU头的输入的设计选择，MaskIoU头是来自掩码头的预测掩码得分图（28 ×28×C）和RoI特征的融合。有几设计选择如图所示4并解释如下：(a) 目标掩码连接RoI功能：获取目标类的得分图，最大池化并与RoI特征相关联。(b) 目标掩码增加ROI功能：获取目标类的得分图，最大池化并乘以RoI特征。(c) 所有掩码串联ROI功能：所有C类掩码得分图都是最大池化的，并与RoI特征连接。(d) 目标掩码连接高分辨率RoI功能：获取目标类的得分图，并与28 ×28 RoI特征连接。(e) 仅目标掩码：选择目标类的得分图并进行地图合并。(f) 仅RoI功能：仅使用ROI功能。结果示于表4中。我们可以看到，MaskIoU头的性能对不同的掩模预测和RoI特征融合方式具有鲁棒性在所有类型的设计中都观察到Mask R-CNN的性能增益。由于将目标得分图和RoI特征连接起来可以获得最佳结果，因此我们将其用作默认选择。6415SKSP14×14×256ROIure×KS28×28×256我ure+28×28×C 28×28×128×28×C28×28×128×28×C28×28×C28×28×128×28×C 28×28×1掩模ROI功能（一）马壮举（b）第（1）款口罩14×14×256RoI特征（c）第（1）款masPRofeat（d）其他事项口罩（e）14×14×256RoI特征（f）第（1）款选择最大池化concatenate繁殖图4. MaskIoU头输入的不同设计选择。表4. MaskIoU头输入的不同设计选择的结果。设置APAP@0.5AP@0.75掩码R-CNN基线27.746.929.0(a)目标掩模+RoI29.346.931.3（b）目标掩模×RoI29.146.630.9(c)所有面罩+RoI29.146.630.8(d)目标掩模+ HR ROI29.146.731.1(e)仅目标掩码28.246.239.8(f)仅ROI28.946.630.7培训目标的设计选择：如上所述，我们将掩码得分学习任务分解为掩码分类和MaskIoU回归。有没有可能直接学习面具分数此外，ROI可以包含多个类别的对象。我们应该学习所有类别的Mask- IoU吗？如何设置口罩头的训练目标还需要探索。培训目标有多种选择：1. 学习目标类别的MaskIoU，意味着-而提案中的其他类别被忽略。这也是本文的默认训练目标，也是本段所有实验的对照组2. 学习所有类别的MaskIoU。如果类别未出现在RoI中，则其目标MaskIoU设置为0. 此设置表示仅使用回归来预测MaskIoU，这需要回归器意识到不存在不相关的类别。3. 学习所有正类别的MaskIoU，其中正类别意味着该类别出现在RoI区域中。其余类别在专业知识中被忽略。此设置用于查看是否可以更好地对RoI区域中的更多类别执行回归。表5显示了上述培训目标的结果。表5.使用不同训练目标的结果设置APAP@0.5AP@0.75掩码R-CNN基线27.746.929.0设置#1：目标ins。29.346.931.3设置#2：所有cls。24.541.625.6设置#3：正输入。28.245.530.2通过比较设置#1和设置#2，我们可以发现，训练所有类别的MaskIoU（仅基于回归的MaskIoU预测）将显著降低性能，这验证了我们的观点，即使用单一目标函数训练分类和回归是困难的。设置#3的性能低于设置#1是合理的，因为针对所有正类别回归MaskIoU增加了MaskIoU头部的负担。因此，学习目标类别的MaskIoU被用作我们的默认选择。如何选择训练样本：由于所提出的MaskIoU头部构建在Mask R-CNN框架之上，因此MaskIoU头部的所有训练样本都具有大于0.5的框级IoU，其地面实况边界框根据Mask R-CNN中的设置。然而，它们的MaskIoU可能不超过0.5。给定阈值τ，我们使用Mask-IoU大于τ的样本来训练MaskIoU头部。表6示出了结果。结果表明，使用所有实施例获得最佳性能。4.4. 讨论在本节中，我们将首先讨论预测的MaskIoU的质量，然后研究Mask Scoring R-CNN在MaskIoU预测完美的情况下的上限性能，最后分析MaskIoU头的计算SP14×14×256e++×PP+6416复杂度。在讨论中，所有结果均使用COCO 2017验证集获得6417表6.为MaskIoU头部选择不同训练样本的结果。阈值APAP@0.5AP@0.75τ= 0.029.346.931.3τ= 0.329.246.631.1τ= 0.529.046.530.9τ= 0.728.846.930.5图5. MaskIoU预测及其基础无论是弱骨干网，即，ResNet-18 FPN和强大的骨干网络，即，ResNet-101 DCN+FPN。预测的MaskIoU的质量：我们使用地面实况和预测的MaskIoU之间的相关系数来衡量我们预测的质量。回顾我们的测试过程，我们根据分类得分选择SoftNMS后得分前100个盒子，将检测到的盒子馈送到Mask头并得到预测掩码，然后将预测掩码和 RoI 特征作为MaskIoU头的输入。MaskIoU头部和分类分数的输出被进一步整合到最终的掩码分数中。我们在COCO 2017验证数据集中为每张图像保留了100个预测的MaskIoU，从所有5，000张图像中收集了500，000个预测。我们将每个预测及其相应的地面真实情况绘制在图中。五、我们可以看到，MaskIoU预测与它们的地面事实有很好的相关性，特别是对于那些具有高MaskIoU的预测对于ResNet-18 FPN和ResNet-101 DCN+FPN骨干网络，预测结果与其地面实况之间的相关系数约为0.74。这表明预测的质量对骨干网络的变化不敏感。这一结论也与表1一致。由于之前没有预测MaskIoU的方法，我们参考了以前的工作[19] 关于预测边界框 IoU。 [19] 得到的相关系数为0.617，低于我们的相关系数。MS R-CNN的上限性能：这里我们将讨论我们的方法的上限性能。对于每个预测的掩码，我们可以找到它匹配的地面真值掩码;然后当地面真值MaskIoU大于0时，我们只需使用地面真值结果见表7。结果表明，Mask Scoring R-CNN的一致性优于Mask R-CNN。与理想的 Mask Scoring R-CNN 预测相比，实际的 MaskScoring R-CNN仍有改进的空间，对于ResNet-18 FPN主干为2.2% AP，对于ResNet-101 DCN+FPN主干为2.6% AP。FLOPS和运行时间：我们的MaskIoU头具有约0.39GFLOPs，而Mask头具有约0.53G FLOPs真相(a)使用ResNet-18 FPN骨架的结果和（b）使用ResNet-101 DCN+FPN骨架的结果。X轴表示地面真实MaskIoU，y轴表示所提出的MaskIoU头部的预测表7. Mask R-CNN、MS R-CNN和理想情况⋆MS R-CNN（MS R-CNN）使用ResNet-18 FPN和ResNet-101 DCN+FPN作为COCO 2017验证集的主干。方法骨干APMask R-CNNMS R-CNNMSJ.S.R-CNNResNet-18 FPN27.729.331.5Mask R-CNNMS R-CNNMSJ.S.R-CNNResNet-101 DCN+FPN37.739.141.7对于每一个提案。我们使用一个TITAN V GPU来测试速度（秒/秒）。图像）。至于ResNet-18 FPN，MaskR-CNN和MS R-CNN的速度都约为0.132至于ResNet-101 DCN+FPN，Mask R-CNN和MS R-CNN的速度都约为0.202。MaskIoU头在Mask Scoring R-CNN中的计算成本可以忽略不计。5. 结论在本文中，我们研究了评分的立场分割面具的问题，并提出了面具评分R-CNN。通过在Mask R-CNN中添加MaskIoU头部，掩码的分数与MaskIoU对齐，这在大多数实例分割框架中通常被提出的MaskIoU头是非常有效的，易于实现。在COCO基准测试中，广泛的结果表明，Mask Scoring R-CNN的性能始终明显优于Mask R-CNN。该方法也可应用于其他实例分割网络，以获得更可靠的掩模分数。我们希望我们简单而有效的方法将作为一个基线，并帮助未来的研究实例分割任务。确认本课题得到了HUST-Horizon计算机视觉研究中心和国家自然科学基金（No.61876212）的资助。6418引用[1] M. Bai和R.乌塔松深度分水岭变换用于实例分割.在IEEE计算机视觉和模式识别会议上，第2858-2866页，2017年。2[2] N.博德拉湾辛格河，巴西-地Chellappa和L. S.戴维斯用一行代码软改进对象检测。在IEEE计算机视觉国际会议上，第5562-5570页，2017年。三、四[3] L- C.陈先生，A.赫尔曼斯G.帕潘德里欧F. 施罗夫，P. Wang和H. Adam. Masklab：通过语义和方向特征细化对象检测进行arXiv预印本arXiv：1712.04837，2017。一、二、六[4] L- C. Chen，G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。Deeplab：使用深度卷积网络、atrous卷积和完全连接的crfs进行语义图像分割。IEEE模式分析和机器智能交易，第834-848页，2018年。1[5] B.郑，Y. Wei，H.什河，巴西-地Feris，J. Xiong，and T.煌重温rcnn：论快速rcnn分类能力的觉醒。欧洲计算机视觉会议，第473-490页，2018年。3[6] J. Dai，K.他，Y. Li，S. Ren和J. Sun.实例敏感的全卷积网络。欧洲计算机视觉会议，第534-549页，2016年。2[7] J. Dai，K. He和J. Sun.通过多任务网络级联的实例感知语义分割。在IEEE计算机视觉和模式识别会议上，第3150- 3158页，2016年。6[8] J.戴，Y. Li，K. He和J. Sun. R-fcn：通过基于区域的全卷积网络的目标检测。神经信息处理系统进展，第379-387页，2016年。2[9] J. Dai，H.Qi，Y.Xiong，Y.Li，G.Zhang，H.Hu和Y.伟.可变形卷积网络。在IEEE计算机视觉国际会议上，第764-773页，2017年。四、六[10] B. De Brabandere，D. Neven和L.范古尔基于判别损失函数的语义实例分割。arXiv预印本arXiv：1708.02551，2017。2[11] A. Fathi，Z. Wojna，V. Rathod，P. Wang，H. O. 歌、S. Guadarrama和K. P·墨菲基于深度度量学习的语义实例分割。arXiv预印本arXiv：1703.10277，2017。2[12] R.格希克，J。多纳休，T. Darrell和J.马利克丰富的特征层次结构，用于准确的对象检测和语义分割。在IEEE计算机视觉和模式识别会议上，第580-587页，2014年。1[13] R. 格尔希克岛 Rados avo vic，G. Gkioxari，P. Doll a'r和K. 他外探测器 https://github.com/ facebookresearch/detectron，2018. 6[14] A. W. Harley，K. G.德尔帕尼斯和我。Kokkinos使用局部注意力掩码的分段感知卷积网络。在 IEEEInternational Conference on Computer Vision ，第 5048-5057页，2017年。2[15] K. 他，G. Gkioxari，P. Dol la'r 和R. 娘娘腔。面具r-cnn。在IEEE计算机视觉上，第2980-2988页，2017年。一、二、四、六[16] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议上，第770-778页，2016年。1[17] L. Huang，Y.黄氏Y.Yang，Y.Deng和Y.Yu. Densebox：将地标定位与端到端对象检测统一起来。arXiv预印本arXiv：1509.04874，2015。1[18] Z. Huang，X. 王湖，加-地黄角 Huang，Y.黄氏Y. 魏W. 刘某 Ccnet ： Criss-cross attention for semanticsegmentation. arXiv预印本arXiv：1811.11721，2018. 1[19] B.江河，巴西-地Luo，J. Mao，T. Xiao和Y.蒋获取用于精确对象检测的定位置信度。欧洲计算机视觉会议，第816-832页，2018年。三、八[20] L.金，Z. Chen和Z.涂。对象检测免费实例分割与标记变换。arXiv预印本arXiv：1611.08991，2016年。2[21] A. Kirillov、E.列温科夫湾安德烈斯湾萨夫钦斯基，以及C.罗瑟即时切割：从边到实例。在IEEE计算机视觉和模式识别会议上，第7322-7331页，2017年。2[22] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。在神经信息处理系统的进展，第1097-1105页，2012年。1[23] Y. Li，H. Qi，J. Dai，X. Ji和Y.伟.完全卷积的实例感知语义分割。在IEEE国际计算机视觉会议上，第4438二、六[24] X. Liang，Y. Wei，X.沈军，杨立. Lin和S.燕.用于实例级对象分割的无建议网络。 arXiv 预印本 arXiv ：1509.02636，2015年。2[25] T.- Y. Lin，P.多尔河B. 格希克角他，B.Hariharan和S. J·贝隆吉用于目标检测的特征金字塔网络。在IEEE计算机视觉和模式识别会议上，第936-944页，2017年。4[26] T.- Y. 林，M。迈尔，S。贝隆吉，J.Hays，P.Perona，D.Ra-manan ， P.Dolla'r 和 C.L. 齐特尼克Microsoftcoco ：上下文中的通用对象。在 EuropeanConference on Computer Vision ，第 740-755

下载后可阅读完整内容，剩余1页未读，立即下载