基于模板编码的简单实例分割

147 浏览量更新于2023-10-20 收藏 1.53MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10226基于模板编码的单镜头实例分割算法张如锋1、田智2、沈春华2、游明宇1、严友良31同济大学2澳大利亚阿德莱德大学3华为诺亚摘要迄今为止，实例分割主要由两阶段方法主导，如Mask R-CNN所开创的。相比之下，一阶段替代方案在掩模AP中无法与掩模R-CNN竞争，主要是由于掩模的复杂性表示的困难，使得一阶段方法的设计非常具有挑战性。在这项工作中，我们提出了一个简单的单镜头实例分割框架，称为掩码编码的实例分割（MEInst）。MEInst不是直接预测二维掩码，而是将其提取为紧凑且固定维的表示向量，这允许实例分割任务被并入到一级边界盒检测器中，并导致简单而有效的实例分割框架。建议的一级MEInst达到36。在MS-COCO基准测试中，使用单模型（ResNeXt-101-FPN主干）和单尺度测试的面罩AP中的4%。我们表明，更简单和灵活的一步实例分割方法，也可以实现竞争力的性能。该框架可以很容易地适应其他实例级识别任务。代码可从以下网址获得：饭桶。io/AdelaiDet1. 介绍实例分割支持各种视觉应用，例如自动驾驶和机器人导航等。实例分割不是单独检测对象或为像素分配类别标签，而是将这些任务统一在一起，因此是计算机视觉中最具挑战性的任务之一深度卷积神经网络（CNN）的最新进展使得实例分割（instance segmentation）取得了巨大进步，[13、15、17、22]。主流方法之一采用两阶段流水线，首先生成建议，然后在每个建议中执行像素分类，如MaskR-CNN [13]所推广的那样。到目前为止，几乎所有在具有挑战性的COCO基准测试中排名靠前的方法[20]都是基于Mask R-CNN构建的。一信件应寄至C。Shen和M.你(a) 基于轮廓（b）基于掩模图1：基于轮廓的[33]与面具为基础“Hollow De- cay”基于轮廓的方法在“脱节”的对象上表现出系统的伪影这些两阶段解决方案的缺点是效率不够高，因为它们的运行时间受到数量的限制在一个图像中的实例。另一方面，单阶段范式直接处理完整图像，无论存在多少对象，速度都保持稳定。有几项工作试图将掩模预测纳入全卷积网络（FCN）[24]，从而产生单次实例分割框架。这些算法有一个共同的见解，即，用一组轮廓系数对所述对象形状进行编码。具体而言，ESE-Seg [33]为每个实例设计了一个同时，PolarMask [32]回归了质心和轮廓之间光线的密集距离。这些基于轮廓的方法具有优化容易、推理速度快的优点。这些方法的主要问题是预测的掩码可能不可避免地表现出可替代地，非参数掩码表示对于传统上所做的掩码预测更自然，代价是增加设计和计算复杂性。由于自然对象遮罩不是随机的，并且类似于自然图像，因此实例遮罩驻留在比像素空间低得多的内在维度中。这在-10227激励我们提出一个问题，“是否有可能在固有的低维空间中预测对象掩码，并且仍然达到有竞争力的精度？”在这里，我们提供了一个肯定的答案：我们提出使用学习的字典来编码实例掩码，使得仅需要几个标量系数来表示每个掩码。我们证明了这种方法对噪声是鲁棒的，并且高效，易于解码重建。然后，可以通过添加用于预测这些固定维度掩码系数的分支以及边界框回归和类别分类分支来轻松扩展一级检测器，例如RetinaNet [19]，FCOS [29我们建立我们的方法上FCOS的简单性和良好的检测性能。我们证明，我们的方法可以优于最近的一阶段算法[3，32，33，35]与这个简单的设计。特别是，在COCO val 2017上的实验表明，与ESE-Seg [ 33 ]相比，MEInst实现了较大的增益，表现优于11。在AP 50和15中为3%。9%，分别在AP75。我们的模型在精度上击败了PolarMask [32]，具有相似的计算复杂度，这是由于更低的重建误差和更有效的重建。这是预期的，因为我们方法的掩码表示比[32，33]的参数表示更强大此外，我们需要仔细研究对象检测器如何影响的性能的实例分割的基础上广泛的通过基于我们发现的精心设计，MEInst 实现了与Mask R-CNN相当的性能[13]，其优点是更简单和灵活。值得注意的是，我们的方法与大多数单阶段检测框架兼容，包括无锚范式。我们使用FCOS检测器证明了它的通用性，并在COCO基准上评估了性能[20]。其他基于锚点的方法，如YOLO [26]，RetinaNet [19]，可以在这里使用最小修改。此外，vanilla检测器还可以受益于模板预测分支，从而提高边界框检测精度。这项工作的主要贡献可以总结如下。• 我们建议将二维实例掩码编码为紧凑的表示向量。压缩矢量利用了原始掩模，并证明是有效的和高效的重建。编码可以用一些字典学习方法来完成，包括PCA、稀疏编码和自动编码器。在这里，我们表明，即使是最简单的PCA已经足够的掩码编码。• 有了这个掩码表示，一个新的框架是在-通过使用掩码系数回归的掩码分支扩展FCOS[29]，为单镜头实例分割引入了掩码编码，称为基于实例分割实际上，我们的掩码编码完全独立于检测器的机制，它可以很容易地被合并到其他检测器中。• 我们展示了一个简单而灵活的单阶段实例分割方法。我们最好的模特，达到了37的平均动脉压。COCOtest-dev上的8%，在准确性和速度之间实现了良好的平衡。2. 相关工作我们回顾了一些与我们最相关的作品两阶段实例分割实例分割的主流方法[9，13，15，22]继承了两阶段对象检测器的流水线，如Mask R-CNN [13]所开创的。这些方法通常检测实例边界框，然后在框中执行二进制类分割。与分割驱动的[1，21]相比，这组范例在准确性方面领先于大多数基准[8，20]。特别是，Mask R-CNN [13]用ROIAlign 代替了ROIPool，以更好地对齐特征。在Mask R-CNN之后，Liuet al. [22]提出了自底向上的路径增强和自适应特征池，用于进一步的特征优化。Mask Scoring R-CNN [15]用额外的MaskIoU分支扩展了Mask R-CNN，旨在校准掩模质量和相应置信度之间的不匹配上述方法一致地提高性能。单阶段实例分割第二族解决方案[1，2，16，21]建立在语义分割的成功基础上，即，首先生成逐像素的分类图，然后将它们聚类成实例。具体来说，InstanceCut [16]通过两个实例不可知的分割和实例特定的边界来解决这个问题。与此同时，密集对象分割并没有取得显著的进展。令人印象深刻的是，最近有几部作品试图填补这些空白。例如，Ten- sorMask [7]可以被视为这组算法的先驱，其中引入了结构化的4D张量来表示空间域上的掩模。它实现了与两阶段方法相似的性能，但在训练和测试中需要大量的计算开销。在YOLACT [3]中，一系列全局原型和个体线性系数被组装用于掩模，实现实时速度。BlendMask [4]提高了YOLACT的准确性和速度。最近，谢等。提出了一个名为PolarMask [32]的通用框架，该框架能够使用掩码的参数化表示直接预测掩码，而无需边界框最近，SOLO10228其改进版本SOLOv2证明了具有简单的类似于FCN的框架的促进结果[30，31]。在我们的实验中。特别是，我们有，v=Tu;uv=Wv.（一）3. 我们的方法在本节中，我们首先介绍MEInst的总体架构然后，我们介绍了掩码编码的实例表示及其优化。最后，我们探讨了检测质量和掩码生成之间的相关性，以进一步提高MEInst的性能。3.1. 网络架构这里T ∈RN×HW是投影矩阵，用于将u压缩为v。 u可以用重构矩阵W ∈ RHW×N来恢复。请注意，u通过减去训练集上的平均值来居中，然后进行归一化。最后，我们通过最小化训练集上u和u之间的重构误差来获得这些矩阵。数学上，它被写为Eq。（二）：T，W=argminu−u2我们的方法中的对象检测模块主要继承了FCOS1 [29]的流水线，因为它的灵活性和简单性，包括骨干模块[14]，特征金字塔模块[18]和两个用于类的任务特定头。T、W= argminT、WuΣ乌斯季-WTu2u（二）sification、box regression和center-ness（它们共享同一个头部）。然后，包括用于预测编码的掩码系数的并行分支。此外，我们精心重新设计了框架的一些部分，这进一步提高了性能。细节将在下面的小节中讨论。总体框架如图2所示。我们遵循Dupsampling [28]和opti的策略通过使用主成分分析（PCA）来实现这一目标。整个过程如图3所示。详情请参阅Dupsampling [28]。可以有替代的选择来最小化重建损失，稀疏编码或非线性自动编码器。掩码重建给定预测的表示向量v∈RN，二维掩码M′∈3.2. 掩码编码给定一个结构化的实例掩码，我们可以很容易地找出其表示中的冗余。一个例子可以在图3（b）中看到判别像素主要分布在目标边界上，而其主体中的大多数像素具有类别连续性RH×W可以通过等式（1）重建。（1）（右）。作为我们在非最大值抑制（最高得分100个样本）之后采用该操作，这种矩阵乘法的计算成本可以忽略。损失函数我们将掩模损失函数定义如下：ΣN和类别一致性。换句话说，现有的掩码表示包含冗余信息，并且其可以Lmask=Lobjdmask（yi，yi），（3）我被高度压缩，损失可以忽略不计。在本小节中，我们详细描述了如何将二维几何编码为更紧凑的表示向量。紧致表示令M′∈RH×W表示地面真值掩码，v∈RN表示压缩向量，其中H，W和N表示两个-维数掩码和紧表示向量的维数。通常为NH·W。注意其中，是针对多个样本的指示函数。你好，yi表示预测和地面实况中的第i个元素矢量，分别。在我们的实现中，我们有不同形式的dmask（·，·），例如，L1损失、平滑L1损失、L2损失和余弦相似性损失。最后，为了提高训练的有效性和稳定性，我们采用了l2我们把它算在整体损失上，L=λdet·Ldet+λmask·Lmask。（四）在这里M′是阶级不可知论者，因此所有的阶级用二进制类编码来对视频进行编码，即，M′∈这里L det 是检测损失，由LCLS为{0，1}高×宽。为了便于计算，将掩模展平为向量，因为u∈RHW。为了将u压缩为v，我们在某种准则下寻求一个变换，以使u和v之间的重建误差。尽管有许多方法可以用于我们的目的，但我们观察到简单的线性投影已经可以很好地执行1采用了改进的方法，包括中心性与回归分支的特征共享、中心抽样等。详情请参阅[29分类，边界框回归的Lreg和Lcen为中心。特别地，Lcls是如[19]中的病灶丢失，Lreg是FCOS后的GIoU丢失[29]。Lcen表示中心性的二进制交叉熵（BCE）损失。在我们的实验中，为了简单起见，Ldet中的所有平衡权重都设置为13.3. 盒子和面具之间的关系通常，实例分割和对象检测在检测驱动的管道中是不可分割的。直观地，10229对象检测P77 x 8 /128X3DCN分类H x W xCP613 x 16 /64高x宽x 256高x宽x 256C5 P525 x 32 /32回归H x Wx 4C4P4x3 DCN50 x 64 /16高x宽x 256高x宽x 256中心度H xW x 1C3P3100 x 128 /8掩码回归x3 DCN掩模高x宽x宽800 x 1024高x宽x 256高x宽x 256功能级别之间的共享头特征金字塔骨干高x宽/秒头头头头头图2：MEInst的整体架构，它通过掩码回归分支扩展了FCOS [29]。该模型主要包括四个模块：（a）用于特征提取的主干。(b)功能金字塔。(c)用于物体检测的检测头。(d)用于实例分割的掩码回归分支MEInst同时检测目标并预测其掩模向量，其中前三个过程与FCOS一致。然后，实例掩码通过Eq.（1）（右）。这里，DCN表示可变形卷积，其是可选的（最佳颜色），并且N表示向量的维度（例如，N= 60）。检测器APAPbbAPbb50APbb75APbbSAPbbMAPbbL面罩-R-50-FPN34.237.859.341.121.541.149.9FCOS-R-50-FPN34.1（-0.1）38.7（+0.9）57.3（-2）41.9（+0.8）22.6（+1.1）42.4（+1.3）50.1（+0.2）面罩-R-101-FPN35.740.161.744.023.143.452.7FCOS-R-101-FPN36.6（+0.9）42.9（+2.8）61.8（+0.1）46.3（+2.3）27.4（+4.3）46.9（+3.5）55.4（+2.7）面罩-X-101- 32 x8 d-FPN36.942.263.946.125.446.154.7FCOS-X-101-32x8d-FPN37.1（+0.2）44.0（+1.8）63.2（-0.7）47.6（+1.5）27.5（+2.1）47.6（+1.5）56.4（+1.7）表1：COCOval2017拆分的不同算法之间的比较。第一行显示了由He等人训练的Mask R-CNN [13]，而另一个是具有相同骨干网络的FCOS [29]。我们只使用它们来检测对象，对于Mask R-CNN，我们丢弃了掩码输出。AP表示实例分割的性能，其由具有不同预检测框的相同模型预测。两个探测器之间的间隙分别用绿色和红色突出显示绿色表示更好，红色表示更差。更好的边界框提高了掩码分支中的整体性能。在这里，我们进行了几个实验来验证我们的假设经验。以Mask R-CNN [13]为例。推理流程如下：1）使用主干模块从输入图像中提取语义特征2）然后将提取3)之后，掩模阶段使用来自每个检测到的盒子的ROIAlign计算特征。4)最后，对区域表示进行逐像素分割。它只能预测一个二进制掩码。在我们的实验中，由He等人预训练的Mask-R-50-FPN模型。被用作主要骨干。上述过程中的步骤-2被替换为由不同检测器预测的一系列预先获取的检测结果，在这种情况下，所有变量都保持相同，箱.在这里，我们选择具有不同主干的Mask R-CNN [13]（两阶段）和FCOS [29]（一阶段）作为对象检测器。接下来，AP表示掩码AP，而框AP表示为APbb。定量结果见表1和图4。对于相同的结构，随着网络的深入，检测器在掩码上带来了一致而显著的增益。然而，实例分割的结果低于我们对不同管道的预期。与Mask R-CNN相比，FCOS在度量AP bb下在所有骨干中实现了更好的检测性能，测量值为0。9%，2. 8%、1. 8%，分别。然而，相应的分割并没有得到同等的改善，甚至表现更差（34。1%，三十四2%）。这似乎违反直觉。我们观察到，FCOS在所有的gen.10230505050提取整形(a) 原始图像（b）二进制掩码HWL侦察N(d)变换矩阵扁平连接(c) FlattenedFeature图3：掩码编码的流水线。(a)是用实例标签注释的原始图像。我们提取这些注释并将其重新整形为（b）m×m掩码（这里的掩码与类别无关）。然后（c）扁平化的特征被压缩以用于维度重构。诱导最后得到（d）变换矩阵进行掩码编码.整个过程都是离线完成的，而且速度非常快。学习后，我们在网络训练和推理过程中冻结所有这些参数除了APbb之外的所有度量，AP bb指示FCOS预测的框是位置准确的，但是具有更多的假阳性（FP）。图4（b）显示了不同模型预测的边界框的平均数量。FCOS比具有相同置信度阈值的MaskR-CNN预测明显更多的边界框（例如，0的情况。05），这可能降低度量APbb下的性能。掩码R-CNN采用两级流水线，即，首先提出候选，然后细化框，在这种情况下，可以有效地过滤掉大多数错误提出的框。然而，单阶段范式（如FCOS）直接输出结果以实现更快的推理，从而导致冗余框。实际上，几乎所有的单阶段方法[19，23，27]都遇到了这种困境。我们推测这个问题可能与有效感受野（ERF）有关。Zhou等[34]宣称有效感受野比理论感受野小得多，因为CNN倾向于从中心区域捕获ERF不足可能会导致许多假阳性（FP）盒，因为网络无法“看到”对象。为了解决这个问题，我们简单地采用了可变形卷积[36]，它能够聚焦于显著区域并在一定程度上扩大ERF。具体来说，我们分别替换多头分支中的最后一个vanilla卷积层。请注意，其他模式-图 4 ： COCOval2017 拆分的不同范式的定量分析。(a)APbbvs.AP掩码，显示方框和掩码之间的相关性.对于相同的流水线，更好的检测器会导致更好的实例掩码性能。然而，FCOS的情况并非如此，其整体检测结果优于相应的Mask R-CNN。但FCOS在实例分割方面的表现与FCOS相似，甚至更差. (b)脊柱结构与.每个图像的平均盒子数：与Mask R-CNN相比，FCOS输出的盒子数量增加了2倍以上，从而降低了AP bb。这种现象可以用更大的感受野来图5：重建误差Ereconvs. COCO train2017拆分后保留的组件数量。扩张卷积[6]和大核[25]等对ERF有益的规则也可以提高性能。我们在实验部分提供了进一步的比较4. 实验我们的实验是在具有挑战性的MS COCO基准[20]上进行的，使用标准度量进行实例分割。所有模型均在COCOtrain2017分割（118k图像）上进行训练并进行评估10231图6：使用ResNeXt-101-FPN在COCO图像上显示MEInst，达到36。4%掩模AP（表8）。val2017（5k图像）。最终结果在test-dev上报告（20k图像）。此外，除非另有说明，否则我们采用1×训练策略[5，12]，单尺度训练和测试。ResNet-50 [14]用作骨干网络，除非另有说明，否则所有超参数均与FCOS [29]保持一致。具体来说，我们使用随机梯度下降（ SGD ）优化器，权重衰减0.0001，动量0.9，总共有90K次迭代。初始学习率设置为0。01，并分别在迭代60K和80K时除以10我们使用16个图像的小批量，所有模型都使用8个GPU进行训练主干使用ImageNet [10]上的预训练权重初始化，其他新添加的层如[19]中初始化。图像的短边固定为800像素，长边为1333或更小。而且，我们直接把所有损失加起来，即，λdet=λmask=1，在等式（四）、我们期望通过仔细的参数调整，性能可能会更好推理细节推理过程与FCOS保持相同，因为我们只向预测框追加一个预测。输入图像通过网络，然后预测具有多个属性的框，例如类别和掩码系数。我们在非最大抑制（NMS）后执行掩码重传，以避免不必要的计算开销（最高得分100个样本）。由于矩阵乘法很快，MEInst对其FCOS对应物引入了轻微的开销。4.1. 消融研究上界分析我们首先将所有的注释重新整形为28×28的二进制类掩码。然后，这些掩码被编码并恢复为二维矩阵，与Eq。（一）. 最后我们使用mIoU的度量来评估重建的掩模的质量。COCOtrain2017拆分的重建误差如图5所示。结果表明，重构误差随保留分量数的增加而不断下降，当维数为100时，甚至可以达到很低的水平（仅为2. 5%）。此外，我们观察到类不可知矩阵实现了与类特定矩阵类似的结果（维度高达C倍）。因此，从节省内存的角度考虑，前者是更好的选择。编码表示的维数它在MEInst中起着非常基础的作用。如表2所示，性能随尺寸的增加而稳定增长，并最终达到饱和。例如，从20到60有2%的改善，超过60时保持稳定重建在开始时有很大的影响然而，当足够的组件可以很好地重建掩模时，它不再是限制性能的主要因素除非另有说明，否则我们在实验中选择N = 60。学习没有显式编码或者，可以学习掩码没有显式编码。也就是说，不是将冗余标签压缩成固定维度的向量，而是利用重构矩阵W恢复预测的掩模并对其执行逐像素分类。这个投射过程基本上与10232表2：组件数量：MEInst通过更多的元件获得一致的增益，并最终达到饱和。这是一个更好的表现。请注意，“-”和“w/o”之间的区别在于，前者利用了隐式掩码编码，而另一个则没有。采用沿空间维度的1×1卷积损失APAP50AP75APSAPMAPL卷积核存储在W中。请注意，这些页-平滑L130.853.231.514.833.044.7在训练过程中，参数被冻结。此外，我们还...L131.453.432.415.333.844.8探索没有掩码编码的学习的潜力，即，网络直接输出高维掩码L2余弦31.828.953.951.132.929.115.913.134.230.545.742.8（例如，28×28=784）。结果示于表3中。过高的维度使其难以优化，从而导致性能下降。特别是AP 75和APL显著降低，测量值为1。3%和2. 0%，分别。相对紧凑的向量不仅有利于更快的推理，而且有利于优化。在相同的维度下，我们的方法在所有度量，进一步证明了掩码编码的有效性。损失函数如上所述，掩码编码将实例分割的任务转换为一组系数回归问题。我们在实验中尝试了几种常见的损失来监督回归问题，更具体地说，平滑l1损失，l1损失和l2损失。方程式中的λ掩模为简单起见，将（4）设置为1如表4所示，l2损失比其他损失表现得更好。我们还考虑了将掩码向量视为整体的情况，因此我们应用余弦相似性损失。然而，性能变差，这表明掩码编码已经缓解了原始表示中的冗余，现在向量中的元素是独立的。大的感受野在这里，我们证明了大的感受野的重要性。首先，我们在掩码预测层中应用大内核 [25]（LK）。LK层是1×k+k×1和k×1+ 1×kcon的组合。进化在我们的实验中，k被设置为9。较3×3卷积，它引入的开销可以忽略不计。如表5所示，预测层中的LK实现0.7%的AP增益。我们还探讨了变形卷积的潜力（DCN）。具体来说，我们只在头的最后一层使用它，以保持我们的模型效率。在获取更有意义、更大的接受性特征的能力下，AP提高了1.5%。学习掩码提高对象检测正如[11]中所提到的，使用实例掩码预测的学习通常可以提高一级检测器的性能。在我们的实验中也发现了类似的现象，我们的MEInst优于FCOS [29] 0。包装盒中的AP为8%，如表6所示。与采用一些技巧的RetinaMask [11]相比，我们的方法更简单表4：不同的损失函数：平滑的L1、L1和L2损失函数没有显示出显著差异，并且L2工作得稍好。更大的？APAP50AP75APSAPMAPL30.353.031.114.233.243.4LK31.052.731.914.733.844.5DC31.853.932.915.934.245.7表5：大感受野物质：通过更大的感受野提高性能。带面罩APbbAPbb50APbb75APbbSAPbbMAPbbL39.658.242.722.543.452.1C40.458.543.524.543.852.7表6：学习掩码增强对象检测：通过多任务学习提高了检测性能。规模方法APAP50AP75FPS416[33]第三十三话21.648.722.438.5400MEInst23.942.424.128.2600MEInst28.449.328.818.5800MEInst30.353.031.112.8表7：基于掩模的对比基于轮廓：[33]《易经》中有一个很大的特点。所有型号均基于ResNet- 50，FPS在GTX 1080 Ti上报告。达到相同的性能。面具vs.我们将MEInst与最近的基于轮廓的方法ESE-Seg [33]进行比较。为了使这是一个公平的比较，我们没有在我们的模型中应用任何可变形卷积。如表7所示，与ESE-Seg方法相比，MEInst显示出较大的增益。另外，当输入比例变小时（例如，400），我们的模型仍然实现了更好的实时速度的性能。请注意，我们在这里并没有专门训练一个新模型。实验结果表明，ME-Inst算法不仅在掩码AP中具有良好的性能，而且在实时应用中也有很好的应用前景。除了性能之外，我们的基于掩模的方法还显示了ESE-Seg所缺乏的细节保留优势，如图1所示。实验表明，亲-NAPAP50AP75APSAPMAPL编码APAP50AP75APSAPMAPL2029.852.430.214.532.043.0C31.853.932.915.934.245.74031.453.332.514.634.044.9−30.853.331.614.533.143.76031.853.932.915.934.245.7W/O29.752.729.914.532.043.48031.953.932.615.434.445.5表3：掩码编码：使用掩码编码的学习10233方法骨干历元八月APAP50AP75APSAPMAPL两级美国[9][第17话]Mask R-CNN [13]ResNet-101-C4ResNet-101-C5-扩张ResNeXt-101-FPN121212−−−24.629.237.144.349.560.024.8−39.44.77.116.925.931.339.943.650.053.5一期[35]第三十五话沙漏-104100C18.944.513.710.420.428.3TensorMask [7]ResNet-101-FPN72C37.159.339.417.439.151.6Yolact [3]ResNet-101-FPN48C31.250.632.812.133.347.1PolarMask [32]ResNet-101-FPN12−30.451.931.013.432.442.8PolarMask [32]ResNeXt-10112−32.955.433.815.535.146.3MEInstResNet-101-FPN12−33.056.434.015.235.346.3MEInstResNeXt-10112−35.559.736.717.538.049.0MEInstResNet-101-FPN-DCN12−34.958.836.016.337.049.6MEInstResNeXt-101-FPN-DCN12−36.861.638.418.139.251.8MEInstResNet-101-FPN36C33.956.235.419.836.142.3MEInstResNeXt-10136C36.460.038.321.338.845.7MEInstResNeXt-101-FPN-DCN36C37.861.440.021.839.848.8表8：COCO测试开发上的实例分段掩码AP。这里是“aug”表示数据增加，例如，多尺度C是用“aug”训练的意思与基于轮廓的算法（如 PolarMask [32] 和 ESE-Seg[33]）相比，提出的方法具有理想的特性。4.2. 与现有技术方法的我们评估COCO测试开发MEInst，并将我们的结果与一些最先进的方法进行比较，包括一阶段和两阶段模型。结果见表8和图6。在没有花里胡哨的情况下，ME-Inst的掩码AP达到了36. 4%，这比大多数单阶段方法要好得多。注意我们在实验中没有使用任何技巧，例如，辅助语义分割监督。有了这些技巧，我们的成绩可能会进一步提高此外，TensorMask [7]和我们之间的差距主要是因为1）TensorMask使用了非常长的训练时间表，以及2）双金字塔和对齐表示。考虑到这些模块是耗时和内存消耗，我们没有将它们插入到我们的模型中。4.3. 优点和局限性MEInst有能力更好地处理“脱节”的对象。在图6中可以找到一个示例（第3行第1列）。一个有趣的现象是，当检测到的对象很小时，MEInst 超过了 MaskR-CNN [13] （ 21. 3% ，十六岁9%），而当物体变大时表现更差（45。7%，五十三5%）。我们认为，主要原因有两个方面：• 对于小的物体，在我们的工作中，单个特征向量的容量不是问题。而在Mask R-CNN中，它需要掩码预测头来标记小物体的每个像素，当物体非常小时，这是具有挑战性这就是为什么我们在小对象上优于Mask R-CNN。• 对于大的物体，一个紧凑的表示向量很难容纳掩模的所有细节在在这种情况下，非参数像素标记显示出优点。在这种情况下，需要额外的模块来编码细节5. 结论在这项工作中，我们引入了一个新的，简单的单镜头实例分割框架，称为MEInst。不同于以往的作品，通常解决掩模预测作为二进制分类的空间布局，MEInst表示掩模与一个固定的维度和紧凑的向量，并将任务转换为回归任务。reform- mation允许的挑战性的任务来解决附加- ING一个并行回归分支到现有的一级对象检测器。实验分析表明，所提出的框架达到竞争的准确性和速度之间的一阶段范例。在未来，我们将探索使用其他字典学习方法编码实例掩码的可能性，以及将此想法应用于其他实例识别任务的可能性。引用[1] Anurag Arnab和Philip Torr。具有动态实例化网络的逐像素实例在proc IEEEConf. Comp.目视帕特识别，第441-450页，2017年。2[2] 白敏和拉奎尔·乌塔孙用于实例分割的深分水岭变换。在proc IEEE会议Comp. 目视帕特识别，第5221-5229页，2017年。210234[3] Daniel Bolya，Chong Zhou，Fanyi Xiao，and Yong JaeLee. YOLACT：实时实例分割。正在进行IEEE国际配置文件目视，第9157-9166页，2019年。二、八[4] 陈浩，孙昆阳，田智，沈春华，黄永明，严友良.BlendMask：自上而下与自下而上结合，用于实例分割。正在进行IEEE会议对比可见光帕特识别，2020年。2[5] Kai Chen，Jiaqi Wang，Jiangmiao Pang，Yuhang Cao，Yu Xiong，Xiaoxiao Li，Shuyang Sun，Wansen Feng，Ziwei Liu，Jiarui Xu，et al. MM检测：打开mmlab检测工具箱和基准。 arXiv 预印本 arXiv ： 1906.07155 ，2019。6[6] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan Yuille. Deeplab：使用深度卷积网络、atrous卷积和全连接CRF进行语义图像分割。 IEEE传输模式分析马赫内特尔，40（4）：834-848，2017. 5[7] XinleiChen，RossGirshick，KaimingHe，andPiotrDolla'r.Tensormask：密集对象分割的基础在proc IEEE国际Conf. Comp. 目视，第2061二、八[8] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。正在进行IEEE会议对比可见光帕特识别，第3213-3223页，2016。2[9] Jifeng Dai ，Kaiming He ，Yi Li ，Shaoqing Ren ，andJian Sun.实例敏感的全卷积网络。欧洲药典配置文件可见第534-549页。施普林格，2016年。二、八[10] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. ImageNet：一个大规模的分层图像数据库。在proc IEEE会议Comp. 目视帕特识别，第248-255页，2009。6[11] Cheng-Yang Fu，Mykhailo Shvets，and Alexander C.伯格。RetinaMask：学习预测面具，免费提高最先进的单镜头检测。arXiv预印本arXiv：1901.03353，2019。7[12] Ross Girshick 、 Ilija Radosavovic 、 Georgia Gkioxari 、Piotr Doll a´ r和KaimingHe。Detectron，2018年。6[13] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面罩R-CNN。正在进行IEEE国际配置文件目视，第2961-2969页，2017年。一、二、四、八[14] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习在proc IEEE Conf.Comp.目视帕特识别，第770-778页，2016年。三、六[15] Zhaojin Huang，Lichao Huang，Yongchao Gong，ChangHuang，and Xinggang Wang.掩模评分R-CNN。正在进行IEEE会议对比可见光帕特识别，第6409- 6418页，2019年。一、二[16] Alexander Kirillov，Evgeny Levinkov，Bjoern Andres，Bog- dan Savchynskyy，and Carsten Rother.即时切割：从边到实例。在proc IEEE会议Comp.目视帕特识别，第5008-5017页，2017年。2[17] 李毅、齐昊之、戴季风、季向阳、魏一完全卷积的实例感知语义分割。正在进行IEEE会议对比可见光帕特识别第2359- 2367页，2017年。1、8[18] 林宗义、彼得·多尔、罗斯·格希克、何开明、巴拉特·哈里哈兰和塞尔日·贝隆吉.用于对象检测的特征金字塔网络在proc IEEE会议Comp.目视帕特识别，第2117-2125页，2017年。3[19] 林宗义、普里亚·戈亚尔、罗斯·格希克、何开明和彼得·多尔·拉尔。密集目标检测的焦面损失。在P r oc.IEEE国际会议对比可见光，第2980-2988页，2017年。二三五六[20] 林宗义，迈克尔·梅尔，塞尔日·贝隆吉，詹姆斯·海斯，皮埃罗·佩罗纳，德维拉·拉曼南，皮奥特尔·多尔·拉尔和劳伦斯·齐特尼克。Microsoft COCO：上下文中的公用对象。在proc EUR. Conf. Comp. 目视，第740Springer，2014.一、二、五[21] Shu Liu，Jiaya Jia，Sanja Fidler，and Raquel Urtasun.Sgn：用于实例分段的顺序分组网络。在proc IEEE国际Conf. Comp. 目视，第34962[22] 刘舒，陆琪，秦海防，石建平，贾佳雅。用于实例分段的路径聚合网络正在进行IEEE会议对比可见光帕特识别，第8759-8768页，2018年。一、二[23] Wei Liu ， Dragomir Anguelov ， Dumitru Erhan ，Christian Szegedy ， Scott Reed ， Cheng-Yang Fu ， andAlexander Berg. SSD：单次触发多盒探测器。在procEUR. Conf.对比可见光，第21-37页。施普林格，2016年。5[24] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。正在进行IEEE会议对比可见光帕特识别，第3431-3440页，2015。1[25] Chao Peng，Xiangyu Zhang，Gang Yu，Guiming Luo，and Jian Sun.大核正在进行IEEE会议

下载后可阅读完整内容，剩余1页未读，立即下载