稀疏实例激活：一种实时实例分割的高效完全卷积框架

69 浏览量更新于2023-10-25 收藏 3.86MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

4433COCO面罩AP×用于实时实例分割的稀疏实例激活程天恒1、2王兴刚1<$陈少宇1、2张文强1张倩2黄昌2张兆祥3刘文宇11华中科技大学启德学院2地平线机器人3中国科学院自动化研究所（CASIA）{thch，xgwang，赵宇晨，张文清，刘伟}@ hust.edu.cn{qian01.zhang，chang. huang}@horizon.ai赵祥. ia.ac.cn摘要在本文中，我们提出了一个概念新颖，高效，完全卷积的框架，用于实时在姿态分割以前，大多数实例segmen-35定位方法严重依赖于基于边界框或密集中心的对象检测和执行掩模预测。相反，我们提出了一个稀疏的实例激活映射，作为一个新的对象表示，到高30每个前景对象的光信息区域。然后通过根据用于识别和分割的高亮区域聚集特征来获得实例级特征。此外，基于二分匹配-因此，实例激活图可以预测25一对一的风格，从而避免非最大抑制0(NMS)在后期处理。由于简单而有效，20 4060推断时间（ms）SparseInst具有非常快的推理速度，可达到40 FPS，37.9 AP在COCO基准测试中的表现，在速度和准确性方面明显优于同行。代码和模型可在https：//github获取。com/hustvl/SparseInst.1. 介绍实例分割旨在为图像中的每个对象生成实例级分割。基于深度卷积神经网络和对象检测的进步，最近的作品[4，9，14，18，40]在实例分割方面取得了巨大进展，并在大规模基准测试中取得了令人印象深刻的结果，例如，COCO [24].然而，开发实时和高效的实例分割算法仍然具有挑战性和紧迫性，特别是对于自动驾驶和机器人技术。流行的方法倾向于采用检测器[30，37]首先本地化实例，然后通过基于区域的†Xinggang Wang为通讯作者。图1. 速度和精度的权衡。所提出的稀疏- Inst优于大多数国家的最先进的方法在实时实例分割的速度和准确性。推理速度是在一台NVIDIA 2080Ti上测量的。卷积网络[14]、动态卷积[36]等。这些方法在概念上是直观的，并且实现了很好的性能。然而，当涉及到实时物体分割时，这些方法受到一些限制。首先，大多数方法使用密集锚（中心）来定位然后分割对象，例如，CondInst [36]中有超过5456个实例（给定512 512个输入），这会产生大量冗余预测和大量计算负担。此外，如果我们密集地通过中心或锚点定位对象，则每个像素的感受野有限，并且上下文信息不足[6，12]。其次，大多数方法需要多级预测来处理自然对象的尺度变化，这不可避免地增加了延迟。基于区域的方法[14]应用RoI-Align来获取区域特征，这使得难以将算法部署到边缘/嵌入式设备。最后，后处理也需要注意，因为排序和NMS以及处理掩码是耗时的，翼梁SparseIns不YOL-50 FPS25 FPS17 FPSPS时间：30F房-600arMaskPolACT-550SK-800PolarMaACT-700YOL-512MeinserMask-600美v2-448OLOST++YOLAC2SOLO-51-544OrienMaskT-448LOv2-512所以N掩模R-CNeInst-512T-640SparseIns4434∼×(a) 基于中心(b) 基于区域(c) 实例激活映射图3.SparseInst是一个纯粹的、完全卷积的框架，独立于检测器。得益于以下事实：（1）通过实例激活映射进行稀疏预测;（2）单级预测;（3）紧凑结构;（4）无需NMS或排序的简单后处理，SparseInst具有极快的推理速度，并实现了37.9在MS-COCO测试开发中屏蔽AP，在一个NVIDIA2080 Ti GPU上具有40.0 FPS，性能优于大多数国家图2. 对象表示。（a）基于中心的表示可能无法命中实例;（b）基于区域的表示可能包含来自其他实例和背景的特征;（c）实例激活图突出实例感知像素。特别是对于密集预测。值得注意的是在本文中，我们提出了一个新的亮点段范例实时实例分割。我们没有使用盒子或中心来表示对象，而是利用一组稀疏的实例激活图（IAM）来突出信息对象区域，这是由广泛用于弱监督对象定位的CAM [49实例激活图是实例感知的加权图，实例级特征可以根据突出显示的区域直接聚合。然后根据实例特征进行识别和分割。图2比较了基于区域、基于中心和基于IAM的表示。相比之下，IAM具有以下优点：（1）它突出了可区分的实体像素，抑制了阻碍性像素，并在概念上避免了基于中心/区域的方法中的不正确的实例特征定位问题;（2）它从整个图像中聚合实体特征，并提供更多的上下文;（3）使用激活图计算实例特征相当简单，无需像RoI-Align [14]这样的额外操作然而，不同于以前的工作[14，37，41]使用空间先验（即，锚和中心）来分配目标，实例激活图以输入为条件并且对于不同对象是任意的，并且用手工制作的训练规则来为了解决这个问题，我们将激活图的标签分配公式化为一个二分匹配问题，这是最近在DETR [3]中提出的。具体而言，每个目标将通过匈牙利算法[31]被分配到对象预测及其激活图。在训练过程中，二分匹配有助于实例激活图突出单个对象并抑制冗余的预匹配。在推理过程中避免NMS。此外，我们实现了这种模式，并提出Spar-seInst，一个非常简单，但有效的方法，实例分割。SparseInst采用单级预测，由提取图像特征的主干、增强单级特征的多尺度表示的编码器和计算实例激活图、执行识别和分割的解码器组成，如用于实时实例分割的现有技术方法。给定448输入，SparseInst达到58.5 FPS，具有竞争力的精度，比以前的方法更快。我们希望建议的SparseInst可以作为一个通用的框架（实时）端到端的实例分割。2. 相关工作根据对象表示，现有的用于实例分割的方法可以分为两组，I.E.基于区域的方法和基于中心的方法。基于区域的方法基于区域的方法依赖于对象检测器，更快的R-CNN [30]，以检测物体并获取边界框，然后应用RoI- Pooling [30]或RoI-Align [14]来提取像素分割的区域特征Mask R-CNN [14]作为代表性方法，通过添加掩码分支来预测对象的掩码，并为端到端实例分割提供强大的基线，从而[9，19，35，45]解决了Mask R-CNN中出现的低质量分割和粗糙边界，并提出了几种方法来改进高质量掩码的掩码预测[2，5]开发级联结构以逐步改进对象定位，以实现更准确的掩模预测。基于中心的方法近年来，许多方法采用单级探测器，特别是无锚探测器[37]。这些方法用中心像素代替边界框来表示对象，并使用中心特征进行分割。几种方法[43，44]探索了物体轮廓，但对于具有中空或多个部分的物体显示出一些限制。 YOLACT [1] 和maYOLACT [29]通过装配掩码系数和原型掩码来生成实例掩码。MEInst [46]和CondInst [36]分别通过预测动态卷积的编码掩码向量或掩码内核来扩展 FCOS[37SOLO [40，41]作为一种无检测器方法，还通过中心定位和识别对象以及生成掩码内核。提出的SparseInst利用稀疏实例激活图来表示对象，具有简单的管道和高效率。二分匹配目标检测。二分匹配已被广泛探索用于端到端对象检测[3，31-最近，SOLQ [10]和ISTR [17]利用了44358×FFF·--·∈{}××FF--用于实例分割的掩码编码。QueryInst [13]通过添加动态掩码头扩展[34]。此外，[8，21，38，47]采用具有实例和语义查询的转换器然而，我们的方法旨在快速的动机，作为对象表示的实例级识别和分割的实例激活地图简洁而有效的表示法推动了框架的快速发展。3. 方法在本节中，我们首先研究用于表示对象的实例激活映射然后，我们提出了一种新的框架，利用稀疏的实例激活映射集突出对象和聚合实例特征的实例级识别和分割。3.1.实例激活映射配方。直观地说，实例激活图是实例感知加权图，旨在突出每个对象的信息区域。突出显示区域的特征具有语义丰富和实例感知的特点，可用于识别和分离对象。因此，我们直接根据激活图聚合特征作为实例特征。鉴于在-把图像特征X∈RD×（H×W），实例激活译码器骨干网，例如，ResNet [15]从给定图像中提取多尺度特征。在主干上附加了即时上下文编码器，以增强更多的上下文信息并融合多尺度特征。为了更快的推理，编码器输出1分辨率w的单级特征.R. t. 输入图像和特征将被馈送到后续的基于IAM的解码器，以生成实例激活图来突出前景对象以进行分类和分割。3.3.实例上下文编码器自然场景中的目标往往具有很大的尺度范围，这容易降低检测器的性能。大多数方法采用多尺度特征融合，特征金字塔[22]和多级预测，以促进对不同尺度的对象的识别。然而，使用多级金字塔特征增加了计算负担，特别是对于使用重型头部的检测器[23，37]，以及产生大量重复预测。相反，我们的方法旨在更快的推理利用单级预测。考虑到不同尺度对象的单级特征的局限性，我们重建了特征金字塔网络，并提出了一个实例上下文编码器，如图3所示。实例上下文编码器采用金字塔池-映射可以用公式表示为：A=F（X）∈RN×（H×W），在C5之后使用模块[48]以扩大感受野，IAM其中A是N个实例激活映射的稀疏集，iam（）是具有S形非线性的简单网络。然后，我们可以获得实例特征的稀疏集通过从输入特征图X与实例激活图收集区别性信息，通过：z=A<$XTRN×D，其中z=ziN是图像中N个潜在对象的特征表示，A<$是对于每个实例映射归一化为1稀疏的实例感知特征ziN直接用于随后的识别和实例级分割。学习实例激活。实例激活映射实例遮罩，用于学习高亮对象。本质上，随后的识别和分割模块提供了具有间接监督的实例激活图，这鼓励iam发现信息区域。此外，由于二分匹配，监督是实例感知的，这进一步强制iam区分对象并且每个映射仅激活一个对象因此，所提出的实例激活图能够为单个对象提供高光区分区域。3.2. SparseInst如图3所示，SparseInst是一个简单、紧凑和统一的框架，由骨干网络、实例上下文编码器和基于IAM的融合P3到P5的功能，进一步增强多功能输出单标高要素的比例图示。3.4. 基于IAM的分段解码器图3示出了基于IAM的分段解码器，其包含实例分支和掩码分支。这两个分支是由一个堆栈的3 - 3卷积与256个通道。实例分支旨在生成实例激活图和N个实例特征，用于识别和实例感知内核。掩码分支被设计为对实例感知掩码特征进行编码。位置敏感特性。经验上，对象被局部化在不同的位置，并且空间位置可以用作区分实例的线索。因此，我们构建了由空间位置的归一化绝对（x，y）坐标组成的双通道坐标特征，其类似于CoordConv [25]。然后，我们将来自编码器的输出特征与坐标特征连接起来，以增强实例感知表示。实例激活映射iam。我们采用了一个简单而有效的sigmoid 3 3卷积作为vanilla iam，它用一个激活图来突出每个实例。因此，实例特征z i是通过激活图获得的，其中每个潜在对象被编码为256-d向量。然后，三个线性层被应用于分类、对象性得分和掩码核{wi}N。4436××--- -×FCi、c、kM不·--∈∈L2XYLL+Σ2XY图3. SparseInst的架构。SparseInst包含三个主要组件：主干、编码器和基于IAM的解码器。给定输入图像，主干提取多尺度图像特征（即，C3、C4、C5）。编码器采用金字塔池化模块（PPM）[48]来扩大感受野并融合多尺度特征。‘2. 基于IAM的解码器由两个分支组成，即：实例分支和掩码分支。在实例分支中，“IAM”模块预测实例激活图（在右列中示出）以获取用于识别和掩码内核的实例特征。掩码分支旨在提供掩码特征M，并将与预测的内核相乘以生成分割掩码。此外，为了获得细粒度的实例特征，我们提出了组实例激活图（Group-IAM）来突出每个对象的区域组，即，每个对象多个激活图。具体来说，我们采用了4组3 3卷积作为Group-IAM的iam，并通过连接组中的特征来聚合实例特征。IoU感知的客观性。我们发现，一对一分配将强制大多数预测为背景，这可能会降低分类置信度并导致分类分数和分割掩码之间的为了缓解上述问题，我们引入IoU感知对象来调整分类输出。我们采用预测掩模和地面真实掩模之间的估计IoU作为前景对象的目标。实例的地面实况对象是变化的，并且可以促进网络分离实例。不同于[18]使用额外的头来预测基于掩码的IoU得分预测，我们只采用IoU作为对象目标。在推理阶段，我们对分类概率进行了手工规则为了解决端到端的训练，我们将标签分配公式化为二分匹配[3]。首先，我们提出了一个成对的基于骰子的匹配得分（i，k）的第i个预测和第k个地面实况对象在方程。（1），其由分类得分和分割掩模的骰子系数确定。C（i，k）=p1−α·DICE（mi，tk）α，（1）其中，α是用于平衡分类和分割的影响的超参数，ck被称为第k个地面实况对象的类别标签，而pi，ck表示第i个预测的类别ckmi和tk分别是第i个预测和第k个骰子系数定义在方程中。（二）、DICE（m，t）=102x，ymxy·txy，（2）x为ohx为ohp i与IoU感知的对象s i，并获得最终概率pi= p i·si，其中i表示第i个实例。面具头利用由实例分支生成的实例感知掩码核w iN，可以通过m i= w iM直接产生每个实例的分割掩码，其中m i是第i个预测掩码及其对应的第i个预测掩码。其中mxy和txy表示预处理中（x，y）处的像素分别为指定掩码M和地面实况掩码T然后，我们采用匈牙利算法[31]来找到K个地面实况对象和N个预测之间的最佳匹配。训练损失在等式中定义。（3）分类损失、目标预测损失和分割损失。核函数为wiR1×D。MRD×H ×W为掩模特征。最终的分割掩码将被上采样（通过L=λc·Lcls +L掩模+λs ·Ls，（3）双线性插值）到1×w. R. t.原始决议3.5. 标号分配与二分匹配损失建议的SparseInst输出一个固定大小的预测集，并且很其中cls是对象分类的焦点损失[23]，mask是掩码损失，s是IoU感知对象的二进制交叉熵损失。针对全分辨率实例分割中背景与前景严重不平衡的问题，采用了混合掩模实例激活映射32 32高×宽C516 16高×宽C4H W8× 8C3······Cconcatconv3×3转换仅培训实例激活映射损失率吉扬z：A：n×H×类评分IAM例如内核M：×（×）解码器掩模conv2×ConvC2×2×4×convPPM编码器偶匹配4437LL×----§在Eq.（4）通过将骰子损失[27]和逐像素二进制交叉熵损失组合用于分割掩模。Lmask=λdice·Ldice+λpix·Lpix，（4）其中dice和pix是骰子损失和二进制交叉熵损失，λdice和λpix是对应的系数。3.6. 推理SparseInst的推理阶段更加直接和简洁。将给定的图像通过整个网络进行转发，我们可以直接获得N个具有分类得分p∈iN的实例和相应的原始分割掩码miN。然后，我们可以确定每个实例的类别和置信度得分，并通过阈值化获得最终的二值掩码不需要排序和NMS，因此推理过程非常快。4. 实验在本节中，我们在具有挑战性的MS- COCO数据集上评估了我们提出的SparseInst的准确性和推理速度，并提供了关于我们的框架的详细消融研究以及定性结果。数据集和评估指标。我们的实验是在COCO数据集上进行的[24]，该数据集包含118k张用于训练的图像，5k 张用于验证， 20k 张用于测试。所有模型均在train2017上进行训练，并在val2017上进行评估。在分割方面，我们主要介绍了分割模板的AP.对于推理速度，我们测量每秒帧数（FPS），包括一个NVIDIA2080Ti GPU上TensorRT或FP16不用于加速。实施详情。SparseInst构建在Detec-tron 2 [42]上，并在8个GPU上训练，每个小批次总共64个按照[33]中的训练时间表，我们采用AdamW [26]优化器，初始学习率为5 10−5，权重衰减为0.0001。所有模型都经过270k次迭代的训练，学习率分别在210k和250k时除以10。主干使用ImageNet预训练的权重初始化，冻结batchnorm层，其他模块随机初始化。在训练中采用随机翻转和尺度抖动。图像的短边从416到640像素随机采样，而长边小于或等于864。除非另有说明，我们用较短的640号来评估速度和准确性损失系数λc、λdice、λpix和λs根据经验分别设置为2.0、2.0、2.0和1.0我们对每个图像采用N=100个实例此外，我们还提供了MindSpore[28] SparseInst的实现。4.1. 主要结果由于SparseInst的目标是实时实例分割，因此我们主要将SparseInst与本发明的方法在准确性和推理速度方面朝向实时实例分割。结果在COCO测试开发中进行评估。我们为SparseInst提供了组实例激活映射和不同的主干，以实现速度和准确性之间的平衡。我们采用ResNet-50 [15]以达到更高的推理速度，并采用其变体ResNet-d [16]以实现更好的准确性，但具有更高的延迟，旨在为实时实例分割提供更强大的基线。此外，我们采用了简单的随机裁剪和较大的权重衰减（0.05）来打赌- [11]与[12]的比较。表1表明我们的SparseInst优于大多数实时方法，具有更好的性能和更快的推理速度。SparseInst 以更快的速度显著优于流行的实时方法YOLACT图1显示了速度-准确度权衡曲线，与同行相比，建议的具有R50-d和DCN的SparseInst [50]获得了更好的权衡，在448×输入下，达到58.5 FPS和35.5掩模AP，优于大多数实时方法（≥ 30 FPS）。4.2. 消融实验我们进行了一系列的消融研究稀疏- Inst，包括实验细节的组成部分。实例上下文编码器。表2显示了对vanilla特性金字塔的修改的影响[22]。为更大的感受野和更多的对象上下文添加金字塔池化模块，对于更大的对象（APL）带来了1.5 AP和2.2 AP的显著改善，而引起的延迟可以忽略不计。此外，融合P3到P5的多尺度特征进一步增强了多尺度特征表示，性能提高了0.7 AP和2.0 APL。上下文编码器对于单水平预测是相当必要的，以应对有限的感受野并提供更好的多尺度特征，从而弥合多水平和单水平方法之间的差距。解码器的结构。在表3中，我们比较了基于IAM的解码器中两个分支的不同结构。我们采用4个卷积层，256个通道作为两个分支的基本设置，并评估了不同深度或宽度的模型的性能。减少宽度或减少深度将降低性能，但增加推理速度，值得注意的是将深度从4增加到6带来0.4 AP改善。考虑到速度和精度之间的权衡，我们在所有实验中采用宽度=256和深度=4。添加坐标特征将基线提高了0.5 AP，时间消耗可以忽略不计，这表明了3.4中讨论的显式位置感知特征的效果。表3还显示了将两个分支的最后一个卷积替换为可变形卷积的效果。使用可变形卷积-4438×F×FF×1+e×f（xi）Σ方法骨干大小FPSAP AP50AP75APSAPMAPLMEInst [46]R-50-FPN51224.032.2 53.933.013.934.448.7[20]第二十话R-50-FPN60031.932.9--12.934.748.7[36]第三十六话R-50-FPN80020.4†35.4 56.437.618.437.946.9SOLO [40]R-50-FPN51224.434.2 55.936.0---SOLOv2-Lite [40]R-50-FPN44838.234.0 54.036.110.336.354.4SOLOv2-Lite [40]R-50-DCN-FPN51228.237.1 57.739.712.940.057.4PolarMask [43]R-50-FPN60021.7†27.6 47.528.39.830.143.1PolarMask [43]R-50-FPN80017.2†29.1 49.529.712.631.842.3Yolact [1]R-50-FPN55050.628.2 46.629.29.229.344.8Yolact [1]R-101-FPN70029.031.2 50.632.812.133.347.1YOLACT++[1]R-50-DCN-FPN55038.634.1 53.336.211.736.153.6东方面具[11]D-53-FPN54442.734.8 56.736.416.038.247.8SparseInst转轴-5060844.634.7 55.336.614.336.250.7SparseInstR-50-DCN60841.636.8 57.638.915.038.255.2SparseInstR-50-d60842.836.1 57.038.215.037.753.1SparseInstR-50-d-DCN60840.037.9 59.240.215.739.456.9表1. COCO实例分割。与COCO测试开发中最先进的掩模AP和速度方法进行比较。所有型号的推理速度都是在我们的机器上测试的，只有一台NVIDIA RTX 2080 Ti，除了那些标有†的型号，这些型号是从他们的出版物中继承的。融合 w/ PPM t（ms）APAP50AP75APSAPMAPL22.029.848.731.012.031.844.1✓22.231.350.832.414.033.246.2✓22.830.349.531.612.532.345.9✓ ✓22.932.052.033.313.134.548.2表2. 实例上下文编码器上的消融。香草编码器[22]不能进行单级预测。利用PPM可以扩大感受野，显著提高整体性能，并增加多尺度融合进一步提高精度，特别是对于APL。值得注意的是，与普通编码器相比，改进的编码器的额外延迟可以忽略不计。表4. 消融对是的。使用softmax或11 conv带来0.4 AP和1.2 AP分别下降，使用两个3 3conv与ReLU不会带来增益。而4组的Group-IAM获得0.7 AP改善。深度宽度coord？dconv？APAPS APM APLt（ms）425631.513.433.547.922.94256✓32.013.034.548.222.94256✓✓32.613.134.849.224.62256✓31.012.933.247.020.66256✓32.413.735.447.925.54128✓30.612.432.546.219.7表3. 解码器结构上的烧蚀。“coord.”删除坐标和“dconv”的注释。表示可变形卷积。添加坐标带来0.5 AP的改进，但延迟是不可接受的。用可变形卷积代替最后一个卷积，对较大的物体（AP L）有显着的改善。减小宽度或深度可以提高推理速度但降低性能，而增加深度可以进一步提高精度但降低速度。作用[50]是可选的，通过扩大感受野来改善较大的物体，但消耗大量时间（+1.7ms）。实例激活映射。 iam是突出显示对象区域的关键组件，我们在表4中探索了iam的不同设计。使用softmax或11conv分别带来0.4 AP和1.2 AP下降。乙状结肠（w/norm）和softmax可以用公式表示为si=kf（xk），其中对于softmaxf（x）=e x，对于sig-moid f（x）=1−x，它倾向于饱和，因此激活比softmax更大的区域。增加额外的3 3conv不会带来任何增益，但会增加计算成本。此外，我们评估了具有不同组的Group-IAM，表4显示使用4个组将模型改进了0.7AP。混合掩模损失。在表5中，我们分析了混合掩模损失的影响。值得注意的是，骰子丢失是掩模预测的关键组成部分，移除骰子丢失会导致崩溃（AP迅速下降8.1点）。与基于ROI的方法[14]相比，全分辨率实例分割在背景和前景之间存在严重的不平衡问题，特别是对于可能占用小于0.5%像素的小对象骰子损失是更强大的前景/背景不平衡，从而有效地处理全分辨率分割。在表5中，添加逐像素分类损失可以进一步提高分割准确度：使用二进制交叉熵损失（BCE）或焦点损失分别提高1.0 AP和0.5 AP此外，我们注意到逐像素损失显著地改善了APL（例如，+1.8 AP from BCE）对于大型物体。增补─菲亚姆法APAP50AP75t（ms）3×3转换3×3转换1×1转换乙状softmaxsigmoid32.031.630.851.951.450.733.532.932.022.922.922.43×3conv，ReLU，3×3conv组3×3conv（2组）乙状结肠乙状31.932.252.252.333.033.523.623.14439×§××F×§××骰子焦公元前APAP50 AP75 APLw/obj.重新评分？损失APAP50 AP75✓23.940.224.340.8✗--30.751.331.6✓31.050.832.046.4✓✗CE31.452.132.2✓✓31.551.632.747.5✓✓CE32.052.033.3✓✓32.052.033.348.2✓✓L131.551.332.7菲亚姆APAP50 AP75 t（ms）1×1转换3×3转换组3×3转换30.832.032.750.751.953.132.033.534.022.422.923.3表5. 混合掩模上的烧蚀损失。我们评估不同的混合掩模损失的影响骰子损失是一个重要组成部分，增加额外的BCE损失可以进一步提高性能（+1.0 AP），特别是对于较大的对象（+1.8 APL）。表6. 对IoU感知对象进行消融。添加对象性有助于实现更多的实例感知功能，并提高性能，即使没有重新评分。采用交叉熵损失比L1损失得到更好的结果。表7. 与交叉注意力比较。我们直接使用一个4头交叉注意[3]和100个查询来评估分割对象的性能。值得注意的是，（组-）IAM与3 3conv可以提供更好的结果确定骨干编码器解码器柱512尺寸10.0（54.3%）2.5（13.5%）4.1（22.2%）1.8（10.0%）64013.3（55.6%）2.9（12.1%）5.6（23.4%） 2.1（8.90%）表8. 推理时间。本文报道了SparseInst模型的推理潜伏期。主干网占用了总时间的50%以上。同样地，增加像素级损失（λpix）的权重，例如，5.0，会带来一些改进。IoU感知的客观性。我们进一步进行消融，以调查所提出的IoU感知对象性方法的效果。在表6中，采用IoU感知对象可以将基线提高1.3AP。有趣的是，我们观察到，在没有重新校正的情况下添加对象预测仍然带来0.7 AP的改进，这对分类或分割没有直接影响。对象性的目标在前景实例之间是不同的，因此对象性丢失可以促进实例分支学习更多的实例感知特征以区分对象，如3.4中所讨论的。我们还比较了不同类型的损失，L1损失和交叉熵，对于IoU感知对象，表6显示了使用交叉熵的优越性4.3. 定时我们的框架实现了快速的推理速度，因为它节省了大量的计算成本，通过使用单级预测，突出稀疏的实例集，完全卷积设计，并采用非常简单的后处理，没有排序或NMS。为了更好地理解所提出的方法的效率，我们测量每个模块的推理延迟（即，主干、编码器、解码器和后处理）。为了准确记录时间，我们禁用了GPU中的异步执行，这降低了整体推理速度。表8显示了SparseInst中每个模块在不同输入分辨率下的推理延迟（ms）。值得注意的是ResNet-50）消耗了大部分推理时间，后处理不可避免地需要近2 ms来处理最终的分割和识别结果以进行评估。解码器中的3-3卷积需要花费很多时间，并且可以被修剪以获得更有效的推理。4.4. 交叉注意力Cross Attention所提出的IAM与基于查询的方法有一些联系[3，8，38，47]。对象查询Q和图像特征X之间的交叉注意力可以简单地表示为：A=QX和O=Softmax（A）XT，其中A和O是注意力图和输出查询。交叉注意与3.1中的IAM具有相似的公式，特别是对于11conv，可以将其视为1头交叉注意。因此，我们采用3 - 3卷积作为IAM来突出对象区域，它作为一个直接的空间对象表示。与查询或1 1conv相比，3 3conv感知更大的上下文和局部模式，用于实例识别。此外，我们将IAM替换为4头交叉关注和100个查询以生成实例特征，表7显示，与IAM和Group-IAM相比，4头交叉关注分别下降了0.2AP或0.9 AP4.5. 可视化实例激活映射。图4提供了例如激活图和对应的分割掩模的可视化。每个实例激活图突出显示对象的突出区域分割掩模被很好地定位并且与实例激活图对齐。此外，实例激活图可以突出对象，而不管尺度、位置、类别，并且对于人群场景也表现良好。为了更好地理解实例激活图如何区分对象，我们进一步提供了来自所有图像的实例激活图的可视化。图6通过对COCOval2017的5，000张图像的激活响应进行平均，展示了12个（共100个）实例激活图。不同的实例激活图突出显示不同空间位置、比例和形状的区域，这有助于分离相同或不同类别的实例。定性结果。图5显示了SparseInst的定性结果。提出的SparseInst算法可以生成具有精细边界的精确分割模板。对于人群和密集场景，SparseInst也可以很好地区分不同的实例。4440×图4. 实例激活映射的可视化。我们提出了实例激活图和分割掩模的可视化。对于每个输入图像，上面一行显示了实例激活图，下面一行显示了相应的分割掩码。实例激活图倾向于突出对象的区别性区域，而不管比例、遮挡和姿势。放大后在屏幕上观看效果最佳。图5. 实例分割的可视化。结果由SparseInst在COCOval2017上获得。置信度阈值设置为0.4。我们可以观察到，SparseInst可以在人群场景中生成精确的边界，突出显示和分割，并应对尺度变化的分割。图6. COCO数据集上的实例激活图的可视化我们通过平均每个图的激活响应，从COCOval2017中来自不同图像的实例激活图被调整大小为相同的大小512 512。我们提供了12个实例激活图的可视化。5. 结论在这项工作中，我们探索了一种新的对象表示的实例激活地图，这是实例感知的加权地图，旨在突出信息区域的对象。然后，我们提出了一个新的亮点分割范式，利用稀疏的实例激活映射以根据用于实例级识别和分割的激活映射来遵循这种范式，我们提出了SparseInst，一个概念新颖，高效的端到端的框架，它实现了相当快的推理速度与高度竞争力的实时实例分割的准确性。大量的实验和定性结果表明了核心思想的有效性和速度和准确性之间的权衡的优越性最后，我们希望SparseInst能够作为一个通用的端到端的实时实例分割框架，并应用于实际场景中，以提高其有效性和效率。谢谢。这项工作得到了国家自然科学基金的部分支持（No. 61876212号 61733007）和CAAI-华为MindSpore开放基金。局限性。SparseInst以及以前的方法[1，40，41，46]在小对象（APS）上表现较差，我们推测缺乏高分辨率特征（例如，P2）或高分辨率输入限制了APS的性能，并将在未来的研究中继续解决这个问题。4441引用[1] Daniel Bolya，Chong Zhou，Fanyi Xiao，and Yong JaeLee. YOLACT：实时实例分割。在ICCV，2019年。二五六八[2] 赵伟蔡和努诺·瓦斯康塞洛斯。Cascade R-CNN：高质量的对象检测和实例分割。IEEE传输模式分析马赫内特尔，第1483-1498页，2021。2[3] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测。在ECCV，2020年。二四七[4] Kai Chen，Jiangmiao Pang，Jiaqi Wang，Yu Xiong，Xiaoxiao Li，Shuyang Sun，Wansen Feng，Ziwei Liu，Jianping Shi，Wanli Ouyang ，Chen Change Loy ，andDahua Lin.用于实例分段的混合任务级联。在CVPR，2019年。1[5] Kai Chen，Jiangmiao Pang，Jiaqi Wang，Yu Xiong，Xiaoxiao Li，Shuyang Sun，Wansen Feng，Ziwei Liu，Jianping Shi，Wanli Ouyang ，Chen Change Loy ，andDahua Lin.用于实例分段的混合任务级联。在CVPR，2019年。2[6] Qiang Chen ， Yingming Wang ， Tong Yang ， XiangyuZhang，Jian Cheng，and Jian Sun.你只看一个层次的功能。在CVPR，2021年。1[7] Yinpeng Chen，Xiyang Dai，Mengchen Liu，DongdongChen，Lu Yuan，and Zicheng Liu.动态卷积：卷积核的注意力。在CVPR，2020年。2[8] 作者：Alexander G. Schwing，and Alexander Kir- illov.每像素分类并不是语义分割所需的全部arXiv预印本arXiv：2107.06278，2021。三、七[9] Tianheng Cheng，Xinggang Wang，Lichao Huang，andWenyu Liu.边界保持掩码R-CNN。在ECCV，2020年。一、二[10] Bin Dong ， Fangao Zeng ， Tiancai Wang ， XiangyuZhang，and Yichen Wei.SOLQ：通过学习查询来分割对象在NeurIPS，2021年。2[11] 杜文涛，向智宇，陈淑雅，乔成宇，陈怡曼，白廷明.实时实例分割与判别方向图。ICCV，2021。五、六[12] 杨等人，Dense Reppoints：Representing Visual Objectswith Dense Point Sets。在ECCV，2020年。1[13] Yuxin Fang，Shusheng Yang，Xinggang Wang，Yu Li，Chen Fang，Ying Shan，Bin Feng，and Wenyu Liu.实例作为查询。ICCV，2021。3[14] Kaim i ngHe ， Geo r giaGkioxari ， PiotrDol la'r ，andRossB.娘娘腔。面罩R-CNN。InICCV，2017. 一、二、六[15] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。三、五[16] 何通，张志，张航，张中岳，谢军元，李慕.使用卷积神经网络进行图像分类的技巧包。arXiv预印本arXiv：1812.01187，2018。5[17] Jie Hu，Liujuan Cao，Yao Lu，Shengchuan Zhang，YanWang，Ke Li，Feiyue Huang，Ling Shao，and RongrongJi.ISTR：使用transformers的端到端实例分段。arXiv预印本arXiv：2105.00637，2021。24442[18] Zhaojin Huang ， Lich

下载后可阅读完整内容，剩余1页未读，立即下载