基于空间特征校正和时间融合的视频实例分割技术研究

33 浏览量更新于2024-01-22 收藏 1.74MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11215基于空间特征校正和时间融合的一级视频实例分割李明翰1，2，李帅1，2，李丽达1，张磊1，21香港理工大学、2阿里巴巴集团达摩liminghan0330@gmail.com，{csshuaili，cslli，cslzhang}@comp.polyu.edu.hk摘要现代单阶段视频实例分割网络受到两个限制。首先，卷积特征既不与锚框对齐，也不与地面实况边界框对齐，从而降低了掩码对空间位置的敏感性。第二，直接将视频分割为单独的帧进行帧级实例分割，忽略相邻帧之间的时间相关性。为了解决这些问题，我们提出了一个简单而有效的单阶段视频实例分割框架，即STMask。为了确保空间特征校准与地面实况边界框，我们首先预测回归边界框周围的地面实况边界框，并从中提取帧级实例分割的特征。为了进一步解释视频帧之间的时间相关性，我们聚集了一个时间融合模块来推断每个帧到其相邻帧的实例掩码在YouTube-VIS有效集上的实验表明，采用ResNet-50/-101主干的STMask获得了33.5% /36.8%掩模AP，同时在视频实例分割上实现28.6 /23.4FPS。该代码在https://github.com/MinghanLi/STMask上发布。1. 介绍视频实例分割的目标是获得视频的整个帧上的所有类别的各个实例的像素级分割掩模，其严重依赖于空间位置敏感特征以定位帧级对象和冗余时间信息以跨帧跟踪实例。现代视频对象分割方法是继对象检测和图像实例分割之后，采用自顶向下的方法通讯作者。本研究获香港研资局RIF基金（R5001-18）资助(a)（b）经校准的锚和特征(c)自适应特征（d）对齐特征图1.定位框和边界框的空间校准。（a）和（b）分别显示原始和校准的一级网络中的锚和特征(c)以及（d）展示从预测边界框提取的自适应和对齐特征。紫色、蓝色和绿色矩形分别表示锚点、预测和地面实况边界框，其中彩色区域表示其卷积特征的接收区域。首先逐帧检测和分割对象，然后跨帧链接实例掩码的框架。自顶向下的视频实例分割方法可以分为两阶段和一阶段的方法。通过向Mask R-CNN [18]添加跟踪分支，两阶段视频实例分割方法[43，2，16]首先预测地面实况边界框周围的感兴趣区域（ROI ），然后通过RoIPooling [32]或RoIAlign [18]提供对齐的特征，以分割帧级对象掩码并跟踪跨帧实例。为了获得更好的掩模预测器的位置敏感特征，近年来不断提出了许多RoI的空间特征校准策略，如可变形RoI [12]和混合任务级联[8]。对于时间信息探索，最近提出的MaskProp [2]利用从视频剪辑的所有帧传播的时间特征进行剪辑级实例跟踪。显然，两阶段方法已经认识到空间特征定位和时间特征跟踪对于视频实例的重要性11216细分单阶段实例分割网络[11，42，5，35，6，24，25]更注重实时速度，通常采用完全卷积网络结构来直接预测实例的最终掩码在没有用于定位的两阶段方法的ROI的情况下，早期的一阶段方法必须引入额外的位置敏感信息以改善分割性能，如位置敏感得分图[11]或语义特征[9]。在图像域中，最近提出的基于锚点的一阶段方法如Yolact [5]和CondInst [35]将实例分割分解为实例特定的掩码系数和实例独立的原型类型之间的线性组合。此外，SipMask [6]在Yolact[5]中引入了跟踪分支，实现了实时速度，但在视频实例分割任务中性能较差。分析这些基于锚点的一阶段实例分割方法，我们观察到，如图所示。如图1（a）所示，每个空间位置处的不同形状的多个锚点（紫色矩形）共享相同的卷积特征（黄色区域），这些特征既不与预定义的锚点框对齐，也不与地面实况边界框对齐。这一事实确实违背了实例分割是一个空间位置敏感的任务。另一方面，单阶段视频实例分割方法直接将视频划分为单独的帧以逐帧执行图像实例分割，然后跨帧跟踪它们，这完全忽略了相邻帧之间的高度时间相关性这可能无法处理那些具有运动模糊、部分遮挡或非常规对象到相机姿势的挑战性视频。换句话说，现代一级视频对象分割方法以丢弃空间特征校准和时间特征相关性为代价来实现实时速度为了解决这些问题，我们提出了一个简单而有效的单阶段视频实例分割框架，名为STMask。首先，我们设计了一个锚框和地面实况包围盒的特征校准策略，以获得更精确的空间特征。具体而言，如图所示。1（b），为了使每个锚盒都能提取自己的特定特征，我们首先在每个空间位置设计多个卷积为了提高对象分割和跟踪的特征表示，首先通过回归分支预测真实边界框周围的回归边界框，然后从中提取特征进行分割和跟踪。如图1（c）和（d），我们提供了两种策略，从回归边界提取特征ing框，包括自适应功能，由一个单一的1×1卷积层和对齐的特征，推导最后，我们通过增加一个时间融合模块来从相邻帧中推断实例掩码，从而提高视频帧之间的时间相关性。提高了对具有挑战性的视频的目标检测、分割和跟踪性能。2. 相关工作视频实例分割直接得益于图像实例分割和视频对象检测领域的进步。因此，本节由三部分组成。图像实例分割。现有的图像实例分割方法遵循自底向上或自顶向下的范例。自下而上的方法[9，36]广泛采用多个阶段，首先执行语义分割，然后通过边界检测[20]、像素聚类[25]或像素嵌入损失[30，22，31]、位置敏感池化[11，24]来识别每个实例的特定位置。自顶向下的实例分割方法首先通过对象检测器预测边界框，然后在预测框内执行掩码分割。Mask R-CNN [18]通过在每个感兴趣区域（RoI）上添加掩码分割分支来扩展Faster R-CNN [32后续工作试图通过对齐空间特征[12]、丰富FPN特征[28]或调整掩模的置信度分数与其定位准确性之间的不兼容性最近提出了一阶段实例分割方法[42，34，7，45，38，5，40，21]，以保持速度和性能之间的平衡。基于Yolact的方法[5，35，6]将实例分割分解为两个并行子任务：生成一组独立于实例的原型和预测特定于实例的掩码系数。视频对象检测。为了处理具有挑战性的视频，如运动模糊和遮挡，光流[46，39]，相关运算[15]，可变形卷积，概念网络[3，41]和关系网络[14，10]是跨帧传播或对齐特征的流行技术。此外，像[13，33]这样的方法试图利用帧之间的语义相似性来辅助视频中的对象检测。视频实例分割。为了同时联合执行检测，分割和跟踪任务，大多数视频实例分割方法通过添加新的跟踪分支来扩展Mask R-CNN [18 对于前-例如，MaskTrack R-CNN [43]为每个实例预测一个额外的嵌入向量，并使用外部存储器存储它们以进行跨帧跟踪。MaskProp [2]引入了掩码传播分支，以将帧级实例掩码从每个视频帧传播到视频剪辑中的所有其他帧，然后匹配剪辑级实例掩码以进行跟踪，从而提供最先进的实例分割性能和相当有限的速度。此外，我们认为，[26]提出了一种建立在Mask R-CNN [18]之上的修改的变分自动编码器（VAE）架构。最近，11217图2.STMask的概述架构，包括帧级实例分割（蓝色区域）和跨帧实例分割（黄色区域）。具体来说，我们首先使用Yolact进行空间校准，分别获得时间t-1和t的帧级实例掩码，然后将相邻两帧的FPN特征和相关操作的输出馈送到TemporalNet，以推断时间t-1到t的实例位移，最后合并帧级和跨帧实例掩码，以获得最终的实例掩码。SipMask [6]还在一级图像实例分割网络Yolact [5]中引入了跟踪分支（与[43]相同），以获得较差的性能但实时速度。此外，受Guided Anchor [38，23]的启发，SipMask进一步将特征与回归边界框对齐，以改进分类和掩码系数生成的特征表示。现有的空间特征校正的一步方法只关注特征和回归边界框之间的不对齐。3. STMask图2中所示的STMask的整体架构由具有空间校准的帧级实例分割和通过时间融合模块的跨帧实例分割组成。3.1. 空间校准我们的目标是将特征分别与锚点和地面实况边界框对齐，以用于单阶段实例分割方法。对于锚点上的空间特征校准，图1所示的多个卷积核3被引入以减轻特征和锚之间的不对准。对于边界框上的空间特征校准，如图2的粉红色矩形所示，我们首先独立地预测真实边界框周围的回归边界框，然后从这些回归边界框中提取特征以分类、分割和跟踪物体。3.1.1用于校准器的特性校准（FCA）单级锚点目标检测器通常对输入图像中的大量区域进行采样，确定这些区域是否包含感兴趣的目标，并调整区域的边缘，以便更准确地预测目标的地面实况边界框。一般来说，滑动窗口的方式来产生锚是最流行的方法，它产生多个框与不同的规模和纵横比，同时集中在每个像素。如图1（a）所示，对于具有不同-一级探测器直接采用3 ×3在锚的中心点上进行卷积以提取fea，图。在实践中，卷积的感受野应该与锚盒的大小呈正相关。例如，那些较大的锚盒应该具有较大的感受野，而那些较小的锚盒应该具有较小的感受野。因此，为了解决这个问题，我们在每个FPN层上采用具有不同纵横比的多个卷积核。为例如，我们用三个新的卷积的纵横比，分别为3×3，3×5，5×3，来代替单个3×3卷积。在边界框回归分支如图3所示。为了进一步确保卷积特征和锚点之间的校准，我们保持尺度不变，同时将锚点长宽比从[1，1/2，2]更改为[1，3/5，5/3]，这与卷积的长宽比锚点的简单特征校准保持了对象检测和分割的位置灵敏度112183 × 3高×宽× 4高×宽× 256高×宽× 2563 × 3 3 × 3高×宽× 4a约拉克特高×宽×256我们3 × 3高×宽×2563 ×55 × 3高×宽× 4高×宽× 4(a) 尺度不变的平移（b）尺度变换图4.从锚框到预测边界框的对齐特征的图示。其中，是位置pn∈ R上的偏移量，图3. 边界框回归架构。以回归分支为例，我们设计了多重卷积，网格上的一点（−1， −1）（−1，0）（−1，1）使用预定义的锚框校准特征，其中a= 3是锚的数量。R=（0，−1）（0，0）（0，1）（1，−1）（1， 0）（1， 1）（4）3.1.2边界框（FCB）的特征校准在最后一部分中使用锚点进行特征校准后，跟踪分支的分类特征、掩码系数和嵌入向量仍然不能与回归的边界框对齐。为了进一步解决这个问题，我们采用了预测架构，首先预测回归边界框，然后从回归边界框中提取特征来分割和跟踪对象。令{（Pi，G i）}i=1，.，N表示锚箱对和地面实况边界框注意下标i是只在必要时添加。P=（Px，Py，Pw，Ph）指定锚框的中心和宽度以及高度的像素坐标。这同样适用于地面实况边界框G=（Gx，Gy，Gw，Gh）。边界框回归旨在学习将一个锚框映射到其地面实况边界框的变换dd= [dx，dy，dw，d h]。（一）之后，可以通过应用变换[17]计算其回归边界框BiBX=PWDx+Px，By=PHDy+Py;B w= P wexp（d w），Bh= P hexp（d h）。（二）基于锚框和预测边界框之间的变换，我们可以引入2D可变形卷积来校准从锚框到预测边界框的卷积特征为了更容易理解-最后，以一个3×3的伸缩1卷积为例，详细说明了空间特征校正的过程，边界框对于输出地图g上的每个位置p0，2D可变形卷积可以公式化为为了从预测的边界框中提取卷积特征，偏移O应该由变换d支配。因此，本文提供了两种获得偏移的策略：添加单个1×1卷积层来预测自适应偏移，或者直接通过数学几何知识。边界框上的自适应功能。受锚点引导的特征自适应模块[38]的启发，我们还基于底层锚点变换来变换每个位置处的特征：O=NO（d），（ 5）其中NO是根据边界框回归变换d预测偏移的1×1卷积层。当预测的偏移O ∈R2×3×3被馈送到可变形卷积层以产生自适应特征如图1（c）中的蓝色点所示。对于这种回归依赖偏移，每个回归边界框可以学习其自己的自适应特征以执行进一步的对象分类、分割和跟踪。边界框上的对齐特征。对于方程中四个函数的回归变换d1，前两个指定锚盒中心的标度不变平移，而后两个指定对数空间trans-space。锚箱的宽度和高度。根据变换d的四个参数，生成偏移量的推导过程也可以分为两个步骤：尺度不变平移和尺度变换，分别如图4（a）和（b）所示。一方面，Fig。图4（a）示出了锚框的网格R上的所有采样点具有与图4（a）相同的尺度不变平移，中心点。另一方面，Fig.图4（b）示出了图4（b）上的宽度和高度的绝对比例变换网格R与它们自身的坐标位置有关总的来说，Σg（p0）=pn∈Rw（pn）·f（p0+pn +puppn），（3）网格上所有点的导出偏移应为O=（λy，λx）I+（λh，λw）R。（六11219）11220Corr××Corrx y whw ww h hh′′其中，I是所有元素为1、x、y、h的矩阵，以下列出了这些问题x=kw dx，y=k hdy，（八）其中k=（kw，kh）是宽度和高度上的核大小。由于篇幅所限，在补充资料中给出了详细的公式推导过程。实际上，这一部分中偏移量的数学推导相当于两级网络中RoIAlign操作的特殊情况，其中每个bin仅将中心点作为其输出值。3.2. 时间融合模块与图像实例检测和分割相比，视频实例分割面临着更多的挑战，如部分遮挡、异常视点、运动模糊等为了解决这个问题，因此，我们进一步建立了跨帧边界盒回归和掩模分割的时间融合模块。图2的黄色区域示出了两个相邻帧之间的时间融合模块的示意图，其将两个相邻帧之间的FPN的特征连接起来以推断从前一帧到当前帧的实例的位移，从而获得从前一帧到当前帧的跨帧实例掩码之后，我们只需要合并帧级检测的实例掩码和跨帧跟踪的实例掩码，以获得最终的实例掩码。这种双重保证的结构确实提高了视频域检测和分割的准确性。掩码系数Ct−1，t和从时间t−1到t的情况的边界框Bt−1，t。受视频对象去中心化中在检测任务[15]中，STMask的时间融合模块应该包括边界框回归器和掩码系数预测器。具体来说，如图中2、首先对FPN进行相关运算，xt−1∈RH′×W′×f和xt∈RH′×W′×f的特征，用于嵌入实例的运动信息，记为xt−1，t∈′′2RHWd，其中d是局部正方形的边长。然后，将特征的级联{xt-1，xt，xt-1，t}传输到时间网络，如图5所示，以推断从时间t-1到t的实例的边界框dt-1，t和掩码系数kCt-1，t的位移，其中dt−1，t={dt−1，t，dt−1，t，dt−1，t，dt−1，t}。（十）因此，从时间t-1到t的跨帧边界框Bt-1，t可以用公式表示为：Bt−1，t=Bt−1dt−1，t+Bt−1，Bt−1，t=Bt−1dt −1，t+Bt−1，帧级实例分割。与Yolactx x x x y喜又喜（十一）[5]，STMask将实例分割分解为实例独立的原型类型P∈RH×W×k和特定于实例的掩码系数Bt−1，t=Bt−1exp（dt−1，t），Bt−1，t=Bt−1exp（dt−1，t）。（十二）C∈Rk×n. 从本质上讲，学习亲的过程-其中，预测边界框坐标Bt-1用作锚另一方面，由于totypes P等价于学习在线基集，也称为字典[29]，当每个实例i都可以从原型中找到“几个”原子的线性组合Ci∈Rk×1时H′×W′相邻帧之间的原型，不同帧上的每个实例的掩码系数也应该彼此之间基于t-1中的掩码系数Ct-1这是. 的1帧时，跨帧掩码系数Ct-1，t被推断每个实例分割都可以有效使用单个矩阵乘法和激活函数（sigmoid函数σ）：M i= Crop（σ（PC i），B i）。（九）其中最终掩模Mi也被预测的边界框Bi裁剪。跨帧实例分割。给定来自视频V ∈RH×W×V的一对帧It−1，It，所提出的时间融合模块的目标是从时间t−1到t跟踪这些对象掩模，记为Mt−1，t。由于原型是实例独立的，根据方程。（9）、时间融合模块直观地需要预测图5. 临时网络架构。11221从时间t-1到t可以通过以下方式获得：Ct −1，t=Ct −1 +<$Ct −1，t。（十三）最后，实例掩码Mt−1，t从时间t−1推断可以通过以下方式进行：M t−1，t= Crop（σ（P t C t−1，t），B t−1，t）.（十四）合并帧级和跨帧实例分段。我们将视频级实例ID的集合表示为Y，其是递增地构建的，并且Nt是由帧级实例片段a预测的实例Eq的。（9）在时间t。一开始，我们分配ID11222我我我我IJ我Y−Y Yt我M=M MJY={1，. . . .，N1}中的所有帧级对象分割。对于以下视频帧，我们首先执行等式（1）的帧级实例分割（9）预测帧级实例掩码Mt，然后执行等式（1）的时间融合模块（14）推断从时间t-1到t的跨帧实例掩码Mt-1，t。显然，跨帧实例掩码Mt-1，t自然地给出与Mt−1相同的嵌入向量Et−1和相同的实例ID。因此，帧级掩码Mt和跨帧掩码Mt-1，t之间的匹配分数由两个分量组成：嵌入vec的余弦相似性tors和mask IoU：Et· Et−1st=αi j+βMIoU（Mt，Mt−1，t）（15）ijEtEt−1ij其中i ∈ {1，. . . N t}，j ∈ Y，α，β是平衡各组分作用的超参数. 为每个学习速度在66K和133K。在四台NVIDIA 2080 Ti上进行培训需要1-2天。推理。给定一幅输入图像，我们将其通过帧级网络进行转发，以获得包括分类分数、边界框、嵌入向量、掩码系数和原型在内的输出。使用阈值为0.5的基于框的非最大值抑制（NMS）来去除重复检测，然后使用前然后，通过时域融合模块对前一帧和当前帧的特征进行融合，首先推断出前一帧到当前帧的掩码，然后对当前帧的帧级掩码进行ID分类，并对缺失的掩码进行补充。在时间融合模块中，我们取超参数α=1，β= 14.1. 设计选择帧级实例掩码Mt，令st= maxj∈Yst是在本节中，我们讨论了空间的设计选择，伊日所有实例ID j ∈ Y中的最大得分。如果st大于某个阈值，则帧级实例掩码Mt将被分配具有最高分数的实例ID。否则，它将被视为一个新实例，并将被分配一个实例ID |Y|+1。总的来说，帧级实例掩码Mt将通过以下方式被分配实例ID：.校准和时间融合模块为我们提出的单阶段视频实例分割框架STMask。与MaskTrack R-CNN [43]类似，我们通过添加跟踪分支来扩展Yolact[5]，以预测用于跟踪的嵌入向量。对于这一部分，我们采用具有可变形卷积层（间隔=3）的ResNet101作为Yolact [5]的主干。请注意，所有实验均不包括其他实验。yt=arg maxj∈Ys t，如果Si>Si，|+1，否则。|+1,otherwise.（十六）Yolact++的改进[4]，例如更多的锚点和语义分割丢失。FCA的设计选择我们的基线Yolact [5]具有We表示Yt={yt|i∈{1，. . . Nt}}作为包括时间t处的所有帧级实例ID的集合。如果有实例未出现在帧级实例ID集合Yt中但出现在跨帧实例ID集合Y中的实例ID，换句话说，Y− YYt，三个锚钉，纵横比[1，1/2，2]和3×3预测头中的卷积如表1所示（第1行），在掩模AP中达到28.9%。加入FCA策略后，设置较小卷积的宽高比{3×3，3×2，2×3}仍然带来1%掩模AP的增益，设置较大卷积的宽高比这些跨帧实例掩码Mt-1，t会很柔软{3×3，3×5，5×3}带来了显著的改善，作为t帧中缺失的实例。最后，第t帧中所有实例的合并掩码应为1.9%掩蔽AP。请注意，为了公平比较，我们将内核大小接近3×3，以确保性能增益确实来自锚点上的特征校准，<$tt−1，tY−Y Yt4. 实验结果.（十七）更大的感受野。对于下面的所有实验，我们默认选择后一种设置。FCB的设计选择分析回归边界框（FCB）的特征校准对训练我们使用标准指标在YouTube-VIS [43]数据集上进行视频实例分割实验。在训练中，YouTube-VIS训练集被分成两个子集：train-sub和valid-sub集。一个用于训练，另一个用作训练期间的有效集我们在成对的帧上训练所有模型，其中一对中的第二帧是随机选择的，时间间隔δ∈[-5，5]相对于第一帧，使用预训练的模型，MS COCO 数据集 [27] 。与 MaskTrack R-CNN[43] 类似，我们使用360×640的输入大小进行训练。所有模型都使用批量大小16进行160k次迭代训练，并将分类、掩码系数和跟踪分支的嵌入向量，讨论了它们在预测头上的可能组合。如表2所示，我们的FCA基线（第1行）实现了30.8%的掩模AP。总体而言，在预测头的分支之间的所有可能组合上添加具有自适应和对齐特征策略的FCB的所有实验此外，所有的实验与对齐的特征校准是相对较低的自适应功能，因为后者可能比前者更适应。默认情况下，FCB（ada）11223表1. YouTube-VIS上FCA的设计选择有效集。宽高比AP AP50 AP75 APS APM APL表4. YouTube-VIS上的消融研究有效：逐步将不同组件整合到基线中。表2. 具有自适应和对齐feaCCC/34.453.034.628.3YouTube-VIS上的tures有效设置。CC/C33.151.435.226.7基线+FCA +类+掩码+轨迹 AP（ada）AP（ali）CCC/C36.856.838.023.4C30.8CC/CC36.355.239.922.1C C C32.533.1表3. 时域融合模块的设计选择。层DAPAP50AP75AR1AR10P31333.851.335.832.139.6P41135.053.038.732.840.1和FCB（ali）表示在所有三个分支上具有自适应特征的FCB，以及分别在掩模系数和跟踪分支上具有对准特征的FCB。时域融合模块的设计选择。我们首先在不同的FPN层和局部正方形的边长上进行相关操作的实验。如表3所示，边长为11的P4 FPN层获得了时间融合模块的更好性能。4.2. 消融研究我们使用Yolact和ResNet 101-DCN主干[4]作为基线，在YouTube-VIS有效集上进行消融研究。为了公平比较，所有实验的基线采用三个锚点，并且不包括语义分割损失。表4显示了逐步整合我们的不同组件的影响：使用锚框的特征校准（FCA），使用锚框的自适应/对齐特征校准（FCB）以及时间融合模块（TF）到基线。这四个组件将分割性能逐步此外，为了更好地探索每个单一成分对面罩分割的单独改善，我们还进行了将不同成分单独添加到表5所示基线的实验，其中FCA、FCB（ada）、FCB（ali）和TF成分分别贡献了1.9%、2.3%、2.4%和5.2%的面罩AP增益。在这些组件中，FCB（ADA）和TF提供了最大的改善，在基线的准确性。这些结果表明，我们的每一个组件单独有助于提高最终性能。我们还在COCO数据集上对STMask进行了更多的消融研究，以验证空间特征表5. YouTube-VIS上的消融研究有效：将不同组件单独整合到基线中。方法Impro. APAP50AP75APS APM APL基线-28.945.830.19.826.940.3+ FCA+1.930.849.831.011.829.744.6+ FCB（ada）+2.331.252.131.211.132.843.6+ FCB（ali）+2.431.350.032.810.331.743.3+ TF+5.234.151.936.011.430.346.5图像实例分割任务的校准，补充材料中提供。4.3. 掩模结果我们将建议的STMask与YouTube-VIS有效集上的最新技术进行了结果示于表6中。ResNet50主干被竞争方法使用速度是在单个2080Ti GPU上计算的。从表6中，我们可以看到，在现有的快速视频对象分割（VOS）方法中，具有“检测跟踪”的OSMN [44]使用 ResNet 50 和 ResNet 101 主干的 Bottom-up 方法STEm-Seg达到30.6%和34.6%掩盖AP。最近引入的两阶段方法MaskTrackR-CNN [43]和MaskProp [2]获得了30.3%和40.0的掩模AP分数%。然而，MaskProp需要一个视频剪辑（超过13帧）来处理图像，导致速度非常慢对于使用 ResNet50Backbone的一阶段方法，SipMask [6]和我们提出的STMask获得32.5%和33.5%掩蔽AP，速度分别为30.0和28.6 FPS。此外，具有ResNet 101- DCN主干的STMask在自适应和对齐FCB设置上分别实现了36.8%和36.3%的掩码AP，而没有任何其他额外的技巧。虽然STMask的掩码AP比MaskProp相对较低，但它确实在精度和速度之间实现了更好的权衡。图图6和图7在具有小对象、遮挡和不常见的摄像机到对象视图的挑战性视频上可视化了我们的STMask的实例分割掩模。我们可以看到，与帧级实例分割相比，时间融合模块确实可以减少跨帧的漏检（3）（3）（4）（5）（5）（6）（7）（8）（9）（9）（10）（1028.945.830.19.826.940.3基线+FCA +FCB +TFAPAP50 AP75FPSCCCC33.731.7CCC34.431.7CCC34.332.411224表6. YouTube-VIS有效集的定量性能比较，其中a，b，c和d分别指语义分割，高分辨率掩码细化，时间信息和多尺度训练。类型方法主干框架框架其他FPS AP AP50 AP75AR1AR10OSMN [44]公司简介33--27.545.129.128.633.1[37]第三十七话公司简介33--26.942.029.729.933.4基线STEM分段[1]公司简介----30.650.733.531.637.1STEM分段[1]R101-FPN---2.134.655.837.934.441.6[43]第四十三话公司简介23-18.430.351.132.631.035.5方法 MaskProp [2]公司简介133b、c、d-40.0-42.9--MaskProp [2]R101-FPN133b、c、d-42.5-45.6--SipMask++[6]R50-DCN2--30.032.553.033.333.538.9单阶段SipMask++[6]R101-DCN2--27.835.056.135.236.041.2方法 STMask（ada）R50-DCN29C28.633.552.136.931.139.2STMask（ada）R101-DCN23C23.436.856.838.034.841.8STMask（ali）R101-DCN23C22.136.355.239.933.742.0图6. 分割视觉比较两个视频与小对象和闭塞。前两行分别显示了MaskTrack R-CNN [43]产生的原始帧和实例掩码，而最后两行分别是我们的STMask仅使用空间校准以及同时使用空间校准和时间融合模块获得的结果5. 结论我们观察到，单阶段实例分割方法低估了视频帧之间的空间特征校准和时间冗余信息对视频实例分割的重要性。为了解决这个问题，我们首先提出了一个简单的空间特征校准检测和分割对象掩模逐帧，并进一步引入了一个时间融合模块，以跟踪跨视频帧的立场，以有效地减少错过的立场对具有挑战性的视频，如运动模糊，部分闭塞和不寻常的对象相机姿势。总体而言，在YouTube-VIS有效集上，我们提出的具有ResNet- 50/-101主干的STMask获得了33.5% /36.8%的掩码AP，同时在视频实例分割上实现了28.6 / 23.4FPS，这确实保持了准确性和速度之间的平衡。图7. 视频上的分割视觉比较，常见的相机到对象视图。11225引用[1] 阿里·阿萨，萨巴里纳特·马哈德万，阿尔乔萨·奥塞普，劳拉·莱尔-塔克斯和巴斯蒂安·莱贝。Stem-se g：用于视频中的实例分割的时空嵌入欧洲计算机视觉会议，第158-177页。施普林格，2020年。8[2] 盖达斯·贝塔修斯和洛伦佐·托雷萨尼分类，分割，跟踪视频中的对象实例与掩模传播。在IEEE Conf.目视模式识别，第9739-9748页，2020年。一、二、七、八[3] Gedas Bertasius，Lorenzo Torresani，and Jianbo Shi.基于时空采样网络的视频目标检测在Eur. Conf. Comput. 目视，第3312[4] Daniel Bolya，Chong Zhou，Fanyi Xiao，and Yong JaeLee. Yolact++：更好的实时实例分割。arXiv预印本arXiv：1912.06218，2019。六、七[5] Daniel Bolya，Chong Zhou，Fanyi Xiao，and Yong JaeLee. Yolact：实时实例分割。在国际会议上算-算。目视，第9157-9166页，2019年。二、三、五、六[6] 曹佳乐、拉奥·穆罕默德·安瓦尔、希沙姆·乔拉卡尔、法哈德·沙赫巴兹·汗、庞燕伟和邵令。SipMask：空间信息保存，用于快速图像和视频实例分割。arXiv预印本arXiv：2007.14772，2020。二、三、七、八[7] 陈昊，孙昆阳，田智，沈春华，黄永明，严友良.BlendMask：自上而下与自下而上相结合，用于实例分割。在IEEE Conf.Comput. 目视模式识别，第85732[8] 陈凯，庞江淼，王佳琪，熊宇，李晓晓晓，孙树阳，冯万森，刘紫薇，石建平，欧阳万里，等.混合任务级联实例分割. 在IEEE Conf. Comput. 目视模式识别，第49741[9] Liang-Chieh Chen，Alexander Hermans，George Papan-dreou，Florian Schroff，Peng Wang，and Hartwig Adam.MaskLab：通过语义和方向特征细化对象检测进行实例分割。在IEEE Conf.Comput. 目视模式识别，第40132[10] Yihong Chen，Yue Cao，Han Hu，and Liwei Wang.用于视频对象检测的记忆增强全局-局部聚合。在IEEE Conf.目视模式识别，第10337-10346页，2020年。2[11] 戴继峰，何开明，孙健。通过多任务网络级联的实例感知语义分割。在IEEE Conf.目视模式识别第31502[12] 戴继丰、齐浩之、宇文雄、李毅、张国栋、韩虎、魏一晨。可变形卷积网络。在国际会议计算中。目视，第764-773页，2017年。一、二[13] 邓汉明，杨华，宋涛，张宗璞，薛振贵，马如辉，尼尔·罗伯逊，关海兵用于视频对象检测的对象引导外部存储器网络在国际会议计算中。目视，第6678-6687页，2019年。2[14] Jiajun Deng，Yingwei Pan，Ting Yao，Wengang Zhou，Houqiang Li，and Tao Mei.关系蒸馏网络用于视频对象检测。在国际会议计算中。目视，第7023-7032页，2019年。2[15] ChristophFeichtenhofer，AxelPinz和AndrewZisserman 。侦查到跟踪，跟踪到侦查。InInt. Conf.Comput. 目视，第3038-3046页，2017年。第二、五条[16] 冯倩玉，杨宗欣，李培科，魏云超，杨毅。用于视频实例分割的双嵌入学习。在国际会议计算中。目视Worksh. ，第0-0页，2019年。1[17] Ross Girshick ， Jeff Donahue ， Trevor Darrell ， andJitendra Malik.丰富的特征层次结构，用于精确的对象检测和语义分割。在IEEE Conf. Comput. 目视帕特-特恩·博格。第580-587页，2014年。4[18] 凯明赫，吉奥吉亚·吉奥萨里，彼得·多尔和罗斯·吉尔希克。屏蔽R-CNN。 In Int. Conf. Comput. 目视，第2961一、二[19] 黄兆金，黄立超，龚永超，黄昌，王兴刚掩模评分R-CNN。在IEEE Conf.目视模式识别，第6409-6418页2[20] 亚历山大·基里洛夫、叶夫根尼·列温科夫、比约恩·安德烈斯、博格丹 · 萨夫钦斯基和卡斯滕 · 罗瑟。InstanceCut：从边到多切割实例在IEEE Conf. Comput.目视模式识别，第5008-5017页2[21] 亚历山大·基里洛夫，吴宇新，何开明，罗斯·吉尔希克。PointRend：图像分割作为渲染。在IEEE Conf.目视模式识别，第9799-9808页2[22] Shu Kong和Charless C Fowlkes。循环像素嵌入，用于实例分组. 在IEEE Conf. Comput. 目视帕特-特恩·博格。，第9018-9028页，2018年。2[23] Shuai Li，Lingxiao Yang，Jianqiang Hua，Xian-ShengHua，and Lei Zhang. 用于单镜头目标检测的动态锚点特征选择。在IEEE/CVF计算机视觉国际会议论文集，第6609-6618页，2019年。3[24] 李毅、齐昊之、戴季风、季向阳、魏亦辰完全卷积的实例感知语义分割。在IEEE Conf.目视模式识别第2359-2367页2[25] 梁晓丹，林亮，魏运超，沈晓辉，杨建超，严水城。用于实例级对象分割的无建议网络。IEEE传输模式分析马赫内特尔，40（12）：2978-2991，2017. 2[26] Chung-Ching Lin ， Ying Hung ， Rogerio Feris ， andLinglin He.基于改进的FPGA架构的视频实例分割跟踪。在IEEE Conf. Comput. 目视模式识别，第13147-13157页，2020。2[27] 林宗义，迈克尔·梅尔，塞尔日·贝隆吉，詹姆斯·海斯，彼得罗·佩罗纳，德瓦·拉马南，彼得·多尔·拉尔和C·L·劳伦斯·齐特尼克。Microsoft COCO：上下文中的通用对象。在 Eur. 确认补偿目视第 740-755 页。 Springer ，2014.6[28] 刘舒，陆奇，秦海防，石建平，贾佳雅。用于实例分段的路径聚合网络在IEEE Conf.目视模式识别，第8759-8768页211226[29] Julien Mairal，Francis Bach，Jean Ponce，and GuillermoSapiro.稀疏编码的在线字典学习。第689-696页，2009年。5[30] Davy Neven ，Bert De Brabandere，Marc Proesmans，and Luc Van Gool.通过联合优化空间嵌入和聚类带宽的实例分割。在IEEE Conf. Comput. 目视模式识别，第88372[31] Alejandro Newell，Zhiao Huang，and Jia Deng.关联嵌入：用于联合检测和分组的端到端学习。在高级神经信息过程系统第2277- 2287页2[32] 任少卿，何开明， Ross Girshick ，孙健。 Faster R-CNN： Towards Real-time Object Detection with RegionProposal Networks. 在高级神经信息过程系统，第91-99页，2015年。一、二[33] Mykhailo Shvets，Wei Liu，and Alexander C Berg.杠杆老化视频对象检测的建议之间的长距离时间关系。在国际会议计算中。目视，第9756-9764页，2019年。2[34] 康斯坦丁·索菲尤克，奥尔加

下载后可阅读完整内容，剩余1页未读，立即下载