动态定位网络实现视频对象分割

183 浏览量更新于2023-10-12 收藏 28.41MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10 -110 010 1556065707580859055820通过动态定位网络实现快速视频对象分割0Lu Zhang 1，Zhe Lin 2，Jianming Zhang 2，Huchuan Lu 1�，You He 301 中国大连理工大学 2美国Adobe研究部 3 中国海军航空大学0luzhang dut@mail.dlut.edu.cn，{zlin，jianmzha}@adobe.com，lhchuan@dlut.edu.cn，heyou f@126.com0摘要0我们提出了一种用于快速准确的视频对象分割的新模型。它由两个卷积神经网络组成，即动态定位网络（DTN）和掩码细化网络（MRN）。DTN通过动态聚焦在目标对象周围的感兴趣区域来定位对象。通过DTN的两个子流，即框传播（BP）和框重新识别（BR），预测出目标区域。BP流速度更快，但在具有大变形或遮挡的对象上效果较差。BR流在困难场景中的性能更好，但计算成本更高。我们提出了一个决策模块（DM），以自适应地确定每帧使用哪个子流。最后，利用MRN在目标区域内预测分割。在两个公共数据集上的实验结果表明，所提出的模型在准确性和效率方面明显优于没有在线训练的现有方法，并且在准确性上与基于在线训练的方法相当，速度快了一个数量级。01. 引言视频目标分割（VOS）旨在跨视频帧分割目标对象。由于对象的运动、遮挡和变形，这是一项具有挑战性的任务。给定具有掩码注释的第一帧，我们的任务是在随后的视频帧中跟踪特定对象，这被称为半监督VOS。最近，半监督VOS在卷积神经网络（CNN）的进展下取得了令人印象深刻的进展。精确的对象分割能够促进各种应用的性能，例如视频对象跟踪、监视和交互式视频编辑。除了对高准确性的需求外，算法的处理效率在时间关键应用中也是必需的。为了实现良好的模型，0�通讯作者0FPS0mIoU（%）0OnAVOS0OSVOS0PLM0DyeNet0SegFlow0CRN0BVS0VPN0RGMP0TrackPart0OSMN0我们的0图1：在DAVIS2016数据集上与最先进方法的比较结果，以JMean（mIoU）和运行时间（fps）为指标。0现有基于CNN的方法通常进行在线训练，即在给定测试视频的第一帧上对预训练模型进行微调。在线训练对于提高模型对目标对象外观变化的泛化能力是有效的。然而，它会导致显著的计算开销，从而限制了现有VOS模型在时间关键场景中的应用。一些最近的工作[23, 2, 3,5]将目标重新识别和实例分割的优点结合起来进行视频对象分割。通常，当前帧中的目标RoI通过将候选框与第一帧中的注释对象进行匹配来重新识别。然后，在所选的RoI内进一步分割出掩码。这种目标重新识别机制在处理对象遮挡或漂移方面显示出有希望的效果。然而，数百个候选之间的匹配过程往往带来很大的计算成本，从而限制了其在实时应用中的使用。在这项工作中，我们提出了一种用于快速准确的视频对象分割的新模型。我们的模型由两个共享骨干的子网络组成，即动态定位网络（DTN）和掩码细化网络（MRN）。具体而言，我们首先利用DTN自动缩放到目标对象的潜在区域。55830然后，MRN用于以粗到细的方式在目标区域内预测准确的分割掩码。动态定位网络包含两个子流，框传播（BP）流和框重新识别（BR）流，用于从不同角度生成目标RoI。在BP流中，我们利用光流[16]通过时间连续性高效地传播相邻帧之间的框坐标。尽管处理速度快，但BP在处理遮挡或大变形的对象方面能力有限。为此，我们提出了BR流，在其中通过条件区域建议网络（CRPN）生成的一组候选对象中重新识别目标框。与BP相比，BR更慢，但对于复杂场景更稳健。为了在分割准确性和计算效率之间取得平衡，我们进一步提出了一个可切换的架构，以自动选择每个传入视频帧的子流。具体而言，我们首先使用决策模块（DM）为每个帧生成一个置信度分数，该分数反映了BP流是否能够生成正确的框。置信度分数高于固定阈值的帧可以通过BP流进行目标框生成，反之亦然。通过调整置信度分数的值，DTN可以灵活地在准确性和效率之间实现各种权衡。给定潜在的目标区域，然后利用掩码细化网络生成相应的分割掩码。我们首先使用RoI Align[11]提取目标RoI的多级特征。最后一帧中的对象掩码通过光流进行变形，作为先验引导。然后，我们以粗到细的方式对其进行改进，生成当前的目标掩码。为了验证所提出模型的有效性，我们在DAVIS数据集[29,30]上进行了包括整体比较和消融研究在内的实验证明。结果表明，所提出的模型在没有在线学习的情况下明显优于现有方法，并且与基于在线训练的方法相当。我们的贡献可以总结如下：0•我们提出了一种通过无缝集成目标RoI生成和分割掩码预测的新方法，用于视频对象分割。0•我们提出了一种新颖的决策模块，动态地将帧分配给两个子流网络（框重新识别和框传播），以实现准确性和效率之间的平衡/优先级。0•我们进行了实验证明，表明我们的模型在没有在线学习的情况下明显优于现有方法，并且在速度上与基于在线训练的方法相当。02. 相关工作无监督视频对象分割。无监督视频对象分割（Un-VOS）模型专注于在整个视频中分割前景对象，而无需任何手动注释。以往的方法通常利用视觉显著性[33, 15]或运动线索[19,23, 18,22]获取突出对象的先验信息。最近，一些基于CNN的方法[23,4]通过使用丰富的特征和大型训练数据集展现了令人印象深刻的性能。然而，由于运动对前景对象的模糊定义，无法将Un-VOS方法应用于分割特定对象。半监督视频对象分割。半监督视频对象分割（Semi-VOS）旨在在第一帧中分割用户指定的对象。受到CNN在图像分割[8, 7, 6, 40,39]上的成功应用的启发，许多基于深度学习的方法已被提出用于半监督视频对象分割，并展现了令人印象深刻的性能。这些方法可以分为两类：基于传播和基于检测。基于传播的方法[17, 14, 34, 28, 1,26]利用深度网络隐式建模运动信息，并从第一个注释开始逐帧传播分割结果。例如，[17]提出了一个统一的框架，通过时间双边网络和空间细化网络自适应地传播整个视频中的结构信息。在[14]中，胡等人提出了一个循环网络，同时传播来自先前输出的掩码和边界框。Perazzi等人[28]构建了一个MaskTrack模型，其中结果基于当前帧和先前掩码计算。连续的离线训练和在线微调提升了网络的性能。最近的一项工作[34]提出了一个连体网络，利用先前和第一帧的标记引导进行掩码传播。Semi-VOS中的另一类是基于检测的方法，它们利用参考帧作为目标，在每一帧中检测对象掩码。[2]提出了一种一次性在线学习策略，其中预训练网络通过第一个注释的帧进行微调，用于每个测试视频。在[31]中，尹等人使用多级CNN特征计算测试帧和参考帧之间的像素级相似性。一些方法提出利用初始和先前帧提供更可靠的参考。杨等人[35]提出了使用参考注释和来自上一帧的空间先验自动调节网络。在[3]中，程等人利用跟踪器和RoI分割网络定位和分割对象的部分区域，进一步融合生成最终分割结果。李等人[23]提出了一种模型，用于联合重新识别对象并沿整个视频进行时间传播。在本文中，我们提出了一个55840图2：我们提出方法的概述。我们的模型包含两个子网络，动态目标网络（DTN）和掩膜细化网络（MRN）。对于第i帧，我们首先利用Resnet50[12]提取多层级特征。然后，DTN自动生成一个潜在的前景RoI，MRN进一步处理该RoI以获得目标掩膜。DTN由更快的框传播（BP）流和更准确但更慢的框重新识别（BR）流组成。我们使用决策模块（DM）来计算置信度分数，将帧分配给不同的子流。MRN以上一帧的目标掩膜（通过光流变形）作为输入，并使用四个堆叠的掩膜细化模块对其进行改进。0快速准确的半监督视频目标分割的新模型，通过动态聚焦于目标周围的感兴趣区域来分割对象。动态网络。动态网络的核心思想是针对不同的图像区域或视频帧自适应地进行不同的处理。它可以加速处理速度同时保持良好的性能，并已应用于许多视频级任务[24, 37,36]。在[36]中，朱等人利用深度网络提取关键帧的特征，并通过快速流网络将其传播到附近的帧。在[24]中，李等人提出了一种自适应调度器用于关键帧选择，并使用空间变体卷积进行特征传播。徐等人[37]提出了一个决策网络，用于将不同区域分配给更快的流网络或更慢的分割网络。在本文中，我们提出了一个动态目标网络，其中不同的帧被分配给不同的子流，用于生成目标对象区域。3. 方法3.1.总体架构我们模型的总体架构如图2所示。它由两个子网络组成，动态目标网络（DTN）和掩膜细化网络（MRN）。我们使用共享的骨干网络为DTN和MRN生成通用特征。具体而言，由于其平衡的能力和效率，我们选择Resnet50[12]作为共享特征提取器。0平衡容量和效率。给定输入帧序列Ii∈{I1，...，IN}，我们使用Res2 x到Res5 x的最后输出构建多层级特征，表示为Fi ={fji}5j=2。然后，我们使用提出的DTN自动生成一个放大的RoI，该RoI可能包含在第一帧中指定的目标对象。DTN被设计为一个可切换的双流架构，包括框传播（BP）流和框重新识别（BR）流。BP利用相邻帧之间的时间一致性进行框传播。当处理具有大变形或遮挡的对象时，它更快但不太准确。而BR在这种困难情况下具有更好的性能，但由于繁重的框重新识别而较慢。为了平衡准确性和效率，我们提出了一个决策模块（DM），它学习预测置信度分数，以决定每个帧将通过哪个流。具体而言，置信度分数高于预定义阈值的帧将通过更快的BP流，反之亦然。一旦我们通过DTN获得当前帧中目标对象的RoI，我们使用MRN以粗到细的方式对RoI进行细化，以获得最终的分割掩膜。在接下来的章节中，我们将分别介绍DTN，MRN及其训练策略的详细信息。55850图3：动态目标网络（DTN）的框架。DTN有两个子流，即框传播（BP）和框重新识别（BR），用于生成目标RoI。BP利用光流从上一帧传播框，而BR提出了一个条件RPN（CRPN）用于框重新识别。决策模块用于计算将帧分配给不同流的置信度分数。具有大于阈值的置信度分数的帧将传递给BP，反之亦然。03.2. 动态目标网络0一些先前的工作利用视频跟踪[3,5]或目标重新识别[23]的进展，首先关注目标对象。他们已经证明这种方法对于提高目标定位和分割的准确性是有益的。上述两种方法各有优势。例如，跟踪器[3,5]具有更快的计算速度，但可能对于具有遮挡或快速运动的目标定位不稳定。检测器[23]在处理这些困难情况时更加稳健，但由于在数百个候选框之间进行重新识别而速度较慢。为了在准确性和效率之间取得平衡，我们提出了一个动态目标网络（DTN），其中帧被自适应地分配到不同的子流中生成目标RoI。我们的DTN具有一个决策模块（DM），其中包括边界框传播（BP）流和边界框重新识别（BR）流。BP是一个快速且轻量级的网络，利用光流[16]在相邻帧之间传播边界框。而BR是一个更计算密集的网络，其中目标框通过特征匹配从候选集中重新识别。对于当前输入 I i ，DTN的目标是生成与第一帧中的 K个注释对象匹配的 K 个目标RoI { T k i } K k =1。DTN的框架如图3所示。决策模块。最近的一项工作[37]提出将帧区域划分为不同的网络可以在速度和准确性之间取得良好的平衡。决策网络[37]被提出来确定帧中的简单区域是否使用更快的网络进行处理，而困难区域则被送入更精确但更慢的网络。受到[37]的启发，我们构建了一个类似的决策模块（DM），以确定更快的边界框传播流是否能够为当前帧生成令人信服的目标RoI。由于BP流利用光流进行边界框传播，我们在快速且性能良好的FlowNet2-S[16]上构建DM。具体而言，我们首先将当前帧 I i 和上一帧 I i− 1 输入到FlowNet2-S[16]中。我们的DM使用FlowNet2-S的Conv6层的特征作为输入。然后，我们利用一个平均池化层和两个全连接层来预测置信度分数 C i。置信度分数旨在指示基于光流的BP流是否能够为当前帧 I i生成适当的目标RoI。为了训练DM，我们定义了如下的真实置信度分数：0其中简单区域使用更快的网络进行处理，而困难区域则使用更精确但更慢的网络进行处理。受到[37]的启发，我们构建了一个类似的决策模块（DM），以确定更快的边界框传播流是否能够为当前帧生成令人信服的目标RoI。由于BP流利用光流进行边界框传播，我们在快速且性能良好的FlowNet2-S [16]上构建DM。具体而言，我们首先将当前帧 I i和上一帧 I i − 1 输入到FlowNet2-S[16]中。我们的DM使用FlowNet2-S的Conv6层的特征作为输入。然后，我们利用一个平均池化层和两个全连接层来预测置信度分数 C i。置信度分数旨在指示基于光流的BP流是否能够为当前帧 Ii生成适当的目标RoI。为了训练DM，我们定义了如下的真实置信度分数：0� C i = 10K0k = 1 M ( T k i , � T k i ) (1)0其中，� C i 是真实置信度分数。T k i是BP流预测的目标RoI，� T k i 是第 I i帧的真实目标RoI。M 表示 T k i 和 � T k i之间的交并比（IoU）的计算方法。DM使用均方误差（MSE）损失函数训练，用于预测置信度分数和相应的真实值之间的差异。在推理过程中，DM将预测的置信度分数与预定义的阈值 θ c 进行比较。如果大于 θ c，则将当前帧传递给BP流，以便从上一帧进行快速边界框传播。否则，将传递给BR流。图4显示了各个帧的置信度分数，验证了我们的DM能够自适应地确定每个帧的适当子流。边界框传播流。我们提出在相邻帧之间建立快速的边界框传播。光流[16]被用于捕捉两帧之间的目标运动。我们首先将当前帧 I i 和上一帧 I i − 1 输入到Flownet2-S[16]中生成它们的光流图 O i。注意，光流网络在决策模块和边界框传播流中共享。然后，根据光流图 O i，利用双线性插值操作将上一帧的预测二进制掩码 { Y k i −1 } K k =1 映射到 { Y k ( i − 1) → i } K k =1。最后，我们得到映射后掩码的边界框 { Y k ( j − i ) → j } Kk =1 ，并将它们作为当前帧 I i 的目标RoI { T k i } K k =1。边界框重新识别流。边界框传播流具有快速的计算速度。然而，光流的性能可能会受到目标遮挡、快速运动或大变形的影响。这会降低边界框传播流预测目标RoI的准确性。为了解决这个问题，我们还提出了一个边界框重新识别流，以更好地处理这些复杂的场景。重新识别过程旨在找出与第一帧中注释对象最匹配的候选框。之前的工作[23]利用区域建议网络进行特征匹配，实现了这一目标。0.980.840.700.540.800.670.970.9155860frm3 frm12 frm14 frm18 frm24 frm26 frm37 frm290图4：动态目标定位网络的视觉示例。我们展示了一些输入帧及其光流图。标记的值表示帧索引和决策模块预测的相应置信度分数。置信度分数较小的帧意味着框传播不太可信，它们将经过框重新识别流程。0工作(RPN)[11]生成一组候选框。然而，匹配过程是在数百个proposals之间进行的，非常耗时。为了解决这个问题，我们提出了一个条件RPN(CRPN)，其中当前帧中anchor的生成是基于上一帧的预测条件的。我们的CRPN和原始RPN的概要如图5所示。给定分辨率为h j × w j的特征图f j i，原始RPN[14]在每个位置提出了具有三种尺度和纵横比的anchor(见图5 (c))。这样大量的proposals (h i × w i ×9)会增加重新识别的计算成本。然而，在我们的CRPN中，区域、尺度和纵横比是基于上一帧的输出{ Y k i − 1 } K k=1计算的。具体而言，我们首先从上一个目标RoIs { T k i −1 } K k =1中获取中心坐标{l k i − 1 } K k =1，尺度{s k i −1 } K k =1和纵横比{ r k i − 1 } K k=1。通常情况下，对象的位置和形状在相邻帧之间不会发生很大变化。在当前特征图f j i中，anchor在以l k i −1为中心的3×3网格中预测(图5(b)中的灰色网格)。同时，当前尺度s k i和纵横比r ki定义为s k i = {( j ) × 0.5 s k i − 1} 3 j =1和r k i = {( j ) ×0.5 r k i − 1} 3 j=1。因此，我们CRPN中生成的anchor数量减少到9×9个目标对象。我们的CRPN可以大大加快框重新识别过程，并有助于去除噪声框以进行更好的重新识别。我们CRPN是在Res4 x之后构建的。在获得候选框{ B k,j i } N k j =1，k =1，..，K之后，我们通过计算匹配分数来将它们与目标对象进行比较，0S k j = D(f(B k,j i), f(T k 1)) + D(f(B k,j i), f(T k i − 1)) (2)0S k j是第j个候选框B k,ji的匹配分数。D表示L2距离度量。f(*)是边界框的特征向量，是由RoI Align [11]在Res4x上生成的特征图的平均池化。公式2表示匹配的候选框应该在第1帧和(i-1)帧中与目标对象具有较大的特征相似性。我们0图5：我们CRPN的实现细节。从左到右：(a)第(i-1)帧和目标RoI { T k i − 1 } K k=1，(b)-(c)我们CRPN和原始RPN的anchor生成。灰色网格表示anchor的位置。在我们的CRPN中，anchorboxes在最后一个目标RoI中心周围的3×3区域生成。此外，纵横比和尺度是基于最后一个目标RoI计算的。我们CRPN中的proposals数量是原始RPN中的9×9×K与h j × w j × 9 (K× 9 << h j × w j)。选择得分最高的候选作为当前帧中的目标RoIs { T k i } K k =1。3.3.Mask Re�nementNetwork使用DTN的目标RoIs，下一步是分割相应的目标掩码。我们提出了一个MaskRe�nement Network(MRN)，它利用多层特征以粗到细的方式增强细节。具体而言，我们使用Res2 x到Res5x的特征(表示为{ f j i } 5 j =2)进行掩码生成。对于第j层的特征，我们使用RoI Align[11]从目标RoIs { T k i } K k =1中提取特征图并将其调整为m j × m j。我们设置m j = M0对于每个特征层，j = 2，..., 5，我们使用2(j-2)个RoIAlign操作来满足不同层的特征分辨率。我们使用从最后一个输出中的扭曲掩膜{ Y k ( i − 1) → i } K k =1作为先验图来引导当前帧的掩膜分割，具体方法如下：0其中，f j ( T k i ) 是第 j 层的RoI特征，f M j +1 ( T k i )表示最后一个MRM的输出。Up()是步长为2的上采样操作。Conv 2 ()表示两个卷积层，卷积核大小为3×3。然后我们利用以下方法：55870表1：在DAVIS-2016验证数据集上与现有方法的整体比较。我们使用“�”表示该方法是否使用在线微调（OF）或后处理（PP）。0方法 OF PP J 平均 F 平均时间0OnAVOS [32] � � 86.1 84.9 13s OSVOS [2] � � 79.8 80.6 9sDyeNet [23] � 86.2 - 2.3s PLM [31] � � 70.0 62.0 0.3sSegFlow [4] � 74.8 74.5 7.9s MaskRNN [14] � 80.7 80.9 -Lucid [20] � � 84.8 82.3 40s MoNet [35] � � 84.9 84.8 14.4sCRN [13] � 84.4 85.7 0.73s0BVS [27] 60.0 58.8 0.37s VPN [17] 70.2 65.5 0.63s RGMP[34] 81.5 82.0 0.13s TrackPart [3] � 77.9 76.0 0.6s OSMN[38] 74.0 72.9 0.14s 我们的方法 83.7 83.5 0.07s0扭曲的目标掩膜Y k ( i − 1) →i（参见第3.2节中的框传播流）作为当前帧的掩膜分割的先验。具体方法如下：0f M j ( T k i ) = Conv 2 ( f U j ( T k i )) ⊙ Y k ( i − 1) → i + f U j ( T k i ) (4)0f M j ( T k i ) 是第 j 个MRM的输出特征图，⊙表示逐元素乘法。注意，扭曲的目标掩膜Y k ( i − 1) → i应该调整大小以适应当前特征f M j ( T k i )的分辨率。通过堆叠四个MRM，深层特征逐渐与浅层特征聚合（即从Res5 x到Res2 x）。为了获得当前目标RoIs { Tk i } K k =1 的目标掩膜{ Y k i } K k =1，我们将最后一个MRM的输出馈入一个带有sigmoid激活函数的3×3卷积层。03.4. 训练和推断0实现细节。我们使用Resnet50 [12]作为骨干网络，Flownet2-S[16]用于光流计算。对于动态目标网络中的决策模块（参见第3.2节），我们将阈值θ c设置为0.83以平衡准确性和效率。DM中两个全连接层的通道大小分别设置为256和1。在盒子重新识别流中，使用Res4x的特征进行CRPN的盒子分类和回归。对于特征匹配，我们使用RoI Align[11]为每个候选框B k,j i 生成7×7的特征图。在掩膜细化网络中，通过RoIAlign得到的特征大小设置为m j = 1120对于每个特征层，j = 2，..., 5，我们使用2(j-2)个RoIAlign操作来满足不同层的特征分辨率。掩膜细化模块中卷积层的通道数设置为256。训练。我们的模型的整体损失定义如下：0表2：在DAVIS-2017验证数据集上与现有方法的整体比较。0方法 OF PP J 平均 F 平均 G0OnAVOS [32] � � 61.6 69.1 65.4 OSVOS [2] � � 56.6 63.9 60.3MaskRNN [14] � 60.5 - -0RGMP [34] 64.8 68.6 66.7 TrackPart [3] � 54.6 61.8 58.2OSMN [38] 52.5 57.1 54.8 我们的方法 64.2 70.6 67.40如下所示：L = L DM + L CRP N + L MRN (5)0其中，L DM 是预测的置信度得分C i 与真实置信度得分� C i之间的均方误差损失，定义如公式1所示。L CRP N是边界框分类和回归损失，与[11]中的定义相同。L MRN表示预测的掩膜{ Y k i } K k =1 与真实掩膜{ � Y k i } K k =1之间的交叉熵损失。与之前的VOS方法[23, 34,20]一样，我们在实例对象分割任务上对骨干网络、原始RPN和掩膜细化网络进行预训练。具体来说，我们利用MSCOCO [25]和PASCAL VOC [9,10]中的实例掩膜。我们对这两个数据集进行图像翻转、随机旋转和裁剪的数据增强。预训练阶段的输入尺寸设置为512×512。这三个网络使用SGD进行训练，初始学习率为0.0025，批大小为2，动量为0.9。学习率在每50k次迭代中降低0.1。在静态图像的预训练阶段之后，我们在DAVIS训练集[29,30]上进一步微调我们的模型。在这个阶段，包括骨干网络、动态目标网络和掩膜细化网络在内的所有模块都进行联合训练。我们使用公式5定义的损失来训练我们的模型。我们使用固定学习率0.0001、批大小1和动量0.9的SGD优化器。视频数据集也进行了数据增强。推断阶段。对于每个测试视频序列{ I i } N i =1，目标对象的真实掩膜在第一帧中提供。原始尺寸的后续帧被输入模型以生成目标掩膜。我们的模型不会在测试视频的第一帧上进行在线训练[2, 20]。04. 实验04.1.数据集和指标数据集。为了验证我们提出的模型的有效性，我们在DAVIS基准测试[30, 29]上进行实验。DAVIS2016数据集[29]包含50个高质量视频，其中总共3455帧用密集像素级对象掩码进行了注释。50个视频81012141618202224FPS76777879808182838485G Mean(%)Decision ModuleRandom Assignment(83.6,14.0)Only BR(84.6, 9.1)Only BP(76.0,23.1)Larger !" Smaller !"81012141618202224FPS76777879808182838485G Mean(%)(83.6,14.0)Only BR(84.6, 9.1)Only BP(76.0,23.1)Larger !"Smaller !"Decision ModulePeriodic Assignment55880图6：决策模块在不同阈值（θ c ）下准确性（GMean）和帧率（fps）之间的权衡。曲线是基于DAVIS-2016数据集的结果绘制的。阈值θ c从0.5变化到1.0用于决策模块。对于随机分配，框传播的采样百分比从0变化到100％。在周期性分配中，每[2,11]fps选择一帧进行带有盒子重新识别流的处理。0将序列分为30个用于训练和另外20个用于验证。在DAVIS2016数据集中，每个视频只有一个前景对象进行了注释。DAVIS2017数据集通过向训练和验证数据集中添加另外30个和10个序列来扩充DAVIS 2016数据集。与DAVIS2016数据集不同，DAVIS2017中的每个视频都用像素级掩码注释了多个对象。在DAVIS2017中，总共注释了10459帧和376个对象实例。评估指标。为了评估我们的模型以及其他最先进的方法，我们使用三个指标，包括平均区域相似度（J平均），平均轮廓准确度（F 平均）以及它们的平均值（G平均）[30]。此外，我们还提供了每种方法的运行时间以进行效率评估。其他方法的结果来自于它们的发布报告或代码。所有实验都在一台NVIDIA 1080Ti GPU上进行。4.2.与最先进方法的比较DAVIS2016。我们将我们的方法与DAVIS2016数据集上的最先进方法进行了性能比较[29]。在表1中，我们列出了一些现有方法中保留的常见操作，包括在线微调（OF）和后处理（PP）（例如CRF[21]）。在半监督VOS中，现有方法通常利用耗时的在线微调或CRF[21]来提高分割的准确性。为了公平比较算法速度，在表1中还包括了OF和PP的运行时间。根据表1中的定量结果以及运行时间，我们提出的模型在与最先进方法相比的情况下，以可比较的准确性实现了最快的速度。与没有在线微调的现有高效方法相比，我们的模型在J 平均和F -Mean上分别比最佳表现的RGMP[34]高出2.5％和2.2％。此外，我们的模型的计算速度比RGMP快2倍。对于具有在线微调的方法，我们的模型更加高效，并且实现了类似的性能。0表3：DAVIS-2016验证数据集上每个模块的消融研究。0方法J 平均F 平均G 平均0无FT 67.1 66.5 66.8 无PT 68.4 69.9 69.2 无DTN 72.7 71.872.3 带有原始RPN的BR 81.7 81.6 81.6没有掩码引导的MRN 82.1 81.7 81.9 我们的模型 83.7 83.583.60表4：我们模型中每个组件的运行时间分析。所报告的时间是在DAVIS-2016数据集上使用一台NVIDIA 1080TiGPU进行测试的。0模块骨干网络 DM BP BR MRN0时间 0.021秒 0.003秒 0.003秒 0.071秒 0.015秒0DAVIS 2017。我们还在DAVIS 2017[30]数据集上进行了比较实验，以验证我们的方法在多目标分割上的有效性。表2显示了与六种最先进方法在三个指标上的定量比较结果。这些结果表明我们的模型能够在DAVIS2017数据集上实现比其他方法更好的性能。定性结果。我们在图7中展示了我们模型在DAVIS2016和2017数据集上的视觉结果。定性结果表明我们的模型不仅可以持续跟踪目标对象，还可以产生具有良好定义细节的准确分割掩码。04.3.消融研究在本节中，我们分析了我们模型中每个组件的贡献，包括动态定位网络(DTN)、掩膜细化网络(MRN)。在DAVIS2016数据集上的结果如表3所示。动态定位网络的有效性。在我们的模型中，我们使用DTN生成一个放大的目标RoI，并在其中生成一个对象掩膜。为了证明DTN的有效性，我们将原始的多级特征(不带RoI Align)馈送给MRN生成分割(即“w/oDTN”)。表3中的定量结果验证了DTN在产生更准确的定位和分割方面的有效性。此外，为了验证决策模块中置信度得分的影响，我们添加了一个名为“随机分配”的比较模型，其中输入帧按不同百分比随机采样通过框传播流。为了公平比较，我们报告了四种不同随机采样的平均结果。图6中的结果证明了DM在为不同帧分配适当的子流上的有效性。条件RPN的有效性。我们提出了一种条件RPN(CRPN)，其中当前帧的提议是基于先前目标RoI的位置、尺度和长宽比生成的。为了与原始的RPN[11]进行比较，我们根据它们的目标得分对所有提议(共h i × w i ×9个)进行排序，并选择前100个作为重新识别的候选框。我们将这个模型称为“带有原始RPN的BR”。它与我们的CRPN的比较结果如表3所示，证明了我们的CRPN能够提供更高效的计算速度和更精确的分割RoI。掩膜细化网络的有效性。在MRN中，我们使用前一帧的扭曲掩膜作为当前帧中掩膜生成的先验。为了证明其有效性，我们在MRM中去除了掩膜引导，并将该模块命名为“MRN w/o maskguidence”。表3中的比较结果证明了掩膜引导在我们的MRN中的贡献。训练策略分析。为了训练我们提出的模型，我们采用了两阶段的训练策略，包括对实例对象分割任务的预训练和对视频对象分割数据集的微调。在表3中，我们报告了跳过预训练阶段的模型的结果(称为“w/o PT”)和跳过微调阶段的模型的结果(称为“w/oFT”)。结果验证了两个训练阶段对我们模型中准确分割的生成的贡献。速度与准确性的分析。在DTN中，预先定义了一个阈值，用于确定模型在分割准确性和计算效率之间的权衡。为了验证阈值对我们模型整体性能的影响，我们报告了在不同阈值下的准确性(G Mean)与帧率(fps)的关系。每条曲线上的数据点表示不同阈值θ t的值。可以观察到，随着θ t的增加，数据点向左上角移动。这表明分割性能增加，但帧率降低。相反，当θ t减小时，数据点向右下角移动。(a) (b) (c) (d) (e) (f)RPN [11], we sort all the proposals (totally hi × wi × 9)according to their objectness scores and choose the top-100ones as box candidates for re-identiﬁcation. We name thismodel as “BR with ori RPN”. Its comparison result with ourCRPN is shown in Tab. 3, which proves that our CRPN isable to facilitate more efﬁcient computational speed as wellas more precise RoIs for segmentation.Effectiveness of mask reﬁnement network. In MRN,we use the warped mask from the previous frame as a priorto guide the mask generation in the current frame. To testifyits effectiveness, we remove the mask guidance in MRMand name this module as “MRN w/o mask guidence”. Thecomparison results in Tab. 3 demonstrate the contribution ofmask guidance in our MRN.Analysis on training strategy.For training our pro-posed model, we conduct a two-stage training strategy, in-cluding pre-training on instance object segmentation taskand ﬁnetuning on video object segmentation datasets. InTab. 3, we report the results of the model skipped the pre-training stage (termed as “w/o PT”) and the model skippedthe ﬁnetuning stage (named as “w/o FT”). The results ver-ify that both training stages contribute to the generation ofaccurate segmentation in our model.Analysis of speed vs accuracy. In the DTN, a thresh-old is pre-deﬁned for determining the model’s trade-off be-tween segmentation accuracy and computational efﬁciency.To verify the inﬂuence of thresholds on the overall per-formance of our model, we report the accuracy (G Mean)versus frame rate (fps) under various thresholds. The datapoints on each curve indicate different values of thresholdθt. It can be observed that as θt increases, the data pointsmove to the upper-left corner. This indicates that the seg-mentation performance increases but the fps decreased. Onthe contrary, when θt decreases, the data points move to-55

下载后可阅读完整内容，剩余1页未读，立即下载