RANet：实时且准确的视频对象分割方法

93 浏览量更新于2023-10-12 收藏 1.56MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

3978输入图像@ t模板特征匹配距离矩阵输入图像@ t模板特征匹配相似性图FG /BG分级特征排名关注t-1时的掩模RANet：用于快速视频对象分割的王紫琴1，3，徐军2，4刘丽2，朱凡2，邵凌21悉尼大学，悉尼，澳大利亚2Inception Institute of Artificial Intelligence（IIAI），阿布扎比，阿联酋3西安交通大学人工智能与机器人研究所，https://github.com/Storife/RANet摘要尽管在线学习（OL）技术提高了半监督视频对象分割（VOS）方法的性能基于匹配和传播分割a. 基于匹配的框架的方法通过避免OL技术以更快的速度运行niques. 然而，由于不匹配和漂移问题，它们受到次优精度的限制在本文中，我们开发了一个实时但非常准确的排名注意力网络（RANet）的VOS。具体来说，就是要整合...输入图像@ t掩码@ t-1分割b. 基于简化的框架分割c. 拟议的RANet基于匹配和基于传播的方法，我们采用编码器-解码器框架来以端到端的方式学习像素级相似性和分割。为了更好地利用相似性地图，我们提出了一种新的排名注意力模块，自动排名和选择这些地图细粒度的VOS性能。在DAVIS16和DAVIS17数据集上的实验表明，我们的RANet实现了最佳的速度-精度权衡，例如，与每帧33毫秒，&JF =85。5%的戴维斯16。在OL的情况下，我们的RANet达到J &F =87。DAVIS16 上的1%，超过了最先进的VOS方法。代码可以可在 https://github.com/Storife/RANet 上找到。1. 介绍半监督视频对象分割（VOS）[4，41，42]旨在从整个视频的背景中分割感兴趣的对象，其中仅提供第一帧的注释分割掩码作为测试阶段的模板帧。这一具有挑战性的任务对于大规模视频处理和编辑[52早期的VOS方法[3，37，40，50]主要采用在线学习（OL）技术，该技术对预先训练* 通讯作者：徐军（nankaimathxujun@gmail.com）.这篇文章是王紫琴在IIAI实习时完成的。图1：不同VOS框架的比较。基于匹配的框架;（b）基于传播的框架;（三）提出的RANet。我们提出了一种新的Ranking Attention模块来对重要特征进行排序和选择分类器在其第一帧上。也已经针对VOS提出了基于匹配或传播的方法基于匹配的方法[8，19]根据第一帧和每个后续帧的特征之间的像素级匹配分数来分割像素（图11）。1（a）），而基于传播的方法[9，10，38，40，54，59]主要依赖于经由前一帧的预测对第一帧的注释掩模进行时间变形[40]（图1（b））。这些方法各自的优点和缺点是清楚的。具体而言，基于OL的方法[3，37，40，50]以牺牲速度为代价实现精确的VOS，需要几秒钟来分割每个帧[3]。相反，简单的匹配或基于传播的方法[8，40，45]更快，但具有次优的VOS精度。基于匹配的方法[8，19，38]承担了不匹配的问题，即，这违反了主要对象与视频中不断变化的外观的时间一致性另一方面，基于传播的方法[9，10，38，40，47，59]由于两个连续帧之间的遮挡或快速运动而遭受漂移问题。总之，大多数现有的方法不能同时以卫星般的精度和速度来处理VOS任务，而这对于实践是必不可少的。3979实际应用仍然需要更有效的方法来实现VOS任务的更好的速度-精度权衡基于上述考虑，在这项工作中，我们开发了一个实时网络细粒度的VOS性能。所开发的网络受益于编码器-解码器结构，并学习像素级匹配，掩码传播，以及以端到端的方式分段图1（c）显示了拟议网络的一瞥。采用Siamese网络[2]作为编码器来提取像素级匹配特征，并使用类似于Siamese的解码器进行同步。OUS掩模传播和高分辨率分割。在我们的框架中的一个关键问题是如何连接像素级匹配编码器和传播的解码器在一个有意义的方式。编码器产生动态前景和背景相似性图，其不能直接馈送到解码器中为此，我们提出了一个排名注意力模块（RAM，见图。1（c））重组（即，根据相似性图对于细粒度VOS性能的重要性对相似性图进行排序和选择）。提出的排名注意力网络（RANet）可以更好地利用像素级的相似性地图的细粒度的VOS，大大减轻了以前的匹配或传播为基础的方法的缺点在DAVIS16和DAVIS17数据集上的实验[41，42]表明，所提出的RANet优于以前的VOS方法在速度和准确性方面，例如，达到J &F =85。在DAVIS16上以30FPS的速度5%。这项工作的贡献有三个方面：• 我们以端到端的方式集成了匹配和传播框架的优点，并为半监督VOS任务开发了一个实时网络• 我们提出了一种新的排名注意力模块排名和选择符合特征图，根据其重要性细粒度的VOS性能。• 在DAVIS16/17数据集上的实验表明，本文提出的RANet算法具有较好的性能性能比以前的VOS方法，在实时速度。建议的RANet实现准确的VOS结果，即使只训练静态图像。2. 相关作品在线学习方法。基于OL的方法[3，25，30，33-OSVOS [3]使用预先训练的对象分割网络，并在测试视频的第一帧上对其进行OnAVOS [50]通过在线自适应机制扩展了OSVOS，而OSVOS-S [37]利用了来自实例分割网络的语义信息。LucidTracker [25]引入了一种用于在线微调的数据增强机制。DyeNet [30]集成了实例重新识别和时间传播，并使用OL来提高性能。PReMVOS [33将实例分割[16]、光学流[12，20]、细化和重新识别[57]的技术与广泛的微调结合在一起，并实现了令人满意的性能。总之，OL对于VOS任务非常有效因此，后续方法[1，30，40]将OL视为提高VOS性能的常规技术然而，基于OL的方法在实际应用中计算量很大。在这项工作中，我们解决了VOS的问题，与一个非常快的网络，获得了竞争力的交流，在DAVIS 16，130上以30FPS的速度进行精确性，比以前基于OL的方法快400倍[3，37，40，50]。基于传播或匹配的方法。基于传播的方法另外诉诸于先前帧以获得更好的VOS性能。Masktrack [40]通过将前一帧的图像和分割掩码作为输入来处理VOS。这种策略也用于 CINM [1] ， OSMN [59] 和 RGMP [38] 。RGMP [38]堆栈在通过暹罗体系结构网络传播期间的第一、先前和当前帧在这项工作中，我们还利用了Siamese网络，但使用像素级匹配技术而不是简单的堆叠，并将前一帧OSMN [59]引入了一个模块，通过使用视觉和空间指导来操纵分段网络的中间层。光流[12，20]也用于在许多方法中引导传播过程[10，23，40，47]。然而，它无法区分非刚性对象从静止的背景部分。所有这些策略都是有效的，但仍然存在漂移问题。MaskTrack[40]采用OL来记住目标对象，这消除了这个问题并提高了VOS性能。然而，由于OL是耗时的，我们采用更有效的匹配技术来处理这个漂移问题。基于匹配的方法[8，19，45，49]非常有效。该算法首先计算模板帧和视频中当前帧Pixel-Wise MetricLearning [8]通过像素空间中与模板帧的最近邻匹配来预测每个像素。然而，点对点对应策略[43，45]经常导致噪声预测。为了解决这个问题，我们应用一个解码器来使用匹配结果作为指导。Hu等人在VideoMatch[19]中提出了一种软匹配机制，该机制对匹配特征的平均相似性得分图进行软分割，以生成平滑的预测。然而，由于缺乏时间信息，他们仍然遭受不匹配的问题。在这项工作中，我们采用了点到点的像素级目标定位和时间传播的对应匹配的策略，以处理失配和漂移的问题。FEELVOS [49]采用全球和本地匹配-3980图2：拟议的RANet的图示。我们计算相关性的特征提取的暹罗网络。输出的相似性图和模板掩码被馈送到RAM模块中以排名和选择前景/背景相似性图。然后，这些地图和前一帧为了更稳定的像素级匹配，但仅计算用于最终分割的极值图，丢失了相似性图的主要信息。我们的RAM可以更好地利用相似性信息。此外，为了更快的速度，我们使用轻量级解码器并采用在ImageNet [27]上预训练的标准ResNet [17]作为骨干，而不是以前方法中使用的耗时的语义分割网络[53. 该方法在本节中，我们首先概述了第3.1节中开发的排名注意力网络（RANet）。在§3.2中，我们描述了所提出的排名注意力模块（RAM），并在§3.3中将其扩展到多对象VOS。最后，我们分别在§3.4和§3.5中给出了RANet3.1. 网络概述我们的RANet由三个无缝部分组成：用于特征提取的编码器、相关性和RAM的集成以及用于特征合并和最终分割的解码器。我们的RANet的图示如图所示。二、暹罗编码器。为了获得准确VOS的相关信息，我们采用Siamese网络[2]（具有共享权重）作为编码器来提取第一帧和当前帧的特征然后提取像素级特征从第一帧开始，将其重新整形为符合要求的形状，作为模板特征进行相关性计算。用于匹配的相关性和RAM。相关性在目标跟踪中有着广泛的应用。在SiamFC [2]中，相关性用于使用相似性图来定位对象的位置。在我们的RANet中，为了定位用于分割的对象的每个像素，我们需要通过计算模板和当前帧的每个像素级特征之间的相关性来获得像素级相似性图请注意，有一个类似的-每个像素级模板特征的ity map。相关性的详细公式将在§3.2中描述。然后，我们利用第一帧的掩模来选择前景（FG）或背景（BG）相似性图作为FG或BG特征进行分割。由于FG或BG像素的数量由于FG或BG相似性特征在不同视频中不同，因此FG或BG相似性图的数量是动态的，并且因此解码器必须处理具有动态信道大小的FG或BG相似性特征。为了处理这个动态通道大小的问题，我们提出了一个RAM模块来排名和选择最重要的SIM卡。ilarity地图和组织他们在一致的形状。这一部分也将在§ 3.2中详细解释。RAM模块为分段提供了丰富而有序的特征，并带来了更好的性能，如下所示在第4.3节的消融研究中。为了简单起见，我们在这里只考虑§ 3.2中的单对象VOS。将在§3.3中描述针对多对象VOS的我们的RANet的扩展。编码器相关性&排名注意力模块（RAM）解码器I1…CNN第1掩码前景掩模@帧t-1W0H0K第1图像HWRAM合并CNNHIt第1掩码背景W结果@帧tCNNRAMHWH相似映射W图像@帧t相关性王空军RAM逐层全局最大池H0按元素之和逐像素积重塑合并前景路径帧t-1处掩码前景W0It*重塑HCNNW0H0H0W0H0W0W0×H0HSJ共享背景路径WWSK*ItJ JCNN秩CNN相关性…………宽×高W0×H0宽×高2562563981图3：建议的排名注意力模块的机制。在FG（或BG）路径中，仅选择FG（或BG）相似性图根据从注意力网络中学习到的排序得分，将地图从上到下排序，并进行填充或丢弃操作以产生256个FG（或BG）地图。最后，这些映射在通道上连接为大小为256×H×W的特征。传播。在这里，我们利用简单的掩码传播方法[40]，而其他传播[20，30]或本地匹配[49]方法可能会改善我们的RANet。我们将前一帧的预测掩码与提议RAM选择的FG（或BG）特征通过这种方式，我们的RANet利用匹配和传播技术。轻量级解码器。这部分包含一个合并模块和一个类似网络的模块，在补充文件中有描述。合并模块细化两个排序的相似性图流，然后将这些图与前一帧的掩码连接起来。在合并模块中，网络的两个流共享相同的参数。一个类神经网络[31，44，56]被用来获得最终的分割，并与不同层的多尺度特征进行跳跃连接。3.2. 相关性和排名注意力模块相关性我们利用相关性来找到匹配之间的像素在模板和当前帧。用I1∈RC×H0×W0和It∈RC×H×W表示模板和当前帧的特征，其中C是特征通道数，H0（W0）和H（W）分别表示模板和当前帧特征图的高度（宽度）。我们将模板特征I1∈RC×H0×W0重新整形为H0W0×（C×1×1）。表示重塑模板fea-真实集为K={Kj|j=1，...， H0×W0}，由大小为C ×1 × 1的H 0 × W 0特征组成. 在我们的RANet中，计算模板帧K中的归一化特征Kj与当前帧It之间的相关性。在相关之后，我们得到了相似图Sj= Kj<$It，其大小为W × H。将张量S ∈ RH0W0×H×W表示为相关映射的集合。然后我们有S={S}|Sj=Kj<$It}j∈{1，.，高×宽}（1）图4：相似性图的可视化。左：模板和当前帧，以及4个前景相关相似性图。右图：合并后的相似度图在模板帧中，其在当前帧中的新位置处于最大值（即，最亮点）的相似性图。此外，与SiamFC [2]相比，由于我们以弱监督方式获得这些地图，因此熊的轮廓（基本上保留用于分割）得以保留。图中右侧的4.给出了合并模块的输出特性。合并后的网络可以区分对象。排名注意力模块（RAM）。我们首先利用第一帧的掩码来过滤FG和BG相似性图。然后设计了一个FG路径和一个BG路径网络，消除相似性特征。由于FG或BG像素的数量在不同视频中变化，因此FG或BG相似性图的数量动态变化然而，常规CNN需要具有固定数量的通道的输入特征。为了解决这个问题，我们提出了一个排名注意力模块（RAM）排名和选择重要的功能。也就是说，我们学习相似性映射的评分方案，然后根据它们的得分对这些映射进行排名和选择。如图2、我们的RAM有三个步骤。在第一步中，我们过滤FG（或BG）相似性图使用的第一帧的掩码。具体来说，我们交换相似性图的空间和通道维度（重塑S∈RH0W0×H×W为S∈RHW×H0×W0），然后mul-用FG或BG蒙版（大小调整为W0×H0）将它们分别平铺。因此，我们获得FG（或BG）特征S1（或S100）。在FG组件中，BG像素的特征设置为零，反之亦然。在第二步中，对于每个相似性图Sj，我们学习排名分数rj，其显示重要性。每一张地图。以FG张量S1为例，为了计算S1中相似性映射的排名分数，我们使用了一个双层网络fn，该网络通过以元素方式与张量S 1的通道全局最大池化fmax求和而得到加强。得分越大，则表示S_1中对应的相似性图的重要性越大。每个相似性图的通道方向最大值表示模板帧中的对应像素在当前帧中找到匹配像素的可能性。我们定义了最终的0 0FG排序得分度量R1∈RW0×H0，图4、我们给出了一些相似性的例子，地图每个相似性图与特定像素相关联R1=f（S1）+fMax（S/2001）。（二）等级机制前景背景级选择级选择相似性前景地图地图（前景）&填充相似性分数图（前景）背景地图丢弃参考帧当前帧相关相似图合并模块后的功能256…………256…………n39821a. 静态图像训练样本b. 视频训练样本3.5. 网络训练我们使用Adam [26]训练我们的网络，初始学习率为10- 5，以优化二进制交叉熵图5：训练样本。然后我们将R1整形为向量r1∈RH0W0.类似地，我们可以获得BG排名得分向量r0。最后，我们根据r1中对应的得分从大到小对S1S1 =秩（S1|r1）。（三）如果FG相似性图S的数量小于目标通道大小（设置为256），则我们用零图填充排名特征;如果该数目大于目标信道大小，则丢弃冗余特征，使得信道大小可以被固定。类似地处理BG张量S0所提出的排名机制的说明3 .第三章。3.3. 多对象VOS扩展单对象VOS方法到执行多对象VOS的一个简单扩展是逐个处理视频但是当有很多对象时，这种策略将是为了使所提出的RANet对多对象VOS有效，我们共享由编码器产生的特征以及通过所有N个对象的相关性计算的相似性图S然后，对于每个对象i（i=1，.，N），生成FG和相应的BG掩模，并使用轻量级解码器对 FG （或 BG ）进行独立分割。最后，我们使用softmax函数来计算VOS上的最终结果。3.4. 实现细节在这里，我们简要描述了编码器和解码器，并在补充文件中给出了详细的网络结构。编码器。双流Siamese编码器[2]的骨干是ResNet-101网络[17]，在ImageNet上预先训练[27]。我们用实例规范化[48]代替批量规范化[21]最后三个块的特征我们将这些多尺度特征的通道尺寸减少了四个-通过卷积层折叠。特征的大小也会调整为一致的大小。在每个卷积层之后添加102通道归一化[18]，用于特征修剪和多尺度合并。译码器解码器是一个三层跳接类级联网络。编码器提取的当前帧的多尺度特征被送入解码器。然而，在解码器中使用所有的特征将带来巨大的计算成本.为了加快我们的RANet，我们首先使用卷积层减少多尺度特征的通道大小，然后将它们馈送到解码器中。损失在训练和测试过程中，输入图像被调整为480×864。我们使用随机薄板样条（TPS）变换，旋转（-3030），缩放（0. 75块1 25），和随机裁剪的数据增强，就像[40]。通过设置16个控制点并在图像大小的15%对静态图像进行预训练。在[40]之后，我们使用静态图像预训练所提出的RANet来训练我们对于单对象VOS的RANet，我们使用来自MSRA 10 K[11]，ECSSD [58]和HKU-IS [29]数据集在显着社区[14，15，32，55，60，61]。为了训练RANet用于多对象VOS，我们添加了包含多对象图像的SOC [13]和ILSO [28]数据集图5(a)显示了一对生成的静态图像。如§4.2和§4.3所示，当仅使用静态图像进行训练时，所提出的RANet实现了视频微调。虽然我们的RANet在仅使用静态图像进行训练时可以获得令人满意的结果，但我们通过执行视频精细训练来进一步利用其性能调优基准数据集。为了针对特定的单对象VOS任务微调我们的RANet，我们随后在DAVIS16数据集的训练集上微调网络[41]。在训练过程中，我们从一个视频中随机选择两个具有数据变换的帧作为模板和当前帧，并随机选择当前帧附近的一个帧的掩码（我们设置最大间隔为5）。我们在DAVIS17数据集的训练集上针对特定的多对象VOS任务微调了我们的RANet[42]。图5（b）示出了配对的视频训练图像的示例。4. 实验在本节中，我们首先描述我们的实验协议（§4.1），然后将提出的排名注意网络（RANet）与最先进的VOS方法（§4.2）进行比较。接下来，我们进行了一项全面的消融研究，以更深入地了解拟议的RANet，特别是排名注意力模块的有效性（§4.3）。最后，我们给出了可视化结果，以显示RANet对挑战性场景的鲁棒性（§4.4）。更多结果见补充文件。4.1. 实验方案训练数据集。我们在DAVIS16 [41]和DAVIS17 [42]数据集上评估了拟议的RANet。戴维斯16数据集[41]包含50个视频（480p），在总共3455帧上密集地注释有像素级对象掩码（每个序列一个），并且它被分成训练集（30个视频）和验证集（20个视频）。戴维斯173983方法OL时间JF↑J 平均值↑J回忆↑J 衰变↓F平均值↑F 回忆↑F 衰变↓OSVOS [3]✓500080.279.8 93.614.980.692.615.0MaskTrack [40]✓1200077.679.7 93.18.975.487.19.0CINM [1]✓7000084.283.4 94.912.385.092.114.7[37]第三十七话✓450086.685.6 96.85.587.595.98.2OnAVOS[50]✓1300085.586.1 96.15.284.989.75.8PReMVOS [35]✓3800086.884.9 96.18.888.694.79.8RANet+✓400087.186.6 97.07.487.696.18.2PLM [45]✗50066.470.2 86.311.262.573.214.7VPN [22]✗63067.970.2 82.312.465.569.014.4[第51话]✗2870.071.7 86.83.067.879.82.1CTN [23]✗3000071.473.5 87.415.669.379.612.9OSMN [59]✗13073.574.0 87.69.072.984.010.6SFL [10]✗790076.176.1 90.612.176.085.510.4[8]第十八话✗28077.475.5 89.68.579.393.47.8[19]第十九话✗320-81.0-----Favos [9]✗180081.082.4 96.54.579.589.45.5[49]第四十九话✗51081.781.1 90.513.782.286.614.1RGMP [38]✗13081.881.5 91.710.982.090.810.1RANet✗3385.585.5 97.26.285.494.95.1表1：DAVIS16-val数据集上不同方法的客观指标和运行时间（毫秒）比较。基于在线学习（OL）的方法和离线方法的最佳结果都以粗体突出显示在第一帧上对每个视频进行数据增强。我们使用与静态图像预训练相同的训练策略，但学习率为10- 6。评估指标。我们使用[41]建议的七个标准度量：三个区域相似性度量J Mean，JRecall，J Decay;三个边界准确性度量F Mean，F Recall，F Decay;以及J &F Mean，它是J Mean和F Mean的平均值。表2：在DAVIS16-tranaval数据集上没有视频微调的不同方法的比较。“RANet+OL” denotes数据集[42]包含多个对象的视频，是DAVIS16的扩展，它包含一个包含60个视频的训练集，一个包含30个视频的验证集和一个包含30个视频的测试开发在所有数据集中，训练集、验证集和测试集之间没有重叠。测试阶段。与SiamFC [2]类似，我们裁剪第一帧并提取特征作为模板特征（§3.2中的K），然后逐个计算模板帧和测试帧最后对当前测试帧进行分段。使用的视频数据用于不同的目标： 1 ）为了评估我们用于单对象 VOS 的RANet，我们在[ 41 ]的验证集（20个视频）上进行测试; 2）为了判断仅在静态图像上训练的RANet的有效性，我们在整个DAVIS 16数据集的50个视频上进行评估; 3）为了评估我们用于多对象VOS的RANet，我们在[ 42 ]的验证集和测试集上进行评估，其中分别包含3个0个视频。为了与基于OL的方法兼容，我们遵循[3，40]，微调4.2. 与最新技术水平的比较比较方法。对于单对象VOS，我们将我们的RANet与6种最先进的基于OL的方法和11种离线方法进行了比较[1，3，8在表 1 中，包括 OSVOS-S [37] 、 PReMVOS [35] 、RGMP [38]、FEELVOS [49]等。为了评估我们用静态图像训练的RANet，我们将其与一些不使用DAVIS训练集的方法[22，23，36，40，47对于多目标VOS，我们与一些最先进的离线方法[3，9，19，50，59]进行了比较，并列出了一些基于OL的方法[1，3，19，37，50]供参考。DAVIS16-val上的结果。如表1所示，在没有在线学习（OL）技术的情况下，我们的RANet仍然实现了a J&F平均值为85。5%，速度为33毫秒（30FPS）。对于RANet，其度量结果高于所有没有OL技术的方法，而其速度高于所有比较的方法，除了SiamMask [51]。但请注意，SiamMask在客观指标上表现不佳，例如，七十0%在J&F，15。比我们的RANet低5个点。即使与最先进的基于OL的方法（如OSVOS-S）相比方法J 平均值↑J 回忆↑J 衰变↓BVS [36]66.576.426.0OFL [47]71.180.022.7VPN [22]75.090.19.3CTN [23]75.589.014.4MaskTrack [40]80.393.58.9RANet83.294.29.3RANet+OL86.296.27.63984OnAVOSOSVOS-SDyeNetRANet莫奈视频匹配OSVOSFAVOSRGMPMSKPMLSFLOSMNSiamMask十比一100101方法OLDAVIS17-valJF ↑J平均值↑DAVIS17-testdevJF ↑J平均值↑CINM [1]✓70.667.267.564.5[37]第三十七话✓68.064.757.552.9OnAVOS[50]✓65.461.652.849.9OSVOS [3]✓60.356.650.947.0[19]第十九话✓61.4---OSVOS [3]第一章✗36.6---OnAVOS[50]✗39.5---Favos [9]✗58.254.643.642.9OSMN [37]✗54.852.541.337.7[19]第十九话✗56.5---RANet✗65.763.255.353.4表3：DAVIS17- val和DAVIS17-testdev数据集上不同方法的比较。这些方法是双-90.087.585.082.580.077.575.072.570.0速度与DAVIS16-val上的J &F平均值速度（FPS根据是否在线学习(OL)技术是否被使用。和OnAVOS [50]，我们的离线RANet实现了比较结果。可以通过OL技术来改善RANet表示为RANet+的OL提升的RANet实现了&JF平均值87。1%，优于所有基于OL的 VOS方法。DAVIS16-trainval的结果。我们还评估了仅用静态图像训练的RANet的性能（即，没有视频微调）。在这种情况下，MaskTrack [40]具有与我们的RANet最相似的设置，因为它也使用只有静态图像来训练它的网络。与Mask- Track相比，我们的RANet不依赖OL技术，速度快了近百倍。在表2中，我们列出了不需要对视频数据进行微调/训练的不同方法的结果。同样，我们的RANet优于所有其他方法的一个明确的保证金。DAVIS17数据集：由于多对象场景，DAVIS17为了在DAVIS17-val和DAVIS17-test集上评估我们的RANet，我们使用在多实例静态图像和DAVIS17- train数据集上训练的RANet，如§3.5所述。在表3中，我们显示了我们的RANet与最先进的VOS方法的比较。可以看出，在DAVIS17-val数据集上，我们的RANet比w/oOL获得了更高的度量结果图6：JF平均值和速度的比较（FPS）在DAVIS16-val数据集上进行了不同方法的比较变体带RAMW/O排名MaximunJ均值85.581.981.1表4：DAVIS16-val数据集上不同RANet变体的J均值比较。2）相关层（CL）对RANet的重要性; 3）传播前一帧掩码（PM）对RANet的影响：4）静态图像预训练（IP）和视频微调（VF）对RANet的影响; 5 ）在线学习（OL）技术对RANet的影响。1. 建议的排名注意力模块有助于RANet？在VOS任务上评估所提出的RAM模块对RANet的贡献。我们比较原始的RANet，我们称之为w/ RAM，有两个基线。对于第一个，w/o Ranking，我们维护S中的所有相似性图，并获得FG（或BG）相似性图S1（或BG）。S0）∈RH0W0×H×W，通过设置相应的BG（或FG）根据模板掩码将其作为零第二一个是最大值，而不是使用RAM来获得丰富的嵌入映射，我们采用通道方式的最大值运算，这也在[49]中使用，分别在相似性映射S1和S0上，以获得一个FG和一个BG映射S1，S0∈ RH×W. 然后输入解码器方法.此外，在更具挑战性的DAVIS17-M Mtestdev数据集，我们的RANet甚至在J均值方面优于基于OL速度在这里，我们评估DAVIS16-val集上不同方法的速度-精度性能。我们的RANet运行在TITAN Xp GPU上。在表1中，我们列出了不同的方法来处理480p分辨率的帧注意，所提出的RANet在每个帧上花费33毫秒，比大多数先前的方法快得多。如图六、最近提出的方法SiamMask [51]比我们的RANet快一点，但在JF均值上的结果比我们的结果低得多4.3. 验证拟议的RANet我们现在进行一个更详细的检查，我们提出的RANet上的VOS任务。我们评估1）建议的排名注意力模块（RAM）的RANetw/RAM、w/o Ranking和最大值见表4。可以看出，RANet w/ RAM实现了3. 6%和4。分别比基线高4%，w/o Ranking和Maximum。无Ranking的RANet根据模板帧的空间信息组织相似性图，而最大值的RANet只提取最大值，从而丢失了相似性图中最有用的信息2. 相关性和RAM对我们的RANet有多重要？评价相关层的重要性在我们的RANet中，我们删除了相关层，并简单地连接编码器提取的特征，如RGMP [38]所做的那样。下面的RAM模块也没有意义，被删除。因此，我们有一个新的RANet变体：-CL.如图5所示，在...该变异的mance非常差（J均值为因此，相关层对我们的RANet很重要，JF均值&3985图7：拟议的RANet在具有挑战性的VOS场景下的定性结果。测试帧来自DAVIS16集（第1和第2行）、DAVIS17-val集（第3行）和DAVIS17-testdev集（第4和第5行）中的视频。它只包含30个单一对象的视频。5.使用在线学习的性能和速度之间的权衡。在表6中，我们还显示了使用或不使用OL技术的RANet的性能和运行时间一表5：RANet对J均值的消融研究。CL，PM，IP和VF表示相关层，前一帧静态图像预训练和视频微调。度量线下+在线学习JF平均值85.586.286.886.987.1时间0.0330.301.001.504.00表6：具有不同迭代的RANet的在线学习对JFMean和运行时间（以秒计）的影响。作为所提议的RAM模块的基础。3. 前一帧的蒙版（PM）如何影响我们的RANet？我们研究PM如何影响我们的RANet。To this end, we setall the pixels of the PM as zero, and re-train our RANet. 因此，我们有一个基线-PM。结果以Ta-表5示出了RANet的变体-PM将使J均值下降4。1分。这表明PM传播的时间信息对我们的RANet非常有用4. 在我们的RANet中，预训练对静态图像和视频微调有什么影响？为了回答这个问题，我们研究了每种训练策略如何影响RANet的性能我们首先只在视频数据上训练RANet，并有一个基线：-IP。然后，我们只在静态图像上训练RANet，并有第二个基线：-VF。J的结果DAVIS16-val数据集上变体-IP和-VF在表5中列出。可以看出，当与原始RANet相比时，两个基线在J具体来说，静态图像预训练（IP）将J均值从73提高到74。2%至85。5%，而视频微调（VF）将J均值提高了5。6分。删除IP的性能下降（从85.5%下降到73.2%）主要是由于RANet在DAVIS16训练集上的过度拟合可以看到，随着OL中迭代次数的增加，我们的RANet对J &F Mean的结果不断得到不同程度的改善，同时以速度为代价。4.4. 定性结果在图7中，我们显示了DAVIS16和DAVIS17数据集上提出的RANet可以看出，RANet对于许多具有挑战性的场景是非常鲁棒的，例如外观变化（第1行）、快速运动（第2行）、遮挡（第3行）和多对象（第4行和第5行）等。5. 结论在这项工作中，我们提出了一个实时和准确的VOS网络，它在单个Titan Xp GPU上以30 FPS运行。提出的排名注意力网络（RANet）端到端学习VOS的像素级特征匹配和掩码传播为了更好地利用相似性特征提高细粒度VOS性能，提出了一种关注度排序模块该网络将点对点匹配功能视为指导，而不是最终结果，以避免噪声预测。在DAVIS16/17数据集上的实验表明，我们的RANet在分割精度和速度上都达到了最先进的水平。这项工作可以进一步扩展。首先，所提出的排名注意力模块可以应用于其他应用，例如对象跟踪[51]和立体视觉[24]。其次，可以采用更好的传播[12，20]或局部匹配[49]技术来获得更好的VOS性能。鸣谢。我们感谢dr.宋白对这个项目进行了初步探讨。方法起源-CL-PM-IP-VFRGMP [38]81.5-73.568.655.0RANet85.567.581.473.279.93986引用[1] Linchao Bao，Baoyuan Wu，and Wei Liu. CNN inMRF：基于CNN的高阶时空MRF中的视频对象分割。在CVPR，2018年。二六七[2] Luca Bertinetto，Jack Valmadre，Joao Henriques，An- drea Vedaldi，and Philip H.S. 乇用于对象跟踪的全卷积连体网络。在ECCV工作室，第850-865页，2016年。二三四五六[3] Sergi Caelles，Kevis-Kokitsi Maninis，Jordi Pont-Tuset ， Laura Leal-Taixe ， Daniel Cremers 和 LucVan Gool。单镜头视频对象分割。在CVPR，2017年7月。一、二、六、七[4] Sergi Caelles ， Alberto Montes ， Kevis-KokitsiManinis，Yuhua Chen，Luc Van Gool，FedericoPerazzi，and Jordi Pont-Tuset.2018年戴维斯视频对象分割挑战赛。arXiv：1803.00557，2018年。1[5] Liang-Chieh Chen ， George Papandreou ， IasonasKokkinos，Kevin Murphy，and Alan Yuille.基于深度卷积网和全连接crfs的语义图像分割。2015年，国际会议。3[6] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。重新思考语义图像分割的无迹卷积arXiv预印本arXiv：1706.05587，2017. 3[7] Liang-ChiehChen，YukunZhu，GeorgePapandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。参见ECCV，第801-818页，2018年。3[8] Yuhua Chen，Jordi Pont-Tuset，Alberto Montes，and Luc Van Gool.具有像素度量学习的极快视频对象分割。在CVPR，2018年。一、二、六[9] Jingchun Cheng ， Yi Hsuan Tsai ， Wei ChihHung，Shengjin Wang，and Ming Hsuan Yang.通过跟踪部件实现快速准确的在线视频对象分割在CVPR，2018年。一、六、七[10] Jingchun Cheng，Yi-Hsuan Tsai，Shengjin Wang，and Ming-Hsuan Yang. Segflow：用于视频对象分割和光流的联合学习。InICCV，Oct 2017. 一、二、六[11] 作者：Niloy J.放大图片作者：Michael H. S. Torr和Shi-Min Hu. 基于全局对比的显著区域检测。IEEE TPAMI，37（3）：569-582，2015。5[12] Alexey Dosovitskiy、Philipp Fischer、Eddy I

下载后可阅读完整内容，剩余1页未读，立即下载