递归动态嵌入：视频对象分割中的存储优化方法

7 浏览量更新于2023-10-25 收藏 13.73MB PDF 举报

视频对象分割

存储器设计

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Space-time memory (STM) based video object segmen-tation (VOS) networks usually keep increasing memorybank every several frames, which shows excellent perfor-mance.However, 1) the hardware cannot withstand theever-increasing memory requirements as the video lengthincreases. 2) Storing lots of information inevitably intro-duces lots of noise, which is not conducive to reading themost important information from the memory bank.Inthis paper, we propose a Recurrent Dynamic Embedding(RDE) to build a memory bank of constant size. Speciﬁ-cally, we explicitly generate and update RDE by the pro-posed Spatio-temporal Aggregation Module (SAM), whichexploits the cue of historical information. To avoid erroraccumulation owing to the recurrent usage of SAM, we pro-pose an unbiased guidance loss during the training stage,which makes SAM more robust in long videos. Moreover,the predicted masks in the memory bank are inaccurate dueto the inaccurate network inference, which affects the seg-mentation of the query frame. To address this problem, wedesign a novel self-correction strategy so that the networkcan repair the embeddings of masks with different quali-ties in the memory bank. Extensive experiments show ourmethod achieves the best tradeoff between performance andspeed. Code is available at https://github.com/Limingxing00/RDE-VOS-CVPR2022.Figure 1. The inference pipelines of the segmentation of frameT.c⃝ denotes concatenation. θ denotes the sampling intervalfor the update of the memory bank. (a) shows the network readthe space-time memory (STM) pattern memory bank to segmentframe T. As the length of videos increases, the STM pattern mem-ory bank has an ever-increasing size. In (b), we update a recurrentdynamic embedding (RDE) to build a memory bank of the con-stant size, which is maintained by a spatio-temporal aggregationmodule (SAM).13320递归动态嵌入用于视频对象分割0Mingxing Li 1�，Li Hu 2�，Zhiwei Xiong 1†，Bang Zhang 2，Pan Pan 2，Dong Liu 10中国科学技术大学1，阿里巴巴达摩院，阿里巴巴集团20mxli@mail.ustc.edu.cn{zwxiong，dongeliu}@ustc.edu.cn0{hooks.hl，zhangbang.zb，panpan.pp}@alibaba-inc.com0摘要01. 引言0时空存储器（STM）基于视频对象分割（VOS）网络通常会在每几帧中不断增加存储器，显示出出色的性能。然而，1）随着视频长度的增加，硬件无法承受不断增加的存储器需求。2）存储大量信息不可避免地引入大量噪声，这不利于从存储器中读取最重要的信息。本文提出了一种递归动态嵌入（RDE）来构建恒定大小的存储器。具体而言，我们通过提出的时空聚合模块（SAM）明确生成和更新RDE，该模块利用历史信息的线索。为了避免由于SAM的重复使用而导致的误差累积，我们在训练阶段提出了一种无偏引导损失，使得SAM在长视频中更加稳健。此外，存储器中的预测掩码由于不准确的网络推断而不准确，这影响了查询帧的分割。为了解决这个问题，我们设计了一种新颖的自校正策略，使得网络可以修复存储器中不同质量的掩码的嵌入。大量实验证明我们的方法在性能和速度之间取得了最佳平衡。代码可在https://github.com/Limingxing00/RDE-VOS-CVPR2022获得。0�平等贡献。†通讯作者。此工作是在阿里巴巴实习期间完成的。0递归动态嵌入0SAM SAM0（a）STM模式存储器0存储器039，44]是半监督VOS中常用的方法。这些网络具有存储器机制，将一些帧编码为嵌入并将这些嵌入存储在存储器中，以辅助查询帧的分割。一些方法仅使用有限数量的帧的嵌入，例如地面真实帧（GT帧）[14]，最新帧（为简洁起见，查询帧的最新帧简称为最新帧）[27]以及两者[20,24,39]。这些方法没有充分利用视频中的历史帧。基于STM的方法[5,13,18,23,25,30,31,44]将嵌入存储在存储器中的每个13330在STM模式存储器中选择几个（例如5）帧，如图1（a）所示。尽管基于STM的方法利用等间隔采样来挖掘视频中的历史信息，但随着视频长度的增加，STM模式存储器的大小不断增加，不可避免地引入大量噪声。基于指数移动平均（EMA）的方法[17,19,33]试图解决这些问题。EMA基于方法根据某些标准从查询帧和存储器的嵌入中索引一些像素嵌入，并以EMA方式融合这些像素嵌入。然而，EMA基于方法由于直接求和操作存在严重限制（详见第3.1节）。本文解决了两个问题。1）如何构建和更新恒定大小的存储器以有效和高效地存储历史信息？2）除了GT帧外，由于不准确的网络推断，其他掩码都是不准确的，如何纠正由不准确掩码编码的嵌入？对于问题1，我们提出了递归动态嵌入（RDE）来为VOS提供更丰富的表示。如图1（b）所示，为了生成和更新RDE，我们提出了一个时空聚合模块（SAM）来自适应地组织历史信息（先前的RDE）和最新帧的嵌入。SAM包括三个部分：提取、增强和压缩。提取部分负责组织先前RDE和最新帧嵌入之间的时空关系。然后，增强部分加强时空关系，压缩部分聚合和压缩时空信息。我们将由SAM维护的存储器称为SAM模式存储器。SAM模式存储器的一个潜在风险是RDE的递归更新可能导致误差累积。然而，我们没有用于直接训练生成的RDE的GT。为了解决这个问题，我们提出了使用RDE分布的辅助监督。在训练过程中，我们额外构建了一个STM模式存储器（见图1（a））来获取未压缩的信息及其读取结果，这些结果用于估计RDE的分布。因此，我们设计了一个无偏引导损失来控制两个分布的接近程度。依靠无偏引导损失，网络的训练更加稳定，性能更高，而且在部署时没有额外的计算开销。对于问题2，我们设计了一种新颖的自校正策略，强制网络修复存储器中不同质量的掩码的嵌入。具体而言，我们首先模拟不同的扰动掩码，然后通过掩码一致性损失将由扰动掩码编码的嵌入约束为接近由GT掩码编码的嵌入。掩码一致性损失强制0在训练阶段，我们设计了一种使网络在嵌入空间中学习对不准确掩码的自校正能力的方法。为了研究所提出方法的有效性，我们在DAVIS 2017、DAVIS 2016和YouTube-VOS2019上进行了实验。所提出的方法在DAVIS2017验证集（86.1% J & F，27 FPS）、DAVIS2017测试集（78.9% J & F）、DAVIS 2016（91.6% J &F，35 FPS）上取得了最先进的性能，并在YouTube-VOS2019（83.3% J &F）上取得了优越的性能，而无需多尺度推断。此外，我们还展示了我们的方法在合成长视频中的有效性。对于合成长视频，我们的方法的J &F和FPS几乎不随合成长视频的长度而改变。我们的贡献可以总结如下：•我们提出了一种易于扩展的循环动态嵌入（RDE），与GT帧和最新帧的嵌入相比，为VOS提供了更丰富的表示，这由所提出的时空聚合模块（SAM）维护。0•为了避免由于SAM的循环使用而导致的误差累积，我们在训练阶段提出了一种无偏导向损失，使SAM在长视频中更加稳健。0•考虑到内存库中不准确的预测掩码会影响分割性能，我们设计了一种新颖的自校正策略，它强制网络在嵌入空间中学习对不准确掩码的自校正能力。0•在几个基准测试和合成长视频上进行了大量实验，证明了我们方法的有效性和优越性。02. 相关工作02.1. 半监督VOS0半监督VOS主要关注传播一个帧的特定对象掩码。半监督VOS可以大致分为三类：1）基于在线微调的方法[22,36]，通常在测试时学习通用分割特征并对目标视频进行微调。2）基于传播的方法[3,21]，以时间标签传播的方式改进目标分割掩码。3）基于匹配的方法[6, 23, 25, 30,44]，将一些帧编码为嵌入并将这些嵌入存储在内存库中以对查询帧进行分割。02.2. 基于匹配的VOS网络0STM[25]是基于匹配的方法中流行的网络，它构建了一个持续更新的内存库。��#1#1#1(c) SAMSAMRDE � � �…SAMRDE � � ��…��13340掩码E 掩0(b) 自校正策略0扰动0共享权重0图像E0(a) 我们框架的主要流程0提取0增强0压缩0解码器0帧 � � �0帧 � � ��0SAM模式内存库0仅训练0帧 � � ��0帧 � � �0帧 � 预测0STM模式内存库0帧 �0帧 �0图2. 展示了架构：(a)我们框架的主要流程。在训练阶段，我们维护两个独立的内存库，分别按照STM模式和我们的SAM模式进行更新。在推断阶段，我们只使用我们的SAM模式内存库。θ表示内存库更新的采样间隔。(b)自校正策略。提出的掩码一致性损失LMC强制掩码编码器学习对不准确的掩码具有自校正能力。(c)SAM的结构，它自适应地组织历史信息和最新帧的嵌入。0与使用有限帧（GT帧[14]或最新帧[27]）相比，记忆库可以更好地挖掘历史帧的信息。最近，基于匹配的网络受到了广泛关注。[5, 13, 20,30]改进了记忆库的读取操作，[37]利用光流进行局部注意力，[10]利用全局和实例嵌入学习来解决多目标VOS。尽管这些方法已经取得了令人满意的性能，但它们忽略了两个关键问题：1）随着视频帧数的增加，硬件无法承受不断增加的内存需求。2）存储大量信息必然引入大量噪声，不利于从记忆库中读取最重要的信息。02.3. 高效的VOS网络0高效VOS的方法通常属于传播方法或匹配方法。SAT[3]是一种传播方法，它将每个对象视为一个轨迹，并通过两个反馈循环对对象进行分割。OSMN[39]是一种匹配方法，它使用GT帧和最新帧来引导查询帧的分割，并使用两个调制器。最近，VOS的最流行的推理设置是每5帧保存历史帧的特征嵌入（STM模式）。一些方法[17, 19,33]尝试使用指数移动平均（EMA）来构建更高效的特征表示以记录历史信息。然而，这些方法只在最相似的嵌入之间进行操作。0由于直接求和操作（详见第3.1节）的存在，相似嵌入受到了很大的限制。03. 方法03.1. 使用EMA更新记忆库0在STM[25]中，图像和掩码被编码为两个嵌入空间，称为键和值。除了GT帧和最新帧的键和值之外，先前的基于EMA的方法构建了一个独立的嵌入IE。以键的更新为例，令kIEt(p)表示时间t的键，kQ(q)表示查询帧Q的键，其中p和q是空间位置的坐标。[17,19]利用EMA根据一定规则（详见补充材料）更新历史嵌入kIEt-θ(p)和查询嵌入kQ(q)。记忆库中的新嵌入kIEt(p)可以表示为：0kIEt(p) = (1 - λ)kQ(q) + λkIEt-θ(p) (1)0其中λ是一个超参数，用于控制更新强度，θ表示更新间隔。我们认为基于EMA的方法有一个很大的限制，即Eq.1中的两个额外项在参数空间中必须相似，因为存在求和操作。因此，这些方法[17,19]索引最相似的嵌入进行更新。我们的方法通过自适应地关联嵌入来更新额外的嵌入。Encoders.The main pipeline of our framework is illus-trated in Fig 2(a). For a query frame of size H × W, theimage encoder ImageE is responsible for extracting imagefeatures. We also adopt a mask encoder MaskE to encodea certain frame and its mask to store into the memory bank.Both the encoders adopt ResNet-50 [12] as the backboneand use two simple projection heads following STM [25]keyCkH16W16valuevm→Qt,i= W ⊙ vmt,i.(3)x = Cat(kRDEt−θ , kLt ), x ∈ RCk×2× H16 × W16(4)xagg =1C(x)ω(x)Tφ(x ↓)g(x ↓).(5)kRDEt= Squeeze(xagg + ASPP(xagg)).(6)133503.2. 框架概述016. 这里Ck和Cv是通道维度的数量（在我们的实验中，Ck= 64，Cv = 512）。0记忆读取和解码器。在STCN[6]的基础上，对于时间t的SAM模式记忆库m，我们保留无目标的键km t和有目标的值vmt,i，其中i表示第i个对象。对于来自SAM模式记忆库的键kmt(p)和查询帧的键kQt(q)之间的相似度S(p,q)，我们执行负平方欧氏距离，可以表示为：0S(p, q) = -||km t(p) - kQt(q)||^2 (2)0其中，p和q分别是kmt(p)和kQt(q)的空间位置的坐标。对于相似度S，我们在空间维度上应用softmax操作，以获得softmax归一化的亲和力矩阵W，W =softmax(S)。依靠W，可以通过矩阵乘法⊙获得来自SAM记忆库的第i个对象的读取特征vm→Qt,i：0读取特征 v m → Q t,i与查询帧的值连接，通过[6]中描述的轻量级解码器，得到第i 个对象在帧 t 上的分割结果 ˜ y mt,i。类似于SAM模式记忆库，我们将来自STM模式记忆库M 的读取特征 v M → Q t,i 与查询帧的值连接，得到第 i个对象在帧 t 上的分割结果 ˜ y M t,i。03.3. SAM模式记忆库0保持记忆库大小恒定的主要挑战是如何选择最有用的信息。STM模式记忆库可以无损地存储历史信息，但其大小不断增加，必然引入大量噪音。在我们的设计中，我们构建了一个SAM模式记忆库来应对这一挑战。在训练阶段，同时维护STM和SAM模式记忆库。在推理过程中，我们只使用SAM模式记忆库。0记忆库，可以保持记忆库大小恒定。具体而言，STM模式记忆库 M 包括 { k M t , v M 包括 { k m t,i}，而SAM模式记忆库 m t , v m t,i }。0循环动态嵌入。我们发现最新帧的嵌入随时间变化，为查询帧的分割提供了更多有用的信息，但缺乏历史信息的使用。我们在记忆库中提出了循环动态嵌入（RDE），将历史信息的线索与最新帧的嵌入相融合，为VOS提供更丰富的表示。我们将时间 t 的 RDE 嵌入表示为 { k RDE t , v RDE t,i } ∈{ k m t , v m t,i }。0时空聚合模块。为了生成和更新RDE，我们提出了一个时空聚合模块（SAM），利用历史信息的线索。SAM包括三个部分：提取、增强和压缩，如图2(c)所示。提取部分负责组织前一个RDE { k RDE t − θ , v RDE t − θ,i}（θ表示采样间隔）和最新帧的嵌入 { k L t , v L t,i }之间的时空关系。首先，我们将前一个RDE { k RDE t − θ ,v RDE t − θ,i } 和最新帧的嵌入 { k L t , v L t,i }进行连接，得到特征 x。以 k RDE t 更新为例，0其中 Cat表示时间维度上的连接操作。受到自注意机制的启发[35]，在提取部分，我们组织前一个RDE k RDE t − θ和最新帧的嵌入 k L t − θ之间的时空关系，以获取聚合特征 x agg。0C ( x ) 是一个归一化因子，表示 x 的空间位置总数。函数ω、φ和g是我们实现中的1×1×1卷积。x ↓表示经过最大池化操作处理的x（时间轴上没有下采样），可以降低计算复杂度。依靠聚合特征 xagg，在增强部分，我们通过空洞空间金字塔池化（ASPP）[2]以残差的形式增强 xagg。最后，在压缩部分，我们通过一个简单的2×3×3卷积对增强特征进行压缩，表示为 Squeeze函数。该公式可以表示为previous RDE and the embedding of the latest frame adap-tively fuse and maintain the constant size for the mem-Ck2H16W16+)(9)1336016。对于多个对象，我们将对象维度与批次维度连接，类似于STM[25]的实现。对于RDE的键和值，我们分别维护两个不同的SAM。0无偏引导损失。SAM模式存储器更新RDE可能会导致错误累积，尤其是在重复使用时。另一个问题是RDE的键和值由两个不同的SAM分别生成，它们的分布很难直接定义。假设STM模式存储器的更新过程是一个好的教师，从SAM模式存储器读取的估计分布应该接近从STM模式存储器读取的估计分布。因此，在训练阶段，我们为查询帧的分割维护两个单独的存储器，分别在STM和SAM模式中进行更新。我们提出了一个无偏引导损失L UG，用于控制从SAM模式存储器v m → Q t,i读取的特征分布接近从STM模式存储器v M → Q t,i读取的特征分布。无偏引导损失L UG 的计算如下：0L UG = �0i KL ( v M → Q t,i || v m → Q t,i ) .(7)0KL函数表示Kullback-Leibler（KL）散度，它是两个分布之间差异的非对称度量。0自校正策略。考虑到存储器中掩码的质量会影响查询帧的分割，我们提出了一个掩码一致性损失L MC，以约束不同质量的掩码嵌入和GT掩码的一致性。我们首先获得第一帧的键k 1 和值v 1 ,i。然后，我们对第一帧进行随机膨胀和腐蚀等扰动变换，以获得扰动后的键¨ k 1 和扰动后的值¨ v 1 ,i。掩码一致性损失L MC 可以通过以下方式计算：0L MC = KL(k 1 || ¨ k 1 ) 0i KL ( v 1 ,i || ¨ v 1 ,i ) (8)0其中KL函数表示KL散度。0整体损失函数。在训练阶段，我们采样了5帧。受到slowfast网络[9]的启发，我们利用SAM模式存储器对第三帧和第五帧进行分割，以处理不同速率的视频。此外，0我们利用STM模式存储器对第二帧和第四帧进行分割，以提高训练的稳定性。我们使用引导交叉熵（BCE）[5]来监督最终的分割结果，计算如下：0L Seg = 02 ( �0i0t = 2, 4 BCE (˜ y M t,i , y t,i ) � �� STM模式项0�0i0t = 3, 5 BCE (˜ y m t,i , y t,i ) � �� SAM模式项0其中˜ y M t,i 和˜ y m t,i分别表示从STM模式存储器和SAM模式存储器中读取的分割结果。y t,i表示第t帧中第i个对象的GT掩码。整体损失函数的计算如下：0损失 = L Seg + 1 [t = 3, 5] μL UG + γL MC (10)0其中μ和γ是控制强度的超参数。我们在实验中将μ设为10，γ设为10。1 [∙]是指示函数。0推理策略。如图2（a）所示，在推理过程中，我们使用SAM循环地更新RDE。具体而言，在任意长度的视频中，SAM将上一帧的RDE输入到时间t-θ，并将时间t的最新帧的嵌入生成RDE，其中θ是采样间隔。新的RDE存储在SAM模式存储器中，以辅助查询帧的分割，而旧的RDE则被丢弃。04. 实验04.1. 数据集和度量标准0DAVIS。DAVIS 2016[28]是用于视频单目标分割的流行基准，其验证集包含20个视频。DAVIS 2017[29]是用于视频多目标分割的流行基准，其验证集和测试集包含30个密集注释的视频。0YouTube-VOS。YouTube-VOS 2019 [ 38]是一个用于多目标视频分割的大规模基准，提供3,471个用于训练（65个类别）和507个用于验证的视频。验证集中还有额外的26个未见过的类别用于评估泛化性能。0度量标准。对于DAVIS数据集，我们使用区域相似度J，轮廓准确度F及其平均J &F来评估分割结果。对于YouTube-VOS2019，我们遵循官方评估服务器报告已见和未见类别的J和F，以及它们的平均值。×KMN† [30]×82.880.085.6<8.4JOINT† [23]×83.580.886.24.0LCM† [13]×83.580.586.5<8.5RMNet† [37]×83.581.086.0<11.9MiVOS†∗ [5]×84.581.787.411.2HMMN† [31]×84.781.987.5<10.0×2KMN† [30]×√77.274.180.3RMNet† [37]××75.071.978.1Ge et al.† [10]××75.272.078.3STCN†∗ [6]××77.874.381.3MiVOS†∗ [5]××78.674.982.2CFBI† [40]√×74.871.178.5Ge et al.† [10]√×75.272.078.3CFBI+† [41]√×75.671.679.6RDE-VOS†√×77.473.681.2RDE-VOS†∗√×78.974.982.9133704.2.实现细节0训练阶段。按照STCN [ 6 ]的方法，我们首先在静态数据集[4 , 16 , 32 , 34 , 43]上训练带有STM模式内存库的网络，进行75k次迭代，批量大小为64。静态图像经过类似STM [ 25]的合成变形处理。其次，我们在BL30K [ 1 , 7]上训练带有SAM和STM模式内存库的网络，进行500k次迭代，批量大小为8。最后，我们在YouTube-VOS和DAVIS2017上进行75k次迭代，批量大小为16（主要阶段）来微调带有SAM和STM模式内存库的网络。在训练阶段，BatchNorm层被冻结，遵循[ 25 ]的方法。0训练细节。我们采用四个16 GB的Tesla V100GPU来实现Pytorch。所有网络都是由Adam优化器[ 15]进行优化的。我们使用初始学习率为2e-5和1e-5在静态数据集和BL30K上对网络进行预训练。然后我们使用初始学习率为2e-5在主要阶段对网络进行微调。数据增强与STCN [ 6]相同。此外，我们在第一个预训练阶段采样3帧，在其他阶段采样5帧。0推理细节。在推理过程中，我们只使用SAM模式内存库。具体来说，除了通过SAM维护我们的RDE外，我们还采样最新帧的嵌入和两个重复的GT帧的嵌入。这个设置是为了在准确的模板信息（GT帧）和动态信息（最新帧或我们的RDE）之间保持采样平衡。我们在所有数据集上使用top-k过滤器[ 5]，k =40。DAVIS数据集上的采样间隔θ设置为3，YouTube-VOS2019上设置为4。04.3.与最先进的方法进行比较0我们将推理过程中的恒定大小的内存库称为ConstantCost（CC）。随着推理过程中视频长度的增加，CC方法可以保持相对稳定的速度和恒定的内存需求。为简洁起见，我们的VOS方法称为RDE-VOS。0DAVIS。我们将提出的方法与DAVIS 2017验证集、DAVIS2017测试集和DAVIS2016验证集上的先前最先进的VOS方法进行比较。在DAVIS 2017验证集上，如表1所示，我们的方法甚至比STCN [ 6]的J & F高出0.7％，速度快约35％（27 vs 20.2FPS）。与SwiftNet [ 33 ]相比，我们的方法在J &F上抑制了5％，速度稍有优势（+2 FPS）。在DAVIS2017测试集上，如表2所示，我们的方法仍然具有很大的优势。在DAVIS2016验证集上，如表3所示，我们的方法优于CC0方法 CC J & F J F FPS0GCNet [ 17 ] √ 71.4 69.3 73.5 < 25.0 Liang et al. [ 19] √ 74.6 73.0 76.1 4.0 G-FRTM † [ 26 ] √ 76.4 - - 18.2PReMVOS [ 21 ] √ 77.8 73.9 81.7 0.01 SwiftNet † [33 ] √ 81.1 78.3 83.9 < 25.0 SST † [ 8 ] √ 82.5 79.985.1 - Ge et al. † [ 10 ] √ 82.7 80.2 85.3 6.7 RDE-VOS† √ 84.2 80.8 87.5 27.0 RDE-VOS †� √ 86.1 82.1 90.0270表1. DAVIS2017验证集上的结果。CC表示推理过程中的恒定成本。†表示在训练阶段添加了YouTube-VOS [ 38 ]。�表示在训练阶段添加了BL30K[ 5 ]。0方法 CC 600p J & F J F0表2. DAVIS2017测试集上的结果。600p表示在600p分辨率上评估。0方法SwiftNet [ 33 ]对J &F提高了1.2%，速度提高了约40%（35 vs 25 FPS）。与STCN[ 6 ]相比，我们的方法速度提高了30%，而J &F几乎没有变化（-0.1%）。我们还在图4中展示了DAVIS2017验证集的定性结果。更多定性结果可以在补充材料中找到。0YouTube-VOS。在大规模的YouTube-VOS2019验证集上，我们将我们的方法与最新的先进方法进行比较，如表4所示。尽管我们的方法在YouTube-VOS2019验证集上没有超过STCN，但它仍然超过其他先进方法，无论是否添加了BL30K。×STM† [25]×89.388.789.96.3KMN† [30]×90.589.591.58.4LCM† [13]×90.789.991.48.5HMMN† [31]×90.889.692.010.0MiVOS†∗ [5]×91.089.792.416.9STCN†∗ [6]×91.790.493.026.9GCNet [17]√86.687.685.725.0CFBI+† [41]√89.988.791.15.9SwiftNet† [33]√90.490.590.325.0RDE-VOS†√91.189.792.535.0RDE-VOS†∗√91.690.093.235.0×MiVOS†∗ [5]×82.480.684.778.285.9STCN†∗ [6]×84.282.687.079.487.7CFBI† [40]√81.080.685.175.283.0SST† [8]√81.880.9-76.6-RDE-VOS †√81.981.185.576.284.8RDE-VOS †∗√83.381.986.378.086.913380方法 CC J & F J F FPS0表3. DAVIS2016验证集上的结果。CC表示推理过程中的恒定成本。0方法 CC 总体 J 已见 F 已见 J 未见 F 未见0表4. YouTube-VOS 2019验证集上的结果。0合成长视频。最近，流行的基准测试包括短视频片段。例如，DAVIS2017每个视频片段平均只有67帧。然而，许多实际应用需要处理更多的帧。与STCN [ 6]相比，我们展示了我们的方法在包含更多帧的场景中的有效性。以DAVIS2017中的“cows”为例（基本长度为104），将视频向前和向后作为基本单位，我们重复采样多个基本单位来合成一个长视频。这种合成方法确保每个帧都包含GT，并且相邻帧之间具有平滑的过渡。如图3所示，随着合成长视频的长度增加，我们的方法的性能和速度几乎不受影响，而STCN的性能和速度明显下降。在这里，我们与DAVIS数据集上的设置相比，没有改变任何超参数。此外，我们利用STCN的官方代码，并将采样间隔最小化为60帧，以最大程度地利用GPU内存。所有输入数据都存储在CPU上，并在一块GPU上进行推理。0推理时间。我们在一块Tesla V100GPU上以全浮点精度评估推理时间。在DAVIS2017和DAVIS2016的验证集上，如表1和表3所示，我们的方法在速度上与STCN相比具有很大优势（DAVIS 2017上的FPS为27 vs20.2，DAVIS 2016上的FPS为35 vs 26.9）。0图3. 我们的方法和STCN[6]在合成长视频上的J和F以及FPS。注意，不同颜色的线表示不同的指标。当合成长视频的长度是原始视频的1、10、15和20倍时，我们的方法的J和F和FPS几乎不变。然而，STCN的J和F和FPS都有明显的降低。04.4. 消融研究0数据集设置。我们在表1、2、3和4中比较了是否采用BL30K[5]。在没有BL30K预训练的情况下，我们的方法在所有数据集上都具有优越的性能，并且速度更快。添加了BL30K预训练后，我们的方法在所有数据集上都有稳定的改进。0推理设置。表5展示了采用内存库的不同推理策略。与仅使用第一帧或最新帧的嵌入相比，仅使用我们的RDE在J和F方面具有最佳性能，达到81.8%。此外，基于使用第一帧的嵌入、最新帧的嵌入以及两者的嵌入，添加我们的RDE可以分别进一步提高J和F13.7%、1.8%和0.8%。基于使用RDE和第一帧以及最新帧的嵌入，我们探索了准确模板信息（GT帧）和动态信息（最新帧或我们的RDE）的采样平衡。我们发现，额外采样GT帧的嵌入以保持两种信息类型的采样平衡可以进一步提高J和F0.7%。除非另有说明，我们在所有实验中都使用这种策略。我们还展示了不同采样间隔θ的消融实验，其中采样间隔为3时提供了最佳结果。0损失函数设置。在表6中，我们对没有BL30K[5]预训练的不同损失函数进行了消融研究。我们提出的LMC 和L UG都可以在不同程度上提高性能，它们的组合可以最大化性能（+1.7%J和F）。此外，尽管我们在推理过程中没有使用STM模式内存库，但我们发现监督分割结果可以进一步提高性能。MiVOSSTCNRDE81.878.085.713390我们的0图4. DAVIS 2017验证集上的定性结果。我们在具有挑战性的尺度和变形情况下比较了MiVOS [5]和STCN [6]，我们的方法有明显的改进。0变体 J 和 F J F0策略排列0第一帧 71.6 67.8 75.4 第一帧和RDE 85.3 81.6 89.00最新帧 80.4 76.9 83.8 最新帧和 RDE 82.2 78.4 86.00第一帧和最新帧 84.6 81.0 88.2 F和L和RDE 85.4 81.689.20第一帧 × 2 和最新帧 85.1 81.5 88.7 第一帧和最新帧 × 2 84.0 80.4 87.6 2F 和 L 和 RDE 86.182.1 90.00采样间隔θ02F 和 L 和 RDE ( θ = 2) 85.1 81.4 88.9 2F 和 L 和RDE ( θ = 3) 86.1 82.1 90.0 2F 和 L 和 RDE ( θ =4) 85.1 81.5 88.8 2F 和 L 和 RDE ( θ = 5) 84.280.5 87.90表5. DAVIS2017验证集上推理策略的消融实验。F和L和RDE表示第一帧、最新帧和RDE。2F表示我们两次采样GT帧的嵌入，以保持准确模板信息和动态信息的平衡，除非另有说明，这在所有实验中都使用。0消融设置 J 和 F J F0损失0无 L MC 83.7 80.5 86.90无 L UG 82.9 79.5 86.40无 L MC 和 L UG 82.5 79.1 86.00无STM模式项的L Seg 83.0 79.4 86.60完整 84.2 80.8 87.50表6. 没有BL30K [5]预训练的不同损失函数的消融实验。0在等式9中，STM模式项的引入可以帮助训练SAM模式（+1.2% J & F）。04.5. 限制。0在推理过程中，我们将RDE更新的采样间隔设置为θ。这个简单的设置可以轻松地插入其他基于匹配的VOS方法。我们在DAVIS数据集上固定采样间隔θ=3，并实现了新的最先进性能。我们在YouTube-VOS上增加采样间隔1以适应运动模式。未来的更好解决方案是使用可学习的鉴别器[11]或门控机制[42]来自适应地控制SAM的更新间隔，以更好地处理不同的场景。05. 结论0在本文中，我们探讨了如何构建和更新一个恒定大小的存储器，以最大化查询帧的分割性能。关键的见解是，我们提出了一种循环动态嵌入（RDE），与GT帧和最新帧的嵌入相比，为VOS提供了更丰富的表示。为了生成和更新RDE，我们提出了一种新颖的时空聚合模块（SAM），它自适应地组织历史信息的线索和最新帧的嵌入。为了避免由于对SAM的重复使用而导致的误差累积，我们在训练阶段提出了一种无偏引导损失，使SAM在长视频中更加稳健。此外，我们设计了一种新颖的自校正策略，使网络能够对具有不同质量的掩码进行编码和自修复。0致谢。我们感谢中国国家重点研发计划（2017YFA0700800）、国家自然科学基金（61931014、62131003和62021001）以及中央高校基本科研业务费（WK3490000006）的资助。[25] Seoung Wug Oh, Joon-Young Lee, Ning Xu, and Seon JooKim. Video object segmentation using space-time memorynetworks.In Proceedings of the IEEE/CVF Internatio

下载后可阅读完整内容，剩余1页未读，立即下载