自监督视频内外重建方法LIIR的研究与应用

155 浏览量更新于2023-10-25 收藏 32.04MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

626570758085 4561070[87][39]8][31][34][94][54][3][60][45][82][43][36][75][44][100][61][28][55]][10]87190自监督对应学习的局部感知视频内外重建0Liulei Li 1, 6 * , Tianfei Zhou 2, Wenguan Wang 3 † , Lu Yang 4, Jianwu Li 1, Yi Yang 501 北京理工大学 2 ETH Zurich 3 ReLER, AAII, University of Technology Sydney04 北京邮电大学 5 CCAI, 浙江大学 6 百度研究0https://github.com/0liliulei/LIIR0摘要0我们的目标是从未标记的视频中学习视觉对应关系。我们开发了LIIR，一种局部感知的视频内外重建方法，填补了自监督对应学习难题中的三个缺失部分，即实例区分、位置感知和空间紧凑性。首先，我们不同于大多数现有的方法只关注于视频内部的自我监督，我们利用跨视频的相似性作为额外的负样本，在统一的视频内外重建方案中进行对比，通过对比期望的视频内像素关联与负面的视频间对应关系，实现实例区分性表示学习。其次，我们将位置信息合并到对应匹配中，并设计了一种位置偏移策略来消除位置编码在视频间相似度计算过程中的副作用，使我们的L IIR具有位置敏感性。第三，为了充分利用视频数据的空间连续性特性，我们对对应匹配施加了基于紧凑性的约束，得到更稀疏和可靠的解决方案。学到的表示在对象、语义部分和关键点等标签传播任务上超越了自监督的最新技术。01. 引言0作为计算机视觉中的一个基本问题，对应匹配有助于许多应用，如场景理解[71]、物体动力学建模[27]和3D重建[19]。然而，为视觉对应关系提供监督表示并不是一件简单的事情，因为获取像素级的手动注释是昂贵的，有时甚至是禁止的（由于遮挡和自由形变）。虽然合成数据可以在某些低级视觉对应任务（例如光流估计[2]）中作为一种替代方法，但它们限制了对真实场景的泛化。使用自然视频作为免费监督的来源，即0* 本工作在百度研究实习期间完成。†通讯作者：Wenguan Wang。0ContrastCorr0MASTVFS0CLTC0CRW0RANet0AGSS0M0OSVOS-S0CINM0MHP-VOS0AFB-URR0RGMP0DyeNet0e-OSVOS0Fasttan0EGMN0AGAME0Fasttmu0OnAVOS0STCN0像素级注释数量（对数刻度）0J &F（均值）0图1. 在DAVIS 17 val上的性能比较。我们的LIIR超越了所有现有的自监督方法，并与许多使用大量注释进行训练的全监督方法相媲美。0自监督的时间对应学习被认为是有吸引力的[40]。这是因为视频包含了丰富的真实外观和形状变化，几乎是无限的供应，并从内在的一致性中提供有价值的监督信号，即帧之间的相关性。沿着这个方向，现有的解决方案通常建立在重建方案的基础上（即通过找到并组装相邻帧中相关像素来重建“查询”帧的每个像素）[39, 40,84]，并/或采用循环一致跟踪范式（即在前向和后向跟踪的一个周期后，鼓励像素/补丁落入同一位置）[31, 42, 52, 86,90]。不幸的是，这些成功的方法在强调鲁棒的时间对应学习时很大程度上忽视了三个关键能力，即实例区分、位置感知和空间紧凑性。首先，其中许多方法只考虑了视频内部的上下文来进行对应学习。由于很难从单个视频中获得不同对象实例的自由信号，学到的特征不可避免地具有较低的实例区分性。其次，现有方法通常没有明确的位置表示。这种设计似乎87200图2.不同的自监督架构用于时间对应学习（§2）：（a）基于重构，（b）基于循环一致性，以及（c）我们的LIIR，它解决了实例区分、位置感知和空间紧凑性。0这是违反直觉的，因为有大量证据表明空间位置在人类视觉系统中被编码[25]，并且在人类追踪物体时起着重要作用[62]。第三，由于视觉世界是连续且平滑变化的，视频中自然存在空间和时间的一致性。虽然有许多策略用于解决时间轴上的平滑性，但对于空间情况却付出了较少的关注。为了填补自监督对应学习中的这三个缺失的要素，我们提出了一个局部感知的视频内部和视频间重构框架-LIIR。首先，我们通过增加视频间上下文来增强现有的基于视频内部分析的对应学习策略，这对于实例级别的分离是有信息的。这导致了基于视频内部和视频间重构的训练目标，激发了视频内部正对应匹配，但惩罚了不可靠的像素关联在视频内部和跨视频中。我们通过实验证明，我们的视频内部和视频间重构策略可以产生更具辨别性的特征，这些特征编码了先前算法建模的低级别内部实例不变性之外的更高级别语义。其次，为了使我们的LIIR更加位置敏感，我们学习将位置信息编码到表示中。虽然位置偏差在视频内部对应匹配中受到青睐，但在视频间情况下是不希望的。因此，我们设计了一种位置偏移策略，以增强位置编码的优势并规避其弱点。我们通过实验证明，明确的位置嵌入有益于对应匹配。第三，我们在视频内部像素级关联估计中引入了空间紧凑性先验，从而产生了稀疏但紧凑的关联。对于每个查询像素，相关像素的分布由高斯混合模型拟合。这使得每个查询像素只与相邻帧中的少数几个空间接近的像素匹配。我们的实验证明，这种紧凑性先验不仅规范了训练，还在推理过程中去除了异常值。这三个贡献共同使LIIR成为一个强大的自监督对应学习框架。在没有任何适应的情况下，学习到的表示对于各种对应相关的任务（例如，视频对象分割、语义部分传播、姿势跟踪）都是有效的。在这些任务上，LIIR始终优于无监督的最新技术，并且与一些任务特定的全监督方法相当或甚至更好（例如，图1）。02.相关工作0自监督的时间对应学习。在视频领域中，对应匹配在许多任务中起着核心作用（例如，视频分割[27]，光流估计[15,29]和物体跟踪[4]）。一种新兴的工作线路通过利用视频中的时间一致性来解决这个问题，采用自监督学习范式。这些工作可以分为两大类。第一类方法[39,40,84]提出了一种着色代理任务（图2（a）），即根据它们的对应关系从相邻帧重构查询帧。后一类方法[31,42,52,86,90]执行前向和后向跟踪，并惩罚跟踪像素或区域的起始和结束位置之间的不一致性（图2（b））。基本思想-循环一致性-也被采用在无监督跟踪[86,106]，光流[56,111]和深度估计[33,103]中。尽管令人印象深刻，但这些方法缺少三个关键要素来实现鲁棒的对应匹配：实例区分、位置感知和空间紧凑性。为此，L IIR配备了三个特定模块（图2（c））。首先，为了实现实例区分表示学习，它采用了一种基于视频内部和视频间关联的对应关系重构方案。其次，它将位置编码引入到表示学习中。第三，它对对应关系学习和推理都施加了空间紧凑性先验。0我们并不是第一个探索视频间上下文的人。在[52]中，Lu等人提出了一种无监督学习目标，即区分一组替代视频类别，但他们计算的是视频级别的嵌入，不足以进行像素级对应学习。在[87]中，Wang等人同时考虑了视频内部和视频间的表示关联，但需要预先对齐的补丁对。此外，他们使用了三个损失项来解决所需的内部-间隔约束，而在我们的工作中，我们将其统一为一个训练目标。此外，我们进一步考虑了位置感知和空间紧凑性，而不仅仅是视频间上下文。在[98]中，Xu等人重新审视了图像级相似性学习的思想，并认为来自同一视频的帧对是正样本，来自不同视频的帧对是负样本，然而，他们发现负样本（即视频间上下文）会损害ˆIq(i) =87210他们的模型表现。相比之下，我们通过一个统一的像素级亲和力框架来构建视频内部和视频间的上下文，提升了实例级别的区分能力，同时不损失实例内部的不变性。我们的结果表明，如何充分利用负样本进行时间对应学习仍然是一个有趣的问题。自监督视频表示学习。使用无标签视频数据进行对应学习的方法属于广泛的自监督视频表示学习领域。为了学习可迁移的视频表示，提出了多种预训练任务，以探索视频的不同内在属性作为自由监督信号，包括时间序列排序[17, 58, 95]，预测运动模式[1, 18, 65, 78,85]，解决时空立方谜题[38]，预测未来表示[49,83]，以及时间对齐视频[16]。学习到的表示是紧凑的视频描述符，可以推广到各种下游任务（例如动作识别[21, 22, 69,96]，视频字幕生成[74,110]，视频检索[57]），而在本文中，我们特别关注学习用于像素级对应匹配的细粒度视觉特征。自监督图像表示学习。基本上，用于图像表示学习的自监督方法与用于视频的方法有着相似的关键思想-设计预训练任务，以从图像内部的内在信息中挖掘监督信号[102]。这些任务的例子包括估计空间上下文[13]，预测图像旋转[20]，解决拼图难题[59]，以及许多其他任务[41, 66,92]。最近的努力主要集中在改进大规模的深度度量学习技术，即采用实例区分预训练任务，其中交叉熵目标用于将每个图像与其他不同图像（即负样本）区分开[7, 8, 23, 26,63]。在这项工作中，我们吸收了在鲁棒的时间对应匹配中对比正样本（视频内部亲和力）和大量负样本（视频间亲和力）的思想，并在一个统一的视频内部和视频间重建框架中加以实现。视频掩码传播。这个任务，也称为半自动视频分割，旨在将第一帧的对象掩码传播到整个视频序列[77,88]。它解决了经典自动视频分割技术[51, 64, 89, 90, 108,109]在定义目标对象方面缺乏灵活性的问题[91]。根据它们如何利用第一帧的监督，现有的掩码传播模型可以分为三类：i）基于在线微调的方法，在推断过程中使用掩码对通用分割网络进行微调[5,82]；ii）基于匹配的方法，直接将分割网络与第一帧掩码和/或先前的分割结果相关联[32, 50, 61, 67, 80,104]。如图1所示，通常需要大量的注释来训练这些系统，即首先在ImageNet上进行预训练，然后在COCO、DAVIS、Youtube等数据集上进行微调。0与 VOS [ 99]等方法不同，我们追求更高效的注释解决方案；类似于之前的自监督对应关系学习方法 [ 39 , 40 , 52 , 84 ]，L IIR仅使用无标签视频进行训练。一旦训练完成，它可以直接应用于掩码传播，无需适应。03. 我们的方法0我们提出了 L IIR，这是一个自监督框架，可以从原始视频中学习到密集的对应关系。在详细介绍我们的模型设计（参见 § 3.2）之前，我们首先回顾一下经典的基于重建的时间对应关系学习策略（参见 § 3.1 ），这是我们 L IIR 的基础。03.1. 初步：通过帧重建学习时间对应关系0由于视频中的外观连续性，可以将‘查询’帧中的像素视为从其他‘参考’帧的某些位置‘复制’而来。基于此，一些研究 [ 40 , 84]提出了基于重建的对应关系学习方案：每个查询像素都努力寻找能够最好地重建自己的参考帧像素。形式上，令 I q ， Ir ∈ R H × W × 3分别表示来自同一视频的查询帧和参考帧。它们通过ConvNet 编码器（例如 ResNet [ 24 ]） φ投影到像素嵌入空间中： R H × W × 3 → R h × w × c，使得 I q ， I r = φ ( I q ) ， φ ( I r )。‘复制’运算符可以近似为一个帧间亲和矩阵 A ∈ [0 ,1] hw × hw ：0A ( i, j )= ex�0j ′ exp( I q ( i ) ∙ I r ( j ′ )) , i, j ∈{ 1 , ∙ ∙ ∙ , hw} (1)0其中 A ( i, j ) ∈ [0 , 1] 是 A 中的第 ( i, j ) 个元素，表示 Iq 中的像素 i 与 I r 中的像素 j 之间的相似度，‘ ∙’表示点积。这样，A 给出了 I q 和 I r之间所有像素对应关系的强度，根据这个强度，可以通过 I r中像素的加权和对 I q 中的像素 i 进行重建：0j A ( i, j ) I r ( j ) . (2)0因此， φ 的训练目标被定义为重建损失： L res = || I q − ˆ I q ||2 . (3)0在实践中，为了避免信息泄露导致的平凡解，采用了信息瓶颈训练样本，例如 RGB2gray 操作 [ 84 ]，RGB [ 40 ]或Lab [ 39]颜色空间的逐通道dropout。训练后，使用表示编码器 φ进行对应匹配：类似于公式 2，估计亲和力 A并用于从参考帧传播所需的像素级实体（例如实例掩码、关键点图）到查询帧。03.2. L IIR ：局部感知的视频内和视频间重建框架0在重建复制方案的基础上，L IIR具备了三个关键但长期被忽视的能力I qI rI rI q,(4)87220(b) 视频间和视频内重建 (a) 视频内重建0查询 i0查询 i0{ I n } n0学习到的表示0w/ 视频内重建0学习到的表示 w/视频内和视频间0重建0帧图像与0相似的物体0实例0(c)0(d)0带有视频内重建的实例掩码传播0传播 w/带有视频内和视频间重建0对应关系0对应关系0图3. 视频内部和视频间的重建（§ 3.2）。（a）以前的基于视频内部重建的方法在区分不同实例方面存在困难。（b）在我们的视频内部和视频间的重建中，每个查询像素被迫区分0）和负面的视频间关联（0），实现跨实例区分。（c）-（d）通过视频内部和视频间的重建学习到的表示对于多个物体实例更加鲁棒。0对于鲁棒的对应关系学习具有重要意义：实例区分、位置感知和空间紧凑性。通过计算视频内部相似度A（公式1），每个查询像素被迫区分其在同一视频中的对应（正面）参考像素和不相关（负面）像素，重建质量指标Lres（公式2-3）。由于正负样本都来自同一视频，对于仅具有视频内部外观的相似物体实例之间的区分，很少有证据（图3（a））。由于单个视频仅包含有限的内容，在视频内进行对应匹配较少具有挑战性，并且不可避免地阻碍了学习表示的区分潜力[87]。这些见解激励我们通过进一步考虑跨视频的负面对应关系来改进基于视频内部相似度的重建方案。具体而言，给定来自同一视频的查询（Iq）和参考（Ir）帧，计算一个视频内部-视频间相似度A'∈[0，1]hw×hw：0A'(i, j) = exp(Iq(i)∙Ir(j))0j' exp(Iq(i)∙Ir(j'))0视频内部对应关系0+0k exp(Iq(i)∙In(k))0视频间对应关系0其中{In}n是从整个训练数据集中采样的一组帧，除了Iq(Ir)的源视频。通过额外考虑其他不相关的帧0在计算相似度时考虑其他不相关视频的帧，大大提高了负样本的数量和多样性，使我们能够得到更具挑战性的视频内部和视频间重建方案（图3（b））：0ˆ Iq(i) =0j A'(i, j) Ir(j) . (5)0通过公式4-5，查询帧Iq中的每个像素i需要区分其与大量不相关的像素的对应关系，这些像素不仅来自当前视频中的参考帧Ir，还来自其他视频中的大量无关帧{In}。然而，这个强大的想法通过与公式3相同的训练目标优雅地实现。需要注意的是，公式4通过规范化视频内部的像素对像素相关性和视频间的像素对像素相关性，而公式5仅使用参考帧Ir中的像素进行重建。这里的理论是，即使编码器φ错误地将查询像素i与In中的一个负面但外观相似的像素k匹配，即exp(Iq(i)∙In(k))将会很大，仍然会有差异。0j A'(i, j) �1，合成的颜色ˆIq(i)与Iq(i)仍然非常不同，φ将从公式3中获得大梯度。因此，φ被驱使着挖掘更多高级语义和上下文相关的线索，从而增强实例级别的区分能力（图3（c））。图3（d）显示了使用我们的视频内部和视频间重建策略学习到的表示可以区分附近外观相似的狗。虽然[87]也解决了基于视频间分析的重建问题，但它在补丁级别上进行嵌入关联，依赖于预训练的补丁对齐跟踪器。此外，该方法需要三个损失项进行监督，比我们的方法复杂得多。此外，它还分别进行了视频内部和视频间相似度的重建。这是有问题的；当当前视频中的参考帧和其他视频中的不相关帧都包含类似查询的像素时，没有明确的监督信号来确定应该匹配哪一个。位置编码和位置偏移。神经科学的大量文献揭示了人类视觉系统在感知和跟踪物体时对外观和位置信息进行编码[25，48，62]。然而，现有的无监督对应方法都将重点放在通过ConvNets改进外观表示上，忽视了位置信息的价值。尽管[30，37]表明ConvNets可以通过利用图像边界效应隐式捕获位置信息，但显式位置编码已经成为全注意力网络（例如Transformer[79]）的核心，并促进了各种任务（例如实例分割[93]，跟踪[47]，视频分割[11]）。所有这些都表明，在时间上的对应关系学习领域，位置编码值得更多关注。沿着这个方向，L IIR显式地将位置编码图P∈Rh'×w'×c'注入特征编码器φ：0I = φ(I,P)，(6)87230P0¯P0图4.（a）位置偏移的示意图。（b）位置编码的效果。详见第3.2节。0其中P添加了φ的第一个卷积层的输出特征，并且与卷积特征具有相同的大小和维度。我们探索了三种位置编码策略：•2D正弦位置嵌入（2DSPE）：P使用一组预定义的正弦函数给出，不引入新的可训练参数:0P(x,y,2u)=sin(x∙ε4uc′)，P(x,y,2u+1)=cos(x∙ε4uc′)，0P(x,y,2v+c′02)=sin(y∙ε4vc′)，P(x,y,2v+1+c′02)=cos(y∙ε4vc′)0其中x∈[0,w′)，y∈[0,h′)指定水平和垂直位置，u，v∈[0,c′/4)指定维度，ε=10−4。水平（垂直）位置编码在前（后）一半维度中。2DSPE自然处理在训练过程中未见过的分辨率。0•1D绝对位置嵌入（1DAPE）：1DAPE是最重的策略：整个P是一个可学习的参数矩阵，没有任何约束。0•2D绝对位置嵌入（2DAPE）：与[14]中一样，为水平和垂直位置分别学习两个单独的参数集：X∈Rw′×c′/2和Y∈Rh′×c′/2，然后将它们组合生成P。0通过我们的视频内部-视频间亲和力（Eq.4），利用视频内部对应匹配中的位置信息，即{exp(Iq(i)∙Ir(j))}j，解决了视频中的局部连续性。然而，对于视频间像素相关性计算，即{exp(Iq(i)∙In(k))}n,k，这种位置先验是不可取的，因为它会使查询像素i在Iq中更喜欢与其他不相关视频{In}n中具有相似位置的像素匹配。为了消除这种位置编码引起的偏差，我们设计了一种位置偏移策略（图4（a））。在训练过程中，对于来自其他视频的In，我们将P中的位置编码向量在水平和垂直轴上进行随机步长的循环移位。我们采用随机移位而不是随机洗牌的原因是为了保留调制位置编码图¯P中的空间布局。然后，¯P和In被馈送到φ进行0（a）不带有空间紧凑性先验0（b）带有空间紧凑性先验0查询查询0查询查询0图5.空间紧凑性先验的示意图（第3.2节）。0视频内部-视频间对应匹配，并且如果使用可学习的1DAPE或2DAPE，则放弃与¯P相关的梯度。请注意，标准位置编码P适用于查询（Iq）和参考（Ir）帧，并且正常更新。图4（b）直观地显示将位置信息合并到视觉表示中可以实现稳健的对应匹配，即使背景混乱且运动迅速。在第4.4节中，我们将定量验证1DAPE更受青睐，并确实提高了性能。空间紧凑性先验。由于视觉世界是连续且平滑变化的，合理假设视频数据中的外观在空间和时间维度上都平滑变化。对于对应学习，已经广泛研究了时间连贯性，而空间连续性则受到了较少关注。为了减少搜索区域，一些现有方法[39，40，84]以简单的方式限制对应匹配在局部窗口内进行，考虑空间规律性。为了更好地利用空间连续性，我们使用额外的先验增强了原始重建目标，称为空间紧凑性。这样的先验对相关像素的空间分布施加约束，导致稀疏且连贯的解决方案。具体而言，给定查询（Iq）和参考（Ir）帧，我们期望i)每个查询像素i只与少量的参考像素匹配，ii)匹配的参考像素聚集在一起。对于查询像素i及其匹配的“热图”：Ai=[A(i,j)]j∈[0,1]h×w，相对于Ir，我们假设Ai遵循M个2D高斯分布的混合:0P（x，y）= � M0m = 1 ω m N（x，y | µ m，Σ0其中（x，y）指定像素位置的坐标。我们将{µ m =[µx，m，µ y，m]} m设置为Ai中前M个得分的坐标，并设置M =2以处理稀疏的鲁棒匹配。其他参数，即{Σ m =[σ 2x，m，0；0，σ 2 y，m]} m，{ω m } m，可以从Ai中高效地估计，而不会产生高计算成本。通过这种方式，我们可以为每个查询像素i导出一个“紧凑”的匹配热图˜Ai∈[0，1]h×w，并最终得到˜A =[˜A i]i∈[0，1]hw×hw。这种空间紧凑性先验˜A完全意识到i）和ii），并用于规范化我们的表示学习：75%100%50%15%100%50%30%87240方法骨干督导数据集（大小）J＆F（平均）↑ J（平均）↑ J（召回）↑ F（平均）↑ F（召回）↑0Colorization [84] ResNet-18 Kinetics（-，800小时）34.0 34.6 34.1 32.7 26.8 CorrFlow [40] ResNet-18 OxUvA（-，14小时）50.3 48.4 53.2 52.256.0 TimeCycle [90] ResNet-50 VLOG（-，344小时）48.7 46.4 50.0 50.0 48.0 UVC [42] ResNet-50 C + Kinetics（30k，800小时）60.9 59.3 68.862.7 70.9 MuG [52] ResNet-18 OxUvA（-，14小时）54.3 52.6 57.4 56.1 58.1 MAST [39] ResNet-18 Youtube-VOS（-，5.58小时）65.5 63.3 73.267.6 77.7 CRW [31] ResNet-18 Kinetics（-，800小时）68.3 65.5 78.6 71.0 82.9 ContrastCorr [87] ResNet-18 C +TrackingNet（30k，300小时）63.0 60.5 - 65.5 - VFS [98] ResNet-18 Kinetics（-，800小时）66.7 64.0 - 69.4 - JSTG [105] ResNet-18Kinetics（-，800小时）68.7 65.8 77.7 71.6 84.3 CLTC [34] † ResNet-18 Youtube-VOS（-，5.58小时）70.3 67.9 78.2 72.6 83.7 DINO [6] ViT-B/8I（1.28M，-）71.4 67.9 - 74.9 - L IIR ResNet-18 Youtube-VOS（-，5.58小时）72.1 69.7 81.4 74.5 85.90ResNet [24] ResNet-18 � I（1.28M，-）62.9 60.6 69.9 65.2 73.80OSVOS [5] VGG-16 � I+D（1.28M，10k）60.3 56.6 63.8 63.9 73.80FEELVOS [81] Xception-65 � I + C + D + Youtube-VOS（1.28M，663k）71.5 69.1 79.1 74.0 83.80STM [61] ResNet-50 � I + D + Youtube-VOS（1.28M，164k）81.8 79.2 88.7 84.3 91.80†：使用任务特定的模型权重和架构。I：ImageNet [12]。C：COCO [46]。D：DAVIS 17 [68]。0表1.在DAVIS 17 [68]val上进行视频对象分割（§4.1）的定量结果。对于数据集的大小，我们报告自监督方法的（原始图像数量，原始视频长度）和监督方法的（图像级注释数量，像素级注释数量）。0参考 15%0100% 40% 参考 15%075% 100% 50% 参考 25%0图6.视频对象分割（§4.1）的定性结果，分别在DAVIS 17 [68] val（左）和Youtube-VOS [99] val（右）上。0Lcom = ||˜A - A||2.（8）0请注意，Lcom仅适用于视频内部对应匹配。此外，我们在推理过程中用˜A替换A，这有效地消除了异常值。最近的两种全监督视频分割方法也通过单高斯局部先验[72]或top-k匹配滤波[9]探索了局部连续性，尽管在任务设置上存在差异，但两者都可以视为我们基于混合高斯的紧凑性先验的特定实例。图5显示，我们的空间紧凑性先验通过激发稀疏和紧凑的解决方案有助于建立可靠的对应关系。相关实验可以在第4.4节中找到。03.3.实现细节0网络配置。为了公平比较，我们的特征编码器φ实现为ResNet-18[24]，与[31, 84,98]中的实现相同。根据[34, 39,40]，只在第三个残差块中进行2倍下采样。因此，φ最终输出输入大小的1/4大小的256个特征图，即h=H。04，c = 256。位置嵌入被添加到第一个7×7 Conv-BN-ReLU层之后的特征中，即h' = H02，c' = 64。训练：L IIR从头开始在两个NVIDIARTX-3090 GPU上进行训练，只使用来自Youtube-VOS[99]的原始视频。每个训练图像被调整为256×256，并采用Lab颜色空间[39]中的通道丢弃作为信息瓶颈。采用Adam优化器。0使用。在最初的30个时期，仅采用视频内重建学习进行热身，学习率为10^-3，批量大小为32。然后，在接下来的5个时期中，进行基于空间紧凑性的跨视频重建学习，学习率为10^-4。0和批量大小为12。我们在线维护一个包含来自不同视频的1,440帧的内存库。对于每个查询像素，我们从每个存储的帧中采样4个特征点，即总共使用1,440×4个负样本进行帧间视频对应计算，并采用移动平均策略[23, 76,97]进行参数更新。测试：一旦LIIR完成训练，应用于下游任务时不进行微调。请注意，我们利用增强的紧凑性先验的帧间关联性˜A进行掩模传播。如[39,61]所示，我们将多个帧作为参考，充分利用时间上下文：在时间步t，当前帧掩模传播参考了前一帧I0，I5，It−5，It−3和It−1（如果适用）。04. 实验0我们在多样的视频标签传播任务上评估了学习到的表示，即视频目标分割（第4.1节），身体部位传播（第4.2节）和姿态关键点跟踪（第4.3节）。按照惯例[31, 84,98]，所有这些任务都是将第一帧注释传播到整个视频序列，我们使用我们的模型计算帧间密集的70%100%40%20%75%100%50%25%8725070% 100% 40% 20% 参考文献0图7. 部分传播（第4.2节）和姿态跟踪（第4.3节）的定性结果，分别在VIP [107]验证集（左）和JHMDB [35]验证集（右）上。0已见未见方法监督总体 J ↑ F ↑ J ↑ F ↑0上色[84] 38.9 43.1 38.6 36.6 37.4 CorrFlow[40] 46.6 50.6 46.643.8 45.6 MAST[39] 64.2 63.9 64.9 60.3 67.7 CLTC[34]† 67.366.2 67.9 63.2 71.7 L IIR 69.3 67.9 69.7 65.7 73.80OSVOS[5] - 58.8 59.8 60.5 54.2 60.70PreMVOS[53] - 66.9 71.4 75.9 56.5 63.70STM[61] - 79.4 79.7 84.2 72.8 80.90†：使用任务特定的模型权重和架构。表2. Youtube-VOS[99]验证集上视频目标分割（第4.1节）的定量结果。0对应关系。在第4.4节中，我们进行了一系列割除研究，以检验我们的基本模型设计的有效性。04.1. 视频目标分割结果0数据集。我们首先在两个流行的视频目标分割数据集DAVIS17 [68]和YouTube-VOS[99]的验证集上测试我们的方法。DAVIS17验证集和YouTube-VOS验证集分别包含30个和474个视频。评估指标。按照官方协议[68]，我们使用区域相似度（J）和轮廓准确度（F）作为评估指标。请注意，YouTube-VOS上的得分分别报告了从官方评估服务器获得的已见和未见类别。DAVIS 17的性能：如表1所示，我们的LIIR在所有评估指标上始终优于所有现有的自监督方法。例如，它在平均J和F方面超过了当前最佳的自监督方法CLTC[34]（72.1 vs.70.3）。此外，即使在没有使用任何手动注释进行训练的情况下，与一些使用大量像素级注释训练的著名监督模型[5,81]相比，LIIR在分割性能上也取得了非常有竞争力的表现。YouTube-VOS验证集的性能。表2报告了LIIR在YouTube-VOS验证集上与四个自监督竞争对手的性能比较。可以观察到L IIR取得了新的最先进水平。特别是，LIIR的总体得分为69.3%，超过了第二名（即CLTC[34]）和第三名（即MAST[39]）方法分别2.0%和5.1%。此外，LIIR甚至在一些著名的监督方法（即OSVOS [5]和PreMVOS[53]）上也表现出色，尤其是对于未见类别，清楚地展示了其卓越的泛化能力。0VIP JHMDB 方法上限 mIoU ↑ AP ↑ PCK@0.1 ↑ PCK@0.2 ↑0TimeCycle[90] 28.9 15.6 57.3 78.1 UVC[42] 34.1 17.7 58.6 79.6CRW[31] 38.6 - 59.3 80.3 ContrastCorr[87] 37.4 21.6 61.1 80.8VFS [98] 39.9 - 60.5 79.5 CLTC[34] † 37.8 19.1 60.5 82.3JSTG[105] 40.2 - 61.4 85.3 L IIR 41.2 22.1 60.7 81.50ResNet[24] � 31.9 12.6 53.8 74.60ATEN[73] � 37.9 24.1 - -0TSN[107] � - - 68.7 92.10†: 使用任务特定的模型权重和架构。表3. 在VIP [107] val和JHMDB[35] val上进行部位传播（§4.2）和姿态跟踪（§4.3）的定量结果。0定性结果。图6展示了数据集中代表性视频的视觉结果。可以看到，LIIR能够在各种具有挑战性的场景下建立准确的对应关系，例如尺度变化、小物体和遮挡。04.2. 身体部位传播结果0数据集。我们接下来评估我们模型在身体部位传播方面的性能。实验在VIP val[107]上进行，该数据集包含50个视频，注释了19个人体语义部位类别（例如头发、脸、衣服）。评估指标。根据VIP[107]的建议，我们采用平均交并比（mIoU）和平均精度（mAP）指标来评估语义级别和实例级别的解析。性能。如表3所示，LIIR在语义级别和实例级别的解析上都达到了最先进的性能。这表明LIIR能够生成强大的表示，很好地建模了跨实例区分和内实例不变性。图7展示了两个代表性视频上的一些可视化结果。LIIR实现了时间上的稳定结果，并且对典型挑战（例如姿势变化、遮挡）表现出鲁棒性。04.3. 姿态关键点跟踪结果0数据集。我们接下来在JHMDB [35]val上评估模型在人体关键点跟踪方面的性能。JHMDBval共有268个视频。对于每个人，标注了15个身体关节，例如躯干、头部、肩膀、肘部。评估指标。我们使用正确关键点的概率248070.9 (+1.7) 39.8 (+1.4)396071.7 (+2.5) 41.0 (+2.6)41,44072.1 (+2.9) 41.2 (+2.8)87260#负样本 DAVIS VIP #样本 J & F m↑ mIoU ↑0(a) 视频内和视频间重建。0位置 DAVIS VIP0编码 J & F m ↑ mIoU ↑0无PE 70.9 40.302DSPE 70.6 (-0.3) 40.2 (-0.1)01DAPE 72.1 (+1.2) 41.2 (+0.9)2DAPE 71.9 (+1.0) 41.1 (+0.8)0(b) 位置编码。0位置 DAVIS VIP0调制 J & F m ↑ mIoU ↑0N/A 71.3 40.60洗牌 71.8 (+0.5) 41.0 (+0.4)0平移 72.1 (+0.8) 41.2 (+0.6)0(c) 位置平移。0空间紧凑性 DAVIS VIP0训练推理 J & F m ↑ mIoU ↑0� 71.5 (+1.7) 40.8 (+1.2)0� 70.8 (+1.0) 40.3 (+0.7)0� � 72.1 (+2.3) 41.2 (+1.6)0(d) 空间紧凑性先验。0表5. DAVIS 17 [68] val和VIP [107] val上的消融研究。详情见§4.4。0视频内和视频间位置编码空间紧凑性 DAVIS VIP #视频重建编码 J & Fm ↑ mIoU ↑02 � 68.7 (+3.4) 38.4 (+3.2)03 � 66.9 (+1.6) 37.0 (+1.8)04 � 68.4 (+3.1) 37.2 (+2.0)05 � � � 72.1 (+6.8) 41.2 (+6.0)0表4. DAVIS 17 [68] val和VIP [107] val上LIIR的详细分析。详情见§4.4。0使用PCK[101]在阈值τ下测量每个跟踪结果与相应的真实值之间的准确性。性能。表3显示了LIIR的出色整体性能。请注意，CLTC[34]对于不同的任务和数据集使用不同的检查点和模型架构，而我们只使用单个模型进行评估。图7中的视觉结果也证明了L IIR在建立精确对应方面的强大能力。04.4. 诊断实验0为了进一步进行详细分析，我们在DAVIS 17 [68] val和VIP [107]val数据集上进行了一系列消融研究。关键组件分析。我们首先检查了LIIR的关键组件的有效性，即视频间和视频内重建、位置编码和空间紧凑性。结果总结在表4中，其中位置编码实现为1DAPE，并且在训练和推断阶段都使用了紧凑性先验。当将第2-4行与第1行中的基准（MAST[39]）分别进行比较时，我们可以观察到每个单独模块确实提升了性能。例如，在DAVIS17val上，视频间和视频内重建、位置编码和空间紧凑性先验分别带来了3.4%、1.6%和3.1%的J＆F增益。这验证了我们的核心观点，即这三个元素对于对应学习至关重要。最后，在第5行中，我们将所有三个组件组合在一起，即LIIR，并获得最佳性能。这表明这些模块彼此互补，并确认了我们整体设计的有效性。视频间和视频内重建。我们接下来研究增加负样本数量的影响，即用于视频间对应计算（公式4）的来自其他不相关视频的帧数。在表5a中，第1行给出了不考虑视频间对应的学习得分。在这种情况下，结果不令人满意。当涉及更多负样本时（即0→1,440），可以获得更好的性能（即69.2→72.1，DAVIS 170最后，我们使用1440个负样本进行基于视频间重建的学习，这是我们的GPU允许的最大数量。位置编码。为了确定我们的位置编码模块的效果，我们在表5b中报告了不同编码策略的性能。如表所示，不可学习的策略2DSPE阻碍了性能，而可学习的替代方案，即1DAPE和2DAPE，导致了更好的结果。与2DAPE相比，1DAPE更受青睐，可能是因为它具有更高的灵活性和容量。位置偏移。我们进一步研究了位置偏移策略对性能的影响。如表5c所示，我们考虑了两种替代方案，即“NAN”和“位置洗牌”。'NAN'是指在视频间对应匹配过程中使用正常的位置编码图P而没有任何调制。与“位置偏移”相比，“NAN”在D

下载后可阅读完整内容，剩余1页未读，立即下载