基于运动感知的前景背景合并提升视频表示学习

71 浏览量更新于2023-10-25 收藏 15.45MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

97160基于运动感知的对比视频表示学习通过前景背景合并0Shuangrui Ding 1* Maomao Li 2 Tianyu Yang 2 Rui Qian 30Haohang Xu 1 Qingyi Chen 4 Jue Wang 2 Hongkai Xiong 1†01 上海交通大学 2 腾讯AI Lab 3 香港中文大学 4 密歇根大学0{ dsr1212, xuhaohang, xionghongkai } @sjtu.edu.cn tianyu-yang@outlook.com0{ limaomao07, arphid } @gmail.com qr021@ie.cuhk.edu.hk chenqy@umich.edu0摘要0鉴于对比学习在图像领域的成功，当前的自监督视频表示学习方法通常采用对比损失来促进视频表示学习。然而，当天真地将视频的两个增强视图拉近时，模型往往倾向于将常见的静态背景作为一种捷径，但无法捕捉到运动信息，这种现象被称为背景偏差。这种偏差使模型的泛化能力较弱，导致在动作识别等下游任务上表现较差。为了减轻这种偏差，我们提出了前景背景合并（FAME），有意将所选视频的移动前景区域合成到其他视频的静态背景上。具体而言，在没有任何现成的检测器的情况下，我们通过帧差异和颜色统计从背景区域中提取出移动前景，并在视频之间洗牌背景区域。通过利用原始剪辑与合并剪辑之间的语义一致性，模型更加关注运动模式，并从背景捷径中消除偏差。大量实验证明，FAME可以有效抵抗背景作弊，从而在UCF101、HMDB51和Diving48数据集上实现最先进的性能。代码和配置发布在https://github.com/Mark12Ding/FAME。01. 引言0深度学习的最新发展推动了视频领域的一系列应用，如视频识别[14, 50, 56]，视频检索[16, 66]和视频对象0* 在腾讯AI Lab实习期间完成的工作。†通讯作者。邮箱：xionghongkai@sjtu.edu.cn。0(a) 原始对比学习的结果。0(b) 我们方法FAME的结果。0图1.类别不可知激活图[3]对重要区域的可视化。热图表示预训练模型对该区域的关注程度。与传统方法相比，我们的方法显著减轻了背景偏差。0分割[11, 28, 69]。虽然各种大规模基准测试[1, 5,18]是取得这些成功的关键，但全监督方法中昂贵的手动注释排除了利用互联网上数百万个未经筛选的视频的潜在利用。为了进一步推进与视频相关的研究，以无监督的方式学习视频表示具有重要意义，并成为计算机视觉社区的一种普遍趋势。最近，图像中的无监督学习[9, 40, 49,58]与其监督对应物相比取得了竞争性的性能，特别是使用对比度自监督学习公式[7,24]。对比学习的共同思想是在嵌入空间中将“正”对组合在一起，并将锚点与“负”样本分开。由于无法访问标签，正对通常由锚点样本的数据增强形成，而负样本来自其他样本。受到这些成功的启发，也进行了各种尝试在自监督视频表示学习中[15, 44]。然而，我们发现应用原始的97170图2.跳水序列示例。绿色虚线框表示场景，红色框表示动作区域。这两个片段具有相同的背景但不同的动作。将这样的正对组拉近会使模型倾向于静态偏差。0直接在视频领域进行对比学习会导致模型关注静态区域。如图1所示，普通对比学习不集中于移动的演员或物体，而是更加注重背景区域。可能有两个原因：1）背景通常覆盖的面积比整个视频中的移动物体要大得多，因此模型更有可能关注背景。2）当采样两个不同的视频片段时，静态上下文几乎相同，但动作模式存在细微差异。我们在图2中展示了一个例子。这是从一个跳水视频中采样的两个片段。绿色区域是背景，占据了超过3/4的面积。而红色框，一个小区域，包含了移动的跳水者。此外，两个片段的背景几乎相同，而两个动作看起来有些不同，即一个是站在跳板上，另一个是起跳。也就是说，当我们遵循常规的视觉增强技术来形成正对组，并使用多视图约束作为自监督，模型会自然地将静态特征拉近，但对动作关注较少。因此，为了使对比学习流程更具动态感知性，我们需要以动作比背景更相似的方式构建正对组。这篇论文探讨了这种可行性，并提出了一种名为FAME的新增强技术。我们的动机是尽可能保持动作区域（前景）不变，并用无关内容替换静态区域（背景）。具体而言，我们首先通过帧差法将移动物体的边缘区域圈出作为种子区域。然后，我们使用颜色统计学方法从种子区域推断出整个移动物体。这种高效的前景发现方法提取了我们期望模型重点关注的动态区域。然后，我们将每个视频提取的前景区域与其他视频的随机背景融合，形成新的动作样本。通过这种方式，当我们迫使模型学习原始片段和分散片段之间的一致表示时，模型必须学习对动作模式敏感的表示，并克服背景作弊。我们在三个动作识别基准上评估了提出的FAME。卓越的实验性能验证了FAME使自监督对比视频表示学习更好地泛化并提取动态感知的表示。总之，我们的贡献总结如下：0这种发现方法提取了我们期望模型重点关注的动态区域。然后，我们将每个视频提取的前景区域与其他视频的随机背景融合，形成新的动作样本。通过这种方式，当我们迫使模型学习原始片段和分散片段之间的一致表示时，模型必须学习对动作模式敏感的表示，并克服背景作弊。我们在三个动作识别基准上评估了提出的FAME。卓越的实验性能验证了FAME使自监督对比视频表示学习更好地泛化并提取动态感知的表示。简而言之，我们的贡献总结如下：0•我们展示了由于普通对比学习引起的背景偏差，并提出了一种简单而有效的增强方法FAME，以帮助模型打破背景快捷方式，学习具有动态感知的表示。0•我们的方法在UCF101、HMDB51和Diving48数据集中实现了最先进的性能，增强了传统的对比学习，无需繁琐的操作。02. 相关工作0对比视觉表示学习。最近，对比学习在自监督视觉表示学习方面取得了很大进展[7, 24, 40, 49,58]。它以完全自监督的方式执行实例区分，将相同实例的表示拉近，将不同实例的表示推远。在这个思想的指导下，[58]提出将实例区分问题形式化为非参数分类问题。[40]在数学上证明了我们可以用InfoNCE损失[20]估计互信息，这可以很容易地用于优化。随后，MoCo[24]提出利用在先前迭代中计算的关键表示作为负样本来促进对比学习。SimCLR[7]采用了较大的批量大小而不是内存库来扩展负样本池，以获得更强大的视觉表示。考虑到SimCLR需要巨大的计算资源，我们采用MoCo框架作为我们工作中自监督预训练的强基线。自监督视频表示学习。在视频表示学习中，有一系列的工作采用各种预设任务进行自监督表示学习[35, 39,61]。最常见的方法包括时间顺序预测[39,61]，视频着色[51]，时空拼图[31]和速度预测[4]。这些方法通常采用手动设计的任务来寻找视频中的时空线索。Lnce = − log�k∈{k+} exp(sim(q, k)/τ)k∈{k+,k−} exp(sim(q, k)/τ),(1)97180数据，但性能有限。然后，为了进一步改进，一些工作将对比学习公式应用于视频表示学习[15,44]。韩等人使用InfoNCE损失来指导视频中的密集预测编码[21, 22]。基于对比公式，[6,26]共同学习视频的外观和速度，[68]同时编码视频中的内部和内部方差。[2, 23,45]提出利用不同模态之间的一致性来增强视频表示。我们的方法仅关注单一模态，即原始RGB视频，以明确构建具有相同运动但不同背景的正样本，用于自监督对比视频表示学习。0视频背景偏差缓解。如何缓解背景偏差一直是一个长期存在的问题[10, 25, 37,57]。在监督场景中，[10]使用现成的人体检测器来遮挡人体区域，并以对抗方式训练模型。[37]提出了一种重新组装现有数据集的方法，以减轻静态表示偏差。随后，为了使自监督视频表示对背景偏差更加鲁棒，一系列工作采用其他自然监督[27, 36,59]来明确指导模型捕捉运动信息。然而，这些方法需要多个主干网路来预训练多模态数据，导致不必要的计算成本。为了更好地利用视频中的隐含运动信息，DSM[52]旨在通过空间和时间扰动有意构建正负样本来解耦运动和上下文。BE[53]提出添加静态帧作为背景噪声以减轻静态偏差。然而，这两种方法会侵蚀移动物体并损害运动模式。相比之下，我们的方法通过精心提取动态前景区域并保留高质量的运动模式来解决这个缺点。0复制粘贴增强。复制粘贴增强[12, 13,17]是一种将来自不同实例的信息组合起来的简单方法，并且已被证明是与对象感知学习相匹配的良好方法。此外，Mixup [67]和CutMix[64]共享了一种类似的思想，即增加对输入损坏的鲁棒性。受到这些在监督学习中的成功的启发，MixCo[32]将Mixup应用于视觉对比学习，并通过混合正负图像构建半正图像。此外，InsLoc[62]提出将图像实例复制并粘贴到不同位置和尺度的背景图像上，从而推动了用于对象检测的自监督预训练。FAME还将前景内容复制并粘贴到另一个视频中，有点像CutMix。但我们的工作与CutMix[64]相比的一个关键区别在于，我们利用运动归纳偏差来指导前景区域的提取。因此，我们可以保证合成样本包含运动信息而不是背景信息。0监督对比FAME0监督对比FAME0监督对比FAME 监督对比FAME0WEIGHTWEIGHT0（a）layer1（b）layer20（d）layer4（c）layer30图3.R(2+1)D所有层的时间核权重统计。从左到右绘制了以监督/对比/FAME方式学习的核权重的小提琴图。0像CutMix一样的随机裁剪补丁。03. 方法0在本节中，我们介绍了我们的前景-背景合并（FAME）方法。在第3.1节中，我们首先回顾了基于实例区分[58]的普通对比学习框架，并阐明了当普通对比学习被转移到视频领域时的背景偏差问题。在第3.2节中，我们详细介绍了如何使用我们的方法分离前景区域。为了澄清符号表示，我们将视频剪辑表示为X∈RC×T×H×W，其中C、T、H、W分别表示通道、时间跨度、高度、宽度的维度。03.1. 对比学习中的背景偏差0基本对比学习方法采用实例区分来以完全自我监督的方式学习特征表示 [ 7 , 19 , 24]。一般来说，它的目标是最大化查询样本 q 与其正样本键 k + 之间的相似度，并最小化查询样本 q 与负样本键 k −之间的相似度。我们经验性地使用 InfoNCE 损失函数 [ 20 ]进行优化：0其中 τ 是控制分布浓度级别的温度超参数，sim ( q, k )衡量潜在嵌入之间的余弦相似度，即 sim ( q, k ) = q T k/ (∥ q ∥ 2 ∥ k ∥ 2 ) 。在大多数现有的工作中 [ 15 ]， k +是从与 q 相同的视频中提取的剪辑嵌入的集合，而 k −是从其他视频中提取的集合。然而，视频领域中的这种基本对比学习公式不能充分利用动态模式。S =1T − 1C�c=1T −1�t=1∥Xc,t+1 − Xc,t∥1 .(2)97190tion 信息并倾向于根据背景线索区分不同的实例 [ 53]。为了证明这一现象，我们绘制了通过监督方式 1和对比方式训练的 R(2+1)D [ 50 ] 的 1D卷积层的核权重。如图 3所示，通过对比公式学习到的权重在所有层上都比监督学习方式学到的权重更紧凑且聚集。这表明，监督模型允许更灵活的时间建模，而基于对比的对应物则呈现出较少的时间多样性，并更喜欢静态线索而不是时间动态。此外，为了巩固我们的发现，我们采用了类别不可知激活图 (CAAM) [ 3 ]来测量空间注意力，因为 CAAM可以在不进行额外训练的情况下公平地评估预训练表示。如图 1 (a)所示，通过传统对比任务训练的模型无法正确捕捉移动对象，并且会被静态背景分散注意力。这一现象进一步表明，在正样本对公式中存在静态背景偏差。如第 1节所述，两个时间上不同的剪辑通常具有相似的静态背景但不同的运动模式。因此，当简单地将两个增强剪辑拉近时，模型倾向于优先考虑背景对齐并放弃捕捉动态运动。为了解决这个问题，我们精心设计了 FAME作为一种增强技术。我们的想法很简单。我们有意地擦除静态区域并保留动态区域来构建正样本对。通过这样做，模型必须首先对齐运动区域并打破静态捷径。我们在图 4中展示了使用提出的 FAME进行对比学习的框架。具体而言，我们随机从不同的时间戳中采样两个剪辑。在应用基本增强之前，我们使用我们提出的 FAME方法将一个剪辑的前景与同一小批量中其他视频的背景合并。之后，这两个剪辑在运动方面比背景更相似。然后，我们将这两个剪辑输入 3D编码器，并将它们视为正样本键，而其余剪辑则作为负样本键。最后，我们最小化 InfoNCE 损失来预训练 3D编码器。通过使用相同前景但不同背景构建正样本对，我们引导模型关注时间线索并抑制背景的影响。03.2. 前景-背景合并0受减轻自我监督视频表示学习中的背景偏差的启发，我们打算保留原始视频中的前景区域，并在各个视频之间混洗背景区域。为了实现这个目标，我们提出了前景-背景合并方法来增强剪辑，而计算开销最小。具体而言，FAME首先分离静态区域的动态区域，然后组合前景01 监督预训练的R(2+1)D来自torchvision库。0图4.使用提出的FAME的对比学习框架。我们首先从视频中随机采样两个剪辑，并使用FAME将原始前景合成到其他视频的各种背景上生成新的剪辑。然后，我们将增强的剪辑输入到现有的对比学习方案中进行自我监督预训练。0在其他背景上。我们首先迭代地区分相邻帧，然后沿通道和时间跨度维度对差异的幅度进行求和，以生成种子区域S。我们将S ∈ RH × W表示为0直观地说，帧差异提供了自然的动态运动，移动的前景物体往往具有较大的幅度，而静态背景在这个度量中较小。除了帧差异，我们还考虑其他传达运动信息的方法，如光流[65]。但我们发现提取每帧的稠密光流耗时较长，而帧差异可以作为减少计算成本的理想替代品。在实践中，我们发现种子区域S的大值通常对应于移动对象的边缘区域。为了扩展前景对象的边缘，我们借鉴了无监督前景发现[47]的种子传播方法。具体来说，我们利用颜色分布来估计整个对象。将N(F)表示前景区域中的像素总数，将N(F)x表示给定颜色x在前景区域中出现的数量，给定颜色x在前景区域中出现的概率可以估计为P(x | F) = N(F)x /N(F)。类似地，x属于背景区域的概率为P(x | B) = N(B)x /N(B)。在实践中，我们在种子区域S的前50%中采样前景颜色分布，在种子区域S的最后10%中采样背景颜色分布。换句话说，在我们的设置中，N(F) = [0.5 × H × W]，N(B) =[0.1 × H ×W]。给定上述两个颜色x的分布和所有具有相同颜色的像素具有相同的假设�M�ij =(3)Xmerge = X ⊗ M + Y ⊗ (1 − M),(4)97200为了计算前景和背景的概率，我们将给定颜色x的前景似然近似为P(F | x) = P(x | F) / [P(x | F) + P(x |B)]。因此，软分割掩码M ∈ RH ×W可以基于每个像素的颜色计算。我们将其公式化为[M]ij =P(F | xij)，其中xij是像素(i,j)处的颜色。为了更好地过滤掉背景区域，我们将掩码二值化如下：0� 1 ，如果[M]ij在M的Top-[βHW]中，00 , 否则,0其中β ∈ [0,1]是描述前景部分的超参数。为了计算效率，我们生成的掩码在时间跨度T上是恒定的。当计算颜色统计时，我们将视频剪辑视为“图像”，即� X = � T t =1 X t /T。有了前景掩码�M，我们随机填充其余部分的背景。将X，Y表示为前景和背景源剪辑，合成剪辑为0其中�是逐元素乘法。需要注意的是，我们混合到前景视频中的背景区域可能不是实际的背景，可能包含无关的运动。这些运动对于稳健的运动模式学习是必要的。如果所有背景都被静态像素填充，模型将崩溃，以学习区域是否包含动态像素作为一种捷径。此外，我们尝试了三种变体来获得前景掩码�M。尽管我们承认我们生成的掩码的质量无法与（半）监督的前景发现方法[11,60]相媲美，但我们发现FAME的所有变体在提升表示能力方面都是一致的，如表4所示，其中FAME表现最佳。此外，我们在单个8G NVIDIA T4GPU上以16×224×224像素的速度（480fps）测试了FAME的实时性能，从整个预训练来看，这是可以忽略的。04. 实验0在本节中，我们首先介绍实验中使用的数据集和实现细节。然后，我们进行一系列的消融研究，定量分析和验证我们的FAME方法。作为评估，我们报告了在动作识别和视频检索等下游任务上的结果。最后，我们定性地研究和理解FAME模型的学习内容。04.1. 数据集0我们在四个标准视频基准上评估我们的方法。Kinetics-400[5]是一个大规模且高质量的用于动作识别的数据集，包含约0使用400个人类动作类别的240K个视频片段。我们使用Kinetics-400的训练集以自监督的方式预训练我们的模型。UCF101 [46]和HMDB51[34]是两个较小的人类动作数据集，其中前者包含覆盖101个动作类别的13k个片段，后者用51个动作类别手动注释了约7,000个片段。按照之前的方法[38, 41, 55,61]，我们在下游任务中使用UCF101和HMDB51的第1个分割。此外，我们采用UCF101的第1个分割进行模型的预训练实验。最后，我们考虑了一个更具挑战性的数据集Diving48[37]进行评估，该数据集包含约18k个裁剪的48个潜水类别的视频片段。值得注意的是，Diving48中的不同潜水序列通常出现在相似的背景中，主要在细粒度的运动模式上有所不同。04.2. 实现细节0自监督预训练。在自监督训练阶段，我们采用MoCo框架[8,24]作为普通对比方法的代表，并在MoCo框架上应用我们的FAME方法。我们选择了两种常见的主干选择，R(2+1)D-18 [50]和I3D-22[5]作为3D编码器。首先，我们随机采样同一视频中的两个不同时间片段作为正对。每个片段由16帧组成，时间步长为2。我们在空间上裁剪随机部分的片段，并将其调整为224×224或112×112的大小。然后，我们使用FAME来分散其中一个正对。请注意，背景视频来自同一小批次中的片段。接下来，按照之前的工作[15]，我们执行基本的数据增强，包括随机灰度、颜色抖动、随机水平翻转和随机高斯模糊。所有这些增强都是根据[44]进行时间上的一致性。我们在训练阶段使用8个Tesla V100GPU上的64个批次大小对模型进行200个时期的预训练。采用SGD优化器，初始学习率为10^-2，权重衰减为10^-4。我们在补充材料中展示了更多的实现细节。动作识别。在预训练之后，我们使用预训练参数初始化主干，除了最后一个全连接层。有两种常见的动作识别协议用于验证自监督表示。一种是线性探测。编码器被冻结，我们只训练最后一个全连接层。第二种是微调，我们以监督方式训练整个网络。在推理阶段，我们从每个测试视频中均匀采样十个16帧的视频片段，时间步长为2，然后裁剪和调整它们的大小为224×224或112×112。我们对每个测试视频片段的预测进行平均，并报告Top-1准确率来衡量性能。视频检索。在没有进一步训练的情况下，我们直接97210UCF101 HMDB51 β 单支路双支路单支路双支路01 . 0 (基准) 75.8 45.5 0 . 7 80.3 79.6 49.6 50.80 . 5 81.2 81.2 52.6 51.4 0 . 3 82.0 81.1 51.653.10表1.在UCF101和HMDB51上使用β的Top-1准确率。我们将在单支路（默认设置）上使用FAME表示为单支路，将在双支路上使用FAME表示为双支路。0方法预训练数据集 Diving480随机初始化 � 57.4 BE [ 53 ] UCF101 58.8FAME(我们的) UCF101 67.8 BE [ 53 ]Kinectics-400 62.4 FAME(我们的)Kinectics-400 72.90表2.根据更新的标签（V2）在Diving48上的Top-1准确率。两种方法都使用I3D和16×224×224像素。0利用预训练编码器的表示进行评估。根据[ 38 , 61]，我们在测试集中选择视频剪辑来查询训练集中的k个最近邻。具体而言，我们平均采样十个均匀采样的剪辑以获得全局表示。如果测试剪辑的类别出现在k个最近邻中，则计为一次命中。我们报告Top-k召回率R@k进行评估。04.3. 消融研究0为了分析我们的FAME如何改进自监督视频表示学习，我们进行了以下消融研究。我们选择UCF101的第1个分割作为预训练数据集，选择I3D作为计算效率的骨干网络。我们所有消融研究中的Top-1准确率都是在微调协议下测量的。前景区域的面积比例。为了检查前景区域的面积比例对表示质量的影响，我们在{ 1 , 0 . 7 , 0 . 5 , 0 . 3}范围内消融β（即前景的部分比例）。我们在表1中报告性能比较。注意，β =1表示不应用FAME的基线方法。可以观察到，β =0.3和0.5的结果在UCF101和HMDB51上都比基线方法提高了约6%。β =0.7的改进也相当大，尽管略逊于较小的β值，这是由于背景替换不足。这验证了我们的想法，即替换静态区域可以引导模型提炼出具有运动感知性的表示，从而增强下游性能。更强的背景去偏见。为了探索FAME是否足够强大以减少对比学习中的背景偏见，我们设计了更强的对比目标。也就是说，我们在MoCo的两个分支上都应用FAME，两个处理过的视频剪辑都不包含初始背景信息。0背景 UCF101 HMDB510无 75.8 45.5 帧内视频 77.4(1.6 ↑ )47.6(2.1 ↑ ) 帧间视频 81.2(5.4 ↑ )52.6(7.1 ↑ )0表3. UCF101和HMDB51上的帧内/帧间视频背景的Top-1准确率。0方法 UCF101 HMDB510基线 75.8 45.5 高斯 77.9 46.4种子 80.4 51.3 网格 81.5 51.5FAME 81.2 52.60网格 † 86.5 58.7 FAME † 88.661.10表4.UCF101和HMDB51上各种前景-背景分离方法的Top-1准确率。†表示预训练数据集为Kinetics-400。FAME表现最好。0背景信息的来源。除了前景比例，我们还研究了背景的来源对于捕捉运动的表示能力的影响。具体而言，我们旨在探索使用同一视频中的背景而不是其他视频中的背景是否会引起性能的剧烈变化。我们进行了一个实验，将一个视频的前景与该视频本身不同时间戳的背景合并。如表3所示，我们发现使用帧内视频的背景略微提升了基线，UCF101和HMDB51上分别提高了1.6%和2.1%，而引入其他视频的背景进一步提高了性能，即UCF101和HMDB51上分别提高了5.4%和7.1%。总体而言，帧内视频背景几乎与原始背景相同，而帧间视频背景则相当不同。因此，这与我们的直觉一致，即来自帧内视频的修改不足以减轻背景偏见，而用不同场景的背景替换背景则更能增强运动模式学习。0图5. FAME和三个变体的示意图。0前景掩码的变体。为了验证在对比框架中强调移动前景是否有助于运动理解，我们设计了前景的三个变体。R@20R@5097220方法主干架构预训练数据集帧数分辨率冻结 UCF101 HMDB510CBT [ 48 ] S3D Kinetics-600 16 112 × 54.0 29.5 CCL [ 33 ] R3D-18 Kinetics-400 16 112 × 52.127.8 MemDPC [ 22 ] R3D-34 Kinetics-400 40 224 × 54.1 30.5 RSPNet [ 6 ] R3D-18 Kinetics-40016 112 × 61.8 42.8 MLRep [ 43 ] R3D-18 Kinetics-400 16 112 × 63.2 33.4 FAME (我们的方法)R(2+1)D Kinetics-400 16 112 × 72.2 42.20VCP [ 38 ] R(2+1)D UCF101 16 112 × 66.3 32.2 PRP [ 63 ] R(2+1)D UCF101 16 112 × 72.1 35.0TempTrans [ 29 ] R(2+1)D UCF101 16 112 × 81.6 46.4 3DRotNet [ 30 ] R3D-18 Kinetics-400 16112 × 62.9 33.7 Spatio-Temp [ 54 ] C3D Kinetics-400 16 112 × 61.2 33.4 Pace Prediction [ 55 ]R(2+1)D Kinetics-400 16 112 × 77.1 36.6 SpeedNet [ 4 ] S3D-G Kinetics-400 64 224 × 81.1 48.8VideoMoCo [ 41 ] R(2+1)D Kinetics-400 32 112 × 78.7 49.2 RSPNet [ 6 ] R(2+1)D Kinetics-40016 112 × 81.1 44.6 MLRep [ 43 ] R3D-18 Kinetics-400 16 112 × 79.1 47.6 ASCNet [ 26 ] R3D-18Kinetics-400 16 112 × 80.5 52.3 SRTC [ 68 ] R(2+1)D Kinetics-400 16 112 × 82.0 51.2 FAME(我们的方法) R(2+1)D Kinetics-400 16 112 × 84.8 53.50DSM [ 52 ] I3D Kinetics-400 16 224 × 74.8 52.5 BE [ 53 ] I3D Kinetics-400 16 224 × 86.8 55.4FAME (我们的方法) I3D Kinetics-400 16 224 × 88.6 61.10表5.与现有的自监督视频表示学习方法在UCF101和HMDB51上的动作识别比较。为了公平比较，我们列出了每个工作的设置，包括使用的主干架构、预训练数据集和时空分辨率。冻结（打勾）表示线性探测，不冻结（叉号）表示微调。0方法主干架构 R@k0SpeedNet [ 4 ] S3D-G 13.0 28.1 37.5 49.5 65.0 TempTrans [ 29 ]R3D-18 26.1 48.5 59.1 69.6 82.8 MLRep [ 43 ] R3D-18 41.5 60.0 71.280.1 - GDT [ 42 ] R(2+1)D 57.4 73.4 80.8 88.1 92.9 ASCNet [ 26 ]R3D-18 58.9 76.3 82.2 87.5 93.4 FAME (我们的方法) R(2+1)D 64.6 77.782.9 87.6 94.20表6. 与现有的自监督视频表示学习方法在视频检索上的比较。所有方法都在Kinetics-400上进行了预训练。我们报告了UCF101上k=1, 5, 10,20, 50时的Top-k召回率R@k。0前景掩码的变体：(i)Gauss：我们采用2D高斯核矩阵作为前景掩码。它源于视频以物体为中心的形式的假设。(ii)Seed：我们只采取种子区域S来描述前景。(iii)Grid：将视频在空间上分割成4×4的网格。我们计算每个网格中S的总和，并将最大的八个网格作为前景区域。图5中显示了简要说明。我们在表4中将FAME与这三个变体进行了比较。首先，我们注意到所有的变体都大幅提高了基线，证明了引入不同背景的好处。此外，从Gauss、Seed、Grid到FAME逐步改进前景掩码不断增加了动作识别的能力。0性能。有趣的是，我们注意到Grid在UCF101上稍微优于FAME。我们推测，由于预训练数据集和下游数据集都是UCF101，可能会利用发生的相似背景作为一种捷径。为了深入研究这一现象，我们在另一个预训练数据集Kinetics-400上进行了额外的实验。Grid变体的Top-1准确率在UCF101和HMDB51上都比FAME低2%以上。这表明，在将基于运动感知的表示转移到不同的下游基准时，精细的分割掩码而不是粗略的网格框在促进泛化能力方面更有效。972304.4. 下游任务评估0在UCF101和HMDB51上的动作识别。为了验证所提方法的有效性，我们将其与之前的方法进行比较。在表5中，我们报告了UCF101和HMDB51上的Top-1准确率。为了公平比较，我们不报告使用更深的骨干网络或非单一模态（如光流、音频和文本）的方法。我们的方法在UCF101上取得了最好的结果，在HMDB51上取得了可比较的结果。FAME在UCF101和HMDB51上击败了MLRep[43]，在两者上都获得了约9.0%的增益，而MLRep精心设计了多级特征优化和时间建模。出色的性能验证了我们的方法在不需要进一步微调的情况下捕捉到了移动前景模式。在微调协议中，具有R(2+1)D骨干的FAME在UCF101和HMDB51上取得了最好的结果。这表明FAME在Kinetics-400数据集上学习了场景去偏置和运动感知表示，这将更好地推广到下游数据集。值得注意的是，尽管SRTC[68]具有相同的骨干网络R(2+1)D，但我们简单的方法在UCF101和HMDB51上的性能优于SRTC2.8%和2.3%，尽管它有两个额外的子损失项来规范自监督预训练。值得注意的是，我们与BE[53]有类似的动机，它直接将一个静态帧添加到每个其他帧中，并将这个干扰视频视为原始视频的正对，但这种微小的干扰不能充分减轻静态背景偏差，实验证实了这一点。当使用相同的骨干网络I3D时，我们的FAME在UCF101和HMDB51上的性能分别比BE高出1.8%和5.7%，这证明了我们的方法能够更好地突出运动模式。在UCF101和HMDB51上的视频检索。我们在表6中报告了视频检索任务的性能比较。我们的方法从R@1到R@50都取得了显著的性能提升。值得注意的是，尽管ASCNet[26]设计了两个特殊任务来学习外观和速度一致性，但我们仅通过制造运动感知的正对对获得了6.7%的Top-1检索准确率提升，这证明了我们的方法能够更精确地识别动作语义。在Diving48上的评估。除了常见的动作识别基准数据集外，我们在更具挑战性的细粒度数据集Diving48上微调和测试了我们的FAME，并在表2中报告了结果。在Diving48中，由于静态背景与细粒度潜水标签没有强相关性，我们的运动感知表示可以极大地提升动作识别的效果。FAME可以将随机初始化的模型在Kinetics-400上的预训练提升15.5%。相比之下，无论预训练数据集是UCF101还是Kinetics-400，BE都远不如FAME有效。这是因为BE没有构建运动感知的正对对，其中背景特征与运动特征相比更相似。在Diving48上的结果表明，FAME确实可以使模型感知到长期的运动模式并抑制场景偏差。0与运动对比，Diving48上的结果表明FAME确实可以使模型感知到长期的运动模式并抑制场景偏差。04.5. 可视化分析0为了更好地证明FAME的有效性，我们在图1中可视化了CAAM[3]。通过比较，由FAME学习的模型增强了移动前景区域的激活并抑制了背景区域。例如，在图1的第二列中，FAME精确地捕捉到了球场上的两名棒球运动员，而普通的对比方法显示了一个分散的高亮图并未能关注到运动区域。此外，与普通的对比方法相比，FAME学习到的时间核的分布更分散，方差更大，如图3所示。令人惊讶的是，FAME的时间核权重的形状与监督学习相似，表明通过FAME，对比学习可以很好地把握动作语义。根据上述证据，我们可以得出结论，受FAME等强大的运动归纳增强的指导，对比学习也可以防止背景作弊并关注运动模式。05. 结论0在这项工作中，我们提出了一种新的前景-背景合并（FAME）方法，以减轻自监督视频表示学习中的背景偏见。通过前景-背景合并，我们通过将原始前景与其他视频的背景融合来增强原始视频。当强制骨干模型学习原始视频和融合视频之间的语义一致表示时，模型可以学习到场景去偏见和运动感知的视频表示。对一系列下游任务的实验结果表明了我们方法的有效性。尽管我们的工作显示出一些有希望的结果，但仍存在一些局限性。其中一个是前景提取的质量不稳定，特别是当前景和背景在颜色分布上没有明显差异或摄像机在动态移动时。此外，前景区域比例现在由超参数β固定。最好能够设置自适应的前景区域比例。0致谢0本工作得到了中国国家自然科学基金（Grant61932022，Grant 61720106001，Grant61971285，Grant 61831018，Grant 61871267，GrantT2122024）和上海科技创新项目（Grant20511100100）的部分支持。97240参考文献0[1] Sami Abu-El-Haija, Nisarg Kothari, Joonseok Lee, PaulNatsev, George Toderici, BalakrishnanVaradarajan和Sudheendra Vijayanarasimhan.Youtube-8m：一个大规模的视频分类基准。arXiv预印本arXiv:1609.08675，2016年。 10[2] Humam Alwassel, Dhruv Mahajan, Bruno Korbar, LorenzoTorresani, Bernard Ghanem和Du Tran.通过跨模态音频-视频聚类进行自监督学习。arXiv预印本arXiv:1911.12667，2019年。 30[3] Kyungjune Baek, Minhyun Lee和Hyunjung Shim.Psynet：使用点对称变换进行自监督目标定位的方法。在AAAI人工智能会议论文集中，第07号，第10451-10459页，2020年。1，4，80[4] Sagie Benaim, Ariel Ephrat, Oran Lang, Inbar Mosseri,William T Freeman, Michael Rubinstein, Michal Irani和TaliDekel.Speednet：学习视频中的速度。在IEEE/CVF计算机视觉和模式识别会议论文集中，第9922-9931页，2020年。2，70[5] Joao Carreira和Andrew Zisserman. Quovadis，动作识别？一种新模型和动力学数据集。在IEEE/CVF计算机视觉和模式识别会议论文集中，第6299-6308页，2017年。1，50[6] PeihaoChen等。Rspnet：用于无监督视频表示学习的相对速度感知。在AAAI，2021年。3，70[7] Ting Chen, Simon Kornblith, MohammadNorouzi和Geoffrey Hinton.对视觉表示进行对比学习的简单框架。在机器学习国际会议上，第1597-1607页。PMLR，2020年。 1，2，30[8] Xinlei Chen, Haoqi Fan, Ross Girshick, and Kaiming He.基于动量对比学习的改进基线。arXiv预印本arXiv:2003.04297，2020年。 50[9] Xinlei Chen和Kaiming He.探索简单的孪生表示学习。arXiv预印本arXiv:2011.10566，2020年。 10[10] Jinwoo Choi, Chen Gao, C. E. Joseph Messou, and Jia-B

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

基于运动感知的前景背景合并提升视频表示学习

提取视频前景背景/运动目标检测

背景学习检测运动物体

基于压缩感知的分布式视频编码框架matlab

如何利用transformer提升背景感知能力

结合基于压缩感知的单像素成像写几页PPT

基于深度学习的频谱感知技术研究

基于压缩感知的地震数据重建方法

车企中基于AI感知的应用

基于强化学习的机械臂自主视觉感知控制方法与基于相机标定的机械臂运动路径控制方法的优缺点

基于深度学习的空中运动目标检测与追踪的研究背景与意义

基于动态感知的安全事件检测系统

基于深度学习的频谱感知

基于压缩感知的ofdm信道估计matlab仿真

基于压缩感知的地震数据重建

基于近似感知的定位技术优势劣势分析

结合基于压缩感知的单像素成像写3页PPT

基于压缩感知的风电场汇集系统故障定位方法

安全技术-动态感知 研究背景和现状

基于压缩感知的地震数据重建算法

matlab 3d视频压缩感知

最新资源

安全技术-动态感知研究背景和现状