视频Transformer的BERT预训练方法及其在视频数据上的应用

154 浏览量更新于2023-10-25 收藏 14.21MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

……321078863987614211123694791962345 124 124369479196222324 1243694791962971 124 1243694791962592 12486…147330BEVT: 视频Transformer的BERT预训练0王睿1,2 陈东东3 吴祖轩1,2 � 陈银鹏3 戴曦阳30刘梦辰3 蒋宇刚1,2 � 周洛伟3 袁路301复旦大学计算机科学学院智能信息处理上海市重点实验室 2上海智能视觉计算协同创新中心3微软云+人工智能0摘要0本文研究了视频Transformer的BERT预训练。鉴于BERT预训练在图像Transformer的预训练中取得的最近成功，这是一个直接但值得研究的扩展。我们引入了BEVT，将视频表示学习分解为空间表示学习和时间动态学习。具体而言，BEVT首先对图像数据进行掩码图像建模，然后在视频数据上进行掩码图像建模和掩码视频建模。这种设计基于两个观察结果：1）在图像数据集上学习的Transformer提供了良好的空间先验，可以减轻视频Transformer的学习负担，如果从头开始训练，视频Transformer往往需要大量的计算资源；2）用于进行正确预测所需的判别线索，即空间和时间信息，因大量类内和类间变化而在不同视频之间有所不同。我们在三个具有挑战性的视频基准上进行了大量实验，BEVT取得了非常有希望的结果。在Kinetics400上，该基准主要依赖于具有区分性的空间表示，BEVT的结果与强监督基线相当。在Something-Something-V2和Diving48上，这些基准包含依赖于时间动态的视频，BEVT在Top-1准确率上分别取得了71.4%和87.2%的优异成绩，超过了所有替代基线，并达到了最先进的性能。代码可在https://github.com/xyzforever/BEVT找到。01. 引言0Transformer [54,59]已成为自然语言处理（NLP）领域中的主要网络结构，并在不同的NLP任务中取得了巨大成功。最近，开创性的工作ViT [19]将一幅图像分解为一系列基于补丁的标记。0� 对应作者。0编码器解码器0编码器解码器0目标0目标0权重共享0图像流0视频流0图1.BEVT的概念概述。BEVT首先对图像数据进行掩码图像建模，然后通过权重共享对图像和视频数据进行联合掩码图像建模和掩码视频建模。0并将变压器架构应用于图像识别。许多方法[12, 17, 36,60]进一步证明了变压器作为通用视觉骨干的能力，并在各种视觉任务中取得了令人印象深刻的性能。除了图像任务外，还有一些研究显示了变压器在视频理解方面的潜力[2,37]。变压器在NLP中的成功关键是BERT预训练[4, 14,35]，这是最成功的预训练任务之一，它预测损坏文本中的掩码标记。这激发了最近一些研究探索BERT风格的预训练，以通过恢复掩码图像补丁的原始像素[29]或潜在代码[3,18]来学习图像表示。然而，如何利用这种策略进行视频理解尚未被探索。本文研究了视频Transformer的BERT预训练。与静态图像不同，视频展示了物体随时间的移动和互动。这种动态性为表示学习带来了额外的困难。通常发现，在视频上从头开始学习表示是计算上昂贵的，并且需要具有数百万样本的极大规模数据集[24]，如果没有数百万样本，甚至不行。147340数亿个样本[1]。一些方法证明，自监督模型在图像数据集上预训练可以在监督[2，37]和无监督[5]设置下受益于视频识别。这些方法简单地利用预训练模型作为学习视频中空间-时间特征的更好初始化。虽然被广泛使用并且有时有效，但是从图像预训练阶段学到的空间上下文关系很可能在视频特征学习过程中被大幅修改。我们认为，在执行视频表示学习时，应明确保留预训练的自监督模型中编码的空间先验知识。其背后的直觉是不同视频之间存在大的类间变化，它们对于使用什么区分性信息（即空间和时间线索）进行正确预测的依赖有所不同。例如，对于“涂口红”等动作，通常只需要空间知识，这在使用2D特征在Kinetics等数据集上可以得到不错的结果。另一方面，对于区分两个细粒度潜水序列的动作，时间动态至关重要。这突显了在特征学习过程中考虑视频样本之间的差异的重要性。鉴于此，我们引入了BEVT，将视频表示学习分解为空间表示学习和时间动态学习。具体而言，BEVT基于Video Swin Transformer[37]，由于其计算效率高的架构�，并通过BERT风格的目标进行训练，以充分发挥transformers在表示学习中的能力。BEVT包含一个用于空间建模的图像流和一个用于时间建模的视频流，它们相互作用以进行视频建模。特别是，图像流在RGB图像上操作，首先以无监督的方式通过预测来自预训练VQ-VAE[3]的潜在代码形式的掩码图像补丁来学习空间先验知识。然后，它用于初始化视频流的注意力权重矩阵，其输入是采样的视频剪辑，以节省视频transformers的计算量。另一方面，视频流通过预测由潜在代码表示的掩码3D管来学习时间动态。这两个流以图像和视频对作为输入，通过权重共享策略在视频数据上进行联合训练。这样的设计不仅保持了从图像数据集中学到的空间知识，以确保对于静态视频样本的良好结果，还学习了时间信息，以确保对于包含动态运动的样本的正确预测。最后，BEVT在目标数据集上进行微调以进行下游评估。我们在三个具有挑战性的视频基准上进行了大量实验。0�请注意，我们仅使用了架构，而没有加载预训练权重。0视频数据集，即Kinetics-400（K400）[9]，Something-Something-v2（SS V 2）[26]和Diving-48（DIVING-48）[33]。在K400上，BEVT提供了81.1％的Top-1准确率，优于强有力的监督基线80.6％[37]。在SS V 2和DIVING48上，BEVT分别达到了71.4％和87.2％的Top-1准确率，超过了现有方法[2，5，23，37]。为了进一步分析这三个数据集之间的性能差异，我们进一步提供了时间依赖性分析，并证明K400中的视频主要依赖于空间线索进行正确预测，而来自SS V 2和D IVING48的视频则需要更多的时间信息。我们的主要贡献总结如下：0（1）我们探索了BERT风格的训练目标，以充分发挥transformers学习区分性视频表示的能力；（2）我们引入了一种新颖的双流网络，将空间表示学习和时间动态学习解耦；（3）我们证明不同的视频样本对空间和时间线索有不同的偏好；（4）我们在三个具有挑战性的视频基准上进行了大量实验，并取得了与现有方法相当或更好的结果。02. 相关工作0使用CNN进行视频理解。有大量关于使用CNN进行视频理解的工作，其中大多数侧重于学习时空特征[9, 22, 23, 34,50, 53, 57, 61,62]。这些方法可以分为两类：（1）时序聚合和（2）3DCNN。特别是，时序聚合方法通常逐帧提取图像特征/分数，然后通过循环网络[15, 66]或平均池化[47,57]将帧级信息组合起来，实现视频级预测。另一方面，3DCNN将2D卷积扩展到时间域，通过在堆叠的RGB帧上使用3D卷积来联合建模时空关系[9, 22, 23, 50, 53]。3DCNN通常计算量大，这促使了关于高效视频识别的一系列研究[13, 22, 34, 51, 53, 72,74]。我们不使用CNN，而是探索变压器用于视频理解，因为它们在图像识别任务中表现出色。0视觉变压器。受到变压器在广泛的自然语言处理任务中的出色表现的启发，人们越来越有兴趣将变压器用于计算机视觉任务[19, 20, 28, 36, 38, 43, 49, 56,73]。具体而言，ViT[19]通过将图像分割成补丁，并使用线性层将其嵌入到变压器的输入中，将变压器推广到图像领域。虽然在图像识别任务中展示了巨大的潜力，但ViT依赖于在大规模数据集上进行预训练，并且训练过程计算量大。为了缓解这些问题，引入了大量的研究。例如，DeiT [49]使用蒸馏损失加速训练过程。CSwin Transformer[17]提出了多头分组，并在十字形窗口内执行注意力。Mobile-Former[12]进一步引入了轻量级变压器。还有一些最近的研究将图像变压器扩展到视频理解[2, 20, 37,68]。Fan等人使用多尺度设计在不同大小的空间-时间令牌中生成空间-时间令牌以进行动作识别[20]。刘等人将Swin变压器扩展到视频领域[37]。相比之下，我们研究了自监督方式下视频变压器的BERT预训练，这与变压器网络设计是正交的。147350为了解决这些问题，引入了大量的研究。例如，DeiT[49]使用蒸馏损失加速训练过程。CSwin Transformer[17]提出了多头分组，并在十字形窗口内执行注意力。Mobile-Former[12]进一步引入了轻量级变压器。还有一些最近的研究将图像变压器扩展到视频理解[2, 20, 37,68]。Fan等人使用多尺度设计在不同大小的空间-时间令牌中生成空间-时间令牌以进行动作识别[20]。刘等人将Swin变压器扩展到视频领域[37]。相比之下，我们研究了自监督方式下视频变压器的BERT预训练，这与变压器网络设计是正交的。0自监督表示学习。许多计算机视觉任务的核心是如何学习针对特定数据集的判别特征。由于收集标记数据集需要大量的人力和成本，自监督学习的趋势越来越高[6, 7, 16, 27, 32,67]。其主要思想是设计替代任务，包括修复[44]、上色[70,71]、拼图预测[42]、旋转预测[25]等，作为监督信号，代替手动标签。最近，对比学习已成为一种流行的特征学习范式，通过强制图像与其增强副本比其他样本更接近来实现[10,30, 40, 63,65]。与使用CNN作为主干的这些方法相比，最近有几项研究利用对比学习[8, 11]进行变压器学习。0BERT预训练。与广泛应用于视觉的对比学习不同，BERT预训练[14]在NLP领域非常流行并得到广泛研究[4,35]。作为将视觉和NLP统一到相同的BERT预训练框架下的努力，最近的工作BEiT [3]和ICT[55]利用掩蔽图像建模任务对图像变压器进行BERT预训练，并在不同任务上取得了巨大成功。同时，另一项并行工作PeCo[18]提出了感知码书来提高性能。另一项并行工作[29]将其从恢复补丁令牌扩展到原始像素。在本文中，我们研究了视频变压器的BERT预训练，作为一个正交的统一努力。与图像变压器的BERT预训练和并行工作[48]不同，我们将视频预训练分解为空间表示学习和时间动态学习，以适应不同视频的不同显著线索的需求。03. 方法0BEVT的目标是以自监督的方式有效地学习视频表示，既适用于相对静态的视频，也适用于动态视频。这里，“相对静态的视频”指的是仅需要区分性空间表示进行识别的视频，而“动态视频”指的是0视频也需要时间动态进行识别。除了有效性之外，视频预训练中需要考虑的另一个关键问题是效率。与图像预训练相比，视频预训练需要更多的计算资源，因此在大规模视频数据上从头开始进行预训练是低效甚至不可行的。为此，BEVT将视频预训练分解为空间表示学习和时间动态学习两个部分。空间表示学习仅在图像数据上进行，而时间动态学习在视频数据上进行。为了实现这个想法，我们的BEVT包含两个流，分别在图像和视频上操作。接下来，我们介绍我们框架的不同组成部分。图2给出了我们框架的概述。0图像和视频补丁。对于视频流，给定一个包含T帧的视频剪辑Xvid∈RT×H×W×3，我们遵循VideoSwin [37]的方法将其转换为T个04个3D补丁，每个补丁的大小为2×4×4×3；每个3D补丁包含一个96维特征。对于图像流，给定输入图像Ximg∈RH×W×3，我们将大小为4×4×3的每个补丁视为一个标记，并将每个标记的特征维度设置为48。然后，我们通过线性嵌入层将每个标记投影到维度为C的标记嵌入向量。然后，标记嵌入序列输入到以下变换器架构中。0被掩盖的图像和视频标记。受到BERT在自然语言处理任务中的巨大成功的启发，BEVT通过分别预测“损坏”的图像和视频标记来同时执行被掩盖的图像建模（MIM）和被掩盖的视频建模（MVM）。MIM旨在捕捉空间先验，而MVM用于捕捉视频中的时间动态。特别地，对于图像流，由于输入图像被划分为不重叠的补丁，我们随机掩盖几个补丁，并训练图像流将其恢复，如[3]中所述。更具体地说，每个被掩盖补丁的嵌入特征被可学习的掩码标记嵌入所替换。对于视频流，我们随机掩盖3D标记，并训练视频流预测这些被掩盖的标记。被掩盖的图像和视频标记集合以及剩余的补丁特征被发送到编码器，如下所介绍。0掩码策略。对于图像模型的掩码，我们使用块状掩码而不是随机选择每个掩码补丁，遵循[3]。在生成图像的掩码位置时，我们每次掩盖一个补丁块，并设置每个块的最小补丁数量。每个块的位置、长宽比和大小在预设范围内随机选择。我们重复掩盖块，直到掩盖补丁的比例超过预设下限。对于视频模型的掩码，我们采用…..234 98927.......……× W32 × 8C.Tokenizer. Following [3], we use the visual tokens gener-ated by a pretrained image VQ-VAE [46] as the groundtruthtokens and our pretraining task is to predict the tokens formasked patches. The pretrained VQ-VAE tokenizer mapsimage patch into discrete tokens z by searching the closestlatent codes in its pre-learnt visual codebook. Given an in-put image Ximg ∈ RH×W ×3, it will be tokenized into thevisual token map Zimg ∈ VH16 × W16 . Similarly for an inputXTHW3147360权重共享0BEVT视频编码器 BEVT图像编码器0视频流图像流0被掩盖的视频建模被掩盖的图像建模0分词器分词器0管道掩码块状掩码0图2.我们框架的概述。BEVT包含一个图像流和一个视频流，使用BERT风格的目标函数联合学习视频表示。特别地，图像流和视频流分别在单个图像和视频立方体上操作，预测来自分词器的被掩盖的图像补丁和3D立方体。0一种直接扩展块掩蔽的管控策略。给定长度为 T的输入视频剪辑，我们首先随机选择掩蔽帧数（管控长度）l和起始帧t。然后，我们使用块掩蔽生成2D掩蔽，并将此2D掩蔽应用于从t到t+l的每个帧。换句话说，对于每个掩蔽帧，掩蔽位置集是相同的，整个3D掩蔽的形状是一个管控。掩蔽管控长度的范围是[0.5T，T]，每个掩蔽帧的掩蔽比例为0.5。0BEVT编码器。BEVT包含两个编码器，一个用于图像流，一个用于视频流。两个编码器都使用Video Swin Transformer [ 37]进行实例化，因为它在中等计算成本下具有很强的性能。请注意，与[ 37]相反，它执行完全监督训练，我们使用Video SwinTransformer作为自监督学习的骨干。具体而言，Video Swin Transformer [ 37]遵循Swin Transformer [ 36]的设计，并且是一个由四个阶段组成的分层架构。在每两个阶段之间，通过补丁合并层进行空间下采样，该层将每个组的 2 × 2个空间相邻补丁的特征连接在一起。在下采样之后，线性层将每个连接的令牌的特征映射到其维度的一半。之后是一系列的Swin注意块来应用特征变换。给定一系列令牌作为输入，视频编码器输出大小为 T 的特征图032 × 8 C . 由于Video SwinTransformer仅在开始的线性嵌入层中进行时间下采样，当输入的时间维度为1时，它会退化为2D架构。因此，对于图像编码器，0输出特征图的大小为 H016 . 请注意，考虑到预训练的VQ-VAE只将 8 × 8个补丁下采样为一个令牌，我们在将输入图像/帧馈入标记器之前将其下采样 1 /2，以便输出令牌映射具有 H 的空间分辨率0BEVT解码器。为了通过预测掩蔽的图像和视频补丁的令牌来学习有意义的表示，BEVT具有图像解码器和视频解码器作为辅助预测头部，这些头部将在微调阶段被丢弃。现有的现代视觉Transformer，包括SwinTransformer，都遵循分层设计，并将输入下采样为降低的空间/时间分辨率。以图 3中显示的视频流的VideoSwin为例，它由四个阶段组成，最后一个阶段的特征图 F 4的维度为 T 2 × H032 .为了使特征图的维度与地面真实视觉令牌的数量匹配，我们为BEVT中的视频流设计了一个轻量级解码器。如图 3所示，它首先通过使用转置卷积层对阶段-4特征 F 4进行空间上采样，然后将上采样的阶段-4特征 ˆ F 4 与T×H×WT2 × H4 × W4T2 × H8 × W8T2 × H16 × W16T2 × H32 × W32T× H16 × W16T× H16 × W16T2 × H16 × W16pt,i,j = softmax(Wft,i,j + b)(1)LMIM = −1|MI|�(i,j)∈MIlog pzi,ji,j(2)LMV M = −1|MV |�(t,i,j)∈MVlog pzt,i,jt,i,j(3)L = LMIM + λLMV M(4)147370视频剪辑阶段10阶段20阶段30阶段40地面真实令牌0标记化0令牌预测0连接空间0上采样0损失0时间上采样0图3. 用于遮蔽视频建模的BEVT编码器和解码器。0将阶段-3特征 F 3 和阶段-2特征 F 2进行融合，使用一个简单的线性层。最后，融合的特征 F将通过另一个转置卷积层进行时间上采样，得到 ˆ F。为了预测每个位置 ( t, i, j )的标记，应用一个基于softmax的简单分类器于 ˆ F 上。0其中 f t,i,j 是位置 ( t, i, j ) 处输出特征图 ˆ F 的特征向量，p t,i,j 表示相应的概率向量。 W 和 b是线性层的权重和偏置。对于图像流中的解码器，它遵循类似的设计，唯一的区别是没有时间上采样部分。0训练目标。将输入图像和视频中的遮蔽块的位置分别表示为M I 和 M V ，遮蔽图像建模的目标是最大化每个遮蔽位置( i, j ) 上的真实标记 z i,j 的对数似然。0其中上标 p表示索引特定位置的概率值。类似地，遮蔽视频建模的目标可以表示为：0两流联合训练的目标是两个目标的简单组合：0其中 λ 是平衡图像流和视频流权重的超参数。0训练策略。根据我们的解耦设计，我们首先在ImageNet上对图像流进行训练，使用遮蔽的0图像建模任务来学习有区分性的空间表示。然后使用得到的模型来初始化视频流，并通过优化方程 4来联合训练两个流，使得目标 L MIM 保留空间信息，而 LMV M学习捕捉视频中的时间动态。这种策略不仅使得BEVT比从头开始在大规模视频数据上预训练视频Transformer更高效，而且满足了学习不同类型视频样本的不同判别线索的需求。0流之间的权重共享。在同时训练图像流和视频流时，我们设计了一种权重共享策略，使它们可以共享编码器的模型权重，除了一些图像/视频特定的部分。这是受到Transformer网络的良好特性的启发，即大多数操作符（包括多头注意力和FFN）都是面向标记的，而不是特定的输入类型。以VideoSwinTransformer为例，我们使用以下策略进行权重共享：（1）我们使用独立的2D块划分层，而不是3D块划分层，并在第一阶段添加一个线性嵌入层，将图像标记投影到与原始3D视频块嵌入相同的维度；（2）我们将3D的相对位置嵌入的子矩阵在相对时间距离为0的情况下重用为2D的相对位置嵌入。通过这样的设计，图像流和视频流可以通过优化一个“基本统一”的编码器相互帮助。0微调和推断。一旦预训练完成，BEVT提供了可以用于下游任务的良好视频表示。在目标数据集上，我们只需使用3D块嵌入层和视频编码器，附加一些任务特定的层（例如用于视频识别的分类头），进行微调。得到的模型可以直接用于推断。04. 实验04.1. 实验设置0数据集和评估指标。我们在三个代表性的视频识别数据集上评估我们的方法：Kinetics-400（K400）[9]，Something-Something-v2（SS V2）[26]和Diving-48（D IVING48）[33]。K400包含来自YouTube的视频剪辑，平均持续时间为10秒，视频被手动标记为400个类别。根据[23]的方法，我们使用约240K个视频进行训练和约20K个视频进行测试。SS V2也是一个大规模视频数据集，包含约160K个视频用于训练和约20K个视频用于测试。SS V2中的视频被标记为174个类别，平均持续时间为4秒。D IVING48包含约17K个细粒度的潜水序列，这些序列被进一步分为约15K个剪辑的训练集和约2K个剪辑的测试集。与K400相比，识别SS V 2和DIVING48中的视频需要更多的时间信息，如下所介绍。根据官方说明，我们报告所有三个数据集的Top-1准确率。并且使用默认分辨率224×224。Image SupIN-1K66.384.080.6Image CLIN-1K67.185.580.9BEVT-IIN-1K69.281.280.5BEVT-VK40067.183.776.2BEVT-VHowTo100M64.282.375.1BEVTIN-1K+K40070.686.780.6K40080.665.3 ↓15.377.8 ↓ 2.8SSV266.36.3 ↓60.019.0 ↓47.3DIVING4884.013.8 70.250.4 33.6147380与K400相比，识别SS V 2和D IVING48中的视频需要更多的时间信息，如下所介绍。根据官方说明，我们报告所有三个数据集的Top-1准确率。并且使用默认分辨率224×224。0实施细节。除非另有说明，否则我们在整篇论文中使用VideoSwin-Base进行实验。仅对图像流BEVT-I进行预训练，我们在ImageNet-1K上进行800个时期的训练，批量大小为2048。仅对视频流BEVT-V或两个流BEVT进行预训练，我们在K400上进行150个时期的训练，批量大小为256，剪辑长度T为16。对于两个流的预训练，使用I MAGE NET图像以批量大小2048训练图像流，损失权重λ简单设置为1。除非明确说明，我们使用DALL-E分词器[46]。图像流的预训练在32个V100GPU上大约需要4天。150个时期的两个流预训练在32个V100 GPU上大约需要4天。04.2. 主要结果0BEVT对视频变压器预训练的有效性。为了证明BEVT的有效性，我们将其与四个图像变压器预训练基线进行比较：（1）Image Sup：在Imagenet-1K上以监督方式对图像SwinTransformer进行预训练。类似的策略通常在现有的视频变压器论文中使用[2, 5, 37]。（2）ImageCL：使用自监督对比学习方法在Imagenet-1K上对图像SwinTransformer进行预训练[64]。（3）BEVT-I：仅使用图像流对图像SwinTransformer进行预训练，类似于BEiT[3]。（4）BEVT-V：仅使用视频流对视频SwinTransformer进行预训练。从Image Sup、ImageCL和BEVT-I中获取的预训练权重用作视频SwinTransformer的初始化进行微调。对于视频流，我们设计了两个基线，通过从头开始对K400和HowTo100M[39]进行BERT预训练，即BEVT-V，即我们的框架没有解耦设计。正如前面强调的，由于视频预训练比图像预训练更加计算密集，因此无法在HowTo100M数据集上进行许多时期的预训练。为了公平比较，我们还使用32个V100GPU对HowTo100M进行了约8天（约2个时期）的预训练。比较结果总结在表1中。我们观察到：（1）BEVT在SS V2和D IVING 48上的性能明显优于ImageSup基线（分别为4.3％和2.7％）。这不仅表明使用BEVT使用BERT风格的训练目标学习表示是有前景的，而无需手动标签，而且还表明仅基于图像的预训练对于这两个数据集来说是不够的。在K400上，BEVT的性能与ImageSup基线相当。（2）我们还看到0方法预训练 SS V 2 D IVING 48 K4000表1. 不同预训练方法的比较。这里使用了Video Swin-Base模型。0数据集正常单帧随机洗牌0表2.删除不同视频数据集的时间信息的影响。这里使用了使用标记的视频数据训练的Video Swin-Base模型。我们展示了评估的top-1准确率。0BEVT在这三个数据集上与ImageCL相比具有可比或更好的结果。(3)与BEVT-I相比，BEVT在SS V 2和D IVING48上分别提高了1.4%和5.5%，突出了视频流带来的收益。同样，BEVT在K400上与BEVT-I获得类似的结果。(4)与BEVT相比，使用相似计算预算在K400或HowTo100M上从头开始进行BEVT-V预训练的结果要差得多。我们假设这可能是因为K400的数据多样性不如ImageNet。对于HowTo100M，更多的预训练时期可能有助于学习更好的视频表示，但代价太高。这也进一步证明了我们BEVT中解耦的设计。0更深入的数据集分析。为了进一步了解BEVT在三个数据集中的性能变化，我们进行了时间依赖性研究，以调查正确预测所需的时间信息量。具体而言，我们使用以下两种测试策略：(1)单帧，我们随机采样一帧，并用这一帧替换所有其他帧，得到一个静态视频；(2)随机洗牌，沿时间轴进行随机洗牌。结果总结在表2中。我们观察到，与SS V 2和D IVING48相比，这两种策略对K400的影响相对较小，当使用单帧策略时，SS V 2和D IVING48的性能下降了60%和70%。这表明K400中的大多数视频可以通过区分性的空间线索进行识别，而对于SS V 2和DIVING48，时间动态尤为重要。通过对比表1和表2，我们得出以下结论：(1)在像K400这样的数据集上，空间线索占主导地位，使用具有空间先验的模型进行微调，例如在I MAGE NET上预训练，可以实现×SlowFast R101 [23]K40063.1106 × 3TSM-RGB [34]K40063.362 × 6MSNet [31]IN-21K64.767 × 1blVNet [21]SSv265.2129 × 1ViViT-L [2]-65.4903 × N/AMViT-B [20]K40067.7455 × 3Mformer-L [45]IN-21K+K40068.11185 × 3Swin-B [37]IN-1K66.3321 × 3Swin-B [37]IN-21K+K40069.6321 × 3BEVTIN-1K+K40070.6321 × 3BEVTIN-1K+K40071.43213147390方法预训练 Top-1 GFLOPs × crops0表3. 在SS V2上与最先进方法的比较。†表示我们在预训练过程中使用了IN-1K预训练的PeCo tokenizer [ 18 ]，而不是DALL-E tokenizer [ 46 ]。0性能不错。额外的视频建模对整体性能几乎没有影响；(2)在SS V 2和D IVING48等数据集中，BEVT中使用视频流对学习必要的时间信息至关重要。这证实了我们的假设，即不同的视频依赖于不同的区分性线索进行准确预测，因为视频之间存在较大的类内和类间变化。0与最先进方法的比较。我们将BEVT与SS V 2、D IVING48和K400上的替代方法进行比较。从表3和表4可以看出，在SS V 2和D IVING48上，与现有的SOTA方法相比，我们的方法在性能上取得了明显的优势，包括有监督模型。值得一提的是，在SS V2上，为了获得更好的结果，一种常见的做法是在模型在SSV 2上进行微调之前，对模型进行两轮预训练——模型在IMAGE NET和K400上都进行了完全监督的预训练。相反，我们在IMAGE NET和K400上进行了无需使用任何手动标签的预训练，但我们的性能仍然更好。在K400上，从表5可以看出，BEVT在使用GFLOPs进行相似或更少计算的情况下，与SOTA方法取得了竞争性的结果。04.3. 消融研究0图像流预训练的重要性。在我们的BEVT中，我们首先仅在大规模图像数据上进行图像流预训练，以高效地学习空间表示，然后将其用作联合预训练的初始化。为了展示其重要性，我们在表6中提供了一些消融结果，其中“Init”列表示是否使用图像流预训练的权重作为初始化。我们有一些有趣的发现：（1）使用图像流预训练的权重作为初始化可以同时受益于纯视频流预训练（即“BEVT-V”）和接下来的图像流和视频流的联合预训练（即“BEVT”）。（2）即使有了初始化，仍然有必要联合训练图像流和视频流，并且可以带来理想的性能提升。0方法Pretrain Top-1 Params0SlowFast R101 [23] K400 77.6 53.3M TimeSformer-L [5]IN-21K 81.0 121.4M TQN [69] K400 81.8 N/A Swin-B[37] IN-1K 84.0 88.1M0BEVT IN-1K+K400 86.7 88.1M BEVT † IN-1K+k400 87.288.1M0表4. 在D IVING48上与最先进方法的比较。†表示我们在预训练期间使用IN-1K预训练的PeCo分词器[18]而不是DALL-E分词器[46]。0方法Pretrain Top-1 GFLOPs × crops0R(2+1)D [53] - 72.0 75 × 10 I3D [9] IN-1K 72.1 108 ×N/A NL I3D-101 [58] IN-1K 77.7 359 × 30 ip-CSN-152[52] - 77.8 109 × 30 SlowFast R101 [23] - 79.8 234 × 30X3D-XXL [22] - 80.4 144 × 300MViT-B, 32 × 3 [20] - 80.2 170 × 5 MViT-B, 64 × 3 [20]- 81.2 455 × 9 Mformer [45] IN-21K 79.7 369.5 × 30ViT-B-VTN [41] IN-21K 78.6 4218 × 1 TimeSformer-L[5] IN-21K 80.7 2380 × 3 ViViT-L/16 × 2 [2] IN-21K80.6 1446 × 12 Swin-B [37] IN-1K 80.6 282 × 120BEVT IN-1K+K400 80.6 282 × 12 BEVT † IN-1K+K40081.1 282 × 120表5.在K400上与最先进方法的比较。†表示我们在预训练期间使用IN-1K预训练的PeCo分词器[18]而不是DALL-E分词器[46]。0不同的预训练分词器。我们还尝试了PeCo分词器[18]而不是DALL-E分词器进行实验。0联合训练中的图像数据。默认情况下，在同时学习空间和时间表示时，BEVT中的图像流继续使用ImageNet-1K的图像作为训练图像。在这个消融研究中，我们还尝试了一种使用K400帧作为图像流的变体。结果显示在表7中。我们可以看到，来自ImageNet的图像略优于来自K400的图像，即在三个数据集上都不到0.3%。这表明，旨在保留空间知识的图像流对数据域不太敏感。0BEVT-I - 69.2 81.2 80.5BEVT-I-69.281.280.5BEVT-V×67.183.776.2BEVT-V✓70.085.279.6BEVT×67.985.178.5BEVT✓70.686.780.6BEVT-VK400-70.085.279.6BEVTK400K40070.386.680.5BEVTK400IN-1K70.686.780.6Tube0.5T-T40%61.570.9Tube0.5T-T50%63.371.6Tube0.5T-T60%63.671.4Tube0.5T-T70%63.571.4Tube0.25T-0.75T50%62.869.5Tube0.75T-1.0T50%63.171.6TubeT50%62.671.2Random-3D-50%59.167.4Frame-Diff0.5T-T50%62.970.6Random-Frame0.5T-T50%62.670.9147400方法Init SS V 2 D IVING 48 K4000表6.为了展示图像流预训练的重要性进行的消融研究。Init表示模型是从在ImageNet-1K上使用图像流预训练的图像转换器初始化的。0方法Video Image SSv2 Diving48 K4000表7.关于联合预训练图像数据的消融研究。模型是从在ImageNet-1K上使用图像流预训练的图像转换器初始化的。0方法Pretrain SS V 2 D IVING 48 K4000图像Sup IN-1K 57.6 77.4 75.4 BEVT-I IN-1K 61.8 77.276.5 BEVT IN-1K+K400 65.7 82.3 77.10表8. 使用不同预训练方法与TimeSformer[5]的比较。这里使用PeCo分词器。0enizer [ 46 ] in BEVT.PeCo只在ImageNet-1K上进行了预训练，并使用与DALL-E相同的码书大小。如表3-5所示，PeCo在所有三个数据集上都优于DALL-E，并将BEVT的Top-1准确率分别提高到了71.4%和87.2%。这表明更好的视觉分词器可以实现更好的性能。0扩展到不同的模型架构。我们还使用TimeSformer [ 5]实例化了BEVT框架。表8中的结果表明，与IN-1K有监督预训练和图像流预训练相比，BEVT在三个视频下游任务上提供了更好的结果。0掩盖策略的效果。我们评估了视频流的不同掩盖策略对BEVT-V的影响，即掩盖的时间长度和掩盖的比例。由于时间考虑，我们使用Video SwinTiny进行实验。除了管道掩盖策略外，我们还与以下方法进行比较：（1）Random-3D：它对随机块进行采样，并按照均匀分布对其进行掩盖。（2）Frame-Diff：它使用与管道掩盖相同的策略选择掩盖的帧，但对每个帧独立地应用分块掩码。不同的掩盖帧可能具有不同的2D掩码。（3）Ran-0策略长度比例 SSv2 K4000表9. 掩盖策略的消融研究。本研究使用Video Swin-Tiny进行。0dom-Frame：它对随机帧进行采样，并使用由分块掩码生成的相同2D掩码对其进行掩盖。掩盖的帧的时间位置可能不连续。结果总结如表9所示。我们有几个观察结果：（1）与Random-3D和Random-Frame等其他掩盖方法相比，掩盖管道提供了更好的结果。（2）设置过小的管道时间长度（例如[0.25T，0.75T]）或过大的时间长度（例如T）都会导致SSV2上的结果较差。我们猜测这是因为前者设置会使掩盖的视频建模过于简单，而后者在一定程度上会降级为掩盖的图像模型。（3）为不同帧应用不同的块掩码（“Frame-Diff”）也不好，可能与小的时间长度有相似的原因，即使得掩盖的视频建模过于简单，因为信息可以很容易地从相邻/短期帧中借用。05. 结论

下载后可阅读完整内容，剩余1页未读，立即下载