视频转换器的长短时间对比学习

130 浏览量更新于2023-10-25 收藏 1.18MB PDF 举报

视频转换器

动作识别

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

14010视频变压器的长短时间对比学习Jue Wang1Gedas Bertasius2Du Tran1LorenzoTorresani1，31Facebook AI Research2查珀尔希尔3达特茅斯摘要视频转换器最近已经成为3D CNN的竞争替代品，用于视频理解。然而，由于它们的大量参数和减少的归纳偏差，这些模型需要在大规模图像数据集上进行监督预训练以实现最佳性能。在本文中，我们经验性地证明了在纯视频数据集上对视频转换器进行自监督预训练可以产生与在大规模图像数据集上进行监督预训练所获得的结果相当或更好的动作识别结果，即使是像ImageNet-21 K这样的大规模图像数据集。由于基于transformer的模型在捕获扩展时间跨度上的依赖关系方面是有效的，因此我们提出了一个简单的学习过程，该过程迫使模型将同一视频的长期视图与短期视图相匹配。我们的方法，命名为长短时间对比学习（LSTCL），使视频transformers学习一个有效的剪辑级表示，通过预测从较长的时间范围捕获的时间上下文。为了证明我们的研究结果的一般性，我们在三个不同的自监督对比学习框架（ MoCo v3 ， BYOL ，SimSiam）下使用两种不同的视频转换器架构实现并验证了我们的方法我们进行了彻底的消融研究，并表明LSTCL在多个视频基准上实现了具有竞争力的性能，并代表了一种令人信服的替代监督式基于图像的预训练。1. 介绍自 AlexNet [36] 引入以来，深度卷积神经网络（CNN）已成为众多计算机视觉任务中的主要模型[21，22，30，54，64，65]。最近，Transformer模型[61]由于其在自然语言处理（NLP）领域令人印象深刻的性能而受到广泛关注[15]。虽然CNN依赖于卷积的局部操作，但变压器的构建块是自注意力[61]，这在建模远程去噪时特别有效。悬垂性在图像域中，Vision Transformer（ViT）[16]被提出作为一种无卷积架构，其在模型的所有层中的非重叠补丁之间使用自注意力。ViT在图像分类任务上与最先进的CNN具有竞争力。在过去的几个月里，已经提出了几个ViT的视频改编[3，6，44]。为了从视频中捕获显著的时间信息，这些工作通常将自注意机制扩展为除了在每个帧内之外还沿着时间轴操作。由于与CNN相比，视频变换器具有更多的参数和更少的归纳偏差，因此它们通常需要在监督图像数据集上进行大规模预训练，例如ImageNet-21 K [52]或JFT [3]，以实现最佳性能。自监督学习已被证明是一种有效的解决方案，可以消除NLP [15]和图像分析[9，59]中对变压器的大规模监督预训练的需要在这项工作中，我们表明，即使在视频领域，自监督学习提供了一个有效的方式预训练视频变压器。具体来说，我们引入了长短时间对比学习（LSTCL），这是一种对比公式，可以最大限度地提高长视频剪辑（例如，8秒长）和短得多的剪辑（例如，2秒长）之间的表示相似性，其中两个剪辑都是从同一个视频中采样的。我们认为，通过训练短剪辑表示来匹配长剪辑表示，模型被迫从较短的范围内提取在较长的时间跨度中所存储的上下文信息。由于长剪辑包括不包括在短剪辑中的时间片段，因此该自监督策略训练模型以预测未来并从小的时间窗口预测过去，以便匹配从长剪辑提取的表示我们认为这是视频表征学习的一个很好的借口，因为只有通过成功地理解和识别长视频中原子行为的结构和表现才能实现此外，这样的框架特别适合于视频变换器，因为它们最近已经被示出有效地捕获长期时间线索[6]。在这项工作中，我们证明，这些长期的时间线索可以有效地编码14011转换成短距离剪辑级表示，从而导致视频分类性能的实质性改进。为了证明我们的研究结果的一般性，我们用两种不同的视频Transformer架构进行了实验，其代码是公开的。第一种是TimeS- former [6]，其通过时空因子分解降低了3D视频体积上的自我注意力的计算成本。第二种架构是Swin Transformer [39]，我们将其进一步扩展为3D版本，称为时空Swin Transformer，它通过使用3D移位窗口来计算分层时空自注意力我们表明，我们的无监督LSTCL预训练方案允许这两个视频转换器在大规模ImageNet-21 K数据集上进行全面监督，从而使其性能优于各自的预训练对手总之，本文的贡献可以概括如下：• 我们引入了长短时间对比学习（LSTCL），它可以将较长视频的时间上下文编码为短距离剪辑表示。• 我们证明，对于最近的视频Transformer模型，我们提出的LSTCL预训练提供了一个有效的替代大规模监督预训练的图像。• 我们提出了一个时空 Swin Transformer 的空间 -tiotemporal特征学习，并表明它在多个动作识别基准上取得了很好的效果2. 相关工作图像中的自我监督学习。早期的自我监督视觉表征学习尝试使用了各种借口任务，例如图像旋转预测[35]，自动编码器学习[48，55，62]或解决拼图[45]。相比之下，最近的自我监督学习方法利用对比学习[9，11，12，14、28、29、51]。这个想法是通过数据增强生成同一图像的两个视图，然后最小化它们表示的距离，同时可选地最大化到其他图像的距离[11，29]。对比学习的一个缺点是它需要大量的反例，这意味着批量大小很大[11]或使用内存库[29]。为了解决这种对比方法的高计算成本，提出了几种最近的方法来消除对阴性样本的依赖[8，13，14，26]。视频中的自我监督学习。用于自我监督视频表示学习的几种方法集中在预测时空排序任务[1，23，31，33，38、43、57、58、68、70、71]。其他方法有杠杆年龄的时间线索，如节奏和速度，以定义自我监督的借口任务[5，66]。就像在图像中一样，最近的方法[20，27，50]采用对比学习目标。我们的方法也属于对比方法的范畴。与之前的对比，trasive视频方法，我们提出了一个对比公式，其中正对是从一个短剪辑和一个长剪辑中生成的，这两个剪辑都是从同一个视频中采样这推动我们的模型学习一个短的剪辑级表示，捕捉全球视频级的背景。与我们自己最密切相关的方法是勇敢系统[51]。Brave分享了相同的基本思想，即训练模型将同一视频的长（宽）视图与短（窄）视图相匹配。然而，我们的工作在几个方面有所不同。首先，我们的主要重点是利用自监督学习作为一种在没有标记图像数据的情况下训练视频转换器的手段，而Brave则应用于3DCNN。视频转换器正在成为3D CNN的竞争替代品然而，如前所述，它们受到需要基于图像的监督预训练的限制。因此，我们认为这是一个需要及时解决的重要问题。此外，我们注意到我们的LSTCL比Brave简单得多：虽然我们的模型使用共享参数、单个投影网络和单个预测网络，但Brave需要两个视图的独立主干、独立投影网络和独立预测网络，以实现最佳性能;此外，虽然LSTCL可以应用于任何传统的对比度损失（如我们对MoCo v3、BYOL和SimSiam的实验所证明的那样），但Brave使用两个特定回归对象（宽到窄和窄到宽）的组合，并对两个视图采用不同的增强策略。尽管我们的学习公式非常简单，但我们证明了它提供了令人印象深刻的结果，将视频转换器的准确性提升到最先进的具有挑战性的动作分类基准，而无需任何监督的图像级预训练。变形金刚在视觉上基于变压器的模型[15，61]目前定义了大多数的最新技术自然语言处理（NLP）任务。类似地，也有几次尝试采用基于Transformer的架构来解决视觉问题。最初，这些尝试集中在混合卷积和自我注意力的架构上[7，32，67，69，72]。最近引入的Vision Transformer（ViT）[16]已经证明，使用无卷积架构可以实现有竞争力的图像分类结果。为了提高原始ViT的数据效率，Touvron等人。[59]提出了一种基于蒸馏的训练配方。最后，最近引入的 SwinTransformer [39]通过采用局部而非全局自关注，显著减少了参数数量和ViT成本ViT模型也通过引入不同形式的时空自我注意力而适应于视频域[2，3，6，49]。然而，由于它们的大量参数，这些模型通常需要大量的训练数据，这些训练数据通常以大规模训练数据的形式出现14012不规模标记数据集（如ImageNet或JFT）。为了解决这个问题， Fan et al.[17] 介绍了一种多尺度视觉Transformer（MViT），它使用的参数数量少得多，可以从头开始成功训练。而不是减少模型容量，在MViT中所做的，我们表明，它是可能的，训练大容量的视频transformer模型，没有任何外部数据，通过我们提出的LSTCL自监督学习框架。3. 视频变形金刚最近已经进行了几次尝试，以将ViT扩展到视频域[2，3，6，17，49]。大多数视频变压器都有共同的原则，我们在下面回顾一下然后，我们讨论具体的设计区分视频转换器在我们的实验中考虑。3.1. 概述线性和位置嵌入。每个补丁p（i，t）是图 1. TimeTransformer [6] 和 Space-Time （ ST ） SwinTransformer中的自我注意机制的说明。图中的每一列描绘了不同的自我注意力块。具有相同颜色的块在自注意计算期间被比较。线性嵌入到特征向量z0∈RDob-通过一个可学习的矩阵（i，t）W∈RD×（P2·C）和表示空间-空间-空间-空间的可学习向量e（i，t）∈RD时间位置嵌入：z0=W p（i，t）+e（i，t）。多头注意（i，t）多头自我关注z=MHA时间（LN（z−1））+z−1（3）(MHA)是Transformer的关键部件It im-z=MHA空间（LN（z））+z为每个补丁补充查询键值计算，s t tz=MLP（ LN（z））+z并且它与层归一化[4]（LN）交织，并且s在每个块内的多层感知器（MLP）。因此，在本发明中，从其在前一个块中的特征中获得块中的块的中间表示Z，如下：z=MHA（ LN（z−1））+z−1（1）z=MLP（LN（z））+z。（二）分类. 与BERT [15]中一样，在输入序列的开头添加分类标记p（0，0）。在网络的最后一层，具有softmax激活函数的线性层被附加到分类令牌，以输出最终的分类概率。3.2. TimeSformer[6]将ViT [16]扩展到视频域。它使用两个独立的多头注意块空间和时间的自我注意。如图1所示，空间自我关注仅将查询块与出现在同一帧中的图像块进行比较。相反，时间自我关注将查询块与相同空间位置但来自其他帧的图像块进行比较。与在视频的所有补丁对上的密集比较相比，在空间和时间上的分解显著地降低了自我关注的成本。因此，特征表示被计算为：3.3. 时空Swin Transformer与ViT相比，Swin Transformer [39]在局部应用自我注意力。这些特征是通过聚集每层中局部邻域的信息来分层学习的。在这里，我们适应原来的 SwinTransformer，这是介绍了静态图像，视频。我们将这种新变体命名为时空Swin Transformer（ST Swin）。ST Swin使用局部3D时空体积，而不是考虑图像块的2D邻域用于自注意计算。具体来说，正如原始论文[ 39 ]中所提出的，ST Swin使用了两种不同的自我注意机制：均匀划分和移位划分。在我们的例子中，这两个自我注意力方案都通过考虑局部补丁邻域中的时间维度来适应视频。如图1所示，统一分区将整个剪辑分成4个不重叠的3D部分，每个部分共享相同的分区索引。时空自我注意力，然后计算具有相同的分区索引的图像补丁之间。类似地，移位分区生成不同尺度的多个非重叠3D部分，并且比较每个部分内的时空块以用于自注意计算。将均匀划分和移位划分堆叠形成两个连续的注意力块，实现跨窗口连接14013uSLS--联系我们SS伊古里进一步提高模型的容量。因此，在 ST SwinTransformer的每一层中执行的完整转换可以总结如下：z=MHAUniform（LN（z−1））+z−1（4）在[8，13，14，26]中，我们对称化损失函数。在我们的情况下，这是通过将长剪辑和短剪辑的作用颠倒来获得的对偶项之上的损失项相加来实现的，即，通过计算来自长剪辑的查询q i=fq（x i）和来自短剪辑的密钥k i= fk（x i）。L Sz=MLP（ LN（z））+z编码器fq包括视频Transformer主干，z+1=MHA位移（ LN（z））+zz+1=MLP（ LN（z+1））+z+1MLP投影头和附加预测MLP头。预测层的目的是转换查询片段的表示以匹配键。的我们采用Swin [39]中使用的3D相对位置嵌入和补丁合并策略。然而，我们只合并图像补丁沿空间轴，同时保持固定的时间分辨率通过层。4. 长短时间对比学习概况. 视频变换器已被证明在长距离时间建模方面特别有效[6]。我们的目标是设计一个对比学习框架，充分利用这一特点。我们提出的长短时间对比学习（LSTCL）框架将从同一视频中采样的一对剪辑作为该过程训练视频转换器Transformer，以使短剪辑的表示与长剪辑的表示相匹配。这迫使模型从一个小的时间窗口预测未来和过去，这有利于捕捉视频的一般结构。下文我们描述与我们的LSTCL相关的具体细节。给定一批B未标记的训练视频，我们从每个视频中随机抽取一个短片段和一个长片段虽然长剪辑和短剪辑都包括总共T个帧，但是我们使用很大程度上不同的采样时间步长τS和τL，其中τSτL，以便长剪辑比短剪辑覆盖更长的时间范围批次B中的短剪辑和长剪辑的集合被表示为XS={x1，x2，…x B}和XL={x1，x2，. x B}，编码器fk由视频Transformer主干和MLP投影头组成我们的实验给出了用不同的对比学习优化来更新fq和fk的参数所获得的结果。在我们基于MoCo v3 [14]的去故障优化的情况下，fq的参数通过经由反向传播最小化NCE来更新，而fk的参数作为fq的参数的移动平均值来更新。我们建议读者参考我们的补充材料，了解基于我们实验中考虑的其他对比学习框架BYOL和SimSiam的优化细节。剪辑采样策略。由于我们希望我们的模型能够从短片段的简短范围推断出整个视频中观察到的上下文，因此我们建议随机并独立于每个视频对长片段和短片段进行通过这样做，学习不能杠杆化两个剪辑之间的任何同步，并且因为时间偏移对于每对长-短样本将是随机的，所以优化将迫使短剪辑表示对在整个视频上尽可能多的上下文进行编码。为了证明随机独立采样的价值，在我们的消融研究中，我们将该策略（名为“随机独立”）与两种替代方案进行了对比。第一种，命名为S s s 我我L L L长剪辑（首先随机采样第二个其中xS和xL表示从批次中的第i个示例采样的短剪辑和长短剪辑的集合由编码器fq处理以产生“查询”示例的集合Q = q1，q2，. 其中q i=f q（x i）RD。长剪辑的集合由单独的编码器f k处理以产生“关键”示例K=k1，k2，. k湾我们优化编码器，以产生类似的查询键表示对组成的一个长剪辑和一个短剪辑从同一个视频，和不相似的表示情况下，长剪辑和短剪辑是从不同的采样视频.这是通过在集合Q和K上采用InfoNCE [46]损失来实现的：命名为它们完全不相交。我们建议读者参考我们的实验，这些实验验证了我们的假设，即随机独立采样确实是视频变换器长短时间对比学习的优越策略实施详情。我们在三种不同的流行对比学习框架下实现了LSTCL：BYOL [26]，MoCo v3 [14]和 SimSiam[13]。对于训练，我们采用[20]中描述的视频数据增强。使用从视频中采样的大小为224×224×8的L=−logexp（q k/ρ）我们使用两种视频Transformer架构进行实验时间变换器与划分的时空注意力[6]和NCE我exp（qiki/ρ）+j=iexp（qikj/ρ）（五）我们将Swin-B模型[39]适应于视频（时空Swin）。我们使用AdamW优化器，其中ρ是控制输出分布的锐度的温度超参数。通常所通常用于训练视力的Transformer模型- els [2，3，6，9，14，16，59]。在我们的默认设置中，14014×联系我们−−联系我们----联系我们------图2.我们研究了LSTCL中短视图和长视图的时间范围（由τS和τL控制）如何影响Kinetics-400的视频级精度我们可以看到，对于τS的每一个选择，精度随着长步长τL的增大而单调增加当τS= 8和τL= 32时获得最佳结果，对应于长视图比短视图长4倍在 Kinetics- 400 [34]的 240 K视频上的 200个 epoch的LSTCL，在前40个epoch期间使用线性预热[24]。我们在预热后应用余弦衰减时间表[41]，学习速率设置为lrBatchSize/256。我们采用[14]中的基本学习率和权重衰减我们的实验是在64个V100 GPU上运行的，在Pytorch中建立的致敬培训[47]。200个epoch的训练大约需要三天时间。5. 实验我们在几个动作识别基准上评估我们提出的LSTCL ： Kinetics-400 [34] ， Kinetics- 600 [10] ，Something-Something-V2 [25]（SSv2），HMDB [37]和UCF 101 [56]。我们的实验设置如下。首先，我们在Kinetics-400 上使用 T=8 帧的剪辑进行自我监督的LSTCL预训练，但对短视图和长视图使用不同的时间采样步幅，以便两个视图有效地跨越不同长度的时间范围。然后，我们在这三个数据集上以完全监督的方式微调LSTCL预训练模型200个epoch。在推理过程中，我们从每个视频中均匀采样5个剪辑，并对样本级预测进行平均，以执行视频级分类。在以下消融研究中，除非另外要注意的是，我们在 LSTCL 中采用TimeTransformer 作为主干，输入剪辑大小为8×224×224。5.1. 消融研究时间范围的重要性。我们首先取消了用于自监督训练的τS和τL的选择，同时保持微调时间步长固定为值τ=8（即，从随机帧开始每隔8帧从视频中采样一帧图2显示了τS和τL的不同组合如何影响Kinetics-400的最终视频级精度。为了便于解释，我们将结果可视化分为4个不同的图，代表4个不同的τS值：τS4、8、16、32。每个曲线图示出了最终视频级准确度如何针对长剪辑的不同时间步幅值τL而变化，其中τL≥τS并且τS为τSτL精度48，16，32 73.94，8，16 32 74.88 8，16，32 75.58，16，32 32 75.94，8，16，32 4，8，16，328，16，32 8，16，32 76.08 3276.6表1. 我们分析了随机采样τS和/或τL（分别针对短片段和长片段）的潜在益处。在使用MoCo v3使用我们的LSTCL系统进行预训练后，在Kinetics- 400上测量视频级分类的准确性对于τS = 8和τL = 32的固定值，仍然可以获得最佳结果。保持固定。从这些结果中我们可以得出两个重要的结论 The first is that, for each choice of τS, the larger the gapbetween the two strides (i.e., τLτS）的值越这可以在前三个图中看到，其中准确度曲线随着τL从τL=τS的初始值开始变大而单调增加。这验证了在自我监督预训练期间对比不同时间长度的视图的重要性。第二个观察结果是，我们的模型在τS=8和τL=32时表现最好。该结果具有直观的意义，因为以τS=8采样的短剪辑在时间上足够长以允许预测长剪辑的上下文;同时它足够短以允许该方法使用明显更长的长视图（比短视图长多达4倍相反，选择较大的τS值（即， 16或32）减小了最大可能间隙τ L两个视图之间的τS，而选择较小的τS值（即，4)将导致两个视图之间的对比学习由于短剪辑的过度简短而过于困难在表1中，我们包括与设置对应的附加性能点，其中τS和/或τ L针对每个训练视频剪辑随机采样。具体来说，表中的第一行显示了当τ S=4并且τ L从8、16、32随机采样时我们的系统的性能;第二行表示相反的设置，其中τ L保持固定（τ L=32）并且τ S从14015≤图3.这些图显示了用于监督微调和测试时间推断的时间采样步幅τ的不同值在Kinetics-400上的视频级准确度图4. Kinetics-通过使用三种自我监督策略的LSTCL预训练实现400的准确度，对于长剪辑有两个可能的步幅值（τL∈ {8，32}）（对于短剪辑有步幅剪辑固定为τS= 8）。这三种方法都得益于使用不同长度的视图（τL= 32，而不是τL=τS= 8）。{4，8，16};第三行中的设置类似于第一行，但τS=8;第四行显示与第二行相同的设置，但不包括τS=4;第五和第六行显示两种速度的配置对于每个训练视频剪辑随机选择标准步幅，服从τSτ L。如前所述，我们保持微调时间步长固定为值τ = 8。表1中的结果清楚地表明，在长剪辑和短剪辑的时间范围的选择中增加随机性不会产生改进的性能。当τ S= 8和τ L= 32时，仍然可以获得最佳性能（如最后一行所示）。因此，我们在所有后续实验中采用此设置。现在我们来研究微调步幅τ对视频级精度的影响。图3中的两个图显示了Kinetics-400的准确度如何随着我们针对两种不同的τS选择（左图中τS=4，右图中τS=8）改变τ值（横轴上）而变化。每个图中的不同曲线对应于τL的不同选择。我们看到，将微调步长设置为τ=8往往会在所有可能的τS和τL选择中产生最佳结果。这是有意义的，因为在τ=8的情况下，5个推断剪辑足够短而不会重叠，使得它们为视频级分类提供补充信息同时，τ=8意味着推理剪辑足够长，可以自行产生良好的分类。不同的对比学习框架。接下来，我们研究了不同的对比学习框架在我们的LSTCL系统的效果。具体来说，我们用三种最新的方法进行了实验：BYOL，MoCo v3和SimSiam。图4示出了长视图的更大的时间步幅τ L导致所有这三个框架的更好的准确性。具体而言，与τL=τS=8的设置相比，设置τ L= 32导致以下性能增益：BYOL为+2.6%，MoCo v3为+3.1%，以及SimSiam上涨1.6%。SimSiam较低的绝对性能可以解释为缺少动量编码器，我们观察到这在使用LSTCL训练视频Transformer模型时很重要。因此，基于这些结果，对于所有后续实验，我们采用MoCo v3作为我们的基础学习框架。体重分担和对比损失。我们在这里丢失共享骨干网准确性参数InfoNCE是76. 6 121. 4MInfoNCE否73.2 242.8M回归编号70.8 242.8M表2.我们通过评估对Kinetics-400的影响，将我们提出的方法（第一行）与Brave [51]抽样方法精度随机不相交72. 6随机数76.2随机独立76.6表3. Kinetics-400上LSTCL的不同剪辑采样策略的比较。在这些实验中，我们使用τS= 8和τL = 32用于LSTCL，τ =8用于微调。LSTCL和Brave之间的两个主要区别[51]。1)Brave有两个独立的主干，投影器和预测器，它们定义了一个宽流和一个窄流。相反，我们的LSTCL采用在线和动量编码器共享参数。2)Brave中的每个流都专门用于处理特定类型的视图（宽视图或窄视图）。训练是通过两个回归目标的组合来完成的（一个从宽到窄的映射，另一个在相反的方向上映射）。在LSTCL中，一个编码器同时获取两个视图。我们的模型使用单一对比损失进行优化，从而最大限度地减少两个视图之间的差异。在表2中，我们给出了LSTCL的消融结果，与上述差异1）和2）有关。对于1），我们修改LSTCL以针对两个视图使用不同的网络（独立2)除了使用单独的网络外，我们还在LSTCL中采用了Brave的数据馈送和学习目标。从结果中可以看出，LSTCL（第一行）实现了优越的性能，与这两种替代设置相比，只有一半的参数数量。LSTCL中的剪辑采样策略。在表3中，我们研究了不同剪辑采样策略的效果这些结果14016××模型划痕IN-1KLSTCL参数时间变换器[6]60.475.876.6121.4百万Swin66.273.375.588.0MST Swin 71.176.079.888.0M表4.将使用LSTCL的自监督预训练与从头开始的训练和ImageNet-1 K（IN-1 K）上的监督预训练进行比较。结果表明，视频分类的准确性动力学-400三个视频Transformer架构。表明随机独立抽样在我们的环境中效果最好。直觉上，这是有意义的，因为它迫使我们的模型外推到任意视频视图。视频变形金刚。在表4中，我们比较了三种不同视频Transformer架构的性能：时间变换器、Swin和时空（ST）Swin。我们在Kinetics-400上在三种不同的场景下训练这些模型：1）从头开始（没有预训练），2）在大规模ImageNet-1 K数据集上使用监督预训练，3）使用我们的自监督LSTCL预训练。我们可以看到，在这三种训练策略中，我们的LSTCL预训练提供了最高的准确性，优于使用大规模监督ImageNet-1 K预训练的模型。5.2. 与最新技术水平的对于我们的最终实验，我们采用时空 SwinTransformer，因为它在我们的消融研究中获得了最强的结果。为了与最先进的技术进行比较，我们还使用T=16帧的剪辑在使用LSTCL和监督微调的预训练期间即使在这种情况下，对于短剪辑，我们也将时间步长设置为τS=4，对于长剪辑，设置为τL=16动力学-400动力学-600 在表6中，我们报告了Kinetics-400的结果，列出了每种方法的剪辑大小，准确度，推理成本（TFLOP）和参数数量。我们根据输入剪辑大小对方法进行分组，因为在较长剪辑或较高分辨率帧上训练的模型前两组包括在与我们的系统所使用的尺寸相同的夹子上操作的模型（ 82242 和 162242）。它可以看出，使用LSTCL预训练的ST Swin模型在使用相同输入剪辑大小且不使用额外数据的所有先前方法中，此外，与先前的视频Transformer模型相比，这些模型在大规模标记数据集（表的底部）上进行了充分的监督，我们的方法仍然取得了有竞争力的结果，并且实际上通常会产生更好的准确性。最后，请注意，与从头开始训练我们的ST Swin模型相比，LSTCL预训练导致显著的8。动力学-400增加7%表7显示了与现有技术的比较。Kinetics-600数据集即使在这里，我们也可以看到，使用LSTCL预训练的ST Swin在两组模型中使用与我们的相同的剪辑大小表5.迁移UCF101和HMDB51的学习结果。我们使用完整的微调设置报告性能。我们的方法在UCF 101和HMDB 51上的性能优于以前的最先进方法。此外，我们的无监督LSTCL预训练方案比基于监督预训练的方法（在IN-1 K和K400上）取得了更好的结果。网络. 此外，LSTCL产生的增益为7。百分之三与从头开始学习相比。什么东西 V2 在表 8 中，我们报告了 Something-Something-V2数据集的性能。大多数现有方法都利用外部数据集上的监督大规模预训练，以便在此基准上实现强大的性能，因为数据集相对较小。表中的结果突出表明，我们的ST Swin模型使用LSTCL在Kinetics-400上进行了无标签预训练，比在较大数据集上进行预训练并使用手动标记数据的方法实现了更高的准确性。此外，我们的LSTCL预训练产生了26的增益。比从头开始训练的相同模型高出4%。这种显著的改进是由于Something-Something-V2数据集需要彻底的时间推理以获得良好的准确性。我们的LSTCL方法训练剪辑表示来从整个视频中预测时间上下文，从而在此基准上产生很大的好处HMDB51 UCF101。最后，我们评估了通过监督微调将LSTCL从Kinetics-400学习的无监督表示转移到HMDB [37]和UCF 101 [56]的小规模数据集的能力。结果如表5所示，其中我们还包括通过IN-1 K和K400上的完全监督预训练（使用类别标签）以及最近的两种自监督方法ρBYOL [20]和Brave [51]获得的准确度。可以看出，LSTCL在两个数据集上都执行了（i）以前最先进的无监督预训练方法，以及（ii）监督预训练基线。6. 结论本文介绍了长短时间对比学习（LSTCL），视频变压器的无监督预训练计划通过对比从每个视频的长视图和短视图获得的表示我们展示了我们的LSTCL下三个不同的对比框架和两个视频trans-former架构，包括一个新的变种，时空Swin Transformer。在我们的实验中，我们表明，使用LSTCL进行不受监督的预训练会导致类似或更好的结果。模型预训练数据集UCF101HMDB51[第51话]K400（不支持）95.174.6[20]第二十话K400（不支持）96.375.0ST SwinIN-1 K（监督）78.140.2ST SwinK400（监督）88.961.2ST Swin，带LSTCLK400（不支持）96.875.914017表6.与Kinetics-400上的最新技术进行比较。在使用与我们的模型相同的剪辑大小并且没有额外数据的方法中（表中的前两组），使用LSTCL预训练的ST Swin网络实现了最高的准确性，并且它们与使用更长或更高分辨率剪辑的模型（第三组）或利用额外数据进行监督预训练的模型（底部组）相当。方法剪辑大小其他数据（样本数量）Top-1Top-5TFLOPSParams[19]第十九话8 x 2242-77.993.23.059.9MTimeSformer-scratch8 x 2242-60.476.70.59121.4MST Swin从零开始8 x 2242-71.185.20.6088.0MST Swin，带LSTCL8 x 2242-79.894.00.6088.0M[63]第六十三话16 x 2242-79.2-7.0-[19]第十九话16 x 2242-79.893.97.059.9MMViT-B [17]16 x 2242-78.493.50.3636.6MST Swin，带LSTCL16 x 2242-81.595.21.8088.0MX3D-XL [18]16 x 3122-79.193.91.4511.0MIP-CSN-152 [60]32 x 2242-77.892.83.332.8MMViT-B [17]64 x 2242-81.295.14.0936.6M时间变换器[6]8 x 2242ImageNet-21K（14M）78.093.70.59121.4MSTAM [53]16 x 2242ImageNet-21K（14M）79.3-0.2796.0MTEINet [40]16 x 2242ImageNet-1K（1.2M）76.292.51.8-[第四十九话]16 x 2242ImageNet-21K（14M）79.794.211.1109.1MViViT-L [3]16 x 2242ImageNet-21K（14M）80.694.747.9310.0MVATT-B[2]32 x 3202AudioSet + HowTo 100M（3.2M）79.694.99.0888.0MTimeSformer-L [6]96 x 2242ImageNet-21K（14M）80.794.77.14121.4M表7. Kinetics-600的视频级精度。使用LSTCL训练的ST Swin模型在不使用额外数据或标签的情况下实现了与最先进技术相当的结果。方法剪辑大小其他数据（样本数量）Top-1Top-5[19]第十九话8 x 2242-80.494.8ST Swin从零开始8 x 2242-74.792.2ST Swin，带LSTCL8 x 2242-82.095.5[19]第十九话16 x 2242-81.895.1MViT-B [17]16 x 2242-82.195.7ST Swin，带LSTCL16 x 2242-83.696.6X3D-XL [18]16 x 3122-81.995.9MViT-B [17]32 x 2242-83.496.3时间变换器[6]8 x 2242ImageNet-21K（14M）79.194.4[第四十九话]16 x 2242ImageNet-21K（14M）81.695.6ViViT-L [3]16 x 2242ImageNet-21K（14M）82.595.6VATT-B[2]32 x 3202AudioSet + HowTo 100M（3.2M）80.595.5VATT-L[2]32 x 3202AudioSet + HowTo 100M（3.2M）83.696.6TimeSformer-L [6]96 x 2242ImageNet-21K（14M）82.295.6表8. Something-Something-V2上的视频级分类精度。我们的ST Swin模型使用LSTCL在没有标签的情况下进行预训练，产生的结果与最先进的水平相当。方法剪辑大小其他数据（样本数量）预训练Top-1Top-5时间变换器[6]8 x 2242ImageNet-21K（14M）监督59.5-ResNet50 [20]8 x 2242K400（240K）无监督55.8-ST Swin从零开始8 x 2242--38.465.5ST Swin，带LSTCL8 x 2242K400（240K）无监督64.889.4TEINet [40]16 x 2242ImageNet-1K（1.2M）监督64.7-[第四十九话]16 x 2242ImageNet-21K + K400（14.2M）监督66.590.1ViViT-L [3]16 x 2242ImageNet-21K（14M）监督65.489.8MViT-B [17]16 x 2242K400（240K）监督64.789.2ST Swin，带LSTCL16 x 2242K400（240K）无监督67.090.5TimeSformer-L [6]96 x 2242ImageNet-21K（14M）监督62.4-MViT-B [17]64 x 2242K400（240K）监督67.790.9与ImageNet-21 K上的预训练相比，视频分类准确性得到了充分的监督，并且在三种不同的视频分类平台上取得了有竞争力的结果标记. LSTCL有效地消除了视频变换器中大规模监督图像预训练的需要。14018引用[1] Pulkit Agrawal、Joao Carreira和Jitendra Malik。学习通过移动来观察。 IEEE International Conference onComputer Vision（ICCV），2015年12月。2[2] Hassan Akbari、Linagzhe Yuan、Rui Qian、Wei-HongChuang 、 Shih-Fu Chang 、 Yin Cui 和 Boqing Gong 。Vatt：Transformers，用于从原始视频、音频和文本进行多模态自监督学习。 arXiv 预印本 arXiv ：2104.11178，2021。二、三、四、八[3] Anurag Arnab ， Mostafa Dehghani ， Georg Heigold ，Che

下载后可阅读完整内容，剩余1页未读，立即下载