自监督视频表示学习的可组合增强编码方法

104 浏览量更新于2023-10-13 收藏 851KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8834用于视频表示学习的可组合增强编码孙晨1、2阿尔莎·纳格拉尼1田永隆3科迪莉亚·施密德11谷歌研究2布朗大学3麻省理工{chensun，anagrani，cordelias} @yonglong@mit.edu google.com摘要我们专注于自监督视频表示学习的对比方法。对比学习中的一个常见范例这些方法隐含地假设视图选择机制的一组表示不变性（例如，对具有时间偏移的帧进行采样），这可能导致违反这些不变性的下游任务（将受益于时间信息的细粒度视频动作识别）的性能差为了克服这种限制，我们提出了一个我们表明，通过我们的方法学习的表示编码有关指定的空间或时间增强的有价值的信息，并且在这样做的过程中，还实现了一些视频基准测试的最先进的性能。1. 介绍我们专注于自我监督视频表示的对比学习[16]对比的目的很简单：它把正对的潜在表征拉得彼此靠近，而把负对推开。它非常适合自监督学习，可以从数据本身构建正负对，而不需要额外的注释。在不同的正对生成技术中，一个特别成功的技术是增强不变对比学习[8，20，61]，它已经显示出图像表示学习的令人印象深刻的结果。在这种实例判别框架中，通过应用人工侵略性照片几何数据增强来构建正对，以创建相同实例的不同版本视图2：vt“tY图1.标准的自监督对比学习方法是增强不变的，它们摄取同一实例的两个增强视图，并鼓励它们的潜在表示相似。对于视频，如果两个视图是以时间偏移来采样的，则该方法将学习对时间变化不变的表示，从而丢失有价值的时间动态信息（例如，时间偏移）。切橙子的动作）用于下游任务。相反，我们通过额外编码两个视图的相对变换（例如：时移t0）与可组合增强编码（CATE）以使表示增强感知。对这些数据扩充是不变的。许多自我监督的作品也将这一想法扩展到视频，其中不是人工增强，而是将时间偏移视为自然数据增强[46，57]，其中来自具有时间偏移的同一视频的两个帧形成正对。虽然这对于捕获高级语义信息（例如，对象类别的知识，它可以删除细粒度的信息，这可能是有用的，取决于下游的任务考虑图1然而，对于涉及关于时间关系的推理的下游任务，诸如识别由切割水果的动作引起的整个橙子和橙子切片之间的状态转换，对时间移位不变的表示可能已经丢失了有价值的信息。我们认为增强感知信息可以视图1：表示空间8835如果两个视图的相对增强对于对比学习框架是已知的，则保留。对于图1中的橙色，如果编码器知道另一个橙色视图的形状信息，则编码器可以保持切片橙色视图视图在时间上落后于t0（并且可能是整个橙色）。因此，我们提出了一个自监督视频表示学习的通用框架，如下所示。为了方便起见，我们使用术语数据增强来考虑所有可参数化的数据转换，包括空间或时间上的移位。然后，我们应用这些一般化的数据增强来创建相同数据的不同视图，如在先前的增强不变对比学习中所做的那样。然而，不是直接对这些视图应用对比度损失，而是应用附加的投影头，该附加的投影头可选地还对最初用于创建视图的增强进行编码。例如，给定经由裁剪获得的图像的两个视图，这可以是裁剪空间变换的对于视频，该编码还可以包括关于视图之间的时间关系的信息（例如，时间关系）。5秒移位）。在丢失或遮挡的顺序数据的情况下，我们还可以指定要预测的特定位置。当没有这样的编码提供，我们的框架成为标准的增强不变的对比学习。我们制定这个框架作为一个预测任务，给定的顺序数据作为输入。在这种情况下，输入序列包含要学习的编码的视觉表示，并且可选地包含用于预测的编码的数据变换的集合。通过使用transformers，我们可以很容易地在输入序列中组合多个编码的数据转换。我们将这种投影称为可组合的A/G编码（CATE）模型。当数据转换以这种方式显式编码时，我们的训练目标可以激励模型利用这些信息，如果它有助于学习（例如学习可以将橙子切成片的时间动态）。我们选择总是在不同的实例中对负对进行采样，因此如果转换编码无助于减少对比损失，则模型可以自由地忽略它们。然而，实验结果表明，他们几乎总是利用。我们进行全面评估以测试我们框架的有效性，并在此过程中作出以下贡献：（1）我们提出了可组合增强编码（CATE）来学习增强感知的表示，并验证了CATE学习保留有用信息的表示（例如：位置，时间箭头）比没有增强编码的视图不变基线更有效;（2）我们对增强类型和参数化进行了多次消融，并观察到不同的下游任务有利于不同增强的意识，例如，时间意识是特殊的对细粒度动作识别有很大帮助。我们还发现，在编码时间信息时，同时编码时间箭头和时间偏移的绝对值优于仅使用时间箭头 ; （ 3 ）我们为 Something-Something [ 15 ]的自监督学习设置了一个新的最先进的技术，这是一个专为细粒度动作识别而设计的数据集，最后（4）我们还在标准基准上实现了最先进的性能，如HMDB 51 [31]和UCF 101 [52]。2. 相关作品对比学习最近，最具竞争力的自监督表示学习方法使用了对比学习[8，9，20，21，23，42，55，61]。这个想法可以追溯到[16]，其中对比学习被表示为带有边界的二进制分类。现代对比方法依赖于大量的负数[20，55，61]，因此常用技术是采用k对InfoNCE损失[42，51]。通过选择不同的正对或数据的“视图”，对比学习可以鼓励不同的亮度和色度[55]、旋转[39]、图像增强[8，20]、时间偏移[17，42，47，49，69]、文本及其上下文[30，33，38]和多模态变化[10，41，44，48]。许多作品都强调了这些内在的代表性不变性的问题。InfoMin [56]证明了不同的不变性有利于不同的下游任务，并提出给定任务的最佳视图应该只对该任务的不相关因素保持不变。在[46]中，遮挡不变性被示出为有益于对象检测的下游任务。然而，设计任务相关的不变性需要事先知道下游任务，并可能使学习的表示不太一般。为了克服这个问题，[63]学习了多个嵌入空间，每个嵌入空间除了一个增广之外都是不变的。这意味着模型（投影头）复杂度随着不变集的基数线性增长。相反，我们的基于Transformer的投影头采用一系列可组合的编码，并且可以以固定的模型复杂度调制我们想要的不变性视频的自我监督学习。通过利用时空和多模态信息，视频为学习图像之外的表示提供了额外的机会[3，43]。一些工作将空间任务扩展到视频的时空维度，例如通过使用旋转[26]或拼图求解[29]，而其他人通过排序帧或剪辑[14，25，32，34，40，60，65]，未来预测[17，18，58]，速度预测[5，59]或运动[1，12]来使用时间信息。TaCo [4]通过结合不同的时间增强来巩固这些作品。与我们类似，他们试图建立增强意识，但通过在投射之外添加不同的借口任务头部来8836PKe+····4J图2.我们的对比学习框架CATE的概述正对是从相同的实例构建的对于每个视图，数据增强的随机集合（例如，时间移位、空间裁剪）被采样并应用。视图然后由共享的视觉编码器（例如视频的3D ConvNets然后，编码的视觉特征以及参数化和嵌入的数据增强被传递到Transformer头（这包含多个层，为了简单起见，仅示出了输入层），该变换器头总结输入序列并生成用于对比学习的投影特征。在该示例中，底部Transformer头的任务是预测已知相对于Vi的时间增强（在时间上提前t秒预测特征）和空间增强（框坐标的移位）的特征。视觉编码器f被转移到下游任务。每个时间变换的视频，其再次随着增强的基数集线性增长锚点x、其配对y+和一组否定yi-（i = 1，2，…K），InfoNCE损失定义如下：3. 方法本节介绍我们的统一CATE框架LNCE=-Eeh（x，y+）日志h（x，y+）i=1eh（x，yi-）#（一）对比学习我们首先提供一个对比学习的概述。然后，我们描述了两种范式的对比学习-我们还讨论了如何存在的对比学习方法可以被视为特殊的情况下，我们的框架。图2中提供了我们提出的框架的说明性概述。3.1. 对比学习对比学习方法通过最大化相同数据示例（正对）的不同增强视图之间的一致性，同时推开不同的数据样本（负对）来学习表示。正对视图的构造可以是非常一般的，通过随机数据增强模块或通过从多传感器数据中采样共同出现的模态例如，给定两个随机变量x和y，因此，存在与互信息最大化的自然联系，并且如[42]中所示，对比学习可以被视为最大化x和y的表示之间的互信息的下限。具体而言，给定一个临界函数h（，）通常由一个或多个骨干网络[8，20，55]、投影头[8，61]和余弦相似性函数组成此函数经过优化，可将高分分配给正对（x，y+），将低分分配给正对（x，y +）。到N，例如，N个对（x，y，i）。最小化此InfoNCE损失是等价于最大化相互关系上的下限INCEx和y之间的信息，表示为I（x;y）：I（x;y）彡log（K）- LNCE=INCE（x;y）（2）3.2. 不变和预测编码对于视觉表示学习，可以以自监督方式从未标记的数据中构造正对。根据[8]的符号，一种流行的方法是即时歧视：其中，通过应用独立采样的随机数据增强来生成相同实例V的两个视图Vi、Vi：vi=a（v;i）vj=a（v;j）x=g（f（vi））y+=g（f（vj））其中a（）是由参数化的数据增强操作，f（）是通常使用ConvNets实现的视觉编码器，其输出用于转移学习，并且g（·）是由Multi-层感知器（MLP）。注意这里f（·）和g（·）都是视频编码器66（4i）[CLS]4我增强编码器0（. ）的方式46（4j）[CLS]0（澳元）（C）C罗普视频编码器6Transformerhea d;（. ）Crop（C′时移（0）0（At时移（五）Transformerhea d;（. ）收缩性损失“8837················是跨视图共享的。我们将这种方法称为不变编码。另一方面，预测编码提供了另一种方法，其中相同实例内的某些区域被掩蔽，诸如句子中的不同单词、图像中的不同对象或视频中的不同帧这创建了两个不同的视图-实例vi、v j的观察到的和vi=m（v;i）vj=m（v;j）其中m（）是掩码函数，由参数化。在不失一般性的情况下，我们假设是可加的。这是一个合理的假设，对于可以被认为是连续的视觉数据，并且索引（例如，视频时间戳、图像的像素位置）是加性的。然后，要对比的表示被计算为：x=g（f（vi）;0）y+=g（f（vj）;j-i）与视图不变编码不同，投影头g（）现在也将作为输入，即它的任务是预测条件为的表示（例如，其可以表示用于生成视图的时间信息在实践中，g（）可以很容易地用[42]中的递归神经网络或[11]中的具有位置嵌入的Transformer来实现。我们注意到，预测投影头g（）不一定需要考虑f（），假设f（）已经编码了f（）的信息不变量。然而，显然一个简单得多的任务是让f（）编码对预测有用的信息，g（）作为预测器（例如，为文本生成新词，或者为视频学习时间动态3.3. 统一的CATE框架a（）和m（）都可以被看作是原子数据操作，它们因此，我们可以使用以下符号来统一vi=t（v;i）vj=t（v;j）x=g（f（vi）;0）y+=g（f（vj）;e（j-i））其中i=[1，2，…]是一个原子数据序列trans-e（）：当我们指示e（）忽略某些类型的操作时，我们的方法对于这样的操作是我们使用 Transformer 实现 g （）我们的Transformer模型采用一组输入，其中包括编码的视觉特征f（vi）。我们将特征投影为与具有线性层的Transformer的隐藏大小相同的大小另外，每个所选择的数据操作由专用于操作类型的编码器ei（Ei）编码到嵌入中。例如，对于裁剪，输入将是裁剪框的坐标之间的差异（有关实现细节，请参见4.2）。最后，我们有一个特殊的[CLS]令牌，它输出嵌入然后用线性层投影到所需的输出大小。我们的框架的一个很大的优点是，Transformer投影头可以优雅地处理可变长度的输入，因此，多个增强编码可以组成一个固定的模型容量。我们在实验中证明了这一点（Sec.4.3）组合裁剪和时间编码两者改进了性能。请注意，其他常见的基于对比的学习技术可以表示为我们的通用框架的特殊情况：如果e（）被设置为总是返回0（恒等式），我们的模型类似于Simplified[8]，使用基于transformer的投影头。当输入到e（）对应于来自序列的掩码索引时，我们的公式与BERT [11]或GPT [6]的公式一致。4. 实验我们首先描述数据集和它们的实验设置（ Sec.4.1），然后深入研究实现细节（第4.2我们的框架。然后，我们研究了一些模型消融，以更好地理解CATE的设计选择，如第2节所述。四点三。为了进一步分析我们的框架，我们还设计和评估了两个代理任务，这两个任务需要视频中的时间知识-预测时移和早期动作分类（第二节）。4.4）。最后，我们比较性能的最先进的定期动作分类基准。4.1. 数据集Something-something [15] v1：这是一个专注于人类对象交互的视频数据集。该数据集包含108，499个视频，其中包含174种细粒度的人机交互。动作类别旨在关注时间信息--需要时间来区分拿起东西和放下东西我我其中，t（）将数据增强序列应用于输入数据，并且e（）是将作为输入的编码器给定一个原子数据操作序列，我们可以控制哪些是视图不变的，哪些是预测性的一些东西，因此已经观察到[64]，对于这个数据集，捕获细微的时间变化对于良好的性能很重要。我们使用Something-Something v1（SSv 1）进行主要的消融实验。8838p·⇥·Something-something [15] v2：SSv 2是在SSv 1的基础上构建的，将数据集大小扩展到220，847个视频。然后通过[35]使用对象边界框注释来增强数据集我们使用SSv2与以前公布的结果进行比较对于SSv1和SSv2，我们采用ImageNet上自监督学习使用的线性评估协议，其中预训练和评估都是在同一数据集上完成的。在预训练时，训练分割中的视频用于学习表示。在评估阶段，我们首先在训练分割中的冻结表示之上训练一个监督线性分类器，然后在验证集上报告分类准确性。为了与其他人相比，我们报告的结果的东西，其他，它定义了分裂的SSv2几杆分类。动力学-400：该数据集由来自YouTube视频的240 K 10秒剪辑组成，动作标签覆盖400个类。我们遵循在训练分割中对修剪剪辑进行训练的标准实践，但忽略它们的动作标签。为了评估在Kinetics-400上学习的表示，我们遵循标准实践并报告以下两个数据集的结果：HMDB51：HMDB51 [31]包含来自51个动作类的6，766个视频剪辑。使用来自[24]的三个训练/测试分割的平均分类准确度进行评估，每个分割具有3，570个训练和1，530个测试视频。UCF101：UCF101包含从YouTube下载的13K视频，涵盖101个人类动作类。与HMDB 51类似，并且如标准所做的，使用三个训练/测试分割的平均分类准确度来执行评估我们在Kinetics上进行预训练，然后通过以下两种方式在HMDB51和UC101上进行评估：(i) 标准动作分类：我们报告了（a）对冻结特征的线性评估和（b）微调的性能。这是为了与最先进的技术进行比较。(ii) 早期行动分类：这是为了进一步了解CATE的价值，结果见第2节。4.4在这里，我们预测未来可能执行的高级动作，给定当前时间戳处的噪声视觉证据，类似于先前针对动作检测所探索的内容[54]。对于这个任务，我们只在UCF和HMDB中训练视频的第一帧，并且在测试时也只使用这一帧。4.2. 实现细节基本模型：我们的实现基于Sim- CLR [8]代码.除非另有说明，我们使用标准的3D ResNet-50，遵循SlowFast网络[ 13 ]中“慢”分支的架构在对比预训练期间使用全局批量归一化，并且在迁移学习期间使用局部批量归一化我们使用SimCLR [8]使用的标准数据增强：随机裁剪、颜色抖动和高斯模糊。对于空间种植，我们发现限制裁剪区域为（0. 16，0。81）的原始图像区域。对于视频，我们使用时移作为额外的原子数据操作。所有上述空间增强随时间一致地应用以避免破坏时间连续性。我们使用一个轻量级的Transformer编码器作为投影头，隐藏的大小为768个单位，中间大小为3072，注意头数为12。我们总共使用4个变压器层。我们在输出大小为256的Transformer之后添加一个线性投影层如第4.3节所述，当在没有编码数据增强的情况下单独使用时，Transformer头的性能与SimCLR使用的非线性投影头相当。这使我们能够专注于增强编码的影响增强编码：在这项工作中，我们编码两个增强-空间裁剪和时间转移，因为我们发现这些是最有效的经验，为下游任务的行动分类。如SimCLR所指出的，对像颜色抖动和高斯模糊的增强的不变性对于分类是有益的，并且因此我们不对这些进行编码。我们在这里注意到，一种可以自动选择要编码的增强的方法将是有趣的，并且我们将其留给未来的工作。增强由e（）编码如下：对于裁剪，我们记录表示裁剪的边界框（x1，y1，h，w）的4个标量值，然后我们计算两个视图6x，y之间的裁剪框的相对距离，并将其投影到具有线性层的768-dim对于时间移位，我们编码时间箭头的二进制指示符，然后编码表示移位的帧数的单个标量。每一个都被投射到768-dim与嵌入查找表分别，然后加在一起。预训练：我们将16个输入帧馈送到ResNet-50-预训练时的3D骨干，Kinetics的帧采样步幅为4，SSv1和SSv2的帧采样步幅为2。所有帧都将被裁剪并调整大小为224 224。在预训练期间，Transformer投影头与ResNet-3D骨干一起接受联合训练。我们使用LARS优化器初始学习率为4.8（= 0. 15（BatchSize）），权重衰减为10-4。除非特别说明，我们预训练500个epoch，批大小为1024。评估：对于线性评估，我们冻结预训练的视觉编码器f（），提取2048-dim输出特征，并在上面训练线性分类器。在此阶段不使用Transformer投影头。我们在训练过程中以步幅1采样16帧，并且多达8个32帧的滑动窗口用于评估，其覆盖整个视频跨度。这种对于线性评估，我们使用学习率为0.16，批量大小为256的动量优化器。对于微调，我们将学习率降低到0.02，并将批量大小减少到128。所有模型都训练了50个epoch。8839·X XTransformer31.261.4时间6tX31.2 61.4表1：左：示出了利用不同Transformer投影头的编码时间的值的消融，以及右：正则化对编码的。所有结果均基于SSv1，对冻结特征进行线性评估第四行：SimCLR++，具有时间增强和Transformer投影头的simCLR。最后一行：当我们对时间进行编码时，我们的性能得到了很大的提升。在右边，我们显示了将dropout添加到两个aug的影响。编码-裁剪和时移。对于裁剪编码，dropout使预训练任务更难（收敛时的对比度损失更高），并且还提高了下游准确性。对于时间编码，重要的是不仅要对时间的箭头进行编码，还要对相对距离进行编码。然而，辍学正规化在这种情况下没有帮助。4.3. 模型消融在本节中，我们对SSv1数据集进行了5次消融。我们在没有标签的SSv1训练集上进行预训练，然后训练单个线性层。我们评估SSv1验证集。我们首先讨论CATE的两个关键设计选择：（1）与MLP或线性层相比，使用Transformer投影头（表1，左），以及（2）我们参数化和规则化增强编码的方式（表1，右）。特别是，我们评估了编码时移及其方向（时间箭头）的影响（表1，右）。然后我们展示了（3）在我们的框架中组合多个增强是可能的，并且最后我们消除了一些低级细节，例如⑷Transformer头部中的层数和⑸用于训练的时期的数量1. 不同的投影头类型。在本节中，我们从vanillaSimCLR模型开始，然后改变以下内容：（i）在训练我们的模型时添加时间增强，（ii）在我们的CATE框架下编码时间或不结果示于表1（左）中。SimCLR：Vanilla SimCLR [8]应用于视频帧，没有时间数据增强。在相同的帧上应用空间增强以创建视图，并且使用MLP投影头。SSv1的结果见表1的第一行（左）。Simplified ++：除了空间增强之外，我们还在同一视频中的不同时间对帧进行采样以创建视图（第3行）。然后，我们还用仅采用编码的视觉表示 f （）的Transformer投影头来替换MLP投影头。该基线显示在表1的第四行（左）中，以蓝色突出显示，因此- forth被称为SimCLR++。这是一个强有力的基线供我们比较。从表1（左）中可以清楚地看出，时间数据增强对于视频表示学习至关重要，从而使top-1准确度提高9%。MLP投影头（行1和3）。当没有时间增强被编码时，我们观察到非线性MLP投影头给出与变压器投影头（行2和3）类似的性能，这验证了CATE中的任何性能改进不仅仅是由于我们还观察到，将Transformer头与MLP头组合会导致性能稍差（第5行）。2. 编码增强。我们首先在表1（左）中观察到，添加时间编码将前1准确度提高了近5%，从SimCLR++的26.5%提高到31.2%（最后一行与蓝色的第四行）。为了进一步探索我们的增强编码的有效性，在表1（右）中，我们使用两种增强-裁剪和节奏转换（时间）对增强类型进行消融。我们还探索了时间增强的参数化方法（仅使用时间sgn（6t）的箭头或时间6t中的距离，其包括时间移位的绝对值及其方向），以及编码的正则化（dropout或no dropout）。我们观察到，作物编码和时间编码本身都提高了基线上的分类准确性，时间编码提供了稍大的提升。通过比较第四行和第五行，我们可以看出时间增强的参数化也很重要，并且将时间距离连同时间箭头一起传递到增强编码器是有益的。最后，我们观察到，辍学regularisation有助于作物编码，但不是时间编码。我们假设裁剪编码可能使对比任务过于容易，并且需要更强的正则化;时间编码不会受到这个问题的影响，因为从视频中的不同帧中可以学习到更多的变化，并且它实际上受益于更多信息的编码（从sgn（6t）到6t）。3. 组成多个增强。在表2中，我们八月时间桨编码器时间投影Top-1 Acc.前5名Acc.编码⌧辍学Top-1 Acc.前5名Acc.77MLP17.140.9没有--26.555.9X7线性20.945.9作物6x，y727.256.7X7MLP26.455.2作物6x，yX28.158.0X7Transformer26.555.9时间sgn（6吨）728.157.98840显示了在将裁剪和时间编码馈送到Transformer头之前合成它们的结果。我们可以看到，对于SSv1（SSv2也有类似的结果，可以在附录表A4中找到），单独使用裁剪和时间编码会导致性能优于无编码基线（即：Simplified ++，第一行），并且将它们组合在一起导致进一步的改进。桨编码器作物桨编码器时间Top-1 Acc.前5名Acc.7726.555.9X728.158.07X31.261.4XX32.262.4表2：为Something-Something vl组合空间（裁剪）和时间编码。每个单独的编码优于无编码基线（SimCLR++）。将它们组合在一起会产生最佳性能。4. Transformer层数。我们对投影头（带时间编码）的多个Transformer层（1、2、4、8）进行了实验，并观察到性能在四层开始饱和（表A2，附录）。我们在所有其他实验中使用四层。5. 训练时期的数量。我们研究了用于SSv 1和Kinetics-400 预训练的 epoch 数量的影响。我们使用 SSv1 、HMDB和UCF进行评估。与SimCLR [8]类似，我们观察到通过最初增加历元的数量来改善性能，然后在大约500个历元时饱和（表A3，附录）。4.4. 进一步分析在本节中，我们将进一步分析编码增强对学习表征的影响。SSv1上的每类细分：我们推测增强编码对于需要意识到相应的空间和时间增强的下游任务是有帮助的。为了验证这一猜想，在表3和表A8（附录）中，我们分别列出了从时间和作物编码中受益最多和最少的SSv1类。我们通过计算每个类的平均精度来对类进行排序我们可以清楚地看到，用于时间编码的顶级类通常对定义的时间顺序敏感，例如抬起然后放下，并且移动更近，其中改变时间箭头将导致相反的动作（例如，移动到更近）。移动得更远）。类似地，对于裁剪编码，受益最大的类是那些需要一定水平的空间推理的类（例如，抬起、放下、从右向左拉动以及向下移动），而底层类通常不需要空间推理。预测时移：在之前的实验中，我们凭经验证实，在预训练期间编码增强会导致更好的下游性能。作为一个圣-标签TRONAP把某物完全举起来，然后让它掉下来21.0拉东西的两端使其伸展19.8移动某物和某物彼此靠近18.5在桌子上拿一个类似的东西17.2推某物使它几乎掉下来但16.7轻轻地戳东西以至于它-4.6假装从某物-5.4戳一堆东西而不使这堆东西倒塌-5.5假装把空气撒在什么东西-7.8表3：在SSv1上使用时间编码受益最大和最小的类我们根据平均精度的差异对类进行排序。然而，我们还进一步设计了代理任务，以验证表示确实存储了编码信息并且没有丢弃它。为了分析时间编码，我们设计了一个基于SSv1数据集的时移分类实验。对于每个视频，我们对两个16帧的剪辑进行采样，并使用它们在时间上的相对距离作为分类标签。标签空间每6帧（0.5秒）量化一次。在训练和评估期间，我们将两个剪辑的冻结表示，按通道连接它们，并将它们传递给顶部的线性分类器。表4示出了结果。我们可以看到，通过在预训练期间提供编码的时间增强6t，CATE学习保持时间偏移信息的表示，以近乎完美的准确度解决任务。仅提供时间箭头sgn（6t）保留一些信息，而无编码基线在该探测任务上表现不佳。编码时间时间偏移Acc.7-5.7Xsgn（6t）65.7X6t99.9表4：SSvl上的时移分类。编码时间对这个代理任务有很大的帮助，验证了我们的模型保留了有用的时间信息的直觉。早期动作分类：我们使用这个基准来调查观察帧的数量对动作识别的影响。第6.2节（附录）中的表A5报告了UCF-101和HMDB-51的结果。我们观察到，早期动作分类的编码时间增益大于完整视频分类，这表明时间信息对任务更重要。4.5. 与最新技术水平最后，我们提出了与以前的国家的最先进的方法SS，UCF 101和HMDB 51的比较。对于SS，我们将我们的自监督表示与其他弱监督和全监督表示进行比较。8841为了评估，所有表示都被冻结，并且在来自目标数据集的标记的训练示例上训练线性分类器。在表5中，我们将CATE与竞争性弱监督方法进行了比较。CATE在SSv1的火车分裂上进行了预训练，所有弱监督的表示都由[66]的作者在19M公共视频上进行了预训练，并带有hashtag监督。目标数据集是SSv1。尽管只使用0.1M视频进行训练而不使用它们的标签，但我们的方法能够大幅优于这些弱监督方法。方法监督Top-1 Acc.[22]第二十二话15.6美国[50]20.3[66]第六十六话20.6SimCLR++[8]Self26.4CATE Self32.2表5：与SoTA的对什么东西-v1 val设置。我们对冻结的特征使用线性评估。我们比较[66]的弱监督基线。* ：利用时间增强重新实现。在表6中，我们与全监督时空交互网络（STIN）[35]进行了比较，用于少数动作分类。CATE和STIN都在Something-Else的“Base”分割上进行了预训练，其中包含一半的视频。STIN使用其标签作为监督，而CATE则没有。目标少数镜头数据集包含5个，或10个例子，每个类，跨越86个类。这是比[7]使用的5路分类设置更具挑战性的设置。我们发现CATE实现了与监督STIN相当或更好的性能。方法预训练5次注射Acc.10次注射加速STIN+OIE+NL [35] 监督17.7 20.7SimCLR++[8]Self-sup.14.4 19.8CATE自助餐18.0 22.9表6：与SoTA在Something-Else上的比较，Something-V2的分裂用于少数镜头分类。* ：我们利用时间增强的重新实现。我们还在表7中比较了HMDB 51和UCF 101的最新技术水平。使用冻结功能，我们的模型优于所有其他仅使用RGB帧进行预训练的作品-在UCF上，我们甚至优于大量使用端到端微调的作品。此外，我们的模型优于AVSlowFast [62]，其使用来自音频的额外监督，以及MemDPC [18]和最近提出的CoCLR [19]，其使用来自预提取光流的额外信息。我们的模型也与MIL-NCE，XDC和ELO相比表7：与UCF101 [52]和HMDB51 [31]的现有技术的比较。* 重新实施[53]。冻结X意味着预训练的表示是固定的，并使用线性层进行分类，而7意味着所有层都是端到端的微调。以浅蓝色突出显示的行使用RGB帧以外的模式作为监督源。模态是V：仅RGB帧，T：来自ASR的文本，F：预提取的光流，A：音频。15年（MIL-NCE）和YouTube 8 M，13年（ELO）。相比之下，Kinetics400仅包含28天的视频数据。在微调时，我们注意到差距较小，但我们仍然优于所有以前发布的仅使用RGB帧的作品。我们注意到，使用来自其他模态的额外信息并在更多训练数据（MIL-NCE，XDC和ELO）上进行训练的方法几乎能够使UCF数据集的性能饱和。5. 结论我们提出了一个通用的框架，对比学习，使我们能够建立增强意识，在视频表示。我们的方法包括一个优雅的Transformer头编码增强信息在一个可组合的方式，并实现了国家的最先进的视频表示学习的结果。未来的工作将包括评估结构化视频理解任务和测量表征学习的等方差方法方式数据集冷冻UCFHMDBShuff Lrn*[40]VUCFX26.512.63DRotNet [27]VK400X47.724.8CBT [53]VK600X54.029.5MemDPC [18]VK400X54.130.5TaCo [4]VK400X59.626.7CateVK400X84.353.6MemDPC [18]V+FK400X58.533.6CoCLR [19]V+FK400X74.546.1AVSlowFast[62]V+AK400X77.444.1MIL-NCE [37]V+THTMX83.454.8XDC [2]V+A公司简介X85.356.0ELO [45]V+AYT8MX-64.5Shuff Lrn*[40]VUCF750.218.1CMC [55]VUCF759.126.7OPN [32]VUCF759.623.8[65]第六十五话VUCF772.430.93DRotNet [27]VK400766.037.1DPC [17]VK400775.735.7CBT [53]VK600777.047.2MemDPC [18]VK400778.141.2[5]第五话VK400781.148.8VTHCL [67]VK400782.149.2TaCo [4]VK400785.151.6CateVK400788.461.9MemDPC [18]V+FK400786.154.5CoCLR [19]V+FK400787.954.6MIL-NCE [37]V+THTM791.361.0ELO [45]V+AYT8M793.867.4XDC [2]V+A公司简介794.267.48842引用[1] Pulkit Agrawal、Joao Carreira和Jitendra Malik。学习通过移动来观察。CVPR，2015。2[2] Humam Alwassel 、 Dhruv Mahajan 、 Bruno Korbar 、Lorenzo Torresani、Bernard Ghanem和Du Tran。跨模态音视频聚类的自监督学习。神经IPS，2020年。8[3] Relja Arandjelovic和Andrew Zisserman。看，听，学。InICCV，2017. 2[4] Yutong Bai ， Haoqi Fan ， Ishan Misra ， GaneshVenkatesh ， Yongyi Lu ， Yuyin Zhou ， Qihang Yu ，Vikas Chandra，and Alan Yuille.时间信息可以帮助对比自监督学习吗？ arXiv 预印本 arXiv ： 2011.13046 ，2020。二、八[5] Sagie Benaim 、 Ariel Ephrat 、 Oran Lang 、 InbarMosseri 、 William T Freeman 、 Michael Rubinstein 、Michal Irani和Tali Dekel。Speednet：学习视频中的速度。在CVPR，2020年。二八十三[6] Tom Brown ， Benjamin Mann ， Nick Ryder ， MelanieSub- biah，Jared D Kaplan，Prafulla Dhariwal，ArvindNeelakan- tan，Pranav Shyam，Girish Sastry，AmandaAskell ， Sand- hini Agarwal ， Ariel Herbert-Voss ，Gretchen Krueger ， Tom Henighan ， Rewon Child ，Aditya Ramesh，Daniel Ziegler，Jeffrey Wu，ClemensWinter，Chris Hesse，Mark Chen，Eric Sigler，MateuszLitwin，Scott Gray，Benjamin Chess，Jack Clark，克里斯托弗·伯纳山姆·麦克坎德利什亚历克·雷德福Ilya Sutskever和Dario Amodei在NeurIPS，2020年。4[7] Kaidi Cao ， Jingwei Ji ， Zhangjie Cao ， Chien-YiChang，and Juan Carlos Niebles.通过时间对齐的少镜头视频分类。在CVPR，2020年。8[8] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offrey Hinton.视觉表征对比学习的一个简单框架。在ICML，2020。一、二、三、四、五、六、七、八、十二[9] Xinlei Chen，Haoqi Fan，Ross Girshick，and KaimingHe.通过动量对比学习改进基线。arXiv预印本arXiv：2003.04297，2020。2[10] 郑秀焕郑俊松康洪国完美匹配：改进了用于视听同步的跨模态嵌入在ICASSP，2019年。2[11] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。BERT：用于语言理解的深度双向转换器的预训练。arXiv预印本arXiv：1810.04805，2018。4[12] 阿里·迪巴，维韦克·夏尔马，吕克·范古尔，和雷纳·斯蒂费尔-哈根. Dynamonet：动态动作和运动网络。在ICCV，2019年。2[13] Christoph Feichtenhofer ， Haoqi Fan ， Jitendra Malik ，and Kaiming He.用于视频识别的慢速网络。在CVPR，2019年。5[14] Basura Fernando，Hakan Bilen，Efstratios Gavves，andStephen Gould.自监督视频表示学习与奇一网络。在CVPR，

下载后可阅读完整内容，剩余1页未读，立即下载