用于自监督视觉预训练的掩蔽特征预测

151 浏览量更新于2023-10-25 收藏 898KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

14668用于自监督视觉预训练的掩蔽特征预测陈伟*，1，2范浩琪1谢赛宁1吴朝元1 Alan Yuille2 Christoph Feichtenhofer*，1*同等技术贡献1Facebook AI Research2约翰霍普金斯大学摘要我们提出了掩蔽特征预测（MaskFeat），用于视频模型的自我监督预训练我们的方法首先随机掩盖了输入序列的一部分，然后预测被掩盖的区域的功能。我们研究了五种不同类型的功能，并发现直方图的定向的约束（HOG），手工制作的特征描述符，特别是在性能和效率方面。我们观察到HOG中的局部对比度归一化对于良好的结果是必不可少的，这与使用HOG进行视觉识别的早期工作一致。我们的方法可以学习丰富的视觉知识，并驱动大规模的基于Transformer的模型。在不使用额外模型权重或监督的情况下，在未标记视频上预训练的MaskFeat在Kinetics-400上实现了前所未有的86.7%的结果，在Kinetics-600上为88.3%，在Kinetics-700上为80.4%，在AVA上为38.8 mAP，在SSv2上为75.0%。MaskFeat进一步推广到图像输入，可以将其解释为具有单帧的视频，并在ImageNet上获得有竞争力的结果。1. 介绍自我监督的预训练在自然语言处理中非常重要，为具有十亿规模数据的大型Transformers [66]提供动力[6，21]。其基本思想是一个非常简单的屏蔽和预测任务，即首先屏蔽掉文本中的一些标记，然后在给定可见文本的情况下预测不可见内容。人类有一种非凡的能力来预测世界如何出现和移动时，观察它作为一个连续的时空信息流。考虑图1第一栏中的例子. 1.一、即使没有看到被掩蔽的内容，我们也能够理解对象结构，并通过使用关于可见结构的视觉知识来绘制想象信息（直到一些细节）的粗略轮廓或轮廓在这项工作中，我们表明，预测某些掩蔽功能（例如，第2列中的梯度直方图）可以是自我监督视觉预训练的强大目标，特别是在包含丰富视觉信息的视频域中。掩蔽输入HOG预测原始图像图1.在未见过的验证输入上的HOG预测示例。我们的模型是通过在给定掩码输入（左）的情况下预测特征（中）来学习的原始图像（右）不用于预测。更多定性的例子在附录中。视觉和语言之间的一个本质区别是视觉没有预先存在的词汇来将预测任务塑造成一个定义良好的分类问题。相比之下，原始时空视觉信号是连续和密集的，这对掩蔽视觉预测提出了重大挑战。一个直接的解决方案是通过构建一个视觉词汇表来模仿语言词汇表，该视觉词汇表将框架补丁离散化为令牌，如BEiT [2，58]中所探索的那样。然而，这需要外部分词器，其在计算密集型视频理解场景中可能受到限制。我们提出了掩码特征预测（MaskFeat），这是一个预训练目标，可以直接回归掩码内容的特征具体来说，我们的方法利用视觉Transformer骨干[23，46]摄取掩蔽的时空输入，并预测掩蔽内容的特定特征表示。通过这种方式，预先训练的模型获得了对复杂空间的充分理解-密集视觉信号中的时间结构。14669例如，在一个实施例中，生猪我们研究了广泛的特征类型，从像素HT颜色和手工制作的特征描述符，以离散的VI-sual tokens、深层网络的激活和伪标签W网络预测。我们的研究揭示：(i) 方向梯度的简单直方图（图中的中心列）。1），如在流行的HOG [18]和SIFT [49]描述符中一样，这些描述符主导了视觉识别十多年，在性能和效率方面都是MaskFeat特别有效的目标。(ii) 视觉信号的离散化（标记化）对于掩蔽视觉预测是不必要的，并且连续特征回归（即，MaskFeat）可以很好地工作。(iii) 来自人类注释的语义知识并不总是对MaskFeat有帮助，但表征局部特征似乎很重要。例如，从在标记数据上训练的CNN或ViT预测监督特征会导致性能下降。我们的方法在概念上和实践上都很简单。与需要连体结构和每个训练样本的两个或更多视图的对比方法（例如，[16，29，37]），MaskFeat使用单个网络，每个样本都有一个视图;与强烈依赖于精心设计的数据增强的对比方法不同，MaskFeat在最小的增强下工作得相当好。与之前的掩蔽视觉预测方法[2，62]相比，具有HOG的MaskFeat不涉及任何外部模型，例如dVAE标记器[58]，其不仅在250 M图像上引入了额外的预训练阶段，而且在掩蔽建模中引入了不可忽略的训练开销。我们证明了MaskFeat可以预训练泛化良好的大规模视频模型。基于变换器的视频模型虽然强大，但以前已知易于过拟合并且严重依赖于大规模图像数据集上的监督预训练[1，46]，ImageNet-21K（IN-21 K）[20]。而MaskFeat为直接对未标记的视频进行预训练打开了大门，这对视频理解有巨大的好处。我们在标准视频基准测试上的结果是开创性的：MaskFeat预训练的MViTv 2-L [46]在不使用任何外部数据的情况下在Kinetics-400 [43]上获得了86.7%的前1准确率，大大超过了这种最佳先验数字+5.2%，并且还使用了大规模图像数据集的方法，例如，IN-21K和JFT-300M [61]。当转移到下游任务时，MaskFeat在动作检测（AVA [35]）上获得了前所未有的38.8mAP结果，在人机交互分类（SSv2 [33]）上获得了75.0%的前1准确度。当推广到图像领域时，MaskFeat也获得了与ViT-B竞争的 84.0% top-1和仅使用ImageNet-1 K的ViT-L的85.7% [20]。我们的代码将在PyTorchVideo1，2 [25，26]中提供。1https://github.com/facebookresearch/pytorchvideo2https://github.com/facebookresearch/mvit屏蔽输入目标特征MMM图2. MaskFeat预训练。我们用一个[MASK]令牌随机替换视频的输入时空立方体，并直接回归特征（例如，HOG）。经过预训练后，Transformer将在最终任务上进行微调。2. 方法我们首先在§2.1中描述MaskFeat及其用于视频和图像理解的实例化。然后，我们在§2.2中介绍并讨论了目标特征的五个候选者。2.1. 掩蔽特征预测我们的方法执行掩蔽的视觉预测任务，其动机是人类任务首先随机掩盖我们先从视频中提取出几个时空立方体，然后根据剩下的时空立方体来预测被屏蔽的时空立方体。该模型通过对掩蔽样本进行建模，实现了对视频对象的部分和运动的例如，为了解决图1中的例子。1，模型必须首先基于可见区域识别对象，并且还知道对象通常出现什么以及它们通常如何移动以修补缺失区域。任务的一个关键组成部分是预测目标。MaskedLanguage Modeling 使用词汇标记语料库作为目标[21]。相比之下，原始视觉信号是连续的和高维的，并且没有可用的自然词汇。在MaskFeat中，我们提出预测被掩蔽区域的特征。并且由从原始的、完整的样本中提取的特征提供监督。我们对特征进行了广泛的解释[12]，从手工制作的特征描述符到深层网络的激活目标特征的选择在很大程度上定义了任务，并影响了预训练模型的属性，我们将在§2.2中讨论。实例化。我们首先描述用于视频输入的MaskFeat。视频首先被划分为空间-时间立方体，如典型的视频视觉变换器[26，46]。然后投影立方体（即卷积）到标记序列。为了执行屏蔽，序列中的一些标记通过用[MASK]标记替换而被随机屏蔽线性压头Transformer14670×× ×这是一个可学习的嵌入，指示掩蔽的补丁。一个令牌块被屏蔽在一起，我们在§4.3中详细介绍。为了进行预测，Transformer处理[MASK]替换为ken后的标记序列，对应于掩码立方体的输出令牌通过线性层投影到预测预测只是在时间上集中在每个掩蔽立方体中的2-D空间补丁的特征（见Appx中的讨论）。选项卡.第11段）。输出通道的数量被调整到特定的目标特征（例如，3 16 16，如果预测16 16块中像素的RGB颜色）。损失仅在掩码的多维数据集上操作。我们的实例化受到BERT [21]和BEiT [2]的启发，如图所示。二、MaskFeat可以很容易地在图像域中实例化大多数操作都是共享的，除了没有时间维，每个令牌现在只代表一个空间补丁，而不是时空立方体。2.2. 目标特征我们考虑五种不同类型的目标功能。这些目标分为两类：1）可以直接获得的一级目标，包括像素颜色和HOG，以及2）由训练的深度网络或教师提取的其他两级目标。由于预测两阶段目标是有效地从经过训练的深度网络教师学习，它类似于一种模型蒸馏的形式[40];因此，教师模型的预训练和推理的额外计算成本是不可避免的。这五种功能类型是：像素颜色。最直接的目标可以说是视频像素的颜色具体来说，我们使用由数据集的平均值和标准偏差归一化的RGB我们最小化模型预测值与地面真实RGB值之间的在[55]中探索了类似的想法作为图像修复任务，并在[2，23]中探索了掩码图像预测。虽然简单，像素作为目标有一个潜在的缺点，过度拟合局部统计（例如.照明和对比度变化）和高频细节，这对于视觉内容的解释来说可能是无关紧要的[60]。猪。方向梯度直方图（HOG）[18]是一种描述局部子区域内梯度方向或边缘方向分布的特征描述符。一个HOG描述子是通过一个简单的梯度滤波器来实现的（即。减去相邻像素）以计算每个像素处的梯度的大小和方向然后，将每个小的局部子区域或单元内的梯度累积到几个箱的方向直方图向量中，通过梯度幅度进行投票。直方图被归一化为单位长度。这些特征也用于众所周知的SIFT [49]描述符中，用于检测到的关键点或以密集的方式用于分类[12]。同样，我们提取HOG在一个密集的网格上为整个图像，这适合于随机掩蔽补丁的预测目标。HOG的特征在于捕获局部形状和外观，同时只要平移在空间单元内并且旋转小于取向箱大小，就对几何变化部分不变。此外，它提供了不变性光度变化的图像梯度和局部对比度归一化吸收亮度（例如，照明）和前景-背景对比度变化。这些不变性对于在图像[18]和视频[19]域中使用HOG进行行人检测时获得良好结果至关重要。根据这一点，我们的研究（§5.2）表明HOG中的局部对比度归一化对于MaskFeat预训练也是必不可少的。最后，HOG计算是廉价的，并引入了可忽略的开销。它可以实现为双通道卷积，以生成x和y轴上的梯度（或通过减去相邻的水平和垂直像素），然后进行直方图和归一化。然后，我们的方法简单地预测直方图求和掩蔽补丁。而不是计算HOG只在掩蔽补丁，我们首先获得一个HOG特征图的整个图像，然后将地图分割成补丁。通过这种方式，我们减少了每个掩码补丁边界上的填充然后，将被掩蔽的补丁的直方图平坦化并连接成1-D向量作为目标特征。我们的损失最小化了预测和原始HOG特征之间的我们在每个RGB通道中收集HOG，以包括颜色信息，这可以略微提高其性能（§5.2）。离散变分自动编码器（dVAE）。为了解决视觉信号的连续高维性质，DALL-E [58]提出用dVAE码本压缩图像特别地，每个补丁被编码到令牌中，该令牌可以使用预先训练的dVAE模型假设8192个可能的值。现在的任务是通过优化交叉熵损失来预测掩码标记的分类分布，如BEiT [2]中所探索的。然而，存在由预训练dVAE和标记图像以及掩蔽特征预测引起的额外计算成本。深刻的特征。与离散化令牌相比，我们考虑直接使用连续的深度网络特征作为预测目标。我们使用一个预先训练的模型来产生特征作为老师，CNN或ViT，我们的损失最小化余弦距离（即。归一化特征的均方误差对于CNN教师，我们使用最后一层的功能，对应于掩蔽的补丁和ViT，我们使用各自的输出补丁令牌。我们主要比较来自自监督模型的特征，这些特征被认为比来自监督模型的特征包含更多样化的场景布局[9]并保留更多的视觉细节[74]。（虽然，人类注释的使用使预-14671生猪MoCo v3MoCo v2dVAE迪诺RN50像素ViTB划痕伪标号像素生猪dVAE令牌取消支持。壮举.辅助核算壮举.伪标号××技术上没有自我监督）。监督特征被期望更语义化，因为它们是通过人类注释训练的。与dVAE类似，当使用额外的模型权重用于掩码特征生成时，涉及非平凡量的额外计算。伪标签。为了探索更高级别的语义预测目标，我们考虑预测掩码补丁的类标签。我们利用Token Labeling[42]提供的标签，其中每个补丁都被分配了一个单独的位置特定的IN-1 K伪标签。这个类标签映射由预先训练的高性能监督深度网络[5]教师生成。通过交叉熵损失优化掩蔽特征预测阶段。接下来我们研究本节中讨论的特性3. 研究：MaskFeat的目标特征设置. 我们使用预训练和微调协议，遵循BEiT [2]。我们使用MaskFeat在Kinetics-400（K400）[43]训练集上预训练MViTv 2-S，16 4 [46] 300个epoch。我们还将MaskFeat应用于图像，其中我们在ImageNet-1 K（IN-1K）[20]训练集上预训练ViT-B [23] 300个epoch。我们报告了两个数据集的前1微调准确性（%）。我们使用相同的配方对所有目标进行预训练和微调，我们发现这些配方在实践中通常很好。对于涉及教师模型的目标，我们使用作者发布的官方模型。除了伪标签之外，大多数特征在视频和图像域上进行比较，伪标签映射特征类型一期变体top-1划痕-[46]第四十六话81.1像素✓RGB80.7图像描述符✓HOG [18]82.2dVAE✗DALL-E [58]81.7无监督特征✗DINO [9]、ViT-B82.5监督特征✗[26]第二十六话81.9表1. 比较MaskFeat的目标特征（视频）。所有变体都在MViTv 2-S上预先训练了300个epoch，16 4使用MaskFeat。我们报告在K400上微调top-1。默认为灰色。84仅在IN-1 K上可用[42]。结果总结在表1（视频）和表2（图像）中，接下来进行分析：单阶段方法。表1和表2中像素颜色预测的微调精度显示，与从头开始的基线相比，回归RGB颜色对视频分类产生-0.4%的轻微下降，对图像产生+0.7%的相对较小的增益。尽管我们在IN-1 K上的预测像素颜色结果（82.5%）优于BEiT [2]中报告的结果（81.0%），但我们同样观察到像素值不是理想的直接目标，可能是因为它们被认为过于明确[58]。相比之下，HOG通过总结局部梯度分布，在没有任何额外模型的情况下（这在两阶段方法中是典型的），在从头开始的基线上对K400和IN-1 K分别贡献了+1.1%和1.8%的大幅改进两阶段方法。首先，K400和IN-1 K的dVAE分别比其从头开始的基线提高了+0.6%和1.0%。这比像素颜色更好，但优于HOG，它不使用外部模型。接下来，与dVAE相比，我们研究MaskFeat来预测连续的无监督特征：我们比较了DINO [9]（使用ViT-B ）和 MoCo [15 ， 17] （使用 ResNet 50 [38] 和 ViT-B），所有这些都在IN-1 K上进行了预训练，即使是视频预训练。无监督特征对视频和图像分类都有显著的好处：与基线相比，DINO变体在K400上实现了+1.4%的增益，在IN-1 K上实现了+2.2%的增益。然而，这种方法有两个主要缺点，（i）无监督特征提取器需要预先训练，例如，在DINO的情况下，价值超过一千个时期，（ii）需要在目标数据上计算无监督特征。尽管如此，MaskFeat w/ DINO和MoCo v3功能提高了它们的原始准确性[9，17]。最后，监督特征（来自ResNet 50或ViT-B）以及令牌标签，尽管使用了人类注释，但落后于无监督特征和HOG。事实上，我们注意到在监督特征和标记标签的微调过程中存在显著的过度拟合，这表明预测从类标签中学习的特征不适合MaskFeat。83828180790 500 1000 1500#教师时代表2. 比较MaskFeat的目标特征（图像）。对于所有目标，ViT-B在IN-1K上使用MaskFeat进行了300个epoch的预训练。我们报告100历元微调精度IN-1 K。对于两阶段目标，我们报告了IN-1 K上的教师架构、参数数量（M）和有效历元（epoch）默认条目以灰色标记。左边的图可视化了表的acc/epoch权衡。不同的教师使用不同的培训策略。dVAE在外部250M数据集上进行预训练，而自监督方法需要多视图训练。为了以统一的方式测量成本，我们通过IN-1 K训练集上一个epoch的成本对epoch的数量进行归一化，其中一个epoch具有一个2242视图。IN 1 K top-1准确度（%）特征类型一期变体arch.param参数时代†top-1划痕-DeiT [63]---81.8像素颜色✓RGB---82.5图像描述符✓HOG [18]---83.6dVAE令牌✗DALL-E [58]dVAE54119982.8无监督特征✗[15]第十五话ResNet502380083.6无监督特征✗[17]第十七话维生素B8560083.9无监督特征✗DINO [9]维生素B85153584.0监督特征✗Pytorch [53]ResNet50239082.6监督特征✗DeiT [63]维生素B8530081.9伪标签✗[42]第四十二话NFNet-F643836078.814672×× ××××××××我们假设类标签是不变的局部形状和纹理的同一个对象禁用的MaskFeat模型对象的内部结构的能力讨论我们的研究结果表明，广泛的图像特征可以作为掩蔽视觉预测的目标，并提供超过从头开始训练基线的增益我们发现，尽管掩蔽语言建模[21]最初预测了预定义词汇的分类分布，但BEiT [2]中的离散化并不需要视觉。我们发现，连续无监督特征和图像描述符可以成为强预测目标，而后者与前者相比没有成本，前者也需要一种形式的模型蒸馏[41，63]。一个有趣的观察结果是，监督训练的目标特征产生的结果很差，这可能与特征[3，75]中存在的类级特定信息有关，这些信息对于局部掩码建模来说总的来说，考虑到性能和计算成本之间的权衡，预测HOG保持了良好的平衡，因此我们在以下部分中将其用作MaskFeat的默认功能。4. 实验：视频识别设置. 我们使用MViTv2的基础模型和大型模型进行了评价[46]。模型仅在K400 [20]的训练集中的视频剪辑上进行预训练，没有标签。我们的增强包括随机调整大小的裁剪和水平翻转。如果未指定，我们的模型将以2242我们随机屏蔽掉40%的时空立方体，立方体屏蔽详见第4.3节。更多的实现细节在Appx中。C.1.4.1. 动力学的主要结果动力学-400 表3将MaskFeat与K400数据集上的先前工作进行了比较。从上到下，它有三个部分。第一部分介绍了使用CNN的先前工作，这些工作通常不使用任何预训练。第二部分介绍了代表性的基于transformer的方法，其中大多数严重依赖于监督预训练大规模图像数据集上。第三部分显示了MViTv2模型的直接比较。请注意，这些模型是强大的基线，并且是从头开始训练自己的最新技术。尽管如此，300个时期的MaskFeat预训练提高了划痕MViTv 2-S，16 4 [46]，81.1%的前1准确率提高了+1.1%。后缀16 4表示模型采用时间步长为4的16个帧作为训练的输入。接下来，我们将探索更大的模型，其中监督IN-21 K预训练很受欢迎。在K400上使用MaskFeat预训练800个epoch后，大型模型MViTv 2-L，16 4达到84.3%的top-1，超过其scratch基线+3.8%，超过其IN-21 K监督的对照组+0.8%。与图像域类似，MaskFeat模型预训练top-1 top-5FLOPs×viewsParam[11]第十一话16× 8 +NL[28][27]第二十七话[44]第四十四话----71.679.879.181.590.093.993.995.3216× NA234× 3×1048× 3×10386× 1×125601131MViT-B，64× 3 [26]-81.295.1455× 3× 337VIT-B-TimeTransform[4]Swin-L，32× 2 [48]ViViT-L [1]怎么了IN-21K怎么了IN-21KSup.，JFT-300M80.783.183.594.795.994.32380× 3×1604× 3×43980× 3×1121197308Swin-L↑384，32×2 [48]ViViT-H [1]TokenLearner [59]佛罗伦萨↑384[72]怎么了IN-21KSup.，JFT-300M Sup.，JFT-300M文本，FLD-900M84.984.985.486.596.795.8不适用97.32107× 5×103981× 3×44076× 3×4不适用×3× 4200654450647SwinV2-G↑384[47]MIM + Sup.IN-21K+Ext-70M 86.8N/AN/A× 5× 4 3000MViTv2-S，16× 4 [46]MViTv2-S，16× 4 [46]MViTv2-S，16× 4 [46]- 你好IN-21KMaskFeat，K40081.182.682.294.995.395.171× 1×1071× 1×1071× 1×10363636MViTv2-L，16× 4 [46]MViTv2-L，16× 4 [46]MViTv2-L，16× 4 [46]MViTv2-L，16× 4 [46]- 你好IN-21KMaskFeat，K400MaskFeat，K60080.583.584.385.194.195.996.396.6377× 1×10377× 1×10377× 1×10377× 1×10218218218218MViTv2-L↑312，32×3[46]MViTv2-L↑312，32×3[46]MViTv2-L↑312，32×3[46]- 你好IN-21KMaskFeat，K40082.285.386.394.796.697.12063× 3×52063× 3×52063× 3×5218218218MViTv2-L↑312，40×3[46]MViTv2-L↑352，40×3[46]MViTv2-L↑352，40×3[46]MaskFeat，K400MaskFeat，K400MaskFeat，K60086.486.787.097.197.397.42828× 3×43790× 3×43790× 3×4218218218表3. 与以前在Kinetics-400上的工作比较。我们报告的推理成本与一个单一的“视图”（时间剪辑与空间裁剪）的视图数（FLOPs视图空间视图时间）。每个FLOP的大小为Giga（109），Param的大小为Mega（106使用外部数据训练的模型的准确性不再重要。对于较大的模型更有意义，表明我们的方法对于模型容量是可销售的结果还表明，MaskFeat适用于不同的模型类型，因为MViTv2是一个具有卷积的Transformer模型。我们进一步探索MaskFeat的数据可扩展性。特别是，我们预训练MViTv 2-L，16 4动力学-600 （K600） [10个国家] 含有 387K 培训视频，比K400多1.6我们在K600上预训练了300个epoch，以使用比K400上的800个epoch稍少的训练预算。我们再次对K400进行微调，并观察到K600上的预培训（没有任何标签）有助于另一个比K400训练前增加+0.8%，达到85.1%的top-1。接下来，我们微调84.3%的前1 MViTv 2-L，16 414673×MaskFeat模型用于30个时期到3122和3522的更大空间大小，以及具有三个时间步长的32和40帧的由此产生的超大型模型MViTv 2-L↑352，403，在不使用任何外部数据的情况下，达到了86.7%的最高精度以前，基于transformer的视频模型严重依赖于监督在大型图像数据集上进行预训练，以达到高精度。例如， 84.9% top-1 Swin-L↑384 [48] 与 IN-21 K 和84.9% ViViT-H [1]与JFT-300 M [61]。MaskFeat为直接在未标记的视频上进行预训练打开了大门，这对视频理解有巨大的好处，在没有外部数据的情况下，我们可以将 K400（81.5% MoViNet-A6 [44]）的先前最佳准确度提高+5.2%。14674××××模型预训练top-1 top-5 FLOPs Param慢快，R101，8× 8 [28]MViT-B，64× 3 [26]K40063.167.787.690.91064555337MViT-B-24，32× 3 [26]K60068.791.5236 53.2[56]第五十六话68.191.21185109[39]第三十九话IN-21K+K400 69.591.51259148Swin-B，32× 3 [48]69.692.732189MViTv2-L↑312，40×3 [46]，Sup.MViTv2-L↑312，40×3，MaskFeatIN-21K+K400K40073.374.494.194.628282828218218MViTv2-L↑312，40×3，MaskFeatK60075.095.02828218表4. 转换到AVA v2.2[35]。我们使用MViT [26]和全分辨率推断（全）后的单中心作物推断（中心）与2020年AVA挑战赛冠军ACAR [52]进行比较。推理成本与中心策略。我们最好的87.0% top-1准确率是通过微调85.1%的MViTv 2-L来实现的，16 4在K600中使用无标签的387K训练视频上使用MaskFeat进行预训练。我们仅使用K400（86.7%）的结果已经与最近的86.5% Florence [72] 和 86.8% SwinV 2-G [47] 相似。Florence使用900 M策展的文本图像对。SwinV 2-G使用了一个拥有30亿个参数的巨型模型，首先进行自我监督，然后在IN-21 K加上70 M内部图像的大型数据集上进行监督预训练。我们的方法在参数计数、计算成本、数据和注释方面的效率再次表明了MaskFeat直接在未标记视频上进行预训练的优势。4.2. 迁移学习我们使用表3和Appx中的Ki- neticsMViTv 2-L↑312，40× 39a.动作侦测。AVA v2.2 [35]是人类行为时空定位我们在AVA v2.2上微调MViTv 2-L↑312，40 3动力学模型。详情请参阅Appx。C.2. 表4报告了我们的MaskFeat模型与之前模型相比的平均精度（mAP）最先进的仅使用K400的MaskFeat与使用相同架构的IN-21 K预训练对应物相比，其显著增益为+4.7mAP。通过使用更大的视频数据集K600，该模型在全分辨率测试中达到了前所未有的38.8mAP精度，大大超过了之前的所有方法，包括 ActivityNet 挑战赛冠军。MaskFeat在AVA上的强大性能表明，对于这种定位敏感的识别任务，在视频上进行掩码建模比在图像预训练上进行监督分类具有人机交互分类。我们微调表3和附录x中的MViTv 2-L↑312，40 3动力学模型。9a to Something-Somethingv2（SSv 2）[33]，专注于人与物体的交互分类。表5结果和详细信息见附录C.3。与Kinetics相反，SSv2需要细粒度的运动区分和时间建模来区分诸如拿起东西和放下东西之类的交互。表 5. [33] 第二季第 33 集我们用一个单一的 “ 视图 ” 报告FLOPs。所有条目使用一个时间剪辑和三个空间裁剪（推理成本为FLOPs× 3× 1）。尽管Kinetics和SSv2的监督任务之间存在差异，但使用MaskFeat在没有监督标签的情况下对Kinetics进行预训练仍然有助于SSv2的微调准确性的大幅提高。具体而言，仅具有K400数据的MaskFeat比其IN-21 K +K400预训练的对应物贡献了+1.1%的top-1通过利用更大的K600，该模型达到了前所未有的75.0%的top-1精度，超过了以前的所有方法。这表明MaskFeat可以通过自我监督的掩蔽特征预测，从未标记的Kinetics数据（称为外观偏差）中学习时空表示4.3. 用于视频识别的消融使用MViTv 2-S，16 4在K400上预训练300个epoch并微调200个epoch。更多消融（例如，在掩蔽比上）在Appx中。A.掩蔽策略。研究了时空视频数据的掩蔽策略.在视频中，共享相同空间位置的标记通常也共享视觉模式。因此，我们探讨如何处理这种冗余所带来的额外的时间维。我们考虑了三种不同的掩蔽方法，结果见表6。所有条目共享相同的40%掩蔽比。掩蔽帧管立方体top-181.0（-1.2）81.9（-0.3）82.2表6. 掩蔽策略。改变时空数据的遮蔽策略。默认条目以灰色突出显示。首先，我们考虑这种策略主要是在连续的帧中屏蔽不同的空间块，但模型可以在帧之间进行时间“插值”来解决任务。该策略仅获得81.0%的top-1。其次，我们考虑也就是说，我们首先采样的2-D掩模映射块式掩模的图像，然后通过重复它在时间维扩展的2-D地图。因此，掩蔽区域是视频剪辑中的直管，其中空间掩蔽区域对于每个帧都是相同的管掩蔽避免依赖于时间重复来预测静态视频中的掩蔽准确率为81.9%。第三，我们考虑模型预训练中心充分FLOPs ParamSlow Fast R101，8× 8 [28]MViT-B，64× 3 [26]K40023.8-27.3-138455533616× 8 +NL [28][27]第二十七话27.5-27.4-296485911MViT-B-24，32× 3 [26]对象Transformer [70]K60028.7-31.0-2362445386ACAR R101，8× 8 +NL [52]-31.4N/A N/AACAR R101，8× 8 +NL [52]K700- 三十三点三N/A N/AMViTv2-L↑312，40×3 [46]，Sup.MViTv2-L↑312，40×3，MaskFeatIN-21K+K400K40031.6-36.3三十七分五2828282821821814675×××预训练额外数据额外模型维生素BViT-L标准没有一ℓ1ℓ2信道灰色RGB光学[第63话]--81.881.5top-182.282.8八十三点六top-183.283.683.5[23]第二十三话[17]第十七话IN-21K--动量ViT84.083.285.284.1(a)Cont 拉斯特河malization。(b) 彩色频道[9]第九届中国国际航空航天博览会BEiT [2] DALL-E dVAE 83.2 85.2MaskFeat（w/ HOG）--84.0 85.7表7. 与IN-1 K上以前的工作进行比较。所有条目(c) 定向箱。(d) 空间单元格大小。16× 1683.2除了使用IN-21 K进行监督的384之外，其他的都是在IN-1 K列车分割上预先训练的。MoCo v3和DINO使用动量编码器。BEiT使用250 M DALL-E数据来预训练dVAE。除了在384 2处的监督384之外，所有条目都在图像大小224 2处被训练和评估。这是通过对令牌的随机“立方体“进行采样直到达到一定的掩蔽比来实现的立方体的采样首先创建一个2-D块在随机的时间步长，然后扩展在时间维度与随机数目的连续帧。因此，立方体掩蔽可以被认为是管和框架掩蔽的推广当用于预训练时，它产生82.2%的准确率。总的来说，表6中的结果显示立方体掩蔽表现最好，这表明空间和时间线索都有助于掩蔽时空预测。5. 实验：图像识别设置. 评估协议是预训练，然后是端到端的微调。我们在ViT中使用vanilla base和大型模型[23]，无需修改。我们的模型在IN-1 K [20]训练集上以2242我们使用最小的数据增强：随机调整大小的裁剪和水平翻转。我们在BEiT [2]之后随机屏蔽了40%的总图像块更多细节在Appx。C.1.5.1. ImageNet-1 K上的主要结果在表7中，我们将MaskFeat与以前的工作进行了比较，包括从头开始，IN-21 K监督预训练和以前的自我监督方法。我们在这里预训练MaskFeat 1600个epoch，而在表2中预训练300个epoch。微调时间表在任何地方都是相同的，而且相当短，ViT-B为100个时期，ViT-L为50个时期我们观察到MaskFeat预训练显著提高了ViT-B和ViT-L的划痕基线我们在图像大小为2242 时的方法与（ViT-B）相当，甚至优于（ViT-L）在IN-21 K上的监督预训练，IN-21 K在图像大小为3842时有10个以上的图像和标签。已经证明[23] ViT模型是数据饥饿的，需要大规模的监督预训练，这可能是由于缺乏典型的CNN归纳偏差。我们的研究结果表明，MaskFeat预训练可以通过解决我们的特征修复任务来克服这一点，而无需外部标记数据有趣的是，与ViT-B相比，在ViT-L上观察到更多的增益，这表明它可以扩展到更大的模型。与自我监督的预训练方法相比，MaskFeat更准确，更简单。[9]第9话表8. HOG实现。（a）局部对比度归一化起关键作用，以及（b）MaskFeat受益于颜色信息;这与图像识别的HOG/SIFT研究一致[12，18]。作为目标的HOG（c）对方向箱的数量具有鲁棒性，并且（d）受益于8 - 8空间单元。Opp.表示对手颜色空间[64]。默认条目标记为灰色。MoCo v3 [17]是需要多视图训练和精心设计的增强的对比方法，而MaskFeat仅使用单视图和最小增强。见table 15在Appx用于MaskFeat数据增强的消融。与BEiT[2]相比，MaskFeat摆脱了dVAE标记器，这在250 MDALL-E数据集上引入了额外的预训练阶段，并且在掩码预测期间引入了不可忽略的推理开销。而MaskFeat仅计算HOG特征。表7中的MaskFeat是针对1600个epoch用单个2242视图预训练的。DINO使用多个全局-局部视图和一个额外的动量编码器，导致1535个有效历元（表2）。MoCo v3在600个有效时期后饱和[17]。BEiT在IN-1 K上预先训练了 800 个 epoch ，但 dVAE 需要另外 1199 个有效epoch。我们还训练了表2中的最佳模型MaskFeat w/ DINO，1600个epoch，达到84.2%;然而，这使用了一个单独的ViT-B模型，该模型使用另一个模型进行训练。使用DINO的 1535个有效时期MaskFeat w/HOG在没有额外模型的情况下，可以达到84.0%。5.2. 烧蚀图像识别我们首先在图像域中消融MaskFeat的设计选择。默认情况下，我们使用预先训练300个epoch的ViT-B，并在IN-1 K上报告微调的top-1准确率（%）更多消融（例如，关于训练时期）在Appx中。B.HOG实现。我们在表8中消融HOG实现细节。我们首先研究HOG中的局部对比度归一化，这是其在图像识别中性能的关键[18]。它是通过对局部8 - 8像素单元的每个直方图向量进行归一化来应用的，e.G.照明变化的局部不变性。我们在表8a中显示，归一化对于MaskFeat至关重要。与默认的1002标准化相比，使用1001标准化会导致0.8%的下降，而不使用任何标准化会导致1.4%的大幅下降。在[18]中报告了直接使用HOG进行图像识别的类似结果。我们接下来在表8b中调查颜色信息的有效

下载后可阅读完整内容，剩余1页未读，立即下载