大规模弱监督预训练视频动作识别

38 浏览量更新于2023-10-19 收藏 617KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1大规模弱监督预训练视频动作识别Deepti Ghadiyaram，Du Tran，DhruvMahajan Facebook AI{deeptigp，trandu，dhruvm}@ fb.com摘要目前的全监督视频数据集仅由几十万个视频和不到一千个特定于域的标签组成。这阻碍了向高级视频架构的发展。本文提出了一个深入的研究，使用大量的网络视频的预训练视频模型的任务，动作识别。我们的主要经验发现是，尽管有嘈杂的社交媒体视频和标签，但在非常大规模（超过6500万个视频）的预训练中，在三个具有挑战性的公共行为识别数据集上大大提高了最新技术水平。此外，我们还研究了弱监督视频动作数据集构建中的三个问题。首先，考虑到动作涉及与对象的交互，应该如何构建动词-对象预训练标签空间以最大限度地受益于迁移学习？第二，基于框架的模型在动作识别上表现得相当好;对良好图像特征的预训练是否足够，或者对时空特征的预训练是否对最佳迁移学习有价值？最后，动作在长视频中的本地化程度一般较低，短视频;由于动作标签是在视频级别上提供的，在给定视频的数量或分钟的固定预算的情况下，应该如何选择视频剪辑以获得最佳性能？1. 介绍众所周知[20，32]，在大数据集上进行预训练，然后对目标数据集进行微调可以提高性能，特别是当目标数据集很小时[3，10，26，49]。考虑到构建大规模全监督视频数据集的众所周知的复杂性，大规模弱监督预训练对于视频任务是至关重要的最近的研究[36，46，62]已经清楚地表明，对数亿（数十亿）嘈杂的Web图像进行预训练可以显着提高对象分类的最新水平。虽然人们肯定希望图像识别能够从图像[36，46，62]转移到视频，但视频中的动作识别呈现出图像任务中不存在的某些独特首先，虽然Web图像主要面临标签噪声的挑战（即，丢失或不正确的对象标签），对于野外视频，挑战是双重的：标签噪声和由于缺少动作标签的定位而引起的时间噪声。在现实世界的视频中，给定动作通常仅占用视频的非常小的部分与此形成鲜明对比的是，一个典型的网络图像是一个特定的时刻，由其创建者精心挑选，以获得最大的相关性和显著性。其次，在先前的图像工作中，标签被限制在场景和对象上（即，名词）。然而，行动标签（例如：“捉鱼”）更复杂，通常涉及至少一个动词-宾语对。此外，即使在大范围内，许多有效的动词-宾语对也可能很少或根本没有被观察到;例如，“抓一个百吉饼”是一个完全合理的因此，自然会询问：在从名词和动词的边缘分布中选择的标签上进行预训练是否更有用，我们是否需要在（动词，名词）标签的联合分布的观察部分上进行预训练，或者我们是否需要完全专注于目标数据集有多少这样的标签就足以进行有效的预培训，它们应该有多大的多样性第三，时间维度提出了几个有趣的问题。通过与图像类比，短视频应该比长视频更好地时间本地化;我们调查这个假设，并且还询问本地化如何影响预训练。此外，较长的视频包含更多的帧，但短视频可能包含更多的相关帧;在构建预训练数据集时，视频长度的最佳选择是什么？最后，我们质疑是否有必要对视频（与图像）进行预训练。基于帧的模型和基于图像的预训练方法（如膨胀[11]）都在动作识别中取得了成功。对视频片段进行预训练是否真的值得增加计算量，或者，强大的图像特征是否足够？在这项工作中，我们非常详细地解决了所有这些问题。我们的主要目标是通过专门关注训练数据来改进学习的视频特征表示，这是对模型架构设计的补充。具体来说，我们利用社交媒体网站上超过6500万个公开的用户生成的视频，1204612047关联的主题标签作为预训练的标签。标签噪声和时间噪声使得我们的训练框架具有弱监督性。与需要昂贵注释的所有现有全监督视频数据集[35，41，42，43，60，64我们有效地解决了标签空间和时间噪声的上述挑战，并在各种目标任务上表现出显着的性能增益。总的来说，我们总结了我们的发现：• 大规模的弱监管是非常有益的：我们发现，大规模的视频数据，尽管没有提供强有力的监督，极大地帮助不同能力的模型学习更好的功能。我们的实验清楚地表明，内容多样性和规模超过标签和时间噪声。• 数据量和模型容量的影响：我们报告了关于预训练数据大小，数据采样策略，模型容量等影响的有趣发现。例如，我们发现增加训练数据（Sec. 4.1.1）提高性能，同时增加模型容量表现出有趣的行为（第4.1.1节）。4.1.2）。• 什么是合适的预训练视频标签空间？我们系统地构建了基数和类型不同的预训练标签集（例如，动词、名词等），并研究他们的目标任务的影响（第二节）。4.2）。一个关键的发现是，与[46]一样，与目标标签重叠最多的预训练标签可以提高性能。• 短视频与长视频用于预培训？我们研究了预训练对短距离和短距离的影响。长视频（Sec.4.3.1）并且示出了（a）对于固定的视频长度预算（例如，400K分钟的总训练视频持续时间），选择大量的短视频是有益的，因为与较少的长视频相比，它们提供简洁的本地化动作，（b）对于固定的视频预算（例如，5M），选择较长的视频是有益的，因为它们提供多样化的内容。• 我们是否需要对视频数据进行预培训？我们使用视频数据调查预训练的真正价值。我们表明，有必要使用视频，而不是视频帧或图像，然后进行膨胀[11]，以便在大规模操作时实现更好的性能（第二节）。4.3.2）。• 最新成果：我们达到了81的top-1准确率。3%的动力学，一个3。比之前的最先进技术水平提高6%[65]（Sec.4.4）。虽然[65]中的收益是通过架构创新、增加计算等实现的，我们的提升纯粹来自于预先训练一个简单的AR-结构（R（2+1）D [14]）。在EPIC Kitty动作识别挑战[16]中，我们实现了准确性，25岁。6%，在看不见的（S2）测试数据上，提高了4。6%以上的最高进入领导委员会在提交时间。在Something-something [28]上，我们达到了51的准确度。6%，2. 比以前的最先进水平提高了1%[70]。2. 相关工作从监管不力中吸取教训：考虑到为各种图像和视频任务收集详尽注释的已知挑战，利用对象标签和其他Meta信息来提供弱监督[7，15，19，22，30，31，39，40，50，52，53，54，55，56，59]是一种广泛采用的方法。与这种策略正交，我们的工作研究了在弱监督数据上预训练网络时的迁移学习好处，即，受标签和时间噪声影响的数据。虽然已经提出了对架构的新更改[57，61]以对抗标签噪声，但我们的实验表明，现有视频架构的大规模训练[14]使其具有抗噪声能力。数据集来源：许多先前的方法使用因特网作为内容的天然来源[6，12，13，18，24，25，34，37，44、46、51、58、67]以及相关联的搜索查询、主题标签或用户评论作为标签来构造数据集。大多数大型视频数据集[2，4，38]都是通过首先策划标签分类，分析YouTube或Flickr视频周围的文本[8，21，23，47]分析了电影脚本，用于自动注释人类动作，以识别和定位动作和演员。我们建议的工作使用网络数据和相关的文本，以提供弱监督在预训练。大型数据集的预训练：由于与ImageNet [ 17 ]相比，视频中的对象检测，分割和动作识别等复杂任务的数据集数量级较小，因此对较大的辅助数据进行预训练，然后对目标任务进行微调[11，20，26，36，45，46，62，14，65]非常流行。事实上，通货膨胀[11] 提出通过将 2D 过滤器转换为 3D 来专门利用ImageNet instantation，因为训练3D模型在计算上是昂贵的。在这项工作中，我们表明，对视频剪辑进行预训练的效果明显优于对图像/视频帧进行预训练，4.3.2）。3. 视频模型的弱监督我们利用来自社交媒体网站的数百万个公共视频，并使用相关的标签作为标签，在训练视频模型时提供微弱的监督信号。我们构建并实验了各种弱监督数据集，我们将在下面描述。3.1. 源数据集为了构建预训练视频数据集，我们使用几个种子动作标签集并收集相关的视频这些标签。具体地，对于给定的种子动作标签相关的主题标签）中提取种子标签中每个单词的原始版本和词干版本12048并将它们以所有可能的排列方式连接起来。例如，相关的主题标签（{#catchingafish ， #catchfish ， #fishcatching ， .{\fn方正粗倩简体\fs12\b1\bord1\shad1\3cH2F2F2F}然后，我们下载至少带有一个相关主题标签（我们在预训练期间使用种子标签作为视频的最终标签3.1.1源数据集的属性种子标签：正如我们在SEC中所描述的那样。4.2，通过考虑四种不同的种子标签集，研究了预训练对不同类型标签的影响所得源数据集总结见表1。我们在本文中使用标记IG-source-size，其中source表示使用的种子标签集，size表示视频的数量1。我们的主要训练集使用来自Kinetics [69]的400个动作标签作为种子标签，从而产生包含 359 个标签的IG−Kinetics 数据集。我们还考虑了（ a ）与ImageNet-1 K [17]中的1000个同义词集匹配的1428个主题标签，从而构建了一个IG−Noun数据集3，（b）来自Kinetics和VerbNet [63]的438个动词，因此是一个IG−Verb数据集，以及（c）来自上述两个种子标签集的438个动词和1428个名词的所有可能的连接我们识别了超过10，653个这样有意义的组合4，从而构建了一个IG −动词+名词数据集。补充材料中提供了有关数据集构造的更多详细信息我们要重申的是，在构建这些数据集时没有涉及手动注释，这意味着数据中存在长尾分布：在我们预训练数据集视频总数标签数量IG动力学65米359IG名词19米1428IG动词19米438IG-动词+名词19米10653表1.为预训练构建的弱监督数据集的统计。大规模视频预训练的各个方面的研究结果4.第一章3.2. 目标数据集接下来，我们描述实验中使用的目标数据集。Kinetics[64]：Kinetics是一个多类数据集，包含约246K个训练视频（400个人类动作标签）。我们报告每个-20K验证视频.EPIC-Kitchen [16]：EPIC-Kitchen是一个以自我为中心的多类数据集，包含与352个名词和125个动词类相关的约28K对于我们的消融研究，下面[5]我们构建了一组不可见厨房环境的验证集。我们评估我们最好的预训练模型的验证，标准（S1：8047个视频）和不可见（S2：2929视频）厨房测试数据集。Something-Something-v1 [28]是一个多类数据集，~86K训练视频和174个细粒度动作。我们报告了11，522个验证集的结果。视频去重：我们设计了一个管道来删除源数据集中可能与目标数据集中的任何视频重叠的视频。为了谨慎起见，我们采用了积极的低精度高召回策略，并删除任何潜在的重复项（例如：我们从IG-Kinetics数据集中删除了约29K视频）。详情见补充材料。3.3. 培训前设置源数据集是严重长尾的。为了减轻其对模型训练的影响，我们在实验中构建预训练数据时采用平方根采样方法[48]，因为它被证明对图像最有益[46]。多样性：与所有包含本地化动作的短视频的基准数据集不同，我们源数据集中的视频长度从1秒到60秒不等。因此，标记的动作可以发生在视频中的任何地方，导致大量的时间噪声，这是我们在第二节中研究的一个方面。四点三。鉴于我们不能公开我们的数据集或使用的确切标签（就像[62，46]的情况一样），我们承认其他研究小组此时不可能复制我们的结果尽管有这样的限制，我们希望读者在我们广泛的1在本文中，每当我们单独提到预训练数据源时，我们都使用IG−source2对于剩余的41个标签，我们无法找到足够的视频（即，每个标签至少50个），使用第第3.1条3我们总共得到1428个（>1000）主题标签，因为多个主题标签可能映射到同一个同义词集。模型：R（2+1）D-d [14]5是用于预训练的基本架构，其中d表示模型深度={18，34，101，152}。在[29]中，我们构建了深度>34通过用bot替换简单的时间块，用于计算可行性的Tleneck块。我们建议读者查阅补充材料以了解详情。损失函数：我们的预训练数据集是多标签的，因为多个标签可能与任何给定的视频相关联。[36，46]的作者已经观察到，具有逻辑损失的每标签S形输出对于噪声标签不起作用。因此，我们遵循一个简单的策略，将一个相关的主题标签随机分配给每个视频，从而形成一个多类问题，并使用具有交叉熵损失的softmax激活。培训详情：视频帧被下采样到128 × 171的分辨率，每个视频剪辑都是通过从帧中裁剪大小为112 × 112的随机补丁来生成的。在我们的实验中使用了8帧或32帧的视频剪辑，并且时间抖动也应用于输入。4请注意，这远远小于4381428=~600k，因为我们丢弃了不与至少50个视频相关联的那些级联。5源代码：https://github.com/dutran/R2Plus1D12049同步随机梯度下降（SGD）用于使用caffe2在16台机器上的128个GPU上训练我们的模型[9]。当考虑每个输入视频剪辑32帧时，每个GPU一次处理6个视频（由于内存限制），而当考虑每个视频剪辑8帧时，一次处理16个视频批量归一化（BN）应用于所有卷积层和统计数据[33]在每个GPU上计算。所有预训练实验总共处理490M视频。学习速率按照[27]中提出的线性缩放过程设置，并进行预热。初始学习率为0。192，其以相等的步长除以2，使得在训练过程中学习速率降低的总数为13。4. 实验在本节中，我们将研究大规模弱监督视频预训练的各个方面。我们首先描述我们的评估设置，然后报告我们对三个方面的广泛分析：（a）规模效应，例如，模型容量和预训练数据大小，（b）预训练标签空间的设计，以及（c）视频的时间属性。我们还在基准数据集上进行预训练，如Sports-1 M [38]，Kinet- ics [64]作为竞争基线。评价设置：在[46]中，我们考虑两种情况：• 全微调（full-ft）方法涉及使用预训练模型的权重进行引导，并在目标数据集上进行端到端的我们做一个网格搜索最好的超参数（学习率等）。通过随机保留（10%）训练数据构建的验证数据。用于每个实验和目标数据集的超参数Full-ft方法的缺点是它可能会掩盖大型目标数据集预训练的绝对效果• 全连接（仅fc）方法涉及从预训练模型的最终fc层提取特征，并在每个目标数据集上训练逻辑回归器这种方法在不改变网络参数的情况下评估学习特征的强度。对于多类目标数据集，我们的损失函数是L2-正则化逻辑回归，我们报告的准确性。对于多标签数据集，我们使用每个标签的sigmoid输出，然后是逻辑损失和报告mAP。在测试期间，考虑从每个测试视频均匀采样的10个剪辑的中心裁剪，并且使用这10个剪辑预测的平均值来获得最终的视频级预测。4.1. 大规模4.1.1预训练数据量为了理解这个问题，我们通过构建不同的数据子集-IG-Kinetics-{500K，1M，5M，10M，19M，65M}，对不同数量的训练数据进行预训练。R（2+1）D-34模型在这些数据上独立训练在完全相同的标签上的子集，每个视频输入8帧，并在Kinetics 上进行评估（图 1 ）。 1 （ a ））和 EPIC-Kitchenette（图。（b）款。如[46，62]所示，我们观察到性能随着训练数据大小的对数线性提高，表明更多的预训练数据会导致更好的特征表示。对于动力学，使用全英尺方法，使用65M进行视频提供了一个显着的提升7. 8%相比，从零开始训练（74。8%vs. 67. 0%）。的增加而训练数据，当使用仅FC方法时，性能增益甚至更令人印象深刻，其实现了73的准确度。0%，65M训练视频，因此接近匹配的准确性，从全英尺的方法（74。8%）。在EPIC-Kitchen上，使用IG-Kinetics-65 M可以提高3 .第三章。8%，而使用Kinetics进行预训练（16. 1%vs. 12. 3%）。与动力学相比，在EPIC-Kitchen上，在全FT和仅FC方法之间的性能存在较大的差距。这可能是由于预训练和目标标签空间中的显著域差异。这些图表明，尽管存在标签和时间噪声的双重挑战，但使用数百万个网络视频进行预训练仍表现出出色的迁移学习性能。数据采样：Web数据通常遵循Zipfian（长尾）分布。当只使用这些数据的一个子集进行预训练时，一个自然的问题是，除了随机采样之外，是否有更好的方法来选择数据子集我们设计了一种这样的方法，其中我们保留来自尾部类的所有视频，并且仅子样本头部类。我们把这个方案称为保尾采样。图1（c）比较了动力学的随机和尾部保留采样策略，并报告了通过仅fc方法获得的性能。我们观察到尾部保留策略始终更好，事实上，性能在10M-19M数据点左右饱和。因此，在以后的实验中，我们在需要时采用保尾采样策略.4.1.2模型容量表2报告了不同视频模型的容量及其对迁移学习性能的影响。具体来说，我们使用IG-Kinetics-65 M来预训练4个不同的R（2+1）D-d模型，其中d= {18，34，101，152}，输入剪辑长度为32。在Kinetics上，我们观察到增加模型容量可以将整体性能提高3。9%。相比之下，当从头开始训练时，准确率仅提高2。百分之七。有趣的是，在EPIC-Kitchen上，使用IG-Kinetics-65 M或Kinetics（称为基线）的预训练随着模型容量的增加而产生类似的增益与[46]中观察到的迁移学习性能受容量的影响不同，我们看到从d= 101到d= 1526时性能饱和。考虑到 R （ 2+1 ） D-152 具有更高的GFLOPS，6对于EPIC-Kitterfly，我们甚至观察到性能下降。12050(a) 目标：动力学8070605040(b) 目标：Epic-Kitchen151050−5(c) 目标：动力学;仅fc757065605550454035105 106 107108培训视频数量105 106 107108培训视频数量105 106 107 108培训视频数量图1. 说明增加预训练视频数量的效果。对于Kinetics，我们从头开始训练R（2+1）D-34模型作为基线，而对于EPIC-Kitchen，我们在Kinetics上预训练R（2+1）D-34作为基线（以橙色表示）。随机取样用于（a）和（b）中报告的实验。X轴为对数标度。表2. 当不同容量的预训练模型在Kinetics（top-1准确度）和Epic-Kitchen（mAP）上完全微调时的性能。对于EPIC-Kitchild，作为基线，我们使用在Kinetics上预训练的模型。与[46]中最大的图像模型相比，我们认为我们的模型可能会受到预训练数据量的影响。因此，使用超过65M的训练视频可以进一步提高准确性。此外，无法进行超过32帧的长距离时间推理（由于记忆限制）也可能导致这种情况。这些问题在未来值得探讨。4.2. 探索预训练标签空间网络视频和相关的（嘈杂的）主题标签是丰富的;因此很自然地会问：什么构成了一个有价值的预训练标签空间，以实现卓越的迁移学习性能，以及如何构建一个？由于主题标签通常由名词、动词或它们的组合组成，并且它们的出现频率差异很大，因此理解不同预训练标签属性（例如：基数和类型）在迁移学习中的权衡是很重要的。在本节中，我们将详细研究这些方面。4.2.1培训前标签性质的影响研究训练前标签的类型，这将有助于目标任务的最大，如第二节所述。3.1中，我们系统地构造了动词、名词及其组合的标签集。具体来说，我们使用IG-Kinetics-19 M 、 IG-Verb-19 M 、 IG-Noun-19 M 和 IG-Verb+Noun-19 M 作为预训练数据集。我们使用 R（2+1）D-34，剪辑长度为32.从图2中，我们可以观察到，对于每个目标数据集，标签与其重叠最多的源数据集产生最大性能。例如，对于Kinetics，我们看到至少5的改进。5%，当我们使用IG-Kinetics-19 M进行预训练时，与其他预训练数据集相比（图第2（a）段）。IG-Noun的预训练有利于EPIC-Kitt对动词预测任务的帮助最大，而IG-Verb对动词预测任务的帮助最大（在两种情况下都至少有1.2%，Fig.2（b）和（c））。我们发现，在EPIC-Kitchen中，IG-动词和动词标签之间的重叠率为62%，IG-名词和名词标签之间的重叠率为42%。Sports-1 M的预训练在所有目标任务中表现不佳，可能是由于其特定领域的标签。鉴于EPIC-Kitchens中的动作被定义为动词-名词对，可以合理地预期IG-动词+名词是EPIC-Kitchens-actions任务最适合的预训练标签空间。有趣的是，我们发现情况并非如此（图。第2段（d）分段）。为了进一步研究这一点，我们在图中绘制了所有四个预训练数据集的每个标签的视频数量的累积分布。3.第三章。我们观察到，虽然IG-Verb+Noun捕获了所有可能的动词-名词组合，导致非常大的标签空间，但与其他数据集相比，它也严重倾斜（因此稀疏）。IG-动词+名词标签空间的这种偏度可能抵消了它的丰富性和多样性，以及它与EPIC-Kitchman动作标签的重叠程度。因此，为了实现最大性能增益，选择与目标标签空间重叠最多的那些预训练标签，同时确保标签分布不会变得过于偏斜，可能会更有效理解和利用这两个因素之间的正确权衡是一个有趣的未来研究方向。4.2.2预训练标签节中4.1.1，我们研究了固定源标签空间的预训练视频数量的变化如何影响迁移学习性能。在本节中，我们将研究相反的情况，即，改变预训练标签的数量，同时保持视频的数量固定。我们考虑IG-Verb+Noun作为我们的候选预训练数据集，因为有大量的标签（10，653）。我们从完整标签集中随机抽取7个不同数量的标签，一直到675个标签，并将每个所得数据集中的视频数量固定为1M。我们没有7随机抽样还确保我们从头部和尾部类中均匀删除，IG-动词+名词的长尾问题不会影响观察结果。71.372.373.474.867.0 66.368.273.068.365.060.144.7仅FC全尺基线38.06.304.6仅FC全尺基线4.1五、32.5 3.第三0.59.014.714.816.112.8112.3前1位准确度（%）72.9 73.073.04.7保尾38.0随机460.155.2.065161.68.371.271.4mAP（%）前1位准确度（%）动力学Epic-Kitchens模型GFLOPS#参数全英尺基线全英尺基线R（2+1）D-188333M76.069.320.814.8R（2+1）15264M78.269.622.415.2R（2+1）D-10117686M79.171.724.917.112051全英尺仅FC43.551.552.252.450.267.468.568.368.568.3(a) 动力学807570656055504540(b) Epic-Kitchen-Noun201816141210(c) Epic-Kitchen-Verb40383634323028(d) Epic-Kitchen-Action109876543图2. 当使用不同源标签集时，在仅fc微调之后，在三个Epic-Kitchen任务上的（a）动力学上的前1准确度和（b）-（d）mAP（在图例中指示）。结果表明，当目标任务的标签与源标签重叠时，目标任务受益最大。最好用彩色观看。1.00.80.60.40.20.00.00.2 0.4 0.6 0.8标签分数目标标签空间的子集妨碍性能。总之，虽然使用更少的预训练标签会损害性能（图1）。4（b）），增加了多样性，通过一个简单的方法，结合动词和名词（图。（4）也不能提高业绩。因此，该分析突出了标签空间工程的挑战，特别是视频任务。图3. 每个标签的视频数量的累积分布，训练数据集在第二节中讨论第4.2.1条。x轴由每个数据集的标签总数归一化4.3. 探索视频(a) 标签空格：IG-动词+名词7570656055504540352102 112 122 13训练前标签数量(b) 标签空间：IG-Kinetics8070605040302010242 52 62 72 8训练前标签数量我们现在探索视频在长时间和短时间尺度上的时间方面如第3.1，我们的数据集固有地具有大量的时间噪声，因为视频长度从1-虽然短视频更好地本地化，但较长的视频可能包含更多样化的内容。首先，我们试图理解这种权衡-图4. 在不同数量的标签上进行预训练时，Kinetics的准确率最高。请注意，图（a）和（b）中使用的源数据集不同，因此结果不具有可比性。X轴为对数标度。足够的培训视频，即，少于675个标签至少为1M标签采样是这样进行的，即较小的标签空间是较大标签空间的子集。R（2+1）D-34用于预训练，剪辑长度为8。图4（a）显示了动力学性能。我们可以观察到，使用full-ft，直到1350个标签才有~1%的改善，之后性能饱和。对于仅fc方法，准确度的提高是~9%，在2700个标签饱和这表明Kinetics（400）中相对较少的动作标签可能不需要高度多样化和广泛的预训练标签空间，例如IG-动词+名词。然而，大的图像标签空间（17K主题标签）被证明[46]对于高度多样化的目标图像任务（例如，ImageNet-5k）。因此，我们认为，为了获得大的预训练视频标签空间的全部益处，需要具有大标签空间的更多样化的基准视频数据集。接下来，为了理解当预训练标签的数量少于目标标签时的效果（即，对于Kinetics为400），我们将IG-Kinetics视为我们的预训练数据集，并将标签的数量从20改变到360。预训练数据大小再次固定为1M.从图4（b），当我们改变标签的数量时，我们可以观察到对数线性行为即使在全英尺评估设置中，当使用更少的标签这表明，在一个小的标签空间上进行预训练，时间噪声和视觉多样性之间的关系。其次，我们解决了一个更根本的问题，即是否需要基于视频剪辑的预训练，或者基于帧的预训练后再进行膨胀[11]就足够了。后者具有非常快速和更具可扩展性的优势。4.3.1时间噪声为了研究这一点，我们从IG-Kinetics构建了3个数据集(i) short-N：长度在1- 5秒之间的N个(ii) long-N：长度在55- 60秒之间的N个视频(iii) long-center-N：从来自long-N的视频的中心部分构造的N个视频（4秒长）。我们确保时间维度是唯一的因素- 通过保持标签空间和分布（每个标签的视频）在这3个数据集上固定而变化。在预训练期间对所有这些数据集执行时间抖动。此外，请注意，在所有数据集上进行训练时，会看到我们现在考虑以下两种情况。固定视频预算数量（F1）：一个自然的问题是：给定一个固定的视频预算，什么样的时间属性应该指导我们选择预训练视频？为了回答这个问题，我们将唯一视频的总数固定为5M，并考虑短5M，长5M和长中心5M数据集。注意，短5M和长中心5M两者具有类似的每视频持续时间（即，平均4秒），但是长中心5M具有更大的时间噪声，因为短视频通常比任何给定的53.169.667.9 69.668.875.118.717.5 16.916.816.511.6IG名词IG动词IG-动词+名词IG-动力学运动-1 M4.2动力学7.16.77.67.68.8标签）个）中文（简体）(359标签IG-动词+名词IG动力学428个标签）8个标IG名词（1IG-动词（43前1精度70.071.064.866.667.760.852.441.027.815.4仅FC全英尺视频数量的分数前1精度地图前1精度地图地图38.536.637.034.135.829.412052长-5M长-500 K短-5 M长中心-5MF160.6-57.451.4F2-50.6表3. 当R（2+1）D-34在4个不同的短视频和长视频数据集上进行预训练，然后在Kinetics上进行仅fc微调时，视频的准确度达到前1。长视频在短-5M和长-5M之间，虽然短-5M具有更好的时间定位，但是长-5M可以具有更大的内容多样性。从表3中，我们可以观察到短-5M比长中心-5M表现得明显更好，这表明短视频确实提供更好的时间定位。此外，长-5M的性能比短-5M好3. 2%，这表明较长视频中的更多不同内容可以掩盖时间噪声的影响。因此，对于固定的视频总数，较长的视频可能比短视频更有利于迁移学习。固定视频时间预算（F2）：如果存储或带宽是一个问题，更实际的是固定视频的总持续时间，而不是总数。鉴于视频时间的固定预算，我们应该选择短视频还是长视频？为了回答这个问题，我们考虑短5M，长中心5M和长500K数据集，所有数据集的总视频小时数相似。从表3中，我们观察到短5M的表现明显优于长500K。这表明通过使用更多短视频引入的多样性和/或时间定位比更少长视频内的多样性更有益。因此，对于固定的视频持续时间预算，选择更多的短视频产生更好的结果。长中心5M和长500K类似地表现，这表明平均而言，来自长视频的固定中心裁剪包含与来自长视频的随机裁剪类似的信息。短-5 M优于长-中心-5 M，这与短视频确实具有更好的时间定位的主张一致。4.3.2基于帧与基于剪辑的预训练：虽然我们在使用基于剪辑的R（2+1）D模型进行大规模弱监督预训练时已经显示出了实质性的收益，但它在计算上比2D（图像）模型更密集。此外，通货膨胀[11]通过将2D滤波器转换为3D，有效地利用预先训练的图像模型，并在基准数据集上实现最佳性能。鉴于此，我们希望了解直接在弱监督视频剪辑上进行预训练的关键价值。图像.为此，我们首先构建IG-Kinetics数据集的图像变体（在表4中后缀为-Images），遵循第2节中描述的过程。第3.1条我们在不同类型的2D数据（图像/单个视频帧）上从头开始预训练 18 层 2D 深度残差模型（ R2D ） [29] 。然后我们将 [11] 这个模型膨胀到R3D8[14]，并在Kinetics上使用剪辑长度为8进行全微调8我们选择膨胀到R3D，因为考虑到它将3D卷积分解为2D空间和1D时间，如何将2D模型膨胀到R（2+1）D并不明显[14]。表4. 了解使用图像与预培训视频从表4中基于通货膨胀的模型中，我们可以观察到，ImageNet上的预训练实现了0的改进。9%相比，从头开始训练R3D，而IG-Kinetics-19 M-Images上的预训练产生了0. 比ImageNet高5%。在来自IG-Kinetics-19 M的随机视频帧上的训练给出了0. 比弱监督图像预训练提高5%，整体提升1。0%超过ImageNet。为了确保这种边际改进不是因为仅对19M弱监督噪声图像进行预训练最后，直接使用视频片段对R3D进行预训练，准确率达到71. 7%，大幅上升4. 2%，高于最佳充气模型（67。5%）。这清楚地表明，在非常大规模的预训练设置中对视频的时间结构进行有效建模是非常有益的。4.4. 与最新技术水平的比较在本节中，我们将在IG-Kinetics-65 M上预训练的R（2+1）D-34和R（2+1）D- 152模型与3种不同目标数据集上的几种最先进方法进行比较。对于本节中报告的结果，我们遵循[11]执行全卷积预测，以与其他方法进行非常公平的比较。具体来说，R（2+1）D中的全连接层被转换为1 × 1 × 1卷积层（同时保留学习的权重），以允许全卷积评估。每个测试视频都被缩放到128 × 171，然后被裁剪到128 × 128（完整的中心裁剪）。我们还报告了使用另一种帧缩放方法（在表5-7中表示为SE）的结果，其中每个（训练/测试）视频我们注意到，每种比较的方法在模型架构、预训练数据集（ImageNet与体育-1 M），输入数据的数量和类型（RGB vs流量vs音频等），输入剪辑大小、输入帧大小、评估策略等。我们还注意到，与我们的模型相比，许多现有的最先进的模型使用复杂的、优化的网络架构。尽管存在这些差异，但我们对数千万人进行预先培训的方法的视频的性能优于所有现有的方法的实质性保证金3.6%时，完全微调动力学（表5）。在表6中，我们报告了验证[5]、可见（S1）和不可见（S2）测试数据集的性能，输入数据集培训前输入预训练模型FT模型Top-1ImageNet图像R2D-18R3D-1866.5IG-Kinetics-19 M-图片图像R2D-18R3D-1867.0IG-Kinetics-250 M-图片图像R2D-18R3D-1867.0IG-Kinetics-19M视频帧R2D-18R3D-1867.5动力学视频剪辑R3D-18R3D-1865.6IG-Kinetics-19M视频剪辑R3D-18R3D-1871.712053方法;预培训top-1top-5输入类型I3D-Two-Stream; ImageNet75.792.0RGB +流R（2+1）D-双流[14];体育-1 M75.491.9RGB +流3-stream SATT [69]; ImageNet77.793.2RGB +流+音频NL I3D [65];77.793.3RGBR（2+1）D-34;体育-1 M71.790.5RGB我们的R（2+1）D-34; IG-动力学79.193.9RGB我国的R（2+1）D-34; IG-动力学;SE79.694.2RGB我们的R（2+1）D-152; IG-动力学80.594.6RGB我国的R（2+1）D-152; IG-动力学;SE81.395.1RGB表5. 与动力学最新技术的比较。SE：短边缩放。EPIC-Kittlewood行动识别挑战[1]。由于EPIC-Kitterfly的训练数据集仅由~20K视频，对于更强的基线，我们单独进行R（2+1）D-34模型的动力学和运动-1 M和微调的EPIC-Kitchen。我们还报告了在本手稿提交时挑战网站[1]中表现最好的方法。从表6中，我们可以观察到，在看不见的厨房（S2）上，在IG-Kinetics-65 M上预训练的R（2+1）D-152提高了动词的前1准确度，8个名词。9%，9。1%相比，R（2+1）D-34预训练的动力学;和7。与在Sports-1 M上预先训练的R（2+1）D-34相比，动作提升3%类似物质初始增益对于所见（S1）和验证数据集保持不变我们注意到，我们只处理输入视频的32个RGB帧（无光流），分辨率（128 × 128）远低于最先进的集成模型。最后，我们报告了Something-V1 [28]验证数据的性能（表7），这是一个具有细粒度类的具有挑战性的数据集。仅使用RGB作为输入，使用IG-Kinetics-65 M进行预训练可达到51岁6%，同比增长2. 1%高于最先进水平[70] 9（49.5%）。与仅使用RGB作为输入的其他方法相比[68]，我们的方法产生了3的提升。百分之四5. 讨论在这项工作中，我们探索了使用数千万个视频进行大规模、嘈杂、弱监督预训练的可行性。尽管在标签空间和时间定位中存在显著的噪声，但我们的预训练模型学习非常强的特征表示。这些模型能够显着改善流行的Kinetics [64]，最近推出的EPIC-Kitchen [16]和Something-something[28] 数据集。我们所有的大规模预训练模型都显示出比Kinetics和Sports-1 M（文献中事实上的预训练数据集）显著的收益。我们的消融研究解决了许多重要的问题，涉及规模，标签空间和时间维度，同时也提出了其他有趣的问题。我们对标签空间的研究发现，动词-名词对的联合分布表现相对较差;这可能是由于分布偏态9这个数字是使用RGB+流和模型集合实现的表6. 与 Epic-Kit

下载后可阅读完整内容，剩余1页未读，立即下载