MERLOTReserve：多模态神经脚本知识表示的强大学习模型

77 浏览量更新于2023-10-25 收藏 15.56MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

…w4w1w2w3a1a41163750MERLOT Reserve: 通过视觉、语言和声音进行神经脚本知识0Rowan Zellers Jiasen Lu Ximing Lu Youngjae Yu Yanpeng Zhao0Mohammadreza Salehi Aditya Kusupati Jack Hessel Ali Farhadi Yejin Choi0华盛顿大学计算机科学与工程学院Paul G. Allen0人工智能研究所爱丁堡大学0rowanzellers.com/merlotreserve0加入三分之一杯爆米花0现在把火开到最大0加上盖子，然后0然后0*嘶嘶声* *倒入声* *盖子叮当声*0摇晃它0当它爆开时0*晃动声，爆米花*0爆裂声*0[MASKed span]0v 1 v 2 v 3 v 40图1：MERLOTReserve通过联合推理视频帧、文本和音频来学习多模态神经脚本知识表示。我们的模型在预测哪个文本片段（和音频）可能被MASK掉方面进行了预训练。这个任务使得模型在各种视觉和语言任务上表现良好，无论是零样本还是微调设置。0摘要0作为人类，我们在一个多模态的世界中导航，通过所有的感官建立起整体的理解。我们引入了MERLOTReserve，这是一个能够联合表示视频的模型，通过学习音频、字幕和视频帧的新训练目标来实现。给定一个视频，我们用MASK标记替换文本和音频的片段，模型通过选择正确的被MASK掉的片段来学习。我们的目标比其他方法学习得更快，并且在大规模上表现良好：我们在2000万个YouTube视频上进行预训练。0实证结果表明，MERLOTReserve学习到了强大的多模态表示。在微调后，它在VisualCommonsense Reasoning(VCR)、TVQA和Kinetics-600上取得了最先进的结果，分别超过了之前的工作5%、7%和1.5%。消融实验表明，这些任务受益于音频预训练，甚至是VCR这样一个以图像为中心的问答任务（没有声音）。此外，我们的目标使得模型能够直接进行预测，展现出强大的多模态常识理解能力。在完全零样本的情况下，我们的模型在四个视频任务上取得了有竞争力的结果，甚至在最近提出的Situated Reasoning(STAR)基准上超过了有监督方法。0我们分析了为什么音频能够实现更好的视觉语言表示，提出了未来研究的重要机会。最后，我们讨论了多模态预训练的伦理和社会影响。01. 简介0我们周围的世界是动态的。我们通过所有的感官来体验和学习，通过时间上的多模态脚本知识进行推理[99,128]。考虑图1，它描述了一个人在做爆米花。仅通过图像和对话，我们也许能够想象出场景中的声音：过程可能从原始的爆米花粒在一个空的金属锅中散落开始，以及随着爆米花膨胀的动态“爆炸”声音，以及炉子周围金属的晃动。预测这个声音是学习再入的一个例子：时间上的相关性使得一种模态能够教育其他模态。再入已经被发展心理学家假设为我们人类学习视觉和世界知识的关键，其中很多知识并不需要明确的教师[89, 35, 20,100]。然而，我们问：我们能否构建出同样能够同时学习视觉、语言和声音的机器？这种范式能否实现学习神经脚本知识，并将其转化为语言和视觉任务，即使这些任务没有声音？在这项工作中，我们研究了这些问题，并发现答案是肯定的。我们引入了一个新的模型，通过所有的模态（音频、字幕、视觉）进行自监督表示学习。我们将我们的模型称为0MERLOT Reserve 1，以下简称Reserve。01代表M ultimodal E vent R epresentation L earning O ver Time，带有Re -entrant S up erv ision of E vents的缩写。2163760我们的模型与从音频-图像对[54, 71]、字幕视频[105,128]或带有文字描述的静态图像[106, 21,92]学习的过去工作不同。相反，我们从视频的所有模态中学习联合表示，使用每个模态来教导其他模态。我们在规模上进行训练，训练超过2000万个YouTube视频。我们引入了一种新的对比掩码跨度学习目标，以跨模态学习脚本知识。它概括并优于以前提出的各种方法（例如[29, 106, 92,128]），同时使音频可以用作信号。这个想法在图1中概述：模型必须找出视频序列中哪个文本（或音频）跨度被MASK掉了。我们将我们的目标与第二个对比学习方法相结合，该方法专门用于从零开始学习视觉识别：模型还必须将每个视频帧与视频的上下文表示匹配[128]。通过消融实验，我们展示了我们的框架可以快速预训练模型，并且可以轻松扩展到“大型”Transformer尺寸（644M参数）。实验结果表明，Reserve学习到了强大的表示，即使对于只涉及少数研究的模态的任务也很有用。例如，当在Visual CommonsenseReasoning[126]（一个只有图像+语言没有音频的任务）上进行微调时，它创造了一个新的最先进水平，超过了在有监督的图像-字幕对上训练的模型超过5%。在视频任务上表现得更好：没有音频的微调，它在TVQA[75]上的性能超过以前的工作超过7%（并且给定TVQA音频，性能进一步提高）。最后，音频在Kinetics-600[19]上实现了91.1%的准确率。这些性能改进并没有以效率为代价：我们最大的模型使用了VisualBERT的五分之一的FLOPs。0Reserve在零-shot设置中也表现出色。我们在四个不同的基准测试上进行评估：Situated Reasoning (STAR)[119]，EPIC-Kitchens [26]，LSMDC-FiB [96]和MSR-VTTQA[120]。这些基准测试要求进行视觉推理，分别强调时间性、未来预测以及社交和物理理解。在没有微调或监督的情况下，我们的模型在每个基准测试上都获得了竞争性的性能。值得注意的是，它在MSR-VTTQA上几乎将[123]的零-shot准确率翻倍，并且在STAR上超过了ClipBERT[74]等有监督方法。最后，我们研究了为什么以及在哪些训练实例上，音频驱动的多模态预训练特别有帮助。例如，预测音频可以使模型识别动态状态变化（如煮爆米花）和人际交流动态（人们的情绪以及对谁）。随着预训练的进行，我们的模型逐渐学习到这些现象。这些信号通常与文本片段提供的信号正交，这激励我们从两种模态中学习。总之，我们的主要贡献如下：0a. Reserve，一种用于多模态脚本知识的模型。0融合视觉、音频和文本。0b.一种新的对比跨度匹配目标，使我们的模型能够从文本和音频的自我监督中0c. 实验证明，消融和分析表明了强大的多模态视频表示。0总的来说，结果表明，以时间锁定的、回环的方式学习所有模态的表示是一个有前途的方向，也是未来工作的重要空间。我们在rowanzellers.com/merlotreserve上发布了代码和模型检查点。02. 相关工作0我们的工作将两个活跃的研究方向结合在一起。多模态的联合表示。许多语言和视觉任务受益于模态的早期融合[6]。已经提出了一系列“VisualBERT”模型：通常，这些模型使用有监督的目标检测图像编码器骨干网络，并与文字字幕配对的图像进行预训练[106, 77, 81, 21, 124,74]。跨模态交互部分通过掩码语言建模（maskLM）目标[29]来学习，其中子词被替换为“MASK”，模型独立地预测每个子词，条件是图像和未掩码的标记。20也许与我们的工作最接近的是MERLOT[128]，它通过自动语音识别（ASR）从网络视频中学习联合视觉文本模型。通过多种目标的组合（包括一种变种的掩码语言模型），MERLOT在细调时在各种视频QA基准上取得了强大的结果。然而，它缺乏音频：它仅限于表示（和学习）与字幕配对的视频帧。我们提出的Reserve，通过表示和学习音频，优于MERLOT。模态之间的共同监督。在训练联合多模态模型时，一个常见的陷阱是在学习过程中忽略复杂的模态间相互作用，而偏向于更简单的模态内相互作用。例如，在使用前面提到的掩码语言模型目标时，模型可以完全忽略视觉输入，而偏向于文本-文本相互作用；当在带有嘈杂ASR文本的视频上进行训练时，这个问题会被放大。因此，最近的一系列工作通过使用无法通过简单的模态内模式进行捷径的目标，学习独立的模态特定编码器。像CLIP这样的模型通过对比的方式学习图像分类，将图像与其标题进行匹配[132, 92,63]。最近的工作探索了将这种范式应用于将视频帧与其转录文本[121]、其音频信号[97, 114]或两者[3,2]进行匹配；这些工作在单模态任务（如音频分类和活动识别）上也表现出色。这些独立编码器可以通过后期融合进行组合[97]，但后期融合在表达能力上严格不如我们提出的联合编码（早期融合）方法。我们的工作结合了这两个研究方向。我们学习了一个模型，通过所有模态共同表示视频，并使用一种新的学习目标进行训练，从而实现模态之间的共同监督。0最近的论文提出了一些扩展，如生成被屏蔽的片段[22]或文本[78,116]，但不清楚它们是否能在视觉语言任务（如VCR[126]）上胜过VisualBerts。另一个扩展涉及在字幕设置中从文本到语音音频进行学习[62, 79]，但这缺乏对环境声音和情感语音的关键监督。Segments default to 5 seconds in length; we discuss detailsof how we split videos into segments in Appendix C.As the text wt was automatically transcribed by a modelgiven audio at, it is reasonable to assume that it containsstrictly less information content.3 Thus, for each segmentst, we provide models with exactly one of text or audio. Wewill further mask out portions of the text and audio duringpretraining, to challenge models to recover what is missing.3163770在本节中，我们介绍Reserve，包括：我们的模型架构（3.1），新的预训练目标（3.2）和预训练视频数据集（3.3）。在高层次上，03. 模型：Reserve0a. 一个来自段中部的帧vt0Reserve通过将其组成模态（视觉、音频和转录语音的文本）融合在一起，并随时间推移，来表示一个视频。这些表示使得细调和零样本的下游应用成为可能。更正式地说，我们将一个视频V分割成一系列不重叠的时间段{st}。每个段具有：0b. 在该片段中发音的ASR标记，c. 该片段的音频03.1. 模型架构0Reserve的概述如图2所示。我们首先独立地对每个模态进行预编码（使用Transformer[110]或图像/音频；对于文本，使用BPE嵌入表）。然后，我们学习一个联合编码器来融合所有表示，并随时间推移。图像编码器。我们使用VisionTransformer（ViT；[34]）独立地对每个帧进行编码。我们使用16的补丁大小，并在Transformer之后应用2x2的查询-键-值注意力池，将大小为H×W的图像转换为H/32×W/32的维度为dh的特征图。音频编码器。我们将每个段at的音频分成三个大小相等的子段，以与我们屏蔽文本的长度兼容（附录C）。我们使用一个0尽管从音频中派生出来，但使用文本进行预训练仍然至关重要：1）在第3.2节中，我们讨论了如何通过联合建模音频+文本来防止模型通过表面相关性捷径预训练目标；2）在第4.2节中，我们展示了在微调过程中同时使用转录和音频可以提高性能；3）模型需要一个文本接口来处理带有文本输入的下游视觉+语言任务。0t时段的输入0图像编码器0（ViT）0MASK0当它爆开时0词嵌入0（BPE）0*晃动，爆米花爆开声*0at0音频编码器0（AST）0wt0vt0联合编码器（Transformer）0对于所有模态和时间步0vt at0预测MASK后的文本和音频0图2：保留架构。我们为视频帧提供序列级表示，以及单词或音频，输入到联合编码器中。联合编码器在模态和时间步上进行上下文建模，以预测音频at和文本wt的MASK后面是什么。我们使用独立编码的目标对这些预测进行监督：音频编码器提供at，而单独的文本编码器提供wt（未显示）。0音频频谱变换器用于独立地对每个子段进行编码[47]。三个特征图被连接在一起；结果的大小为每5秒音频的18×dh。联合编码器。最后，我们使用双向Transformer对所有模态（所有输入视频片段）进行联合编码。对于所有目标（例如wt和at），我们使用最后一层隐藏状态的线性投影。独立编码的目标。我们通过同时学习每种模态的独立编码的“目标”表示来监督联合编码器。对于图像和音频编码器，这样做很简单：我们在它们各自的输入中添加一个CLS，并提取该位置处的最终隐藏状态vt或at。对于文本，我们学习一个单独的双向Transformer跨度编码器，它从CLS和候选文本跨度的嵌入标记计算目标wt。这使得可以进行零样本预测（4.4）。架构大小。在这项工作中，我们考虑了两种模型大小，从随机初始化开始预训练：01. 保留-B，隐藏大小为768，12层ViT-B/16图像编码器和12层联合编码器。02. 保留-L，隐藏大小为1024，24层ViT-L/16图像编码器和24层联合编码器。0我们始终使用一个12层音频编码器和一个4层文本跨度编码器。详细信息请参见附录B。03.2. 对比性跨度训练0我们引入了对比性跨度训练，可以在三种模态之间进行学习。如图3所示，模型给出了一个视频片段序列。……Avoiding shortcut learning. Early on, we observed thattraining a model to predict a perceptual modality (like audioor vision) given input from the same modality, led to shortcutlearning – a low training loss, but poor representations. Wehypothesize that this setup encourages models to learn imper-ceptible features, like the exact model of the microphone, orthe chromatic aberration of the camera lens [33]. We avoidthis, while still using audio as a target, by simultaneouslytraining on two kinds of masked videos:4163780盖上盖子然后0爆米花加入第三个MASK0at' at'' at ^ ^ ^ wt' wt'' wt ^ ^ ^0at'' at' at wt0t''t'0联合编码器0将火开到最高0晃动它0欢迎来到我的频道0图3：对比性跨度训练。给定一个所有模态都在时间上对齐的视频，我们将文本和音频的某个区域MASK掉。模型必须最大化其与文本wt和音频at的独立编码的相似性。0对于每个视频段，我们包括视频帧，然后是三个文本或音频的‘子段’。音频子段由音频编码器独立编码，然后由联合编码器融合。我们通过用特殊的MASK标记替换这些文本和音频子段的25%来进行训练。模型必须将MASK上方的表示与其范围的独立编码进行匹配。我们的方法结合了将图像与其字幕匹配的过去成功经验[92，63]以及‘VisualBERT’风格的独立标记预测[106，21] -尽管关键是，我们预测的表示是在更高级的语义单元而不是个别标记上。我们的方法还使模型能够从音频和文本中学习，同时避免了对原始感知输入或标记的记忆 -这可能会损害表示质量[112]。形式上，我们最小化MASK预测ˆwt与其对应的短语表示wt与批次中的其他表示W之间的交叉熵：0L mask →text = 10|W|0�0wt ∈ W0� log exp(σ ˆwt ∙ wt) �0w ∈ W exp(σ ˆwt ∙ w)0� . (1)0我们首先对w和ˆw进行L2归一化，并使用参数σ[92]缩放它们的点积。然后将其与其转置版本L text →mask相加，得到基于文本的损失Ltext。类似地，我们为音频定义了基于音频的损失L音频，该损失是MASK预测ˆat与其目标at与批次中的其他a之间的交叉熵。除了这些掩码文本和音频目标之外，我们还同时训练模型将视频帧与剧本的上下文编码进行匹配。在这里，联合编码器一次编码整个视频的剧本，提取每个段落的单个隐藏表示ˆvt。我们使用与方程1相同的对比设置来最大化这些向量与帧的相应vt向量的相似性，从而得到对称的基于帧的损失L帧。最终损失是各个组件损失的总和：04遵循过去的工作，我们优化σ并将其剪裁为100，这使得模型能够在难以处理的负样本上进行‘热身’[92，113]。在MERLOT[128]中，这个目标被发现对于从自监督视频中学习视觉识别至关重要。0避免快捷学习。早期，我们观察到训练模型根据相同模态的输入（如音频或视觉）预测感知模态会导致快捷学习 -训练损失较低，但表示质量较差。我们假设这种设置鼓励模型学习不可察觉的特征，例如麦克风的精确模型或相机镜头的色差[33]。为了避免这种情况，同时仍然将音频作为目标进行训练，我们同时在两种类型的掩码视频上进行训练：0L = L文本 + L音频 + L帧。 (2)0i.仅以音频为目标。我们仅提供视频帧和字幕。模型生成填充了MASK的音频和文本的表示。0ii.以音频为输入。我们为模型提供视频帧，并在每个段落提供字幕或音频。因为模型在某个地方输入了音频，所以模型只为MASK的文本生成表示。0另一个问题是YouTube的字幕与底层音频的时间对齐不完美。在我们的初步探索中，模型充分利用了这个快捷方式：例如，根据相邻（重叠）单词的声音来预测音频段落。我们引入了一个遮罩算法来解决这个问题；详细信息请参见附录C。预训练设置。我们使用TPUv3-512加速器进行训练；Reserve -B的训练需要5天，而训练需要16天。0Reserve - L .通过几种算法和实现的改进，我们使预训练更加高效。值得注意的是，我们同时在书面（网络）文本上进行训练，这使得可以使用更多的文本候选项。我们使用1024个视频的批量大小，每个视频有N=16个片段（分为两组，每组8个片段）。我们使用AdamW [69,80]来最小化公式2。更多细节和超参数请参见附录B。03.3. 预训练数据集0最近的静态图像相关工作通过增加数据集大小来展示了实证改进，一直到JFT-3B [70, 34, 92,130]。在视频中也出现了相同的模式：之前的工作不仅通过扩大到600万个视频/1.8亿帧[128]，而且通过收集多样化的数据集（即超越教学视频[60]）来展示了有希望的实证改进。为此，我们引入了一个新的训练数据集，包含2000万个带有英文字幕的YouTube视频和10亿帧，称为YT-Temporal-1B。同时，我们采取措施保护用户隐私，将爬取定向到公开、大型和有盈利的频道。我们在附录E中详细介绍了我们的收集、预处理和发布策略。V+TV+T+A51637904. 实验0在本节中，我们首先进行模型去除实验（4.1.1），并展示了经过微调的Reserve在VCR（4.1.2）、TVQA（4.2）和Kinetics-600（4.3）上取得了最先进的结果。然后我们展示了我们的模型在四个具有挑战性的零样本任务上具有强大的能力（4.2）。04.1. 视觉常识推理（VCR）0我们首先通过在VCR[126]上进行微调来评估Reserve。VCR的竞争模型大多数都是仅在图像上与标题配对进行预训练的，通常使用有监督的视觉表示（例如来自目标检测器）。据我们所知，唯一的例外是MERLOT[128]，它在预训练中使用了YouTube视频帧和文本。迄今为止，没有任何VCR模型是在音频上进行预训练的。VCR任务。模型给出一部电影中的图像和一个问题。模型必须在给定的四个多项选择选项中选择正确的答案（Q →A）；然后给出四个证明答案的理由，模型必须选择正确的一个（QA → R）。结果通过Q →AR指标进行综合，模型必须选择正确的答案，然后选择正确的理由，以获得“正确”的问题。微调方法。我们遵循[128]的方法：“将”VCR的检测标签绘制到图像上，并在Q →A和QA →R上进行联合微调。对于两个子问题，我们通过对每个Q →A（或QA →R）选项进行评分来进行学习。我们从文本后插入一个MASK后的隐藏表示中汇集一个隐藏表示，并通过一个新初始化的线性层传递该表示以提取一个logit，我们通过交叉熵进行优化（详见附录D.1.1）。04.1.1 去除：音频的对比学习有所帮助。0尽管我们在4.1.2中展示了我们最终的最先进的VCR性能，但我们首先使用该语料库进行去除研究。我们始终使用相同的架构和数据，以便在建模决策之间进行苹果对苹果的比较。我们从与MERLOT[128]类似的配置开始，并展示了对比片段训练的进一步改进，特别是当我们添加音频时。对于视觉+文本建模，对比片段有所帮助。我们首先比较了从YouTubeASR和仅视频学习的预训练目标：0a. Mask LM.该目标通过让模型独立预测被屏蔽的标记来训练一个双向模型。我们使用SpanBERT风格的屏蔽方式[64]，其中文本片段被屏蔽（与我们的对比片段相同）。每个片段w被MASK标记替换，我们独立预测其每个子词wi。606像[64]一样，我们将MASK的隐藏状态与索引i的位置嵌入连接起来，通过一个两层MLP传递结果，并使用绑定的嵌入权重来预测wi。0一个预训练周期的配置 VCR Q → A 验证 (%)0掩码语言模型 [ 29 , 106 , 128 ] 67.2 VirTex风格 [ 27] 67.80对比性跨度 69.70音频作为目标 70.40音频作为输入和目标 70.7音频作为输入和目标，无严格定位 70.60预订 - B 71.90表1：我们对比性跨度目标的消融研究。在视觉+文本设置中，它优于之前的工作，当添加音频时提高了1%。我们的完整设置，添加书面文本，又提高了1%。表示我们完整模型的一部分。0b. VirTex [ 27]。在这个目标中，我们同样掩盖文本子段并提取它们的隐藏状态。不同之处在于，我们使用一个从左到右的语言模型（LM）依次预测标记wi∈w，其具有与我们提出的跨度编码器相同的架构细节。0结果见表1。与这些方法相比，我们的对比性跨度目标在仅在视觉和文本上进行一次预训练之后，性能提高了2%以上。我们假设其更快的学习是由于鼓励模型学习概念级跨度表示；当单独预测标记时，这可能不会发生[23]。音频预训练即使对于没有音频的VCR也有帮助：0d.音频作为目标。在这里，模型只给出视频帧和ASR文本作为输入。除了在缺失的文本跨度上进行对比性跨度预训练外，它还在（保留的）音频跨度上进行相同的操作（方程2）。这将VCR准确率提高了0.7%。0e.音频作为输入和目标。该模型对于视频+文本输入序列执行上述操作，并同时给出视频+文本+音频序列，其中必须预测缺失的文本。这总体上提高了1%的准确率。0f.无严格定位。我们评估了时间上严格定位的重要性。在这里，除了正确位置t上的正确子段作为正确匹配外，我们还计算相邻的MASK区域。[49]提出了一个极端版本，其中一个正匹配可以是视频中的任意两帧。然而，即使在我们保守的实现中，性能稍微下降，这表明定位是有帮助的。0将所有这些内容综合起来，我们发现对比性跨度预训练优于掩码语言模型，在音频作为输入和目标时性能得到改善。对于我们的旗舰模型，我们在表1中报告了同时在网络文本序列上进行训练的结果（附录C.4），这使性能额外提高了1%。65432606570758085after 0.1 pretraining epochs0.20.412468 10after 0.1 pretraining epochs0.20.41246810MerlotReserve-BaseMerlotReserve-LargeVilla-Large [39]78.983.865.7UNITER-Large [21]77.380.862.8Villa-Base [39]76.479.160.6VilBERT [81]73.374.654.8B2T2 [4]72.675.755.0VisualBERT [77]71.673.252.4MERLOT [128]80.680.465.16163800预训练验证损失0微调的VCRQA验证准确率(%)0图4：预训练进展：对比性跨度预训练的性能与微调的VCR验证准确率。预训练0预订 - B再进行9个周期可提高性能5%；L提高8%。0VCR 测试 (准确率; %) 模型 Q → A QA → R Q → AR0基于标题/目标检测0基于视频0预订 - B 79.3 78.7 62.60预订 - L 84.0 84.9 72.00表2：预订在VCR上获得了最先进的排行榜性能。我们将其与最大的单个提交模型进行比较，包括利用大量手动监督（例如对象检测和标题）的图像标题模型。0TVQA（准确率；%）模型验证测试0人类[75] – 89.40字幕0MERLOT[128] 78.7 78.4MMFT-BERT[109] 73.5 72.8Kim等[68] 76.2 76.10Reserve-B 82.5 –0Reserve-L 85.9 85.60音频0Reserve-B 81.3 –0Reserve-L 85.6 84.80两者0Reserve-B 83.1 82.70Reserve-L 86.5 86.10表3：Reserve相对于不能使用音频的先前工作，在TVQA上的结果超过7%。04.1.2VCR结果受到这些结果的鼓舞，我们在YT-Temporal-1B上对我们的模型进行了10个epoch的训练。图4显示，微调后的VCR性能与预训练epoch数以及验证损失成正相关。0最后，在表2中，我们将Reserve与VCR排行榜上最大的已发布模型进行了比较。值得注意的是，0Reserve-L在Q→AR指标上超过了所有先前的工作，提高了超过5%。它甚至超过了行业提交的大型集成模型（例如15个ERNIE-Large），尽管我们没有在这个表格中展示它们，以便专注于单一模型。效率。Reserve的准确率提高不仅仅是由于计算。实际上，我们的Reserve-L的FLOPs仅为基于检测器的系统（如UNITER-Large）的五分之一（附录B.3）。此外，因为0Reserve-L使用纯ViT骨干网络，而MERLOT使用ViT-ResNet混合网络，Reserve-L的FLOPs比MERLOT少，同时得分高出7%。与此同时，Reserve-B的性能超过了基于检测器的“base”模型，同时使用的FLOPs不到它们的十分之一。在参数数量方面，Reserve-B与先前的工作相当。在VCR上，包括视觉堆栈，0Reserve-B有2亿个可微调参数，性能与3.78亿个参数的UNITER-Large相似。0Reserve-L有644M个参数。04.2.在TVQA上进行微调0接下来，我们使用TVQA[75]来评估我们的模型在多模态视频理解任务中的能力。在07这个图表表明，如果我们预训练时间更长，VCR的性能可能会继续提高，尽管一个混淆因素可能是学习率的调度。未来的工作如果有超过我们当前容量的计算资源，可以考虑这一点和其他预训练修改。8在这里，我们使用FLOPs作为关键的效率指标，因为它们是模型扩展的关键瓶颈[66, 34,130]。另一方面，我们认为参数数量可能会产生误导-例如，许多Transformer参数可以通过最小的性能损失进行绑定[72]。0TVQA，模型会给出一个视频、一个问题和五个答案选项。这些场景来自美国电视节目，描绘了角色通过对话相互交流的情况，以往的研究通过字幕来表示。音频-字幕微调。为了评估音频对于TVQA的帮助程度，我们在“字幕”和“音频”设置之间进行了Reserve的微调。与VCR类似，我们考虑每个候选序列：每个序列包含视频帧特征、问题、答案候选和一个MASK标记（从中我们汇集一个隐藏表示）。在训练过程中，每个序列都会被复制：我们提供一个带有视频字幕的序列，对于另一个序列，我们使用音频。这样我们就可以训练一个单一模型，然后测试它在给定字幕、给定音频或同时给定两者的情况下的表现（通过对两个softmax预测结果进行平均）。结果。我们在表3中展示了TVQA的结果。仅使用字幕和视频帧，我们的Reserve-B的性能超过了所有先前的工作超过3%。仅结合字幕和音频的预测效果更好，相对于先前的最先进模型MERLOT提高了4%（进而超过其他模型）。随着模型规模的增加，这种模式仍然存在（并且有额外的性能提升）：0Reserve - L相对于之前的工作提高了7.6%。04.3. 在Kinetics-600活动识别上微调0接下来，我们使用Kinetics-600[19]来比较我们模型（微调后）在活动理解方面与之前的工作，包括许多不集成音频的得分最高的模型。任务是将一个10秒的视频剪辑分类为600个类别之一。我们将Reserve在两种设置下进行联合微调：仅视觉和视觉+音频。结果。我们在验证集上展示了Kinetics-600的结果，见表4。当Reserve能够同时表示视频帧和声音时，它的性能提高了1.7%。这使得它能够胜过其他大型模型，包括VATT。ModelInteractionSequencePredictionFeasibilityOverallVerbNounActionAcctop1top57163810Kinetics-600（%）模型Top-1 Top-50仅视觉0VATT-Base[2] 80.5 95.5VATT-Large [2] 83.6 96.6TimeSFormer-L [9] 82.2 95.6Florence [125] 87.8 97.8 MTV-Base[122] 83.6 96.1 MTV-Large [122]85.4 96.7 MTV-Huge [122] 89.698.30Reserve - B 88.1 95.80Reserve - L 89.4 96.30+音频0Reserve - B 89.7 96.60Reserve - L 91.1 97.10表4：Reserve在Kinetics-600上以1.5%的优势获得了最先进的结果，相对于无法利用音频的标准方法。0坐落推理0（测试准确率；%）EPIC-Kitch0（验证集类均值R@5；%0（FiB测试%）MSR-VTT QA0监督SoTA ClipBERT [74] AVT+ [46] MERLOT [128] 39.8 43.6 32.3 31.4 36.7 28.2 32.0 15.9 52.9 43.10零样本0随机 25.0 25.0 25.0 25.0 25.0 6.2 2.3 0.1 0.1 0.1 0.5 CLIP（VIT-B/16）[92] 39.8 40.5 35.5 36.0 38.0 16.5 12.8 2.3 2.0 3.0 11.9CLIP（RN50x16）[92] 39.9 41.7 36.5 37.0 38.7 13.4 14.5 2.1 2.3 2.3 9.7 Just Ask（ZS）[123] 2.9 8.80Reserve - B 44.4 40.1 38.1 35.0 39.4 17.9 15.6 2.7 26.1 3.7 10.80Reserve - L 42.6 41.1 37.4 32.2 38.3 15.6 19.3 4.5 26.7 4.4 11.50Reserve - B（+音频）44.8 42.4 38.8 36.2 40.5 20.9 17.5 3.7 29.1 4.0 12.00Reserve - L（+音频）43.9 42.6 37.6 33.6 39.4 23.2 23.7 4.8 31.0 5.8 13.60表5：零样本结果。在STAR上，Reserve获得了最先进的结果，超过了微调视频模型。它在EPIC-Kitchens（动词和名词预测）上表现良好，以及LSMDC，尽管它们具有长尾分布。在MSR-VTTQA上，它超过了过去的弱监督视频QA工作。此外，它超过了无法处理动态情况的CLIP，并在给定音频时受益。0[2]学习独立于视觉的音频表示（因此无法早期融合它们），以及更大的MTV-Huge模型[122]提高了1.5%。04.4. 零样本实验0接下来，我们展示了我们的模型在各种下游任务中表现出强大的零样本性能。我们的零样本接口是通过我们的对比跨度目标实现的。对于需要从短语标签空间中预测选项的QA任务，我们将这个标签空间编码为向量，并预测与MASK输入最接近的短语。我们考虑：0i.坐落在推理（STAR）[119]。这个任务要求模型在视频中对短暂的情境进行推理，涵盖四个方面：互动、序列、预测和可行性。模型被给予一个视频、一个模板化的问题和4个答案选项。我们将模板化的问题转化为文字陈述（更类似于YouTube对话）；标签空间是四个选项的集合。0ii. EpicKitchens中的动作预测[26]。在这里，目标是根据视频剪辑预测未来的动作，这需要对演员的动机和意图进行时间推理。数据集具有稀有动作组合的长尾，使得零样本推理具有挑战性（因为我们不假设有先验知识）。因此，之前的工作[46，38]在提供的域内训练集上进行训练。为了使Reserve适应这个任务，我们将一个单独的MASK令牌作为文本输入，并将动词和名词的所有组合作为我们的标签空间（例如“煮苹果，煮鳄梨”等）。0iii. LSMDC [82,96]。模型获得一个视频剪辑，以及一个视频描述（其中有一个MASK需要填充）。我们将其与先前工作中使用的词汇进行比较[128]。0iv. MSR-VTT QA[120]。这是一个关于网络视频中字面上发生的事情的开放式视频问答任务。我们使用GPT3[16]，提示了十几个（未标记的）问题，将这些问题改写成带有MASK的陈述句。这引入了一些错误，但最小化了领域转移。我们使用前1k个选项的标签空间。0对于这些任务，我们使用N =8个视频片段（在适当时扩大时间），并在可能的情况下提供音频输入。详细信息和提示请参见附录D。我们与微调和零样本模型进行比较，包括在所有任务上运行CLIP[92]。CLIP是一个强大的零样本分类模型，特别是在图像的百科知识有帮助时；我们的比较展示了多模态脚本知识的帮助之处。结果。表5显示我们的模型具有竞争力：0i. 在STAR上，它获得了最先进的结果，当包括音频时性能提升。有趣的是，0Reserve-B优于其较大的变体；我们假设这是由于在问题模板周围有限的提示搜索。我们在定性上观察到，Reserve-L有时会排除听起来语法奇怪的主题正确选项。0ii.在EPIC-Kitchens上，我们的模型在正确预测动词和名词方面取得了强大的结果，尽管这两个分布都是重尾的。在同时正确获取两者（'action'）方面表现较差，我们怀疑这可能是由于名词和动词之间的先验（模式）[129]。在训练数据可用的情况下，这些很容易学习，但我们将其排除在外，因为我0iii.在LSMDC上，我们的模型在填空方面取得了强大的结果，尽管存在严重（未见过的）频率偏差。值得注意的是，它明显优于CLIP，CLIP通常更喜欢使用

下载后可阅读完整内容，剩余1页未读，立即下载