多模态视频生成式预训练用于字幕生成

175 浏览量更新于2023-10-25 收藏 13.49MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

!! + 1…!! + 1…179590端到端生成式预训练用于多模态视频字幕生成0Paul Hongsuck Seo ag Arnab Cordelia SchmidGoogle Research0{ phseo,anagrani,aarnab,cordelias } @google.com0000390。这很痛0们希望0些东西一纸包起来0（a）多模态视频字幕生成0-dtrm5hxiII-000390字幕中的男人谈论在脑海中处理困难数学问题的困难。“这是有意识层次处理的一个例子。这很痛苦，对吧？这需要更多。这需要更多的能量。”0“你要在这里放一些油，并且要慷慨地加油，因为我们希望在烤箱里烹饪时它能帮助烹饪。”0“我们只需将这些东西一起包起来，用锡纸包起来。”0无标注视频带有注释字幕的视频0未来话语0（b）使用未来话语进行预训练0图1.多模态视频字幕生成的生成式预训练。多模态视频字幕生成将视觉帧和由ASR转录的语音作为输入，并预测字幕。左侧的示例（a）表明，联合使用两种模态是生成准确字幕有益的，即红色单词存在于视觉输入中，而蓝色单词对应于ASR中的概念。我们的新多模态视频生成式预训练（MV-GPT）使用来自视频流的未来话语作为字幕目标（b）。这个目标可以应用于无标注数据（例如HowTo100M），该数据带有ASR但没有字幕，并且对多模态编码器和解码器进行了有效的联合预训练。0摘要0最近的视频和语言预训练框架缺乏生成句子的能力。我们提出了多模态视频生成式预训练（MV-GPT），这是一种用于从无标注视频中学习的新的预训练框架，可有效用于生成性任务，如多模态视频字幕生成。与最近的视频语言预训练框架不同，我们的框架同时训练多模态视频编码器和句子解码器。为了克服无标注视频中缺乏字幕的问题，我们利用未来话语作为额外的文本来源，并提出了一个双向生成目标-我们在给定当前多模态上下文的情况下生成未来话语，以及在给定未来观察的情况下生成当前话语。通过这个目标，我们可以端到端地训练一个编码器-解码器模型，直接从原始像素和转录的语音生成字幕。我们的模型在四个标准基准测试中实现了最先进的多模态视频字幕生成性能，以及其他视频理解任务，如VideoQA、视频检索和动作分类。01. 引言0AI社区的一个长期目标是开发能够可靠感知世界并与人类轻松交流的对话多模态系统。这个领域的一个新兴进展基准是多模态视频字幕生成任务[17, 32]，它测试了0模型必须准确理解包括语音和视频帧在内的“多模态”输入视频，并生成连贯的自然语言描述内容。0毫不奇怪，在视觉和语言学习领域，一个主要的挑战是缺乏大规模的手动注释数据。为视频添加字幕是耗时、昂贵且主观的（具有低的注释者一致性[17]），这与图像分类等领域完全注释的数据集相比要大几个数量级[15, 41,56]。为了克服这个限制，最近有许多工作在教学视频上预训练他们的视频语言模型[32,33, 42, 44,45]，这个领域的语音与视觉内容特别吻合。最近引入的数据集，如Cooking312K[45]和HowTo100M[34]，利用这些教学视频和来自ASR（自动语音识别）的相关字幕来学习联合视频和文本嵌入[33, 44]或训练多模态视频编码器[27,42]。然而，这些工作中的模型通常不包含解码器，缺乏生成句子的能力，因此只有视频编码器被转移到下游任务中-实际上，对于视频字幕生成的情况，解码器通常是从头开始学习的[45, 47, 63]。虽然可以使用独立预训练的权重（例如来自GPT-2[37]模型的权重）来初始化解码器，但我们观察到这种策略是次优的，通过优化编码器和解码器的联合性能显著提高。对于多模态视频字幕生成任务，我们需要一个能够同时编码多模态视频（即帧和文本输入）并生成字幕的模型。使用多模态信息作为输入可以极大地提高生成字幕的质量（如图1a所示）。然而，从未标记的数据中联合学习这样的编码器-解码器模型特别具有挑战性，因为它需要两个文本数据流-自然发生的视频伴随的转录语音用于编码器，以及解码器的目标句子-而未标记的视频只有一个语音数据流（图1b）。最近的工作[17, 23,32]尝试通过去噪自编码器来解决这个问题-模型的输入语音被人为地“噪音化”，即随机屏蔽掉一些单词[17, 23,32]。然后，解码器的任务是简单地重构被屏蔽的短语或原始未屏蔽的文本，其中监督信号仅来自被屏蔽的单词。在这些框架中，通常需要额外的损失来加强预训练的监督，例如多模态输入对齐[32]和段落排序[17]。在我们的框架中，我们引入了一种新的更强的损失。我们利用未来话语作为另一种文本数据源，并训练模型生成这些完全看不见的句子，如图1b所示。为了缓解未来话语没有时间对齐的问题，我们提出了一个反向生成目标，其中给定未来话语生成当前对齐的话语。实验结果表明，使用这种双向生成目标预训练的模型有效地转移到多模态视频字幕生成，并且优于现有技术水平。我们的贡献如下：（i）我们提出了一种新颖的多模态视频字幕生成预训练目标，不需要手动注释的字幕，而是使用同一视频中不同时间采样的话语。我们的目标在时间上是双向的-即我们不仅生成未来话语，还生成从未来生成的当前话语；（ii）通过使用两个文本数据源，我们能够联合训练整个编码器-解码器模型。这与先前的工作不同，先前的工作仅预训练（多模态）编码器，因此缺乏生成字幕的能力[27, 42, 45]；（iii）我们的编码器179600图2.多模态视频生成预训练（MV-GPT）框架。在预训练期间，我们的网络（包括模态特定的编码器、多模态编码器和句子解码器）使用一种新的双向目标进行训练。1）正向生成（FG，蓝色）：给定视频片段的输入帧和当前话语，我们预测未来的话语；2）反向生成（BG，红色）：给定输入帧和未来的话语，预测当前的话语。这两个损失应用于由视频帧、当前话语和未来话语组成的三元组上。为了让我们的模型能够识别不同的配置，我们将不同的特殊分类标记CLS1和CLS2附加到FG和BG的输入文本上，以及将不同的BOS1和BOS2（句子开头）标记附加到解码器用于句子生成。0模型既能编码多模态视频（即帧和文本输入），又能生成字幕。使用多模态信息作为输入可以极大地提高生成字幕的质量（如图1a所示）。然而，从未标记的数据中联合学习这样的编码器-解码器模型特别具有挑战性，因为它需要两个文本数据流-自然发生的视频伴随的转录语音用于编码器，以及解码器的目标句子-而未标记的视频只有一个语音数据流（图1b）。最近的工作[17, 23,32]尝试通过去噪自编码器来解决这个问题-模型的输入语音被人为地“噪音化”，即随机屏蔽掉一些单词[17, 23,32]。然后，解码器的任务是简单地重构被屏蔽的短语或原始未屏蔽的文本，其中监督信号仅来自被屏蔽的单词。在这些框架中，通常需要额外的损失来加强预训练的监督，例如多模态输入对齐[32]和段落排序[17]。在我们的框架中，我们引入了一种新的更强的损失。我们利用未来话语作为另一种文本数据源，并训练模型生成这些完全看不见的句子，如图1b所示。为了缓解未来话语没有时间对齐的问题，我们提出了一个反向生成目标，其中给定未来话语生成当前对齐的话语。实验结果表明，使用这种双向生成目标预训练的模型有效地转移到多模态视频字幕生成，并且优于现有技术水平。我们的贡献如下：（i）我们提出了一种新颖的多模态视频字幕生成预训练目标，不需要手动注释的字幕，而是使用同一视频中不同时间采样的话语。我们的目标在时间上是双向的-即我们不仅生成未来话语，还生成从未来生成的当前话语；（ii）通过使用两个文本数据源，我们能够联合训练整个编码器-解码器模型。这与先前的工作不同，先前的工作仅预训练（多模态）编码器，因此缺乏生成字幕的能力[27,42, 45]；（iii）我们的编码器0与现有方法相比，从原始像素和单词直接训练，而不是依赖于预提取的视觉特征，限制了对新领域的转移[17, 23,32]；（iv）我们在四个视频字幕基准测试中取得了最先进的结果-YouCook2、ViTT、MSR-VTT和ActivityNet-Captions-始终以显著的优势超过现有方法；最后（v）我们的预训练目标产生了强大的多模态视频表示，在其他视频理解任务（如VideoQA、视频检索和动作分类）中取得了最先进的性能。02. 相关工作0视频字幕。早期的视频字幕工作采用基于规则的方法[10,22]，其中从视频中检测到的主语、动词和宾语（SVO三元组）被组合成句子模板。后来的工作将字幕制作视为机器翻译任务[4, 39,46]，为此开发了今天任务的常见编码器-解码器范式-编码器处理一组视频特征并累积其隐藏状态，然后传递给解码器生成字幕。早期的工作将视觉编码器实现为应用于视频帧的2D CNN（冻结或微调），然后自然地扩展为3D CNN[6,53]，以更好地捕捉运动动态，通常使用注意策略[9]对整个视频进行时间聚合。鉴于使用昂贵的3DCNN应用于密集帧输入（通常为30fps）的计算挑战，这些工作中的大部分仅在预提取的特征上操作，仅学习编码器中特征的融合。与这些工作不同，我们使用基于Transformer的编码器应用于原始像素[3]，以较粗的速率对其进行采样，以更好地捕捉长距离上下文。使用弱配对数据进行预训练。现有的视频字幕数据集[17, 55,62]比视频分类数据集[20]小几个数量级。作为弱配对的视频和语言数据的来源，一些工作使用未标记视频的视觉帧和自动语速识别（ASR）转录来预训练视频179610表示[27, 33, 42, 44, 45,63]。这些方法通过制定代理任务（如遮蔽语言/帧建模[42,45]、视频-文本匹配[27,33]或段落排序[27]）来学习多模态表示。虽然这些研究在视觉表示[33, 44, 45, 47]或多模态视频表示[27, 42,63]学习方面取得了改进，但它们仅设计用于判别任务，缺乏生成能力。像我们这样的生成任务的预训练技术较少。虽然[23]使用多模态翻译作为生成目标，但他们的编码器仅限于接受视觉输入。使用多模态输入对编码器进行训练时，采用遮蔽损失-其中单词或短语被遮蔽，目标是重构原始句子[23,32]或遮蔽的目标[17]，使用自回归生成器。相比之下，我们利用片段边界之外的话语，这在以前的工作中被简单地忽略。我们将未来的话语作为第二个文本数据源，并提出了一个双向生成目标，模型根据当前话语生成未来话语，反之亦然。虽然我们也使用了遮蔽语言建模损失，但这仅仅是我们主要的生成双向损失的补充。03. 方法0我们的目标是预训练一个能够有效编码多模态视频（视觉帧和转录的语音）并解码自然语言句子的模型。这将使我们能够将该模型用于多模态字幕。在本节中，我们首先描述用于从未标记的视频中联合训练编码器和解码器的预训练损失。然后我们描述我们的模型，包括模态特定的编码器、多模态编码器和文本解码器（图2）。03.1. 预训练目标和损失0我们的框架旨在利用未标记的教学视频数据，其中包括与视觉内容相关联的视频帧和话语[34]。如前所述，我们的框架需要两个文本流——编码器的输入和解码器的字幕目标。由于未标记的视频没有字幕目标，我们提出了一个简单的目标——我们的模型在给定当前视频上下文和当前话语的情况下，训练生成视频中的未来话语（正向生成）。这给我们提供了两个文本监督的来源，当前话语使我们能够学习如何在视频编码器中最优地融合模态，而解码器的任务是预测一个它从未见过的新话语。然而，我们的目标是视频字幕生成，而不是“预测未来”。为了使我们的模型能够生成与当前视频上下文相对应的文本，我们还添加了一个额外的反向生成损失——模型必须在给定当前视频帧和未来话语的情况下生成当前话语（反向生成）。这鼓励生成的句子在时间上对齐（因此更紧密地与视觉输入相关联）。03.1.1 双向话语生成0给定一组大量未标记的视频，我们提取由与 F 对齐的 F ={f1,...,fNf} 视觉帧和转录的语音话语 U = {u1,...,uNu}组成的短剪辑。对于每个剪辑，我们还考虑即将到来的未来话语 W = {w1,...,wNw}，其中 ui 和 wj是转录话语中的分词。请注意，我们使用术语“话语”来指代单个转录语音的句子。正向生成：我们的模型经过训练，可以在给定剪辑帧 F 和当前话语 U 的情况下生成未来话语W。严格来说，我们制定了正向生成目标，以最小化真实未来话语 W的负对数似然，其中由链式法则给出的损失函数为 LFG = − �Nwi=1 log P(wi |w1,...,wi−1,F,U)。该损失鼓励预训练模型有效地编码时间上对齐的多模态输入以预测未来话语。反向生成：我们现在以相同的方式应用上述损失，只是方向相反。换句话说，模型的任务是在给定未来话语 W 和 F 的情况下生成与视频帧 F对齐的当前话语U。与正向生成一样，我们还最小化真实当前话语的负对数似然 LBG = − � Nui=1 log P(ui |u1,...,ui−1,F,W)。请注意，视觉输入 F 与解码器输出 U在时间上对齐。该损失函数鼓励网络生成与视觉内容相关的字幕。03.1.2 掩码语言建模0作为额外的补充损失，我们还使用了掩码语言建模（MLM）损失[11] LMLM(X)，其中 X是应用掩码的输入话语。我们将此损失应用于正向和反向输入话语，即 LMLM(U) 和LMLM(W)。请注意，这些损失是独立计算的，与上述双向生成损失无关。与UniVL[32]不同，其中MLM损失应用于编码器的输出，我们将其应用于解码器的输出。这鼓励解码器中的自注意层专注于文本标记的进一步多模态上下文化（因为每个掩码标记预测需要了解相邻上下文）。正如我们在实验中所展示的，这会带来性能提升。03.2. 模型0我们的模型完全由Transformer块组成，并直接从像素和词标记进行端到端训练。03.2.1 模态特定编码器0给定由视觉帧F = {f1,...,fNf}和文本输入X ={x1,...,xNx}组成的多模态视频输入，我们首先独立地从各个模态提取特征。注意这里的文本输入X是对齐的话语U。179620一般情况下（用于计算前向生成损失和下游字幕任务），但在计算后向生成损失时设置为W。文本编码器：我们使用BERT [11]编码器从输入文本中提取Nx个上下文化的文本嵌入E= {ei}。视觉编码器：与先前的方法[17, 32, 42,45]不同，先前的方法是使用在不同数据集上预训练的模型预先提取视觉特征，我们直接从像素中提取视觉特征。我们使用最近的基于变换器的视频编码器ViViT[3]，特别是管道嵌入方案和分解编码器架构。对于管道嵌入方案，我们首先从视觉输入体积中提取时空3D管道，得到S×T个令牌嵌入，其中S和T分别对应于空间和时间维度中的令牌数量。然后，空间变换器首先使用特殊的CLS令牌嵌入将每组S个嵌入与相同时间索引的嵌入一起处理，并且时间变换器通过另一个CLS嵌入对个体空间组的输出CLS嵌入进行交互，从而得到T+1个视觉特征V = {vj} -详见[3]以获取更多细节。与在高帧率（30fps）下提取的连续帧上操作的3DCNN视觉编码器不同，我们的视觉编码器可以在粗采样帧（1fps）上操作，从而显著减少计算量。这使我们能够端到端地训练视觉编码器，并有助于适应预训练和下游数据集之间的域差异。它还可以轻松采用现成的视频增强直接应用于RGB帧，这对于小规模下游基准测试非常有用。03.2.2 多模态编码器0一旦提取出两组文本特征E和视觉特征V，我们的多模态编码器使用[31,42]中使用的共同注意力变换器融合多模态信息。每个层由两个流组成，其中每个流都是两个变换器块的堆叠。在文本流中，我们首先使用交叉注意力变换器块将特征E与视觉特征V进行上下文化。然后，输出特征通过另一个具有自注意力的变换器块进行进一步的上下文化。第一个变换器块通过交叉注意力过程进行跨模态上下文化，而第二个变换器块通过自注意力过程进行内模态上下文化。同样地，视觉流V关注文本流。我们的多模态编码器重复这个过程R次，得到输出的多模态特征ˆE和ˆV。03.2.3 句子解码器0如图2所示，给定多模态视频特征C = ˆE ∪ˆV作为上下文，我们使用transformer在这个上下文条件下自回归生成输出句子Y。0解码器。为了生成令牌yi，我们首先使用查找表和位置嵌入对先前生成的令牌Yi = {y0,...,yi-1}进行编码，得到Hi ={h0,...,hi-1}。然后，我们使用一个单独的变换器对上下文C和先前嵌入的令牌Hi进行编码。这个变换器的输出是˜C∪˜Hi，其中˜Hi ={˜h0,...,˜hi-1}。注意，˜C是从解码器获得的多模态输入嵌入，用于计算3.1.2节中讨论的MLM损失。然后，我们使用线性投影和softmax从˜hi-1预测下一个令牌yi：yi =argmax(softmax(Φ˜hi-1))，其中Φ∈Rν×d是线性投影矩阵，ν是词汇表大小。第一个词h0使用特殊的BOS（句子开头）令牌设置，直到生成特殊的EOS（句子结尾）令牌为止。实际上，每次迭代只需要在解码器变换器上进行一次前向传递，借助于[48]中引入的因果掩码。03.2.4 输入和输出配置0预训练：由于我们的预训练目标是双向的，每个由视觉帧F、当前话语U和未来话语W组成的三元组(F,U,W)会被网络处理两次。对于正向生成，模型以F和U作为输入并生成W；对于反向生成，模型以F和W作为输入并生成U。为了使模型能够识别不同的配置，我们在正向生成的输入文本中附加了不同的特殊标记CLS1和CLS2，分别用于正向和反向生成损失，如图2所示。类似地，我们在解码器中提供了不同的BOS1和BOS2标记，用于启动句子生成。字幕微调：在下游视频字幕数据集中，视频剪辑（由帧F和对齐的话语U组成）用自然语言字幕进行手动注释。在微调过程中，我们将CLS1标记附加到U上（与正向生成中一样），因为U是对齐的话语，但对于生成，我们输入BOS2标记（与反向生成中预测当前话语的方式相同），以便我们还生成一个与时间对齐的字幕。03.2.5 实现细节0对于文本编码器，我们采用了BERT-Base架构，使用无大小写的wordpiece分词[11]。我们的视觉编码器使用相应的ViViT-Base配置，包括1层时间变换器和一个尺寸为16×16×4的tubelet[3]。我们的多模态编码器遵循[42]的2层结构，最后，解码器基于GPT-2（117M参数）架构[37]，但我们对其进行了修改，以同时接受多模态输入上下文C和一个BOS标记，允许条件生成（原始GPT通过将第一个词作为输入立即开始生成，并且仅在文本上进行条件）。我们分别使用在大规模无标签语料库上预训练的标准BERT和GPT-2权重初始化文本编码器和解码器[11,37]。同样，我们初始化视觉编码器PT LossesPT partsB-4CMR-LFGBGMLM-EMLM-DWDB-4CMR-LNo PT13.251.0317.5635.48✓16.131.4621.7641.50✓✓20.652.0525.8147.22✓✓20.772.0925.9047.41✓✓✓20.822.1026.2048.22✓✓✓20.892.1126.4248.30✓✓✓✓21.262.1426.3648.58nt179630使用在Kinetics400上预训练的权重，除非另有说明。我们的模型使用批量大小为2048的Adam优化器[21]进行端到端的预训练，进行了150万次迭代。有关预训练和微调的更详细的超参数和训练策略，请参阅补充材料。04. 实验0在本节中，我们首先展示了我们在四个不同的多模态视频字幕基准上的结果。然后，我们还展示了我们的预训练模型具有泛化到其他视频理解任务的能力，例如视频问答（VideoQA）、视频检索和动作分类。04.1. 多模态视频字幕04.1.1 数据集和评估协议0我们使用HowTo100M[34]作为我们的预训练数据集，并在四个下游字幕基准上进行评估。HowTo100M[34]包含来自YouTube的1.2M个教学视频。使用YouTube ASR API[1]获取转录的语音。根据[42]的方法，我们提取了5300万个帧、当前话语和未来话语的三元组进行预训练。0YouCook2 [ 62]是最广泛采用的多模态视频字幕基准，包含2,000个烹饪视频，涵盖89种不同的菜肴，共有14K个视频剪辑。每个视频剪辑都附有一个单一的字幕句子。0视频时间线标签（ViTT）[17]是为了更好地反映野外教学视频的分布而创建的。它包含8,169个视频，其中5,840个视频用于训练，其余视频用于验证和测试。视频平均分为7.1个片段，每个片段都附有一个简短的时间线标签。0MSR-VTT [ 55]是一个标准基准，用于视频字幕的10K个开放领域视频剪辑。每个视频剪辑的持续时间在10到30秒之间，每个剪辑手动注释了20个自然语言描述。0ActivityNet-Captions[24]是一个标准的密集视频字幕基准数据集，包含20k个视频的100K个时间上定位的句子。我们按照标准分割将50％/25％/25％的示例用于训练、验证和测试集。为了评估我们模型的预测字幕能力，我们使用了按照[24]的方法提供的真实时间提议。0我们在HowTo100M上预训练了一个模型，然后通过微调将其转移到所有四个字幕基准数据集上。我们使用以下已建立的指标进行结果报告：BLEU-4（B-4）[35]，CIDEr（C）[49]，METEOR（M）[5]和ROUGE-L（R-L）[29]。对于ViTT，我们使用BLEU-1（B-1）而不是BLEU-4，参考[17]。0No PT – 13.25 1.03 17.56 35.48 Baseline PT E 16.131.46 21.76 41.50 CoMVT [ 42 ] E 14.46 1.24 18.4637.17 M-MASS [ 17 ] E+D 19.03 1.88 24.00 45.10UniVL [ 32 ] E+D 19.95 1.98 25.27 46.81MV-GPT（我们的方法） E+D 21.26 2.14 26.36 48.580表1.在YouCook2上与现有预训练损失进行比较。PT代表预训练。PTparts表示模型的哪个部分进行了预训练，编码器（E）或编码器和解码器（E +D）。我们重新实现了现有方法的损失函数，但使用我们的模型和训练策略进行公平比较。0表2.在YouCook2上消融实验，展示了我们预训练中不同损失组件的影响。FG：前向生成损失。BG：后向生成损失。MLM-E/MLM-D：应用于编码器输出（E）或解码器输出（D）的掩码语言建模损失。WD：权重衰减。No PT：没有对这些损失进行预训练。04.1.2 结果0在本节中，我们消除了MV-GPT中的一些关键设计选择，特别是骨干网络和目标函数，并探讨了端到端训练的影响。最后，我们将我们的模型与现有技术进行了比较。预训练损失：我们实现了一个简单的基准模型，该模型由给定视觉帧和ASR作为输入的掩码语言建模损失组成（基准PT）。我们还重新实现了三种最先进的预训练损失：（i）CoMVT[42]，（ii）UniVL [32]和（iii）M-MASS[17]。为了公平比较，我们对所有实验都使用了我们的模型架构，只变化了损失函数。对于仅对编码器进行预训练的方法，我们使用公开的GPT-2权重[37]初始化解码器。对于'NoPT'，编码器也没有进行预训练，但是使用在ImageNet21k上预训练的公开BERT和ViViT进行初始化。表1比较了这些不同的损失。我们可以观察到，仅对编码器进行预训练对于所有研究的损失来说，都带来了适度的增益。通过同时对编码器和解码器进行预训练，这种性能得到了极大的改善。最后，我们观察到我们的方法MV-GPT优于现有的联合预训练损失。MV-GPT中每个损失项的影响：表2显示了我们损失函数中每个项的影响。前向生成（FG）损失已经提供了强有力的监督。当在解码器输出上应用掩码语言建模损失（MLM-YouCook2ViViTViViT [3] / Kinetics19.541.9324.4245.93ViViTMV-GPT / HowTo100M✓21.772.2026.9749.29ViViTMV-GPT / HowTo100M✓✓21.262.1426.3648.58ViViTMV-GPT / HowTo100M✓ ✓†21.882.2127.0949.38MSR-VTTViViTMV-GPT / HowTo100M✓47.040.5536.8062.99ViViTMV-GPT / HowTo100M✓✓48.920.6038.6664.00ng.ng.179640架构权重来自 / 在E2E上训练 B-4 C M R-L PT FT0S3D S3D [53] / Kinetics 19.65 1.93 24.47 45.79 S3D MIL-NCE [33] /HowTo100M 20.02 1.96 24.98 46.650表3.在YouCook2上使用不同视觉编码器配置的消融实验。E2E：包括视觉编码器在内的端到端训练。PT：预训练。FT：微调。†在微调期间，在开始时冻结视觉编码器并在收敛后进行端到端微调。0D）而不是编码器输出（MLM-E），由于解码器提供的额外输入上下文化，性能略有改善。添加反向生成（BG）损失可以提高所有指标。此外，我们观察到添加权重衰减（WD）[25]可以带来额外的增益，并且我们在本文的其余部分中报告这种完整设置下的得分。视觉编码器和端到端训练：在表3中，我们首先比较了ViViT[3]编码器和常用的S3D特征[53]。当这两个编码器都在Kinetics上进行训练并固定用于多模态预训练和微调时，尽管S3D的复杂性较高（由于所需的高帧率（30 fps vs. 1fps）），但它们显示出可比较的得分。使用HowTo100M来训练视觉编码器时，我们观察到两种架构都有很大的提升，这是预期的，因为HowTo100M和YouCook2都是教学视频数据集。然而，我们观察到ViViT的增益更大，其中视觉编码器在我们的框架内针对生成损失进行了优化，并且由于ViViT编码器的低复杂性，它与其他组件一起进行了联合训练。这些结果显示了端到端预训练的好处。我们进一步研究了端到端训练对微调的影响。对于YouCook2，当从一开始就直接对网络进行端到端微调时，我们观察到轻微的性能下降（第4行到第5行）。通过在开始时冻结视觉编码器并在收敛后开始端到端训练，我们获得了轻微的增益（第6行）。这些结果表明，我们预训练的视觉编码器已经捕捉到了类似领域中输入的强表示，对于这种情况，端到端微调不那么关键。然而，对于MSR-VTT，我们观察到更显著的增益，因为鉴于更大的领域差距，端到端微调变得至关重要（第7行到第8行）。随机初始化的预训练：我们还研究了模型从零开始学习的能力。我们将模型完全随机初始化或使用预训练的BERT、ViViT和GPT-2权重进行初始化。表4显示了随机0初始化 MV-GPT 预训练 B-4 C M R-L0随机 10.93 64.56 12.88 29.03 随机 � 20.78 2.09 25.83 47.76公共权重 13.25 1.03 17.56 35.48 公共权重 � 21.26 2.14 26.3648.580表4.在YouCook2上进行的消融实验，显示了初始化和预训练的效果。公共权重：使用公共BERT、GPT-2和ViViT权重进行初始化。0方法 PT 部分输入 B-4 C M R-L0VideoBERT [45] E V 4.04 0.49 11.01 27.50 ActBERT [63] E V5.41 0.65 13.30 30.56 MART [26] – V 8.00 0.36 15.90 – AT[14] – T 8.55 1.06 16.93 35.540DPC [43] – V+T 2.76 – 18.08 – AT+Video [14] – V+T 9.011.12 17.77 36.65 DECEMBERT [47] E V+T 11.92 0.58 20.0140.22 VideoAsMT [23] E+D V 5.30 – 13.40 – M-MASS [17]E+D V+T 12.04 1.23 18.32 39.03 UniVL [32] E+D V+T 17.351.81 22.35 46.520MV-GPT（我们的方法）E+D V 16.71 1.53 21.43 41.56MV-GPT（我们的方法）E+D T 16.71 1.56 20.88 40.19MV-GPT（我们的方法）E+D V+T 21.88 2.21 27.09 49.380表5. 在YouCook2上与SOTA的视频字幕比较。0方法 PT 部分输入 B-1 C M R-L0M-MASS [17] E+D V+T 22.37 0.82 11.00 31.40MV-GPT（我们的方法）E+D V+T 37.89 1.04 26.75 34.760表6. 在ViTT上与SOTA的视频字幕比较。0初始化后，我们的方法仍然表现出色（第2行），优于使用公共BERT、GPT-2和ViViT权重初始化的模型（第3行）。值得注意的是，预训练的ViViT权重是通过在完全监督的数据集Kinetics上进行训练获得的。此外，即使完全从头开始预训练，也可以接近使用公共权重和预训练的模型的情况（第4行）。多模态与单模态：在表5中，我们展示了仅使用文本和仅使用视觉输入的结果（对于省略的模态，我们只提供CLS标记）。很明显，两种模态是互补的，当两者结合时性能最佳。此外，为了评估视觉模态的贡献，我们测试了一个仅使用文本输入进行预训练的模型。即使对这个预训练模型进行了两种模态的微调，性能也显著低于预训练的多模态模型（表2中的最后一行）：在所有4个指标上相对下降了25%（例如，在CIDEr中为1.43与2.14相比）。当仅使用文本输入进行微调时，得分进一步下降（例如，在CIDEr中为1.20）。这些结果证实了预训练期间视觉输入的重要性。与现有技术的比较：最后，我们进行了与现有技术的比较ng.eo179650转录：这是一种非常好的调料。所以你喜欢大约25种香料。大约是4茶匙0生成的字幕0GT：倒入辣酱0No-PT：在意面上倒一些酱汁0MV-GPT：向碗里加入sriracha酱0转录：因此，通过考虑自然和培养的各种影响，我们可以更全面地看待心理健康...0生成的字幕0GT：一个穿着棕色西装的男人正在讨论心理健康0No-PT：一个穿着蓝色衬衫的男人正在说话0MV-GPT：一个穿着西装的男人正在谈论心理健康0转录：你可以拿一个像这样的0生成的字幕0GT：一个人正在坐滑雪缆车并对我们说话0No-PT：一个男人正在开摩托车0MV-GPT：一个人正在树林中散步0图3.YouCook2（第一行）和MSR-VTT（最后两行）的定性示例，包括一个失败案例（最后一行）。GT：真实字幕。No-PT：无多模态预训练。MV-GPT：我们在HowTo100M上进行预训练的模型。0方法 PT 部分输入 B-4 C M R-L0OA-BTG [ 60 ] – V 41.40 0.47 28.20 – MGSA [ 9 ] – V 42.400.48 27.60 – POS+CG [ 50 ] – V 42.00 0.49 28.20 61.60POS+VCT [ 16 ] – V 42.30 0.49 29.70 62.80 SAM-SS [ 8 ] – V43.80 0.51 28.90 62.40 ORG-TRL [ 61 ] – V 43.60 0.51 28.8062.80 VNS-GRU [ 7 ] – V 45.30 0.53 29.90 63.400DECEMBERT [ 47 ] E V 45.20 0.52 29.70 64.70 VideoAsMT [23 ] E+D V 41.70 – 28.50 – UniVL [ 32 ] E+D V+T 41.79 0.5028.94 60.780MV-GPT（我们的模型） E+D V+T 48.92 0.60 38.66 64.000表7. 在MSR-VTT上与SOTA的比较视频字幕。0方法 B-4 M0DCEV [ 24 ] 1.60 8.88 DVC [ 28] 1.71 9.31 Bi-SST [ 51 ] –10.89 HACA [ 52 ] 2.71 11.16MWSDEC [ 38 ] 1.46 7.23MDVC [ 19 ] 1.46 7.23 BMT [18 ] 1.99 10.900MV-GPT（我们的模型） 6.84 12.310表8.在ActivityNet-Captions上与SOTA的比较视频字幕和真实动作提案。0MV-GPT在所有四个数据集上与现有方法进行了比较。表5将我们的方法与YouCook2上的最新方法进行了比较，在这个表中，我们的方法表现优于包括在HowTo100M上进行预训练的所有先前工作。在ViTT上（表6），我们的模型相对于M-MASS在B-1和M得分上将最新技术推进了15%（绝对值）。尽管在教学视频之间存在领域差异，但我们的模型在YouCook2和MSR-VTT上的定性结果仍然很好。0尽管MV-GPT是一种生成模型，特别设计用于多模态视频字幕，但我们还发现我们的预训练技术学习到了一个强大的多模态视频编码器，可以轻松地转移到多个视频理解任务。特别是，我们展示了在VideoQA、视频检索和动作分类方面的结果。有关每个任务的详细信息，请参阅补充材料。VideoQA：我们使用MV-GPT作为编码器（不向解码器提供BOS令牌，因此它只对输入令牌进行上下文化处理；有关详细信息，请参阅补充材料），并将平均池化的输入嵌入馈送到两层MLP分类器中04.2. 非生成式视频理解任务0虽然MV-GPT是一种生成模型，特别设计用于多模态视频字幕，但我们还发现我们的预训练技术学习到了一个强大的多模态视频编码器，可以轻松地转移到多个视频理解任务。特别是，我们展示了在VideoQA、视频检索和动作分类方面的结果。有关每个任务的详细信息，请参阅补充材料。VideoQA：我们使用MV-GPT作为编码器（不向解码器提供BOS令牌，因此它只对输入令牌进行上下文化处理；有关详细信息，请参阅补充材料），并将平均池化的输入嵌入馈送到两层MLP分类器中MethodMSRVTT-QAActivityNet-QASSML [2]35.1–MAR-VQA [64]–34.6DECEMBERT [47]37.4–CoMVT [42]39.538.8VQA-T [57]41.538.9MV-GPT (Ours)41.739.1MethodWith ASRR@1R@5R@10MdRUniVL [32]21.249.663.16MMT [12]26.657.169.64AVLnet [40]27.155.666.64SSB [36]30.158.569.33HiT [30]30.760.973.2–No PT3.58.012.1114Bi-NCE31.659.070.23MV-GPT (Ours)33.661.273.63val.179660预测答案。问题简单地与ASR输入连接在一起。根据[ 42 , 57]的标准协议，我们在MSRVTT-QA [ 54 ]和ActivityNet-QA[ 59]上测量了答案预测准确性。表9比较了MV-GPT与在HowTo100M [ 34]上预训练的现有方法的准确性。尽管MV-GPT并非专为此任务设计，但我们的模型在这两个数据集上略优于先前的最先进的VQA-T [ 57]（专为VideoQA设计）。视频检索：检索的常见做法是使用仅具有区分性的损失训练视频-文本联合嵌入，通常采用标准的NCE损失形式[ 13]，其中每个视频剪辑都有一个对应的文本标题。在这里，我们研究了我们的生成预训练损失是否能提高性能。由于每个示例在我们的双向框架中形

下载后可阅读完整内容，剩余1页未读，立即下载