对齐和提示：视频与语言预训练的实体对齐模型

63 浏览量更新于2023-10-25 收藏 19.22MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

0.960.020.470.440.610.3249530对齐和提示：带有实体提示的视频与语言预训练0Dongxu Li 1, 2，Junnan Li 1，Hongdong Li 2，Juan Carlos Niebles 1，Steven C.H. Hoi 101 Salesforce研究，2澳大利亚国立大学0dongxuli1005@gmail.com，{junnan.li,jniebles,shoi}@salesforce.com，hongdong.li@anu.edu.au0摘要0视频与语言预训练在各种下游任务上显示出有希望的改进。大多数先前的方法使用标准的基于Transformer的多模态编码器捕捉跨模态交互，未完全解决单模态视频和文本特征之间的不对齐问题。此外，学习细粒度的视觉-语言对齐通常需要现成的对象检测器提供对象信息，但受检测器的有限词汇表和昂贵的计算成本限制。在本文中，我们提出了对齐和提示：一种新的视频与语言预训练框架（A LPRO），它在稀疏采样的视频帧上操作，并在没有显式对象检测器的情况下实现更有效的跨模态对齐。首先，我们引入了视频-文本对比（VTC）损失，以在实例级别对齐单模态视频-文本特征，从而简化跨模态交互建模。然后，我们提出了一种新颖的视觉对齐预训练任务，即提示实体建模（PEM），它通过实体提示器模块以自监督方式学习视觉区域和文本实体之间的细粒度对齐。最后，我们使用所提出的VTC和PEM损失以及掩码语言建模（MLM）和视频-文本匹配（VTM）的两个标准损失，在大规模网络视频-文本对上预训练视频与语言Transformer模型。所得到的预训练模型在文本-视频检索和视频问答方面取得了最先进的性能，大幅超过先前的工作。实现和预训练模型可在https://github.com/salesforce/ALPRO上获得。01. 引言0视频与语言预训练旨在共同学习在下游任务中有效转移的多模态表示，例如文本-视频检索和视频问答。与图像相比，视频通常在连续帧中包含更多的冗余。这对模型的容量和计算效率都构成了挑战。大多数先前的方法[29，34，36，38，47，56]通过使用离线提取的视频特征来避免昂贵的计算开销。由于视频特征的提取0视频编码器0“一个{ENTITY}的视频。”0随机视频裁剪0人0狗0软实体标签0视频编码器0A L P RO0例如ActBERT0文本0编码器0相似性0女孩0运动0狗0小狗0草地0灌木丛0“一个可爱的女孩走在0公园里的狗。”0文本0编码器0多模态0编码器0对象检测器0提示器0图1.生成区域-实体对齐的监督信号。上方：以前的方法（例如ActBERT[56]）依赖于计算成本高昂且物体类别有限的对象检测器，未充分利用文本数据。下方：A L P RO使用提示器模块生成软实体标签，该模块计算视频裁剪和文本实体提示之间的相似性。A L P RO不需要检测器，同时利用视频-文本对齐生成具有大词汇量的实体标签，从而增强跨模态学习。0然而，当将这些特征提取器应用于不同的目标领域时，由于没有微调，这些方法并不是最优的。相反，最近出现的方法[3,25]从视频中稀疏采样帧，从而实现了端到端的预训练和微调。在这项工作中，考虑到它们在下游任务上的有效性，我们采用了稀疏视频-文本预训练范式。尽管这些方法表现出有希望的性能，但当前的视频-文本预训练模型存在一些局限性。（1）视频和文本特征之间的交互通常是模态独立的。49540使用点积[3, 36, 38, 51]或交叉模态转换器编码器[25, 29,47,56]可以轻松地对其进行编码。然而，来自不同模态的特征通常存在于不同的嵌入空间中。这种不对齐使得直接建模跨模态交互变得不太有效。(2)许多视觉基准的预训练任务[29,47]没有明确地对细粒度的区域视觉信息（例如对象）进行建模，而这对于强调视觉推理的下游任务（例如视频问答）非常重要。虽然有一些尝试使用目标检测器[7,56]生成伪标签作为监督，但它们受到不精确的检测和受限的对象类别数量的影响。例如，在MSCOCO上训练的检测器只能识别不到一百个不同的类别。(3)先前的稀疏预训练模型[25]使用图像编码器对图像-文本对进行训练，这使得它在建模时间信息方面不太有效。在本文中，我们通过一种新的视频与语言预训练框架——Align and Prompt（A L PRO）来解决这些挑战。在架构上，A L PRO首先使用基于Transformer的视频编码器和文本编码器分别对帧和文本进行编码，然后采用多模态编码器来捕捉跨模态交互。A L PRO通过在单模态特征上应用视频-文本对比损失（VTC）来学习实例级视频-文本对齐和细粒度区域-实体对齐。这鼓励配对的视频-文本实例具有相似的表示。为了更好地捕捉细粒度的视觉信息并加强区域-实体对齐，A L PRO引入了一种新的视觉基准预训练任务，称为提示实体建模，我们要求视频-文本模型使用视频和文本输入来预测随机选择的视频裁剪中出现的实体（见图1）。为了解决实体注释的不可用性，我们设计了一个独立的实体提示器模块，用于生成可靠的伪标签。具体而言，实体提示器由两个单模态编码器组成，分别用于提取视频和文本特征。我们首先仅使用VTC损失训练实体提示器，然后在预训练过程中，我们将视频裁剪和文本提示（例如“一个{实体}的视频。”）输入到提示器中，其中每个实体来自预训练语料库中频繁出现的名词。然后，我们计算实体提示和视频裁剪之间的归一化相似度作为伪标签来监督预训练。我们的主要贡献是：（1）我们引入了A L PRO，这是第一个从稀疏视频帧和文本中学习有效的跨模态表示的通用视频-语言预训练方法。（2）我们引入了视频-文本对比损失，以更好地对齐实例级单模态表示，从而简化跨模态交互的建模。（3）我们提出了一种新颖的视觉基准预训练任务，即提示实体建模，使模型能够捕捉细粒度的区域-实体对齐。（4）我们证明了A L PRO在视频-文本检索和视频问答方面的有效性。A L PRO在先前最先进的方法上取得了显著的改进，例如在MSRVTT上的微调和零样本文本-视频检索任务中，召回分数分别提高了3.0%和5.4%。0训练任务，即提示实体建模，使模型能够捕捉细粒度的区域-实体对齐。（4）我们证明了A L PRO在视频-文本检索和视频问答方面的有效性。A L PRO在先前最先进的方法上取得了显著的改进，例如在MSRVTT上的微调和零样本文本-视频检索任务中，召回分数分别提高了3.0%和5.4%。02. 相关工作0密集与稀疏视频表示。视频中的连续帧通常包含视觉上相似的信息。这种冗余性引发了一个研究问题，即如何在不过多计算开销的情况下学习有效的视频和语言表示。大多数关于文本-视频检索[13, 31, 42, 52, 54]和视频问答[11, 14, 24,26]的先前方法都使用预训练的视觉骨干，并为每个帧密集地提取视频特征，但是这些特征通常是在没有文本访问权限的图像[22]和/或视频数据集[20]上预训练的，因此对于视频和语言任务来说效果较差。此外，这些方法中的视频特征提取器没有在目标任务数据上进行微调，使得特征难以适应不同的领域。相反，最近的方法ClipBERT [25]和FiT[3]通过仅对少量稀疏采样的帧进行端到端微调，展示了更有效的结果。然而，ClipBERT是使用图像-文本数据进行预训练的，因此在整合帧间信息方面效果较差，而FiT是一种检索特定的架构，不自然地推广到视频问答任务。在这方面，我们的A L - PRO是第一个同时解决这两个任务的稀疏预训练架构，同时展示了在视频-文本对上进行预训练的好处。视频和语言预训练。除了传统的预训练任务，如掩码语言建模（MLM）[9, 25, 29, 34, 47, 56]和视频-文本匹配（VTM）[29,34]，还有一些方法[34, 36,51]在离线提取的视觉特征上应用对比学习。没有对视觉骨干进行调整，它们对齐跨模态特征的能力仍然有限。A L PRO同时学习单模态和多模态编码器，从而减轻了它们之间的断裂。为了设计有效的视觉引导预训练任务，VideoBERT[47]预测视频特征的向量量化的质心。这种无监督的量化本身就存在噪声，同时忽略了文本线索，这限制了它在学习跨模态交互方面的能力。ActBERT[56]使用检测器获取对象信息。除了计算效率低下，预训练在图像上的检测器通常具有有限的类别和在视频上受损的检测结果。相比之下，我们提出的提示实体建模任务是无需检测器的。通过利用实例级的视频-文本对齐，我们可以生成可靠的实体标签。……Frame #1Frame #𝑁!…𝑡!"#VTCVTMMLMPEMFrame #1Frame #𝑁!…𝑣!"#𝑡!"#$𝑡!"#%𝑡!"#&…0.470.440.01[CLS]49550时空视频编码器文本编码器0[CLS] 线性投影0多模态视频文本编码器0� !"# 时间融合0“[CLS]一个可爱的女孩在公园里遛狗。”0时空视频编码器0线性投影0文本编码器0狗小狗猫…0标准化相似度得分0“[CLS] 一段狗的视频。”“[CLS] 一段小狗的视频。”“[CLS] 一段猫的视频。” …0图2. A L PRO预训练框架。左：视频-语言预训练模型包含时空视频编码器、文本编码器和多模态编码器，所有这些编码器都基于Transformer。除了两个经典目标掩码语言建模（MLM）和视频-文本匹配（VTM），我们引入了视频-文本对比损失（VTC）来学习实例级的视频-文本对齐，以及提示实体建模（PEM）来学习细粒度的区域-实体对齐。右：prompter生成软实体标签，作为PEM的监督。prompter由冻结的单模态编码器组成，这些编码器是通过VTC进行训练的。在预训练期间，它生成一个随机选择的视频裁剪与一组实例化了实体名称的文本提示之间的相似度得分。0使用大词汇量的伪标签，可以更有效地学习区域-实体对齐。零样本视觉识别与提示。长期以来，一直在努力利用文本描述来学习视觉识别模型。这些包括早期的工作[4, 12,23]，使用文本来学习图像的属性；[39, 40,46]，将图像映射到预训练的文本嵌入空间；和视觉n-gram[27]，给定图像输入预测文本n-gram。最近，CLIP[43]使用视觉类别的标签文本实例化提示模板。然后通过计算每个图像-提示对之间的相似性来预测类别。这启发了我们对实体提示器的设计。由于实体提示器是使用整个视频-文本语料库进行训练的，在预训练期间，它可以为每个个体视频-文本对提供不可用于文本描述的额外实体信息，从而导致更好的实体感知视频表示。03. A L P RO 的视频-语言预训练0在本节中，我们首先介绍A L P RO的重要组成模块，在第3.1节中介绍。然后我们在第3.2节中介绍预训练目标，重点介绍了提出的视频-文本对比（VTC）损失和提示实体建模（PEM）预训练任务。我们在第3.3节中介绍了预训练数据集。最后，在第3.4节中描述了重要的实现细节。03.1. A L P RO 的架构0图2概述了A L P RO 的架构。特别地，A L P RO由两个主要模块组成，一个是视频-语言预训练模型，一个是提示器。提示器0用于生成软实体标签，以监督视频-语言模型的预训练。两个模块都包含自己的视频编码器和文本编码器，用于提取视频和文本输入的特征。预训练模型还有一个额外的多模态编码器，用于进一步捕捉两种模态之间的交互。各组件的详细信息如下。视觉编码器。我们使用一个12层的TimeSformer224[5]来提取视频特征，其中224是输入帧的高度和宽度。对于从每个输入视频中稀疏采样的N v帧，TimeSformer首先将每个帧划分为K个不重叠的块，然后将其展平并馈送到线性投影层，以产生一系列块标记。可学习的位置嵌入也添加到块标记中。然后，TimeSformer分别沿时间和空间维度应用自注意力，以便按顺序在每个维度上对帧特征进行处理，得到每帧特征 ˜ v ∈ R N v × K × d，其中 d是特征维度。沿时间维度应用一个时间融合层（即均值池化），将 ˜ v沿时间维度聚合为视频特征。作为视觉编码器的输出，我们获得一系列视觉嵌入：{v cls , v 1 , ..., v K}，其中 v i ∈ R d，v cls 是视频 [CLS]标记的嵌入。文本编码器。我们使用一个6层的transformer[48]模型来表示文本标记。给定一个由 N t个标记组成的输入文本描述，文本编码器输出一个嵌入序列{t cls , t 1 , ..., t N t} ，其中 t i ∈ R d ，t cls 是文本 [CLS]标记的嵌入。与视频编码器类似，我们还为文本标记添加了位置嵌入。多模态编码器。我们使用一个6层的transformer来建模视频和文本特征之间的交互。49560从两个单模态编码器中获得。由于位置嵌入已经注入到每个单模态编码器中，我们直接连接视频和文本特征来喂养多模态变换器。输出是多模态嵌入 { e cls , e 1 , ..., e N v + N t} ，其中 e i ∈ R d。为了方便表示，我们省略了视频的多模态嵌入 [CLS]标记，因为它在预训练损失中没有使用。03.2. A L P RO的预训练0我们使用四个目标对ALPRO进行预训练，包括两个经典目标，即掩码语言建模（MLM）和视频-文本匹配（VTM），如[25,29,47,56]所述。在本节中，我们重点介绍ALPRO中的新技术，即视频-文本对比（VTC）损失和提示实体建模（PEM）损失，同时在第3.2.3节中简要概述MLM和VTM，有关详细信息，请参阅[9,25,47]。VTC和PEM的动机是加强视频和文本之间的跨模态对齐。VTC强调捕捉视频-文本对的实例级对齐，而PEM鼓励模型将本地视频区域与文本实体对齐。接下来，我们按顺序介绍这两个预训练目标。03.2.1 对比视频-文本对齐0现有的稀疏视频-语言预训练模型使用点积[3,36,38,51]或完全依赖于变压器编码器[25,29,47,56]来建模跨模态交互。然而，由于视频和文本特征存在于不同的嵌入空间中，这些方法导致对齐效果较差。为此，我们提出了一种视频-文本对比（VTC）损失，以在将它们发送到多模态编码器之前对单模态编码器中的特征进行对齐。具体而言，给定视频和文本[CLS]标记的嵌入，我们优化视频V和文本T之间的相似性函数：0s(V, T) = gv(vcls) ∙ gt(tcls)，(1)0使成对的视频和文本描述具有更高的相似性分数，其中gv(∙)和gt(∙)是将[CLS]嵌入转换为常见的归一化低维（例如256维）空间的线性投影。根据[17,43]，对比损失将匹配的对视为正样本，将批次中可以形成的所有其他对视为负样本。对于每个输入的视频-文本对�Vi，Ti�，视频-文本对比损失由两个对称项组成，一个用于视频到文本的分类：0L v2t = -log exp(s(Vi, Ti)/τ) ΣBj=1 exp(s(Vi,Tj)/τ)，(2)0另一个用于文本到视频分类的：0L t2v = -log exp(s(Ti, Vi)/τ) ΣBj=1 exp(s(Ti,Vj)/τ)，(3)0其中τ是可学习的温度参数，B是批大小。视频-文本对比损失定义为Lvtc = 102(L v2t + L t2v)。03.2.2 提示实体建模0尽管掩码语言建模已经证明了其在学习基于标记的文本表示方面的有效性[9,32]，但设计其基于视觉的对应任务仍然是一个挑战。因此，视觉推理能力的有限性对下游任务的先前工作产生了不利影响，特别是那些需要区域级视觉信息（如对象）的任务。这对现有的视频-语言预训练模型[29,36,38,47]尤其是一个问题，它们通常在池化后仅保留粗粒度的空间信息，从而丢失了细粒度的视觉线索。一个例外是ActBERT[56]，它尝试使用现成的对象检测器获取区域特征。除了效率低下外，使用图像训练的检测器往往会在视频输入上产生妥协的检测结果。此外，检测器通常使用受限的对象类别进行训练（例如少于一百个[30]），这是由于扩大繁琐注释的成本过高。我们引入提示实体建模（PEM），这是一种新的基于视觉的预训练任务，它提高了模型捕捉本地区域信息和加强视频区域与文本实体之间的跨模态对齐的能力。具体而言，PEM需要一个提示器模块，该模块生成软伪标签，用于识别随机视频裁剪中出现的实体。然后，预训练模型被要求根据伪标签预测视频裁剪中的实体类别。提示器用于在给定视频裁剪的情况下生成实体类别的伪标签，除了可能具有噪声对齐的网络视频-文本对之外，没有其他密集的注释。为此，我们受到CLIP[43]的启发，该模型从噪声对中学习图像-文本对齐。具体而言，我们首先在视频-文本对上使用VTC损失对提示器进行预训练，该提示器由两个单模态编码器组成，然后冻结其参数。提示器维护一个预定的M个文本提示的列表。每个文本提示都是一个模板的实例，例如“一个{实体}的视频。”，其中实体是预训练语料库中的常见名词，例如狗，草，天空等。在提示器预训练完成后，它计算每个文本提示的[CLS]嵌入作为{t1cls，t2cls，...，tMcls}。为了生成实体标签，给定一个视频输入，我们首先获取一个随机视频裁剪ˆV（例如，采样帧上的相同空间区域）及其来自提示器的[CLS]嵌入ˆvcls。然后，提示器计算视频裁剪的实体伪标签qˆV∈RM，作为ˆvcls与所有的M49570提示嵌入{ t m cls } M m =1：0q ˆ V ,m = exp( s ( ˆ V , T m ) /τ ) ÷ M m =1exp( s ( ˆ V , T m ) /τ ) (4)0在视频语言模型的预训练过程中，我们对与视频裁剪的空间位置相对应的多模态编码器的嵌入进行均值池化，表示为e ˆV ∈ Rd。我们使用分类器（例如MLP）计算softmax归一化的实体预测p ˆ V。然后，提示实体建模损失定义为p ˆ V和q ˆV之间的交叉熵：0L pem = −0m =1 q ˆ V ,m ∙ log p ˆ V ,m(5)0提示实体建模涵盖了各种不同的实体，同时不需要额外的人工注释，为跨模态学习生成基于视觉的区域监督提供了高效可扩展的解决方案。03.2.3 总体预训练目标0我们还采用了被广泛采用的掩码语言建模（MLM）损失Lmlm和视频文本匹配Lvtm，考虑到它们的有效性。MLM目标利用视频和上下文文本来预测掩码文本标记。我们以15%的概率随机屏蔽输入标记，并用特殊标记[MASK]替换它们。视频文本匹配是一个二分类任务，用于预测视频和文本描述是否相匹配。我们使用多模态[CLS]标记ecls作为视频文本对的联合表示，并使用交叉熵损失训练模型。负样本是从批次中的非平行视频文本对中生成的。根据[28]，我们采用对比硬负采样来找到更具信息量的批内负样本用于VTM。A L P RO的总体预训练目标是：0L = L vtc + L pem + L mlm + L vtm (6)03.3. 预训练数据集0我们使用网络数据集WebVid-2M[3]对模型进行预训练，该数据集包含250万个视频文本对。此外，根据ClipBERT [25]和FiT[3]的建议，使用图像对进行预训练可以改善视频的空间表示，因此我们将CC-3M[45]包含在我们的预训练语料库中。在预训练过程中，我们复制CC-3M中的图像以生成静态视频。总共有550万个视频文本对，比通常采用的HowTo100M [29, 36,56]少一个数量级，与[3, 25]中使用的数据集大小相当。03.4. 实现细节0我们使用PyTorch [41]实现了A L PRO。具体而言，我们使用在ImageNet-21k[10]上预训练的ViT-B/16权重来初始化TimeSformer的空间和时间注意力块。文本编码器使用BERT基础模型[9]的前6层进行初始化，多模态编码器使用BERT基础模型的最后6层权重进行初始化。我们使用16个NVIDIA A100GPU，以256的批量大小对A L PRO进行了10万次迭代的预训练，大约相当于10个时代。我们使用AdamW[33]优化器，权重衰减为0.001。学习率首先预热到1e-4，然后按线性衰减的方式进行。由于视频通常具有不同的宽高比，我们首先将它们重新缩放为224×224。对于每个视频，我们随机采样4帧作为视觉编码器的输入，并保持它们之间的顺序不变。对于PEM，我们使用POS标注器1，并保留前1000个最常见的名词作为实体名称。我们随机选择占原始空间面积的30%至50%的视频裁剪作为提示器的输入。如果最可能的实体的归一化相似度得分小于0.2，则丢弃伪标签。04. 实验0我们在四个常用数据集上评估A L PRO在文本-视频检索和视频问答任务上的性能，这些数据集在第4.1节中介绍。评估的目的有三个。首先，我们在第4.2节中展示了主要技术贡献（即视频-文本对比损失和提示实体建模）的有效性。然后，在第4.3节和第4.4节中，我们将A L PRO的性能与之前的方法进行比较，包括任务特定的和预训练的架构，分别在检索和问答任务上。最后，在第4.5节中，我们展示了设计选择的消融结果和分析模型行为。04.1.下游任务和数据集0文本-视频检索。（i）MSRVTT[52]包含10K个视频和200K个文本标题。我们遵循常见的协议[25，29，38，54，56]，使用7k个视频进行训练，并在1k个测试集上报告结果[54]。（ii）DiDeMo[2]包含来自Flickr的10k个视频和40k个文本描述。我们按照[25，31，34]的方法评估段落到视频的检索，其中每个视频的句子描述被连接在一起作为单个文本查询。我们不使用时间定位的真实提议，以确保与先前的工作进行公平比较。视频问答。我们专注于开放式视频问答任务。（i）MSVD-QA[50]是基于MSVD[6]的视频和文本描述构建的。MSVD-QA数据集总共有1,970个视频和50k个问答对，其中包含2,423个答案候选项。（ii）MSRVTT-QA[50]是基于MSRVTT的视频和标题构建的，其中包含10k个视频和案候选项。01 https://github.com/explosion/spaCy49580预训练任务 MSRVTT检索 DiDeMo检索 MSVD-QA MSRVTT-QA R1 ↑ R5 ↑ R10 ↑ MdR ↓ R1 ↑ R5 ↑ R10 ↑ MdR ↓ Acc. ↑ Acc. ↑0w/o预训练16.5 42.8 57.9 7 9.5 29.1 42.5 14 41.5 39.6 MLM + VTM 28.5 53.0 66.8 5 29.8 57.7 69.7 4 43.3 40.9MLM + VTM + PEM 30.3 56.7 67.8 4 31.0 61.8 73.5 3 46.3 41.8 MLM + VTM + VTC 32.8 59.2 70.3 3 36.8 64.777.4 2 45.5 41.9 MLM + VTM + PEM + VTC 33.9 60.7 73.2 3 35.9 67.5 78.8 3 45.9 42.10表1.对四个下游数据集上提出的预训练目标的评估。MLM：掩码语言建模损失。VTM：视频-文本匹配损失。PEM：提示实体建模损失。VTC：视频-文本对比损失。R@k表示k个检索尝试的召回率（%）；MdR表示检索到的视频的中位数排名。我们使用acc.表示准确率。01.帽子（0.07）2.枪（0.07）3.鞋子（0.05）4.海报（0.05）5.卡通（0.04）0丢弃0一只鸽子从车库的屋顶飞起。01.瑜伽（0.69）2.姿势（0.11）3.锻炼（0.08）4.练习（0.04）5.健身（0.04）0前5个伪标签0穿着运动服的年轻健康女性在室内做伸展蹲下运动。0前5个伪标签01.修道院（0.25）2.建筑（0.18）3.塔楼（0.16）4.建筑物（0.06）5.遗产（0.04）0日本富士山春天的忠恕塔。0前5个伪标签01.山顶（0.84）2.山（0.09）3.峰（0.02）4.城镇（0.01）5.污染（0.01）0日本富士山春天的忠恕塔。0图3.提示器生成的伪标签示例（括号中为分数）。高亮区域被输入到提示器中。我们的方法生成了一系列常见的实体类别，这些类别通常不包含在目标检测器中，例如塔楼、山顶、瑜伽等。此外，实体标签并不总是出现在文本描述中，作为语料库级别的监督来源。左下角：不包含实体的随机裁剪。因此，提示器生成的伪标签具有较低的相似性。在预训练期间，如果最可能的实体得分低于0.2，我们会丢弃一个伪标签。右侧：为同一视频的不同裁剪生成的标签。050k个问题-答案对，有2,423个答案候选项。（ii）MSRVTT-QA[50]是基于MSRVTT的视频和标题构建的，其中包含10k个视频和243k个开放式问题以及1.5k个答案候选项。0微调设置。在下游任务中，A L PRO允许使用原始视频帧作为输入对视频骨干进行端到端微调。在微调过程中，我们随机采样每个视频的N帧，其中N= 8用于检索任务，N =16用于问答任务，更多消融实验见第4.4节。TimeSformer中的时间位置嵌入被插值以适应不同数量的输入帧。在推理过程中，我们均匀采样帧以确保可重现性。为了保持预训练和微调设置的一致性，我们在将视频输入模型之前将所有视频调整为224×224的大小。尽管这不保持原始的宽高比，但我们观察到性能没有明显下降，因为我们的预训练数据集包含具有各种宽高比的视频。对于检索的微调，我们在预训练期间重用视频-文本匹配头，并优化VTC和VTM损失的总和。在推理过程中，我们从VTM头的输出中获得相似性分数。对于问答任务，我们在多模态[CLS]标记上添加了一个简单的MLP进行分类，并优化预测和真实答案标签之间的传统交叉熵损失。在推理过程中，预测结果是作为答案的输出。0最高概率。所有微调实验在8个NVIDIA A100GPU上进行，完成时间根据数据集的不同需要一到五个小时。更多的训练细节可以在附录中找到。04.2. 对提出的方法进行评估0我们首先在表1中评估我们的主要技术贡献的影响（即视频-文本对比损失和提示实体建模）。与仅使用MLM和VTM进行预训练相比，PEM和VTC都显著提高了所有数据集的性能。对于检索任务来说，VTC尤其有用。原因是VTC损失明确地最大化了正面视频-文本对之间的实例级相似性，这与检索的目标非常一致。我们注意到PEM显著提高了视频问答的性能，特别是在MSVD-QA上，因为它能够学习更精细的区域特征。虽然启用PEM和VTC损失对大多数数据集具有互补效果，但我们还观察到它在MSVD-QA上导致了稍微较差的准确性。我们观察到MSVD-QA包含更多需要区域级知识的问题，包括对象类别（如面团、剑）、动物物种（如野兔、老鹰）和场景（如河流、悬崖），这些可以使用PEM很好地建模，使VTC的影响变得微不足道。相反，49590方法 PT数据集 R1 ↑ R5 ↑ R10 ↑ MdR ↓0微调0JSFusion [54] - 10.2 31.2 43.2 13 HT100M [38]HT（100M）14.9 40.2 52.8 9 ActBERT [56]HT（100M）16.3 42.8 56.9 10 NoiseEst. [1]HT（100M）17.4 41.6 53.6 8 HERO [29]0ClipBERT [25] COCO + VG（5.6M）22.0 46.8 59.9 60AVLNet [24] HT（100M）27.1 55.6 66.6 4 VideoClip[51] HT（100M）30.9 55.4 66.8 -0SupportSet [42] HT（100M）30.1 58.5 69.3 30FiT [3] Web2M + CC3M（5.5M）31.0 59.5 70.5 30A L P RO Web2M + CC3M（5.5M）33.9 60.7 73.2 30零样本0HT100M [38] HT（100M）7.5 21.2 29.6 38 ActBERT[56] HT（100M）8.6 23.4 33.1 36 SupportSet [42]HT（100M）8.7 23.0 31.1 31 MIL-NCE [36]HT（100M）9.9 24.0 32.4 29.5 VideoClip [51]0FiT [3] Web2M + CC3M（5.5M）18.7 39.5 51.6 100A L P RO Web2M + CC3M（5.5M）24.1 44.7 55.4 80表2.使用微调和零样本设置在MSRVTT上与现有文本到视频检索方法进行比较。我们遵循常见的分区，使用7k个训练视频。使用9k个训练视频的方法被标记为灰色。两个分区协议共享相同的1k个测试视频。R@k表示检索努力下的召回率（%）；MdR表示检索到的视频的中位数排名。预训练数据集包括HowTo100M（HT）[38]，MS-COCO（COCO）[30]，VisualGenome（VG）[21]，WebVid2M（Web2M）[3]和ConceptualCaptions（CC3M）[45]。0MSRVTT-QA涉及更粗粒度的视觉信息，如活动。因此，在MSRVTT-QA上同时使用PEM和VTC相互补充。伪标签示例。在图3中，我们展示了由提示器模块生成的伪标签的示例。我们的方法生成了更多种类的实体类别，超出了典型的检测注释中的对象类别。这在下游任务需要大量词汇的情况下特别有益，例如开放式视频问答。4.3. 视频-文本检索评估0在表2和表3中，我们分别使用微调和零样本文本到视频检索方法在MSRVTT和DiDeMo数据集上将A L PRO与现有方法进行比较。A L PRO在不需要人工编写文本的情况下，利用数量级更少的视频-文本对超过了以往方法。在这两个数据集上，A L PRO在R10得分方面获得了超过6%的提升。请注意，我们没有与使用在400M上预训练的CLIP[43]强大编码器的工作[35]进行比较。0方法 PT数据集 R1 ↑ R5 ↑ R10 ↑ MdR ↓0微调0S2VT [49] - 11.9 33.6 - 13 FSE [55] - 13.9 36.0 - 11 CE[31] - 16.1 41.1 - 8 MoEE [37] - 16.1 41.2 55.2 80ClipBERT [25] COCO + VG（5.6M）20.4 48.0 60.8 60TT-CE [8] - 21.6 48.6 62.9 60FiT [3] Web2M + CC3M（5.5M）31.0 59.8 72.4 30A L P RO Web2M + CC3M（5.5M）35.9 67.5 78.8 30零样本0VideoCLIP [51] HT（100M）16.6 46.9 - -0FiT [3] Web2M + CC3M（5.5M）21.1 46.0 56.2 70A L P RO Web2M + CC3M（5.5M）23.8 47.3 57.9 60表3.在DiDeMo上使用微调和零样本设置与现有的文本-视频检索方法进行比较。R@k表示k次检索的召回率（%）；MdR表示检索到的视频的中位数排名。0方法 PT数据集 MSRVTT MSVD0E-SA [50] - 29.3 27.6 ST-TP [16] - 30.9 31.3 AMU[50] - 32.5 32.0 Co-mem [14] - 32.0 31.7 HME[11] - 33.0 33.7 LAGCN [15] - - 34.3 HGA [19] -35.5 34.7 QUEST [18] - 34.6 36.1 HCRN [24] - 35.636.10ClipBERT [25] COCO + VG（5.6M）37.4 -0SSML [1] HT（100M）35.1 35.1 CoMVT [44]HT（100M）39.5 42.60VQA-T [53] HTVQA（69M）41.5 46.30A L P RO Web2M + CC3M（5.5M）42.1 45.90表4.在MSRVTT-QA和MSVD-QA上与现有方法的比较，以top-1准确率（%）为指标。VQA-T [53]使用6900万QA领域特定数据对其模型进行预训练，而A LP RO仅使用了来自网络的数量级较少的视频-文本对。0公开不可访问的图像-文本对。然而，我们注意到，尽管存在这种权重重用，Clip4Clip [35]与FiT[3]具有相似的架构和目标，而后者使用了适应的TimeSformer作为骨干网络。在这方面，当使用相同数量的数据进行预训练时，A L PRO始终以显著的优势超过FiT，显示出其对Clip4Clip的优势。R1R10MdRR1R10MdRAcc.2431.069.6421.454.4844.5833.973.2324.155.4845.41634.272.6324.755.0745.949600MSRVTT-FT MSRVTT-ZS MSVD-QA0w/o ens. 32.7 73.1 3 22.6 52.3 9 45.0 with ens. 33.9 73.2 324.1 55.4 8 45.90表5. A L PRO在MSVD-QA和MSRVTT文本-视频检索中，使用提示集成（ens.）和不使用提示集成（w/o ens.）的效果，使用微调（FT）和零样本（ZS）设置。0#ent. MSRVTT-FT MSRVTT-ZS MSVD-QA0� 32.8 70.3 3 22.6 53.0 9 45.5 500 33.0 71.9 3 22.7 54.1 845.6 1000 33.9 73.2 3 24.1 55.4 8 45.9 2000 34.7 72.4 322.4 52.8 9 45.30表6.PEM中实体数量的影响。我们报告了在MSVD-QA和MSRVTT文本-视频检索中使用微调（FT）和零样本（ZS）设置的结果。第一行是使用MLM+VTM+VTC（即无PEM）训练的模型。04.4. 视频问答评估0表4比较了A L PRO与现有方法在开放式视频问答数据集MSRVTT-QA和MSVD-QA上的表现。大多数竞争对手都有针对QA的特定架构，而A L PRO的架构对于其他视频-语言任务（如检索）是通用的。我们与利用6900万QA特定领域数据进行预训练的VQA-T[53]取得了相当的结果。相比之下，A L PRO仅使用了来自网络的550万视频-文本对，没有领域知识。A L PRO在准确性上超过其他方法，提高了2.6%和3.3%。这证明了A L P RO具有竞争力的视觉推理能力。04.5. 消融和分析0提示设计和集成。与[43]类似，我们观察到设计和集成多个模板的提示是重要的。在没有太多工程努力的情况下，我们使用了一个初步的提示模板集，例如“一个{ENTITY}的视频”，“一个{ENTITY}的镜头”用于视频输入；“一张{ENTITY}的照片”和“一张{ENTITY}的图片”用于图像输入。总共，我们为视频和图像输入设计了12个模板。我们通过对具有相同实体的提示实例化的tcls嵌入求平均来构建集成。提示集成的效果在表5中显示。尽管我们的工程努力很少（我们只尝试了一组模板），但提示集成展示了生成高质量伪标签的重要性。我们将来的工作是探索更多的提示工程策略。实体数量的影响。我们在表6中研究了PEM中实体数量的影响。与使用MLM+VTM+VTC预训练的模型相比，添加PEM在频繁出现的实体上带来了一致的改进。0#frms MSRVTT-FT MSRVTT-ZS MSVD-QA0R1 ↑ R10 ↑ MdR ↓ R1 ↑ R10 ↑ MdR ↓ Acc. ↑0表7.帧数对MSRVTT文本-视频检索和MSVD-QA的影响。更多的帧数通常会带来更好的性能，使用8-16帧可以在指标和计算开销之间取得良好的平衡。0这表明PEM学习更好的区域-实体对齐的基本原理在其有效性中起着关键作用。然而，添加更多的低频实体会在生成实体伪标签时引入噪声

下载后可阅读完整内容，剩余1页未读，立即下载