多模态融合Transformer用于视频检索和定位任务

161 浏览量更新于2023-10-25 收藏 12.43MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

200200Everything at Once – Multi-modal Fusion Transformer for Video Retrieval0Nina Shvetsova 1 Brian Chen 2 Andrew Rouditchenko 3 Samuel Thomas 4 , 50Brian Kingsbury 4 , 5 Rogerio Feris 4 , 5 David Harwath 6 James Glass 3 Hilde Kuehne 1 , 501 Goethe University Frankfurt, 2 Columbia University, 3 MIT CSAIL 4 IBM Research AI, 5 MIT-IBM Watson AI Lab, 6 UT Austin0shvetsov@uni-frankfurt.de0摘要0最近，从视频数据中进行多模态学习受到了越来越多的关注，因为它可以在没有人工注释的情况下训练语义有意义的嵌入，实现零样本检索和动作定位等任务。在这项工作中，我们提出了一种多模态、模态不可知的融合Transformer，它学习在多个模态（如视频、音频和文本）之间交换信息，并将它们集成到一个融合表示中，形成一个联合的多模态嵌入空间。我们建议使用组合损失同时对所有内容进行训练-任何输入模态的组合，包括单个模态和模态对，明确地排除任何附加项，如位置或模态编码。在测试时，生成的模型可以处理和融合任意数量的输入模态。此外，Transformer的隐式属性允许处理不同长度的输入。为了评估所提出的方法，我们在大规模的HowTo100M数据集上训练模型，并在四个具有挑战性的基准数据集上评估所得到的嵌入空间，在零样本视频检索和零样本视频动作定位方面取得了最先进的结果。我们的代码也可供参考。01. 引言0人类通过各种方式捕捉他们的世界，结合视觉、声音、触觉等不同的感官输入模态来理解他们的环境。视频数据通过将视觉和音频信息作为两个连贯且互补的信号进行组合，以近似这种类型的输入，并可以通过文本描述进一步增强。因此，最近的研究开始探索如何利用这些不同模态的信息从这种内容中学习有意义的表示。这样的系统可以用于表示学习，例如在视频数据上学习多模态嵌入空间[1,2]，其中一个模态的输入可以与文本等其他模态的输入匹配，从而实现最近邻基于零样本分类或视频检索[20,37,44]等任务。本文的工作重点是后者问题，即学习有意义的多模态嵌入空间。目前在这个领域的方法通常通过将输入投影到一个公共空间并应用对比损失来学习不同模态的编码。这些方法可以基于经典的神经网络元素来学习这些编码，即卷积神经网络骨干和非线性投影[37]，多实例学习[35]或聚类[12]。最近，还提出了基于Transformer的方法[1,10,20,32]。为了生成最终的嵌入空间，它们使用多个独立的单模态自注意力Transformer块[10,21,32]，或者一个适用于所有模态的单一Transformer模型[20]，或者一个模态不可知的单一Transformer[1]。在最后一种方法中，模态仍然独立处理，并逐个转发以实现单模态嵌入。但是到目前为止，这些Transformer都不允许根据给定的输入数量进行适应。01 https://github.com/ninatu/everything at once0两个针脚0两个0音频0文本0视频0视频标记0音频标记0文本0标记0视频-文本0文本0音频-文本0音频0视频-音频0视频0组合损失0- 对比损失0视频0融合Transformer和投影0视频-音频0音频0音频-0文本0视频-0文本0文本0图1.自监督学习多模态嵌入空间的提出方法概述。融合Transformer能够处理任意输入模态的组合。在内部，Transformer允许每个模态相互关注。所提出的架构使用组合对比损失进行训练，考虑每种可能的输入模态组合。0例如文本可以与一个或多个其他模态（如视频和音频）匹配，从而实现最近邻基于零样本分类或视频检索[20,37,44]等任务。本文的工作重点是后者问题，即学习有意义的多模态嵌入空间。目前在这个领域的方法通常通过将输入投影到一个公共空间并应用对比损失来学习不同模态的编码。这些方法可以基于经典的神经网络元素来学习这些编码，即卷积神经网络骨干和非线性投影[37]，多实例学习[35]或聚类[12]。最近，还提出了基于Transformer的方法[1,10,20,32]。为了生成最终的嵌入空间，它们使用多个独立的单模态自注意力Transformer块[10,21,32]，或者一个适用于所有模态的单一Transformer模型[20]，或者一个模态不可知的单一Transformer[1]。在最后一种方法中，模态仍然独立处理，并逐个转发以实现单模态嵌入。但是到目前为止，这些Transformer都不允许根据给定的输入数量进行适应。2. Related Work200210模态。虽然已经提出了处理多个输入模态的模态不可知变压器，如PerceiverIO[26]，但它们被构建用于学习可以覆盖不同领域中多个任务的潜在空间。与我们的工作相比，这种情况下的潜在空间主要用于将多个输入和任务压缩到一个模型中。在这项工作中，我们提出了一种利用自注意力进行多模态学习的方法，它可以同时处理任意数量的模态，并允许模态相互关注。图1展示了我们架构的高级概述。来自一个或多个模态的输入标记通过融合变压器传递，该变压器关注与组合输入相关的特征，然后投影到一个联合的多模态嵌入空间。我们设计和训练融合变压器来涵盖多模态视频学习的三个方面：首先，它应该允许模态相互关注并学习多模态相关性；其次，它应该是模态不可知的，并处理任何可能的模态输入组合；第三，由于不同的模态和样本的长度可能会有所不同，它应该能够处理任意长度的输入。为了使融合变压器能够处理所有这些任务，我们遵循变压器块中通用自注意力的思想，并共享所有标记的键、查询和值权重，不考虑它们的输入模态。通过这种方式，自注意力可以以一种通用的方式学习从单个模态以及任何模态组合中的哪些输入标记进行关注。为了训练模型，我们提出了一种组合损失函数，它考虑了所有可能和可用的输入组合之间的对比损失。例如，在视觉、文本和音频的情况下，损失基于每个模态嵌入以及基于视觉-文本、音频-文本和文本-音频两两组合，如图1所示。因此，最终的模型能够在测试时融合任意数量的输入模态。与其他通用自注意力方法相比，我们省略了任何元信息编码，如位置或模态嵌入。这进一步使我们能够处理不同长度的任何输入，因为我们不再受训练时定义的最大输入大小的限制。请注意，虽然我们将这个变压器称为融合变压器，但我们并不提出一种新的变压器架构，而是将其称为一种以使融合变得可能的方式训练的变压器，而不需要对自注意力机制进行任何更改。因此，最终的模型可以用于任何类型的输入，单个模态或多个模态的组合，以及任何输入长度。我们通过在HowTo100M数据集[37]上训练模型，并在YouCook2[55]、MSR-VTT[52]、CrossTask[58]和MiningYouTube[29]四个下游数据集上测试其零样本文本-视频检索和步骤动作定位来评估所提出的方法。我们的结果表明，融合变压器与组合损失函数的组合改进了性能，并取得了新的最先进的结果。我们总结本文的贡献如下：0•我们提出了一种组合对比损失，考虑了训练时所有可能的输入模态组合。0•我们提出了一种多模态融合变压器，可以处理任意组合和任意长度的模态输入，并根据跨模态信息关注相关特征。02. 相关工作0•我们展示了使用这样的多模态融合变压器作为中间处理步骤可以显著提高多模态嵌入空间学习的性能。0多模态学习。从多个模态中学习可以被看作是机器学习研究的一个组成部分，包括视觉语言学习[42,54]，视觉音频学习[5-7, 13, 23, 47, 50]，零样本学习[25,34]，跨模态生成[33, 43,56]，以及多模态多任务学习[27]。视频自然地结合了多个模态，同时允许从大规模数据中学习，而这些数据在合理的时间内无法进行注释。在这个背景下，Miech等人[37]提出了HowTo100M数据集，其中包含了带有音频和相应字幕的YouTube教学视频，这些字幕是通过自动语音识别（ASR）获得的文本描述。由于这些数据可以被认为比经过策划的视觉-文本数据集更加嘈杂，Amrani等人[4]提出了一种通过多模态密度估计进行多模态数据的噪声估计的方法。Miech等人[35]提出了MIL-NCE，将噪声对比估计的思想与多实例学习的形式化相结合。Alwassel等人[3]仅使用音频和视频信息，并提出利用无监督聚类作为跨模态的监督信号。虽然这些工作[3, 4, 35,37]只使用两个模态来训练他们的模型，但其他研究则专注于同时学习视觉、音频和文本的问题[2, 8, 12, 19,44]。作为最早的研究之一，Aytar等人[8]提出了一种在图像-文本和图像-音频对上训练的架构，可以连接文本和音频模态。之后，Alayrac等人[2]采用了不同模态组合的不同嵌入空间的思想，并提出了多模态通用网络。Rouditchenko等人[44]提出了一个共享嵌入空间的方法，将所有三个模态映射到一个联合空间中。200220最近，Chen等人通过附加聚类和重构损失对其进行了扩展[12]。基于自注意力和transformer的多模态学习。已经探索了基于自注意力和transformer的架构来学习多模态视频数据。Cheng等人提出了一个共同注意力模块，用于学习音频和视频样本之间的对应关系。Luo等人借鉴了这个想法，但是提出了类似于用于视觉-语言任务的Uniter[14]的联合跨模态编码的视频-文本对。与此相比，Bain等人更关注视频主干中如何处理时间和空间信息的问题。因此，他们分别在两个独立的transformer主干上处理视频和文本两种模态，并在主干之上只添加了一个线性映射层。在这个背景下，最近，Nagrani等人提出了一种用于有效音频-视觉融合的多模态瓶颈transformer，在监督设置下进行训练。一种实际上使用了所有三种模态的基于transformer的方法，因此可以被认为是最接近我们提出的工作的方法，由Akbari等人提出[1]。在这里，单个主干transformer分别应用于任何模态，但具有共享的注意力。对于训练，模型遵循[2]的思路，首先计算视频-音频的匹配，然后计算视频-文本的匹配。因此，它以成对的方式融合这些模态，可以与我们提出的损失函数的一个子集进行比较。其他方法也利用了多模态transformer学习中的时间因素。Gabeur等人使用专家和时间嵌入的组合来训练多模态transformer，而Wang等人提出了基于多模态专家的局部-全局时间对齐来指导训练。简单地使用预训练的视觉-语言transformer模型的想法也被Lou等人探索过，他们使用预训练的CLIP模型[42]作为主干，顶部是基于transformer的相似性编码器，用于视觉和文本主干，并在视频检索等任务上取得了良好的结果。由于大多数基于transformer的方法使用各种各样的数据集进行主干预训练，有时这些数据集不公开，或者需要资源，使得重复实验变得困难，因此很难直接比较不同架构和预训练集的性能。因此，我们决定遵循大多数工作中使用的设置，并依赖于预提取的特征，然后通过提出的架构进行处理，以与先前的工作进行直接比较。03. 方法0我们的目标是学习一个将单一模态或一组模态投影到联合嵌入空间的投影函数，以便语义上相似的输入彼此接近，例如视频场景的文本描述的投影应该接近视频-音频的投影。0这个场景的表示。在接下来的内容中，我们考虑三种模态：视频、音频和文本（对应ASR字幕或语言叙述）；但是这种方法可以扩展到更多的模态。03.1. 问题陈述0给定一组来自数据分布的文本-视频-音频三元组{ ( t i , v i , a i ) } N i =1 ∈ ( T × V × A )N的N个视频剪辑，我们正在学习一个投影f(∙, ∙,∙)，它可以接受最多三个输入：文本t，视频v和音频a，并产生输入的d维嵌入表示。为了简化表示法，我们将省略缺失的模态，因此f(t, v)将代表投影T × V → R d。0并表示文本t和视频v的联合嵌入。我们的目标是最大化语义相关输入f(t)，f(v)，f(a)，f(t, a)，f(t, v)，f(v,a)之间的点积相似性（例如，当t，v和a来自同一个视频剪辑时），并尽量减小其他情况。03.2. 模型架构03.2.1 令牌创建0如图2所示，我们的架构从模态特定的骨干网络提取的特征开始。我们通过可学习的模态特定投影和模态特定归一化层[9]将一组提取的特征向量转换为令牌空间。因此，对于输入三元组（t i，v i，a i），我们获得三组令牌：从文本t i获得[τ i1，...，τ i k]，从视频v i获得[ν i 1，...，ν i m]，从音频ai获得[α i 1，...，α in]。由于令牌数量可能会有所变化，例如，取决于视频剪辑的长度，我们通过填充和使用注意力掩码来规范化每个批次的输入长度，以允许批处理处理[48]。实际上，为了可比性，我们遵循[37，44]的协议，在固定长度的视频剪辑上训练模型。从技术上讲，如果需要，该模型可以处理变长的剪辑，也可以处理不同模态的变长剪辑，无论是在训练还是测试时。03.2.2 无位置嵌入0与其他基于Transformer的方法[1, 10, 14, 30,46]不同，我们省略了对令牌添加任何位置或类型嵌入信息。这样做的原因有三个。关于类型嵌入，可以假设令牌已经根据它们由不同骨干网络生成的事实编码了这些信息，因此每个令牌都带有自己的“指纹”。在结构一致的数据（如句子）的情况下，已经证明位置信息是有益的。但在多模态视频学习的情况下，训练时从较大的视频序列中随机采样剪辑，通常不考虑镜头边界或语音停顿。因此，我们不希望在剪辑始终从动作开始的意义上存在一致的时间模式。因此，我们不添加位置嵌入。 concat &projectlinear layer x M Attention Heads Averaging Averaging Averaging Averaging One Attention Head queries keys values weights N x Transformer Blocks 200230两个上的两个线缝0音频0LN0骨干网络0令牌投影0文本0视频0输入令牌输出令牌多模态融合0Transformer多模态共享嵌入空间0LN0LN0多头0注意力0MLP0q0( M = 64)0组合损失0- 对比0损失0LN0骨干网络0令牌投影0LN0骨干网络0令牌投影0k v0视频令牌0音频令牌0文本令牌0项目。项目。项目。0图2.所提出方法的示意图。在这里，我们以绿色矩形标记的视频-音频对为例，展示了不同模态的令牌在所有可能的组合中的处理方式。输入令牌通过融合Transformer层一起前向传播，并由各自的权重进行注意力计算，这些权重基于不同模态输入令牌的键和查询的组合。多个头的输出结果然后被连接并投影到最终的令牌空间，然后用于将每个模态分别投影到联合嵌入空间中。在训练过程中，我们将模型应用六次，得到对应于文本、视频、音频、文本-视频、文本-音频和视频-音频模态的六个嵌入，用于计算组合损失。0省略位置嵌入可以避免训练过程中添加噪音。在推理时，避免位置嵌入可以处理比训练中使用的序列更长的序列。03.2.3 多模态融合Transformer0由于我们的目标是学习任意数量和组合的输入模态的表示，我们希望投影 f学习如何融合来自多个模态的信息，以增强联合嵌入表示。为此，我们提出了一种多模态、模态不可知的变压器，其中输入令牌的键、查询和值以及所有进一步的转换都是独立于模态计算的。为了创建我们的多模态融合变压器，我们采用了常规的变压器块 [ 48]。每个变压器块由一个多头自注意力和一个多层感知机（MLP）组成，在它们之前有两个LayerNorm（LN）变换以及两个残差连接，如图 2所示。请注意，与其他方法相比，不同之处不在于架构本身，而在于它的训练方式以及如果特定训练此任务的话，最终的融合实际上可以由一个普通的变压器块学习得到。因此，融合变压器指的是变压器块的使用方式，而不是一种新的架构。我们使用组合输入来训练系统。即，我们将其应用于来自所有可能的模态组合的联合输入令牌集合：单个模态 - t，v ，a 和对 - ( t, v ) ，( v, a ) ，( t, a )，允许来自一个模态的令牌关注其他模态的令牌。通过这种方式，我们可以从多个模态中获得一个融合表示：0组合 ( t, v ) 将导致文本和视频模态的融合表示，分别表示为tv ，va - 视频和音频，以及 ta -文本和音频。请注意，在四个模态的情况下，我们会在训练过程中考虑所有三元组 ( t, v, a )的组合。随着添加更多模态，组合的数量将增加到可能无法考虑所有配置的程度。在这种情况下，训练过程中可以使用随机模态丢弃，就像 AVSlowfast [ 50 ] 或 Perceiver [ 26 ]中所做的那样。由于我们希望融合变压器对模态不加以区分，所以在每次训练迭代中，我们将其应用六次以获得每个样本 i 的六个表示：t i ，v i ，a i ，t i v i ，v i a i ，t i a i。为了获得每个表示，我们创建了一个令牌的联合列表，例如对于 v i a i ：[ ν i 1 , ..., ν i m , α i 1 , ..., α i n]。我们将变压器应用于此输入，并获得输出令牌，例如对于v i a i ：[ˆ ν va i 1 , ..., ˆ ν va i m ˆ α va i 1 , ..., ˆ α va i n]（其中上标 va 表示令牌同时关注 v 和 a模态），每个令牌都使用来自其他令牌的信息进行关注。请注意，与 ViT 模型 [ 18 ]不同的是，我们不会在前面添加一个可学习的 [ cls ]令牌，该令牌通常用作所有令牌的联合表示。在我们的消融研究中，我们证明了这对模型是有益的（第 4.4 节）。03.2.4 投影到共享嵌入空间0通过生成的输出令牌，我们为每个模态创建最终的嵌入。对于每个训练样本，我们得到六组输出令牌和相应的嵌入。以创建 v i a i 的表示为例。我们将输出令牌 [ˆ ν va i 1 , ..., ˆ νva i m ˆ α va i 1 , ..., ˆ α va i n ] 按照模态分组：[ˆ ν va i 1, ..., ˆ ν va i m ] 和 [ˆ α va i 1 , ..., ˆ α va i n]，然后对它们进行平均：ˆ ν va i = � m j =1 ˆ ν va i j ， ˆ αva i =f(vi, ai) = norm(norm(gv(ˆνvai )) + norm(ga(ˆαvai ))). (1)L =λt vLt v + λv aLv a + λt aLt a++ λt vaLt va + λv taLv ta + λa tvLa tv,(2)L =X,Y⊂M;X∩Y=∅λXYLXY.(3)NCE(x, y) = − log�exp(x⊤y/τ)Bi=1 exp(xi⊤yi/τ)�.(4)200240� n j =1 ˆ α va i j。因此，我们获得了此计算中包含的每个模态的向量表示。但是，由于即使在增强了其他模态的情况下，模态之间仍然非常不同，我们通过可学习的模态特定投影 g t ，g v 或 g a将它们投影到共享的嵌入空间中，然后将它们归一化，并组合成最终的嵌入向量：0归一化（“norm”）用于对齐向量的大小。在计算点积相似度时，我们只考虑向量之间的角度。03.3. 组合损失0对比损失可以用于学习表示，使得语义上相似的输入被映射到彼此附近。与其他方法[1, 2, 12,44]不同，这些方法通过训练三个成对的单模态对比损失L tv（( t, v )之间）、L t a（( t, a )之间）和L v a（( v, a)之间）来学习如何将模态组合在一起，我们强制令标记在模态之间交换信息，同时启用额外的对比损失：L t va（( t, va)之间）、L v ta（( v, ta )之间）和L a tv（( a, tv)之间），并引入我们的组合损失：0其中，λ m ˆ m表示( m, ˆ m)的加权系数。我们的组合损失考虑了所有可能的和可用的模态组合，并可以推广到任何一组模态 M = { m 1 , ..., m N}，如下所示：0其中，L XY是子集X和Y的融合表示之间的对比损失，λXY是加权系数。为了计算所有组合的对比损失，我们使用带有温度τ和批量大小B的噪声对比估计[40]：0通过结合处理所有可能的模态组合和使用所提出的组合损失来训练系统，我们得到了一个多模态融合变压器，它学会了如何将一个模态的标记关注到所有其他模态的标记上。04. 实验评估04.1. 实验设置0如果没有另外说明，我们在所有实验和消融研究中都使用以下实验设置。0主干网络。为了确保可比性，我们遵循先前工作[4, 12, 37,44]的设置，具体如下：作为视觉主干网络，我们使用在Imagenet [16]上预训练的ResNet-152 [24]和在Kinetics[11]上预训练的ResNeXt-101[22]，分别每秒计算一个2D特征（2048维向量）和1.5个3D特征（2048维）。我们使用最近邻方法对2D特征进行时间上采样，使其具有与3D特征相同数量的特征，并将它们连接起来得到4096维向量。作为文本主干网络，我们使用GoogleNews预训练的Word2vec模型[38]，每个单词使用300维的嵌入。这些主干网络在训练过程中是固定的，不进行微调。数据采样。我们使用一个包含224个视频的批次，并随机采样每个视频的十个8秒的片段。如果采样的片段包含旁白（所有片段的95%），我们使用ASR时间戳选择片段边界。为了解开HowTo100M中非常高的文本-音频相关性，并避免文本仅仅被学习为音频旁白，我们将音频片段相对于视频和文本边界随机移动4秒。投影。根据[12, 37,44]，我们使用门控线性投影[36]将特征投影到共享的标记空间，以及将结果标记投影到共享的嵌入空间。我们将共享的标记空间的维度设置为4096，共享的嵌入空间的维度设置为6144。变压器架构。作为多模态融合变压器，我们使用一个隐藏大小为4096、64个头和一个MLP大小为4096的变压器块。损失计算。我们在NCE中使用温度为0.05，并在计算点积之前对向量进行归一化。由于不是每个视频片段都具有三种模态，我们仅在非空嵌入上计算NCE。根据[2]的建议，在方程2中为文本-视觉损失设置较大的权重对于在HowTo100M上的训练是有益的：λ t v = 1，λ v a = λ t a = λ t va = λv ta = λ a tv =0.1。优化。我们使用Adam优化器[28]以学习率5e-5和指数衰减0.9训练所有模型，共训练15个时期。04.2. 数据集、任务和指标0预训练数据集。我们在HowTo100M数据集[ 37]上训练我们的模型，该数据集包含超过100万个带有自动生成的文本叙述的教学视频。可以假设文本叙述是嘈杂的，不总是描述视频场景[ 37]。零样本文本到视频检索。我们使用MSR-VTT [ 52]和YouCook2 [ 55]数据集来评估我们模型的零样本文本到视频检索能力。YouCook2数据集包含来自YouTube的带有人工注释的烹饪视频剪辑（约2-200秒）。对于评估-FrozenInTime [10]tvt → vCC+WV+COCOTransformer✓✓----24.746.957.27CLIP4Clip [4]tvt → vWiT + HT100MCLIP✓✓----32.057.066.94200250方法训练检索训练视觉可训练 BB YouCook2 MSR-VTT0修改后的数据 BB t v a R@1 ↑ R@5 ↑ R@10 ↑ MedR ↓ R@1 ↑ R@5 ↑ R@10 ↑ MedR ↓0ActBERT [ 57 ] tv t → v HT100M Res3D+Faster R-CNN 9.6 26.7 38.0 19 8.6 23.4 33.1 36 Support Set [ 41 ] tv t → v HT100M R152 + R(2+1)D-34 � - - - - 8.7 23.0 31.1 31 HT100M [ 37 ]tv t → v HT100M R152 + RX101 6.1 17.3 24.8 46 7.5 21.2 29.6 38 NoiseEstim. [ 4 ] tv t → v HT100M R152 + RX101 - - - - 8.4 22.0 30.4 36 我们的 tv t → v HT100M R152 + RX10111.2 28.5 39.7 19 9.6 26.1 36.1 23 我们的 tva t → v HT100M R152 + RX101 � 10.7 27.9 38.9 19 10.3 24.6 35.3 250MMT [ 20 ] tva t → va HT100M 7 experts � - - - - - 14.4 - 66 AVLNet [ 44 ] tva t → v + a HT100M R152+RX101 � 19.9 36.1 44.3 16 8.3 19.2 27.4 47 MCN [ 12 ] tva t → v + aHT100M R152+RX101 � 18.1 35.5 45.2 - 10.5 25.2 33.8 - 我们的 tva t → va HT100M R152+RX101 � 20.0 40.7 51.3 10 8.9 23.8 31.8 300具有更强视觉骨干的模型:0MMV [ 2 ] tva t → v HT100M+AudioSet TSM-50x2 � � 11.7 33.4 45.4 13 9.3 23.0 31.1 38 VATT [ 12 ] tva t → v AudioSet Transformer � � � - - 45.5 13 - - 29.7 49 MIL-NCE [ 35 ] tv t → vHT100M S3D � 15.1 38.0 51.2 10 9.9 24.0 32.4 29.5 我们的 tva t → v HT100M S3D † � 19.8 42.9 55.1 8 9.9 24.0 32.6 280我们的 tva t → va HT100M S3D † � 24.6 48.3 60.4 6 9.3 22.9 31.2 350表1. YouCook2/MSR-VTT上的零样本文本到视频检索结果。在“Retrieval”列中: v +a表示对视频表示进行视频和音频嵌入的平均，va-我们的联合视频-音频嵌入，在嵌入计算过程中，各模态相互关注，t和v是单模态嵌入。S3D†是由MIL-NCE [ 35]预训练的S3D。我们包括CLIP4CLIP和FrozenInTime是为了完整性，但由于不同的预训练设置，不能直接进行比较。TrainMod.=训练模态，BB=骨干网络，CC=Conceptual Captions [ 45 ]，WV=WedVid-2M [ 10 ]。0方法训练检索预训练视觉可训练 BB YouCook2 MSR-VTT0修改后的数据 BB t v a R@1 ↑ R@5 ↑ R@10 ↑ MedR ↓ R@1 ↑ R@5 ↑ R@10 ↑ MedR ↓0ActBERT [ 57 ] tv t → v HT100M Res3D+Faster R-CNN - - - - 16.3 42.8 56.9 10 HT100M [ 37 ] tv t → v HT100M R152 + RX101 8.2 24.5 35.3 24 14.9 40.2 52.8 9 NoiseEstim. [ 4 ] tv t→ v HT100M R152 + RX101 - - - - 17.4 41.6 53.6 8 我们的 tv t → v HT100M R152 + RX101 13.7 35.3 48.4 12 21.0 49.3 60.1 5 我们的 tva t → v HT100M R152 + RX101 � 12.7 33.9 45.813 20.4 47.7 59.3 60AVLNet [ 44 ] tva t → v + a HT100M R152 + RX101 � 30.2 55.5 66.5 4 22.5 50.5 64.1 5 MCN [ 12 ] tva t → v + a HT100M R152 + RX101 � 28.2 53.0 63.7 5 - - - - 我们的 tva t → vaHT100M R152 + RX101 � 32.1 59.1 70.9 3 23.7 52.1 63.7 40表2. 在微调设置下的YouCook2/MSR-VTT文本到视频检索。在“Retrieval”列中: v +a表示对视频表示进行视频和音频嵌入的平均，va-我们的联合视频-音频嵌入，在嵌入计算过程中，各模态相互关注，t和v是单模态嵌入。Train Mod.=训练模态，BB=骨干网络。0在评估中，我们最多使用视频的前48秒，因为大多数视频都比这个时间短。MSR-VTT数据集包含各种主题的人工注释视频片段（约10-30秒），并提供带有自然语言句子的字幕。根据[12, 35, 37,44]的方法，在MSR-VTT上评估我们的模型时，我们使用测试剪辑的1k集[53]，在YouCook2上，我们使用3,350个验证剪辑[37]。为了进行检索，我们使用融合的va表示计算文本查询t与数据集中所有视频之间的相似性，通过点积。我们报告标准的召回率指标R@1、R@5、R@10和中位数排名（MedR）。0微调后的文本到视频检索。我们还评估了在下游任务上微调模型的检索性能。根据[44]的方法，我们使用9,586个训练剪辑对YouCook2数据集进行微调，并使用6,783个包含音频的训练剪辑（在[37]提出的7,000个剪辑中）对MSR-VTT模型进行微调。0零样本步骤动作定位。我们进一步在两个数据集上评估了零样本步骤动作定位的模型。0数据集：CrossTask [58]和Mining YouTube[29]。CrossTask数据集包含18个不同任务的2.7k个指导性视频。MiningYouTube数据集提供了250个带有有序动作步骤列表的测试烹饪视频。为了进行步骤定位，我们使用滑动窗口计算当前视频片段与任务的所有步骤名称之间的相似性。根据[58]中的推理过程，我们通过运行动态规划来找到基于相似性和给定步骤顺序的最佳标签。我们报告所有任务的平均召回率，如[58]中定义。对于这两个数据集，我们使用3秒的滑动窗口和1秒的步长，并使用融合的va表示预测中心时间戳的动作。04.3. 与最先进方法的比较0零样本文本到视频检索。首先，我们在YouCook2上评估了学习到的多模态表示在零样本文本到视频检索任务中的性能。CrossTask [58]tvR152 + I3D31.6-HT100M [37]tvR152 + RX10133.615.0MIL-NCE [35]tv✓I3D36.4-MIL-NCE [35]tv✓S3D40.5-ActBERT [57]tvRes3D+Faster R-CNN41.4-UniVL [31]tv✓S3D42.0-200260根据表1，我们的方法在YouCook2和MSR-VTT数据集上取得了最先进的结果。在YouCook2数据集上，我们的方法在所有基线方法上都取得了最好的结果，包括使用可训练的视觉和文本骨干或更强的视觉骨干以及不训练视觉骨干的方法。特别地，我们的方法将使用相同的视觉、文本和音频骨干并使用三种模态进行训练的AVLnet [44]和MCN[12]基线的R@10从45.2%提高到51.3%。然而，在MSR-VTT数据集上，融合视频和音频模态并不是很有益处，最佳性能是在仅考虑文本到视频检索并排除音频信息时达到的。我们将这种行为归因于HowTo100M和MSR-VTT数据集之间的领域转移，因为HowTo100M数据集的音频主要包含语音，文本是语音的转录，而在MSR-VTT中，音频与文本描述可能关联性较小。这个假设得到了支持，因为在MSR-VTT上表现最好的方法根本不使用HowTo100M进行训练，比如FrozenInTime [10]或CLIP4CLIP[32]。值得注意的是，我们可以通过使用在HowTo100M上由MIL-NCE [35]预训练的更强的骨干（如S3D[51]）进一步加强我们在YouCook2上的模型，使R@10超过60%。再次，这些结果表明，对HowTo100M的更好适应性并不一定会转化为在MSR-VTT上更好的结果。在补充材料中，我们还额外进行了使用更强的CLIP[42]骨干的实验。在微调后的文本到视频检索中，我们在表2中进一步评估了检索性能。请注意，由于针对MSR-VTT数据集提出了几个实验分割，我们仅报告与我们使用相同训练分割的基线方法，以进行公平比较。结果表明，所提出的方法在两个数据集上明显优于先前的工作。此外，在对MSR-VTT进行微调后，模型通过利用音频通道大大提高了性能。我们还在CrossTask和MiningYouTube（MYT）数据集上对零样本步骤动作定位进行了评估。作为视频表示，我们再次使用融合的视频和音频模态。这些结果表明，所提出的方法在两个数据集上明显优于可直接比较的MCN方法，以及使用可训练的I3D视觉骨干的CrossTask [58]、HT100M[37]和MIL-NCE[35]等全监督基线。此外，使用更强的S3D骨干，我们的模型在MIL-NCE上也取得了改进，并且与具有可训练骨干的UniVL和具有来自Faster-R-CNN的额外区域特征的ActBERT相当。04.4. 消融研究0融合组件的影响。我们首先回答以下问题：所提出的组件——Transformer层，0Tr. Tr. BB 视觉召回 ↑ 方法模态 v 骨干 CrossTask MYT0MCN [ 12 ] tva R152 + RX101 35.1 18.1 我们的 tva R152 + RX101 39.3 19.40具有更强视觉骨干的模型：0我们的 tva S3D † 41.1 19.70表3.在CrossTask/MiningYouTube(MYT)上的零样本动作定位性能。S3D † 是由MIL-NCE [ 35 ]预训练的S3D。Tr Mod=训练模态，Tr.BB v=视频模态的可训练骨干。0配置检索 YouCook2 MSR-VTT R@5 ↑ R@10 ↑ R@5 ↑ R@10 ↑01) 无Transformer t → v+a 32.7 41.4 24.1 33.7 2) 单模态Transformer每个模态 t → v+a 39.950.7 25.3 33.9 3) 融合Transformer t → v+a 39.5 50.2 23.8 32.7 4) 融合Transformer t → va36.6 47.0 22.6 32.1 5) 融合Transformer+组合损失 t → v+a 38.2 49.2 23.3 33.2 6)融合Transformer+组合损失（我们的方法） t → va 40.7 51.3 23.8 31.80表4.评估所提出

下载后可阅读完整内容，剩余1页未读，立即下载