文本-视频检索中的跨模态注意力模型

102 浏览量更新于2023-10-25 收藏 1.56MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

5006一个穿黑西装的男人正在和一群人开会。一位教皇乘坐敞篷车旅行，祝福人民。X-Pool：用于文本-视频检索的Satya Krishna Gorti1*No eülVouitsis1，2*马君伟1*Keyvan Golestan1 Maksims Gogovs1 Animesh Garg2，3，4 Guangwei Yu11Layer 6 AI2多伦多大学3Vector Institute4 NVIDIA摘要在文本视频检索中，目标是学习文本和视频之间的跨模态相似度函数，该函数将相关的文本视频对排名高于不相关的文本视频对。然而，视频固有地表达比文本宽得多的信息范围。相反，文本通常捕获整个视频的子区域，并且在语义上与视频中的某些帧最相似因此，对于给定的文本，检索模型应该关注文本一名女记者提供了有关外交关系和悲剧的最新消息。一辆公共汽车在路上行驶，在一场大挖掘中摔倒了。伊森。然而，大多数现有的作品聚合整个视频，而不直接考虑文本。常见的文本不可知的聚集方案包括在帧上的均值池或自关注，但这些可能会编码给定文本中未描述的误导性视觉信息为了解决这个问题，我们提出了一个跨模态的注意力模型称为X池之间的原因，一个文本和视频的帧。我们的核心机制是一个缩放的点积注意力的文本参加其最语义相似的框架。然后，我们生成一个聚合的视频表示condi- tioned上的文本的关注权重的帧。我们在三个基准数据集MSR- VTT，MSVD和LSMDC上评估了我们的方法，在Recall@1中实现了高达12%的相对改进的新的最先进的因此，我们的研究结果强调了联合文本-视频推理的重要性，以提取重要的视觉线索，根据文本。完整的代码和演示可以在layer 6ai-labs.github.io/xpool/上找到。1. 介绍TikTok、YouTube和Netflix等视频内容平台的出现使视频在世界各地的大规模推广成为可能。检索与所提供的基于文本的搜索查询在语义上最相似的视频的能力使我们能够快速找到相关信息并理解大量的视频数据。*作者对这项工作的贡献同样大。图1.从MSR-VTT数据集逐字获取的单个视频及其字幕的联合文本和视觉表示的插图。由于视频捕获的内容比每个单独的文本更多，因此无论输入文本如何都聚合整个视频可能会产生误导。文本视频检索的任务是解决这个问题的一种方法，其中的目标是一个模型来学习文本和视频之间的相似性函数。为了计算两种模态之间的相似性，常见的技术是首先将文本和视频嵌入到联合潜在空间中，然后应用距离度量，例如文本和视频嵌入之间的余弦相似性[5，12，22]。然而，这两种模式之间存在重要的差异，使得这种直接比较具有挑战性。视频固有地表达比文本宽得多的信息范围，因此文本通常不能完全捕获视频的全部内容。相反，文本在语义上与视频的子区域最相似，表示为帧的子集。根据给定的文本，语义上最相似的帧会有所不同，因此多个同样有效的文本可以匹配特定的视频。例如，在图1中，我们显示了来自MSR-VTT数据集[40]的样本视频的帧画面描绘了国际新闻的各种场景，表达了不同的视觉内容。此外，我们显示了与此视频相关的多个字幕，并观察到每个字幕最适合不同的视频帧，但似乎与其他视频帧无关。在这个例子中，我们希望同一个视频被重新播放。5007∈T不V∈ V对于这些查询中的任何一个，即使相关内容被限制到视频的子区域，也是如此。基于这一观察，我们希望检索模型关注最相关的视频子区域在检索过程中将给定的文本。因此，模型应该直接在文本和视频帧之间进行推理，以提取每个文本中描述的最相关信息。然而，大多数现有的作品不应用直接的跨模态推理，而是利用视频的整个内容，例如通过均值池或自我注意[5，12，26，30]。通过独立于给定文本对视频进行编码，模型可能会对文本中未描述的多余甚至分散注意力的视觉信息进行编码，这可能会降低检索性能。为了解决这个问题，我们设计了一个跨模态注意力模型，我们称之为X-Pool，以允许文本和视频帧之间的联合推理。与以前的作品，池的整个帧的视频，我们的模型提供了灵活性的文本参加其语义上最相似的帧，然后生成一个聚合的视频representation，条件是这些帧。我们的主要贡献可概括如下：(i)我们经验表明，通过一个概念证明，文本-T-条件视频池允许一个模型的原因，最相关的视频帧到一个给定的文本，这超过形式的基线，使用文本不可知的视频池;（ii）我们提出了一个跨模态的注意力模型，扩展我们的概念证明与参数能力的文本参加其语义上最相似的视频帧聚合，我们称之为X池。X-Pool在MSR-VTT [40]，MSVD [8]和LSMDC [34]的流行基准数据集上获得了最先进的结果;（iii）我们证明了X-Pool对内容多样性增加的视频的鲁棒性我们展示了文本不可知的池方法是如何更敏感，这样的视频相比，我们的文本2. 相关工作联合语言图像理解。联合语言图像模型是多模态学习的一种形式[6]，旨在理解和关联文本和图像模态。文本图像理解中的方法，如[9，13，17-最近，CLIP[33]，ALIGN [13]，DeCLIP [20]和ALBEF [17]采用单峰编码器来学习联合潜在空间，该联合潜在空间经由对比损失来匹配相关的文本-图像对。我们的目标是从预先训练的联合文本图像模型引导，并将其扩展到联合文本视频模型，文本视频检索的任务。文本视频检索。文本视频检索的原型方法是通过预先训练的语言专家，并且通常是针对各种任务和模式预先训练的视频专家的组合[29][10]所有的作品都是这样的。使用预先训练的专家的动机源于文本视频检索中使用的数据集的小规模性质一些作品也受益于在大规模文本视频数据集上预训练自己的模型[5，30，46]或通过文本图像预训练[15，29]。其中，ActBERT [46]和ClipBERT [15]都是单流模型，它们通过类似BERT的架构联合嵌入文本-视频对，以实现早期的跨模态融合。然而，这些作品不允许直接推理的最语义相似的视频子区域到一个给定的文本。最近，CLIP 4Clip [26]和Straight-CLIP [32]的作品使用在大规模文本图像数据集上预训练的CLIP [33]的联合语言视觉模型即使是以零拍摄方式使用CLIP的琐碎使用也优于上述大多数近期作品[32]，突出了CLIP的丰富联合文本-图像理解如何扩展到视频。CLIP4Clip [26]提出了几种视频聚合方案，包括均值池、自注意和多模态Transformer，但都不允许文本与其最相关的视频子区域直接匹配，这激发了我们的跨模态注意模型。跨模态注意力已经在以前的相关工作中进行了探索，例如[9，15，1742、45、46]。我们设计了一个跨模态的注意力机制的文本视频检索的任务，表现出显着的改进，比以前的方法。3. 问题陈述在文本视频检索中，目标是让模型学习文本t和视频v之间的标量相似性函数s（t，v）。我们希望将较高的相似性分配给相关的文本视频对，并将较低的相似性分配给不相关的文本视频对。我们定义了两个检索任务，文本到视频检索表示为t2v和视频到文本检索表示为v2t。在t2v中，我们给出了一个查询文本t和一个视频索引集.目标是根据视频与查询文本的相似性对所有视频v进行类似地，在v2t中，我们给出了一个查询视频v和一个文本索引集。目标是将所有文本排序为根据它们与查询视频的相似性来确定查询视频。在这两项任务中，我们都在假设只有索引集是提前知道的。问题的输入是视频v和文本t。我们定义视频v∈RF×3×H×W为F个采样图像帧的时间序列。也就是说，v=[v1，v2，···，vF]T，其中vf是分辨率H×W的第f个图像帧。我们定义5008vv∈∈vvv···∈将文本t作为标记化的单词的序列。4. 方法在本节中，我们逐步介绍了推动我们最终模型X-Pool的见解和方法。我们首先在第4.1节中描述了如何使用预训练的联合文本-图像模型来匹配文本和图像，我们将其扩展到匹配文本和视频的模型的重要组成部分。然后，我们在第4.2节中解释了将视频聚合到文本不可知嵌入中的缺点，并在第4.3节中提出了一个替代框架，该框架以给定文本为条件聚合帧。然后，我们在第4.4节中介绍了我们的X-Pool模型，这是一个跨模态注意力模型，可以在文本和视频帧之间进行联合推理。我们的模型学习使用语义上最相似的帧来聚合视频。4.1. 扩展联合文本-图像模型联合文本图像模型的自举。联合预训练的文本图像模型已经证明了匹配语义相似的文本和图像的能力[9，13，17，20，25，33]。我们可以利用这些模型的现有文本-图像推理来引导联合文本-视频模型。这使我们能够学习语言与视频的互动与大大减少视频数据和提供在训练过程中提供更高效的计算解决方案，同时受益于对预训练的联合文本-图像模型的丰富的跨模态理解。一般来说，从图像模型引导视频模型的想法源于首先理解图像以便理解视频的重要性，如[7]所示。CLIP作为骨干。我们从CLIP [33]引导，由于其强大的下游性能，它的简单性，并且更客观地与最近的作品进行比较，这些作品也将CLIP作为骨干[26，32]，尽管其他预训练的文本图像模型可能是合适的骨干候选者。为了从CLIP引导文本视频检索，我们首先将文本和单个视频帧嵌入到其联合潜在空间中，然后将帧嵌入池化以获得视频嵌入[32]。由于从预训练的CLIP模型中提取的现有信息包含丰富的文本-图像语义，因此我们使用CLIP作为主干来学习新的联合潜在空间来匹配文本和视频，而不仅仅是图像。更确切地说，给定文本t和视频帧vf作为输入，CLIP在联合潜在空间中输出文本嵌入ct∈RD和帧嵌入cf∈RD：ct=（t）（1）cf=φ（vf）（2）其中，φ是CLIP通过针对帧中的每个帧计算等式（2），视频v ，我们得到一个帧嵌入序列 Cv=[c1 ， c2 ，cF]TRF×D。计算文本和视频嵌入。作为男人-因此，我们希望将给定的文本和视频嵌入到联合空间中以计算相似性。也就是说，我们要计算一个嵌入zt的文本研发和视频嵌入zvRD. 文本嵌入直接作为CLIP的输出.另一方面，我们通过使用时间聚合函数ρ聚合C中的帧嵌入来计算视频嵌入：zt=ct（3）zv=ρ（Cv）（4）4.2. 差距：文本不可知池在大多数现有的作品中，聚合函数ρ并不直接考虑输入文本，而是纯粹是视频帧的函数，例如通过均值池，自注意力或LSTM [1，5，12，26，28，30，32]。虽然将时间聚合函数定义为对文本不可知形成了简单的基线，但是这种方法存在重要的缺点。视频本质上比文本更具表现力，因此在文本中捕获的信息通常不能完全捕获整个视频的信息。相反，文本在语义上与我们定义为帧子集的视频的某些子区域最相似，如图1所示。因此，常见的文本不可知聚合方案，池整个视频，如平均池和自我注意可能编码虚假信息，这是没有描述的输入文本。我们注意到，当我们考虑在其视觉内容中表现出显著多样性的视频时，这种效应会加剧[21]，我们将其称为内容多样性。为了进行分级，很自然地会发现具有场景转换的视频，例如当演员从室内环境移动到室外环境时，突然的场景切换（如电影中），关键主体的遮挡由于这是许多视频“在野外”的固有属性直观地说，任何文本无关的池化方法在此设置下都将失败，因为它聚合了来自视频的所有场景的信息，而忽略了用于检索的输入文本，如我们在第5.3节中经验性地展示的。4.3. 关键洞察：文本条件池因此，我们注意到，重要的是不将文本与视频的整个内容相匹配，而是与那些在语义上与给定文本最相似的视频帧相匹配。根据给定的文本，在语义上最相似的帧将不同，因此可能存在多个匹配特定视频的同等有效的文本。因此，50090.200.26FC查询项目添加+规范0.05...0.04交叉熵损失...0.030.04添加FC+规范0.250.20ϕ价值项目关键项目初始化阳性阴性从CLIP嵌入文本视频文本视频相似性相似性查询项目元素余弦加权相似加法...两个人在高高的玻璃电梯里跳上跳下。一个男人对着水龙头大喊大叫，然后用拳头打它。c·ctKKFv......图2.图为X-Pool。对于给定的文本t1，我们将其嵌入文本编码器t1，然后应用查询投影来获得Qt1。我们类似地用图像编码器φ嵌入给定视频v1的帧，然后应用关键投影来获得Kv1。我们计算它们之间的点积注意力，如图中间的水平条图所示。我们的注意力机制X-Pool专注于给定输入文本的最相关框架。我们聚合一组单独的值投影帧嵌入，我们通过先前计算的点积注意力得分对其进行加权，以获得聚合的视频嵌入，然后我们通过具有剩余连接的全连接层（FC）来获得zv1|t1。我们计算相似性得分s（t1，v1）作为余弦相似性在zv1之间|t1和zt1=<$（t1）。最后，我们在获得s（ti，vj）之后计算交叉熵损失，如刚才针对每个对（ti，vj）所在一批大小为B的样品中。我们的时间聚合函数应该直接在给定文本和视频帧之间推理。为此，我们制定了一个新的时间聚合其中，集合K被定义为：K= arg maxFv（8）函数π允许我们聚合与给定文本t在语义上最相似的视频帧。通过在t上调节π，我们可以从视频v中提取t中描述的最相关的信息，同时抑制噪声和误导性的视觉线索。我们将得到的聚集视频嵌入表示为zv|t，并将我们的相似性函数s（t，v）定义为：zv|t=π（C v|（5）K {1，.，F} f ∈K <$ct<$$>cv <$并且所选择的帧是具有最高余弦相似性的那些帧。在这里，我们只直接选择与给定文本具有最高余弦相似性的帧作为语义相似性的代理。只有前k个最语义相似的框架，以一个给定的文本池，而较低的相似性框架被完全忽略。我们观察到，即使仅应用top-k池化，也已经比时间聚合函数与文本无关的基线有了显著的改进。详细实验见第5.3节。s（t，v）=zt·zv|不zt| t（六）4.4. 我们的型号：X-Pool面向参数化文本条件池。怎么-为了证明我们的想法的有效性，我们首先提出了一个top-k聚集函数πtop-k（Cv|t）为：然而，top-k方法仍然存在缺陷。首先，k超参数的调整可以是特定于任务和实例的，如我们在5.3节中所示。其次，决定从哪些帧中聚合可以重新定义，πtop-（C | t) = 1Σcf（七）比简单的余弦相似性更复杂的推理。larity。最后，完全抑制具有较低价值项目ϕ关键项目........................vf∈K|K|=k5010不∈∈∈∈∈∈i=1ΣB不我我√--D相似性可能限制性太大。因此，我们提出了一个参数化的方法来解决这些额外的问题，同时结合我们的见解，从应用文本条件池。跨模态语言-视频注意。我们的想法是设计一个学习的帧聚合功能与参数的跨模态推理能力的文本的最语义相似的帧在视频中，我们称之为X池。核心机制是我们对文本和视频帧之间的缩放点积注意力[39]的适应。以这些帧为条件，我们生成一个视频嵌入，学习捕捉给定文本中描述的最语义相似的视频子区域由于具有最高语义相似度的帧可以根据文本而不同，因此我们的缩放点积注意力机制可以学习突出与给定文本相关的帧，同时抑制所述文本中未描述的帧。我们的模型然而，与top-k方法不同，我们提出的模型学习了为文本-视频对提取的最佳信息量，从而消除了手动指定k值的需要。此外，我们的交叉注意模块处理高和低相关性帧，而不是采用硬选择的相关帧的top-k方法。为了详细说明，在我们的跨通道注意力模块中，我们首先将嵌入ctRD的文本投影到单个查询Q tR1×Dp中，并将嵌入C v R F × D的视频帧投影到键KvRF×Dp和值VvRF×Dp矩阵中，其中D是我们模型的潜在维度的大小，Dp是投影维度的大小。预测定义为：Qt=LN（cT）WQ（9）Kv=LN（Cv）WK（10）Vv=LN（Cv）WV（11）其中LN是层归一化层[4]，WQ，WK和WV是RD×DP中的投影矩阵。为了学习给定文本和框架之间的灵活调节，我们然后将缩放的点积注意力从查询投影文本嵌入调整到关键投影框架嵌入。点积注意力给出了文本到每个框架的相关性权重. QKTV查询投影的文本嵌入用于从关键字投影的帧嵌入中寻找具有最高相关性的帧。值投影嵌入表示视频为了将视频嵌入到具有文本的联合空间中，我们通过应用权重WORDp×D将来自注意力模块的聚合视频表示投影回RD，以获得：Rv|t= LN（Attention（Q t，K v，V v）WO）（13）其中结果输出rt|V是以文本T为条件的聚合视频嵌入。因此，我们可以学习这种嵌入，使得文本可以通过点积注意力中的参数推理来关注其语义上最相似的框架。我们最终的文本条件池定义为：πX池（C v|t）= LN（FC（rv|t））+rv|t）T（14）其中FC是一个完全连接的网络，它与剩余连接一起为我们的聚合函数中更复杂的推理提供了额外的能力。图2显示了我们的模型图。我们展示了X池如何通过允许文本学习参加其最se-mantically相似的帧池进行文本调节的视频聚合帧。在上面的例子中，输入文本t1与视频v1中显示的一个人对着水槽大喊大叫和挥拳的前几帧最相关，而最终显示的一个人在汽车附近的帧并没有捕捉到文本中所描述的内容，而是充当误导性的视觉干扰物。我们展示了我们的模型如何通过为文本的最相关框架分配更高的注意力权重来推断语义相似性我们强调，任何文本不可知的池化方法（如均值池化）都将聚合整个视频的内容。由此产生的聚合将捕获输入文本中未描述的噪声干扰项，其可能妨碍用于检索的相似性得分在下面的例子中，我们展示了一个类似的行为，其中X-Pool可以关注文本中描述的两个人在电梯中跳跃的最相关的帧，而文本不可知的方法将从该视频中捕获不相关的内容。损失我们使用由N个文本和视频对（t i，v i）N组成的数据集来训练模型。在每一对中，文本ti是对应视频vi的匹配文本描述。我们采用[44]中的交叉熵损失，将匹配的文本-视频对视为阳性，并考虑该批中的所有其他成对文本-视频组合，（Qt，Kv，Vv）=vDp底片。具体来说，我们共同最小化对称文本到视频和视频到文本的丢失：因此，Qt、Kv和Vv矩阵可以解释为：类似于原始缩放点积中的那些，1ΣB i=1es（t，v）·λj=1我J[39]除此之外，还有其他的一些问题。也就是说，Lt2v=−日志（十五）es（t，v）·λB关注softmaxv（十二）5011ΣB↑ ↑ ↑ ↓↓↑ ↑ ↑ ↓↓J 我φ将Transformer的基本文本编码器设置为JavaScript，Lv2t= − 1Σ日志es（ti，vi）·λ（16）es（t，v）·λ5.2.实现细节我们使用CLIP关于CLIPL=Lt2v+Lv2t（17）其中s（ti，vj）是te xtti和视频vj之间的余弦相似度，B是批量大小，并且λ是可学习的缩放参数。通过从预训练的CLIP模型引导，并通过我们的跨模态注意机制，这种损失的训练使我们的模型能够学习将文本与地面实况视频中语义最相似的子区域相匹配。5. 实验我们在MSR-VTT [40]、MSVD [8]和LSMDC [34]的常用基准文本视频检索数据集上进行实验，并通过报告Recall@1（R@1）、Recall@5（R@5）、Recall@10（R@10）、中位数秩（MdR）和平均秩（MnR），根据现有文献[5，12，22，29，43]评估我们的5.1. 数据集MSR-VTT由10，000个视频组成，每个视频与大约20个人工标记的字幕配对。我们注意到，MSR-VTT中每个视频的多个字幕通常描述不同的视频子区域，这支持我们将给定文本与视频中最相关的帧进行匹配的动机。这个数据集中的视频长度从10秒到32秒不等，我们使用了两个训练分割，我们称之为7 k-Train和9 k-Train，以有效地与以前的作品进行比较。7 k-Train是如[30]中定义的大约7 k视频的子集，而9 k-Train由ap组成编码器参数从CLIP的预训练的权重。我们将查询、键和值投影维度大小设置为Dp=512以匹配CLIP我们应用一个线性层，D=512输出单元，dropout [36]为0.3作为我们的FC。最后，我们用恒等式初始化所有新的投影权重矩阵，用零初始化所有新的偏置，以从预训练的CLIP的前文本图像语义推理中引导我们的整个模型我们的模型在每个数据集上进行了端到端的微调。为此，我们将所有实验的批量大小设置为32，并将CLIP初始化权重的学习率设置为1 e-6，将所有其他参数设置为1 e-5。我们使用AdamW优化器[24]优化我们的模型5个时期，权重decay设置为0.2，并使用CLIP [33]之后的余弦时间表[23]对于所有实验，我们从每个视频中均匀采样12帧，并按照之前的工作[5，22，26]将每个帧调整为224x2245.3. 结果为了评估我们的方法，我们比较其性能与最近的作品从文献中。我们分别在表1和表2中列出了在MSR-VTT9 k-Train和7 k-Train分割上训练的模型的t2v检索性能。表3和表4分别类似地比较了MSVD和LSMDC数据集上X池的性能。我们注意到，在所有数据集和所有指标上，我们的文本条件X-Pool模型优于所有其他使用文本不可知池的作品[5，26，32]，包括在[12]中分裂之后，提供了9k视频除非除此之外，我们使用9 k-Train分割进行训练。为了评估我们的模型，我们使用[43]中的1 K-A测试集，该测试集由1,000个选定的字幕-视频对组成。MSVD包含大约120k个字幕，每个字幕描述1，970个视频中的一个，长度从1秒到62秒不等。同样，视频与多个字幕配对，并且每个字幕可以描述同一视频的不同子区域。在MSVD中，训练、验证和测试部分分别由1，200、100和670个视频组成。我们的最终结果在测试分割上进行评估，该测试分割具有不同数量的每个视频的字幕。为此，我们遵循最近的评估方法，将所有提供的字幕-视频对视为单独的评估实例[26，32]。LSMDC是一个电影剪辑数据集，包含118，081个视频，每个视频都有一个单独的字幕描述。视频的长度从2秒到30秒不等。101，079个视频用于训练，而7，408和1，000个视频分别用于验证和测试。我们报告测试集上的所有结果。方法R@1 R@5 R@10 MdR MnR粤ICP备16036888号-1市场失当行为审裁处[12] 26.6 57.1 69.6 4.0 24.0直型夹[32] 31.2 53.7 64.2 4.0-支持套件[31] 30.1 58.5 69.3 3.0-MDMMT [11] 38.9 69.0 79.72.016.5冷冻[5] 31.0 59.5 70.5 3.0-TeachText-CE+[10] 29.6 61.6 74.2 3.0-CLIP4Clip-meanP [26] 43.1 70.4 80.82.016.2[26]第二十六话44.5 71.4 81.62.0 15.3X-Pool（我们的）46.9 72.8 82.2 2.0 14.3表1.MSR-VTT-9 K数据集上的t2v结果方法R@1 R@5 R@10 MdRMnR HowTo 100 M [30] 14.9 40.252.8 9.0-[46] 2016年12月26日-噪音E [2]17.441.653.68.0-ClipBERT [15]22.046.859.96.0-[26]第二十六话42.171.981.42.015.7[26]第二十六话42.068.678.72.016.2X-Pool（我们的）43.972.582.32.014.6表2.MSR-VTT-7 K数据集上的t2v结果Bj=1Bi=15012X-Pool均值合并方法R@1↑ R@5↑ R@10↑ MdR↓ MnR↓攻击。 R@1↑ R@5↑ R@10↑ MdR↓MnR ↓40020001 3 5 7 9 11K[26]第二十六话45.2 75.5 84.3 10.3X-Pool（我们的）47.2 77.4 86.0 2.0 9.3表3. MSVD数据集上的t2v方法R@1↑ R@5↑ R@10↑ MdR↓ MnR↓（b）第（1）款图3. MSR-VTT上的Top-k分析。（a）T2V检索性能比较平均池与前k个文本条件池。（b）示出k值的直方图，其中MSR-VTT测试集中的每个地面实况文本-视频对在使用前k池化时实现最高余弦相似性。402000 1 2 3 4的转变表4. LSMDC数据集上的t2v在多种视频模式中使用视频专家[1，12，28]。最值得注意的是，我们的模型优于迄今为止最先进的方法CLIP 4Clip-meanP和CLIP 4Clip-seqTransf [26]，它们与X池最直接可比，因为它们也使用CLIP作为主干。因此，我们可以直接将我们模型的性能提升归因于这样一个事实，即与 CLIP 4Clip-meanP 和 CLIP 4Clip-seqTransf的文本不可知池方案相比，我们使用了文本条件池。更准确地说，在MSR-VTT数据集上，我们观察到与CLIP 4Clip-seqTransf 相比， Recall@1 的相对改善为5%。对于MSVD数据集，我们在Recall@1的相对改善方面比CLIP 4Clip-meanP高出2%以上。在LSMDC数据集的情况下，检索问题更具挑战性，因为电影场景文本描述更加模糊，这可以通过所有先前方法的整体较低检索分数然而，我们的方法在Recall@1的相对改善方面明显优于因此，我们的研究结果突出了我们模型的文本条件聚合的重要性Top-k实验。为了更好地理解我们的X-Pool模型的优点和直观性，我们首先重新审视我们在等式（7）中定义的前k个时间聚合函数，我们引入该函数作为我们提出的文本条件视频池化思想的概念证明。为了验证这个想法，我们在两个设置中比较了top-k池与均值池基线[26，32]：首先，我们以类似于[32]的零射击方式应用预训练的CLIP模型。图4.对内容多样性的鲁棒性。我们示出了MSR-VTT上的t2vMe- dian Rank结果，其针对由场景转换的数量测量的不同量的内容多样性。我们的X池方法仍然是强大的，而平均池显着恶化，因为我们增加了内容多样性。为了比较平均池化和前k聚合，第二，我们在MSR-VTT数据集上微调预训练的CLIP模型，然后测量平均池化和前k池化的检索性能。在这两种设置中，我们设置k=3，这根据经验产生最佳的整体性能。我们比较了表3a中的t2v结果，并且观察到即使通过使用前k池化中的余弦相似性作为文本和帧之间的语义相似性的代理，我们也可以通过我们的文本条件池化方案在Recall@1中的高达6%的相对改进来胜过所有列出的度量中的均值池化。然而，top-k聚合函数仍然存在一些缺点，如第4.2节所述，最明显的是与k超参数的调整有关。为了分析这个缺点，我们运行了一个实验，其中对于零拍摄预训练的CLIP，我们在MSR-VTT测试集中找到每个单独的文本-视频对的最佳k，并在图3b中的直方图中报告结果。这里，我们将最优定义为在如等式（6）中定义的地面实况文本-视频对之间产生最高相似性得分的k值我们观察到，k的最佳选择在文本-视频对之间变化很大，这使得k通常很难选择因此，我们提出的X-Pool模型解决了top-k池的缺点，同时受到我们对文本条件池的启发。视频中对内容多样性的鲁棒性。我们现在分析我们的模型对内容多样性的鲁棒性，配对数量中位秩[22]第二十二话[31]第三十一话19.828.449.060.063.872.96.04.023.1-Zero-Shot CLIP是说31.5 52.8 63.6 5.0噪音E [2]20.349.063.36.0-顶部-k33.6 54.0 64.3 4.0 42.5直夹式[32]37.064.173.83.0-微调剪辑冷冻[5]33.764.776.33.0-是说42.1 69.8 80.72.0 15.7[第10话]25.456.971.34.0-顶部-k44.6 70.9 82.4 2.0 14.9[26]第二十六话46.276.184.62.010.0（一）[22]第二十二话MMT [12]11.212.926.929.934.840.125.319.3-75.0噪音E [2]6.419.828.439.0-直夹式[32]11.322.729.256.5-MDMMT [11]18.838.547.912.358.0冷冻[5]15.030.839.820.0-[第10话]17.236.546.313.7-[26]第二十六话20.738.947.213.065.3[26]第二十六话22.641.049.111.061.0X-Pool（我们的）25.243.753.58.053.25013我们在第4.2节中描述了这一点。如所解释的，许多视频固有地展现多样的视觉内容，诸如场景转换或对象外观的变化。虽然目前的数据集，如MSR-VTT，LSMDC和MSVD已经在一定程度上显示了这些特征，但它们是通过选择从较大视频中提取的小视频片段来管理的。因此，为了更有效地测试文本视频检索方法对内容多样性的鲁棒性也就是说，我们通过从数据集中随机注入另一个视频来模拟突然的场景转换来增强视频通过对这种增强视频及其原始文本标题进行检索，我们可以更好地评估检索模型为此，我们通过在测试集中添加从每个视频到其他视频的场景转换来构建MSR-VTT测试集的增强版本。过渡的数量被定义为在随机位置处添加到原始视频的随机视频的数量。我们将我们的X-Pool模型的t2v检索性能与均值池的基线进行比较，并将结果绘制在图4.第一章在这里，我们使用Median Rank度量来衡量性能。我们可以清楚地观察到，随着视频转换数量的增加以及视频内容多样性的增加，均值池的注意力权重第1帧第2帧第3帧第4大脑的动画虚构人物看着复杂机器的动画注意力权重第1帧第2帧第3帧第4三个孩子一起唱的声音一位倾听竞争者注意力权重随着中位数排名从2增加到46，而我们的框架1第2帧第3帧第4帧X-Pool模型对内容多样性的稳健性显著更高，因为中位数秩仅从2增加到9。性能差距是因为任何文本不可知的池化方法（如均值池化）都聚合了来自视频所有场景的内容，而不管它们与输入文本的相关性如何因此，就场景转换而言，视频越多样化，聚集的噪声干扰物就越多。因此，X-Pool只能通过文本条件池提取文本中描述的最相关的视觉线索。定性结果。在图4中，我们展示了我们的X-Pool模型的定性示例。对于每个示例，我们显示了来自视频的四个采样帧以及表示从给定文本到每个帧的X池的相关注意力权重的条形图在上面的例子中，我们可以看到，当输入文本描述大脑动画时，我们的模型为中间帧输出了更高的注意力权重，而在其他地方输出了更低的注意力权重。另一方面，当输入文本改为描述注视机器的虚构人物时，注意力权重相应地针对文本最相关的最后一帧激活中间的第二个例子展示了一场歌唱比赛。在这里，“一个法官听到竞争对手的声音”的文本事实上，我们观察到X-Pool参与了整个视频，这表明了我们方法的灵活性。一个人正和一只大狮子还有他的朋友一起两个女人和一只母狮子躺在街上，音乐响起。图5. MSR-VTT数据集的X样本池定性结果。对于上面显示的每个帧，条形图显示了给定特定文本的模型中的注意力权重。6. 结论在这项工作中，我们突出了文本不可知的视频池的缺点，并提出了一个替代框架的文本条件池的文本视频检索。然后，我们扩展我们的想法和衍生的见解，设计一个参数模型的文本和视频帧之间的跨模态注意力称为X池。我们展示了X-Pool如何学习如何处理与给定文本最相关的帧，这也使我们的模型对视频内容多样性（例如场景转换形式）更加鲁棒，这是野外视频中常见的属性作为未来工作的一部分，我们计划将文本条件视频池应用于其他跨模态任务，如视频问答。7. 致谢Animesh Garg得到了CIFAR AI主席，NSERC发现奖，多伦多大学XSeed奖以及LG的礼物的支持5014引用[1] Jean-BaptisteAlayrac 、 AdriaRecasens 、 RosaliaSchneider 、 Relja Arandjelovic 、 Jason Ramapuram 、Jeffrey De Fauw 、 Lu-cas Smaira 、 Sander Dieleman 和Andrew Zisserman 。自监督多模态通用网络。NeurIPS，2（6）：7，2020。三、七[2] Elad Amrani 、 Rami Ben-Ari 、 Daniel Rotman 和 AlexBronstein。使用密度估计的噪声估计用于自我监督的多模式学习。arXiv预印本arXiv：2003.03186，8，2020。六、七[3] Stanislaw Antol ， Aishwarya Agrawal ， Jiasen Lu ，Margaret Mitchell，Dhruv Batra，C Lawrence Zitnick，and Devi Parikh.Vqa：可视化问答。在IEEE计算机视觉国际会议论文集，第2425- 2433页2[4] 吉米·雷·巴，杰米·瑞安·基罗斯，杰弗里·E·辛顿.层归一化。arXiv预印本arXiv：1607.06450，2016。5[5] 时间冻结：一个联合视频和图像编码器用于端到端检索。arXiv预印本arXiv：2104.00650，2021。一二三六七[6] 塔达斯·巴尔特鲁斯·艾提斯、柴坦尼亚·阿胡贾和路易斯-菲利普·莫伦西。Multimodal Machine Learning：ASurvey and Taxonomy. IEEE Transactions on PatternAnalysis and Machine Intelligence，41（2）：423-443，2018。2[7] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在IEEE计算机视觉和模式识别会议的论文集，第6299-6308页，2017年。3[8] David Chen和William B Dolan。为释义评估收集高度平行的数据计算语言学协会第49届年会论文集：人类语言技术，第190二、六[9] Yen-Chun Chen ， Linjie Li ， Licheng Yu ， Ahmed ElKholy ， Faisal Ahmed ， Zhe Gan ， Yu Cheng ， andJingjing Liu.Uniter：通用图像-文本表示学习。欧洲计算机视觉会议，第104-120页。Springer，2020年。二、三[10] IoanaCroitoru 、 Simion-VladBogolin 、 MariusLeordeanu 、 Hailin Jin 、 Andrew Zisserman 、 SamuelAlbanie和Yang Liu。Teachtext：用于文本-视频检索的跨模态广义蒸馏。在IEEE/CVF国际计算机视觉会议集，第11583二六七[11] MaksimDzabraev 、 MaksimKalashnikov 、 StepanKomkov和Aleksandr Petiushko。MDMMT：用于视频检索的多域多模态Transformer。在IEEE/CVF计算机视觉和模式识别会议论文集，第3354-3363页，2021年。二六七[12] Valentin Gabeur ， Chen Sun ， Karteek Alahari ， andCordelia Schmid.用于视频检索的多模态Transformer。在计算机Springer，2020年。一二三六七[13] Chao Jia，Yinfei Yang，Ye Xia，Yi-Ting Chen，ZaranaParekh ， Hieu Pham ， Quoc V Le ， Yunhsuan Sung ，Zhen Li，and Tom Duerig.通过噪声文本监督扩大视觉和视觉语言表征学习。arXiv预印本arXiv：2102.05918，2021。

下载后可阅读完整内容，剩余1页未读，立即下载