对象感知的视频语言转换器

56 浏览量更新于2023-10-25 收藏 1.17MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3313面向检索的王金鹏1葛一笑2蔡冠宇1，5芮妍1林旭东4应珊2戚晓虎3郑寿1*1新加坡国立大学Show Lab2 ARC Lab3腾讯PCG4哥伦比亚大学5同济大学摘要近年来，通过引入大规模数据集和强大的Transformer网络，视频语言预训练在检索方面取得了巨大的成功。然而，现有的视频语言Transformer模型没有显式地细粒度语义对齐。在这项工作中，我们提出了对象感知的变压器，一个以对象为中心的方法，扩展的视频语言转换器，将对象表示。关键思想是利用边界框和对象标签来指导训练过程。我们评估我们的模型上的三个标准子任务的视频-文本匹配四个广泛使用的基准。对提出的方法进行了深入的分析和详细的烧蚀.我们在所有考虑的任务和数据集的性能上都有明显的提高，证明了将对象表示纳入视频语言架构的模型的价值。该代码已在https://github.com/FingerRec/OA-Transformer中发布。1. 介绍学习可伸缩的视频-文本表示检索需要理解视觉和文本线索，以及这两种模式之间的语义对齐大规模基于对比度的预训练方法[4，19]在最近的文献中占主导地位，其中虽然这些方法已经导致了巨大的性能进步，我们指出，缺乏正则化的细粒度语义关联，阻碍了他们的进一步改善。由于图像-文本预训练的巨大进步[9，21，22，24，35，37，44]，一系列方法试图利用现成的对象检测模型来生成更丰富的信息以用于跨模态理解，*通讯作者。文字：一个小女孩随着音乐跳舞，一个十几岁的女孩在用电脑。女孩椅子无线电女人表笔记本笔记本手碗(a). 文本和视频仍然可以与对象引导遮罩相匹配。+5.2+4.5+4.8+3.8+3.2+2.4+1.7+1.5+4.9+4.1+3.8+3.7微调零发射线性探头(b). 三个下游任务在四个基准测试中的性能增益图1. （一）.掩蔽对象无关区域保持语义不变。从这个例子中，我们观察到：1.目标区域与视觉显著区域高度重叠。2.所预测的对象标签与字幕具有语义关系。例如音乐与比例笔记本电脑和电脑。（b）.我们的方法VS SOTA在三个下游任务上。受（a）的启发，通过将对象纳入简单的对象引导掩蔽的视频语言预训练学习中，我们在多个下游视频语言任务中显示了有希望的结果。包括视觉对象和它们的标签概念。对象信息，连同原始图像和句子，然后送入一个联合编码器的跨模态相互作用，导致更好的相关性区域和短语。鉴于图像-文本预训练中对象信息的成功，利用对象来改进视频-文本检索是直观的。然而，存在一些主要的挑战，阻止我们天真地采用现有的基于对象的技术对视频文本的预训练。图1（a）显示了对象框和标签始终关注显著区域和语义，3314键双编码器基线OA-Trans一群人正在行使他们的权利。图2. 视频文本样本上跨通道注意的可视化。该视频由基线双编码器网络[4]错误地检索，但由我们的对象感知Transformer（OA-Trans）正确地检索在每个视频中最重要的。现有的基于对象的图像-文本预训练方法采用图像-文本联合编码器[21，22]或跨模态共同关注模块[24]用于跨模态局部特征之间的交互。尽管结果是积极的，这是不切实际的，以适应这种范式从图像域到视频域。这是因为所有这些方法都需要预先提取整个数据集的离线对象特征。由于十亿级帧，提取所有对象将导致无法承受的计算开销此外，它们的下游性能在很大程度上取决于对象的质量，因为它们也需要对象作为推理的输入。为此，我们引入了一种简单而有效的视频-文本预训练范例，即对象感知转换器（OA-Trans），其显式地增强了占主导地位的“双编码器”框架的细粒度视频-文本交互，同时在推理期间保持其检索效率。这是通过我们的方法中的两个新颖设计来实现的，如下所示。(1) 编码对象信息。我们不是用提取的对象区域替换所有采样的视频帧，而是通过将整个帧与编码对象信息的新锚帧组合在一起来平衡匹配调用和效率。具体来说，我们建议只提取对象区域在这个锚帧和软屏蔽了非对象区域在这个锚帧。(2) 一种新的4流对象感知对比度（OAC）损失。OA-Trans预训练的输入包括四个流：原始视频、锚帧、对象标签（预测的对象类别）和原始文本。为了探索如何将这四个流结合起来，我们进行了广泛的实验探索，并发现将原始视频流与对象标签流以及原始文本流与锚帧流进行对比效果最好。请注意，在我们的方法中，对象仅用于预训练，因此检测的质量对下游任务的影响较小，并且我们不需要任何额外的计算开销用于下游检索。如图2所示，双网络将其注意力分散在整个帧范围内，而OAC损失的OA-Trans可以成功地聚焦于我们的贡献如下：• 我们是第一个成功开发对象感知双编码器模型，即OA-Trans，用于端到端视频语言预训练。• 为了减轻提取对象框的沉重代价，我们建议将采样的整个帧与非对象区域已被掩蔽的单个锚帧统一起来。• 我们设计了一种新的对象感知的对比度损失基于我们独特的输入流的视频帧，文本查询，掩蔽的图像，和锚对象帧上的预测对象标签。• 我们的OA-Trans通过三个下游任务在4个基准测试中实现了Recall@1的显著改进（图1（b））。如MSVD（从46.2%到51.4%）。2. 相关工作2.1. 视频语言预训练受限于小规模视频语言数据集，复杂的视频语言预训练方法[12，23，26，39，41]倾向于使用多个“专家”的组合人脸、场景、物体识别、动作识别、声音分类和光学字符识别。然而，自从提出了大规模视频语言数据集HowTo100M [27]以来，已经出现了利用大规模数据进行预训练以学习更好的视频语言表示的趋势。大多数这些视频语言预训练方法[1，20，25，29，36]使用时空CNN来预提取视频特征，并提出一个融合模块来将视频特征与共享相同语义的语言特征对齐。最近，考虑到大多数时空CNN都是在比预训练数据集小得多的Kinetics [14]上训练的，为了充分利用预训练数据集中的大量信息，提出了端到端预训练方法ClipBert [19]和Frozen [4]。2.2. 视觉语言任务中的对象最近，以对象为中心的模型已成功应用于各种视觉语言任务，例如视觉问答[2]，图像字幕[2]，图像-文本检索[11，18]和图像-文本预训练[9，21，22，24，35，37]。特别是在图文预训练领域，自Bottom-UpTop-Down attention（BUTD）提出以来，从对象层次上提取的细粒度特征逐渐成为图像预训练最常用的输入，查询：人员3315ΣLLM联系我们Vid ProjVid Proj文本项文本项CLSCLSCLSCLS空时Transformer编码器文本编码器线性投影分词器CLSCLSX掩模道路，水，游客采取树，女人，走在美丽[Random Object]日本庭园锚帧图3. 我们的对象感知Transformer（OA- Trans）的插图。灰色虚线表示数据流仅用于预训练，但用于下游任务。对象标签和相应的区域引导模型学习关注有区别的对象。图像-文本预训练模型[9，21，22，24，35，37]。由于对象特征是突出的图像区域，并且可以很容易地与文本特征对齐，因此以对象为中心的图像-文本模型[9，21，22，24，35，37]学习对齐良好的图像-文本表示。3.1. 双编码器框架视频语言预训练中的先前工作专注于在双编码器[4，19]和单流[42]框架中对齐原始像素视频和原始文本，并具有对比损失在这项工作中，我们选择简单有效的双编码器框架（独立的视觉编码器和文本编码器）Frozen [4]作为我们的基线。对于视频流，视频投影头放置在视频编码器的顶部，以将输出的cls嵌入投影到共享嵌入空间中。与视觉流类似，文本投影头也放置在文本编码器的顶部，以将文本的CLS令牌投影到共享嵌入空间中。与文本流相同，视频和文本的归一化嵌入分别记录为v和t。目的：为了训练这种双编码器框架，将批次中匹配的文本-视频对的归一化嵌入视为阳性，并且将批次中的所有其他成对在实践中，假设我们在一个批次中有K个样本，那么对称对比损失被引入如下：虽然以对象为中心的模型已经取得了评论-exp（sim（v，t））/τL=−log（一）在图文预训练方面取得了一定的进展，但在视频文本领域还缺乏进一步的探索。ActBert [45]利用对象特性来实现更好的语言和视觉对齐，v2tKi=0时exp（sim（vi，t））是的。但是，它需要在exp（sim（t，v））/τ整个视频并与来自其他特征编码器的特征协作。提取目标fea的计算量Lt2v=−logKi=0时、（二）exp（sim（ti，v））不同的特征编码器之间的结构和域间隙阻碍了ActBert建立一个高效和强大的以对象为中心的模型。因此，如何适当地将对象级特征引入视频语言预训练仍然是未解决的问题。在这项工作中，为了解决上述问题，我们提出了一个对象感知的Transformer，以无缝地将对象区域集成到视频Transformer [5]中。3. 方法人类视觉系统倾向于关注物体和其他突出的图像区域[7，30]。使用对象表示视频语义有助于组合语义理解，因为对于一种对象，许多感知分量保持相似。因此，一个模型，捕捉这个组成方面可能会付出较少的关注语义无关的信息。考虑到这一动机，我们首先在第3.1节中重新审视当前的双编码器框架，我们的模型扩展了该框架，并在第3.2节中介绍了对象感知的Transformer（OA-Trans）。我们将在3.3节中进一步讨论OA-Trans的优点以及利用对象信息的不同方式。其中τ是温度，sim是相似性函数（即，点积）。最终的视频-文本匹配损失为LM=Lv2t+Lt2v。3.2. 对象感知的Transformer在本节中，我们将详细介绍高效且简单的对象感知Transformer（OA-Trans）。OA-Trans的管道如图所示。3.第三章。与基线的区别在于附加的掩蔽图像流和对象标签流。给定一对输入的视频和文本，我们首先从这个视频中采样一个视频剪辑。然后我们从这个片段中找到中心索引，并找到最近的对象帧。从这个对象帧中，我们生成了被掩蔽的对象图像和对象标签。代替使用cls令牌，我们对来自用于掩蔽图像的非掩蔽块的令牌进行平均，并且归一化嵌入被表示为vl。类似地，对象标签流的输出被表示为t 1。然后，我们从它们对应的输出计算匹配损失M和对象感知对比（OAC）损失OAC。接下来，我们介绍该管道的关键组件及其设计动机如下：Σ3316‡标签Ki=0时掩模exp（sim（vl，ti）/τ）Ki=0时OA-Trans[12F]表1. 与MSRVTT文本到视频检索的最新结果的比较。表示模型使用CLIP [31]中的权重进行初始化。可见Enc.姓名首字母：训练视觉编码器初始权重的数据集定位对象框。给定具有任意长度的视频，我们首先均匀采样L（即，，L=8）帧，并使用改进的1600类Faster RCNN [2]离线提取N我们将这些脱机对象保存在磁盘上以供重用。在训练过程中，我们选择具有唯一对象类别的前K个对象。如果对象太大，我们将对象大小减小到它的一半第12节提供了对物体编号的分析四点八戴面具给定具有N个对象区域的对象帧，因为对象不是输入到用于下游应用的模型。而且这种损失很容易优化，可能会变成琐碎的解决方案，并进一步损害全局视频到文本匹配的学习基于这一观察，我们提出了一种新的OAC损失与交叉指导从对象区域的字幕和对象标签的视频帧。具体来说，我们首先使用对象标签与原始视频对齐。从形式上讲，我们首先掩蔽不包含对象的区域。我们然后将掩蔽帧划分为规则的非重叠片。然后，我们对包含以下内容的补丁子集进行L=−logexp（sim（v，tl）/τ）(3)对象区域并屏蔽其余区域以形成规则网格。通过这种方式，补丁将被屏蔽或保留其实际像素。为了防止过度拟合，我们随机丢弃20%的对象，并将锚帧移动到相邻帧。此外，如果对象区域太大，我们将裁剪中心区域。我们简单地将其称为 With the proposed Object-Guided Masking, the model is forced to learn to understandthe context information and relationships of objects, ratherthan simply modeling scene bias.尽管对象标签来自Visual Genome [17]定义的有限的1600类字典，但标签通常能够捕获标题中呈现的相关高级语义例如，图3中的女人和游客，树和花园。然后，如果我们鼓励全局视觉嵌入v不仅与t对齐，而且与tl对齐，该模型将潜在地加强不同名词类似地，我们强制模型将完整的句子与掩蔽的对象框架对齐。从形式上讲，对象感知对比（OAC）丢失。因为我们的目标是为了增强细粒度的表示，直接的想法是将预测的对象标记和L=−logexp（sim（vl，t）/τ）.（四）局部掩模图像直接。但是，这种幼稚的做法将无法直接惠及下游应用结合这些互补的交叉指导，我们将OAC损失定义为：LOAC=L标签+L掩码exp（sim（vi，tl）/τ）方法年可见Enc. Init.预训练数据R@1R@5R@10MedRActBERT [45]CVPR'20VisGenome[136M] HowTo100M16.342.856.910.0[第16话]Arxiv'20公司简介[136M] HowTo100M14.7-52.8东北[1]AAAI'21ImageNet，Kinetics[136M] HowTo100M17.441.653.68.0[19]第十九话ICCV'21-[5.6M] COCO，VisGenome22.046.859.96.0MMT [12]ECCV'20众多专家[136M] HowTo100M26.657.169.64.0冷冻[4]ICCV'21ImageNet[3M]CC3M25.554.566.14.0冷冻[4]ICCV'21ImageNet[5.5M] CC3M，WebVid-2M31.059.570.53.0冻结[我们的小恶魔]ICCV'21ImageNet[5.5M] CC3M，WebVid-2M33.261.571.93.0[29]第二十九话ICLR'21IG65M，ImageNet[136M] HowTo100M30.158.569.33.0OA-TransImageNet[2.5M] Webvid-2M32.760.972.53.0OA-TransImageNet[5.5M] CC3M，WebVid-2M35.863.476.53.0OA-Trans夹附夹附[5.5M] CC3M，WebVid-2M[5.5M] CC3M，WebVid-2M39.440.968.870.478.380.32.02.0[27]第二十七话CVPR'20-Zero-shot[136M] HowTo100M7.521.229.638.0[29]第二十九话ICLR'21IG65M，ImageNet[136M] HowTo100M8.723.031.131.0冷冻[4]ICCV'21ImageNet[2.5M] WebVid-2M14.529.564.521.0冷冻[4]ICCV'21ImageNet[5.5M] CC3M，WebVid-2M18.739.551.610.0[4]第四季第10集ICCV'21ImageNet[5.5M] CC3M，WebVid-2M21.745.553.99.0[31]第十二届全国政协委员Arxiv'21夹附-28.549.761.25.0OA-TransImageNet[2.5M] WebVid-2M18.436.546.810.0OA-TransImageNet[5.5M] CC3M，WebVid-2M23.447.555.68.0OA-Trans夹附[5.5M] CC3M，WebVid-2M29.752.163.55.0OA-Trans[12 F]晶体管夹附[5.5M] CC3M，WebVid-2M31.455.364.84.03317MedR总体培训目标。OA-Transformer的最终损耗函数为：L=LM+λLOAC，（5）其中λ是控制全局匹配损失和OAC损失之间的平衡的系数。通过强制视频编码器和文本编码器挖掘以对象为中心的信息，我们的视频-文本模型直接受益于对象区域和对象标签捕获的高级语义。因此，OA-Trans为下游视频-文本任务学习更多的区分性表示。3.3. 讨论优势OA-Trans存在几个优点：在预训练过程中，我们只使用一个对象图像作为参考，并且额外的计算成本是有限的。ii. 对象知识在预训练期间学习，从而减少噪声对象对下游任务的影响。iii. 我们的范例不需要修改基础视觉编码器的架构，可以即插即用到现有的视频语言预训练方法。加入对象的更多方法。除了简单的掩蔽操作之外，我们还根据经验研究了在视觉和语言模态中利用对象的多种方法，这些方法受到了以前作品的启发[15，22]。对于视觉模态，我们考虑了纯离线特征和离线特征与原始像素视频的联合建模。所有这些设计细节都在补充资料中介绍。我们比较所有的设计选择，并显示我们的解决方案是优越的设计。4. 实验我们评估我们的对象感知的Transformer（OA-跨）的几个视频文本基准。具体来说，我们考虑以下任务：视频文本检索（第4.4节）和线性探头评估（第4.5节）。4.1. 预训练数据集由于广泛使用的数据集，即，HowTo100M [27]，噪音很大，只包含教学视频。在这项工作中，我们采用了两个干净的数据集：（i）WebVid2.5M（视频-文本）;以及（ii）Google概念字幕（图像-文本），以涵盖更广泛的场景。WebVid2.5M[4]由250万个视频-文本对组成，这是一个开放域视频字幕数据集。手动生成的字幕是格式良好的句子。Google Conceptual Captions（CC3M）是从网络上抓取的，超过10%的CC3M图像实际上是来自视频的缩略图。由于网络上缺少一些图像，我们总共得到了297万张图像。方法R@1 R@5 R@10句子视频多重[第28话]20.347.861.16.0[23]第二十三话19.849.063.86.0[29]第二十九话：我的世界28.460.072.94.0冷冻[4]OA-Trans33.739.164.768.476.380.33.02.0多个句子视频[第10话]25.4 56.971.34.0OA-Trans51.4 82.388.02.0表2.MSVD上的文本到视频检索结果[8]。4.2. 下游数据集为了验证学习的视觉和文本表示的有效性，我们在以下四个视频-文本基准上评估OA-Trans：MSRVTT[40]包含10K YouTube视频和200K描述。在以前的作品[？，4]，我们使用9K视频进行训练，并在1K测试集上报告结果。DiDeMo[3]包含10K Flickr视频。每个视频都有多个字幕，总共有40K个字幕。在实验中，视频的所有字幕被视为一个单一的描述。MSVD[8]包含20KYouTube视频，注释了100K句子。训练集包含10K视频，我们报告了4.9K视频的验证集结果。由于每个视频都有多个句子的注释，我们报告了Sentence to Video和Multiple Sentences to Video结果，以与相关作品进行比较。LSMDC[32]包含来自202部电影的12K视频文本对。在[33]之后，验证集包含7K对，并在1K测试集上进行评估。4.3. 设置骨干我们的方法的主要组成部分是视觉编码器和文本编码器。对于文本编码器，我们采用Distill Bert [34]作为默认值。对于视觉编码器，我们采用了TimeTransformer [6] 的具有时空注意力的 VisionTransformer。对于Vision Transformer，12层ViT-B/16用作主干。所有模型训练了128个epochs。技术细节。我们使用亚当优化器与权重衰减正则化和衰减的学习率与余弦时间表。当在WebVid2.5M上进行预训练时，对1个对象参考帧和4个视频帧进行采样。对于CC 3 M，视频帧编号设置为1，因为CC 3 M是图像-文本数据集。控制权重λ在实验上被设置为0.5。整个预训练需要在64个Tesla A100 GPU上进行5天。除特别说明外，本文所报道的所有结果均采用最佳模型。当微调预训练模型时，所有下游任务仅采样8个视频帧。3318‡方法S2VT [38]R@111.9R@533.6R@10-MedR13.0方法[41]第四十一话R@19.1R@521.2R@1034.1MedR36.0FSE [43]13.936.0-11.0[第26话]9.325.133.427.0[23]第二十三话16.141.1-8.3[23]第二十三话11.226.934.825.3[19]第十九话20.444.556.77.0冷冻[4]15.030.839.820.0冷冻[4]OA-Trans31.034.859.864.472.475.13.03.0[12]第十二话OA-Trans12.918.229.234.338.843.719.318.5Zero-shot冷冻[4] 21.1 46.0 56.2OA-Trans表3.DiDeMo上的文本到视频检索结果我们显示微调和零拍摄检索结果。4.4. 视频文本检索MSRVTT 。表 1 总结了 MSRVTT 的结果。除了ClipBERT 和 Support Set 之外，其他方法都是在HowTo100M的136M剪辑字幕对上进行预训练的。为了确保公平的比较，我们重新实现了以前的SOTA方法，冻结[4]，具有分布式并行训练计划。在完全公平的比较下， OA-Trans 在 R@1 上比之前的最佳方法Frozen高出2.6%。令人惊讶的是，仅用开放域2.5M视频文本对进行预训练，我们的方法已经优于所有以前在1.36亿剪辑字幕对上进行预训练的作品。通常，为了评估模型的泛化，我们还报告了零射击结果，即，不进行微调。我们的方法优于以前的方法显着。结果表明，该模型具有较好的泛化能力。为了进一步验证我们的方法可以扩展到强大的视觉骨干，我们使用CLIP的权重初始化视觉编码器如表1所示的结果，我们的方法仍然提高了CLIP的性能因此，即使加载的初始权重已经具有很强的性能，我们的方法也可以很好地使用不同的初始权重。MSVD。由于每段视频都有多个字幕注释，以往的作品主要分为两种类型：i. 视频中的句子：将每个句子视为文本查询。二.多个句子视频：将视频的多个句子组合为文本查询。结果如表2所示，在两种设置中，我们的方法在R@1上至少优于其他方法5%。我们还在表3和表4中显示了DiDeMo和LSMDC上的检索结果。OA-Trans在所有指标上都优于以前的方法。4.5. 线性探头评价线性探针是评估在大规模图像-文本预训练[31]和图像自监督预训练[13]中学习的表示质量的重要测量。然而，这种技术从未在视频文本预训练中进行过探索，大多数相关工作仍然集中在表4.LSMDC上的文本到视频检索结果方法VE初始化MSR MSVD DiDeMo LSMDC[4] ImageNet 27.2 30.3 26.6 13.2OA-TransImageNet31.3 34.1 30.4 18.1弹簧夹[31] CLIP-WIT 30.5 34.5 29.8 16.8OA-TransCLIP-WIT 33.2 36.9 34.8 21.5表5.三个视文字检索资料集之线性探针评估。意味着我们使用CLIP权重进行视觉编码器初始化。我们报告R@1结果，VE Init是Visual Encode的缩写对整个模型进行微调。微调策略带来两个问题：I.各种下游数据集的超参数空间非常大。很难在不同的预训练方法之间进行公平的比较。二.微调调整整体模型并使表示适应特定数据集，它可能隐藏模型无法学习通用和鲁棒表示的失败。在CLIP [31]之后，在这项工作中，我们将线性分类器拟合到从预训练模型中提取的表示上，并在各种下游数据集上测量其性能我们自己实现冻结和剪辑。由于CLIP是一种图像-文本预训练方法，因此我们对每个视频的8帧进行采样，并对图像级特征进行平均以表示视频。结果示于表5中。我们还展示了使用CLIP预训练权重初始化的OA-Trans的结果。可以看出，OA-Trans很好地推广到这些数据集。我们希望这个实验能激励社区更多地关注这项任务。4.6. 定性可视化注意区域可视化。为了深入了解OA-Trans的内部表示，我们提供了进一步的可视化。具体来说，我们可视化的标题和视觉补丁之间的注意力映射，其中一个文本令牌被视为查询和所有空间令牌上的注意力权重可视化。我们使用第一个trans-former层的输出进行可视化。分析OA-Trans是否只帮助对象标记字典中包含的名词建模。我们从对象标签字典和其他不包括在对象标签字典中的新对象标签中选择名词。分配给每个补丁的注意力权重的可视化如图所示4，我们提出以下意见：I.对于“颁奖”等复杂场景，7.06.03319键基线摇滚艺术家在颁奖典礼上表演。键基线在橙色背景隔绝的控制论场景。LLOA-Trans（一）.观察对象标记。安全存款与金钱围绕它在一个白色背景照片。（b）.新颖的物体标签。图4. 跨模态注意区域可视化。特定的文本标记作为查询，补丁级标记作为键。在上半部分，“people”和“rock”在预定义的对象词汇表中。在底部，L标记L掩码R@1T2vR@5 R@10V2TR@1 R@5 R@10对于文本到视频的检索，为（23.92+143.25=167.17）ms，这在实践中是可以接受的。✓✓表6. MSRVTT上目标类别和目标区域的消融。标签表示对象标签到视频的匹配丢失，而掩码表示对象掩码图像到文本的匹配丢失。在图的右上角。4，OA-Trans更准确地关注岩石设备，而基线则关注不相关的角落。ii. 有趣的是，即使本实验表明，对象标记和区域的引入提高了整体表征能力，而不是适应对对象标记的。4.7. 效率分析由于我们在下游数据集上检索时只使用两个没有对象的正常流，因此即使在百万级数据集上检索，我们的OA-Trans也具有非常快的推理运行时间。我们使用流行的相似-城市搜索/排名库FAISS-GPU1在一台服务器上，配有8个A100 GPU和88个内核的英特尔（R）至强（R）白金8255 C CPU@2.50 GHz。给定一个新的查询，表7下面示出了视觉编码、文本编码和相似性排序所需的时间（第一行用于千级，第二行用于百万级）。对于一个新的查询，HowTo100M上的总搜索时间为（5.88+143.25=149.13）ms1https://github.com/facebookresearch/faiss表7.检索/推断期间OA-Trans的运行时间分析。数值为1000次运行的平均值。VE和TE分别表示视觉编码器和文本编码器4.8. 消融研究在本节中，我们将进行消融研究，并分析利用对象信息的不同选择。我们在WebVid2.5M上预训练我们的OA-Trans，并对零拍摄MSRVTT检索进行评估。每个组件的有效性。在本节中，我们将探讨对象区域和对象标记的效果。结果在表6中给出。当使用对象标签时，与文本到视频检索的基线相比，我们的方法实现了1.4%R@1增益。我们还发现对象标签对检索能力的贡献更大。对象标记和对象区域的组合导致最佳结果。对象的数量。在图的左边。5.通过改变实验对象的数量，比较了不同OA-Trans的结果。我们发现，更多的对象导致更好的性能一般。当对象数量大于10时，性能保持一致。因此，对象数量默认设置为10。我们还探讨了图中右侧的掩模补丁概率的影响五、在这个实验中，我们取下面罩这是真正的快餐！查询：钱查询：背景查询：食品查询：岩石数据集样本数量VETE排名MSR1K23.92ms5.88ms1.51ms100M128.94M23.92ms5.88ms143.25ms14.531.640.814.829.740.617.433.245.718.133.642.715.933.243.315.430.940.8✓ ✓18.436.247.817.533.046.43320方法R@1R@5R@10MedR仅掩码16.435.545.811.0仅原始视频15.933.243.312.0联合投入18.537.249.810.0表9.视觉流中的可选择输入比较。我们报告了零炮检索结果。战略默认。图5.左：对象的数量和相应的检索top-1结果.右：对象引导掩模概率和相应的R@1结果。两个流表8. 使用对象类别的变化。Two Stream（两条流）是指TwoStream + Padding（两条流+填充）。概率从0到0.5进行比较。我们可以看到，对于所有三个数据集，准确性首先随着概率的增加而增加但当概率大于0.2时，所有结果均显著下降。大的掩码概率将丢弃太多的区域并且语义可能改变。对象标签利用策略。在本节中，我们将研究使用对象标记的不同方法。我们研究三种变化：I. 填充：将对象标签填充到原始标题中，如Oscar [22]所示。二. 双流：使用双流输入。一个流是原始标题，另一个流是对象标记。三. 双流+填充：使用双流输入。一个流是原始标题，另一个流是带有填充对象标记的原始标题。注意所有的策略都是为预训练设计的。在测试过程中，我们使用正常的视频文本检索设置，以显示我们的方法的泛化。结果示于表8中。我们发现填充操作导致文本到视频和视频到文本检索设置的改进约为1%这种现象背后的原因是填充操作的执行类似于对文本的增强。当引入双流流水线时，我们发现文本到视频和视频到文本任务的R@1都提高了约3%。在这种形式下，模型不仅需要将视频与其原始标题对齐，还需要填充详细对象。因此，字幕中未提及的对象信息也被保留在视觉表示中。这种视觉表示可以帮助预训练模型很好地推广到更多场景。在这项工作中，我们采用了两个流视觉流中的替代输入。在本节中，我们将比较不同的视觉输入，看看哪一个有助于在我们的OA-Trans.Specifically中捕获更好的表示。我们保持其他组件不变，然后比较以下三个视觉输入：I. 原始视频输入：仅输入原始视频。二. 仅屏蔽输入：我们删除原始原始视频流，仅输入屏蔽的锚点图像。三. 联合输入：输入-把掩蔽锚图像和原始视频流.结果报告于表9中。有趣的是，我们发现Mask Only输入已经在R@10 指标上抑制了Raw Video Only 约2.5%。这表明了以对象为中心的建模在视频文本匹配中的重要性与单流输入相比，联合输入的效果最好。这一现象表明，这两个流提供了互补的信息，该模型可以受益于对象区域引导的局部对齐。5. 结论目前视频语言预训练中的双编码器网络缺乏细粒度语义对齐的学习。对象可以为这个问题提供强有力的补充，但它们的建模对于机器视觉来说是非常具有挑战性的，我们在这里提出的OA-Trans使用一个简单的对象边界框和对象标签信息来生成整个场景的上下文表示。我们注意到，这种集成在跨模态Transformer模型中是特别自然的，其中对象区域在架构中具有与均匀间隔的补丁令牌相同的作用。在我们目前的实现中，我们使用外部提供的然而，将离线边界框替换为模型在没有强监督的情况下自己生成的框将是有趣的。另一个有趣的扩展是以自我监督的方式对视频中的视觉相似区域进行聚类，其中的任务是将聚类的视频与文本对齐。我们把这些挑战留给今后的工作。确认该项目由新加坡国家研究基金会（NRF-NRFF 13 -2021-0008）和新加坡国立大学Mike Shou的启动基金支持方法T2vR@1 R@5R@10V2TR@1 R@5 R@10基线14.531.640.814.829.740.6[22]第二十二话15.533.243.415.730.541.2两条溪流†17.517.735.935.547.848.117.518.235.734.746.545.63321引用[1] Elad Amrani 、 Rami Ben Ari 、 Daniel Rotman 和 AlexBronstein。使用密度估计的噪声估计用于自我监督的多模式学习。 arXiv 预印本 arXiv ： 2003.03186 ，2020。二、四[2] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在CVPR，2018年。二、四[3] Lisa Anne Hendricks 、 Oliver Wang 、 Eli Shechtman 、Josef Sivic、Trevor Darrell和Bryan Russell。使用自然语言对视频中的时刻进行本地化。InICCV，2017. 5[4] 马克斯·贝恩、阿尔沙· 纳格拉尼、古尔·瓦罗尔和安德烈·齐塞·拉曼。《时间冻结》：一种联合视频和图像编码器用于端到端检索。 arXiv 预印本 arXiv ：2104.00650，2021。一、二、三、四、五、六[5] Gedas Bertasius，Heng Wang，and Lorenzo Torresani.时空注意力是你理解视频所需要的全部吗？ arXiv：2102.05095，2021。3[6] Gedas Bertasius，Heng Wang，and Lorenzo Torresani.时空注意力是你理解视频所需要的全部吗？arXiv预印本arXiv：2102.05095，2021。5[7] Linda L Chao和Alex Martin。背流中可操作的人造物体的表示。神经影像学，12（4）：478-484，2000。3[8] David Chen和William B Dolan。收集高度并行的数据进行释义评估。在计算语言学协会第49届年会的会议记录中：人类语言技术，第190-200页，2011年。5[9] Yen-Chun Chen ， Linjie Li ， Licheng Yu ， Ahmed ElKholy ， Faisal Ahmed ， Zhe Gan ， Yu Cheng ， andJingjingLiu.UNITER：Universalimage-textrepresentation learning，2020。一、二、三[10] I. Croitoru，S. Bogolin，M. Leordeanu，H. Jin，杨花A.齐塞尔曼，S. Albanie和Y.刘某Teachtext：Crossmodalgeneralized distillation for text-video retrieval.在IEEE/CVF计算机可视化国际会议论文集，第11583-11593页，2021年。5[11] Fartash Faghri，David J Fleet，Jamie Ryan Kiros和SanjaFidler。Vse++：用硬否定词改进视觉语义嵌入。arXiv预印本arXiv：1707.05612，2017。2[12] Valentin Gabeur ， Chen Sun ， Karteek Alahari ， andCordelia Schmid.用于视频检索的多模态Transformer。在ECCV，2020年。二、四、六[13] Kaiming He，Haoqi Fan，Yuxin Wu，Saining Xie，andRoss Girshick.用于无监督视觉表示学习的动量对比。在IEEE/CVF计算机视觉和模式识别会议论文集，第9729-9738页6[14] Will Kay 、 Joao Carreira 、 Karen Simonyan 、 BrianZhang、Chlo

下载后可阅读完整内容，剩余1页未读，立即下载