没有合适的资源?快使用搜索试试~ 我知道了~
多项选择题的视频文本检索
16167多项选择题在视频文本检索中的应用葛玉英1葛一笑2刘锡辉5李典4应珊2戚晓虎3罗萍1香港大学2ARC Lab,3腾讯盈科4内容理解中心,3腾讯PCG5加州大学伯克利分校yuyingge@hku.hk{yixiaoge,goodli,yingsshan,tigerqie}@tencent.comxihui.berkeley.edupluo@cs.hku.hkhttps://github.com/TencentARC/MCQ图1.概述我们的新借口任务,多项选择题(MCQ),用于视频文本预训练。MCQ使用新提出的参数模块BridgeFormer来执行,该模块将来自VideoFormer和TextFormer的所有级别的局部特征(中间令牌)以对比学习的形式回答多项选择题。鉴于名词和动词携带信息性的局部对象和对象运动,我们通过从句子中删除相应的短语来构建名词问题(黄色)和动词问题(红色)。BridgeFormer经过训练,在给定来自TextFormer的问题的中间标记的情况下,通过使用来自VideoFormer的中间标记的视觉推理来选择正确的擦除短语。名词和动词问题促进VideoFormer捕获详细的空间内容和时间信息。视频-文本中间标记之间的语义关联也通过问题和答案的代理任务来增强请注意,BridgeFormer已被删除,用于下游检索。摘要近年来,预训练模型以学习可转移的视频-文本表示以用于检索引起了很多关注。以往的主流检索方法主要采用两个独立的编码器来实现高效检索,但忽略了视频和文本之间的局部关联。另一种研究使用联合编码器来将视频与文本交互,但由于每个文本-视频对都需要被馈送到模型中,因此效率较低在这项工作中,我们使细粒度的视频-文本交互,同时保持高效率的检索 通 过 一 个 新 的 借 口 任 务 , 称 为 多 项 选 择 问 题(MCQ),其中一个参数模块BridgeFormer被训练来回答“问题”构造的具体地,我们利用文本的丰富语义(即,名词和动词)来构建问题,利用这些问题可以训练视频编码器以捕获更多的区域内容和时间动态。以问答的形式,探讨了本地视频文本特征可以适当地建立。BridgeFormer可以被移除用于下游检索,仅用两个编码器就可以渲染出高效灵活的模型。我们的方法在五个具有不同实验设置的数据集(即,零拍摄和微调),包括HowTo100M(一百万个视频)。我们进一步进行零镜头动作识别,这可以投射为视频到文本检索,我们的方法也显着优于其同行。作为一个额外的好处,我们的方法在单模态下游任务上使用更短的预训练视频实现了有竞争力的结果,例如具有线性评估的动作识别。1. 介绍预训练一个模型来学习视频-文本检索的可转移表示,需要理解视频概念、文本语义以及它们之间的关系“dancing”“talking”BridgeFormer“green grass”“stage”名词答案MCQ,去除用于检索TextFormerVideoFormer动词疑问句名词疑问句12“一个穿着短裤戴着帽子的女孩是谁?”在[?] ”…16168补间视频和文本。现有的视频文本预训练工作可以分为两大类。“Dual- encoder”2(a))采用两个单独的编码器来分别对比视频级和视频级表示,忽略每个模态内 的 详 细 局 部 信 息 以 及 模 态 之 间 的 关 联 。 “Joint-encoder” methods [为了实现细粒度的视频-文本交互并同时保持高检索效率,我们引入了一种新的用于视频-文本预训练的参数借口任务,即多个C选择查询(MCQ),其在所有特征级别上正确地桥接文本与视频。如图1所示,一个名为BridgeFormer的新模块使之成为可能。基于“双编码器”框架的主干MCQ增强了每个模态内的局部特征学 习 以 及 跨 模 态 的 细 粒 度 语 义 关 联 , 并 且BridgeFormer在转移到下游任务时可以很容易地被移除,而不会损失表征的区分度。具体地说,我们通过从原始文本中删除内容短语来构造“问题”,正确的“答案”应该是被删除的短语本身。由于观察到文本中的名词和动词短语携带丰富的语义信息[40],可以分别反映视频中的局部然后训练Bridge- Former通过诉诸于来自视频编码器的本地特征,以对比学习的形式从多个选择(批量中的所有擦除的内容短语)中选择正确的答案。这样的代理训练对象强制视频编码器捕获准确的空间内容(以回答名词)和时间动态(以回答动词),从而促进局部特征的区分度以及局部视频块与文本短语之间的语义关联BridgeFormer连接所有特征级别(低,中,高)的视频和文本的本地特征,即将来自视频和文本编码器的每个阶段的特征作为输入。正则化将直接施加在视频和文本特征上,这与传统的“联合编码器”的视频-文本特征聚合不同。因此,代理BridgeFormer仅用于预训练步骤,并且可以被无缝地移除以用于下游检索,从而呈现像传统的“双编码器”方法一样的灵活且高效的模型,即、先前方法(a) 损失损失(b)第(1)款简体中文网络视频相互作编码器编码器联合编码器文本视频损失文本视频(c)第(1)款落后点积检索编码器桥梁成型机编码器文本我们的预培训视频文本视频图2.现有的范例和我们的视频文本预训练之间的比较。以前的主流方法要么(a)采用两个单独的编码器来对比视频级和句子级表示,忽略视频和文本之间的局部关联,要么(b)使用联合编码器通过将视频和文本连接为输入来交互视频和文本的细粒度(c)我们提出了一个新的借口任务,使用BridgeFormer来促进本地特征学习和细粒度的视频-文本关联。对于下游检索任务,将删除代理BridgeFormer。视频和文本表示之间的相似性可以通过点积直接测量。我们的贡献是三方面的。(1)我们引入了一种新的借口任务,多项选择问题(MCQ),用于视频文本预训练,以获得“双编码器”和“联合编码器”方法的好处,即。在保持高检索效率的同时,增强了(2) 我 们 提 出 了 一 个 参 数 化 模 块 , 被 称 为 Bridge-Former,以实现MCQ的借口任务,用它来训练视频编码器以更好地了解区域对象和时间动态,并建立本地视频-文本特征之间的关联。由于桥接器将在下游任务中被移除,因此与普通主干相比,我们不增加任何额外的参数或检索的计算开销。(3)在不同的设置下,文本到视频检索的广泛结果(即,零拍摄和微调)在五个数据集上,包括大规模的HowTo100M [25](100万个视频),证明了我们方法的巨大优越性(见图3(a))。此外,我们还评估了零镜头动作识别,这可以作为一个视频到文本检索任务。如图3(a)所示,我们的方法大大超过了其竞争作为奖励,我们发现我们的方法也有利于单模态视频表示,如图3(b)所示,其中16169×(一)(b)第(1)款图3. (a)MSR-VTT(R@1)、HowTo 100 M(R@50)上的零镜头文本到视频检索的最近视频-文本预训练方法与HMDB 51(top-1)和UCF 101(top-1)上的零镜头动作识别(视频到文本检索)之间的比较。(b)用于预训练的视频长度和具有线性评估的动作识别的前1准确度,其中“-X”表示除了视频之外用于预训练的模态,即光流(OF)、运动矢量(MV)、音频(A)和文本(T)。报告了具有线性评估的动作识别的top-1准确度。尽管这些相当长的视频被用于最先进的预训练方法(例如,,在MMV [2]中比我们的长11),我们的方法仍然可以与他们相媲美。2. 相关工作视频文本检索的预训练。视频文本检索的主要预训练方法可以分为两类。第一类方法[6,11,13,22,24,27,30,38,40]采用两个单独的编码器来嵌入视频特征和文本特征,并将它们投影到同一个潜在空间中。这里使用对比目标[16,26]来区分配对的视频-文本数据与未配对的数据。这类方法因其高效性而更受大规模检索应用的青睐然而,简单地对来自两种模态的最终特征([CLS]令牌)施加正则化会导致局部视频-文本表示之间的交互不足。第二类方法[20,21,23,35,37,41]将文本和视频作为输入到联合编码器进行跨模态融合,然后是二元分类器,该分类器被训练以预测视频和文本是否对齐。尽管它们可以在视频-文本标记,每对视频和文本候选需要被馈送到模型中用于在推理期间的相似度计算,导致效率极低。屏蔽词预测的借口任务。以前的跨模态预训练工作[17,23,41]使用掩蔽词预测(MWP)的借口,其随机掩蔽句子中的一部分词并规则化网络以在视觉输入条件下从固定词汇预测掩蔽词。我们引入的MCQ借口任务与MWP在两个方面不同:(1)MWP中的预测单词对低级单词标记施加了正则化,这可能会损害交互式表示学习,因为网络还需要充当文本解码器。相比之下,在我们的MCQ中,将答案与内容短语进行对比侧重于高级语义,显示出比MWP明显更好的结果(将在实验中讨论(2)MCQ擦除名词和动词短语以构造信息性问题,其反映视觉特征中的显著语义信息,而MWP随机掩蔽单词(例如,没有内容的功能词)。3. 方法我们采用“双编码器”结构进行视频和文本的预训练,以实现高效的检索,并提出了一个新的借口任务 , 多 项 选 择 问 题 ( MCQ ) , 与 参 数 化 模 块BridgeFormer,以增强视频和文本之间的在本节中,我们首先重新审视了双编码器在第二节。第3.1条然后,我们在第二节中介绍了借口任务MCQ。3.2节中的预培训目标。三点三最后,我们描述了三个组件的体系结构,包括一个VideoFormer,一个TextFormer和一个BridgeFormer在第二节。三点四分。3.1. 用于视频文本预训练的双编码器:再谈如图4所示,我们采用双编码器结构,其包括用于从原始视频帧像素学习视频表示的VideoFormer和用于从自然语言编码文本表示的TextFormer。给定视频及其相应文本描述(例如,“A girl in shorts and a hat isdancing on the green grass”), we视频和文本之间的相似度通过f v和f t之间的点积计算。对比目标[16,26]用于最大化正对的f v和ft之间的相似性,同时最小化负对的fv和ft之间的相似性(视频及其相应的文本描述被视为正对,否则视为负对)。独立的双编码器路径只需要视频和16170*()质量分数(%)中文(简体)对比布吕夫特BridgeFormer{n}*()_q{n} n+un_q{n} ,&TextFormer视频Former文本, “[CLS]一个女孩在短裤动词,和一顶帽子是[?] /dancingNoun on the [?] /绿色草地--------LLL我----∈×联系我们文本表示法用于检索中的相似度计算,保证了检索效率。3.2. 多项选择题如图1所示,使用参数模块BridgeFormer来执行借口任 务 MCQ , 该 参 数 模 块 将 来 自 VideoFormer 和TextFormer的所有级别的中间标记相关联以回答多项选择题。鉴于文本中的名词和动词短语携带着丰富的语义信息,可以分别反映视频中物体和物体的局部运动,我们随机删除一个名词或动词短语来构造名词或动词问句。然后,BridgeFormer被训练为通过采用VideoFormer的本地令牌以对比学习的形式从多个选择(一批中的所有被擦除的短语)中选择正确的答案MCQ包括回答名词性问句和动词性问句。回答名词问题。 给定视频及其相应的文本描述(例如, “green grass”) as a noun question ( “A girl in shorts如图4、名词问题被馈送到TextFormer中用于中间文本标记znounq。中间视频令牌从VideoFormer中提取为zv。BridgeFormer以名词疑问词znounq为查询词,以视频词zv为键和值,通过跨通道注意获得名词答案表征。被擦除的名词短语被馈送到TextFormer中用于名词表示。类似地,名词答案表示和名词表示经由两个单独的线性层被投影到公共嵌入空间中作为f名词a和f名词,并且它们的相似度经由点积计算我们采用一个对比目标,当f名词是正确名词短语的表示时,使f名词a和f名词之间的相似度最大化,当f名词是其他(错误)名词短语的表示时,使f名词a和f名词培训BridgeFormer,图4.我们的预训练管道,其(1)将视频表示fv与文本表示ft进行对比,(2)通过将名词答案表示fnoun a与名词表示fnoun进行对比来训练Bridge-Former以选择正确的名词答案,(3)通过将动词答案表示fverba与动词表示fverb进行对比来训练BridgeFormer以选择正确的动词答案。请注意,BridgeFormer接收所有级别的令牌作为输入,但为了简洁起见,我们在这里只绘制一条路径。当f 动 词是其他动词短语的表征时,f 动 词a与f 动 词a 的训练BridgeFormer通过寻求视频令牌的帮助来选择正确的动词短语,迫使VideoFormer捕获详细的时间动态。3.3. 培训前目标我们采用噪声对比估计(NCE)[16,26]作为对比目标,并结合三个目标以端到端的方式优化整个模型,如下所示:L=Lvanilla+L noun+L verb(1)其中vanilla是视频表示fv和文本表示ft之间的NCE损失,noun是名词回答表示fnouna和名词表示fnoun之间的NCE损失,verb是动词回答表示fverba和动词表示fverb之间的NCE损失。我们将NCE损失公式化如下,exp(xTyi/τ)通过诉诸视频令牌选择正确的名词短语强制VideoFormer捕获准确的空间内容。NCE(xi,yi)=−logBj=1我exp(xTyj/τ)(二)回答动词问题。同样,我们随机擦除一个动词短语(例如, “一个穿着短裤戴着帽子的女孩是谁?”在绿色的草地如图4、BridgeFormer以TextFormer中的动词问题文本标记zverbq为查询,视频标记zv为键和值,得到 动 词 答 案 表 示 。 被 擦 除 的 动 词 短 语 被 馈 送 到TextFormer中用于动词表示。动词答案表征和动词表征被投影到一个共同的嵌入空间,作为f动词a和f动词。当f动词为表征时,采用对比目标,最大化f动词a和f动词之间的相似性其中B是批量的数量,温度超参数τ根据经验设置为0。05per [6].3.4. 模型架构3.4.1VideoFormer输入.VideoFormer需要一个视频VR M×3× H × W作为包含可变M帧的输入。 首先将输入视频分割成M N块,然后将其送入线性投影头,得到一个令牌序列zvRM×N ×D,其中D是嵌入维数。在BERT [9]之后,一个可学习的[CLS]令牌被连接到令牌序列的开头,…16171Qv联系我们QVvv--一一QV----具体来说,给定名词疑问句或动词疑问句文本-来自TextBlock的kens{z}l−1∈RL×Dvideo tokenzl−1RM×(N×D)(没有[CLS] to-ken)从VideoBlock作为键和值,BridgeBlock-l通过执行以下操作获得交互的令牌{z}l图5. TextFormer、Video-Former和BridgeFormer的详细架构,分别包含TextBlocks、VideoBlocks和BridgeBlocks堆栈。来自所有级别的VideoBlock和TextBlock的令牌被馈送到相应的BridgeBlock中以执行跨模态注意,然后被添加到前一个BridgeBlock的输出令牌(如果有的话)。增加了可学习的空间位置嵌入,从而产生最终to k en序列{z}0∈R(1+M×N)×D。VideoBlock 。 输 入 视 频 令 牌 序 列 z0 被 馈 送 到VideoFormer中,VideoFormer由图5所示的VideoBlocks堆栈组成,采用ViT [10]的结构。我们对原始ViT进行了微小的修改,以允许输入可变长度的视频帧,这将在附录中解释。3.4.2TextFormer输入. TextFormer以三种自然语言作为输入,包括完整的文本描述,删除了名词或动词短语的名词或动词问题,以及删除的名词或动词短语。一个[CLS]标记连接到输入的开头,以获得最终的文本表示。TextBlock。我们采用多层双向变换器编码器[31]作为TextFormer,它由一堆TextBlocks组成,如图所示。五、3.4.3BridgeFormer输入. BridgeFormer以TextFormer中的名词问句或动词问句为查询词,VideoFormer中的视频问句为键和值,获得具有跨模态注意的答案BridgeBlock BridgeFormer是建立在一个视觉转换器上的,它有一堆BridgeBlocks,如图所示五、多头注意力,计算每帧内问题文本标记和视频补丁标记之间的跨模态注意力。与来自先前桥块的输出zl-1相加的交互令牌{z}l进一步通过注意块以用于时间和空间自我注意,如图1B所示5以获得应答令牌Z1。答案表示从最后一个块的[CLS]令牌中提取。4. 实验4.1. 预训练数据集在最近的工作[6]之后,我们在具有330万图像-文本对 的 图 像 数 据 集 Google Conceptual Captions ( CC 3M ) [32] 和 具 有 250 万 视 频 - 文 本 对 的 视 频 数 据 集WebVid-2 M [6]上联合预训练我们的模型。考虑到巨大的计算成本,我们没有在大规模视频文本数据集HowTo100M [25]上对我们的模型进行预训练,该数据集 具 有 136M 视 频 文 本 对 。 相 反 , 我 们 使 用HowTo100M作为大规模零镜头文本到视频检索基准进行评估,这符合现实世界的应用。4.2. 下游任务文本到视频检索。(一). MSR-VTT[39]包含10 KYouTube视频和200 K描述,分为9 K用于训练的视频和1 K用于测试的视频。 (b). MSVD[8]包含来自YouTube的1,970个视频,具有80K描述,分为1200,100和670个视频用于训练,验证和测试。(c)。LSMDC[29]包含来自202部电影的118,081个视频片段。验证集和测试集包含7,408和1,000个视频。(d)。DiDeMo[5]包含10K Flickr视频和40K句子,其中测试集包含1,000个视频。我们将视频的所有句子描 述 连 接 为 一 个 单 一 的 查 询 [6] 。 ( e ) .HowTo100M[25]包含122万个视频和136万个描述。视频的所有句子描述被连接为单个查询。据我们所知,这是第一次在大规模数据集上评估下游文本到视频检索,即,100M的秘诀。两种设置进行了探讨的评价,包括零拍摄和微调。行动识别。(一). HMDB51[19],包含51个类别的6,766个视频。(b). UCF101[33],包含13,320个视频和101个动作类。三种设置用于评估,包括线性,其中学习的视频编码器的参数被冻结,并且仅CCC文本块LBridgeBlockLVideoBlockL{z}{z}{z}文本块BridgeBlock桥块视频块{z}1{z}1{z}1文本块1桥块1视频块1C{z}0C{z}0嵌入线性投影BridgeBlock桥块“[CLS] A girl in shortsand a hat is在绿色的草地{z}−1注意块{z}{z}多头{z}−1注意事项{z}���−1…16172×××表1.在MSR-VTT测试集上进行了文本到视频检索的实验,其中具有1 K视频,其中较高的R@k和较低的MedR(中位数排名)表示更好的性能。视频编码器输入:来自架构的3D特征(原始视频意味着在不使用预提取特征的情况下对原始视频帧像素进行训练)。#Pairs PT:用于预训练的视频-文本对的数量。我们显示了零次评估(顶部)和微调评估(底部)的结果。方法年视频编码器输入PT数据集PT配对数量R@1R@5R@10MedR[41]第四十一话2020ResNet-3D100M120M8.623.433.136.0MMV [2]2020原始视频HowTo100M,音频设置138M9.323.031.138.0[24]第二十四话2020原始视频100M120M9.924.032.429.6VATT[1]2021原始视频HowTo100M,音频设置138M--29.749.0NoiseEst [4]2021ResNeXt-101100M110M8.021.329.333.0TACo [40]2021I3D、S3D100M120M9.825.033.429.0[第38话]2021S3d100M110M10.422.230.0-MCN [7]2021ResNeXt-101100M120M10.525.233.8-[27]第二十七话2021R(2+1)100M120M12.727.536.224.0冷冻[6]2021原始视频CC3M,WebVid-2M5.5M18.739.551.610.0AVLnet [30]2021ResNeXt-101100M120M19.640.850.79.0我们2021原始视频CC3M,WebVid-2M5.5M26.046.456.47.0[41]第四十一话2020ResNet-3D100M120M16.342.856.910.0[23]第二十三话2020S3d100M110M21.249.663.16.0MMT [11]2020S3d100M120M26.657.169.64.0[21]第二十一话2021慢快电视和HowTo100M120M16.843.457.7-NoiseEst [4]2021ResNeXt-101100M110M17.441.653.68.0[20]第二十话2021原始视频COCO,VisGenome5.6M22.046.859.96.0AVLnet [30]2021ResNeXt-101100M120M27.155.666.64.0VLM [37]2021S3d100M110M28.155.567.44.0TACo [40]2021I3D、S3D100M120M28.457.871.24.0[27]第二十七话2021R(2+1)100M120M30.158.569.33.0[第38话]2021S3d100M110M30.955.466.8-冷冻[6]2021原始视频CC3M,WebVid-2M5.5M31.059.570.53.0我们2021原始视频CC3M,WebVid-2M5.5M37.664.875.13.0线性分类器被优化、微调(其中视频编码器用线性分类器微调)和零触发(zero-shot),零触发通过使用动作类的名称作为文本描述来执行视频到文本检索。4.3. 实现细节视频大小调整为224 224作为输入。我们将视频分成M个相等的片段,并从每个片段中随机抽取一帧进行训练,同时从每个片段中均匀抽取一帧进行测试。VideoFormer包含12个区块,区块大小P=16,序列维度D=768。它使用在ImageNet-21 k上训练的ViT [10]权重初始化[6]。TextFormer采用DistilBERT [31]的架构,在英文维基百科和多伦多图书语料库上进行预训练。公共特征空间的维度被设置为256。对比物镜的温度超参数设置为0.05。上述实施细节遵循近期工作[6]公平比较。BridgeFormer包含12个块。我们首先在图像数据集CC 3 M和视频数据集WebVid-2 M上使用1帧10个epoch预训练我们的模型,批量大小为2048,学习率为1 10−4。然后,我们在视频数据集WebVid-2 M对于4个时期使用4帧,批量大小为800,学习率为310- 5 预培训总共需要25个小时。对于下游任务,根据先前工作的设置,对用于文本到视频检索的4帧和用于动作识别的16帧进行均匀采样[6,24]。4.4. 主要结果4.4.1文本到视频检索表. 1列出了MST-VTT上的结果[39]。首先,我们的方法优于所有以前的工作了很大的保证金。我们的模型在零射击评估下的显着更高的性能证明了我们的预训练模型具有更强的泛化能力。在MSR-VTT的训练集上微调我们的预训练模型也压倒性地超过了它的对手,显示了它在使用特定于任务的数据进行优化方面的优势。其次,虽然以前的工作主要是在HowTo 100 M [25]上进行预训练,其幅度比我们的预训练数据集CC 3 M[32]和WebVid-2 M [6](视频-文本对的数量大20倍)大得多,但我们的方法仍然以更低的计算成本(即,VATT [1]使用256 TPU需要3天,而我们使用40 A100需要第三,以前的工作依赖于从“专家”模型中预先提取的特征SupportSet [27]使用来自34层R(2+1)-D模型[36]的特征,该模型在IG 65 M [12]上预先训练作为输入,而我们的模型将原始视频帧像素作为输入,并实现了显着的性能提升。最后,与以前的工作[20,21,23,37,41]相比,采用联合编码器来连接视频和文本作为输入,因此每个文本-视频组合都需要归属于模型进行检索,我们的模型只包含视频16173表2.在不同数据集上进行文本到视频检索的实验,其中较高的R@k和较低的MedR(中位数排名)表明性能更好。我们显示了零次评估(顶部)和微调评估(底部)的结果。(a) MSVD测试集,包含670个视频。(b) 带有1K视频的LSMDC测试集。(c) DiDeMo测试集,1K视频。方法R@1R@5R@10MedR方法R@1 R@5 R@10 MedR方法R@1R@5R@10MedRNoiseEst [4]13.735.747.712.0AVLnet[30]1.4 五点九9.4273.5[第38话]16.646.9--[27]第二十七话21.446.257.76.0NoiseEst [4] 4.2十一点六17.1 119.0冷冻[6]21.146.056.27.0冷冻[6]33.764.776.33.0冷冻[6]9.322.030.151.0我们25.650.661.15.0我们43.674.984.92.0我们12.2二十五点九32.242.0[21]第二十一话2.1-11.4-NoiseEst [4]20.349.063.36.0NoiseEst [4] 6.4十九点八28.439.0[22]第二十二话16.141.182.78.3[27]第二十七话28.460.072.94.0MMT [11]12.9二十九点九40.119.3[20]第二十话20.448.060.86.0冷冻[6]45.679.888.22.0冷冻[6]15.030.839.820.0冷冻[6]31.059.872.43.0我们52.082.890.01.0我们17.9三十五点四44.515.0我们37.062.273.93.0表3.在大规模HowTo 100 M上进行了零镜头文本到视频检索的实验,其中较高的R@k和较低的MedR表示更好的性能。“视频数量”表示用于评估的s个采样视频的数量,其中1M表示整个集合。视频10K50K0.1M0.5M1M以及用于下游检索的文本编码器,其仅需要视频和文本表示之间的点积,因此大大提高了效率。我们进一步在表中显示了MSVD [8],DiDeMo [5]和LSMDC上的文本到视频检索结果。二、我们可以观察到,我们的模型在这三个数据集上实现了最佳性能,同时具有零拍摄和微调评估。除了在之前的工作中对相对少量的视频(例如MSR-VTT测试集中的1 K视频)进行文本到视频检索评估外,我们还在具有100万个视频的大规模HowTo100 M上评估了我们的模型,这是一个更具挑战性和现实性的场景。表. 3显示我们的预训练模型超过了SOTAFrozen [6],从10K视频到1M视频不等。由于我们的方法和Frozen都采用两个编码器(基于ViT [10]和Dis-tilBERT [31])进行检索,并且在相同的数据集上进行了预训练,因此我们的优越性能证明了我们的借口任务MCQ在学习文本到视频检索的强大表示方面的有效性。4.4.2动作识别我们在HMDB 51 [19]和UCF 101 [33]上进行零镜头动作识别,这可以被视为视频到文本的检索,并且在最近的方法中没有评估。如表中所示4、我们的模式明显超越其竞争对手方法R@50R@200R@500MedR[20]第二十话15.833.649.8506.0冷冻[6]28.046.661.5244.0我们31.650.965.2189.0冷冻[6]13.425.036.21247.0我们15.928.640.2965.0冷冻[6]9.418.527.52519.0我们11.521.731.21907.0冷冻[6]4.08.513.412501.0我们5.010.315.99449.0冷冻[6]2.65.99.524597.0我们3.47.311.618612.016174×××同行与最近提出的ClipBert和Frozen相比,我们的模型在三个分割上平均的前1准确率在HMDB 51上提高了16.3%和9.9%,在UCF 101上提高了25.3%和7.2%,这表明我们的模型在学习视频和语言之间的联合表示方面具有很大的优势,可以实现零镜头动作识别。我们通过线性和完全微调评估的动作识别进一步评估了我们模型的单模态视频表示,如表所示5,其中来自VideoFormer的表示被提取作为可训练线性分类器的输入。我们的方法比以前的一些工作实现了更高的准确性,这些工作在视频时间相当长的数据集上预训练他们的模型(例如,14在XDC中更长[3],10[24]第二十四话和VATT [1]),表明我们的方法在学习可转移的视频表示动作识别的有效性尽管MMV [2]在比我们的方法长11倍的数据集上进行预训练时表现得更好,其中包括音频和文本以及视频在内的多种形式,但当仅使用音频和视频或文本和视频时,其性能远远落后于我们的方法。我们可以得出结论,我们的方法更有效地利用语言模态,以更少的视频时间学习更强的视频表示4.5. 消融研究在本节中,我们通过评估MSR-VTT上的零镜头文本到视频检索的不同模型以及HMDB 51和UCF 101上的零镜头动作识别来讨论我们的设计在借口任务MCQ上的有效性MCQ有效吗是的如表中所示6、在没有MCQ任务的情况下对模型进行预训练会显著降低性能,其中仅采用两个单独的编码器来对比视频级和视频级特征。它对回答名词和动词问题有帮助吗?是的如表中所示。6、通过只回答名词性问题或只回答动词性问题来训练BridgeFormer的伤害表现。随机擦除单词来构建问题也会产生更差的结果。16175表4.在HMDB 51和UCF 101上进行的零镜头动作识别(视频到文本检索)的实验,在top-1准确率方面。“S” denotesdifferent test splits and “Mean” reports the results averaged onthree方法S1HMDB51S2 S3是说S1UCF101S2S3是说[20]第二十话20.022.022.321.427.527.028.827.8冷冻[6]27.528.327.727.845.444.747.745.9我们38.036.139.137.751.154.353.853.1表 5. HMDB51 和 UCF101 上 的 动 作 识 别 实 验 , 线 性 评 估(Lin)和完全微调评估(Full)。评估指标是top-1准确度。“Mod” 表 示 除 了 视 频 之 外 用 于 预 训 练 的 模 态 , 即 光 流(OF)、运动矢量(MV)、音频(A)、文本(T)。“Len” denotes the total duration of videos for pre-training in方法Mod长度(K)HMDB林满UCF林满CCL [18]-1.829.5三十七点八54.069.4CBT [34]-1.829.5四十四分五54.0七十九点五MemDPC [14]的1.830.5五十四点五54.186.1科帕卡巴纳[15]的1.852.462.977.8九十点六MVCGCMV1.853.0六十三点四78.0九十点八XDC R [3]一188.349.961.280.7八十八点八XDC K [3]一188.356.063.185.3九十一点五[24]第二十四话不134.554.8五十九点二83.4八十九点一冷冻[6]不13.061.366.387.8八十九点八VATT[1]A、T139.863.3-89.2-[第28话]A的115.064.5六十七点四-93.8MMV [2]一134.553.6-77.1-MMV [2]不134.555.1-86.8-MMV [2]A、T139.867.175.091.8九十五点二我们不13.065.8六十九点八89.192.3视频有助于回答问题吗是的如表所示7、当名词-问句和动词-问句只通过计算问句表示与文本编码器输出的短语表示之间的相似度来选择答案,而不通过Bridge-Former借助视频标记时,结果急剧下降。多项选择题与 屏蔽词预测训练BridgeFormer以单词标记的形式预测答案(类似于现有的掩蔽工作预测(MWP)),而不是在MCQ中的一批短语中选择正确答案,实际上会损害性能,如表所示6,甚至低于基线(w/o MCQ)。所有级别的功能与最高级别的功能的桥梁-成型器。当BridgeFormer将文本和视频编码器的最高级特征作为输入(级联结构)而不是所有级别的特征(并行结构)时,我们观察到性能下降,如表所示。6由于缺乏中间特征的正则化。即便如此,仅使用最高级别的功能也可以稍微超过我们的基线(w/o MCQ),这表明我们的MCQ借口任务的有效性。实际上,这样的级联结构类似于在预处理中使用的级联16176表6. MCQ不同组分的消融研究。在MSR-VTT上进行了零镜头文本到视频的检索,在HMDB 51和UCF 101上进行了零镜头动作的识别。方法R@1MSR-VTTR@5R@10HMDB51Top-1UCF101Top-1不含MCQ22.343.852.033.245.7随机回答23.045.555.536.950.7回答名词24.946.258.036.251.8回答动词23.346.757.536.351.5MWP20.639.750.129.038.7最高级23.346.056.436.547.7我们26.046.456.437.753.1表7.视频信息在回答问题时的消融研究。WebVid-2 M验证集的名词或动词问题的结果报告。回答名词R@1R@5R@10回答动词R@1R@5R@10无视频6.617.524.34.512.317.7与视频58.681.187.240.764.073.2其中采用了两个单独的编码器,后面跟着一个交叉Transformer。然而,这些工程中的交叉Transformer不能以与我们的桥接器相同的方式容易地移除以用于下游再取用,例如,在[23]中观察到文本到视频检索的R@1明显下降6.7%,进一步表明我们的新MCQ的灵活性和可行性。5. 结论在这项工作中,我们引入了一种新的借口任务,多项选择问题(MCQ)的视频文本预训练,加强了本地视频和文本特征之间的细粒度语义关联,并在同一时间保持高效率的检索。一个参数化的模块Bridge-Former被训练来回答由文本特征通过求助于视频特征构造的问题,并且可以很容易地被移除用于下游任务。在文本到视频检索和零镜头动作识别上的广泛评估清楚地表明了我们的方法的巨大优越性。限制. (1)现有的NLP模型不能提取出完全准确的名词和动词短语供我们构造问题。(2)在现有的视频-文本数据集中,文本描述和对应的视频实际上可能未对齐,导致噪声监督。负面社会影响。由于我们不过滤掉可能不适当的视频(例如,在预训练数据集中,我们的模型可以用来搜
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 新代数控API接口实现CNC数据采集技术解析
- Java版Window任务管理器的设计与实现
- 响应式网页模板及前端源码合集:HTML、CSS、JS与H5
- 可爱贪吃蛇动画特效的Canvas实现教程
- 微信小程序婚礼邀请函教程
- SOCR UCLA WebGis修改:整合世界银行数据
- BUPT计网课程设计:实现具有中继转发功能的DNS服务器
- C# Winform记事本工具开发教程与功能介绍
- 移动端自适应H5网页模板与前端源码包
- Logadm日志管理工具:创建与删除日志条目的详细指南
- 双日记微信小程序开源项目-百度地图集成
- ThreeJS天空盒素材集锦 35+ 优质效果
- 百度地图Java源码深度解析:GoogleDapper中文翻译与应用
- Linux系统调查工具:BashScripts脚本集合
- Kubernetes v1.20 完整二进制安装指南与脚本
- 百度地图开发java源码-KSYMediaPlayerKit_Android库更新与使用说明
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功