没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2255获取更多论文TS 2-Net:文本-视频检索中的标记移位和选择刘宇奇1、2、熊鹏飞2、徐鲁辉2、曹胜明2、秦进1()1中国人民大学信息学院2腾讯{yuqi657,qjin} @ ruc.edu.cn,xiongpengfei2019@gmail.com,{lukenxu,devancao} @tencent.com抽象的。文本-视频检索是一项具有重要实用价值的研究课题,受到了越来越多的关注,其中学习时空视频表示是研究的热点之一现有的视频检索模型中的视频编码器通常直接采用预先训练好的视觉骨干,网络结构固定,无法进一步改进以产生细粒度的时空视频表示。在本文中,我们提出了令牌移位和选择网络(TS 2-Net),一种新的令牌移位和选择变换器的架构,它动态地调整令牌序列,并选择在时间和空间维度的信息令牌从输入视频样本。标记移位模块在相邻帧之间来回地在时间上移位然后,标记选择模块选择对局部空间语义贡献最大的标记基于全面的实验,提出的TS 2-Net在主要的文本视频检索基准上实现了最先进的性能,包括MSRVTT,VATEX,LSMDC,Activ- ityNet和DiDeMo的新记录。 代码将在https://github.com/yuqi 657/ts2_net上提供。关键词:文本视频检索,标记移位,标记选择1介绍随着先进的数字技术,每天都有大量的视频生成和上传到网上。基于用户文本查询的目标视频搜索是一项具有重要实用价值的研究课题,受到了越来越多的关注。在过去的几年里,已经建立了不同的文本视频基准[2,48,10,41,46,25],并且已经建立了各种文本视频检索方法0通讯作者这项工作是在宇奇在腾讯实习时完成的arXiv:2207.07852v1 [cs.CV] 2022年7+v:mala2255获取更多论文2Y. Liu,P. Xiong,et al.图1.一、需要细粒度视频表示的文本视频检索示例。左:小对象“帽子”对于正确检索目标视频很重要。右:“说话”的微妙动作对于正确检索目标视频至关重要。绿框表示阳性视频结果,红框表示阴性候选结果提出了[11,17,21,32,31,34],其通常基于文本查询和语料库中的可识别视频之间的相似性函数将任务制定为学习随着深度神经网络的成功[9,20,47],深度学习的功能已经取代了手动设计的功能。文本-视频检索引擎通常由文本编码器和视频编码器组成,其将文本查询和视频候选映射到相同的嵌入空间,其中可以使用距离度量来容易地计算相似性。构建一个强大的视频编码器来产生视频的时空特征编码,可以同时捕获视频帧之间的运动,以及视频帧中的实体,近年来一直是文本视频检索的研究热点之一[29,3,33]。最近,Transformer已经成为主导的视觉编码器架构,并且它可以使用原始视频和文本数据训练视频语言模型[4,35,19,12]。考虑到空间和时间表示,各种视频变换器[3,33,5,8]在主要基准测试中取得了优异的性能。然而,这些模型仍然缺乏在空间或时间维度上的细粒度表示能力。例如,模型[35,19,12]中的视频编码器通常由单帧特征提取模块和随后的全局特征聚合模块组成,其缺乏相邻帧之间的细粒度交互,并且仅聚合帧级语义信息。 虽然Frozen [ 4 ]中的视频编码器采用了划分的时空注意力,但它仅使用一个[CLS]令牌作为视频表示,无法捕获细粒度的时空细节。总体而言,这些模型都能有效地表示视频中明显的运动和空间语义,但对细微运动和小物体的处理能力仍然不足它们将在图1所示的情况下失效。1,其中视频编码器需要捕获小对象( “ 帽 子 ” ) 和微妙的运动(“说话”),以便检索正确的目标视频。根据视频Transformer的结构,将视频序列在时间和空间上划分为连续的块。为了增强小物体和细微运动的建模,补丁增强是一个直观和直接的解决方案。这促使我们找到一种可行的方法,将空间-+v:mala2255获取更多论文TS 2-Net:用于文本-视频检索的令牌移位和选择Transformer 3时间补丁上下文到编码的特征。在TSM[29]中引入了移位操作,其沿着时间维度移位信道的部分。Shift Transformer[52]在视觉Transformer中应用移位来增强时间建模。然而,Transformer的架构与CNN不同,这种部分移位操作破坏了每个令牌表示的完整性因此,本文提出了一种新的令牌移位和选择Transformer网络TS 2-Net来实现局部块特征增强。具体而言,我们首先采用了TS 2-Net中的token移位模块,该模块将整个空间token特征在相邻帧之间来回移位,以捕获帧之间的局部运动然后,我们设计了一个令牌选择模块来选择top-K信息令牌,以提高显着的语义特征建模能力。我们的token移位模块将每个token的特征视为一个整体,并迭代地将同一位置的token特征与相邻帧进行交换,以保持完整的局部token表示,同时捕获局部时间语义。标记选择模块利用选择网络估计斑块的每个标记特征的重要性,该选择网络依赖于所有时空斑块特征与[CLS]标记之间的相关性。然后选择对局部空间语义贡献最大的标记最后,我们以细粒度的方式对齐跨模态表示,计算文本和每个逐帧视频嵌入之间的相似性,并将它们聚合在一起。TS 2-Net采用视频-语言对比学习进行优化。我们对几个文本视频检索基准进行了广泛的实验,以评估我们的模型,包括MSRVTT,VATEX,LSMDC,ActivityNet和DiDeMo。我们提出的TS 2-Net在大多数基准测试中达到了最先进的性能。消融实验表明,所提出的令牌移动和令牌选择模块都提高了细粒度文本视频检索的准确率。本工作的主要贡献如下:– 我们提出了一个新的视角,视频语言学习与本地补丁增强,以提高文本视频检索。– 我 们 引 入 了 两 个 模 块 , 令 牌 移 位 Transformer 和 令 牌 选 择transformer,以更好地模拟视频表示的时间和空间。– 我们报告了几个文本视频检索基准的检索精度的新记录。彻底的消融研究证明了我们的补片增强概念的优点。2相关工作2.1视频检索已经提出了各种方法来处理文本视频检索任务,这些方法通常由离线特征提取器和特征融合模块组成[50,32,21,17,11,31,14,45]。MMT[21] 使 用 交 叉 模 态 编 码 器 来 聚 合 由 不 同 专 家 提 取 的 特 征 。MDMMT[17]进一步利用从多域数据集学习的知识。最近的作品[26,4,35,19,12]试图+v:mala2255获取更多论文4岁。Liu,P. Xiong,et al.以端到端的方式训练文本视频模型。ClipBERT[26]是开创性的端到端文本视频预训练模型。结果表明,联合训练高层语义对齐网络和底层特征提取器,是有益的。CLIP4Clip[35]和CLIP2Video[19]将知识从预训练的CLIP[38]转移到视频检索任务。然而,这些模型仍然缺乏在空间或时间维度上的细粒度表示能力与以往的工作不同,我们的目标是模型细粒度的空间和时间信息,以提高文本视频检索。2.2视觉语言预训练视觉语言预训练模型在图像检索、图像字幕和视频检索等视觉和语言任 务 中 表 现 出 了 良 好 的 效 果 在 Unicoder-VL[27] , VL-BERT[43] 和VLP[53]等作品中,文本和视觉序列被输入到共享的Transformer编码器中在Hero[28],ClipBERT[26]和Univl[34]中,文本和视觉序列独立编码,然后使用交叉编码器融合不同的模态。而在Frozen[4],CLIP[38]中,文本和视觉序列是独立编码的,并且使用对比损失来对齐文本和视觉嵌入。我们的工作使用两个流结构,其中文本特征和视频特征被独立编码,然后使用跨模态对比损失来对齐它们。2.3视频表示学习早期的作品使用2D或3D-CNN来编码视频特征[9,20,20,29]。最近,Visual Transformer(ViT)[16]在图像建模方面显示出巨大的潜力。许多作品试图将ViT转换为视频域[3,5 ,8 ,33]。TimeTransformer [5]和ViViT[3]提出了时空视频Transformer的变体。有几项工作探索移位操作以使2D网络能够学习时间信息,包括TSM[29]和移位Transformer[52]。它们沿着时间维度移动部分通道。与以往的工作不同,我们考虑令牌移位操作,我们将所有通道的选定的视觉令牌的时间维,而不是部分移位(即移动一些通道)。在基于Transformer的可视化模型中,为了减少冗余问题,采用了标记选择的方法.动态ViT[40]和STTS[44]使用令牌选择来提高效率。在[6]中提出了扰动极大值以使top-K可微。基于差分top-K[13],我们的工作设计了一个轻量级的令牌选择模块,以选择有效的时空建模的信息令牌。3方法文本视频检索的目标是根据文本查询找到最佳匹配的视频。图图2说明了用于文本视频检索任务的拟议TS 2-Net模型的总体结构,该模型由三个关键组件组成+v:mala2255获取更多论文--∈--TS 2-Net:用于文本-视频检索的令牌移位和选择Transformer 5图二. 概述了本文提出的用于文本-视频检索的TS 2-Net模型,该模型由三个关键组件组成:文本编码器、视频编码器和文本-视频匹配。该视频编码器由令牌移位变换器Transformer和令牌选择变换器Transformer组成。(‘Repre’文本编码器、视频编码器和文本-视频匹配。文本编码器将查询词序列编码为查询表示q。在本文中,我们使用GPT [39]模型作为文本编码器。通过在查询词序列的末尾添加一个特殊的标记[EOS],我们使用GPT编码器对[EOS]的编码作为查询表示q。视频编码器将视频帧序列编码为逐帧视频表示序列v = f1,f2,. . . ,ft. 基于查询和视频表示q和v,文本-视频匹配计算查询和视频候选之间的跨模态相似度。在下面的章节中,我们首先详细说明我们的视频编码器的核心成分,即令牌移位Transformer(第二节)。3.1)和选择Transformer(第3.2),最后详细介绍了我们的文本-视频匹配策略(第3.2节)。3.3)。3.1令牌移位Transformer令牌移位Transformer基于Vision Transformer(ViT)[16]。 它在Transformer块中插入一个令牌移位模块。 让我们先回顾一下ViT模型,然后描述我们对ViT的修改。给定图像I,ViT首先将Ii n分裂成N个块{p0 ,p1 ,. . . ,pn−1}。 为了消除歧义,我们使用令牌来表示下面的补丁。在添加[CLS]令牌pcls之后,令牌序列pcls,p0,p1,. . . ,pn-1被馈送到Transformer块的stack。然后,通过平均所有视觉标记或使用[CLS]标记p cls来生成图像嵌入。在这项工作中,我们使用pcls作为图像嵌入。令牌shift Transformer旨在有效地对视频中的细微动作进行建模。所提出的令牌移位操作是无参数的操作,如图1所示。3.假设我们有一个视频VRT×N×C,其中T表示数字N指的是每帧的标记数,C表示特征维数。我们将T帧输入ViT中以编码帧特征。在某些ViT层,我们将一些令牌从相邻帧转移到当前帧,+v:mala2255获取更多论文6岁。Liu,P. Xiong,et al.图3. 不同类型的移位操作和我们提出的令牌节奏移位的插图。“T,P,C”分别指视频时间维度、视频令牌和特征通道。每个垂直立方体组表示时空视频令牌。带有虚线的立方体表示截断的张量,白色立方体表示张量填充。在Shift-Transformer [52]中,令牌沿着通道维度移动,而我们提出的令牌移动模块不会损害视频令牌的完整性交换相邻帧的信息请注意,我们在实现中使用了双向令牌移位通过相邻帧之间的标记移位操作,我们的模型能够捕获局部时间间隔内的细微运动。Shift-Transformer [52]还探索了视觉转换器架构上的几个移位变体。图3可视化这些移位变量和我们提出的令牌移位之间的差异朴素通道时间移位沿着时间维度交换帧张量的通道的一部分,如图2所示3(a). 移位- Transformer [52]还提供了[VIS]通道时间移位和[CLS]通道时间移位,如图所示。3(b)(c)。它们固定了token维的张量,并沿着时间维移动了所选token的部分通道与这些工作不同的是,我们的令牌移位Transformer强调令牌维度,其中我们在相邻帧之间来回移动令牌的整个通道3(d)。我们相信我们的token移位更适合ViT架构,因为与CNN架构不同,ViT中的每个token都是独立的,并且包含关于其位置的唯一空间信息。因此,移动部分通道会破坏令牌中包含的信息的完整性。相反,将整个令牌与所有通道一起移动可以保留令牌中包含的完整信息并实现跨帧交互。然而,如果我们移动每个ViT层中的大部分令牌,则会损害空间建模能力,并且这些令牌中包含的信息在当前帧中不再可访问因此,我们使用原始特征和标记移位特征之间的残差连接二、此外,我们假设浅层对空间特征建模更重要,因此在浅层中移动可能会损害空间建模。因此,我们选择在我们的实现中仅在更深的层中应用令牌移位操作。+v:mala2255获取更多论文{} ∈≤--CLS∈01n−12CLSTS 2-Net:用于文本-视频检索的令牌移位和选择Transformer 7图四、 令牌选择模块的图示。每帧从原始时空标记中选择Top-K信息标记用于后续特征聚合3.2令牌选择Transformer聚合来自每个帧的信息是构建视频表示的必要步骤。聚合每帧信息的简 单 解 决 方 案 是 通 过 添 加 一 些 时 间 Transformer 层 , 或 者 通 过CLIP4Clip[35]的平均池化我们认为,仅使用[CLS]令牌的聚合会导致丢失重要的空间信息(即,一些物体)。另一种方法是使用来自所有帧的所有令牌来聚合信息,但这引入了冗余问题,导致一些背景令牌的陷阱,这些背景令牌具有主导最终视频表示的不相关在这项工作中,我们提出了令牌选择Transformer通过插入一个令牌选择模块,其目的是选择每帧的信息令牌,特别是那些令牌包含显着的语义对象,视频特征聚合。如图4、每帧经由可训练令牌选择模块选择前K个信息令牌。令牌选择模块的输入是每个帧I=pcls,p0,p1,.. . . ,pn−1R(N+1)×C. 我们首先在I上应用MLP以用于信道降维并输出C′I′={p′,p′,p′,. . . ,p′ } ∈ R(N+1)× . 然后我们用p作为全局坐标系特征,并将其与eachlocal连接为kenp′i,pi=[p′cls,p′i],0i
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功