TS2-Net：提升文本-视频检索的时空表示学习新方法

196 浏览量更新于2024-06-19 收藏 2.47MB PDF 举报

"TS2-Net：文本-视频检索中的动态标记移位和选择" 文本-视频检索是一个关键的计算机视觉任务，旨在通过用户提供的文本查询找到相关视频。近年来，随着大量视频数据的产生，这个领域的研究变得越来越重要。现有的检索模型通常依赖于预训练的视觉骨干网络来编码视频，但这种固定结构往往限制了模型获取细粒度时空视频表示的能力。 TS2-Net（Token Shift and Selection Network）是为了解决这个问题而提出的一种新架构。该模型引入了动态的标记移位和选择机制，能够自适应地调整和优化输入视频样本的信息表示。首先，标记移位模块执行跨帧的令牌移动，这允许模型捕获时间维度上的连续性和变化。这一过程有助于捕捉到如动作序列或物体运动等时间相关的上下文信息。接着，标记选择模块介入，它根据局部空间语义的重要性来选择和保留令牌。这样，TS2-Net可以更有效地聚焦于视频中的关键区域，比如小物体或微妙的动作，这些在文本视频检索中往往是决定性的因素（见图1）。例如，找到一个包含小帽子的对象或者识别人物的微妙动作（如说话）对于正确检索目标视频至关重要。通过广泛的实验，TS2-Net在多个主要的文本视频检索基准上，如MSRVTT、VATEX、LSMDC、ActivityNet和DiDeMo，均展现出最先进的性能，创造了新的记录。这表明TS2-Net的动态令牌处理策略对于提高检索精度有显著效果。 TS2-Net的创新在于它的灵活性和动态性，这使得模型能适应不同场景和任务的需求，从而提升文本-视频检索的准确性和效率。通过在时间和空间维度上进行灵活的标记操作，TS2-Net能够更好地理解视频中的复杂内容，这对于处理具有挑战性的检索任务至关重要。此工作的代码已发布在GitHub（https://github.com/yuqi657/ts2_net），供研究者和开发者使用和进一步探索。TS2-Net为文本-视频检索领域提供了新的视角和解决方案，有望推动未来相关技术的发展。

+v：mala2255获取更多论

文

∈

TS 2-Net：用于文本-视频检索的令牌移位和选择Transformer 5

图二

概述了本文提出的用于文本-视频检索的TS 2-Net模型，该模型由三个关键

组件组成：文本编码器、视频编码器和文本-视频匹配。该视频编码器由令牌移

位变换器Transformer和令牌选择变换器Transformer组成。

(‘Repre’

文本编码器、视频编码器和文本-视频匹配。文本编码器将查询词序

列编码为查询表示

。在本文中，我们使用GPT [39]模型作为文本编

码器。通过在查询词序列的末尾添加一个特殊的标记[EOS]，我们使

用GPT编码器对[EOS]的编码作为查询表示

。视频编码器将视频帧序

列编码为逐帧视频表示序列

，

. . .

，

. 基于查询和视频表示

和

，文本-视频匹配计算查询和视频候选之间的跨模态相似度。在下

面的章节中，我们首先详细说明我们的视频编码器的核心成分，即令

牌移位Transformer（第二节）。3.1）和选择Transformer（第3.2），最

后详细介绍了我们的文本-视频匹配策略（第3.2节）。3.3）。

3.1

令牌移位Transformer

令牌移位Transformer基于Vision Transformer（ViT）[16]。

它

在Transformer块

中插入一个令牌移位模块。让我们先回顾一下ViT模型，然后描述我们对

ViT的修改。给定图像

，ViT首先将

i n分裂

成

个

块

{

，

. . .

，

−

}

。

为了

消除

歧义，

我们

使用

令牌

来

表示下面的

补丁

。在添加[CLS]令

牌

cls

之后，令牌序列

cls

，

. . .

，

被

馈送

到

Transformer块

的stac

k。

然后

，

通过平均所有视觉标记或使用[CLS]标记p cls来生成图像嵌入。在这

项工作中，我们使用

cls

作为图像嵌入。令牌 shift Transformer旨在有效地

对视频中的细微动作进行建模。所提出的令牌移位操作是无参数的操作，

如图1所示。3.假设我们有一个视频

V R

×N×C

，

其中

表示数字

指

的是每帧的标记数，

表示特征维数。我们将

帧输入ViT中以编码帧特征。

在某些 ViT层，我们将一些令牌从相邻帧转移到当前帧，

剩余22页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

TS2-Net：提升文本-视频检索的时空表示学习新方法

IEC TS 63209-2：2022 光伏模块 - 扩展应力测试 - 第 2 部分：聚合物成分材料 - 完整英文版（22页）

IEC TS 62788-2：2017 光伏组件所用材料的测量程序 - 聚合物材料 - 前板和背板 - 完整英文版（90页）

prettier-tslint：代码:right_arrow:漂亮的:right_arrow:tslint --fix:right_arrow:格式化的代码:sparkles:

koa-ts-node：:rainbow:一个直接使用ts-node和typescript的纯服务器端koa框架

vscode-typescript-tslint-plugin:使用typescript-tslint-plugin提供TSLint支持的VS Code扩展

coc-tslint-plugin:使用typescript-tslint-plugin提供TSLint支持的coc.nvim扩展

egg-ts-helper::cooking:生成Egg的TypeScript定义文件（d.ts）

ngrx-tslint-rules:NgRx的TSLint规则

typescript-tslint-plugin:TypeScript TSLint语言服务插件

tslint-config:TypeScript规则

最新资源