动态VGT：视频问答中的Transformer模型与跨模态交互提升

38 浏览量更新于2024-06-19 收藏 1.21MB PDF 举报

视频图形转换器Transformer（VGT）是一种创新的模型，专为视频问答（VideoQA）设计，旨在提升动态推理和跨模态交互的能力。VGT的独特之处在于其设计的两个核心组件： 1. 动态Transformer模块：这个模块是VGT的核心创新，它通过精确捕捉视频中的视觉对象及其动态变化，实现了对时空信息的深度编码。动态Transformer能够有效地处理复杂的空间和时间关系，使得模型能够进行细致的推理，这在传统的视频编码方法中是缺失的。它摒弃了传统上纠缠的跨模态Transformer，转而采用显式的方法来处理视频内容，提高了对视频内容的理解和推理精度。 2. 解耦视频和文本Transformer：VGT采用了解耦的Transformer结构，允许视频和文本之间进行独立但相关的处理。这种设计有助于增强模型在视频和文本之间的比较能力，从而更好地执行问答任务，而不是仅仅依赖于预先纠缠的跨模态处理方式。在没有大规模外部数据预训练的情况下，VGT已经显示出在动态关系推理的VideoQA任务上的卓越性能，有时甚至超越了那些依赖数百万数据预训练的模型。这表明，VGT在处理有限数据时也能展现出强大的学习能力和适应性。此外，研究还发现，尽管VGT可以从自我监督的跨模态预训练中受益，但即使是小规模的数据集也能显著提升模型的表现，这揭示了VGT在数据效率方面的潜力。VGT不仅关注粗略的物体识别和描述，还着重于细粒度的关系推理，这对于理解和应对现实世界中的复杂视频情境至关重要。通过全面的分析和实验，VGT模型展示了其在视频问答领域的先进性和有效性，为该领域的研究提供了新的方向，特别是在如何更高效地结合视觉和语言信息，以及如何进行深度关系推理方面。目前，VGT的相关代码已开源，供学术界和业界进一步研究和应用，有望推动视频问答技术的发展，突破现有的识别和描述水平，向更深层次的智能理解迈进。

+v：mala2255获取更多论

文

∈

我

不

我

视频图形Transformer用于视频提问5

经由

语言模型

对所有可确定

答案的表示FA（例如， BERT

[11]）。通过返回f qv和f a之间

具有最大相似性（相关性得

分）的候选答案来确定

最终

答案

通过点积。该模型

的核心是动态图形Transformer

模块

（DGT）。模块clip-wise reasons

在输入图，和ag-

Fig. 1.

视频图形转换概述

前（VGT）为视频QA。

将它们集合成特征表示

DGT

的序列，然后将其馈送到全局Transformer

以实现

。在训练过程中，整个框架使用Softmax交叉熵损失进行端

到端优化。对于弱配对视频文本数据的预训练，我们采用跨模态匹配

作为主要代理任务，并以对比的方式优化模型[44]以及掩蔽语言建模

[11]。

3.2

视频图形表示

给定一个视频，我们以类似于

[60]的方式稀疏地采样

帧被均

匀地分布到长度

为

的

个

剪

辑中。对于每个采样帧（见图

2），我们提取

个

RoI对齐的特

征作为对象外观表示

F1 F2 F3 F4

{

}

以及他们的空间位置

使用预先训练的对象检测器

[2，45]，其中

表示帧中的第

个对象区域

图二

在l c = 4帧的短视频剪辑中的图

形构造的图示

。相同

颜色的节点表示

相同的对象。

另外，我们获得所有采样

的图像级特征

}

。

使用预训练的图像分类模型[18]。

我

作为全球合作伙伴-

文本，以增强从本地对象聚合的图形表示

为了在剪辑中的不同帧中找到相同的对象，我们通过考虑它们的

外观和空间位置来定义链接分数

，

（

，

）

λ <

IoU（

，

）

，

∈

{

，

. . .

，

−

}

，

（2）

其中

表示相邻帧中的两个检测到的对象i和j之间的余弦相似性。

Intersection-over-union（IoU）计算对象

和

的位置重叠

。

我们的实验总

是把λ设为1。每个剪辑的第一帧中的

个

检测到的对象被指定为锚对

象。然后，通过逐帧最大化s

，

将连续帧中检测到的对象链接到锚对

象。通过对齐剪辑中的对象，我们确保了在不同帧处构建的图的节点

和边表示的一致性。

我们假设对象组在短视频剪辑中不改变

点积

Transformer

DGT

DGT DGT

BERT

Q A

剩余21页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

动态VGT：视频问答中的Transformer模型与跨模态交互提升

Transformer应用：从文本到多模态的演进分析

超图Transformer：弱监督多跳推理在知识可视化问题生成中的应用

"FME2018转换器参考手册：图形化数据转换工具详解与操作指南

Transformer模型：注意力机制重塑序列转换

GPT-5设计探索：推理、情感、多语种与跨模态生成

Transformer解析：自注意力与NLP应用

Transformer详解：自注意力机制与深度学习应用

PyTorch实现基础Transformer模型：构建与训练

Transformer详解：结构、原理与多头注意力机制

PyTorch Transformer模型：编码器与解码器实战应用

最新资源