视频Transformer：未来动作预测的注意力模型

201 浏览量更新于2024-06-20 收藏 1.03MB PDF 举报

“视频Transformer：预测未来视频动作的注意力机制模型” 本文介绍了预期视频Transformer（AVT），这是一种基于注意力机制的端到端视频建模架构，旨在通过分析先前观察到的视频来预测未来的动作。AVT模型的独特之处在于，它不仅能够保持已观察到动作的顺序进展，还能捕捉长程依赖性，这对于预测任务至关重要。通过联合训练，模型可以预测视频序列中的下一个动作，并学习预测连续未来帧的特征。在介绍部分，作者强调了预测人类未来行为在自动驾驶、增强现实等领域的关键作用。传统的动作识别技术已经无法满足需求，因为视觉系统需要有能力预测即将发生的动作。因此，活动预期任务逐渐受到重视，并有多个挑战基准被设立来推动这一领域的发展。 AVT模型的设计借鉴了Transformer架构，特别是其注意力机制。如图1所示，AVT首先使用空间注意力骨干对视频帧进行编码，然后通过时间注意力头部关注当前帧之前的相关帧，以预测未来动作。在示例中，模型能自发地关注手部和物体，无需额外的监督，且能聚焦于预测下一个动作所需的最关键帧。在实验部分，AVT在四个流行的活动预期基准测试中表现出最佳性能：EpicKitchens-55、EpicKitchens-100、EGTEA Gaze+和50-Salads，并在EpicKitchens-100 CVPR'21挑战赛中赢得第一名。这些成就证明了AVT在处理复杂视觉信号和预测未来动作方面的能力。与现有技术相比，AVT的优势在于其能够在保持时间顺序的同时，利用Transformer的注意力机制捕捉长期的上下文信息。这使得AVT在处理如行人行为预测、AR应用等场景时，能够更准确地预测未来事件，为人工智能系统提供更强大的预测能力。视频Transformer（AVT）是一个创新的模型，它通过独特的注意力机制，有效地解决了视频中未来动作预测的挑战。其成功应用和优秀的基准测试成绩展示了该模型在实际应用中的巨大潜力，特别是在需要预测和理解人类行为的领域。

13507

⇥

{

···

}

联系

我们

针对特定的下游任务进行调整。研究人员探索了各种

[36，37，40，83]和跨模态对应-

dence [3，48，83，84]. AVT合并了增强预测未来特征

（和动作）的特征的损失;虽然这方面与先前[25，36，

37，58，60，75，78，83，84，90]和并发工作[96]共

享动机，但我们实现预测特征的架构是不同的（基于

变换器而不是卷积/递归[25，36，37]。78，96]），它

在原始帧或连续视频特征上操作，而不是聚类的“视觉

词”[ 84 ]，仅包括视觉数据（而不是具有语音或文本的

视觉[ 83，84 ]），并且针对动作预期进行联合训练

（而不是预先训练然后针对动作识别进行微调[ 36，

37，83 ]）。

语言建模（LM）随着自我注意体系结构的引入而发生

了革命性的变化[89]。 LM方法通常可以分为三类：

（1）

仅编码器

[17，67]，其利用双向注意力并且对分

类等区分任务有效;（2）

仅解码器

[8，69]，其利用对

过去标记的因果注意力[51]，并且对文本生成等生成任

务有效;以及（3）

编码器

解码器

[52，71]，其结合了

双向编码器和因果解码器，并且对于诸如机器翻译的

任务是有效的。利用动作预测和生成语言任务之间的

类比，我们在我们的模型中探索因果解码器的注意力

架构。虽然语言模型通常在离散输入（单词）上训

练，但AVT使用连续视频特征进行训练。这种区别自

然会影响我们的设计选择，例如生成训练的

损失与

下一个单词的交叉熵损失相反。

自我关注和视觉中的变形金刚。视觉中的自我注意力

的一般思想可以追溯到非局部手段[9]，并且作为非局

部块[10，56，93，95]和gat被并入当代网络架构中。

[30，46，62，97]。虽然像变压器[89，92]这样的自我

注意力方法为高级视觉推理任务[11，101]提供了强大

的结果，但最近，人们对用变压器完全取代卷积架构

进行图像识别[18，85]的兴趣越来越大。对于视频，

先前的工作主要是在标准时空卷积基础架构[12，86，

88]之上利用注意力架构[28，93，95]相比之下，AVT

是用于视频的端到端Transformer架构-据我们所知是第

一个（与[4，7，19，54，65]同时发生）。与双向并

解决传统动作识别的并发方法 [4 ， 7 ， 19 ， 54 ，

65]AVT产生了最好的结果，迄今为止的几个良好的研

究预期基准。

已观察视频

未观察视频

过去帧

（

）

预期行动

时间段

图

：动作预期问题设置。目标是使用

所

观察

到的

长度

为

〇

的视频片段

来

在

未来动作发生之前

秒预测未来动作。

预期问题设置

虽然在文献[45，64，73]中已经探索了多个预期问

题设置，但在这项工作中，我们遵循最近的挑战基准

[13，14]中定义的设置并在图2中说明。对于数据集中

开始于时间t s的每个标记的动作片段

，目标是使用在

它之前的

个

单位的

长度的视频片段来识别它，即从

伊什

（

）

到

虽然方法

通常

都必须使用任意长

度

的

观测

数据集

（

），但预测时间（

）通常针对

每个数据集是固定的。

视频Transformer

我们现在介绍AVT模型架构，如图3所示。它的目

的是预测未来的行动给定的视频剪辑作为输入。为

此，它利用两阶段架构，包括对单独的帧或短剪辑进

行操作的

骨干

网络，随后是对帧/剪辑级特征进行操作

以预测未来特征和动作的

头部

架构。AVT采用

因果

注

意力建模预测未来的行动，只基于到目前为止观察到

的帧，并使用自监督学习启发的目标进行我们现在详

细描述每个模型组件，然后是训练和实现细节。

4.1.

骨干网

给定具有

个帧的视频剪辑，V

，

，Xi 虽然

已经提出了各种视频基础架构

[12

，

91]

，

并且可以与

AVT

一起使用，正如我们

稍后所展示

的那样，在这项工作中，我们提出了一种替代架

构，用于纯粹基于注意力的视频理解。这个主干，

我们称为

AVT-b

，采用

了最近提出的视觉Transformer

（ViT）[18]架构，该架构已显示出令人印象深刻的静

态图像

分类结果。

具体来说，我们采用ViT-B/16架构。我们将每个输

入帧分成

个

个不重叠的补丁。我们将每个补丁平

坦化为256D向量，并将它们线性投影到768D，这是整

个编码器使用的特征维度。虽然我们不需要分类-

单独地细化每一帧，我们仍然预先准备了一个可学习

[类]令牌嵌入到补丁功能，其

剩余14页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

视频Transformer：未来动作预测的注意力模型

ai大模型学习和实践学习笔记：Transformer 模型和注意力机制的关系

PyTorch进阶：如何实现自定义的自注意力机制

RNN的最新进展：双向RNN、注意力机制与Transformer，探索前沿领域

深度学习注意力机制：模型聚焦关键信息的秘诀

【将注意力机制应用于时空序列预测的实践探索】： 探索将注意力机制应用于时空序列预测的实践经验

【关键特征识别】：图像识别中的注意力机制深度分析

【PyTorch注意力机制】：NLP模型性能提升的秘诀

注意力机制的多模态融合：提升模型性能的新途径

【视频分析视觉注意力机制】：PyTorch模拟人类视觉聚焦技术

【深度学习注意力机制揭秘】：注意力技术的核心应用

最新资源

【将注意力机制应用于时空序列预测的实践探索】：探索将注意力机制应用于时空序列预测的实践经验