预期预训练：动态场景图生成的创新方法及实验

145 浏览量更新于2024-06-20 收藏 1.01MB PDF 举报

本文主要探讨了"基于预期预训练的动态场景图生成方法的研究与实验"。在信息技术领域，场景图作为一种强大的工具，它将视觉关系转化为图结构，通过节点表示物体，边代表它们之间的关系，有助于跨越视觉与自然语言理解的鸿沟。静态场景图生成通常处理单一静止图像，而动态场景图生成则涉及到视频中对象关系的捕捉，这是更具挑战性的任务，因为视频中的关系会随时间变化。文章的创新点在于，作者受到了人类能够根据先前帧推断出当前帧中视觉关系的能力的启发，提出了一种基于Transformer的预测预训练范式。这个模型通过空间编码器提取帧内的空间信息，捕捉物体的位置和特征，而渐进时间编码器则负责捕捉帧间的时间相关性，以模型化视觉关系的时间延迟。在预训练阶段，模型学习预测不同帧间的视觉关系；而在微调阶段，它结合当前帧的新信息进一步优化关系预测。现有的动态场景图生成方法大多依赖于先进的对象检测器，如Faster R-CNN和Mask R-CNN，用于对象识别和定位。然而，这种方法仅凭单帧信息可能无法捕捉动态关系。作者的方法通过预期预训练提高了模型对动态场景中视觉关系的理解和生成能力，这在ActionGenome数据集上的实验表现出了最先进的性能。实验结果证实了该方法的有效性，它不仅能准确地捕捉视频中物体的动态变化，还能生成连贯且符合逻辑的场景图，这对于诸如视频检索、图像字幕生成和视觉问答等任务具有重要意义。通过这项研究，作者为动态场景图生成技术的发展提供了一个新的有效框架，有望推动未来在视频理解和交互领域的应用。

13876

联系我们

{···}{···}

t-2

先前的时间上下文

空间编

码器

t-1

空间编

码器

渐进时间

编码器

分类器

预处

理

预训练

不

空间编

码器

全局时

间编码

器

分类器

翅

检测器

全局上下文演示

微调

图

提出的方法的框架。我们采用的空间编码器提取空间上下文在一个单一的帧，和一个渐进的时间解码器提取时间上下文。

我们为预期任务预训练空间编码器和渐进式时间编码器然后结合当前帧的信息对整个模型进行微调，以生成动态场景图。

提出了使用场景图来帮助动作推理。虽然这些方法将

场景图引入到视频理解中，但是它们在场景图的生成

中忽略了时间信息。很少有方法[1，7，31，32，39]

提出了探索时间信息的利用，很少注意探索预测和推

理中关系的时间相关性。这些动态场景图生成方法简

单地将时间信息嵌入到视觉特征中，而忽略了关系之

间的时间相关性。与我们最相关的工作是STTran [7]，

它采用Transformer架构来探索关系的时间依赖性，并

取得了令人满意的结果。主要的区别在于，我们提出

了一个预期的预训练范式来明确地对关系的时间相关

性进行建模，这使得我们的模型具有更好的性能。

Transformer。Transformer架构首先由Vaswani

等人

提出。

[41]用于翻译任务。由于Transformer具有优越

的性能，在自然语言处理领域已经开发了大量的改进

模型 Devlin

等人

[9] 提出了一种大规模预训练模型

BERT，它在各种自然语言处理任务中表现良好。然

后，Transformer也成功应用于视觉语言任务，例如，

VQA [2，50]和图像标题[17，47]。最近，Transformer

也被广泛用于视频相关任务。例如，Girdhar

等人。

[13]提出了Action Transformer，它利用Transformer来细

化时空表示，Wang

等人。

[44]提出了VisTR用于视频

分割。与这些方法不同的是，动态场景图的生成需要

更多地关注关系的时间变化。

预先训练的模型。预训练模型首先在自然语言处理

领域提出，例如

[ 28] 如 Word2Vec [29] ， GloVe [27] ， ELMo [30] ，

BERT [9]和GPT [3]。这些方法使用大规模数据进行预

训练，并在各种下游任务中实现令人满意的性能，例

如对象检测[15，25，33，34]和图像字幕[2，42]。受

这些方法的启发，越来越多的预训练模型被应用于视

觉任务中。一系列 CNN [16 ， 20 ， 35 ， 37] 和

Transformers [10，40]在大规模数据集ImageNet [8]上

进行了预训练，可以为下游任务提供强大的视觉特

征。最近，还有为其他模型设计的预训练模型。

VideoBERT [36]对Cook-ing 312 K视频数据集[36]进行

预训练，并将该模型应用于零镜头动作分类任务和视

频字幕任务。在预训练之后，口语问答（SQA）任务

用于评估。据我们所知，这是第一次将预训练和微调

范式应用于动态场景图生成。

方法

在这一部分中，我们首先介绍了动态场景图生成的

问题公式，然后描述了所提出的方法的结构。最后，

将给出预训练和微调策略的细节。

3.1.

问题公式化

给定视频

，

，动态

场景

图生成的目的是

生成场景图序列

，

...

，

，其中

是帧

I t

的对应场景图。我们定义

，

，其中

，

，，

，

（

）

，

，，

，

（

）

，

，，

，

（

）分别表示边界框集、对象集和谓词集。

（

）是

第

帧中对象的数量

剩余14页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

预期预训练：动态场景图生成的创新方法及实验

基于图像的虚拟场景的研究与实现

基于方法序列规范的测试用例生成.doc

ChatGLM：预训练大模型探索与实践

ChatGPT模型的生成结果可解释性分析与规则引擎结合的对话生成方式探索.docx

迁移学习最佳实践：6个步骤选择合适的预训练模型进行图像分类

图动态生成术：随机图模型的测试与模拟技巧

深度学习与迁移学习：如何利用预训练模型

【Keras集成常用库速成】：预训练模型与优化器的无缝接入（快速上手指南）

【迁移学习实战宝典】：图像识别领域的预训练网络应用全攻略

图像生成与GAN算法在OpenCV4中的实现

最新资源