基于预期预训练的动态场景图生成方法的研究与实验

65 浏览量更新于2023-10-25 收藏 1.01MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13874看着看着⟨⟩基于预期预训练的动态场景图生成李一鸣1杨晓珊2，3，4徐长生2，3，41郑州大学信息工程学院（ZZU）2中国科学院自动化研究所模式识别国家重点实验室（CASIA）3中国科学院大学人工智能学院（UCAS）4鹏程实验室（PCL）liym. gmail.com， {xiaoshan.yang，csxu} @ nlpr.ia.ac.cn摘要人类不仅可以看到视觉场景中物体的集合，而且可以识别物体之间的关系。场景中的视觉关系可以抽象为三元组的语义表示t-2 t-1 t喝主语、谓语、宾语构成一个场景图，它能传达大量的信息，便于视觉理解。由于物体的运动，视觉再现-视频中的两个对象之间的关系可以变化，人杯控股人杯控股看着杯使得从视频动态生成场景图的任务比传统的基于图像的静态场景图生成更复杂和更有挑战性。受人类推断视觉关系能力的启发，我们提出了一种基于Transformer的预测预训练范式，以显式地建模不同帧中视觉关系的时间延迟，从而提高动态场景图的生成。在预训练阶段，该模型利用空间编码器提取帧内空间信息，利用渐进时间编码器提取帧间时间相关性，预测当前帧与前几帧的视觉关系在微调阶段，我们重用空间编码器和渐进时间编码器，同时结合当前帧的信息来预测视觉关系。大量的实验表明，我们的方法在Action Genome数据集上实现了最先进的性能。1. 介绍场景图将视觉关系抽象为图结构，其中对象表示为节点，它们的关系表示为边。它是一种很有前途的表示视觉内容语义的方法，可以弥合视觉与自然语言之间的巨大鸿沟。近年来，场景图生成在-图为通讯作者：徐长生。图1.给定先前帧，人类可以容易地推断出当前帧中包含的视觉关系。因为不同关系的时间相关性是人类的一种常识。但这种时间推理对计算机来说是困难的。受到越来越多的关注，并已成功应用于多项任务，例如，图像检索[19]，图像字幕[14，21，48，49]和视觉问答-ing [11，12，53].现有的场景图生成方法可以大致分为两类，静态场景图生成，即从单个图像生成场景图，以及动态场景图生成，即，从视频生成场景图对于静态场景图生成，现有方法[4，22，51，52]通常使用流行的对象检测器，例如Faster R-CNN [34]和Mask R-CNN [15]来提取对象，然后基于视觉和语义特征预测对象之间的关系虽然静态场景图的生成方法已经取得了很大的进展，但是动态场景图的生成研究较少，动态场景图的生成由于视频中的对象是运动的，从而引起对象之间关系的变化，静态场景图生成方法忽略了视频中的时间信息，不能直接应用于动态场景图的生成为了提高预测精度，现有的动态场景图生成方法集中于通过3D卷积模型[39]和Transformer [7，32]捕获时间信息。控股人13875⟨⟩⟨ ⟩ ⟨⟩现有的动态场景图生成方法都是从特征层次挖掘时间结构信息，并将动态场景图的生成建模为一个分类任务，这导致它们不能显式地捕捉视觉关系的时间相关性相反，人类可以根据它们的时间相关性基于过去的关系容易地推断后续关系。如图1所示，在观察人、看杯子和人、拿杯子之后，人类可以推断后续关系可能与先前关系一致或改变人、从杯子饮用。这种推理能力来源于人类在现实世界中的经验和常识。要使动态场景图生成模型像人类一样明确地捕捉视觉关系的时间相关性，至少有两个挑战需要解决。（1）由于视频中的时间和空间（2）现有数据集，例如，ActionGenome [18]由于成本高，仅在关键帧级别具有场景图注释，这阻碍了时间序列的连续建模。在本文中，我们提出了一个预期的预训练范式来预测视频中的动态场景图，以应对上述挑战。预期场景图生成任务被定义为使用先前帧来预测当前帧中的关系。使用预防性预训练范式有两个优点。（1）由于预训练任务的目标是预测未见过帧中的视觉关系，因此它可以诱导模型在任务级显式地提取时间相关性（2）基于prefetch任务，在关键帧标签的监督下，利用大量未标记数据训练预测模型，从而缓解标注不足的问题所提出的预期预训练范例是作为一个预期的Transformer架构。在预训练阶段，该模型由一个提取帧内空间信息的空间编码器和一个基于视觉和语义特征的渐进式时间编码器组成。为了增强对长序列帧中视觉内容的感知，我们在渐进式时间编码器中设计了一种有效的综合短期和长期注意机制，以在不增加太多参数的情况下，从每个关系的标记和未标记帧中捕获长期视觉上下文。最后，我们预测当前帧中的视觉关系的基础上的渐进时间编码器的输出在微调阶段，我们在预训练模型中重用空间编码器以获得当前帧的空间信息，并将其与渐进节奏的输出顺序组合。RAL编码器来预测当前帧中的视觉关系。本文的主要贡献概括如下：1. 我们提出了一种新的预期的预训练范式的动态场景图生成，明确的模型在任务级的视觉关系的时间相关性2. 我们使用Transformer架构实例化预期预训练范例。该方法不仅可以基于视觉和语义特征从标记的训练视频中捕获空间和时间信息，而且可以针对每个关系从未标记的数据中有效地捕获短期和长期视觉上下文。3. 我们在公共Action Genome数据集上评估了所提出的预训练范例。大量的实验结果表明，我们的模型达到了最先进的结果。2. 相关工作图像的场景图生成。近年来，人们提出了大量的场景图生成方法。许多方法[6，22，26，38，45，46，52，52]关注结构-语义对象特征以提高预测性能。Xu等人。[46]通过仔细考虑场景中的空间和统计特征来解决场景图生成任务受此启发，许多方法[6，22，38，45，52]专注于探索更好的空间上下文特征。此外，Zellers等人。[52]提出了一个强基线，仅使用对象的语义标签来预测场景图。它们表明语义信息在场景图生成中起着至关重要的作用。为了捕捉不同预测值之间的相关性，Chen et al. [5]提出了一个两阶段谓词关联网络（PANet）。第一阶段用于提取实例级和场景级上下文信息，第二阶段主要用于捕获谓词对齐特征之间的关联。我们的方法不同于上述图像场景图生成方法，因为我们考虑了视频中动态场景图生成的更复杂的任务。此任务需要捕获视频中的空间和时间上下文。用于视频的场景图生成。由于场景图生成方法在图像场景解析领域的广泛应用，研究者们开始探索将场景图应用于视频理解。视频理解需要对长视频序列中的演员和对象之间的关系进行推理。在SGVST [43]中，图像场景图方法用于从图像流生成故事。Zhuoetal. [55] fur-13876----联系我们{···}{···}t-2t-2先前的时间上下文空间编码器t-1t-1空间编码器渐进时间编码器分类器预处理ccllassssiffiieerr预训练不不空间编码器全局时间编码器Ccllasssiffiieerr分类器翅检测器全局上下文演示微调图2.提出的方法的框架。我们采用的空间编码器提取空间上下文在一个单一的帧，和一个渐进的时间解码器提取时间上下文。我们为预期任务预训练空间编码器和渐进式时间编码器然后结合当前帧的信息对整个模型进行微调，以生成动态场景图。提出了使用场景图来帮助动作推理。虽然这些方法将场景图引入到视频理解中，但是它们在场景图的生成中忽略了时间信息。很少有方法[1，7，31，32，39]提出了探索时间信息的利用，很少注意探索预测和推理中关系的时间相关性。这些动态场景图生成方法简单地将时间信息嵌入到视觉特征中，而忽略了关系之间的时间相关性。与我们最相关的工作是STTran [7]，它采用Transformer架构来探索关系的时间依赖性，并取得了令人满意的结果。主要的区别在于，我们提出了一个预期的预训练范式来明确地对关系的时间相关性进行建模，这使得我们的模型具有更好的性能。Transformer。Transformer架构首先由Vaswani等人提出。 [41]用于翻译任务。由于Transformer具有优越的性能，在自然语言处理领域已经开发了大量的改进模型Devlin 等人 [9]提出了一种大规模预训练模型BERT，它在各种自然语言处理任务中表现良好。然后，Transformer也成功应用于视觉语言任务，例如，VQA [2，50]和图像标题[17，47]。最近，Transformer也被广泛用于视频相关任务。例如，Girdhar等人。[13]提出了Action Transformer，它利用Transformer来细化时空表示，Wang等人。 [44]提出了VisTR用于视频分割。与这些方法不同的是，动态场景图的生成需要更多地关注关系的时间变化。预先训练的模型。预训练模型首先在自然语言处理领域提出，例如[ 28] 如 Word2Vec [29] ， GloVe [27] ， ELMo [30] ，BERT [9]和GPT [3]。这些方法使用大规模数据进行预训练，并在各种下游任务中实现令人满意的性能，例如对象检测[15，25，33，34]和图像字幕[2，42]。受这些方法的启发，越来越多的预训练模型被应用于视觉任务中。一系列 CNN [16 ， 20 ， 35 ， 37] 和Transformers [10，40]在大规模数据集ImageNet [8]上进行了预训练，可以为下游任务提供强大的视觉特征。最近，还有为其他模型设计的预训练模型。VideoBERT [36]对Cook-ing 312 K视频数据集[36]进行预训练，并将该模型应用于零镜头动作分类任务和视频字幕任务。在预训练之后，口语问答（SQA）任务用于评估。据我们所知，这是第一次将预训练和微调范式应用于动态场景图生成。3. 方法在这一部分中，我们首先介绍了动态场景图生成的问题公式，然后描述了所提出的方法的结构。最后，将给出预训练和微调策略的细节。3.1. 问题公式化给定视频V=I1，I2，.，动态场景图生成的目的是生成场景图序列G=G1，G2，...，G T，其中G t是帧I t的对应场景图。我们定义G t=Bt，Ot，Rt，其中Bt=bt，1，bt，2，，bt，N（t），Ot=ot，1，ot，2，，ot，N（t）Rt =rt，1，rt，2，，rt，K（t）分别表示边界框集、对象集和谓词集。N（t）是第t帧中对象的数量13877联系我们|--|--我K（t）是关系的个数在这项工作中，我们制定了动态场景图生成-作为基于预训练范式的在线预测任务由于空间和时间信息对于Gt的预测都很重要，即，当前帧I t和先前帧I1、I2、I t-1都对G t的预测有很大贡献，G t的概率可以用公式表示如下：P（G t| {I t}）=P（G t| {I t−1}）P（G t|It），（1）其中P（GtIt-1）被设计为捕获时间相关性，并且通过预期的预训练来Ouput��：，��多头注意V K Q多头注意V K Q多头注意V K Q你好，你好��多头注意V K Q多头注意V K Q多头注意V K Q帧编码语义你好，你好多头注意Q K V多头注意Q K V多头注意Q K V帧编码长期模型我们使用{I t−1}来表示先前帧的集合输入：（0）提取器（0）聚集（0）对于当前帧It，其中{It-1}包含两个标记你好Input：输入��，输入Input：输入，输入和未标记的帧。P（Gt It）被设计为基于来自It的空间信息来预测场景图，该空间信息是在微调中学习的。根据广泛使用的定义[52]，给定It，Gt的概率可以表示为Bt，Ot和Rt的概率的乘积：P（G t|I t）= P（B t|I t）P（O t|B t，I t）P（R t|O t，B t，I t）。（2）类似地，P（G t| {t-1}）可以定义如下：(a) 空间编码器（b）渐进时间编码器图3.推荐的预期Transformer的图示(a)是空间编码器，用于捕获每个帧中的空间上下文信息。(b)是渐进式时间编码器，它从不同帧中的关系表示中捕获时间相关性vector. 语义嵌入st，i由具有可训练线性嵌入层的对象类别ot，i确定P（Gt| {It −1}=P（Bt| {It −1}）P（Ot| {Bt−1}，{It −1}）P（Rt| {Ot −1}，{Bt −1}，{It−1}）。3.2. 框架概述（三）3.4.预期Transformer在这项工作中，我们设计了我们的模型的基础上trans-former捕捉空间信息和时间的相关性，我们的模型的整体框架如图2所示。为了预测第t帧It的场景图Gt，我们首先使用预先训练的检测器来检测当前帧It中的对象框并识别它们的类别，lation.因此，我们首先对一般的Transformer [41]做一个简单的回顾。给定查询Q、键K和值V，自我关注层定义如下：QKT前一帧It-1。然后，我们使用空间编码器来提取不同帧中的对象对其次，渐进式哪里Attention（Q，K，V）=Softmax（softDKDK是关键维度。（五）采用时间编码器来挖掘不同帧中对象对之间的长期时间相关性，该相关性在预期的预训练网络中学习。在微调阶段，空间编码器和渐进式时间编码器被重新使用，以基于空间编码器和渐进式时间编码器的输出来预测当前帧中的对象对的关系在经典模型中，自注意操作如下：由一个归一化层、一个前馈层和另一个归一化层组成，所有这些构成了一个完整的自注意层。通过将自注意层扩展为多头，使得该机制能够考虑不同的注意力分布，使模型关注不同方面的信息，从而产生多头注意力，这是Transformer的主要组成部分。3.3.探测器主干在[7]之后，我们采用Faster R-CNN作为我们的骨干MultiHead（X）=Concat（h1，h2，···，hH）Wo，hi=Attention（XWQi，XWKi，XWVi），（六）从视频帧中检测物体，这是预先训练的，其中X∈RDX×D，Wo∈RHDV×D是参数行动基因组[18]数据集。客体的表征oi包含空间信息、视觉特征和语义信息矩阵，WQiRD×DVi∈RD×DQi，WK∈RD×DKi和WV∈特征，其可表述如下：是投影函数。为了简单起见，我们表示ft，i =[Mov t我，φ（bt我），st我]、（4）输出：√我13878·将多头注意力层设置为MultiHead（），并重点描述输入X。其中[，]指示级联操作，M。指示线性变换层的可训练矩阵，并且Φ是将绑定盒bt，i变换为连续的函数。空间编码器。我们首先设计了一个空间编码器来提取包含在一个单一的帧的视觉信息。如图3（a）所示，Q、K和V共享同一输入13879联系我们斯帕t−γt−1s，ij联系我们l、ij联系我们.t，N（t）0斯帕 ∈RN（t）×Nspa，表示为：通过逐帧匹配来确定这一对。针对帧（0）斯帕={ft，1，ft，2，···，ft，N（t）}，（7）它没有匹配的对象对，我们通过简单地复制匹配的对象来创建占位符对象对其中，N（t）表示在所述图像中检测到的对象的数量，帧It。第n个MultiHead层的输出是com-推测如下：在最近的帧中的对象对基于Pr ij构造关系表示序列Aij=a t−γ，ij，，a t−1，ij.是关系表示，（个）斯帕=多头spa（X（n−1））。（八）（ot'，i，ot'，j）和at'，ij = et'，ij。第n层的输出将被用作第（n+1）层的输入。由于ft，i已经包含相应对象的位置信息，因此不存在附加的位置编码操作。空间引擎的最终输出编码器被表示为Xspa，t={ft，1，ft，2，···，f{\fn方正粗倩简体\fs12\b1\bord1\shad1\3cH2F2F2F}关系表示。的表示由于关系的时间顺序对时间相关性有明显的影响，我们采用帧位置编码将时间位置注入到关系表示中。具体来说，我们采用可训练线性层来学习时间顺序Zs={zs，· · ·，zs}的嵌入。帧位置编码Zs每个关系的hip是基于X_（？）spa，t和联合盒特征计算的我们将对象ot，i和ot，j之间的关系表示为r t，ij，其可以用以下功能：其中ut，ij是由RoIAlign获得的帧It中的第i个和第j个对象的并盒特征，Mu是针对维度压缩具有与特征表示eT′，ij相同的尺寸的关系。此外，我们采用了一个语义提取器，它被实现为一个全连接层，用于获得ot'，i和ot'，j之间的关系的语义表示ct '，ij。短期编码器还包括多个MultiHead图层。第一个多头层被表示为X（0）=[Ai j+Zs，Ci j]，并且第n个多头层可以被公式化如下：X（n）=多头短路（X（n−1））。（十一）渐进时间编码器。如图-s，ijs，ij图3（b）中，渐进式时间编码器被设计为捕获关系的时间相关性，其由短期编码器和长期编码器组成。在预训练任务中，由于短时信息与目标帧的相关性更强，而长时信息包含了丰富的时间相关性知识，因此两者同等重要。简单地使用长序列数据作为输入可以同时考虑短期和长期信息。然而，这将导致太多难以训练的模型参数为了解决这个问题，我们提出了一种有效的方法来明确地探索全面的时间信息的短期编码器和长期编码器。短期编码器捕获与目标帧最相关的短期信息，其将不同帧中的相同主体-对象对的关系表示作为输入。为了在不同的帧中找到相同的交集大于并集）以匹配在帧中检测到的主体 - 对象对It−γ，，I t−1，其中γ1是数字可以由短期编码器处理的帧。具体地，我们计算第t′个中两个对象对（ot′，i，ot′，j）和（ot′，i′，ot′-1，j′）之间的匹配分数。短期编码器的最终输出被表示为Xs，ij。采用长期编码器来捕获长期时间相关性，其将短期编码器和长关系序列的表示作为输入。帧编码Zl也用于长期编码器中以指示时间顺序，其以与Zs相同的方式计算。第一个MultiHead层的输入表示如下：X （ 0 ） ={fθ （ Ui j ）， φ （ Xis ，ij）}+Zl，（ 12）其中φ是具有ReLU激活函数的3层全连接网络，并且U ij=ut−λ，，ut−γ表示长期序列的关系表示。U ij的结构类似于A ij，不同之处在于U ij比A ij具有更长的序列。我们把U ij的长度记为λ，它比γ大得多。f θ是一个用于平衡性能和效率的聚合函数，它结合了长期序列中不同关系的表示。在这项工作中，我们根据实验的分析，用线性层实现f θ，f θ可以公式化如下：fθ（Uij）=Wθ（<$（ut−λ，ij）<$··<$$>（ut−1，ij）），（13）其中Wθ是全连接层，<$是卷积层和第t′-1帧如下：用于尺寸整形的层，并且“”表示叉积n= min IoU（o t'，i，o t'−1，i'），IoU（o t'，j，o t'−1，j'）. （十）XXX13880l、ijl、ij如果匹配分数n> 0，则匹配相邻帧中的对象对。8.对于在It−1中检测到的每个主体-客体对（ot−1，i，ot−1，j），我们建立时间操作获得第一个MultiHead图层的输入后在长期编码器中，我们可以将长期编码器公式化如下：序列Prij={（ot−γ，i，ot−γ，j），· · ·，（ot−1，i，ot−1，j）}X（n）=多头长（X（n−1））。（十四）γγ13881--∈⟨⟩⟨⟩t，ijt，ij联系我们−g、ijQg、ijΣ Σ在每个批次中，渐进式时间编码器处理不同的主题-对象对并行地进行，并且长期编码器的最终输出被表示为Xl，ij，其是关系的时间上下文表示3.5.预训练和微调策略在预训练中，如第二节所述 3.1，我们提出了一个托词任务，它被定义为一个在线的预期预测。我们将I t−1作为模型输入来预测It的场景图。由于数据集中大量的帧是未标记的，我们只使用标记的帧来计算预训练的损失。此外，由于Action Genome[18]提供了关系类别的类型，例如，注意关系、空间关系和接触关系等方面，采用多个线性分类器而不是单一的分类器来推断不同类型的关系。ot，i和ot，j之间的关系rt，ij的类别分布yt， ij=Classifierspre （ xl ， ij ），（ 15）sifiers丢弃Classifierspre。4. 实验在本节中，我们首先介绍了实验设置和数据集的详细情况。然后，我们将我们的模型与最先进的方法进行比较，并报告结果。随后，我们提出了消融和定性研究。4.1. 实现细节该方法由PyTorch实现。我们采用具有ResNet-101主干的Faster RCNN [34]作为之前工作的对象检测器[7]。对于Eq.4，我们通过具有3个全连接层的多层感知器来实现它，输出维度设置为128.对象语义嵌入是通过将对象类别分布映射到具有线性矩阵MwR36×200的200维向量来获得的。对象呈现维度为840，关系呈现-哪里xl，ij中的最后一个元素克鲁尔，ij.因为在重新-地址是2192。空间编码器包含1个多头注意层，而短期编码器，长期en-事实上，在两个对象之间可能存在多个正确的关系，例如，人，触摸，食物和人，吃，食物，我们采取了多标签利润损失在预培训中，可表述如下：编码器和全局时间编码器包含3个多头注意层。所有多头注意层的头数为8。在预训练阶段，我们使用SGD优化器Lpre（yt，ij，Y+，Y−）=max（0，1−ypp∈Y+q ∈Y−t，ij），（十六）初始学习速率为0.001，并且在每个时期之后通过将其乘以0.9来衰减学习速率。动量设置为0.9，小批量的大小设置为其中Y+表示地面实况谓词标签的集合Y-是不存在的否定谓词标签集合注释，并且yp指示第p个谓词的预测置信度得分。在微调中，我们重用第二节中的空间编码器3.4以捕获当前帧It的空间信息。对象ft，i和关系et，ij的表示如下构造：（4）和等式（9）分别。然后，我们采用另一个全局时间编码器来捕获基于长期编码器输出的时间相关性，该编码器与短期编码器共享参数。该编码器的公式定义如下：到16.对于超参数，我们根据验证结果将短期序列γ的长度设置为4，而长期编码器取λ=10。连续帧中的场景可能是不变的，因此不能反映时间相关性，我们每3帧采样1帧进行预训练。此外，对于先前帧不足的批次，我们用第一帧的副本填充序列为了进行微调，我们使用初始学习率为1e5的SGD优化器，并在每个历元后通过乘以0.9来动量设置为0.9，minibatch的大小设置为16。4.2. 数据集和指标（0）g、ij={Xl，ij，et，ij}+Zf，（十七）我们在Action Genome上训练和测试我们的方法[18]，X（n）=MultiHeadglobal（X（n−1）），这是最大的动态场景图形数据集。以来其中Z f是帧编码，并且全局时间编码器的输出被表示为Xf，ij。与预训练方法类似微调：yt，ij=Classifiersfin（xt，ij），（18）其中xg，ij是Xg，ij的最后一个元素，我们使用与预训练相同的损失函数。在推理中，我们只使用分类器的输出+yX13882分类器进行微调，而预训练的类-行动基因组的目标是分解行动，它集中于注释视频剪辑，其中动作真实地发生并且仅注释动作中涉及的对象。在实验中，我们使用与[18]相同的训练和测试分割。此外，我们还利用动作基因组中的未标记帧进行预训练。我们使用Recall@K（R@K，K=[10，20，50]）度量来评估我们的模型的性能，该度量测量了具有最高置信度的前K个预测实例中正确实例的比率。13883带约束没有约束方法Pred ClsSG ClsSG GenPred ClsSG ClsSG GenR@10 R@20 R@50 R@10 R@50 R@10 R@20 R@50 R@10 R@20 R@50 R@10 R@20 R@50 R@10 R@20 R@50R@10 R@20 R@50VRD [26]51.754.754.732.433.333.319.224.526.059.678.599.239.249.852.619.128.840.5MotifFreq [52] 62.465.165.140.841.941.923.731.433.373.492.499.650.460.664.222.834.346.4[23]第二十三话65.568.568.543.945.145.124.132.434.574.992.799.051.261.865.023.134.746.5VCTREE [38]66.069.369.344.145.345.324.432.634.775.592.999.352.462.065.123.935.346.8ReIDN [54]66.369.569.544.345.445.424.532.834.975.793.099.052.962.465.124.135.446.8[24]第二十四话66.869.969.945.346.546.524.733.135.176.293.699.553.663.366.024.435.747.3STTran [7]68.671.871.846.447.547.525.234.137.077.994.299.154.063.766.424.636.248.8我们69.473.873.847.248.948.926.336.138.378.595.199.255.165.168.725.737.950.1表1.与Action Genome上最先进的场景图生成方法进行比较最好的结果用粗体表示。方法Pred Cls SG Cls SG GenR@20 R@50 R@20 R@50 R@20R@50 w/o Semantic 72.65 72.97 47.25 47.30 35.62 37.94方法Pred Cls SG Cls SG GenR@10 R@20 R@10 R@20 R@10 R@20使用约束表2.关系语义信息，长期编码器和预训练范式在所提出的方法的影响。在有约束策略上评估。我们在三种实验设置下评估我们的模型：谓词分类（Pred Cls）：用给定的地面实况边界框和类别标签预测演员和对象之间的谓词。场景图分类（SG Cls）：用给定的地面实况边界框预测对象的谓词和类标签。场景图生成（SG Gen）：预测检测器检测到的对象对的关系标签只有当预测框与地面实况框具有至少0.5IoU（交集大于并集）重叠时，才认为对象框被正确检测到。由于我们无法获得用于训练的未标记帧的地面实况边界框和对象类，因此在Pred Cls和SG Cls中利用检测器来检测未标记帧中的对象。在此基础上，分析了两种典型的动态场景图生成策略的性能。(1)带约束：每个主宾对最多只能有一个谓语.(2)无约束：每个主宾对允许有多个谓词。此外，由于Action Genome数据集注释了3种类型的关系（注意力，空间和接触），因此我们的模型输出了每个主体-客体对的所有三种关系[7]。4.3. 与现有技术的如表1所示，我们的模型在所有指标上都优于所有静态场景图生成方法和最先进的动态场景图生成方法。为了公平比较，所有方法共享相同的对象检测器。由于获得了丰富的时间相关信息，无约束STTran [7]77.994.454.063.724.636.2STTran*77.994.454.364.524.736.9我们78.595.155.165.125.737.9表3.使用未标记数据进行训练的消融研究。从预训练中得出，我们的模型在Pred Cls - R@10/20上将最先进的方法 [7] 提高了 0.8%/2.0% ，在 SG Cls-R@10/20上提高了0.8%/1.8%，在SG Cls -R@10/20上提高了0.9%/2.0%。在SG Gen-R@10/20上，使用限制策略。这表明我们的模型在预测最重要的关系方面表现得更好对于无约束，我们的模型在所有设置中优于其他方法，除了Pred Cls-R@50。由于无约束允许主体-客体对具有多种关系，并且R@50度量为模型提供了大量猜测的机会，因此这种情况下的然而，我们的模型在R@10和R@20中优于其他方法，其中结果更可靠，猜测的机会更少。4.4. 消融研究在这一部分中，我们进行了更多的实验来分析设计的关系语义信息，长期编码器和预训练范式的影响。语义和长期编码器的影响。表2中具有完整模型的前两行反映了语义和长期信息在动态场景图生成中的作用。语义提供了高层次的时间相关性信息，长时编码器扩展了模型对长时序列的感知能力预培训模式的影响。为了分析预训练的影响，我们重新训练了一个模型，它直接使用预训练框架来预测场景图不包括长期STTran [7]68.671.846.447.525.234.1不包括预先培训STTran*68.872.046.647.825.437.4完整型号73.81 73.84 48.94 48.94 36.11 38.28我们69.473.847.248.926.338.313884PredCls SGGen联系我们80 3870 3660 3450 3240 3030 282 3 4 5 6(a) 影响力7473.873.673.473.2730481012 14(b) λ的影响36.23635.835.635.4R@20R@50706050403020平均池最大池线性层(c) 不同类型的聚合R@20R@50757371696765学习正弦(d) 不同类型的帧编码图4.参数分析（a）和（b）显示了长期或短期序列的长度如何影响我们模型的性能我们在（c）和（d）中分析了不同类型的时间聚合函数和帧编码在带约束条件下计算。图5.我们模型的定性结果对于输入的RGB帧，我们在带约束的策略下生成具有前10个置信度预测的场景图（在SG Gen任务中）。蓝色和粉红色框分别是正确的关系和对象。黄色的盒子是错误的关系。I t而不是I t−1作为输入。如表2所示，在添加预训练策略后，我们的模型的性能显著提高，这证明了预训练确实捕获了时间相关性。使用未标记数据进行训练的影响由于我们使用未标记的数据进行预训练，因此我们将我们的模型与基于先前最先进方法[7]实现并使用相同规模的数据进行训练的变体模型STTran进行比较。结果示于表中。3证明了附加数据有助于捕获时间相关性。超参数的影响在我们的模型中有两个重要的超参数γ和λ，分别表示短期和长期序列的长度。如图4（a）和（b）所示，当λ和γ变大时，模型的性能逐渐提高，直到稳定在λ=10和γ=4。长期积累的门控和帧编码。我们分析了不同类型的长期聚合的性能（即，fθ），见图4（c）。可学习线性层在R@20和R@50指标上的性能优于平均池化和最大池化，证明了其有效性。如图4（d）所示，所学习的帧编码在PredCls-R@ 20/50和SG Gen-R@20/50上都比正弦方法表现得更好4.5. 定性结果定性结果示于图5中。在带约束的策略下，我们将结果可视化在SG Gen度量中，这是最接近实际使用的场景粉色框是正确的检测结果，蓝色框是正确的关系预测结果。黄盒子错了关系如图5所示，我们的模型在大多数关系中表现值得注意的是，当对象（例如，书）被遮挡，检测性能不稳定。在这种情况下，我们的模型仍然可以准确地预测的相关关系后，检测到的目标的长期信息和时间相关性。5. 结论在这项工作中，我们提出了一种新的预训练范式的动态场景图生成，诱导模型显式地提取任务级的时间相关性。预训练范例是用预期Transformer架构实例化的，该架构引入空间编码器和渐进时间编码器来提取帧内空间信息和帧间时间相关性。我们通过渐进式时间编码器中的短期和长期注意机制，从标记和未标记的数据中全面捕获每个关系的视觉上下文。我们进行了大量的实验表明，所提出的方法显着优于国家的最先进的方法。在未来的工作中，我们希望探索利用我们的方法在场景图为基础的视频生成，这是更具挑战性的。鸣谢。本课题得到了国家重点研究发展计划（ No.2018AAA0100604 ）、国家自然科学基金（No.2018AA0100604）的资助。61720106006，61721004，62072455、U1836220、U1705262、61872424），密钥重新-中国科学院前沿科学研究项目（QYZDJ-SSW-JSC039）和北京市自然科学基金项目（L201001）。PredCls SGGenR@50（%）杯杯在书的前面在坐在看看面前看看感人不看看看坐在感人人喝人不看地坪面前在前面触摸感人在下面桌子看桌子不看R@20（%）R@50（%）R@20（%）预测Cls（w/限制%）预测Cls（w/限制%）13885引用[1] Somak Aditya ， Yezhou Yang ， Chitta Baral ， YiannisAloi-monos，andCorneliaFer müller. 用视觉理解图像，用场景描述图推理CVIU，173：33-45，2018。3[2] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在CVPR中，第6077-6086页，2018年。3[3] Tom B Brown，Benjamin Mann，Nick Ryder，MelanieSub- biah ， Jared Kaplan ， Prafulla Dhariwal ， ArvindNeelakan- tan，Pranav Shyam，Girish Sastry，AmandaAskell ， et al. Language models are few-shot learners.arXiv预印本arXiv：2005.14165，2020。3[4] 陈天水，于伟豪，陈日泉，林亮。用于场景图生成的知识嵌入路由网络在CVPR中，第6163-6171页，2019年。1[5] Yunian Chen，Yanjie Wang，Yang Zhang，and YanwenGuo.Panet：一个基于上下文的谓词关联网络，用于场景图生成。在ICME中，第508-513页。IEEE，2019。2[6] Weilin Cong，William Wang，and Wang-Chien Lee.通过条件随机场生成场景图。 arXiv 预印本 arXiv ：1811.08075，2018。2[7] Yuren Cong，Wentong Liao，Hanno Ackermann，BodoRosenhahn，and Michael Ying Yang.用于动态场景图生成的时空在ICCV中，第16372-16382页，2021年。一、三、四、六、七、八[8] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。在CVPR，第248-255页中。Ieee，2009年。3[9] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：为语言理解而进行的深度双向转换器的预训练。arXiv预印本arXiv：1810.04805，2018。3[10] AlexeyDosovitskiy，LucasBeyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner ， Mostafa Dehghani ， Matthias Minderer ，Georg Heigold，Syl- vain Gelly，et al. An image is worth16x16 words ： Trans- formers for image recognition atscale. arXiv预印本arXiv：2010.11929，2020。3[11] 诺亚·加西亚和中岛裕太基于知识的视频问答与无监督场景描述。arXiv预印本arXiv：2007.0875

下载后可阅读完整内容，剩余1页未读，立即下载