没有合适的资源?快使用搜索试试~ 我知道了~
16372用于动态场景图生成的时空Transformer丛玉仁1、廖文通1、汉诺·阿克曼1、博多·罗森哈恩1、迈克尔·杨颖2、汉诺威莱布尼茨大学TNT 1、特温特大学SUG 2摘要动态场景图生成旨在生成给定视频的场景图。与任务相比对于从图像生成场景图来说,由于对象之间的动态关系和帧之间的时间依赖性允许更丰富的语义解释,因此更具有挑战性。在本文中,我们提出了时空Transformer(STTran),这是一个神经网络,由两个核心模块组成:(1)空间编码器,其采用输入帧来提取空间上下文并推理帧内的视觉关系,和(2)时间解码器,其将空间编码器的输出作为输入,以便捕获帧之间的时间依赖性并推断动态关系。外交官此外,STTran可以灵活地将不同长度的视频作为输入而无需剪切,这对于长视频尤其重要我们的方法是有效的空间语境化时空语境化t t+1静态场景图动态场景图t t+1在基准数据集Action Genome(AG)上。实验结果表明,我们的方法在动态场景图方面的优越性能。此外,一组烧蚀的研究进行,每个模块的效果是合理的。代码可在:https://github.com/yrcong/STTran。1. 介绍场景图是将感兴趣的对象总结为节点并且将它们的关系总结为边的结构表示[26,29]。最近,场景图已成功应用于不同的视觉任务,例如图像检索[26,46],对象检测,语义分割,人机交互[15],图像合成[24,3]以及高级视觉语言任务,如图像字幕[13,62]或视觉问答(VQA)[25]。它被认为是一个有前途的方法,对整体场景的理解和连接的巨大差距视觉和自然语言领域之间的桥梁。因此,场景图生成的任务在社区中引起了越来越多的关注虽然从单幅图像生成场景图(静态场景图生成)取得了很大的进展,但图1:从图像和视频生成场景图之间的差异。在视频中,这个人正在看电视,并从瓶子里喝水。与基于图像的场景图生成(第2行)相比,动态不同颜色的节点表示帧中的对象(人、瓶子、电视从视频生成场景图(动态场景图生成)任务是新的且更具挑战性的静态场景图生成的最流行的方法是建立在一个对象检测器,生成对象的建议,然后推断它们的关系类型以及它们的对象类。然而,对象并不一定在视频序列的每个帧中是一致的,并且任何两个对象之间的关系可能由于它们的运动而变化,其特征在于动态性。在这种情况下,时间依赖性起作用,并且因此,静态场景图生成方法不直接适用于动态场景图生成,这已经在[22]并通过在第二节中分析的实验结果验证。4.第一章图1展示了从图像和视频生成场景图之间的差异动作识别是检测动态的一种替代方法16373对象之间的关系。然而,动作和活动通常被认为是在动作识别中在视频中发生的整体事件[4,27,47,33]。认知科学和神经科学已经研究过,人们通过将其分割成一致的组并编码成分层部分结构来感知正在进行的活动[30]。让1.一、这个人通过在她面前拿着瓶子开始这个活动,然后举起它并喝水。更复杂的是,这个人同时在看电视分解此活动有助于理解它是如何发生的以及正在发生什么 与场景图相关联,可以预测将发生的情况:在这个人拿起她面前的瓶子后,我们可以预测这个人很可能会从里面喝水。用结构化的表示方法表示时态事件,即. 动态场景图,可以导致更准确和接地的动作理解。然而,用于动作识别的大多数现有方法不能够以这种方式分解活动。在本文中,我们将探讨如何有效地从序列生成一个动态场景图。主要贡献总结如下:(1)我们提出了一种新的框架,空间-时间Transformer(STTran),其编码单个帧内的空间上下文,并且解码具有跨帧的时间依赖性的视觉关系表示。(2)与大多数相关工作不同的是,多标签分类应用于关系预测,并引入了一种新的策略来生成具有置信预测的动态场景图。(3)通过几个实验,我们验证了时间依赖性对关系预测有积极的影响,我们的模型通过理解它来提高性能。STTran在Action Genome上实现了最先进的结果[22]。2. 相关工作场景图生成场景图首先在[26]中被提出用于图像检索,并且在计算机视觉社区中引起越来越多的关注[42,61,35,9,38,60]。51、55、62、64、37]。它是描述图像中的对象之间的交互场景图中的节点这些应用包括图像检索[46],图像字幕[1,45],VQA [51,25]和图像生成[24,19]。为了从图像中生成高质量的场景图,一系列工作探索了不同的方向,例如利用空间上下文[61,65,40],图形结构[60,58,34],优化[8],强化学习[36,51],半监督训练[7]或对比损失[66]。这些工作在图像数据集上取得了优异的结果[29,42,31]。虽然在现实世界中,多个关系在主体-客体对之间共同出现是普遍的,但以前的大多数作品都默认为边缘预测作为单标签分类。尽管在该领域取得了进展,但所有这些方法都是针对静态图像设计的。为了将图像中的场景图所带来的增益扩展到视频,Ji et al.[22]通过分解视频中的活动来收集动态场景图的大数据集,并改进利用动态场景图进行视频动作识别的现有技术结果。用于计算机视觉的Transformer香草Transformer架构由Vaswani 等 人 提 出 。 [54] 神 经 机 器 翻 译 。 许 多Transformer变体被开发出来,并且在语言建模任务中取得了很好的性能,特别是大规模的预训练语言模型,如GPT [44]和BERT [10]。然后,变形金刚也被广泛 和 成 功 地 应 用 于 许 多 视 觉 语 言 任 务 , 如 图 像captioning [59,18],VQA [2,63]。为了进一步桥接视觉和语言领域,还开发了不同的类似Bert的大规模预训练模型,如基于标题的图像检索和视觉常识推理(VCR)[43,32,50]。最近,变形金刚在视觉社区中吸引了越来越多的关注。DETR由Carion等人引入。[5] 用 于 对 象 检 测 和 全 景 分 割 。 此 外 , 探 索 了Transformer以从给定图像而不是传统的CNN主干中学习 视 觉 特 征 , 并 实 现 了 有 希 望 的 性 能 [12 , 52]。Transformer的核心机制是其自我注意构建块,其能够通过选择性地关注输入点(每个点可以是句子的单词表示或来自图像的局部特征)来进行预测,使得在不同输入点之间捕获上下文并且细化每个点的表示尽管如此,上述方法集中于利用Transformer从单个图像学习空间上下文,而时间依赖性在视频理解中起作用。Action Transformer由Girdhar等人提出。[14],其利用Transformer来细化时空表示,时空表示由I3D模型[6]学习,然后从RPN网络[45]给出的RoI中汇集,用于识别视频剪辑中的人类动作。事实上,Transformer模块仍然用于学习空间上下文。在[57]中引入了VisTR由CNN主干提取的每个帧的特征被馈送到变换器编码器以学习视频序列的时间信息时空网络时空信息是访问视频理解的关键[39,28,21],并且已经进行了长期的深入研究。到目前为止,最 流 行 的 方 法 是 基 于 RNN/LSTM 的 [20] 或 基 于 3DConvNets的[23,53]结构。前者顺序地从每个帧中获取特征并学习时间信息[49,11]。后者将传统的2D卷积(高度和宽度维度)扩展到时间维度,用于顺序输入。Simonyan等人[48]介绍16374不不 ∈∈∈∈⟨ ⟩∈∈不∈不不不作为具有额外索引t的静态场景图Gstat(,)将随时间的关系表示为额外的时间不S 不O 不u不框不 不不 不(不不 不QK√D∈K(t)双流CNN结构,空间和时间信息分别在不同的流上学习。在两个信息流之间插入剩余连接以允许信息融合。然后,双流结构中的2D卷积被膨胀为其对应的3D卷积,称为I3D模型[6]。非局部神经网络[56]引入了另一种通用的自注意机制,即非局部操作。它计算输入信号中不同位置之间的相关性,并基于相关性通过不同输入的加权和来细化输入。该方法通过在时间维上扩展非局部运算,易于然而,这些工作被应用于活动识别,并且不能够分解交流。剩余连接和前馈层,前馈层之后还跟随有具有剩余连接的归一化层。为了简单起见,我们将这样的自注意力层表示为Att(. )的情况。在这项工作中,我们设计了一个时空转换器的基础上的属性。)来分别探索对单个帧起作用的空间上下文和对序列起作用的时间依赖性。3.2.关系表示我们采用Faster R-CNN [45]作为我们的骨干。对于具有T个帧的给定视频中的时间步长t处的帧I t,V=[I1,I2,. . . ,IT],检测器提供视觉特征{v1,. . . ,vN (t)}∈R2048,boxes{b1,. . . ,bN⑴}和对象类别分布{d1,. . . ,dN(t)}的对象的成一致的群体。 在这项工作中,我们不仅建议凡不N(t)指示对象亲的数量。利用Transformer来学习帧内的对象之间的空间上下文,而且还学习帧内的对象之间的时间依赖性。在框架中设置 在N(t)个对象提议之间,存在一组关系Rt={r1,r2,. . .,r K(t)}。帧来推断沿着表示向量kt t t时间轴3. 方法xt之间的关系rk第i和第j对象建议包含视觉外观,空间信息和语义嵌入,其可以被公式化为:可以对动态场景图Gdyn(Vt,Et)进行建模V Exk=.Wvi,Wvj,Wφ(uijf(bi,bj))),si,sjΣ轴线受Transformer特性启发:(1)架构是置换不变的,以及(2)序列与位置编码兼容,我们引入了一种新的模型,空间-时间Transformer(STTran),以便利用沿着视频的空间-时间上下文(参见图1B)。2)的情况。3.1. Transformer首先,我们对Transformer的结构进行了简要的回顾Transformer是由Vaswani等人提出的。 [54]并且由基于多头点积注意力的Transformer细化层的堆叠组成。 在每一层中,通过线性变换将输入的D维N个 条 目 XRN×D 转 化 为 查 询 ( Q=XWQ ,WQRD×Dq)、键(K=X WK,WKRD×Dk)和值(V=X WV,WVRD×Dv).注意,Dq、Dk和Dv在实施方式中通常相同。 每个条目通过点积关注度与其他条目一起细化,定义如下:其中,是级联运算,Φ是平坦化运算,并且是逐元素加法。Ws,WoR2048×512和WuR12544×512表示维数压缩的线性矩阵。uijR256×7×7表示RoIAlign [ 16 ]计算的联合框的特征图,而f box是将主体和对象的边界框转换为具有与ui j 相 同 形 状 的 整 个 特 征 的 函 数。语义嵌入向量si,sjR200是由主体和客体的客体范畴所决定的。关系表示在时空Transformer中交换空间和时间信息。3.3. 时空Transformer时空Transformer保持原始的编码器-解码器架构[54]。不同的是,编码器和解码器被委派了更具体的任务。Spatial Encoder专注于一帧其输入是一单个 Xt={x1,x2,. . .得双曲余切值.{\fn方正粗倩简体\fs12\b1\bord1\shad1\3cH2F2F2F} 查询Q、键K和值.TΣAttention(Q,K,V)=SoftmaxKt t tV(一)为了提高注意力层的性能,多个X(n)=属性(Q =K=V= X(n−1))(4)应用头部注意力,其定义为:t tMultiHead(Q,K,V)=Concat( h1,.. . ,hh h)W0,hi=注意力(XWQi,XWKi,XWVi)。(二)编码器由N个相同的属性 组 成 。这些层依次堆叠。第(n)层的输入是第(n-1)层的输出为简单起见,我们将一个完整的自我关注层包含上述自我-注意力模块后接归一化层上标n在下面的讨论中。不像少校-Transformer方法的简单性,无需额外的位置编码V共享第n个编码器层表示为:16375⊕不超过∈不tn-1t nt n+1tn-1t nt n+1视频帧关系表示组合表示动态场景图图2:我们的方法的概述:对象检测主干提出RGB视频帧中的对象区域,并且关系特征向量被预处理(第2节)。3.2)。所提出的空间-时间Transformer的编码器(Sec. 3.3)首先提取单个帧内的空间上下文。由来自不同帧的编码器栈细化的关系表示被组合并添加到学习的帧编码。解码器层捕获时间依赖性,并且利用针对不同关系类型(诸如注意、空间、接触)的线性分类器来预测关系。表示逐元素加法,而FFN表示前馈网络。被集成到输入中,因为帧内的关系直观上是平行的。话虽如此,隐藏在关系表示中的空间信息(参见等式(Eq. 3)在自我注意机制中起着至关重要的作用。编码器堆栈的最终输出被发送到Tempo- ral解码器。帧编码被引入用于时间解码器。在没有卷积和递归的情况下,序列顺序的知识(如位置编码)必须嵌入到Transformer的输入中。与这个词的空间情境化表示[X1,. . . ,X,T],并且第i个生成的输入批次被呈现为:Zi=[Xi,. . . ,Xi+η−1],i∈{1,. . . ,T-n+1}(5)其中窗口大小η T和T是视频长度。 解码器由与编码器结构类似的N个堆叠的相同的自注意层Attdec()组成。考虑第一层:Q=K=Zi+Ef,位置或[5]中的像素位置,我们定制帧编码以将时间位置注入关系表示中。帧编码Ef是V=Zi,Zi=属性下降(Q,K,V)。(六)使用学习的嵌入参数构造,因为取决于时间解码器中的窗口大小η的嵌入向量的量是固定的并且相对短: . . ,eη],其中e1,. . . ,eηR1936学习向量的长度与xk相同。还分析了广泛使用的正弦编码方法(见表5)。我们采用学习的编码方法,因为它的整体性能更好。窗口大小η是固定的,因此视频长度不影响帧编码的长度。时间解码器捕获帧之间的时间依赖性。不仅计算量和内存消耗大大增加,而且有用的信息很容易被大量无关的表示淹没。在这项工作中,我们采用了一个滑动窗口批帧,使消息传递之间的相邻帧,以避免干扰遥远的帧。与[54]不同,我们的时间解码器的自注意层与空间编码器Att_enc相同。()、关于Eq中的第一行。6,在与查询和关键字相同的帧中,将相同的编码添加到关系表示。来自最后解码器层的输出被采用用于最终预测。由于滑动窗口的存在,一个框架中的关系在不同的批次中具有不同的表示形式在这项工作中,我们选择最早出现在窗口中的表示。3.4. 损失函数我们采用多个线性变换来引入不同类型的关系(如atten- tion,空间,接触)与细化的representations。实际上,两个对象之间的同一类型的关系在语义上并不唯一,例如同义动作person-holding-broom>和. 因此,我们引入用于谓词分类的多标签边际损失函数如下:Lp ( r , P+ , P− ) =ΣΣmax ( 0 , 1−⋯(r,p)+⋯ (r,q))I.E. 被掩蔽的多头自注意层被重新动了 一个大小为η的滑动窗口在序列p∈P+q∈P−(七)检测器空间编码器时间解码器VV+KKQQ帧编码多头注意添加规范FFN添加规范多头注意添加规范FFN添加规范分类器16376PP对于主宾对r,+是注释的谓词,而-是注释中没有的谓词集合。(r,p)表示第p个谓词的计算置信度得分在训练过程中,对象分布由两个完全连接的层计算,中间有一个ReLU激活和一个批量归一化。利用标准交叉熵损失L。总目标如下:L总=Lp+Lo(8)3.5. 图生成策略在以前的工作中,有两种典型的策略来生成具有推断的关系分布的场景(a)有约束仅允许每个主语-宾语对具有至多一个谓语,而(b)无约束允许主语-宾语对在具有多个猜测的输出图中具有多个边With Constraint更严格,表明模型预测最重要关系的能力,但它不适合多标签任务。无约束算法虽然能够体现多标签预测的能力,但由于多标签预测的宽容性,导致生成的场景图中存在错误信息。为了使生成的场景图更接近地面实况,我们提出了一种新的策略,称为半约束,允许一个主体-客体对有多个谓词,如人-拿着-食物>和<人吃食物>。谓词被认为是肯定的当且仅当对应关系置信度为高于阈值。在测试时,每个关系三联体的得分<主语-谓语-宾语>被计算为:srel=ssub·sp·sobj,(9)其中ssub、sp、sobj分别是主体、预测和对象的置信度得分4. 实验4.1. 数据集和评估指标数据集我们在Action Genome(AG)数据集[22]上训练和验证我们的模型,该数据集提供帧级场景图标签并且建立在Charades数据集[47]上。对于234,253帧,注释了35个对象类(没有人)的476,229个边界框和25个关系类的1,715,568个这25种关系细分为三种不同类型:(1)注意关系表示是否一个人正在看一个物体,(2)空间关系和(3)接触关系,它们表示接触物体的不同方式。在AG中,135,484个主体-客体对被标记有多个空间关系(例如,<门在前面的人>和人的一侧的门>)或接触关系(例如,人吃食物>和)。评估指标我们遵循基于图像的场景图生成[42]的三个标准任务进行评估:(1)谓词分类(PREDCLS):给定对象的基本(2)场景图分类(SG-CLS):对地面实况边界框进行分类并预测关系标签。(3)场景图检测(SGDET):检测对象并预测对象对的关系标签。 物体检测被认为是成功的-如果预测框与地面实况框重叠至少0.5 IoU,则有效。所有任务都使用广泛使用的Recall@K度量(K=[10,20,50])进行评估,然后使用约束、半约束和无约束。的将关系中的置信度阈值设置为0。如果没有特殊说明,则所有实验的半约束为94.2. 技术细节在这项工作中,基于ResNet101 [17]的FasterRCNN[45]我们首先在Action Genome [22]的训练集上训练检测器,并得到24.6 mAP为0.5 IoU,采用COCO指标。检测器应用于所有基线以进行公平比较。当训练场景图生成模型时,包括RPN的对象检 测器的参数是 固定的。在0.4IoU处的每类非最大抑制被应用以减少由RPN提供的区域我们使用AdamW [41]优化器,初始学习率为1e-5,批量大小为1来训练我们的模型。此外,以最大范数5应用梯度裁剪。对于Action Genome上的所有实验,我们为我们的STTran设置窗口大小η=2和步幅=1 空间编码器包含1层,而时间解码器包含3个迭代层。编码器和 解 码 器 中 的 自 注 意 模 块 具 有 8 个 头 , 其 中d_model=1936并且dropout=0。1.一、前馈网络将1936-d输入投影到2048-d,然后在ReLU激活后再次投影到1936-d4.3. 定量结果和比较表1显示,我们的模型在有约束、半约束和无约束的所有指标中优于最先进的基于图像的方法。为了公平比较,所有方法共享提供相同质量的特征图和区域建议的相同对象检测器。粗体数字表示任何列中的最佳结果。在时间依赖性的帮助下,我们的模型改进了 最 先进的 (GPS-Net[40])1。PredCLS上9%16377有约束无约束方法PredCLSSGCLSSGDETPredCLSSGCLSSGDETR@10R@20R@50R@10R@20R@50R@10R@20R@50R@10R@20R@50R@10R@20R@50R@10R@20R@50VRD[42]51.754.754.732.433.333.319.224.526.059.678.599.239.249.852.619.128.840.5Motif Freq[65]62.465.165.140.841.941.923.731.433.373.492.499.650.460.664.222.834.346.4MSDN[35]65.568.568.543.945.145.124.132.434.574.992.799.051.261.865.023.134.746.5VCTREE[51]66.069.369.344.145.345.324.432.634.775.592.999.352.462.065.123.935.346.8RelDN[66]66.369.569.544.345.445.424.532.834.975.793.099.052.962.465.124.135.446.8GPS网络[40]66.869.969.945.346.546.524.733.135.176.093.699.553.663.366.024.435.747.3STTran68.671.871.846.447.547.525.234.137.077.994.299.154.063.766.424.636.248.8表1:与Action Genome上最先进的基于图像的场景图生成方法的比较[22]。为了公平比较,在所有基线中使用相同的对象检测器。STTran在所有指标中具有最佳性能。请注意,基线的评估结果与[22]不同,因为我们采用了更合理的关系输出方法,更多细节在补充材料中提供。半约束NT方法PredCLSSGCLSSGDETR@10R@20R@50R@10R@20R@50R@10R@20R@50VRD[42]55.564.965.236.239.740.119.027.132.4Motif Freq[65]65.774.174.545.549.349.522.933.739.0MSDN[35]69.678.979.948.354.154.523.234.241.5VCTREE[51]70.178.279.649.053.754.023.734.840.4RelDN[66]70.778.880.349.453.954.124.135.040.7GPS网络[40]71.381.282.050.255.055.224.535.341.9STTran73.283.184.051.256.556.824.635.944.0表2:如果置信度得分高于阈值,则指示对象对之间的关系的半约束关系被设置为固定数(0. 9)在实验中。为了研究这种阈值的影响 在对召回@K的半约束中,[35,66,40]和STTran的R@20-阈值曲线如图所示。3.第三章。STTran始终优于所有三个模型在所有阈值水平从0。七比零。九十五高阈值抑制R@20值,除了在SGDET中,因为存在更多对提议。8483R@20,1 .一、0%,SGCLS-R@ 20和1。SGDET上的0%R@20的策略与约束,这表明,STTran执行更好的基于图像的基线在预测最重要的关系之间的对象汇率我们的模型也具有优异的性能(见表2):1.9%,在PredCLS-R@ 20,1. SGCLS-R@ 20和0的情况。对于半限制型,SGDET-R@20提高6%允许主体和客体汇率对于无约束,STTran在除PredCLS-R@ 50之外的所有设置中优于其他方法。由于对象对的数量很少,而猜测的机会却很多(50)Motif Freq [65]非常依赖统计学,得分最高然而,当预测数K=[10,20]较小时,结果变得可靠。请注意,由于对象对的数量有限和边缘限制,对于With Constraint,PredCLS-R@ 20和PredCLS-R@ 50之间 没 有 差 异 这 也 发 生 在 SGCLS 上 。 与 PredCLS 或SGCLS相比,828180797857.056.556.055.555.054.554.053.536.034.534.00.70 0.75 0.80 0.85 0.90半约束阈值STTran与其他方法之间的SGDET差距缩小,因为增加的假目标建议引起干扰,特别是对于使用小K的半约束和无约束。此外,由于采用了更合理的关系输出方法和对象检测器的不同,某些方法的再现结果与[22在半约束中,图3:半约束的三个标准任务(PredCLS/SGCLS/SGDET)中的R@20阈值曲线。4.4. 时态依赖分析与先前的基于图像的场景图生成相比,动态场景图具有可以利用的我们讨论节奏-STTranGPSNETMSDNRelDNSTTranGPSNETMSDNRelDNSTTranMSDNR@20(半限制)35.5GPSNET35.0RelDNSGCLSSGDETPredCLS16378关系依赖性可以改善关系推理,并验证我们提出的方法利用时间依赖性。在本小节中,我们测量PredCLS-R@ 20(带约束)作为严格显示单关系分类能力的性能指标时间依赖性容易使用吗?空间背景在场景图生成中起着相关的作用,如几种基于图像的方法所验证的[65,40]。为了探索时间依赖性的有效性,我们将广泛使用的递归网络LSTM移植到表3中的基线上,如下所示。在将特征向量转发到最终分类器之前,表示视频中关系的整个向量表3示出了所有基线可以从时间依赖性或多或少地获得。对于Motif Freq [65],PredCLS-R@ 20从65.1%略微增加到65.2%,可能是由于相对简单的特征表示。同时,GPS-Net [40]的得分从69.9%显著提高到实验结果表明,时间依赖性对场景图的生成是有帮助的。然而,以前的方法是针对静态图像设计的。这就是为什么我们提出时空Transformer(STTran),以更好地利用时间依赖性。方法PredCLS-R@20原始+LSTMMotif Freq[65]65.165.2MSDN[35]68.568.8RelDN[66]69.569.7GPS网络[40]69.970.4表3:我们集成LSTM以在将关系特征转发到分类器中之前将它们处理成一些代表性基线。所有基线都改善了时间依赖性,但比我们的STTran更差。食品食品控股感人人人食品食品控股吃人人STTran真的能理解时间依赖吗?为了验证STTran确实通过视频中的时间依赖性提高了性能,而不是使用更清晰的特征表示或强大的多头注意力模块,我们使用处理后的训练集训练了我们的模型,并在表4中显示了结果。我们在训练集中随机抽取1/3的视频,并对它们进行洗牌/反转。同时,测试集保持不变。如表4所示,当三分之一的训练视频被反转时,PredCLS-R@ 20(具有约束)从71.8%显著下降到71.0%,这相当于在时间信息中添加噪声。此外,混洗视频指示时间信息被完全破坏并且噪声被进一步放大。实验结果(第一行)符合预期:PredCLS-R@ 20下降至70.6%。实验证明了改进来自哪里,并验证了STTran中学习的时间依赖性。正常视频处理的视频处理PredCLS-R@20三分之二三分之一洗牌70.6三分之二三分之一反向71.01--71.8表4:我们对训练集中的三分之一的视频进行混洗/反转,以探索模型对帧序列的敏感性。通过经由混洗或反转视频序列来扰乱时间信息,模型的性能如预期的那样相应地降低。4.5. 消融研究在我们的时空Transformer,提出了两个模块,空间编码器和时间解码器。此外,我们将时间位置集成到与时间解码器中的帧编码的关系表示中。为了阐明这些模块如何有助于性能,我们烧蚀了不同的部件并在表 5 中 呈 现 了 结 果 。 我 们 采 用 PredCLS-R@ 20 和SGDET-R@20作为有约束和半约束的度量。PredCLS直观地展示了关系预测的能力,而SGDET则展示了场景图生成的性能。当仅启用空间编码器时,该模型与基于图像的方法相同,并且还具有与RelDN类似的性能[66]。隔离的时间解码器(第二行)提高了性能(a) 仅空间编码器(b) 完成STTran与来自其他人图4:分别由空间编码器和STTran生成的两个关系实例(a)空间编码器仅用第二帧中的空间上下文预测错误的关系,而(b)STTran可以在时间依赖性的帮助下推断更准确的结果。跳转当编码器和解码器都工作时,PredCLS-R@ 20略有改善,而SGDET-R@ 20的改善受到对象检测骨干的限制。学习的帧编码有助于STTran完全理解时间依赖性,并对PredCLS-R@ 20和SGDET-R@2016379--带约束的框架真实值半约束无约束图5:动态场景图生成的定性结果。来自STTran的场景图是用具有不同策略的前10个置信关系预测生成的。绿框是未检测到的地面实况。瓜色和灰色分别表示真阳性和假阳性。为清楚起见,正确的关系用浅蓝色着色,为简洁起见,省略ing。实验结果表明,目标检测结果不佳会降低性能,而半约束的结果更接近地面实况。而固定正弦编码执行得不令人满意。分别由仅空间编码器和完整STTran预测的两个实例在图1中示出。4.第一章在没有时间依赖性的情况下,空间编码器在第二帧中错误地将人吃食物>预测为人触摸食物>,而STTran正确地推断出该关系。这明确地证明了STTran可以利用时间上下文来改进场景图生成。空间时间帧PredCLS-R@20SGDET-R @20Encoder Decoder Encoding With Semi✓- -69.678.732.935.1- ✓-71.082.233.735.5✓ ✓-71.382.733.835.6✓✓正弦曲线71.382.833.935.7✓✓学习71.883.134.135.9表5:STTran的消融研究✓表示对应模块启用,而表示禁用。我们还比较了正弦和学习的位置编码的有效性4.6. 定性结果图5示出了动态场景图生成的定性结果从左到右的五列是RGB帧、由地面实况生成的场景图、利用具有约束、半约束和无约束的策略的前10个置信关系预测生成的场景图。瓜的颜色表示真阳性,而灰色表示假阳性。绿色框是未被检测器检测到的地面实况。 在第一行中,具有高对象检测置信度的两个假阳性(医学和笔记本)导致前10个关系中的当对象检测成功时,遵循三种策略的所有前10个置信关系在第二行中具有高质量。<第三列中的person-drinking from-bottle>丢失,因为With Constraint对于每种类型的关系仅允许每个主体-客体对之间最多一个关系,而person-notcontacting-bottle>在使用No Constraint时替换前10个置信度列表中的人与瓶子之间的注意力关系。图中的两个帧。5不相邻,因为检测到的人s与地面实况IoU 0重叠<。5、在他们之间。5. 结论在本文中,我们提出了时空Transformer(STTran)的动态场景图生成的编码器提取帧内的空间上下文和解码器捕捉帧之间的时间依赖性。不同于以往的作品中的单标签损失,我们利用多标签的利润损失,并引入了一种新的策略来生成场景图。实验结果表明,时间语境对关系预测有积极的影响.我们获得国家的最先进的结果动态场景图生成任务的动作基因组数据集。致谢本工作得到了BMBF(授权号01 DD 20003)、DFG PhoenixD ( EXC 2122 ) 和 COVMAP ( RO2497/12-2)的支持。瓶不接触笔记本医学笔记本笔记本面前面前举行面前不看的一侧看看面前看看看看触摸触摸触摸人人人面前面前面前坐在触摸触摸不看不看不看触摸下方触摸面前在...面前触摸不看看看看看表地板台式笔记本台式笔记本瓶瓶瓶不看面前举行不看面前举行喝面前举行喝人人面前人面前面前坐在坐在不接触坐在不看不看触摸下方触摸下方不看触摸下方不看不看不看表地板表地板表地板瓶看看面前举行喝人面前坐在不看在下面接触不看表地板笔记本举行面前看看触摸人面前触摸不看在...面前触摸看看表笔记本16380引用[1] Peter Anderson,Basura Fernando,Mark Johnson,andStephen Gould. Spice:语义命题图像帽评估。在欧洲计算机视觉会议上,第382-398页施普林格,2016年。二个[2] Peter Anderson,Xiaodong He,Chris Buehler,DamienTeney,Mark Johnson,Stephen Gould,and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在CVPR中,第6077-6086页,2018年。二个[3] 奥伦·阿舒尔和里奥·沃尔夫。在交互式场景生成中指定对象属性和关系在IEEE/CVF计算机视觉国际会议论文集,第4561-4569页一个[4] Fabian Caba Heilbron、Victor Escorcia、Bernard Ghanem和Juan Carlos Niebles。Activitynet:人类活动理解的大规模视频基准。在Proceedings of the IEEE conference oncomputer vision and pattern recognition,第961-970页,2015中。二个[5] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测在EuropeanConferenceon ComputerVision 中 , 第213Springer,2020年。二、四[6] Joao Carreira和Andrew Zisserman。你好,动作识别?新模型和动力学数据集。在CVPR中,第6299-6308页二、三[7] Vincent S Chen , Paroma Varma , Ranjay Krishna ,Michael Bernstein,Christopher Re,and Li Fei-Fei.具有有限标签的场景图预测。在IEEE/CVF计算机视觉国际会议论文集,第2580- 2590页,2019年。二个[8] Yuren Cong , Hanno Ackermann , Wentong Liao ,Michael Ying Yang,and Bodo Rosenhahn. Nodis:神经常微分场景理解。在ECCV,第636-653页,2020中。二个[9] Bo Dai,Yuqi Zhang,and Dahua Lin.用深层关系网络检测视觉关系。在CVPR中,第3076-3086页,2017年。二个[10] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert:为语言理解而进行的深度双向转换器的预训练。arXiv预印本arXiv:1810.04805,2018。二个[11] JeffreyDonahue 、 LisaAnneHendricks 、 SergioGuadarrama、MarcusRohrbach、SubhashiniVenugopalan、Kate Saenko和Trevor Darrell。用于视觉识别和描述的长期递归卷积网络。在Proceedings of theIEEEconferenceoncomputervisionandpatternrecognition,pages 2625-2634,2015中。二个[12] AlexeyDosovitskiy,LucasBeyer,AlexanderKolesnikov,Dirk Weissenborn,Xiaohua Zhai,ThomasUnterthiner , Mostafa Dehghani , Matthias Minderer ,Georg Heigold,Sylvain Gelly,et al.一张图片相当于16x16个单词:用于大规模图像识别的变换器. ICLR,2021年。二个[13] Lizhao Gao,Bo Wang,and Wenmin Wang.基于场景图的语义概念的图像字幕。进行中-163812018年第10届机器学习和计算国际会议,第225-229页,2018年。一个[14] Rohit Girdhar , Joao Carreira , Carl Doersch , andAndrew Zis-serman. 视 频 行 动 Transformer 网 络 。 在CVPR中
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功