基于STVGBert的视觉语言Transformer的时空视频基础

104 浏览量更新于2023-09-29 收藏 660KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1533STVGBert：一个基于视觉语言Transformer的时空视频基础芮苏腾讯平台内容事业部rayruisu@tencent.com千虞北京航空航天大学qianyu@buaa.edu.cn董旭*悉尼大学电气与信息工程学院dong. sydney.edu.au摘要时空视频接地（STVG）旨在基于查询语句在未修剪的视频中局部化目标对象的时空管。在这项工作中，我们提出了一个阶段的视觉语言Transformer为基础的框架称为STVGBert的STVG任务，它可以同时本地化的目标对象在空间和时间域。具体来说，不诉诸于预先生成的对象建议，我们的STVGBert直接采取视频和查询语句作为输入，然后通过使用新引入的跨模态特征学习模块ST-ViLBert产生跨模态特征。基于交叉模态特征，我们的方法然后生成绑定框并预测开始帧和结束帧以产生预测的对象管。据我们所知，我们的STVGBert是第一个单阶段方法，它可以处理STVG任务，而不依赖于任何预先训练的对象检测器。综合实验表明，我们的新提出的框架优于国家的最先进的多阶段的方法在两个基准数据集Vid-STG和HC-STVG。1. 介绍视觉和语言对人类认识世界起着重要作用。近年来，随着深度神经网络的显著进步，各种视觉语言任务（例如，图像字幕[15，22]、密集视频字幕[37，36]和视觉背景[10，35]）引起了研究人员越来越多的关注。在最近的工作[39]中引入的时空视频接地（STVG）是一项新的具有挑战性的给定一个未修剪的视频和一个*董旭为通讯作者。对象的文本描述，STVG任务旨在产生时空管（即，边界框序列[21，20]）。与现有的图像中的接地任务不同此外，如何有效地对齐视觉和文本信息，通过跨模态特征学习在空间和时间域也是一个关键问题，准确定位目标对象，特别是在具有挑战性的场景中，不同的人经常在一个场景中执行类似的动作。图像/视频中的空间定位是相关的视觉基础任务，并且空间定位结果在最近的工作中已经得到改进[13，35，14，27，30，31，12，29，2]。在大多数现有的作品中，通常需要预先训练的对象检测器来预先生成对象提议。然而，这些方法受到以下限制：（1）定位性能严重依赖于预先生成的对象提议的质量。(2)预先训练的对象检测器很难很好地推广到具有看不见的类的任何新数据集。(3)需要额外的训练数据和计算成本来预训练对象检测器。虽然最近的工作[34，10，16，33]已经尝试在图像接地任务中去除预生成过程，但是对于视频接地任务还没有做出这样的努力。对于STVG任务，我们需要在空间和时间上进行定位直观地说，我们可以通过使用两阶段方法来解决这个任务，其中首先使用时间视觉接地方法[5，1]来局部化目标对象的开始和结束帧，然后通过使用空间视觉接地方法[3，17，29]对时间修剪的视频执行空间定位。然而，通过分别处理两个子任务，流水线变得更加复杂，因为每个子任务由独立的网络处理。此外，委员会认为，1534我们还可以通过解决端到端优化网络中的空间定位和时间定位来学习更好的表示因此，它是可取的，提出一个统一的一阶段的STVG任务的框架。受上述观察的启发，在这项工作中，我们提出了一个基于单阶段视觉语言Transformer的框架STVGBert用于STVG任务，它可以直接从输入视频和查询描述中生成时空对象管，而不依赖于任何预先训练的对象检测器。具体来说，我们的方法首先需要一对视频剪辑和文本查询作为输入，以产生跨模态的功能。然后使用交叉模态特征来产生每个帧的边界框以及预测开始帧和结束帧，然后使用开始帧和结束帧来生成目标对象的时空管。考虑到通过使用变压器进行各种任务已经取得了有希望的结果[41，40，28]，我们的STVGBert也建立在视觉语言变压器上。具体来说，关键组件是一个名为ST-ViLBert的跨模态特征学习模块与仅编码时间信息的相关工作ViLBERT [15]不同因此，我们的STVGBert可以有效地学习跨模态表示的基础上的空间和时间的视觉信息，并产生时空对象管，而不需要任何预先训练的对象检测器。我们在两个基准数据集VidSTG [39]和HC-STVG [25]上评估了我们提出的框架STVGBert，实验表明我们的框架优于所有最先进的方法。我们的贡献可归纳如下：(1) 我们提出了一个新的一个阶段的视觉语言转换器为基础的框架STVGBert的时空视频接地任务。据我们所知，这是第一个端到端优化的STVG框架，不需要任何预先训练的对象检测器。(2) 我们引入了一个新的跨模态特征学习模块，ST-ViLBert，在同一时间建模时空信息和对齐跨模态表示(3) 在两个基准数据集VidSTG和HC-STVG上进行的综合实验证明了我们的STVG任务框架的有效性。我们的一阶段方案优于所有多阶段国家的最先进的方法的显着利润率。2. 相关工作2.1. 视觉语言建模基于变换器的神经网络已被广泛探索用于各种视觉语言任务[24，9，15，22]。例如视觉问题回答、图像字幕和图像-文本检索。例如，[24]中的工作提出使用两个单模态变换器和一个跨模态变换器来学习视觉问答任务的跨模态表示。在[9]中，Li等，预训练单个跨流Transformer用于句子-图像对齐任务，并使用预训练的模型来处理图像-文本检索任务。在ViLBERT [15]和VL-BERT [22]的作品中，作者基于大型视觉语言数据集训练了通用的基于transformer的神经网络，这可以使几个下游任务受益。除了这些作品设计的基于图像的视觉语言的任务，孙等人。[23]提出了VideoBERT，通过对多个视频帧之间的时间变化进行建模，用于视频字幕任务然而，这项工作并没有在每个帧内的空间信息建模，所以它不能被应用于在这项工作中讨论的时空视频接地任务。上述基于变换器的神经网络将从图像或视频帧中的感兴趣区域（ROI）提取的特征作为输入特征，因此当将它们变换为视觉令牌时，特征空间中的空间信息不能被在这项工作中，我们提出了ViLBERT的改进版本[15]，以更好地对视频中的时空信息进行建模，并学习更好的跨模态表示。2.2. 图像/视频中的视觉基础图像/视频中的视觉基础旨在基于查询语句来定位图像/视频中的感兴趣对象。在大多数现有方法[13、35、14、27、30、31、32、33、34、35]12，29，2，39]，通常需要预先训练的对象检测器来预先生成对象提议。然后选择与给定输入描述最匹配的建议作为最终结果。MattNet [35]使用了一个模块网络来探索属性和对象关系。对于图像中的视觉接地任务，最近的一些作品[34，10，16，33]提出了新的一阶段接地框架，而不使用预先训练的对象检测器。例如，Liao et al.[10]使用无锚对象检测方法[42]基于交叉模态表示来定位目标对象。Yang等[33]使用子查询来生成文本条件视觉特征，以提高一阶段接地方法的性能。对于视频接地任务，张等人[39]提出了一种新方法（称为STGRN），该方法不依赖于预先生成的管建议。不幸的是，这项工作[39]仍然需要预先训练的对象检测器来首先生成对象提议，因为输出边界框是从这些候选边界框中检索的。与我们提出的框架类似，最近的工作STGVT [25]也采用了视觉语言Transformer来学习时空的跨模态表示1535n=1t=ts∗Kk=1K------视频夹子特征STVGBert-core图像编码器共享BB中心BB尺寸对象管不WH开始和一个戴帽子的孩子抱着一个玩具。['SEP']”文本查询输入文本标记单词嵌入管生成STVGBert-core(a) 我们的框架SVG分支文本引导的视觉特征夹子特征德孔夫头头边界框（BB）居中边界框（BB）大小ST-ViLBERT输入文本标记全局文本特征TVG分公司空间池化MLP开始和结束预测分数(b) 我们的STVGBert核心模块图1. (a)我们的时空视频接地框架STVGBert的概述。我们的一个阶段的框架由STVGBert核心模块和管生成模块，它需要视频和文本查询对作为输入，以生成包含感兴趣的对象的时空对象管。在（b）中，STVG Bert核心模块由两个分支组成，空间视觉基础（SVG）分支和时间视觉基础（TVG）分支，其同时生成边界框并预测每个帧是开始/结束帧的概率。视频接地任务。但这项工作[25]也需要首先生成管的建议，在大多数现有的方法[2，29]。此外，在工作[18，8，38，32]中，还需要预先训练的对象检测器来生成对象关系建模的对象建议。与这些工作[39，25，18，8，38，32]相比，我们引入了一个新的框架，该框架具有新提出的交叉模态特征学习模块，以生成对象管，而不需要任何预先训练的对象检测器。3. 方法在本节中，我们简要介绍了我们在第3.1节中提出的方法的总体框架，然后我们介绍了如何分别对来自输入视频和文本查询描述的视觉特征和文本特征进行编码（第3.2节），以及介绍我们新提出的多模态表示学习模块ST-ViLBERT（第3.3节）。然后，我们在第3.4节中描述用于生成时空对象管的空间和时间定位过程。最后，在3.53.1. 概述我们将具有K个T帧的未修剪视频V表示为非重叠视频剪辑的集合，即，我们具有V=V剪辑K，其中V剪辑指示由T个帧组成的第k个视频剪辑，并且K是未修剪视频中的视频剪辑的总数。我们还将文本描述表示为S=s nN，其中s n指示描述S中的第n个单词，并且N是单词的总数。 STVG任务旨在输出包含感兴趣对象（即，目标对象），其中Bt是指示第t帧中的目标边界框的左上和右下空间坐标的4-D向量ts和te分别表示对象管B的时间开始帧和时间结束帧在该任务中，需要基于查询语句执行空间定位和时间定位两者我们提出了一个统一的 STVG 框架STVGBert同步定位感兴趣的目标在空间和时间域。与先前的方法[29，2]不同，其首先通过链接预先检测到的对象边界框来输出一组管建议，我们的STVGBert不需要任何预先训练的对象检测器。如图首先，我们的STVGBert从视频帧和文本查询中提取视觉特征和文本嵌入，然后使用我们新引入的跨模态特征学习模块产生文本引导的视觉特征，最后在空间和时间上定位感兴趣的对象以生成对象管，包括一维转换相关Sigmoid一维转换1536×K∈n=1K×××每个帧中的目标对象的边界框Bt在下面的部分中，我们将详细描述每个步骤。3.2. 视觉特征和文本特征编码我们首先使用ResNet-101 [6]作为图像编码器来提取视觉特征。来自第4残差块的输出被整形为HW C的大小，其中H、W和C分别指示特征图的高度、宽度和通道数量对于第k个视频片段，我们将从该视频片段中的每一帧中提取的视觉特征堆叠以构造片段特征F片段RT×HW×C，然后将其输入到我们的跨模态特征学习模块以产生多模态视觉特征。对于文本描述，我们使用词嵌入模块将描述中的每个词映射为词向量，并且每个词向量被认为是一个文本输入令牌。此外，我们在描述的文本输入标记之前和之后添加了两个特殊标记E={e n}N +2，其中e n是第n个文本输入令牌。当前图层的视觉输出当前图层的添加规范添加规范前馈前馈添加规范多头注意查询键值多头注意值密钥查询视觉输入（从最后一层输出）文本输入（从最后一层输出）添加规范视觉分支文本分支(a) ViLBERT中的一个共同注意层中间视觉特征规范复制复制分解多头注意3.3. 多模态特征学习给定视觉输入特征F剪辑和文本输入标记E，我们开发了一个新的跨模态建模模型称为ST-ViLBERT，学习视觉语言表示。根据ViLBERT的结构[15]，我们的纹理分支的可视输入查询键值组合视觉特征组合空间池化时间池化ST-ViLBERT模块由一个可视化分支和一个文本分支组成，两个分支都采用了多层的跨层结构。视觉输入文本输入前编码器[26]结构。如图在图2（a）中，视觉分支经由一组共同关注层与文本分支交互，这在键值对之间交换信息以生成文本引导的视觉特征（或反之亦然）。请参考[15]中的工作以了解更多细节。ViLBERT [15]的工作将图像中所有预先生成的建议中的视觉特征作为视觉输入，以学习视觉语言表示（见图1）。第2（a）段）。然而，由于这些视觉特征通过使用平均池化操作而被空间地池化，因此视觉输入特征空间中的空间信息将丢失。虽然这样的信息对于预测边界框是重要的，但是这对于ViLBERT不是问题，因为它假设边界框已经通过使用预先训练的对象检测器生成。我们的ST-ViLBERT模块专为空间定位而设计，不需要任何预先生成的边界框，其中关键是在执行跨模态特征学习时保留空间信息具体来说，我们引入时空组合和分解（STCD）模块来替换ViL中视觉分支的多头注意力和添加范数模块（b）时空组合和分解模块图2. (a)ViL-BERT中的一个共同关注层的概述[15]。由视觉分支和文本分支组成的共同注意层通过交换用于多头注意块的键值对来生成视觉语言表示。（b）我们的时空组合和分解（STCD）模块的结构伯特如图2（b）中，我们的STCD模块分别对输入视觉特征应用空间和时间平均池化操作（即，来自最后一层的视觉输出），以产生具有T C大小的初始时间特征和具有HW大小的初始空间特征C，然后将它们连接起来构造大小为（T+HW）C的组合视觉特征。然后，我们将组合的视觉特征传递到文本分支，其用作文本分支的多头注意力块中的键和值。此外，组合的视觉特征还与文本输入一起被馈送到视觉分支的多头注意力块（即，最后一层的文本输出）1537×××∈××××× ×××∗∈t=ts我∈∈∈我2σ2×我×22生成大小为（T+HW）C的初始文本引导视觉特征，然后将其分解为大小为T C的文本引导时间特征和大小为HW C的文本引导空间特征。这两个特征然后分别被复制HW和T次以匹配输入视觉特征的维度。将复制特征和输入视觉特征相加并归一化以生成具有T HWC大小的中间视觉特征。其余部分（包括文本分支）与ViL-BERT [15]中的相同。在我们的ST-ViLBERT中，我们将最后一个共同注意层中的视觉和文本分支的输出分别作为下一个引导的视觉特征FtvRT×HW×C和视觉引导的文本特征3.4. 时空定位在我们的框架中，来自我们的ST-ViLBert模块的跨模态特征，包括文本引导的视觉特征Ftv和视觉引导的文本特征，被馈送到两个分支，SVG分支和TVG分支，分别用于空间视觉舍入和时间视觉舍入空间定位如图所示。在图1（b）中，SVG分支采用文本引导的视觉特征来预测每个帧处的边界框。我们首先将F电视重塑为T H W C的大小从每个单独的帧中获取要素（大小为H WC）作为三个去卷积层的输入，然后我们将空间分辨率上采样8倍。与CenterNet [42]类似，上采样特征用作两个平行检测头的输入，每个头由用于特征提取的3 × 3卷积层和用于降维的1 × 1第一检测头输出热图AR8H×8W，其中每个空间位置处的值指示该位置是目标对象的边界框中心的概率，第二检测头回归大小（即高度和宽度）。在热图中，我们选择具有最高概率的空间位置作为预测的边界框中心，并且使用在该选择的位置处的对应的预测的高度和宽度来计算预测的边界框的左上和右下坐标。时间定位除了使用SVG分支进行边界框预测之外，我们的TVG分支还基于文本引导的视觉特征和视觉特征来预测起始帧和结束帧的位置引导文本特征。如图1（b），我们适用spa-三个1D卷积层，内核大小为3。开始和结束视觉特征的大小都是T C。我们还提供全局文本特征（即，对应于记号[‘CLS’]的视觉引导文本特征通过使用相关运算，我们可以计算初始启动（分别）。、结束）之间的每一帧的预测分数。结束）视觉特征和中间文本特征。在应用Sigmoid激活函数之后，我们产生最终的启动（分别为，结束）预测分数p s（resp. ，pe），其指示每个帧是一个视频剪辑中的开始（分别为用于靶管的端部框架。管生成在产生来自所有视频剪辑的所有帧的边界框以及开始和结束预测分数之后，我们然后跨时间域将它们组合以构建初始对象管，即，整个视频中的所有KT之后，可以通过分别选择具有最大开始分数和最大结束分数的帧来确定开始帧和结束帧的时间位置（ts，te）此外，来自t之前和t之后的帧的边界框被移除。最后，时间边界（ts，te）并且预测的边界框bt形成管预测结果B={bt}te。3.5. 损失函数我们使用三个焦点损失和L1损失的组合在训练阶段，我们随机抽取一组具有T个连续帧的视频片段，然后我们选择包含至少一个具有地面真值边界框的帧的视频片段作为训练样本接下来，我们以具有T个连续帧的一个视频剪辑为例进行更好的解释。具体而言，对于每个训练视频剪辑中的第i帧，我们表示地面实况的中心、宽度和高度边界框为（xi，yi），wi，hi，respect iv el y. 增补─此外，我们还将地面实况开始帧和结束帧的索引表示为ts和te。基于地面实况边界框，我们遵循[42]通过使用高斯核函数ax，y=exp（− （x−xi）+（y−yi））生成第i帧的中心热图A，其中a x，y是值对文本引导的视觉特征Ftv进行初始平均池化，以针对具有T帧的每个输入视频剪辑产生全局下一个引导的视觉特征FgtvRT×C然后将全局文本引导视觉特征馈送到两个并行的时间卷积块中以产生开始和结束视觉特征，其中每个时间卷积块由以下组成：关于AiR8H×8W在空间位置（x，y），σi为自适应确定根据物体的大小[7]。类似地，我们可以生成两个1D时间热图ps和peRT分别表示起始位置和结束位置。为了训练我们的STVGBert，每个训练视频剪辑的目标函数Ltotal是1538Σ1T∈我我我我我我评估指标我们遵循[39]使用m vIoU和定义如下：不每个视频剪辑T的长度被设置为20。我们的方法是通过在机器上使用PyTorch来实现的，机器上有一个总L=λ1ΣLsize（wx{i，y{i，hx{i，y{i，w{，h{））V100 GPU。+λ2Ls（ps，ps）+λ3Le（pe，pe）（一）vIoU@R作为我们的评估标准。计算vIoU+λ1ΣL（A，A），当vIoU=1|SU|t∈SI rt，其中rt是4Tci ii=1其中AiR8H×8W是预测的热图，ps和pe是预测的开始和结束分数序列，wxi ，yi和hxi ，yi是第 i 帧的以位置（xi，yi）为中心的边界框的预测宽度和高度。Lc、Ls和Le是用于预测的焦点损失[11]边界框中心和时间位置的开始和结束帧，分别;Lsize是用于回归边界框的大小的L1损失。我们根据经验将损失权重设置为λ1=0。1和λ2=λ3=λ4=1。4. 实验4.1. 实验装置我们在VidSTG [39]数据集和HC-STVG [25]数据集上评估了我们提出的框架。-VidSTG。该数据集由99，943个句子描述组成，其中44，808个陈述句和55，135个疑问句描述了未修剪视频中出现的79种类型的对象在[39]之后，我们将句子描述分为训练集，验证集和测试集，分别为36，202。，44，482），3，996（分别为，4，960）和4，610（分别）。5,693.第5,693章：我的意思、疑问句）句子。未修剪视频中的所描述的对象用时空管注释。-HC-STVG 该数据集由5，660个视频描述对组成，并且所有视频都是未修剪的。该数据集是以人为中心的，因为所有视频都是在多人场景中捕获的，并且描述包含与人类属性和动作相关的丰富表达。该数据集分为训练集和测试集，分别具有4，500所有目标人物都用时空管进行注释。我们使用在ImageNet [4]上预训练的ResNet-101 [6]网络作为我们的图像编码器，从输入视频中的RGB帧中提取视觉特征我们的整个框架，包括ResNet-101，都是端到端优化的。对于我们STVGBert中的ST-ViLBERT模块，我们采用在概念标题数据集 [19] 上保留的ViLBERT模型进行初始化。下面[39]，我们以5fps的帧速率对输入视频进行采样批量大小和初始学习率分别设置为6和0.00001在训练我们的模型50个epoch之后，我们将学习率降低10倍，然后再训练我们的模型10个epoch。时间检测到的边界框和地面实况边界框在帧t处，集合S1包含检测到的管和地面实况管之间的相交帧（即，来自两个管的帧之间的交集），而SU是来自检测管和地面实况管的两组帧的并集。vIoU分数被定义为所有测试视频上的平均vIoU分数，并且vIoU@R是指具有vIoU> R的测试视频在所有测试视频上的比率基线方法我们将我们的方法与[39]和[25]中提出的前STVG方法进行比较。-STGRN[39]是Vid-STC数据集上的最先进方法。尽管该方法不需要预先生成管提议，但是它仍然需要预先训练的检测器在每个帧中产生边界框提议，然后使用边界框提议来构建空间关系图和时间动态图。并且最终的装订盒是从这些建议中选择的。因此，其性能高度依赖于预先生成的建议的质量。-STGVT[25]是HC-STVG数据集上的最先进方法。与我们提出的ST-ViLBert类似，它也采用了视觉语言Transformer模块来学习跨模态表示。然而，STGVT依赖于预先训练的对象检测器和链接算法来生成管建议，而我们的框架不需要任何预先生成的管。此外，鉴于空间视觉背景和时间视觉背景的最新研究进展，结合这两个任务的方法可以构建六种基线方法。具体来说，我们遵循[39]和[25]，首先分别使用时间视觉基础方法TALL [5]和L-Net [1]来预测目标对象的起始帧和结束帧的时间位置，然后使用这些时间位置来对输入视频进行基于由TALL或L-Net生成的时间修剪的视频，采用帧级视觉接地方法GroundeR [17]和两个管级视频接地方法STPR [29]和WSSTG [3]来生成目标对象的边界框，然后将其用于产生最终的时空对象管。这六种基线方法被称为GroundeR + TALL、STPR + TALL、WSSTG + TALL、GroundeR +L-Net、STPR + L-Net和WSSTG + L-Net。不i=11539表1.VidSTG数据集上不同方法的结果方法陈述句疑问句M vIoU（%）vIoU@0.3（%）vIoU@0.5（%）m vIoU（%）vIoU@0.3（%）vIoU@0.5（%）地面R [17] +高[5]*9.7811.044.099.3211.393.24STPR [29] + TALL [5]*10.4012.384.279.9811.744.36WSSTG [3] + TALL [5]*11.3614.635.9110.6513.905.32GroundeR [17] + L-Net [1]*11.8915.325.4511.0514.285.11STPR [29] + L-Net [1]*12.9316.275.6811.9414.735.27WSSTG [3]+ L-Net [1]*14.4518.007.8913.3617.397.06STGRN [39]*19.7525.7714.6018.3221.1012.83STVGBert（我们的）23.9730.9118.3922.5125.9715.95表2. HC-STVG数据集上不同方法的结果。“*” indicates theresults are quoted from the work in方法m vIoUvIoU@0.3vIoU@0.5[25]*18.1526.819.48STVGBert（我们的）20.4229.3711.314.2. 与最新方法的我们将我们提出的框架与VidSTG和HC-STVG数据集上的最新方法进行比较。这两个数据集的结果见表1和表2。从结果中，我们有以下观察结果。1)我们提出的方法优于国家的最先进的方法，在所有的评价指标方面的2）在VidSTG数据集上，对于表1中的前六个基线方法，我们首先通过使用TALL或L-Net执行时间视觉基础，然后执行空间视觉基础以产生最终结果。相比之下，我们的方法可以同时生成边界框和时间边界，以形成时空对象管，我们的方法显着优于这些两阶段基线方法，这证明了我们提出的一阶段方法STVGBert 的有效性 3) 在表 2 中， STGVT 和我们的STVGBert都应用视觉语言Transformer来学习跨模态表示，但我们的方法明显优于STGVT。此外，STGVT需要预先训练的对象检测器来生成一组建议，而我们的方法 STVGBert ，其中包括改进的变换器模块 ST-ViLBert，可以直接处理输入的视频剪辑。4.3. 消融研究在本节中，我们以VidSTG数据集为例进行消融研究，并调查我们提出的框架中不同组件的贡献。一阶段框架的有效性3.4，通过两个精心设计的分支，我们的方法可以同时处理空间和时间视觉背景。在本节中，我们首先进行实验来演示每个分支的性能。然后我们将我们的一阶段方案与其两阶段对应部分，以证明拟议的一阶段框架的有效性具体而言，我们介绍了用于消融研究的STVGBert方法的以下变体。(1)STVGBert w/o TVG分支：在该替代方法中，我们从我们的STVGBert框架中移除TVG分支，其仅产生空间视觉接地结果;（2）STVGBert w/oSVG分支：在该变体中，我们从我们的STVG-Bert框架中移除SVG分支，其仅产生时间视觉基础结果;（3）STVGBert-2Stage：在该方法中，我们首先使用STVGBert w/o SVG分支来生成一个时间裁剪的输入视频，然后使用STVG-Bert w/o TVG分支来基于时间裁剪的视频生成边界框，最后生成时空对象管。为了进一步研究一级架构如何提高性能，我们进行了两个不同的设置下的实验。1)w/o Tem. GT（默认）：在这种设置中，我们比较了三种基线方法STVG- Bert w/o TVG分支、STVGBert w/o SVG分支和STVGBert-2Stage的时空视觉基础结果，以及我们的STVGBert没有使用地面实况时间注释（即，地面实况开始帧和结束帧不可用）。对于STVGBert w/o TVG分支，由于其仅产生空间视觉基础结果，因此从整个未修剪输入视频生成的边界框被用作时空视频基础结果。对于STVG-Bert w/o SVG分支，它仅预测时间边界（即，开始帧和结束帧），因此我们使用预测的开始帧和结束帧之间的每一帧的整个图像作为时空视频基础结果。 2)带Tem. GT：在这个替代设置中，地面实况时间注释是可用的，并且我们比较由STVGBertw/o TVG分支+Tem生成的时空视觉基础结果。 GT和STVG- Bert+Tem. GT注意，对于STVGBert+Tem. GT，我们简单地忽略我们的框架STVGBert产生的预测时间接地结果，而是使用地面实况时间注释。所有实验结果报告于表3中。在表3中，在默认设置下，我们有以下内容：1540表3.我们的方法及其变体在VidSTG数据集上的结果。注意，对于STVGBert+Tem. GT，我们简单地忽略相应方法产生的时间接地结果，并使用地面实况信息代替。设置方法陈述句基础m vIoUvIoU@0.3vIoU@0.5疑问句的基础m vIoUvIoU@0.3vIoU@0.5STVGBert，不带TVG分支18.9424.5213.8517.5420.2811.79w/o Tem.GT（默认）STVGBert w/o SVG分支STVGBert-2级STVG Bert-简单7.2122.5121.274.5929.7428.521.2117.5816.746.9821.0519.874.2124.9923.591.0515.0113.95STVGBert23.9730.9118.3922.5125.9715.95STVGBert w/o TVG branch + Tem. GT45.6963.9250.7542.9556.2946.78带Tem. GTSTVGBert-Simple + Tem. GT41.7559.9444.5139.1251.5440.21STVGBert + Tem. GT47.2566.1653.0944.1259.7749.28低观察。首先，STVGBert w/o SVG分支的结果非常差，因为它不输出绑定框。第二，STVGBert w/o TVG分支和STVGBert w/o SVG分支的时空视频接地结果可以通过将这两种方法组合为替代的两阶段方法（即，STVBert-2阶段）。第三，我们还观察到，我们的一个阶段STVGBert框架优于此替代方法STVBert-2Stage在所有的评估指标，这表明所提出的一个阶段的框架的有效性。在表3中，在替代设置w/ Tem. GT，两个STVGBert w/o TVG分支+Tem. GT和STVGBert+Tem. GT使用地面实况时间注释（即，透射电镜GT）作为时间视觉基础的结果。在这种情况下，这两种方法之间的唯一区别在于空间接地结果。因此，STVGBert+Tem.STVG上的GT- Bert w/o TVG分支+Tem. GT表明，我们新提出的框架STVGBert实现了更好的空间视觉接地性能，即，我们的方法产生更精确的边界框。最后，所有这些结果也表明，它是有益的，共同优化的目标函数相关的空间和时间的视觉基础，在一个阶段的框架，因为我们的计划受益于多任务学习。在我们提出的STVGBert框架中，关键组件是我们的ST-ViLBERT 模块。与 ViLBERT [ 15 ] 不同，ViLBERT [15] 不为输入视觉特征建模空间信息，STVGBert框架中的ST-ViLBERT模块可以从输入视觉特征中保留空间和时间信息，因此我们的方法可以学习更好的时空表示。为了评估我们的ST-ViLBERT的有效性，我们引入了一种替代方法，通过用现有的方案 ViLBERT 替换我们的 STVGBert 框架中的 ST-ViLBERT，这被称为STVGBert-Simple。具体地，在STVGBert-Simple中，对于每个输入视频剪辑，在剪辑特征之上应用空间平均然后，这些特征向量直接馈送到ViLBERT中作为视觉输入与文本输入一起生成跨模态表示。然后，我们将生成的跨模态表示作为残余特征，并将其添加到原始剪辑特征中，以生成SVG分支的输入特征。实验结果报告在表3中（即，默认设置）。除此之外，我们还在交替设置w/ Tem下进行STVGBert-Simple的实验GT，其中由STVGBert-Simple生成的时间基础结果被地面实况时间注释替换，并且该方法被称为STVGBert-Simple+Tem。 GT如表3所示，我们的STVGBert在默认设置下优于STVGBert-Simple。此外，当地面实况时间注释可用时， STVGBert+Tem. GT 的性能也比 STVGBert-Simple+Tem好得多。GT，即，增益的范围从5.0%到9.0%，这表明我们新提出的ST-ViLBert模块通过另外保留空间信息的有效性。5. 结论在这项工作中，我们提出了一个新的一阶段时空视频接地框架STVGBert的基础上的视觉语言Transformer产生时空对象管为给定的查询语句，它包括一个空间视觉接地分支和一个时间视觉接地分支。此外，我们还在STVGBert框架中引入了一种新的跨模态特征学习方法ST-ViLBERT。利用ST-ViLBert，我们的STVG-Bert框架可以产生时空对象管，而不需要任何预先训练的对象检测器。在两个基准数据集VidSTG和HC-STVG上的综合实验证明了我们新提出的时空视频接地框架的有效性。鸣谢：本工作得到了国家重点研究发展项目（2005 -2006）的支持。2018 AAA 0101900）和国家自然科学基金（No. 62002012）。1541引用[1] Jingyuan Chen，Lin Ma，Xinpeng Chen，Zequn Jie，and Jiebo Luo.在视频中本地化自然语言。在AAAI人工智能会议论文集，第33卷，第8175-8182页一、六、七[2] Zhenfang Chen，Lin Ma，Wenhan Luo，and Kwan-YeeWong.弱监督时空接地视频中的自然句子在计算语言学协会第57届年会的会议记录中，第1884- 1894页一、二、三[3] Zhenfang Chen，Lin Ma，Wenhan Luo，and Kwan-YeeKen- neth Wong.弱监督时空背景下的视频自然语句在计算语言学协会第57届年会的会议记录中，第1884-1894页一、六、七[4] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。6[5] Jiyang Gao ， Chen Sun ， Zhenheng Yang ， and RamNevatia. Tall：通过语言查询的时间活动定位。在IEEE计算机视觉国际会议论文集，第5267-5275页，2017年。一、六、七[6] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。四、六[7] 黑律和贾登。Cornernet：将对象检测为成对的关键点。在欧洲计算机视觉会议论文集（ECCV）中，第734-750页，2018年。5[8] Jie Lei ， Licheng Yu ， Tamara Berg ， and MohitBansal.Tvqa+：视频问答的时空基础。在计算语言学协会第58届年会的会议记录中，第8211-8225页，2020年。3[9] Gen Li、South Duan、Yuejian Fang、Ming Gong、DaxinJiang和Ming Zhou。Unicoder-vl：通过跨模态预训练的视觉和语言通用编码器在AAAI，第11336-11344页，2020中。2[10] Yue Liao ， Si Liu ， Guanbin Li ， Fei Wang ， YanjieChen，Chen Qian，and Bo Li.一种用于指称表达理解的实时跨通道相关过滤方法。在IEEE/CVF计算机视觉和模式识别会议论文集，第10880-10889页，2020年。一、二[11] 林宗义、普里亚·戈亚尔、罗斯·格希克、何开明和彼得·多尔·拉尔。密集目标检测的焦面损失。在IEEE计算机视觉国际会议的论文集，第2980-2988页，2017年6[12] 刘大庆，张汉旺，冯武，查正军。学习组装用于视觉基础的神经模块树网络在IEEE计算机视觉国际会议论文集，第4673-4682页，2019年。一、二[13] Jingyu Liu，Liang Wang，Ming-Hsuan Yang.通过属性引用表达式生成和理解。IEEE International Conference onComputer Vision，第4856-4864页，2017年。一、二[14] Xihui Liu，Zihao Wang，Jing Shao，Xiaogang Wang，and Hongsheng Li.用跨模态注意引导擦除改善指称表达基础。在IEEE计算机视觉和模式识别会议论文集，第1950-1959页，2019年。一、二[15] Jiasen Lu，Dhruv Batra，Devi Parikh，and Stefan Lee.Vil-bert：视觉和语言任务的预训练任务不可

下载后可阅读完整内容，剩余1页未读，立即下载