时空视频基础与多形式句的定位任务

90 浏览量更新于2023-10-23 收藏 1.34MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1它存在于哪里：多形式句的时空视频基础1 1∗1 2 2 3Zhu Zhang，Zhou Zhao，Yang Zhao，Qi Wang，Huasheng Liu，Lianli Gao1浙江大学2阿里巴巴集团、3电子科技大学{zhangzhu，zhaozhou，zhaoyang}@ zju.edu.cn，{wq140362，fangkong.lhs}@ alibaba-inc.com摘要在本文中，我们考虑一个新的任务，时空视频接地多形式的句子（STVG）。给定一个未修剪的视频和描述对象的陈述/疑问句，STVG旨在定位查询对象的时空管。STVG有两种充电设置：（1）我们需要从未修剪的视频中定位时空对象管，其中对象可能仅存在于视频的非常小的片段中;（2）研究了多形式句，包括有明确宾语的陈述句和有不明宾语的疑问句。现有的方法不能解决STVG任务，由于无效的管预生成和缺乏对象关系建模。因此，我们提出了一种新的时空图推理网络（STGRN）的这项任务。首先，我们建立了时空区域图来捕捉具有时间对象动态性的区域关系，包括每帧中的隐式和显式空间子图以及跨帧的时间动态子图。然后，我们将文本线索合并到图中，并开发了多步跨模态图推理。接下来，我们介绍了一个时空定位器与动态选择方法，直接检索时空管没有管预生成。此外，我们贡献了一个大规模的视频接地数据集VidSTG视频关系数据集VidOR的基础上。大量的实验证明了该方法的有效性。 VidSTG 数据集可在https://github.com/Guaranteer/VidSTG-Dataset上获得。1. 介绍将自然语言建立在视觉内容中是视觉语言理解领域的一项基本而重要的任务。视觉基础的目的是将指称表达所描述的对象定位在一个意象中，周昭为通讯作者。陈述句：一个戴着圣诞帽的小男孩正在抓一个黄色的玩具疑问句：蹲在地板上的男孩抓到了什么？图1.一个STVG多形式句子的例子。年龄，这引起了很大的关注，并取得了很大的进展[14，24，6，40，37]。近年来，研究者们开始探索视频背景，包括时间背景和时空背景。时间句子背景[8，11，46，35]确定与给定句子对应的事件的时间边界，但不定位时空管（即，一系列装订框）。此外，时空基础是根据文本描述检索对象管，但现有策略[48，1，36，4]只能应用于受限场景，例如，在视频帧中接地[48，1]或在修剪视频中接地[36，4]。此外，由于缺乏边界框注释，重新搜索器[48，4]只能采用弱监督设置，导致次优性能。为了突破上述限制，我们提出了一个新的任务，时空视频接地多形式句子（STVG）。具体地说，如图1所示，给定一个未修剪的视频和一个描述对象的陈述/疑问句，STVG旨在定位查询对象的时空管。与以前的视频接地[48，1，36，4]相比，STVG有两个新颖且具有挑战性的点。首先，我们从未修剪的视频局部化时空对象管对象可能存在于视频的非常小的片段中并且难以区分。并且句子可以仅描述被查询对象的短期状态，例如，图1中男孩的“抓玩具”动作。因此，通过充分的跨模态理解来确定物管的时间边界至关重要。其次，STVG处理的是多形式的句子，它不仅是根据1066825.12s27.53s10669它不仅对常规的带明确宾语的陈述句进行了定位，而且对带不明宾语的疑问句也进行了定位，如“地上蹲着的男孩抓到了什么？”在图1中由于缺乏对象的明确特征（例如，类“玩具”和视觉外观“黄色”），疑问句的基础只能取决于未知对象和其它对象之间的关系（例如，动作关系“被蹲着的男孩抓住”和空间关系“在地板上”）。因此，充分的关系构建和跨模态关系推理是STVG任务的关键.现有的视频接地方法[36，4]通常从修剪的视频中提取一组时空管，然后识别与句子匹配的目标管然而，这个框架可能不适合STVG。一方面，该框架的性能在很大程度上取决于管道候选人的质量。但是在没有文本线索的情况下很难预生成高质量的管，因为句子可能在非常小的片段中描述对象的短期状态，但是现有的管预生成框架[36，4]只能从修剪的视频中生成完整的对象管。另一方面，这些方法只考虑单管建模，而忽略了对象之间的关系然而，对象关系是STVG任务的重要线索，特别是对于可能只提供未知对象与其他对象的相互作用的疑问句因此，这些方法不能处理STVG的复杂接地。为了解决上述问题，我们提出了一种新的时空图推理网络（STGRN），以捕捉与时间对象动态的区域关系，并直接定位时空管没有管预生成。具体来说，我们首先将视频解析成时空区域图。现有的视觉图建模方法[39，18]通常在图像中构建空间图，其不能利用视频中的时间动态信息来区分对象动作的细微差异，例如。区分“开门”和“关门”。与它们不同的是，我们的时空区域图不仅包含了每帧中的隐式和显式空间子图，而且还包含了一个跨帧的时间空间子图可以通过隐式或显式语义交互来捕获区域级关系，并且时间子图可以包含对象跨帧的动态和变换以进一步改善关系理解。然后，我们将文本线索融合到这个时空图中作为指导，并开发了多步跨模态图推理。多步过程可以支持“一个人抱一个戴红帽子的婴儿”的多阶关系建模在此基础上，我们引入了一个时空定位器，直接从区域级别检索时空对象管。具体地说，我们首先采用时间定位器，确定管的时间边界，然后应用具有动态选择方法的空间定位器来使每个帧中的对象接地并生成平滑管。为了促进这个STVG任务，我们通过添加多形式的句子注释到视频关系数据集VidOR中。我们的主要贡献可概括如下：• 我们提出了一个新的任务STVG探索时空视频接地多形式的句子。• 我们开发了一种新的STGRN来解决这个STVG任务，它构建了一个时空图来捕获与时间对象动态的区域关系，并采用时空定位器来直接检索时空管而无需管预生成。• 我们贡献了一个大规模的视频接地数据集VidSTG作为基准的STVG任务。• 大量的实验表明，我们提出的STGRN方法的有效性。2. 相关工作2.1. 基于自然语言的时间定位时间自然语言定位是检测描述给定句子的视频片段。早期的方法[11，8，12，22，23]主要基于滑动窗口框架，该框架首先对大量的候选片段进行采样，然后对其进行排名。最近，人们开始开发整体和跨模态方法[44，2，3，33，46，35]来解决这个问题。陈、张、徐等人[2，3，46，21，35]从视觉和文本内容构建逐词交互以聚合匹配线索。Zhang等人[44]通过显式结构化图来处理结构和语义不一致的Wang等人。[33]提出了一种强化学习框架，用于自适应地观察帧序列并将视频内容与句子相关联。此外，Mithun和Lin etal.[25，20]设计仅需要粗略视频级注释用于训练的弱监督时间局部化方法。除了自然语言查询，Zhang etal.[47]尝试根据图像查询来定位所述不可见的时间剪辑。虽然这些方法已经取得了很好的效果，但它们仍然停留在时间的基础上。我们在本文中进一步探索2.2. 图像/视频中的物体接地视觉基础[14，24，34，41，26，42，6，49，13，40，45，37，38]的目的是本地化的视觉对象所描述的给定的指涉表达式。早期的方法[14，24，34，41，26，42]通常提取对象特征10670t=1i=1i=1˜空间关系图时态动态图图2.时空图推理网络（STGRN）的总体架构。我们首先提取区域特征并学习查询表示。接下来，我们应用时空图编码器来开发多步跨模态图推理。在此之后，具有T个时空卷积层的时空定位器直接从区域级别检索管。通过CNN，通过RNNrt∈Rdr 以及边界框向量bt=[xt，yt，wt，ht]，我我我我我我并学习对象语言匹配。最近的一个ap-其中（xt，yt）是中心的归一化坐标我我proaches [40，13]将表达式分解为多个point和（wt，ht）是标准化的宽度和高度。是-我我组件，并计算每个模块的匹配分数。边，我们得到框架特征{ft}N，即，视觉邓和庄等人。[6，49]共同关注构建跨模式交互的机制此外，Yang et al.[38，37]探索对象之间的关系，Faster R-CNN的整个帧的特征。对于包含L个单词的句子s，我们首先将单词嵌入输入到双向GRU [5]中以学习单词提高准确性。至于视频接地，现有语义特征{si}∈Rds，其中si是concate-作品[48，1，36，4，36，4]只能应用于受限的场景Zhou和Balajee等人[48，1]仅在视频的帧中接地自然语言。通过一系列横向和时间对齐视频剪辑，Huang步骤i的向前和向后隐藏状态的国家。由于STVG基于陈述句或疑问句中描述的对象，我们需要从语言上下文中提取查询首先，我们选择一个-和Shi等人[15，31]具体的名词或代词来自{si}L的实体功能%e，它表示查询的框架的弱监督MIL方法。和陈和Yamaguchi et al.[36，4]从修剪的视频定位时空对象管，但不能直接处理原始视频流。在本文中，我们提出了一种新的STVG任务，以进一步探索时空视频接地对象，例如，在图2中，s3表示注意对于疑问句，“who”或“what”的特征被选为实体特征。接下来，注意力方法通过以下方式从语言上下文聚集文本线索：多形式的句子。γ=（Wsse）·（Wss），γ =exp（γi），3. 该方法i1 2iLLi=1 exp（γi）（一）给定一个视频v∈V和一个句子s∈S描述一个对象，STVG是要检索它的时空管。图2说明了总体框架。sa=<$γisi，sq= [se; sa]，i=1其中Ws和Ws是投影矩阵，sa是实体-1 23.1. 视频和文本编码器我们首先应用预先训练的Faster R-CNN [28]来为每个帧提取一组区域，其中视频包含N帧，第t帧对应于K个区域，表示为aware feature是感知特征，sq是查询表示。3.2. 时空图编码器我们的STVG任务要求捕捉对象关系，发展跨模态理解，特别是K的。区域rt与其视觉特征相关联一般来说，对于可能只提供i i=1i查询对象：男孩一个小男孩正在亲吻金发女孩的头BiGRU语言提取器时空定位器时间定位器空间定位器…×��时空图编码器男男吻看时空图构造女女人人看……坐在椅子椅子隐式图显式图第i-1帧第i帧第i+1帧第i+2帧空间图卷积时间图卷积…跨模态融合FasterR-CNN10671我Ji=1我我我我M我IJ我我exp（（Uimp [vt; bt]）·（Uimp [vt;bt]））ij m1 i2我JIJi i=1 t=1iijji i=1 t=1所述未知对象与其他对象的交互信息。因此，我们构建了一个具有T个时空卷积层的时空区域编码器，以捕获与时间对象动态的区域关系，并支持多步跨模态图推理。3.2.1图构建我们首先将视频解析成时空区域图，其涉及每帧中的隐式空间子图Gimp=（V，Eimp）、显式空间子图Gexp=（V，Eexp）和跨帧的时间动态子图Gtem=（V，Etem）三个子图都将区域视为它们的顶点V，但具有不同的边。注意，我们在每个子图中添加每个顶点的自循环隐式空间图。我们把每一帧中的全连通区域图看作是隐空间图Gimp，其中Eimp在每一帧中包含K×K条无向无标号边（包括自环）.显式空间图形。我们提取区域三元组构造显式空间图，其中平衡标量在这里，我们同时考虑两个区域的表观相似性和空间重叠率时间距离|k−t|两个帧的距离被用来限制IoU得分，即对于距离远的帧，链接得分主要由特征相似性而不是空间重叠来确定。接下来，对于区域rt，我们从帧k中选择具有最大链接得分的区域rk来构建边，并且对于每个区域（包括自循环）获得2M+1条未标记的时间边缘Etem具有3个方向：向前、向后和自循环。3.2.2多步跨模态图推理在图的构造之后，我们将文本线索加入到图中，并通过T个时空卷积层来开发多步跨模态图推理。跨模态融合。为了捕获与句子相关的关系，我们首先使用跨模态融合，动态地将文本证据注入时空图。具体地说，我们首先利用注意力机制来聚合每个区域的单词特征i ij jrt和rt是帧t中的第i个和第j个区域，pt对于区域rt，我们计算单词上的注意力权重i j iji是它们之间的关系谓词每个三联体可以特征{si}L表示为可以看作是从i到j的边。因此，显式图构造可以被公式化为关系分类任务[39，43]。[2019- 05-15] [2019 -05]αt=w tanh（Wmrt+ Wmsj+bm），exp（αt）（三）ttαt =Σij，qt=IJαtsj，gioni，区域j的特征[rj;bj]和联合特征[rt;bt]的联合边界框的i和j（也例如，ijLj=1 exp（αt）iIJj=1ij ij其中，Wm，Wm是投影矩阵，bm是偏差通过Faster R-CNN），我们首先将三个特征1 2通过不同的线性leyers，然后连接成一个w是行向量。而qt是区域感知的tex分类层来预测关系。类似于experimental [39，18]，我们在Vi- sual Genome数据集[17]上训练这样的分类器，其中我们在其训练数据中选择前50个频繁谓词，并为不存在的边缘添加额外的无关系类。然后我们预测关系-帧t中每个区域i其次，我们构建了以语言信息为导向的语篇大门，弱化语篇无关区，gt=σ（Wgqt+ bg），vt= [rt <$gt; qt]，（4）在r t和r t之间的船舶。最终，边缘E有3我我我我我我i jexp方向（包括自环的i到j、j到i和i到i和51种类型的标签（前50类加上自循环）。时间动态图。虽然空间图模型区域之间的相互作用，我们的时间图是捕捉动态和跨帧对象的转换。因此，我们期望将不同帧中包含同一对象的区域连接起来，从而学习更多的表达性和区分性的对象特征。对于帧t，我们将其区域与相邻的2M个帧（M为前向帧，M为后向帧）连接。太远的帧不能提供实时动态。具体地说，我们首先定义从帧t到rt之间的连接得分s（rt，rk和从帧k通过s（rt，rk）= cos（rt，rk）+ε·IoU（rt，rk），（2）其中，σ是S形函数，R是逐元素乘法，gt∈Rdr表示区域r t的文本门。然后将过滤后的区域特征与文本特征进行拼接，得到跨模态区域特征{{vt}K}N。接下来，我们为多步图推理开发了T个时空卷积层空间图卷积在每一层中，我们首先开发空间图卷积来捕获每帧中区域之间的视觉关系。具体地，对于交叉模态区域特征{{vt}K}N，我们首先采用无向和无标记的G imp上的隐式图卷积，由下式给出：vt= αimp·（Wimpvt），j∈Ni（rt）我JIJ|我|iJexp（（Uimp[vt; bt]）·（Uimp[vt;bt]））（五）αimp=αjj ，是两个区域的交并，i i j jj∈Ni（rt）L其中cos（·）是两个特征的余弦相似度，IoU（·）我我10672IJ我我我我我我我 ·（Vvj））我我IJe我我exp（βt）t=1t=1其中，Ni（r t）是G imp中与r t相连的区域。3.3. 时空定位器我我隐式图卷积可以看作是一个变种并结合视觉特征和区域位置计算系数αimp同时，我们发展了显式图卷积。与原始的无向GCN[16，32]不同，我们考虑有向和标记的Gexp上的边的方向和标签信息，由下式给出：在本节中，我们设计了一个时空定位器，从区域水平确定对象的时间管边界和时空管。时间定位器我们首先介绍时间定位器，它估计一组候选剪辑并调整它们的边界以获得时间基础[46]。具体来说，我们首先聚合关系感知区域vt=α经验·（Wexp vt+ bexp）、（6）通过注意力机制进入框架水平与我j∈Ne（rt）实验室（i，j）dir（i，j）j实验室（i，j）查询表示sq，每个区域的区域特征其中Wexp是方向dir（i，j）的可选矩阵帧由（·）expβt= Wftanh（Wfmt+Wfs+ bf），的边（i，j），b（·）是通过边的标签的可选偏置if1i2q（i，j）。这里，边有三个方向（i-到-j，j-到-i，i-到-i）和51种类型。N（rt）是与ββt=β exp（βt），mt=0ββtmt，（十）r t. 此外，关系系数α（·）也可以选择-i=1ii=1通过边（i，j）的标签来感测。不同的句子描述不同的关系及其基础在很大程度上取决于对具体关系的理解。因此，显式边的系数可以由查询表示sq决定，由下式给出：其中mt表示帧t.然后，我们将这些特征与它们对应的全局帧特征{ft}N连接，并应用另一个BiGRU来学习最终帧特征{ht}N。接下来，我们将每个时间步长t处的多尺度候选剪辑定义为expr q rBt={（st，et）}P，其中（st，et）=（t−wi/2，t+wi/2）α= Softmax（W s + b），（7）我我i=1i我其中αexp∈R51对应于51种关系的系数。时间图卷积。接下来，我们在有向和未标记的图Gtem上开发时间图卷积，以捕获对象跨帧的动态和变换。我们考虑向前，向后以及具有交叉模态特征Vt的每个区域Rt的自环边，表示为是第i个剪辑的开始和结束边界，wi是第i个剪辑的时间长度，P是剪辑编号。之后，我们通过具有S形非线性的线性层估计所有候选剪辑，并同时产生其边界的偏移，由下式给出Ct=σ（Wc[ht; sq]+ bc），δt= Wo[ht; sq]+ bo，（11）其中Ct∈RP对应于步骤t处P个样本的置信度得分，δt∈R2P是P个剪辑的偏移量vt=αtem·Wtemv，时间定位器有两个损失：对齐损失伊伊季j∈Nt（rt）dir（i，j）j对于剪辑选择和边界ad的回归损失，调整具体地，对于对准损失，我们首先计算temexp（（Utemvt）temdir（i，j）（八）每个剪辑的时间IoU得分Ct与地面αij=Σexp（（Utemvt）·（Vtem我、（v））真相对准损失表示为j∈Nt（ rt）idir（i，j）jN PtemtemL=−Ct（1−Ct）·log（1−Ct）+Ct·log（Ct），1其中W（·）和V（·）是矩阵，并且dir（i，j）指示边（i，j）的方向选择相应的亲，对齐NPit=1i=1我我我（十二）投射矩阵，其中时间边缘具有三个方向，选项。 α tem是每个邻域的语义系数。接下来，我们结合空间和时间的输出，图卷积，并通过以下步骤获得第一时空卷积层的结果Vt（1）：KexpK10673我我我其中，我们使用时间IoU分数C_t而不是0/1分数来进一步区分高分片段。接下来，我们微调具有最高Ct的最佳剪辑的边界，其具有边界（s，e）和偏移（δs，δe）。我们首先计算此剪辑与地面实况边界的偏移（s，e）由δs=s−s和δe=e−e，并定义re gres-t（1）tt t t t t损失，vi=ReLU（vi+vi+vi+vi）。（九）为了支持多阶关系建模，我们通过具有T个时空卷积层的时空图编码器执行多步编码，并学习最终的关系感知区域特征{{mt}K}N。Lreg=R（δs−δs）+R（δe−δe），（13）其中R表示光滑L1函数。空间定位器。有了时间基础，我们接下来定位每帧中的目标区域。对于第-i i=1t=110674我我我我i i=1K我J|Te−Ts|t=TsiJ具有区域特征的帧{mt}K，我们直接估计表1.关于陈述句和疑问句数量的数据集统计。通过整合查询，表示sq和最终帧特征ht，表示为St=σ（Wc[mt; sq; ht]+ bc），（14）我我其中St是帧t的区域i的匹配分数。类似于时间对准损失，空间损失首先计算具有地面实况区域的每个区域的空间IoU分数S_t空间损失表示为L=−1ΣΣ(1−Sˆt)·lo g(1−St)+Sˆt·lo g(St),4.1.数据集注释VidOR [30]是现有最大的对象关系数据集，包含10，000个视频和对象及其关系的细粒度注释。具体来说，维-expK|St|我t∈St i=1我我我（十五）dOR用密集的边界框注释80类对象，并注释50类关系预测。其中，St是时间地面实况中的帧的集合最终，我们设计了一个多任务损失，以端到端的方式训练我们提出的STGRN，由下式给出：LSTGRN =λ1Lalign+λ2L reg+λ3L exp，（16）其中λ1、λ2和λ3是控制三种损耗平衡的超参数。3.4.动态选择法在推理过程中，我们首先从时间定位器中检索出管道的时间边界（Ts，Te），然后通过空间定位器确定每帧的接地区域贪婪方法直接选择具有最高匹配分数St的区域。然而，这样生成的管可能不是非常平滑的。相邻帧之间的边界框可能具有过大的位移。因此，为了使轨迹更平滑，我们引入了动态选择方法。具体地，我们首先通过下式定义连续帧t和t + 1的区域之间的链接分数s（rt，rt+1）：对象之间的类别（8个空间关系和42个动作关系）。具体来说，VidOR将关系表示为三元组主语、谓语、宾语三个三元组，每个三元组都与主语和宾语的时间边界和时空管道相关联。在VidOR的基础上，我们可以选择合适的三元组，用多形式的句子来描述主语或宾语。将VidOR作为基本数据集具有许多优点。一方面，我们可以避免劳动密集型的边界框注释.另一方面，三元组中的关系可以简单地并入注释句子中。我们首先对VidOR数据进行分割和清理，然后用多格式句子对剩余的视频-三元组对进行注释。在补充材料中介绍了清洗工艺。对于每个视频三元组对，我们选择主题或对象作为查询对象，然后描述其外观，与其他对象的关系和视觉环境。对于疑问注释，将忽略查询对象的外观。我们放弃了视频三元组对，因为它们太难给出精确的描述。并且视频三元组对可以对应于多个句子。s（rt，rt+1）=St+St+1+θ·IoU（rt，rt+1），（17）我我爱你J其中，St和St+1是区域rt的匹配分数，4.2.数据集统计数据经注释后，有99,943句描写我我我rt+1，θ是平衡标量，设置为0.2。接下来，我们生成最终的时空管Y，其中最大能量E由下式给出：E（Y）= 1<$Te−1s（rt，rt+1），（18）其中（Ts，Te）是时间边界，我们使用Vitervi算法解决这个优化问题[10]。4. 数据集作为一个新的任务，STVG缺乏合适的数据集作为基准。因此，我们通过增强VidOR上的句子注释来贡献大规模时空视频基础数据集VidSTG [30]。44，808个视频三元组对的约79种查询对象，如表1所示。视频的平均持续时间为28.01s，对象管的平均时间长度为9.68s。陈述句和疑问句的平均长度分别为11.12和8.98此外，在补充资料中还提供了79类查询对象的分布和5. 实验5.1. 实验设置实施详情。在STGRN中，我们首先每秒采样5帧，然后将超长视频的帧数降采样到200。然后，我们预训练更快的R-CNN#声明。发送.#Inter. 发送.所有培训36,20244,48280,684验证3,9964,9608,956测试4,6105,69310,303所有44,80855,13599,94310675|S|UΣ我表2.VidSTG数据集的性能评价结果方法陈述句基础m tIoU m vIoUvIoU@0.3vIoU@0.5疑问句的基础m tIoU m vIoUvIoU@0.3vIoU@0.5随机5.18%0.69%百分之零点零四0.01%5.35%0.60%百分之零点零二0.01%地面+高9.78%11.04%4.09%9.32%11.39%3.24%STPR + TALL34.63%10.40%12.38%4.27%33.73%9.98%11.74%4.36%WSSTG + TALL11.36%14.63%5.91%10.65%百分之十三点九5.32%GroundeR + L-Net11.89%15.32%5.45%百分之十一点零五百分之十四点二八5.11%STPR + L-Net40.86%12.93%16.27%5.68%39.79%11.94%百分之十四点七三5.27%WSSTG + L-Net百分之十四点四五百分之十八7.89%百分之十三点三六百分之十七点三九7.06%STGRN（贪婪）百分之四十八点四七百分之十八点九九23.63%13.48%百分之四十六点九八17.46%20.02%11.92%STGRN百分之十九点七五25.77%14.60%18.32%21.10%12.83%GroundeR + Tem.GT-28.80%43.20%22.74%-26.11%38.37%18.34%STPR + Tem. GT-29.72%44.78%23.83%-26.97%39.89%百分之二十点零七WSSTG + Tem. GT-33.32%50.01%29.98%-30.05%44.54%25.76%STGRN + Tem. GT-38.04%54.47%34.80%-35.70%47.79%31.41%在MSCOCO [19]上为每个帧提取20个区域建议（即，K = 20）。区域特征维度dr是1,024，在图形建模之前我们映射它256。对于句子，我们使用预训练的Gloveword 2 vec [27]来提取300-d单词嵌入。对于超参数，我们将M设置为5，λ设置为0.8，θ设置为0.2，并将λ1，λ2，λ3设置为1.0，0.001和1.0。时空图编码器的层编号T被设置为2。对于节奏定位器，我们将P设置为8并定义8个窗口宽度[8，16，32，64，96，128，164，196]。我们将几乎参数矩阵和偏差的维数设置为256，包括Wexp，bexp在显式图卷积中，Wf和bfGroundeR是一种帧级方法，它最初将自然语言置于静止图像中。我们将其应用于剪辑的每一帧并生成一个管。STPR和WSSTG都是管级方法，采用管预生成框架。具体来说，原始的STPR [36]仅将多个视频中的人物接地，我们将其扩展到单个剪辑中的多类型对象接地。原始WSSTG [4]采用弱监督设置，我们通过应用监督三重损失[37]来选择候选管来对其进行扩展。因此我们得到了GroundeR+TALL，STPR+TALL等6个组合基线，并提供了时间地面真值，形成了3个基线。我们（·）（·）在时间定位器等等。而BiGRU网络-作品在每个方向上都有128维隐藏状态。在训练过程中，我们应用Adam优化器[7]来最小化多任务损失LSTGRN，其中初始学习率设置为0.001，批量大小为16。评价标准。我们采用m tIoU，m vIoU和vIoU@R作为评估标准[9，4]。m tIoU是所选剪辑与地面实况剪辑之间的平均时间IoU。并且我们将SU定义为包含在所选剪辑或地面实况剪辑中的帧的集合，并且将SI定义为所选剪辑和地面实况剪辑两者中的帧的集合。我们通过vIoU=1计算vIoUt∈SIoU（rt，rt），其中rt和rt是framet的s选择和地面真值区域。m vIoU是样本的平均vIoU，vIoU@R是vIoU >R的样本的比例。基线。由于没有现有的策略可以直接应用于STVG，我们扩展了现有的视觉接地方法GroundeR[29]和视频接地方法STPR[36]和WSSTG[4]作为基线。考虑到这些方法都缺乏时间基础，我们首先应用时间句子定位方法TALL[8]和L-Net[3]获得一个片段，然后通过GroundeR，STPR和WSSTG从裁剪后的片段10676在补充材料中显示更多基线细节。5.2. 实验结果表2显示了所有方法的总体实验结果，其中STGRN（Greedy）使用贪婪区域选择而不是动态方法来生成管随机选择时间剪辑和空间区域随机。透射电镜Gt意味着提供了时间基础事实。我们可以发现几个有趣的观点：• GroundeR+{·}方法在每帧中独立地对句子进行接地，并且实现比STPR+{·}和WSSTG+{·}方法更差的性能，验证跨帧的时间对象动态对于时空视频接地至关重要。• 模型对疑问句的识别效果明显低于陈述句，说明具有未知对象的疑问句更难被识别。• 对于时间接地，我们的STGRN实现了比帧级定位方法TALL和L-Net更好的性能，展示了时空10677表3.VidSTG数据集上的消融结果0.490.480.470.460.45陈述疑问句1 2 3 45的图形层0.190.180.170.16陈述疑问句1 2 3 45的图形层图3.时空图卷积层数的影响区域建模对于确定对象管的时间边界是有效的一个小孩抓住一个男人的手，从蓝色的滑梯上跳了下来。• 对于时空背景，我们的STGRN在陈述句和疑问句上都优于所有基线，这表明我们的跨模态时空图推理可以有效地捕捉对象与时间动态和时空背景的一小孩抓的手的一人然后跳下去的蓝色滑动定位器可以精确地回收物体管• 我们的STGRN与动态选择方法优于STGRN（贪婪）与贪婪的方法，显示动态平滑是有益的，以产生高质量的管。5.3. 消融研究在本节中，我们进行消融研究的时空区域图，这是我们的STGRN的关键组成部分。具体地，时空图包括隐式空间子图Gimp、显式空间子图Gexp和时间动态子图Gtem。我们选择性地丢弃它们以生成消融模型并在表3中报告所有消融结果，其中我们不区分陈述句和疑问句。结果表明，全模型的性能优于所有的烧蚀模型，验证各个子图的正确性有助于时空视频的建立。如果只使用一个子图，则使用Gexp的模型性能最好，说明显式建模对于捕获对象关系至关重要。当使用两个子图时，Gexp和Gtem模型的性能优于其他模型，这表明时空建模在关系理解和高质量视频基础中起着至关重要的作用而且，层数T是时空图的基本超参数。我们通过将T从1变化到5来研究T的影响图3显示了陈述句和疑问句的m tIoU和m vIoU标准的实验结果。从结果中，我们可以发现我们的STGRN具有最好的性能时，T设置为2。单层图不能充分捕捉对象关系和时间动态。过多的图层可能会导致区域过度平滑，即，图4.时空接地结果的示例每个区域特征趋于相同。不同标准和句子类型的绩效变化基本一致，表明T。5.4. 定性分析我们在图4中展示了一个典型的例子。句子在一个短时间片段中描述了男孩的两个平行动作“抓住手”和“跳下滑梯”，需要准确的时空背景。通过直观的比较，我们的STRGN给出了一个更精确的时间段，并产生一个更合理的时空管比基线WSSTG+L-net。此外，跨模态融合模块中的注意力方法在视觉和文本内容之间建立了一座桥梁，我们在这里可视化了句子上几个关键区域的权重。我们可以看到，语义相关的区域词对具有更大的权重，例如，男孩的区域和“孩子”这个词6. 结论在本文中，我们提出了一种新的时空视频接地任务STVG，并提供了一个大规模的数据集VidSTG。然后，我们设计了一个STGRN捕捉区域关系与时间对象动态和直接本地化的时空管从区域级别。鸣谢本工作得到浙江省自然科学基金LR19F020006和国家自然科学基金项目资助，项目编号：61836002，项目编号：U1611461，项目编号：61751209由中国工程科学技术知识中心和阿里巴巴-浙江大学前沿技术联合研究GroundTruthWSSTG+L-NetSTGRNm_tIoUGimpGexpGtemm tIoUm vIoUvIoU@0.3C44.81%百分之十七点一三21.08%C45.56%17.58%21.49%C45.12%百分之十七点五三21.91%CC百分之四十五点九九17.72%22.07%m_vIoU10678引用[1] Arun Balajee Vasudevan ， Dengxin Dai ， and Luc VanGool.在视频中用语言和人类的凝视来指代对象。在IEEE计算机视觉和模式识别会议论文集，第4129-4138页[2] 陈静媛，陈新鹏，马林，杰泽群，蔡达生.视频中的自然句子的时间见EMNLP，第162-171页。ACL，2018年。[3] Jingyuan Chen，Lin Ma，Xinpeng Chen，Zequn Jie，and Jiebo Luo.在视频中本地化自然语言。在AAAI，2019年。[4] Zhenfang Chen，Lin Ma，Wenhan Luo，and Kwan-YeeK Wong.视频中弱监督的时空接地2019年。[5] Junyoung Chung、Caglar Gulcehre、KyungHyun Cho和Yoshua Bengio。门控递归神经网络对序列建模的经验评估在NIPS，2014。[6] Chaorui Deng，Qi Wu，Qingyao Wu，Fuyuan Hu，FanLyu，and Mingkui Tan.通过累积注意力的视觉基础。在CVPR中，第7746-7755页[7] John Duchi，Elad Hazan，and Yoram Singer.在线学习和随机优化的自适应次梯度方法。Journal of MachineLearning Research，12（Jul）：2121[8] Jiyang Gao ， Chen Sun ， Zhenheng Yang ， and RamNevatia. TALL：通过语言查询的时间活动定位。在ICCV，第5277-5285页中。IEEE，2017年。[9] Jiyang Gao，Zhenheng Yang，Chen Sun，Kan Chen，and Ram Nevatia.Turn tap：用于临时行动建议的临时单位回归网络2017年。[10] Georgia Gkioxari 和 Jitendra Malik 。找活动管。在CVPR，第759-768页[11] Lisa Anne Hendricks 、 Oliver Wang 、 Eli Shechtman 、Josef Sivic、Trevor Darrell和Bryan Russell。使用自然语言对视频中的时刻进行本地化在ICCV，第5803[12] Lisa Anne Hendricks 、 Oliver Wang 、 Eli Shechtman 、Josef Sivic、Trevor Darrell和Bryan Russell。用时间语言定位视频中的时刻。参见EMNLP，第1380-1390页。ACL，2018年。[13] Ronghang Hu ， Marcus Rohrbach ， Jacob Andreas ，Trevor Darrell，and Kate Saenko.使用组合模块网络对指称表达式中的关系进行建模。在CVPR中，第1115-1124页[14] Ronghang Hu ， Huazhe Xu ， Marcus Rohrbach ， JiashiFeng，Kate Saenko，and Trevor Darrell.自然语言对象检索。在CVPR，第4555-4564页[15] De-An Huang ，Shyamal Buch ， Lucio Dery ， AnimeshGarg，Li Fei-Fei，and Juan Carlos Niebles.找到“它”：教学视频中的弱监督参考感知视觉基础。在CVPR，2018年6月。[16] Thomas N Kipf 和 Max Welling 图卷积网络的半监督ICLR，2016年。[17] Ranjay Krishna ， Yuke Zhu ， Oliver Groth ， JustinJohnson ， Kenji Hata ， Joshua Kravitz ， Stephanie Chen ，Yannis Kalantidis，Li-Jia Li，David A Shamma，et al.可视化基因组：使用众包密集的连接语言和视觉10679图像注释。 International Journal of ComputerVision，123（1）：32[18] Linjie Li，Zhe Gan，Yu Cheng，and Jingjing Liu.面向可视问答的关系感知图注意网络。在ICCV，2019年。[19] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。参见ECCV，第740-755页。Springer，2014.[20] Zh

下载后可阅读完整内容，剩余1页未读，立即下载