视频对象基础语言描述的语义角色及对象关系的编码方法

12 浏览量更新于2023-10-23 收藏 1.08MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10417基于语义角色的视频对象基础语言描述Arka Sadhu1Kan Chen2Ram Nevatia11南加州大学2Facebook Inc.阿萨杜|nevatia}@ usc.edukanchen18@fb.com摘要我们探讨的任务视频对象接地（VOG），接地对象在视频中提到的自然语言描述。以往的方法都是采用基于图像在这里，我们研究对象关系在VOG中的作用，并提出了一个新的框架VOGNet编码多模态对象关系，通过自我注意与相对位置编码。为了评估VOGNet，我们提出了新的对比采样方法来生成更多的基础输入样本，并基于现有的字幕和基础数据集构建了一个新的数据集，称为ActivityNet-SRL（ASRL）。ASRL上的实验验证了在VOG中编码对象关系的必要性，我们的VOGNet明显优于竞争基线。1. 介绍从自然语言查询中接地图像[7，67，68]和视频[8，27，76是下游接地视觉+语言任务的构建块，如接地VQA [14，31，32，74，77]，接地-[35]第37话：[ 22 ]第37话：[23]第37话：[24]第37话：在这项工作中，我们解决视频对象接地（VOG）的任务：在给定视频及其自然语言描述的情况下，我们的目标是定位每个所引用的对象。不同于从查询提及中查找对象[76]或从引用表达式中区分时空管[8]的现有VOG方法，我们将VOG公式化以前的工作侧重于单独处理每个对象;我们的表述还需要在时间和空间上结合客体-客体关系。图1说明了主要的区别。尽管将自然语言描述与视频中的对象相关联很重要，但由于两个实际要求，VOG仍然相对未被探索(a) 本地化单个查询：“男人”“球”“孩子”(b) 从唯一标识它的查询（(c) 仅本地化查询中引用的对象（图1.当使用相同的查询和视频帧时，VOG的不同公式的图示。(a)[76]独立处理每个查询词，并且不区分同一对象的不同实例。(b)[8]使用独立的时空管进行了这种区分。我们的（c）只涉及本地化那些在查询中被引用的对象，并且需要使用对象关系进行额外的消歧。具有对象级注释的大规模视频数据集(ii)视频应该包含相同对象类别的多个实例，因此在它们之间进行区分是必要的。最近， [75] 发布了ActivityNet-实体数据集，其中包含与视频描述的名词短语相关的边界框注释[29] 到ActivityNet [4]视频中相应的对象实例。尽管其规模很大，但ActivityNet中的大多数视频都包含各种对象的单个实例例如，在图1提问：男子将球传给一群孩子Arg0动词Arg1Arg210418把“球”和“男人”或“孩子”联系起来我们通过两个步骤来缓解这种多个对象实例的缺失。首先，我们从数据集中抽取对比示例;这些是与语言查询所描述的相似但不完全相同的示例。为了对对比示例进行采样，我们使用最先进的语义角色标记（SRL）系统[55]对语言描述进行语义角色（SRL）。SRL回答了“谁（Arg0）对谁（Arg1）做了什么（动词）”的高级问题我们对视频进行采样，其中描述了与查询描述相同的语义角色结构，但角色是由不同的名词或动词实现的在下一步中，我们需要将对比视频呈现给模型。如果对比样本被独立处理，则模型可以容易地为了防止这种情况，我们提出了新的空间和时间拼接方法，将对比样本合并到一个视频中。通过对比同一视频中的对象及其关系，模型被迫对对象关系进行编码，以使引用的对象接地（详见第3.1节）。显然，编码对象关系是主要的重要性，为VOG。最近，[16]和[75]显示了使用自我注意[61]编码对象关系的有希望的结果。然而，在VOG中直接将自我注意力适应于物体首先，当两个对象具有多个关系时，独立于产生歧义的语言来计算这样的对象关系例如，在图1其次，用于自我注意的Transformer模块[61]期望对其输入进行位置编码，但绝对位置在视频中没有意义。我们在我们提出的VOGNet框架中解决了这些问题为了对位置进行编码，我们提出了一种基于[54]的相对位置编码（RPE）方案。从本质上讲，RPE偏向模型，根据它们的接近程度来权衡相关对象（第3.2节中的模型架构细节）。为了评估我们的模型，我们贡献了 ActivityNet-SRL，它为描述添加了语义角色[29]，并与[75]中的名词短语注释保持一致。我们进一步表明，通过预先计算词形化的名词短语，可以在训练中使用对比采样过程（关于数据集构建的详细信息见第4.1节和第4.2节）。我们的贡献有三个方面：（i）我们探索VOG并提出具有时间和空间级联的对比采样以允许学习对象关系（ii）我们设计了VOGNet，它将自我注意力扩展到编码语言相关的对象关系和相对位置编码（iii）我们贡献ActivityNet-SRL作为VOG的基准。我们的代码和数据集是公开的1。2. 相关工作图像中的接地对象是一个大量研究的主题，在指涉表达式[26，39，67，68]和短语本地-化[7，44，45，48，50]。相比之下，视频中的接地对象引起的兴趣较少。除了[8，76]之外，[27]还强制视频对象分割的时间一致性，并要求目标位于每个帧中，[23]使用视频和语言中的结构化表示进行共指解决。与他们不同的是，我们提出的VOG公式提高了对象关系的作用，并支持监督训练，因为使用了更大的数据集。对象关系也在场景图生成[30，33，40，64]和人类-对象交互[5，6，12，17，49，78]和指涉关系[28]。然而，大多数关系是空间的（在视频方面，它已经被探索用于时空检测[3，16，59]。特别是，[16]表明使用变压器[61]的自我注意力比基于关系网络[51]的检测器[59]更有效。对于VOG，由于对记忆的要求很高，关系网络将不会有效，因此我们只探索自我注意机制。与[16]不同的是，我们使用自底向上的特征[2]，它作为替代，我们采用相对位置编码。视频关系检测[53，53，60]与VOG密切相关，其中需要跨视频帧检测两个对象之间的关系。然而，所使用的指标（重新调用@50/100）很难解释。此外，密集地注释关系是昂贵的，并且导致较少的多样性关系。相比之下，我们使用稀疏注释的框架，并利用现成的SRL系统。图像中的视觉语义角色标签专注于情景识别[57，65，66]。为了注释图像，[66]采用了FrameNet [11]注释，[57]在图像标题上使用语义解析器显着降低了注释成本。相反，我们使用PropBank符号[42]，它是面向动词的，因此更适合视频描述。最后，我们的语义角色的使用是由对比抽样和不分配语义角色的视觉实体。通过最大边际损失的对比训练通常用于视觉+语言任务[24，67，73，76]。在这里，我们不使用对比损失，相反，视频的关联直接告诉我们哪些对象是相关的。因此，我们使用二进制交叉熵进行训练。1https://github.com/TheShadow29/vognet-pytorch10419Q1：男人爱狗Q2：女人爱狗宽度T1 T2 T3 T4（b）方法1：时间连接Q3：男子捡狗Q4：男人抚摸猫宽度测试样品宽度测试样品(a) 对比抽样(c) 方法2：沿宽度的(d) 沿高度的空间连接不合理图2.（a）说明基于语义角色的对比抽样Q1包含单一药剂（我们使用SRL结构Arg 0-Verb-Arg 1，但替换一个查询对象（Q2，Q4）或操作（Q3）。（b）示出了时间拼接，其中我们将每个视频调整为相同的宽度、高度。(c)显示空间拼接，其中我们调整高度并在视频中采样固定数量的帧（d）显示不合理的空间拼接，因为视频具有自上而下的顺序（“海洋”总是在“天空”之剂动词患者修改器仪器人洗杯在水槽用水Arg0动词Arg1ArgM-LocArg2表1.一个描述的语义角色分配的例子。在这里，行动者/代理人（人）在某个位置（水槽）使用某种工具（水）执行动作/动词（洗）。3. 方法我们描述了我们的采样和连接过程，它使VOG（第3.1节）的学习对象关系，其次是VOGNet（第3.2节）和相对位置编码方案（第3.3节）的细节3.1. 对比抽样大多数大型视频数据集[1，4，25]都是从YouTube等互联网资源中策划的，这些资源很少在同一视频中包含这样的数据集上的VOG可以使用对象检测来解决。为了缓解这个问题，我们提出了一个两步对比学习对象关系，因为人们可以独立地为每个引用的对象添加分数。例如，在图2-（a）中，我们可以对“人”、“爱抚”、“狗”单独评分或者，我们通过沿时间轴（ TEMP ）或宽度轴（SPAT）的连接生成新的样本。对于TEMP，我们调整采样视频的大小以具有相同的宽度和高度（图2（b））。对于SPAT，我们调整高度尺寸，并为每个视频均匀采样F帧（图2（c））。通常，沿高度维度连接是不合理的，因为大多数真实世界的图像遵循上下顺序（通过构造，这种为了将语言查询中描述的实例与其在视频中的边界框相关联，模型将需要通过利用相似对象实例与其他对象的关系来消除相似对象实例之间的例如，在图2（c）注意事项：（i）在TEMP中，可以使用活动提案抽样方法首先，我们分配语义角色标签（SRL）到视频的每种语言描述（见表1），并通过替换一个热门样式中的每个角色来采样其他描述（图2（a））。在第二步中，我们收集样本。一个简单的方法是单独呈现每个视频，类似于标准的多项选择题，我们称之为视频是分开看的然而，SEP像[13，34]这样的网络，完全绕过这个问题，（ii）在SPAT中，从两个不同的视频中均匀地采样F帧，将导致图像的不同部分移动得更快或更慢，并且可能部分地影响我们的结果。3.2. 框架符号：我们得到了一个视频V用F框架和具有k个角色的语言描述L。在gen-高度……时间……高度时间…高度…时间H1 +H2 +H3+H410420i=1i、ji、ji=1图3.关于VOGNet它以视频查询对作为输入。视觉编码器提取每帧的对象特征，并将它们与片段特征（rgb+flow）连接起来。语言编码器使用BiLSTM [20，52]对整个查询进行编码，然后为查询中的每个短语保持单独的编码（等式10）。1）。首先将Transformer [61]应用于视觉特征以建模对象关系。这些自我关注的视觉特征与语言特征相融合。最后，一个单独的Transformer模型之间的相互作用融合的多模态功能，其次是一个2层MLP。VOGNet使用二进制交叉熵（BCE）损失进行训练尽管如此，并非所有的k角色都可以在视频中视觉上接地，然而，该信息不是先验已知的。给定使用对象检测器的每个帧的P个提议，我们将O={pi，j}（ith提议injth帧）记为视频中的提议集合在VOG中，我们学习映射池化功能。类似地，动作分类器返回包含视频的图像级和流级特征的节奏特征。通常，动作分类器所考虑的帧的数量可以大于F。我们考虑了F帧对应的局部分割特征H：（V，O，L）→[{p<$}F]k其中p∈O.即对于得到sj∈Rds，并将其附加到Lj =1 l =1k个角色中的每一个，我们在每一帧中输出一个建议p如果对象在特定帧中不可见，或者对象不能被定位，则我们允许p=φ我们建立了一个VOGNet框架，其中包含一个语言模块编码的查询描述在短语的水平，一个视觉模块编码的对象和帧的水平特征的视频和多模态关系模块编码的语言独立和依赖的对象关系。图3给出了VOGNet的概述。语言模块首先将查询q={wi}n编码为n个隐藏向量[h1，. - 是的- 是的，hn]与Bi-LSTM [20，52]。查询q中的第j个语义角色标签（SRL），Argj，跨越一组单词Sj（例如，，在图3中，Arg 0包括单词S0={“The”，“man”}）被编码为jth帧。最后的视觉特征是v∈i，j=Mv（vi，j||sj），其中Mv是MLP。对象Transformer是一个Transformer [61]，并在建议特征vi，j上应用自关注，即。自注意力被应用于P×F建议。我们将自关注的视觉特征表示为v_s_a。在[75]中使用了类似的模块，但有两个区别：第一，v∈i，j包含额外的段特征;第二，绝对位置是替换为相对位置编码（第3.3节）。多模式Transformer：我们将自关注视觉特征v∈a和语言特征q∈a连接起来，得到多模态特征m，其中m[l，i，j]=[v∈a||q[1]。我们将自我注意与相对位置编码相结合，自助式多模态特征MSA。然而，由于硬件的限制，这是非常耗时的每-q∈j=Mq（G（{δ（wi∈Sj）·hi}n ））（1）形成对所有提案的自我关注，特别是当P×F×K很大。因此，我们执行这种自我注意，其中δ（. ）是指示函数，并且G（. ）是一个聚合函数。在VOGNet中，我们将G设置为每个SRL的第一个单词和最后一个单词的连接，后面是表示多层感知器（MLP）的Mq视觉特征提取：现成的对象检测器[47]为每个帧返回P个建议。设pi，j是jth框架中的ith建议，vi，j∈Rdv是其ROI，帧即对P×k特征应用自注意F次。随后，将msa通过2层MLP以得到预测每个提议角色对以得到m_a。损失函数：设Lg是可基角色的集合，即有一个相应的边界框。因此，如果一个命题-角色对的IoU ≥0，它就被认为是正确的。5、消极的，否则。我们使用二进制交叉熵（BCE）损失进行训练短语编码器语言特性BCE损失语言特征编码建议位置信息提案视觉特征多模态Transformer全局特征视觉特征提取对象Transformer自我注意关系编码预测ConcatRGB特征流…时间Bi-LSTM提问：男子将球传给一群孩子MLPMLP对象检测器动作分类器10421并使用边界框对短语进行平均：Arg0Arg1Arg2ArgM-LocL= 1BCE（msa[l，i，j]，gt[l，i，j]）（2）42472 32455 9520 5082pred|Lg|G glg∈L g表2.ASRL训练集中注释框的数量SEP的微小变化：当使用SEP策略训练和评估模型时，我们可以访问单独的视频。在这里，我们使用时间特征来学习动词分数，该分数可用于消除具有相同对象但不同动词的视频之间的歧义。一般来说3.3. 相对位置编码相对位置编码（RPE）使用两个建议之间的相对距离作为注意力的额外线索我们用posa，b=[xt1/W，yt1/H ， xbr/W ， ybr/H ， j/F] 表示其 5d 坐标为[xt1，y t1，xbr，ybr，j]的前体a，b的归一化位置。我们将两个建议A和B之间的相对距离编码为A，B=Mp（posA−posB），其中Mp是MLP。设Transformer包含nl层和nh头。这里，当自注意力应用于一个批次时，4.1. 构建ActivityNet SRL我们提出的数据集ActivityNet-SRL（ASRL）来自ActivityNet [4] ， ActivityNet-Captions （ AC ） [29] 和ActivityNet-Entities（AE）[75]。创建ASRL有两个关键步骤：（i）将语义角色标签（SRL）添加到AC中的描述中，并使用语法学对其进行过滤（ii）为标记为语义角色的每个可接地短语添加词元化的词，以进行有效的对比采样。对于（i），我们将[55]，一个基于BERT的[10]语义角色标记系统应用于AC中的视频描述。我们使用[15]中提供的实现，并在OntoNotes5上进行了培训[46]使用PropBank注释格式[42]。所获得的语义角色使用语法学来清理，如通常用于“is”、“are”等的没有任何角色的移动动词。一般来说，每个描述都包含多个“动词”，我们将它们分开处理。对于（ii），我们在AE中使用边界框注释第一、不我们将从SRL系统获得的令牌与A（Q，K，V）=SoftMax（QK /我们把这个改成不dk）V（3）√使用AE的令牌[21]。然后，对于每个标记有语义角色的短语，我们检查AE中的相应短语是否由于AE提供的对象名称来自A（Q，K，V）=SoftMax（（QK+（h）/dk）V（4）[38]我们用他们作为名词短语解析注意，n [h]具有与QKT相同的维度，并导致简单的矩阵加法。也就是说，我们的相对位置编码（RPE）对每个建议对之间的距离进行编码，并且这种编码对于每个头部都是不同的。直觉上，RPE会偏向自我注意力，以衡量其他物体相对于它们的接近程度的一致性。我们的解决方案基于以前的工作[54]，但在两个关键方面有所不同：（i）相对位置不是嵌入层，而是由MLP建模以对差异进行编码（ii）我们的相对编码对于不同的头是不同的。将[54]扩展到视觉设置的另一种方法是将距离分类到多个bin中，并学习每个bin的编码。我们将这项研究留给未来的工作。警告：虽然我们有效地解决了将 RPE 添加到Transformer网络的问题，但由于需要O（n2）差分计算，因此计算Rpei，j仍然是昂贵的，并且是我们提出的解决方案的瓶颈。4. 实验我们简要地描述了数据集的构建（更多细节见附录B），然后是实验设置、结果和可视化。10422用一个词来代替这个短语。表2显示了ActivityNet-Entities训练集中带有边界框注释的前4个语义角色。我们仅限于这组SRL进行对比采样。对于训练，我们使用ActivityNet的训练集，这与AC和AE相同。然而，要为AE创建测试集，我们需要为评估目的而保持私有的地面实况注释。作为替代方案，我们将AE的验证集平均分割，以创建我们的验证集和测试集。当在训练中使用对比采样时，我们只从训练集中采样。然而，由于验证和测试集的大小减少，很难找到对比的例子。作为补救措施，我们允许在验证期间从测试集中采样对比示例，反之亦然，用于测试，但从不用于训练。4.2. 动态对比采样虽然对比采样主要用于创建验证和测试集以评估VOG，但它也可用于速度瓶颈的训练。给定属于训练索引T的特定描述，其中包含角色R= [r1，. . .，rk]与相应的词S =[s1，. - 是的- 是的我们需要有效地10423我对具有相同语义角色但包含一个不同词形化单词的其他描述进行采样。也就是说，我们需要对索引Ti进行采样，其词元化的单词是Si=[si，. - 是的- 是的，s′，.- 是的- 是的 sk]，对于每一个1 ≤ i ≤ k。为了解决这个问题，我们首先为每个语义角色ri创建一个单独的字典Di，其中包含从词化的单词到所有注释索引的映射，其中它表现为ri。给定S，我们可以通过从集合Ei=j∈{1. k}，j= iDj（sj）。由于硬件限制，我们限制k≤4。对于k >4，我们随机丢弃k−4个索引。如果k4，那么我们随机抽取一个训练索引Tj，其中只有一个re-T和Tj描述不同的视频。4.3. 实验装置数据集统计：总共，ASRL包含39个。5k视频，80k查询，分为训练，验证和测试，31。7公里，3公里。9公里，3公里。9K视频和63. 8k 7. 九公里七公里8kqueries.每个视频包含大约2个查询，其中包含3个。45个语义角色，每个查询大约有8个单词。评估指标：我们计算以下四个度量：（i）准确性：对查询中给定对象的正确预测（回想一下，查询具有对多个对象的引用）（i i）严格准确性：对查询中所有对象的正确预测（iii）一致性：对每个对象的预测位于同一视频中（iv）视频准确性：预测是一致的并且位于正确的视频中。虽然严格的准确性是VOG最重要的指标，但其他指标揭示了有助于模型诊断和构建鲁棒VOG模型和数据集的有用趋势度量计算：在AE中，名词短语只定位在最容易看到的框架中。当相同的对象出现在多个帧（常见情况）时，这会使评估过程复杂化。因此，我们在每一帧中为查询中的每个角色选择得分最高的建议框，并设置得分阈值。给定一个短语，指的是一个接地对象，我们认为预测正确时，预测框在一个注释帧具有IoU ≥ 0。5、真实的盒子这使我们能够计算准确性在一个单一的视频单一查询（SVSQ）设置。对于SEP、TEMP、SPAT，我们有关于哪些视频帧和建议框不是地面实况的附加信息。为了评估SEP：我们检查预测的视频是否正确（这为我们提供了视频准确度），如果是，则计算类似于SVSQ的准确度。在TEMP和SPAT中，对于给定角色，如果不属于地面实况视频的预测框具有高于阈值的分数，则该角色的预测被标记为不正确。如果盒子在地面实况视频中，我们将类似于SVSQ对其进行评估（每个策略的示例请参见附录C基线：由于其限制性公式，无法在ASRL上评估VOG的先前工作。比如说，[76]在使用TEMP和SPAT时将所有对象接地，导致精度为0，[8]需要时空管。最近，[75]提出了GVD，一种用于接地视频描述的模型。GVD通过将地面实况描述输入字幕系统并找到得分最高的对象来计算其地面准确性。然而，这不适用于我们的任务，因为它以顺序的方式考虑语言。对于输入查询作为替代方案，我们提出了两个有竞争力的基线：(i)ImgGrnd：一个图像基础系统，它独立地处理每个帧，并且不显式地编码对象关系。(ii)VidGrnd：基于GVD的视频接地系统，使用对象Transformer编码对象关系。为了公平比较，我们对ImgGrnd和VidGrnd使用相同的语言特征、视觉特征（提案和分段特征）实施详情：我们将[ 75 ]提供的提取的视觉特征重新用于AE。对象建议和特征是从在视觉基因组[30]上训练的FasterRCNN [47使用在Activi- tyNet [4]上训练的TSN [62]获得片段特征（RGB和对于每个视频，F=10帧被均匀地采样，并且对于每个帧，我们考虑P=100propos- als，这给出了88的召回率。百分之十四然而，用100个建议进行训练是耗时的并且计算量大。相反，我们引入了GT5设置，每帧使用5个建议。在未注释的帧中，它包括得分最高的提议，并且对于注释的帧，对于每个地面实况框，它优先考虑具有最高IoU的提议。GT5保持了类似的重新调用得分（86。73%），并允许试验更多的变化和设置性能上限。对于自注意，对象Transformer（OTx）和多模态Transformer（MTx）都使用多头注意[61]除非另有说明，nl=1层，nh=3头。通常，对象Transformer（OTx）在所有提议和帧上应用自关注，而多模式Transformer（MTx）由于较高的计算负载而单独地将自关注应用于每个帧。我们训练所有模型，直到验证精度饱和。对于SEP，TEMP，SPAT，我们发现GT5有10个epoch，批量大小为4，P100有2个epoch，使用Adam，学习率为1e−4，对于大多数模型来说已经足够了。对于SVSQ，我们为所有模型设置批量大小4。我们使用具有最高验证精度的模型进行测试。我们将用于评估TEMP和SPAT的阈值设置为0。GT5为2，0为0。所有型号的P100均为1。更多实施细节见附录D。10424+MTX（3L，6H）+OTx（3L，24.2415.3657.37 12.5224.997.3366.29 14.47模型SVSQSepTEMP吐Acc SAccACCVACCSACCACCVAcc缺点SACCACCVAcc缺点SACCImgGrnd75.3156.5339.7851.1430.3417.027.2434.737.14516.939.3849.217.02GT5VidGrnd75.4257.1641.5954.1631.2219.928.8331.708.6720.1811.3949.018.64VOGNet76.3458.8542.8255.6432.4623.3812.1739.1412.0123.1114.7957.2611.90ImgGrnd55.2232.726.2946.915.49.713.5922.973.497.394.0237.152.72P100VidGrnd53.3030.9025.9947.0714.7910.564.0429.473.988.544.3336.263.09VOGNet53.7731.929.3251.217.1712.685.3725.035.179.915.0834.933.59表3.VOGNet与ImgGrnd和VidGrnd的比较GT5和P100每帧使用5和100个建议这里，Acc：接地精度，VAcc：视频精度，缺点：一致性，SAcc：严格的准确性（详见第4.3节）。在TEMP和SPAT具有挑战性的评估指标上，VOGNet（我们的）显示出比竞争性图像和视频基础基线有显着改进SVSQTEMP吐吐ACCVACC缺点SACCACCSACCACCSACCACCSACCImgGrnd17.039.7150.417.14SVSQ76.3859.581.70.422.270.6+OTx（1L，3H）19.810.9148.348.45TEMP75.457.3823.0712.0618.038.16+RPE20.211.6649.219.28吐75.1557.0222.611.0423.5311.58+MTX（1L，3H）19.2310.4948.198.14+RPE19.0910.4650.098.23表4.通过培训评估GT5环境中的VOGNet（第一次+OTx（3L，6H）21.1412.149.669.52列）和SVSQ、TEMP、SPAT测试（顶行+OTx + MTx + RPE23.5314.2256.511.58VOGNet表5.用于训练（行-1，2）和评估（行-2，3）的对比采样（CS）与随机采样（Rnd）的比较。#视频时代数ACCVACC缺点SACC22020.1810.1852.458.8431321.713.3355.5510.685823.3414.5356.5111.71表6.在SPAT设置中使用不同数量的连接视频训练VOGNet，并在SPAT上使用4个视频进行测试。4.4. 结果和讨论在表3中，我们将VOGNet与两个基线ImgGrnd和VidGrnd在GT5（每帧5个提案框）和P100（每帧100个战略比较：我们注意到，在SVSQ列中，所有模型都执行了递归。然而，这些结果未能推广到其他情况，这表明SVSQ的评估是不够的。接下来，SEP列显示模型可以通过独立考虑每个对象的贡献来区分对比样本，具有非常高的准确性，并且可以轻松区分表7.比较多模式变换器（MTx）和对象Transformer（OTx）以及相对位置编码（RPE）增益的消融研究L：层数，H：Transformer中的头数。请注意，VOGNet = ImgGrnd +MTx（1L，3H）+OTx（1L，3H）+RPE即使在P100设置下，类似的示例也能在视频准确度上达到50%这样的提示在SPAT和TEMP中不存在，在SPAT和TEMP中，模型被给予单个视频和单个查询，但是现在视频包含执行某些动作的多个演员。SPAT和TEMP的性能仍然很低（P100的严格精度为5%），这表明VOG仍然是一个非常复杂的系统。目前最先进的模型的问题。与基线的比较：对于TEMP和SPAT，尽管没有使用任何对象关系，我们发现ImgGrnd的性能相对较好（GT5中为17%）。这可能是因为该模型可以利用短语中的属性信息（例如“红色衬衫”）。使用语言独立对象关系的VidGrnd获得了2 -3%的收益。最后，VOGNet还使用了依赖于语言的对象关系，比VidGrnd的性能高出3 - 4%。GT5 vs P100：我们观察到GT5和P100在指标上遵循类似的模式，这表明GT5是探索更多设置的良好代理。对于其余的实验，我们只考虑GT5设置。SepTEMP吐火车测试 ACCVACCACCACCRndCS44.957.622.8922.72CS+RndCS44.856.9423.0723.53CS+RndRnd57.4474.136.4836.0510425图4.左（L）：使用SPAT与查询连接：[Arg0：The man][Verb：throws][Arg1：the ball][Arg2：in the air]。中间（M）：使用TEMP与查询连接：[Arg 1：He] [Verb：spins] [ArgM-spins：around the board]。右（R）：使用SPAT与查询连接：[Arg0：He] [Verb：attaches] [Arg1：a dummy]。在L、R中，可以看到顶部两个帧和底部两个帧连接在一起。在M中，存在遵循以下顺序的四个帧：tl-bl-tr-br。在L，M中，我们的模型VOGNet正确地找到了引用的对象（在R中：VOGNet无法找到跨策略的性能：表4显示，在SPAT和TEMP设置中训练的VOGNet在SVSQ上的性能具有竞争力（保持75%的准确度）。然而，反过来说就不对了.在SVSQ上训练的模型在SPAT和TEMP中失败得很惨（准确率为3%）。这表明TEMP和SPAT都适度地抵消了视频中具有单个对象实例所引起的有趣的是，虽然在TEMP这种不对称性可能是因为多模态Transformer应用于各个帧。对比抽样：表5比较了对比抽样（CS）与随机抽样（RS）基线的评估和培训。使用RS进行验证，SEP视频准确度非常高，75%，这意味着CS是一个更难的情况;同样，我们发现TEMP和SPAT两种情况下的性能都更高。有趣的是，使用RS进行训练对于SPAT，TEMP来说只是稍微差一点，而在SEP中表现更好。因此，SPAT和TEMP中的CS有助于学习更好的对象关系，但随机采样仍然是训练的一个非常有竞争力的基线表6显示了在训练中使用更多视频的帮助;由于GPU的分类考虑和训练时间，我们使用了4个视频消融术研究：在表7中，我们记录了SPAT中每个模块的单独贡献。我们观察到：（i）通过对象的自我注意是跨帧编码对象关系的有效方法（ii）应用于个别帧的多模态Transformer给出适度增益，但由于缺乏时间信息而达不到对象Transformer（iii）相对位置编码（RPE）提高了两个变压器的严格精度（iv）具有3层和6头的对象变压器比使用单个多模态变压器，即，向对象Transformer添加更多的层和注意力头是不够的（v）使用具有更多层和更多头的对象和多模式变换器给出了最佳性能的模型。4.5. 可视化对于定性分析，我们在图4中显示了SPAT和TEMP策略的可视化。为了空间的利益，我们使用k=2的对比采样（k=4的可视化在附录F中提供）。在第一个图像中，视频沿着宽度轴连接，并且都包含我们的模型正确地识别出哪个请注意，仅查看最后一帧总的来说，我们的SPAT模型表现出很高的一致性，即。它会选择距离较近的物体，我们将其归因于RPE。在第二个图像中，视频沿着时间轴连接，并且在两个视频中，人使用我们的TEMP模型表现略差于SPAT模型，可能是因为编码时间信息更具挑战性。最后，在第三张图片中，我们的模型错误地将“he”接地5. 结论在这项工作中，我们分析的问题，VOG的目的是本地化的引用对象在视频给定的语言查询。我们表明，语义角色标签系统可以用来采样对比的例子。然后，我们强制模型将对比样本视为整个视频，以便模型显式学习对象关系。我们还提出了一个额外的自我注意层，以捕捉语言相关的对象关系以及相对位置编码。最后，我们在我们的数据集ActivityNet-SRL上验证了我们提出的模型VOGNet，它强调了对象交互的作用。鸣谢：我们感谢匿名评论者的建议。这项研究得到了海军研究办公室的部分支持，资助号为#N00014-18-1-2050。时间10426引用[1] Sami Abu-El-Haija 、 Nisarg Kothari 、 Joonseok Lee 、Apos-tolNatsev 、 GeorgeToderici 、 BalakrishnanVaradarajan和Sudheendra Vijayanarasimhan。Youtube-8m：大规模视频分类基准。ArXiv，abs/1609.08675，2016年。3[2] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在CVPR，2018年。2[3] Fabien Baradel 、 Natalia Neverova 、 Christian Wolf 、Julien Mille和Greg Mori。视频中的对象级视觉推理。在ECCV，2018。2[4] Fabian Caba Heilbron、Victor Escorcia、Bernard Ghanem和Juan Carlos Niebles。Activitynet：人类活动理解的大规模视频基准。CVPR，2015。一、三、五、六、十[5] Yu-Wei Chao，Yunfan Liu，Xieyang Liu，Huayi Zeng，and Jia Deng.学习检测人机交互。WACV，2018年。2[6] Yu-Wei Chao ， Zhan Wang ， Yugeng He ， JiaxuanWang，and Jia Deng. Hico：识别图像中人与物体交互的基准。ICCV，2015年。2[7] Kan Chen，Rama Kovvuri，and Ram Nevatia.查询引导的回归网络与上下文策略的短语接地。InICCV，2017. 一、二[8] Zhenfang Chen，Lin Ma，Wenhan Luo，and Kwan-YeeKen- neth Wong.弱监督时空背景下的视频自然语句。在ACL，2019年。一、二、六[9] DimaDamen 、 HazelDoughty 、 GiovanniMariaFarinella 、 Sanja Fidler 、 Antonino Furnari 、 EvangelosKazakos 、 Davide Moltisanti 、 Jonathan Munro 、 TobyPerrett、Will Price和Michael Wray。扩展以自我为中心的愿景：epic-kitchens数据集。在ECCV，2018。11[10] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：用于语言理解的深度双向变换器的预训练。在NAACL-HLT，2019年。五、九[11] Charles J Fillmore，Christopher R Johnson，Miriam RLPetruck。framenet的背景。国际词典学杂志，2003年。2[12] 高晨，邹玉良，黄家斌。iCAN：用于人机交互检测的以实例为中心的注意力网络。BMVC，2018年。2[13] Jiyang Gao，Kan Chen，and Ramakant Nevatia.CTAP：补充时间行动建议生成。在ECCV，2018。3[14] Jiyang Gao ， Runzhou Ge ， Kan Chen 和 RamakantNevatia。用于视频问答的运动-外观共记忆网络。CVPR，2018年。1[15] Matt Gardner ， Joel Grus ， Mark Neumann ， OyvindTafjord ， Pradeep Dasigi ， Nelson F. Liu ， MatthewPeters ， Michael Schmitz ， and Luke S.ZettlemoyerAllennlp：一个深度语义自然语言处理平台。在ACL研讨会，2018年。五、九、十[16] Rohit Girdhar ， Joao Carreira ， Carl Doersch ， andAndrew Zis-serman. 视频动作 Transformer 网络。在CVPR，2019年。2[17] GeorgiaGkioxari ， RossGirshick ， PiotrDolla'r ，andKaimingHe.检测和识别人机交互。在CVPR，2018

下载后可阅读完整内容，剩余1页未读，立即下载