视频问答与检索的联合序列融合模型

197 浏览量更新于2023-10-13 收藏 1.74MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

视频问答与检索的联合序列融合模型Youngjae YuJongseok Kim Gunhee Kim韩国首尔国立大学计算机科学与工程系{yj.yu，js.kim} @ vision.snu.ac.kr，gunhee@snu.ac.krhttp://vision.snu.ac.kr/projects/jsfusion/抽象。我们提出了一种名为JSFusion（Joint Sequence Fusion）的方法，该方法可以测量任何多模态序列数据对（例如：视频剪辑和语言句子）。我们的多模态匹配网络由两个关键组件组成。首先，联合语义张量将两个序列数据的密集成对表示组成3D张量。然后，卷积分层解码器通过发现两个序列模态之间的隐藏分层匹配来计算它们的相似性得分。这两个模块都利用了分层注意力机制，该机制学习促进良好匹配的表示模式，同时以自下而上的方式修剪掉不对齐的表示模式。虽然JSFusion是一个通用的模型针对任何多模态序列数据，本文重点研究了视频语言任务，包括多模态检索和视频问答。我们评估的JS-融合模型在三个检索和VQA任务在LSMDC，我们的模型达到了迄今为止报道的最佳性能。我们还为MSR-VTT数据集执行多项选择和电影检索任务，我们的方法优于许多最先进的方法。关键词：多模式检索;视频提问与分类1介绍最近，各种视频语言任务在计算机视觉研究中引起了很多兴趣[1，2，3]，包括视频字幕[4，5，6，7，8，9]，视频问题回答（QA）[10，11]和自然语言查询的视频检索[8，12，13]。为了解决这些具有挑战性的任务，重要的是学习单词和框架序列之间的隐藏连接表示，以正确地测量它们的语义相似性。视频分类[14，15，16，17，18]可以是候选解决方案，但是仅将几个标签标记到视频可能不足以将视频中的多个潜在事件与语言描述完全相关。由于深度表示学习的最新进展，许多用于多模态语义嵌入的方法（例如，[2019 - 12 - 21][2019 - 12 - 21]然而，大多数现有方法将视觉和语言信息嵌入到单个向量中，这通常是不够的，特别是对于视频和自然句子。用单个向量2Y. Yu，J.Kim和G. 金视频序列V = {v1，v2 n，vN}W = {w，w ，w}语言序列12 M现在，汽车在一条空旷的道路上加速，两旁是高大的常青树，直刺淡蓝色的天空。联合语义汽车减速两旁长满高大常绿植物的道路淡蓝色的天空Fig. 1. 联合序列融合（JSFusion）模型的直观性。给定一对视频剪辑和语言查询，联合语义张量（紫色）编码两个序列数据之间的成对联合嵌入，卷积分层解码器（蓝色）从JST中发现分层匹配关系。我们的模型很容易适应许多视频QA和检索任务。这两种序列模态难以直接比较序列数据子集之间的多个关系（即，视频中的子事件和句子中的短语之间的匹配），对于这些，已经有一些尝试来学习自然句子和视觉场景的分层结构的表示（例如，[22，23]使用递归神经网络），但它们需要groundtruth解析树或分割标签。在本文中，我们提出了一种方法，可以测量任何对多模态序列数据之间的语义相似性，通过学习自下而上的递归匹配，通过注意力机制。我们应用我们的方法来解决几个视频问答和检索任务。我们的方法，命名为联合序列融合（JSFusion）模型，由两个关键组成部分。首先，联合语义张量（JST）在帧和字之间执行密集的Hadamard乘积，并将两个序列数据之间的所有成对嵌入编码到3D张量中。JST进一步利用学习到的注意力来细化3D匹配张量。其次，卷积分层解码器（CHD）通过使用一系列基于注意力的解码模块（由卷积层和门组成）来发现张量上的局部对准这两种注意力机制促进了良好匹配的表征模式，并以自下而上的方式修剪掉不对齐的表征模式。最后，CHD获得两种模态的分层可组合表示，并计算序列对的语义匹配得分。我们在LSMDC[1]和MSR-VTT[2]数据集上评估了我们的JSFusion模型在多个视频问题回答和检索任务上的性能首先，我们参与了LSMDC的三个挑战：多项选择测试，电影检索和填空，这需要模型正确地测量描述性句子和视频片段之间的语义匹配分数，或者预测查询视频的句子中最合适的空白词。我们的JSFusion模型实现了迄今为止报道的最佳精度，具有lsmdc任务的显著利润率。第二，我们新增了多项选择和vNv1w1现在的汽车减速…蓝色WM天空空白查询相似性匹配字预测一种视频VQA与检索的联合序列融合模型3MSR-VTT数据集的电影检索注释，在该数据集上，我们的方法在不同的视频主题（例如，电视节目、网络视频和卡通）。我们总结这项工作的贡献如下。1. 我们提出了联合序列融合（JSFusion）模型，由两个关键组件组成：JST和CHD。据我们所知，这是第一次尝试利用递归学习的注意力模块来测量多模态序列数据之间的语义匹配分数。具体来说，我们提出了两种不同的注意力模型，包括软注意力在JST和Conv层和Conv门在CHD。2. 为了验证我们的JSFusion模型的适用性，特别是在视频问题回答和检索方面，我们参与了LSMDC[1]的三个任务，并达到了迄今为止报道的最佳性能我们基于MSR-VTT[2]数据集新创建了视频我们的源代码和基准测试注释在我们的项目页面中公开。2相关工作我们的工作可以在最近的两个研究方向的背景下进行独特的定位：视频检索和视频问答。基于自然语言句子的视频检索。自然语言查询的视觉信息检索长期以来一直通过联合视觉语言嵌入模型来解决[12，19，24，25，26，27，28]。在视频域中，更难以学习帧序列与描述性词语序列之间的潜在关系，因为视频不仅仅是图像的倍数。最近，这方面的研究取得了很大进展。通过扩展图像语言嵌入[20，21]，已经开发了几种深度视频语言嵌入方法[8，12，13]。其他最近成功的方法受益于将概念词作为语义先验[9，29]，或依赖于像RNN-FV [30]这样的视频的强表示。另一种主要的方法可以是利用RNN或其变体（如LSTM）来编码整个多模态序列（例如LSTM）。[9，12，29，30]）。与这些现有的方法相比，我们的模型首先发现两个序列之间的密集成对嵌入，然后以自下而上的方式从细粒度的相似性匹配中组成更高级别的相似性匹配，利用分层注意机制。这个想法提高了我们的模型在活动短语水平），这将我们的工作相对于以前的作品处于独特的位置视频问答 VQA是计算机视觉和自然语言研究交叉领域的一个相对较新的问题[31，32，33]。基于视频的VQA通常被认为是比基于图像的VQA更困难的挑战，因为视频VQA模型必须学习时空推理来回答问题，这需要大规模的注释数据。幸运的是，大规模的视频4Y. Yu，J.Kim和G. 金m=1QA数据集最近已经从社区中出现，使用对各种数据源的众包（例如，MovieQA [10]的电影和TGIF-QA [11]的动画GIF）。Rohrbach等人[1]将LSMDC电影描述数据集扩展到VQA域，引入了多项新任务，如多选[12]和填空[34]。多项选择问题是，给定一个视频查询和五个描述性句子，在候选中选择一个最佳答案。为了解决这个问题，利用深度表示[9，11，12]上的排名损失或联合空间[30]上的最近邻搜索。Torabi等人[12]在查询视频和答案选择句子之间的联合表示上使用时间注意力。Yu等人[9]使用LSTM顺序地馈送查询和基于检测到的概念词的答案嵌入条件。填空任务是，给一个视频和一个句子，其中有一个空格，选择一个合适的词填空。为了在视频上下文中对句子查询语句进行编码，提出了MergingLSTM[35]和LR/RL LSTM[36]。Yu等人[9，29]尝试从视频中检测语义概念词，并将它们与编码语言查询的双向LSTM集成。然而，大多数以前的方法往往过于关注句子信息，容易忽略视觉线索。对另一方面，我们的模型专注于学习视频和句子之间的多级语义相似性，因此在这两个QA任务中获得了迄今为止报道的最佳结果，如将在第4节中呈现的。3联合序列融合模型我们首先在3.1节中解释描述视频和句子的预处理步骤，然后在3.2我们在第3.5节中介绍了我们模型的训练过程，并在第3.6节中将其应用于三个视频语言任务。3.1预处理句子表示。我们把每个句子都编码成一个单词。我们首先通过收集在数据集中出现超过三次的单词来定义词汇字典V（例如字典大小为|V|=16，824（对于LSMDC）。我们忽略字典里没有的单词。接下来，我们使用预训练的手套.42B.300d [37]来获得单词嵌入矩阵E∈ Rd×| V|哪里d=300是单词嵌入维数。我们表示每个的描述句子：M其中M是句子中的单词数我们限制每个句子的最大字数为Mmax= 40。如果句子太长，我们会丢弃剩余的多余单词，因为只有0.07%的训练句子超过了这个限制，并且对于较大的Mmax没有观察到性能增益。在本文中，我们使用m表示单词索引。视频表示。我们以5 fps的速度对视频进行采样，以减少帧冗余，同时最大限度地减少信息丢失。我们采用CNN来编码视频中的视觉和听觉信息对于视觉描述，我们提取一种视频VQA与检索的联合序列融合模型5v2v1一，w2n=1{h}语言查询W = {w1，w2，wM}某人wv3视频帧V = {v1，v2，vN}相似性描述在路上，汽车加速冲向一辆卡车。视频检索问：一辆小汽车加速冲向一辆卡车追逐1他W3到W4西五卡车W6街道WMBLSTM男，1M，2vNi、j匹配评分（结构排序损失）词答：多项选择问答1. 在路上，2. 有人在看汽车是5.A 男人和空白嵌入(a) 联合语义张量M、N(b) 卷积分层解码器交叉熵损失（Cross-entropyloss）填空QA问：在路上，汽车加速冲向一辆卡车。A：房子图二. 联合序列融合（JSFusion）模型的体系结构。蓝色路径表示多模态相似性匹配任务的信息流，而绿色路径表示填空任务的信息流。(a)JST组成成对联合表示的语言和视频序列到一个3D张量，使用软注意力机制。(b) CHD学习序列之间的层次关系模式，使用一系列卷积解码模块，该模块共享每个阶段的参数。⊙是Hadamard乘积，是加法，是等式中描述的表示和注意之间的乘法。(2)- （4）. 为了可视化的目的，我们省略了一些完全连接的层。在ImageNet上预训练的ResNet-152 [38]的pool 5层（R2， 048）中每个帧的特征图。对于听觉信息，我们使用VGGish [39]提取特征图，然后使用PCA进行降维（R128）。然后，我们将这两个特征连接为视频描述符{vn}N∈R2，156×N其中N是视频中的帧的数量。我们将帧的最大数量限制为Nmax= 40。如果视频太长，我们选择N个最大等距帧。我们没有观察到更大的N最大的性能增益。我们使用η来表示视频帧索引。3.2联合语义张量联合语义张量（JST）首先将两个多模态序列之间的成对表示组成3D张量。接下来，JST将自选通机制应用于3D张量，以将其细化为注意力图，该注意力图发现两个序列的所有成对嵌入之间的细粒度匹配，同时修剪掉不匹配的联合表示序列编码器。给定一对多模态序列，我们首先用编码器表示它们我们使用双向LSTM 网络（BLSTM）编码器[40，41]用于字序列和CNN编码器用于视频帧。考虑未来和过去的上下文来表示每个元素通常是在一个序列中的片段，这激发了BLSTM编码器的使用。{hf}T和t t=1B Tt t=1 分别是BLSTM的前向和后向隐藏状态hf= LSTM（xt，hf），hb= LSTM（xt，hb），（1）t t−1t t+1一、二6Y. Yu，J.Kim和G. 金v，tm=1：M最大值FC层大小Conv层内核/跨距信道D1v，D1wD2D3和D4512512512Conv1ConvG13× 3/ 13× 3/ 12561Conv2ConvG23× 3/ 13× 3/ 12561D5D6D7D82562561281Conv3ConvG33× 3/ 23× 3/ 22561平均池17× 17/ 17256表1. JSFusion模型中层的详细设置。每个层都不使用填充。Dk表示完全连接的密集层，Convk和ConGk分别表示卷积层和卷积门控层其中，我们设置hb，hf∈R512，将它们初始化为零：hb=hf=0。t tT+1 0最后，我们得到的每一个模态在每一个步骤的表示，通过con-将所述前向/后向隐藏状态与所述输入特征链接：xw，t=Fw，tbw，t ，wt]的单词。对于视觉域，我们使用1-d CNN编码器表示-而对vt，hcnn∈R2，048，则xv，t=[hcnn，vt].基于注意力的联合嵌入。然后，我们将序列编码器的输出分别馈送到每个模态的全连接（密集）层[D1]，这导致D1v（xv），D1w（xw）∈RdD1，其中dD1是[D1]的隐藏维度。我们总结了JSFusion模型中所有层的详细信息表1中在整篇论文中，我们将全连接层表示为Dk，将卷积层表示为Convk。接下来，我们计算注意力权重α和表示γ，从中我们获得JST作为每对顺序特征之间的联合嵌入：jnm=αnmγnm，其中αnm=σ（wTD2（tnm）），γnm=D4（D3（tnm）），（2）tnm= D1 v（xv，n）⊙ D1 w（xw，m）.（三）⊙是Hadamard积，σ是Sigmoid函数，w∈RdD2是可学习参数.由于序列编码器的输出表示以相邻视频为条件的每个帧（或以整个句子为条件的每个单词），因此期望注意力α找出对于所有可能的对中的联合嵌入，例如，在图2中，如果w6是卡车，并且第三视频帧包含卡车而第八帧不包含卡车，则α，α3， 6（v3，w6）> α8， 6（v8，w6从等式(2)-（3），我们获得3D术语形式的JST或：且J∈RNmax×Mmax×dD4.3.3卷积分层译码器卷积分层解码器（CHD）通过利用JST的联合向量空间中的组合性来计算一对多模态序列的兼容性得分我们将JST张量通过一系列卷积[h，h一种视频VQA与检索的联合序列融合模型7肯定句一新郎跳舞他的妻子否定句一一堆动漫字符（一）一新郎和他的妻子跳舞正比对JST（0）一一堆动漫字符Conv1、（1）Conv2、（2）Conv3、（3）（b）负向排列JST（0）图三. 注意（a）联合语义张量（JST）和（b）卷积分层解码器（CHD）的示例。较高的值以较暗的颜色显示。(a)JST对两个序列数据中的正对齐联合语义分配高权重。关注在单词与框架很好地重合的地方突出显示得更暗。(b)CHD中的每个层将高权重分配给结构模式在两个序列数据之间很好地匹配的地方。对于一对错误的序列，一系列的Conv-gating（ConvG2）修剪掉具有低权重的未对齐模式。（Conv）层和Conv门控块，其可学习内核从每个前一层的嵌入中逐渐也就是说，从JST张量开始，CHD递归地激活正对齐对的权重而不是负对齐对的权重。具体来说，我们将三组Conv层和Conv-gating应用于JST：J（k）=Convk（J（k−1））·σ（ConvGk（J（k−1）（4）对于k=1， 2， 3。我们从JST初始化J（0）=J，并且[Convk]是用于联合表示的第k个Conv层，[ConvGk]是用于匹配滤波器的第k个Conv门控层，其细节总结在表1中。我们将均值池应用于J（3）以获得单个视频-句子向量表示Jout（例如：R17×17×256→R1×1×256）。最后，我们通过将J馈送到四个密集层[D5，D6， D7，D8]来计算相似性匹配得分得分=WD8（D7（D6（D5（Jout）+bD8（5）其中Dk（x）= tanh（WDkx + bDk），k = 5、6、7。除了[D8]，我们对所有致密层都使用双曲正切活化。3.4JSFusion模型如何工作的示例图3用实例说明了JST和CHD的注意力是如何工作的。图3（a）将学习到的注意力权重α nm在等式2中可视化。(2)视频中的帧与肯定句和否定句中的词之间的所有对。当单词被标记时与帧中的内容更好地一致，主要是在正对中。8Y. Yu，J.Kim和G. 金图3（b）示出了每个Conv层和Conv门控块的输出J（k），(4)同样的例子。在训练期间，每个Conv层学习从较低层中的联合嵌入组成联合嵌入，而Conv层学习视频和句子的训练对中的频繁匹配模式。在测试时，当计算相似性得分时，Conv门控层修剪掉未对齐的模式;如果该对是负的，其中在两个序列中没有共同的对齐结构，如图3（b）的右边所示，则J（k）的大多数元素具有非常低的值。因此，CHD可以选择性地过滤需要传播到最终层表示的较低层信息，并且CHD的最终层仅在联合比对的模式在序列数据之间是显著的情况下才分配高分。JSFusion模型背后的动机是，像视频和句子这样的长序列数据太复杂，无法在单个向量中进行比较。tor空间，尽管大多数以前的方法依赖于单个LSTM嵌入，例如神经视觉语义嵌入[19]和以前的LSMDC获奖者[30，9]。相反，在我们的方法中，JST首先在多模态序列数据之间组成密集的成对3D张量表示，然后CHD利用卷积门控层来学习多级相似性匹配。因此，我们的JST模型可以更强大的检测短短语和subhot之间的部分3.5培训我们使用排名损失来训练JSFusion模型。每个训练批次由L个视频-句子对组成，包括一个正对和L−1个随机抽样的负对。我们在每个训练时期使用批量洗牌。最后，我们使用最大保证金结构性损失目标训练模型，如下所示：ΣΣLL=max（0，S k，l− S k，l*+ ∆）+ λ||θ||第二章（六）Kl =1其中l*是L个候选中的答案对，λ是超参数，θ表示权重参数。这个目标鼓励积极的视频-句子对比未对齐的消极对具有更高的分数，差值Δ。我们使用λ = 0。0005，∆ = 10。我们使用Adam优化器[42]训练所有模型，初始学习率在10−4的范围内。对于正则化，我们对每个密集层应用批量归一化[43]3.6视频语言模型下面我们将讨论如何为三个视频语言任务（视频检索、多项选择测试和填空）实现JSFusion模型。我们将相同的JSFusion模型应用于视频检索和多项选择测试，但超参数设置略有不同对于填空，我们对模型进行了微小的修改，以预测句子中间的空白单词。一种视频VQA与检索的联合序列融合模型9为了取回。检索模型采用查询语句，并根据查询和视频之间的相关性对1,000个测试视频进行对于训练，我们设置L=10作为每个训练批次的大小在测试时，对于每个查询句子k，我们计算测试集中所有视频l的得分{Sk，l}l从得分矩阵中，我们可以对查询的视频进行如将在第4.3节和第4.4节中所呈现的，我们的方法成功地找到复杂的自然语言查询和具有声音的视频帧之间的分层匹配模式。用于多项选择题测试。多项选择模型需要一个视频和五个选择句，其中只有一个是正确的答案。由于我们的模型可以计算查询视频和每个句子选择之间的兼容性得分，我们使用与检索任务相同的模型。我们只是简单地选择以最高分作为答案。对于训练，我们设置L= 10，这样每个训练批次包含10对视频和句子，其中只包括一个正确的句子，四个错误的选择，以及从其他训练数据中随机选择的5个句子。为了填空填空模型获取视频和具有一个空白的句子，并预测该空白的正确单词。自从这次任务需要更困难的推理（即，从词汇表V中选择一个单词，而不是计算相似性分数），我们进行如下两个修改。首先，我们为层使用更深的维度：d D1= d D5 = d D6 = d D7 =1，024，d D2= d D3 = dD4 =2，048，d D8=| V|，d Conv11=d Conv21=d Conv31= 1，024，而不是表1中的数字。其次，我们在模型中添加了一个跳过连接部分，如图2中的绿色路径所示。让b作为查询句子中的空白位置，我们使用来自空白单词标记BLANK的BLSTM输出作为空白位置的句子上下文：tb= D1 w（wb）。我们将[D7]∈R1，024的输出与句子上下文tb∈R1，024求和，然后将其馈送到[D8]以预测单词。对于训练，我们将批量大小设置为L= 32。我们使用不同的目标，交叉熵损失，因为这个任务是分类而不是排名：L= − log p（y）+ λ||θ||第二章（七）其中θ表示权重参数，并且λ = 0。0005.我们使用率为0.2的dropout。4实验我们报告了LSMDC [1]的三个任务和MSR-VTT [2]的两个任务的JSFusion模型的实验结果。4.1LSMDC数据集和任务LSMDC 2017由四个用于电影理解和字幕的视频语言任务组成，其中我们在实验中重点关注三个任务10Y. Yu，J.Kim和G. 金任务电影检索度量R@1R@5R@10MedR数据集LMLMLMLMLSTM融合三点零三点零8.9 9.615.9 17.19567SA-G+SA-FC7[12]3.0 3.18.8 9.013.2 13.411491LSTM+SA-FC7[1]3.3 3.210.2 11.1十五点六十五点七8869C+LSTM+SA-FC7[12]4.3 4.2十二点六十二点九18.9 19.99855VSE-LSTM[19]3.1 3.810.4 12.716.5 17.17966埃坦克[30]4.7 4.715.9 16.623.4 24.16441SNUVL[29]3.6 3.514.7 15.9二十三点九二十三点八5044CT-SAN[9]4.5 4.414.1 16.620.9 22.36735Miech等人[第四十四届]7.319.227.152–JSTfc4.75.117.221.125.229.15230JSTlstm7.69.219.228.227.141.13618JSTmax6.78.818.029.827.241.03917JSTmean7.59.020.927.228.240.93618JSFusion-noconference6.48.718.427.428.439.54119JSFusion-noaudio9.09.220.928.332.141.33917JSFusion9.110.221.231.234.143.23613表2. 使用Recall@k（R@k，越高越好）和Median Rank（MedR，越低越好）的电影检索任务的性能比较。我们报告的结果LSMDC[1]（L）和MSR-VTT[2]（M）的两个数据集电影检索、多项选择题和填空题。该挑战提供了LSMDC数据集的一个子集，其中包含从202部电影中采样的118，114个句子和118，081个长约4我们严格遵守挑战赛的评估方案。我们将数据集和挑战规则的更多细节推迟到[1]和主页1。多项选择题。给定视频查询和五个候选字幕，目标是从五个可能的选择中找到查询的正确字幕。正确答案是地面实况（GT）标题，其他四个干扰项是从其他标题中随机选择的，这些标题具有与正确答案不同的活动短语标签。评估指标是10，053个公共测试数据中正确回答测试问题的百分比。电影检索。测试集由从LSMDC 17公开测试数据中采样的1,000个视频/活动短语对组成然后，目标是，给定一个短的查询活动短语（例如接听电话），以从1，000个测试视频中找到其对应的视频。评价指标包括Recall@1、 Recall@5、 Recall@10和中位数排名（MedR）。Recall@k表示前k个检索到的视频中GT视频的百分比，MedR表示GT视频的中值排名挑战获胜者由Recall@10的指标确定电影填空这条赛道与视觉问答有关这个任务是，给定一个视频片段和一个有空格的句子，预测一个1https://sites.google.com/site/describingmovies/lsmdc-2017。一种视频VQA与检索的联合序列融合模型11道选择精度填空精度数据集L M纯文本BLSTM[34]32.0LSTM融合52.8 38.3[34]第三十四话30.2SA-G+SA-FC7[12]55.1 55.8[34]第三十四话35.7LSTM+SA-FC7[1]56.3 59.1[46]第四十六话33.2C+LSTM+SA-FC7[12]58.1 60.2Merging-LSTM[35]34.2VSE-LSTM[19]63.0 67.3SNUVL[29]38.0SNUVL[29]63.1 65.4CT-SAN[9]41.9ST-VQA-Sp.Tp[11]63.5 66.1LR/RL LSTM[36]40.9埃坦克[30]63.7 65.5LR/RL LSTM（Ensemble）[36]43.5CT-SAN[9]63.8 66.4美国职业棒球大联盟[45]41.6美国职业棒球大联盟[45]69.0 76.1JSTfc42.9JSTfc六十四点七六十八点七JSTlstm43.7JSTlstm72.1 79.7JSTmax41.3JSTmax68.3 74.4JSTmean44.2JSTmean70.2 80.0JSFusion-noconference44.5JSFusion-noconference69.4 79.2JSFusion-VGG-noaudio44.2JSFusion-VGG-noaudio68.7 75.6JSFusion-noaudio45.26JSFusion-noaudio72.5 82.9JSFusion45.52JSFusion73.5八十三点四人类[34]68.7表3. 左：使用百分比准确度的多项选择测试的性能比较。我们报告了LSMDC（L）和MSR-VTT（M）两个数据集上的结果。右：影片填空任务的准确度比较（以百分比表示）。空白处的正确单词。测试集包括来自10，000个剪辑的30，000个示例（即每句约3个空格）。评估度量是预测准确度（即与GT匹配的预测单词的百分比）。4.2MSR-VTT-（RET/MC）数据集和任务MSR-VTT[2]是一个大规模的视频描述数据集。它收集了257个热门查询中的每个查询118个视频，并手动过滤到7，180个视频。从视频中，它选择了10 K个视频剪辑，41.2小时和200 K个剪辑-句子对。基于MSR-VTT数据集，我们新创建了两个视频-文本匹配任务：（i）多项选择测试和（ii）视频检索。的任务目标这些任务与LSMDC基准中的相应任务相同。为了收集这两个任务的注释，我们严格遵循协议在LSMDC数据集中使用的，如[12]中所述。多项选择测试：我们使用MSR-VTT的所有测试视频剪辑，为多项选择测试生成总共2，990个问题。对于每个测试视频，我们使用相关的GT标题的正确答案，而随机抽样的描述从其他测试数据的四个负面的选择。视频检索：对于检索，我们首先从MSR-VTT的测试集中抽取1,000对视频剪辑因此，检索任务是从1000个候选中找出对应于查询字幕的视频12Y. Yu，J.Kim和G. 金4.3定量结果表2-对于LSMDC实验，我们在已发表的论文和LSMDC 20172的官方排行榜中报告了结果。对于MSR-VTT实验，我们使用原作者提供的源代码运行LSMDC的一些参与者，包括SNUVL，EITanque，VSE-LSTM，ST-VQA-Sp.Tp和CT-SAN。我们自己实现了其他基线，除了Miech等人。这需要一个额外的个人跟踪器，而这个跟踪器是不可用的。我们的方法的其他变体将在下面的消融研究中详细讨论。表2也就是说，我们的方法的两个组成部分，JST和CHD，确实有助于更好地测量多模态序列之间的语义相似性比广泛的国家的最先进的模型，如多模态嵌入方法（VSE-LSTM），时空注意力为基础的QA模型（ST-VQA-Sp.Tp），和基于语言模型的QA推理（纯文本BLSTM）。令人鼓舞的是，JSFusion单一模型甚至优于亚军(LR/RL LSTM）。在基线之间，多模态低秩双线性注意网络（MLB）[45]有竞争力。我们的模型与（MLB）的主要区别是两方面的。首先，JSFusion将视频和句子嵌入到特征序列中，而（MLB）将句子表示为单个特征。其次，JSFusion使用self-gating来生成两个序列的所有成对嵌入之间的细粒度匹配，而（MLB）使用注意力来找到视觉特征空间中最适合句子向量的位置。此外，在所有实验中，JSFusion始终显示出比（MLB）更好的性能。消融研究。我们在JSFusion模型的不同变体上进行消融实验，结果见表2-3。作为一个天真的变种在我们的模型中，我们测试了一个简单的LSTM基线（LSTM-fusion），它只包含了在视频和语言LSTM编码器的一对最终状态上排列Hadamard乘积。也就是说，（LSTM-fusion）是我们的JSFusion模型，它既没有JST也没有CHD，这是我们模型的两个主要贡献。我们训练（LSTM-fusion）的方式与3.5节中JSFusion模型的训练方式相同。正如很容易预料的那样，（LSTM融合）的性能在所有任务中都比我们的JSFusion差得多。为了进一步验证每个组件的贡献，我们将模型中的关键组件删除或替换为更简单的组件。为了理解BLSTM编码的有效性，我们测试两个基线：（JSTfc），其用全连接层替换BLSTM;以及（JSTlstm），其用LSTM替换BLSTM。（JSTmax）和（JSTmean）表示我们使用最大池化和均值池化的变体，而不是CHD中的Convk卷积层。也就是说，它们使用固定的最大/平均池操作，而不是具有可学习的内核的卷积。这些比较表明，拟议的CHD是至关重要的，以改善2FIB：https://competitions.codalab.org/competitions/11691#results网站。MultiChoice：https://competitions.codalab.org/competitions/11491#results网站。一种视频VQA与检索的联合序列融合模型13（b）第（1）款月12纠正错误问：遇到某人真诚的目光时，某人会颤抖地呼吸。问：那个女人疑神疑鬼地皱着眉头。问：马厩里的一匹棕色的马。问：在碗里搅拌烘焙混合物，同时加入油。(c)(d)月5有人把目光移开，摇了摇头。有人落在他身上。③在观众席上，某人的山羊胡子朋友和某人与某人共坐一桌。有人打开大门，走了进来。有人紧紧地微笑着，有人摇着他的手。①有人走回电梯。有人伸出手，把她妹妹从座位上扶起来。③奶奶在眼镜后面瞪大了眼睛。(GT答）④在俱乐部。⑤某人把头靠在某人的肩膀上，皱着眉头头（GT答案）（e）不安地（f）第（1）款①有人在网上搜索的屏幕录音，配有印度口音②关于一个拥有超能力的年轻女孩的漫画③电视节目《先声夺人》中，一个小男孩对评委讲话。(GT答）④儿童电视节目中的场景⑤有一辆黑色轿车失控行驶①电子游戏玩家骑摩托车②一群女孩在谈论颜色③有一个穿黑衣服的人在监视器前讲话④有一位女士坐在食品三明治前添加配料到比萨饼（GT答案）(g)（h）他走进女校长的办公室，关上了门。.答案：门我们的结果：门空白句子：某人拍了一张照片。回答：闪光灯我们的结果：框架(i)（j）见图4。三个视频语言任务的定性示例：LSMDC（a）-（b）和MSR-VTT-RET（c）-（d）上的电影检索，LSMDC（e）-（f）和MSR-VTT-MC（g）-（h）上的多项选择，以及（i）-（j）LSMDC上的填空。左列示出了正确的示例，而右列示出了接近失误的示例。在（b），（d）中，我们显示了GT剪辑的检索排名（在红框中）。JSFusion在两个数据集上的所有任务上的性能都非常出色。我们还比较了我们的模型与（JSFusion-noattention），放弃了CHD的Conv门控操作。（ JSFusion-noattention ）显示了非平凡的性能下降，如 MC（acc）：4。1% p，4. 2% p，RET（R@10）：5。7% p，3. LSMDC和MSR的p<7%VTT，分别。最后，我们使用（JSFusion-noaudio）表示的无音频信息来测试我们的模型，这也比其他基线好得多，但只比我们的原始模型略差。4.4定性结果图4说明了我们的JSFusion算法的定性结果，每个任务都有正确的（左）和接近失败的（右）示例。在每一个场景中，我们展示了自然（一）14Y. Yu，J.Kim和G. 金的风景--一种视频VQA与检索的联合序列融合模型15语言查询和视频的采样帧我们提出地面实况（GT）和我们的预测（Ours）。电影检索。图图4（a）是我们的模型可以理解人类行为（如凝视）的一个例子。图4（b）示出了模型面部表情），并且简单地检索包含女性面部的视频。图4（c）显示，我们的模型成功地捕捉到了网络视频和3D动画中的马的特征，并通过关注单词stall正确地选择了排名最高的视频。在图4（d）中，虽然模型可以检索到用碗烹饪的相关视频，但它未能找到包含烘焙混合物的查询描述的答案视频。电影多项选择题。图4（e）提供了我们的模型的证据使用整个句子来计算匹配分数，因为该模型cessfully chooses105插入1的广告其共享相同的短语（例如，摇摇头）。图4（f）是聚焦于错误视频子序列的示例，其中我们的模型通过查看具有拥挤人群的子序列来选择单词俱乐部，但是答案与具有祖母的另一个子序列相关。图4（g）是一个例子，模型在一个phr中将w或d作为e。Choice4canbevery很有吸引力，因为它包含了孩子，电视和节目。但我们的模特成功-通过识别儿童电视节目和电视节目充分选择正确的答案意思不一样图4（h）表明我们的模型无法区分细节。电影填空在图4（i）中，模型通过使用句子和视频（例如，视频）的结构信息成功地找到了门是一个可能的词后关闭）。图4（j）是模型过多地聚焦于空白之后的单词图片而不是视觉信息的示例，并且因此选择了错误的答案框架图片而不是闪光图片。5结论本文提出了一种联合序列融合（JSFusion）模型来度量多模态序列数据之间的层次语义相似性。该模型的两个关键组件，联合语义张量（JST）和卷积层次解码器（CHD），很容易适应许多视频和语言任务，包括多模态匹配或视频问答。我们证明，我们的方法显着提高了性能的视频理解，通过自然语言描述。我们的方法在LSMDC的挑战轨道中实现了最佳性能，并且在MSR-VTT数据集上优于许多最先进的VQA和检索任务模型。展望未来，我们计划扩大JSFusion的适用性;由于我们的模型可用于任何多模态序列数据，我们可以探索不同模态的其他检索任务，如视频到语音或文本到人体运动。鸣谢。我们感谢Jisung Kim和Antoine Miech对模型的有益评论。本研究得到了韩国国家研究基金会（ NRF ）脑研究计划（2017M3C7A1047860）的支持。Gunhee Kim是通讯作者。16Y. Yu，J.Kim和G. 金引用1. Rohrbach，A.，Torabi，A.，Rohrbach，M.，Tandon，N.帕尔角Larochelle，H. Courville，A. Schiele，B.：电影描述。arXiv：1605.03705（2016）2. 徐，J，Mei T Yao，T.，Rui，Y.：MSR-VTT：一个用于桥接视频和语言的大型视频描述数据集。在：CVPR中。（2016年）3. Chen，D.L. Dolan，W.B.：为释义评估收集高度并行的数据。在：ACL。（2011年）4. Donahue ， J.，洛杉矶的亨德里克斯 Guadarrama ，S. ， Rohrbach ，M. ，Venugopalan，S.，Saenko，K.达雷尔，T.：用于视觉识别和描述的长期递归卷积网络。在：CVPR中。（2015年）5. Guadarrama，S.，Krishnamoorthy，N.Malkarnenkar，G.，Venugopalan，S.，穆尼河，Darrell，T.，Saenko，K.：YouTube2Text：使用语义层次和零触发识别来识别和描述任意活动In：ICCV.（二零一三年）6. Rohrbach，A.，Rohrbach，M.，Schiele，

下载后可阅读完整内容，剩余1页未读，立即下载