异构记忆增强的多模态注意模型在视频提问中的应用

113 浏览量更新于2023-10-18 收藏 1.03MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11999异构记忆增强的多模态注意模型在视频提问中的应用范晨友1，张晓帆1，张舒1，王文生1，张驰1，黄恒1，2，张晓帆1JD.COM，2JD Digits电子jd.comchenyou.fan：jd.com摘要在本文中，我们提出了一种新的端到端可训练视频问题分类（VideoQA）框架，该框架具有三个主要组件：1）一种新的异构存储器，可以有效地从表观和运动特征中学习全局上下文信息; 2）重新设计的问题存储器，其帮助理解问题的复杂语义并突出被查询的主题;以及3）新的多模态融合层，其通过用自我更新的注意力关注相关的视觉和文本提示来执行多步推理。我们的VideoQA模型首先生成全局上下文感知的视觉和文本特征，分别通过当前输入与记忆内容的相互作用。在此基础上，对多模态视觉表征和文本表征进行注意融合，从而推断出正确答案。可以进行多个推理循环以迭代地细化多模态数据的注意力权重并改进QA对的最终表示实验结果表明，我们的方法在四个VideoQA基准数据集上实现了最先进的性能。1. 介绍视频问答（VideoQA）是学习一个模型，该模型可以推断与视频剪辑的视觉内容相关的人类语言中给定问题的正确答案。VideoQA是一项具有挑战性的计算机视觉任务，因为它需要首先理解一个复杂的文本问题，然后找出能够将语义与图像序列中的视觉内容最佳关联的答案最近的工作[2，3，10，11，15，29]提出了学习编码器-解码器结构的模型来解决VideoQA问题。一种常见的做法是使用基于LSTM的编码器将视频帧的CNN特征和问题词的嵌入编码到编码的视觉序列和词序列中。然后，通过将相关的视觉内容与问题相关联，进行适当的推理以产生正确的答案。例如，学习软权重图1.VideoQA是一项具有挑战性的任务，因为它要求模型将帧序列中的相关视觉内容与问句中查询对于一个复杂的问题，如模型需要理解驾驶员是被询问的人，然后定位驾驶员在汽车中驾驶的帧。帧的权重将有助于关注问题所查询的事件，而学习每个帧中的区域权重将有助于检测细节并定位查询中的主题。前一种方法旨在通过对编码图像序列应用时间注意力来找到相关的帧级细节[10，15，27]。后者旨在通过空间注意力找到区域级别的细节[2，12，26，29]。Jang等人[10]在视频特征的空间和时间维度上应用时空注意机制。他们还建议使用两种外观（例如，，VGG [22]）和运动特征（例如，，C3D [24]）以更好地表示视频帧。他们的做法是提前融合两个特征，并将级联特征馈送到视频编码器。但这种简单的特征集成导致次优结果。Gao等人[5]提出用更复杂的共记忆注意机制来取代早期的融合。他们使用一种类型的特征来处理另一种，并在最后阶段融合了这两种特征类型的最终然而，该方法同时，这种方法也会错过可以通过组合外观和......视频关注问：谁开车经过一个吸烟的搭车人（回答：女人）问题注意答：我们的型号：女人现有车型：man12000运动特征，而不是个体特征。现有方法不能识别正确注意力的主要原因是它们将特征整合和注意力学习步骤分开。为了解决这个具有挑战性的问题，我们提出了一种新的异构记忆整合外观和运动特征，同时学习时空注意。在我们的新记忆模型中，异质视觉特征作为多输入将共同学习注意力，以提高视频理解。另一方面，如果问题具有复杂的语义并且需要多个推理步骤，则VideoQA变得非常具有挑战性。最近的几项工作[5，15，32]试图用不同的内存网络来增强VideoQA [23，25，26]。Xu等[27]提出了使用传统的LSTM问题编码器加上额外的基于LSTM的存储器单元来存储和更新注意力，逐字地对视频特征进行时间注意力的然而，该模型很容易陷入不相关的局部语义，无法理解基于全局上下文的问题Zenget al.[32]和Gaoet al. [5]使用外部存储器（分别为存储器网络[23]和情节存储器[26]），通过将编码的问题表示与以当前存储器内容为条件的视频特征交互来进行多次推理迭代。然而，与许多其他工作类似[2，10，26]，这些方法中使用的问题表示仅是由LSTM（或GRU）编码的单个特征向量，其缺乏捕获问题中复杂语义的能力，如图所示1.一、因此，需要设计一个新的强大的模型来理解VideoQA中问题的复杂为了解决这个问题，我们设计了一种新的网络结构，将问题编码器和问题存储器集成在一起，可以相互增强。问题编码器学习问题的有意义表示，重新设计的问题存储器通过存储和更新全局上下文来理解复杂的语义和突出的查询主题。此外，我们还设计了一个多模态融合层，通过将相关视觉内容与关键问题词对齐，可以同时处理视觉和问题提示。在逐步细化对视频和问题表示的联合注意力并将其与学习的软模态权重融合之后，实现了从复杂语义中推断正确答案的多步推理。我们的主要贡献可归纳如下：1)我们引入了一个具有注意力读写操作的异构外部存储器模块，使得运动和外观特征被集成到注意力的协同学习中; 2）利用视觉特征和问题特征与记忆内容的交互作用来学习全局上下文感知表征; 3）设计了一个多模态融合层，能够有效地将视觉和问题融合在一起具有软分配的注意力权重的特征，并且还支持多步推理; 4）在四个VideoQA基准数据集上，我们提出的模型的性能优于现有的方法。2. 相关工作视觉问题推理（VQA）是一个新兴的研究领域[1Yang等[29]提出了将问题词编码为一个特征向量，作为查询向量，利用堆栈关注机制关注相关图像区域。他们的方法支持多步推理，通过重复查询过程，同时细化查询向量。Anderson等人[2]提出将问题与Faster R-CNN [20]生成的图像中的相关对象建议Xiong等[26]提出将图像和问题特征编码为事实，并通过注意机制关注相关事实以生成上下文向量。Ma等人[15]提出了一种共同注意模型，该模型不仅能同时注意到图像的相关区域，还能同时注意到他们还建议使用外部存储器[21]来记忆不常见的问答对。视频问答（VideoQA）是将视频问答扩展到视频领域，旨在推断正确答案给出视频剪辑的视觉内容的相关问题。视频问答被认为是一个具有挑战性的问题，因为对视频片段的推理通常需要记忆时间尺度上的上下文信息。已经提出了许多模型来解决这个问题[5，10，27，30许多工作[5，10，30]利用这两个运动（即。C3D[24]）和外观（即VGG [22]，ResNet [8]）特征，以更好地表示视频帧。类似于VQA方法中广泛使用的空间机制来找到相关图像区域，许多VideoQA工作[5，10，27，30]应用时间注意机制来关注视频剪辑的最相关帧。Jang [10]利用外观和运动特征作为视频表示，并应用空间和时间注意力机制来关注帧的相关区域和视频的帧Xu等[27]提出了在每个问题编码步骤中逐字地细化对帧特征的时间注意力Zenget al. [32]和Gaoetal.[5]提出使用外部存储器（分别为记忆网络[23]和情节记忆[26]），通过将编码的问题特征与当前记忆内容的它们的存储器设计保持当前步骤的单个隐藏状态特征，并通过时间步骤更新它然而，这很难建立长期的全局上下文，因为隐藏状态特征在每一步都被更新。他们的模型也不能同步外观和运动特征。12001视觉记忆问题记忆多模态融合⨁FMvMvMv0.2MqM qMQSL标签0.50.1运动网运动编码器⨁S0.2TA如何多...笑外观网外观编码器视频编码器LSTM问题编码器LSTMFC + SoftmaxLSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTMLSTM1Nq详情请参见图3详情请参见图4详情请参见图5图2.我们提出的VideoQA管道具有突出的视觉记忆，问题记忆和多模式融合层。我们的模型不同于现有的工作，1）我们设计了一个异构的外部存储器模块，具有attentional读写操作，可以有效地将运动和外观特征结合在一起; 2）我们允许视觉和问题特征与记忆内容的交互，以构建全局上下文感知特征; 3）我们设计了一个多模态融合层，可以有效地将视觉和外观特征结合在一起。具有柔和注意力的问题特征首先单独处理运动和外观特征，然后将它们融合到设计的存储模块中，这将在§3.2中讨论。在图2中，我们用蓝色突出显示了appearance编码器，用橙色突出显示了motion编码器。馈送到两个编码器中的输入是原始CNN mo。运动特征fm和外观特征fa，并且输出是编码的运动和外观特征，如om=[om，···，om]和oa=[oa，···，oa]。1Nv1Nv权重，并支持多步推理。3. 我们的方法在本节中，我们将介绍我们的VideoQA网络架构。我们首先介绍用于视频特征和问题嵌入的LSTM编码器然后详细介绍了问题存储器和异构视频存储器的设计。最后，我们展示了我们设计的多模态融合层如何处理相关的视觉和文本提示，并结合起来形成最终的答案表示。问题代表。每个VideoQA数据集都有一个预定义的词汇表，由前K个训练集中最常见的单词。每个数据集的词汇量K如表1所示。我们将每个单词表示为固定长度的可学习单词嵌入，并使用预训练的GloVe 300-D [19]功能进行初始化。我们把问题嵌入表示为一个序列的词嵌入fq=[fq，· · ·，fq]，其中Nq是问题中的词我们使用另一个LSTM编码器处理问题嵌入fq，如图中红色突出显示。2. 输出为编码文本要素oq=[oq，· · ·，oq]。3.1. 视频和文本表示视频表示。根据以前的工作[5，10，27]，我们对固定数量的帧（例如，，对于TGIF-QA为 35）然后，我们对视频帧应用预训练的ResNet [8]或VGG [22]网络来提取视频外观特征，并使用C3D [24]网络来提取运动特征。我们把外表1Nq3.2. 异构视频存储器运动和外观视觉特征对于识别与问题相关的对象和事件至关重要。由于这两种类型的特征是异质的，因此直接组合不能有效地特征为fa=[fa，· · ·，fa]，运动特征为学习视频内容。因此，我们提出了一种新的杂-1Nvfm=[fm，···，fm]，其中Nv是帧的数量的异构记忆整合运动和外观视觉1NvResNet、VGG和C3D特征的尺寸为2048，4096和4096。我们使用两个独立的LSTM编码器来特征，学习联合注意力，增强空间-时间推理时间ATT。12002不t我t，jtt t t t tt hh t-1rhh图3.我们设计了一种异构视觉存储器，它包含存储槽M，读写磁头α，β和三个隐态hm，ha和hv。与标准的外部存储器不同，我们的新的异质存储器接受多个输入，包括编码的运动特征om和外观特征oa，并使用多个写入头来确定要写入的内容。图3示出了存储器结构，该存储器结构由的存储器槽M=[m1，...，mS]和三个隐藏状态hm，ha和hv。我们使用两个隐藏状态hm和ha来确定运动和外观内容，写入存储器中，并使用单独的全局隐藏状态Hv来存储和输出集成了运动和外观信息的全局上下文感知特征。我们将内存插槽的数量表示为S，将sigmoid函数表示为σ。为了简单起见，我们将上标m和a结合起来，对运动和外观特征进行相同的操作。写操作。首先，我们定义了运动和ap-在第t次写入存储器的概率内容cm/a，图4.我们重新设计的问题存储器与内存插槽M，读和写头α，β，和隐藏状态hq。存储器M可以在每个时间步长通过以下方式更新：Mt=αt，1αmcm+αt，2αaca+αt，3Mt-1（4）其中，存储器槽的写入权重αm/a确定不同槽应该对当前输入给予多少关注，而模态权重不确定存储器应该更多关注来自当前输入的运动或外观特征（或者如果非信息，则不关注它们中的任何一个）中的哪一个。通过这种设计的记忆写入机制，我们能够整合运动和出现特征来学习联合注意，并在同步和全局上下文中记住该视频的不同时空模式。读取操作。下一步是从存储器M中执行attentional读取操作，以更新机密隐藏状态。我们将从存储器槽读取的权重定义为βt={βt，1，. . . ，βt，S}由下式给出：不b= vtanh（ Whv+（Wcm+Wca）+b）从输入和先前隐藏状态的tbhbt-1兆吨abtbM/aM/aM/aM/aM/aM/aβ=αexp（bt，i）（五）对于i = 1。. . Sct= σ（Wocot+Whcht-1+bc）（1）然后定义αm/a={α m/a，. . .，α m/a}作为写入t我Sj=1 exp（bt，j）t t，1t，Scm/a到S个存储器插槽中的每一个的权重由下式从内存中读取的内容是以下项的加权和：t每个内存插槽rt=Si=1 βt，i·mi，其中两个运动am/a=vtanh（Wm/acm/a+Wm/ahm/a+bm/a）和外观信息。tacatHAT- 1Aαm/a=α进出口（am/a）对于i =1。. . S（二）隐藏状态更新。最后一步是更新所有三个隐态ha、hm和hvt我Sj=1 进出口（am/a）hm/a =σ（Wm/a hm/a + Wm/aom/a（六）满足αm/a和为1。另外，我们还需要-thht-1哦，t+ W m/art+ b m/a）光栅运动和外观信息，并使一个统一的，将写入操作限制在当前内存中。因此，我们估计运动内容αm、外观rh hhv=σ（Wvhv+ Wvrt+ bv）（7）不a在所有时间步长hv的将内容αt和当前存储器内容Mt-1，由下式给出1：Nv读取头βt写头阿勒特M1读取向量M内容向量2Ca 不RtCm 不MS内存插槽MHa不HM不hv不omOa读取头写头βt阿勒读取向量内容向量内存插槽M输入tMSM2M1hq不CtRt......12003作为我们最后的视频特辑在下一节中，我们e= vtanh（ Whv+（ W cm+ W ca）+ b）他t-1met阿泰将讨论如何生成全局问题特征。在=（三）对于i = 1。. . 3第3.4节，我们将介绍如何交互视频和t我3j=1 exp（et，j）用于答案推理的问题特征。12004Dv不茨布q⨁DQ不CQ不vγ1γvNVγqγqNQ1hvhvNVhqQ1hNq视觉特征1问题特征Cv不Stst-1Xt不1：1：不一不B不我我Q不不3.3. 外部问题记忆现有的基于深度学习的VideoQA方法误解了复杂的问题，因为它们理解基于本地单词信息的问题例如，对于问题“谁开车经过一个吸烟的搭车人？“，传统的方法容易被本地词语所困，并且不能对被询问的人（驾驶员或吸烟者）产生正确的注意。为了解决这个具有挑战性的问题，我们引入了问题分类来学习上下文感知的文本知识。问题记忆可以存储连续的文本信息，学习词与词之间的关系，从整体的角度理解问题。我们重新设计了存储器网络[6，16，23，25]，以按需存储以前的输入，并使当前输入和存储器内容之间能够相互作用。如图4、内存模块由内存插槽组成M =[m1，m2，· · ·，mS]和存储器隐藏状态hq。与前面讨论的异构内存不同，隐藏状态Hq对于问题存储器是必需的。问题存储器的输入是编码文本。写操作。我们首先将在第t个时间步写入存储器的内容定义为cq，其由下式给出图5.多模态融合层。具有隐藏状态的LSTM控制器关注相关的视觉和问题特征，并将它们组合起来以更新当前状态。3.4. 多模态融合与推理在这一部分中，我们设计了一个专用的多模态融合和推理模块的视频问答，它可以照顾到多个模态，如视觉和文本的功能，然后进行多步推理与精细的注意每一个模态。我们的设计灵感来自Horiet al。[9]它建议通过组合不同的cq=σ（ Woc oq+ Whchq+bc）（8）视频和音频等功能类型。t t t-1作为从当前输入OQ的非线性映射和预-图5展示了我们设计的模块。隐藏的t视频存储器hv 和问题存储器hq的状态可见隐藏状态ht-1 到内容向量ct。那么vq我们定义写入所有内存插槽的权重αt={αt，1. 我...αt，S}，使得作为输入要素。核心部分是LSTM控制器，其隐藏状态表示为s。在每次推理过程中，控制器负责不同的部分a =v tanh（Wcq+ WhaQt-1 +ba）的视频特征和问题特征，exp（at，i）（九）注意机制，并结合被关注的特点αt，i=αSj=1 exp（at，j对于i =1。. . S）具有学习的模态权重φt，并最终更新其自身的隐藏状态st。满足αt和为1。然后每个内存插槽mi都是向上的-日期为mi= αt，ict+（1 − αt，i）mi，其中i =1。. . S.时间注意力。在第t次迭代推理时，我们首先通过注意以下步骤来生成两个内容向量Cv和Cq：t t读取操作。下一步是执行atten-视觉特征hv和问题特征的不同部分从存储器插槽M的常规读取操作。我们定义hq。时间注意力权重γvγq是归一化的注意力权重βt ={βt，1.βt，i.βt，S}从存储器插槽读取，使得不计算出1：Nv1：Nqv/Qv/qv/Qv/Qv/Qv/Qb =v tanh（Wcq+ WhbQt-1 +bb）g= vgtanh（Wg st-1+Vgh+ bg）βt，i=0exp（bt，i）对于i =1。. . S（十）γv/q=实验（gv/q）对于i = 1。. .Nv/q（十二）Sexp（b）Nv/qexp（gv/q）j=1t，jj=1j从存储器读取的内容rt是以下项的加权和：如图中虚线所示。5. 随后，每个存储器插槽内容rt=Si=1 βt，i·mi。内容向量cv/Q变换后的Dv/Q是HHCACB12005不隐藏状态更新。第t次迭代的最后一步是为了更新隐藏状态HQ为hq=σ（Woq+WR+Whq+ b）（11）cv/q=t tNv/q γv/qhv/q，dv/q=ReLU（Wv/qcv/q+bv/q）（13）toh t相对湿度hht-1hQTI ITi=1Dtd我们取所有时间步的记忆隐藏状态h1：N作为全局上下文感知问题特征，用于第3.4节中的推理。多模式融合。多模态注意力权重φ={φv，φq}是通过将先前的hid-t t tQ12006不不i=1我pC1K−1pden状态st-1与变换后的内容向量dv/qpv/q = vtanh（Wv/q st-1 + Vv/q dv/q + bv/q）3.6. 实现细节我们在PyTorch中实现了神经网络[18]。t pv/Qp p texp（pv/q）p（十四）并通过Adam solver [13]更新了网络参数，批量大小为32，固定学习率为10−3。视频和φt=tqexp（pv）+exp（p）问题编码器是具有隐藏大小的两层LSTMt t512内存插槽的尺寸D和隐藏状态融合后的知识xt由dv/q具有多模态注意力权重φv/q，使得是256。我们将视频和问题的内存大小分别设置为30和20，这大致等于最大值。xt=φv dv+φqdq（十五）视频的长度和问题。我们推出了t tt t t t多步推理。为了完成第t次推理迭代，LSTM控制器的隐藏状态st被更新为st= LSTM（xt，st-1）。这个推理过程迭代L次，我们设置L=3。L 的最佳选择在§4.4中讨论。最后一次迭代的隐藏状态sL是提取知识的最终表示。我们也如ST-VQA [10]中那样对编码视频特征om和oa应用标准时间注意力，并与sL级联以形成最终答案表示sA。3.5.答案生成我们现在讨论如何从答案特征sA生成正确答案。选择题是选择一个正确的答案出来K候选人我们将问题与每个候选答案，并转发每个QA对以获得最终答案特征{sA}K，在其上，我们使用线性层来提供所有候选答案s={sp，sn，· · ·，sn}的分数，其中sp是正确答案的分数，其余是K − 1个在训练过程中，我们最小化两两铰链损失之和[10]，肯定答案和每个否定答案定义为KΣ−1Lmc=max（0，m−（sp−sn））（16）i=1并对整个网络进行端到端训练。Lmc的直觉是，真实QA对的得分应该比任何负对大一个裕度m。在测试过程中，我们选择得分最高的答案作为预测。在表1中，我们列出了每个数据集的选择数量K开放式任务是从预先定义的大小为C的答案集中选择一个正确的单词作为答案。我们在sA上应用线性层和softmax函数来提供所有候选答案的概率，使得p =softmax（W <$sL+b），其中p∈RC。训练误差通过交叉熵损失来测量，使得ΣCLopen=− 1{y=c}log（pc）（17）c=1其中y是地面真值标签。通过最小化Lopen，我们可以端到端地训练整个网络在测试阶段，预测答案由c=arg max（p）提供。我们促进进一步研究的准则1.4. 实验与讨论我们在四个基准VideoQA数据集上评估了我们的模型，并与最先进的技术进行了比较。4.1. 数据集描述在表1中，我们显示了四个VideoQA基准数据集的统计数据以及他们原始论文中的实验设置，包括特征类型，词汇量，采样视频长度，视频数量，QA分割的大小，开放式问题的答案集大小，以及多项选择题的选项数量。TGIF-QA[10]包含与基于TGIF数据集[14]的72 KGIF图像TGIF-QA包括四种类型的问题：1）计算给定动作的出现次数; 2）识别重复的动作，其所获，其所获。3）识别在给定动作之前或之后发生的动作，以及4）回答基于图像的问题。MSVD-QA和MSRVTT-QA是由Xu等人提出的。[27]分别基于MSVD[4]和MSVTT [28]视频集。两个数据集中存在五种不同的问题类型，包括什么、谁、如何、何时和何地。这些问题是开放式的，预先定义的答案集大小为1000。YouTube 2 Text-QA[30]从YouTube 2 Text [7]视频描述语料库中收集了三种类型的问题（什么，谁和其他）。视频源也是MSVD [4]。开放式和多项选择题都存在。4.2. 结果分析TGIF-QA结果。表2总结了所有四个任务的实验结果（计数，动作，翻译，FrameQA）在TGIF-QA数据集上。我们与最先进的方法ST-VQA [10]和Co-Mem [5]进行了比较，并列出了原始论文中报告的对于重复计数任务（第1列），与ST-VQA和Co-Mem相比，我们的方法实现了最低的平均L24.28 4.10）。行动和Trans. 任务（列2，3），我们的方法通过将准确度从先前最佳的0.682和0.743提高到0.739和0.778，显著优于其他两个。对于FrameQA任务（第4列），我们的方法还1https://github.com/fanchenyou/HME-VideoQA12007数据集特征词汇大小视频长度视频数量问题数量Ans sizeMC编号火车Val测试[第10话]ResNet+C3D8,0003571,741125,47313,94125,75117465MSVD-QA [27]VGG+C3D4,000201,97030,9336,41513,1571000NA[27]第二十七话VGG+C3D8,0002010,000158,58112,27872,8211000NA[30]第三十话ResNet+C3D6,500401,97088,3506,4894,59010004表1.四个VideoQA基准数据集的数据集统计。从左到右的列指示数据集名称、特征类型、词汇大小、采样视频长度、视频数量、QA分割的大小、开放式问题的答案集大小（Ans size）以及多项选择题的选项数量（MC num）。问题类型[10] 与 ST-VQA [10] ， Co-Mem [5] 和 AMU [27] 在MSRVTT-QA上。与MSVD-QA的趋势类似，我们的方法在三个主要问题类型（什么，谁，如何）上优于其他模型，并达到了0.330的最佳整体准确度。表2.在TGIF-QA数据集上的实验结果。方法问题类型和实例数在所有三种方法中，获得了最好的精度0.538，比Co-Mem高4.7%。问题类型和实例数方法ST-VQA [10]0.1810.5000.8380.7240.2860.313表5.YouTube 2 Text-QA数据集上的实验结果美国[5]0.1960.4870.8160.7410.3170.317AMU [27]0.2060.4750.8350.7240.5360.320YouTube 2 Text-QA结果。在表 5, 我们比较我们的0.2240.5010.7300.7070.429表3.MSVD-QA数据集上的实验结果MSVD-QA结果。表3总结了MSVD-QA的实验结果。值得一提的是，在训练集和测试集中都存在高度的类不平衡，因为超过95%的问题是什么和谁，而不到5%的问题我们将它们的试验样品编号列在表中以供参考。我们将我们的模型与 ST-VQA [10]， Co-Mem [5]和MSVD-QA上当前最先进的AMU [27]进行我们在[27]中显示了AMU报告的准确性，同时我们容纳了ST-VQA的源代码并从头开始实现Co-Mem以获得它们的数字。我们的方法优于所有其他人在什么和谁的任务，并实现最好的总体准确率为0.337，这是5.3%，优于先验最好的（0.320）。尽管我们的方法在如何、何时和何地问题上表现略差，但由于类不平衡，关于实例的绝对数量，差异是最小的（40，2和3）。问题类型什么谁如何当哪里所有ST-VQA [10]0.2450.4120.7800.7650.3490.309美国[5]0.2390.4250.7410.6900.4290.320AMU [27]0.2620.4300.8020.7250.3000.325我们0.2650.4360.8240.7600.2860.330表4.MSRVTT-QA数据集上的实验结果MSRVTT-QA结果。在表4中，我们比较了我们的模型我们的方法使用YouTube 2 Text-QA数据集上最先进的r-ANL [30]。值得一提的是，r-ANL利用帧级属性作为额外的监督来增强学习，而我们的方法没有。对于多项选择题，我们的方法在所有三种类型的问题（什么，谁，其他）上都显著0.520）。对于开放式问题，我们的方法在哪些查询上优于r-ANL，在其他两种类型上略逊一筹。尽管如此，我们的方法实现了更好的总体准确度（0.301 vs. 0.262）。我们还报告了每类精度，以与[30]进行直接比较，并且我们的方法在这种评估方法中优于r-ANL。4.3. 注意力可视化和分析图1和6，我们展示了三个QA的例子，突出显示的关键帧和单词，这是我们设计的注意力机制。为了可视化的目的，我们从我们的模型中提取视觉和文本注意力权重（等式2）。12)用条形图把它们画出来颜色越深代表权重越大，表示对应的框或词相对重要.图1显示了我们提出的问题记忆理解复杂问题的有效性这个问句虽然用了另外一个关系从句来形容这个男的，但它的本意是在询问女司机。我们的模型专注于女性驾驶员在车里驾驶的正确帧，也专注于描述女性而不是男性的单词。[10]《明史》：“无所不察，无所不察。计数（损失）行动译FrameQAST-VQA [10]4.280.6080.6710.493美国[5]4.100.6820.7430.515我们4.020.7390.7780.538任务什么2489世界卫生组织2004年其他97所有平均值每班4590多选r-ANL [30]0.6330.3640.8450.520 0.614我们0.8310.7780.8660.8080.825什么谁如何当哪里所有84194552370582813427我们的0.2920.2870.7730.3010.45112008视觉注意......当推理迭代次数L从1增加到3时，推理迭代次数L为0.306，在L=5时趋于饱和（0.307），在L=7时下降到0.304。为了平衡性能和速度，问题注意问：一个人用菜刀把什么切成薄片（答案：洋葱）A：我们的型号：洋葱现有型号：土豆（一）我们在整个论文中选择L = 3进行实验。视觉注意......表6.不同结构的消融研究问题注意问：当一个男人叙述时，一个女人展示了什么（答案：练习）答：我们的型号：行使现有型号：杠铃（b）第（1）款不同的架构。为了了解我们设计的内存模块的有效性，我们比较了我们的模型的几个早期融合（EF）确实是ST-图6.我们的模型在两个QA样本上学习到的多模态注意力的可视化。高度关注的帧和单词被突出显示。识别被查询的人，因为其简单的时间注意力不能在长句的上下文中收集语义信息。在图6（a）中，我们提供了一个例子，显示我们的视频记忆正在学习给定问题的最突出的帧，而忽略其他帧。在视频的前半部分，由于光线条件和摄像头的视角，很难知道蔬菜是洋葱还是土豆。然而，我们的模型巧妙地注意到洋葱被切成碎片的帧，通过结合问题词“一个人切”和运动特征，从而从外观提示中图6（b）显示了一个典型的例子，说明联合学习运动和外观特征作为我们的异质记忆设计优于单独关注它们，如Co-Mem [5]。在这段视频中，一名女子正在健身房做瑜伽，背景是一个杠铃架。我们的方法成功地将女性与锻炼动作联系起来，而Co-Mem [5]错误地注意杠铃，并且未能利用运动信息，因为它们分别学习运动和外观注意力。4.4. 消融研究我们进行了两项消融研究，以调查我们模型中每个组件的有效性。我们首先研究了在设计的多模态融合层中，多少次迭代的推理是足够的。之后，我们对模型的变体进行比较，以评估每个组件的贡献。推理迭代。为了了解我们的VideoQA任务需要多少次推理迭代，我们测试了不同的数字并报告了它们的准确性。MSVD-QA数据集上的验证准确度从0.298提高VQA [10]在输入LSTM编码器之前，在早期阶段将原始视频外观和运动特征连接起来。后期融合（LF）模型使用两个独立的LSTM编码器来编码视频外观和运动特征，然后通过级联将它们融合。情景记忆（E-M）[26]是一种简化的记忆网络体现，我们将其用作视觉记忆来与我们的设计进行比较。视觉记忆（V-M）模型使用我们设计的异构视觉记忆（图2中的Mv问题记忆（Q-M）模型只使用我们重新设计的问题记忆（图2中的Mq最后，视觉和问题记忆（V+Q M）是我们的完整模型，它同时具有视觉和问题记忆。在表6中，我们观察到一致的趋势，即使用神经网络（例如，E-M，V-M，V+Q）来对齐和整合多模态视觉特征通常比简单地将它们连接起来（例如，EF，LF）。此外，我们设计的视觉记忆（V-M）已经显示出其优于情景记忆（E-M）和其他记忆类型的优势此外，同时使用视觉记忆和问题记忆（V+Q）可使成绩提高2- 7%。5. 结论在本文中，我们为VideoQA提出了一个新的端到端深度设计了一个新的多模态融合层，融合视觉和文本模态，并执行多步推理，逐渐细化的注意。在实证研究中，我们将模型产生的注意力可视化，以验证其理解复杂问题和关注显著视觉提示的能力。在四个基准VideoQA数据集上的实验结果表明，我们的新方法始终优于最先进的方法。数据集EFLFE-Mv-MQ-MV+QMSVD0.3130.3150.3180.3200.3150.337MSRVTT0.3090.3120.3190.3250.3210.33012009引用[1] Aishwarya Agrawal ， Jiasen Lu ， Stanislaw Antol ，Margaret Mitchell，C Lawrence Zitnick，Dhruv Batra和Devi Parikh。VQA：可视化问答。在ICCV，2015年。[2] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在CVPR，2018年。[3] Jacob Andreas，Marcus Rohrbach，Trevor Darrell，andDan Klein.神经模块网络。在CVPR，2016年。[4] David L Chen和William B Dolan。收集高度平行的数据进行释义评估。在ACL，2011年。[5] Jiyang Gao，Runzhou Ge，Kan Chen，and Ram Nevatia.用于视频问答的运动-外观共记忆网络。在CVPR，2018年。[6] Alex Graves Greg Wayne和Ivo Danihelka神经图灵机。在arXiv预印本arXiv：1410.5401，2014。[7] Sergio Guadarrama 、 Niveda Krishnamoorthy 、 GirishMalkar-nenkar 、 Subhashini Venugopalan 、 RaymondMooney、Trevor Darrell和Kate Saenko。Youtube2text：使用语义层次和零触发识别来识别和描述任意活动。InICCV，2013.[8] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。[9] Chiori Hori ， Takaaki Hori ， Teng-Yok Lee ， ZimingZhang，Bret Harsham，John R Hershey，Tim K Marks，and Kazuhiko Sumi.基于注意力的多模态视频描述融合。InICCV，2017.[10] Yunseok Jang、Yale Song、Youngjae Yu、Youngjin Kim和 Gunhee Kim 。 TGIF-QA ： Toward spatio-temporalreasoning in visual question answering. 在 CVPR ， 2017年。[11] Aniruddha Kembhavi，MinJoon Seo，Dustin Schwenk，Jonghyun Choi，Ali Farhadi，and Hannaneh Hajishirzi.多模态机器理解的教科书问题回答。在CVPR，2017年。[12] Jin-Hwa Kim、Sang-Woo Lee、Donghyun Kwak、Min-Oh Heo 、 Jeonghee Kim 、 Jung-Woo Ha 和 Byoung-TakZhang。用于视觉QA的多模态残差学习。在NIPS，2016年。[13] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。2015年，国际会议[14] Yuncheng Li ， Yale Song ， Liangliang Cao ， JoelTehrult，Larry Goldberg，Alejandro Jaimes，and JieboLuo. Tgif：一个新的数据集和动态gif描述基准。在CVPR，2016年。[15] Chao Ma，Chunhua Shen，Anthony Dick，Qi Wu，PengWang，Anton van den Hengel，and Ian Reid.记忆增强网络的视觉在CVPR，2018年。[16] 英马和何塞普林西比。神经记忆网络的分类。在arXiv预印本arXiv：1805.00327，2018。[17] 马特乌斯·马林诺夫斯基和马里奥·弗里茨一种基于不确定输入的真实世界场景问题回答的多世界方法。在NIPS，2014。[18] Adam Paszke ， Sam Gross ， Soumith Chintala ， GregoryChanan，Edward Yang，Zachary DeVito，Zeming Lin，Al-12010班·德梅森卢卡·安提加亚当·勒勒。pytorch中的自动微分。2017年。[19] 杰弗里·潘宁顿，理查德·索彻，克里斯托弗·曼宁.GloVe：用于单词表示的全局向量。在EMNLP，2014年。[20] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn：利用区域建议网络进行实时目标检测。2015年，在NIPS[21] AdamSantoro ， SergeyBartunov ， MatthewBotvinick，Daan Wierstra，and Timoth

下载后可阅读完整内容，剩余1页未读，立即下载