多模态视频提问的模态转移注意网络

97 浏览量更新于2023-10-25 收藏 1.58MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1多模态视频提问的模态转移注意网络金俊英酒店1*米努克马酒店1 TrungPham 1KyungsuKim 2Chang D. 韩国科学技术高等研究院（KAIST）2三星研究1{junyeong.kim，akalsdnr，trungpx，cdyoo}@www.example.com2www.example.comkaist.ac.kr@ks0326.kim samsung.com摘要本文考虑了一个网络称为模态转移注意力网络（MSAN）的多模态视频提问（MVQA）任务。MSAN将任务分解为两个子任务：（1）与问题相关的时间矩的定位时间定位所需的模态可能与答案预测所需的模态不同，并且这种转换模态的能力对于执行任务是必不可少的。为此，MSAN基于（1）时刻建议网络（MPN），它试图从每个模态中定位最合适的时间时刻，以及（2）异构推理网络（HRN），它使用两种模态上的注意力机制来预测答案。MSAN能够使用称为模态重要性调制（MIM）的组件为每个子任务的两种模态设置重要性权重实验结果表明，MSAN在TVQA基准测试数据集上的测试准确率达到71.13%，超过了以前的最先进水平进行广泛的消融研究和定性分析，以验证网络的各个组成部分。1. 介绍在计算机视觉和自然语言处理领域建立桥梁似乎是当前视觉语言任务的迫切需要。在结合这两个领域方面取得进展的各种努力包括[8，5，22，32]视觉基础，[31，30，36，25]图像/视频字幕，[10，2，35，37]在视频时刻检索，和* 这项工作部分得到了韩国政府（MSIT）资助的信息&通信技术规划&评估研究所（IITP）的资助（2017-0-01780，用于视频理解的事件识别/关系推理和学习知识系统的技术开发），部分得到了信息通信技术规划评估研究所的支持&&（IITP）补助金由韩国政府资助（MSIT）（第2019-0-01396，定义用于分析、检测、减轻AI模型和训练数据中偏差的框架）图1.多模态视频问答是一项具有挑战性的任务，因为它需要检索散布在多模态中的查询信息。对于复杂的问题，如“罗宾说我有半个小时的时间去录音室后做了什么？“，我们首先需要通过观察字幕来定位时刻，然后通过查看视频来推断答案。[3，33，1，11]在视觉问题回答。在众多任务中，VQA尤其具有挑战性，因为它需要使用图像和文本执行细粒度推理的能力这种需要推理的任务已经扩展到视频问答（ VideoQA ）和多模态视频问答（MVQA）。本文主要研究基于视频剪辑和字幕的长视频中场景的多项选择题的回答问题。此任务称为MVQA。与VQA或VideoQA相比，MVQA是更具挑战性的任务，因为它（1）需要定位与QA相关的时间时刻，以及（2）还需要对视频和字幕模态执行推理为了说明这一点，考虑图中的问题 1“罗宾说我有半个小时的时间去录音室后做了什么？”.为了准确地回答问题，QA系统将需要视频模态来解译Robin的动作以回答“Robin做了什么”，并且需要字幕模态来定位对应于“在他说......之后”的时间索引。.MVQA的第一个挑战是在所有有助于回答问题的异质模式中找到关键时刻。正如[14]所指出的，视频中回答问题所需的信息并不是均匀分布的1010610107穿过时间轴时间注意机制已被广泛采用[28，23，21，15，14]来检索与问题相关的信息。然而，观察到先前的时间注意力在关注视频和字幕的重要区域时通常太模糊或不准确，并且因此，可能在推断期间将其自身作为噪声除了定性评估预测注意力之外，到目前为止，没有定量度量来测量其准确性，这使得难以验证检索适当信息以回答问题的能力。MVQA的第二个挑战是能够在回答问题的异构模态上进行推理。MVQA的早期研究采用了早期融合框架[16，23]，该框架在预测管道的早期阶段将视频和字幕融合到联合嵌入空间最近的方法基于后期融合框架[15，19，14]，其独立地处理视频和字幕，然后将两个处理的输出组合用于最终预测。这两种极端的框架结构都有其优点和缺点。只有当样本空间被很好地填充使得联合嵌入空间被很好地定义时，早期融合框架对于矩定位以及对于执行用于答案预测的推理才是非常有用的;否则会出现极端的过拟合，并且一种模态将作为另一种模态上的噪声。后期融合框架通常不足以回答需要一种模态用于时间定位而另一种模态用于答案预测的问题，如示例图1所示。1.一、我们认为，这种模态转换能力是MVQA的一个重要组成部分，这是现有方法无法做到的。为了解决上述挑战，我们首先提出将MVQA问题分解为两个子任务：时间矩定位和答案预测。本文的主要动机来自于这样一个事实，即时间矩本地化所需的模态可能不同于答案预测所需的模态。为此，提出了具有以下两个组成部分的模态转移注意力网络（MSAN）：（1）矩建议网络（MPN）;（2）异质推理网络（HRN）。MPN局部化的时间感兴趣的时刻（MoI），这是需要回答的问题。这里，MoI候选被定义为视频和字幕，并且MPN学习每个MoI候选的时刻分数。基于局部化的MoI，HRN通过一种称为异构注意机制（HAM）的多模态注意机制来HAM由三个关注单位组成：对模态内交互进行建模的自我注意（SA）（即，词到词、对象到对象关系）、上下文到查询（C2Q）注意力，问题和上下文之间的模态间交互（即，视频和字幕），以及上下文到上下文（C2C）注意力，以对视频和字幕之间的模态间交互进行建模。MPN和HRN的结果进一步调整的通道重要性调制（MIM），这是一个额外的注意机制，通道。2. 相关作品2.1. 视觉问题回答视觉问题推理（VQA）[3]旨在推断关于图像中视觉内容的给定问题的正确答案。Yang等人 [33]提出了堆叠注意机制，该机制通过重复注意相关图像区域来执行多步推理，并在每个推理步骤后细化查询。Anderson等人。 [1]介绍了使用Faster R-CNN [27]在图像中提取对象提案，并且该问题用于处理提案。DFAF[11]利用自我和共同注意机制动态融合多模态表示与模态内和模态间信息流。视频问答（VideoQA）[38，12]是VQA在视频领域的自然扩展 Jang等人[12]提出了同时提取外观特征和运动特征作为视觉表征，并利用时空注意机制来关注视频中的时刻和帧中的区域。共记忆注意力[9]包含两个独立的记忆模块，每个模块用于外观和动作线索，并且每个记忆在产生注意力的同时引导另一个记忆Fan等人。 [7]提出了异质视频存储器来从外观和运动特征中捕获全局上下文，并提出了问题存储器来理解所讨论的高级语义。2.2. 多模态视频提问多模态视频问题分类（ MVQA）进一步扩展了VideoQA以利用除了视频模态之外的文本模态，诸如字幕。包含文本模态使得推理更具挑战性，因为回答问题所需的重要信息散布在视频和文本模态中。在MVQA研究的早期阶段Na等人 [23]提出了一种读写存储网络（RWMN），它利用基于CNN的存储器网络向存储器写入信息和从存储器读取由于视频传达的上下文与字幕完全不同，因此早期融合可能会在特征级产生噪声为此，最近的方法[15，14，19，13]采用后期融合方法来合并多种模态。双流网络[19]提供了一种简单的后期融合方法，其中包含一个bi-LSTM上下文编码器，然后是上下文到查询的注意机制。多任务学习（MTL）[13]进一步扩展了10108k=1t=1K图2.模态转移注意力网络（MSAN）的图示，它由以下组件组成：（a）利用BERT进行嵌入的视频和文本表示，（b）矩建议网络，以定位回答问题所需的感兴趣的时间矩，（c）异构推理网络，以基于定位的矩推断正确答案，以及（d）模态重要性调制，以根据其重要性不同地加权（b）和（c）的输出。双流网络，利用模态对齐和时间定位作为额外的任务。渐进注意力记忆网络（PAMN）[14]利用QA对来暂时注意视频和字幕记忆，并使用软注意力机制进行合并。3. 注意网络的形态转换图2示出了具有两个子网络的模态转移注意力网络（ MSAN ）的总体管道： MPN 和 HeterogeneousReasoning Network。MSAN的主要关注点来自以下观察：MVQA中的推理可以由两个连续的子任务完成：（1）时间矩定位，以及（2）答案预测，并且每个子任务可能比另一个更需要不同的模态。3.1. 输入表示视频表示。输入视频被表示为一组检测到的对象标签（即，视觉概念），如MVQA的其他最近方法[19，13，14]。具体而言，视频以3 FPS采样以形成帧集受VideoQA [12，7]的启发，我们还将运动线索纳入我们的框架中。据我们所知，虽然现有的MVQA方法都没有利用运动线索，但我们观察到运动线索可能有助于理解视频剪辑来回答这个问题。对于上面生成的每个视频镜头，使用在Kinetics基准[4]上预训练的I3D[4]来生成前5个动作标签，我们将其称为动作概念。视觉和动作概念被连接以表示相应的视频镜头。由于视觉和动作概念都在文本域中，它们以字幕的方式嵌入。文本表示。我们从BERT-Base模型的倒数第二层提取了视频中镜头、字幕中句子和QA对的768维单词级文本表示[6]。在训练期间固定提取的表示将问题和每个候选答案连接起来，形成五个假设{h k}5其中hk∈Rnhk×768，且nh 代表第k个假设中的单词数对于每个假设，MSAN学习预测其正确性得分并最大化正确答案的得分为了简单起见，我们在下面的部分中去掉了假设的下标k{vt}F其中F是帧的数量。然后更快的R-CNN [27]在Visual Genome benchmark [18]上进行了预训练，用于检测由对象标签及其属性（例如，灰色裤子、蓝色毛衣、棕色头发等）。We divide the input video into aset of video shots to re- move redundancy.当场景变化不快时，附近帧中的视觉概念可能是冗余的。我们将视频镜头定义为连续帧的集合，其视觉概念的交并（IoU）大于0.3.将输入视频按时间顺序划分为视频镜头，以去除重复的概念。与视频相反，我们不为字幕定义镜头，因为假设对话中几乎没有冗余。3.2. Moment Proposal Network矩建议网络（MPN）定位所需的时间感兴趣的时刻（MoI）回答的问题。针对时间对准的视频和字幕生成MoI候选。对于每个MoI候选，MPN产生两个矩分数，每个模态一个。模态重要性调制（MIM）调整每个模态的矩分数，以加权重要模态进行时间矩定位。MPN被训练为使用排名损失来最大化正MoI的分数。10109MMM3.2.1感兴趣时刻候选生成Fm和残差Fr：M我们使用预定义的时间对齐的视频和字幕生成N个MFa（m i，α）=mi+α，（4）Fm（m，α）=m·α，（5）滑动窗口每个MoI候选由一组视频镜头和字幕句子组成，这些镜头和字幕句子被展平并分别表示为v∈Rnv×768，s∈Rns×768。这里，nv是视频中视觉对象的数量，ns是字幕中的单词数量。我们定义了各种每个模态的滑动窗口的长度，使得MoI候选沿着时间轴均匀分布并且覆盖整个视频。如果MoI的IoU ≥ 0，则将MoI candi- date标记为阳性。5，并且其他MoI候选被标记为neg。是的。我们通过将BERT嵌入v，s，h通过一层双向LSTM网络来获得最终特征V，S，HMi iFr（m i，α） =m i+m i·α。（六）在推理过程中，MPN选择矩分数最大的MoI候选人进行答案预测。提出了跨模态排序损失来训练MPN，其鼓励正MoI候选的矩分数比负MoI候选的矩分数大一定幅度。我们建议将两种模态的矩分数相加并应用排名损失，而不是将排名损失应用于每个模态我们将此称为跨模态排序损失Lcmr，其表示如下：Σ3.2.2MoI候选时刻评分Lcmr=p+，p−∈pLR（p+，p−），（七）在N个MoI候选者中，MPN本地化相关MoI以回答问题。MPN首先为每个MoI候选产生视频/字幕时刻分数。我们首先利用上下文到查询（C2Q）注意力来联合建模每个上下文（即，视频、字幕）和假设，并得到VH和SH。有关C2Q注意事项的详细信息，请参见以下章节。 3.3.1. 然后，我们将级联特征[V;VH]和[S;SH]馈送到一层双向LSTM中，然后沿着时间轴进行最大池化。最后的视频和字幕功能fv，fs∈Rd通过共享分数回归器（FC（d）-ReLU-FC（1）-σ），其分别输出视频和字幕的视频/字幕时刻分数mv，ms3.2.3情态重要性调制为了将更多的权重放在用于节奏时刻定位的重要模态上，通过模态重要性调制（MIM）来调整时刻分数。重要模态的矩分数被提升，而对应模态的矩分数被抑制。用于调制的系数α通过将平均池化问题传递到具有S形激活的MLP（FC（d）-ReLU-FC（1））中以限制α的范围来获得。MIM的公式为：α=σ（MLP（q）），（1）m v ←FM（mv，α），（2）ms←FM（ms，1−α），（3）其中FM是调制函数。我们考虑三种类型的调制函数：加法Fa，乘法10110其中p+，p−分别表示正候选矩和负候选矩的得分，LR（x，y）=max（0，x-y+b）是边际为b的排序损失。在训练过程中，我们对相同数量的阳性样本进行采样，稳定学习的负面影响。MPN和其他方法之间的关系MPN背后的主要原理类似于区域投影网络（RPN）[27]，其广泛用于对象检测。RPN定义了一组沿空间维度的锚点，而MPN定义了一组沿时间维度的MoI候选。在这两种情况下，最终分类器都是经过训练的，它将检测到的特征作为输入，并输出一个对象类或正确答案的索引。然而，MPN是一种有条件的方法，因为行为的变化取决于输入的问题。由于MPN定位于特定的时间区域，因此可以将其视为一种硬注意机制。相对于软时间注意机制，这一直是主导机制在以前的工作中，我们认为，MPN是更直观，可衡量的公平的度量，和较少的噪音。3.3. 异构推理网络异构推理网络（HRN）采用MPN的局部化MoI并学习推断正确答案。HRN涉及参数有效的异构注意机制（HAM），以考虑异构通道之间和通道内的相互作用HAM通过在所有三个异构模态特征空间中表示视频或字幕中的每个元素来转换视频和字幕特征，从而实现丰富的特征交互。模态重要性调制（MIM）再次调制HRN的输出，以加权重要的模态进行答案预测。10111下面的数学V←A（V，V），S←A（S，S），H←A（H，H），（9）VH=A（V，H），SH=A（S，H），（10）V S=A（V，S），S V=A（S，V）.（十一）最后，我们沿着特征维度连接三个单元的输出，以构建丰富的上下文描述符，如下所述：V=[V;VH;VS]∈Rnv×3d，（12）S~为[S;SH;SV]∈Rns×3d.（十三）图3. 异质性注意机制三个注意单位;自我注意（SA）、上下文到查询（C2 Q）注意和上下文到上下文（C2C）注意。3.3.1异质注意机制引入异质注意机制（HAM），通过将一个模态中的特征表示为其他模态的特征的线性组合，来考虑模态间和模态内的相互作用HAM由三个基本注意单元组成：自注意（SA）、上下文到查询（C2Q）注意和上下文到上下文（C2C）注意，所有这些都基于点积注意。对于两组输入特征X∈Rm×d和Y∈Rn×d，点积注意力首先计算X和Y的每个元素的点积，以获得相似性矩阵。特里克斯然后对相似度矩阵的每一行应用softmax函数，以获得大小为m×n的注意力矩阵。关注特征XY通过将关注矩阵与Y相乘而获得：X Y=A（X，Y）= softmax（XY）Y。（八）我们可以把点积注意力解释为因此，V_i被表示为它自身在视频特征空间、假设特征空间和字幕特征空间中的级联，而S_i是字幕作为它自身在三个特征空间中的级联的表示：字幕、假设和视频。HAM与其他方法的关系VQA [11，34]的最新研究表明，同时学习视觉和文本模态的自我注意和共同注意会导致更准确的预测。灵感来自HAM在前人研究自我注意和共同注意的基础上此外，虽然先前的共同注意[34]更多地是强调重要特征，但HAM的注意单元执行从一个空间到另一个空间的特征转换。虽然多头注意力[29]在VQA中被广泛采用，但参数的数量对于MVQA来说太大了，其中视频和字幕中有超过几百个对象和单词3.3.2情态重要性调制与回答推理通过异构注意学习，输出视频每个元素xX在Y的特征空间中，功能V∈Rnv×3d与字幕特征S∈Rns×3d我用Y中的元素的线性组合相对于跨模态相似性来发送xi自注意（SA）单元是特征与自身的点积注意，用于定义通道内关系。SA单元表示为A（X，X），其中X是输入特征。C2Q和C2C注意单元考虑了通道间的关系，并定义为：A（C，Q）和A（C，C）。如图3所示，这三个注意力单元以模块化的方式组合在一起，定义了异质注意力机制。在HRN中，HAM将本地化视频V、字幕S、假设H作为输入，并输出两个变换后的上下文特征V、S。首先，每个特征由SA单元更新。然后，如上所述，通过C2Q单元将上下文变换到假设空间中，并且通过C2C单元将上下文变换到另一上下文空间中包含关于各种模式的丰富信息将视频V和子帧S的异构表示馈送到一层双向LSTM中，并沿着时间轴进行最大我们利用两层MLP（FC（d）-ReLU-FC（5））来获得每个视频和子帧的预测得分Rsv，Rss∈R5同样，预测得分Rmv和Rms通过模态重要性调制（MIM）进行调整：β=σ（MLP（q）），（14）ℓ=βv+（1−β）s，（15）其中，预测得分表示最终预测得分。我们使用标准10112交叉熵（CE）作为损失函数，在最终预测得分的基础上训练5路分类器。101134. 实验4.1. 数据集TVQA [19]数据集是最大的MVQA基准数据集。TVQA数据集包含针对从6个长期播放的电视节目中分割的短视频剪辑的人工注释的多项选择题-答案对：《生活大爆炸》、《老爸老妈浪漫史》、《老友记》、《实习医生格蕾》、《房子》、《城堡》。 TVQA中的问题是格式化的如下所示“[什么/如何/在哪里/为什么/...][何时/之前/之后]？"。问题的第二部分定位视频剪辑中的相关时刻，第一部分询问关于局部时刻的问题。每个问题包含5个候选答案，其中只有一个是正确的。TVQA中共有152.5K QA对和21，793个视频片段，分别从训练集的17，435个片段中划分为122，039个QA，从验证集的2.179个片段中划分为15，252个QA，从测试集的1，089个片段中划分为7，623个QA。4.2. 实验细节整个框架是用PyTorch [24]框架实现我们将批量大小设置为16。Adam优化器[17]用于优化初始学习率为0.0003的网络所有的实验都使用NVIDIA TITAN Xp（12GB内存）GPU和CUDA加速进行我们训练网络多达10个epoch，并在验证精度不增加2个epoch的情况下提前停止在所有实验中，严格遵循推荐的训练/验证/测试划分。4.3. 消融研究4.3.1矩建议网络的消融研究本节描述了矩建议网络（MPN）的定量消融研究。给定两个时间矩（s1，e1）、（s2，e2），交集大于并集（IoU）定义为：IoU = 1。0min（e1，e2）− max（s1，s2）.（16）max（e1，e2）−min（s1，s2）MPN的要点是修剪掉不相关的时间区域。因此，优选的是，局部MoI与地面实况重叠。为了反映这种偏好，提出了覆盖度量，其表示为：min（e1，e2）− max（s1，s2）表1.Moment Proposal Network（MPN）的缩写方法IOU盖添加剂w/o MIM0.250.32添加剂0.290.52乘性0.310.54残余0.300.54理想0.76 1表2. TVQA验证集最后一列显示了与MSAN完整模型相比的性能方法有效帐户∆MSAN w/o MPN69.89负百分之零点九MSAN w/ GT力矩71.62+0.83%MSAN w/o SA70.21-0.58%MSAN w/o C2C70.47-0.32%MSAN，不带MPN70.56-0.23%MSAN，不带MIM，在HRN70.35-0.44%MSAN70.79 0MPN的质量约为IoU的6.0%。即使是最好的时刻也不可能与地面事实完全重叠。因此，我们也引入了一定的安全裕度，在推理过程中扩展预测时刻的时间边界。这降低了IoU，但增加了覆盖范围，这有助于包括地面实况时刻。4.3.2模型变体的烧蚀研究表2总结了TVQA确认集上MSAN模型变体的消融分析，以确定拟定关键组件的有效性表2的第一块提供了MPN的消融结果与总体性能的关系。没有MPN（即使用完整的视频和字幕），准确率为69.89%。当给出地面真值MoI时，准确率为71.62%。使用MPN，总体准确率为70.79%，比MSAN w/o MPN高 0.90%表2的第二块提供了HRN的消融结果。如果没有SA，则性能下降0.58%。没有C2C的关注，有0.32%的业绩下降。表2的第三块提供了MIM上的消融结果。如果没有MPN上的MIM（即，MPN的矩得分未被调制），存在0.23%的性能Cov= 1。0∗e2−s2.（十七）下降没有HRN的MIM（即，将来自HRN的视频/字幕logit相加而不是加权），则存在Table 1 summarizes the quantitative ablation study on MPN.在没有模态重要性调制的情况下，由于跨模态排序损失，MPN仍然可以在一定程度上对MoI候选进行排序。增强三种调制功能性能下降0.44%因此，MIM提高了整体性能。MIM也有助于解释推理的模型，建议什么样的模态是更重要的检索的时刻。10114表3.与TVQA数据集上的最新方法进行比较。“img”是图像网络特征， “reg” 是区域特征， “vcpt” 是视觉概念特征，“acpt“是动作概念特征。方法Feat.视频Feat.测试Acc.双流[19]手套imgregvcpt63.4463.0666.46PAMN [14]手套img越南共产党64.6166.77MTL [13]手套img越南共产党64.5367.05ZGF舞台[20]-伯特-reg68.9070.23MSAN手套越南共产党68.18越南共产党70.92MSAN伯特阿拉伯联合酋长国68.57vcpt+acpt71.134.3.3与最新方法的比较表3总结了TVQA数据集上的实验结果。我们比较了最先进的方法双流[19]，PAMN [14]和MTL [13]以及向在线评估服务器报告的性能（即，ZGF和STAGE）。TVQA测试集的真实答案不可用，测试集评估只能通过在线评估服务器进行。MSAN的测试精度达到71.13%，比以前最好的方法高出4。08%，建立了新的最先进水平。为了与之前的方法进行公平的比较，我们还提供了使用ImageNet功能和GloVe [26]文本表示的MSAN结果。所提供的结果一致地表明，我们的MSAN通过实现68的性能优于当前最先进的方法。百分之十八虽然目前的MVQA方法都没有使用运动线索，但我们从视频剪辑中提取概念表示并提供使用它的结果。与具有vcpt的MSAN（70.92%）相比，结合运动线索提供了0.21%的每帧增益。4.4. 定性分析4.4.1按问题类型分列的绩效我们进一步调查MSAN的性能，通过比较的准确性方面的问题类型。图4显示了TVQA验证集上问题类型的性能比较我们根据5W1H（即，Who，What，Where，When，Why，How）。为了与现有的方法进行比较，我们首先尝试在双流、PAMN、MTL上重现结果，得到了以下验证性能：66.39%，66.38%，图4.在TVQA验证集上按问题类型划分的双流、PAMN、MTL和MSAN的性能。66.22%。对于大多数问题类型，MSAN显示出比其他人更好的性能特别是，MSAN在“何时”问题上达到了89%4.4.2按问题类型和所需方式本节按问题类型和每个问题所需的模态描述MSAN分析为此，我们在TVQA的验证集中标记了约5000个样本，根据哪种模态需要用于节奏矩定位以及哪种模态需要用于答案预测。例如，问题“菲比在集体拥抱后说了什么？” ”（《说文》：“言之，谓之言也。字幕）并指示“群抱”的时刻视频）。这样，有四种类型的标签：（S，S），（S，V），（V，S），（V，V）。图5.按MSAN的问题类型和所需模态分析从图5得出的一个观察结果是，对于需要用于答案预测的字幕的问题，即（S，V）和（S，S）组合的问题，准确度高，为86%，而基于视频的准确度，即（S，V）和（S，S）组合的问题，准确度高，为86%。（V，V）和（V，S）组合，较低，为60%。这一结果表明，我们的模型10115图6. Visualization on the inference path of MSAN (the last example is a failure case).每个示例提供MIM权重、局部化时间矩和地面实况（GT）时间矩。视频和字幕模态分别用橙色和黄色表示建议MSAN动态调制两种方式根据输入的问题。好吧，当答案在字幕中时，当答案在视频剪辑中时，它可以做4.4.3推理机制图6显示了MSAN的推理机制，其中选择了TVQA验证集的样本。每个例子都提供了MIM权值α、β、局部MoIp值、地面实况（GT）时间矩和最终答案选择。每个样本需要不同的模态组合（例如，在第一个例子中：视频本地化和字幕回答，在第三个例子：字幕本地化和视频回答，...）正确定位和回答。我们使用橙色和黄色来可视化视频和字幕模态的使用，并将其表示在本地化的时刻和关键句或视频镜头上。在第一个示例中，该模型利用视频模态来定位矩（α >0. 5），然后使用字幕模态来预测答案（β<0. （五）。因此，MSAN成功地用两组调制权重α和β调制时间矩定位器和答案预测器的输出。最后一个例子展示了一个失败案例。MSAN成功地定位了关键时刻，使用微妙的模态（α<0。（五）。然而，该模型无法预测正确答案（即，60），因为视觉概念和动作概念特征不足以捕捉视频中的文本线索。5. 结论在本文中，我们首先提出将MVQA分解为两个子任务：（1）与问题相关的时间矩的局部化，以及（2）基于局部化的矩的正确答案的预测。我们的基本动机是，时间定位所需的模态可能不同于答案预测。为此，建议的模态转移注意力网络（MSAN）包括每个子任务的两个主要组件：(1) 矩建议网络（MPN），用于发现特定的时间矩;（2）异构推理网络（HRN），用于使用多模态注意机制预测答案。我们还提出了模态重要性调制（ MIM ），使模态转移的 MPN 和 HRN 。 MSAN 在TVQA数据集上表现出最先进的性能，达到了71.13%的测试集准确率。10116引用[1] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在IEEE计算机视觉和模式识别会议，2018。一、二[2] Lisa Anne、Oliver Wang、Eli Shechtman、Josef Sivic、Trevor Darrell和Bryan Russell。用自然语言定位视频中的时刻。 IEEEInternational Conference on ComputerVision（ICCV），2017年。1[3] Stanislaw Antol ， Aishwarya Agrawal ， Jiasen Lu ，Margaret Mitchell，Dhruv Batra，C Lawrence Zitnick，and Devi Parikh.Vqa：可视化问答。IEEEInternationalConference on Computer Vision （ ICCV ）， 2015 年。一、二[4] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在IEEE计算机视觉和模式识别会议（CVPR）上，2017年7月。3[5] Chaorui Deng，Qi Wu，Qingyao Wu，Fuyuan Hu，FanLyu，and Mingkui Tan.通过累积注意力的视觉基础。IEEEInternational Confernce on Computer Vision andPattern Recognition（CVPR），2018年。1[6] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：用于语言理解的深度双向变换器的预训练。arXiv：1810.04805，2018。3[7] Chenyou Fan，Xiaofan Zhang，Shu Zhang，WenshengWang，Chi Zhang，and Heng Huang.异质记忆增强的多模态注意力模型在视频问答中的应用。在IEEE计算机视觉和模式识别会议（CVPR），2019年。二、三[8] Akira Fukui ， Dong Huk Park ， Daylen Yang ， AnnaRohrbach，Trevor Darrell，and Marcus Rohrbach.多模态紧凑双线性池化视觉问答和视觉接地。在2016年自然语言处理中的EM-pesticide方法会议（EMNLP）上。1[9] Jiyang Gao，Runzhou Ge，Kan Chen，and Ram Nevatia.用于视频问答的运动-外观共记忆网络。在IEEE计算机视觉和模式识别会议（CVPR），2018。2[10] Jiyang Gao ， Chen Sun ， Zhenheng Yang ， and RamNevatia. Tall ：通过语言查询的时间活动定位。IEEEInternationalConferenceonComputerVision（ICCV），2017年。1[11] Peng Gao，Zhengkai Jiang，ZhengYou，Pan Lu，StevenC. H. Hoi，Xiaogang Wang，and Hongsheng Li.视觉问答中通道内和通道间注意流的动态融合。在IEEE计算机视觉和模式识别会议（CVPR），2019。一、二、五[12] Yunseok Jang、Yale Song、Youngjae Yu、Youngjin Kim和 Gunhee Kim 。 Tgif-qa ： Toward spatio-temporalreasoning in visual question answering.在IEEE计算机视觉和模式识别会议上，2017年7月。二、三[13] Junyeong Kim ， Minuk Ma ， Kyungsu Kim ， SungjinKim，and Chang D.你。获得额外的监督，通过多-多模态视频问答的任务学习。在IJCNN，2019. 二、三、七[14] Junyeong Kim ， Minuk Ma ， Kyungsu Kim ， SungjinKim，and Chang D.你。电影故事问答的渐进式注意记忆网络。在 IEEE 计算机视觉和模式识别会议（CVPR），2019。一、二、三、七[15] Kyung-Min Kim，Seong-Ho Choi，and Beng-Tak Zhang.视频故事问答的多模态双注意记忆。在欧洲计算机视觉会议（ECCV），2018。2[16] Kyung-Min Kim ， Min-Oh Heo ， Seong-Ho Choi 和Byoung-Tak Zhang。深度故事：视频故事问答由深嵌入式记忆网络.在IJCAI，2017。2[17] 迪德里克·金马和吉米·巴。Adam：随机最佳化的方法。2014年国际学习表征会议（ICLR）。6[18] Ranjay Krishna ， Yuke Zhu ， Oliver Groth ， JustinJohnson，Kenji Hata，Joshua Kravitz，Stephanie Chen，Yannis Kalantidis，Li-Jia Li，David A Shamma，et al.可视化基因组：使用众包密集图像注释连接语言和视觉。International Journal of Computer Vision，123（1）：32-73，2017. 3[19] Jie Lei，Licheng Yu，Mohit Bansal，and Tamara L Berg.Tvqa：本地化的合成视频问答。在EMNLP，2018年。二三六七[20] 李玉，李玉，李玉. Berg和Mohit Bansal。Tvqa+：用于视频问题回答的时空基础。在arXiv：1904.11574，2019。7[21] Junwei Liang，Lu Jiang，Liangliang Cao，Li-Jia Li，andAlexander Hauptmann.视觉问答的视觉-文本焦点注意在IEEE计算机视觉和模式识别会议（CVPR），2018年。2[22] 刘大庆，张汉旺，冯武，查正军。学习组装用于视觉基础的神经模块树网络IEEEInternational Conference onComputer Vision（ICCV），2019年。1[23] Seil Na，Sangho Lee，Jisung Kim，and Gunhee Kim.一种用于电影故事理解的读写存储网络。IEEEInternationalConferenceonComputerVision（ICCV），2017年。2[24] Adam Paszke、Sam Gross、Soumith Chintala、GregoryChanan、Edward Yang、Zachary DeVito、Zeming Lin、Alban Desmaison、Luca Antiga和Adam Lerer。PyTorch中的自动区分。在NIPS Autodiff研讨会，2017年。6[25] Wenjie Pei，Jiyuan Zhang，Xiangrong Wang，Lei Ke，Xiaoyong Shen，and Yu-Wing Tai.用于视频字幕的记忆参与递归网络在IEEE计算机视觉和模式识别国际会议（CVPR），2019年。1[26] Jeffrey Pennington，Richard Socher，Christopher D.曼宁Glove：单词表示的全局向量。在EMNLP，2014年。7[27] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn：利用区域建议网络进行实时目标检测。IEEETransactionsonPatternAnalysisandMachineIntelligence，39（6）：1137-1149，2016。二、三、四10117[28] Makarand Tapaswi，Yukun Zhu，Rainer Stiefelhagen，Antonio Torralba ， Raquel Urtasun ， and Sanja Fidler.Movieqa：通过问答理解电影中的故事在IEEE计算机视觉和模式识别会议（CVPR），2016年。2[29] Ashish Vaswani， Noam Shazeer ， Niki Parmar ， JakobUszko-reit ， Llion Jones ， Aidan N Gomez ， ukaszKaiser，and Illia Polosukhin.注意力是你所需要的。在神经信息处理系统（NIPS）的进展，2017年。5[30] S. Venugopalan、M. Rohrbach，J.多纳韦

下载后可阅读完整内容，剩余1页未读，立即下载