视频故事问题记忆的多通道双注意

11 浏览量更新于2023-10-13 收藏 1.83MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

视频故事问题记忆的多通道双注意记忆Kyung-Min Kim1 [0000−0003−2426−2198]、Seong-HoChoi2[0000−0002−7553−6761]、Jin-Hwa Kim3 [0000−0002−0423−0415]，以及张炳德2、4[0000−0001−9890−0389]1Clova AI Research，NAVER Corp，Seongnam 13561，South Korea2计算机科学与工程，首尔国立大学，首尔08826，韩国3SK T-Brain，Seoul 04539，South Korea4Surromind Robotics，首尔08826，韩国{kmkim，shchoi，jhkim，btzhang}@ bi.snu.ac.kr抽象。我们提出了一个视频故事问答（QA）架构，多模态双注意记忆（MDAM）。关键的想法是使用具有后期融合的双重注意机制。MDAM使用自我注意来学习场景帧和字幕中的潜在概念。给定一个问题，MDAM对这些潜在概念使用第二注意力。在双注意过程之后执行多模态融合（后期融合）。使用该处理流水线，MDAM学习从完整视频内容的抽象中推断我们在PororoQA和MovieQA数据集上评估了MDAM，这些数据集分别对卡通视频和电影进行了大规模的QA注释。对于这两个数据集，MDAM实现了新的最先进的结果，与亚军模型相比具有显着的利润率。我们通过消融研究证实了双重注意机制结合晚期融合的最佳性能。我们还进行定性分析，通过可视化的推理机制MDAM。关键词：视频故事问答·视觉问答·注意机制·多模态学习·深度学习1介绍基于多模态内容输入的视频故事问答是人工智能领域的一个新兴课题。近年来，多模态深度学习研究已经成功地提高了静态图像[1，10，3，23]和视频的QA性能，以及支持字幕，脚本，情节提要等内容。[12、16、9、24]。请注意，视频故事QA比图像QA更具挑战性，原因如下。首尔国立大学和Surromind Robotics开展的工作⋆⋆Work carried out at Seoul National University2K.M. 金先生Choi，J.H.Kim和B.T.张Fig. 1. 多通道双重注意记忆（MDAM）的系统结构。1）在自我注意步骤，MDAM基于完整视频内容学习帧和字幕的潜在变量。2)对于一个给定的问题，MDAM注意到潜在的变量，以消除不必要的信息。3)在多模态融合步骤中，使用残差学习来融合问题、字幕和帧信息在整个推理过程中，多模态融合只发生一次。首先，视频故事QA涉及在时间序列上对齐的多模态内容该模型必须学习至少两个多模态内容和给定问题之间的联合表示，并且这些联合表示必须考虑时间序列上的动态模式。因此，使用多模态融合方法，如级联[15，8]或多模态双线性池[3，16，11]以及时间轴可能非常昂贵，并且有过拟合的风险。第二，视频故事QA要求从多模态内容中提取高层含义，即基于故事的一致性分割场景帧和字幕。然而，视频中的场景帧和字幕对于任务来说是这意味着人类可以成功地提取与多模态内容相关的潜变量，这些潜变量用于推理和推断的过程。这些潜变量以给定的问题为条件，以给出正确的答案。然而，之前关于视频故事QA的工作集中在对原始场景帧和字幕的理解上，而没有对潜在变量进行建模[12，16，9，24]。在这里，我们提出了一种用于视频故事QA任务的新模型，多模态双注意力记忆（MDAM），其使用ResNet [6]、GloVe [18]、位置编码[4]和外壳特征[19]来表示视频的场景帧和字幕。然后，使用多头注意力网络[22]，自我注意力计算场景帧和字幕的潜变量。对于给定的问题，视频故事问题记忆的多通道双注意记忆3MDAM关注潜变量的子集以将场景帧和字幕信息压缩到每个单个表示。在此之后，多模态融合在整个QA过程中仅发生一次，使用图像QA [10]中使用该学习管道由五个子模块组成：预处理、自我注意、问题注意、多模态融合和答案选择，答案选择是端到端学习的，由给定的注释监督。图1示出了抽象级别的所提出的模型。我们在大规模视频故事QA数据集MovieQA [20]和PororoQA [12]上评估了我们的模型实验结果表明，我们的模型的两个假设，1）最大限度地提高QA相关的信息，通过考虑高层次的视频内容的双注意过程，和2）多模态融合后，应应用高层次的潜在信息被捕获我们的早期过程。本文的主要贡献如下：1）提出了一种新的视频故事QA体系结构，该体系结构包含两个视频理解假设;双重注意和后期多模态融合，2）我们在PororoQA和MovieQA数据集上都实现了最先进的结果，并且我们的模型在提交时在MovieQA挑战赛中排名第一。2相关作品2.1视频故事QA数据集MovieQA旨在提供具有高语义多样性的电影数据集[20]。该数据集由408部电影和14，944个多项选择QA组成。数据集包括动作、奇幻、戏剧等各种体裁的故事;因此，QA模型必须能够处理各种故事。MovieQA的任务可以分为文本故事QA模式（8，482个QA对）和视频故事QA模式（6，462个QA对）。MovieQA Challenge为测试分割提供了评估服务器，以便参与者可以从该服务器评估其模型的性能。与MovieQA不同，PororoQA专注于连贯的故事情节[12]。由于这些视频来自卡通系列，因此它们提供了更有条理和更简单的故事情节。该数据集包含27，328个场景描述和8，834个多项选择问答对，包含171个儿童卡通视频系列Pororo的视频。2.2视频故事QA模型深度嵌入式存储网络（DEMN）[12]通过组合在公共线性嵌入空间中表示的场景描述和字幕，用生成的文本替换视频为了解决QA任务，DEMN评估所有问题-故事-答案三元组，并监督问题和故事句。读写存储器网络（RWMN）[16]使用紧凑双线性池[3]将单个字幕与相应的帧融合，并将其存储在存储器插槽中。考虑到每个存储器槽不是独立实体的事实，多层卷积神经网络用于表示时间上相邻的槽。我们的模型提供了一个更好的解决方案，以捕捉潜在的4K.M. 金先生Choi，J.H.Kim和B.T.张图二、视频故事QA任务的多模态双注意力记忆处理流程中的五个步骤（1）所有给定的输入都被嵌入为张量并存储到长期记忆（第3.1节）。（2）帧张量M自身和字幕张量M自身V C通过自注意机制具有框架和字幕的潜变量（第3.2节和图3）。(3)通过再次使用注意力，但带着一个问题，框架和标题被秩为1的张量v和c抽象出来（3.3节和图3）。（4）使用残差学习融合来计算融合的表示〇（第2010节）。3.4和图4）。(5)最后，使用元素操作选择正确的答案句子，然后使用softmax分类器（第3.5节）。与卷积方法相比，通过我们的双注意力机制为完整的存储器插槽请注意，我们的多模态融合被应用于潜变量，而不是在这项工作中的早期融合的高层次的推理过程。ST-VQA在视频的空间和时间特征上应用注意力机制[9]。与我们提出的模型不同，这些注意力只给予场景帧，因为ST-VQA的输入是没有字幕的GIF等短视频剪辑。ST-VQA将C3 D [21]和从视频剪辑的每个间隔提取的残差网络然后，该模型通过将空间特征馈送到LSTM中来计算间隔的时间特征给定一个问题，注意机制被应用到空间和时间特征。3多通道双注意记忆我们的目标是建立一个视频问答模型，通过注意机制最大限度地提高问答所需的信息，并融合多模态信息在一个高-视频故事问题记忆的多通道双注意记忆5抽象的层次。我们通过引入两个注意力层来解决这个问题，这两个注意力层利用了多头注意力函数[22]，然后是多模态融合的残差学习。图2示出了我们提出的模型的整体架构-用于视频故事QA的多模态双注意力记忆（MDAM）。MDAM由五个模块组成。1）第一个模块是预处理模块。包括给定视频的帧和字幕的所有输入2)在自我注意模块中，MDAM学习基于整个视频内容获得预处理帧和字幕这个过程模拟了一个人观看视频的全部内容，然后通过使用情节缓冲区自己回忆帧和字幕来理解故事[2]。3)在问题注意力模块中，MDAM学习给出注意力分数，以找到给定问题的相关潜在变量它可以被看作是一个认知过程，寻找点，包含答案信息的基础上理解的故事。4）在多模态融合模块中使用残差函数来融合这些精心细化的帧和字幕以及5)最后，答案选择模块通过在五个候选答案句子上产生置信度得分值来选择正确答案。3.1预处理模型的输入由以下各项组成：1）视频剪辑I clip = { V帧，C字幕}的帧序列V帧和2）视频剪辑I clip = { V帧，C字幕}的字幕序列C字幕，3）问题，以及4）五个候选答案句子的集合A答案=（a1，. . . ，a5）。V帧和C字幕由N个多个帧和字幕组成，V帧=（v1，. . . ，v N），C个字幕=（cl，. . . .，cN），其中ci是I剪辑的第i个对话字幕，并且vi是在字幕c i的开始时间和结束时间之间的中点处采样的图像帧。故事长度N的值根据本工作中使用的数据集而不同地固定。如果视频中字幕的数量小于N，则添加零填充。在4.2节中，我们将报告超参数的值。预处理模块的主要目的是将原始输入分别转换为张量格式MV∈RN×2048，MC∈RN×512，q∈R512，A∈R5×512，并将这些存储在长期存储器中，例如RAM.语言输入首先将C 个标题、问题、A个答案分别转换为词级张量表示，EC∈RN×M× 305，Eq∈RM×305，EA∈R5×M×305。M是表示句子中的最大单词数的固定值。与故事长度N一样，M的值取决于数据集。对于少于M个单词的句子，添加零填充。为了表示输入的每个单词，我们将300-D GloVe [18]与位置编码[4]和5-D外壳特征连接起来。手套和位置编码。句子中的每个单词都映射到GloVe嵌入，然后进行位置编码。ei=gi+pi∈R300（1）6K.M. 金先生Choi，J.H.Kim和B.T.张conv，w∈，w∈，wconvconvconvVC其中gi是GloVe嵌入，并且pi是位置索引i的可学习嵌入向量。Ei是输出嵌入。套管特征。正如现有的NLP研究[19]中所使用的那样，我们为每个单词表示添加以下5-D标志。1）大写标志。如果一个单词中至少有一个字符是大写的，则此标志2)一个数字标志，如果至少有一个字符是数字，则分配标签True3）一个人称代词标志，它捕获单词是否是人称代词，例如，她他他们4）一元语法标记和5）二元语法标记，其指示在问题和字幕之间或问题和候选答案句子之间是否存在一元语法/二元语法匹配套管特征被映射到五维零一向量。为了获得512-D句子级张量表示，我们应用共享的1-D卷积层，由具有不同窗口大小的滤波器组成we1∈RM×1×1×128e2convRM×2×1×128e3convRM×3×1×128e4conv ∈RM×4×1×128以及对字级张量表示EC，Eq，EA[13].M_C[i]= max（ReLU（conv（E_C[i，：，：]，[w_e]））e2转换e3转换e4转换））（2）q= max（ReLU（conv（Eq，[w∈1e2转换e3转换e4转换））（3）A[j]= max（ReLU（conv（EA[j，：，：]，[we1e2转换e3转换e4转换））（4）其中conv（input，filters）表示卷积层，ReLU是元素级ReLU激活[17]。最后，将标题、问句、答句的输出张量分别为MC∈ RN×512，q∈R512，A ∈ R5×512，并存入长时记忆。可视化输入152层剩余网络的2048-D大小的激活输出[6]用于将V帧表示为MV∈ RN×2048。它储存在长期记忆中。3.2Self-attention该模块导入帧张量MV∈RN×2048和字幕张量MC∈RN×512作为长期记忆的输入。输出是张量M自身∈RN×2048和M self∈ RN×512，它们通过使用注意层[22]具有输入的潜在值。该模块提供了单独的注意框架和字幕。图图3（a）示出了由L个相同层[22]组成的注意层的过程每层有两个子层; 1）多头自注意网络和2）逐点全连接前馈网络。在每个子层之间存在残余连接和层归一化Lattn层对每个层使用不同的学习参数。，w，w，w，w，w，w，w，w，w视频故事问题记忆的多通道双注意记忆7在该子层中，每个帧和字幕可以关注包括其自身在内的所有帧和字幕以获得潜在变量。它是通过从帧或字幕中选择一个枢轴并使用注意力机制更新它来实现图3（b）示出了详细的过程。有一个主元p∈Rdk，密钥集K∈RN×dk。K是前一层的输出或输入嵌入，即，第一层为MV，MCK的每个行向量是要计算其潜变量的密钥dk是密钥的维数，即，512或2048枢轴p选自K的N个键中的一个。首先，网络将枢轴p和N键投影到d投影维度h次，具有不同的可学习投影矩阵。然后，对于每个投影，使用通过枢轴p从基于点积的注意力获得的分数的加权平均值聚合N个键。头i=平均（DotProdAttn（pWp，KWK）∈Rdproj（5）我我T√其中DotProdAttn（x，Y）=tmax（xY/dproj）Y（6）的sh个输出被级联并再次投影以变成更新的k个值K~ [j，：]。K~ [j，：]=（head1··headh）Wo∈Rdk（7）当r∈ Rhd proj×dk时，n∈ Rhd p r o j× d k，n∈Rhdproj×dk 这是在Rix处对M的预jecti。网络将枢轴p从K [1，：]改变为K [N，：]，并重复等式（5）-（7）获得所述已更新的密钥集合K~。其中，w或k，w=h=8，dproj=64。在第4节中。3、根据不同的Lattn值，对模型性能进行改进。前馈网络全连接前馈网络对输入的每个点分别相同地应用两个线性变换和一个ReLU激活函数FFN（x）=ReLU（xW1+b1）W2+b2（8）其中X是输入的点。输入和输出的维度大小为dk，内层的维度大小为2dk。3.3注意问题这个模块取自我注意的最终输出张量Mself，MselfV C模块，并再次单独计算注意力分数，通过使用问题，第使用1-D卷积神经网络来聚合注意力信息，以分别为帧和字幕产生输出v∈R512和c∈R5128K.M. 金先生Choi，J.H.Kim和B.T.张∈与3.2节的自我注意力模块类似，该模块使用由图1所示的L到n 个3（a）[22]。然而，注意层不同于自我注意模块，因为它们内部具有多头注意图图3（c）示出了多头注意力网络。网络计算这是一个很好的例子通过将注意力施加到如等式11中的密钥集合K，（五）- （7），但是在计算等式（7）时存在三个差异（5）和（7）。1）The网络通过从长期记忆中读取来使用问题张量Q作为枢轴。2）网络计算注意力输出值而不求平均值，即，headi=DotProdAttn（…）∈RN×dproj.3）Eqn.（7）成为K~∈RN×dk 其中，k不是K的特定点。我们将注意力层的最终输出表示为Mq∈RN×2048和qRN×512CV. 然后，使用1-D卷积分别聚合这些函数神经网络和最大池化操作得到输出v∈R512且c∈R512。v = max（ReLU（conv（Mq，[wv1，wv2，wv3，wv4]））（9）V转换convconvconvc = max（ReLU（conv（Mq，[wc1，wc2，wc3，wc4]））（10）C转换convconvconv当我们重新开始时∈R2048×i×1×128表示长度为i的一维卷积滤波器，用于Mq，和wciconvE∈R512×i×1×128V表示针对Mq的长度为i的1-D卷积滤波器。ConvC图三. (a)由L和相同层组成的注意层的图示。自我注意模块使用多头自注意网络，而问题注意模块使用多头注意网络。(b)多头自注意网络从密钥集合K中选择枢轴p以获得更新的密钥集合K~。（c）该模拟数据库将使用该等问题来执行该工作up date dkeysetK~。M视频故事问题记忆的多通道双注意记忆9QQ图4.第一章具有两个深残差块的多模态融合模块的示意图最终输出〇是来自两个残差块H（2）（问题q-帧V）和H（2）（问题q-字幕c）的输出的级联，随后是线性投影和双曲正切激活。3.4多模混合在整个QA过程中，多模态融合在该模块中仅发生一次。该模块将细化帧v∈R512和字幕c∈R512与问题q∈R512融合以输出单个表示o∈R512。我们借用了多模态残差学习的思想[10]。图4示出了我们的多模态融合模块的示例。最终输出o是两个深度残差块的级联，随后是线性投影和双曲正切激活。深度残差块中的每一个由问题q和帧v或q和字幕c的逐元素乘法组成，具有残差连接。o=σ（Wo（H（Lm）（q，v）H（Lm）（q，c）（11）其中H（Lm）（q，x）=qYLml=1W（l）+ΣLml=1{F（l）（H（l−1），x）YMn=1+1W（n）}（12）F（l）（H，x）=σ（HW（l））⊙σ（σ（xW（l））W（l））（13）H12其中Lm是学习块的深度。在这项工作中，我们使用各种值的Lm是级联运算，σ是逐元素tanh激活，d⊙是元素w是多个执行。H（Lm）（q，v）和H（Lm）（q，c）使用不同的学习参数。3.5答案选择该模块学习使用多模态融合模块的输出之间的基本元素计算来选择正确的答案句子，10K.M. 金先生Choi，J.H.Kim和B.T.张从长时记忆中读取答案句子张量A∈R5×512，然后使用softmax分类器进行分类。OA=（otile⊙A）（otileA）（14）z= softmax（0AW+b）（15）其中otile∈R5×512是o的平铺张量。是逐元素加法。z∈R5是五个候选答案句子的置信度得分向量最后，我们用最高的标准值y=argmaxi∈[1， 5]（zi）来表示。4实验结果4.1数据集视频QA模式的MovieQA数据集由140部电影组成，具有6，462个QA对[20]。每个问题都有一组五个可能的答案;一个正确答案和四个不正确答案。QA模型应该只使用提供的视频剪辑和字幕为给定的问题选择正确的视频剪辑的平均长度为202秒。如果在一个问题中给出了多个视频剪辑，我们将它们链接到一个视频剪辑中。训练/验证/测试中的QA对数量分别为4318/886/1258。PororoQA数据集有171个事件，8，834个QA对[12]。像MovieQA一样，每个问题都有一个正确答案句子和四个错误答案句子。一集由平均长度为431秒的视频剪辑组成为了进行实验，我们将所有171集分成火车（103集）/val（34 ep.）/测试（34 ep.）集.训练/验证/测试中的QA对数量分别为5521/1955/1437。与MovieQA不同，PororoQA具有指示视频剪辑的哪些帧和字幕包含正确答案信息的支持事实标签和描述集。然而，由于我们的模型不使用任何支持事实标签或描述，因此我们在实验中不使用它们。4.2实验装置在预处理模块中，使用ImageNet预训练的ResNet-152 [6]来编码原始视觉输入V帧。手套[18]使用Gigaword 5和Wikipedia 2014进行预训练，由6B令牌组成，用于编码原始语言输入，C标题，问题和A答案。对于MovieQA，我们将每个视频剪辑的句子数量限制为40，即N=40，每句话的字数为60，即，M=60。对于PororoQA，我们使用N=20和M=100。这些是每个数据集中句子和单词的最大长度低于给定长度的句子或单词用零值填充我们防止零填充参与学习过程中的错误。视频故事问题记忆的多通道双注意记忆11除了预训练模型之外，可学习参数使用Xavier方法[5]初始化。批量大小为16，epoch的数量固定为160。Adam [14]用于优化，dropouts [7]用于正则化。对于学习率和损失函数，我们根据经验发现，通过以0.01的学习率使用地面实况独热向量zgt和预测z之间的交叉熵损失来预训练模型，然后以0.0001的学习率从最佳点再次使用分类铰链损失来学习模型，可以获得良好的参数。我们训练了20个不同的模型，并使用贝叶斯优化进行集成基线为了比较每个组件的性能，我们使用以下五种模型变体进行消融实验1）MDAM-MulFusion：在多模态融合模块中使用逐元素乘法而不是残差学习函数（使用自注意）来建立模型。2）MDAM-FrameOnly：仅使用场景帧的模型。3）MDAM-CaptOnly：仅使用标题的模型4）MDAM-EarlyFusion：在QA流水线中向前移动多模态融合模块的位置的模型;因此，信息流经过以下步骤：（i）预处理，（i i）多模式融合，（iii）自我关注，（iv）通过问题关注，（v）答案选择。通过融合MV和MC，帧和字幕的融合发生N次。5)MDAM-NoSelfAttn：没有自我关注模块的模型。此外，我们测量我们的MDAM和其他国家的最先进的模型之间的性能比较。4.3定量结果MovieQA我们报告我们的模型的验证和测试集的实验结果。我们使用验证集来设置我们的模型的超参数基于这些结果，我们参加了图五. MovieQA验证集上模型变体的结果。Lattn表示注意力网络中的层数。表示多模态融合模块中的学习块的深度。12K.M. 金先生Choi，J.H.Kim和B.T.张MovieQA挑战赛在提交论文时，我们的MDAM已经记录了41. 41%的最高准确率消融实验图5示出了烧蚀实验的结果图由于MovieQA数据集的小尺寸，整体性能模式显示出随着多模态融合模块中的注意层的深度L_attn和学习块的深度L_m增加而减小的趋势。通过模块比较性能结果，其中多模态融合在 QA 管道中早期发生的模型（ MDAM-EarlyFusion）显示出与仅使用视频输入的子部分的模型（MDAM-FrameOnly、MDAM-CaptOnly）几乎没有性能差异此外，即使多模态融合发生较晚，在使用简单的逐元素乘法作为融合方法（MDAM-MulFusion）的情况下，性能也会降低最后，具有通过完整视频内容的自我关注的MDAM在我们的变体模型中表现最好。这些结果表明，我们的假设的模型的有效性，1）最大限度地提高QA相关的信息，通过双注意模块和2）融合多模态信息在一个高层次的抽象。MovieQAChallengeMovieQA Challenge为测试集提供了一个单独的评价限于每72小时一次。表1显示了与MovieQA Challenge排行榜上发布的其他型号的性能比较。我们的MDAM（Lattn=2，Lm=1）达到41.41%，并显示2.38%的性能增益相比，亚军模型，分层内存网络，达到39.03%。在表2中，我们呈现了针对PororoQA数据集的MDAM的实验结果。比较模型是五种 MDAM 变体和现有的基线方法（ BoW V+Q ， W2VV+Q，LSTM V+Q），它们分别是：表 1. 与视频 QA 部分 MovieQAChallenge排行榜方法试验LSTM+CNN 23.45简单MLP 24.09LSTM+判别式CNN 24.32DEMN [12] 29.97MuSM 34.74RWMN [16] 36.25局部平均值池化网络38.16分层内存网络39.03MDAM（我们的）41.41表 2.[12] 中提出的其他模型与PororoQA测试集上的MDAM变体之间的性能比较方法试验BoW V+Q34.2W2V V+Q34.1LSTM V+Q41.1MDAM-MulFusion41.5MDAM-FrameOnly42.1MDAM-CaptOnly42.5MDAM-EarlyFusion46.1MDAM-NoSelfAttn47.3MDAM48.9视频故事问题记忆的多通道双注意记忆13见图6。具有和不具有自我注意模块的MDAM的MovieQA的定性结果（分别为MDAM和MDAM-NoSelfAttn）。成功案例为（a）、（b）和（c），失败案例为（d）。大胆的句子是真实的答案。绿色复选标记表示MDAM的预测。红十字符号指示MDM-NoSelfAttn的预测。在每种情况下，我们表明，哪些场景帧和字幕出席了一个给定的问题的模型14K.M. 金先生Choi，J.H.Kim和B.T.张不要使用像我们这样的描述和支持事实标签[12]。因此，MDAM实现了最先进的性能（48.9%），略微击败了现有方法。此外，我们观察到MDAM的两个假设在PororoQA中有效。自我关注模块帮助MDAM实现更好的性能（MDAM的48.9%与MDAM的48.9%相比）。47.3%（对于MDAM-NoSelfAttn），并且通过我们的模块的具有高级潜在信息的多模态融合比早期融合基线（对于MDAM-EarlyFusion为46.1%所有MDAM变体使用Lattn=2和Lm=1。4.4定性结果在本节中，我们直观地分析了MDAM的推理机制。图6示出了针对MovieQA的MDAM和没有自我注意的MDAM（MDAM-NoSelfAttn）的选定定性结果。图6（a）-（c）示出了MDAM的成功示例。给定一个问题，MDAM通过关注包含答案相关信息的帧和标题来正确地解决QA任务，这由问题关注模块执行请注意，模型分别处理帧和标题。它允许该模型集中在单一的模态一个接一个的自我注意力和注意力的问题模块的场景帧和字幕并行。图6（d）示出了MovieQA数据集的挑战性示例。给定的视频剪辑保持类似的场景，由角色进行长叙述。这些输入使得我们的MDAM在选择包含与给定问题相关的信息的关键帧和相应的字幕方面具有挑战性，即：时间间隔和手表的位置。5总结发言我们提出了一个视频故事QA架构，MDAM。MDAM的基本思想是提供双注意力结构，其通过学习视频输入的潜在变量来捕获完整视频内容的高级抽象，即，帧和字幕，然后，应用后期多模态融合以得到联合表示。我们通过在MovieQA和PororQA数据集上展示最先进的性能，经验证明了我们的架构选择是有效的在我们的消融研究中探索各种替代模型，我们推测以下两点：1）多模态融合在我们的QA管道中的位置对于提高性能是重要的。我们了解到，早期的融合模型容易过拟合，并且由于许多融合发生在时域上，训练损失在训练阶段期间波动。另一方面，后期融合模型的收敛速度更快，导致更好的性能结果。2)对于给定的问题，在自我关注之后关注视频内容是有用的。因为问题和场景帧是不同的模态，即，语言和视觉，如果两个隐藏表示没有充分对齐，则使用问题关注帧的子集往往会得到差的结果。我们的自我注意模块通过计算帧和字幕的潜变量来解决这个问题。视频故事问题记忆的多通道双注意记忆15引用1. 阿格拉瓦尔，A.，卢，J，Antol，S.，Mitchell，M. Zitnick，C.L.，Batra，D.，Parikh，D.：Vqa：可视化问答。In：ICCV（2015）2. Baddeley，A.：情节缓冲区：工作记忆的新组成部分TrendsinC〇 gnitiveSciencess4（11），4173. Fukui，A.，D.H.公园杨，D.，Rohrbach，A.，Darrell，T.，Rohrbach，M.：多模态紧凑双线性池的视觉问题回答和视觉接地。在：EMNLP（2016）4. Gehring，J.，Auli，M.，Grangier，D.，Yarats，D. Dauphin，Y.N.：卷积序列到序列学习。Arxiv电子版arXiv：1705.03122（2017）5. Glorot，X.，Bengio，Y.：了解训练深度前馈神经网络的困难02 TheDog（2010）6. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习。见：CVPR（2016）7. 辛顿通用电气 Srivastava ， N. ， Krizhevsky ， A. ，萨茨克弗岛Salakhutdinov，R.R.：通过防止特征检测器的协同适应来改进神经网络ArXiv eprint arXiv：1207.0580（2012）8. Jabri，A.，Joulin，A.，van der Maaten，L.：重新审视视觉问答基线。In：ECCV（2016）9. Jang，Y.S.，Song，Y.，Yu，Y.J.，Kim，Y.J.，Kim，G.H.：Tgif-qa：Toward spatio-temporal reasoning in visual question answering. 在： CVPR（2017）10. Kim ， J.H. ， Lee ， S.W. ，郭达辉许，作案手法，Kim ， J.H.， J.W.Zhang，B.T.：多模态残差学习在视觉品质分析中的应用。在：NIPS（2016）11. Kim，J.H.，恩，K.W.，Lim，W.S. Kim，J.H.，J.W. Zhang，B.T.：低秩双线性池的Hadamard乘积。In：ICLR（2017）12. Kim，K.M.，许，作案手法，Choi，S.H.，Zhang，B.T.：深故事视频故事问答深嵌入式记忆网络。在：IJCAI（2017）13. Kim，Y.：用于句子分类的卷积神经网络。在：EMNLP（2014）14. 金玛， D.P. ， Ba ， J. ： Adam ：随机最佳化的方法。载于： ICLR（2015）15. 卢，J，杨杰，Batra，D.，Parikh，D.：层次问题-图像共注意视觉问答。在：NIPS（2016）16. Na，S.I.，李S HKim，J.S.，Kim，G.H.：一种用于电影故事理解的读写存储器网络In：ICCV（2017）17. Nair，V.，Hinton，G.E.：整流线性单元改进受限玻尔兹曼机。In：ICML（2010）18. Pennington，J.索赫尔河Manning，C.D.：Glove：单词表示的全局向量在：EMNLP（2014）19. Reimers，N. Gurevych，I.：用于序列标记任务的深度lstm网络的最优超参数。在：EMNLP（2017）20. Tapaswi，M.，Zhu，Y.，Stiefeldam，R.，Torralba，A.，Urtasun河Fidler，S.：Movieqa：通过问答理解电影中的故事。见：CVPR（2016）21. Tran，D.，Bourdev，L.D.费格斯河托雷萨尼湖Paluri，M.：用三维卷积网络学习时空特征。In：ICCV（2015）22. Vaswani，A.，Shazeer，N.Parmar，N.Uszkoreit，J.，琼斯湖戈麦斯，A.N.，凯泽湖Polosukhin，I.：注意力是你所需要的In：NIPS（2017）16K.M. 金先生Choi，J.H.Kim和B.T.张23. 徐，H.，Saenko，K.：提问、出席并回答：探索视觉问答中问题引导的空间注意。In：ECCV（2016）24. Zeng，K.H.，Chen T.H. Chuang，C.Y.，Liao，Y.H.，尼布尔斯，JC孙，M.：杠杆老化的视频描述学习视频问答.在：AAAI（2017）

下载后可阅读完整内容，剩余1页未读，立即下载