没有合适的资源?快使用搜索试试~ 我知道了~
电影故事问答中的渐进式注意记忆网络应用
1渐进式注意记忆网络在电影故事提问中的应用金俊英1金敏娥1金京洙2金成镇2张D. 韩国科学技术高等研究院(KAIST)2三星研究1{junyeong.kim,akalsdnr,cd yoo}@ kaist.ac.kr2{ks0326.kim sj9373.kim,samsung.com}@www.example.com摘要提出了一种用于电影故事问答的渐进式注意记忆网络(PAMN)。与VQA相比,电影故事QA在两个方面具有挑战性:(1)由于电影通常长于一个小时,因此很难精确定位与回答问题相关的时间部分为了克服这些挑战,PAMN涉及三个主要特征:(1)渐进注意机制,其利用来自问题和答案的线索来逐步修剪记忆中不相关的时间部分;(2)动态模态融合,其自适应地确定每个模态对回答当前问题的贡献;以及(3)信念校正回答方案,其连续地校正预测分数每个候选人的答案。在公开的基准数据集MovieQA和TVQA上的实验表明,每个功能都有助于我们的电影故事QA架构PAMN,并提高了性能,以实现最先进的结果。通过对PAMN推理机制的可视化,给出了定性分析.1. 介绍人类具有从不同的感官输入推断以回答涉及谁、什么、何时、何地、为什么和如何的5W和1H问题的先天认知能力,近年来,关于问答(QA)的研究成功地受 益 于 深 度 神 经 网 络 , 并 在 textQA [24 , 30] ,imageQA [2,3,19,31],videoQA [8,11,32,34]上表现出显着的性能改进。本文考虑电影故事QA [15,18,21,26,29],其旨在通过在观察时间对齐的视频和字幕后回答有关电影内容和故事情节的问题来共同理解视觉和语言电影这项研究得到了Samsung Research的支持。与VQA相比,故事QA在以下两个方面具有挑战性:(1)由于电影通常长于一个小时,所以精确定位与回答问题相关的时间部分是困难的,以及(2)它具有视频和字幕,其中不同的问题需要不同的模态来推断答案。电影故事QA的第一个挑战是它涉及可能超过一小时的长视频,这阻碍了精确定位所需的时间部分。回答这个问题所需的电影中的信息在时间轴上并不是均匀分布的。为了解决这个问题,记忆网络[24]已经在QA任务中被广泛接受[21,24,26,30]。注意机制被广泛地用于检索与问题相关的我们观察到记忆网络上的单步注意力[21,26]经常产生模糊的时间注意力图。电影故事问答的第二个挑战是它涉及视频和字幕,其中不同的问题需要不同的模态来推断答案。每一种模态都可能为不同的问题传递必要的信息,最佳地融合它们是一个重要的问题。 例如,在电影《印第安纳琼斯与最后的十字军东征》中,在电影开始时回答了这样一个问题:“印第对盗墓者做了什么?”“将需要视频模式而不是字幕模式,而问题是“警卫如何设法活了700年?”将需要字幕模式。现有的多模态融合方法[7,14,15]仅关注模态之间的丰富交互建模。然而,这些方法是问题不可知的,因为融合过程不以问题为条件。为了解决上述问题,本文提出了渐进式注意记忆网络(PAMN)的电影故事问答。PAMN包含三个主要特征:(1)渐进注意机制,用于精确定位所需的时间部分,(2)动态模态融合,用于自适应地融合以问题为条件的模态,(3)信念修正回答方案渐进式注意机制利用了问题和83378338选择为每个分类器修剪掉不相关的时间部分。在迭代地获取问题和答案以产生时间注意的同时,记忆被逐渐更新以积累线索来定位用于回答问题的相关时间部分。与堆叠注意力[6,31]相比,渐进式注意力考虑多个来源(例如,Q和A)和多个目标(例如,视频和字幕存储器)。动态模态融合通过自适应地确定每个模态的贡献来聚合来自每个存储器的输出在当前问题的条件下,通过软注意机制获得贡献通过双线性运算融合多模态数据[4,7,14]通常需要大量计算或大量参数。动态模态融合通过丢弃不必要的模态中的无用信息,有效地将视频和字幕模态结合起来。信念修正回答方案依次修正每个候选答案的预测得分当人类解决问题时,他们通常会以迭代的方式多次阅读内容,问题和答案[10]。这个观察是由信念校正回答方案建模的预测分数(logits),本文指的是一种信念,同样可能初始化,并连续校正与现有的回答方案[15,21,29],使用单步回答方案。本文的主要贡献概括如下.(1)本文提出了一个电影故事问答体系结构PAMN,它解决了电影故事问答的主要挑战,具有三个特点:渐进式注意、动态情态融合和信念修正回答方案。(2)PAMN在MovieQA数据集上实现了最先进的结果。定量和定性结果都显示了PAMN的优点和潜力。2. 相关工作2.1. 视觉问题回答尽管历史较短,但imageQA拥有大量数据集,包括VQA [3]、COCO-QA [23]和Vi-sual 7 W [35]。注意机制被广泛用于定位与问题相关的视觉线索。堆叠注意力网络(SAN)[31]利用堆叠注意力模块多次查询图像以逐步推断答案。双重注意力网络(DAN)[22]联合利用视觉和文本注意力机制来定位图像和问题中的关键信息。近年来,双线性运算在图像质量分析中的应用显示出良好的多模态紧凑双线性池(MCB)[7]利用双线性运算在imageQA中融合图像和问题特征。为了降低计算复杂度,MCB使用基于采样的近似。为了进一步降低特征维数,多模态低秩双线性注意力网络(MLB)[14]利用Hadamard积在公共空间与两个低秩投影矩阵。多模态Tucker融合[4]利用Tucker分解[27]来有效地参数化视觉和文本表示之间的双线性交互。VideoQA是imageQA的自然扩展,因为视频可以被视为图像的时间扩展。大规模的视频QA基准测试,如TGIF-QA [11]和“填空”[34],推动了视频QA的研究。时空VQA(ST-VQA)[11]生成空间和时间注意力,以分别定位帧中的哪些区域和视频中的哪些帧。 Yu等人[32]提出了联合序列融合(JSFusion),以衡量视频和语言之间的语义相似性。JS-Fusion利用分层注意机制来学习模态之间的匹配表示模式。2.2. 电影故事问答视频问答的一个最近的方向是除了视频模态之外还利用诸如字幕的文本模态来理解故事。为此,各种视频故事QA基准,如PororoQA [16],MeMexQA [12],TVQA[17]”[26]《明史》卷126 MovieQA提供了电影片段、字幕和其他各种文本描述,许多研究都致力于此.Tapaswi等人 [26]将电影分为多个子镜头,并利用内存网络(MemN2N)[24]将视频和字幕特征存储到内存插槽中。深度嵌入式记忆网络(DEMN)[16]使用潜在嵌入空间从场景对话的联合流中重建故事,并检索与问题相关的信息。Na等人 [21]提出了读写存储器网络(RWMN),其是基于CNN的存储器网络,其中视频和字幕特征首先使用双线性操作融合,然后写/读网络分别存储/检索信息。Liang 等 人 。 [18] 提 出 了 焦 点 视 觉 - 文 本 注 意 力(FVTA),它利用应用于三维张量的层次注意力来定位证据图像和文本片段。分层内存网络(LMN)[29]使用静态字内存模块和动态字幕内存模块来学习帧级和剪辑级表示。分层形成的电影表示对单词和帧之间的对应关系以及句子和帧之间的时间对齐进行编码。多模态双注意力记忆(MDAM)[15]利用多头注意力机制[28]和问题注意力来学习多模态内容的潜在概念。在注意过程之后进行一次多模态融合。与现有的电影故事QA体系结构相比,采用单步推理,PAMN提供了多步推理方法来定位问题,答案和电影内容中的必要信息。8339i=1i=1i=1图1.拟议PAMN的图示PAMN的管道如下。(a)问题和候选答案嵌入到公共空间中。视频和字幕被嵌入到双存储器中,为每种模式保存独立的存储器。(b)渐进式注意机制精确定位与回答问题相关的时间部分为了推断正确答案,(c)动态模态融合,其通过考虑每个模态的贡献来自适应地整合每个存储器的输出。(d)信念修正回答方案从等可能初始信念出发,依次修正每个答案的信念。3. 渐进式注意记忆网络表示{(vi,si)}T在整部电影中。 每个ele-本 节 介 绍 所 提 出 的 渐 进 式 衰 减 内 存 网 络(PAMN)。图1示出了PAMN的总体架构,其充分利用了不同的信息源(视频、字幕、问题和候选答案)来回答问题。PAMN的管道如下。首先,视频和字幕被嵌入到双存储器中,如图所示1(a)拥有独立记忆字幕表示S1的片段对应于对话框从时间对准的视频剪辑中提取字符的句子和视频表示Vi电影的全部句子的数量表示为T。关于提取视觉和文本特征的详细说明见第4.2节。 目标是最大化以下可能性:对于每一种模式。然后,渐进式注意机制精确地定位与回答问题相关的时间部分,如图1所示。第1段(b)分段。为了得出正确的答案,你-argmaxθΣlogP(y|v,s,q,a; θ),(1)D图12中的动力学模态融合。图1(c)通过考虑每个模态的贡献来自适应地整合每个存储器的输出。信念校正回答方案从如图1所示的等可能初始化信念连续地校正每个答案的信念。第1段(d)分段。3.1. 问题设置问题的正式定义如下。PAMN的输入是(1)问题表示q∈R300,(2)五个候选答案表示{ai}5∈R5×300,(3)时间对齐的视频(v)和字幕(s),其中θ表示可学习的模型参数,D表示数据集,y表示正确答案。3.2. 双内存嵌入如图所示1(a),首先将输入映射到嵌入空间。问题表示q和候选答案表示{ai}5被嵌入到一个公共空间的权重共享的线性全连通(FC)层参数Wug∈R300×d和bug∈Rd,得到问题嵌入u∈Rd和答案嵌入-dingg∈R5×d,其中d表示记忆维数.8340亩 ,αMgMgMgMgMgMg亩MgMgMgMg亩亩视频表示v和字幕表示s被独立地嵌入以生成视频存储器Mv和字幕存储器Ms。这种双重记忆结构能够精确定位每种模态的不同时间部分为了反映相邻视频剪辑通常具有强相关性的观察结果,我们利用平均池化(Avg.Pool)层将相邻表示存储到单个内存插槽中。作 为 双 存 储 器 嵌 入 的 第 一 步 , 前 馈 神 经 网 络(FFN)由两个线性FC层组成,其间具有ReLU非线性,被应用于嵌入视频和字幕表示。这是在EV-其中,αvs∈RN分别表示Mv,Ms用于线性FC层的可学习参数由WMu、bMu表示,←指示更新操作,并且m表示在适当轴上广播的逐元素乘法渐进式注意机制的第二步是通过回答的时间注意。该步骤类似于第一步骤,除了它利用答案嵌入g来参与更新的双重存储器Mv,Ms:v=softmax ( gMv ) ,( 9)S=softmax ( gMs ) ,(10)每个元素v和s独立。然后,应用平均池层来一起对相邻表示进行建模,形成视频存储器Mv和字幕存储器Mv←(αvMs←(αsWv)Wv(Ms)Wsv,(11)s,(12)Ms,即双存储器:其中αvαs∈R5×N表示时间属性,FFN(x)=ReLU(xW1+b1)W2+ b2,(2)Mv=平均样本池(FFN(v);θ,θ),(3)双存储器和Mv,Ms∈R5×N×d的权值分别表示更新后的视频和字幕存储器。p的多跳扩展。如上所述,亲Ms=平均池(FFN (s);θp,θs),(4)其中θp和θs表示池的大小和步幅x表示每个输入,W,b表示权重和前馈神经网络的偏差最后,生成的视频和字幕存储器为Mv,Ms∈RN×d,其中N=<$T/θs<$。3.3. 渐进式注意力机制图中的渐进式注意机制1(b)以对偶记忆Mv、Ms、问题嵌入u和答案嵌入g为输入,逐步参与和更新对偶记忆.在迭代地获取用于时间注意生成的问题和答案的同时,记忆被逐步更新以积累线索来定位用于回答问题的相关时间部分。我们观察到,记忆网络上的单步时间注意[26,21]通常会产生模糊的注意地图。渐进式注意机制的多步骤性质使得能够产生更清晰的注意分配。内存中不必要的信息在每次迭代时都会被过滤掉渐进式注意机制的第一步是通过问题嵌入u实现时间注意。注意力权重通过计算每个存储槽和问题嵌入u之间的余弦相似度来获得,如等式5、6所示。双重存储器乘以注意力权重,然后是线性FC层,如等式7、8所示进行对于视频存储器Mv和字幕存储器Ms,注意独立地操作:v=softmax ( uMv ) ,(5)S=softmax ( uMs ) ,(6)αα+B+Bαα8341亩亩亩渐进注意机制对每个注意步骤只参与一次双重记忆在这种情况下,双重存储器可能包含许多不相关的信息,并且缺乏查询复杂语义以回答问题的能力。渐进式注意力可以自然地扩展到利用多跳[24]进行抽象概念的细粒度提取和高级语义的推理。不同于记忆网络[24],其利用第k跳的输出ok和查询uk的和作为查询。对于下一跳,对于第k跳,我们使用相同的问题将u嵌入更新的对偶存储器M(k)每一个注意步骤在方程。5 -8、9-12分别重复hμ、h μg次。每个参与和更新操作都可以表示为如:α(k) =softmax(xM(k−1)<$),(13)M(k) ←(α(k)<$M(k−1))W(k)+b(k),(14)其中省略了对应于每个等式的下标和上标以避免重复,并且x表示渐进注意的每个步骤的u或g。3.4. 动态模态融合动态模态融合图。1(c)在每个渐进注意步骤结束时将双重记忆聚合到融合输出o中。不同的问题需要不同的模态来推断答案。考虑一下这个问题:“当罗宾、莉莉、马歇尔和泰德在互相交谈时,桌子上的饮料瓶是什么?”. 在这种情况下,视频模态将比字幕模态更重要。类似于模态注意力[9,13],动态模态融合是基于软注意力的算法,其确定每个模态对回答问题的贡献。Mv←(αvWv)Wv+bv,(7)v s亩Ms←(αs亩(Ms)Ws亩s,(8)给定双记忆M,M,动态模态融合首先沿时间轴对每个存储器求和并计算+B8342与问题嵌入u的余弦相似度来计算注意力分数。ΣNom=Mm,(15)n=1然后,对于Mu和Mg校正,考虑第一和第二渐进注意步骤的输出oMu和oMg。同样,计算答案嵌入g之间的相似度:αDMF=softmax(u[ov;os]),(16)MBMu=oMug,(22)BMg,i = oMg,igMg。(二十三)其中m表示每个模态v或s,o代表i每个存储器的输出,N表示双记忆,αDMF表示注意力权重。最后,通过注意力权重和记忆输出之间的加权求和来计算融合输出oΣ最后,信念被修正以推断正确答案:B←B+βMuBMu,(24)B←B+βMgBMg,(25)MDMFM嗯。(十七)其中,校正权重βMu、βMg是超参数。学习的注意权重可以解释为每个通道对回答问题的贡献或重要性。通过调整融合输出中各模态的比例,动态模态融合通过丢弃不必要的模态信息来实现稳定的学习3.5. 信念矫正计划图中的信念校正回答方案。1(d)从五个候选答案中选择正确答案。信念修正回答方案不是一次确定预测得分,而是通过观察不同的信息源来连续地修正预测得分。这模仿了人类回答困难问题的多步推理过程[10]。结合渐进注意和动态模态融合,PAMN的这种多步推理方法增强了模型置信度B∈R5表示候选答案的预测得分.通过对置信度进行归一化,计算出预测概率z∈R5,并给出了答案y。以最高的概率说出:z=softmax(B),( 18)y=argmaxi∈[5] ( zi ) .( 19)初始化信念的一种方法是空初始化赋予所有候选答案相同的概率在观察任何信息之前。为了反映这种无偏初始化,信念B被初始化为零向量。信念矫正答题方案采用三步走信念修正;u-、Mu-和Mg-校正。对于每个校正步骤,通过累积答案嵌入g和观察到的信息之间的相似性来校正信念信念首先通过只考虑问题来纠正,即。u-校正。直觉是,人类通常在浏览问题和候选答案后建立先验偏见Bu=ug,(20)B←B + Bu。(二十一)αo=8343衡量相应信念修正的指标。 注意在每次校正之后,信念被归一化为具有单位范数4. 实验4.1. 数据集MovieQA[26]基准是为电影故事QA构建的,它包括各种信息源,如电影剪辑,字幕,情节梗概,脚本和DVS翻译。MovieQA数据集包含408部电影,对应14,944个选择题。MovieQA基准测试包括6个任务,根据要使用的源本文重点研究了视频+字幕任务,这是唯一利用电影剪辑的任务由于只有140部电影包含视频剪辑,因此有6,462个问题-答案对,分为4,318个训练,886个验证和1,258个测试样本。TVQA[17]基准是电视节目领域的视频故事QA数据集。它由六个电视节目的152.5k个问答对组成:生活大爆炸,我是如何相遇的《你的母亲》《老友记》《实习医生格蕾》TVQA的每个部分分别包含122k、15.25k和15.25k,用于培训、确认和测试。与将整部电影视为输入的MovieQA不同,TVQA包含21,793个60/90秒的短片,这些短片从原始电视节目中分割出来,用于回答问题。4.2. 特征提取为了公平比较,我们提取了与以前的作品类似的视觉和文本特征[21,26],并在训练过程中修复它们文本特征来自问题、候选答案和字幕的每个句子都被分成单词序列,然后每个单词都被Tapaswi等人提供的skip-gram模型嵌入。 [26]该模型在MovieQA情节概要上训练。为了对句子中单词的顺序进行编码,使用位置编码(PE)[24]来获得文本特征。例如,在问题的情况8344方法有效帐户测试Acc.SSCB,不带Sub21.60-SSCB,不带Vid22.30-SSCB [26]21.90-MemN2N w/o Sub23.10-MemN2N,不含Vid38.00-[26]第二十六话34.20-DEMN [16]44.7029.97RWMN [21]38.6736.25[第18话]41.0037.30LMN [29]42.5039.03MDAM [15]-41.41PAMN,不带Sub42.33-PAMN,不含Vid42.56-PAMN43.3442.53表1.视频+字幕任务的MovieQA基准测试的验证集和测试集的准确性比较。PAMN实现了最先进的性能。得到了测试集精度4.4. 定量结果表1比较了视频+字幕任务的MovieQA基准的验证和测试准确性我们将PAMN的性能与其他最先进的体系结构进行了比较。MovieQA测试集的地面实况答案不可观察,并且只能通过在线评估每72小时对测试集在MovieQA基准测试中,PAMN表现出最先进的结果,测 试 准 确 率 达 到 42.53% 。 它 比 亚 军 MDAM [15]( 41.41% ) 高 出 1.12% , 比 第 三 名 LMN [29](39.03%)高出3.50%。请注意,MDAM是20个不同模型的集合,而PAMN是单个模型。为了评估每种模态的有效性,还进行了基于仅使用视 频 和 字 幕 的 实 验 : PAMN w/o Sub 和 PAMN w/oVid。根据SSCB w/o Sub [26]和MemN 2N w/o Sub [26]的近似随机猜测性能,如表所示。第一,它不是--在线评估服务器。并且方法视频Feat.测试Acc.最长回答-30.41[第17话]img63.57[第17话]reg63.19[第17话]CPT65.46PAMNimg64.61PAMNCPT66.77表2.在无时间戳标注的TVQA基准测试集上进行精度比较我们利用了Lei等人提取的视频和文本特征。[17]第10段。我认为,电影故事的理解是困难的,只视频. 与MemN 2N w/o Sub相比,PAMN w/o Sub获得了19.23%它甚至达到了与LMN [29]相当的性能,后者利用了视频和字幕。PAMN即使不看字幕也能理解电影故事。从表1可以看出,PAMN的性能优于PAMNw/o Vid和PAMN w/o Sub,这表明视频和字幕都提供了改善预测的传导信息。表2显示了没有时间戳注释的TVQA基准测试的性能比较。在本实验中,我们利用Lei等人提取的视频和文本特征。[17](即ImageNet和视频的视觉概念特征以及文本的GloVe特征)进行公平比较。此外,我们使用LSTM对句子特征进行编码Σq=nvector.PE(qn)∈R300,其中每个qn指示字位置编码。在TVQA基准测试中,PAMN通过视觉概念特征获得了66.77%的测试准确率,超过了最先进的结果视觉功能电影分为视频剪辑,在时间上与字幕的每个句子对齐帧以1 fps的速率从每个视频剪辑中采样。然后,从Inception-v4 [25]上的“平均池化”层中提取大小为1536的帧特征最后,对来自相应视频剪辑的所有帧特征的平均池化产生视觉特征Vi∈R1536。4.3. 实现细节整个架构使用Tensor-flow [1]框架实现。本文中报告的所有结果都是使用Adagrad优化器[5]获得的,小批量大小为32,学习率为0.001。所有的实验都是在CUDA加速下进行的,使用单个NVIDIA TITAN Xp(12GB内存)GPU。在所有实验中,严格遵守推荐的训练/验证/测试划分。4.5. 消融研究表. 3总结了PAMN在MovieQA基准验证集上的消融分析,以衡量PAMN关键组件的有效性。为了测量渐进性注意机制的有效性,PAMN w/o PA的每个时间注意步骤都利用了等式1中获得的双重记忆。3,4,即PAMN w/o PA不积累线索,并且每个注意步骤以并行方式操作。PAMN w/o Multiple Hop对于每个时间注意步骤仅参加双重记忆一次。如表的第一个块所示。3、PAMN w/o PA的表现要优于PAMN,这说明渐进式注意机制的注意积累在理解电影故事中起着重要作用。多跳扩展在获得最佳性能方面也是至关重要的。为了消融动态模态融合,我们实验了8345Mg ,αDMFMg方法有效帐户∆PAMN w/o PA42.03-1.31%PAMN w/o Multiple Hop42.67-0.67%PAMN w/o DMF42.09-1.25%PAMN w/ MCB [7]42.89-0.45%PAMN w/ MFB [33]42.55-0.79%PAMN w/Tucker [4]42.89-0.45%PAMN w/oMu,Mg-校正39.50-3.84%PAMN w/oMg-校正41.76-1.58%PAMN w/oMu-校正40.86-2.48%PAMN43.34-表3.在MovieQA基准的确认集上对拟定PAMN进行消融研究最后一列显示性能下降。四种变体:PAMN w/o DMF取双记忆ov,os输出的平均值,PAMN w/ MCB,MFB,Tucker分别用MCB [7],MFB [33],Tucker分解[4,27]代替动态模态融合。如表的第二块所示。3、通过平均或双线性运算进行模态融合的性能低于动态模态融合。这意味着依赖于问题的模态权重(即,动态情态融合)有助于加强有益情态。为了测量信念修正回答方案的有效性,表3的第三块。3显示了三个实验结果表4. PAMN在MovieQA基准验证集上的性能变化取决于三组超参数。 hMu,hMg:问题引起注意的跳数u和答案g,θp,θs:平均值的大小和步长。 池层,以及βMu,βMg:信念修正模块的修正权重。4.6. 定性分析图2说明了所选择的PAMN的定性每个例子都提供了来自渐进式注意机制的时间注意图αvs,即问题所在的地面实况(GT)时间部分。变体:PAMN w/oMu,Mg-校正,PAMN w/oMg-由注意力权重αvSDMF 从校正,以及PAMN w/oMu校正。值得关注的是仅使用QA对显示出比20%的随机基线高得多的性能。考虑到Mu-和Mg-校正,PAMN w/oMg-校正显示2.26%动态模态融合和可信纠错应答方案的推理路径。所产生的时间注意与GT很好地匹配,这表明PAMN连续地学习到去哪里权重和PAMN w/oMu-校正显示1.36%的性能vDMFSDMF 根据问题自适应地缩放分别提升表. 4总结了依赖于三组超参数的性能变化;问题u和答案g的注意力跳跃数,θp,θs:Avg的大小和步幅。 池层,以及βMu,βMg:信念校正模块的校正权重。具有2次重复的多跳扩展表现出最好的PAMN验证性能。重复次数超过三次的多跳扩展由于数据集规模小而可能遭受过拟合增大θp和θs对性能有积极影响,但由于平均值的信息模糊,θp和θs较大时性能下降池我们观察到,不存在性能最佳的最佳校正权重。如果问题表示u有足够的信息来关注电影中的哪个位置,βMu应该更高,反之亦然。此外,优选的是具有比βMu小的βMg,因为大的βMg值扩大了ug和Mu校正的效果,因为在每个置信校正之间应用归一化类型,这意味着PAMN在没有额外监督的情况下学习使用什么模态对于某些情况,PAMN预测在u-校正步骤的正确答案,而对于其他情况,在最后(Mg)步骤确定正确答案PAMN是一个可解释的体系结构,其中推理路径和注意力地图提供了PAMN参与的位置以及用于回答问题的信息源的踪迹。图3展示了MemN2N [26],RWMN [21]和PAMN在MovieQA基准验证集上关于问题第一个单词的准确性比较关于5W1H问题类型的结果:谁,在哪里,什么时候,什么,为什么和如何分析。典型地,回答谁、在哪里、何时、什么问题需要精确定位与问题相关的时间部分(例如,效忠派什么时候接管空军一号、科尔舒诺夫对本内特副总统有什么要求?).另一方面,回答为什么,如何问题需要理解上下文信息,,αα,α跳数镁Avg.θp池θs校正βMuβ MgAcc.111110.538.941112810.540.181124160.50.540.0711241610.142.1011241610.542.671140300.50.540.9711403010.142.6611403010.542.5511806010.541.2022241610.543.3422403010.142.8933241610.542.5533403010.142.778346Mg ,αMg图2. PAMN解决的MovieQA基准测试的定性示例(最后一个示例是失败案例)。绿色句子和复选符号表示正确答案,红色虚线框突出显示PAMN在每个信念校正步骤的预测。 对于失败案例,红色‘x’ α vs表示通过渐进注意机制获得的时间注意,vDMFSDMF 表示通过动态模态融合获得的注意PAMN的时间注意与地面实况(GT)匹配良好问题产生的地方通过观察不同的信息源,PAMN成功地纠正了对正确答案的信念图3.在MovieQA的验证集上,MemN2N [26]、RWMN [21]和PAMN之间关于问题第一个单词的准确度比较PAMN在大多数问题类型上都表现出色整个电影(例如, 施密特和延科的假身份怎么会被调换了?、为什么莫扎特的结局-社会状况越来越糟?).我们观察到,PAMN优于MemN2N和RWMN的主要问题类型。特别是,PAMN在何时、何地问题上分别获得了20%和13%的性能提升,这意味着PAMN在精确定位电影故事方面的优越性。5. 结论提出了一种基于渐进式注意记忆网络(PAMN)的电影故事问答系统结构。电影故事QA的主要挑战总结如下:(1)很难确定与回答问题相关的时间部分(2) 不同的问题需要不同的模态来推断答案。 拟议的PAMN利用三个主要特征来应对上述挑战:(1)渐进注意机制,(2)动态情态融合,(3)信念修正回答方案。我们通过在MovieQA和TVQA基准数据集上显示最先进的性能,实证证明了所提出的PAMN是有效的α,α8347引用[1] Martin Abadi , Paul Barham , Jianmin Chen , ZhifengChen , Andy Davis , Jeffrey Dean , Matthieu Devin ,Sanjay Ghe-mawat , Geoffrey Irving , Michael Isard ,Manjunath Kudlur , Josh Levenberg , Rajat Monga ,Sherry Moore,Derek G.Mur-ray,Benoit Steiner,PaulTucker , Vijay Vasudevan , Pete War-den , MartinWicke,Yuan Yu,and Xiaoqiang Zheng.十- sorflow:一个大规模机器学习系统。第12届USENIX操作系统设计与实现研讨会(OSDI 16),2016年。[2] Peter Anderson,Xiaodong He,Chris Buehler,DamienTeney,Mark Johnson,Stephen Gould,and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在IEEE计算机视觉和模式识别会议,2018年。[3] Stanislaw Antol , Aishwarya Agrawal , Jiasen Lu ,Margaret Mitchell,Dhruv Batra,C Lawrence Zitnick,and Devi Parikh.Vqa:可视化问答。IEEEInternationalConference on Computer Vision(ICCV),2015年。[4] Hedi Ben-Res,Remi Cadene,Matthieu Cord,and Nico-las Thome. MUTAN : Multimodal Tucker Fusion forVisual Question Questioning。IEEE国际计算机视觉会议(ICCV),2017。[5] John Duchi,Elad Hazan,and Yoram Singer.在线学习和随机优化的自适应次梯度方法。Journal of MachineLearning Research,12(Jul):2121[6] 范浩奇和周嘉彤。用于多模态推理的堆叠潜在注意。在IEEE计算机视觉和模式识别会议(CVPR),2018年。[7] Akira Fukui , Dong Huk Park , Daylen Yang , AnnaRohrbach,Trevor Darrell,and Marcus Rohrbach.多模态紧凑双线性池化视觉问答和视觉接地。在2016年自然语言 处 理 中 的 Em-pestrian 方 法 会 议 ( EMNLP ) 中 ,2016。[8] Jiyang Gao,Runzhou Ge,Kan Chen,and Ram Nevatia.用于视频问答的运动-外观共记忆网络。在IEEE计算机视觉和模式识别会议,2018。[9] Chiori Hori , Takaaki Hori , Teng-Yok Lee , ZimingZhang,Bret Harsham,John R. Hershey,Tim K.马克斯和角和彦基于注意力的多模态融合视频描述。IEEE国际计算机视觉会议(ICCV),2017。[10] 安德鲁·豪和冯·阮。使用眼动追踪技术和机器学习进行阅读分析。在智能辅导系统,2018年。[11] Yunseok Jang、Yale Song、Youngjae Yu、Youngjin Kim和 Gunhee Kim 。 Tgif-qa : Toward spatio-temporalreasoning in visual question answering.在IEEE计算机视觉和模式识别会议(CVPR),2017年。[12] Lu Jiang , Junwei Liang , Liangliang Cao , YannisKalantidis,Sachin Farfade,and Alexander G Hauptmann.Memexqa : Visual memex question answering.arXiv :1708.01336,2017年。[13] Sunghun Kang,Junyeong Kim,Hyunsoo Choi,SungjinKim,and Chang D.你。枢轴相关神经网络用 于 多 模 式 视 频 分 类 。 在 欧 洲 计 算 机 视 觉 会 议(ECCV)上,2018年9月。[14] Jin-Hwa Kim 、 Kyoung Woon On 、 Woosang Lim 、Jeonghee Kim、Jung-Woo Ha和Byoung-Tak Zhang。低秩 双 线 性 池 的 Hadamard 乘 积 。 国 际 学 习 表 征 会 议(ICLR),2017年。[15] Kyung-Min Kim,Seong-Ho Choi,and Beng-Tak Zhang.视频故事问答的多模态双注意记忆。在欧洲计算机视觉会议,2018。[16] Kyung-Min Kim , Min-Oh Heo , Seong-Ho Choi 和Byoung-Tak Zhang。深度故事:视频故事问答由深嵌入式记忆网络.在IJCAI,2017。[17] Jie Lei,Licheng Yu,Mohit Bansal,and Tamara L Berg.Tvqa:本地化的合成视频问答。在2018年自然语言处理经验方法会议(EMNLP)上,2018年。[18] Junwei Liang,Lu Jiang,Liangliang Cao,Li-Jia Li,andAlexander Hauptmann.视觉问答的视觉-文本焦点注意在IEEE计算机视觉和模式识别会议(CVPR)中,第6135-6143页,2018年。[19] 马特乌斯·马林诺夫斯基马库斯·罗尔巴赫马里奥·弗里茨问问你的神经元:基于神经的方法来回答有关图像的问题。在IEEE国际计算机视觉会议(ICCV),2015年。[20] Tomas Mikolov,Kai Chen,Greg Corrado,and JeffreyDean.向量空间中词表示的有效估计。arXiv预印本arXiv:1301.3781,2013。[21] Seil Na,Sangho Lee,Jisung Kim,and Gunhee Kim.一种用于电影故事理解的读写存储网络IEEE国际计算机视觉会议(ICCV),2017。[22] Hyeonseob Nam、Jung-Woo Ha和Jeonghee Kim。用于多模态推理和匹配的双注意力网络。在IEEE计算机视觉和模式识别会议(CVPR),2017年。[23] Mengye Ren,Ryan Kiros,and Richard Zemel.图像问题回答:视觉语义嵌入模型和新数据集。神经信息处理系统进展(NIPS),2015。[24] Sainbayar Sukhbaatar,Arthur Szlam,Jason Weston,和Rob Fergus.端到端内存网络。神经信息处理系统进展(NIPS),2015年。[25] Christian Szegedy、Sergey Ioffe和Vincent Vanhoucke。起始-v4,起始-resnet和剩余连接对学习的影响。2016年AAAI人工智能会议[26] Makarand Tapaswi,Yukun Zhu,Rainer Stiefelhagen,Antonio Torralba , Raquel Urtasun , and Sanja Fidler.MovieQA:通过问答理解电影中的故事。在IEEE计算机视觉和模式识别会议,2016。[27] 莱 德 亚 德 河 塔 克 三 模 态 因 子 分 析 的 数 学 注 记Psychometrika,31(3):279[28] Ashish Vaswani, Noam Shazeer , Niki Parmar , JakobUszko-reit , Llion Jones , Aidan N Gomez , ukaszKaiser,and Illia8348波洛苏欣注意力是你所需要的神经信息处理系统进展2017年。[29] Bo Wang , Youjiang X
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功