没有合适的资源?快使用搜索试试~ 我知道了~
基于神经模块网络的这是Kottur1,2,Jo s´eM. F. Moura2、DeviPar ikh1、3、DhruvBatra1、3和Marcus Rohrbach11Facebook AI Research,Menlo Park,美国2美国匹兹堡卡内基梅隆大学3美国亚特兰大佐治亚理工学院抽象。 可视化对话需要回答一系列基于图像的问题,使用对话历史作为上下文。除了在可视问答(VQA)中发现的挑战(可以被视为一轮对话)之外,可视对话还包括多个挑战。我们专注于一个这样的问题,称为视觉共指解析,涉及到确定哪些词,通常是名词短语和代词,共同指同一个实体/对象实例中的图像。这是至关重要的,尤其是对于pronouns(e)。例如,在一个实施例中,“it”),因为该日志记录多用户首先查询以预引用(例如,“船”),只有这样才能依靠核心内容的视觉基础“bo a t”t o re a o n a b u t h e p ro n o n“i t”。(在视觉对话中的)Priorw ork(a)隐式地经由历史上的记忆网络,或(b)在整个问题的粗略水平上对视觉共指消解进行建模;而不是明确地在短语粒度级别。在这项工作中,我们提出了一个神经模块网络架构的视觉对话,通过引入两个新的模块-参考和排除-执行-形式明确,接地,共指决议在一个更精细的字的水平。我们证明了我们的模型的有效性MNIST对话框,一个视觉上简单但相互参照的复杂数据集,通过实现近乎完美的准确性,和VisDial,一个大型的和具有挑战性的视觉对话数据集上的真实图像,我们的模型优于其他方法,是更可解释的,接地,和一致的定性。1介绍VisualDialog[11 , 40] 的 k 在 创 新 中 构 建 为 “ee” ( 即 , e.under-standdanimage)anddtalk'(i.e.commonicatethisunderstantandindinginadialog)。具体来说,它需要一个代理回答一系列关于图像的问题,要求它对图像和过去的对话历史进行推理。例如,在图。1、回答“它是什么颜色的?' ,代理需要对历史进行推理以知道“它”指的是什么,这种将视觉问答(VQA)[6]推广到对话的做法更接近于现实世界的应用(帮助视力受损的用户、智能家居在Facebook AI Research2S. Kottur,J. M F. Moura,D. Parikh,D.巴特拉湾Rohrbach图1:我们的模型首先将标题(C)、船(棕色)和龙头(绿色)中的实体接地,然后将它们存储在一个池中,以便将来在对话框(右)中解决共指问题。当被问到“Q1:船在水上吗?”,它识别出船(已知实体)和水(未知实体)对于回答该问题至关重要然后,它将图像中的新实体水(蓝色)作为基础,但在继续进一步推理之前,通过引用池并重新使用标题中的可用基础来解决船因此,我们的模型显式地解决视觉对话中的共指助理,机器人的自然语言接口),但同时在视觉和语言的交叉点引入了新的建模挑战。我们在本文中关注的具体挑战是视觉对话中的视觉共指消解具体来说,我们引入了一个新的模型,执行显式的视觉共指消解和可解释的实体跟踪视觉对话。长期以来,人们一直认为[16,44,31,46]人类使用共指,不同的短语和诸如代词之类的简写来指代单个文本中 在基于视觉的对话的上下文中,我们对图像中的参照物感兴趣,例如。物体或人。对话中所有涉及图像中同一实体或所指对象的短语称为视觉共指。这样的共指可以是名词短语,例如①的人。特别是当试图回答一个含有回指的问题时,例如代词 更具体地说,回答“它是什么颜色的?” 图1,模型必须正确识别在给定的上下文中“它”指的是哪个对象请注意,单词或短语可以在不同的上下文中指代不同的实体,如本示例中的我们的方法来明确解决视觉共指的启发,从功能的变量或内存中的计算机程序。在相同的精神,如何可以在一个程序中引用变量的内容在稍后的时间没有显式地重新计算他们,我们提出了一个模型,可以引用回实体从以前的回合的对话和重用相关的信息;并以此方式解析共指。VQA [28,13,2]的先前工作(可以理解)在很大程度上忽略了视觉共指消解的问题,因为单独提出的单个问题事实上,最近的经验研究[1,20,47,15]表明,在将实体接地到正确的像素时,视图和绘图模型可能会表现出较好的水平统计,并且表现不在可视对话框3相比之下,我们的工作旨在通过引用以前的参考文献来明确地推理过去的对话交互。这允许增加模型的可解释性。随着对话的进行(图。1),我们可以检查模型已知的实体池,并且还可视化问题中的特定短语已经被解析为哪个实体。此外,我们的显式实体跟踪模型的好处,即使在情况下,可能不严格地说,需要共指解决。例如,通过明确地在Q3中提到“龙”(图1)1)回到已知实体,模型与自身一致并且(正确地)将图像中的短语接地。我们相信,这种一致性的模型输出是一个非常可取的属性,因为我们走向人机交互对话系统。我们的主要技术贡献是视觉对话的神经模块网络架构。具体来说,我们提出了两个新的模块-参考和排除-执行明确的,接地,共指决议在视觉对话。此外,我们提出了一种新的方法来处理字幕使用神经模块网络在一个词级的粒度比传统的句子级编码更精细我们在推理复杂但视觉简单的MNIST对话数据集[37]上显示了这些模块的定量优势,其中实现了近乎完美的准确性。在视觉上具有挑战性的VisDial数据集[11]上,我们的模型不仅优于其他方法,而且通过构造更易于解释,并且能够实现单词级的共指消解。此外,我们定性地表明,我们的模型是(a)更可解释的(用户可以检查哪些实体被检测和跟踪的对话进展,以及哪些被称为回答一个特定的问题),(b)更接地(其中模型看起来回答一个问题的对话),(c)更一致(相同的实体被认为是跨轮的对话)。2相关工作我们讨论:(a)现有的方法,视觉对话,(b)相关的任务,如视觉接地和共指消解,(c)神经模块网络。可视对话框。虽然视觉对话的起源可以追溯到[43,14],但它在很大程度上是由[11,40]收集人类注释数据集的人正式化的具体来说,[11]配对注释器收集自由形式的自然语言问题和答案,其中提问者被指示提问问题以帮助他们更好地想象隐藏的场景(图像)。另一方面,来自[40]的对话更多地是目标驱动的,并且包含指向识别图像中的秘密对象的是/否问题。相应的后续工作使用强化学习技术来解决这个问题[12,39]。视觉对话的其他方法包括将知识从区分训练模型转移到生成对话模型[27],使用注意力网络来解决视觉共指[37],以及最近使用条件变分自编码器对对话进行概率处理[30]。其中,[37]是最接近这项工作,而[27,30]是补充。为了解决视觉共指,[37]依赖于用于回答先前问题的全局视觉注意力它们将这些注意力地图存储在一个记忆体中,并根据4S. Kottur,J. M F. Moura,D. Parikh,D.巴特拉湾Rohrbach整个问题和答案的文本表示以及历史。相比之下,在每个问题中以更精细的单词级粒度操作,我们的模型可以解决问题的不同短语,并将它们与图像的不同部分联系起来,这是正确理解和接地的核心组件。例如,在一个示例中,”一个男人和一个女人在车里。问:他或她开车吗,这需要分别解析在图像和视频中扎根语言。这一领域的大多数作品都专注于在图像[19,22,29,32,35,41,46]或视频[34,24,45,5]中定位文本参考表达的特定任务类似于这些作品,我们的模型的一个组成部分,旨在本地化的图像中的单词和短语然而,关键的‘it’我们的模型首先将其显式地解析为已知实体,然后通过或沿着该已知实体的v i s u al g und in g来生成它。共指消解。语言学界将共指消解定义为对短语进行聚类的任务,例如名词短语和代词,它们指的是世界上的同一实体(例如,参见[8])。视觉共指消解的任务是将共指链接到视觉数据中的实体例如,[33]将电视节目描述中提到的人物与他们在视频中的出现联系起来,而[22]将文本短语与3D场景中的对象联系起来。与这些作品不同的是,我们预测了一个给定的自然语言问题的图像,然后试图解决任何现有的共指,然后回答这个问题的程序。正交方向是在联合接地和解析共指的同时生成语言[36]探索这部电影的描述。虽然超出了这项工作的范围,但它是可视化对话框未来工作的一个有趣方向,特别是在生成问题时。神经模块网络[4]是一类优雅的模型,其中实例的具体实现由在时间上具有具体实现的随机模块(或构建块)组成。在分层RL中,高级别的任务是通过操作或子任务来实现的。他们已经被证明是成功的视觉问题回答在真实图像和语言数据库[3]和更复杂的推理任务在合成数据集[21,18]。为此,[21,18]端到端联合学习程序预测和模块参数。在此背景下,我们的工作通过引入一个新的模块来执行显式视觉共指消解,将[18]中的公式从VQA推广到视觉对话。3方法回想一下,可视对话[11]涉及在当前回合t回答问题Qt,给定图像I和对话历史(包括图像标题)H=(`CΩ x,(Q1,A1),···,(Qt−1,At−1)),通过一个100c的列表和一个-`联系我们H0H1联系我们Ht−1swersAt={A⑴,···,A(100)}。作为一个关键的组件,用于构建更好的服务t t对话代理,我们的模型显式地解决了当前问题,如果有的话。可视对话框5图2:我们的模型架构概述。问题Qt(橙色条)通过存储器增强问题编码器与历史H一起编码,使用该编码器解码程序(参考描述)。对于程序中的每个模块,注意力αti在Qt上 也被预测,用于计算文本特征Xtxt。对于Qt,注意分别位于“it”(用于参考)和“What color”(用于描述)上方(橙色条带红色 关 注 ) 。 Refer 模 块 使 用 共 指 库 Pref , 一 个 所 有 先 前 使 用 该refervisulgroundings、resolveves“it”和borrow该refer t的v i s u l g round i n g(bo a t i n t i s ca s e)所看到的词典。 最后,描述由最终解码器使用的用于从候选池At中挑选答案A t的颜色。为此,我们的模型首先识别当前问题中涉及图像中实体(通常是对象和属性)的相关单词或短语。该模型还预测到目前为止是否在对话中提到了其中的每一个。接下来,如果这些是新的实体(在对话历史中看不见),则在继续进行之前将它们定位在图像中,并且对于看到的实体,模型预测对话历史中的(第一)相关共指,并检索其对应的视觉基础。因此,随着对话的进行,模型收集独特的实体及其相应的视觉基础,并使用此引用池来解决后续问题中的任何共引用我们的模型有三个主要组成部分:(a)程序生成(Sec.3.3),其中针对当前问题Qt预测由程序指示的推理路径。3.4),其中通过动态连接神经模块[3,4,18]来执行预测程序,以产生总结从上下文(I,H)回答Qt所需的语义信息的上下文向量,以及最后,(c)回答解码(Sec.3.4),其中,使用坐标xtvect或ct来获得最终的werAt。我们给出了用于VQA的神经模块的一般表征。3.1,然后讨论我们用于共指消解的新模块(Sec.3.2)参考库的详细信息。在描述了模块的内部工作之后,我们解释了我们模型的上述三个组件中的每个组件3.1用于视觉问答的神经模块我们模型的主要技术基础是神经模块网络(NMN)[4]。在本节中,我们简要回顾了NMN,更具体地说,注意力6S. Kottur,J. M F. Moura,D. Parikh,D.巴特拉湾Rohrbachi=1i=1p pi模块[18]。在下一节中,我们将讨论我们提出的新模块,以处理视觉对话框中的其他挑战。对于模块m,设xvis和xtxt分别为输入图像和文本嵌入。特别地,图像嵌入xvis是来自卷积神经网络的图像I的空间激活图。文本嵌入xtxt被计算为问题Qt中的词的嵌入的加权和,其使用由程序生成器针对模块m预测的软注意力权重α(更多细节在第2节中)。3.3)。此外,令{ai}是与空间图像嵌入相对应的n,m个单通道空间映射的集合,其中n,m是到m的注意力输入的数量。用θ m表示模块参数,神经模块m本质上是参数函数y = fm(xvis,xtxt,{ai}nm; θm)。取决于模块,来自模块y的输出可以是空间图像注意力图(由a表示)或上下文向量(由c表示)。输出空间注意力图a馈送到下一级模块中,而上下文向量c用于获得最终答案At。Tab的上半部分1列出了我们从以前的工作中采用的模块及其功能形式。我们简单总结一下他们的行为。查找模块通过在图像上产生注意力来定位对象或属性。重新定位模块接收输入图像注意力并执行必要的空间重新定位以处理诸如“紧挨着”、“在……前面”、“在……旁边”等的关系注意力图的交集或并集可以分别使用And和Or来获得最后,Describe、Exist和Count输入注意力图,以通过在给定的输入注意力图中分别描述属性、检查存在或计数来产生上下文向量。如[ 18]中所述,该模块针对点的自动功能进行了指定和修改。然而,我们并没有明确地强制执行这一点,而是让模块通过端到端的方式进行训练来发现3.2共指消解我们现在引入新的组件和模块来处理可视对话框。参比样本池(Pref)。引用池的作用是跟踪到目前为止在对话框中看到的实体。因此,我们将Pref设计为所有Find模块的键值对(xtxt,a)的字典,同时在s(Qi)t−1上回答previousquesti。通过存储每个输出注意力图y,我们现在可以访问到目前为止在对话框中提到的所有实体及其相应的视觉基础。有趣的是,尽管xtxt和y是我们模型的中间输出,但两者都很容易解释,使我们的引用池成为语义词典。据我们所知,我们的模型是第一个尝试明确的,可解释的共指消解在视觉对话。虽然[37]维护了一个类似于Pref的字典,但它们不考虑单词/实体级别的共指它们的密钥也不像我们的密钥那样具有可解释性与P作为Refer的输入,我们现在可以解析Qt中的引用。ref ={(x(i),a(i))}参考模块。该新颖模块负责解析问题Qt中的引用,并将它们置于会话历史H中。启用接地可视对话框711pppp名称输入输出函数[18]第十八话找到xvis,xtxt注意y= conv2(conv 1(xvisWxtxt))重新定位a,xvis,x txt注意y~=W1sum(a⊙xvis)y=conv2(conv1(xvis)⊙y~⊙W2xtxt)而a1, a2注意 y= min{ a1, a2}或者a1,a 2注意y=max{a 1,a 2}存在a,xvis,x txt上下文y=WTvec(a)描述a,xvis,xtxt上下文y=WT(W2sum(a⊙xvis)⊙W3xtxt)计数a,xvis,xtxtcontexty=WT([vec(a),max{a}, min{a}])共指消解的神经模块(我们的)不一关注y=normL1(1 −a)指xtxt,P参考关注(see详细信息的文本,(3))排除a,xvis,xtxt关注y=And[Find[xvis,xtxt],Not[a]]表1:我们在视觉对话中使用的神经模块,以及它们的输入,输出和函数公式。上半部分包含用于视觉问答的先前工作的模块,而下半部分列出了我们设计用于处理视觉对话中的额外挑战的新颖模块。在对话历史中,我们将上述公式概括为给予模块对先前识别的实体的引用池P_ref的具体地,Refer仅将文本嵌入xtxt和引用池Pref作为输入,并以Qt上的软注意力α的形式解析由xtxt表示的实体。在本节介绍Pref之后。对于图中所示的示例。2,表示Refer的α关注'it',表示它试图解析的短语。在更高级别上,将sxtxt作为“关键”和“关键”来参考与P参考如通过关于键{x(i)}i的某种相似性所测量的inPref.最佳匹配的相关联的图像注意力图被用作最佳匹配。需要解决的短语的视觉基础(即, 更具体地说,我们首先学习一个评分网络,当给定查询xtxt和可能candidatex(i),返回标量值si,指示这些文本特征指的是同一实体(1)。为了使Refer能够在评估潜在候选者时考虑对话的顺序性质,我们另外提供了∆it,a我认为是在x(i)处的C的已定义的时间段从xtxt 在对话历史中,作为评分网络的输入Δit表示为绝对差在x轮之间txt (当前轮t)和当x(i)是第一轮人所提及从所有候选人收集这些分数,我们应用softmaxFunctiiontocompute c o ntecri tions~ifomea chentyinthep〇ol(2). 最后,我们通过这些贡献对相应的注意力图进行加权,以获得Xtxt(3)的视觉基础。8S. Kottur,J. M F. Moura,D. Parikh,D.巴特拉湾Rohrbachi=1i=1i=0时i=0时pi=0时si=MLP([xtxt,x(i),∆it])(1)|PΣref|a=s~a(i)(三)si=Softmax(si)(2)出来Ipi=1非模块。被设计为聚焦于图像的未被输入注意力图a关注的区域,它输出y = norm L1(1-a),其中norm L1(. )将条目归一化为和为1。此模块用于排除,如下所述。排除模块。处理诸如“还有什么其他红色的东西?”,其在图像中寻找除了由输入注意力图a指定的那些对象/属性之外的其他对象/属性,我们引入又 一 新 颖 的 模 块 它使 用 Find 、 Not 和 And 模 块 构 造 为y=And[Find[xtxt,xvis],Not[a]],其中xtxt是输入到排除模块的文本特征,例如,更明确地说,首先查找将本地化图像中的所有对象实例/属性。接下来,我们使用Not[a]关注图像中除 a最后,上述两个输出通过And组合以获得Exclude模块的输出y3.3程序生成一个程序指定的神经模块的网络布局为一个给定的问题Q-灰。在[18]之后,它通过反向波兰符号(RPN)[9]进行序列化这种序列化帮助我们将一个困难的、结构化的预测问题转化为一个更容易处理的序列预测问题。换句话说,我们需要一个程序预测器来按顺序输出一系列模块标记,以便可以从中检索我们的预测器有两个主要的设计考虑因素首先,除了程序之外,我们的预测器还必须为程序中的每个模块mi输出问题Qt上的软注意力αti这种关注负责在当前上下文中正确地实例化模块。例如,回答“坐在狗旁边的猫是什么颜色的?”' ,一个处理‘cat’的查找这是通过使用对Qt的注意力来计算文本嵌入Xtxt来实现的,该文本嵌入Xtxt在执行期间作为输入被直接馈送到模块。第二,为了决定Q中的实体是否已经被视为在该副本中,它可被用于请注意,这是我们当前问题所独有的,在[18]中不存在。为此,我们提出了一种新的注意力递归神经网络的增强[7]与记忆[42]来解决这两个要求(图1)。2)的情况。程序生成如下进行。首先,Qt被嵌入以给出{wti}T,其中T表示Qt中的令牌的数量。我们使用多个请求的编码器、多线程LSTM,以执行以下操作:hiddenstates{wti}T的等式(四)、注意,最后一个隐藏状态hT是这是 一个 问题 , 但它 并不 意 味着 它是 一个 问 题。 hist或y(Hi)t−1的Ne x t,e循环由历史编码器以类似的方式处理,历史编码器是一个多层LSTM,它可以存储在均衡编码器中。 此过程编码(hi)t−1(5)作为一个简单单元,用 于将 此 过程 编 码为 “pee k” , 并将 其 保存 到 存储 器 中。 使 用 此quuestionencodingingqt , 我 们 可 以 找 到 此 historyencodingings ( hi )t−1,可视对话框9tii kk=1tαwi=1ti并且得到historyvectorht(6)。 该历史感知问题编码qt是利用该历史感知问题编码q t(7)来提供历史感知问题编码q t(7)的历史感知问题编码。该历史感知问题编码q t(7)被馈送到节目解码器中。问题编码器{wti}=LSTM({wti})(4)qt=wtT节目解码器u~(j)=Linear([wtj,dti])u(j)=vTtanh(u~(j))娣娣历史存储器α(j)=Softmax(u(j))hi=LSTM(hi)(5)tiΣTeti=tiα(j)wtj(8)β = Softmax(qTh)蒂特 我Σt−1ht=βtihi(6)i=0时qt=MLP([qt,ht])(7)j=1e〜ti=MLP([eti,dti])(9)p(m|{m}i−1,Q,H)=Softmax(e〜ti)(10)解码器是另一个多层LSTM网络(具有隐藏状态{dti}),在每个时间步长i,在输入上产生软注意力映射αti序列(Qt)[7]。每个模块的软注意力图用于计算对应的文本嵌入,xΣtxt=j(j)titj.最后,预测一个模块在时间步i处的令牌mi、编码器隐藏状态eti(8)的加权和和历史感知问题向量qt通过另一个全连接层组合在等式(9)中,通过在P(m)上给出一个最大值来实现|{mk}i−1,Qt,H)overthek=1prog模块令牌(10)。在训练期间,我们最小化交叉熵损失LQ在该预测分布和地面实况节目令牌之间。图2概述了我们的程序生成器的原理图。字幕模块。由于图像字幕C也是对话的一部分(在回合0处的历史H0),因此期望经由相关性池Pref跟踪来自C的实体。为此,我们提出了一种新的扩展的神经模块网络的字幕,通过使用辅助任务,检查对齐的(字幕,图像)对。首先,我们从C中学习预测一个程序,不同于通过最小化负对数似然Lprog,类似于C到L程序Q,地面实况字幕节目的。接下来,我们在两个图像I+=I和I-(来自数据集的随机图像)上执行字幕程序,在c+和c-的情况下,捕获的图像是精确的。在c+和dc−处不存在ethC C C不同于由问题程序的执行产生的上下文向量CT最后,我们在上面学习一个二元分类器,输出类+1/-1对于c+和c-,通过最小化该二进制字符串串的可操作性来表示Lax。C c C辅助任务背后的直觉是:为了正确地将对齐的(C,I+)与未对齐的(C,I-)分类,模块将需要本地化并专注于字幕中的这些实体(具体地,来自字幕程序中的Find的输出)然后被收集在P_ref中以用于Q_t上的显式共指消解。答案中的实体。使用上述类似的论证,来自前循环{Ai}t−1个循环的答案具有在Qt中求解的必要性。例如,“问:这个男孩拿着什么?A:一个球。问:它是什么颜色的10S. Kottur,J. M F. Moura,D. Parikh,D.巴特拉湾Rohrbach不不不不一如果需要,则将其与在前一个区域中设置的所有内容一起解决。为了验证这一点,在第t-1回合的最后,我们将Ht-1=(Qt-1,At-1)作为h_ref_ig多层LSTM,获得馈送到产生上下文向量c_t的程序中的最后一个模块的最后一个图像注意力图a,并将(h_ref,a)作为附加候选添加到参考池P_ref。请注意,href包含在Qt − 1上的等式i的连续x t中的At − 1上的i上的i范数,其中a当在At−1时具有最大的循环时间间隔时,不需要在ti时存储信息在前一轮。在解决Qt中的共参时,如果有的话,来自前几轮的所有答案现在由于在Pref中而成为潜在的候选。3.4其他模型组件程序执行。该组件为每个参与模块获取生成的程序和关联的文本特征xtxt,并执行它。为此,我们首先将给定程序从其RPN反序列化为分层模块布局。接下来,我们根据布局动态地安排模块,给我们网络来回答Qt。在这一点上,网络是一个简单的前馈神经网络,我们从叶模块开始计算,并将一层模块的输出激活作为下一层模块的输入(见图1)。2)的情况。最后,我们将从最后一个模块产生的上下文向量ct馈送到下一个答案解码组件中。应答解码。这是我们的模型的最后一个组件,它使用上下文向量ct来根据答案的正确性对来自候选者池At 的答案解码器:(a)用多个LSTM对每个候选A(i)∈At进行编码,以获得非A(i),所述内容X电视机,即,例如,cto(i),andd(c)应用t个最大活动时间ta不 不分布在候选人。在训练中,我们最小化负对数-似然Ldec的基本事实答案Agt。考试时,考生取最大值为At。使用[11]的命名法,这是一个判别解码器注意,我们的方法不限于判别式解码器,而是还可以与生成式解码器一起使用(参见补充)。培训详情。我们的模型组件具有完全可区分的操作。因此,为了训练我们的模型,我们将监督损失项根据节目生成{Lprog,Lprog,Laux}和应答解码{Ldec},公司简介并且最小化总损耗Ltotal。4实验我们首先展示了合成MNIST Dialog数据集[37]的结果,该数据集旨在包含跨轮次的复杂共指,同时在文本和视觉上相对容易为了在这个数据集上做得很好,准确地解决这些共引用是很重要的,从而对我们的模型进行压力测试。然后,我们在真实图像上使用大型视觉对话数据集VisDial [11]进行实验,该数据集在解决视觉共指并将其置于图像中时提供了语言和感知挑战实施细节见补充文件。可视对话框11型号Acc.一[37] 20.2Q[37] 36.6AMEM\ Seq [37] 89.2AMEM[37] 96.4[18]第十八话CorefNMN\Seq 88.7CorefNMN 99.3表2:MNIST Dialog数据集上的答案准确度。越高 越 好 。 我 们 的CorefNMN优于所有其他模型,在测试集上具有近乎完美的准确性。图3:我们的模型在MNIST对话数据集上的显式共指消解推理的图示。对于每个问题,都提供了一个程序和相应的注意事项(α)。从程序中取出一个布局我们还可视化了每个参与模块的输出注意力图(右)。具体而言,在Q1和Q2中,找到所有可变的数字和4,respectively(由相关的α确定)。在第二个问题中,Refer解决了4.1MNIST对话框数据集数据集。MNIST对话框数据集[37]中的对话框以MNIST数字[23]的4 ×4网格组成的图像为基础。网格中的数字有四个属性:数字类别(0−9)、颜色、笔划和背景颜色。每个对话框有10个问答对,其中问题是通过语言模板生成的,答案是单个单词。进一步地,所述问题被设计为查询目标数字的属性、统计具有相似属性的数字等。所有这些都需要通过在对话轮之间解析引用来跟踪目标数字。因此,共指消解在回答这个问题所需的推理中起着至关重要的作用,这使得MNIST数据集既有趣又具有挑战性(图1)。(3)第三章。 该数据集包含30k个训练图像、10k个验证图像和10k个测试图像,每个图像有三个10轮对话。模型和基线。利用该数据集中的单字答案,我们将答案解码器简化为N路分类器,其中N是可能答案的数量。具体地说,上下文向量ct现在通过大小为N的全连接层,然后是softmax激活,以给出我们可能答案类别的分布在训练时,我们最小化12S. Kottur,J. M F. Moura,D. Parikh,D.巴特拉湾Rohrbach一C在每一轮,预测答案分布与真实答案的交叉熵Ldec请注意,单字答案也简化了评估,因为现在可以使用答案准确度来比较不同的模型。我们进一步简化了我们的模型,通过删除程序生成器的内存增加,即,q(t)=qt(7),并将其表示为CorefNMN。除了完整模型之外,我们还评估了消融CorefNMN\ Seq,而无需额外捕获对话的顺序性质(参见参考描述)。我们与显式推理模型(NMN)[18]和一组全面的基线AMEM,仅图像(I)和仅问题(Q)进行竞争,所有这些都来自[37]。监 管 除 了 地 面 真 相 的 答 案 , 我 们 还 需 要 程 序 支 持 , P-PERVISIORQUESTIOLLEPRA M GNERAIO N。对于这5种类型的问题中的一个,我们手动创建一个程序,我们应用该程序作为对相应类型的所有问题的问题类型随问题提供请注意,我们的模型只在训练时需要程序监督,并在测试时使用程序生成器的预测。结果选项卡. 2显示了MNIST数据集上的结果。以下是主要意见:(a)纯文本Q(36. 6%)和仅图像I(20. 2%)表现不佳,也许正如预期的那样,MNIST Dialog需要解析强共参以获得正确答案。 出于同样的原因,NMN [18]的准确度很低,为23。8%。有趣的是,Q比NMN的表现高出约13%(两者都使用问题和图像,但不使用历史),这可能是由于NMN的显式推理性质禁止它捕获统计数据集先验。(b)我们的CorefNMN优于所有其他模型,其精确度接近完美的99。百分之三。检查失败的案例表明,CorefNMN所犯的大多数错误是由于对原始MNIST数据集的定性困难示例进行错误分类(c)在模型中附加地分解对话的顺序性质是有益的,如由10所指示的。CorefNMN改善6%,7. 2%的AEM。直观地说,短语有多个潜在的指称对象,往往是指最近的指称对象,如图所示。1,其中“它”必须被解析为历史上最接近的指涉。图3显示了一个定性的例子。4.2VisDial数据集数据集。 VisDial数据集[11]是COCO图像上的众包对话数据集[25],具有自由形式的答案。 公开可用的VisDial v0.9包含10轮对话,大约83k训练图像和40k验证图像。VisDial是从成对的人类工作者中收集的,通过指导其中一人在实时聊天界面中提问,以帮助他们更好地想象场景因此,对话包含了大量的自然语言中的共指,需要解决的问题,准确地回答。模型和基线。除了在Sec. 在图3中,我们还考虑在没有存储器网络增强程序生成器(CorefNMN\ Mem)或辅助损失Laux的情况下的消融,以在cap上训练模块(CorefNMN\Laux),以及没有两者(CorefNMN\ Mem\Laux)。一样强壮C C基线,我们考虑:(a)没有历史的神经模块网络[18],具有-SWER生成,(b)基于记忆网络的最佳判别模型可视对话框13不CC表3:使用VGG [38]特征(最后一行除外)对VisDial数据集[11](区分模型)的验证集的检索性能平均倒数秩(MRR)和召回率@k(R@1,R@5,R@10)越高越好,而平均秩越低越好我们的CorefNMN模型在所有指标上都优于所有其他模型MN-QIH-D,(c)历史调节的图像注意编码器(HCIAE-D-MLE)[26],以及(d)基于注意的视觉共指模型(AMEM+ SEQ-QI)[37]。我们使用ImageNet预训练的VGG-16 [38]来提取xvis,以及ResNet-152[17]用于CorefNMN。进一步的比较是补充。评价 视觉对话中的评估是经由从100个字符的集合中检索地面实况和波形At,并且波形At={A(1),···A(100)}。这样就可以t t t基于区别性解码器得分对数据进行排序如[11]所建议的,我们在40k个验证图像的集合上报告了k={ 1, 5, 10}的 Recall@k、平均秩和平均倒数秩(MRR)(v0.9没有可用的测试监管除了在每一轮的地面真相答案Agt,我们的模型得到程序监督Qt,训练程序生成器。基于[10],我们自动地从语言解析器获得关于问题(和标题)的(弱)程序监督[19],以及从现成的文本共指消解工具4预测Refer的监督。对于作为共指链的一部分的问题,我们在解析器监督程序中将Find替换为Refer我们的模型预测了考试时的所有问题。结果我们总结了我们的意见表。(a)我们的CorefNMN在所有度量上优于所有其他方法,突出了显式地解析视觉对话的共指具体地,我们的R@k(k= 1, 2, 5)比最佳先前工作(AMEM+SEQ- QI)高至少1个点,并且比NMN高几乎2个点(b)移除内存增强(CorefNMN\Mem)在所有度量上均匀地损害性能,因为模型无法窥视历史以决定何时通过Refer模块解析共参字幕模块似乎对完整模型有不同的影响,R@1降低,但对其他指标略有增加或无影响。(c)图4说明了我们的模型的可解释性和基础性。4https://github.com/huggingface/neuralcoref模型MRRR@1R@5R@10是说MN-QIH-D [11]0.59745.5576.2285.375.46HCIAE-D-MLE0.61447.7377.5086.355.15AMEM+SEQ-QI [37]0.62348.5378.6687.434.86NMN[18]0.61648.2477.5486.754.98CorefNMN\内存0.61848.5677.7686.954.92CorefNMN\L辅助0.63650.4979.5688.304.60CorefNMN\内存\L辅助0.61748.4777.5486.774.99CorefNMN0.63650.2479.8188.514.53CorefNMN(ResNet-152)0.64150.9280.1888.814.4514S. Kottur,J. M F. Moura,D. Parikh,D.巴特拉湾Rohrbach图4:通过我们的CorefNMN模型展示显式共指消解的示例。它首先将标题C中的“dragon head”(如顶部所示)接地然而,在这一点上,它不认为实体“船”重要,并错过了它。接下来,为了回答Q1,它定位“boat”和“wat er”,根据其中h i c h a re“un s e n”的方式,并且与Y e s一起精确地定位。 圆整秩(Q1为1)如括号所示。另外,它还在P_ref中注册这两个实体,以用于将来对话中的共指消解对于Q2,它将短语“the head”指代登记为C-1的所指对象,由参考上方的栏上的注意力5结论我们介绍了一种新的模型,基于神经模块网络的视觉对话它明确地链接共指,并在图像中的地面在一个词的水平,而不是隐含或在句子的水平,在以前的视觉对话工作。我们的CorefNMN在MNIST对话数据集(接近完美的准确性)和VisDial数据集上的表现优于之前的工作,同时更具可解释性,接地和一致性。鸣谢。这项工作得到了NSF,AFRL,DARPA,Siemens,Google,Amazon,ONR YIPs和ONR Grants N 00014 -16-1-{ 2713,2793},N 000141210903的部分支持。本文所含的观点和结论是作者的观点和结论,不应被解释为必然代表美国政府的官方政策或认可,无论是明示还是暗示政府或任何赞助商。可视对话框15引用1. 阿格拉瓦尔,A.,Batra,D.,Parikh,D.:分析视觉问答模型的行为。自然语言处理经验方法会议(EMNLP)(2016)2. Anderson , P. 他, X., 比勒角 Teney,D.Johnson ,M. ,Gould , S.,Zhang,L.:自下而上和自上而下关注图像字幕和vqa。在:IEEE计算机视觉和模式识别会议(CVPR)(2018)的论文集3. Andreas,J.,Rohrbach,M.,Darrell,T.,Klein,D.:学习构建用于问答的神经网络(2016)4. Andreas,J.,Rohrbach,M.,Darrell,T.,Klein,D.:神经模块网络。在:IEEE计算机视觉和模式识别会议(CVPR)(2016年)的会议5. 安妮·亨德里克斯Wang,O.,Shechtman,E.,Sivic,J.,Darrell,T.,Russell,B.:用自然语言定位视频中的时刻在:IEEE计算机视觉国际会议(ICCV)(2017年)的会议记录6. Antol,S.,阿格拉瓦尔,A.,卢,J,Mitchell,M. Batra,D.,Zitnick,C.L.,Parikh,D.:Vqa:可视化问答。在:IEEE计算机视觉国际会议(ICCV)(2015年)7. Bahdanau,D.,周,K.,Bengio,Y.:通过联合学习对齐和翻译的神经机 器 翻 译 国 际 学 习 表 征 会 议 ( International Conference on LearningRepr
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Fisher Iris Setosa数据的主成分分析及可视化- Matlab实现
- 深入理解JavaScript类与面向对象编程
- Argspect-0.0.1版本Python包发布与使用说明
- OpenNetAdmin v09.07.15 PHP项目源码下载
- 掌握Node.js: 构建高性能Web服务器与应用程序
- Matlab矢量绘图工具:polarG函数使用详解
- 实现Vue.js中PDF文件的签名显示功能
- 开源项目PSPSolver:资源约束调度问题求解器库
- 探索vwru系统:大众的虚拟现实招聘平台
- 深入理解cJSON:案例与源文件解析
- 多边形扩展算法在MATLAB中的应用与实现
- 用React类组件创建迷你待办事项列表指南
- Python库setuptools-58.5.3助力高效开发
- fmfiles工具:在MATLAB中查找丢失文件并列出错误
- 老枪二级域名系统PHP源码简易版发布
- 探索DOSGUI开源库:C/C++图形界面开发新篇章
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功