没有合适的资源?快使用搜索试试~ 我知道了~
递归视觉注意力解决视觉对话中的视觉共指问题
��������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������comprehensionandreasoninginvisionandnaturallanguage are still far from being resolved, especiallywhen the AI agent interacts with human in a continuouscommunication, such as vision-and-language navigation [4]and visual dialog [9].Visual dialog is one of the prototype tasks introduced inrecent years [9, 10]. It can be viewed as the generalizationof VQA, which requires the agent to answer the questionabout an image [6] or video [33] after comprehending andreasoning out of visual and textual contents. Different fromone-round VQA, visual dialog is a multi-round conversationabout an image. Therefore, one of the key challenges invisual dialog is visual co-reference resolution, since 98%of dialogs and 38% of questions in the large-scale VisDialdataset have at least one pronoun (e.g., “it”, “they”, “this”,“he”, “she”) [9]. For example, as illustrated in Figure 1,166790递归视觉注意力在视觉对话中0牛宇磊 1 , 2 张瀚望 2 张曼丽 1 张建红 1 卢志武 1 � 温霁荣 101 北京大数据管理与分析方法重点实验室 信息学院 中国人民大学 北京100872 中国 2 新加坡南洋理工大学 6397980{ niu, manlizhang, jianhong, luzhiwu, jrwen } @ruc.edu.cn, hanwangzhang@ntu.edu.sg0摘要0视觉对话是一项具有挑战性的视觉-语言任务,要求代理回答关于图像的多轮问题。它通常需要解决两个主要问题:(1)如何回答基于视觉的问题,这是视觉问答(VQA)中的核心挑战;(2)如何推断问题和对话历史之间的共指。视觉共指的一个例子是:问题中的代词(例如,“它们”)与对话历史中出现的名词(例如,“灯”)和图像中的对象相关联。在这项工作中,为了解决视觉对话中的视觉共指问题,我们提出了一种名为递归视觉注意力(RvA)的新型注意机制。具体而言,我们的对话代理会浏览对话历史,直到代理对视觉共指解析有足够的信心,并递归地改进视觉注意力。在大规模的VisDialv0.9和v1.0数据集上进行的定量和定性实验结果表明,所提出的RvA不仅优于现有方法,而且在没有额外注释的情况下实现了合理的递归和可解释的注意力图。代码可在https://github.com/yuleiniu/rva 上获得。01. 引言0视觉和语言理解已成为计算机视觉和自然语言处理中一个引人注目且具有挑战性的跨学科领域。得益于深度神经网络的快速发展和大规模真实世界数据集的高质量,研究人员在一系列视觉-语言任务中取得了令人鼓舞的进展,包括视觉关系检测[21,19,39],图像字幕生成[36,8,38,3],指代表达基准[24,25,40]和视觉问答(VQA)[6,33,11,32]。然而,视觉和自然语言的理解和推理仍然远未解决,特别是当AI代理与人类进行连续交流时,例如视觉-语言导航[4]和视觉对话[9]。视觉对话是近年来引入的原型任务之一[9,10]。它可以被视为VQA的泛化,要求代理在理解和推理视觉和文本内容后回答关于图像[6]或视频[33]的问题。与一轮VQA不同,视觉对话是关于图像的多轮对话。因此,视觉对话中的一个关键挑战是视觉共指解析,因为大规模VisDial数据集中的对话中有至少一个代词(例如,“它”,“它们”,“这个”,“他”,“她”)[9]。例如,如图1所示,0� 对应作者。0图1.递归视觉注意力在视觉对话中的直观解释。当我们的对话代理遇到一个模糊的问题(例如,“它们是开还是关?”),它会递归地查看对话历史(见第一列)并改进视觉注意力(见第三列),直到能够解决视觉共指问题(例如,有多少盏灯?)。带有绿色勾号标记的注意力图表示合理的递归视觉注意力,而虚线框中带有红色叉号标记的注意力图表示错误的问题引导的视觉注意力。3. ApproachIn this section, we formally introduce the visual dialogtask and our proposed Recursive Visual Attention (RvA)approach. The task of visual dialog [9] is defined as follows.The dialog agent is expected to answer the question qT atround T by ranking a list of 100 candidate answers AT ={a(1)T , · · · , a(100)T} in a discriminative manner, or producinga sentence in a generative manner. The extra information forvisual dialog consists of the image I and the dialog historyH = { ch0, (q1, a1)h1, · · · , (qT −1, aT −1)hT −166800问题“它们是开着还是关着?”和“它是什么颜色?”包含需要解决的代词。最近,研究人员尝试使用注意力存储器[29]在句子级别解决视觉共指,或者应用神经模块网络[18]在单词级别解决。具体而言,注意力存储器[29]用于存储每一轮的图像注意力图,而参考池[18]用于保存从对话历史中识别出的所有实体。它们都对所有存储的视觉注意力进行软注意力以进行改进。然而,人们很少记住他们以前的所有视觉注意力,只有在遇到模糊的问题时才会回顾与主题相关的对话历史。我们希望我们的对话代理人在对话过程中像人类一样有选择性地回顾对话历史。例如,如图1所示,“它们是开着还是关着?”是一个模糊的问题,对话代理人需要在观看图像之前解决“它们”。然后,代理人递归浏览对话历史并计算视觉注意力,直到遇到明确的描述“有多少盏灯?”。有人可能会认为自然语言解析器可以通过检测问题中是否存在代词来实现这个目标。然而,并不是所有的代词都需要解决,例如“天晴吗?”。一些没有上下文的缩写句子也是模糊的,例如“什么颜色?”。因此,使用自然语言解析器来穷尽所有情况是不切实际的。在这项工作中,我们将视觉对话中的视觉共指消解形式化为递归视觉注意力(RvA)。如图1所示,代理首先根据当前问题推断是否可以基于当前问题确定视觉内容。如果不能,代理将递归回顾与主题相关的对话历史并改进视觉注意力。递归终止条件是代理在视觉定位上感到“自信”,或者已经回溯到对话历史的开始。由于Gumbel-Max技巧[12]及其连续的softmax松弛[15,23],我们的代理可以在做出离散决策时进行端到端训练。此外,我们为不同目的设计了两种类型的语言特征。参考感知的语言特征有助于视觉定位和回顾对话历史的推理,而回答感知的语言特征控制图像特征的哪些属性应该被激活以回答问题。我们的主要贡献总结如下。首先,我们提出了一种新颖的递归视觉注意力(RvA)策略,用于视觉对话中的视觉共指消解。其次,我们在VisDial v0.9和v1.0[9]上进行了大量实验,并与其他方法相比取得了最先进的性能。第三,定性结果表明,我们的对话代理在合理且具有历史意识的递归过程中获得了可靠的视觉和语言注意力。02. 相关工作0视觉对话。视觉对话是一项当前的视觉和语言任务,要求代理人理解对话历史、将视觉对象与问题联系起来并回答问题。最近,有两个流行的对话数据集在亚马逊机械土耳其(AMT)上进行了众包[7]。DeVries等人[10]通过合作的两人游戏收集了GuessWhat数据集。其中一名玩家在给出整个图片及其标题的情况下,提问以定位所选对象,而另一名玩家以是/否/NA的方式回答。然而,这些问题受到了封闭问题的限制。相比之下,Das等人[9]通过不同的两人聊天方式收集了VisDial数据集。在实时聊天过程中,“提问者”根据标题和聊天历史提问以想象图片中的视觉内容,而“回答者”则观看图片并以自由形式回答。本文采用了第二种设置。视觉共指消解。视觉共指消解的任务是将通常指代同一实体的代词和名词短语链接起来,并将其与视觉内容联系起来。共指消解已被用于改进许多任务中的视觉理解,例如视觉定位[14]、动作识别[27,28]和场景理解[17]。最近,Lu等人[22]提出了一种基于历史条件的注意机制来隐式解决视觉共指。Seo等人[29]使用注意力存储器在句子级别存储先前的图像注意力。此外,神经模块网络[5]被应用于以单词级别识别所有历史中的实体[18]。与最近的工作不同,最近的工作提出了对所有记忆的注意力图[29]或所有基于实体的注意力图[18]的软注意力机制,我们提出的递归预测了与主题相关的历史上的离散注意力,这更直观和可解释。03: if cond then0图3.1 递归视觉注意力的整体结构5:else66810算法1 递归视觉注意力0算法1 递归视觉注意力03.1. 递归视觉注意力03: if cond then01: function R V A(V, Q, H, t)2: cond, λ ← I NFER(Q, t)01: function I NFER(Q, t)04: return A TT(V, Q, t)06: t p ← P AIR(Q, H, t)07: return (1 − λ) ∙ R V A(V, Q, H, t p)08: + λ ∙ A TT(V, Q, t)09: end if 10:end function0首先,递归视觉注意力(RvA)方法的整体结构如算法1所示。这里 Q = {q0, q1, ∙ ∙ ∙ , qT}表示问题特征集,其中将标题特征 c 添加到问题集中作为q0,H = {h0, h1, ∙ ∙ ∙ , hT − 1} 表示历史特征集,V = {v1, ∙∙ ∙ , vK} 表示区域特征集。给定任何问题 qt,我们的对话代理首先推断是否理解问题 q t进行视觉定位。如果不理解,我们的代理将当前问题 q t与其最相关的历史 h t p 配对,并回溯到配对轮次 tp。这个过程将一直执行,直到代理能够理解当前追踪的问题,或者对话代理回溯到对话的开始。因此,我们的对话代理通过添加问题引导的轮次 t 的注意力和配对轮次 t p的递归视觉注意力,加权乘以可学习的非负权重λ,递归地修改视觉注意力。对于问题 qT,输出的视觉注意力由 α T = R V A(V, Q, H, T)表示。进一步,通过对所有区域特征进行加权求和,计算出注意的视觉特征 ˆ v T =0即,我们给出了递归视觉注意力(RvA)的高级视图,如图2所示。直观地说,主干和分支上的所有开关最初都是打开的(即关闭)。我们的RvA从现在到过去递归调用,从过去到现在返回视觉注意力。此外,我们在图2中给出了递归视觉注意力(RvA)的高级视图。直观地说,主干和分支上的所有开关最初都是打开的(即关闭)。我们的RvA从现在到过去递归调用,从过去到现在返回视觉注意力。0从现在到过去,关闭(即打开)主干上的开关,直到递归终止。如果历史记录 h t p 与当前追踪的问题 q t配对,则关闭分支上的问题引导视觉特征 v t p的开关。当满足递归终止条件时,我们从过去到现在展开这个过程,最终获得递归的视觉特征。我们进一步设计了三个模块来实现递归视觉注意力算法,即推理(INFER)、配对(P AIR)和注意(ATT)。总体而言,推理模块断定递归终止条件并计算视觉特征融合权重,配对模块返回配对的轮次,注意模块计算问题引导的视觉注意力。03.2. 神经模块0算法2 推理模块01: function I NFER(Q, t)02: z I t ← f I q(q t)03: o I t ← GS Sampler(W I z I t)04: α I t ← softmax(W I z I t)05:cond 1 ← t ? = 006:cond 2 ← o I t, 0 ? = 108:λ ← α I t, 0 �注意力融合权重9:返回cond,λ010:结束函数0I NFER模块。INFER模块的设计目的是:1)确定是否回顾对话历史;2)提供一个权重来融合递归视觉注意力和问题引导的视觉注意力。具体而言,INFER模块以问题特征qt作为输入。输出包括1)一个布尔值cond来决定是否终止递归,2)一个权重λ∈(0,1)用于视觉注意力融合。如果满足以下条件之一,递归将被终止(参见算法2中的5-7行)。首先,回顾回溯到最开始的地方:标题。其次,问题qt被预测为明确的。为了估计问题的歧义性,我们使用非线性变换[34]f Iq(∙),然后使用Gumbel采样操作GS采样器进行可微分离散决策:0z I t = f I q(q t);(1)0o I t = GS采样器(W I z I t)(2)0其中WI表示可学习参数。GS采样器(见第3.3.2节)输出一个二维的one-hot向量o I t,用于离散决策,其中二进制元素o I t,0被编码为布尔输出,用于确定qt是否模棱两可。如图3所示,我们的对话代理成功地学习了单词与递归终止之间的关系,而无需额外的注释。66820图3.RvA中单词注意力的词云可视化。对于我们的对话代理认为是明确的问题(左侧),单词注意力分散在各种名词上(例如,“云”,“饮料”)。对于混淆代理的问题(右侧),单词注意力明显集中在代词上(例如,“它”,“他们”)。0算法3 P AIR模块0数02:eq t ← f P q(q t)0环04:eh i ← f P h(h i)05:z P t,i ← MLP([eq t,eh i])06:∆ t,i ← t - i08:o P t ← GS采样器(W P [z P t,∆t])9:t p ← 0对于每个i, P t,i ∙ i010:返回tp11:结束函数0PAIR模块。我们观察到,一个含糊不清的问题通常会跟随着最新的话题。一个简单的想法是直接将问题与其最新的历史配对,即在INFER模块中将tp设置为t-1。然而,提问者有时会追溯到一个较早的话题,这意味着问题与其最新的历史没有关系。因此,我们设计了一个PAIR模块来估计与问题qt最相关的历史。算法3显示了PAIR模块的结构。具体而言,PAIR模块将问题特征qt和历史特征H ={h0,∙∙∙,ht-1}作为输入,并预测与qt最相关的历史。PAIR模块的公式为:z P t,i = MLP([f P q(q t),f P h(h i)])(3)0o P t = GS采样器(W P [z P t,∆ t])(4)0t p =0i = 0,对于每个i,o P t,i ∙ i (5)0其中[∙]是连接操作。PAIR模块考虑了以下两个因素:1)问题qt与历史hi之间的匹配分数,表示为z Pt,i;2)对话中qt和hi之间的“顺序距离”,由∆ t,i = t -i来衡量。最后,GS采样器输出一个t维的one-hot向量o Pt,用于离散决策(即将问题与单个历史配对)。如果o Pt,k = 1,即第k个历史hk与问题qt的匹配程度优于其他历史,那么问题qt将与第k个历史h k 配对。0算法4 A TT模块0, t)02: e q t ← f A q ( q t )04: e v i ← f A v ( v i )05: z A t,i ← L2Norm( e q t ◦ e v i )06: end for 7: α A t ← softmax(08: return α A t9: end function0A TT模块。A TT模块将区域的视觉特征V = {v1, ∙ ∙ ∙,vK}和问题特征qt作为输入,并输出问题引导的视觉注意力。如算法4所示,问题引导的视觉注意力的公式为:0z A t,i = L2Norm( f A q ( q t ) ◦ f A v ( v i )) (6)0α A t = softmax( W A Z A t ) (7)0其中f A q ( ∙ )和f A v ( ∙)表示将视觉和语言特征嵌入到相同空间的非线性变换,◦表示多模态特征融合的Hadamard(逐元素)乘积。03.3. 训练0如第3.2节所述,我们的递归视觉注意力将视觉和语言表示作为输入,并应用Gumbel采样进行可微分的离散决策。具体细节如下所述。03.3.1 特征表示0语言特征。设W q t = {w q t, 1, ∙ ∙ ∙, w q t,m}为问题qt的词嵌入。词嵌入通过双向LSTM(bi-LSTM):0−→ h q t,i = LSTM q f ( w q t,i, −→ h q t,i− 1 ) (8) ←− h q t,i = LSTM q b ( w q t,i,←− h q t,i +1 ) (9)0h q t,i = [−→ h q t,i, ←− h q t,i] (10)0其中−→ h q t,i和←− h qt,i分别表示第i个单词的前向和后向隐藏状态,LSTM qf和LSTM qb表示前向和后向LSTM。我们将最后一个隐藏状态的串联eq t = [−→ h q t,m, ←− h q t, 1]作为整个问题qt的编码。类似地,我们可以使用具有不同参数的相同双向LSTM将历史h i编码为e h i。在P AIR模块中,我们将e qt表示为q t,将e h i表示为h i,以计算问题q t和历史hi之间的匹配分数。������������αq,∗t= softmax(W q,∗Zq,∗t)(12)q∗t =m�i=1αq,∗t,i wqi(13)T −1��(19)66830图4.问题注意力的定性示例。基于参考(ref)的问题注意力主要强调名词(即“tablet”)和代词(即“it”)用于递归终止估计和视觉定位。基于回答(ans)的问题注意力突出显示属性词(即“whatcolor”,“big”)以记录问题类型并激活用于问题回答的视觉表示的特定属性。较深的颜色表示较高的权重。0注意,不同的单词对于问题表示有不同的贡献,用于不同的目的。图4中给出了一个例子。一方面,“tablet”和“it”这两个词应该强调递归终止估计和视觉定位。另一方面,“whatcolor”这个短语和“big”这个词应该突出显示以激活问题回答的视觉表示的特定属性。因此,我们使用自注意机制[35]将每个问题编码为两种形式:基于参考的问题特征q reft和基于回答的问题特征q anst。与先前的注意机制不同,先前的注意机制使用线性变换后跟双曲正切(tanh)激活,我们将自注意机制定义为:0z q, � t,i = L2Norm( f q, � q ( h q t,i )) (11)0其中 f q, � q ( ∙ ) 是一个非线性变换函数,W q, �0是可学习的参数,�∈{ref,ans}。通过对所有单词进行加权求和,计算出参考问题特征qreft和回答问题特征qanst。在推理和注意力模块中,我们将qreft表示为q,用于递归终止估计和视觉定位。视觉特征。具有注意机制的空间图像特征已广泛应用于许多视觉和语言任务,例如图像字幕和视觉问答。最近,基于FasterR-CNN框架提出了一种自底向上的注意机制[3]。ResNet模型被用作骨干,并在Visual Genome[19]数据集上进行训练以预测属性和类别。在本文中,我们应用自底向上的注意机制,并从每个图像中选择前K个区域提案,其中K简单地固定为36。0在使用递归视觉注意力获取视觉特征ˆvT后,我们进一步使用回答感知的问题特征qansT来改进视觉特征。动机是只有与问题相关的视觉内容属性对于回答问题是有用的(例如,图4中的“平板电脑是什么颜色?”,“它看起来大吗?”)。受LSTM和GRU中的门控操作的启发,我们进一步改进视觉特征:0˜vT = ˆvT ◦ fvq(qansT) (14)0其中非线性变换fvq(∙)的输出作为“视觉特征过滤器”,用于去除与回答问题无关的信息。联合嵌入。考虑到对话历史反映了对视觉内容的先前知识,我们通过关注所有历史来获得“事实”嵌入:0zhT,i = L2范数(fhq(eqT) ◦ fhh(ehi)) (15)0αhT = softmax(WhZhT) (16)0hfT =0i =0 αhT,iehi (17)0其中fh和fhq是非线性变换函数。通过对所有历史编码进行加权求和,计算“事实”嵌入hfT。由于我们已经获得了经过滤的视觉特征˜vT,回答感知的问题特征qansT和问题qT的事实嵌入hfT,我们将这些特征连接起来,并使用线性变换后跟一个双曲正切激活函数来获得最终的联合嵌入:0eJT = tanh(WJ[˜vT, qansT, hfT]) (18)0其中[∙]表示连接操作。联合嵌入进一步输入到回答解码器中。03.3.2 Gumbel采样0我们的对话代理在某些情况下需要做出离散决策,例如估计是否要查看历史记录以及应该与哪个历史记录配对。此外,我们希望梯度能够通过离散决策进行反向传播,以进行端到端的训练。为了实现这些目标,我们利用Gumbel-Max技巧[12]及其连续的softmax松弛[15,23]。具体而言,样本z可以从具有π = {π1, ...,πc}的分类分布中抽取,如下所示:0z = one hot0arg max k ∈{1,...,c}(log(πk)+ gk)0其中g = −log(−log(u)),u�unif[0, 1]。66840Gumbel-Max技巧的softmax松弛是用连续的softmax函数替换不可微的arg max操作:0ˆz = softmax((log(π) + g)/τ) (20)0在我们的工作中,将softmax函数的温度τ设定为1。在训练阶段,我们从方程19中获得一个one-hot向量z进行前向传播,并计算方程20中关于π的梯度进行反向传播。在测试阶段,我们贪婪地选择概率最大的样本,而不使用Gumbel样本g。04. 实验0我们提出的模型在两个真实世界的数据集上进行了评估:VisDial v0.9和v1.0[9]。在本节中,我们首先介绍数据集、评估指标和实现细节。然后,我们将我们的方法与最先进的模型进行比较,并提供定性结果。04.1. 数据集和设置0VisDial v0.9 [9]数据集基于MS-COCO[20]图像和标题进行收集。在一个双人聊天游戏中,一个玩家试图了解一个未见过的图像,并根据先前的对话提出问题,而另一个玩家观看图像并以自由形式回答。整个对话持续10轮,每个图像都有一个对应的对话。因此,VisDialv0.9数据集包含了MS-COCO训练图像上的83k个对话和验证图像上的40k个对话。最近,VisDial v1.0[9]数据集发布,其中包括额外的10k个Flickr图像上的对话。Flickr图像上的对话收集方式与MS-COCO图像上的对话类似。总体而言,新的训练集包含了123k个MS-COCO图像上的对话,这是VisDialv0.9的训练集和验证集的组合。验证集和测试集分别包含了2k个和8k个Flickr图像上的对话。与VisDialv0.9中的验证集不同,其中每个图像都与一个10轮的对话相关联,VisDialv1.0测试集中的对话长度是随机的,不超过10轮。04.2. 评估指标0与[9]中一样,我们在VisDial v0.9的每一轮和VisDialv1.0的最后一轮中以检索的方式评估了每一轮的回答。具体来说,在测试阶段,每个问题与一个包含100个候选答案的列表相关联。模型需要对候选答案进行排序,并返回一个排序列表以进行进一步的评估。检索性能评估的指标有:1)人类回答的平均排名(Mean);2)回答在前k个回答中的召回率(R@k),即人类回答在前k个回答中的存在性;3)人类回答在返回的排序列表中的平均倒数排名(MRR)。0至于VisDialv1.0,我们还使用了新引入的归一化折扣累积增益(NDCG),它惩罚具有高相关性但排名较低的答案。04.3. 实现细节0语言模型。我们对文本数据进行了以下预处理。与[9]中一样,我们首先将所有问题和答案转换为小写,将数字转换为单词,并删除缩写词,然后使用PythonNLTK工具包[1]进行分词。然后,对标题、问题和答案进行了填充或截断,分别设置为40、20和20。我们只保留在训练集中至少出现5次的单词,从而得到了VisDialv0.9的9795个单词的词汇表和VisDialv1.0的11336个单词的词汇表。我们的词嵌入是300维向量,使用预训练的GloVe[26]嵌入进行初始化,并在标题、问题和答案之间共享。本文中所有LSTM的隐藏状态维度都设置为512。训练细节。我们使用标准的交叉熵损失进行判别训练,并使用最大似然估计(MLE)损失进行生成训练。我们使用Adam[16]作为优化器,学习率为1×10-3,每个epoch后乘以0.5,逐渐减小到5×10-5。在每个全连接层之前,我们还应用了Dropout [31],丢弃率为0.5。其他设置使用PyTorch[2]的默认值。04.4. 比较方法0我们将我们提出的递归视觉注意力(RvA)模型与最先进的方法在判别和生成设置下进行了比较。根据编码器的设计,这些方法可以分为以下几类:基于融合的模型。早期的方法只是在不同阶段融合图像、问题和历史特征。这些早期的方法包括LF [9]和HRE[9]。基于注意力的模型。此外,一些方法在图像、问题和历史上建立了注意力机制。这些基于注意力的方法包括HREA[9]、MN [9]、HCIAE [22]和CoAtt[37]。基于VCoR的模型。最近的研究集中在视觉对话中的显式视觉共指解析(VCoR)。我们将我们的方法与基于VCoR的模型进行了比较,包括AMEM [29]和CorefNMN[18]。消融模型。此外,我们还评估了我们方法中以下特征和组件的个别贡献:1)RPN:我们用VGG-16[30]模型替换了区域建议网络,并使用pool5特征图的空间网格作为区域。2)Bi-LSTM:我们用普通的LSTM替换了双向LSTM。3)Rv:我们只考虑了RvA的终止条件,并用问题引导的注意力替换了递归注意力。4)FL:我们在Eq.14中撤销了“视觉特征过滤器”fvq(∙),该过滤器控制了视觉属性的激活。����������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������RPNBi-LSTMRvMRRR@1R@5R@10Mean0.637749.6780.8689.144.35✓0.641850.1781.1789.374.29✓0.639649.8381.1689.344.30✓✓0.643650.4081.3689.594.22✓0.653451.7882.2890.214.09✓✓0.662652.6982.9790.713.95✓✓0.655151.8182.3590.244.07✓✓✓0.663452.7182.9790.733.93Table 3. Ablations of discriminative models on the validation setof VisDial v0.9. RPN, Bi-LSTM and Rv indicate the usage ofregion proposal network, bidirectional LSTM, and recursive imageattention, respectively.ModelMRRR@1R@5R@10MeanLF [9]0.519941.8361.7867.5917.07HRE [9]0.523742.2962.1867.9217.07HREA [9]0.524242.2862.3368.1716.79MN [9]0.525942.2962.8568.8817.06CorefNMN [18]0.53543.6663.5469.9315.69HCIAE [22]0.538644.0663.5569.2416.01CoAtt [37]0.541144.3263.8269.7516.47CoAtt‡ [37]0.557846.1065.6971.7414.43RvA w/o RPN0.541743.7564.2171.8511.18RvA0.554345.3765.2772.9710.71Table 4. Retrieval performance of generative models on thevalidation set of VisDial v0.9. ‡ indicates that the model is trainedusing reinforcement learning.4.6. Qualitative ResultsThe qualitative results shown in Figure 5 and 6demonstrate the following advantages of our RvA model:Reasonable Recursions.Our RvA model achievesreasonable recursions represented by the recursive trees.These recursions can also be regarded as topic-aware dialogclips. Thanks to the reference-aware language feature, ourRvA model is able to handle unambiguous sentences withpronouns (e.g., “Is it sunny outside?”)and ambiguoussentences without pronouns (e.g., “How many are there?”).Note that it is hard to exhaust all these special cases using anatural language parser.Reliable Visual Attention. Our dialog agent successfullyfocuses on the correct region using recursive visualattention. In contrast, the question-guided visual attentionsometimes fails due to the ambiguous question.Onthe validation set of VisDial v1.0, we observed that:1) 56% of question-guided visual attention and 89% ofrecursive attention are reasonable for ambiguous questions;2) 62% of dialogs require at least one accurate co-referenceresolution.Since the recursive visual attention reliesheavily on historical visual attention, our dialog agent needsto establish a robust visual attention mechanism.If itwere otherwise, the agent would distrust historical visualattention and tend to learn more bias from generic languageinformation, which would hurt the visual dialog system.History-aware Skipping Pairing.One may argue thatPAIR module can be replaced with referring all the��������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������Figure 6. An qualitative example of the history-
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功