基于上下文的视觉对话中的上下文感知图网络设计与推理关系建模

71 浏览量更新于2023-10-25 收藏 1.09MB PDF 举报

关系推理

上下文感知

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10055面向可视对话的郭丹1、2王辉1、2张汉旺 3查正军4王猛1、2王猛1合肥工业大学大数据知识工程重点实验室2合肥工业大学计算机科学与信息工程学院3南洋理工大学4中国科学技术大学guodan@hfut.edu.cn，{wanghui.hfut，eric.mengwang}@ gmail.com，hanwangzhang@ntu.edu.sg，zhazj@ustc.edu.cn摘要视觉对话是一项具有挑战性的任务，它要求理解隐含的视觉和文本语境之间的语义依赖关系该任务可以参考具有稀疏上下文和未知图结构（关系描述符）的图模型中的关系推理，并且如何对底层上下文感知的关系推理建模是C CQ A1Q A1Q A2 Q A2Q A5 Q A5Q A6 Q A6Q7 Q7(a) Dialog Graph（Zheng等人，2019）[42]（文本语义图）ԚH一HC我(b)因子图（Schwartz et al. 2019年）[28]（多模态嵌入图）很危险为此，我们提出了一种新的上下文感知图（CAG）神经网络。图中的每个节点对应于一个联合语义特征，包括基于对象的（视觉）和历史相关的（文本）上下文表示。图形结构（对话框中的关系）使用自适应top-K消息传递机制迭代更新.具体来说，在每一个消息传递步骤中，每个节点选择最多的K个相关节点，并且仅重新图像I对象视觉文本语境节点：[vi;u]1N253 4从他们那里接收信息。然后，在更新之后，我们对所有节点施加图注意力以获得最终图问题Q(c) 上下文感知图（细粒度多模态上下文图）嵌入并推断答案。在CAG中，图中的每个节点都具有动态关系（不同的相关K近邻节点），并且只有最相关的节点才对上下文感知的关系图推理具有属性。在VisDial v0.9和v1.0数据集上的实验结果表明，CAG优于比较方法。可视化结果进一步验证了我们的方法的可解释性。1. 介绍近年来，视觉和语言之间的跨模态语义理解吸引了越来越多的兴趣，例如图像字幕[35，4，36，40，20]，参考文献[35，4，36，40，20环表达式[11，41，21]，和视觉问答(VQA)[3、18、38、39]。在这些作品中，视觉与语言的共指往往是一个回合完成的。以VQA为例，给出一个图像*通讯作者。图1.可视对话框的不同图形结构。在我们的解决方案中-问题（c），我们专注于问题条件上下文感知图，包括细粒度的视觉对象和文本历史语义。和问题时，代理识别与问题相关的感兴趣区域并推断答案。相比之下，可视化对话框[5，6，16]是VQA的多轮扩展。图像和多轮问答对（历史）之间的交互是渐进变化的，图像中对象之间的关系受到当前问题的影响。视觉对话是一个具有挑战性的任务，由于这些潜在的语义依赖性，在文本和视觉上下文中。因此，如何有效地实现上下文感知的关系推理是至关重要的任务。在关系推理中，利用图结构来实现图像和历史的上下文感知共指。除了图中所示的涉及不同多模态实体的图结构之外。1、基于先验图Hu112N…………RCNN…历史H一个年轻的女孩坐在一个坐在椅子上吃蛋糕C问答1QA-那女孩多大了？3.第三章。蛋糕是什么颜色的香草配白红糖霜。有包装纸吗它？是的上面有装饰吗Q10056考虑固定图注意或嵌入的模型，如固定全连通图（FGA [28]），固定一次图注意进化（FGA [28]）和固定单向消息传递（GNN [42]）。在本文中，我们的灵感来自视觉对话任务的性质，即。多轮会话中的动态多模态共指。图2示出了我们的基于图的方法的灵活性和自适应性，其通过自适应top-K和自适应定向消息传递迭代地演进。我们的方法的意义在于，它利用了图像历史的协同参考在一个动态的自适应图学习模式。为了理解随时间变化的复杂的多模态共指关系，我们提出了一个上下文感知图（CAG）神经网络。如图图1（c）中的每个节点都是一个多模态的上下文表示，它既包含视觉对象又包含文本历史上下文;每个边缘包含图像中场景对象的细粒度视觉交互。在CAG中，所有的节点和边都通过自适应的top-K消息传递机制迭代更新. 如图2、在每一个消息传递步骤中，每个图节点自适应地选择K个最相关的节点，只接收来自它们的消息。这意味着我们的CAG解决方案是一个不对称的动态有向图，它观察自适应消息传递的图结构。请注意，迭代CAG图推理被示出为人类多步推理的有效实现最后，在多圈图推理之后，我们对所有节点施加图注意力，以获得用于答案预测的最终图嵌入。图2提供了所提出的CAG的概述。具体而言，CAG由三个部分组成：（1）图形构造（第二节）3.1），该方法基于对话历史和图像中对象的表示来构造上下文感知图;（2）迭代动态有向图推理（Sec. 3.2），通过T步动态有向图推理迭代更新上下文感知图;（3）图形注意力嵌入（第二节）3.3），其应用图注意力来聚集富节点语义。然后，我们联合利用生成的图、编码的问题和历史上下文特征来推断最终答案。捐款摘要如下。提出了一种用于视觉对话的上下文感知图（Context-Aware Graph，CAG）神经网络（1）建立了一个包含各种可视对象和历史语义的细粒度图表示。每个节点上的上下文线索不仅涉及视觉-文本语义的联合学习，而且涉及图像I、问题Q和历史H之间的迭代关系推理。(2)为了消除节点之间的无用关系，我们设计了一种自适应的top-K消息传递机制和一个图注意挑选更多相关的上下文节点。每个节点都有不同的相关邻居（不同的关系）.对于同一个节点，入站和出站消息会随着迭代的不同而不同。(3)在VisDial v0.9和v1.0数据集上进行了大量的实验，CAG在传统的基于图的方法中获得了新的最先进的性能2. 相关工作可视对话框。对于视觉对话任务[5，6，16]，当前基于编码器-解码器的工作可以分为三个方面。(1)基于融合的模型。后期融合（LF）[5]和分层递归网络（HRE）[5]直接编码多模态输入并解码答案。(2)基于注意力的模型为了提高性能，各种注意力机制已被广泛用于任务中，包括历史条件图像注意力（HCIAE）[23]，顺序共同注意力（CoAtt）[34]，双重视觉注意力（DVAN）[9]和复发性双重注意力（ReDAN）[7]。（3）视觉共指消解模型。一些基于注意力的研究集中于外显视觉共指消解。Seo等人[29]设计了一个注意力记忆（AMEM）来存储以前的视觉注意力分布。Kottur等人[15]利用神经模块网络[2]来处理单词级的视觉共指解析。Niu et al. [24]提出了一种递归视觉注意力（RvA）机制，可以递归地回顾历史以改善视觉注意力。图神经网络（GNN）。图神经网络在各种任务中引起了人们的注意[32，22，17，8，26]。其核心思想是将图形结构表示与神经网络相结合，适合于推理型任务。Liu et al. [31]提出了第一种基于GNN的VQA方法，该方法构建了图像的场景图并解析了问题的句子结构，并计算了它们的相似度权重。后来，Norcliffe-Brown et al.[25]对以该问题为条件的图形表示进行建模，并利用新颖的图形卷积来捕获不同检测对象节点之间的交互。至于视觉对话，只有两个相关的作品。Zheng等人[42]提出了一种EM风格的GNN进行文本共指;该算法将字幕和前一个问答对视为观察节点，将当前答案视为未观察节点，利用EM算法对文本上下文进行推理。Schwartz等人[28]提出了一种因子图注意机制，该机制在所有多模态特征上构建图并估计它们的相互作用。图1说明了我们的工作和其他两个基于图的模型之间的差异[28，42]。在本文中，我们建立了一个细粒度的上下文感知图，它涉及特定对象和历史片段之间的上下文共引用的指导下，词级的除了细粒度的物体-10057解码器W胡适Q SJJMM图像I节点：[vi;u]T步动态有向图推理注意力图候选人答案的预测排名A：是的图2.Context-Aware Graph的总体框架我们的上下文感知图是由视觉上下文{vobj}和文本上下文u构建的。节点之间的动态关系在word-levelquestion命令q（t）的指导下经由前K个邻居的消息传递迭代地推断。例如，图中的红色和蓝色节点分别具有不同的前2个相关邻居。节点，以及连接边上的消息传递流的不同方向在节点表示上的I（视觉上下文）的层次特征的基础上，图中利用了H和Q我们实现迭代的动态消息传播的边缘聚合的答案预测节点之间的关系。概括地说，我们通过上下文感知的关系推理来实现跨模态语义理解。3. 我们的方法其中h0是图像字幕C的嵌入特征。由于对话中的问题通常至少有一个亲名词（例如：、我们采用问题条件注意来聚合历史的语篇语境线索，这可以被认为是语篇共指。整个过程如下：视觉对话任务是一种关系学习，它涉及图像、问题和历史等内隐语境之间复杂的语义依赖关系如何建模拉斯 =tanh（（W q）1+W UH）;Hαh=softmax（Ph zh）;上下文感知推理是关键的。本文主要提出了一种动态有向图推理来迭代地审查多模态上下文线索。给定图像I和对话历史H={C，（q1 ，a1），.，（q<$−1，a<$−1）}，其中C是图像标题，（q，a）是任何问题-答案u=Σℓ−1j=0αh，j呃，（一）pair，而turn是当前对话框的回合数。该模型的目标是为当前问题推断出一个确切的答案-通过对100个候选答案的列表进行排序来测试问题QA={a（1），.，a（100）}。以下子章节描述了其中Wq，Wh∈Rd×d和 Ph∈R1×d是可学习的参数，1∈R1×d是所有元素都设为1的向量αh，j和UH分别是αh的第j个元素，嗯。 u∈Rd×1表示与历史相关的文本语境ℓ ℓ提出的CAG模型的细节。3.1. 图构建特征表示。给定图像I，我们使用Faster-RCNN [ 1 ]提取对象级特征，并应用具有激活tanh的单层MLP将它们编码为视觉特征序列V ={v1，.，v n} ∈Rd×n，其中n是检测到的对象的数量。对于目前的问题-对于 Q ，我们首先将其转换为词嵌入向量 WQ=（W1，.，w m）∈Rdw×m，其中m表示Q中的记号数.然后我们使用LSTM来编码WQ转换为序列U Q=（h q，...，h q）∈ Rd×m，取并进一步用于构造上下文感知图。图形表示。视觉对话是一种持续的对话。图像中不同对象之间的关系经常根据会话内容而动态变化。为了深入理解会话内容，我们构建了一个上下文感知图，它同时考虑了视觉和文本上下文。图结构（对象之间的关系）将在稍后迭代地通过自适应的前K个消息传递机制推断3.2. 这里我们构造一个图G={N，E}，其中第i个节点Ni表示联合上下文特征，对应于第i个视觉对象特征vi及其相关上下文1m最后向量hq作为问题的一个层次的表示，特征ci;有向边Ej→i表示关系-Q，记作qs=hq。类似地，我们采用另一个LSTM来提取特征U H=（h0，.，h<$−1）∈ Rd×<$（i，j∈[1，n]）.考虑到迭代步骤t，该图表示为前K邻居52 1N612Top-K：{4，5}{2，5}31{2，3}N{}2 12 142 13N{1，2}3N…N3N321N对象{3，4 54 55{3，4 54 5eg历史H1A（1）Top-KA（2）恩河Top-K恩河A（T）Top-KH…uu333N相邻相关矩阵学习h 0H1发送级注意力qshβ-1q（1）qsWq（2）Wq（T）词级有奶酪吗词级有奶酪吗……问题Q关注吃披萨吗关注吃披萨吗W词级有奶酪吗注意吃披萨吗qsLSTM披萨上有奶酪吗图形节点注意131225文本上下文使用…...……RCNN…视觉context {vobj}融合有五个学生在拍两张披萨的照片。LSTMLSTM是在室外吗？号有多少人？一个.都是男人吗？号LSTM10058我我WWl→iWWQQM1 2 3w我我q= α w，QQG（t）={N （t），E（t）}。N（t）有两种情况：.N（t）=（N（t），...，N（t））;1n（2）N（t=1）=[v;u];N（t>1）=[v;c（t）]，我我我我其中[; ]是连接操作，文本上下文u由Eq. 1和N（吨）∈R2d×n .对于节点N（t）在迭代步骤t中，视觉特征v专注于c（t）的快速学习。是固定的，我们3.2. 迭代动态有向图推理可视化对话框包含图像、问题和历史之间的隐含关系。从技术的角度来看，视觉对话的关键性质是多步推理和图像历史共同参考。因此，我们通过在动态多模态共指模式中自适应地捕捉相关的视觉历史线索来解决这个问题。在这里，我们先从-利用attendedquestion命令{q（t）}来指示消息在图结构中的边上传递，t∈[1，T]，图3.自适应Top-K消息传递单元.在得到问题com m和q（t）之后，我们测量图中不同节点之间的相关性。我们设计了图G（t）的邻接相关矩阵A（t）∈ Rn×n，其中每个值A（t）表示图G（t）的邻接相关矩阵。边E（t）的连接权。我们来了解一下其中T是迭代次数;模仿人类矩阵A（吨）l→i通过计算每对两个多次查看不同的关键字那么，注意，在我们的解决方案中，如图在每个迭代步骤中，通过两个方面更新上下文感知图：（1）相邻相关学习。根据指令-在当前查询命令q（t）的情况下，每个节点基于相邻相关矩阵自适应地选择前K个最相关的节点作为其邻居;（2）top-K消息传递。为了捕捉图中的动态关系，每个节点从其前K个邻居接收消息，并聚集这些消息以更新其上下文特征。基于邻近相关学习的条件相关反馈。为了推断出正确的答案，我们必须发现问题Q的准确语义。在每一个-在交互步骤t中，回顾Q中的不同单词有助于定位关注的关键词。基于词级特征在N（t）中的节点在q（t）的引导下。A（t）=（WN（t））<$（（WN（t））<$（Wq（t），（4）其中W1∈Rd×2d，W2∈Rd×2d和W3∈Rd×dw是可学习的参数，并且表示Hadamard乘积，即，元素乘法事实是，在图像中总是仅存在与问题相关的检测到的对象的一部分（即，稀疏关系）。而且，在这些对象中，每一个对象总是与大多数其他对象无关。因此，图中的每个节点都需要与最相关的邻居节点连接。为了学习节点N（ t ）的一组相关邻居S（ t ），i∈[1，n]，t∈[1，T]，我们采用排名策略为：S（t）=topK（A（t）），（5）问题的序列U Q=（h q，...，h q），我们雇用了一个ii1m自注意力，以获得单词注意力分布α（t）。然后，词嵌入序列WQ=（w1，...，（w/m）其中topK返回输入向量的K个最大值的索引，并且A（t）表示相邻向量的第i行。与α（t）联合聚合以得到新的关注的ques。特征q（t）。我矩阵因此，每个节点具有其独立的邻居S（吨）我Wf（t）=L2Norm（f（t）（UQ））;如图2（topK，K = 2），即使是同一个节点也可以在不同的迭代步骤中有不同的邻居意思是-格（t）Q （吨）（吨）我们的解决方案是一个自适应的动态图推理αq softmax（Pqzq）;（t）Zerwwq，jJj=1（三）过程我们的CAG图是一个非对称有向图。基于Top-K消息传递的关系图学习. 图结构现在是关系感知的。每个节点可以受到其K个邻居节点的影响我们传播的关系-其中f（t）（. ）表示两层MLP，P（t）∈ R1×d. f（t）（. ）和P⑴独立地为CAG中的Top-K消息传递更新G（t）G（t+1）节点：G（t）中的[v;c（t）]更新所有节点和边2 1我我1N2 13N3NG（t+1）254 5Q4 53 4单词级注意力q（t）W消息传递A（t）{}Top-K：2 123N3Top-K邻居：1 {节点j1，..，jK}N{}4 5{节点i1，条件性提问相关反馈联系我们45.10059我W我通过消息传递向每个节点提供状态提示。服用节点N（t）在第t个步骤中作为示例，它接收消息q q（t）在第t个迭代步骤中学习。 q（t）∈Rdw×1被定义为词级的第t个问题命令。从其最相关的K个邻居节点{N，j }，在哪里j∈ S（t）.10060j→ij→iJj→i我我我我我SJj ii我我我为了评估相关邻居的影响B（t）然后将输出嵌入e_i馈送到判别式e_i中。归一化边E（t）的连接权重（即：，N（t）[23]第23话选择最高概率的答案能力作为最后的预测。培训的细节→N（t））。 A（t）表示的相邻相关权重i j→i设置在第二节中进行了解释。4.1.边E（t）。如Eq.6，B（t）归一化权重-j→i j →is的邻域集{A（t）}（j∈S（t））的softmax4. 实验功能此外，在问题命令q（t），m（t）计算入站消息4.1. 实验装置wj→i邻居N（t）到N（t）。最后，N（t）对所有入站消息进行求和，得到最终的消息特征M（t）. 整个过程如下：数据集。实验在基准Vis-拨打v0.9和v1.0 [5]。 VisDial v0.9包含83k和40kCOCO-train和COCO-val图像上的对话框[19]，共1.2MQA对。 VisDial v1.0是一个扩展n[B（t）]=softmax（[A（t）]）;VisDial v0.9，它在Flickr上增加了额外的10k对话框j→i（吨）j∈S（t）（吨）j→i（吨）图像.新的训练、验证和测试分割分别包含123k、2k和8k对话框。VisDi中的每个对话框mj→i=（W4Nj）<$（W5qw）;（六）al v0.9由每个图像的10轮QA对组成在（t）Σ（吨）（吨）Mi=j∈S（t）Bj→imj→i，测试VisDial v1.0的拆分，每个对话框都有灵活的m轮其中m在1至10的范围内。实施详情。所提出的方法是简单的-其中 W4∈ Rd×2d和 W5∈ Rd×dw是可学习的参数。 M（t）∈ Rd×1表示到N（t）的汇总消息，并且如下更新N（t）到N（t+1）：. c（t+1）=W6[c（t）;M（t）];在Pytorch的平台上。我们构建包含在训练分割中至少出现4次的单词标题、问题和答案分别被截断为40、20和20。对话框中的每个单词都被GloVe em嵌入到一个300-dim矢量我我我（七）bedding initialization [27]. 我们采用亚当优化器[14]N（t+1）= [vi;c（t+1）]，−4i i，初始化学习率为4×10。学习-其中W6∈Rd×2d是一个可学习的参数。方程中的参数W1和W6每个迭代都共享4×7 在执行T步消息传递迭代之后，最终节点表示被表示为N（T+1）。3.3. 图形注意力嵌入到目前为止，图N（T +1）中每个节点上的上下文学习不仅集成了原始的视觉和文本特征，而且还涉及迭代的上下文感知关系学习。因为大多数问题只是关注对于图像场景中的一小部分对象，我们应用一种问题条件图注意机制来关注所有节点。图形注意学习如下：在每10个历元之后，采样率乘以0.5。我们设定模型中的所有LSTM具有1层和512个隐藏状态，并对注意层和最后一个融合层应用比率为0.3的Dropout [30最后，使用多类N对损失训练模型[10，23]。4.2. CAG的消融研究我们评估了模型CAG中的两个主要超参数--邻居号（K）。我们测试不同的邻居数K∈ {1，2，4，8，16，36}。如图4时，K=8为最佳参数设置。性能下降显著，克拉斯诺达尔g=tanh（（Wg1q）1千克+W N（T+1））;在K8中。<这意味着，如果所选的Neigh-bor节点不足，关系消息不能αg=softmax（Pgzg）;阿罗克gΣn=j=1αg，jN（T+1），（八）全面推广。设置邻居号码时当K >8时，节点接收到来自邻居的冗余无关消息会干扰模型的推理能力因此，我们在下面设置邻居数K=8其中Wg1∈ Rd×d和Wg2∈ Rd×2d是可学习的参数. eg ∈R2d×1表示关注图嵌入.最后，我们将其与历史相关的文本语境相u和多模态问题特征qs，以输出多模态嵌入es：e=tanh（We[eg;u;qs]）。（九）G210061做实验。迭代步骤（T）。T表示达到答案的关系推理步骤的数量。我们测试了不同的步骤T来分析迭代推理的影响。如表1所示，CAG的性能随着T的增加而逐渐提高。我们在T=3时具有最佳性能，将R@1从53.25（T= 1）提升到54.64。亲-1006267.467.166.866.566.2MRR54.554.153.753.352.952.5R@1模型平均值↓MRR ↑R@1 ↑R@5 ↑R@10↑关注的模型[23] 4.81 62.22 48.48 78.75 87.59AEM [29] 4.86 62.27 48.53 78.66 87.43CorefNMN-VGG [15] 4.53 63.60 50.24 79.81 88.51电话：+86-21 - 6888888传真：+86-21 - 6888888VAN-VGG [9] 4.38 63.81 50.09 80.58 89.03Top1Top2Top4Top8 前16名前36名R@583.783.483.182.882.5Top1Top2Top4Top8 前16名前36名Top1 Top2 Top4 Top8 前16名前36名R@1091.491.29190.890.6Top1 Top2 Top4 Top8 前16名前36名RvA-VGG [24] 4.22 64.36 50.40 81.36 89.59HACAN-VGG [37] 4.32 64.51 50.72 81.18 89.23Graph-based模型GNN [42]4.5762.8548.9579.6588.36[28]第二十八话4.6362.9449.3579.3188.10CAG-VGG（我们的）4.1364.9151.4581.6090.02CAG（我们的）3.7567.5654.6483.7291.48表2. VisDial val v0.9与VGG功能的性能比较。我们的模型与VGG功能表示为CAG-VGG。图4. VisDial val v0.9上邻居号K将R@1从54.64降至53.74。这也可以解释。图5-7证明了注意的话总是变化的CAGT= 23.9166.9353.7683.1190.96在推理过程中。它通常首先识别T= 33.7567.5654.6483.7291.48问题中的目标，而不是关注相关的对象，T= 4 3.83 67.28 54.11 83.46 91.17最后观察到视觉和无推断的CAG-4.11 65.73 52.56 82.38 90.36表1.VisDial val v0.9上不同迭代步骤T和主要组件的消融研究定态迭代图推理是有效的。可视化结果如图所示。5进一步验证了这一结果。当T >3时，性能略有下降这意味着如果图中的关系已经被完全推断出来，进一步的推断就没有帮助了。VisDial数据集中的问题是从相对简单的自由形式的人类对话中收集的。T= 3的设置在下面的实验中，我们设定T=3。主要成分比较。提出了几种用于消融研究的变体。CAG w/o Infer表示CAG去除了Sec中的整个动态有向图推理。3.2.这意味着图中包括所有节点和边的关系将不会被更新和推断。CAG w/ou表示没有文本历史上下文u的CAG，其中整个图仅描述视觉上下文线索。CAGw/o Q-att表示CAG对问题Q没有词级注意。CAG w/o G-att删除了图形注意模块，其中所有节点表示都被平均池化以获得最终的图形嵌入。如表1所示，与CAG相比，CAG w/o Infer使MRR从67.56显著下降至65.73。结果表明，图推理在关系推理中具有良好的性能.学习节点之间的隐含关系有助于预测最终答案。CAG w/ou使R@1从54.64显著下降至51.83。这表明视觉-文本联合语境学习是必要的。节点之间的关系不能完全推断出与文本线索u。CAG w/o Q-att，它取代了ques-att。具有优先级特征q的操作命令{q（t）}，文本上下文线索来推断答案。CAG w/o G-att删除了最后的图形注意力模块，将R@1从54.64降至53.99。虽然每个节点都涉及关系推理，但并非所有节点都与当前问题相关。因此，关注关系图中的相关节点有助于推断出准确的答案。测试VGG功能。由于现有的一些方法都是使用VGG特征进行评估的，为了公平起见，我们也使用VGG特征对我们的模型进行了表2显示我们的CAG-VGG仍然优于仅利用VGG特征的先前方法。与CAG-VGG相比，CAG获得了显着的性能提升。这表明对象区域特征提供了比VGG特征更丰富的视觉语义。4.3. 比较结果基线方法。在我们的实验中，比较的方法可以分为三类：（1）融合模型（LF [5]和HRE [5]）;（2）注意力模型(HREA[5]，MN [5]，HCIAE [23]，AMEM [29]，CoAtt[34]，[ 15 ]，[16]，[17]，[18]，[19][13][14][15][16][17][18][19][1[28][29][29][29][29]VisDial v0.9上的结果。如表3所示，CAG considerance优于大多数方法。与基于融合的模型LF[5]和HRE[5]相比，我们的CAG的R@1性能显著提高，分别提高了10.8%和9.9%。对于基于注意力的模型，与DAN[13]相比，CAG在所有评估指标上都优于DAN。HACAN[37]报告了最近的最佳结果。它首先使用N对损失进行预训练，然后使用错误的答案“篡改”的真实历史数据扩增。最后，真实和虚假的历史被用来通过强化学习微调其模型。如果没有微调策略，我们的模型CAG在平均值，R@5和R@10上仍然优于HACANws模型步骤T平均值↓MRR↑R@1↑R@5↑R@10↑T= 14.0266.3253.2582.5490.55CAG，不含T= 34.1965.2651.83 81.5590.21CAG w/o Q-attT = 33.9166.7053.74 82.7590.89CAG w/o G-attT = 33.8666.9853.99 83.0891.04CAGT= 33.7567.5654.64 83.7291.4810063W模型VisDial v0.9（val）VisDial v1.0（测试标准）平均值↓ MRR↑ R@1↑ R@5↑ R@10↑平均值↓ NDCG↑ MRR↑ R@1↑ R@5↑ R@10↑基于注意力的模型基于图的模型GNN [42]4.5762.8548.9579.6588.364.5752.8261.3747.3377.9887.83[28]第二十八话4.6362.9449.3579.3188.10------FGA [28]4.3565.2551.4382.0889.564.5152.1063.7049.5880.9788.55CAG（我们的）3.7567.5654.6483.7291.484.1156.6463.4949.8580.6390.15表3.使用判别解码器对VisDial v0.9和v1.0数据集进行主要比较[23]。在这里，我们主要比较我们的方法与基于图的模型。GNN[42]是最近提出的一种方法，它构建了一个图，探索文本历史之间的依赖关系相比之下，我们的CAG在视觉对象和文本历史上下文上构建了一个图与GNN相比，我们的模型在R@1指标上提高了5.7%。FGA[28]是最先进的基于图形的视觉对话方法，它将候选答案嵌入特征A视为新的上下文线索，并将其引入多模态编码训练中。该操作大大改善了他们的结果（FGA w/o Ansvs. FGA）。在没有候选答案嵌入的情况下，我们的模型仍然表现出更好的结果，将R@1从51.43提高到54.64，并将均值从4.35降低到3.75。这些比较表明，在我们的解决方案中，细粒度的视觉-文本联合语义有助于答案推理。VisDial v1.0上的结果。提出了一种新的度量NDCG（归一化贴现累积增益）[33]来评估定量语义，这会惩罚低排名的正确答案。其他度量用于评估候选答案列表中的地面实况NDCG在答案集中处理一个以上的合理答案。与基于注意力的模型相比，如上所述，HACAN[37]对模型进行了两次训练，Synergistic[10]对候选答案进行了两次排序。在没有重新排序或微调的情况下，在端到端训练下，我们的模型在平均值上仍然表现得更好。与基于图的模型相比，我们的模型大大提高了NDCG值。CAG的表现分别优于GNN[42]和FGA[28] 3.8%和4.5%。这个人这证明了我们的图可以推断出更合理的答案。此外，我们给出了更直观的可视化结果，CAG解释的推理过程中详细的节。4.44.4. 定性结果为了进一步证明我们的解决方案的可解释性，我们在图中显示了一个迭代图推理的例子五、在图形注意力地图中选择两个最显著的对象（在迭代步骤t=1中，问题集中在单词“snowboarder”（目标）上。通过回顾对话上下文，“滑雪板”与“半空中”和“摄影师”相关。上述两个显著对象从它们的相关邻居对象节点接收然后，在迭代步骤t=2中，问题将注意力改变到“滑雪板运动员”和“穿着”这两个词（相关对象）。这两个目标节点在当前问题组合的指导下动态更新它们的邻居节点。和q（t=2）。在最后一步t=3中，问题Q关注单词图中的边连接通过接收来自穿戴相关节点的消息来进一步细化。通过多步消息传递，我们的上下文感知图逐步发现更多的隐式问题相关的视觉和文本语义。最后，覆盖在图像I上的图注意图也证明了图推理的有效性。我们在图中提供另一个例子6.在多轮问答对中显示边关系和节点的注意力权重根据当前问题动态变化。我们的上下文感知图通过自适应top-K消息传递有效地模拟了这种动态推理过程每个节点只从最相关的节点接收强消息在不同轮次覆盖图像的图形注意力图进一步验证了LF [5]5.7858.0743.8274.6884.075.9545.3155.4240.9572.4582.83HRE [5]5.7258.4644.6774.5084.226.4145.4654.1639.9370.4581.50HREA [5]5.6658.6844.8274.8184.36------美国明尼苏达州[5]5.4659.6545.5576.2285.375.9247.5055.4940.9872.3083.30[23]第二十三话4.8162.2248.4878.7587.59------AEM [29]4.8662.2748.5378.6687.43------[34]第三十四话4.4763.9850.2980.7188.81------CorefNMN [15]4.4564.1050.9280.1888.814.4054.7061.5047.5578.1088.80DAN[9]3.9366.6753.6282.8590.724.3654.7062.5848.9079.3589.03RVA [24]3.9366.3452.7182.9790.734.1855.5963.0349.0380.4089.83协同效应[10]-----4.1757.3262.2047.9080.4389.95DAN [13]4.0466.3853.3382.4290.384.3057.5963.2049.6379.7589.35哈坎[37]3.9767.9254.7683.0390.684.2057.1764.2250.8880.6389.4510064…原始图像t= 1问：滑雪者穿什么？0.140.07 0.070.420.140.16t= 2问：滑雪者穿什么？0.06 0.070.34 0.310.15t= 3问：滑雪者穿什么？0.10.04 0.020.18历史注意力分布C：0.41问1：0.17Q2：0.09第三问：0.18Q4：0.15注意力图0.190.170.120.130.170.130.070.110.210.240.150.180.180.150.210.190.200.210.070.220.270.230.170.490.52A/GT：白色滑雪裤，白色夹克，粉色围兜，黑色靴子，谷歌眼镜，棒球帽。对话历史C：一个人在滑雪板上跳到半空中，而一个人在拍照Q1：有多少人A1：2人。Q2：是晴天吗？A2：阳光明媚，但部分多云。Q3：人的性别是什么3：2男性，但很难确认。Q4：摄影师穿什么？一件黑色的毛衣，裤子.图5.迭代上下文感知图推理的可视化结果。它显示了对问题Q的词级注意，以及图像I中前2个关注对象（红色和蓝色边界框）的动态图形推理。每条边上的数字表示归一化的连接权重，显示从邻居传播的消息影响。有一些缩写如下：问题（Q）、生成的答案（A）、标题（C）和地面实况（GT）。图6.渐进式多轮对话推理的可视化结果。每一列显示覆盖图像I的图形注意力图和最显著对象的消息传递过程的最后一步在这些图形注意力地图中，边界框对应于前3个被关注对象节点，并且数字与边界框一起表示节点注意力权重。证明我们的图在关系推理上的适应性。此外，我们在VisDial v1.0上显示了关注词云的可视化。图7描述了问题Q在不同迭代步骤中的词级注意力分布。在迭代步骤t=1中，所提出的CAG倾向于问题中的代词，例如，“那里”，“它”，“你”，“他们”。CAG试图解决文本共指问题，t= 1t= 2t= 3最初的关系推理。然后，在步骤t=2中，CAG更倾向于关注与目标对象相关的名词或关联词，图像中的对象，例如，“人”、“建筑”、“树”。这意味着CAG倾向于推断不同相关对象之间的关系，即视觉参考。在时间步t=3中，模型考虑描述对象的属性或关系的词，例如，“颜色”、“磨损”、“其他”、“在”。所有这些现象表明，我们合理和积极地促进迭代推理过程中使用的上下文感知图CAG。5. 结论本文提出了一种用于可视化对话的细粒度上下文感知图（Context-Aware Graph，CAG）神经网络，它同时包含可视化对象和文本历史上下文语义。图7.所有问题的关注词云的可视化{Q}在VisDial v1.0上的不同迭代步骤抽搐提出了一种自适应top-K消息传递机制，迭代地探索节点的上下文感知表示，并更新边缘关系，以获得更好的答案推断。我们的解决方案是一个动态的有向图推理过程。在VisDial v0.9和v1.0数据集上的实验结果验证了该方法的有效性，并显示了可解释的可视化结果。确认本工作得到国家自然科学基金项目 61725203 、61876058、61732008、61622211和U19B2038的资助。问3：他看起来像是在比赛中吗？0.150.280.22A/GT：是。0.310.390.160.130.260.140.120.100.130.130.110.180.210.11问2：网球场是内场吗？答2：没有。问1：这个人是职业球员吗？答1：是的C：一个拿着球拍站在网球场上的人0.110.140.140.160.120.21Q5：他准备好击球了吗？0.15 0.190.160.16A/GT：是的。Q4：这是的特写那个男人0.33 0.200.19A/GT：没有。对话历史原始图像0.230.240.17图注意力地图图中最后一条10065引用[1] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在CVPR中，第6077-6086页，2018年。3[2] Jacob Andreas，Marcus Rohrbach，Trevor Darrell，andDan Klein.神经模块网络。在CVPR，第39-48页，2016年。2[3] Stanislaw Antol ， Aishwarya Agrawal ， Jiasen Lu ，Margaret Mitchell，Dhruv Batra，C.劳伦斯·齐特尼克和德维·帕里克Vqa：可视化问答。在ICCV，第2425-2433页，

下载后可阅读完整内容，剩余1页未读，立即下载