没有合适的资源?快使用搜索试试~ 我知道了~
Zilong Zheng∗ 1, Wenguan Wang∗ 2,1, Siyuan Qi∗ 1,3, Song-Chun Zhu 1,366690通过结构和部分观察推理视觉对话01 加利福尼亚大学洛杉矶分校,美国 2 Inception人工智能研究所,阿联酋 3国际人工智能和机器人自主中心(CARA)0zilongzheng0318@ucla.edu, wenguanwang.ai@gmail.com, syqi@cs.ucla.edu, sczhu@stat.ucla.edu0https://github.com/zilongzheng/visdial-gnn0摘要0我们提出了一种新颖的模型来解决具有复杂对话结构的视觉对话任务。为了根据当前问题和对话历史获得一个合理的答案,对话实体之间的底层语义依赖关系是必不可少的。在本文中,我们将这个任务明确地形式化为一个具有部分观察节点和未知图结构(对话中的关系)的图模型中的推理。给定的对话实体被视为观察节点。给定问题的答案由一个具有缺失值的节点表示。我们首先引入了一个期望最大化算法来推断底层的对话结构和缺失的节点值(期望的答案)。基于此,我们进一步提出了一种可微分的图神经网络(GNN)解决方案,以近似这个过程。在VisDial和VisDial-Q数据集上的实验结果表明,我们的模型优于比较方法。还观察到我们的方法可以推断出更好的对话推理的底层对话结构。01. 引言0视觉对话在计算机视觉和自然语言处理的交叉领域引起了越来越多的研究兴趣。在这样的任务中,给定一个图像作为上下文输入,与一个总结性标题和一个问题-答案对的对话历史相关联。目标是回答关于图像的自然语言问题[9],或者根据对话历史恢复后续问题[22]。尽管它对人工智能和人机交互具有重要意义,但它提出了一系列更丰富的挑战(见图1中的示例)-需要表示/理解一系列多模态实体,并推理它们之间丰富的语义关系/结构。理想的推理算法应该能够找出底层的0� 同等贡献。0图1.视觉对话任务的示意图。左:上下文图像。中:图像标题、对话历史、当前查询问题和预测答案。右:对话中节点之间的底层语义依赖关系(较深的绿色链接表示较高的依赖关系)。0底层语义结构并根据此结构给出一个合理的答案。以前的研究通过从卷积神经网络学习的图像表示和从循环顺序模型学习的语言(即问题-答案对、标题)表示嵌入丰富的特征来探索这个任务。他们令人印象深刻的结果充分证明了在这个领域挖掘和融合多模态信息的重要性。然而,他们在对话中丰富的关系信息方面很大程度上忽视了关键作用。虽然一些研究[67,62]利用共同注意机制来捕捉跨模态的相关性,但他们的推理能力仍然非常有限。他们通常将多模态特征连接在一起,并通过神经网络将连接的特征直接投影到答案特征空间中。一方面,他们的推理过程由于对话的单体向量表示而没有充分利用这个任务中丰富的关系信息。另一方面,他们的前馈网络设计未能深入和迭代地挖掘和推理不同对话实体之间的信息以及固有的对话结构。在这项工作中,我们考虑恢复对话结构并推理问题/答案的问题。66700我们将对话表示为一个图,其中节点是对话实体,边是节点之间的语义依赖关系。给定对话历史作为输入,我们对图的一部分进行了观察。然后,我们将问题形式化为推断未观察节点的值(例如,查询的答案)和图结构的问题。这个问题的挑战在于对话结构没有标签。对于每个单独的对话,我们需要以无监督的方式恢复潜在的结构。然后,可以根据图结构迭代地推断节点的值:我们可以根据图结构推理节点,并根据节点的值进一步改进结构。为了解决这个挑战,我们的洞察力是图结构本质上为图中所有节点指定了一个联合概率分布。因此,我们可以将查询的对话实体视为数据中的缺失值,将对话结构视为分布的未知参数。具体而言,我们将对话编码为马尔可夫随机场(MRF),其中一些节点是观察到的,目标是推断节点之间的边权重以及未观察节点的值。我们提出了一个基于期望最大化(EM)算法的解决方案,并提供了一种图神经网络(GNN)方法来近似这种推断。我们的模型提供了一个适用于不同对话设置的统一框架(详见第4节)。此外,它通过一种隐式学习方式提供了额外的事后可解释性,以显示对话结构。我们在VisDial v0.9 [9]、VisDial v1.0[9]和VisDial-Q[22]数据集上评估了我们方法的性能。实验结果证明,我们的模型能够自动解析对话结构并推断出合理的答案,并取得了有希望的性能。02. 相关工作0图像字幕旨在自动对图像进行场景级的自然语言注释,这是计算机视觉领域长期以来的一个活跃研究领域。早期的工作[46,18]通常将这个任务视为一个检索问题,即从一组预定的字幕模板中找到最合适的字幕。现代方法[40, 25,59]主要基于CNN-RNN框架,其中RNN利用输入图像的CNN表示输出一个词序列作为字幕。通过这种方式,他们摆脱了对预定义的、表达受限的字幕候选池的依赖。之后,一些方法[63, 1,35]尝试将基本的CNN-RNN架构与神经注意机制相结合,如语义注意力[35]和自下而上/自上而下的注意力[1]等,以此命名一些代表性的方法。该领域的另一个流行趋势[15,47, 24, 5, 42, 37,6]侧重于提高字幕生成的可区分性,例如风格化图像字幕[15, 6]、个性化图像字幕[47]和上下文感知图像字幕[24,5]等。0图像字幕[47]和上下文感知图像字幕[24, 5]。0视觉问答(VQA)专注于根据图像和自由形式的开放性问题提供自然语言答案。这是一个较新的(追溯到[39,2])且具有挑战性的任务(需要从问题和图像中获取信息)。随着大规模数据集的可用性[49, 2, 16, 20,23],提出了许多VQA模型,以在CNN-RNN架构[16,49]上构建多模态表示,并最近通过可微分的注意力[63, 36,64, 66, 1,38]进行扩展。除了上述基于分类的VQA模型外,还有一些其他工作[52, 21, 56,3]将答案表示引入到VQA推理中,即预测图像-问题-答案三元组是否正确。Teney等人[57]提出了使用图结构表示视觉内容和问题来解决VQA的方法,展示了图神经网络在这种结构丰富问题中的优势。Narasimhan等人[44]应用图卷积网络进行事实性VQA。然而,我们的模型与[57,44]在基本思想和理论基础上存在一些显著差异,除了具体的任务。首先,我们将视觉对话任务建模为对部分观察数据和未知对话结构的图推理问题。这比在固定图结构上传播信息更进一步。其次,我们强调图结构推理(以无监督方式)和未观察节点推理。最后,所提出的模型提供了一种端到端的网络架构,以近似EM解决方案,并为视觉对话任务提供了新的视角。0视觉对话是指回答关于输入图像的一系列问题的任务[9,11]。它是继图像字幕和视觉问题回答之后的最新的视觉与语言问题。它需要对图像、当前问题以及过去的对话历史进行推理。[9]和[11]分别代表了这个方向的两个早期尝试,但对话设置不同。在[9]中,提出了一个VisDial数据集,该数据集中的问题是自由形式的,可能涉及图像的任意内容。而在[11]中,设计了一个“猜猜看”游戏,通过一系列是/否问题来识别一个秘密对象。继[9]之后,Lu等人[34]引入了一个生成器-判别器架构,其中生成器使用来自预训练判别器的感知损失进行改进。在[51]中,提出了一种名为AttentionMemory的神经注意机制,用于解决对话中的当前参考问题。Das等人[10]随后扩展了[9],引入了一个“图像猜测”游戏,即通过多轮对话从一组图像中找到所需的图像。强化学习(RL)被用来解决这个任务。后续的视觉对话方法包括应用并行注意力通过对话发现对象[67],学习条件变分自动编码器生成整个p(v)= 1Z exp {−�iφu(vi)−�(i,j)∈Eφp(vi, vj)},(1)p(v|W)= 1Z exp {−�i wiφu(vi) −�i,j wijφp(vi, vj)}= 1Z exp {−Tr(W T Φ(v))},(2)66710对话序列[41],将视觉问题生成和视觉问题回答统一到一个双学习框架中[22],结合强化学习和生成对抗网络(GANs)生成更像人类的答案[62]。在[22]中,提出了一种判别性视觉对话模型,并设计了一种新的评估协议来测试视觉对话的提问者一侧。最近,[28]使用了神经模块网络来解决视觉共指消解问题。图神经网络[19,50]在机器学习和计算机视觉社区引起了越来越多的关注,目标是将图/图模型的结构表示与神经网络相结合。有两个主要的方法流。一种方法流是设计神经网络操作,直接对图结构化数据进行操作[13, 45, 43, 53, 12,27]。另一种方法流是构建图结构化神经网络,以近似图模型的学习/推理过程[30, 55, 29, 14, 4, 17, 60,8]。我们的方法属于这个类别。其中一些方法[30, 55, 4, 17,26,48]将每个图节点实现为一个小型神经网络,并将节点之间的相互作用形式化为消息传播过程,该过程设计为端到端可训练。其他一些方法[65, 30, 33, 31,8]尝试在完全可微分的框架中将CRF和神经网络集成在一起,这对于语义分割非常有意义。在这项工作中,我们首次将视觉对话的任务推广到这样一种设置中,即我们对节点(即图像、标题和对话历史)进行部分观察,并且需要自动推断图结构(对话中的关系)。在这种设置中,答案是基于对话图推断出的本质上未观察到的节点,其中图结构描述了给定对话实体之间的依赖关系。我们提出了一种基本的神经网络方法,作为该问题EM解的近似。所提出的GNN与大多数先前的GNN显著不同,后者考虑的是节点特征是可观察的问题,并且通常给出了一个图结构。03.我们的方法0我们首先描述了由Das等人引入的视觉对话任务设置[9]。形式上,视觉对话代理接收一个对话元组D = {(I, C, Ht,Qt)}作为输入,其中包括图像I,标题C,直到第t轮的对话历史Ht = {(Qk, Ak),k =1,∙∙∙,t-1},以及当前问题Qt在第t轮被问到。视觉对话代理需要通过对100个候选答案进行排序,返回问题Qt的回答At。在我们的方法中,我们通过一个图形来表示整个对话,并通过GNN来求解最佳查询答案,作为近似推理(见图2)。在这个图中,对话实体Ht = {(Qk, Ak),k =1,∙∙∙,t-1}。0Q t 和 A t被表示为节点。图结构(即边)表示这些节点之间的语义依赖关系。所有问题和答案节点的联合分布由马尔可夫随机场描述,其中一些节点的值被观察到(即历史问题和答案,当前问题)。当前答案的节点值是未知的,模型需要推断其值以及由该MRF中的边权重编码的图结构。该MRF中所有节点的联合分布由其势函数和图结构指定。势函数可以在训练阶段学习以最大化训练数据的似然性,并在测试阶段用于推断。然而,我们无法为所有对话学习一个固定的图结构,因为对话之间是不同的。对于训练和测试中的对话,我们需要自动推断语义结构。此外,由于这种图结构没有标签(也很难获取),我们的模型需要以无监督的方式推断它们。将输入节点(即历史问题和答案,当前问题)视为观察数据,将查询的答案节点视为缺失数据,我们采用EM算法来恢复分布参数(边权重)和缺失数据(当前答案)。在该算法中,边权重和查询的答案节点被推断以最大化期望对数似然。最后,我们通过GNN方法来模拟这个推断过程,其中节点值和边权重以迭代方式更新。03.1. 对话作为马尔可夫随机场0我们将对话建模为一个MRF,其中节点表示问题和答案,边编码语义依赖关系。具体而言,在一个完全连接的MRF模型中,所有节点 v 的联合概率是:0其中 Z 是归一化常数, φ u ( v i ) 是一元势函数, φ p (v i , v j )是二元势函数。在我们的任务中,我们希望学习一个适用于所有对话的通用势函数。我们还希望保持节点之间的软关系(即0和1之间的连通性),而不仅仅是二元关系。因此,我们将上述形式推广为具有0�1加权边的MRF:0其中 w i 和 w i,j 是组成边权重矩阵 W的权重。注意,我们将 Φ( v )写作节点之间所有势函数的紧凑形式,其中 Φ i,i = φ u (v i ) 和 Φ i,j = φ p ( v i , v j ) 。(8)66720图2.视觉对话由GNN表示,其中对话实体(即标题,问题和答案对以及未观察到的查询答案)由节点(嵌入)表示。边表示节点之间的语义依赖关系。一些节点的值被观察到(即表示对话历史的节点),我们需要根据底层对话结构推断未观察到的节点的缺失值(即查询的答案)。网络的前向传递模拟了EM算法,其中M步估计边权重,E步通过神经消息传递更新所有隐藏节点状态(嵌入)。经过几次迭代,未观察到的节点(答案)的隐藏状态包含了推断出的缺失值的嵌入。03.2. 部分观测的推断0接下来,我们简要回顾一下EM作为处理缺失数据推断的典型方法。假设我们观察到的数据为 x ,未观察到的数据为z ,它们的联合分布由参数 θ参数化。目标是推断最可能的参数 θ 和随机变量 z。EM算法优化了期望对数似然:0Q(θ, θ old) = �0z p(z|x, θ old) log p(x, z|θ) dz. (3)0EM算法是一个迭代过程,包含两个步骤:期望步骤(E步)和最大化步骤(M步)。在E步中,计算上述期望似然。在M步中,优化参数θ以最大化该目标:θ = argmaxθQ(θ, θ old)。 (4)0EM迭代始终增加观测数据的似然性,并在找到局部最小值时终止。然而,期望对数似然Eq.3通常是难以计算的。在视觉对话任务中,为了计算这个量,我们需要枚举整个语言空间中对当前问题的所有可能答案。实际上,我们可以在E步中使用一个替代目标,通过最大后验估计(MAP)来计算插值近似[58]:0˜Q(θ, θ old) = max z p(z|x, θ old) log p(x, z|θ)。 (5)0然后在M步中,根据这个替代目标更新θ。03.3.具有部分观测的MRF0在视觉对话任务中,给定问题和答案历史以及当前问题,因此我们知道MRF中那些节点的值。任务是找出当前答案节点和底层语义结构的缺失值。假设在一个MRF中,我们观察到一些0在图中有一些已观察到的节点,我们不知道边权重W。将观察到的节点表示为x,未观察到的节点表示为z,其中v = x∪ z,x ∩ z =�。这里的权重矩阵W参数化了x和z的联合分布,因此可以看作是前一节中的θ。为了共同推断W(例如,语义依赖关系)和z(例如,查询的答案)的图结构,我们运行EM算法:E步:我们计算z* = argmax z p(z|x, W old),以获得Eq.5中的˜Q(θ, θold)。这是通过最大乘积循环置信传播[61]实现的。在每次迭代中,每个节点向每个邻居发送(不同的)消息,并从每个邻居接收消息。在接收到邻居的消息后,每个节点vi的置信b(vi)通过最大乘积更新规则进行更新:0b(vi) = αφu(vi) �0v j ∈N(v i) m ji(v i), (6)0其中α是一个归一化常数,N(vi)表示vi的邻居节点,mji(vi)是从vj到vi的消息。消息由以下方式给出:0mji(vi) = max vj wij φp(vi, vj) �0v k ∈N(v j) \ v i m kj(v j). (7)0其中N(vj) \vi表示vj的所有邻居节点,除了vi。M步:根据E步中估计的z*,我们希望找到最大化目标函数Eq. 5的边权重:0W = argmax W ˜Q(W, W old)0= argmax W p(z*|x, W old) log p(x, z*|W)0= argmax W log p(x, z*|W).0M步和E步共同构成了目标函数˜Q(W, Wold)中的坐标下降算法。该算法包含两个循环:一个是交替推断z和θ的外循环,另一个是通过迭代置信传播推断缺失值z的内循环。66730图3.我们模型的详细说明。左侧显示了每个节点的特征提取,这些特征提取用作节点隐藏状态的初始化。经过几次EM迭代,我们获得了未观察到的节点(查询的答案)的隐藏状态(嵌入)。为了从预定义的选项中选择最佳答案,我们使用节点和选项嵌入之间的点积作为相似度得分。通过softmax激活将得分转化为概率,并计算交叉熵损失来训练网络。0请注意,在部分观察的情况下,对于E步,我们固定观察到的节点vx∈x,并仅更新未观察到的节点vz∈z。因此,我们也只需要计算从观察节点到未观察节点的消息。消息传递和置信更新过程迭代直到收敛。当迭代终止时,我们获得了在观察节点x和当前估计的边权重W条件下的缺失值的MAP估计z�。03.4. 部分观测的GNN0我们设计了一个由上述公式引导的用于视觉对话任务的GNN。该网络结构类似于MRF,其中标题和每个问题/答案对表示为节点嵌入,语义关系由边表示。模型包含三个不同的神经模块:消息函数、更新函数和链接函数。这些模块被迭代地调用以模拟上述EM算法。E步:我们执行神经消息传递/置信传播[17]以近似推断缺失值z�。该过程模拟了E步中的置信传播。对于每个节点,我们使用隐藏状态/嵌入来表示其值。在置信传播过程中,观察变量x和边权重W被固定。未观察节点的隐藏状态通过与其他节点进行通信进行迭代更新。特别地,我们使用消息函数M(∙)对来自其他节点的消息进行总结,并使用更新函数U(∙)根据传入的消息更新隐藏节点状态。在每个迭代步骤s中,更新函数根据传入的消息计算节点的新隐藏状态:hsvi =U(hs-1vi, msvi)。(9)0其中hsv是节点v的隐藏状态/嵌入,msv是第s次迭代时节点v的汇总传入消息。消息由以下公式给出:0msvi = �0vj∈N(vi)wijM(hs-1vi, hs-1vj)。(10)0消息传递阶段运行 S次迭代以达到收敛。在第一次迭代中,节点隐藏状态h0v由节点特征Fv初始化。M步:根据E步中所有节点的更新隐藏状态,通过链接函数更新边权重W。链接函数L(∙)根据当前隐藏状态估计两个节点vi和vj之间的连通性wij:wij = L(hvi, hvj)。(11)03.5. 网络架构0在对话的每一轮中,我们旨在根据图像、标题和问题和答案(QA)历史来回答查询问题。对于第 t 轮对话,我们构建t+1 个节点,其中一个节点表示标题,t-1 个节点表示 t-1轮QA的历史,最后一个节点表示当前查询问题的答案。每个节点的嵌入由融合图像特征和相应句子的语言嵌入进行初始化。如图3所示,对于标题节点,我们提取标题的语言嵌入,并将其与图像特征融合作为初始化。对于表示查询答案的最后一个节点,我们使用与图像特征融合的相应问题嵌入来初始化隐藏状态。对于其他节点,隐藏状态通过融合QA嵌入和图像特征进行初始化。语言嵌入和图像特征的融合是通过共同注意力技术[36]实现的,更多细节在第4节中介绍。我们的方法的目标是通过模拟EM算法推断查询答案的隐藏状态。在使用特征嵌入初始化节点隐藏状态后,我们通过首先估计边权重来开始迭代推断。边权重由公式11估计,其中链接函数由两个转换后的隐藏状态之间的点积给出:0wij = L(hvi, hvj) = �fc(hvi), fc(hvj)�。(12)0其中�∙, ∙�表示点积,fc(∙)表示多个66740算法1 EM用于图神经网络 输入:观察到的节点vx ∈x的提取特征Fvx 输出:图结构W,未观察到的节点vz ∈z的节点嵌入hvz01: /* 初始化 */ 2: 对于每个观察到的节点vx ∈ x 3:将hv x 初始化为Fvx 4: 结束循环 5:对于每个未观察到的节点vz ∈ z 6: 将hv z初始化为问题嵌入 7: 结束循环 8: /*EM算法:外循环 */ 9: 当未收敛时执行 10: /* M步*/ 11: 对于每对节点(vi, vj) 12: wij = L(hvi, hvj) =�fc(hvi), fc(hvj)� 13: 结束循环 14: /*E步:内循环进行消息传递 */ 15:对于从1到S的步骤s 16: 对于每个vz ∈ z 17: /*计算vz的传入消息 */ 18: msvz = �0vj ∈N(vz) wzj h s-1vj 19: /* 更新未观察到的vi的嵌入 */20: hsvz = U(hs-1vz, msvz) = GRU(hs-1vz, msvz) 21:结束循环 22: 结束循环 23: 结束循环0完全连接的层之间使用具有修正线性单元(ReLU)的多层感知机。使用M(hs-1vi, hs-1vj) =hs-1vj作为消息函数,从所有邻居节点汇总的消息计算为ms0vj ∈N(vi) wij hs-1vj。为了稳定更新函数的训练,我们通过softmax函数将进入一个节点的边的权重之和归一化为1。然后,通过门控循环单元(GRU)[7]更新节点的隐藏状态:0hsvi = U(hs-1vi, msvi) = GRU(hs-1vi, msvi)。(13)0这里选择GRU有两个原因。首先,Eq.13具有自然的递归形式。GRU是循环神经网络(RNN)的一种类型,已知比长短期记忆(LSTM)更具计算效率。其次,Li等人[29]已经证明GRU在GNN中作为更新函数表现良好。算法在EM的外循环中进行几次迭代后停止,其中交替更新边权重W和节点隐藏状态hv。在每次迭代中,执行内循环来更新节点隐藏状态。内循环模拟了E步,进行了一次置信传播。算法在Alg.1中说明。对于视觉对话任务,未观察到的节点集仅包括表示当前查询答案的节点。最后,我们将最后一个节点的隐藏状态视为0嵌入查询的答案。为了从数据集提供的预定义选项中选择一个答案,我们计算�hv,ho�,其中hv是最后一个节点的隐藏状态,ho是选项的语言嵌入。对这些点积应用softmax激活函数,并计算多类交叉熵损失来训练GNN。04. 实验 4.1. 在VisDial v0.9[9]上的性能0数据集:我们首先在VisDial v0.9[9]上评估了提出的方法,该数据集是通过两个亚马逊机械土耳其(AMT)主题对话图像收集而来的。第一个人只能看到图像标题,并被要求就隐藏的图像提出问题以更好地理解场景。第二个工作者可以访问图像和标题,并被要求回答第一个人的问题。鼓励两者以自然的方式交谈。他们的对话在回答10轮问题后结束。VisDialv0.9包含了总共1,232,870对MSCOCO图像[32]的对话问答对。它被分为80K用于训练,3K用于验证,40K用于测试,与[9]一致。评估协议:我们遵循[9]的评估协议,在检索设置中评估每一轮(t = 1, 2, ...,10)的个体回答。具体而言,在测试时,每个问题都与一个包含100个候选答案选项的列表配对,要求VisDial模型返回候选答案的排序。模型根据标准的检索指标[9]进行评估:Recall@1,Recall@5,Recall@10,平均倒数排名(MRR)和人类回答的平均排名。MR的值越低,其他指标的值越高越好。数据准备:为了预处理数据,我们首先将每个图像调整为224×224的分辨率,并使用VGG-19[54]的最后一个池化层(pool5)的输出作为图像特征(512×7×7)。对于文本数据,即标题、问题和答案,我们将数字转换为单词,并在分词之前删除缩写。标题、问题和答案的长度超过40、20、20个单词的部分被截断。实验中的所有文本都是小写的。然后,每个单词被转换为一个向量表示,该向量表示具有一个查找表,其中的条目是在训练期间学习的300维向量。因此,对于标题、每个问题和答案,我们分别有大小为40×300、20×300和20×300的单词嵌入序列。标题、问题或答案的嵌入通过一个具有512个隐藏状态的双层LSTM,并将输出状态用作我们的最终文本嵌入。我们在问题、历史、标题和选项之间使用相同的LSTM和单词嵌入矩阵。实施细节:我们在Eq.12中使用2层全连接层。在Eq. 13中的更新函数U(∙)中66750方法 MRR ↑ R@1 ↑ R@5 ↑ R@10 ↑ Mean ↓0LF [9] 0.5807 43.82 74.68 84.07 5.78 HRE [9] 0.5846 44.6774.50 84.22 5.72 HREA [9] 0.5868 44.82 74.81 84.36 5.66 MN[9] 0.5965 45.55 76.22 85.37 5.46 SAN-QI [64] 0.5764 43.4474.26 83.72 5.88 HieCoAtt-QI [36] 0.5788 43.51 74.49 83.965.84 AMEM [51] 0.6160 47.74 78.04 86.84 4.99 HCIAE-NP-ATT[34] 0.6222 48.48 78.75 87.59 4.81 SF [22] 0.6242 48.55 78.9687.75 4.70 SCA [62] 0.6398 50.29 80.71 88.81 4.470我们的模型 0.6285 48.95 79.65 88.36 4.570表1. 在VisDial v0.9 [9]的测试标准集上的定量评估。我们的模型优于大多数竞争对手。更多细节请参见第4.1节。0我们的模型实现为一个具有512个隐藏状态的一层GRU。我们使用一块Titan XpGPU来训练网络,批量大小为32。在实验中,我们使用Adam优化器,基础学习率为1e-3,进一步降低到5e-5。训练在大约5个epoch后收敛。定量结果:我们将我们的方法与几种最先进的有区分度的对话模型进行比较,即LF [9]、HRE[9]、HREA [9]、MN [9]、SAN-QI [64]、HieCoAtt-QI[36]、AMEM [51]、HCIAE-NP-ATT [34]、SF [22]和SCA[62]。表1总结了上述竞争对手和我们模型的定量结果。我们的模型始终优于大多数方法,突出了理解视觉对话中的依赖关系的重要性。具体来说,我们的R@k(k = 1, 5,10)至少比SF高0.4个点。我们的方法只比采用对抗学习技术的SCA略差一些。定性结果:图4展示了我们模型的一些定性结果。我们总结了三个关键观察结果:(i)我们将我们的机器选择的答案与人类答案进行比较,并展示了我们的模型能够选择有意义但与真实答案不同的答案。(ii)我们根据节点对之间的边权重呈现我们推断的对话结构。我们展示了当节点对之间的相关性较强时,边权重相对较高。(iii)表1和图4说明了我们模型的可解释性和基于实际情况的特性。可以看到,建议的模型成功捕捉到了对话中的关系,并关注与当前问题相关的对话片段。04.2. 在VisDial v1.0 [9] 上的性能0数据集:然后我们在最新版本的VisDial数据集[9]上测试我们的模型:VisDial v1.0,该数据集的收集方式与VisDialv0.9类似。对于VisDial v1.0,使用了所有的VisDialv0.9数据(即在MSCOCO图像[32]上的1,232,870个对话问答对)进行训练,额外使用了20,640个对话问答对进行验证,8,000个对话问答对进行测试。评估协议:除了五个评估指标0方法 MRR ↑ R@1 ↑ R@5 ↑ R@10 ↑ Mean ↓ NDCG ↑0LF [9] 0.5542 40.95 72.45 82.83 5.95 0.4531 HRE [9] 0.541639.93 70.45 81.50 6.41 0.4546 MN [9] 0.5549 40.98 72.30 83.305.92 0.4750 LF-Att [9] 0.5707 42.08 74.82 85.05 5.41 0.4976MN-Att [9] 0.5690 42.42 74.00 84.35 5.59 0.49580我们的模型 0.6137 47.33 77.98 87.83 4.57 0.52820表2. 在VisDial v1.0 [9]的测试标准集上的定量评估。我们的模型在所有指标上优于其他所有模型。更多细节请参见第4.2节。0在VisDialv0.9中使用的指标(即Recall@1、Recall@5、Recall@10、MRR和人类回答的MeanRank)中,还涉及到一项额外的指标,即归一化折扣累积增益(NDCG),用于进行更全面的定量性能研究。NDCG的值越高越好。定量结果:我们的实验中包括了五个有区分度的对话模型(即LF [9]、HRE [9]、MN [9]、LF-Att[9]、MN-Att[9])。表2呈现了整体定量比较结果。可以看到,建议的模型始终获得了有希望的结果。04.3. 在VisDial-Q数据集[9, 22]上的性能0数据集:VisDial数据集[9]为评估视觉对话系统回答问题的性能提供了坚实的基础。为了测试视觉对话的提问者方面,Jain等人[22]进一步提出了VisDial-Q数据集,该数据集建立在VisDial v0.9[9]的基础上。数据集的划分与VisDialv0.9相同。评估协议:VisDial-Q数据集配备了一种基于检索的“VisDial-Q评估协议”,类似于之前详细介绍的VisDial数据集中的“VisDial评估协议”。对于给定的问题-答案对,视觉对话系统需要从100个候选问题中选择一个。采用了[9]中描述的类似方法来收集100个后续问题的候选项。因此,§4.1中描述的指标:Recall@k、MRR和MeanRank也用于定量评估。数据准备:我们使用与§4.1相同的文本嵌入技术。与VisDial任务不同,给定第一轮的问答对来预测下一轮的问题。因此,VisDial-Q任务中的对话轮数最多设置为9。与我们在§3.5中说明的类似,我们将t+1个节点构造为第t个节点和预期问题作为最后一个节点的标题和先前历史记录。我们使用标题的语言嵌入来初始化问题节点,并将相应句子的语言嵌入设置为其余节点的嵌入。定量结果:我们遵循[22]中描述的相同协议来评估我们的模型。表3显示了比较方法和我们的消融模型变体的定量结果。消融模型包括:i)我们的模型与常数图(所有边权重为1);ii)我们的模型没有EM迭代。我们的完整模型使用66760图4. 我们模型在VisDial v0.9[9]上与人类真实答案的定性结果对比。最后一列展示了我们模型推断出的视觉对话结构,其中颜色越深的绿色链接表示更高的关系(由链接函数预测)。0方法 MRR ↑ R@1 ↑ R@5 ↑ R@10 ↑ 平均 ↓0SF-QI [22] 0.3021 17.38 42.32 57.16 14.03 SF-QIH [22]0.4060 26.76 55.17 70.39 9.320我们的模型(无迭代)0.3977 25.69 54.52 70.33 9.38我们的模型(固定图)0.4025 26.08 55.30 70.83 9.240我们的模型(完整,3次迭代)0.4126 27.15 56.47 71.97 8.860表3. 使用VisDial-Q评估协议[9,22]对VisDial-Q数据集进行定量评估。更多细节请参见§4.3。03次EM迭代在所有评估指标上优于比较方法。特别地,我们可以看到我们的模型与常数图的性能类似于比较方法。这表明了我们基于EM的推理过程的有效性。在该数据集上的实验结果还显示了我们方法的普适性:它可以推断出潜在的对话结构,并相应地推理未观察到的节点(下一个问题或当前答案)。04.4. 诊断实验0为了评估我们模型的一些关键组成部分的效果,我们实现并测试了几个变体:(i)将每对节点之间的边权重固定为1的常数图;(ii)没有EM迭代的图;(iii)具有n次EM迭代的图。表4显示了这些模型变体在VisDial v0.9[9]上的定量评估。我们在这里总结我们的观察结果:(a)没有EM迭代的模型在所有变体中表现最差。这表明了迭代更新节点嵌入的重要性。(b)在我们的实验中,使用3次迭代的消息传递显示出我们提出的模型的最佳性能。(c)使用常数图(3次迭代)的模型的性能优于没有EM迭代的模型,因为它允许迭代0方法 MRR ↑ R@1 ↑ R@5 ↑ R@10 ↑ Mean ↓0我们的方法(3次迭代). 0.6285 48.95 79.65 88.36 4.570const. graph . 0.6197 47.91 78.99 87.77 4.74 w/o iter .0.6162 46.73 78.41 87.26 4.84 2 iter . 0.6213 48.18 78.9787.81 4.75 4 iter . 0.6237 48.41 79.20 87.95 4.680表4. 我们方法的关键组成部分在VisDialv0.9数据集[9]上的消融研究。更多细节请参见第4.4节。0然而,与具有动态结构的其他迭代模型相比,它的性能较差,因为它将所有传入的消息视为平等。这表明了边的权重的重要性:它们可以过滤掉误导性的消息,同时允许信息流动。05. 结论0在本文中,我们为视觉对话任务开发了一种新颖的模型。该模型的骨干是一个GNN,其中每个节点表示一个对话实体,边的权重表示节点之间的语义依赖关系。我们提出了一种用于该GNN的EM风格的推理算法,用于估计节点之间的潜在关系和未观察节点的缺失值。我们在VisDial和VisDial-Q数据集上进行了实验。结果表明,我们的方法能够在两个任务中找到和利用对话推理的潜在结构,展示了我们方法的普适性和有效性。致谢:我们感谢来自UCLA统计系的YingNian Wu教授的有益讨论。本工作得到了DARPAXAI资助项目N66001-17-2-4029、ONRMURI资助项目N00014-16-1-2007和ARO资助项目W911NF-18-1-0296的支持。66770参考文献0[1] Peter Anderson, Xiaodong He, Chris Buehler, DamienTeney, Mark Johnson, Stephen Gould, and Lei Zhang.自底向上和自顶向下的注意力用于图像字幕生成和视觉问答.在CVPR, 2018. 20[2] Stanislaw Antol, Aishwarya Agrawal, Jiasen Lu, MargaretMitchell, Dhruv Batra, C. Lawrence Zitnick, and Devi Parikh.VQA: 视觉问答. 在ICCV, 2015. 20[3] Yalong Bai, Jianlong Fu, Tiejun Zhao, and Tao Mei.深度注意力神经张量网络用于视觉问答. 在ECCV, 2018. 20[4] Peter W Battaglia, Razvan Pascanu, Matthew Lai, DaniloRezende, and Koray Kavukcuoglu.用于学习对象、关系和物理知识的交互网络. 在NeurIPS, 2016. 30[5] Fuhai Chen, Rongrong Ji, Xiaoshuai Sun, Yongjian Wu,and Jinsong Su.基于组的图像字幕生成与结构相关性和多样性约束. 在CVPR,2018. 20[6] Tianlang Chen, Zhongping Zhang, Quanzeng You, ChenFang, Zhaowen Wang, Hailin Jin, and Jiebo Luo.使用自适应学习和注意力的“事实性”或“情感性”风格化图像字幕生成. 在ECCV, 2018. 20[7] Kyunghyun Cho, Bart van Merrienboer, Caglar Gulcehre,Dzmitry Bahdanau, Fethi Bougares, Holger Schwenk, andYoshua Bengio.使用RNN编码器-解码器学习短语表示用于统计机器翻译.在EMNLP, 20
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功