基于深度注意神经张量网络的视觉问答研究

139 浏览量更新于2023-10-13 收藏 913KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

基于深度注意神经张量网络的视觉问答白亚龙1、 2、付建龙3、赵铁军1、陶梅21哈尔滨工业大学，中国2JD AI Research，北京，中国3中国北京微软亚洲研究院@jd.com，jianf@microsoft.com，tjzhao@hit.edu.cn抽象。视觉问答（VQA）在跨模态学习问题中引起了极大的关注，它使机器能够回答给定参考图像的自然语言问题。通过双线性模型从图像和问题中学习丰富的嵌入特征，取得了重大进展，但忽略了答案的关键作用。在本文中，我们提出了一种新的深度注意神经张量网络（DA-NTN）的视觉问答，它可以发现联合相关的图像，问题和答案与基于张量的表示。首先，我们对成对相互作用中的一个（例如，图像和问题），其进一步用第三维编码（例如，答案）是一个三重态的双线性张量积。其次，我们分解的相关性不同的三元组不同的答案和问题类型，并进一步提出了一个切片注意力模块张量选择最具歧视性的推理过程进行推理。第三，我们通过学习具有KL散度损失的标签回归来优化所提出的DA-NTN。这种设计使得能够在大量答案集上进行可扩展训练和快速收敛。我们将所提出的DA-NTN结构集成到最先进的VQA模型中（例如，MLB和MUTAN）。大量的实验表明，与原始MLB和MUTAN模型相比，VQA-2.0数据集上的精度分别提高了1.98%和1.70%。关键词：视觉问答·神经张量网络·开放式VQA1介绍在深度学习技术在解决自然语言处理和计算机视觉任务方面取得巨大成功之后，自动理解图像和文本的语义并消除其表示之间的差距受到了广泛的研究关注。它激发了许多新的研究课题，如图像字幕[8]，文本到图像合成[23]和视觉问答[4，10]。视觉问答是一个回答用自然语言提出的关于图像的问题的任务。答案可以是-2Y. Bai，J. Fu，T. Zhao和T. 梅从多个预先指定的选项中选择或由模型生成。VQA的一个自然解决方案是将基于视觉的图像理解与基于自然语言理解和推理的问题相结合。最近，许多研究已经探索了从深度卷积神经网络学习的图像表示和从时间序列模型学习的问题表示的多模态特征融合几乎所有这些以前的工作训练的分类器的基础上融合的图像和问题的特征来预测一个答案，并忽略了图像-问题-答案三元组的关系。虽然在理论上，[12]人所提及为了对三元组中的关系信息进行建模，还有一些其他相关的工作试图使用预训练的答案表示来帮助推理，通过简单地连接图像，问题和答案的特征[12]，或者将图像-问题特征投影到答案特征空间[27]，但是图像-问题-答案三元组的关系信息太复杂，无法通过简单地连接特征向量或将其映射到答案特征空间[27]来建模。应用逐元素求和或乘积。而且，从自然语言语料库中学习的答案表征，受语料库中句法和语义信息的监督，与描述视觉信息仍有一定差距。受神经张量网络用于显式建模关系数据的多个交互的成功的启发[26，22]，我们提出了一种基于神经张量网络的框架来对图像-问题-答案三元组的关系信息进行建模，并从头开始学习VQA任务特定的答案表示。我们知道，VQA中不同的三元组通常对应不同的关系和不同的推理过程。在大多数情况下，这些关系与问题的类型很好地联系在一起。此外，候选人和候选人的回答都符合问题的类型。在信息处理技术的指导下，通过根据不同三元组的隐式关系类型对不同三元组进行自适应推理，来生成新的查询和新的存储问题，从而可以生成合适的深度神经张量VQA框架。在此之后，我们使用一个基于回归的方法来近似图像问题候选答案的分布，而不是传统的基于分类的方法。我们通过学习具有KL发散损失的标签回归来优化我们这种设计使得能够在大量答案集上进行可扩展训练和快速收敛与以往的工作不同，我们引入答案嵌入学习，在我们的方法有三个目的。首先，我们希望建立图像-问题-答案三元组之间的关系模型，以帮助推理。第二，答案嵌入可以纠正问句误解，特别是对于句法结构复杂的问句第三，答案嵌入可以帮助确定问题的类型并决定使用哪种推理过程。我们评估了我们提出的框架对VQA-1.0和VQA-1.0的影响2.0数据集。由于我们提出的框架被设计为适用于大多数以前的图像-问题多模态特征学习模型，我们选择了两个最强大的基于双线性池的VQA模型来装备我们提出的框架，并证明我们提出的方法可以实现更多用于VQA的3合理的答案表示，并进一步导致VQA性能的显着改善。在下一节中，我们将提供更多相关工作的细节，并突出我们的贡献.我们提出的方法在第3节中介绍，并在第4节中报告了成功的实验。我们在第5节中分析了实验结果，并在第6节中进行了讨论。2相关作品在过去的几年中，VQA的任务已经引起了越来越多的兴趣以前的大多数作品都将视觉问题回答作为分类问题，并使用深度神经网络来解决，该网络实现了图像和问题的联合表示。只有少数相关的著作介绍了答案表示推理。同时，问题引导的视觉区域注意对VQA也是非常重要的。在本节中，我们简要回顾这些相关工作。注意机制是VQA研究的一个重大突破。Chen等人[7]提出了一个问题引导的注意力机制，自适应地学习最相关的图像区域为一个给定的问题。子超等[31]提出堆叠多个问题引导的注意力机制，以迭代的方式学习注意力福井等人[9]和Hedi等人。[6]使用双线性池来整合来自图像空间网格的视觉特征与问题特征以预测注意力。考虑到自然语言中的问题也可能包含一些噪声或无用的信息或单词，还提出了一些基于共同注意力的在本文中，我们应用[9，6]中使用的注意力机制来学习相关视觉区域上的注意力，并丢弃关于问题的无用信息。基于分类的方法当前VQA数据集中的答案仅涵盖一小部分单词和短语。因此，大多数相关的工作提出的VQA任务作为一个分类的一组候选答案。因此，图像与问题特征的融合策略成为提高VQA性能的关键因素。早期的作品模拟了图像和问题之间的相互作用，具有一阶相互作用，如串联[24]或元素乘积[32，13，16]。二阶池是一种更强大的方式来建模两个特征空间之间的相互作用它在细粒度视觉识别任务中取得了巨大的成功福井等人[9]首先介绍了VQA任务上的双线性池。他们提出了多模态紧凑双线性池（MCB），它使用不同模态的图像和问题特征向量的外积来产生一个非常高维的特征，用于二次扩展。然而，MCB通常需要高维特征来保证鲁棒的性能，这可能会严重限制其适用于VQA由于GPU内存的限制为了克服这个问题，提出了多模态低秩双线性池（MLB）[14]，其中图像和问题特征空间之间的双线性相互作用由张量参数化，并且张量是4Y. Bai，J. Fu，T. Zhao和T. 梅被限制为低等级。之后， Hedi 等人提出了多模态 Tucker 融合（MUTAN）[6]，其也是基于模态之间的双线性相互作用但依赖于基于低秩Tucker张量的分解来显式地约束相互作用秩的多模态融合方案基于图像-问题-答案三元组的推理。与基于分类的方法不同，已有一些相关的工作尝试将答案表征引入到视觉问题答案的推理Shih等人[25]将问题和答案组合作为模型的输入，以确定问题-答案对是否是来自图像的给定证据的良好匹配Allan等人[12]连接图像特征向量、问题特征向量和答案嵌入作为输入变量，并预测图像-问题-答案三元组是否正确。[27]中的工作尝试将图像-问题联合表示投影到从文本语料库学习的答案嵌入空间Allanet al的工作。[12]和Teneyet al.[27]使用了从文本语料库中学习到的答案嵌入，这已被证明是表示视觉信息的能力有限[5]。此外，图像-问题-答案三元组之间的关系推理应该是非常复杂的，应该是很难被建模，通过使用简单的连接特征向量或元素的产品。在这项工作中，我们介绍了DA-NTN，一个基于深度注意的神经张量网络推理图像-问题-答案三元组之间的复杂关系在这项工作中使用的答案嵌入是从头开始学习的VQA任务的监督。DA-NTN可以很容易地应用于传统的基于分类的VQA模型，并显着提高这些方法的性能。3方法图1提供了我们的开放式视觉问答框架的架构的概述VQA任务的目标是在给定图像I∈I和相应问题q∈ Q的情况下提供答案。以前的大多数工作都将开放式VQA视为分类任务：argmax p θ（a i|q，I）（1）ai∈A其中θ表示模型的整个参数集，A是候选答案集。然而，在我们提出的模型中，我们将开放式VQA视为回归任务，我们提出的方法的目标是测量图像I，问题a和答案ai之间的相关性得分sθ（q，I，ai），然后预测图像-问题-答案三元组是否正确。我们模型的输入包含一个问题以及相应的图像和候选答案。分别采用卷积神经网络和GRU递归网络提取图像和问题的特征向量然后通过使用双线性池化模块（如MLB [14]，MUTAN [6]）将图像和问题的表示集成为多模态最后，应用DA-NTN模块来度量问题-图像对的集成特征向量vqI与输入答案表示之间的相关度用于VQA的5GRUCNN多式融合VB......V+++aW...esO++softmax......ly回答嵌入...++softmaxp（q，）...推理注意力模块...U...神经张量网络前面的红色物体是几乎被雪覆盖基本型号（MUTAN/MLB）多模混合ynjelFig. 1.概述了我们提出的可视化问答框架。图像、问题和所有候选答案都被联合输入到这个框架中。结构红色框中是用于生成问题表示vq以及图像和问题特征向量v qI的融合的基本模型。两个蓝色框中的结构是深度注意力神经张量网络。采用蓝框神经元张量网络来度量图像-问题-答案三元组之间的相关性，张量可以表示三元组之间的隐含关系。推理的蓝框命名为注意模块，设计了自适应推理不同的三元组，根据其隐含的关系类型。（彩色效果3.1基于神经张量网络的VQA如图1所示，DA-NTN模块的目标是测量图像-问题-答案三元组的相关性对于VQA任务，图像-问题对是预定义的。因此，图像-问题-答案三元组的相关性可以重写为图像-问题对与答案之间的相关性。根据以下内容，我们首先将信息-quuestionpair的representationvqI。为了对图像-问题表示vqI和cideeid e e n之间的交互进行建模，我们需要使用某些语义来测量它们的相关性。给定这两个特征向量，传统的方法是直接计算它们的距离，或者简单地将向量连接起来，然后输入回归器或分类器。然而，这两种方法都不能充分考虑图像-问题对和答案之间的复杂互动。............. . .1W1W226Y. Bai，J. Fu，T. Zhao和T. 梅RRR我本文对图像-问题对和答案的相关度进行了非线性建模。考虑到张量是描述向量之间关系的几何对象，并且还能够显式地对数据中的多个交互进行建模[26，22]，我们提出了基于神经张量网络（NTN）的模块来将图像-问题特征向量与答案特征向量相关联。结果，图像-问题对和答案ai之间的关联度可以如等式2所示被测量。s（q，I，ai）=vqIW[l：k]va+VRΣΣvqIva+bR（2）我其中，rev是一个软件的虚拟载体。 R表示图像-问题对和答案之间的implicitrel a t关系。W[1：k]∈RdqI×da×k是张量并且双线性张量积vqI W[1：k]va导致k-d向量h∈Rk，其中每个具有特殊关系类型relr∈R的可以计算通过对应的切片r = 1，...，张量的k：h i= v qI W[i]v a. 另Ri隐含关系R的参数是神经网络的标准形式：VR∈Rk×（dqI+da）和bR∈Rk。因此，我们可以得到一个k-d向量s（q，I，R，ai）来度量图像-问题对与答案之间的关联度，向量中的每个元素表示具有特定隐式关系的图像-问题-答案三元组的响应根据以往作品的设置，vI和问题表示vq从预训练的模型初始化，然后在VQA任务的训练过程中进行微调。但对于答案a i，其保留值必须与保留值一样保留。传统的从自然语言语料库中学习的词嵌入方法不适合于建模视觉信息。例如，从自然语言语料库学习的词表示空间中的“dog”的最近词是一些其他的词，例如“pet t”、“cat”等。从自然语言语料库中学习到的知识库可以区分答案之间的语义和语法差异，但很难用于需要描述视觉信息能力的视觉问答任务[5]。因此，我们尝试从直接使用从自然语言语料库中学习的词表示的方法来学习V Q A t的语义表达，这与以往的相关工作不同。3.2推理注意力模块由于向量s（q，I，ai）中的每个元素被设计为对应于一个特定的关系和推理过程，因此我们提出了一种注意机制，通过动态调整向量中每个元素的权重来组合它们。在VQA任务中，问题q的类型决定了问题q、I、a i i的关系。例如，三元组的关系可以被拆分为对象识别、对象位置、对象计数、对象属性等。所有这些关系类都可以根据问题的含义来识别此外，所有候选答案的响应可以我用于VQA的7还提供有关问题类型的更多详细信息。例如，如果一个问题是关于颜色的回答，则关于颜色的候选答案的响应应当具有比其他候选答案更大的响应。具体地，我们使用注意力机制来获得相关向量s（q，i，ai）中每个元素的加权平均值，作为关于q，I，ai是否正确的最终得分的输出，其表示为Σksatt（q，I，ai）=j=1 si，j αj（3）其中si，j是相关向量s（q，I，ai）中的第j个元素，αj是第j个元素的注意力权重。注意力得分αj的计算公式为α=Σexp（cj）（四）并且Cj被定义为JKe=1 exp（ce）cj=Va· tanh（Wa Sj+Ua vq）（5）其中Sj={s1，j，s2，j，…是表示给定图像I、问题q和一个特殊隐式关系类型的所有候选答案的响应的向量。W a∈Rna×na，U a∈Rna× n a|vq|，Va∈Rna×1是注意力模块的权矩阵. 组合权重由所有候选答案和问题表示的响应确定该方法综合考虑了图像-问题-答案的多种隐含关系，并根据候选答案的反应和所讨论的上下文信息来整合不同的推理结果3.3使用回归的标签分布学习在实践中，图像-问题对与一个或多个类似的答案相关联。在VQA [4]和VQA-2.0 [10]等数据集中，每个图像-问题对被不同的人用多个答案注释。每个样本的答案可以表示为所有可能答案的分布向量y∈Rna，其中yi∈[0， 1]指示A中的i-答案跨该图像-问题对的人类标记答案由于我们提出的模型输出为答案分数的回归，因此典型的训练策略是使用基于边缘的损失函数来最大化正确答案和任何不正确答案之间的距离。然而，对于开放式VQA任务，有很多候选答案需要考虑。负样本的增加导致要训练的正负对更多，并且训练过程更复杂。因此，通过使用具有有限负样本的基于边际的损失函数来对VQA推理空间的结构进行建模是非常复杂的，并且还可能向学习的模型引入不确定性并且需要更多的迭代来收敛。为了克服这个问题，我们将负采样的基于间隔的学习问题转化为所有答案分布 y 的标签分布学习（LDL）问题。8Y. Bai，J. Fu，T. Zhao和T. 梅对于每个图像-问题对，我们计算总答案候选集合A中的每个答案ai的回归得分satt（q，I，ai）。然后使用softmax回归来接近答案分布：p（q，I）=Σexp（satt（q，I，ai））（六）在具有j=1 exp（satt（q，I，aj））采用KL-散度损失函数对预测pi∈Rna进行惩罚，通过最小化1ΣNL=Σnayiyi日志（七）Nj=1i =1pi（qj，Ij）其中N是用于训练的图像-问题对的数量。在推理过程中，我们只是将所有候选答案的嵌入馈送到DA-NTN中，然后选择具有最大三元组相关性得分satt（q，I，ai）的答案ai作为最终答案。4实验在本节中，我们评估了我们提出的DA-NTN模型在VQA任务上的性能我们还分析了用于指导推理的隐含关系和从VQA任务中学习到的答案表征。现有的VQA方法通常有三个阶段：（1）分别得到图像和问题的表示向量;（2）将这些多模态特征组合起来，得到融合的图像-问题表示;（3）使用融合的图像-问题特征来学习多类分类器，并预测最佳匹配答案。基于双线性池化的方法已被广泛用于步骤2中的图像-问题特征融合我们基于以下两个广泛使用的VQA模型，通过在步骤2之后应用基于注意力的神经张量网络来测量图像-问题-答案三元组的相关性得分，来构建我们的模型[14]第十四话在步骤2中使用低秩双线性池化来近似图像表示和问题表示之间的全双线性池化。MUTAN [6].一种基于多模态张量的塔克分解，用于有效地参数化图像和问题表示之间的双线性交互。为了得到令人信服的基线方法和我们的方法之间的比较，我们直接应用最好的超参数MLB和MUTAN DA-NTN基于MLB和MUTAN分别。我们还参考其他以前的作品与我们的DA-NTN为基础的MUTAN和MLB模型进行比较。4.1数据集在本文中，我们使用VQA-1.0数据集[4]和VQA-2.0数据集[10]来评估我们提出的方法。VQA-1.0数据集由来自MS-COCO数据集的约200，000张图像组成，每张图像有近3个问题，每个问题都有答案用于VQA的910个评论家训练集有248k个问答对，121k个验证对和244k个测试对。此外，还有一个25%的测试拆分子集，名为test-dev。VQA-2.0是VQA任务的另一个数据集与VQA-v1.0数据集相比，它包含更多的训练样本（用于训练的440 k个问题-答案对和用于验证的214k个因此，我们使用VQA-2.0数据集进行实验结果分析。在本文中，我们专注于开放式的VQA任务，其中地面真理的我们使用Antol等人提供的工具来评估VQA的准确性。[4]其中，预测答案ai的准确度由下式给出min.Σ1，#提供的注释器ai3（八）这意味着如果预测答案ai在人类标记答案列表中出现大于或等于三次，则准确度计算为1。4.2实验设置为了公平起见，我们在本文的所有实验中使用相同的图像表示和问题表示模型。我们使用Faster R-CNN中具有自下而上注意力的图像特征[1]作为视觉特征，生成大小为K×2048的特征图，因为这些特征可以被解释为以图像中的前K个对象为中心的ResNet特征，其中K100。使用预先训练的Skip-thoughts模型[15]的参数初始化的GRU用于学习问题表示。我们使用Adam求解器作为训练的优化器超参数，如初始学习率，辍学率，图像-问题特征的维度设置为与MLB和MUTAN的原始出版物中的最佳设置相同。这两种方法都配备了视觉区域注意模块。DA-NTN设置。对于我们提出的基于注意力的神经张量网络模块，我们将本文中所有实验的答案表示维度设置为360。候选答案集A固定为前2000个最频繁的答案，因为VQA-2.0数据集中的答案遵循长尾分布。对于推理过程，仅需要图像和问题作为输入，然后将所有候选答案的嵌入馈送到模型中，并且将选择具有最大三元组相关性得分satt的答案作为DA-NTN的预测答案为了避免过度拟合，我们将L2正则化应用于所有候选答案的嵌入默认情况下，我们通过考虑训练复杂度和验证集上的性能之间的权衡来设置k= 64.3实验结果在表1中，我们比较了我们提出的方法与基本模型的性能。模型在训练集上进行训练，并在valida上进行评估10Y. Bai，J. Fu，T. Zhao和T. 梅表1.在VQA-2.0数据集的验证分割上比较开放式VQA的不同模型模型大小指示所有可学习参数的数量，包括用于问题表征学习的GRU的参数NTN是指没有注意力模块的神经张量网络。对于NTN，我们使用总和池，而不是我们提出的注意力模块的推理。全部：总体准确度（百分比），是/否：是非问题的准确性，Numb：可以用数字或数字回答的问题的准确性，其他：其他类型问题的准确性。模型模型大小VQA-2.0 val集是/否麻木.其他所有沐滩38.0M81.0942.2554.4162.84突变+NTN（k= 3）39.3M81.6943.8855.3563.74突变+NTN（k= 6）39.9M81.9643.6355.3963.83突变+NTN（k= 10）40.6M82.2343.3455.3363.86突变体+DA-NTN（k= 3）48.1M81.9644.5955.6364.07突变体+DA-NTN（k= 6）48.7M81.9844.8555.7264.16突变体+DA-NTN（k=10）49.4M82.2444.5555.4364.07MLB67.2M81.8942.9753.8962.98MLB + DA-NTN（k= 6）87.5M83.0944.8855.7164.58设置。此外，我们还探索了我们提出的基于注意力的神经张量网络的不同超参数。值得注意的是，我们在VQA-2.0数据集上实现的基线MLB和MUTAN的平均准确度已经分别比以前的工作[6]中报告的性能高5.7%和4.9%。从表1中，我们可以发现：（1）MUTAN + NTN给出比MUTAN更好的结果，即使具有少量隐式三元组关系，如k = 3。这表明神经张量网络能够学习图像-问题-答案三元组之间的（2）注意力模块的引入提高了NTN的推理性能，可以看出DA-NTN比NTN具有更好的推理性能这一现象证明，不同类型的图像-问题-答案三元组对应不同的推理过程，而将三元组与其相关推理过程相关联的注意模块对于VQA来说是非常重要的。(3) 即使对于MLB（v qI ∈ R 4800）使用与MUTAN（v qI∈ R512）相同的DA-NTN超参数设置，我们提出的DA-NTN仍然可以显著提高MLB的准确性。表2报告了VQA-2.0数据集的测试开发和测试台表2中的所有模型都是在训练集和验证集的组合上训练从结果可以看出，DA-NTN模型比基本模型有稳定的改进用于VQA的11表2.在VQA-2.0数据集的测试开发集和测试台集上，开放式VQA的不同单一模型的性能模型VQA-2.0 Test-dev 设置VQA-2.0吨 T形支架阿德集Y/N号其他所有Y/N号其他所有前[10]----61.200.361.1725.98LSTM（blind）[10]----67.0131.5527.3744.26MCB [10]----78.8238.2853.3662.27沐滩82.8844.5456.5066.0183.0644.2856.9166.38MLB83.5844.9256.3466.2783.9644.7756.5266.62MUTAN + DA-NTN 83.5846.7857.7767.1583.9246.6458.067.51MLB + DA-NTN84.2947.1457.9267.5684.6047.1358.2067.94模型，我们基于DA-NTN的模型在所有三种不同类型的问题上都取得了最佳的准确性考虑到以前的作品大多比较其性能在VQA-1.0数据集上，我们还在表3中提供了在VQA-1.0数据集上的实验结果。与VQA-2.0数据集上的实验结果相似，我们提出的DA-NTN可以提供稳定的改进。5分析为了深入了解我们提出的方法，在本节中，我们进行了研究，以调查推理注意力模块如何帮助提高基础模型的性能，我们还分析了从VQA任务中学习到的答案嵌入。5.1注意力模块分析正如我们在3.2节中提到的，图像-问题-答案三元组之间的关系及其相关推理过程应该由问题的类型决定为了进一步分析推理注意力模块是如何工作的，我们计算了每种类型问题的不同内隐关系对应的平均注意力分数。图2显示了在VQA-2.0的验证集中，由MUTAN + DA-NTN对不同类型的问题计算的注意力分数的分布由于本实验设k= 6，每种题型有6个注意分数，对应6种不同的内隐关系和推理过程。从图2中，我们可以观察到，每一种内隐关系都至少关注一种特定的问题类型。例如，内隐关系rel1的注意力得分α1显著大于其他关于颜色的问题。α2在关于物体数量的问题上比其他注意力分数大。rel3和rel4的组合关注的是12Y. Bai，J. Fu，T. Zhao和T. 梅表3.在VQA-1.0数据集的测试开发和测试台集上比较开放式VQA的不同单一模型。†：使用GloVe[21]作为问题表示的预训练单词嵌入模型。‡：使用Skip-thought[15]作为问题表示的预训练单词嵌入模型。注意力自下而上地使用图像特征[1]。模型VQA-1.0 Test-dev 设置VQA-1.0 Test-标准集Y/N 号其他所有 Y/N 号其他所有iBOWIMG [33]76.535.042.655.776.835.042.655.9DPPnet [20]80.737.241.757.280.336.942.257.4VQA团队[4]80.536.843.157.880.636.543.758.2SMem [30]80.937.343.158.080.937.543.558.2AYN [18]78.436.446.358.478.236.346.358.4NMN [3]81.238.044.058.681.237.744.058.7SAN [31]79.336.646.158.7---58.9美国医学会[28]81.038.445.259.281.137.145.859.4D-NMN81.138.645.559.4---59.4FDA [11]81.136.245.859.2---59.5DMN+[29]80.536.848.360.3---60.4MRN [13]82.338.949.361.782.438.249.461.8[17]第十七话79.738.751.761.8---62.1Rau [19]81.939.053.063.381.738.252.863.2MCB† [9]82.537.655.664.7----美国职业棒球大联盟[14]84.138.254.965.184.037.954.865.1MFB† [32]84.039.856.265.983.838.956.365.8穆坦83.339.756.665.783.240.356.465.8美国职棒大联盟85.139.955.465.984.739.555.565.9Mutan‡ * + DA-NTN84.541.857.867.184.341.958.067.1美国职棒大联盟球员+DA-NTN85.841.958.667.985.842.558.568.1是或否的答案，同时，rel4和rel6的组合通常集中在关于“w h at“和“how“的问题上。我们还可以发现，一些隐含的关系，难以区分的简单的分类为基础的方法也可以检测。例如，所有答案与数字或数字相关的问题都以相同的方式使用传统方法进行处理。然而，在实际应用中，“如何识别数字”的问题与“数字是什么“的问题有很大的区别，因为前者的目标是对图像中的物体进行计数，而后者的目标是对图像中的数字进行识别。通过使用我们提出的DA-NTN，这两种类型的问题可以分为两个不同的隐含关系，并与两个不同的推理过程相关联。在图2中，我们可以发现问题是关于“有多少个”在版本5上具有最大的注意力分数，而关于“有多少个（p操作/ p操作/）”的问题在版本2上具有最大的注意力分数。用于VQA的13什么是多少What color isthe什么颜色是什么名单中没有任何这是这是什么是什么样的有什么类型的在哪里这是什么是是什么颜色有没有这些什么是男人，什么是男人这是怎么回事有多少人什么在什么时间这是什么做什么颜色为什么有没有什么颜色的在哪里他们在哪里谁是体育他在有个女人这是什么牌子的什么是人多少人在你能是什么动物女人是什么颜色的是人你知道什么名字什么房间吗这个人是那是什么数字可以为什么10.90.80.70.60.50.40.30.20.101 2 3 4 5 6图二、不同类型问题的平均注意力分数分布每个注意力分数αi与一个特定的内隐关系reli相关。不同颜色栏的长度指示不同内隐关系的注意得分值，越长的栏表示越高的注意得分。由于我们使用softmax函数（公式4）对注意力分数αi的分布进行了归一化，因此每种问题的平均注意力分数之和为1。（彩色效果通过这些观察，我们可以得出结论，DA-NTN可以有效地建模图像-问题-答案三元组之间的各种关系，并有利于视觉问答的推理过程。5.2答案表征分析为了更深入地理解所提出的DA-NTN如何根据来自VQA的监督来学习答案表示，我们查看由词嵌入给出的几个示例性答案的最近邻居，其中余弦相似性用作距离度量。我们将DA-NTN学习的词嵌入与GloVe [21]词嵌入进行比较，因为GloVe已用于许多先前的VQA模型[27，9，32]。对于GloVe，如果答案是一个短语，我们将短语中每个单词的单词嵌入平均为短语表示。实验结果如表4所示。显然，我们的文字表征更多地反映了视觉上的相似。例如，将“red”、“yellow”和“brow”作为单词“orange”的一个或多个词，因为这三种颜色非常接近标准渐变色条中的红色。由于缺乏VQA的监督，GloVe嵌入空间中的词分布混乱，我们可以发现，对于每个答案，都有许多最近邻，并且所有这些最近邻通常与中心词的余弦距离都很小。这使得区分候选答案更加困难。此外，由于GloVe词向量是学习的。注意力分数的分布14Y. Bai，J. Fu，T. Zhao和T. 梅答案DA-NTN手套表4.对于查询词，我们基于我们的方法和基于上下文的词嵌入显示了它们最相似的词[21]。我们还显示了查询词与其最近邻居之间的余弦相似度得分，只有余弦相似度得分小于-0.3的词才显示在此表中。01：-0.43，2：-0.321：-0.60，5：-0.53，9：-0.51，6：-0.51，3：-0.50、4：-0.50、8：-0.50等橙色红色：-0.39，黄色：-0.33，棕色：-0.32橙色和黄色：-0.90，橙色和蓝色-0.89，橙汁：-0.88，青橙：-0.87等。表表上：-0.35，办公桌：-0.30餐桌：-0.84，野餐桌：-0.84，椅子：-0.62，餐厅：-0.60，等等。矩形平方：-0.34三角形：-0.64，正方形：-0.61，圆形：-0.60，椭圆形：-0.59等。手套棒球手套：-0.34，手套：-0.33棒球手套-0.82，手套-0.81，护膝：-0.57，头盔：-0.56等。玩飞盘抓飞盘：-0.37，投掷飞盘：-0.35飞盘-0.81，投掷飞盘-0.80，打网球：-0.80，打球：-0.80，等等。河湖：-0.32，池塘：-0.32湖泊：-0.72，海岸：-0.63，铁路道口：-0.58，桥：-0.58，水：-0.58，等等。中间中心：-0.30端部：-0.64，角部：-0.64，右侧：-0.63，左侧：-0.63，等等。摘要在没有视觉监督的自然语言语料中，存在着大量的语义或句法相似性，但在使用GloVe时，会为最近邻引入视觉无关性和噪声词。例如，在G10V空间中的“middle”（如“end”、“inc or ner”、“right sid”）的这种嘈杂的词语会误导视觉问答的推理过程。6结论本文设计了一种基于推理注意的神经张量网络用于视觉问答。我们将我们提出的方法应用于不同的VQA模型，并在所有类型的问题上获得了实质性的收益分析表明，该方法不仅可以模拟图像-问题-答案三元组之间的各种隐含关系，有利于视觉问答的推理，而且可以学习到合理的答案表示。未来工作的一个方向是将我们的DA-NTN应用到更多的VQA模型中，另一个方向是通过测量问题-答案对与图像，图像-答案对与问题，或一些更复杂的图像，问题和答案的组合之间的相关性我们也有兴趣学习更好的答案表示一些专门的任务，如阅读。用于VQA的15引用1. Anderson，P.他，X.，比勒角Teney，D. Johnson，M.，Gould，S.，Zhang，L. ：自下而上和自上而下关注图像字幕和 vqa 。 arXiv 预印本arXiv ：1707.07998（2017）2. Andreas，J.，Rohrbach，M.，Darrell，T.，Klein，D.：学习构建神经网络进行问答。arXiv预印本arXiv：1601.01705（2016）3. Andreas，J.，Rohrbach，M.，Darrell，T.，Klein，D.：神经模块网络。IEEE计算机视觉和模式识别会议论文集。pp. 394. Antol，S.，阿格拉瓦尔，A.，卢，J，Mitchell，M.Batra，D.，LawrenceZitnick，C.Parikh，D.：Vqa：可视化问答。In：Proceedings of the IEEEInternational ConferenceonComputerVision. pp. 242 55. Bai，Y.，（1996年），美国，杨，K.，Yu，W.，徐，C.，妈，W.Y.，Zhao，T.：使用深度神经网络从点击日志自动构建图像数据集。In：Proceedings of the23rdACMInternalConferenceonMultimedia. pp. 4416. Ben-Res，H.，Cadene河Cord，M.，托米，N.：Mutan：用于视觉问答的多模态折叠融合。 IEEE International Conference on Computer Vision（ICCV）第1卷，第3页（2017年）7. Chen，K.，王杰，Chen，L.C.，高，H.，徐伟，内华达河：Abc-cnn：An- tention based convolutional neural network for visual question answering.arXiv预印本arXiv：1511.05960（2015）8. Donahue ， J. ，安妮 · 亨德里克斯 Guadarrama ， S. ， Rohrbach ， M. ，Venugopalan美国，Saenko，K.达雷尔，T.：用于视觉识别和描述的长期递归卷积网络。在： Proceedings of the IEEE conference on computervisionandpat ter nregni t ition中。pp. 26259. Fukui，A.，D.H.公园杨，D.，Rohrbach，A.，Darrell，T.，Rohrbach，M.：多模态紧凑双线性池的视觉问题回答和视觉接地。arXiv预印本arXiv：1606.01847（2016）10. Goyal，Y.，Khot，T.，萨默斯-斯特，D.Batra，D.，Parikh，D.：使vqa中的v重要：提升图像理解在视觉问答中的作用在：CVPR中。第1卷，第9页（2017年）11. 伊利耶夫斯基岛Yan，S.，Feng，J.：视觉问答的聚焦动态注意模型arXiv预印本arXiv：1604.01485（2016）12. Jabri，A.，Joulin ，A.，van der Maaten， L.：再访可视问答库。 In ：Europeanconferenceoncommputtervision. pp. 727-739 02TheDog（2016）13. Kim，J.H.，Lee，S.W.，Kwak，D.，许，作案手法，金，J.，J.W.Zhang，B.T.：多模态残差学习在视觉品质分析中的应用。在：神经信息处理系统的进展。pp. 36114. Kim，J.H.，恩，K.W.，Lim，W.，金，J.，J.W. Zhang，B.T.：低秩双线性池的Hadamard乘积（2017）15. 基罗斯河Zhu，Y.，Salakhutdinov，R.R.，泽梅尔河Urtasun河Torralba，A.，Fidler，S.：跳过思维向量。神经信息处理系统进展。pp. 329416. Li，R.，Jia，J.：具有问题表示更新的可视问答。In：Ava ncesi nNe uralI np roces ing S y s i n gPr ocesi ngS y s i n g P r o c e s

下载后可阅读完整内容，剩余1页未读，立即下载