基于多级注意网络的视觉问题分类

137 浏览量更新于2023-10-16 收藏 690KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4709基于多级注意网络的视觉问题分类于东飞，付建龙，陶梅，永瑞中国科学技术大学，微软研究院，北京，中国ydf2010@mail.ustc.edu.cn，{jianf，tmei}@ microsoft.comyongrui@outlook.com，www.example.com摘要受文本问答技术的启发，提出了一种基于图像的与基于文本的问答相比，视觉领域的问答更具有挑战性，因为视觉领域的推理过程需要有效的语义嵌入和细粒度的视觉理解。现有的方法主要从抽象的低层视觉特征中推断答案为了解决这些问题，我们提出了一个多层次的视觉问题回答注意网络，它可以同时通过语义注意来减少语义鸿沟，并通过视觉注意来进行细粒度的空间推理。首先，我们从卷积神经网络（CNN）的高级语义中生成语义概念，并将这些与问题相关的概念选择为语义注意力。其次，我们将CNN的基于区域的中间层输出编码为双向递归神经网络的空间嵌入表示，并进一步通过多层感知器将答案相关区域定位为视觉注意。第三，我们联合优化语义注意，视觉注意和问题嵌入的softmax分类器推断最终答案。大量的实验表明，所提出的方法优于国家的最先进的两个具有挑战性的VQA数据集。1. 介绍视觉问答（VQA）最近引起了广泛的关注，因为VQA被认为正在接近“AI完全”的里程碑，使机器能够像人类一样跨语言和视觉进行推理[38]。与自然语言处理（NLP）中基于文本的问答系统相比，VQA更进一步，它能够通过考虑问题与参考文献之间的对应关系来回答自然语言问题这项工作是在于东飞作为研究实习生访问微软研究院时完成的。图1.多层次注意力网络（MLAN）。所提出的注意力模型突出了与问题相关的语义概念（即，“baseball,” “game,” “play”)and image re- gions (这些区域的形象自动VQA的能力可以显著促进语言和视觉之间的相互理解，并进一步有利于各种应用，例如视障辅助设备，早期教育，服务机器人等。视觉问答的挑战有两方面：有效的语义嵌入和细粒度的视觉理解。大多数早期作品通过卷积神经网络（CNN）的组合将图像字幕框架[5，19，28，35]转移到VQA任务[10，18，24]。[14] 递归神经网络（RNN）[12]。具体而言，这些工作从预训练的CNN模型中提取全局图像表示，并从RNN模型中提取问题表示。它们进一步将跨语言和视觉的联合嵌入特征馈送到解码器RNN中以生成自由形式的答案，或者馈送到softmax分类器中以从预定义的答案集（例如，VQA数据集中的1K答案类别[2]）。尽管已经报道了有希望的结果，但是进一步的改进受到以下限制。首先，人类语言问题传达了具有明确查询意图的强高级语义，而具有数万像素的真实世界图像相对低级和抽象，4710由于众所周知的语义鸿沟，这对深度图像理解提出了巨大的挑战。第二，视觉问题回答需要细粒度的空间推断，因为对于“什么”和“在哪里”问题，一些答案只能从高度局部化的图像区域推断为了应对这一挑战，现有的研究方法从两个独立的维度对VQA进行了研究。首先，一些方法通过将语义概念、图像标题甚至外部知识库引入到典型的CNN-RNN框架中来开发图像的高级语义表示[30，31]。其次，其他人专注于使用基于区域的特征来发现最重要的区域来回答问题[9，13，17，20，26，33，34]。然而，以往的研究仍然忽略了使用语义注意力来选择最具区分力的自然语言问题的概念和使用显式的图像区域的空间编码。为了同时从图像中学习语义和空间表示，我们将这两个维度统一到一个整体学习框架中。具体来说，我们提出了一种新的多级注意力网络（MLAN）的视觉问答突出问题相关的语义概念和本地图像区域在端到端的训练。图1显示了拟议的MLAN的优点一个直观的例子。拟议的MLAN包括三个主要组成部分。首先，语义注意力通过在同一词汇集和联合嵌入空间中发现与问题语义接近的概念来关注高层次的图像表示这些概念对应于问题/答案对中的高频词，可以代表对图像内容的高级理解。具体来说，针对每个概念训练基于CNN的识别器，并且CNN中语义输出层上的分布构成了图像的高级表示第二，提出了空间注意的概念，用来推断问题可能关注的图像区域。局部区域表示首先从CNN中的卷积层中提取，并通过预定义的顺序进一步馈送到双向RNN模型中。这样的设计使得能够从周围环境对区域的空间信息进行编码。每个区域的注意力分数进一步通过多层感知器（MLP）获得，该多层感知器具有上下文感知视觉表示和问题表示两者的输入。第三，联合学习通过元素乘法将关注区域、关注概念和问题特征结合起来，然后通过softmax层从答案集中预测最可能的答案。我们将主要贡献总结如下：• 我们通过联合学习多层次注意力来解决自动视觉问题回答的挑战，这可以同时减少语义从视觉到语言的差距，并有利于VQA任务中的细粒度推理。• 提出了一种新的视觉注意空间编码方法，该方法通过双向编码从有序图像区域中提取上下文感知的视觉特征，RNN模型• 我们在两个广泛使用的VQA数据集上进行了实验[2，37]，并在仅视觉和仅语义atten上获得了显着的性能提升。模型。2. 相关工作在本节中，我们首先介绍了图像字幕和视觉问答的一般然后，我们从两个不同的维度总结了最新的进展。CNN-RNN 受CNN-RNN框架在图像字幕任务中的成功启发，大多数早期作品倾向于利用这些模型的变化来解决视觉问题，[2，10，18，24]。他们通过预先训练的卷积神经网络（CNN）从图像中提取视觉特征，并通过递归神经网络（RNN）对问题进行Ren等人[24]的灵感来自[28]，其中图像被视为第一个令牌，并与描述一起输入RNN以学习视觉语义嵌入。Malinowskiet al. [18]在编码问题时，每次都将图像传递到RNN中，这类似于[5]自动图像字幕任务。Gao等人[10]采用m-RNN模型[19]来处理多语言环境中的VQA任务。Agrawal等人[2]发布了一个大型的人工注释的VQA数据集，并评估了该数据集上的几个基线模型和人类水平的性能，这加速了这项任务的进展尽管这些早期的方法在VQA任务中表现出很好的性能，但它往往在新的实例上失败，并且高度依赖于问题（不要在图像之间改变答案）[1]。视觉注意。视觉注意机制被引入到VQA中，以解决“在哪里看”的问题。问题引导的视觉注意使用问题的语义表示作为查询来搜索图像中这与答案有关[9，13，17，26，34]。在视觉问题回答任务中，两种类型的软注意机制得到了较好的探索。第一种类型将问题表示与每个候选区域连接起来，然后将它们放入多层感知器（MLP）中以计算软注意力权重，而第二种类型通过两种输入方式的点积获得注意力得分[33]。Yang等[34]提出了一种堆叠注意力模型，该模型多次查询图像以逐步推断答案。Lu等人[17]利用问题-图像共注意策略，既注意图像中的相关区域，又注意问题中的重要词语。最近，Namet al. [20]提出了双注意力网络，通过多个推理步骤来细化视觉和文本注意力4711C图2. 多层次注意网络的总体框架。我们的框架由三个部分组成：（A）语义注意，（B）上下文感知视觉注意和（C）联合注意学习。这里，我们用vq表示问题Q的表示，用vimg、vc分别表示由问题查询的视觉和语义级别上的图像内容的表示。vr和pimg是最后一个卷积层和来自CNN的概率层我们的工作不同于共同注意和双重注意，因为我们注意从图像中提取的高层次概念，而不是从问题中提取的单词使用概念而不是问题的主要优势在于概念是图像中内容的语义表示，而不限于问题中的单词在[9]中，Fukuiet al.将一种功能强大的特征融合方法引入到视觉注意中，并在VQA任务中取得了令人印象深刻的结果然而，它们在融合后必须保持更高的维数，代价是更多的计算和存储。高级概念。还有另一个分支也显示出解决VQA问题的有希望的方向。它们利用高级概念[7，8，29]，图像标题甚至视觉故事[16]，外部知识库[30，31]，而不是低级或中级视觉特征。每个概念对应于从训练图像数据挖掘中挖掘出的一个词，并表示关于图像内容的某些属性。这些概念作为自然语言和视觉识别之间的语义单元，允许我们在两种模式之间交换信息[25]。然而，在高层次概念检测过程中，空间信息完全丢失，这导致VQA任务的性能较差。3. 多层次注意力网络为了同时利用更高层次的语义信息和空间信息，我们提出了一种新的多注意力网络。总体框架如图2所示。我们的框架包括三个主要组成部分。成分（A）被定义为语义意图，旨在从图像中发现与问题相关的概念。成分（B）被定义为上下文感知的视觉注意，旨在发现问题相关区域并学习这些区域的视觉表征。组件(C)通过联合注意力学习，将不同层次的信息融合到CNN中。这三个组件是端到端联合优化的，它弥合了语言和视觉之间的语义鸿沟，并从图像区域中学习细粒度表示。3.1. 语义注意语义注意的目的是从图像中挖掘出重要的概念来回答问题。例如，在图1中，尽管概念检测器已经从图像中检测到一组对象和动作（例如，结合视觉和语言模态的核心挑战之一是它们具有不同的抽象层次，其中语言通常指的是一般类别，而图像中的数百个像素可以指向一个实例[25]。先前关于图像/视频字幕[6，22，23，35，36]和视觉问题回答[30，31]的工作已经表明，提取显式高级4712eCCCCCCee来自图像/视频的概念可以在语义水平上为视觉内容和语言的相互作用带来益处虽然一个图像可以传达多种语义，但并非所有语义都有助于回答特定问题。因此，我们建议关注概念，这些概念不仅与图像相关，而且在语义上接近问题。我们通过两个步骤来实现这些目标。在第一步中，我们通过深度卷积神经网络训练概念检测器，它可以产生图像的语义概念与[30]类似，我们首先构建一个概念词汇表，其中每个概念都被定义为一个单词。使用频率最高的单词，来自问题-答案训练对的C的数量在问题模型中，Wc是第二嵌入矩阵，它将概念嵌入到与问题相同的维度表示中。接下来，我们将投影的概念向量sc与问题向量vq的点积作为运算，并将结果值传递到S形激活层以获得概念c与问题Q之间的相关性得分。此外，我们将概念c的语义注意力权重公式化为概念图像相关性pimg和概念问题相关性pq的乘积，其由下式给出：pq=sigmoid（vq·sc），（6）Mc=pimg pq，（7）C c被收集在概念词汇表中的停用词之后，移动。此外，基于COCO图像字幕数据集[15]构建了基于这些概念的多标签图像数据集，用于训练概念检测器。因此，通过在CNN的预测层中激活fc，为每个图像I创建固定长度的向量pimg，其表示图像中出现每个概念的概率我们将概念检测的过程表示为：其中，运算符·表示两个向量的点积，pq是测量问题Q和概念c之间的语义相似性的相关性得分，Mc是语义注意力高于概念。最后，我们通过对所有概念表示的加权和来表示由问题Q查询的图像I的高级语义信息，其由下式给出：p img= fc（I）.（一）在第二步中，我们训练了一个注意力网络来测量词汇中每个概念与问题之间的语义相关性首先，我们用一个递归神经网络来表示这个问题。具体而言，鉴于问题Q =[q1，q2，.， q T]，其中q t是位置t处单词的一个热向量表示，我们嵌入这些单词通过嵌入矩阵Wq转换为向量空间。对于每个时间步t，我们将词qt的嵌入向量xt馈送到门递归单元（GRU）层，并挑选最后一个隐藏状态hT作为问题表示，其被记为vq。我们使用以下等式来公式化问题编码模型：xt=Wq qt，（2）ht=GRU（xt，ht−1），（3）v q= h T.（四）此外，我们对概念和问题使用相同的词汇和嵌入矩阵，因此它们可以共享相同的语义表示。具体地说，我们用一个两层堆叠的嵌入层来表示具有语义向量sc的概念c。第一层被设计为与问题模型共享相同的词嵌入层，并且第二层用于将概念向量投影到与问题表示相同的维度中，其由下式给出：sc=Wc（Wq c），（5）Cv c= ∑ M c（i）s c（i）.（八）i=13.2. 情境感知视觉注意力虽然语义注意弥合了问题和图像之间的语义鸿沟，但它忽略了图像中的空间信息，这对于表示图像区域的空间上下文是重要的，因此在视觉问答任务中是至关重要的。视觉注意力在细粒度的视觉表示和可视化方面取得了成功，因此在最近的VQA框架中得到了广泛的应用。与人类注意力相比，最近的工作[4]发现当前的VQA注意力模型似乎不现有的注意力模型可能存在的问题之一是，它们通常是通过将整个图像划分为若干孤立的单元来逐个搜索图像区域。虽然取得了可喜的成果，但进一步的改进是有限的，因为许多概念可能通过动作和位置关系相互作用。例如，如果我们想真正理解和回答“猫站在什么上面”的问题，在这种情况下，不仅应该查看和理解关于“猫”的区域为了解决这个问题，我们提出了一个上下文感知的视觉注意力机制到我们的VQA框架。具体来说，我们首先将上下文信息-4713e从每个区域通过双向选择进入表示其中c是概念的一个热向量表示，Wq是与ques共享的嵌入权重。GRU编码器，如图3所示。我们使用微调的CNN模型进行概念检测，4714该方法克服了多模态特征池中尺度不一致的问题。第4.4节中的比较实验证明了我们的假设。具体来说，我们将我们的视觉注意力过程表述为：.↔Σ图3.通过双向GRU对图像区域的上下文感知视觉表示的说明卷积特征映射中的区域以从左到右和从上到下的顺序编码到GRU中。提取视觉特征以进行局部重建的宝贵步骤h=tanh（WQ vq+bQ）（WI vr+bI），（10）Mr=softmax（Wp h+b），（11）其中，我们将矩阵与向量之间的乘法表示为矩阵与向量之间的乘法，其通过将矩阵的每一列逐元素乘以向量来执行WQ和WI是对应的嵌入矩阵。Wp是多感知器层中的参数，Mr是图像区域的注意力权重。与语义注意力类似，我们将这些区域与加权和合并，以获得由问题Q查询的图像I的视觉表示，其由下式给出：gions。我们将最后一个卷积RParticipate的特征图CNN模型中的层作为我们的视觉表示，它可以保留每个区域的完整空间信息。我们将每个区域上的这些视觉表示为{v r，r= 1，2，...，R}，其中vr表示第r个有序区域的特征向量。我们将这些特征向量输入到双向GRU并在每一步组合来自前向和后向方向的输出，以形成每个区域的新特征向量，其由下式给出：v img= ∑ M r（i）v r（i）。（十二）i=1在实践中，我们像[34]一样重复上述过程一次，使用问题特征和关注区域特征的添加作为指导。为了简洁起见，我们在这里忽略细节。3.3. 联合注意学习我们使用问题作为查询来搜索图像信息，↔vr= GRU↔f（vr）+GRUb（vr）（9）在不同的层面上。在低层视觉特征中，我们通过视觉注意关注与问题相关的区域，而在高层语义特征中，我们关注与问题相关的区域。其中vr是图像的上下文感知视觉表示区域r新的特征向量不仅包含了对应区域的视觉信息，还包含了周围区域的上下文信息。我们将每个GRU中隐藏状态的维度设置为与问题向量相同其次，我们为每个区域分配一个注意力分数，用于对区域和问题之间的关系进行建模。与语义注意力通过两个向量的点积来衡量问题与概念词之间的语义相似度不同，我们通过两个向量的元素乘来对齐问题和每个区域这种设计使MLP中的参数优化能够实现注意函数更具体地说，我们通过多步推理搜索区域[34]。主要的区别来自两方面。1)我们使用最后一步获得的上下文感知视觉特征来表示局部区域，而不是卷积神经网络中每个区域2)我们使用元素乘法而不是元素加法来对齐问题特征和vi-语义注意相关概念这两个层次的注意力是通过它们的注意表征的融合而结合起来的。特别地，我们首先将问题向量添加到从不同层提取的关注图像特征中，然后使用元素乘法将两种类型的注意力结合在最后，我们将联合特征馈送到softmax层，以预测预定义的候选答案集A的概率。具有最高概率的候选人被确定为最终答案，其由下式给出：u=（vq+vimg）（vq+vc），（13）pa=softmax（Wu+b），（14）其中，我们将k表示为两个向量之间的逐元素乘法。vq，vimg，vc是问题Q、图像I的关注视觉表征和概念C的关注语义表征。u是从图像中提取的问题、图像和概念的联合表4715示。W和b是最后一个全连接层的参数，pa是softmax层的输出，即答案候选的概率分布。具有最大概率的候选人被挑选出来作为预测答案。47164. 实验4.1. 数据集我们在两个大规模的VQA数据集上评估了我们的模型，VQA和Visual7W数据集，由于大量的训练实例和问题类型的多样性。VQA是一个大规模的视觉问答数据集，包含来自COCO数据集的204，721张图像和一个新创建的抽象场景数据集，其中包含50，000张场景图像。我们在这个数据集上评估我们的模型仅用于真实图像。对于VQA数据集中的每个图像，注释了三个问题，每个问题有来自10个不同注释者的10个答案。我们报告了两个不同的任务，这是开放式和多项选择任务的结果。在开放式任务中，我们从所有可能的输出中选择具有最高激活的答案，而在多项选择任务中，我们从给定的选择中选择具有最高激活的答案。我们收集训练数据中最常见的3000个答案作为候选答案集。我们不仅在验证数据集上评估所提出的方法，而且在测试服务器上评估所提出的方法，该服务器用于在测试集中进行盲评估以进行公平比较[2]。Visual7W是由[37]构建的更新的VQA数据集，它是Visual Genome[3]的子集（迄今为止最大的视觉QA数据集，拥有170万个QA对）。Visual 7 W包含47，300个COCO上的327，939个问题-答案对图像.每一个问题-答案对都与4个人工生成的多项选择相关联，其中只有一个是正确答案。Visual7W有两大亮点。首先，Visual7W在对象级基础上提供了密集的注释，用于建立QA对和图像区域之间的显式链接。第二，Visual7W允许用视觉答案指出问题，其中正确答案是四个图像区域之一。我们仅在此数据集上的多项选择设置中评估我们的模型。4.2. 评估指标视觉QA被公式化为两个数据集上我们遵循评估指标作为两个数据集的基线方法。对于VQA数据集，[2]公开设置一个评估服务器，对测试集进行盲评估。测试集分为四个部分：测试开发，测试标准，测试挑战和测试储备，每个部分包含约20K图像。我们评估我们的消融模型的实验分析的测试开发集，并评估我们的最佳模型的测试开发和测试标准集。对于开放式任务，[2]使用投票机制对预测答案的准确性进行评分：#人类说ans表1. 测试开发集上的消融模型。前三个模型只利用语义注意，而中间三个模型只执行视觉注意。MLAN表示我们的完整模型，它关注图像的多层次表示。烧蚀模型精度Att-CNN + LSTM[30]55.57Q +概念56.62Q +语义注意力59.28SAN[34]58.68Q +视觉关注62.29Q +情境感知视觉注意力62.50MLAN（我们的）63.69通过[37]，假设模型在一个问题上是正确的，如果它选择了正确的答案候选者。准确性是用来衡量性能的。4.3. 实验设置我们在这里展示了我们的实验设置，超参数和训练过程。对于问题模型，我们使用自然语言工具包NLTK1对问题进行标记，将所有单词转换为单词，并且仅保持这些单词在训练值集中至少出现两次。我们去掉停用词词干。最后，我们在VQA数据集上得到了一个9853字的问句。如3.1节所述，单层GRU用于编码问题，其具有620维词向量和2400维隐藏状态。我们将GRU层的最后一个隐藏状态作为问题表示，因此问题特征向量的维数为2400。对于概念模型，我们选择了问题-答案训练对中出现频率最高的256个词作为我们的概念词汇，去除了停止词。我们通过激活ResNet模型的最后一层来检测图像中的概念[11]，该模型在我们从MSCOCO数据集导出的多标签数据集上进行了微调。我们的概念检测器与[30]有两个主要区别。我们使用一个更强大的分类模型，即。在ImageNet上预先训练了152层的ResNet，而不是19层的VGGNet [27]。此外，我们使用多标签分类任务中最常见的损失函数对于每一个概念，我们得到相同的嵌入向量与相同的问题词，I.E. 2400个维度。我们将问题向量和概念向量投影到512维空间中，然后对概念进行关注。对于图像模型，我们从最后一个卷积层（即，acc（ans）=min{3，1}，概念检测模型。每个特征向量具有尺寸为2048，对应于32× 32像素其中ans是视觉QA模型预测的答案对于Visual7W数据集，我们使用的评估代码发布1http://www.nltk.org/4717表2. VQA数据集的比较结果。根据注意机制的不同，我们将比较的方法分为五类。第一类不使用任何注意力。第二类只使用视觉注意力。类别III提取用于图像表示的高级概念。第四类关注图像和问题。第五类包括我们的方法的不同变体。方法test-dev测试标准开放式MC开放式MC是/否Number其他所有所有是/否Number其他所有所有LSTM Q + I[2]78.935.236.453.757.279.035.636.854.157.8我更深层次的+规范[2]80.536.843.157.862.780.636.543.758.263.1DPPnet[21]80.737.241.757.2-80.336.942.257.4-SAN[34]79.336.646.158.7----58.9-美国食品药品监督管理局[13]81.136.245.859.2----59.5-IIDMN+[32]MCB+属性[9]第一章80.582.236.837.748.354.860.364.2-68.6------60.4---MCB +属性+ GloVe[9]82.537.655.664.769.1-----MCB +属性+ GloVe + VG[9]82.337.257.465.469.9-----IIIAC[31]79.836.843.157.5-79.736.043.457.6-ACK[31]81.038.445.259.2-81.137.145.859.4-IV[17]第十七话79.738.751.761.865.8---62.166.1DAN[20]83.039.153.964.369.182.839.154.064.269.0MLAN（ResNet）82.939.252.863.768.9-----VMLAN（ResNet，train+val）83.840.253.764.669.883.740.953.764.869.9MLAN（ResNet，train+val+VG）81.841.256.765.370.081.341.956.565.270.0输入图像的区域。与语义层面的注意力一样，我们通过双向GRU将2048维的特征向量嵌入到2400维的空间中，将图像和这种上下文感知表示投影到同一个512维空间中，然后对视觉表示进行注意力处理。在我们的实验中，我们使用动量为0.9的随机梯度下降作为求解器。批量大小固定为100.我们将基本学习率设置为0.05。在15个epoch之后，我们每5个epoch将学习率降低到前一个的十分之一。此外，在训练过程中，还采用了梯度裁剪技术和丢包技术对于visual7W数据集，我们使用与VQA数据集完全相同的参数设置和训练选项。我们仅在多项选择设置中评估我们的模型，并将数据集分为训练，验证和测试[37]。4.4. 烧蚀模型为了分析模型中各个组成部分的贡献，并展示多层次注意力如何比单层次注意力更好地工作，我们对整个模型进行了消融，并展示了各个组成部分的有效性。• Att-CNN + LSTM[30]：属性表示作为LSTM的第一个输入，然后在问题• Q +概念：一个简单的语义注意版本，将概念检测器的输出作为注意权重，与问题无关• Q +语义注意力：模型的第一部分，将概念与图像和问题的关系纳入注意力权重• SAN[34]：与我们的第二个组件• Q+视觉注意力：我们的视觉注意力模型，没有上下文感知的视觉表示• Q +情境感知视觉注意力：我们模型的第二个组成部分，从完整模型中删除语义注意力• Q +多级关注：我们的完整模型，融合了对不同层次图像表示的关注，我们在表1中报告了我们的消融模型在VQA数据集的测试开发集上的性能。这些模型在训练数据集和一半验证集上进行训练，如[34]所示。下一节将作进一步分析。4.5. 结果与分析我们将通过表1所示的烧蚀实验来解释模型中每个组件的工作原理。实验结果表明，我们的多级注意力模型显著优于所有的单级注意力模型。关注语义级概念和关注基于区域的视觉特征。表1中的前三行将我们的语义注意力模型与使用高级概念但没有注意力机制的模型进行了比较。当我们注意到与图像和问题相关的概念时，我们的平均收益为2.7%。这说明对高层次概念的注意是有效的，可以从图像中发现更重要的语义信息，去除与问题无关的噪声信息。表1中的中间三行证明了我们对视觉注意机制的两个贡献。在SAN[34]模型中，我们使用逐元素乘法来代替加法，并获得更好的性能，这支持我们的并行计算，4718图4.从视觉问题回答与注意力可视化的定性结果。与问题相关的图像区域和高级概念都被突出显示。第一行中的示例示出了导致真实答案的正确关注图像区域，而第二行示出了可以直接从关注概念中找到答案的那些情况。在视觉问题回答任务中，元素乘是一种比加法更好的第二个贡献是，我们将来自周围区域的上下文信息合并到目标区域中，这有利于图像中的空间推断。升职比我们想象的要少。我们推测可能有两个原因。首先，我们当前的上下文编码方案遭受双向GRU的长期依赖性问题，并且在水平和垂直方向上对于周围区域不对称，因为双向GRU只能对序列而不是2D空间图建模。其次，COCO的大多数图像只包含少数对象，因此，对象之间的交互我们将在今后的工作中对此进行核实。表1中的最后一行将不同级别的注意力加入到一个统一的框架中，与任何单级别注意力模型相比，都有显着的改进。这说明不同层次的图像特征的注意机制是互补的，可以相互促进.我们在两个大型数据集上将我们的模型与最先进的方法进行了比较。结果如表2所示表3. Visual7W数据集上的结果。我们报告了六种问题类型的独立准确率和平均准确率，包括方法什么 Whr. Whn. Who Why HowAvgLSTM-属性[37]51.5 57.0 75.0 59.5 55.5 49.8 54.3MCB+属性[9]第一章60.3 70.4 79.5 69.2 58.2 51.1 62.2MLAN（我们的）60.5 71.2 79.6 69.4 58.0 50.8 62.4VQA数据集和Visual7W数据集上的表3。为了进行公平的比较，我们使用具有几个设置的单个模型报告结果。[9]当他们增加手套技巧和额外的训练数据时，达到与我们相当的性能。然而，他们的方法使用了更高维度的融合方法（16，000 dim vs. 2400 dim），并且如果它们使用可比较的尺寸特征，则下降几乎超过1%他们的模式必须在有效性和效率之间做出权衡。[17]和[20]是两种同时利用视觉注意和文本注意的方法，区别在于它们对问题而不是我们模型中的高级概念进行文本注意。我们取得了比这两种方法更好的结果，因为我们从图像中挖掘出的概念比问题本身更多5. 结论我们提出了一种新的多级注意力网络，将视觉注意力和语义注意力加入到一个端-端框架中，以解决自动视觉问答问题。视觉注意使细粒度的视觉理解查询的问题，而语义注意缩小问题和图像之间的域差距。该模型利用了注意机制在不同层次表示上的互补性。在两个大数据集上的大量实验表明，我们不仅优于任何单级注意力模型，而且通过一个简单但有效的框架获得了最佳结果。未来的工作包括进一步探索具有上下文信息的空间编码、注意力水平表示以及更好的融合不同水平注意力的方法。4719引用[1] A. Agrawal、D.Batra和D.帕里克分析视觉问答模型的行为在EMNLP，2016。[2] S. Antol，A. Agrawal，J.卢，M.米切尔，D。巴特拉角L.zitnick和D.帕里克VQA：可视化问答。在ICCV，2015年。[3] A. Das，H. Agrawal等人可视化基因组：使用众包的密集图像注释连接语言和视觉。InIJCV，2016.[4] A. Das，H.阿格拉瓦尔角L. Zitnick，D. Parikh和D. 巴特拉视觉问答中的人类注意力：人类和深度网络会关注相同的区域吗？在EMNLP，2016。[5] J. 多纳休湖A. 亨德里克斯M.Rohrbach，S.VenugopalanS. 瓜达拉马湾Saenko和T.达雷尔。用于视觉识别和描述的长期CVPR，2015。[6] H. Fang，S. 古普塔F. 兰多拉河斯利瓦斯塔瓦湖邓小平说，P. Dollar，J. Gao、X.他，M。米切尔，J。C.普拉特角L.Zit-nick 和 G. 茨威格从标题到视觉概念再到后面。CVPR，2015。[7] J. Fu，J.Wang，Y.鲁伊，X.-J. Wang，T.Mei和H.陆图像使用视图相关概念表示进行标记细化IEEE T-CSVT，25（28）：1409[8] J. Fu，Y.，-地，中国地质大学出版社，1963-人Wu，T.Mei，J. Wang，H. Lu和Y.瑞从词汇中放松：用于无词汇图像标记的鲁棒弱监督深度学习。在ICCV，2015年。[9] A. 福井D.H. 帕克D。Yang，杨树A.Rohrbach，T.Darrell和M.罗尔巴赫多模态紧凑型双线性池用于可视化问题回答和可视化基础。在EMNLP，2016。[10] H. Gao，J. Mao，J. Zhou，Z.黄湖，澳-地Wang和W.徐你在跟机器说话吗？用于多语言图像问题回答的数据集和方法。2015年，在NIPS[11] K.他，X。Zhang，S. Ren和J. Sun.深度残差学习用于图像识别。在CVPR，2016年。[12] S. Hochreiter和J.施密特胡博长短期记忆。Neural Computation，9（8）：1735[13] I. Ilievski，S.Yan和J.峰视觉问答的聚焦动态注意在ECCV，2016年。[14] Y.勒昆湖Bottou，Y. Bengio和P.哈夫纳梯度-基于学习的文档识别。Proced-dings of the IEEE，86（11）：2278[15] T.林，M。迈尔，S。贝隆吉，J. Hays，P. Perona，D.Ra-manan、P.Dollar和C. L.齐特尼克微软coco：上下文中的公用对象。2014年，在ECCV[16] Y. Liu，J. Fu，T. Mei，和C. W.尘让照片说话：基于双向注意递归神经网络的照片流叙事段落生成在AAAI，第1445[17] J. Lu，J. Yang，D. Batra和D. 帕里克分层视觉问题回答的问题-图像共同注意。在NIPS，2016年。[18] M.马林诺夫斯基，M。Rohrbach和M.弗里茨问你的新-rons：一种基于神经的方法来回答有关图像的问题。在ICCV，2015年。[19] J. Mao，W. Xu，Y. Yang，J. Wang，Z. Huang和A. 尤尔。使用多模态递归神经网络（m-RNN）进行深度字幕。2015年，国际会议4720[20] H. Nam、J.Ha和J. Kim.用于多模态推理和匹配的双注意力网络。在arXiv：1611.00471，2016。[21] H. Noh，P.H. Seo和B.韩图像问答使用具有动态参数预测的卷积神经网络在CVPR，2016年。[22]Y.潘氏T. Mei，T. Yao，H. Li和Y.瑞联合造型嵌入和翻译来连接视频和语言。在CVPR，2016年。[23] Y.潘氏T. Yao，H. Li和T. 美. 具有转移语义属性的视频字幕。在arXiv预印本arXiv：1611.07675，2016。[24] M. 伦河，巴西-地Kiros，和R.S. 泽梅尔探索模型和图像问答数据。2015年，在NIPS[25] M.罗尔巴赫属性作为自然语言和视觉识别之间的语义单位。在arXiv：1604.03249，2016。[26] K. J. 施，S.Singh和D.霍伊姆在哪里看：焦点用于视觉问题回答的区域。在CVPR，2016年。[27] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。2015年，国际会议[28] O. Vinyals，A. Toshev，S. Bengio和D.二汉秀和tell：神经图像字幕生成器。CVPR，2015。[29] J. Wang，J.傅氏T.Mei和Y.徐除了物体识别：用深度耦合形容词和名词神经网络进行视觉情感分析。InIJCAI，2016.[30] Q. 吴角，加-地申湖，澳-地Liu，中国粘蝇A.Dick和A.亨格尔什么价值外显的高级概念对语言问题有视觉上的影响吗？在CVPR，2016年。[31] Q. Wu，P. Wang，C. Shen，中国古猿A. Dick和A.亨格尔问我任何东西：基于外部来源知识的自由形式可视问答。在CVPR，2016年。[32] C. Xiong，S. Merity和R.索彻动态记忆网适用于视觉和文本问题回答。InICML，2016.[33] H. Xu和K.萨恩科提问、出席并回答：探索视觉问题回答的问题引导空间注意力。在ECCV，2016年。[34] Z. Yang，X. He，J. Gao，L. Deng和A.斯莫拉堆叠图像问答的注意力网络。在CVPR，2016年。[35] T. 姚明 Y. 潘 Y. 李鹏说， Z. Qiu和T.美.升压-使用属性设置图像字幕在arXiv预印本arXiv：1611.01646，2016。[36] Q. 你H金，Z.Wang，C.Fang和J.罗图像帽-语义注意力。在CVPR，2016年。[37] Y. Zhu，O.格罗斯M. Bernstein和L.飞飞Visual7w：在图像中回答问题。在CVPR，2016年。[38] C. L. Zitnick，A.阿格拉瓦尔，S。安托尔湾米切尔，D。巴特拉和D.帕里克通过视觉问答来衡量机器智能。AIMagazine，37（1）：63

下载后可阅读完整内容，剩余1页未读，立即下载