没有合适的资源?快使用搜索试试~ 我知道了~
1面向视觉问答的关系感知图注意网络李林杰,甘哲,程宇,刘晶晶微软Dynamics 365人工智能研究{lindsey.li,zhe.gan,yu.cheng,jingjl}@ microsoft.com摘要为了回答关于图像的语义上复杂的问题,视觉问答(VQA)模型需要完全理解图像中的视觉场景,特别是不同对象之间的交互动态。我们提出了一个基于图的感知图注意力网络(ReGAT),它将每幅图像编码成一个图,并通过图注意力机制对多类型的对象间关系进行建模,以学习问题自适应的关系表示。探索两种类型的视觉对象关系:(i)表示对象之间的几何位置和语义交互的显式关系;以及(ii)隐式关系,捕捉隐藏的动态之间的图像区域。实验表明,ReGAT优于现有的国家的最先进的方法对VQA2.0和VQA-CP v2数据集。我们进一步表明,Re-GAT是兼容现有的VQA架构,并可以用作一个通用的关系编码器,以提高模型性能的VQA。1. 介绍深度学习的最新进展推动了计算机视觉和自然语言处理(NLP)的巨大进步。语言和视觉之间的跨学科领域,如图像字幕,文本到图像合成和视觉问答(VQA),已经吸引了视觉和NLP社区的迅速增长的关注。以VQA为例,其目标(也是主要挑战)是训练一个模型,该模型可以实现对多模态输入的全面和语义一致的理解。具体地,给定图像和基于图像的自然语言问题,任务是将图像中的视觉特征与问题中的语义含义相关联,以便正确地回答问题。大多数最先进的VQA方法[56,11,38,33,49]专注于学习图像和问题的多模态联合表示。具体地,卷积神经网络(CNN)或基于区域的CNN(R-CNN)是com-CNN。图1. ReGAT模型概述。显式关系(语义和空间)和隐式关系。建议的关系编码器捕获问题自适应对象的交互通过图形注意。主要用作图像编码的视觉特征提取器,并且递归神经网络(RNN)用于问题编码。在从视觉特征提取器获得图像区域的稀疏集合之后,应用多模态融合来学习表示每个单独区域与问题之间然后将该联合表示馈送到答案预测器中以产生答案。该框架已被证明是有用的VQA任务,但仍然存在着一个显着的图像和自然语言之间的语义差距例如,给定一组斑马的图像(见图1),模型可能识别出黑色和白色像素,但不能识别出哪些白色和黑色像素来自哪个斑马。因此,很难回答诸如“最右边的斑马是斑马宝宝吗?或者“所有的斑马都在吃草吗?”“. VQA系统不仅需要识别对象(“斑马“)和周围环境(“草“),而且还需要识别图像和问题中关于动作(“进食“)和位置(“在最右边“)的为了捕获这种类型的动作和位置信息,我们需要超越图像理解中的单纯对象检测,并通过解释图像中不同对象之间的动态和交互来学习图像中视觉场景的更全面视图。一种可能的解决方案是检测相邻对象的相对几何位置(例如,摩托车-下一个1031310314to-car>),以与问题中的空间描述保持一致。另一个方向是学习对象之间的语义依赖性(例如,<吃蛋糕的女孩>)来捕捉视觉场景中的交互动态。出于这一动机,我们提出了一个具有感知能力的图形注意力网络(ReGAT)VQA,引入了一种新的关系编码器,捕捉这些对象间的关系超出静态对象/区域检测。这些视觉关系特征可以揭示图像中更细粒度的视觉概念,这反过来又提供了一个整体的场景解释,可以用于回答语义复杂的问题。为了覆盖图像场景和问题类型中的高变化,两个显式(例如,空间/位置、语义/可操作)关系和隐式关系由关系编码器学习,其中图像被表示为图形,并且对象之间的交互经由图形注意机制来捕获。此外,基于问题的上下文来学习图形注意力,从而允许将来自问题的语义信息注入到关系编码阶段。以这种方式,由关系编码器学习的特征不仅捕获图像中的对象交互式视觉内容,而且还吸收问题中的语义线索,以动态地关注每个问题的特定关系类型和实例。图1显示了所提出的模型的概述。首先,使用FasterR-CNN生成一组对象区域建议,并使用问题编码器进行问题嵌入。然后将每个区域的卷积和边界框特征注入到关系编码器中,以从图像中学习关系感知的、问题自适应的区域级表示。这些关系感知视觉特征和问题嵌入然后被馈送到多模态融合模块中以产生联合表示,其在答案预测模块中用于生成答案。原则上,我们的工作与现有的VQA系统不同(并且兼容)。它是围绕一个新的维度:使用问题自适应对象间的关系,以丰富的图像表示,以提高VQA的性能。我们的工作贡献有三个方面:• 我们提出了一种新的基于图的关系编码器,通过图注意力网络学习视觉对象之间的显式和隐式关系。• 学习的关系是问题自适应的,这意味着它们可以动态地捕获与每个问题最相关的视觉对象关系。• 我们表明,我们的ReGAT模型是一种通用的方法,可用于改善国家的最先进的VQA模型,在VQA 2.0数据集上。我们的模型还在更具挑战性的VQA-CP v2数据集上实现了最先进的性能。2. 相关工作2.1. 视觉问题回答目前VQA系统的主要框架包括图像编码器、问题编码器、多模态融合和答案预测器。 代替直接使用来自基于CNN的特征提取器的视觉特征,[56,11,41,33,49,38,63,36]探索了各种图像注意机制来定位与问题相关的区域为了学习问题的更好表示,[33,38,11]提出协同执行问题引导的图像注意力和图像引导的问题注意力,以在编码阶段合并来自视觉和文本模态的知识[15,25,60,4,24]探索了更高阶的融合方法以更好地将文本信息与视觉信息相结合(例如,使用双线性池而不是更简单的一阶方法,例如求和、合并和乘法)。为了使模型更具可解释性,一些文献[30,59,29,54,55,53]还利用了图像中的高级语义信息,例如属性,标题和视觉关系事实。这些方法中的大多数应用VQA独立模型从图像中提取语义知识,而[34]构建了一个VQA数据集并直接挖掘VQA特定的关系事实,以向模型提供额外的语义信息。最近的一些研究[48,35,29]调查了如何将记忆纳入辅助推理步骤,特别是对于困难的问题。然而,由记忆或高层语义信息带来的语义知识通常被转化为文本表征,而不是直接作为视觉表征,它包含了关于图像的更丰富、更有我们的工作是互补的,这些先前的研究中,我们编码对象关系直接到图像表示,和关系编码步骤是通用的,可以自然地适合任何国家的最先进的VQA模型。2.2. 视觉关系视觉关系在深度学习流行之前就已经被探索过了早期的工作[10,14,7,37]提出了通过考虑对象关系(例如,共现[10]、位置和大小[5])作为对象检测的后处理步骤一些以前的工作[16,17]也探讨了空间关系(例如,“above”, “around”, “below” and视觉关系已被证明是许多计算机视觉任务的关键。例如,它有助于将图像映射到标题的认知任务[13,12,58],并改进了图像搜索[47,23]和对象定位[45,21]。最近关于视觉关系的研究[45,43,9]更多地关注非空间关系,或称为10315i=1图2.模型架构的建议ReGAT的视觉问答。采用更快的R-CNN来检测一组对象区域。然后,这些区域级特征被馈送到不同的关系编码器中,以学习关系感知的问题自适应视觉特征,这些特征将与问题表示融合以预测答案。为了简单起见,省略了多模态融合和答案预测器关系”(即,对象的动作或对象之间的交互)。已经为视觉关系预测任务设计了一些神经网络架构[32,8,61]。2.3. 关系推理我们将上述视觉关系命名为外显关系,它已被证明对图像字幕有效[58]。具体来说,[58]利用了从VisualGenome数据集[28]与物体之间的空间关系然后基于这些关系构建图,并使用图卷积网络(GCN)[26]来学习每个对象的表示。另一条研究线集中在隐式关系上,其中不使用显式语义或空间关系来构造图。相反,所有关系都被注意力模块或通过输入图像的全连接图上的高阶方法隐式捕获[46,21,6,57],以对检测对象之间的交互进行建模。例如,[46]通过使用简单的MLP对图像中所有可能的对象对进行推理在[6]中,引入了一种称为MuRel细胞的双线性融合方法来执行成对关系建模。一些其他的工作[50,39,52]已经被提出来学习图像的问题条件图表示。具体来说,[39]引入了一个图形学习器模块,该模块以问题表示为条件,使用成对注意力和空间图形卷积来计算图像表示。[50]利用结构化的问题表示,如解析树,并使用GRU来建模对象和单词之间的上下文交互最近的一项工作[52]引入了一个由类间/类内边定义的稀疏图,其中关系通过语言引导的图注意机制隐式学习。然而,所有这些工作仍然集中在隐含的关系,这是更少的解释比显式关系。我们的贡献我们的工作受到[21,58]的启发。然而,与他们不同的是,ReGAT考虑了显式和隐式关系,以丰富图像表示。对于显式关系,我们的模型使用图注意力网络(GAT),而不是[58]中使用的简单GCN。与GCN相反,GAT的使用允许向相同邻域的节点分配对于隐式关系,我们的模型通过过滤出与问题无关的关系来学习适应每个问题的图,而不是像[21]那样平等地对待所有关系在实验中,我们进行了详细的消融研究,以证明每个单独设计的有效性。3. 一种具有感知能力的图注意力网络以下是VQA任务的问题定义:给定一个基于图像I的问题q,目标是预测一个最匹配地面真实答案a的答案a∈ A。作为VQA文献中的常见做法,这可以是定义为分类问题:a=argmaxp θ(a|I,q),⑴a∈A其中pθ是训练模型。图2给出了我们提出的模型的详细说明,包括图像编码器,问题编码器和关系编码器。对于图像编码器,使用更快的R-CNN [2]来识别一组对象V={vi}K,其中每个对象vi与视觉特征向量vi∈Rdv和边界盒特征向量bi∈Rdb(实验中K=36,dv=2048,db=4每个bi=[x,y,w,h]对应于4维空间坐标,其中(x,y)表示边界框的左上点的坐标,并且h/w表示对应于盒子的高度/宽度。对于问题编码器,我们使用具有门控回流单元(GRU)的双向RNN,并对RNN隐藏状态序列执行自注意以生成问题嵌入。10316我dingq∈Rdq(在我们的实验中dq=1024以下小节将解释关系编码器的细节。3.1. 图构建全连通关系图通过将图像中的每个对象vi视为一个顶点,我们可以构造一个全连通无向图Gimp=(V,E),其中E是K×(K−1)条边的集合每条边表示两个对象之间的隐通过图形注意力分配给每个边的学习权重。所有的权重都是在没有任何先验知识的情况下隐式学习的我们将建立在该图上的关系编码器称为隐式关系编码器。另一方面,如果顶点之间的显式关系是可用的,则可以通过修剪顶点之间的显式关系的边来容易地将全连通图Gimp变换为显式关系图。不存在对应的显式关系对于每对对象i,j,如果i-p-j>是有效关系,则创建从i到j的边,边标签为p。<此外,我们为每个对象节点i分配一个自环边,并将该边标记为相同。以这种方式,图变得稀疏,并且每个边缘编码关于图像中的一个对象间关系的先验知识。我们命名的关系编码器建立在这个图的显式关系编码器。这些特征的显式性质需要预先训练的分类器以离散类标签的形式提取关系,这些标签表示对人眼显式的对象之间的动态和交互。不同类型的显式关系可以基于该修剪图来学习。在本文中,我们探讨两个实例:空间和语义图,以捕获对象之间的位置和可操作关系,这对于视觉问题回答是必要的。空间图令spai,j=对象i-谓词- 对象j>表示表示对象i相对于对象i的相对几何位置的空间关系。为了构造空间图Gspa,给定两个对象区域提议对象i和对象j,我们将spai,j分类为11个不同类别[58](例如,对象i在对象j(类1)内部,对象j在对象i(类1)内部2)、作为示在图3(a))、包括为彼此相距太远的对象保留的无关系类。注意,由空间关系形成的边是对称的:如果对象i-pi,j-对象j>是有效的空间关系,则必须存在有效的空间关系spaj,i=。然而,两个谓词pi,j和pj,i是不同的。语义图为了构造语义图Gsem, 语义 关系 之间 对象 需要 是(a) 空间关系(b)语义关系图3.空间和语义关系的说明。绿色箭头表示关系的方向(主体→客体)。绿色框中的标签是关系的类标签。红色和蓝色框包含对象的类标签。这可以通过在视觉关系数据集上训练语义关系分类器(例如,Visual Genome [27])。给定两个对象区域i和j,目标是确定哪个预测p表示这两个区域之间的语义关系i-p-j><这里,主体j和客体i之间的关系是不可互换的,这意味着由语义关系形成的边不是对称的。对于有效的,在我们的定义中可能不存在关系. 比如说,是一个有效的关系,而从bat到man没有语义关系。分类模型采用三个输入:对象区域的特征向量Vi、对象区域的特征向量Vj以及包含i和j两者的联合边界框的区域级特征向量Vi,j。 这三种类型的特征是从预先训练的目标检测模型中获得的,然后通过嵌入层进行转换。然后,将嵌入的特征连接并馈送到分类层中,以在14个语义关系上产生softmax概率,并具有额外的无关系类。然后使用训练的分类器来预测给定图像中的任何一对对象区域之间的关系语义关系的示例如图3(b)所示。3.2. 关系编码器问题自适应图形注意力所提出的关系编码器的目的是编码的关系动态之间的对象在图像中。对于VQA任务,可能存在对不同问题类型有用的不同类型的关系因此,在设计关系编码器时,我们使用问题自适应注意力机制来将来自问题的语义信息注入关系图中,以动态地向与每个问题最相关的那些关系分配更高的权重这通过首先将问题嵌入q与K个视觉特征vi中的每一个连接来实现,表示为v′=[vi||q]对 于 i=1 , ...、 K.(2)然后对顶点执行自注意,这生成-提取 (e.g.、 主语-谓语-宾语>)。删除隐藏关系特征{v}K表征i i=110317我J我J我J我J我IJIJIJIJIJIJIJIJIJv=σα·v目标对象与其相邻对象之间的关系。基于此,每个关系图都经过以下注意力机制:我们首先考虑语义关系编码器。由于语义图Esem中的边现在包含标签信息并且是有方向的,因此我们设计了atten-. Σv=σαij·Wv′ Σ.(三)(3)中的分离机制对方向性(Vi到-Vi、Vi到-Vi和Vi到-Vi)和标签两者敏感具体地说,j∈Ni对于不同类型的关系图,定义的at-v=σ.Σj∈NiΣαij·(Wdir(i,j)v′+blab(i,j)、(8)张力系数αij变化,投影矩阵也变化W∈Rdh×(dq+dV)和对象i的邻域Ni.α=Σexp((Uv′)·Vdir( i,j)v′+clab(i,j))、σ(·)是一个非线性函数,如ReLU。为了稳定IJj∈Ni exp((Uv′)·Vdir(i,j)v′+clab(i,j))学习过程中的自我注意,我们也延伸了上述采用多头注意的图形注意机制,其中W{·},V{·}是矩阵,b{·},c{·}是偏置其中,执行M个独立的注意力机制,并且它们的输出特征被连接,导致以下输出特征表示:届dir(i,j)选择变换矩阵wrt,其中,ab(i,j)表示每条边的标签因此,在对所有区域进行{v′}K通过上述图形注意机制,重新. ΣΣi i=1KMi m=1M Wm ′国际新闻报j∈Ni.(四)精细区域级特征{vi}i=1被赋予对象之间的先验语义关系与图卷积网络相反,该图最后,将v添加到原始视觉特征vi以用作最终的关系感知特征。隐式关系由于用于学习隐式关系的图是全连通的,因此Ni包含图像中的所有对象,包括对象i本身。受[21]启发,我们将注意力权重αij设计为不仅取决于视觉特征权重αv,而且还取决于边界框权重注意力机制有效地为相同邻域的节点分配不同的重要性权重结合问题自适应机制,学习的注意力权重可以反映哪些关系与特定的问题关系编码器可以以相同的方式在空间图Espa上工作,其中要学习不同的参数集合,因此为了简单起见省略了细节。3.3. 多模态融合与应答预测αb。具体地说,αij=ΣB ·exp(αv)、(五)在获得关系感知视觉特征之后,我们希望通过多模型融合策略将问题信息q与每个视觉表示v融合由于我们Kj=1B ·exp(αv)我关系编码器保留视觉FEA的维度。其中,αv表示视觉特征之间的相似性,通过缩放点积计算[51]:因此,它可以与任何现有的多模态融合方法结合以学习联合表示J:J=f(v,q; Θ),(9)αv =(Uv′)·Vv′,(6)i j i j其中U,V∈Rdh×(dq+dv)是投影矩阵.αb测量任何一对区域之间的相对几何位置b=max{0,w·fb(bi,bj)},(7)其中fb(·,·)首先计算4维相关几何特征(log(|xi−xj|),log(|yi−yj|)、log(wj)、log(hj))、ααα10318其中f是多模态融合方法,并且Θ是融合模块的可训练参数。对 于 答 案 预 测 器 , 我 们 采 用 两 层 多 层 感 知 器(MLP)作为分类器,其中联合表示J作为输入。二进制交叉熵被用作损失函数,类似于[2]。在训练阶段,独立地训练不同的关系编码器。在推理阶段,我们将三个图注意力网络与我爱你然后通过计算将其嵌入到dh维特征中不同波长的余弦和正弦函数。w∈Rdh将dh维特征变换为标量权重,该标量权重在0处被进一步修剪。 不像我们-对于显式关系设置中彼此相距太远的对象,隐式关系的限制通过w和零修剪操作来学习。预测的答案分布。具体地,最终的振幅分布通过下式计算:Pr( a=ai)= αPrsem( a=ai)+ βPrspa( a=ai)+(1−α−β)Primp(a=ai),(10)其中α和β是权衡超参数(0≤α+β≤1,0≤α,β≤1)。 Prsem(a=ai),Prspa(a=ai)10319和Primp(a=ai)分别表示来自用语义、空间和隐式关系训练的模型的答案ai4. 实验我们在VQA 2.0和VQA-CP v2数据集上评估了我们提出的模型[3,19,1]。此外,Visual Genome [27]用于预训练语义关系分类器。它还用于在测试- dev和测试-std拆分时扩充VQA数据集。我们使用准确性作为评估指标:#人类提供了第14章:与你一样的人短于14个单词的问题GRU中隐藏层的尺寸设置为1024。我们使用16个头部的多头注意力来处理所有三个图形注意力网络。关系特征的维数设置为1024。对于隐式关系,我们将嵌入的相对几何特征尺寸dh设置为64。对于语义关系分类器,我们结合ResNet-101 [20]从Faster R-CNN [44]模型中提取具有已知边界框的预训练对象检测特征。更具体地说,这些特征是来自Res4b22特征图的RoI池化后Pool5层的输出[58]。更快的R-CNN模型经过训练,Acc( ans)=min(1,4.1. 数据集)的情况。 (十一)31,600个选定的对象类和400个属性类,类似于自底向上的注意力[2]。我们的模型是基于PyTorch实现的[40]。在VQA 2.0数据集由MSCOCO [31]的真实图像组成,具有相同的训练/验证/测试分割。对于每张图像,平均生成3个问题。这些问题分为3类:是/否、编号和其他。对于每个图像-问题对,从人类注释者收集10个答案,并且选择最频繁的答案作为正确答案。开放式和多项选择题类型都包含在此数据集中。在这项工作中,我们专注于开放式任务,并采取的答案出现在训练集的9倍以上的候选答案,产生3129答案候选。模型在训练集上训练,但在测试集上测试时,训练集和验证集都用于训练,并且选择最大可能答案作为预测答案。VQA-CP v2数据集是VQA 2.0数据集的衍生,引入VQA 2.0数据集是为了评估和减少VQA模型中的问题导向偏差。特别地,关于问题类型的答案的分布在训练和测试分割之间不同。Visual Genome包含108K图像,其中包含密集注释的对象,属性和关系,我们使用这些图像来预训练我们模型中的语义关系分类器我们过滤掉了那些也出现在VQA值中的图像将关系数据分为88K用于训练,8K用于验证,8K用于测试。此外,我们在训练数据中选择了前14个最频繁的谓词,在用Visual Genome中提供的关系别名对谓词进行归一化之后。最终的语义关系分类器是在14个关系类加上一个非关系类上训练的。4.2. 实现细节每个问题都被标记化,每个单词都使用600维单词嵌入(包括300维GloVe单词嵌入[42])。然后,嵌入的字的序列被馈送到GRU的每个时间步长实验中,我们使用Adamax优化器进行训练,最小批量为256。对于学习率的选择,我们采用预热策略[18]。具体来说,我们从0.0005的学习率开始,在每个时期线性增加它,直到它在时期4达到0.002。在15个epoch之后,学习率每2个epoch降低1/2,直到20个epoch。每一个线性映射都用权标准化和脱落(p = 0. 2,除了0的分类器。(五)。4.3. 实验结果本小节提供了VQA 2.0和VQA-CP v2数据集上的实验结果。通过设计,关系编码器可以组成不同的VQA架构作为即插即用组件。在我们的实验中,我们考虑了三种流行的VQA模型与不同的多模态融合方法:自底向上自顶向下[2](BUTD),多模态塔克融合[4](MUTAN)和双线性注意力网络[24](BAN)。表1报告了以下设置中VQA 2.0验证集的结果:• Imp/Sem/Spa:只有一种类型的关系(隐含的,语义的或空间的)被用来纳入自下而上的注意力特征。• Imp+Sem/Imp+Spa/Sem+Spa:通过加权和使用两种不同类型的关系。• 全部:通过加权和(例如:α=0。4,β=0。(3)第三章。见等式(10)详情。与基线模型相比,我们可以观察到一致的性能增益后,所有三个架构添加建议的关系编码器。这些结果表明,我们的ReGAT模型是一种通用的方法,可用于改善国家的最先进的VQA模型。此外,结果表明,每一个单一的关系有助于提高性能,和成对的关系的组合,可以实现一致的性能增益。当这三种类型结合在一起时,我们的模型可以达到最佳效果10320融合方法模型基线BiLSTMImpSemSpaImp+SemImp+Spa水疗中心所有BUTD [2]63.15(63.38†)61.9564.1064.1164.0264.9364.9264.8465.30MUTAN [4]58.16(61.36†)61.2262.4562.6062.0163.9963.7063.8964.37禁止[24]65.36±0. 14(65.51†)64.5565.93±0. 0665.97±0. 0566.02±0. 1266.8166.7666.8567.18表1.VQA 2.0验证集上不同融合方法的性能在3种流行的融合方法中观察到一致的改进,这表明我们的模型与通用VQA框架兼容(†)基于我们重新实施的结果模型SOTA [6]基线SemSpaImp所有Acc.39.5439.2439.5440.3039.5840.42表2. VQA-CP v2基准上的模型准确性(测试拆分的开放式设置)。模型Test-dev测试标准品总体是/否Num其他[49]第四十九话65.32 81.8244.2156.0565.67MFH [60]68.76 84.2750.6660.50-柜台[62]68.09 83.1451.6258.9768.41Pythia [22]70.01---70.24禁止[24]70.04 85.4254.0460.5270.35v-AGCN [57]65.94 82.3956.4645.9366.17图学习器[39]- ---66.18穆雷尔[6]68.03 84.7749.8457.8568.41ReGAT(我们的)70.27 86.0854.4260.3370.58表3.VQA 2.0基准测试中的模型准确性(在test-dev和test-std拆分上的开放式设置)。性能我们最好的结果是通过组合最好的单一关系模型,通过加权和。为了验证性能增益是显着的,我们对我们的BAN基线和我们提出的模型的结果与每个单一的关系进行了t检验。我们报告了标准的表4.消融研究VQA 2.0确认集的性能(Q-自适应:问题适应性; Att:注意)。BAN [24]使用八个双线性注意力映射,我们的模型在更少的一瞥下优于BAN。Pythia [22]通过添加额外的网格级特征并在所有图像的VQA数据集上使用微调的Faster R-CNN中的100个对象提案来实现70.01我们的模型,在他们的工作中没有使用任何功能增强,超过了Pythia4.4. 消融研究在表4中,我们将Re-GAT的三个消融实例与其完整形式进行比较。具体来说,我们验证了连接问题的功能,每个对象的表示和注意机制的重要性。表4中报告的所有结果均基于BUTD模型架构。为了从我们的关系编码器中删除注意机制,在表1中的方差分析,并且p值为0。001459。那个...从我们的方法的证明是显着的p<0。05.我们还比较了使用BiLSTM作为上下文关系编码器的额外基线模型,结果这表明使用BiLSTM会损害性能。为了证明我们的ReGAT模型的通用性,我们还在VQA-CP v2数据集上进行了实验,其中训练和测试分裂的分布彼此非常不同表2显示了VQA-CP v2测试拆分的结果在这里,我们使用BAN和四个一瞥作为基线模型 。 与 我 们 在 VQA 2.0 上 观 察 到 的 一 致 , 我 们 的ReGAT模型大大超过了基线仅使用单个关系,我们的模型已经在VQA-CP v2上实现了最先进的性能(40.30vs. 39.54)。当添加所有关系时,性能增益进一步提升到+0。88岁表3显示了VQA 2.0 test-dev和test-std拆分的单模型结果上面的五行显示了没有关系推理的模型的结果,下面的四行是有关系推理的模型的结果我们的模型超越了所有以前的工作,或没有关系推理。我们的最终模型使用双线性注意力与四个一瞥作为多模态融合方法。相比我们简单地用图卷积网络代替图注意力网络,它也可以从图中学习节点表示,但只需要简单的线性变换。首先,我们验证了使用注意力机制学习关系感知视觉特征的有效性。添加注意机制导致对所有三种类型的关系的更高的准确性线1和线2之间的比较示出+0的增益。语义关系为70,+0。81空间关系其次,我们验证了问题自适应关系特征的有效性。 在第1行和第3行之间,我们看到增益约为+0。1为语义和空间关系。最后,加入注意机制和问题自适应特征,得到完整的ReGAT模型。该实例给出了最高的准确度(行4)。令人惊讶的是,通过比较第1行和第4行,我们可以观察到,将图形注意力与问题自适应相结合比简单地将两种方法的单独增益相加得到更好的增益值得一提的是,对于隐式关系,添加问题自适应将模型性能提高了+0。74,这是高于从问题自适应的两个显式关系的增益。当所有的关系都被认为是,我们观察一致的per-perception增益通过添加问题自适应机制。Att.Q自适应语义空间隐式所有没有没有63.20 63.04n/an/a是的没有63.90 63.8563.3664.98没有是的63.31 63.13n/an/a是的是的64.11 64.0264.1065.3010321图4.从消融情况中学习的注意力图的可视化:每个图像中所示的三个边界框是前3个关注区域。这些数字是注意力权重。为了更好地理解这两个组件如何帮助回答问题,我们进一步可视化并比较了第4.5节中消融实例学习的注意力图。4.5. 可视化为了更好地说明添加图注意力和问题自适应机制的有效性,我们将在单关系设置中通过完整的ReGAT模型学习的注意力图与通过两个消融模型学习的注意力图进行比较。如图4所示,第二行、第三行和最后一行分别对应于表4中的第1行、第3行和第4行。比较行2与行3导致观察到图形注意力有助于捕获对象之间的交互,这有助于图像区域和问题之间的更好对准。第3行和第4行表明,添加问题自适应注意机制产生了更清晰的注意力地图,并聚焦于更相关的区域。这些可视化结果与表4中报告的定量结果一致。图5提供了不同类型的关系如何帮助提高性能的可视化示例。在每个示例中,我们显示了前3个参与区域以及这些区域之间的学习关系。如这些示例中所示,每个关系类型有助于图像区域和问题之间的更好对齐。例如,在图5(a)中,语义关系图5(b)显示了空间关系图5. VQA任务中不同类型视觉对象关系的可视化。每个图像中所示的3个边界框是前3个关注区域。绿色箭头表示主体与客体的关系.绿色框中的标签和数字是显式关系的类标签和隐式关系的注意力权重。捕获区域之间的相对几何位置。为了可视化隐含的关系,图5(c)显示了at-从每个其他区域到顶部1区域的张力权重令人惊讶的是,习得的内隐关系能够捕捉空间和语义的相互作用。例如,图5(c)中的顶部图像示出了桌子和花瓶之间的空间交互5. 结论本文提出了一种新的视觉问题回答框架ReGAT(Graph Attention Net),该框架利用问题自适应的注意机制,对多类型对象关系进行ReGAT利用两种类型的视觉对象关系:显式关系和隐式关系,通过图形注意力学习关系感知区域表示。我们的方法在VQA 2.0和VQA-CP v2数据集上都取得了最先进的结果。建议的ReGAT模型与通用VQA模型兼容。在两个VQA数据集上的综合实验表明,我们的模型可以以即插即用的方式注入到最先进的VQA架构中。在今后的工作中,我们将研究如何更有效地融合这三种关系,以及如何利用每种关系来解决特定的问题类型。10322引用[1] Aishwarya Agrawal , Dhruv Batra , Devi Parikh , andAnirud- dha Kembhavi.不要只是假设;看一看并回答:有视觉问答的前科。在CVPR,2018年。6[2] Peter Anderson,Xiaodong He,Chris Buehler,DamienTeney,Mark Johnson,Stephen Gould,and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在CVPR,2018年。三五六七[3] Stanislaw Antol , Aishwarya Agrawal , Jiasen Lu ,Margaret Mitchell,Dhruv Batra,C.劳伦斯·齐特尼克和德维·帕里克VQA:可视化问答。在ICCV,2015年。6[4] HediBen-Younes,Re' miCadene,MatthieuCord,和Nico-las Thome.Mutan:用于视觉问答的多模态折叠融合。InICCV,2017. 二六七[5] 欧文·比德曼,罗伯特·梅扎诺特,扬·拉比诺维茨. 场景感知:在关系冲突中检测和判断物体认知心理学,1982年。2[6] Remi Cadene 、 Hedi Ben-younes 、 Matthieu Cord 和NicolasThome 。 Murel : MultimodalRelationalReasoning for Visual Question Answering 。 在 CVPR ,2019年。三、七[7] Myung Jin Choi,Antonio Torralba,and Alan S Willsky.一种用于对象识别的基于树的上下文模型PAMI,2012年。2[8] Bo Dai,Yuqi Zhang,and Dahua Lin.用深层关系网络检测视觉关系。在CVPR,2017年。 3[9] Santosh K Divvala、Ali Farhadi和Carlos Guestrin。学习关于任何事情的一切:Webly监督的视觉概念学习。CVPR,2014。2[10] Santosh K Divvala 、 Derek Hoiem 、 James H Hays 、Alexei A Efros和Martial Hebert。物体检测中语境的实证研究。CVPR,2009。2[11] 范浩奇和周嘉彤。用于多模态推理的堆叠潜在注意。在CVPR,2018年。一、二[12] Hao Fang,Saurabh Gupta,Forrest Iandola,Rupesh KSri-vast av a , LiDeng , PiotrDoll a´r , JianfengGao ,XiaodongHe,Margaret Mitchell,John C Platt,et al.从标题到视觉概念再到后面。CVPR,2015。2[13] AliFarhadi 、 MohsenHejrati 、 MohammadAminSadeghi 、 Pe ter Young 、 Cyrus Rashtchian 、 JuliaHockenmaier和David Forsyth。每张照片都在讲述一个故事:从图像生成句子。ECCV,2010年。2[14] Pedro F Felzenszwalb 、 Ross B Girshick 、 DavidMcAllester和Deva Ramanan。使用区分性训练的基于部分的模型进行对象检测。PAMI,2010年。2[15] Akira Fukui , Dong Huk Park , Daylen Yang , AnnaRohrbach,Trevor Darrell,and Marcus Rohrbach.多模态紧 凑 双 线 性 池 的 视 觉 问 题 回 答 和 视 觉 接 地 。 在EMNLP,2016。2[16] 卡罗琳娜·加列古洛斯,安德鲁·拉比诺维奇,还有塞尔日·贝伦吉.使用共现、位置和外观的对象分类。CVPR,2008。210323[17] 斯蒂芬·古尔德、吉姆·罗杰斯、大卫·科恩、加尔·埃利丹和达芙妮·科勒。具有相对位置先验的多类分割。IJCV,2008年。2[18] PriyaGo yal ,PiotrDolla´r,RossGirshick ,PieterNoord-huis , Lukasz Wesolowski , Aapo Kyrola , AndrewTulloch,Yangqing Jia,and Kaiming He.准确、大的小批量sgd:1小时内训练imagenet arXiv预印本arXiv:1706.02677,2017。6[19] Yash Goyal 、 Tejas Khot 、 Douglas Summers-Stay 、Dhruv Batra和Devi Parikh。让vqa中的v变得重要:提升图像理解在视觉问答中的作用。在CVPR,2017年。6[20] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,2016年。6[21] Han Hu,Jiayuan Gu,Zheng Zhang,Jifeng Dai,andYichen Wei.用于对象检测的关系网络在CVPR,2018年。二三五[22] Yu Jiang , Vivek Natarajan , Xinlei Chen , MarcusRohrbach,Dhruv Batra,and Devi Parikh. Pythia v0.1:2018年VQA挑战赛的优胜者。arXiv预印本arXiv:1807.09956,2018。7[23] Justin Johnson,Ranjay Krishna,Michael Stark,Li-JiaLi,David Shamma,Michael Bernstein,and Li Fei-Fei.使用场景图进行图像检索。CVPR,2015。2[24] Jin-Hwa Kim,Jaehyun Jun,and Byoung-Tak Zhang.双耳注意力网络。NeurIPS,2018。二六七[25] Jin-Hwa Kim 、 Kyoung-Woon On 、 Woosang Lim 、Jeonghee Kim、Jung-Woo Ha和Byoung-Tak Zhang。低秩
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索AVL树算法:以Faculdade Senac Porto Alegre实践为例
- 小学语文教学新工具:创新黑板设计解析
- Minecraft服务器管理新插件ServerForms发布
- MATLAB基因网络模型代码实现及开源分享
- 全方位技术项目源码合集:***报名系统
- Phalcon框架实战案例分析
- MATLAB与Python结合实现短期电力负荷预测的DAT300项目解析
- 市场营销教学专用查询装置设计方案
- 随身WiFi高通210 MS8909设备的Root引导文件破解攻略
- 实现服务器端级联:modella与leveldb适配器的应用
- Oracle Linux安装必备依赖包清单与步骤
- Shyer项目:寻找喜欢的聊天伙伴
- MEAN堆栈入门项目: postings-app
- 在线WPS办公功能全接触及应用示例
- 新型带储订盒订书机设计文档
- VB多媒体教学演示系统源代码及技术项目资源大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功