没有合适的资源?快使用搜索试试~ 我知道了~
4381利用注意力先验指导视觉问答Thao Minh Le,Vuong Le,Sunil Gupta,Svetha Venkatesh,Truyen Tran应用人工智能研究所,迪肯大学,澳大利亚{thao.le,vuong.le,sunil.gupta,svetha.venkatesh,truyen.tran} @ deakin.edu.au摘要现代视觉推理系统目前的成功可以说归因于跨通道注意机制。然而,在慎思推理中,例如在VQA中,注意力在每一步都是不受约束的,因此可以用作统计池机制,而不是旨在选择与推理相关的信息的语义操作。这是因为在训练时,注意力仅由非常稀疏的信号(即,答案标签)在推理链的末端。这导致跨模态注意力权重偏离期望的视觉语言绑定。为了纠正这种偏差,我们建议使用明确的语言视觉接地来引导注意机制。这种基础是通过将查询中的结构化语言概念连接到它们在视觉对象中的所指对象而得到的在这里,我们只从问题和图像的配对中学习基础,而不需要答案注释或外部基础监督。这种基础通过机制的二元性指导VQA模型内部的注意力机制:预先训练注意力权重计算,并在推理时在逐个情况的基础上直接指导权重。该算法能够探测基于注意力的推理模型,注入相关的联想知识,并调节核心推理过程。这种可扩展的增强提高了VQA模型的性能,增强了它们对有限的监督数据访问的鲁棒性,并提高了可解释性。1. 介绍视觉推理是人工智能的新前沿,其中从视觉数据中提取的事实被收集并提炼成更高级别的知识以响应查询。成功的视觉推理方法以注意权重的形式估计符号概念和视觉实体之间的跨域关联。这种关联塑造了知识的提炼过程,从而产生了一种可以解码为答案的统一表示。在被称为视觉提问的范例推理环境中,注意在现代问题推理基于注意力的VQA模型问 : 船 是 在图 片 的 右 边吗?间隙船预测:预测:GAP之前语言-视觉基础先验GAP之后图1.我们引入了基于接地的注意力先验机制(蓝框),该机制考虑了查询图像对之间的语言视觉关联,并细化了VQA模型(灰框)内的注意力这提高了模型系统[3,15,20,23,31]。理想的注意力分数必须是相关的和有效的:相关性意味着当视觉实体和语言实体指代同一概念时注意力高;有效性意味着所产生的注意力导致良好的VQA性能。然而,在典型的系统中,注意力分数是即时计算的:在推理时不受调节,在训练时由来自地面实况答案的梯度引导对几个VQA注意力模型的分析表明,这些注意力分数通常既不相关,也不能保证有效[6]。当我们由于人工注释过程的成本而无法负担足够的标记答案时,问题就更加严重了一个有前途的解决方案是提供预先计算的指导,以指导和提示VQA模型内部的注意力机制,以获得更合适的分数。早期的作品使用人类注意力作为监督机器注意力的标签[36,40]。人类感知到的这种简单而直接的注意力并不能保证对于机器推理来说是最佳的[7,8]。此外,由于注释注意力是一项复杂的标记任务,因此这个过程本身就成本高昂,不一致且不可靠[40]。最后,这些方法只在训练阶段调节注意分数,而不直接在推理中调节注意分数与这些方法不同的是,我们利用了这样一个事实,即这种外部指导是预先存在于查询图像对中的,并且可以在没有任何额外标签的情况下提取。使用4382预先计算的语言-视觉关联作为用于基于注意力的推理的归纳偏差而无需进一步的额外标记仍然是期望的但缺少的能力。探索VQA的这种底层语言-视觉关联,我们的目标是以无监督的方式从查询-图像对中提取跨输入模态的实体之间的兼容性,而无需显式对齐grothtruths,并将此知识用作注意力机制的归纳偏差为此,我们设计了一个框架,称为接地为基础的注意力先验(GAP)(1)提取语言-视觉区域对之间的对齐和(2)使用这些成对的关联作为一个归纳偏见,以指导VQA对于第一个任务,我们利用问题和图像之间的配对通过利用来自配对的隐式监督信号,这不需要进一步的注释。为了克服查询词和图像区域之间的协同推断语义的差异的挑战,我们构建了查询的解析树,提取嵌套的短语表达式,并将它们接地到图像区域。这些表达式在语义上比单个单词更好地匹配图像区域,从而创建一组更可靠的语言视觉对齐。第二个任务的目的是使用这些新发现的路线,以指导推理注意。该指导过程通过两个互补途径提供首先,我们预先训练注意力权重,以与预先计算的基础保持一致这一步是在一个无人监督的方式没有访问的答案groundtruths。第二,我们使用注意力先验,通过反向传播直接调节和细化由地面实况答案引导的注意力权重,使其不会偏离地面实况答案太远。这是由一个可学习的门来调制的。这些双重指导途径是以前注意力规则化方法的重大进步[40,49],因为语言-视觉兼容性在训练和推理中直接灵活地利用,而不仅仅是规则化。通过大量的实验,我们证明,这种方法在发现基础和使用它们来提高基于注意力的VQA模型在代表性方法和数据集上的性能方面都是有效的。这些改进超越了其他方法的性能,而且不需要额外的注释。所提出的方法还显着提高了VQA模型的样本效率图1通过一个改进的注意和回答的例子说明了该方法的直观性和设计性我们的主要贡献是:1. 一种新的框架来计算语言-视觉对齐,提供预先计算的注意力先验来指导基于注意力的VQA模型;2. 一种通用的技术,最常见的视觉推理方法,增强它们的性能,并显着减少它们对人类监督的依赖;以及,3. 语言-视觉对齐与推理注意相关性的严格实验和分析2. 相关工作基于注意力的模型是视觉质量评估中简单方法[3]仅使用单跳注意机制来帮助机器选择相关图像特征。更先进的方法[52,15,23]和那些依赖于记忆网络的方法[50,51]使用多跳注意机制来反复修改相关视觉信息的选择。BAN [20]学习了一个共同注意力映射,使用昂贵的双线性网络来表示单词区域对之间的这些注意力模型的一个缺点是它们仅由答案groundtruth监督,而没有显式的注意力监督。最近研究了注意力监督的几个问题,如机器翻译[27]和图像captioning [26,32,54]。在VQA中,注意力可以通过内部约束进行自我调节[37,28]。更成功的规则化方法使用外部知识,例如文本解释上的人类注释[49]或视觉注意力[36,40]。与这些不同的是,我们建议监督VQA atten- tions使用预先计算的语言视觉接地从图像查询对,而不使用外部注释。语言-视觉对齐包括文本-图像匹配[24],接地引用表达式[53]和跨域联合表示[30,42]的任务。这些接地可以支持字幕等任务[54,18]。虽然大多数任务都是由人类注释监督的,但对比学习[11,47]允许机器从短语-图像对的弱监督中学习单词和图像区域之间的关联。在这项工作中,我们建议在VQA中探索查询和图像之间的关联。这是一个新的挑战,因为查询是复杂的,很难被接地,因此,新的方法使用语法结构将被设计。我们的工作也分享知识蒸馏范式[13]与跨任务[2]和跨模态[10,29,48]适应。特别地,我们提取视觉语言背景并将其作为VQA模型的注意输入这也将我们的工作与最近的自我监督预训练方法[43,25]区分开来,由于可以访问大量数据,这些方法专注于各种任务的统一表示。我们的工作在理论上适用于补充这些模型内的多模态匹配。3. 预赛VQA系统旨在响应于语言问题q来推导关于图像I的答案y,例如,,via4383问题木柜是在右边还是在图像的左侧预计算接地木注意力优先木制橱柜柜名词短语精细化注意力应答解码器语言建模闸选机制栅极“右”对象检测基于注意力的VQA模型注意力分数输入图像i=1∈∈i=1Σ∈R∈联系我们c=∈|Σjβjvjto不- -图2.一个通用的联合注意VQA模型的整体架构,使用基于基础的注意力先验(GAP)来指导注意力权重的计算由无监督框架(绿框)预先计算的视觉语言兼容性作为一个额外的信息来源,提供归纳偏差,以引导基于注意力的VQA模型内的注意力权重朝向更有意义的对齐。P(y| q,I)。查询q通常被分解成T个语言实体的集合L=1i。然后,这些实体和查询q被嵌入到特征向量空间中:qRd,liRd。在VQA普遍使用的顺序嵌入的情况下,实体是查询词;它们是用GloVe编码用于单词级嵌入[35],然后用RNN(如BiLSTM)进行单词级嵌入。计算和使用该全矩阵具有很大的开销计算成本。这个矩阵的一个很好的近似是下面描述的行和列上的边缘化向量。边缘化注意力模型 从概念上讲,矩阵A沿着列被边缘化到语言atten中-同样地,图像I通常被分割成一组N运动矢量α={αi}TRT和沿行进入视觉N具有特征V=的视觉区域。VJ| vjdNj=1 由注意向量β=β jj=1,βRN. 实际上,α和β直接从每对输入图像计算,物体检测器,即,更快的R-CNN [39].为了便于阅读,我们将维数d用于语言嵌入向量和视觉表示向量。VQA系统[31,3,15,23,20,21]的大家族依赖于注意力机制来分配语言实体L和视觉对应物V.这些模型大致可分为两类:联合注意力模式和边缘化注意力模式。[31,3,15]属于前者,而[20,21]和基于变压器的模型[43]是典型的通过专门的关注模块查询。它们可以以不同的方式实现,例如直接单次注意[3],共同注意[31]或多步注意[15]。在我们的实验中,我们专注于两种流行的机械:单次注意力,其中视觉注意力β直接从输入(V,q)计算,以及交替注意力机制,其中视觉注意力β跟随语言注意力α [31]。具体地说,首先估计α,然后估计整个查询的关注语言特征后一类的作品。不i=1 αi<$li;然后使用这个被关注的语言特征联合注意力模型最完整的注意力模型包括一个详细的成对注意力图,该图指示用于估计组合信息的视觉和语言实体之间的交互的词-区域对之间的上下文相关性。这些注意力权重以2D矩阵ART×N的形式存在。它们通常包含每个语言单词与每个视觉区域之间的细粒度关系。注意力矩阵A由子网络B θ(. )作为A ij=B θ(e ij|V、L),来计算视觉注意力β。交替机制可以用多步推理来扩展[15,23,14]。在这种情况下,在每个推理步骤k处估计一对注意力αi,k和βj,k,从而形成一系列注意力。答案解码器注意力分数驱动推理过程,产生一个联合的语言-视觉表示,在此基础上解码答案:P(a f(L,V,att scores))(“att scores”是指视觉注意力向量β或注意力矩阵A)。 对于边缘化注意力模型,函数f(. )是一个神经网络,它将查询表示作为输入实体li和视觉区域vj,θ是VQA模型的网络参数。联合注意力模型包含了丰富的两两关系,通常表现良好。然而,在这方面,返回一个联合表示。联合注意力模型使用双线性组合来计算f[20]的输出向量的每个分量其中每个eij表示语言之间的相关性,sentationq and the attended visual featurev=4384NΣ∈R∈不不j=1--我i=1RRR我们计算了一个新的映射Ar=a/b/i/j∈Rmr×N映射Ar,s=aabr,s,i,j不∈Rmr×N其中1≤s≤j ∈.Σ−ft(LWL)A(V)WV)t,(1)其中t是输出分量的索引,WL和WV∈Rd×d是可学习的权重。4. 方法∈Rd×d我们现在提出了基于接地的注意力先验(GAP),一种提取查询和图像之间的概念级关联的方法,并使用这些知识作为注意力先验来指导和改进VQA系统中的跨模态注意力该方法包括两个主要阶段。首先,我们学习直接从问题图像对中估计语言视觉对齐4.1,图中的绿色框。2)的情况。第二,我们使用这样的知识作为归纳先 验来帮助VQA中的注意力 计算(第二节)。第4.2节4.3,图中的下部。2)的情况。4.1. 语言-视觉对齐用于接地的语法结构。语言-视觉对齐的任务旨在找到语言实体之间的基础(例如,,查询词L={li}图3.查询被解析到选区解析树中以识别RE。每个RE充当单词的本地上下文每个RE上下文内的词一个字可以出现在多个RE中,因此其最终接地在包含RE上被平均,用作VQA的归纳先验我们将第r个RE表示为E={w|W∈Rd}在VQA中)和视觉实体(例如,视觉区域i=1r i isr≤i≤er其中sr和er是REVQA中的{vj})在共享的文件xt中。这需要在查询L ={l}T内。它的长度为m=e−s+1。在复杂的语境中对个别词语的解释我们现在估计这些RE中单词之间的相关性该查询使得它们可以共同引用与图像区域相同的概念然而,组合查询具有复杂的和视觉区域V=。VJ| vjdNj=1 通过学习结构,阻止最先进的语言表示方法完全理解查询中语义概念之间的关系[38]。我们建议通过将完整的查询分解为涉及更简单结构的短语来更好地将查询词上下文化,从而使词区域接地的计算更有效。 这些短语被称为指代表达(RE)[33],并且被证明可以很好地指代图像区域[19]。VQA图像-查询配对标签被传递到这样的查询的RE。然后,我们将单词与每个单词中的上下文嵌入结合起来,返回到相应的视觉区域。因为RE是参数δ的神经关联函数gδ(V,Er),生成映射ArRmr×N,在RE中的单词与相应的视觉区域之间。我们实现g δ(. )作为Er中的单词wi与V中的图像区域的上下文化嵌入的点积,遵循缩放的点积注意力[46]。无人监督的训练为了训练函数g δ(. ),我们调整最近的对比学习框架[11]用于短语接地,以无监督的方式从RE图像对学习这些单词区域对齐,即而没有显式的单词区域注释。 一会儿。i批量大小为b的BP2B,从查询嵌套短语,一个词可以出现在多个RE中。这样,我们就得到了查询范围的词域接地通过聚集包含该词的RE的接地在一个阳性样本上(REEr和图像区域V在这张照片中。对e= d)和(b-1)为负关于该过程的示例,参见图3我们使用选区解析树提取查询RE[5]的文件。1在这个结构中,查询被表示为一组嵌套短语,对应于的子树。解析器还提供短语的语法角色。例如,短语由于视觉对象和区域自然地与名词短语相关联,我们选择一组E={Er},(b1)从负样本(REEr和负图像区域Vs′=vs′,j从不与它配对的图像)。然后,我们将语言诱导的视觉表征vi∈Rd和vs∈,i∈Rd,对于每个wi,在区域上:vi=vV范数ja∈r,i,jWv∈vj,(2)vs∈vs,i=vs′,j∈Vs′范数j.ar,s,i,jWv′vs′,j,(3)其中“norm“是列归一化运算符;W ∈所有名词短语和wh-名词短语2作为RE。Rd×dJ而W v′E ∈Rd×dv是可学习的参数。 我们1Berkeley Neural Parser [22]在我们的实现中。2名词短语前缀的代词,例如。,问:木柜是在图片的右边还是左边选区分析树(S)(PP)是(NP)木制橱柜对(PP)(NP)(PP)(?或对(NP)(NP)(PP)的权侧(NP)的的乐身边的是与他图像指称表达(RE)木制橱柜右侧图像的左侧0.010.010.800.010.010.250.650.010.010.050.010.100.010.010.100.010.100.010.01具有无监督视觉背景的0.700.020.050.050.014385然后通过最大化[34]第三十四话:4386.Σ∈∈1∈∈≡≡∗−∗. Σ.Σ。Σ. ΣΣ∈计算对T个查询词的语言注意力α∈RT|E|r=1Rnorm(标准)α*=1);β=1保证这些矢量和为1的标准化运算A=阿吉吉∈RT×N无边际化。有轻微=(A)λ(B)(1−λ)RRΣΣewwwi,viwi∈EW我 我4.3. 注意力优化与注意力先验4.3.1边缘化注意细化.Lr(δ)=EB日志eWw,v+b−1eWw,v从SEC召回3、注意力边缘化的VQA模型这种损失最大化了相互信息的下限视觉区域V和上下文化单词嵌入Wi之间的距离MI(V,Wi) [11]。最后,我们计算词区域对齐ART×N,通过聚合RE图像接地:和N个视觉区域β上的视觉注意RN.在这在 第 一 节 中 , 我 们 建 议 使 用 注 意 力 先 验 A=ai, jRT×N在Sec. 4.1. 首先,A *A=|E|第1005章:(五)ΣNΣ其中A∈RT×N是A的零填充矩阵。Nj=1ii、j不i=1ji、j除了使接地更有表现力,这种划分-和征服战略有额外的好处,从查询图像到RE图像对的弱监督标签,其提供更多的监督信号(正对),因此,更好地训练对比学习框架。所发现的接地为VQA注意提供了有价值的先验资源。现有的工作[36,40]使用注意力先验来调节训练过程中VQA模型的梯度流 与这些方法不同,我们通过两种途径直接指导注意力权重的计算:通过在没有答案的情况下对他们进行预先训练,在个案基础上进行推理。4.2. 培训前VQA注意事项一个典型的VQA系统试图通过跨模态注意将语言概念从问题解析到相关的视觉部分然而,这种注意力机制只能通过稀疏的答案训练信号间接和远距离地引导该训练信号太弱,不能确保可以发现相关关联。为了直接训练注意力权重以反映这些自然关联,我们通过将注意力权重强制为接近于通过Sec.4.1.对于联合注意力VQA模型,这通过以下方式实现:最小化VQA视觉注意力权重A的矢量化形式与先前基础分数A之间的Kullback-Leibler发散:Lpre-train=KL ( normvec ( A ) normvec ( A ) ) ,(6)其中norm vec将矩阵转换为向量,然后我们在推理过程中细化α和β通过一个门控机制,权重α′和β′有两种形式:添加剂形式:α′=λα+(1−λ)α,β′=γβ+(1−γ)β,(10)乘法形式:α′=norm(α)λ(α)(1−λ),β′= norm(β)γ(β)(1−γ),(11)其中直观地说,这些门控机制是最大化两个信息源之间一致性的解决方案:α′= argmin(λD(α′,α)+(1λ)D(α′,αβ)),其中D(P1,P2)度量两个概率分布P1和P2之间的距离。当D欧几里德距离时,给出Eq.当两个分布之间存在DKL发散时,则为Eq.(11)[12](见附录)用于证明)。同样的直觉也适用于β′的计算。λ和γ的可学习门被实现为神经函数hθ(. )的视觉区域v和问题q:λ=hθ(v,q).( 12)为简单起见,v是V中区域的算术平均值。对于多步推理,我们应用Eqs。(10,11)逐步。由于每个推理步骤k由中间控制ck(Sec. 3),它通过以下方式影响门的学习:λk=pθ(ck,hθ(v<$,q))。(十三)4.3.2联合注意细化在联合注意VQA模型中,我们可以直接使用矩阵对于边缘化的注意力模型,我们首先边缘化A=ai,j转化为视觉注意力的向量滥用符号,我们将用于注意力细化的调制门的输出表示为λ(0,1),其与等式中的门控机制具有类似的作用。(12):β1=1TTi=1范数j(a∈i,j)的情况。(七)’。λA+。(1−λ)B(增补)ΣLpre-train=KL(ββ)。(八)∈不Rs=1W我年代我(四)norm(标准))的情况。(九)预训练损失是注意力权重与其先验之间的KL偏差一规范(多个)(4387其中B=范数ij。一个人。4388VQA基线与GAP676666.0666564.364646363626161.6.3.363.865.165.066.7.566.265.9VQA v2和GQA数据集6766表1. GAP与其他注意力规律的比较-656463626160UpDn MACNet禁令60UpDn MACNet禁令在VQA v2上使用UpDn的方法。 其他方法VQA v2数据集GQA数据集都是从他们各自的论文中摘录的†我们复制的结果。4.4. 两阶段模型训练我们执行两步预训练/微调过程来使用注意力先验来训练模型:(1)无监督预训练VQA,没有具有注意先验的应答解码器(第2节)。4.2),以及(2)使用答案用注意力细化微调完整VQA模型,即通过最小化VQA损失-log P(y |q,I)。5. 实验我们在两个代表性的边缘化VQA模型上评估我们的方法GAP:自下而上自上而下的注意力(UpDn)[3]用于单次射击,MACNet [15]用于多步组成注意力模型;以及BAN [ 20 ]的联合注意力模型。实验在两个数据集上进行:VQA v2 [9]和GQA [16]。除非另有说明,否则我们采用加性门控(等式2)。(10))的UpDn和MACNet的实验,以及乘法形式(方程(11))。(11)为BAN。实施细节和额外的结果可在补充。5.1. 实验结果增强VQA性能我们将GAP与基于UpDn基线的VQA模型进行比较,UpDn基线利用VQA v2上的外部先验和人工注释。其中一些方法使用内部正则化:对抗正则化(AdvReg)[37]、注意力对齐(Attn. Align)[40];还有一些使用人类注意力作为外部监督:自我批判推理(SCR)[49]和HINT[40]。虽然这些方法主要旨在设计正则化方案以利用VQA-CP数据集的底层数据生成过程[1],其中它故意构建具有不同答案分布的训练和测试拆分。这可能会导致对特定测试分割的过拟合,并且精度增益与实际接地的改善不相关[41]。相反,GAP不依赖于这些正则化方案,而是旨在直接改善VQA模型内部注意力的学习,以促进推理。换句话说,GAP补充了上述方法对VQA-CP的影响(见补充)。图4.GAP表1显示了我们的方法(UpDn+GAP)在改进UpDn基线方面明显优于其他方法所有问题类型的良好表现都是一致的,特别是在“其他”问题类型上与使用外部注意力注释的方法(UpDn+SCR,UpDn+HINT)相比,结果表明GAP在使用注意力先验(学习和推理)方面是有效的,特别是当我们的先验以无监督的方式提取而不需要人工注释时。VQA模型之间的普适性GAP理论上适用于任何基于注意力的VQA模型。我们通过在更广泛的基线模型和数据集上进行试验来评估GAP的普适性。图4总结了GAP对UpDn、MACNet和BAN对大规模数据集VQA v2和GQA的影响。很明显,GAP在所有数据集上的所有基线上都有持续的改进。GAP不仅对简单模型UpDn有益,而且对多步模型(MAC-Net)也我们观察到最好的效果时,应用在早期的推理步骤,注意力权重尚未收敛。在数据集之间,GQA的改进比VQA v2更强,这是因为GQA有很大一部分的组成问题,我们无监督接地学习可以受益。BAN的改进不太明显,它已经有了大容量的模型,代价是数据饥饿和计算昂贵。在下一节中,我们将展示与基线相比,GAP显著减少了这些模型所需的监督量。样本有效泛化我们在分析样本效率与所需注释答案数量的关系时,检查基线的泛化和我们提出的方法。图5显示了所选基线在VQA v2(左列)和GQA数据集(右列)的验证集上的性能,准确度(%)方法VQA v2标准值↑所有是/否Num其他UpDn+收件人Align [40]63.281.042.655.2[37]第37话62.779.842.355.2UpDn+SCR(w.分机号)[49个]62.278.841.654.5UpDn+SCR(w/o ext.)[49个]62.377.440.956.5UpDn+DLR [17]58.076.839.348.5UpDn+RUBi† [4]62.779.242.855.5[40]第四十话63.481.243.055.5准确度(%)4389UpDnUpDn+GAP(我们的)在监督60 6050400 10 20 30 40506050400 10 20 30 40506050400 10 20 30 4050VQA v2培训子集(%)50400 10 20 30 40 506050400 10 20 30 40 506050400 10 20 30 40 50GQA培训子集(%)表2.在分布外图像标题Flickr30K实体测试集上评估时,无监督RE图像接地的接地性能。Recall@k:具有前k个预测的具有IOU≥0.5的边界框的短语的分数。号模型Acc.1UpDn基线63.32+GAP w/ uniform-values vector63.73+GAP w/随机值向量63.64+GAP w/监督接地64.05+GAP,带无监督可视接地64.3表3.VQA v2验证的VQA性能划分为不同-图5. GAP提高了泛化能力,限制了对grouthtruth答案的访问。训练数据的不同部分。特别是,当将具有地面实况答案的训练实例的数量减少到训练集的50%以下时,GAP在所有数据集的准确性方面都明显优于所有基线模型例如,当只给出10%的训练数据时,GAP在VQAv2上的表现比所选数据中最强的基线BAN好4.1个点(54.2% vs. 50.1%)和近 4.0点的GQA (51.7%对。47.9%)。GAP的好处对于MACNet基线来说更加重要,因为它在没有大量数据的情况下很容易在早期步骤中偏离轨道。结果有力地证明了GAP在减少VQA模型对监督数据的依赖方面的好处。5.2. 模型分析无监督短语图像接地的性能为了分析我们模型的无监督接地方面4.1),我们在Flickr 30 K实体上的标题-图像对的模拟测试集上这种分布外的评估设置将显示我们的无监督基础框架是否可以学习有意义的语言视觉对齐。我们使用查询语法结构的新的无监督语言-视觉比对的性能在表2的顶行中示出。这与由相同框架产生的比对得分进行比较,但没有将查询分解为RE(中间行)和随机比对(底部行)。从随机分数中获得5分,从没有短语的问题图像对中获得超过1分,表明我们的语言视觉对齐是VQA中注意力的可靠归纳先验注意力优先来源。模型Acc.1. UpDn基线时β′<$β(γ(θ)<$1. 0个)63.3注意力优先2. w/β′<$β<$(γ(θ)<$0. 0个)直接使用注意力先验3. +GAP w/o第一阶段微调4. 带注意力先验的门控机制5. +GAP,固定γ(θ)<$0。56. +GAP(乘法门控)使用视觉短语联想7. +GAP(w/o从问题中提取的短语)60.063.964.064.064.163.98. +GAP(完整型号)64.3表4.VQA v2上UpDn的消融研究无监督的语言视觉对齐对VQA的有效性我们通过比较我们的注意力先验与不同的视觉注意力先验β值生成方法对VQA性能的影响来检验我们的注意力先验的有效性。它们包括:(1)UpDn基线(不使用注意力先验)(2)均匀值向量和(3)随机值向量(归一化正态分布),(4)监督接地(RefCOCO [ 19 ]上的预训练MAttNet [53]),以及(5)GAP。表3显示UpDn基线的结果。GAP显著优于基线和其他注意力先验(2-3-4)。特别是我们的无监督接地提供了比监督接地更好的VQA性能(第5行)。这一令人惊讶的结果表明,预训练的监督模型不能泛化出分布,并且比无监督地提取的基础短语-图像对更差UpDnUpDn+GAP(我们的)MACNetMACNet+GAP(我们的)MACNetMACNet+GAP(我们的)禁令BAN+GAP(我们的)禁令BAN+GAP(我们的)准确度(%)准确度(%)模型R@1R@5R@10Acc.不好RE镜像接地14.135.645.545.4不好接地(不含RE)12.033.042.944.3随机比对评分(10次运行)6.628.443.340.7准确度(%)4390第1个RE图像对第3个RE图像对问:在火车站里这辆车的左边是什么车?GT回答:原始图片第二个RE图像对(一)GAP之前GAP预测:(b)第(1)款图6. GAP的定性分析。(a)通过我们的无监督接地框架学习的不同RE图像对的区域词对齐。(b)UpDn模型在(左)与(右)之前的视觉关注和预测应用GAP后(右)。GAP将模型的最高视觉注意力(绿色矩形)转移模型前1名收件人前5名联系人前10名收件人UpDn基线14.5027.3135.35UpDn + GAP16.7629.3236.53表5.在对GQA验证分割应用GAP之前,对UpDn的前1、前5和前10名关注度进行基础评分消融研究为了对我们的方法提供更多的见解,我们对VQA v2数据集进行了广泛的消融研究(见表4)。在这些实验中,我们研究了每个组件对完整模型的最佳性能的作用。表4中的实验(1,2)表明UpDn模型在仅其自身注意或注意先于其自身的情况下都不能很好地执行。这支持了我们的直觉,即它们在最佳推理方面相互补充。图5,6表明,这两个术语的软组合是必要的。第7行证明了结构化接地的使用实验结果表明,短语-图像接地比仅使用问题-图像对更好。特别地,提取的RE图像对将性能从63.9%提高到64.3%。这清楚地表明了问句的语法结构作为一种归纳偏向对情态间匹配的重要性,这最终有利于VQA。定量结果我们量化了在GQA验证集上应用GAP之前和之后UpDn模型特别是,我们使用[16]提出的接地分数来衡量模型的注意力权重与所提供的地面事实接地相比的正确性。结果示于表5中。我们的方法将UpDn的接地分数提高了2.26分(16.76 vs. 14.50)的前1名的关注,2.01分(29.32对。27.31)为前5名的关注和1.18分(36.53对。35.35)为前10名的注意。值得注意的是,虽然接地得分通过[16]对所有对象区域进行求和,我们报告了由前k个注意力归因的基础分数,以更好地强调注意力如何转向最相关的对象。该分析补充了表3中的VQA性能,更明确地证实了GAP在提高推理注意力和VQA准确性方面的作用定性结果我们通过对GQA验证集的样本进行可视化接地结果来分析GAP的内部操作。接地质量如图所示。图6(a)具有针对几个RE图像对找到的字区域对齐。有了GAP,这些良好的基础最终通过引导他们的视觉注意力而使VQA模型图6(b)示出了在应用GAP之前和之后UpDn模型的视觉注意力。UpDn基线引导的注意力比注意力向更合适的视觉区域转移。6. 结论我们已经提出了一个通用的方法来语义增强跨通道注意VQA。我们从查询-图像对中提取语言-视觉关联,并使用基于接地的注意先验(GAP)来引导VQA模型通过在大型VQA基准测试中的广泛我们还展示了定性分析,以证明利用基于接地的注意力先验在提高基于注意力的VQA模型的可解释性和可信度方面的好处从广义上讲,以共同知识的形式获得单词和视觉实体之间的关联的能力是联合视觉和语言推理中系统概括的关键4391引用[1] Aishwarya Agrawal , Dhruv Batra , Devi Parikh , andAnirud- dha Kembhavi.不要只是假设;看一看并回答:有视觉问答的前科。在CVPR中,第4971-4980页第5.1节[2] Samuel Albanie,Arsha Nagrani,Andrea Vedaldi,andAndrew Zisserman.在野外使用跨模态转移的语音情感识别第26届ACM国际多媒体会议论文集,第292-301页,2018年。 2[3] Peter Anderson,Xiaodong He,Chris Buehler,DamienTeney,Mark Johnson,Stephen Gould,and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在CVPR中,第6077-6086页,2018年。一二三五[4] Remi Cadene,Corentin Dancette,Matthieu Cord,DeviParikh,et al.Rubi:减少视觉问题回答的单峰偏差神经信息处理系统的进展,32,2019。第5.1节[5] Volkan Cirik 、 Taylor Berg-Kirkpatrick 和 Louis-PhilippeMorency。使用语法在自然图像中建立引用表达式。在AAAI人工智能会议论文集,第32卷,2018年。4.1[6] Abhishek Das 、 Harsh Agrawal 、 Larry Zitnick 、 DeviParikh和Dhruv Batra。人类在视觉问题回答中的注意力:人类和深度网络会关注相同的区域吗?计算机视觉和图像理解,163:901[7] 查兹·费尔斯通性能与人机比较的能力。美国国家科学院院刊,117(43):26562-26571,2020。1[8] FrancoisFleuret,TingLi,CharlesDubout,EmmaKWamp;r,Steven Yantis,and Donald Geman.在视觉 分 类 测 试 中 比 较 机 器 Proceedings of the NationalAcademy of Sciences,108(43):176211[9] Yash Goyal、Tejas Khot、Douglas Summers-Stay、DhruvBatra和Devi Parikh。使VQA中的V重要:提升图像理解在视觉问答中的作用。在CVPR中,第6904-6913页,2017年。5[10] Saurabh Gupta,Judy Hoffman,and Jitendra Malik.监督转移的交叉模态提取。在IEEE计算机视觉和模式识别会议论文集,第2827-2836页,2016年。2[11] Tanmay Gupta,Arash Vahdat,Gal Chechik,XiaodongYang,Jan Kautz,and Derek Hoiem.弱监督短语接地的对比学习计算机Springer,2020年。二、四、一[12] 汤姆·赫斯基在对数意见库中选择加权因子神经信息处理系统进展,第266-272页,1998年。4.3.1[13] Geoffrey Hinton Oriol Vinyals和Jeff Dean。 提取神经网络中的知识。arXiv预印本arXiv:1503.02531,2015。2[14] Ronghang Hu , Anna Rohrbach , Trevor Darrell , andKate Saenko. 用于关系推理的语言条件图网络ICCV,2019。3[15] Drew A Hudson和Christopher D Manning用于机器推理的组合注意力网络。ICLR,2018年。一二三五[16] Drew A Hudson和Christopher D Manning Gqa:一个用于真实世界视觉推理和组合问题回答的新数据集。在CVPR中,第6700-6709页,2019年。5、5.2[17] Chenchen Jing , Yuwei Wu , Xiaoxun Zhang , YundeJia,and Qi Wu.通过分解语言表示法克服vqa中的语言先验。在AAAI人工智能会议论文集,第34卷,第11181-11188页,2020年。第5.1节[18] Andrej Karpathy和李飞飞。用于生成图像描述的深度视觉语义在IEEE计算机视觉和模式识别会议论文集,第3128-3137页,2015年。2[19] Sahar Kazemzadeh,Vicente Ordonez,Mark Matten,andTamara Berg.推荐游戏:在自然景物的照相照片中提到物 体 的 。 在 Proceedings of the 2014 conference onempiricalmethodsinnaturallanguageprocessing(EMNLP),pages 787-798,2014中。4.1、5.2[20] Jin-Hwa Kim,Jaehyun Jun,and Byoung-Tak Zhang.双耳注意力网络。神经信息处理系统进展,第1564-1574页,2018年。一二三五[21] Jin-Hwa Kim 、 Kyoung-Woon On 、 Woosang Lim 、Jeonghee Kim、Jung-Woo Ha和Byoung-Tak Zhang。低秩双线性池的Hadamard2017年学习表征国际会议。3[22] 尼基塔·基塔耶夫和丹·克莱因。使用自我关注编码器的选区分析。在计算语言学协会第56届年会论文集(第1卷:Long Papers),第2676-2686页,2018年。1[23]
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功