没有合适的资源?快使用搜索试试~ 我知道了~
6281用于可视化问答的深度模块化协同注意网络周瑜1俊宇1崔 宇浩1大成涛2齐田31复杂系统建模与仿真重点实验室,杭州电子科技大学计算机科学与技术学院2UBTECH Sydney AI Centre,School of Computer Science,FEIT,悉尼大学,澳大利亚3诺亚{yuz,yujun,cuiyh}@ hdu.edu.cn,dacheng. sydney.edu.au,huawei.com摘要视觉提问(VQA)需要同时对图像的视觉内容和问题的文本内容进行细粒度的理解。因此,设计一个有效的到目前为止,大多数成功的共同注意学习尝试都是通过使用浅层模型实现的,而深层共同注意模型与浅层模型相比几乎没有什么改进。在本文中,我们提出了一个深度模块化协同注意力网络(MCAN),由模块化协同注意力(MCA)层级联的深度。每个MCA层模型的自我注意的问题和图像,以及问题引导的注意的图像共同使用两个基本的注意单元的模块化组成。我们在基准VQA-v2数据集上定量和定性评估了MCAN,并进行了广泛的消融研究,以探索MCAN有效性背后的原因实验结果表明,MCAN显着优于以前的国家的最先进的。我们最好的单一模型在测试开发集上提供了70.63%的整体准确率。1. 介绍连接视觉和语言的多模态学习已经引起了计算机视觉和自然语言处理社区的广泛兴趣。许多视觉语言任务已经取得了重大进展,包括图像-文本匹配[23,14],视觉字幕[9,30,1],视觉接地[10,34]和视觉问题回答(VQA)[2,21,14,36]。与其他多模态学习任务相比,VQA是一项更具挑战性的任务,需要对两者进行细粒度的语义理解余军为通讯作者图1:精度与VQA-v2val分割上的共同关注深度。我们列出了大多数具有(深度)共同注意模型的最先进方法。除了DCN [24]使用卷积视觉特征,因此导致性能较差之外,所有比较的方法(即,,MCAN,BAN[14]和MFH [33])使用相同的自下而上的注意力视觉特征来表示图像[1]。图像和问题,再加上视觉推理来预测准确的答案。注意力机制是深度神经网络的最新进展,已成功应用 于单 峰 任务 (例 如 , 视觉[22], 语言 [4]和 语音[8]),以及上述多模态任务。从VQA中的输入问题学习图像区域上的视觉注意力的想法首先由[27,7]提出,并且它成为几乎所有VQA方法的事实上的组成部分[10,16,1]。伴随着视觉注意,学习语篇对问题关键词的注意也是非常重要的。最近的工作表明,同时学习视觉和文本模态的共同注意可以有利于图像和问题的细粒度表示,从而导致更准确的预测[20,33]。然而,这些共同注意力模型学习粗糙的6282多模态实例的交互,并且学习的共同注意不能推断每个图像区域和每个问题词之间的相关性。这导致了这些共同注意模型的显着局限性。为了克服多模态交互不足的问题,已经提出了两个密集的共同注意模型BAN [14]和DCN [24]来建模任何图像区域和任何疑问词之间的密集交互。密集的共注意机制有助于理解意象与问题的关系,从而正确回答问题。有趣的是,这两个密集的共同注意力模型可以在深度上级联,形成支持更复杂的视觉推理的深度共同注意力模型,从而潜在地提高VQA性能。然而,这些深度模型与其相应的浅层次模型或粗略的共同注意力模型MFH相比[33](见图1)。 我们认为这些瓶颈深度共同注意模型是同时对每个模态内的密集自我注意进行建模的缺陷(即,问题的字对字关系,以及图像的区域对区域关系)。受机器翻译[29]中的Transformer模型的启发,我们设计了两个通用注意单元:自注意(SA)单元,其可以对密集模态内交互(词到词或区域到区域)进行建模;以及引导注意(GA)单元,其对密集模态间交互(词到区域)进行建模。然后,通过模块化的SA和GA单元,我们得到不同的模块化协同注意(MCA)层,可以级联在深度。最后,我们提出了一个深度模块化的共同注意力网络(MCAN),它由级联的MCA层。图1中的结果显示,深度MCAN模型在基准VQA-v2数据集上的表现明显优于现有的最先进的共同注意力模型[11],这验证了自我注意力和引导注意力在共同注意力学习中的协同作用,也突出了深度推理的潜力。此外,我们发现,自注意模型的图像区域可以大大提高对象计数性能,这是具有挑战性的VQA。2. 相关工作我们简要回顾了以往的VQA研究,特别是那些引入共同注意模型的研究。视觉问答(VQA)。VQA在过去几年中受到越来越多的关注。全局特征的多模态融合是最直接的VQA解决方案。图像和问题首先表示为全局特征,然后通过多模态融合模型进行融合以预测答案[37]。一些方法引入了一个更复杂的模型来学习更好的LSTM网络问题表示[2],或者一个更好的带有残差网络的多模态融合模型[15]。上述多模态融合模型的一个限制是图像的全局特征表示可能丢失正确回答关于局部图像区域的问题的关键信息(例如,“女人的左手是什么”)。因此,最近的方法已经引入视觉注意机制到VQA,通过自适应地学习关注的图像特征为给定的问题,然后执行多模态特征融合,以获得准确的预测。Chen等人提出了一个问题引导的注意力地图,将问题嵌入投影到视觉空间中,并制定了一个可配置的卷积核来搜索图像注意力区域[7]。Yang等提出了一个堆栈注意力网络来迭代地学习注意力[31]。福井等人[10],Kimet al. [16],Yuetal. [32,33]和Benet al. [6]利用不同的多模态双线性池化方法将图像空间网格的视觉特征与问题的文本特征相结合,以预测注意力。Anderson等人引入了自下而上和自上而下的注意力机制来学习对候选对象而不是空间网格的注意力[1]。共同关注模型。除了理解图像的视觉内容,VQA还需要充分理解自然语言问题的语义因此,有必要同时学习对问题的文本注意和对图像的视觉注意。Lu等人提出了一个共同注意力学习框架,交替学习图像注意力和问题注意力[20]。Yu等人将共同注意力方法简化为两个步骤,问题嵌入的自我注意力和视觉嵌入的问题条件注意力[33]。Nam等人提出了一个多阶段的共同注意学习模型,以根据对先前注意的记忆来细化注意[23]。然而,这些共同注意力模型为每个模态(图像或问题)学习单独的注意力分布,而忽略了每个问题词和每个图像区域之间的密集交互。这成为理解多模态特征间细粒度关系的瓶颈.为了解决这个问题,已经提出了密集的共同注意模型,其建立了每个问题词和每个图像区域之间的完整交互[24,14]。与先前的具有粗糙交互的共同注意模型相比,密集的共同注意模型提供了显着更好的VQA性能。3. 模块化协同注意层在介绍模块化协同注意网络之前,我们首先介绍其基本组件,模块化协同注意(MCA)层。MCA层是两个基本注意单元的模块化组成,即,自我注意(SA)单元和引导注意(GA)单元,灵感来自于6283添加LayerNorm前馈添加LayerNorm多头注意力K V Q添加图层规范前馈添加LayerNorm多头注意力K V QYX∈∈∈∈∈∈∈∈∈JJJ√jjjZZ(a) ID(Y)-GA(X,Y)(b) SA(Y)-GA(X,Y)(c) SA(Y)-SGA(X,Y)X(a) 自我注意(SA)(b)引导注意(GA)图2:两个基本的注意力单元,用于不同类型的输入。SA取一组输入特征X,输出X的关注特征Z; GA取两组输入特征X和Y,在Y的引导下输出X的关注特征Z。[29]第10段。使用不同的组合,我们得到三个MCA的变体具有不同的动机。3.1. 自我注意和引导注意单元标度点积注意力的输入由维度dkey的查询和关键字以及维度dval的值 组成。对于简单的y,dkey和dvaue通常被设置为相同的数字d。我们计算查询与所有键的点积,将每个键除以d,并应用softmax函数来获得值的注意力权重给定查询qR1×d,n个键值对(打包成键矩阵KRn×d和值矩阵VRn×d),关注特征fR1×d是通过关于从q和K学习的注意力的所有值V的加权求和获得的:QKf=A(q,K,V)=softmax(qd)V(1)为了进一步提高被关注特征的表示能力,在[29]中引入了多头注意,其由h个并行的“头”组成。每个头对应于一个独立的缩放的点积注意力函数。关注输出特征f由下式给出:f= MA(q,K,V)=[头1,头2,..., 头h]W o(2)头j=A(qWQ,KWK,V WV)(3)其中WQ,WK,WV∈Rd×dh是第j个头的投影矩阵,WoRh<$dh×d.dh是来自每个头部的输出特征为了防止多头注意力模型变得过于图3:VQA的三种MCA变体的流程图。(Y)和(X)分别表示问题和图像特征大的,我们通常有dh=d/h。在实践中,我们可以计算一组m个查询Q =[q1;q2;.]的注意力函数。;qm]∈Rm×d无缝地通过在等式中用Q替换q。(2)求出伴随输出特征F ∈ Rm×d。我们建立了两个注意力单元的多头注意处理多模态输入功能的VQA,即自我注意(SA)单元和引导注意(GA)单元。SA单元(见图2a)由多头注意层和逐点前馈层组成。取一组输入特征X=[x1;. ;xm]Rm×dx,多头注意学习X内成对样本xi,xj>之间的成对关系,并通过对X内所有实例的加权求和输出关注输出特征ZRm×d。<前馈层采用多头注意力层的输出特征,并通过两个具有ReLU激活和丢弃的全连接层(FC(4d)-ReLU-Dropout(0.1)-FC(d))进一步将其转换。此外,将残差连接[12]和层归一化[3]应用于两个层的输出,以促进优化。GA单元(见图2b)采用两组输入特征XRm×dx并且Y=[y1;. ;yn]Rn×dy,其中Y指导X的注意学习。注意,X和Y的形状是灵活的,因此它们可以用于表示不同模态的特征(例如,问题和图片)。GA单元分别对来自X和Y的每个配对样本xi,yi之间的成对关系进行释义:由于在Eq.(2)在两个注意单元中起着关键作用,我们仔细研究它,看看它如何与不同类型的输入有关。对于具有输入特征X的SA单元,对于每个xi∈X,其伴随特征fi=MA(xi,X,X)可以被理解为通过所有样本重构xi在X中,关于它们与X的归一化相似性,i。类似地,对于具有输入特征X和Y的GA单元,针对xi∈X的关注特征fi=MA(xi,Y,Y)通过由Y中的所有样本关于它们与xi的归一化跨模态相似性重构xi来获得。GA(Y)(十)SAGA(Y)(十)SAGASA(Y)(十)62841∈∈联系我们∈∈×∈问:什么是胡子是什么做GloVe+LSTM堆叠Att.减少FC或+公元前损失快R-CNN编码器-解码器Att.减少FCA:香蕉问题和图像表示(§4.1)深度共同注意学习(第4.2节)多模态融合和输出分类器(§4.3)图4:深度模块化共同注意力网络(MCAN)的整体流程图在深度共注意学习阶段,我们有两种可供选择的深度共注意学习策略,即堆栈和编码器-解码器。3.2. VQA的模块化组成基于图2中的两个基本注意单元,我们将它们组合以获得三个模块化共同注意(MCA)层(见图3),以处理VQA的多模态特征。所有三个MCA层可以在深度上级联,使得前一个MCA层的输出可以直接馈送到下一个MCA层。这意味着输入特征的数量等于输出特征的数量,而没有实例减少。图3a中的ID(Y)-GA(X,Y)层是我们的基线。在ID(Y)-GA(X,Y)中,输入问题特征通过恒等映射直接传递到输出特征,并且每个区域x之间的密集模态间交互是X与每个单词yiY被建模以GA(X,Y)为单位。这些相互作用被进一步利用,以获得关注的图像特征。与ID(Y)-GA(X,Y)层相比,图3b中的SA(Y)-GA(X,Y)层添加了SA(Y)单元,以对每个问题对yi,yj之间的密集模态内交互进行Y.图3c中的SA(Y)-SGA(X,Y)层继续将SA(X)单元添加到SA(Y)-GA(X,Y)层,以对每个图像区域对之间的模态内交互进行{xi,xj}∈X..请注意,上面的三个MCA层没有覆盖所有可能的组合。我们还探索了其他MCA变体,如对称架构GA(X,Y)- GA(Y,X)和SGA(X,Y)-SGA(Y,X)。然而,这些MCA变体没有报告比较性能,因此由于篇幅限制,我们没有进一步讨论它们。4. 模块化共同注意网络在本节中,我们将描述用于VQA的模块化协同注意力网络(MCAN)架构。我们首先解释1在我们的实现中,我们省略了SA(X)单元的前馈层和范数层,以节省内存成本。从输入问题和图像中提取图像和问题特征表示。然后,我们提出了两个深度的共同注意模型,即堆叠和编码器-解码器,它由多个MCA层级联的深度,逐步细化参加的图像和问题的功能。当我们得到的出席的图像和问题的功能,我们设计了一个简单的多模态融合模型融合的多模态特征,最后将它们馈送到一个多标签分类器来预测答案。MCAN的概述流程图如图4所示。我们将具有堆叠策略的MCAN模型命名为MCANsk-L,并且将具有编码器-解码器策略的MCAN模型命名为MCANed-L,其中L是深度级联的MCA层的总数。(a)问题和图像表征输入图像以自底向上的方式表示为一组区域视觉特征[1]。这些特征是从Faster R-CNN模型(以ResNet-101 作 为 其 主 干 ) [26] 中 提 取 的 中 间 特 征 , 在VisualGenome数据集[18]上预训练。 我们设置一个置信度阈值,以检测到的对象的概率,并获得一个动态的对象数m[10,100]。 对于第i个对象,通过均值池化卷积特征从其检测到的区域。最后,图像被表示为特征矩阵X ∈ Rm×dx。输入问题首先被标记为单词,并修剪到最多14个单词,类似于[28,14]。使用在大规模语料库上预先训练的300-D GloVe单词嵌入[25],将问题中的每个单词进一步转换为向量。这将产生一个大小为n的单词序列300,其中n[1,14]是数字问题中的单词单词嵌入是通过一个具有dy个隐藏单元的单层LSTM网络[13]与[28]相反,它只使用最终状态(即,最后一个字的输出特征)作为6285−∞我∈1∈M1Xyn∈问题特征,我们保持所有单词的输出特征,并输出一个问题特征矩阵Y∈Rn×dy。为了处理对象的可变数量m和可变问题长度n,我们使用零填充来将X和Y填充到它们的最大大小(即,m=100和n=14)。在训练过程中,我们在每个softmax层以避免下溢问题。(b)深度共注意学习以上述图像特征X和问题特征Y作为输入,我们通过将输入特征传递通过由L个MCA层级联组成的深度共同注意模型来执行深度(a) 堆叠SAGASA...SAGASASAGASA(b) 编解码器在 深 度 上 ( 由 MCA( 1 ) 、 MCA( 2 ) . MCA(L))。将MCA(l)的输入特征分别表示为X(l-1)和Y(l-1),它们的输出特征表示为X (l)和Y(l),它们进一步以递归方式馈送到MCA(l+1)作为其输入。图5:基于级联的两个深度共同注意力模型MCA层(例如,SA(Y)-SGA(X,Y))。例如,如下获得关注特征x,α= softmax(MLP(X(L)[X(l),Y(l)]=MCA(l)([X(l−1),Y(l−1) ])(4)x~= Σmi=1αix(L)(五)对于MCA( 1 ),我们设置其输入特征X( 0 )=X,Y(0)=Y。以SA(Y)-SGA(X,Y)层为例(其他两个MCA层以相同的方式进行),我们在图5中制定了两个深度共同注意力模型。堆叠模型(图5a)简单地在深度上堆叠L个X(L)和Y(L)作为最终关注的图像和问题特征。编码器 - 解 码 器 模 型 ( 图 5 b ) 受 到 [ 29 ] 中 提 出 的Transformer模型的启发。它通过用来自最后MCA层的问题特征Y(L)替换每个MCA(1)中的GA单元的输入特征Y(1)来稍微修改堆叠模型。编码器-解码器策略可以被理解为编码器学习具有L个堆叠的SA单元的关注问题特征Y(L),并且解码器使用Y(L)学习具有堆叠的SGA单元的关注图像特征X(L)。这两款深款尺寸相同,L. 作为L=1的特殊情况,这两个模型是严格等价的。(c)多模态融合与输出分类器在深度共同注意学习阶段之后,输出图像特征X(L)=[x(L);. ;x(L)]∈Rm×d,其中,α =[α1,α2,… αm] Rm是学习的注意力权重。我们可以通过类比的方法,利用一个独立的注意力缩减模型来获得Y(L)的注意特征y_(使用计算的y和x,我们设计线性多峰融合函数如下:z=LayerNorm(WTxz+WTyz)(6)其中Wx,Wy∈ Rd×dz是两个线性投影矩阵.Dz 是融合特征的公共维度。LayerNorm用于稳定训练[3]。将融合特征z投影到向量sRN然后是一个sigmoid函数,其中N是训练集中最频繁的答案的数量。在[28]之后,我们使用二进制交叉熵(BCE)作为损失函数来在融合特征z之上训练N路分类器。5. 实验在本节中,我们将进行实验,以评估MCAN模型在最大的VQA基准数据集VQA-v2上的性能[11]。由于不同的大脑中动脉变体和深度共同注意模型可能会影响最终的表现,我们进行了广泛的定量和定性消融研究,以探讨为什么MCAN表现良好。 最后,通过最佳的超-问题特征Y(L)=[y(L);. ;y(L)]Rn×d已经包含了关于问题词和图像区域上的注意力权重的丰富信息。 所以我们针对Y(L)(或X(L))设计一个具有两层MLP(FC(d)-ReLU-Dropout(0.1)-FC(1))的注意力约简模型,以获得其关注特征y(或x)。将X(L)作为SAGASA...SAGASASAGASA6286参数,我们将我们的最佳模型与相同设置下的当前最先进的模型进行比较。(a)数据集VQA-v2是最常用的VQA基准数据集[11]。它包含人工注释的问题-答案6287联系我们(a) MCA变体:在一个层下具有不同MCA变体的MCAN模型的精度。ID(Y)-GA(X,Y)、SA(Y)-GA(X,Y)和SA(Y)-SGA (X,Y)表示三种MCA变体,不含/或不含用于图像和问题的SA单元(参见图3)。由于堆叠和编码器-解码器策略在一个层下是等效的,因此我们不区分它们。(b) 堆叠与编码器-解码器:总体精 度 和 模 型 尺 寸 ( 即 ,MCANsk-L模型和MCANed-L模型的参数数量),其中数量[001 pdf 1st-31files]层L∈ {2,4,6,8}。与相同的L,两个模型的尺寸相等。(c) 问题表示:MCAN ed-6模型在不同问题表示下的准确性。 Randft意味着word嵌入是随机初始化的,然后进行微调。 PE表示位置编码[29]。 Glo Vept+ft和Glo V ept意味着单词嵌入是用Glo V e预训练的,而Glo Vept+ft是额外微调的。模型所有Y/NNum其他模型所有Y/NNum其他ID(Y)-GA(X,Y)64.882.544.756.7Randft + PE65.683.047.957.1SA(Y)-GA(X,Y)65.282.944.857.1GloVept+ PE67.084.649.458.2SA(Y)-SGA(X,Y)65.483.244.957.2GloVept+ LSTM67.184.849.458.4GloV ept+ft + LSTM67.284.849.358.6表1:MCAN的消融实验所有报告的结果均在val分割上进行评价(a) 全部(b)是/否(c)否(d)其他图6:配备不同MCA变体的MCANed-L模型的整体和每类型精度,其中层数L∈ {1,2,4,6}。所有报告的结果均在val分割上进行评价。与MS-COCO数据集[19]中的图像相关的配对,每个图像有3个问题,每个问题有10个答案。数据集分为三个:训练(80 k图像和444 k QA对);val(40 k图像和214 k QA对);和测试(80 k图像和448 k QA对)。此外,有两个测试子集称为test-dev和test-standard,用于在线评估模型性能。结果包括三个每类型准确度(是/否、数字和其他)和一个总体准确度。(b)实现细节实验中使用的模型超参数如下。输入图像特征dx、输入问题特征dy和融合多模态特征dz的维数分别为2,048、512和1,024。根据[29]中的建议,多头注意力中的潜在维度d为512,头部数量h设置为8,每个头部的潜在维度为dh=d/h=64。使用[28]中的策略将答案词汇表的大小设置为N=3,129MCA层的数量为L1、2、4、6、8。为了 训练 MCAN 模型 , 我们 使用 亚当求 解器[17],β1=0。9和β2=0。九十八基本学习速率被设置为min(2. 5te−5,1e−4),其中t是从1开始的当前历元数在10个epoch之后,学习率每2个epoch衰减1/5所有的模型都经过训练最多13个时期具有相同的批量大小64。对于val分割上的结果,只有训练分割用于训练。 对于test-dev或test-standard拆分的结果,train和val拆分都用于训练,Visual Genome [18]的VQA样本子集也用作增强数据集以促进训练。(c)消融研究我们进行了多次消融,以研究MCAN有效的原因。下面详细讨论表1和图6MCA变体:从表1a中的结果,我们可以看到SA(Y)-GA(X,Y)对于所有答案类型都优于ID(Y)-GA(X,Y)。这验证了对问题特征的自注意建模有利于VQA性能,这与以前的工作是一致的[33]。 此外,我们可以看到SA(Y)-SGA(X,Y)也优于SA(Y)- GA(X,Y)。这第一次揭示了为图像特征建模因此,除非另有说明,否则我们在以下实验中使用SA(Y)-SGA(X,Y)作为我们的默认MCA堆叠与编码器-解码器:从表1b中的结果可以看出,随着L的增加,两种深度共同注意力模型的性能都稳步提高,并最终在L=6时饱和。当L>6时,饱和可以通过训练期间的不稳定梯度来解释,LMCANskMCANed大小266.166.227M466.766.941M666.867.256M866.867.268M6288§SA(Y)-1SA(Y)-6SA(X)-1SA(X)-6问:我们可以养多少只羊?看到这张照片了吗A:3SA(Y)-1SA(Y)-6SA(X)-1SA(X)-6GA(X,Y)-1GA(X,Y)-6GA(X,Y)-1GA(X,Y)-6(a) 编码器-解码器(P:3)(b)堆叠 (P:3)图7:从典型层学习的注意力单元的注意力地图(softmax(qK/qd))的可视化SA(Y)-1、SA(X)-1和GA(X,Y)-1分别表示来自第1层的问题自关注、图像自关注和问题引导关注。Q、A、P分别表示问题、答案和预测。注意力图的轴上所示的[0-19]内的索引对应于图像中的每个对象(总共20个对象)。为了更好的可视化效果,我们在图像中突出显示了三个与答案相关的对象(即,绵羊)。使得优化变得困难。类似的观察也被报道[5]。此外,编码器-解码器模型稳定地优于堆叠模型,特别是当L较大时。这是因为从早期SA(Y)单元学习的自我注意力与从最后SA(Y)单元学习的自我注意力相比是不准确的。直接将其馈送到GA(X,Y)单元可能会损坏学习到的图像引导注意力。5.4中的可视化支持这一解释。最后,MCAN比其他方法更具参数效率,MCANed-2 (27 M)报告了66.2%的准确度,BAN-4(45 M)报告了65.8%的准确度[14],MFH(116 M)报告了65.7%的准确度[33]。更深入的比较见补充材料。MCA与深度:在图6中,我们显示了MCANed-L与不同MCA变体的详细性能。随着L的增加,三种变体之间的性能差距增加。此外,在图6c中出现了有趣的现象。当L=6时,ID(Y)-GA(X,Y)和SA(Y)-GA(X,Y)模型的数型精度基本相同,而SA(Y)-SGA(X,Y)模型的数型精度比他们高出4.5分这验证了图像的自我注意在物体计数中起着关键作用。问题表示:表1c总结了消融不同问题表征的实验。我们可以看到,使用GloVe预先训练的单词嵌入,[25]明显优于随机初始化。其他技巧,如微调GloVe嵌入或用LSTM网络替换位置编码[29]来对时间信息进行建模,可以进一步提高性能。(d)定性分析在图7中,我们可视化了从MCANsk-6和MCANed-6学习到的注意力。由于篇幅限制,我们只展示了一个例子,并从不同的注意力单元和不同的层可视化六个注意力地图。更多的可视化可以在补充材料中找到。从结果中,我们有以下观察结果。问题自我注意SA(Y):SA(Y)-1的注意力地图形成垂直条纹,并且像“如何”和“看到”这样的词获得大的注意力权重。该单元充当问题类型分类器。此外,SA(Y)-6的注意图出现在“羊”列中。这表明,所有的关注特征倾向于使用“羊”的特征进行重构。也就是说,关键字6289§模型Test-dev测试标准品问:女士是什么这位女士控股A:kiteP:问:什么是绿色什么蔬菜A:croccoliP:问:什么牌子的什么牌子的设备在左边设备在左边A:诺基亚P:黑莓问:什么颜色的是什么颜色的是捕手裤捕手裤A:灰色P:白色图8:通过等式学习的图像和问题注意力的典型示例。(五)、 对于每个例子,图像,问题(Q)和答案(A)呈现在左侧;学习的图像注意力、问题注意力和预测(P)呈现在它们旁边。区域的亮度和单词的暗度表示它们在注意力权重中的重要性。图像自注意SA(X):SA(X)-1的注意力地图中的值是均匀分布的,这表明绵羊的关键对象不清楚。SA(X)-6的注意力图中的大值出现在第1、3和11列,对应于图像中的三只羊这解释了为什么引入SA(X)可以大大提高对象计数性能。问题引导-注意GA(X,Y):GA(X,Y)-1的注意力图不聚焦于图像中的当前对象; GA(X,Y)-6的注意力图倾向于集中在“羊”列中的所有值。这可以解释事实上,输入特征已经由SA(X)-6中的绵羊特征重构。此外,堆叠模型的GA(X,Y)单元包含比编码器-解码器模型多得多的噪声。这验证了我们在5.3中提出的假设。在图8中,我们还可视化了Eq.(五)、对于正确预测的示例,学习的问题和图像注意力通常紧密地集中在关键词和最相关的图像区域(例如,第一个例子中的单词“holding”和“hand”的区域,第二个例子中的单词“future”和“croccoli”的区域)。从不正确的例子中,我们可以得出我们方法的一些弱点。例如,它偶尔会在区分问题中的关键词时出错(例如,第三个例子中的单词这些观察结果对于指导今后的进一步改进是有用的。(e)与最新技术通过考虑消融结果,我们将我们的最佳单模型MCANed-6与表2中的当前最先进方法进行了比较。使用相同的自下而上的注意力视觉特征[1],MCANed-6在总体准确性方面显著优于当前最佳方法BAN [14] 1.1分。与BAN+计数器[14]相比,它额外引入了计数模块[35]为了显著提高对象计数性能,我们的模型仍然高出0.6个点。此外,我们的方法获得了可比较的对象计数性能(即, 的表2:与最先进方法相比,单一模型在测试-开发和测试-标准品拆分方面的准确度。所有方法都使用相同的自下而上的注意力视觉特征[1],并在train+val+vg集上进行训练(vg表示来自Visual Genome的增强VQA样本)。两个分割的最佳结果均以粗体显示。所有Y/NNum其他所有[28]第二十八话65.3281.8244.2156.0565.67MFH [33]68.7684.2749.5659.89-BAN [14]69.5285.3150.9360.26-BAN+计数器[14]70.0485.4254.0460.5270.35MCANed-670.6386.8253.2660.7270.90数字类型)到BAN+计数器,并且在这样做时不使用任何辅助信息,如每个对象的边界框坐标[35]。这表明MCAN更通用,可以自然地学习仅基于视觉特征对冗余对象进行重复数据删除补充材料中展示了6. 结论在本文中,我们提出了一种新的深度模块化协同注意力网络(MCAN)的VQA。MCAN由一系列的模块化共同注意(MCA)层组成,每个层由自我注意和引导注意单元组成,以同步地建模模态内和模态间的交互。通过使用编码器-解码器策略在深度上堆叠MCA层,我们获得了深度MCAN模型,该模型实现了VQA的新的最先进性能。致谢这项工作得到了中国国家自然科学基金61702143、61836002、61622205的部分资助,以及澳大利亚研究理事会FL-170100117、DP-180103424和IH-180100002的部分资助。6290引用[1] Peter Anderson,Xiaodong He,Chris Buehler,DamienTeney,Mark Johnson,Stephen Gould,and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。IEEE计算机视觉和模式识别会议(CVPR),第6077-6086页,2018年。一、二、四、八[2] Stanislaw Antol , Aishwarya Agrawal , Jiasen Lu ,Margaret Mitchell,Dhruv Batra,C Lawrence Zitnick,and Devi Parikh. Vqa:可视化问答。国际计算机视觉会议(ICCV),第2425-2433页,2015年。一、二[3] Jimmy Lei Ba,Jamie Ryan Kiros,Geoffrey E Hinton.层归一化。arXiv预印本arXiv:1607.06450,2016。三、五[4] Dzmitry Bahdanau,Kyunhyun Cho,Yoshua Bengio.通过联合学习对齐和翻译的神经机器翻译。arXiv预印本arXiv:1409.0473,2014。1[5] Ankur Bapna,Mia Xu Chen,Orhan Firat,Yuan Cao,and Yonghui Wu.用透明注意力训练更深层次的神经机器翻译模型。arXiv预印本arXiv:1808.07561,2018。7[6] HediBen-Younes,Re'miCadene,MatthieuCord,和NicolasThome.Mutan:用于视觉问答的多模态折叠融合。在国际计算机视觉会议(ICCV),第2612-2620页,2017年。2[7] Kan Chen,Jiang Wang,Liang-Chieh Chen,HaoyuanGao,Wei Xu,and Ram Nevatia. Abc-cnn:一个基于注意力的卷积神经网络,用于视觉问答。arXiv预印本arXiv:1511.05960,2015。一、二[8] JanKChorowski , DzmitryBahdanau , DmitriySerdyuk,Kyunghyun Cho,and Yoshua Bengio.基于注意力的语音识别模型。神经信息处理系统(NIPS)进展,第577-585页,2015年。1[9] JeffreyDonahue 、 LisaAnneHendricks 、 SergioGuadarrama、MarcusRohrbach、SubhashiniVenugopalan、Kate Saenko和Trevor Darrell。用于视觉识别和描述的长期递归卷积网络。在IEEE计算机视觉和模式识别会议(CVPR),第2625-2634页,2015年。1[10] Akira Fukui , Dong Huk Park , Daylen Yang , AnnaRohrbach,Trevor Darrell,and Marcus Rohrbach.多模态紧凑双线性池化视觉问答和视觉接地。arXiv预印本arXiv:1606.01847,2016。一、二[11] Yash Goyal , Tejas Khot , Douglas Summers-Stay ,Dhruv Batra,Devi Parikh.让vqa中的v变得重要:提升图像理解在视觉问答中的作用。IEEE计算机视觉和模式识别会议(CVPR),第6904-6913页,2017年。二、五[12] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。IEEE计算机视觉和模式识别会议(CVPR),第770-778页,2016年。3[13] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经计算,9(8):1735-1780,1997。4[14] Jin-Hwa Kim,Jaehyun Jun,and Byoung-Tak Zhang.双线性注意力网络。神经信息处理系统(NIPS),2018年。一、二、四、七、八[15] Jin-Hwa Kim、Sang-Woo Lee、Donghyun Kwak、Min-Oh Heo 、 Jeonghee Kim 、 Jung-Woo Ha 和 Byoung-TakZhang。多模态残差学习在视觉品质分析中的应用。神经信息处理系统(NIPS)的进展,第361- 369页,2016年。2[16] Jin-Hwa Kim 、 Kyoung Woon On 、 Woosang Lim 、Jeonghee Kim、Jung-Woo Ha和Byoung-Tak Zhang。低秩双线性池的Hadamard积2017年国际学习表征会议(ICLR)。 一、二[17] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。6[18] Ranjay Krishna , Yuke Zhu , Oliver Groth , JustinJohnson,Kenji Hata,Joshua Kravitz,Stephanie Chen,Yannis Kalantidis,Li-Jia Li,David A Shamma,et al.可视化基因组:使用众包密集图像注释连接语言和视觉。arXiv预印本arXiv:1602.07332,2016。四、六[19] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco:上下文中的公用对象。欧洲计算机视觉会议(ECCV),第740-755页,2014年。6[20] Jiasen Lu,Jianwei Yang,Dhruv Batra,and Devi Parikh.用于视觉问答的分层问题图像共注意。神经信息处理系统(NIPS)进展,第289-297页,2016年。一、二[21] 马特乌斯·马林诺夫斯基和马里奥·弗里茨一种基于不确定输入的真实场景多世界问答方法。神经信息处理系统(NIPS),第1682-1690页,2014年。1[22] Volodymyr Mnih,Nicolas Heess,Alex Graves,et al.视觉注意的循环模型。神经信息处理系统(NIPS)进展,2204-2212页,2014年。1[23] Hyeonseob Nam、Jung-Woo Ha和Jeonghee Kim。用于多模态推理和匹配的双注意力网络。arXiv预印本arXiv:1611.00471,2016。一、二[24] Duy-Kien Nguyen和Takayuki Okatani。通过密集对称共同关注改进视觉和语言表示的融合,用于视觉问题回答。IEEE计算机视觉和模式识别会议(CVPR),第6087-6096页一、二[25] Jeffrey Pennington,Richard Socher,and Christopher DManning. Glove:单词表示的全局向量。在EMNLP,第1532-1543页,2014中。四、七[26] 任少卿、何开明、罗斯·格尔希克、孙健
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Python和Opencv的车牌识别系统实现
- 我的代码小部件库:统计、MySQL操作与树结构功能
- React初学者入门指南:快速构建并部署你的第一个应用
- Oddish:夜潜CSGO皮肤,智能爬虫技术解析
- 利用REST HaProxy实现haproxy.cfg配置的HTTP接口化
- LeetCode用例构造实践:CMake和GoogleTest的应用
- 快速搭建vulhub靶场:简化docker-compose与vulhub-master下载
- 天秤座术语表:glossariolibras项目安装与使用指南
- 从Vercel到Firebase的全栈Amazon克隆项目指南
- ANU PK大楼Studio 1的3D声效和Ambisonic技术体验
- C#实现的鼠标事件功能演示
- 掌握DP-10:LeetCode超级掉蛋与爆破气球
- C与SDL开发的游戏如何编译至WebAssembly平台
- CastorDOC开源应用程序:文档管理功能与Alfresco集成
- LeetCode用例构造与计算机科学基础:数据结构与设计模式
- 通过travis-nightly-builder实现自动化API与Rake任务构建
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功