自动解析网络：用于图像字幕和可视问答的基于Transformer的APN模型

138 浏览量更新于2023-10-13 收藏 1.37MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2197S1S5用于图像字幕和可视问答的自动解析网络徐阳1、*高重阳2、* 张汉旺3蔡剑飞41东南大学计算机科学与工程学院2达特茅斯学院3南洋理工大学计算机科学与工程学院4莫纳什大学xuyangaca@gmail.comchongyang.gao.gr dartmouth.edu @hanwangzhang@ntu.edu.sgmonash.edu摘要我们提出了一个自动解析网络（APN），发现和利用输入数据具体地说，我们会强加一个概率-S3S2S1S5S3S4S2S4通过对每个自注意层的注意操作来参数化的动态图形模型（PGM），以合并稀疏假设。我们使用这个PGM软段输入序列成几个集群，每个集群可以被视为内部实体的父。通过堆叠这些PGM约束自注意层，较低层中的聚类组成新的序列，并且较高层中的PGM将进一步分割该序列。迭代地，稀疏树可以被隐式地解析，并且该树具体来说，我们展示了我们的APN可以在两个主要的视觉语言任务中加强基于Transformer的网络：字幕和可视问答。此外，PGM概率为基础的分析算法的发展，我们可以发现什么是隐藏的输入结构的推理过程中。1. 介绍如今，基于Transformer [57]的框架已普遍应用于视觉语言任务，并且在图像captioning [16，18，30，44]，VQA [78]，图像接地[38，75]和视觉推理[1，50]中观察到了令人印象深刻的改进。研究人员将这一进展归功于Transformer的各种优势，例如*两位作者对本研究的贡献相等。(a) 完全连通图的分割（b）层次树图1. (a)经典的自我注意和概率图模型（PGM）约束的自我注意中包含不同的图先验。左图：经典的自我注意力将图中的每两个节点配对，从而形成一个全连通图。右图：受PGM约束，五个节点被分割为三个簇。(b)通过堆叠我们的PGM约束的自我注意力层，可以自动构造层次树。因此，我们称我们的网络为自动解析网络（APN）。高效的并行计算[57]，近似任何序列到序列函数的能力[79]，以及利用由自注意力提供的全连接图先验[9]，如图1（a）的左侧部分所示。特别地，通过图先验，尽管视觉和语言数据具有非常不同的表面形式，但是它们的结构共性可以被自动地抽象、嵌入和转移，以缩小领域差距。然而，视觉和语言数据的底层结构通常是分层的和稀疏的，这与完全连接的图不同，例如，句子或图像可以分别被解析为词或对象的组成树[9，15，56]。如果没有稀疏和分层约束，该系统可能会被琐碎的全局依赖性所淹没，并忽略关键的局部上下文[33，66，68]。以VQA为例，图4最后一行中的问题是“时针上的数字是多少？“对于包含时针和分针的图像。具有全连通图219811212先验可能通过直接利用“数字”和“指针”之间的全局相关性而做出不正确的预测，这是由于它们在训练集中的高共同出现频率，因此忽略了关键的局部上下文“时针”。在图像字幕中也观察到类似的问题，其中由平凡依赖性构造的噪声图像场景图可能对改进贡献较小[40]。为了减少全连通图的平凡连接，研究人员通常将输入解析成一些稀疏和层次结构，例如过滤场景图[14，23，81]或稀疏树[52]，然后利用它们来解决各种视觉和语言任务，例如，图像覆盖[70，72]、VQA [4，32，55]、接地[6，37]和VCR [77]。然而，这些策略需要大量匹配的图注释[27，39，67]来训练有用的解析器[12，51，80，82];否则可能会导致域偏移，使解析的图无效。为了减轻合并分层和稀疏图先验的负担，受Tree-Transformer [63]的启发，我们提出了一种网络，该网络可以在端到端训练期间学习自动将输入解析为树，而无需任何额外的图注释，因此被命名为自动解析网络（ APN ）。具体来说，我们通过概率图模型（PGM）[10，29]来约束自我注意力操作，该概率图模型通过可微分注意力操作来参数化如图1（a）的右侧部分所示在每次分割迭代之后，只有相同聚类中的实体可以彼此关注，并且因此，嵌入局部上下文。直观地，每个聚类可以被认为是内部实体的父，并且这些聚类一起组成新的序列。通过堆叠受约束的自注意层，较低层的新序列将被较高层的PGM进一步分割。例如，如图1（b）所示，第一级中的s1和s1被聚类到第二级中的新伪父节点s2中然后，对s2和s2进一步聚类。通过这种迭代方式，可以自动解析树。通过APN，局部和全局上下文可以相应地嵌入在较低层和较高层。一旦我们构建了基于APN的编码器-解码器，源域和目标域的分层结构都我们在两个基本的视觉语言任务中部署了所提出的APN：图像字幕[60，65]和视觉问答[5]。两个任务的实验结果表明，我们的APN获得consistent改进相比，Transformer为基础的模型- els。此外，我们开发了一个解析算法，它可以生成组成树的视觉和语言输入的基础上计算的PGM概率。以这种方式，当模型推断时，可以揭示每个样本的隐藏结构总之，我们有以下贡献：• 受Tree-Transformer [63]的启发，我们提出了一种自动解析网络（APN），它可以通过在自注意力层上施加PGM概率并利用PGM概率的分层约束来无监督地学习解析输入的树。• 我们设计了两个不同的APNs解决图像字幕和视觉问答。• 我们表明，我们的APN实现了一致的改进与经典的Transformer上的两个任务。2. 相关工作结构化学习。结构化学习是一个研究热点[28，43]，因为大多数数据都有隐藏的结构，并且这些结构的利用有利于解决下游任务[11，53]。概率图形模型是一种经典方法，已被纳入深度网络以解决视觉[13，26]和NLP任务[21，61]。然而，一些这样的模型需要使用前向-后向算法[49]或内-外算法[7]来推断训练期间的概率，这将不可避免地减慢训练。为了加速训练，我们遵循Tree-Transformer[63]，它应用注意力机制来计算约束矩阵以实现软分割。然而，他们的约束矩阵是不是一个归一化的概率，我们重新制定他们的技术成PGM的形式。基于此PGM概率，我们设计了两个不同的自动解析网络，分别解决图像字幕和视觉问答。通过这种方式，我们可以从输入数据中隐式地解析隐藏树，并且可以在不使用前向-后向或内-外算法的情况下端到端地在视觉推理中利用图形。图像说明[60，65]和视觉问题回答[5]是视觉推理中的两个基本任务，其目的分别是生成一个流畅的句子来描述视觉场景并提供与视觉内容相关的问题的答案。由于深度学习、编码器-解码器结构[70]、包括自注意力[20]的注意力机制[3]和许多其他技术的蓬勃发展，图像字幕和VQA的性能得到了显著提升此外，考虑到图形先验可以转移共性并减轻视觉和语言域之间的差距，研究人员探索如何在两项任务中正确使用图形[55，76]一方面，GCN [70，72]可以将图转换为潜变量，可以直接用于模型。另一方面，输入图像和问题可以被解析成树[63]。由于结构对应性，深度模块网络[19，78]可以将解析树的不同类型部分馈送到单独的模块中。然而，对额外数据和解析器的需求限制了图先验的使用。到2199∈∈∈我我··联系我们·Y我不我我我Y−为了解决这一限制，我们将输入解析成基于PGM的树，并自动地针对不同的任务进行自我关注，而不需要任何额外的数据和解析器。3. 多头注意力重访我们首先回顾多头注意力操作，这是我们APN的基本构建块。给定查询、键和值矩阵，QRNQ×d，KRNK×d，VRNK×d，1多头注意[57]计算注意矩阵O如下：输入：Q、K、V01- 02- 2016刘晓波（QWQ（KWK）T√d）头部：H=A VWV，（一）我我我多头：H= [H1，H2，…H8]WH，输出量： O= FFN（H），其中WQ，WK，WV∈Rd×dh，WH∈Rd×d都是图2.我们的概率图模型（PGM）的插图，顶部是PGM，底部是势函数的实现。Ek和Eq将s编码为k和q，是可训练矩阵 ; 头部的数量被设置为 8 并且dh=d/8;Ai是用于计算第i个头部H i的注意力矩阵;[]是级联运算;并且FFN是可训练矩阵。位置前馈网络：FC-RELU-FC。分别其中S是序列实体的集合，θC势函数，以及（·）是po-具体地，当将Q、K、V设置为相同值时，这种机制被称为自注意或非局部卷积。解[62，64]。从Graph Network的角度来看，Z（）是配分函数：Z（x，S）= Σ Yθ C（xC|S）（3）建立一个全连通图[9]。例如，给定表示序列S=s1，s2，…STRd×T，并且通过设置Q=K=V=S，每两个节点si和sj通过由注意力权重α i，j加权的边连接。这样，密集和长期的依赖在每两个实体之间嵌入了一个或多个传感器，这已经被证明在各种任务中是有益的。然而，由于数据的底层结构通常是这使得总概率之和为1。在我们的情况下，由于我们更多地关注相邻实体之间的相关性（例如，是否应该将几个相邻实体分组在一起），我们应用成对PGM，其中每个集团仅包括相邻的两个实体，并且PGM公式可以简化为：1T−1P（x，x，… X |S）=θ（x |S）、⑷一个完全连接的图，如-1 2哪里T−1Z（x，S）t tt=1假设可能导致琐碎注意模式[59]，只有一个实体由其他实体参与，或者在引言中讨论的关键的本地上下文被忽略了。为了引入稀疏和层次的先验来捕获更有意义的关系，我们将概率图模型（PGM）引入自注意网络，并将它们堆叠起来以构建自动解析网络（APN）。x t是一个二进制隐藏变量，表示st和st+1是否相互连接，θt（）测量st和st+1之间的相关性，如图2的顶部所示。例如，较大的θ3（x3=1）指示s3和s4应该被分组在一起。4.1. θt（·）的网络参数化具体地，我们将θt（·）设置为：4. 概率图模型电话+1t+1t t一般地，PGM被定义为全部以输入为条件的团势函数的乘积θt（xt=1|S）=Ber（zt =l|Ct）Ber（zt+1=1|ct+1）θ t（x t = 0|S）= 1 − θ t（x t = 1|S），（五）集合[29，41]：1P（x|S）= Z（x，S）θC（xC|S）、（2）C其中θ t（x t= 1|S）是两个Bernoulli分布的乘积。和θ t（x t=0|S）被设置为保证总和为1。在该方法中，每个θt（·）被归一化，并且等式2中的Z（x，S ）被归一化。（4）总是1。 Bernoulli分布Ber（z|c）=Softmax杨永EQ杨永XC22001.K和V中元素的个数相同，我们使用NK表示它。cz（1c）（1−z）和zt+1是一个二进制变量，表示st是否应该与st+1连接，并具有相应的2201不不不不i、ji、j不不≥Y⊗不不不不不t t t t tt响应概率ct+1。当量（5）是基于以下直觉设计的：如果实体st接近其右邻-群集的，例如，s1和s2属于同一个群集。这样，整个序列被柔和地分割成几个borst+1（即zt+1该实体（即z t=1）且该邻居也很接近=1），那么它们应该紧集群请注意，我们使用相同的M来约束不同头部的自我注意力权重，因为我们的PGM旨在连接（xt=1）。电话+1分段输入序列，所有头部应跟随为了确定一个实体st是否接近它的右邻居st+1，我们可以将它们的接近度与st和它的左邻居st−1之间的接近度进行比较，这自然会导出以下概率c的注意力网络参数化：[ct−1，ct+1]=ATT（qt，[kt−1，kt+1]），（6）其中qt= stW q，kt= stW k。将序列集S输入到这个注意力网络中，我们可以计算出每个st的ct−1和ct+1。与图2的底部一样，通过将这些概率带回等式2，（5）和（4），我们可以计算势函数和势函数的值P（x|S）的任意二进制隐藏向量x。4.2. 分割序列分段的聚类以计算输出。4.3. 解析树在本节中，我们首先介绍如何在前向传递过程中自动地、隐式地解析树。然后，我们引入了一个算法，明确解析树后的正向传递，它可以可视化隐藏的树结构是如何被纳入到嵌入。前向传递过程中的隐式解析我们已经证明，通过将自注意权重与我们的PGM概率矩阵M相乘，输入序列可以被软分割成聚类。分割的簇可以被认为是其中实体的父，所示在图1（b）中，s2={s1，s1}表示父s2具有1 1 2 1两个孩子：s1，s1。使用PGM与Eq.（4）至12分割序列的目的是找到该概率模型的最大值：x*= argmax（P（x|S））。（七）然而，简单地堆叠我们的PGM约束层不能解析树，因为较低层集群中的实体可能不仍然在较高层集群中，例如Ml大X然而，解决Eq。（7）在所有可能的x上，使用传统方法如最大和算法[10]并不快，而且在训练期间需要在每个前向传递中重复，这是无法忍受的。与树中提出的技术类似而 M1+ 1 很小。为了修正这个缺点，遵循 Tree-Transformer [63]，我们修改了势函数（等式10）。（5））在第l级为：θ~l=θ~l-1+（1-θ~l-1）θl，（10）其中θ l是θ l（xl=1）的缩写|Sl）。以来Transformer [63]，我们近似这个硬分割0≤θ~l−1<1，θ〜1是1和θ〜 1的卷积x组合。θ1、θ~1通常大于或等于θ1。然后我们重新-温和的态度具体地，我们计算T×T矩阵Mt tl lt其中如果放置θt，θ~由方程式（8）计算Ml并且将具有i j：不l+1lMi，j=P（Xi）j−1=1，x一期+1=1，…，Xj−1 =1）（八）M i，j然后，在较低层聚类的实体仍将在较高层聚类通过堆叠这些约束层，在迭代分段期间-=θ t（x t= 1|S），t=I如果i > j，则Mi，j=Mi，i，且Mi，i=1。在该矩阵中，每个Mi，j是聚类从si到sj 的实体的边际概率，例如，M2，4测量聚类实体s2，s3，s4的概率，然后如果M2，4很大，则对s2，s3，s4进行软聚类。在计算M之后，我们使用它来修改Head opera-在Eq。（1）如下：H=（MA）V WV，（9）其中代表元素乘积。直观地说，经过修改后，原来的全连通图变成了一个稀疏图，它包含几个簇，并且实体只在同一个簇中相互连接。例如，如图的左侧。1（a），si和sj在自注意中可以自由地相互关注，关注的权重是Ai，j和Aj，i，而在右部分，在M约束后，它们只能在Mi，j有一个大值时才能相互关注，这表明si和sj是软的2202隐式树可以在前向传递期间被自动解析图1（b）中显示了一个关于此的玩具示例。前向传递后的解析。在输入序列的情况下，APN不仅通过前向传递输出包含隐藏的层次知识的嵌入，而且还计算一系列潜在的概率（等式 10 ）。（10））。我们遵循[63]来提供一种算法，以通过潜在概率将序列显式地解析为树，该算法在算法1中给出。该算法从上到下递归地将一个序列解析成一棵树ParseTree（l，i，j）表示使用第l个值θ~l对分段a的势函数。从si开始到sj 结束的序列。在第1行中，它首先确定si和sj是否是邻居：如果是，它将si和sj分段为左和右leav，分别为i;否则，在第4行中，它找到具有最小势函数值的位置p*，以将序列分割为两部分：{si：p*}和{sp*+1：j}，如第12行和第13行所示。2203NL×+FFN+K、VCRS-ATTQ++FFNFFN++PGM自ATTMK，V，QPGM自ATTMK，V，Q不←max −4：p*←argmin（θ）p←←← ←←- ≤算法1通过潜在值输入：θ〜l，对于t=l：T，l=l：Lid←最小层id阈值←分割点通过从左上到右下对ROI进行排序来获得左右两部分分别画出了视觉编码器和语言解码器，它们都由6个方块堆叠而成，N V=N L=6。我们首先通过最小化l层索引;i左位置;j右位置输出：解析树ParseTree（l，i，j）：1：如果ij 1，则2：return（i，j）第三章： end if~lp=i，…j−1 p5：下一个（l1，id）6：如果θlθ>threshold，则7：如果l==id，则8：return（i，j）9：如果结束10：return ParseTree（next，i，j）十一： end if12：LeftTreeParseTree（next，i，p*）13：RightTreeParseTree（next，p*+ 1，j）十四：return（left，right）输出NV×SvS L图3.我们的APN图像字幕任务的概述FFN、CRS-ATT和Self-ATT分别表示前馈网络、交叉注意网络和自注意网络。图4显示了字幕和VQA的解析结果。5. 图像字幕5.1. 体系结构和目标用于图像字幕的APN架构如图3所示。SV和SL分别是视觉和语言表示序列。请注意，SV是线性的。交叉熵损失：LCE=−logP（Y*），（11）其中Y*是给定图像的地面实况标题。然后，通过最大化基于强化学习（RL）的奖励来进一步训练模型[47]：RRL=EYsP（Y）[r（Ys;Y*）]，（12）其中Ys是采样的句子，r是句子级别度量，例如，CIDEr-D [58]度量，对于Ys和Y*。5.2. 数据集、设置和指标Microsoft COCO数据集[36]包括123，287张图像，每张图像都有5个标题作为标签。我们对用于离线测试的Karpathy分割（113，287/5，000/5，000个训练/验证/测试图像）和官方在线测试分割（82，783/40，504/40，775个训练/验证/测试图像）进行了实验。设置.我们通过以下步骤对字幕进行预处理。我们将所有单词改为小写，并删除出现少于5次的单词。然后我们把句子精简到最多16个单词。最后，我们得到了一个10369个单词的词汇表我们使用由Up-Down [3]提取的视觉特征编码器和解码器两者的维度是dh=512（等式11）。前馈网络的内层维数为2048。我们将所有头部的注意力矩阵乘以我们使用Adam [25]优化器，遵循[57]中的设置，预热步骤=20，000。我们首先使用交叉熵损失（等式2）。（11）），并将学习率初始化为1e-5，每5个时期衰减0.8。然后，基于RL的奖励（等式2）。（12））用于另外35个时期，其中学习速率被重置为1e-5，并且每5个时期衰减0.8批量为10。5.3. 结果消融研究。我们进行消融研究，以验证我们的两个关键组件的有效性：概率图形模型概率和分层约束。具体而言，我们设计并比较了以下消融模型。BASE：我们使用图3中所示的架构，而不使用PGM。PGM：我们将所有PGM模块合并到BASE架构中，同时我们不使用等式中的分层约束。（十）、APN：我们使用整个APN架构，其中潜在的概率由等式（1）计算。（十）、结果和分析。为了评估生成的图像字幕的质量，我们通过五个指标测量生成的字幕与地面实况字幕之间的相似性：CIDER-D [58]，BLEU [45]，METEOR [8]，[35]《礼记》云：“礼者，礼也;礼者，礼也。2204M↑↓表1. MS-COCO Karpathy分裂的消融模型的对象、属性、关系和性别方面的CHAIR评分和字幕回忆评分。和平均值越高越好和平均值越低越好。模型对象↑属性↑关系↑性别↑主席↓主席↓28岁29.22236211249. 5PGM29. 四个十三点二十三四六三。3116个8. 7APN30。911个国家。0247六十四510六六。8表2.各种方法对MS-COCO Karpathy分裂的性能。指标：B@N、M、R、C和S表示BL EU@N、METEOR、ROUGE-L、CIDER-D和SPICE。型号B@4MR C S[72]38.2285583127. 六点二十二。0[70]第三十八章. 428458 6127。八点二十二1[71]38. 九点二十八4588127。九点二十二0[73]第39话. 一百二十八九点五十九。2130六点二十二。3[31]第三十九章. 九点二十八9589126六点二十二。7[18]第三十八章. 6287584128. 3226[20]第三十八章. 九点二十九。2588129. 八点二十二4[16]第39话. 一百二十九2586131。2226第38章. 4285581128. 七点二十二0PGM38. 九点二十八9585130422 6APN39.629.2591131. 823岁0表 2 的底部部分示出了各种基线对 MS-COCOKarpathy分裂的性能与BASE相比，我们的PGM在几乎所有指标上都具有更好的性能。这表明，我们的PGM的合并稀疏假设可以提高生成的字幕的质量。APN在所有基线中实现了最佳性能，这表明所设计的分层属性可以通过强制执行树结构来约束注意力以改进模型。为了验证是否比基于自我注意的Transformer利用了更多的局部上下文，我们还评估了不同类型单词的回忆：对象、属性、关系和性别。具体来说，我们通过计算地面实况字幕中的单词是否出现在生成的字幕中来计算召回率。请注意，由于图像被分配有五个字幕，并且不同的字幕可能使用不同的单词，而我们仅在一个生成的字幕中测量这些单词的召回率。因此，一种更有区别的词，，故其复率较低。我们还利用偏差测量CHAIR [48]来验证我们的APN是否可以避免来自数据集偏差的琐碎甚至负的全局依赖性。所有这些分数都列在表1中，我们可以发现，我们的APN具有最高的回忆每种词和最低的椅子分数。这两个结果都表明，我们的APN可以利用本地上下文来生成更多的描述性的话，同时避免负的全局依赖性，以产生更少的偏见字幕。定性结果。我们在图4的前两行中可视化由算法1解析的语言和图像树。为了解析树，我们使用图3中的所有NL和NV自注意层的M。左侧和中间部分示出了生成的字幕和给定图像的树基地2205MM表3.各种方法的学习板，使用MS-COCO在线测试服务器上的单个模型。型号B@4 M R CC5 C40 C5 C40 C5 C40 C5 C40SCST [47]三十五2六十四5二十七岁0三十五5五十六3七十7一百一十四7一百一十六0LSTM-A [74]三十五6六十五2二十七岁0三十五4五十六4七十5一百一十六0118. 0上下[3]三十六968岁5二十七岁6三十六7五十七1七十二41179一百二十5RFNet [22]三十八岁。069岁。228岁2三十七2五十八2七十三。1122.9一百二十五1SGAE [70]三十七868岁728岁1三十七0五十八2七十三。1122.7一百二十五5CNM [71]三十八岁。469岁。328岁2三十七2五十八4七十三。4一百二十三8126. 0预计抵达时间[31]三十八岁。9七十228岁6三十八岁。0五十八6七十三。9122.1124 4[20]第三十七章. 368岁128岁3三十七2五十七9七十二8124 0126. 2APN38. 9七十228岁8三十八岁。0五十八7七十三。7126. 31276分别直观地，我们的APN以逐短语的方式而不是逐单词的方式生成字幕，因为我们的模型在短语级别生成新词时考虑了先前的单词（五）、例如，在图4的第一行中，当生成单词“pizza”时此外，由等式（1）计算的PGM概率矩阵M可以是：（8）包含聚类-短语的局部上下文，并且在生成标题时并入短语级局部信息。以这种方式，与仅描述“比萨饼”的BASE相比，将描述更多的细节此外，第二个案例表明APN减轻了偏差。由于此外，通过比较语言树和视觉树，我们可以看到它们有相似的结构，例如，在“比萨饼情况”中，两棵树的最左边的叶子集中于“意大利辣香肠比萨饼”，而最右边的叶子集中于“桌子”。这一观察结果表明，隐藏结构从语言域转移到视觉域。与最先进的方法进行比较。我们将我们的APN与由基于RL的奖励训练的各种最先进的模型进行[2019 -03-29][2019 - 03 - 29][2019 - 03][2019 - 03 - 03][2019 -03][2019 - 03 - 03][2019 - 03[31]和2个Transformer [16]。具体来说，GCN-LSTM、SGAE、CNM和HIP将附加的图注释合并到模型中，例如，GCN-LSTM利用从预训练的关系分类器获取的对象的成对关系。对于AoA、ORT、ETA和2Trans-former，它们都利用Transformer作为主干。请注意，我们只与具有类似于我们的规模，不与某些大型字幕，如奥斯卡[34]。表2报告了各种加标剂对Karpathy测试拆分的结果。我们可以看到，我们的APN实现了比其他最先进的模型更高的CIDEr-D分数。特别地，与基于自我注意力的模型相比，ORT和AOA，APN将密集图结构转换还有，2206M与使用由其他预先训练的解析器生成的图形数据的字幕器相比，例如，SGAE或HIP，我们的APN受分布变化的影响较小。我们还在表3中报告了我们的单个模型我们不与[44]进行比较，因为X- LAN需要更大的批量大小和更多的GPU。此外，我们计划将我们的PGM框架扩展到其他最先进的变压器，例如AoANet [20]、2Transformer [16]和X-LAN [44]。6. 视觉问题回答6.1. 架构用于VQA的APN架构在图5中示出，其中SV和SL表示图像和问题的嵌入。注意，通过从左上到右下对RoI进行排序来线性化SV。在实验中，我们设置NV=1，NL=6和NC=6。特别地，NV被设置为因为输入视觉特征是从Faster-RCNN的最后几层提取的[3，46]，这些层已经捕获了丰富的高级知识。交叉注意力的输出包括两部分，这两部分被相加，然后被投影到3,129维向量，其中3,129是最频繁答案的数量我们遵循[54]通过二进制交叉熵损失来训练我们的模型。6.2. 数据集、设置和指标VQA-v2数据集[5]包括来自MS-COCO数据集的图像，每个图像有3个问题，每个问题有10个答案它有80k训练图像和40k验证图像可离线使用。在线评估提供了test-dev和test-std分割，每个分割都有80 k个图像。对于离线评估，验证图像被分成两组，通常分别用于验证和测试。设置. 我们将图像特征、问题嵌入和多模态嵌入的维数分别设置为2，048，512和1，024在消融研究中，我们将多头注意力的隐藏大小设置为512，并且仅在VQA2.0数据集的训练集上训练我们的模型。我们将所有头部①①）。与其他最先进的模型相比，我们遵循惯例将多头注意力的隐藏大小设置为1024，并利用Visual Genome [27]中的问答对来训练我们的模型。我们应用Adam [25]优化器来训练我们的模型，并遵循MCAN [78]将学习率设置为min（2. 其中t是训练时期，并且在10个时期之后，学习率每2个时期衰减0.2。批量大小为64，训练时期为13。表4. 消融基线的VQA-v2 Val准确度评分型号是/否数量其他总体基地83岁30四十七95五十七30六十五84PGM83岁90四十八63五十七9266岁。51APN84. 九九四十九7158六十六六十七38表5. 各种模式ls的VQA-v2测试开发和测试标准准确度。型号Test-dev Test-std是/否总数其他总数DCN [42]83岁51四十六岁。61五十七2666岁。8766岁。97VCTREE [52]84.28四十七78五十九1168岁1968岁49[24]第二十四话42540460. 52700470. 35[17]第八十六章. 0953. 32604970227034[78]第85话. 8253.2660七二七零。63 7090[69]87. 27518961.0270. 8071 20APN87。4452 68611871. 14 71336.3. 结果消融研究。我们设计了与第5节类似的基线BASE、PGM和APN，以测试我们两个关键实现的有效性：PGM模块和层次约束。我们报告了不同问题类型在离线本地验证分割上的准确性，以比较这些模型的性能，如表4所示。从这个表中，我们可以看到我们的APN在所有问题类型上都达到了最高的准确率。因此，提取的稀疏和层次结构是有用的VQA模型，以获得更正确的答案。定性结果。我们使用来自图5中的解码器的所有Nc=6个自注意层的M来解析树。图4的最后两行中展示了两个示例，以演示本地上下文如何帮助模型正确地回答问题。例如，我们可以发现本地上下文，例如，”old-fashioned sink”, ”hour hand”通过这种方式，我们的APN可以准确地理解问题，然后关注图像的正确区域以获得正确的答案。BASE模型没有考虑到局部语境，可能会忽略必要的形容词，从而导致错误的答案。例如，在最后一行，BASE的答案是与最先进方法的比较我们将我们的APN与某些利用图先验或基于Transformer设计的最先进模型进行比较。它们的性能报告在表5中。请注意，我们没有将我们的方法与ERNIE-VIL [76]等大规模从这个表中，我们可以看到，我们的APN比其他人实现了更高的准确性。例如，与 VCTREE [52] （也包含稀疏树先验）或TRRNet [69]（基于Transformer构建）相比，我们的APN获得了最高的准确度。这些比较表明 APN比VCTREE更有效地利用稀疏树，并且使用稀疏和层次结构在解决VQA方面具有优势2207底座：桌子APN：一个意大利辣香肠比萨饼在一个白色的盘子在一张桌子意大利辣香肠比萨饼上表上白盘BASE：一个人和一只狗玩一个板APN：在人旁边玩木板的狗附近一跟踪某人发挥与一板这是老式水槽吗？老式水槽吗这是一个基础：无APN：有时针在几号？开？什么小时手number是的底座：8个APN：11图4.解析的树。第一行和最后两行分别是字幕和VQA的示例对于字幕，使用图3中的NV和NL层的概率。对于VQA，使用图5中的N个C层的概率。语言树和视觉树之间的相同颜色显示对齐。VQA案例中的红色/绿色表示正确/错误答案。NC×NV×输出SvSLNL×Transformer的全连接结构上的任务7. 结论在本文中，我们施加一个概率图形模型（PGM）的自注意层的Transformer器，将稀疏的假设到原来的全连接。然后，可以避免琐碎的全局依赖关系，并且可以发现和利用关键的局部上下文。此外，我们堆叠了受约束的自我注意层，并对它们施加了层次约束，通过这些约束可以隐式地解析树。通过这种方式，模型可以在端到端训练期间无监督地解析树还提供了一种树解析算法，该算法利用计算出的PGM概率来提取隐藏树。因此，我们可以计算出每个样本的隐藏结构。我们提出了两种不同的APNs图像字幕和视觉问答，和图5.VQA的APN概述FFN、CRS-ATT和Self-ATT分别表示前馈网络、交叉注意网络和自注意网络。结果表明，APN可以改善这两个任务的一致性与自我注意基于变压器。鸣谢。这项工作得到了NTU TIER 2和Monash FIT Start-up Grant的部分支持。乙状FFNFFNCRS-ATTCRS-ATTQK，V K，VFFNQFFNM MPGM自ATTK，V，Q自ATTK，V，QPGMFFNFFNMMPGM自ATTK，V，Q自ATTK，V，QPGM2208引用[1] Chris Alberti，Jeffrey Ling，Michael Collins，and DavidReitter.融合文本中检测到的对象以用于视觉问答。arXiv预印本arXiv：1908.05054，2019。1[2] Peter Anderson，Basura Fernando，Mark Johnson，andStephen Gould. Spice ：语义命题图像帽评估。在European Conference on Computer Vi-sion，第382-398页中。施普林格，2016年。5[3] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在IEEE计算机视觉和模式识别会议论文集，第6077-6086页，2018年。二五六七[4] Jacob Andreas，Marcus Rohrbach，Trevor Darrell，andDan Klein.神经模块网络。在IEEE计算机视觉和模式识别会议论文集，第39-48页，2016年。2[5] Stanislaw Antol ， Aishwarya Agrawal ， Jiasen Lu ，Margaret Mitchell，Dhruv Batra，C Lawrence Zitnick，and Devi Parikh.Vqa：可视化问答。在IEEE计算机视觉国际会议论文集，第2425- 2433页二、七[6] MohitBajaj ， LanjunWang ， andLeonidSigal.G3raphground：基于图形的语言基础。在IEEE计算机视觉国际会议论文集，第4281-4290页，2019年。2[7] 詹姆斯·贝克用于语音识别的可训练语法。美国声学学会杂志，65（S1）：S132-S132，1979。2[8] Satanjeev Banerjee和Alon Lavie。Meteor：一个自动的评估指标，与人类的判断有更好的相关性. 在acl机器翻译和/或摘要的内在和外在评估措施研讨会集，第65-72页，2005年。5[9] Peter W Battaglia，Jessica B Hamrick，Victor Bapst，Al-varo Sanchez-Gonzalez ， Vinicius Zambaldi ， MateuszMa- linowski，Andrea Tacchetti，David Raposo，AdamSantoro，Ryan Faulkner，et al.关系归纳偏差、深度学习和图网络。arXiv预印本arXiv：1806.01261，2018。第1、3条[10] 克里斯托弗 ·M· 毕晓普。模式识别和机器学习。Springer，2006. 二、四[11] 马修·M·博特维尼克行为和前额功能的层次模型。Trends in cognitive sciences，12（5）：2012[12] Danqi Chen和Christopher D Manning。一个快速准确的神经网络依存分析器。在 Proceedings of the 2014conference on empirical methods in natural languageprocessing（EMNLP），pages 740-750，2014中。2[13] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.使用深度卷积网络和全连接crf的语义图像分割arXiv预印本arXiv：1412.7062，2014。2[14] 陈世哲、秦晋、彭王、齐武。如你所愿说：的图像字幕生成的细粒度控制抽象场景图在IEEE/CVF计算机视觉和模式识别会议论文集，第9962-9971页2[15] 诺姆·乔姆斯基《语法理论面面观》，第11卷。MIT Press，2014. 1[16] Marcella Cornia ， Matteo Stefanini ， Lorenzo Baraldi ，and Rita Cucchiara. 网状记忆 Transformer 器的图像captioning。在IEEE/CVF计算机视觉和模式识别会议论文集，第10578- 10587页，2020年。一、六、七[17] Peng Ga

下载后可阅读完整内容，剩余1页未读，立即下载