没有合适的资源?快使用搜索试试~ 我知道了~
10327用于图像字幕的归一化几何感知自注意一、二、一、一、三、四、一龙腾郭静刘欣欣朱鹏姚世辰路汉青路1中国科学2中国科学院大学人工智能学院3北京科技大学4武汉大学{龙腾.郭,刘建,朱欣欣,卢华琪}@ nlpr.ia.ac.cn,S20180598@xs.ustb.edu.cn,sclu@whu.edu.cn摘要自注意网络在图像字幕中显示出了重要的应用价值。本文从两个方面对模拟退火算法进行了改进,以提高图像字幕的性能.首先,我们提出了归一化的自我注意力(NSA),SA的重新参数化,带来了SA内部的归一化的好处。虽然规范化以前只适用于SA外,我们介绍了一种新的规范化方法,并证明它是可能的和有益的执行它对SA内的隐藏激活。其次,为了弥补Transformer不能对输入对象的几何结构进行建模的缺陷,提出了一类几何感知的自注意(GSA)算法,该算法扩展了自注意算法,能够显式地、有效地考虑图像中对象之间的为了构建我们的图像字幕模型,我们将这两个模块结合起来,并将其应用于香草自我注意网络。我们广泛地评估了我们的建议MS-COCO图像字幕数据集和优越的结果相比,国家的最先进的方法。进一步实验了三个具有挑战性的任务,即:视频字幕,机器翻译,和视觉问答,显示我们的方法的通用性。1. 介绍自动生成图像的字幕,即图像字幕[20,40],已经成为计算机视觉(CV)和自然语言处理(NLP)交叉点的一个突出的研究问题。这个任务是挑战性的,因为它需要首先识别图像中的对象,它们之间的关系,最后用自然语言正确地组织和描述它们。受机器的序列到序列模型的启发在这种情况下,大多数图像字幕方法采用编码器-解码器范例,其使用深度卷积神经网络(CNN)来将输入图像编码为矢量表示,并且使用基于递归神经网络最近,自注意(SA)网络,表示为SAN,已经由[46,43]引入,以取代图像字幕中的传统RNN。自其首次引入反式异构体[32]以来,SA及其变体在广泛的CV中显示出有希望的结果[45,16,37,10,24,9]NLP [30,8,41]任务。虽然基于SAN的框架在图像字幕方面已经取得了很好的效果,但仍然存在两个问题需要解决。首先,SA易受内部协变量偏移的影响[18] I'm sorry.通常,SA被认为是一组查询和键/值对的映射。我们从另一个角度观察到,SA中注意力权重的计算可以被认为是将查询馈送到全连接层,其参数根据输入动态计算。当查询的分布由于训练期间网络参数也就是说,后续层必须不断适应新的输入分布,因此,SA可能无法有效地学习。这个问题在[ 18 ]中被称为为了消除SA内部的协变量移位问题,本文提出了一种有效的SA参数化方法--归一化自注意(NSA)。NSA对SA的隐藏活动执行一种新的归一化方法以固定其分布。通过这样做,我们可以有效地将全连接层的参数与其他层的参数解耦While Layer Normalization(LN)[4]10328被证明对于实现Transformer的收敛是非常关键的,然而,LN仅应用于SA块之外。据我们所知,还没有任何深入的探索,以找到一个合适的标准化方法内SA。我们证明了我们的NSA可以与LN合作,为基于SA的网络带来改进的泛化。SA中的另一个关键问题是它无法对输入元素之间的几何关系进行建模。vanil- la自我注意将其输入视为然而,图像中的对象(从其提取基于区域的视觉特征以用于图像加帽)固有地具有几何结构-二维空间布局和尺度/纵横比的变化。物体之间的这种固有几何关系在理解图像内容中起着非常复杂但关键的作用。将位置信息注入SA的一种常见解决方案是将绝对位置的表示添加到输入的每个元素,如在1D句子的情况下经常使用的。尽管如此,这种解决方案对于图像字幕并不能很好地工作,因为对象之间的2D几何关系我们提出了一个更有效的方法来解决上述问题:明确地将对象之间的相对几何关系合并到SA中。该模块被命名为几何感知自我注意力(GSA)。GSA将原有的注意力权重扩展为两个部分:原始的基于内容的权重和新的几何偏置,该新的几何偏置是通过相对几何关系有效地计算的,并且重要的是,相关元素的内容,即,查询或键。通过结合NSA和GSA,我们得到了一个增强的SA模块。然后,我们构建我们的归一化和几何感知的自注意网络,即NG- SAN,通过替换香草SA模块的编码器的自注意网络与建议。在MS-COCO上进行的大量实验验证了本文所提方法的有效性。 特别是,我们的NG-SAN在MS-COCO评估服务器上建立了一个新的最先进的技术,将CIDEr方面的最佳单模型结果从125.5提高到128.6。为了证明NSA的通用性,我们进一步在VATEX,WMT 2014英语到德语和VQA-v2数据集上进行了视频字幕,机器翻译和视觉问答实验在强大的基于Transformer的基线之上,我们的方法可以以微不足道的额外计算成本始终如一地提高所有任务的准确性。总之,本文的主要贡献有三个方面:• 我们提出了归一化的自我注意力,一个有效的重新参数化的自我注意力,它带来了SA内部的归一化技术的好处。• 我们引入了一类几何感知的自注意,它显式地利用对象的相对几何关系和内容来帮助图像理解• 通过结合这两个模块,并将其应用于自注意网络,我们建立了一个新的国家的最先进的MS-COCO图像字幕基准。毛皮-在视频字幕、机器翻译和视觉问答任务上的实验证明了该方法的通用性。2. 相关工作2.1. 图像字幕现有的图像字幕方法通常遵循CNN-RNN架构[36]。近年来,人们提出了各种各样的改进工作.[40]引入了软注意力和硬注意力机制,以在生成每个单词时自动关注突出对象。[13]用反刍动物解码器模仿人类抛光过程。[2]使用对象检测器来提出显着的图像区域(对象),并为每个对象提取特征向量,然后将其用作注意力机制的输入。[28]引入了自我批评奖励的学习模式。最近,[46]和[43]提出用Transformer架构取代传统的RNN,实现最先进的性能。然而,在Transformer中对自我注意模块的深入研究并没有在图像字幕的任务上进行,这也是本文的工作动机。2.2. 正常化规范化[18]已经成为构建深度神经网络的关键要素。批量归一化(BN)[18]提出控制前馈神经网络的内部激活的分布,从而减少内部协变量的移位。规范化方法的几种变体,如层规范化(LN)[4]、实例规范化(IN)[31]和组规范化[39]主要是为了减少BN中固有的小批量依赖性。在示例中,LN沿着通道维度针对每个单独的元素进行操作。IN执行类似BN的计算,但仅针对每个样本。虽然BN和LN已经在包含SA模块的网络中被采用,例如,Transformer,它们通常在SA模块外部使用。这是第一次,我们正常化的自我注意力在SA模块内部带来了正常化的好处2.3. 自注意网络为了在SA模块中引入序列排序,在Transformer中,10329QK添加到编码器和解码器中的输入元件。最近,[29]通过结合序列元件之间的相对距离来调节SA。[16]提出了一种用于对象检测的SA类模块,该模块在原始自注意权重上乘以新的关系权重,并由[15]在Transformer中使用。它的关系权重仅由边界框之间的相对坐标和大小计算。与这些工作不同的是,我们的GSA模块探索了更广泛的几何偏差,不仅涉及几何信息,而且还涉及相关对象的内容。3. 预赛3.1. 自我注意(SA)我们首先回顾了自我注意的一种基本形式,称为自注意层首先将一组N d k维向量(打包成矩阵X∈RN×dk)变换成查询Q∈RN×d、键K∈RN×d和由Q =XW Q 给 出 的 值 V∈RN×d ,K=XW K ,V=XWV,其中,投影WQ、WK和WV都是dk×dpa。矩阵任何查询之间的能量得分E密钥计算为1E=QK,(1)其中E是一个N×N权重矩阵,在其上应用softmax函数以获得值的权重。输出计算为值的加权和,如下所示:Z= Attention(Q,K,V)= Softmax(E)V。(二)3.2. 图像字幕自注意网络图1显示了自我注意力网络(SAN),这是我们的图像字幕的基线架构。与Transformer类似,该模型由图像编码器和字幕解码器组成,两者都由L层堆栈组成。每个层由一个(对于编码器层)或两个(对于解码器层)多头注意(MHA)子层组成,然后是前馈网络(FFN)。MHA子层包含h个平行的“头”,每个头对应于一个独立的缩放点积atten- tion函数。此外,一个残余的连接和层也没有-L×图1.用于图像字幕的自注意网络(SAN)的体系结构。解码器利用前一个词的嵌入和被关注的视觉特征递归地预测下一个词。继Transformer之后,我们将正弦因为图像中的区域不具有像序列那样的自然顺序,所以在4. 方法4.1. 归一化SA(NSA)本节介绍了一种自我注意力的重新参数化,它利用归一化方法来改进训练。我们首先回顾了批量归一化(BN)的公式。考虑将输入小批量x馈送到前馈层y=F(x,Θ)中,其中F是任意变换,并且Θ是要学习的参数。当x的分布在训练期间发生变化时,为了减少内部协变量偏移,BN使用整个小批次中相同通道上累积的均值和方差对x然后,我们仔细看看E-qn中的注意力权重。第二章:S= Softmax(QK)在所有子层之间使用malization。编码器的输入是基于区域的视觉= Softmax((XW)·(W<$X(见附件))。(三)从Faster-RCNN [27]对象检测器提取的特征。每个输入元素对应于图像中的对象。在将输入向量馈送到编码器之前,它们首先通过密集层,然后通过ReLU层来调整它们的维度以与编码器保持一致。Softmax添加LN添加LN前馈前馈添加LN添加LNL×Self-Attention关注添加LN线性Self-Attention+位置编码嵌入开始一个女人是10330K可以认为输入实例X∈RN×dk首先通过由WQ参数化的dk×d线性层以获得Q=XWQ∈RN×d,然后将其进一步馈送到由K=WX参数化的d × N线性层,随后进行Softmax激活以输出N个概率√1QKT/d、缩放因子√为了简单起见,省略了d。在钥匙上。 因此,我们可以重新公式化Eqn。三是全面--10331KKIJIJσIJ= 不连接层F,然后激活Softmax:S= Softmax( F( Q,Θ)),Q=XW Q,Θ=K=WX。(四)我们的实验也可以选择将K归一化为K=IN(K)。这等于归一化动态参数Θ,然而,这可能限制SA的容量。注意,基于X动态地计算参数Θ。从这个角度来看,SA可能容易受到内部协变量转移问题的影响,就像在标准前馈网络中一样。也就是说,当输入Q的分布由于训练期间网络参数的变化而移位时,层参数Θ需要持续地适应新的输入分布。因此,SA可能无法有效地学习因此,为了消除内部协变量偏移,Q的分布随时间保持固定那么Θ不必重新调整以补偿Q分布的变化。这可以通过对Q执行归一化来实现,Q=Norm(Q)。(五)现在我们来谈谈规范的实施。BN不直接适用于Norm,因为不是对数据集中的所有示例使用共享层参数,而是使用层参数Θ =W<$X<$是动态计算的与以前的作品有关。我们的归一化方法与层归一化(LN)的不同之处在于,LN沿着每个单独元素的所有通道进行归一化,而我们的方法沿着实例中的所有输入元素的每个通道进行归一化。至于IN,它通常用于2D CNN,例如。风格转换任务。据我们所知,IN还没有成功地用于语言生成任务,特别是SAN。4.2. 几何感知SA(GSA)输入对象- s之间的固有几何结构对于关于视觉信息的推理是有益的,然而,在vanilla Transformer中没有对视觉信息建模因此,我们提出了GSA改进SA模块,考虑到成对的几何关系和对象的内容信息。将两个对象i和j之间的相对几何特征表示为fg,这是边界框的相对位置和大小的4维向量:使用实例特定的X。因此,为每个实例执行标准化,Norm∫,Tl og(|xi−xj|),l og(|yi−yj|),l og(wi),l og(hi)、(8)独立地wihiwjhj设x∈RB×T×C,xbtc表示第btc个元素其中(x,y),w,h是中心坐标、宽度和我我我我其中b是样本索引,c是信道索引,并且t是附加空间维度的索引。我们将Norm实现为规范化迷你中的每个实例,盒子i的高度。我们将fg投影到一个高维表示Gij上一个完全连接(FC)层,然后是ReLU活动,使用每通道特征统计独立批处理:vation as..ΣΣxx= XBTC√-µbc,Gij=ReLU FCfg、(9)比特币2BC其中G ∈ RN×N×dg.µbc= 1ΣTTt=1XBTC21千万亿吨bct=12(x btc−µbc)。(六)然后,我们修改Eq中的能量分数。1包括G的效果,E=QK+φ(Q′,K′,G),(10)上面的归一化方法正是实例1D情况下的归一化(IN)。从查询中减去平均值可以被认为是突出查询之间的差异,并鼓励他们从不同的方面查询信息。我们在等式1中表示归一化操作 x =IN(x)。最后,我们定义了我们的归一化自我注意力,它将自我注意力重新参数化为Q=IN(Q),Z=tmax(Q<$K<$)V的S。(七)类似于BN和IN,可选的是进一步在Norm中应用通道方向的精细变换xbtc=xbtcγc+βc,其中γ、β∈Rc是可学习的尺度和移位参数。 但我们根据经验发现,,σ+10332其中φ是几何注意力函数,其输出形状为N×N的得分矩阵,并且Q′,K′∈RN×dg是以与Q,K相同的方式计算的几何查询和键,即通过投影输入X。在上面的等式中,第一项与查询和键相关,即基于内容的权重。第二项表示几何偏差,它涉及几何关系和Q′、K′的含量。我们现在讨论φ的三种选择,它们可以单独使用或组合使用。与内容无关的几何偏差。几何关系Gij传达了用于理解10333GJIJIJ国际新闻两个对象之间的关系,例如,对象i和j具有因此,我们直接将Gij投影到标量分数,1251201151= ReLU(w)),(十一)110其中wg是要学习的参数。ReLU非线性充当零修剪操作,使得仅考虑具有某些几何关系的对象之间的关系。最近提出的用于对象检测的关系网络[16]是与内容无关的几何偏差的特殊情况。与上述公式不同的是,它通过乘法和使用几何特征的正弦嵌入来融合与内容无关的几何偏差和原始注意力权重。查询相关的几何偏差。上述相同的几何偏置被应用于SA层中的所有查询-密钥然而,几何偏差更多的是不同的,这取决于相关联的查询对象是什么例如,对于查询“sea”和“ball”,它们的尺度差异在图像中通常是巨大的,并且因此它们对键的距离/位置的相同改变的敏感度因此,这两个查询的几何偏差应该被调整以匹配它们的内容。为此,我们决定动态计算不同查询的几何偏差:φ2= Q′<$G。(十二)105100950 5 10 15 20 25 30时代图2. 训练期间CIDEr评分的变化5. 图像字幕实验5.1. 实验装置MS-COCO数据集[22]。 它是图像字幕最常用的基准.我们使用“Karpathy”分割,该分割已广泛用于报告前期工作的结果。这个分割包含113,287个训练图像,每个图像有5个字幕,以及分别用于验证和测试分割的5k个图像我们遵循标准实践[35]对文本进行预处理,最终形成了9,487个单词的词汇表。我们使用Bottom-Up [2]提供的基于区域的图像特征进行训练。评估指标。我们使用标准的自动评估指标来评估图像字幕的质量,包括BLEU-1/2/3/4 [26],METEOR [7],ROUGE-[21],CIDER [33]和SPICE [1],表示为这里我们使用点积来匹配Q′与Gij,因为它B@1/2/3/4、M、R、C和S。比使用Concatenation-FC操作的计算和内存效率更高。关键点相关的几何偏差。类似于查询依赖的变体,几何偏差也可以与键的内容相关联,计算为实作详细数据。我们遵循Transformer-Base模型[32]和[43]来设置模型超参数并训练模型。具体地,输入图像特征的维数为2048。MHA模块中的潜在维度为512,头数为8。FFN模块的内部尺寸为2,048。我们将dropout应用于3 =K′G.(十三)概率为0.1。 我们使用相同的层数L用于编码器和解码器。为了训练,我们用亚当4.3. 将NSA和GSA模块应用于SAN我们首先通过替换等式中的Q来组合NSA和GSA。10与标准化的一个,Q。然后,我们使用该模块来取代SAN的编码器中的香草SA模块,这导致我们的完整模型,即归一化和几何感知的自注意网络(NG-SAN)。由于SAN的解码器是自回归的,并且具有可变长度的输入,因此NSA不适用于SAN的解码器。这是不可取的IN,因为平均值和方差统计是无意义的,当序列长度为1。优化器[19]我们使用带有预热的步进衰减时间表来改变学习速率。基本学习率被设置为min(t×10−4;3×10−4),其中t是从1开始6个epoch之后,学习率为每3个epoch衰减1/2。所有模型首先在交叉熵损失的情况下训练15个epoch,然后在额外的15个epoch中使用CIDER reward [28]如果没有特别提到,默认情况下,我们设置L=4,只规范化查询,不应用NSA中的γ,β,并使用GSA的查询依赖变量(φ1)。在测试阶段使用波束宽度为3的波束搜索。SanN-SANφ苹果φIJ我IJ10334查询键B@4 M R C S✓✓39.4 29.158.8表1.使用不同数量的自注意层L的N-SAN和SAN之间的比较。表3.N-SAN中规范化查询和密钥的比较层数 模型#参数B@4MRCS✗✗38.428.658.4128.622.61个SAN18.1M36.828.057.6123.421.8✓✗39.329.158.9130.823.0N-SAN18.1M38.228.658.2127.222.2✗✓39.229.058.8130.122.8SAN 25.5M 38.228.558.3127.1 二十二点三2个N-SAN25.5M38.928.958.6129.722.6San40.2M38.428.658.4128.622.6表4.GSA的各种变体的比较N-SAN54.9M39.329.259.1131.123.0方法B@4MRCSSan38.428.658.4128.622.6(2)“义”是“义”,“义”是“义”,“义”是“义”。LN38.528.658.3128.222.5计算注意力权重时,每个通道的容量。BN38.828.958.7129.422.82)IN和IN w/o γ、β显著优于SAN,在39.429.259.0130.723.0所有其他标准化方法。 与此同时,不含γ、β的IN 39.3 29.1 58.9130.8 23.05.2. NSA分析在本节中,我们将检查NSA模块的有效性。我们将SAN编码器中的SA模块替换为NSA,得到了一个名为归一化自注意网络(N-SAN)的模型。注意层的数量。在表1中,我们比较了相同SA层数L∈ {1,2,4,6}下N-SAN和SAN的性能。我们可以看到,模型大小随着L的增加而线性关于表演,我们有以下两点意见。1)随着L的增加,SAN和N-SAN的性能都逐渐提高,当L=6时,性能达到最佳值。然而,将L从4增加到6的性能增益不是很显著。因此,我们在后面的实验中使用L=4作为模型性能和复杂性之间的折衷。2)N-SAN在不同L下的所有指标上均优于SAN。在图2中,我们进一步绘制了训练期间单层SAN和N-SAN模型的CIDEr分数正如我们所看到的,N-SAN的曲线在大多数时间都在SAN的曲线之上。不同的归一化方法。由于我们将IN引入到NSA模块中进行归一化,因此要问的一个直观问题是我们是否可以用其他归一化方法替换IN在表2中,我们示出了使用不同的归一化方法(包括BN、LN、IN和IN)而不使用仿射变换(γ和β)的结果我们有以下几点意见。1)使用LN会略微降低性能。我们推测,这是因为LN使具有相同NOR的所有通道的激活仿射变换(γ和β)不是必需的。3)应用BN优于SAN,但不如采用IN. BN具有与IN类似的效果,通过固定查询的分布来减少内部协变量偏移然而,正如在SEC中所描述的那样4.1中的层参数Θ,因此,4依赖于实例特定的输入,更可取的是也对每个实例而不是对整个minibatch执行输入归一化。如果我们在规范化查询的同时规范化键呢?在表3中,我们比较了Eqn. 7,包括单独归一化Q,单独归一化K,以及Q和K两者我们有以下几点意见。1)规范化Q和K中的任何一个都可以提高性能。2)Q和K同时归一化与 单独 归一 化Q 的性 能非 常相 似, 均显 著高 于SAN。3)单独归一化K不如单独归一化Q。原因在于,归一化K等效于归一化等式11中的Θ。4,这可能限制SA的模型容量5.3. GSA分析在本节中,我们将检查GSA模块的有效性。 类似于N-SAN,我们用GSA代替SAN编码器中的SA模块,得到一个几何感知的自注意网络(G-SAN)模型。GSA的变体。 在表4中,我们比较了第二节中介绍的GSA模块的各种变体。四点二。“+absolute”表示在编码器的底部将每个单独对象的绝对几何信息添加到它们的输入表示。它是通过嵌入图像的几何特征,即框的中心坐标和宽度/高度,由图像的宽度/高度归一化为4个N-SAN40.2M39.329.158.9130.823.0方法#参数B@4MRCS6San54.9M38.628.658.5128.822.5San40.2M38.428.658.4128.622.6绝对40.2M38.328.558.4128.422.6内容无关40.2M39.229.158.9131.022.9表2.中使用各种归一化方法的比较基于密钥41.5M38.929.058.8129.522.8国安局查询依存41.5M39.329.259.0131.423.010335IJJJJ我IJ表5.在线MS-COCO测试服务器上发布的最先进的单一模型方法排行榜,其中c5和c40分别表示使用5和40个参考进行测试。CIDEr(C40)是排行榜上的默认排序指标。BLEU-1 BLEU-2 BLEU-3 BLEU-4 METEOR ROUGE-L CIDER-D模型C5C40C5C40C5C40C5C40C5C40C5C40C5C40上下[2]80.295.264.188.849.179.436.968.527.636.757.172.4117.9120.5CAVP [23]80.194.964.788.850.079.737.969.028.137.058.273.1121.6123.8SGAE [42]80.695.065.088.950.179.637.868.728.137.058.273.1122.7125.5VSUA [14]79.994.764.388.649.579.337.468.328.237.157.972.8123.1125.5NG-SAN(我们的)80.895.065.489.350.880.638.870.229.038.458.774.0126.3128.6正弦表示使用与[ 32 ]中的“位置编码”相同的方法我们有以下发现。1)添加绝对几何信息(这可能是因为SA从对象的绝对几何信息推断其2D布局太复杂。2)GSA的所有变体都能提高SAN的性能,显示出利用相对几何信息的优势3)“查询相关”带来最佳性能并且优于内容无关变体,证明合并相关联的查询的内容信息可以帮助推断更好的几何偏差。4)这是因为当使用依赖于密钥的几何偏置时,s-核心φ3 =K′G条件不同的密钥K',因此,表6.与MS-COCO Karpathy测试分割的最新单模型方法的比较模型#参数B@4MRCS上下[2]–36.327.756.9120.121.4CAVP [23]–38.628.358.5126.321.6SGAE [42]–39.028.458.9129.122.2VSUA [14]–38.428.558.4128.622.0ORT [15]–38.628.758.4128.322.6AoANet [17]–38.929.258.8129.822.4[43]第四十三话57.0M39.829.159.1130.9–San40.2M38.428.658.4128.622.6N-SAN40.2M39.329.158.9130.823.0G-SAN41.5M39.329.259.0131.423.0NG-SAN41.5M39.929.359.2132.123.3Gij的差异可能会被不同的在K'中执行softmax时,键的尺寸相比之下,当使用查询相关的几何偏置时,G ij的影响可以突出,因为在执行softmax时,分数条件是公共查询Q'。我们没有观察到进一步的改善时,结合这些变量到φ方程。10个。5.4. 全模型分析(NG SAN)我们现在验证NG-SAN的有效性,同时利用NSA和GSA。与最先进技术的比较。 我们将NG-SAN与最先进的方法进行比较,包括Up-Down [2],CAVP [23],SGAE[42],VSUA [14],ORT [15],[ 17 ][18][19][19][19][19]除了OR-T,AoANet和MT之外 , 所 有 方 法 都 基 于 单 层 或 多 层 长 短 期 记 忆(LSTM)网络。MT采用Transformer-Base架构,编码器和解码器均使用6个SA层,并在解码器中插入额外的ORT还采用了Transformer- Base架构,并遵循[16]对输入之间的空间关系进行建模AoANet使用SAN作为编码器,LSTM作为解码器。表6比较了每种方法的结果我们可以看到,G-SAN和N-SAN在所有指标上都优于SAN此外,NG-SAN的表现进一步G-SAN和N-SAN,证明GSA和NSA是相互兼容的。在所有指标上,NG-SAN显著优于所有其他方法,包括基于LSTM和基于SA的方法。特别地,我们将最佳CIDEr分数从130.9提高到132.1。表5进一步报告了官方测试服务器上性能最好的单一模型与已发表的方法相比,我们的单一模型在除BLEU-1之外的所有评估指标方面都显着优于所有其他方法。特别是,我们在CIDER(C40)上建立了128.6的新的最先进评分。复杂性如在表6中的“#params”列中可见对于NSA,它不需要任何参数,并且额外的归一化过程的计算开销几乎是可忽略的。虽然GSA确实需要一些额外的参数,但金额是可以确定的。GSA可以通过主流深度学习框架提供的矩阵乘法和爱因斯坦求和(einsum)运算来有效地实现。6. 扩展:其他任务的实验我们进一步研究了我们的方法在视频字幕(VC)[34],机器翻译(MT)[5]和视觉问答上的有效性和通用性。10336表7.VATEX数据集上的视频字幕结果模型B@4MRCVATEX [38]28.221.746.945.7Transformer(我们的)30.622.348.453.4+NSA31.022.749.057.1表8.机器翻译结果在newest 2014为WMT 2014 En-De数据集.模型Bleu[32]第三十二话27.30[32]第三十二话28.40Transformer-Base(Ours)27.56+NSA27.92ing(VQA)[3]任务。由于VC和MT都是序列到序列的问题,我们直接使用Transformer作为基线模型,并将其编码器中的SA模块替换为建议的NSA模块来构建我们的方法。至于VQA,我们使用MCAN [44]作为基线模型,它使用基于SAN的网络来同时编码图像和问题信息。为了构建我们的VQA方法,我们将MCAN中的所有SA模块替换为我们的GSA模块。6.1. 视频字幕我们使用最近发布的大规模视频字幕数据集VATEX[38]。它包含超过41,250个视频和412,500个英文字幕。为了与VA-TEX进行公平的比较,我们直接使用本文提供的预提取视频特征。具体来说,每个视频以25 fps的速度采样,并使用预训练的I3 D [6]模型从这些采样帧由于数据集相对较小,我们发现在编码器和解码器中使用一层是令人满意的。我们使用与图像字幕模型相同的训练配置。在表7中,我们将我们的方法与Transformer基线和VATEX模型进行了比较。我们看到Transformer的性能大大超过了VATEX,后者采用了基于LSTM的架构。我们的反式-前者+国家安全局的方法一贯改善了反式-前者的所有指标。特别地,当与Transformer相比时,我 们 的 方 法 将 CIDEr 分 数 提 高 了3.7 分 , 并 且 当 与VATEX基线相比时,将CIDEr分数显著提高了11.4分。6.2. 机器翻译我们还评估了NSA在MT任务上的表现,而Trans-former最初是针对MT任务提出的我们在广泛使用的WMT 2014英语到德语(En-De)数据集上进行了训练,该数据集由大约456万个句子对组成。该模型在newstest-2013上进行了验证,并在newstest-表9. VQA-v2数据集上的视觉问题回答准确率,与最先进的单模型方法进行比较模型test-dev测试标准[第12话]70.1870.28[11]第十一话70.2270.34MCAN [44]70.6370.90MCAN(我们的)70.5470.83+GSA2014 年 , BLEU 。 我 们 使 用 Transformer 的 著 名 的Transformer- Base [32]变体作为基线模型,它在编码器和解码器中都有6层具体来说,我们遵循fairseq-py[25]工具包。如表8所示,与Transformer-Base模型相比,NSA将BLEU评分提高了0.36分,而无需添加任何参数。6.3. 视觉问题回答我们在最常用的VQA基准测试VQA-v2 [3]上进行实验。它包含与来自MS-COCO数据集的图像相关的人类注释的问答对我们严格遵循MCAN [44]来实现我们的模型。具体来说,图像用从Faster R-CNN对象检测器中提取的区域特征表示,输入问题用GloVe词嵌入和LSTM网络进行转换表9显示了我们的方法的总体准确性以及在线测试-开发和测试-标准分割的当前最先进模型GSA将MCAN的测试标准精度从70.83提高到71.28。7. 结论本文对自注意机制提出了两点改进,即:一个归一化的自我注意力(NSA),以减少内部协变量转移问题SA,和一类几何感知的自我注意力(GSA),显式和动态计算对象之间的几何偏差,以有利于图像理解。我们在MS-COCO图像字幕数据集上进行了广泛的实验,以验证NSA,GSA及其组合的有效性我们进一步展示了我们的方法在视频字幕,机器翻译和视觉问答任务上的意义和通用性在所有任务中,简单地用我们提出的方法替换普通SA模块,就可以在强大的基线上提供可靠的改进。致谢本工作得到了国家自然科学基金(No.61922086和No.61872366)和北京市自然科学基金(No.4192059)的资助。10337引用[1] Peter Anderson,Basura Fernando,Mark Johnson,andStephen Gould. Spice:语义命题图像帽评估。第382-398页,2016年。5[2] Peter Anderson,Xiaodong He,Chris Buehler,DamienTeney,Mark Johnson,Stephen Gould,and Lei Zhang.自下而上和自上而下关注图像字幕和vqa。arXiv预印本arXiv:1707.07998,2017。二、五、七[3] Stanislaw Antol , Aishwarya Agrawal , Jiasen Lu ,Margaret Mitchell,Dhruv Batra,C Lawrence Zitnick,and Devi Parikh.Vqa:可视化问答。在IEEE计算机视觉国际会议论文集,第2425- 2433页8[4] 吉米·雷·巴,杰米·瑞安·基罗斯,杰弗里·E·辛顿.层归一化。arXiv预印本arXiv:1607.06450,2016。一、二[5] Dzmitry Bahdanau,Kyunhyun Cho,Yoshua Bengio.通过联合学习对齐和翻译的神经机器翻译。arXiv预印本arXiv:1409.0473,2014。7[6] Joao Carreira和Andrew Zisserman。你好,动作识别?新模型和动力学数据集。在IEEE计算机视觉和模式识别会议的论文集,第6299-6308页,2017年。8[7] Michael Denkowski和Alon LavieMeteor通用:针对任何目标语言的特定语言翻译评估统计机器翻译研讨会,第376-380页,2014年。5[8] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert:用于语言理解的深度双向变换器的预训练。arXiv预印本arX- iv:1810.04805,2018。1[9] 傅军,刘静,李勇,鲍勇军,严伟鹏,方志伟,卢汉青.用于语义分割的上下文去卷积网络。模式识别,第107152页,2020年。1[10] 傅军,刘静,田海杰,李勇,鲍勇军,方志伟,卢汉青.用于场景分割的双注意网络。在IEEE计算机视觉和模式识别会议论文集,第3146- 3154页1[11] Peng Gao,Zhengkai Jiang,ZhengYou,Pan Lu,StevenC. H. Hoi,Xiaogang Wang,and Hongsheng Li.视觉问答中通道内和通道间注意流的动态融合在IEEE计算机视觉和模式识别会议(CVPR)上,2019年6月。8[12] Peng Gao ,Huxuan You,Zhanpeng Zhang,XiaogangWang,and Hongsheng Li.多模态潜在交互网络的可视化问答。在IEEE计算机视觉国际会议论文集,第5825-5835页,2019年。8[13] 郭龙腾,刘静,陆世辰,陆汉青。展示、讲述和润色:反刍动物解码的图像captioning。IEEE Transactions onMultimedia,2019。2[14] 郭龙腾,刘静,唐金辉,李江伟,罗伟,卢汉青。图像字幕的语言词和视觉语义单位的对齐。在ACM MM,2019年。7[15] Simao Herdade , Armin Kappeler , Kofi Boakye , andJoao Soares.图片说明:将物体转化为文字。arXiv预印本arXiv:1906.05963,2019。三、七[16] Han Hu,Jiayuan Gu,Zheng Zhang,Jifeng Dai,andYichen Wei.用于对象检测的关系网络。在IEEE计算机视觉和模式识别会议论文集,第3588-3597页,2018年。一、三、五、七[17] Lun Huang,Wenmin Wang,Jie Chen,and Xiao-YongWei.注意注意图像字幕。在IEEE计算机视觉国际会议论文集,第4634-4643页,2019年。7[18] Sergey Ioffe和Christian Szegedy。批次标准化:通过减少内部协变量偏移来加速深度网络训练。计算机科学,2015年。一、二[19] 迪德里克·金马和吉米·巴。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。5[20] Ryan Kiros,Ruslan Salakhutdinov,and Rich Zemel.多模态神经语言模型。第31届国际机器学习会议(ICML-14),第595-603页,2014年。1[21] 林金耀。Rouge:一个用于自动评估摘要的软件包。文本摘要分支,2004年。5[22] Tsungyi Lin,Michael Maire,Serge J Belongie,JamesHays,Pietro Perona,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功