用于图像字幕的带记忆的网状Transformer

169 浏览量更新于2023-10-20 收藏 1.52MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10578MM用于图像字幕的网状存储器TransformerMarcella Cornia<$Matteo Stefanini<$Lorenzo Baraldi<$RitaCucchiara摩德纳和雷焦艾米利亚{name.surname}@ unimore.it摘要基于transformer的架构代表了序列建模任务（如机器翻译和语言理解）的最新技术水平。然而，它们的适用性，如图像字幕，仍然在很大程度上未被充分探索。为了填补这一空白，我们提出了2- a带记忆的网状Transformer图像字幕。该架构改进了图像编码和语言生成步骤：它学习图像区域之间的关系的多级表示，该多级表示结合所学习的先验知识，并且在解码阶段使用网状连接性来利用低级和高级特征。在实验上，我们研究了2个Transformer和不同的完全注意模型的性能，并与最近的模型进行了比较。当在COCO上进行测试时，我们的建议在“Karpathy”测试分割和在线测试服务器上的单个模型和集合配置中达到了新的艺术水平。我们还评估了它的性能时，描述的对象看不见的训练集。用于再现实验的训练模型和代码可在以下网址公开获得：https://github.com/aimagelab/meshed-memory-Transformer.1. 介绍图像字幕是用自然语言描述图像视觉内容的任务因此，它需要一种算法来理解和建模视觉元素和文本元素之间的关系，并生成一系列输出单词。这通常通过递归神经网络模型来解决[40，15，43，42，7]，其中语言的顺序性质是用RNN或LSTM的递归关系来建模的。添加注意力或图形结构[46]通常被添加到递归[43，12]中，以便对图像区域，单词和最终标签之间的关系进行建模[20]。这一模式一直是主流的方法*同等缴款。图1：我们的图像字幕方法利用学到的先验知识编码图像区域之间的关系。图像区域的多级编码通过网状和可学习的连接连接到语言解码器。在过去的几年里，除了卷积语言模型的研究[5]，但它并没有成为一个主要的选择。最近出现的完全注意力模型（其中放弃了循环关系以支持使用自我注意力）在集合和序列建模性能方面提供了独特的机会，如Transformer [37]和BERT [8]模型及其在检索[33]和视频理解[35]中的应用所此外，该设置提供了新颖的体系结构建模功能，因为atten- tion运算符首次以多层和可扩展的方式使用然而，图像字幕的多模态性质要求特定的架构，不同于用于理解单个模态的架构在这个前提下，我们研究了一种新颖的全方位的图像字幕方法。我们的架构从机器翻译的Transformer模型[37]中获得灵感，并结合了所有以前的图像字幕算法的两个关键创新：（i）图像区域及其关系棒球运动员是把球传给另一个球员。编码器层1解码器层N编码器层2……解码器层2编码器层N解码器层1记忆增强编码网格解码10579MM·2•M以多级方式编码，其中考虑低级和高级关系。在对这些关系进行建模时，我们的模型可以通过使用持久记忆向量来学习和编码先验知识。（ii）利用多层架构完成的句子的生成利用了低级和高级视觉关系，这是通过学习门控机制来实现的，该机制在每个阶段对多级贡献进行加权。由于这在编码器和解码器层之间创建了一个网格连接模式，我们将模型命名为Meshed-Memory Transformer简称2图1描绘了架构的模式。在实验中，我们探索了不同的完全注意力基线和最近的建议，获得了对图像字幕中完全注意力模型的理解。我们的 2 个Transformer在COCO基准上进行测试时，在“Karpathy”测试集上实现了最新的技术水平，最重要的是，它在在线测试服务器上超过了现有的建议，在已发表的算法中排名第一。捐款. 总而言之，我们的贡献如下：我们提出了一种新的全注意力图像字幕算法。我们的模型封装了一个多层编码器的图像区域和一个多层解码器，生成输出的句子。为了利用低级和高级贡献，编码层和解码层以网状结构连接，通过可学习的门控机制加权;在我们的视觉编码器中，图像区域之间的关系是利用学习到的先验知识以多级方式编码的，该先验知识是通过持久记忆向量建模的;我们表明，Transformer超越了所有以前的图像字幕的建议，实现了在线COCO评估服务器上的最新技术水平;作为补充的贡献，我们进行了实验，比较不同的完全专注的架构上的图像字幕和验证我们的模型上的新对象字幕的性能，使用最近提出的nocaps数据集。最后，为了提高可重复性并促进该领域的新研究，我们将公开所有实验的源代码和训练模型。2. 相关工作在过去的几年中，在图像字幕领域已经提出了广泛的方法集合早期的加帽方法基于生成简单模板，由对象检测器或属性预测器的输出填充[32，45]。随着深度神经网络的出现，大多数字幕技术都采用RNN作为语言模型，并使用一个或多个RNN的输出。CNN的更多层来编码视觉信息和条件语言生成[41，31，9，14]。在训练方面，虽然最初的方法是基于时间交叉熵训练，但随着强化学习的引入，已经取得了显着的成就，这使得能够使用不可微的字幕度量作为优化目标[31，29，23]。在图像编码方面，相反，已经采用单层注意机制来合并空间知识，最初来自CNN特征的网格[43，24，48]，然后使用用对象检测器提取的为了进一步改进对象及其关系的编码，Yao等.[46]已经提出在图像编码阶段使用图卷积神经网络来整合对象之间的语义和空间关系在同一条线上，Yanget al.[44]使用多模态图卷积网络来将场景图调制成视觉表示。尽管它们被广泛采用，但基于RNN的模型受到其有限的表示能力和顺序性质的影响。在卷积语言模型出现之后，也已经探索了字幕[5]，新的全注意范式[37，8，34]已经提出，并在机器翻译和语言理解任务中取得了最先进的成果同样，最近的一些方法已经研究了Transformer模型[37]到图像字幕任务。简而言之，Transformer包括由自注意和前馈层的堆栈构成的编码器，以及对字使用自注意并对最后编码器层的输出使用交叉注意的解码器Her- Dade等。[11]使用Transformer架构进行图像字幕，并在检测到的输入对象之间合并几何关系。特别是，他们计算了对象对之间的附加几何权重，用于缩放注意力权重。Li等[20]在一个模型中使用了trans-former，该模型利用了外部标注器提供的视觉信息和附加语义知识在相关的线上，Huanget al.[12]引入了注意力算子的扩展，其中最终关注的信息由上下文引导的门加权在他们的方法中，类似于transformer的编码器与LSTM解码器配对。虽然上述方法已经利用了原始的Transformer架构，但在本文中，我们设计了一种新的全注意模型，该模型改进了图像编码器和语言解码器的设计，引入了两种新的注意力算子和编码器和解码器之间连接的不同设计。3. 网状记忆Transformer我们的模型可以在概念上分为一个编码器和一个解码器模块，都由堆栈的关注层。而编码器负责处理来自输入图像的区域并设计与输入图像之间的关系。··10580MS·S掩蔽自我注意查询存储器关编码器编码器层1解码器解码器层1关键值查询关键值交叉注意关注编码器层2解码器层2…存储器值……FCFC前馈编码器层N解码器层N∙∙存储器增强编码器前馈网状解码器图2：2Transformer的架构。我们的模型是由一个堆栈的内存增强编码层，它编码多级视觉关系与先验知识，和一个堆栈的解码器层，负责生成文本令牌。为了清楚起见，未示出AddNorm操作。最好看的颜色解码器从每个编码层的输出中读取，以逐字地生成输出字幕词和图像级特征之间的所有模态内和跨模态相互作用都是通过缩放的点积注意力来建模的，而不使用递归。注意力对三个向量集合（即，查询Q、关键字K和值V的集合）进行操作，并且根据查询向量和关键字向量之间的相似性分布来在缩放点积注意力的情况下，运算符可以正式定义为. QKTΣ本身因此，自注意算子可以被看作是在输入集内编码成对关系的一种方式。当使用图像区域（或从图像区域导出的特征）作为输入集时，（）可以自然地对区域之间的成对关系进行编码，这些区域是在描述输入图像之前理解输入图像所需的。然而，自我注意力定义中的这一特点有着很大的局限性。因为一切都只依赖于成对的相似性，自我注意力不能对图像区域之间的关系的先验知识进行建模。例如，给定一个区域编码一个人，注意（Q，K，V）= softmaxDV，（1）一个编码篮球的区域，没有任何先验地推断玩家或游戏的概念其中Q是nq个查询向量的矩阵，K和V都包含nk个键和值，所有键和值都具有相同的维数，并且d是缩放因子。3.1. 内存增强编码器给定从输入图像中提取的一组图像区域X，注意力可以用于通过Transformer [37]中使用的自注意力操作来获得X的置换在这种情况下，查询、键和值是通过线性投影输入要素获得的，运算符可以定义为知识同样，给定对鸡蛋和吐司进行编码的区域，可以使用关于关系的先验知识来容易地推断图片描绘早餐的记忆增强注意力。为了克服这种自我注意力的限制，我们提出了一个记忆增强的注意力算子。在我们的建议中，用于自我关注的键和值的集合被扩展为额外的为了强调先验信息不应依赖于输入集合X，附加的键和值被实现为可以经由SGD直接更新的普通可学习向量。对于- mally，运算符定义为：S（X）=Attention（WqX，WkX，WvX），（2）其中Wq、Wk、Wv是可学习权重的矩阵。自注意算子的输出是一组新的元素M（X）=注意力（WqX，K，V）K=[WkX，Mk]V=[WvX，Mv]，（3）（X），具有与X相同的基数，其中每个元素-用这些值的加权和替换X的元素其中MkMv是可学习的矩阵，m行，I.E.输入的线性投影（Eq. 1）。值得注意的是，注意权重仅取决于输入集而[·，·]表示连接。直观地，通过添加[1]从另一个角度来看，自我注意在概念上也等同于图节点的注意编码[39]。√10581XXC ··F·−X×S可学习的键和值，通过注意，将有可能检索尚未嵌入X中的已学习知识。与此同时，我们的配方离开了一组不变的查询。就像自我注意力算子一样，我们的记忆增强注意力也可以应用于多头模式。在这种情况下，记忆增强注意力操作重复h次，对每个头部使用不同的投影矩阵Wq、Wk、Wv和不同的可学习记忆槽Mk、Mv然后，我们将来自不同头部的结果连接起来，并应用线性投影。编码层。我们把我们的记忆增强歌剧Transformer的交叉注意算子可以在句子生成期间利用所有编码层。网状交叉注意力。给定向量Y的输入序列和来自所有编码层的输出，Meshed Attention运算符通过门控交叉关注我们不是只关注最后一个编码层，而是对所有编码层执行交叉关注这些多级贡献然后在被调制之后被加在一起形式上，我们的网格化注意力算子定义为：tor到一个类似transformer的层：记忆增强注意力的输出被应用到一个由两个仿射变换组成的位置前馈层，Mmesh（X，Y）=ΣNi=1αi<$C（X<$ i，Y），（6）单个非线性，其独立地应用于集合的每个元素。从形式上讲，其中，（，）代表编码器-解码器交叉关注，其使用来自解码器的查询以及来自编码器的键和F（X）i=Uσ（VXi+b）+c，（4）σi拉吉其中Xi表示输入集合的第i个向量，并且（X）i表示输出的第i个向量。此外，σ（）是ReLU激活函数，V和U是可学习的权重矩阵，b和c是偏置项。每个这些子组件（记忆增强的注意力和位置前馈），然后在一个剩余的连接和一个层规范的操作，操作内的adminsulated。编码层的完整定义可以是C（X，Y）=Attention（WqY，WkX，WvX），（7）并且αi是具有与交叉注意力结果相同大小的权重矩阵。αi中的权重调制每个编码层的单个贡献以及不同层之间的相对重要性这些是通过测量用每个编码层计算的交叉注意力的结果与输入查询之间的相关性来计算的，如下所示：最后写成：Z=AddNorm（M（X））.αi=σ WiΣΣY，C（Xi，Y）Σ+bi、（8）X=AddNorm（F（Z）），（5）其中AddNorm指示残余连接和层归一化的组成。全编码器。给定上述结构，多个编码层按顺序堆叠，使得第i层消耗由层i1计算的输出集。这相当于创建图像区域之间的关系的多级编码，其中更高的编码层可以最终使用先验知识来利用和细化已经由先前层识别的关系因此，N个编码层的堆叠将产生多个l ev eloutput=（X= 1，...，X<$ N），从输出中获得每个编码层。3.2. 网状解码器我们的解码器是以先前生成的单词和区域编码为条件的在这里，我们利用输入图像的上述多级表示，同时仍然构建多层结构。为此，我们设计了一个网状的注意力算子，其中[·，·]表示连接，σ是sigmoid activa。其中，Wi为2dd权重矩阵，并且bi是可学习的偏置向量。解码层的架构。至于编码层，我们以多头方式应用我们的网状注意力。由于单词的预测应该仅取决于先前预测的单词，所以解码器层包括掩蔽的自注意操作，其将从其输入序列Y的第t个元素导出的查询与从左手子序列获得的键和值连接，即，Y≤t。此外，解码器层包含位置式前馈层（如在等式（1）中）。4），并且所有组件都封装在AddNorm操作中。解码器层的最终结构可以写为：Z=AddNorm（Mmesh（X，AddNorm（Smask（Y）Y=AddNorm（F（Z）），（9）其中Y是向量的输入序列，掩码表示随着时间的推移被掩蔽的自我关注最后，我们的解码器将多个解码器层堆叠在一起，有助于改进对文本输入的理解和下一个标记的总的来说，解码器将字作为输入10582向量，并且其输出序列的第t个元素在时间t +1对单词的预测进行编码，条件是Y≤t。在进行线性投影和softmax操作之后，这对字典中的单词进行概率编码。3.3. 培训详情遵循图像字幕的标准实践[29，31，4]，我们使用单词级交叉熵损失（XE）预训练我们的模型，并使用强化学习微调序列生成。当使用XE进行训练时，模型被训练以预测给定先前地面真实字的下一个令牌;在这种情况下，用于解码器的输入序列是立即可用的，并且整个输出序列的计算可以在单次通过中完成，从而使所有操作在时间上并行化。当使用强化学习进行训练时，我们在使用波束搜索[4]采样的序列上采用自临界序列训练方法[31]的变体：为了解码，我们在每个时间步长从解码器概率分布中采样前k个字，并且总是保持具有最高概率的前k个序列。由于在该步骤中序列解码是迭代的，因此不能利用上述随时间的并行性然而，用于在时间t计算输出令牌的中间键和值可以在下一次迭代中重用。根据以前的工作[4]，我们使用CIDEr-D评分作为奖励，因为它与人类判断[38]相关。我们使用奖励的平均值来基线奖励，而不是像以前的方法[31，4]那样进行贪婪解码，因为我们发现它稍微提高了最终性能。因此，一个样本的最终梯度表达式为训练我们还评估了模型的COCO在线测试服务器上，由40 775张图像，其中一个符号是不公开的。无上限。该数据集由15100张来自Open Images [19]验证和测试集的图像组成，每张图像都标注了11个人工生成的标题。图像分为验证和测试分割，分别由4 500和10 600个元素组成。根据与COCO的接近程度，图像可以进一步分为三个子集，即域内图像、近域图像和域外图像。在这种设置下，我们使用COCO作为训练数据，并在nocaps测试服务器上评估我们的结果4.2.实验设置指标. 根据标准评估协议，我们采用全套字幕指标：[26]，[27]，[28]，[29]，实作详细数据。为了表示图像区域，我们使用FasterR-CNN [30]，ResNet-101 [10]在Visual Genome数据集[18，4]上进行微调，从而获得每个区域的2048维特征向量。为了表示单词，我们使用one-hot向量并将它们线性投影到模型d的输入维度。我们还采用正弦位置编码[37]来表示序列内的单词位置，并在第一解码层之前对两个嵌入求和。在我们的模型中，我们将每层的维数d设置为512，头数设置为8，记忆向量的数量设置为40。我们采用保留概率为0的dropout。9.每层后关注和前馈。在我们的网状注意力操作符（方程式。6），我们用一个缩放因子N。 XE的预培训如下所示-1Σk -是的i将[37]的学习率调度策略降低为θL（θ）=−ki=1（r（w）−b）<$θlogp（w）（十）预热等于10000次迭代。然后，在CIDEr-D优化时，我们使用5×10−6的固定学习率。我们其中wi是t he i-t。h是波束中的权重，r（·）是权重函数，b=ir（wi）/k是基线，计算为采样序列获得的回报的平均值序列在预测时间，我们使用波束搜索再次解码，并且在最后一个波束中的序列中保持具有最高预测概率的序列。4. 实验4.1. 数据集我们首先在COCO数据集[22]上评估我们的模型，这是最常用的图像captioning测试平台。然后，我们通过对最近提出的nocaps数据集[1]进行测试来评估新对象的字幕。可可该数据集包含超过120，000张图像，每张图像都有5个不同的标题注释。我们遵循Karpathy等人提供的分裂。[15]，其中5000张图像用于验证，5000张用于测试，其余的用于测试。使用Adam优化器训练所有模型[17]，批量大小50，光束尺寸等于5。新颖的物体字幕。为了在无大写数据集上训练模型，我们用GloVe单词嵌入来表示单词，而不是使用独热向量[28]。两个完全-在第一解码层之前和最后解码层之后添加连接层以在GloVe维度和d在最终的softmax之前，我们乘以单词embeddings的转置。所有其他实施细节保持不变。有关模型架构和培训的更多详细信息，请参见补充材料。4.3. 消融研究Transformer的性能。在以前的作品中，Transformer模型仅在其六层原始配置中应用于字幕，其连接结构已成功用于单模态sce。我105832B-1 B-4M R C STransformer（如[37]中的6层）79.1 36.2 27.7 56.9 121.8 20.9Transformer（w/3 layers）79.6 36.5 27.8 57.0 123.6 21.1B-1 B-4 R C STransformer（w/AoA [12]）80.338.8 29.0 58.4 129.1 22.7RFNet [13]79.136.527.757.3121.921.22个1比1MTransformer（w/o mem.）80.5 38.2 28.9 58.2 128.4 22.2[47]第四十七话-38.228.458.3127.221.92个1比1MTransformer 80.338.2 28.9 58.2 129.2 22.5GCN-LSTM [46]80.538.228.558.3127.622.02MTransformer（w/o mem.）80.4 38.3 29.0 58.2 129.4 22.6SGAE [44]80.838.428.458.6127.822.12MTransformer（w/softmax）80.338.4 29.1 58.3 130.3 22.5ORT [11]80.538.628.758.4128.322.62MTransformer 80.839.1 29.2 58.6 131.2 22.6AoANet [12]80.238.929.258.8129.822.4表1：消融研究以及与基于Transformer的替代方案的比较。所有结果都在REIN-FORCE优化阶段后报告。narios喜欢机器翻译。由于我们推测封顶需要特定的体系结构，我们将原始Transformer的变体与我们的方法进行比较。首先，我们研究了编码层和解码层的数目对字幕性能的影响。从表1中可以看出，原始的Transformer（六层）达到121。8 CIDER，略优于Up-Down方法[4]，该方法使用具有附加注意力的双层递归语言模型，并包括全局特征向量（120. 1CIDER）。通过改变层数，我们观察到当使用三个编码层和三个解码层时，性能显著提高，这导致一百二十三6CIDER。我们假设这是由于减少了训练集的大小，以及字幕中句子的语义复杂度低于语言的理解任务。根据这一发现，所有后续实验将使用三层。注意基线。我们还评估了一个最近的建议，可以直接适用于Transformer作为替代标准的点产品atten- tion。具体而言，我们评估了在编码器和解码器中向关注层添加值得注意的是，在[12]中，这是用具有注意力的递归语言模型完成的，但该方法足够通用，可以应用于任何注意力阶段。在这种情况下，点积注意力的结果与初始查询连接并馈送到两个完全连接的层以获得信息向量和S形注意力门，然后将两个向量相乘在一起。最终结果被用作标准点积注意力的替代品。对具有三层的标准Transformer的这一添加导致129。1CIDEr（表1），因此也支持该方法在基于Transformer的模型中的有用性。网状连接。然后，我们评估编码器和解码器层之间的网状连接的作用。在表1中，我们首先介绍我们的方法的简化版本，其中第i个解码器层仅连接到对应的第i个编码器层（1对1），而不是连接到所有编码器.利用这种1对1的连接-M2Transformer80.839.129.258.6131.2 22.6表2：在单模型设置中，与“Karpathy”测试分裂的最新技术水平的比较B-1 B-4 R C S2个模型GCN-LSTM [46]80.938.328.658.5128.722.1SGAE [44]81.039.028.458.9129.122.2[20]第二十话81.539.928.959.0127.622.6GCN-LSTM+HIP [47]-39.128.959.2130.622.3MTransformer81.639.8 29.559.2133.223.14种型号SCST [31]-35.427.156.6117.5-RFNet [13]80.437.928.358.3125.721.7AoANet [12]81.640.229.359.4132.022.82MTransformer82.040.529.759.5134.523.5表3：使用模型的集合，与关于“Karpathy”测试分割的现有技术的比较关于使用最后一个编码器层的输出，如在标准Transformer（123. 6 CIDER vs 129. 2CIDER），从而确认利用图像区域的多级编码是有益的。当我们转而使用我们的网状连接模式时，该模式利用在所有级别编码的关系并使用S形门控对其进行加权，我们观察到性能从129进一步提高。2 CIDER至131。2CIDER。这意味着总的改进为7。与标准Transformer相关的6分此外，我们的完整模型的结果是优于使用AoA获得的。作为用于对来自不同编码器层的贡献进行加权的S形门控方法的替代方案（等式1）。6），我们还使用softmax门控方案进行测试。在这种情况下，应用于每个编码器的逐元素sigmoid被替换为αi的行上的softmax操作。使用该替代方案带来大约1个CIDER点的减少，其基础在于，利用来自所有编码层的贡献的加权和的全部潜力是有益的，而不是强制其中一个层被给予比其他层更重要的峰值分布。持久记忆的作用我们评估了一个人的作用-在1对1配置和在fl配置中的理论向量SCST [31]-34.226.755.7114.0-上下[4]79.836.327.756.9120.121.410584BLEU-1BLEU-2BLEU-3BLEU-4流星胭脂苹果酒C5C40C5C40C5C40C5C40C5C40C5C40C5C40SCST [31]78.193.761.986.047.075.935.264.527.035.556.370.7114.7116.7上下[4]80.295.264.188.849.179.436.968.527.636.757.172.4117.9120.5RDN [16]80.295.3----37.369.528.137.857.473.3121.2125.2RFNet [13]80.495.064.989.350.180.138.069.228.237.258.273.1122.9125.1GCN-LSTM [46]80.895.965.589.350.880.338.769.728.537.658.573.4125.3126.5SGAE [44]81.095.365.689.550.780.438.569.728.237.258.673.6123.8126.5[20]第二十话81.295.065.589.050.980.438.970.228.638.058.673.9122.1124.4AoANet [12]81.095.065.889.651.481.339.471.229.138.558.974.5126.9129.6GCN-LSTM+HIP [47]81.695.966.290.451.581.639.371.028.838.159.074.1127.9130.22MTransformer 81.696.066.490.851.882.739.772.829.439.059.274.8129.3132.1表4：MS-COCO在线测试服务器上各种方法的排行榜具有网状连接的NAL配置。从表1可以看出，去除记忆向量在两个连接性设置中带来约1个CIDER点的性能降低，从而确认了在编码图像区域时利用先验学习知识的有用性。关于记忆向量数量的进一步实验可以在补充材料中找到。4.4. 与最新技术水平的比较我们比较我们的方法与最近的几个建议的图像字幕的性能。我们比较的模型包括SCST [31]和Up-Down[4]，它们分别使用对特征网格的关注和对区域的关注。此外，我们与RFNet [13]兼容，它使用递归融合网络来合并不同的CNN特征; GCN-LSTM [46]，通过Graph CNN利用图像区域之间的成对关系; SGAE [44]，它使用自动编码场景图。此外，我们与原始的AoANet [12]方法进行了比较最后，我们与ORT [11]进行了比较，ORT使用普通的Transformer，并在区域编码器中使用检测之间的成对距离对注意力分数进行加权我们评估我们的方法对COCO和在线COCO评估服务器上单一型号。在表2中，我们报告了我们的方法与上述竞争者相比的性能，使用从单个模型预测的字幕和对CIDEr-D评分的优化。可以观察到，我们的方法在BLEU-4，METEOR和CIDER方面超过了所有其他方法，同时在BLEU- 1和SPICE上具有最佳性能，并且在ROUGE上特别是，它将CIDEr的当前技术水平提高了1.4个点。集合模型。按照惯例[31，12]GT：一只猫看着镜子里的自己。Transformer：一只猫坐在窗台上向外看。M2Transformer：一只猫看着镜子里的自己。GT：一盘食物，包括鸡蛋和吐司，放在石头栏杆旁边的桌子上。Transformer：盘子里的一组食物M2Transformer：一盘早餐食物，有鸡蛋和吐司。GT：一辆卡车停在高高的干草堆附近。Transformer：一辆卡车停在田野的草地上。M2Transformer：一辆绿色卡车停在一堆干草旁边图3：我们的方法和原始Transformer模型生成的标题示例，以及相应的地面实况。我们模型的多个独立训练实例的能力分布。在表3中，我们使用了两个和四个模型的集合，从不同的随机种子训练。值得注意的是，当使用四个模型时，我们的方法根据所有指标实现了最佳性能，相对于当前技术水平增加了2.5个CIDER点[12]。在线评价。最后，我们还报告了我们的方法在在线COCO测试服务器2上的性能。在这种情况下，我们使用前面描述的四个模型的集合，在“Karpathy”训练分割上训练评估是在COCO测试分割上进行的，其地面实况注释尚未公开。表4中报告了与排行榜中表现最好的方法相比的结果为了比较的公平性，他们还使用了系综配置。可以看出，我们的方法在所有指标上都超越了当前的最先进水平，相对于最佳执行者，实现了1.4CIDER点的进步建立一个整体的模型，我们还报告每-当平均输出概率时，我们的方法的形式2https://competitions.codalab.org/competitions/322110585MM图4：三个示例标题的注意力状态的可视化。对于每个生成的单词，我们显示了关注的图像区域，用红色勾勒出具有最大输出属性的区域。域内域外总体CIDEr 香料 CIDER SPICECIDER SPICENBT + CBS [1]62.110.162.48.960.29.5[1]第一次世界大战80.012.066.49.773.111.1Transformer78.011.029.77.854.79.82MTransformer 85.712.138.98.964.511.1Transformer + CBS74.311.062.59.266.910.32MTransformer + CBS81.212.069.410.075.011.4表5：nocaps验证集上的性能，用于域内和域外字幕。4.5. 描述新奇的物体我们还评估了我们的方法在处理包含在训练集中看不到的对象类别的图像时的性能。我们与Up-Down [4]和Neural Baby Talk [25]进行了比较，当使用GloVe单词嵌入和约束波束搜索（CBS）[3]来解决词汇表外单词的生成并约束对象检测器检测到的类别的存在时。为了与我们的模型进行比较，我们使用[1]中描述的过程的简化实现来提取约束，而不使用单词短语。结果如表5所示：可以看出，原始的Transformer在域内和域外类别上的性能明显低于Up-Down，而我们的方法可以适当地处理新类别，在域内和域外图像中超过Up-Down基线。正如预期的那样，CBS的使用大大提高了性能，特别是在域外字幕上。4.6. 定性结果和可视化图3给出了我们的模型和原始Transformer生成的定性结果。平均而言，我们的模型能够生成更准确和描述性的标题，集成细粒度的细节和对象关系。最后，为了更好地理解我们的2Transformer的有效性，我们研究了检测到的区域对模型输出的贡献与基于递归的字幕模型（其中可以很容易地提取区域上的注意力权重）不同，在我们的模型中，一个区域相对于输出的贡献由更复杂的非线性依赖关系给出。因此，我们回到归因方法：具体地说，我们采用积分梯度法[36]，它近似于给定输入的梯度积分。结果如图4所示，我们观察到，我们的方法正确地将图像区域与单词联系起来，而且存在对象细节和小检测。补充材料中包含了更多的可视化内容。5. 结论我们提出了2Transformer，一种新的基于Transformer的图像字幕体系结构.我们的模型包括一个区域编码方法，利用先验知识，通过记忆向量和编码和解码模块之间值得注意的是，这种连接模式对于其他完全关注的架构来说是前所未有的。实验结果表明，我们的方法实现了一个新的国家的最先进的COCO，排名第一的在线排行榜。最后，我们通过烧蚀研究验证了我们模型的组成部分，以及它在描述新物体时的性能。确认这项工作得到了意大利教育部（MIUR）资助的“IDEHA -遗产地区数据评估创新”项目（PON ARS 01 00421）的部分支持。我们还感谢NVIDIA人工智能技术中心（EMEA）提供的支持和计算资源。10586引用[1] Harsh Agrawal ， Karan Desai ， Xinlei Chen ， RishabhJain，Dhruv Batra，Devi Parikh，Stefan Lee，and PeterAnderson. nocaps：按比例绘制新对象字幕。在2019年国际计算机视觉会议上[2] Peter Anderson，Basura Fernando，Mark Johnson，andStephen Gould. SPICE：语义命题图像帽评价.2016年欧洲计算机视觉会议论文集[3] Peter Anderson，Basura Fernando，Mark Johnson，andStephen Gould.带约束波束搜索的引导开放词汇图像字幕。在 Proceedings of the Conference on EmpiricalMethods in Natural Language Processing，2017。[4] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在IEEE计算机视觉和模式识别会议集，2018年。[5] Jyoti Aneja，Aditya Deshpande和Alexander G Schwing。卷积图像字幕。在IEEE计算机视觉和模式识别会议论文集，2018。[6] Satanjeev Banerjee和Alon Lavie。Meteor：一个自动的评估指标，与人类的判断有更好的相关性 .ACLWorkshoponIntrinsicandExtrinsicEvaluationMeasuresforMachineTranslationand/orSummarization，2005。[7] 玛塞拉·科尼亚，洛伦佐·巴拉迪，丽塔·库奇亚拉.显示、控制和告诉：一个生成可控和接地字幕的框架。在IEEE计算机视觉和模式识别会议论文集，2019。[8] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。BERT：用于语言理解的深度双向转换器的预训练。arXiv预印本arXiv：1810.04805，2018。[9] JeffreyDonahue 、 LisaAnneHendricks 、 SergioGuadarrama、MarcusRohrbach、SubhashiniVenugopalan、Kate Saenko和Trevor Darrell。用于视觉识别和描述的长期递归卷积网络。IEEE计算机视觉与模式识别会议论文集，2015年。[10] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议上，2016年。[11] Simao Herdade ， Armin Kappeler ， Kofi Boakye ， andJoao Soares.图片说明：将物体转化为文字。在神经信息处理系统的进展，2019。[12] Lun Huang，Wenmin Wang，Jie Chen，and Xiao-YongWei.注意力集中在图像字幕上。在2019年国际计算机视觉会议上[13] Wenhao Jiang，Lin Ma，Yu-Gang Jiang，Wei Liu，andTong Zhang.用于图像字幕的递归融合网络。在欧洲计算机视觉会议论文集，2018年。[14] 贾斯汀·约翰逊安德烈·卡帕西和李飞飞。DenseCap：用于密集覆盖的全卷积定位网络。IEEE计算机视觉与模式识别会议论文集，2016年。[15] Andrej Karpathy和李飞飞。用于生成图像描述的深度视觉语义 IEEE计算机视觉与模式识别会议论文集，2015年。[16] Lei Ke，Wenjie Pei，Ruiyu Li，Xiaoyong Shen，andYu-Wing Tai.用于图像字幕的反射解码网络。在2019年国际计算机视觉会议上[17] Diederik P Kingma和Jimmy Ba。亚当：一种随机优化方法。在2015年学习代表国际会议的会议记录中[18] Ranjay Krishna 、 Yuke Zhu 、 Oliver G

下载后可阅读完整内容，剩余1页未读，立即下载