视觉-语言任务中语言的重要性及有效表征的研究

160 浏览量更新于2023-10-13 收藏 976KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1语言功能很重要：视觉语言任务的有效语言表征Andrea Burns Reuben Tan Kate Saenko Stan Scaroff Bryan A.波士顿大学{aburns4，rxtan，saenko，sclaroff，bplum}@ bu.edu摘要在视觉-语言（VL）任务中，语言和视觉特征不应该被同等对待吗？许多VL方法将语言组件视为事后的想法，使用简单的语言模型，这些语言模型要么建立在纯文本数据上训练的固定单词嵌入上，要么从头开始学习。我们认为语言特征值得更多的关注，并在五个常见的VL任务上进行实验，比较不同的词嵌入，语言模型和嵌入增强步骤：图像-句子检索、图像字幕、视觉问题回答、短语基础和文本到剪辑检索。我们的实验提供了一些惊人的结果;平均嵌入语言模型在检索式任务上优于LSTM;诸如BERT之类的最先进的表示在视觉语言任务上表现相对较差。从这个全面的一组实验中，我们提出了一组最佳实践，将语言组件的VL任务。为了进一步提升语言特征，我们还表明，视觉语言问题中的知识可以跨任务转移，以通过多任务训练获得表现。这种多任务训练被应用于新的面向图的视觉语言嵌入（ GrOVLE ），我们使用 WordNet 和从Visual Genome构建的原始视觉语言图从Word2Vec改编，提供了即用型视觉语言嵌入：http://ai.bu.edu/grovle。1. 介绍近年来，已经提出了许多用于视觉语言任务的方法，例如图像和视频字幕[12，27，47，48，52]、多模态检索[16，24，20]、多模态检索[16，26，27]、多模态检索[16，27]、多模态检索[16，28]、多模态检索[16，29]49，37，46，51]，短语接地[42，19，41，43]，和vi-常见问题解答[14，2，56，44，54]。这些模型的语言表示倾向于通过平均词嵌入（例如，[49，41，40，24]），将表示每个单词的特征馈送到LSTM（例如，[43，52，51]），并且使用单词级或短语级注意力模型（例如，[1、11、33、5、30]）。嵌入这个词用在图1.视觉语言任务的语言特征应该如何构建？我们提供了一个并排比较词级和词级嵌入，简单和更复杂的语言模型，以及微调和后处理向量如何影响性能。这些任务包括对词汇表中的每个单词进行简单的独热编码（例如，[14，48，49]），预训练的密集向量表示，如Word2Vec [35]或GloVe [38]，以及建立在这些密集表示之上的Fisher向量（例如，[24、40、49]）。虽然有更现代的嵌入，如FastText [4]，ELMo [39]和BERT [9]，在情感分析和问答等语言任务上表现出显着的性能改进，但许多视觉语言方法仍然使用更过时的特征表示。虽然有孤立的情况下，这些语言模型和功能的选择是比较相同的任务模型（例如，[49，17]），据我们所知，不存在全面的比较。为了解决这种忽视语言特征探索的问题我们使用从头开始，Word 2 Vec[35]，WordNet改装的Word 2 Vec [13]，Fast- Text [4]，VisualWord 2 Vec [26]，HGLMM（300-D，6 K- D）[24]，InferSent [8]和BERT [9]表示以及新的嵌入GrOVLE，对五个视觉语言任务进行实验：图像-句子检索、可视问题回答、短语基础、图像字幕和文本到剪辑检索。我们的目标是为视觉语言应用提供洞察力，74747475阳离子基于图1所示的广泛实验的不同选择。我们的研究结果显示了如何在视觉语言工作中做出例如，我们发现使用忽略单词排序的平均嵌入语言模型往往比LSTM表现得更好这表明LSTM过度拟合了它所训练的任务。然而，当从头开始训练单词嵌入时，LSTM表现最好。这个结果很可能是LSTM学习的产物，以预测下一个给定的单词，学习上下文。预训练的词向量可能已经提供了一些上下文信息的语义，因为这是它们通常的训练方式。所有实验结果的总结见图2。依赖于仅在大型文本语料库上训练的词嵌入例如，在Word2Vec中，单词虽然这是一个微妙的差异，但它可能会影响诸如图像字幕之类的任务，其中在描述视觉场景时，当使用纯文本信息时，这些细微差别无法很好地捕捉。为了解决这个问题，我们引入了面向图的视觉语言嵌入，GrOVLE，这是专门为视觉语言任务学习的。在构建GrOVLE时，我们考虑了用于描述视觉数据时单词之间关系的差异。我们通过使用Visual Genome数据集[28]提取单词之间的语义关系来引入一个新的关系图，该数据集用实体、其属性及其与图像中其他实体的关系的密集描述进行注释我们使用Word-Net和Visual Genome图来适应Word 2 Vec，通过Faruqui等人定义的改造过程。[13 ]第10段。最后，除了查看每个任务的嵌入性能外，我们还询问：嵌入可以跨视觉语言任务通用化吗？受PackNet[34]等多任务训练策略的启发，我们在实验中对所有视觉语言任务进行GrOVLE嵌入训练。单词表示在任务特定知识的情况下变得更加强大，因为多任务GrOVLE最终优于其单任务训练版本，成为五个任务中的领先嵌入。请注意，与PackNet不同，GrOVLE直接对单词嵌入而不是模型权重进行操作下面我们总结一下我们的主要贡献：• 全面的实验详尽地比较了五种常见视觉语言任务中不同的单词表征、语言模型以及预训练和适应步骤，为未来的工作提供了最佳实践。我们的发现总结见图2• GrOVLE，一个公开可用的词嵌入，图2.平均等级是使用每个任务的最佳执行模型定义的。方差被定义为微调语言模型选项的最佳和最差性能之间的平均差异（例如，平均嵌入+ ft，自我注意+ ft，LSTM+ ft）。注意方差等级是从最低到最高排列的，例如从头开始的嵌入具有最高的方差。如果每个任务的顶部对于Infersent和BERT操作的任务，它们将落在平均排名的第7和第8位之间;平均方差为N/A。注意，没有为多任务训练的GrOVLE提供平均方差，因为它是用每个任务的最佳模型创建的。接受过视觉语言任务的专门训练。• 通过使用多任务训练，深入了解单词嵌入在五个视觉语言任务中2. 相关工作据我们所知，VL任务中预训练嵌入的效果以前从未被系统地比较过。视觉信息已经以有限的方式用于改善词嵌入，例如简单地连接视觉特征[22]或专注于抽象场景[26]。Lazaridou等人[29]侧重于通过鼓励视觉和语言嵌入之间的对齐来描述一阶语义关系，用于描述对象的预定义名词集。通过在学习过程中加入额外的约束[55]或作为后处理步骤[13]，单词嵌入也得到了改进这些模型的重点是提高一些一般意义上的词相似性。 GrOVLE的不同之处在于它是直接优化工作在各种视觉语言的任务。我们专注于10种表示如何在模型和训练选择之间进行比较，其中一些被认为是语言任务的最新技术，例如最近引入的BERT [9]。一些视觉语言方法也试图改善他们的语言模型，而不是单词嵌入，作为提高性能的一种方式。这些方法包括在预训练的单词嵌入之上构建Fisher向量[24，31]，约束粗到细的单词排序[10，46]，或者执行共指解析，1http://ai.bu.edu/grovle7476图3.我们实验中使用的语言模型变体包括：嵌入的平均池（MP），然后传递到全连接层（FC），LSTM一次馈送单个嵌入，然后是全连接层，或者自注意力模型，在传递到一对全连接层之前构建加权上下文和（WS）。确定实体之间的附加约束（[50，41，25，6]）。注意力机制也已成为提高性能的一种流行方式：在传递到语言生成模型之前，通过使用LSTM [1]或多层感知器[52，11]学习单词的权重，在图像字幕中使用单词级注意力双注意力[37]也被用于使用前馈神经网络来处理VQA中的问题。这些方法可以与这项工作结合使用，以进一步提高性能。3. 语言模型我们提出了三种语言模型选项，我们提供了10种不同嵌入中的8种的实验结果，以确定哪种语言模型最适合每个任务和每个嵌入（句子级嵌入不能被纳入其中的一些架构）。在图3中，显示了平均嵌入、自注意和LSTM语言架构。平均嵌入模型由平均池化嵌入组成，形成给定句子或短语中的所有单词wi（总共n个单词）的单个表示。然后将样品更复杂的语言架构是LSTM;单词表示单独通过LSTM单元，每个都产生自己的隐藏状态。LSTM通常被认为是一种“更好”的架构选择，它对句子中单词之间的关系进行建模，因为它维护了单词的我们后来证明这个假设不成立在所有视觉语言任务中都是如此。最后，我们比较了与平均嵌入架构密切相关的自注意模型主要区别在于池化层，它现在包括两步首先，上下文向量C与给定样本的W中的所有词嵌入我们的实验使用平均嵌入作为上下文。它通过一个完全连接的层，该层应用Softmax为句子中的每个单词给出上下文“分数”。接下来，取这些权重和来自W的原始单词嵌入的内积，以产生上下文加权和，然后将其传递到一对完全连接的层。4. 实验装置在本节中，我们将提供每个视觉语言任务的详细信息数据集和视觉语言任务模型在补充材料中描述，但在表1中引用。我们将实验分为三个部分：预训练嵌入（第5节）、自适应嵌入（第6节）和多任务训练嵌入（第7节）。4.1. 比较的任务和指标图像句子检索. 目标是检索给定图像的相关句子，或者检索给定句子的相关图像。它使用Recall@K进行评估，其中K=[1，5，10]，产生六个数字来衡量模型的性能（三个用于图像到句子，三个用于图像到图像）。我们报告这六个数字的平均值所有六个数字都可以在补充材料中找到。短语接地。在短语接地的任务是找到一个短语的位置给定的图像是已知的存在in.性能是使用准确度来衡量的，其中如果框与地面实况框具有至少0.5的交集（IOU），则认为该框成功定位。文本到剪辑。对于文本到剪辑，目标是定位时间区域（即，视频剪辑）。性能使用Recall@K（其中K=[1，5]）和查询短语的预测时间位置与其真实时间段的平均IOU的混合来测量我们使用Hen- dricks等人提供的评估代码。[16]在我们的实验中我们将这三个指标的平均值报告为总体得分;所有指标都在补充材料中报告。图像字幕。图像字幕的目标是产生自然语言，该自然语言用一个结构良好的句子。针对每个图像的一组参考句子来评估所产生的字幕我们报告了常用的评估指标BLEU-4，补充材料中提供了CIDER和METEOR结果视觉问答。在VQA [2]中，目标是在给定图像和问题的情况下生成自由形式的自然语言答案。这个开放式任务包括三种类型的问题：是/否，数量和其他。该accu-模型的有效性由正确回答的问题的数量确定。我们评估测试开发集。74775. 预训练词嵌入我们使用预训练的词嵌入开始对语言特征选择进行详尽的搜索。这些技术提供了一个初步的比较，这些技术不使用后处理的形式来适应嵌入，而是学习具有不同模型架构和训练对象的向量。 Word2Vec 、FastText、InferSent和BERT在讨论结果之前进行了重新查看。5.1. 词级表示法Word2Vec[35]是自发布以来使用最广泛的单词嵌入之一它建立在[3]中介绍的概率前馈神经网络语言模型输入由V中取1向量定义，其中V是词汇表大小。投影矩阵共享之间的所有单词和隐藏层和输出层之间的计算复杂性降低使用分层Softmax词汇表是表示为哈夫曼二叉树。Word2Vec引入了NNLM模型的两个变体，主要区别在于去除了非线性隐藏层，并且投影层在所有单词之间共享，即对单词进行平均。这导致了第一个模型，连续词袋（CBOW），其中给定四个先前单词和四个未来单词，预测当前单词。第二个模型，Skip-Gram，预测当前单词的上下文单词。这导致在给定单词被其包围的单词的情况下最大化单词的分类Skip-Gram倾向于在更大范围的上下文单词下执行得更好，但这也导致更大的计算复杂度。FastText[4]是Word 2 Vec模型的扩展，其中嵌入的原子实体不再是单词，而是字符n-gram。N可以在给定任务和时间或空间约束的情况下决定。一个词被表示为除了词向量本身之外的其字符n-gram向量的总和。这种引用的变化可以提高性能，因为更好地表示罕见的，拼写错误的和词汇表中的单词，因为n-gram创建了更多的邻居供训练期间使用。5.2. 句子级表示InferSent[8]使用双向LSTM和max-pooling来创建嵌入级嵌入。它使用自然语言推理（NLI）任务进行训练，目标是将自然语言英语句子（前提，假设）分为三类：蕴涵、矛盾和中立。NLI模型架构使用BiLSTM对输入对的每个句子进行单独编码。之后，这对乘积和元素间的绝对差值。然后将该向量馈送到由几个FC层和Softmax定义的三级分类器中。BERT[9]是目前最先进的词嵌入模型。它的语言编码器是一个双向多层Transformer，直接遵循[45]中描述的架构。在两个任务上训练嵌入：Masked LanguageModeling（MLM）和下一句预测MLM的目标是在给定其上下文单词的情况下预测掩码单词的下一句预测是确定第二个句子是否是真正的下一句的二元分类任务5.3. 结果我们从一个从头开始学习的嵌入开始，随机初始化作为我们的第一个基线。结果表明，虽然许多以前的作品使用划痕嵌入，丁，这极大地影响了视觉语言任务的性能。不出所料，当比较表1（a，b）的第一行时，我们发现使用Word2Vec而不是从头开始训练的嵌入往往会提高性能。当考虑到更大的词汇量时，这一点更为重要，如比较DiDeMo和ReferIt上的短语基础实验所见，其使用较小的词汇量从头开始训练的嵌入与Word2Vec相比更在Google News上预训练的原始Word2Vec嵌入虽然快速文本是一种更现代的嵌入，但Word2Vec在所有任务中只落后一两点，甚至在某些任务中表现出色或表现与快速文本相当（例如文本到剪辑、图像字幕）。这验证了扩展Word 2 Vec的工作，如翻新，HGLMMFisher Vectors和GrOVLE，因为Word 2 Vec仍然可以提供额外的适应性;适应性嵌入的结果在第6节中。表1还包含了我们评估的五个视觉语言任务中语言模型变体的比较。我们看到，在视觉语言任务中微调单词嵌入可以对语言模型的性能产生显著影响（例如，在视觉语言任务中微调单词嵌入可以对语言模型的性能产生显著影响）。图像-句子检索的平均召回率增加5-10%）。在比较图3中的架构选择时，我们可以看到，对于基于检索的任务（即其中输出不是自由形式的文本），平均嵌入和自注意模型比简单的基于LSTM的方法执行得更好这一点尤其值得注意，因为这两个模型的参数更少，计算速度比LSTM更快。在未来的视觉语言工作中选择使用自我注意力语言模型唯一明显的例外是文本到剪辑任务。这可能是因为，7478任务图像-句子检索短语接地文本到剪辑图像字幕VQA数据集Flickr30K [53] MSCOCO [32] Flickr30K实体[42]参考文献[21][16]第十六话MSCOCO [32]VQA [15]方法[49]第四十九话CITE [40]ARNet [7][18]第十八话度量平均召回率精度平均BLEU-4 苹果酒精度(a)从头开始训练平均嵌入自注意LSTM44.344.660.073.777.677.570.4670.6870.4751.7052.3951.5733.0233.4832.83––––––（b）Word2Vec[35]平均嵌入平均嵌入+ft自我注意Self-Attention + ftLSTMLSTM + ft62.571.563.671.968.569.075.078.275.679.972.578.270.0370.8570.1970.9469.8370.5552.5153.2952.4153.5452.8653.5832.9532.5833.2333.2633.7333.94––––28.528.5––––94.0––––61.35（c）FastText[4]平均嵌入平均嵌入+ft自我注意Self-Attention + ftLSTMLSTM + ft69.273.069.573.169.168.578.580.778.680.676.980.169.7570.6269.8771.2369.7671.0951.2753.2452.4953.8752.2153.9532.4532.0133.3133.1733.0632.51––––28.528.3––––93.2––––61.8661.66(d)句子级[第8话]BERT [9]71.271.876.475.457.8369.3852.2950.3731.8732.46––––––表1.视觉语言任务中的词嵌入比较（a）包含从头开始学习嵌入的结果I.E.随机初始化，在训练期间进行微调。其余部分比较（b）Word2Vec、（c）FastText和（d）句子级别嵌入InferSent和BERT。所有实验都显示了三种模型变体：平均嵌入，自我注意和LSTM，在训练过程中有和没有微调平均嵌入和自我注意力不用于图像字幕和VQA的生成任务，因为已知它们表现出更差的性能;句子级嵌入不适用于这些任务。参见讨论文本基于视频的任务，其在其查询中包含一些时间语言[16]，因此与其他基于检索的任务相比，单词的排序对于识别选择哪个视频剪辑可能特别重要。虽然所有语言模型都在ReferIt短语基础上表现得很接近，但这仍然表明没有必要在不进行额外修改的情况下使用更复杂的LSTM语言模型。最后，在表1（d）中比较了句子级嵌入InferSent和BERT;结果没有微调。微调可能会提高性能，但由于尺寸（例如：较大的BERT模型包含总共340 M的参数，而众所周知的VGG-16网络使用138 M;微调顶层仍然需要加载完整的模型）。除了Flickr 30 K实体上的短语接地准确性外，两者彼此相当; BERT令人惊讶地超过InferSent 11.55%。InferSent和BERT都不能在任何任务中提供最佳结果，因此不是视觉语言任务的主要选择。InferSent 和 BERT 在 Flickr30K 上达到了与最好的Word2Vec模型相当的值，对于MSCOCO数据集表现更差。对于其余的检索任务，指标是-在1-3点内降低了最佳性能模型和嵌入组合，再次注意到Flickr 30 K实体的短语基础上的In-ferSent的不寻常例外，其显著地低于划痕性能。6. 适应性词嵌入由于Word2Vec的引入，已经提出了几种增强技术在本节中，我们将解释Word2Vec的改编，它使用不同的方法来后处理嵌入。扩展或者使用语言增强，视觉增强，或者两者兼而有之（例如WordNet改造，HGLMM与Visual Word2Vec与GrOVLE）。我们现在将简要地讨论这些增强。6.1. 视觉Word2VecVisual Word2Vec [26]是一种神经模型，旨在将原始Word2Vec表示与视觉语义联系起来。它的目标是最大化视觉上下文的可能性，给定用于描述它的一组单词，从而将用于描述相同视觉场景的单词表示推得更首先使用以下命令离线学习群集7479从抽象剪贴画场景中提取特征，例如对象的位置、姿势、表情和凝视，以提供代理类标签。用Word2Vec初始化的词向量然后通过单个隐藏层网络传递。之后，学习的输出权重矩阵和Softmax被应用于预测词所属的视觉语义类。6.2. HGLMM Fisher向量我们用于这组实验的另一个后处理嵌入是基于Word2 Vec的Fisher向量构建的混合高斯-拉普拉斯混合模型（HGLMM）表示[24]。虽然词袋池是简单的，普遍应用，费舍尔向量改变了这种池技术，并实现了国家的最先进的结果，在许多应用程序。Fisher向量代替地连接局部描述符（在这种情况下是Word2Vec向量）相对于HGLMM参数的对数似然HGLMM是高斯和拉普拉斯分布的加权几何平均值，并使用期望最大化进行拟合。在[49，40]之后，我们使用PCA将原始编码（18K-D）的维度减少到6 K-D或300-D，因为已经发现它提高了VL任务的数值稳定性（除了在ReferIt上的实验，由于其词汇量小，我们将其减少到2K-D）。6.3. GrOVLE：面向图形的视觉语言嵌入我们提供了一个新的嵌入，GrOVLE，它使用两个知识库来适应Word2Vec：WordNet和可视化基因组。这建立在[13]的改造工作的基础上视觉基因组关系图是新颖的，因为它创建了一个语言图，该语言图捕获了单词在视觉环境中的使用方式，与[13]中使用的任何语言数据库我们简要回顾改造，然后详细介绍了我们原来的视觉基因组词关系图的建设GrOVLE提供了一个视觉语言增强的嵌入，并在许多任务上优于VisualWord2VecGrOVLE的发布版本经过多任务培训，创建了VL知识的附加水平，稍后将在第7节中进行描述。6.3.1改进单词嵌入在本节中，我们回顾了Faruqui等人的方法。[13]，提出了一种基于图的学习技术，将给定具有单词{w1，w2，...，w n}及其相应的w阶嵌入Q，其中qi是em-对于w1，执行置信传播以获得新的嵌入Q，其最小化表示每个词的嵌入与其相邻词之间的距离。这些邻居被定义为图中单词之间的边EL2正则化在原始的和新的单词嵌入来帮助防止过度拟合。我们发现，这种L2正则化是必要的，每当我们更新的词嵌入（即。我们还在第7节中描述的多任务训练期间使用它）。我们使用与Faruqui等人相同的正则化参数。并请读者参考他们的工作，以查看最终的目标函数。6.3.2词关系图构建下面我们描述我们用来创建共享某些语义关系的单词之间的边的方法。我们使用这些边来改进单词嵌入，过程在6.3.1节中描述。在Faruqui等人提供的词典中，[13]，我们只使用WordNet图，因为它包含最大的词汇表和最多的边。一个联合词典是建立在WordNet和Visual Genome，而不是连续改造这两个;这最大限度地减少了对第一个的遗忘，从而提高了性能。WordNet[36]是一个分层词汇数据库，它将名词、形容词、动词和副词组织成同义词集（synset），并使用语义关系将它们关联起来。如在Faruquiet al. [13]中，我们通过创建单词之间的链接来构建一个图，如果它们具有同义词、上同义词或下同义词关系。Visual Genome [28]包含大量108K图像的语言注释：图像中实体的描述、它们的属性、多个实体之间的关系以及整个图像和基于区域的QA对。这些注释中的每个实例都被认为是我们标记和删除停止词的样本我们计算样本中出现超过50次的单词对的共现统计，结果是12，849个单词的322，928对。对于每个单词，我们为它出现的所有对计算逐点互信息（PMI）得分，并在前十个单词之间创建链接。这将创建在描述视觉数据时，经常出现在一起的单词被连接在一起的图。6.4. 结果如表2（b）所示，我们看到使用GrOVLE的大多数视觉语言任务都有小幅但一致的改进这些变化导致具有与HGLMM 6 K-D特征可比较的性能的嵌入，其在表2（e）中报告。然而，我们的词嵌入往往表现得更好时，嵌入是相同的大小（即。300-D）。对于基于生成的任务（即字幕和VQA），使用自适应嵌入的好处不太清楚。这可能仅仅是评估这些任务中的挑战的人为产物（即，字幕正在以一种指标无法捕捉的方式改进此外，更仔细地考虑字幕中每个单词的效果的模型可能会从我们改进的功能中受益更多（例如 [37 ，51]）。虽然Visual Word2Vec是一个成熟的视觉增强嵌入，但其发布的结果不包括7480任务图像-句子检索短语接地文本到剪辑图像字幕VQA数据集Flickr30KMSCOCOFlickr30K实体参考迪德莫MSCOCOVQA度量平均召回率精度平均BLEU-4苹果酒精度（a）Word2Vec + wn[13]平均嵌入+ft自注意+ft LSTM+ ft72.072.469.379.280.078.970.5170.7070.8053.9353.8153.6733.2433.6534.16––––––(b)GrOVLE平均嵌入+ft自我注意+ftLSTM + ft72.372.169.780.280.578.870.7770.9570.1853.9953.7553.9933.7133.1434.47––––––（c）VisualWord2Vec[26]平均嵌入+ft自我注意+ftLSTM + ft66.868.866.778.779.274.570.6171.0770.7053.1453.2653.1931.7331.1532.29––28.8––94.0––（d）其他事项HGLMM（300-D）[24]平均嵌入+ft自注意+ft LSTM+ ft71.071.869.579.880.477.970.6470.5170.3753.7153.8353.1032.6233.4433.85––––94.0––61.44（e）HGLMM（6K-D）[24]平均嵌入+ft自我注意+ftLSTM + ft73.575.168.080.980.679.470.8371.0270.3853.3653.4353.8932.6633.5734.62––––––表2.修改Word2Vec。（a）包含Word2Vec仅使用WordNet（wn）词典的改进结果[13]。其次，（b）是我们的基线嵌入，其中包括新的Visual Genome关系图。视觉Word2Vec结果在（c）和（d）中提供，（e）是Word2Vec上的Fisher向量参见讨论文本任务图像-句子检索短语接地文本到剪辑图像字幕VQA度量平均召回率精度平均BLEU-4苹果酒精度GrOVLE，无多任务预训练64.775.070.5352.1534.4528.592.761.46+ 无目标任务的65.876.470.8252.2134.5728.893.361.47+ 带目标任务的66.280.270.8752.6434.8228.592.761.53+ 多任务预训练w/目标任务+ft72.681.371.5754.5135.0928.793.261.46表3.比较在四个任务上训练我们的词嵌入和在第五个任务上测试，以及在所有五个任务上训练这些视觉语言任务。Visual Word2Vec在生成任务的结果中执行搜索（即，图像字幕和VQA），但是这些任务在结果上几乎没有变化，在适配的嵌入中具有小于一个点的差异。Visual Word 2 Vec在生成任务中提供的小增益并没有超过其他任务中性能的下降，例如与表2（c）和表2（e）第二行中的HGLMM的6 K-D自我注意结果相比，Flickr 30 K的图像-句子检索的显著平均召回下降6.3相比之下，GrOVLE最后，我们报告的结果，使用不同的维度的HGLMM。HGLMM 300-D特征用于与其他嵌入进行更公平的比较。虽然HGLMM 6 K-D表示主要导致最高性能，但其在生成任务上表现更差，并且还导致高方差。例如，表2（e）中的第一列显示平均召回率的范围为7.1，而GrOVLE的范围为2.6。7. 多任务训练使用预训练的单词嵌入（如Word2Vec或翻新过程）的缺点是它们仅在文本数据上进行训练。虽然我们的视觉基因组图提供了一些关于我们词汇表中的单词如何用于视觉数据的一般信息，但它为了解决这个问题，我们在五个VL任务中微调GrOVLE。我们提供了四个和五个多任务训练嵌入的结果。这四个任务实验是在最终任务嵌入固定的情况下进行的，以展示嵌入如何很好地推广到新任务。我们还提供了五个任务的预训练结果，在最后一个任务中有和没有微调。类似于PackNet [34]，对于四个和五个任务实验中的每个数据集/任务，我们在训练任何后续任务时保持K个最具信息量的特征冻结，从而减少灾难性7481不任务图像-句子检索短语接地文本到剪辑图像字幕VQA附加模型扫描[30]QA R-CNN [17]TGN [5]BUTD [1]BAN[23]度量平均召回率精度平均BLEU-4苹果酒精度从头开始训练72.883.268.5650.2343.9135.2109.868.98快速文本+英尺72.583.869.2753.0144.2135.2110.369.91GrOVLE（无多任务预训练）+ft72.784.170.0353.8845.2635.1110.469.36+ 多任务预训练w/目标任务+ft76.284.771.0854.1043.6135.7111.669.97表4.我们将结果与其他模型一起使用，以验证趋势。更多内容请参见讨论文本和补充材料在新任务上进行微调时忘记对于大小为D和T的任务的嵌入，K=D，即在我们的实验中，K= 60。我们均匀地分割了具有多个数据集的任务的K个特征在任务上调整的特征根据方差进行排名，并在下一个数据集/任务上训练之前冻结最终的结果是一个预训练的单词嵌入，它可以“插入”到现有的模型中，为了验证多任务GrOVLE性能改进跨任务模型架构推广，我们使用表4中的附加任务模型提供了结果。更多的结果可以在补充材料中找到。7.1. 结果表3报告了上述多任务训练过程的结果。我们在每个任务的比较中使用表现最好的语言模型，即Self-Attention用于图像句子检索和短语基础，LSTM语言模型用于文本到剪辑，图像字幕和VQA。表3的第一行报告了原始固定GrOVLE嵌入的结果，应将其视为基线。表3的第二行报告了当四任务预训练的GrOVLE在目标任务中使用时固定时的性能，即当前正在运行的任务。表3的第三和第四行报告了我们的嵌入结果，当他们在所有五个任务上接受训练时，并分别为目标任务保持固定或微调第三和第四行的结果表明，当在目标任务期间进行微调时，我们改进的嵌入往往会更好地传输。我们发现，在不同任务中，性能改进的趋势相似：图像-句子检索的收益更大，Flickr 30 K数据集的平均召回率为+7.9，MSCOCO数据集的平均召回率为+6.3。所有其他任务在一个点下都有性能改善，表明虽然视觉语言任务在不损害性能的情况下表现良好，但它们在图像句子检索中的利用率最高，但在图像句子检索中的利用率最高。在参考文献上的短语接地准确率（+2.36%）。表4提供了每个任务的更多模型，并展示了一致的结果：嵌入可以显著地影响性能，并且GrOVLE变体仍然是总体上最好的嵌入。当我们沿着表向下移动时，我们发现通过使用具有微调的五个任务预训练GrOVLE比表3中更大的性能改进。这种多任务变体在所有任务中表现最好因此，我们发布此嵌入供公众使用。8. 结论我们认为，在我们的实验中有五个主要发现，研究人员在考虑视觉语言任务的语言成分时应该记住：1. 在检索类型的任务中，平均嵌入和自我注意语言模型往往优于简单的LSTM。2. 微调任务的单词嵌入可以显著影响性能。3. 对于标准视觉语言度量，语言特征在检索和基础任务中最重要，而在文本剪辑和生成任务中较少。4. 在外部视觉语言数据集和任务上训练的词嵌入可以推广到其他应用程序。5. 多任务训练的GrOVLE是五个视觉语言任务中的四个的主要嵌入选项，当与最佳对应的语言模型一起使用时。我们提供的证据表明，在视觉-语言任务中，语言和视觉特征应该被平等对待。当使用最佳嵌入、语言模型和训练选择时，具有更多差异的任务的性能可以大大提高，并且具有更顽固的性能指标的任务可以进一步推进。这些见解对今后的视觉语言工作有一定的借鉴意义.随着这些发现，我们引入了GrOVLE，它结合了WordNet的层次语言关系以及Visual Genome的视觉上下文语言。除了这些适应，我们进行多任务训练与五个常见的视觉语言任务，以进一步纳入细微差别的视觉信息。这提供了一个300-D的嵌入与视觉语言的增强，是目前的嵌入相媲美，并提供低方差的结果。确认我们要感谢审稿人的有益建议。这项工作得到了DARPA和NSF奖项IIS-1724237、CNS-1629700、CCF-1723379的部分支持7482引用[1] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在CVPR，2018年。一、三、八[2] Stanislaw Antol ， Aishwarya Agrawal ， Jiasen Lu ，Margaret Mitchell，Dhruv Batra，C.劳伦斯·齐特尼克和德维·帕里克VQA：可视化问答。在ICCV，2015年。第1、3条[3] Yoshua Bengio，Rjean Ducharme，Pascal Vincent，和Chris- tian Jauvin. 神经概率语言模型。在 Journal ofMachine Learning Research，3：1137-1155，2003中。4[4] Piotr Bojanowski，Edouard Grave，Armand Joulin，andTomas Mikolov.用子词信息丰富词向量Transactions ofthe Association for Computational Linguistics ， 5 ： 135-146，2017。一、四、五[5] 陈静媛，陈新鹏，马林，杰泽群，蔡达生.视频中的自然句子的时间在EMNLP，2018年。1、8[6] Kan Chen，Rama Kovvuri，and Ram Nevatia.查询引导的回归网络与上下文策略的短语接地。InICCV，2017. 3[7] Xinpeng Chen，Lin Ma，Wenhao Jiang，Jian Yao，andWei Liu. 通过用现在重构过去来正则化rnns以生成字幕在arXiv：1803.11439v2，2018. 5[8] Alexis Conneau，Douwe Kiela，Holger Schwenk，andLoc Barraultand Antoine Bordes.从自然语言推理数据中监督学习通用句子表示2017. 一、四、五[9] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：用于语言理解的深度双向变换器的预训练。在arXiv：1810.04805v1，2018.一、二、四、五[10] 放大图片作者：David J. Fleet，Jamie Ryan Kiros，andSanja Fidler. VSE++：用硬否定词改进视觉语义嵌入在BMVC，2018年。2[11] Fang Fang，Hanli Wang，and Pengjie Tang.图片说明-ing与字水平的注意力。2018年第25届IEEE图像处理国际会议（ICIP），第1278-1282页，2018年。第1、3条[12] Hao Fang ， Saurabh Gupta ， Forrest Iandola ， RupeshSrivas-t av a ， LiDeng ， PiotrDoll a'r ， JianfengGao ，XiaodongHe，Margaret Mitchell，John Platt，et al.从标题到视觉概念再到后面。arXiv：1411.4952，2014。1[13] 放大图片作者：Jesse Dodge，Sujay K. Jauhar，ChrisDyer，Eduard Hovy，and Noah A.史密斯将词向量改造为语义词典。在NAACL，2015年。一、二、六、七[14] Akira Fukui ， Dong Huk Park ， Daylen Yang ， AnnaRohrbach，Trevor Darrell，and Marcus Rohrbach.多模态紧凑双线性池的视觉问题回答和视觉接地

下载后可阅读完整内容，剩余1页未读，立即下载