通用跨语言跨模态视觉和语言预训练框架的研究及评估

120 浏览量更新于2024-01-22 收藏 898KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4155UC2：通用跨语言跨模态视觉和语言预训练周明阳1，周罗威2，王硕航2，成宇2，李林杰2，周宇1，刘晶晶21加州大学戴维斯2微软Dynamics 365人工智能研究{minzhou，joyu}@ ucdavis.edu{罗洲，硕娃，于.成，lindsey.li，jingjl}@ microsoft.com摘要视觉和语言预训练在学习视觉和语言之间的多模态表征方面取得了令人印象深刻的成功。为了将这一成功推广到非英语语言，我们引入了UC2，这是第一个用于跨语言跨模态表征学习的机器增强框架。为了解决图像数据集的多语言字幕的稀缺问题，我们首先通过机器翻译（MT）用其他语言来增强现有的仅英语的数据集然后，我们将标准的掩蔽语言建模和图像-文本匹配训练目标扩展到多语言设置，其中通过共享的视觉上下文捕获不同语言之间的对齐（即，使用图像作为枢轴）。为了促进图像和所有感兴趣语言的联合嵌入空间的学习，我们进一步提出了两个新的预训练任务，即Masked Region-to-Token Mod- eling（MRTM）和Visual Translation Language Modeling（VTLM），利用MT增强的翻译数据。对多语言图像-文本检索和多语言视觉问答基准测试的评估表明，我们提出的框架在不同的非英语基准测试上达到了新的技术水平，同时在英语任务上保持了1. 介绍我们所航行的世界是一个多模态和多语言的万花筒。虽然随着视觉和语言（V+L）预训练的出现，多模态研究取得了巨大的成功[10，35，36，45，26]，但目前大多数文献都偏向于英语。尽管英语训练的V+L模型可以在每种目标语言上进行微调（假设在下游任务中有足够的语言特定数据），但考虑到不可逾越的发展和主要因素，维护世界上每种语言（6，900+）的语言特定模型是不可能图1.现有的工作（M3P）和我们提出的UC2之间的拓扑结构比较。M3P结合了两种类型的预训练任务，而跨模态的Transformer仅适用于图像和英文字幕。我们的UC2在图像和所有其他语言上构建了一个跨语言、跨模态的Transformer。成本[23]。自然地，跨语言多模态任务的早期工作主要集中在机器翻译[22，55，6，50，2]和图像-文本检索[18，28，5，19，49]。其目标是为视觉和跨语言输入构建一个公共的嵌入空间，并在特征空间中从图像中提取视觉概念，从语言中提取相似的语义。然而，由于缺乏大规模的训练语料库，这些模型只在小的特定于任务的数据集上进行验证，因此将这些模型扩展和推广到更多的语言是不平凡的。最近发布的大规模多模态数据集[41]和多语种语料库（例如，100种语言的维基百科）已经成为加速V+L预训练[10，36，45，54]和多语言语言建模[12，11，23]，这使得预训练大规模多语言V+L模型成为可能。一项开创性的工作是M3P[24]，它将训练过程制定为跨模态单语4156图2. UC2模型概述。图（a）显示了通过机器翻译构建多语言多模态预训练语料库。（b）描述了整个UC2框架，该框架是用大量多语言标题图像对语料库进行预训练的图(c)及（d）说明四项训练前工作的详情。语料库和单模态跨语言语料库。它以英语为中心，在图像和不同语言之间架起一座桥梁，这不可避免地将语言差异引入到依赖图像和非英语语言之间直接对齐的下游任务中（例如，图像到德语检索），如图1（a）所示在本文中，我们提出了一个新的预训练框架UC2（UniformC ross-languageC ross-modal pre-training），它主要以图像为中心，以英语为补充，用于多语言多模态表示学习（图1（b））。主要挑战是以图像为中心需要成对的图像和对齐的多语言数据（例如，图像-英语，图像-德语），而现有的V+L数据集仅包含图像-英语对。为了填补这一空白，我们建议通过机器翻译（MT）用其他语言来增强仅英语的数据集，并利用增强的数据集进行预训练。据我们所知，这是首个已知的在创建具有多语言图像标题的大规模训练数据集方面的努力。除了将两个广泛采用的预训练任务（ MaskedLanguage Modeling和Image-Text Matching）扩展到多语言环境之外，我们还提出了两个新的预训练目标，即MaskedRegion-to-TokenLanguageModeling（ MRTM ）和 Visual Translation Language Modeling（VTLM）。MRTM通过共享单词标记和区域标签的嵌入空间（即，来自对象检测器的对象类预测）。VTLM被设计为从并行文本语料库和成对图像中联合学习跨语言跨模态映射。大量的实验表明，我们提出的UC2框架在多个主流基准上达到了最新的技术水平，例如Multi30k [16，15，4]和COCO [9，51，34]跨多语言图像文本检索和视觉问答（VQA）任务。我们的贡献概述如下。（i）构建了多语种V+L语料库，提出了第一个MT增强的跨语言跨模态预训练框架UC2，该框架以图像和英语为中心进行联合表示学习。（ii）提出了新的预训练任务：Masked Region-to-Token Language Modeling和Visual Translation LanguageModeling，这两个任务是多语言多模态任务的有效学习目标。（iv）在多语言图像文本检索和VQA基准测试方面取得了新的进展，优于现有的方法。2. 相关工作视觉语言预训练。人们对为V+L任务构建通用的预训练BERT类[13]模型越来越感兴趣。早期的工作，如VilBERT [36]和LXMERT [45]提出了一种双流架构，通过两个单独的Transformer对视觉和文本输入进行编码，然后通过跨模态的Transformer融合两种模态。后来的工作，如 VL-BERT [44] ， Unicoder-VL [33] 和UNITER [10]引入了一种单流架构，该架构使用一个Transformer同时对来自两种模态的级联输入进行编码。后来，统一的VLP [54]适用于理解和生成任务。提出了使用不同输入特征[35，26]和多任务学习[37]的进一步改进。41571 2N多模态多语言学习。现有的多语言多模态研究主要集中在两个方面：跨模态检索和多模态机器翻译。[38，7]通过将不同语言的图像和字幕与英语字幕对齐，介绍了一种多模式多语言方法。与使用语言作为枢轴点的复杂工作不同，[18]学习了一个共享的嵌入空间，迫使不同语言的表示朝向枢轴图像表示。后来的工作集中在通过基于字符的单词嵌入[49]或共享语言声学嵌入[28]扩展到更多语言。SMALR [5]提出了一个可扩展的多语言模型来学习视觉对齐的单词嵌入，以便在多语言容量和任务性能之间实现更好的平衡。多模态机器翻译利用视觉信息来改进语言翻译。早期的工作通过关注视觉上下文[8，21]或融合[6]或多任务学习[17，55]将视觉引入基于LSTM的神经MT模型。最近，基于transformer [46]的模型被提出[2 ，50]。人们对非监督多模态MT [25，43]也越来越感兴趣，其中单语语料库之间的翻译通过图像上的旋转来增强。虽然在个别任务中取得了成功，但这些模型通常是在少量数据上训练的，这限制了它对其他任务或语言的扩展。为了学习跨视觉和多语言文本的任务不可知的通用表示，M3 P[23]引入了第一个预训练框架，该框架交替优化多模态单语言语料库和单模态多语言语料库的模型虽然与特定任务的方法相比，M3P实现了更好的性能，但视觉和非英语语言之间的对齐很难捕捉，因为该模型是通过使用英语作为锚点来学习的为了加强视觉和所有语言之间的一致性，我们建议预先训练一个统一的架构，在这个架构中，不同语言的句子都基于共享的视觉上下文。3. 跨语言跨模态预训练在本节中，我们首先介绍我们的机器翻译增强数据集，该数据集支持大规模跨语言预训练。然后，我们回顾了所提出的UC2模型以及我们为跨视觉和语言的统一表示学习设计的预训练目标3.1. 机器翻译增强数据集我们的多语言图像-文本配对数据是通过用其他语言的一组机器翻译的1标题L ={l1，l2，. . .，ln}。我们特别1我们使用Microsoft Azure翻译API服务，并将发布翻译后的字幕。将原始英文字幕翻译成五种不同的语言（德语、法语、捷克语、日语和中文），这涵盖了本工作中研究请注意，随着低资源语言机器翻译的最新进展，我们可以进一步将数据集扩展到更多语言，我们将其留给未来的工作。有了这些数据，我们得到了3.3 100万张图片，每一张图片都配有六种语言的字幕，如图2（a）所示。这种一对多的映射极大地促进了通过图像作为共享锚来学习视觉内容与来自每种语言的语义之间的对齐。通过将翻译后的数据引入模型预训练，我们的方法比仅应用于下游任务的MT工具的基线有了显着的改进。接下来，我们将详细说明如何利用这些数据进行跨语言跨模态预训练。3.2. 模型概述UC2将V+L框架的单语语言编码器（如 UNITER[10]）扩展到跨语言编码器[11]，如图2（b）所示。视觉特征从图像编码器中提取，语言特征从通用跨语言编码器中提取。然后将多模态特征组合成序列并馈送到多层Transformer以产生上下文化的跨模态和跨语言表示。图像编码器。给定一个输入图像，我们首先使用FasterR-CNN [39]获得图像区域特征序列v={v1，v2，· · ·，vm}。对于每个区域，我们还通过7维向量提取位置特征： P=[x1，y1，x2，y2，w，h，wh]，表示归一化的左上坐标，右下坐标，宽度，高度，以及所检测的区域框的面积。区域特征和位置特征通过单独的全连接（FC）层被投射到与文本嵌入空间相同的维度上，然后是层规范化（LN）层。最后将投影区域特征和位置特征相加得到区域特征的最终表示跨语言语言编码器。我们遵循XLM-R[11]，使用句子片段模型[ 31 ]将语言li中的输入句子Tli标记为BPE，以确定tli={tli，tli，···，tli}。然后，我们将每个令牌投影到其基于XLM-R词汇表和单词嵌入。每个标记的最终表示是通过将其单词嵌入、段嵌入和位置嵌入相加而获得的，如在XLM-R中，随后是另一个层归一化。3.3. 培训前任务对于模型训练，我们使用四个预训练对象来训练大型多语言图像-文本配对数据：4158MMVMVM我Masked Language Modeling （ MLM ）、 Image-TextMatching（ITM）、Masked Region-to-Token Modeling（ MRTM ）和 Visual Translation Language Modeling（VTLM），如图2（c）和（d）所示我们不断优化我们的模型，在多语言图像-文本对上的四个目标，以捕获视觉和不同语言之间的跨模态对齐。由于翻译后的字幕与同一图像相关联，因此还使用视觉上下文作为锚点来实施跨语言对齐。3.3.1工作大局服务在之前的V+L预训练工作[10，33，36，44]之后，我们将Masked Language Modeling和Image-Text Matching作为我们的两个预训练任务。Masked Language Modeling（MLM）给定一组图像区域v={v1，v2，...，vm}及其相关联的帽，在语言li∈L中的词wli={wlii，···，wli}，并且3.3.2屏蔽区域到令牌建模既然我们有了语言学习目标（MLM），那么视觉对应物呢？在现有的VLP模型中，掩蔽区域建模（MRM）通过预测与掩蔽图像区域相关联的前1个或软对象标签来服务于此目的。获取对象标签的实际方法是使用来自现成对象检测器的预测（例如，更快的 R-CNN[39]）。然而，这种方法有两个局限性首先，图像中的对象标签和文本中的单词标记之间的虽然在图像中检测到的显著对象通常在配对描述中提到，但MRM错过了这种连接，因为它直接将掩蔽图像区域预测为0到1600之间的索引。其次，由于嵌入空间不同，从对象检测器提取的视觉嵌入可能现有的方法仅仅依靠薄弱的监督，从训练前的目标到结束1T掩码索引为m∈NM，我们以15%的概率随机掩码一个单词wli，并用一个特殊的标记[mask]替换被掩码的单词。目标是预测掩蔽命令WLI 基于周围的词w，n，m和所有图像区域v，通过最小化负对数似然：这两个完全不同的嵌入空间之间的间隙我们我认为，一个良好对齐的嵌入空间是必不可少的，我们的问题，鉴于其复杂的多语言多模态的性质。因此，我们建议显式地学习区域和单词标记之间的对应关系，并使用两种策略来解决上述问题。LMLM（θ）=−E（wli，v）llogPθ（wli|wli，v），Masked Region-to-Token Modeling（MRTM）。这个新的目标旨在将每个掩蔽区域分类到其其中θ是可学习的参数。每一对（wli，v）是从整个训练集D中采样。每种语言的字幕以偶数概率p= 1/|L|.图像-文本匹配（ITM）。ITM已广泛用于视觉和语言预训练[10，33，36，44]，以学习图像和句子之间的实例级对齐。特殊标记[cls]的输出被馈送通过FC层和S形函数以预测介于0和1之间的分数sθ（wli，v），其预测输入图像v和文本输入wli是否语义匹配。在训练过程中，我们在每一步都以相等的概率从数据集D中采样正负对。负图像-文本对是通过将匹配对中的图像或文本替换为来自训练的对象检测器），它是我们的单词词汇表中与原始对象标签相关联的（子单词）标记。与之前工作的MRM目标[36，33，10]相比，MRTM利用对象标签和标题之间的额外语义更多的是-mally，给定图像区域vi∈v，我们将其被掩盖的概率设置为15%（如[13]）。对于每个掩蔽的区域，区域特征向量被零初始化向量vm替换（90%概率）或保持相同（10%）。然后，基于对周围图像区域v\m和成对字幕wli的观察，预测掩蔽区域上的关联“伪”对象标签c li在语言li中，通过最小化负对数似然：同样的小批量该目标通过二进制交叉熵损失进行优化：LMRTM（θ）=−E（wli，v）logPθ（cli|wli,v\m)LITM （θ）=−E（wli，v）[ylogsθ（wli，v）早期适应（EA）为了解决第二个限制并促进学习在两个节点之间的联合嵌入空间，+（1−y）log（1−sθ（wli，v））]其中y∈ {0，1}指示输入图像-文本对是正样本还是负样本。MLM和ITM的部署是我们的基本模型。接下来，我们介绍-引入两个新的目标，以进一步加强跨语言跨通道表征学习。视觉和语言，我们预热图像编码器，以确保输出的视觉嵌入与单词嵌入共享相同的具体地，每个图像区域通过图像编码器被投影到图像区域特征vi∈Rp，其具有与词嵌入向量。然后，我们从XLM-R中提取对应于k个对象的单词嵌入向量4159我MK\r\n类别c ={c1，c2，. . . ，c，k}。我们计算投影图像特征vi与k个词嵌入向量fol之间的余弦相似性通过 softmax 函数降低，导致归一化的 dishθ （ vi ）∈Rk，其指示关于在区域中映射什么语义的预测。然后，我们通过最小化其KL发散来最大化该预测分布与来自对象检测器输出的“GT”对象概率分布之间的相似性在视觉上下文中，我们引入了一种称为共同掩蔽的策略，其中我们同时从成对的标题中掩蔽出具有相似语义含义的标记，以防止容易的翻译。有几个步骤在共同掩蔽。首先，我们应用FastAlign [14]从使用机器翻译创建的嘈杂并行语料库中学习两种不同语言（li，lj）之间的单词对齐然后，在预训练阶段，我们遵循与传销随机掩盖a到kenwli从标题LEA（θI）=DKL（g（vi）||hθI（vi）），其中θI是图像编码器的可学习参数。请注意，最近的一项名为OSCAR的工作[35]已经做出了类似的努力，通过将对象标记插入到输入序列中来缩小视觉-文本嵌入差距。相比一种语言。对于另一种语言lj的配对字幕，我们将对齐的word掩码为从快速对齐预测的k个enswlj[14]最终目标再次是通过最小化负对数似然来预测两种语言的掩码令牌：OSCAR [35]，我们的方法有两个优点。首先，它是L下游任务不依赖对象标记，不适用于不能很好地V TLM （θ）=−E（wli，wlj，v）llogPθ（wli，wlj|wli 、w、l、j、v）由来自预先训练的检测器的对象类别覆盖其次，通过使用EA强制图像表示与语言表示相似，我们的预训练模型可以更好地利用来自仅语言预训练模型的初始化权重来适应图像模态。3.3.3可视化翻译语言建模到目前为止提到的所有目标都是在图像和单语输入上操作的，而没有考虑跨语言的目标。语言之间的对应关系对于跨语言概括至关重要，从现有的语言理解工作中可以清楚地观察到。到目前为止，我们提出的方法无一例外地通过图像焦点间接学习跨语言对应，这可能是不够的。因此，我们提出了视觉翻译语言建模（VTLM），它直接和联合学习视觉上下文和不同语言的文本之间的对齐。在VTLM中，给定图像V和两种不同语言的一对字幕（wli，wlj），目标是预测来自两种语言的掩蔽字幕令牌。其中一语言总是英语，因为我们预训练数据中的英语字幕直接来自[41]，而其他语言的字幕由MT翻译，因此不太可靠。在这种双语框架下，模型输入大小只会随着语言的增加而线性增长。此外，由于我们的模型初始化的权重作为一个强大的预先训练的多语言模型，它已经在一定程度上学会了不同语言单词之间的良好对齐在VTLM中应用随机掩蔽策略是次优的，因为该模型可以通过简单地将单词从一种语言翻译成另一种语言来做出正确的预测，而不考虑来自图像的视觉信息。为了鼓励模型充分考虑4. 实验在本节中，我们提供了详细的实验来评估我们提出的UC2模型在多语言图像-文本检索和多语言VQA任务上的性能。多语言图像-文本检索在检索任务中，模型从给定特定语言标题的一组候选图像中检索图像我们考虑两个数据集：Multi30K [16，15，4]和MSCOCO [9，51，34]。Multi30K建立在Flickr30K的基础上，英语字幕可以手动翻译成德语，法语和捷克语。它包含31K图像（每个图像配有5个英语和德语字幕，1个法语和捷克语字幕）。遵循Flickr 30 K [52]，我们将数据分为29K/1 K/1 K图像用于train/val/test。MSCOCO[9]由123K图像组成，每张图像有5个英文字幕。STAIR [51]通过为165K COCO图像收集820K日语字幕来扩展原始MSCOCO数据集。类似地，Li等人。[34]通过收集20K COCO图像的中文字幕来扩展MSCOCO，每张图像大约有1个字幕。我们使用[27]中定义的英语和日语的train/dev/test拆分对于MSCOCO中国，我们遵循[34]中的原始分割。我们计算Recall@K（前K个候选者的召回），用于图像到文本检索和文本到图像检索，K=1，5，10。所有这6个评估分数的平均值，平均召回率（AR）[24]，被用作最终的评估指标。多语言视觉问题分类（VQA）在多语言VQA中，给定图像和特定语言的问题，模型基于图像中的视觉上下文预测答案。我们在两个数据集上评估了我们的模型：VQA v2.0 [20]和日本视觉基因组（VG）4160方法Flickr30KEN DE FRCSENMSCOCOZHJA元平均SOTA，无需预先培训EmbN[47]72.060.354.846.376.873.273.565.3[19]第十九话69.062.660.654.178.376.074.867.9S-LIWE [49]76.372.163.459.480.973.670.070.8[28]第二十八话70.364.162.357.779.075.975.669.3SMALR [5]74.569.865.964.881.577.576.773.0仅限英语微调[24]第二十四话58.546.036.888.653.856.060.7UC287.274.97467.988.18271.778.0翻译测试UNITERCC[10]87.781.281.980.288.487.382.284.1单一语言微调[24]第二十四话82.167.365.088.675.880.178.0UC287.283.877.674.288.184.987.383.3全语言微调[24]第二十四话82.773.972.288.786.287.982.8UC288.284.583.981.288.189.887.586.2表1.在不同语言的Flickr 30K和MSCOCO数据集上进行图文检索的评估结果我们强调MULE和SMALR的MSCOCO结果显示为蓝色，因为与其他模型相比，它们使用了不同的MSCOCO开发/测试分割VQA [42]. VQA v2.0是一个广泛使用的英语VQA测试基准。我们遵循官方分区来分割数据集，并通过官方评估服务器在Test-Dev集上报告结果。在[10]之后，我们的训练通过运行VQA v2.0的训练和验证分割以及Visual Genome 的 VQA[30] 来增强。 Visual GenomeVQA Japanese [42]通过从VG收集99K图像上的793K日语问题答案对来扩展VG英语VQA数据集[30]。我们使用原始VG VQA中的训练/测试分割将数据分割为61K/30 K训练/测试图像。我们将VQA公式化为多标签分类问题，其中模型从候选池中预测答案。2VQA评分[20]用于将模型预测与VQA v2.0中的10个人工注释答案进行比较。在VisualGenome VQA日语中，每个问题只有一个真实答案，我们使用准确性和BLEU分数作为评估指标。3UC2由12层Transformer模块组成，每个模块有768个隐藏单元和12个自注意头。除图像编码器外，模型均使用XLM-R [11]进行初始化。我们使用MLM、ITM、MRTM和VTLM对象运行连续的预训练我们使用Adam优化器[29]，在前5%的训练中进行线性预热，并将学习率设置为4e−4。我们使用Horovod和NCCL进行多节点通信，并应用梯度累积（每3步）2我们只考虑VQA v2.0的前3129个常见答案和VQA VG日语的前3000个常见答案。3BLEU分数用于计算预测答案和真实答案之间的软映射分数，假设具有许多重叠单词的答案应共享相似的语义含义。减少多GPU通信开销。预训练的批量大小设置为1024，退出率为0.1.预训练实验在8个Nvidia V100 GPU上进行了30个epoch，需要4天才能收敛。4.1. 实验结果我们首先将UC2与两个下游任务上有或没有预训练的各种SOTA进行比较。然后，我们进行了消融实验，以研究MRTM和VTLM的有效性，以及图像旋转的影响。最后，我们可视化了视觉上下文和我们预先训练的UC2模型学习的跨语言文本上下文之间的对齐。4.1.1多语种检索评价我们在两种不同的设置下将UC2• 仅限英语微调：我们仅在英语训练数据上微调预训练模型。• 单语言微调：我们根据每种目标语言的训练数据微调预训练模型• 全语言微调：我们在所有语言的合并训练数据上微调预训练模型。除了报告每种语言的AR之外，我们还计算了Meta-Ave（两个数据集上所有语言的AR平均值），以反映该任务的整体性能。考虑到我们可以访问预训练的机器翻译模型，我们还引入了基于[10]的强大的测试基线UNITERCC，它在Conceptual Conception英语数据上进行了预训练，并在下游任务中对英语训练数据进行了通过平移4161多语言VQA在不同的语言之间共享，每种语言的答案都有不同的类别，这使得不同语言之间的联合培训成为可能。我们将我们的模型与使用相同预训练语料库的最先进的方法以及V+L预训练方法进行比较。在评估在VG VQA上测试基线UNITERCC（日语）表2. VQA v2.0和VG VQA日语数据集上多语言VQA任务的评估结果。我们用蓝色突出显示PCATT的结果，因为它们使用不同的开发/测试拆分。测试数据从其他语言转换为英文，UNITERCC可直接应用于文本/图像检索。结果总结见表1。我们的模型在所有语言设置上实现了对所有任务特定方法的显著改进，而没有预训练，显示了跨语言跨模态预训练在学习跨视觉和不同语言的通用表征方面的有效性。我们的模型还展示了优越的可转移性。当仅对英语数据集进行微调时，我们观察到绝对增益为17。百分之三在Meta-Ave上跨不同语言，通过更好的M3 P将所学知识从英语过渡到其他语言。与在每种语言的数据上训练的最好的非预训练模型相比，我们在仅英语微调设置下的跨语言模型仍然好5%。我们怀疑这种改进来自于域内预训练目标：我们在ITM中使用图像作为基础媒体来学习从一种语言到另一种语言的跨模态映射具有较强的迁移能力，我们的模型可以将学习到的知识从高资源语言推广到低资源语言的下游任务当我们在所有语言数据上微调UC2模型时，模型在大多数语言上仍然表现出比M3P一致的优势，比Meta-Ave提高4%。我们最好的模型在MSCOCO中除了英语之外的所有语言上也优于强大的测试基线UNITERCC。COCO英语的表现稍差，可能是由于缺乏前期培训在英语数据中，考虑到我们的预训练时间均匀地分配给多种语言。然而，这并没有掩盖我们在所有语言中实现整体更好性能的事实。由于跨语言的预训练和微调，我们的模型可以利用不同语言中捕获的补充信息来提高每种语言的性能。4.1.2多语种视频质量对于多语言VQA，我们的预训练模型会针对每个数据集的目标语言进行微调和评估。同一输出层的非相似图文检索数据集，我们首先在VQA v2.0 [20]上对其进行微调，其中英语答案候选人从VQA VG日语翻译，以确保在评估期间使用与UC2相同的参考。然后，我们使用机器翻译模型将VG VQA日语测试数据集翻译成英语，并使用分类准确率和BLEU对微调后的测试模型进行评估。结果总结见表2。在VQA v2.0上，我们的模型比SOTA特定任务方法有了显著的改进，并且比现有的在概念概念上预训练的单语模型[36，44，10]有明显的优势。在VG VQAJapanese上，我们使用与VG VQA Japanese中提出的原始基线方法PCATT不同的数据分割来微调我们的模型，其中我们的训练数据比他们的分割少得多（我们的：61K图像与PCATT：91K图像）。即使在不公平的比较中处于这种劣势，我们的预训练模型在准确性和BLEU方面仍然比基线提高了10%虽然与特定任务方法相比，翻译测试基线（UNITERCC）的性能更好，但在翻译的VQA VG日语数据集上的性能比UC2尽管在VQA英语数据集上表现强劲，但机器翻译语言的噪音将导致不可避免的退化，特别是对于像VQA这样需要对多模态上下文进行细粒度理解和解释的任务。因此，构建统一的跨语言跨模态预训练模型（如UC2）是直接处理目标语言任务的更好解决方案，而不是简单的测试方法。4.1.3消融研究训练目标的效果为了验证所提出的预训练目标MRTM和VTLM的有效性，我们进行了消融研究以验证它们对模型性能的贡献。我们逐渐删除两个建议的训练目标，并在我们的两个下游任务上评估这些当在图像-文本检索任务上微调预训练模型时，我们遵循最佳实验设置来在所有语言数据上训练模型。在VQA任务中，模型直接在目标语言数据上进行微调。从表3中，我们观察到MRTM在两种语言的多语言VQA任务上实现了显著的性能提升，同时获得了一些增量改进。方法VQA v2.0测试开发访问VG VQA JA加蓝MCAN [53]PCATT [42]70.63-- -19.2-维尔-伯特[36]70.55--[44]第四十四话71.16--UNITERCC[10]71.2222.711.8UC271.4834.226.84162培训目标ENFlickr30KDE FRCSENMSCOCOZH JA元平均VQA v2.0测试开发访问VG VQA JA加蓝UC2（完整型号）88.284.583.981.288.189.887.586.271.4834.226.8-VTLM87.583.682.479.687.789.287.285.371.4534.126.7-MRTM87.683.782.080.087.989.487.485.470.9333.526.4-VTLM-MRTM86.882.981.379.387.588.986.784.869.9433.426.4表3. 针对培训前目标的消融研究。拓扑ENFlickr30KDE FRCSENMSCOCOZHJA元平均UC2（图像旋转）87.583.6 82.479.687.789.287.285.3UC2（英语旋转）86.281.9 80.777.488.188.587.384.2表4. 图像旋转与英语旋转的预训练拓扑结构之间的比较。图像-文本检索任务。VQA需要对语言和视觉上下文之间的联系有更细粒度的理解，因此可以从MRTM捕获的跨模态局部对齐中当将VTLM引入UC 2的预训练时，我们在图像-文本检索任务上观察到类似的改进，但在VQA VG日语上的改进相对渐进。我们怀疑有限的帮助主要是由于英语和日语字幕之间的语言差距。因此，很难通过VTLM捕捉英语和日语之间的良好对齐。旋转对图像的影响为了验证图像旋转的有效性，我们进行了一个对照实验，其中模型变体仅以英语为中心（类似于M3P）。在此设置中，我们使用英语概念字幕数据的所有预训练目标训练UC 2，就像我们的完整模型一样为了捕捉英语和其他语言之间的对齐，我们在两种不同语言的成对字幕上训练UC2，其中一种语言固定为英语。培训目标是采用XLM [32]的翻译语言建模。从表4中，我们可以看到，通过以图像为中心进行预训练的UC2当目标语言的训练数据有限时，这种优势尤其明显。这表明，通过以图像为中心学习的跨语言跨模态表示在不同语言之间注入了更强的跨模态映射转换。可视化为了可视化UC2学习的跨语言跨模态对齐，我们提供了从多语言字幕中的突出词到共享图像上下文的文本到图像注意力的示例。如图3所示，来自不同语言的共享相同语义含义的单词可以涉及图像中的类似对应区域。这表明，虽然我们的模型可以有效地捕获区域之间的跨模态对齐，图3.可视化的文本到图像的注意力对对齐的单词在英语，德语和捷克语（Flickr 30K）。它还通过将不同的语言与相似的图像区域联系起来。5. 结论我们提出了第一个MT增强的预训练模型UC2，它主要以图像为中心，以英语为补充，从大规模的多语言图像到文本对中学习跨语言跨模态表示。我们提出了两个新的预训练任务，使我们的模型能够更好地捕捉视觉和不同语言之间的一致性。我们的模型在两个主流的多语言V+L任务上实现了新的最先进的性能，并展示了强大的跨语言迁移能力。对于未来的工作，我们将继续探索这个主题，并扩展框架以包括更多的语言家族。随着更多关于多语言视频-文本对的基准测试[48，40，3]的出现，我们有兴趣通过利用视频中的时间信息来增强视觉和语言之间的基础。4163引用[1] Roee Aharoni，Melvin Johnson，Orhan Firat。大规模多语言神经机器翻译。在计算语言学协会北美分会，2019年。1[2] 哈桑·赛特·阿尔斯兰，马克·费舍尔，和古拉姆瑞扎·安巴尔·贾法里。Transformer机器翻译加倍用心。CoRR，abs/1807.11605，2018。第1、3条[3] AmirAliBagherZadeh ， YanshengCao ， SimonHessner ， Paul Pu Liang ， Soujanya Zhao ， and Louis-Philippe Mod.CMU-MOSEAS：西班牙语、葡萄牙语、德语和法语的多模态语言数据集。在2020年自然语言处理（EMNLP）集，第1801计算语言学协会。8[4] Loıc Barrault、Fethi Bougares、Lucia Specia、ChiraagLala、Desmond Elliott和Stella Frank。第三个多模态机器翻译共享任务的发现。在第三次机器翻译会议的开幕式上：共享任务文件，第304计算语言学协会。第二、五条[5] Andrea Burns ， Donghyun Kim ， Derry Wijaya ， KateSaenko和Bryan A.普卢默学习为视觉语言任务扩展多语言表示，2020年。一、三、六[6] Iacer Calixto和Qun Liu。将全局视觉特征转换为基于注意力的神经机器翻译。在2017年自然语言处理经验方法会议的会议记录中，第992-1003页2017年。计算语言学协会第1、3条[7] Iacer Calixto和Qun Liu。用于自然语言处理的句子级多语言多模态嵌入。在自然语言处理的国际会议最新进展，RANLP 2017，第139-148页，保加利亚瓦尔纳，9月。2017. INCOMA Ltd.3[8] Iacer Calixto，Qun Liu，and Nick Campbell.多模态神经机器翻译的双注意解码器。在计算语言学协会第55届年会的会议记录，第1913计算语言学协会. 3[9] 陈新蕾，方浩，林宗毅，罗摩克里希纳·韦丹坦，索拉布·古普塔，彼得·多尔·阿尔和C. 劳伦斯·齐特尼克。Microsoft COCO 标题：数据收集和评估服务器。CoRR，abs/1504.00325，2015年。第二、五条[10] 陈艳春、李琳杰、余立成、艾哈迈德·埃尔·科伊尔、费萨尔·艾哈迈德、甘哲、程宇、刘晶晶。{UNITER} ： Learning{ un} iRecorder image-{te} xtrepresentations，2020. 一、二、三、四、六、七[11] Alexis Conneau、Kartikay Khandelwal、Naman Goyal、Vishra vChaudhary、GuillaumeWenzek 、FranciscoGuzm'n 、 Edouard Grave 、 Myle Ott 、 Luke Zettlemoyer 和Veselin Stoyanov。无监督跨语言表征学习。arXiv预印本arXiv：1911.02116，2019。一二三五六[12] 亚历克西斯·康诺和纪尧姆·兰普尔。跨语言语言模型预训练。神经信息处理系统的进展，第7059-7069页，2019年1[13] Jacob Devlin ， Ming-Wei Chang ， Wendon Lee ， andKristina Toutanova. BERT：用于语言理解的深度双向转换器的预训练。在计算语言学协会北美分会2019年会议论文集：人类语言技术，第1卷（长论文和短论文），第4171-4186页，明尼苏达州明尼阿波利斯，2019年6月。计算语言学协会。第二、四节[14] Chris Dyer，Victor Chahuneau和Noah A.史密斯一个简单，快速，有效的重新参数化IBM模型2。在2013年计算语言学协会北美分会会议记录：人类语言技术，第644-648页，佐治亚州亚特兰大，2013年6月。计算语言学协会。5[15] 德斯蒙德·埃利奥特，斯特拉·弗兰克，洛克·巴罗，费特希·布加雷斯和露西娅·斯派西亚。第二个共享任务关于多模式机器翻译和多语言图像描述的发现。第二届机器翻译，第215-233页，哥本哈根，丹麦，9月2017.计算语言学协会。第二、五条[16] 戴斯蒙德·艾略特，斯特拉·弗兰克，哈利勒·西玛安，露西娅·斯派西亚. Multi 30 K：多语言英语-德语图像。第五届视觉与语言集，第70-74页，柏林，德国，8月2016年。计算语言学协会。第二、五条[17] 我的爱略特和阿克斯·K·A·D·A·D·R。想象力促进了多模态翻译。第八届国际自然语言处理联合会议论文集（第1卷：长文），第130-141页，台北，台湾，2017年11月。亚洲自然语言处理联合会。3[18] S

下载后可阅读完整内容，剩余1页未读，立即下载