VALHALLA：用于多模式机器翻译的视觉幻觉框架

141 浏览量更新于2023-10-25 收藏 13.11MB PDF 举报

机器翻译

神经网络模型

身份认证购VIP最低享 7 折!

30元优惠券

52160VALHALLA：用于机器翻译的视觉幻觉0Yi Li *1 Rameswar Panda 2 Yoon Kim 3 Chun-Fu（Richard）Chen 20Rogerio Feris 2 David Cox 2 Nuno Vasconcelos 101 UC San Diego，2 MIT-IBM Watson AI Lab，3 MIT CSAIL0摘要0通过考虑设计更好的机器翻译系统-0近年来，引入辅助输入（如图像）的机器翻译引起了广泛关注。虽然现有方法在传统的仅文本翻译系统上表现出有希望的性能，但它们通常在推理过程中需要成对的文本和图像作为输入，这限制了它们在实际场景中的适用性。在本文中，我们引入了一种称为VALHALLA的视觉幻觉框架，它在推理时仅需要源句子，并使用虚构的视觉表示进行多模式机器翻译。具体而言，给定一个源句子，我们使用自回归幻觉变换器从输入文本中预测离散的视觉表示，并利用组合的文本和虚构表示来获得目标翻译。我们使用标准的反向传播和交叉熵损失来联合训练幻觉变换器和翻译变换器，同时通过额外的损失来鼓励使用基于真实或虚构视觉表示的预测之间的一致性。在三个标准翻译数据集上进行了大量实验证明了我们的方法在仅文本基线和最先进方法上的有效性。项目页面：http://www.svcl.ucsd.edu/projects/valhalla。01.引言0机器翻译（MT）是自然语言处理中的核心任务。0语言处理经历了几十年来的几次范式转变，从早期的基于规则的系统[38]到流水线统计MT方法[25,33]再到最近的端到端神经网络模型[9,58,1,62]。虽然这些进步在标准基准测试中取得了令人印象深刻的结果，但现有系统主要利用仅文本信息，并缺乏任何明确的基础0*在MIT-IBM Watson AI实验室实习期间完成的工作。0DE：一个穿着红色套装的滑雪者正在0eine schneebedeckte0滑雪场上滑行。0EN：穿着红色外套的滑雪者正在下雪-0覆盖的斜坡。0（b）视觉上下文（c）视觉幻觉0可以视觉0幻觉0改进机器0翻译？0图1：已经利用图像等视觉上下文来设计更好的机器翻译系统。与大多数现有方法不同，这些方法在推理过程中需要手动注释的句子-图像对作为输入，我们引入了VALHALLA，它利用了测试时从源句子中产生的虚构视觉表示来改进机器翻译。0到现实世界。因此，越来越多的人对开发多模式MT系统的兴趣日益增长，这些系统可以将丰富的外部信息纳入建模过程中。0考虑图1（a）中的示例，其中源句子的来源-0英文句子（蓝框）将被翻译为德文句子（红框）。由于两个句子都描述了相同的视觉场景，如图1（b）所示，这两个句子之间存在共同的基础信息。更一般地说，虽然有很多不同的方式来描述物理世界中的情况，但不同语言的使用者之间共享的是潜在的视觉感知。因此，以图像形式添加视觉上下文很可能有助于机器翻译。特别是，基于视觉的基础应该提高翻译方法的数据效率，并有助于低资源场景下的翻译。0这激发了最近在基于视觉的多模态机器翻译（MMT）上的许多研究。该研究旨在通过利用视觉模态来改进机器翻译系统[6,30, 76, 20]。这些方法通常要求在训练和测试过程中将源句子与相应的图像配对，这限制了它们的适用性。0我们引入了一个简单而有效的V isu ALWeintroduceasimpleyeteffectiveVisuAL52170针对在推理过程中无法获得图像的情况，我们考虑了一个问题，即在训练时只有访问图像的系统能否推广到这些情况。我们假设“视觉幻觉，即想象视觉场景的能力，可以用来改进机器翻译系统”。根据这个假设，训练时能够访问图像的翻译系统可以学习将文本句子的图像或视觉表示抽象化，如图1(c)所示，以便对翻译过程进行基础化。在测试时，这个抽象的视觉表示可以用来代替实际图像进行多模态翻译。0HALLucinAtion（VALHALLA）框架，其中-0在训练时，VALHALLA将图像纳入以产生更有效的仅文本模型用于机器翻译。与机器翻译一样，目标是训练一个在测试时只看到源句子的模型。然而，-0在训练过程中，模型通过训练一个基于离散码本（使用VQGAN-VAE[14]学习）的自回归幻觉变换器，从输入的源句子中预测出视觉标记，以用于多模态翻译。该模型通过补充从源句子中提取的文本表示与由MMT系统从真实图像（与源句子配对）中提取的潜在视觉表示相匹配的方式来实现。0VALHALLA由一对变换器组成：一个视觉0幻觉变换器将源句子映射到离散的图像表示，而MMT变换器将源句子与其离散图像表示映射到目标句子。我们通过幻觉、翻译和一致性损失的组合来端到端地训练变换器模型。由于离散图像表示（即视觉幻觉）的采样是不可微分的，我们依赖于Gumbel-Softmax松弛[21,35]来有效地训练幻觉变换器和翻译变换器。据我们所知，我们的工作是第一个成功地将自回归图像变换器与翻译变换器联合使用以产生离散视觉表示的工作。我们发现，与现有的MMT方法[66, 30, 68, 74,32]中使用的连续视觉嵌入相比，离散视觉表示可以提高性能。0在三个标准的机器翻译数据集上进行了大量实验0（Multi30K [13]，WIT [54]和WMT[2]）具有多种语言对和不同规模的训练数据（共13对），展示了VALHALLA相对于强大的翻译基线的优越性。VALHALLA相对于仅文本翻译基线平均提高了2到3个BLEU分数，并且始终优于使用连续图像表示的最相关的最先进的MMT方法[74,32]。与仅文本基线相比，其提高的BLEU分数高达+3.1。在资源匮乏的翻译设置中，VALHALLA的性能提升明显。0，如WIT中的EN ! RO和EN !AF任务等翻译设置，验证了视觉幻觉在这些设置中具有重要的实际价值的假设。额外的分析也证实，在有限的文本上下文下，VALHALLA模型确实利用视觉幻觉生成更好的翻译。02. 相关工作0多模态机器翻译。MMT已从多个角度进行了研究[53, 64, 6,76, 20, 69, 68, 31, 4]。与我们的工作不同，一些方法[50,57]使用视觉对齐进行无监督的词映射和翻译。无监督的MMT方法已在[55,19]中提出。最近的研究表明，视觉上下文并不能可靠地帮助翻译[12, 66]，或者在有限的文本上下文下才有益[5,11]。大多数MMT方法在测试时假设图像作为输入，这限制了它们的潜在应用。与我们提出的方法最相关的是UVR-NMT [74]和ImagiT[32]。UVR-NMT使用一个标记到图像的查找表来改进仅文本的NMT，但在推理过程中需要检索图像以匹配源语言关键词。ImagiT使用生成对抗模型为MMT合成连续的图像特征。这与VALHALLA不同，VALHALLA使用幻象模型从输入文本预测离散的视觉标记。此外，ImagiT需要一个计算密集型的图像字幕模块，而我们的方法通过使用一个自回归地将文本和图像标记建模为单个数据流的Transformer，提供了更灵活的视觉幻象。0视觉-语言学习。视觉基础已被用于提高许多任务的性能和数据效率[51,37]，如语义解析[48]，共指消解[26]，表示学习[3, 23,52]，语法归纳[49, 75, 22, 18,73]，词汇学习[63]以及多模态知识蒸馏下的语言学习[60]或将语言标记与图像进行映射[59]。相反，图像-文本对应关系也被用于改进视觉任务，如图像检索[41]和分类[44]。尽管最近取得了进展，但在测试时没有视觉输入的情况下改进机器翻译仍然是一个具有挑战性且在很大程度上未解决的问题。0文本到图像生成。从文本生成图像已经得到了广泛的研究[45, 14, 47, 36]。代表性的作品使用GANs [47, 67, 72, 43, 77,71]根据条件文本描述合成具有高语义保真度的照片级场景。DALL-E[45]提出了一个离散VAE的自回归Transformer，用于根据文本创造各种可以用自然语言表达的概念的图像。虽然我们的方法受到这些工作的启发，但本研究的目标是为了改进机器翻译而幻象离散的视觉表示，而不是生成高质量的照片级逼真图像。ImagêTransformerℓHℓTℓTℓCSource SentenceKQVKQVKQVKQVKQVKQVSharedWeightsTarget SentencefHAutoregressionTokenizefTfTTokenizêSource SentenceKQKQKQVKQVTarget SentenceTokenizefTTokenize,(1)52180zv0^z0多模态翻译0yM0yH0多模态0输出0幻象的0输出0y0ℓH幻象损失 ℓT翻译损失 ℓC一致性损失0x0离散0视觉编码器0训练0标记化0视觉幻象0Transformer0x0视觉幻象Transformer0^z0yH0x0推理0多模态翻译Transformer0fHx0图2：VALHALLA机器翻译架构概述。左侧：VALHALLA的训练流程。翻译输出来自两个输入流，可以是带有真实视觉标记z的流，也可以是幻象表示^z的流，并通过幻象、翻译和一致性损失的组合进行优化。右侧：在没有视觉输入的情况下，VALHALLA的推理过程。0模态幻觉。VALHALLA还与学习使用辅助信息的先前工作相关0关于使用辅助信息进行学习的先前工作[61]。在[17]中，提出了一种从RGB输入中幻觉深度特征的模型，用于目标检测。在[34]中，使用图形蒸馏将多模态特权信息在领域间进行传递，用于动作检测。Garcia等人在[15]中提出了用于视频动作识别的模态蒸馏。03. 提出的方法0给定源句子x∈X和视觉内容v0文本v∈V，通常是图像，我们的目标是训练一个机器翻译系统，可以将源句子x翻译成目标语言中的句子y∈Y，而不需要在推理时使用图像。03.1. 预备知识0机器翻译。当代机器翻译系统0通常基于编码器-解码器框架和注意力机制[1,62]。给定序列对(x, y)，其中0x = (x1, ..., xS)是长度为S的源句子，y = (y1, ...,yT)是长度为T的目标句子，一个Transformer fT = (fenc0T, fdec0T)对目标进行建模的概率0在输入序列上条件化的标记0p(y|x; fT) =0T(Y)0i = 10fT(yi|y，（2）视觉实体遮罩，随机替换。0遮罩比例p0METEOR得分0METEOR得分0英-德0遮罩比例p0METEOR得分0METEOR得分0英-法0图5：实体遮罩的评估。所有结果都使用Multi30KTest2016分割上的METEOR得分。0两个孩子，一个穿着黄色衬衫的男孩和一个穿着蓝色和白色条纹的女孩在荡秋千。0源0参考0两个孩子，一个穿着黄色T恤的男孩和一个穿着蓝色和白色条纹的女孩在荡秋千。0仅文本0VALHALLA0两个孩子，一个穿着蓝色条纹T恤的男孩和一个女孩。（Twochildren, a boy in a blue striped t-shirt and a girl.）0两个孩子，一个穿着黄色T恤的男孩和一个穿着白色T恤的女孩在荡秋千。（Two children, a boy in a yellow t-shirt and a girl in awhite t-shirt, are swinging.）0图6：渐进遮罩的定性结果。源句中灰色的短语在模型输入中被用遮罩。0用概率性地替换源句中的视觉相关短语（来自[42]的注释）。渐进遮罩。图4比较了仅文本基线和VALHALLA在上下文长度k的情况下的METEOR得分。在EN ! DE和EN !FR任务中，VALHALLA在所有设置下都表现出色。随着上下文大小的减小，两种方法之间的差距扩大，VALHALLA的性能提高了约3个METEOR点。这表明视觉幻觉在上下文之外翻译模棱两可的句子时更加有效。视觉实体遮罩。图5比较了VALHALLA与仅文本基线在输入源句中视觉实体被概率性遮罩的情况下的表现。同样，在所有测试案例中，VALHALLA都击败了仅文本基线，最大的改进观察到在p =0.5时。我们将这归因于幻觉变压器固有的模态性能。6.d00.5140.54141.54242.500.5140414252230骨干离散0嵌入0预训练聚合EN-DE EN-FR0CLIP RN-50 7 CLIP门控 38.0 58.80ResNet-50 7 ImageNet门控 38.8 59.10连接 38.3 60.00VQGAN VAE X None连

下载后可阅读完整内容，剩余1页未读，立即下载