多模态机器翻译中的视觉特征研究及影响调查

66 浏览量更新于2023-12-01 收藏 1.56MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文多模态机器翻译中的视觉特征研究Bei Li1，Chuanhao Lv1，Zhou Zefan1，TaoZhou1，TongXiao1，2，MaAnxiang1，2，ZhuJingbo1，21东北大学计算机科学与工程学院，沈阳2NiuTrans Research，沈阳，中国{libei_neu,lch-sy,ZhouZefan_zzf,zhoutao_neu}@outlook.com{xiaotong,maanxiang,zhujingbo}@mail.neu.edu.cn摘要以往多模态机器翻译的研究主要集中在如何将视觉特征融入翻译中，而对视觉模型的质量关注较少。在这项工作中，我们调查的影响，视觉模型的 MMT 。鉴于Transformer在计算机视觉中越来越流行，我们尝试了各种强大的模型（如 VisionTransformer）和增强的功能（如对象检测和图像字幕）。我们发展了一个选择注意力模型来研究MMT中图像的块级在详细的探索任务中，我们发现更强的视觉模型有助于从视觉模态学习翻译。我们的研究结果还表明，需要仔细研究MMT模型，特别是当目前的基准是小规模和偏见。我们的代码可以在https上找到//github.com/libeineu/fairseq_mmt网站。1介绍多模态机器翻译（MMT）已经成为一个活跃的研究领域，它结合了计算机视觉（CV）和自然语言处理（NLP）的世界（Specia et al. ，2016）。这种早期的模型产生一个翻译，给出了视觉和文本输入的融合表示（Caglayan etal. ，2016; LibovickelandHelcl，2017; Calixtoand Liu，2017）。正如预期的那样，这样的范例实现了有希望的BLEU改进，并激励社区跟进。但很快研究人员发现，MMT系统并没有像他们通常设计的那样发挥作用：视觉模态对翻译的贡献很小。例如，当输入图像与文本无关时，它对MMT系统无害（Grönrooset al. ，2018; Lala et al. ，2018年），或者甚至当视觉特征不存在时（Elliott，2018年）。最近，Wu等人（2021）指出，*通讯作者。视觉模态的使用是训练的一种规则化方式，但不是对文本模态的补充。作为对MMT分析的另一种回应，Caglayan et al.（2019）研究了视觉特征如何与文本相关。他们发现，当一些输入单词被屏蔽时，输入图像有助于翻译请注意，以前的工作大部分集中在将现成的视觉模型（如ResNet-50）集成到MMT中。这里的基本假设是，现有的视觉模型足够强大，可以对图像进行编码。这隐含地忽略了视觉模型在表示图像时的质量。但计算机视觉正面临着一个新的趋势，从CNN转向Transformer作为骨干模型（Dosovitskiy et al. ，2021; Liu etal. ，2021b; Carion et al. ，2020）。一个自然的问题是：如果采用更强的视觉模型，MMT系统将如何表现？在这项工作中，我们解决了这个问题，通过一个系统的研究，使用各种视觉模型在MMT，特别是使用最成功的模型在最近的研究（如视觉Transformer，或简称ViT）。我们发现，在基于变换器的视觉模型中使用的补丁方法提供了一个机会，详细说明图像的补丁级贡献这使我们开发了一个选择性注意力模型，将单词与图像块相关联。除此之外，我们将对象检测和图像字幕功能引入MMT，以进一步改进视觉模型（Carion et al. ，2020; Fang etal. ，2021年）。根据Caglayan et al. （2019）的工作，我们设计了更详细的探测任务，以检查视觉模态在多大程度上有助于MMT。我们运行一个广泛的实验En-De和En-Fr MMT任务。我们的研究结果是• 更强大的视觉模型会有所帮助。例如，ViT可以在探测任务上击败ResNet-50，尽管在标准MMT数据上的优势并不显著。arXiv：2203.09173v1 [cs.CL] 2022年3月+v：mala2277获取更多论文SRC：a人在一红色西装表演摩托车特技颜色a人在一 [MASK_C]西装表演摩托车特技Char.一[MASK_P]在一红色西装表演摩托车特技MASK1a人在一红色[MASK_N]表演摩托车特技MASK2a人在一红色[MASK_N]执行[MASK_N]特技MASK3a人在一红色[MASK_N]执行[MASK_N][MASK_NS]MASK4a[MASK_N]在一红色[MASK_N]执行[MASK_N][MASK_NS]表1：所提出的探测任务的示例我们分别用四个符号替换掩码标记• 对当前MMT任务的自动评估可能不是MMT模型有效性的良好指标。例如，用对象检测和图像字幕特征增强的模型在原始MMT任务上产生良好的BLEU分数，但在探测任务上显示出适度我们希望本文的研究结果能够为多模态自然语言处理的视觉模型和2初步我们首先描述探测任务。其次是视觉功能的设计和选择性注意机制，将类ViT表示引入MMT。2.1文本生成不足要了解图像对翻译的贡献，一种方法是屏蔽一些输入单词（称之为不足文本），并强制翻译模型从图像中学习。在先前的颜色剥夺和基于实体的掩蔽设计之后，我们提出了详细的探测任务，这是对Caglayan等人的补充。（2019）在初步实验一中，我们发现“颜色”、“人物”和“名词”是三种可以根据视觉通道进行补语的词，当对应的文本被掩蔽时。以下探测任务是相应设计的。基于颜色的探测在训练中，所有涉及颜色的源单词都被一个特殊的标记[Mask_C]替换。有8，919个句子涉及颜色词，其中近三分之一涉及一种以上的颜色。值得注意的是，由于德语和法语中丰富的词法，例如，英语中的1我们选择Multi 30 K En-De和En-Fr数据集进行实验。“grün”,我们设计了两个标准来衡量翻译的准确性。第一个条件是严格的.正确的翻译需要生成与参考翻译相同的颜色和性别。第二个标准放宽了，所有表达相同颜色的翻译都是正确的。对于性格词，我们选择在我们的训练数据中，超过60%的句子包含字符词，因此它们是评估从输入图像中翻译正确翻译的能力的合理指标这里我们使用[MASK_P]进行掩码。请注意，某些字符词有两个以上的翻译，例如基于名词的探测对于更复杂的场景，句子可以用几种模糊的词来掩盖，例如动物，衣服和车辆，由 Flickr30K 提供（ Plummer et al. ，2015）。用名词（或名词）标记的高频词更有可能被掩蔽为[MASK_N]（或[MASK_NS]）。参见表1，例如具有不同数量掩码的不足文本。2.2各种视觉功能除了ResNet-50之外，我们还选择了几种基于transformer的视觉模型。• 骨干将军 Vision Transformer（ViT）和Swin Transformer是计算机视觉中流行的模型（ Dosovitskiy et al. ， 2021; Liuetal. ，2021b）。我们使用具有各种模型容量的ViT• 目标探测对于预训练的目标检测视觉模型，我们选择 DETR （ Carion et al. ，2020）和QueryInst（方等人2021年）的强劲表现。+v：mala2277获取更多论文·∈AttnAttnK×σ+1-×FFN视觉Transformer16 11×62 3194 195 196交叉注意· ··切片添加规范2242×24N自我关注×N×Self-attention嵌入位置嵌入位置添加规范添加规范添加规范添加规范选择性注意FFNsrc text tgt text图1：使用ViT作为视觉功能时选择性注意多模态Transformer的概述• 图像字幕。对于图像字幕模型，我们选择CATR2，因为它是一个基于Transformer的图像字幕架构，可以很容易地在ViT上实现。我们通过结合上述方法形成了许多视觉特征更多详情见第3节。2.3选择性注意ViT 和相关模型的执行方式与 NLP 中的Transformer几乎相同（Vaswani et al. ，2017年）。与CV中的一般模型不同，ViT不将图像表示为单个向量。相反，它生成一系列的补丁图像表示。这种设计的一个优点是，我们可以使用注意力机制将图像块与单词相关联因此，我们提出了一个选择性注意力模型来模拟图像的块级架构见图1纯文本TransformerTransformer遵循编码器-解码器范式（图1中的紫色区域）。编码器是相同层的堆叠。每一层由一个自我注意（SAN）输入X文本和图像输入Ximg，文本表示H文本和图像特征Himg可以被定义为：Htext=TransformerEncoder（Xtext）（1）Himg=WViT（Ximg）（2）其中W是将ViT（Ximg）的形状转换为H文本的形状的投影矩阵。注意，ViT（）可以被其他视觉模型替代，例如：DETR、SwinTransformer等。然后，门λ[0，1]和引信输出定义为：λ=Sigmoid（UHtext+V Himg）（3）HOut=（1−λ）·Htext+λ·Himg（4）其中U和V是可训练变量。 λ控制保留多少视觉信息。然后融合向量H_Out被馈送到解码器中看到图1中粉色区域的右侧用于说明门控融合模型。选择性注意力在获得文本和图像表示（或特征）之后，我们使用单头注意力网络来将词与图像块相关联，其中查询、键和值分别为Htext、Himg和Himg然后，块和前馈网络（FFN）块。的解码器与编码器共享类似的设计，但是具有额外的交叉注意块。选择性注意力输出Himgimg定义为：QKT门控融合门控融合机制是用于融合来自不同源的表示的流行技术（Wu et al. ，2021; Zhang etal. ， 2020; Lin 等人， 2020; Yin et al. ，2020）。与给定的文本2https://github.com/saahiluppal/catrHattn =Softmax（V）（5）其中dk与H文本的尺寸相同，因为使用了单个头部。然后利用方程组得到融合表示。3和4，并将Himg替换为Himg。+v：mala2277获取更多论文→→英语德国仅文本Transformer现有MMT系统我们的MMT系统67门控融合选择性收件人ViT-LargeViT-Large41.5541.8468.3468.6433.4934.3261.6762.3229.2730.2255.6456.9161.9362.2481.0881.4154.9854.5275.1276.3045.6544.8270.8170.6387 + ViT-TinyViT-Tiny40.7467.2032.4860.4628.1055.1961.4480.9153.3175.6545.8270.7597 + ViT-SmallViT-Small40.8667.6433.6261.6129.7256.9461.7881.3054.2176.0445.2870.89107 + ViT-BaseViT-Base41.9368.5533.6061.4231.1456.7762.4881.7154.4476.4644.7271.20117 + DETRDETR42.2368.9434.1461.5730.1357.0162.1481.4555.1776.4045.1070.38127 + QueryInstQueryInst41.9068.6434.9062.2730.2056.8962.3381.2654.9776.6145.5670.64137 + CATRCATR42.5068.8134.2861.8129.5956.3662.7981.7555.4476.5745.2770.73表2：En De和En的BLEU（左）和METEOR（右）评分 Fr任务。部分结果来自Wuet al.（2021）3实验3.1数据集我们在广泛使用的Multi30K基准上进行了实验（Elliott et al. ，2016）。训练集和验证集分别由 29000 和 1014 个实例组成我们报告了Test2016、Test2017和MSCOCO测试集的结果（ Elliott et al. ， 2017 年）。请注意，MSCOCO对于MMT模型更具挑战性，因为域外实例具有歧义动词。遵循（Wu et al. ，2021），我们学习了一个联合BPE代码，用于源语言和目标语言的10，000个合并操作，导致En-De和En-Fr任务的词汇表分别为9，716和9，5483.2实验设置我们遵循Wu等人（2021）请注意，较小的模型甚至比以前的MMT模型获得更高的BLEU分数。在构建上下文感知机器翻译模型时，已经讨论了类似的观察结果（Li et al. ，2020）。该模型由4个编码器和解码器层组成。隐藏大小为128，FFN的过滤器大小为256。多头自注意机制中有4个头。我们将dropout设置为0。3，标签平滑为0。1.一、我们的实现基于 Fairseq （ Ottet al. ，2019 ）。对于训练，我们使用Adam Op-timizer（Kingma和Ba，2015），β1=0。9，β2=0。98，且π=10−8。我们采用了相同的学习率时间表（Vaswani et al. ，2017年），其中学习率首先从1e−7到5e−3线性增加预热= 2000步。在预热之后，学习速率与当前步骤的平方根倒数成比例地衰减每个训练批包含4，096个令牌。我们还采用了早期停止训练策略（Zhanget al. 2020年），以避免过度拟合问题。为了评估，我们平均了最后10个检查点，以获得更可靠的结果。光束尺寸的宽度被设置为5。通过BLEU和METEOR测量所有测试集的性能。此外，我们使用准确性来评估探测任务。3.3结果表2总结了标准MMT数据的结果。每个模型在两个语言对的三个测试集上进行评估。首先，我们看到，在BLEU和METEOR方面，以前的方法（BLE 2-4）在微小基线上的改进是微不足道的这证实了如果文本是完整的，视觉特征没有得到充分利用的观点（Caglayan等人，，2019）。当将视觉功能从ResNet（第5行）切换到ViT（第6行）时，没有显著的BLEU增益。然后，我们测试他们提出的探测任务，以检查“真正”的MMT的基于颜色的探测表3示出了基于颜色的探测任务的准确度。我们看到，精度提高的门控融合方法是边际的限制和放松的标准。然而，用ViT取代ResNet在三个测试中获得了超过8个准确点#模型特征英语→法语测试2016Tes→t2017MSCOCO测试2016测试2017MSCOCO1微小-41.0268.2233.3662.0529.8856.6461.8081.0253.4675.6244.5269.432双ATTResNet41.4568.0433.9561.8329.6356.2161.9981.1253.7275.7145.1670.253想象力ResNet41.3168.0632.8961.2929.9056.5761.9081.2054.0776.0344.8170.354UVR-NMTResNet40.79-32.16-29.02-61.00-53.20-43.71-5门控融合ResNet41.9667.8433.5961.9429.0456.1561.6980.9754.8576.3444.8670.51+v：mala2277获取更多论文系统测试2017MSCOCO限制放松限制放松限制放松英语→德语纯文本Transformer25.9334.4222.5735.7018.7523.44门控融合+ResNet门控融合+ViT选择性Attn + ViT27.23（↑1.30）35.08（↑9.15）51.20（↑25.27）35.51（↑1.09）42.48（↑8.06）64.71（↑30.29）23.10（↑0.53）25.46（↑2.89）31.76（↑9.19）37.01（↑1.31）41.73（↑6.03）53.54（↑17.84）21.88（↑3.13）25.00（↑6.25）43.75（↑25.00）25.00（↑1.56）31.25（↑7.81）56.25（↑32.81）英语→法语表3：当应用基于颜色的探测时MMT系统的准确度系统测试2017MSCOCO限制放松限制放松限制放松英语→德语纯文本Transformer59.4964.0558.5662.5360.9465.62Gated Fusion + ResNet门控融合+ ViT选择性Attn + ViT60.06（↑0.57）66.33（↑6.84）73.04（↑13.55）64.91（↑0.86）70.76（↑6.71）78.89（↑14.84）56.08（↓2.48）67.00（↑8.44）70.97（↑12.41）59.06（↓3.47）71.46（↑8.93）77.17（↑14.64）61.72（↑0.78）71.09（↑10.15）73.44（↑12.50）65.23（↓0.39）75.78（↑10.16）77.73（↑12.11）英语→法语表4：MMT系统在应用基于字符的探测时的准确度设置En-De任务。在En-Fr任务上观察到类似的改善这一发现表明，较强的视觉特征有助于表征视觉信息。此外，选择性注意可以更好地利用ViT特征，在三个测试集上实现了20多个准确率增益这验证了选择性注意可以进一步增强ViT特征的融合表示的猜想表4显示了与表3中类似的结果。在大多数情况下，选择性注意力的 ViT 表现最好，在MSCOCO数据集上仅略逊于门控融合+ViT而具有ResNet特征的门控融合它甚至不如纯文本的Transformer，尽管纯文本的Transformer经过了仔细的正则化。一种可能的解释是，基于字符的探测任务比基于颜色的探测任务更具挑战性，因为模型更难以找到掩蔽字符词的正确对应区域并向文本编码器提供有用信号。基于名词的探测图2绘制了基于名词的掩蔽的结果。再次验证了上述猜想。蓝色和红色的直方图表示En-De和En-Fr任务的结果。在两种语言对上的所有掩码方法中，ViT功能可以显著优于ResNet功能我们还观察到，随着更多的名词被掩盖，ResNet和ViT特征之间的差距逐渐扩大这证实了（Dosovitskiy et al. ，2021年）。4分析4.1视觉特征如何改善MMT我们进一步探讨模型容量的影响。在这里，我们报告了ViT和Swin Trans- former的结果，我们的推测是，更大的ViT/Swin模型可以更准确地描述图像，这使得文本编码器能够接收更丰富的补充信息。图3描绘了进行式名词掩蔽场景中的BLEU分数直观地，更大的ViT和Swin模型提供了更多的补充知识，以完成不足的文本表示。尽管如此，一个违反直觉的现象是，在相同配置的所有场景中，Swin都处于劣势，尽管它在大多数计算机视觉基准测试中的表现优于ViT。我们将其归因于补丁序列的短长度在补丁中，ViT具有577（576序列）的长度纯文本Transformer30.7233.1234.9138.8523.4429.69门控融合+ResNet门控融合+ViT选择性Attn + ViT32.68（↑1.96）45.53（↑14.81）62.96（↑32.24）35.51（↑2.39）50.76（↑17.64）68.85（↑35.73）32.55（↓2.36）45.41（↑10.50）49.34（↑14.43）35.17（↓3.68）52.23（↑13.38）55.38（↑16.53）17.19（↓6.25）34.38（↑10.94）43.75（↑20.31）23.44（↓6.25）43.75（↑14.06）53.12（↑23.43）纯文本Transformer63.4865.4861.0462.5364.8467.19门控融合+ResNet门控融合+ViT选择性Attn + ViT61.63（↓1.85）73.47（↑9.99）78.89（↑15.41）63.62（↓1.86）75.89（↑10.41）81.31（↑15.83）63.52（↑2.48）76.43（↑15.39）78.16（↑17.12）65.01（↑2.48）77.92（↑15.39）79.65（↑17.12）64.45（↓0.39）80.47（↑15.63）79.69（↑14.85）66.80（↓0.39）82.81（↑15.62）81.64（↑14.45）+v：mala2277获取更多论文××门控融合+ResNet：门控融合+ViT_大号：选择性Attn+ViT_Large：373635340掩模-155543253305251 2810面罩-23048284626244410掩码-34428422640 243822362010403530面具-41(a) 测试结果201630292827260掩模-147 2546 2445 2344 2243 211022402038183616面具-210掩码-32036341832301628103025面具-41(b) 测试结果262524230掩模-139 2238372036183510面罩-2203432183016281410掩码-330 18281626241422 12102520面具-41(c) 关于MSCOCO图2：表2中的系统5-7在三个测试集上与有限文本上下文的比较。蓝色/红色柱分别表示En-De和En-Fr任务的评价结果我们展示了三个MMT模型的BLEU分数与不同的掩蔽粒度。阴影表示由纯文本Transformer获得的分数Swin_Tiny：Swin_Small：Swin_Base ：Swin_Large：ViT_Tiny：ViT_Small：ViT_Base：ViT_Large：37岁0三十六。0三十五0三十四0掩码-1三十三032岁031岁030.0第二十九章。0面罩-230.0第二十九章。028岁027岁026岁0掩码-328岁026岁024岁0面具-4图3：在En-De Test 2016上，不同容量的ViT/Swin MMT模型的BLEU得分[%]DETR：QueryInst：CATR：ViT_Tiny：37岁0三十六。0三十五0三十四0掩码-132岁031岁030.0第二十九章。028岁0面罩-2第二十九章。028岁027岁026岁0二十五0掩码-326岁0二十五024岁023岁022号。0面具-4图4：En-De Test 2016上各种视觉特征的BLEU分数[%]当图像分辨率和补丁大小为384 384时，十六十六然而，Swin具有固定的序列长度(49)受移位窗口操作的限制。这导致ViT的更细粒度的局部特征，这有利于选择性注意机制提取更多相关片段。4.2学习目标然后，我们研究了增强的视觉特征对MMT的影响。先前的研究已经尝试利用物体检测特征（Zhao等人，，2020; Wang和Xiong，2021）BleuBleuBleuBleuBleu+v：mala2277获取更多论文但这里的观察略有不同。除了对象检测预训练特征之外，我们还考虑了图像字幕任务。表2中的表11-13总结了标准MMT数据上的三个增强视觉特征的结果，图4描述了不充分文本的结果。在这里，我们选择基于ViT-Tiny的模型进行比较，因为它们拥有类似的模型容量3.我们看到，不仅对象检测（DETR和QueryInst），而且图像字幕（CATR）预训练fea，3只有256隐藏大小的预训练视觉模型可用+v：mala2277获取更多论文系统贴片雷索冷。颜色探测角色探索名词探测限制放松限制放松掩膜1掩模2掩模3掩膜4ViT16× 1616× 1632× 3232× 3238457649.6764.4974.3279.4636.5932.0829.4727.29ViT22419650.1161.8768.4774.3236.2731.4929.7026.51ViT38414449.0263.1870.1976.0335.5330.5028.2826.20ViT2244948.8061.0068.1973.4735.1430.3028.1225.19Swin4× 42244943.5754.4770.0475.1836.1230.9127.5225.89表5：En-De（Test 2016）探测任务的各种分辨率和补丁大小的比较一个男孩在鸭子中间的树叶上玩耍。一个小男孩，在一个小男孩的怀抱里，一个女人拿着一个白色的小雕像。MASK：A[MASK_P]持有一个小[MASK_C] [MASK_N]。图5：384×384vs224×224分辨率和16 ×16贴片的ViT注意力图。当文本完整时，与ViT-tiny（第8行）相比，tures获得了更好的性能。这与以前的研究结果一致（Yin et al. ，2020; Zhao et al. ，2020）。然而，当切换到有限的文本场景时，这些优势并不持久一种可能的解释是，这些方法对提取对象的质量我们把它作为未来的工作。4.3分辨率和补丁大小众所周知，更高的分辨率有利于计算机视觉任务中的准确性提高（Dosovitskiy et al. ，2021年）。尽管Transformer架构取得了成功，但最近的研究表明，ViT的成功主要来自于补丁模式的成功使用（ Dosovitskiy et al. ， 2021年）。在这里，我们比较MMT系统与不同的分辨率和补丁大小的基础上ViT-Base。三个探测任务的结果（见表5）再次证实了上述假设，即细粒度的视觉特征更适合选择性注意。此外，图5中可视化的注意力地图表明，具有细粒度补丁模式的高分辨率可以关注每个掩蔽标记的图像的正确区域例如，两个模型都对被掩蔽的字符和名词给予了正确的注意，但是具有低分辨率的模型不能检测到被掩蔽的字符和名词。正确的颜色区域。这里的发现可能会揭示其他多模态任务，如VQA。4.4不一致解码不一致解码是一种广泛使用的方式来评估视觉模态是否有助于文本（Caglayan et al. ，2019年，2021年）。表6显示，除了ResNet功能之外，不一致解码会导致明显的BLEU下降。ViT通过门控融合击败了ResNet它产生更高的BLEU 分数与全等解码，并表现出更大的BLEU下降与不全等解码。我们还发现，从头开始学习的ViT功能也对视觉模态不敏感。这是合理的，由于Multi30K的数据稀缺，学习的视觉系统不够强大。因此，视觉模态的行为更像噪声信号。此外，在预训练选择性注意+ViT的实验结果中，一致性和不一致性解码的差异逐渐变大。我们还调查了是否合奏视觉功能可以帮助。具体地说，我们选择ViT和CATR来独立地生成与文本特征的融合表示，然后在它们的基础上获得集成特征我们看到，集成视觉特征在全等解码上表现最好，并且实现了最大的224× 224384× 384+v：mala2277获取更多论文系统掩膜1掩模2掩模3掩膜4Cong.艾康Cong.艾康Cong.艾康Cong.艾康变形金刚34.37-29.12-24.03-21.64-Gated Fusion + ResNet预训练34.9034.8828.9428.0824.1822.5621.7420.79门控融合+ViT预训练35.6133.7730.4025.4327.5819.7925.3016.66选择性Attn + ViT预训练划痕36.5934.9132.8834.8132.0828.9125.5828.9129.4723.4020.4223.4027.2919.6315.8019.63选择性Attn + DETR预训练35.5433.9229.6127.2026.0621.6523.9418.88选择性收件人+CATR预训练36.1733.1331.1526.4027.5820.7225.5016.98选择.联系人+ ViT + CATR预训练36.9732.9832.4524.7130.3019.9228.1416.09表6：不一致解码对名词掩蔽策略的影响在这里Cong./艾康分别表示在En-De Test 2016上测量结果（BLEU[%]一个穿着绿色衬衫的棕色头发的人在户外吹喇叭。REF：一个带着棕色头发的男人，在一个绿色的舞台上自由地演奏着小号。MK：一个棕色头发的[MASK_P]在[MASK_C][MASK_N]中在户外玩[MASK_N]。CNN：一位布朗哈里奇女士在自由的吉塔里表演一场腐烂的舞蹈。（一个穿着红色连衣裙的棕发女人在户外弹吉他VIT：一个头脑简单的人在一个绿色的房间里演奏自由的长号。（一个穿着绿色衬衫的棕色头发的男人在户外吹喇叭。）一个男孩靠在一辆车上，车盖上有花。参考：一个小男孩学的是一辆汽车，它的发动机上有一个轮子。一个[MASK_P]依赖于一个[MASK_N]，而[MASK_NS]依赖于[MASK_N]。CNN：一个男人在大街上拿着一根魔杖。（一个男人靠在街上有树的墙上。）生命：一种能让你的车在你的车里开花的东西。（一个孩子倚在人行道上摆满鲜花的汽车上。）表7：两种复杂情景的定性实例。删除线和粗体字表示不正确和正确的词汇选择。下划线表示可接受但不完全正确的翻译。与其他系统相比，BLEU在四个掩蔽场景上存在差距。这些结果再次表明，更强的视觉环境确实有帮助。4.5为例最后，我们比较了几个真实的案例。我们选择门控融合（CNN）（Wu et al. ，2021）和选择性注意+ ViT_Base（ViT）用于比较。表7中的定性示例表明，如果文本不充分，视觉模态是补充而不是冗余的。为了判断德语翻译是否正确，我们提供了人工翻译结果。首先，我们看到表7的上半部分情况，ViT可以填充掩蔽的实体并生成正确的翻译，即使四个实体被掩蔽。不幸的是，CNN错误地将该男子判断为女性。此外，由于背景复杂，它无法区分衬衫的正确颜色。当给定更复杂的图像（下半部分情况）时，ViT生成正确的翻译仍然是一个挑战这里的观察启发我们设计一种更强大的融合方法。此外，数据稀缺性问题是阻碍跨模态翻译质量进一步提高5相关工作多模态机器翻译是机器翻译领域的一个早期的尝试主要集中在通过更好地结合视觉特征来增强 MMT模型（ Calixto 和 Liu， 2017;Elliott 和Kádár，2017;Delbrouck和Dupont，2017）。然而，直接对整个图像特征进行编码会给文本带来额外的噪声（Yao和Wan，2020; Liu等人，2019）。，2021a）。为了解决上述问题，Yao和Wan（2020）提出了一种多模态自我注意，以考虑两种模态之间信息的相对差异类似地，Liu et al. （2021a）使用Gumbel Softmax来实现相同的目标。研究人员还意识到，视觉模态可能是多余的。不相关的图像对翻译质量的影响很小，即使没有图像，也没有观察到显著的BLEU下降（Elliott，2018）。令人鼓舞的结果出现在+v：mala2277获取更多论文Caglayan et al.（2019）的工作。他们指出，当语言语境缺乏时，视觉模态仍然有用，但当暴露于完整的句子时，视觉模态就不那么敏感最近，Wu等人（2021）将MMT任务的BLEU增益归因于正则化训练，他们再次强调了构建适当的不充分文本输入的必要性。值得注意的是，所提出的探测任务是基于先前工作的改进版本（Caglayan et al. ，2019; Wu et al. ，2021年）。我们还开源了预处理的数据和相应的脚本，供后续研究人员进行实验。另一个研究方向是探索大规模的跨模态预训练模型。以这种方式，MMT任务被视为下游任务。例如，CLIP（Radford et al. ，2021）是通用的跨模态预训练模型，其经由自然语言提示学习执行各种各样的任务。 Caglayan等人（2021）提出了一种MMT特定的预训练模型，该模型将翻译语言建模与掩蔽区域分类目标相结合。在这项工作中，我们做了一个系统的研究是否更强的视觉功能是有帮助的。我们还将研究扩展到增强功能，如对象检测和图像字幕，这是对以前工作的补充6结论在这项工作中，我们表明，更强的视觉功能（例如，类ViT模型）加强MMT系统对三个建议的探测任务。我们提出了一种选择性注意力方法的ViT为基础的模型，以更好地利用补丁级表示。这里的结果显示了为多模态任务开发更好的视觉模型的一系列有前途的研究据我们所知，这是第一次尝试只使用Transformer构建MMT系统。在未来的工作中，我们愿意研究是否可以使用一组参数来编码视觉和文本模态。致谢这项工作得到了中国国家科学基金的部分支持（Nos. 61732005和61876035）、国家重点研发项目（编号：2019QY1801）、中国HTRD中心项目（编号：2020AAA0107904）和云南省重大科技专项计划项目（编号：2019QY1801）。201902D08001905和202103AA080015）。作者感谢匿名评论者的宝贵评论。并感谢蒋宇凡先生对改进论文的帮助.引用Ozan Caglayan，Loic Barrault，and Fethi Bougares.2016. 神经机器翻译的多模态注意力。CoRR，绝对值/1609.03976。Ozan Caglayan ， Menekse Kuyu ， Mustafa SercanAmac ， Pranava Madhyastha ， Erkut Erdem ，Aykut Erdem，and Lucia Specia.2021. 多模态机器翻译的跨语言视觉预训练。在计算语言学协会欧洲分会第16届会议的会议上：主卷，第1317-1324页，在线。计算语言学协会。Ozan Caglayan ， PranavaMadhyastha ， LuciaSpecia，and Loïc Barrault. 2019. 探讨多模态机器翻译对视觉语境的需求。在计算语言学协会北美分会2019年会议的开幕式上：人类语言技术，2019年1月1日（长论文和短论文），第4159-4170页，明尼苏达州明尼阿波利斯市。计算语言学协会。Iacer Calixto和Qun Liu。2017. 将全局视觉特征转换为基于注意力的神经机器翻译。2017年自然语言处理经验方法会议论文集，第992-1003页，丹麦哥本哈根。计算语言学协会。NicolasCarion 、 FranciscoMassa 、 GabrielSynnaeve、Nicolas Albernier、Alexander Kirillov和Sergey Zagoruyko。2020.使用变压器进行端到端的物体检测。在计算机视觉- ECCV 2020 -第16届欧洲会议，格拉斯哥，英国，2020年8月23日至28日，会议记录，第一部分，计算机科学讲义第12346卷，第213-229页。斯普林格。让·伯努瓦·德尔布鲁克和斯特凡·杜邦。2017. 多模态神经机器翻译中图像有效性的实证研究。在2017年自然语言处理经验方法会议上，第910-919页，丹麦哥本哈根。计算语言学协会。Alexey Dosovitskiy 、 Lucas Beyer 、 AlexanderKolesnikov、Dirk Weissenborn、Xiaohua Zhai、ThomasUnterthiner 、 MostafaDehghani 、Matthias Minderer 、 Georg Heigold 、 SylvainGelly、Jakob Uszkoreit和Neil Houlsby。2021.一张图片值16x16个单词：变形金刚

下载后可阅读完整内容，剩余1页未读，立即下载