没有合适的资源?快使用搜索试试~ 我知道了~
432110482X英文编码器法语解码器y“$s&p,*=SCE*/,*一个戴着橙色帽子的男人无监督多模态学习英语嗯…看起来编码器图像编码器佛:一个有着帽子的男人...英文编码器培训英语解码器x“的Xx0的$1&23,4=SCE/,���→*6→���$7879:10,4=SCE=图像编码器y0Frenc h编码器法语解码器y0副本自动编码损失训练循环一致性损失训练因为两次训练失利−ǁ||无监督多模态神经机器翻译美国南加州suyuanhang@hotmail.com范凯(Kai Fan)阿里巴巴集团(美国)interfk@gmail.com阿里巴巴集团有限公司(美国)nguyenbh@gmail.comC.- C.南加州cckuo@sipi.usc.edu黄飞阿里巴巴集团有限公司(美国)feirhuang@gmail.com摘要监督学习一个戴橙色帽子的男人无监督神经机器翻译(UNMT)最近取得了显着的成果[20],每种语言只有大型单语语料库。然而,由于目标与源语句之间关联的不确定性,使得UNMT在理论上是一个不适定问题。这项工作研究了利用图像消除歧义以提高UNMT性能的可能性。我们的算法直观地基于图像的不变性质,即,不同语言对同一可视内容的描述应该大致相似。提出了一种基于图像的语言翻译循环一致性损失的无监督多模态机器翻译(UMNMT)框架,旨在同时学习双向多模态翻译。盯着什么东西平行En-Fr语料库FR:一个男人有一个帽子橙色的橙色的选择通过多模态和单模态之间的交替训练,我们的推理模型可以翻译或不翻译图像。在广泛使用的Multi30K数据集上,我们的方法在2016年测试数据集上的实验结果明显1. 介绍我们的长期目标是建立能够感知视觉环境和理解语言信息的智能系统,并进一步对另一种语言进行准确的翻译推理 由于图像已经成为人类学习和获取知识的重要来源(例如,视频讲座,[1,18,32]),视觉信号可能能够消除某些语义的歧义。使图像内容更容易和更快地被人类理解的一种方法是将其与可以自我解释的叙事描述相结合。这对于*表示同等贡献。†通讯作者。图1:我们提出的方法的说明。我们杠杆年龄设计的损失函数,以解决监督任务与非监督数据集只。SCE是Sequential Cross Entropy的缩写。许多自然语言处理(NLP)任务,如图像标题[27]和一些特定任务的翻译然而,[24]表明,大多数多模态翻译算法并不明显优于Multi30K数据集的现成纯文本机器翻译(MT)模型[12]。翻译模型应该如何利用视觉语境仍然是一个悬而未决的问题,因为从信息论的角度来看,两个随机变量I(X,Y)的互信息将永远不大于I(X;Y,Z),由于以下事实I(X;Y,Z)I(X;Y)=KL(p(X,Y,Z)p(XY)p(Z Y)p(Y)),其中Kullback-Leibler(KL)发散是非负的。这结论使我们相信,视觉内容将有望帮助翻译系统。法语解码器432110483↔↔由于多模态翻译的标准范式总是将问题视为监督学习任务,因此并行语料库通常足以训练出良好的翻译模型,并且来自额外图像输入的增益非常有限。此外,包括图像和相应的多语言文本描述的良好形成的数据集的稀缺性也是防止更大规模模型的发展的另一个约束为了解决这个问题,我们建议将多模态翻译问题表述为一个无监督学习任务,这更接近于实际应用。考虑到每天产生的大量成对图像和文本数据(例如,新闻标题及其插图)。我们的想法最初受到纯文本无监督MT(UMT)的启发[8,19,20],研究是否可以在没有任何形式的监督的情况下训练通用MT系统。正如[20]所讨论的,纯文本UMT基本上是一个不适定问题,因为有许多潜在的方法将目标与源句子相关联。由于视觉内容和语言密切相关,因此图像可以在没有语料库的情况下扮演枢纽“语言”的角色来桥接两种语言,通过将问题简化为监督学习来然而,与涉及单词生成(通常是离散分布)的文本翻译不同,从句子描述本身生成密集图像的任务是一个具有挑战性的问题[21]。高质量的图像生成通常取决于复杂或大规模的神经网络架构[23,13,30]。因此,不建议将图像数据集用作枢轴受循环一致性[31]的启发,我们使用多模态框架来处理无监督翻译,该框架包括两个序列到序列编码器-解码器模型和一个共享图像特征提取器。我们在我们的框架中有五个模块,在计算图中有多个数据流路径,导致自动编码损失和循环一致性损失,以实现无监督翻译。无监督多模态翻译的另一个挑战,更广泛地说,对于一般的多模态翻译任务,是需要开发一个合理的多源编码器-解码器模型,该模型能够处理多模态文档。此外,在训练和推理阶段,最好处理包括单模态和多模态语料库的混合数据格式。首先,这一挑战高度依赖于不同领域的注意力机制 。递 归 神 经 网 络 ( RNN ) 和 卷 积 神 经 网 络(CNN)分别适用于语言文本和视觉图像的编码;然而,RNN的编码特征具有自回归特性,这与对CNN的依赖多头自注意力转换器Transformer [26]可以模拟卷积运算,并允许每个头使用不同的线性转换,其中不同的头可以学习不同的关系。与RNN不同,它将从高层到低层中所有状态的状态路径长度减少到一个,从而促进更有效的学习。例如,BERT模型[9]完全建立在自我注意的基础上,在11个自然语言任务中取得了显着的表现。因此,我们在模型的文本编码器和解码器中使用了Transformer,并设计了一种新的联合注意机制来模拟三个域之间的关系此外,混合数据格式需要期望的注意力来支持灵活的数据流。换句话说,在每次迭代中获取的批次可以是单模态文本数据或多模态文本-图像配对数据,从而允许模型在推理期间适应各种数据。简而言之,我们的贡献有三个方面:(1)将多模态机器翻译问题转化为更符合实际情况的无监督集合,提出了一种基于端到端Transformer的多模态模型。(2)我们提出两个技术贡献:成功地训练了具有自动编码和循环一致性损失的模型,并设计了一个可控注意力模块来处理单模态和多模态数据。 (3)将我们的方法应用于多语言Multi 30K数据集的英语法语和英语德语翻译任务,翻译输出和注意力可视化表明,额外图像的增益在非翻译任务中是显著的。监督设置2. 相关工作我们把我们的工作的背景下,安排几个以前流行的话题,沿轴的城市轨道交通,图像字幕和多模态MT。无监督机器翻译在这一领域的现有方法[2,19,20]主要是编码器-解码器模式的修改他们的主要想法是建立一个共同的在两种语言(或域)之间的潜在空间,并通过在两个域中重构来学习翻译。多模态翻译的难点在于涉及到另一个视觉域,它与语言域有很大的不同图像和文本作为两个文本域,它们之间的交互通常是不对称的.这就是为什么我们要谨慎对待注意力模块的原因。大多数标准的图像字幕模型都建立在基于CNN-RNN的编码器-解码器框架上[17,27],其中视觉特征从CNN然后输入RNN输出字序列作为标题。由于我们的语料库包含图像-文本配对数据,我们的方法也从图像标题建模中得到启发。 因此,我们还将图像标题模型嵌入到432110484|∈X×Y×I--∈ X ×Y∈X ×I∈Y ×IXX → Y X → Y--不t−1不1n1Kn江村我们的计算图,而Transformer架构被采用作为RNN的替代。多模态机器翻译这个问题首先由[24]在自然语言处理和计算机视觉的交叉点上的WMT 16共享任务上它可以被认为是建立一个多源编码器的顶部MT或图像字幕模型,取决于额外源的定义大多数多模态MT研究仍然集中在[5]这样的监督设置上,而[7,22],据我们所知,是考虑将多模态MT推广到无监督设置的两个开创性工作 但是,它们的设置对输入3.2. 多模态神经机器翻译在这个任务中,图像z和两种不同语言的图像描述形成一个三元组(x,y,z)。. 问题自然变成最大化新的可能性p(y x,z)。 虽然这种翻译任务的总体框架仍然是编码器-解码器架构,但详细的特征提取器和注意力模块由于额外的源图像,可能会有很大的不同。传统方法[24,10]是分别对源文本和图像进行编码,并在高级特征处将它们组合,其中图像特征图可以表示为我我数据格式 例如,[7]要求训练数据是图像文本对,但推理数据是纯文本输入,并且[22]需要图像文本对格式用于训练和测试。这些限制了模型的规模和泛化能力,因为大量的单语语料库更容易获得,更便宜。因此,在我们的模型中,我们专门解决了这个问题,可控的注意力和替代培训计划。3. 方法在本节中,我们首先简要描述了我们的方法所基于的主要MT系统,然后详细介绍了我们的方法。3.1. 神经机器翻译如 果 双 语 语 料 库 可 用 , 则 给 定 源 句 子 x=( x1 , ... , xn ) , 以 及 翻 译 后 的 目 标 句 子 y =(y1 , ... ,ym ) , 其 中 ( x , y ),NMT模型旨在最大化可能性,Σmh1,… HK= Enc z(z),并且Enc z通常是截断的im。年龄分类模型,如Resnet [16]。与文本特征的数量(其正好是源中的令牌的数量)不同,图像特征的数量取决于截断网络中的最后一层我们建议通过注意力模块计算上下文向量,ct=注意(hd,{he,.,he},{hi,...,hi})(3)由于在等式(3)中出现了三组特征,因此注意力机制比纯文本NMT有更多的选项。解码器可以以递归方式保持相同。3.3. 无监督学习无监督问题需要一个新的问题定义。在源侧和目标侧,在训练数据中仅呈现单语言文档,即,数据以(x,z)和(y,z)。三元组数据格式不再是available.目的是学习多模态翻译模型或纯文本。注意,两种语言之间没有显式的配对信息,p(y|x)=t=1p(yt|y
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功