没有合适的资源?快使用搜索试试~ 我知道了~
多语言视觉对齐:通过图像进行无监督机器翻译的新方法
16474�自転車自行车环球旅行者:通过连接图像连接语言哥伦比亚大学didac. columbia.edu戴夫·爱泼斯坦加州大学伯克利分校dave@eecs.berkeley.edu卡尔·冯德里克哥伦比亚大学vondrick@cs.columbia.edu摘要同时在多种语言之间进行机器翻译具有很大的挑战性,因为使用地面实况的训练需要在所有语言对之间进行监督,这是很难实现的。我们的关键见解是,虽然语言可能会有很大的不同,但世界的潜在视觉外观仍然是一致的。我们介绍了一种方法,使用视觉观察,以弥合语言之间的差距,而不是依赖于平行语料库或拓扑性质的表示。我们训练了一个模型,当且仅当与它们相关联的图像相似并且每个图像都与其文本描述很好地对齐时,该模型才能对齐来自不同语言的文本片段。 我们在一个新的文本数据集上从头开始训练我们的模型,该数据集包含50多种语言和附带的图像。实验表明,我们的方法优于以前的工作,无监督的单词和句子翻译使用- ING检索。代码、模型和数据可在globetrotter.cs.columbia.edu上获取1. 介绍60多年来,研究人员一直在构建机器翻译模型,将一种语言的输入句子转换为另一种语言的等效句子近年来,序列到序列深度学习模型已经超过统计方法,成为该领域的最新技术,并具有广泛的实际应用。然而,这些模型需要所有语言对的大型监督平行文本语料库,这是昂贵的收集和不常见的对往往不切实际。我们不是试图手动收集这些基本事实,而是使用对世界来说很自然的监督来源:它一致的视觉外观。虽然语言可以采取许多形状和形式,但视觉观察是普遍的,如图所示。1.一、这个属性可以自由地利用来学习世界上不同语言之间的对应关系,而无需任何跨语言的监督。由于我们可以了解两个图像彼此之间的相似程度[12],以及图像与文本的兼容图1.虽然每种语言都用不同的词来表示自行车,但其潜在的视觉表示仍然是一致的。在英国、法国、日本和印度,自行车也有类似的外观。我们利用这种自然属性来学习对齐的多语言表示,用于机器翻译,而无需配对训练语料库。描述[36],我们可以引入一个传递关系来估计两个句子彼此之间的相似程度:当(且仅当)每个句子与其图像匹配,并且两个图像匹配,则两个句子也应该匹配。我们提出了一个多模态对比的方法来解决这个问题,使用视觉之间的桥梁,否则不相关的语言。在我们的实验和可视化中,我们表明通过视觉的传递关系为学习机器翻译提供了很好的自我监督。虽然我们在没有配对语言数据的情况下训练我们的方法,但我们的方法能够在52种不同语言之间进行翻译,比几种基线更好。在学习过程中,视觉对于我们的方法是必要的,但在推理过程中,视觉是不依赖的在学习语言表示之后,我们的方法可以使用检索来翻译单个单词和完整的句子。我们的贡献是三方面的。首先,我们提出了一种方法,利用语言和视觉之间的跨模态对齐来训练一个没有任何平行语料库的多语言翻译系统第二,我们表明,我们的方法优于以往的工作,由一个显着的利润,句子和单词的翻译,我们使用检索测试翻译。最后,为了评估和分析我们的方法,我们发布了一个联邦多模态数据集,跨越52个不同的16475我ik我 JΣΣΣ不同的语言总的来说,我们的工作表明,视觉中的基础语言产生的模型在不同语言之间的鲁棒性要高得多,即使在没有基础事实平行语料库的情况下也是如此代码、数据和预训练模型将被发布。2. 相关工作我们的无监督联合视觉和多语言模型建立在自然语言处理和计算机视觉社区的最新进展之上。我们简要总结了前期工作。在[34]中,无监督语言翻译已经被研究为单词表示对齐问题,其中两种未配对语言的单词嵌入的分布被对齐以最小化它们之间的统计距离[1,32,33,35]建立在这个想法之上,并训练一个编码器-解码器结构来加强语言翻译之间的周期一致性。该方法实现了强大的无监督单词翻译结果,但不扩展到两种语言。它也没有在学习中利用视觉信息,限制了表现。多语言模型是一种通用的语言模型,它开发了独立于语言的体系结构,对任何语言都同样有效[26]。[2,15,18,32,39,42]在不同的语言中共享相同的令牌嵌入,这表明这改进了一般下游单语言NLP任务的语言建模以及跨多种语言的监督语言翻译。[2,15,32]使用共享字节对编码(BPE),我们在工作中使用它。我们松散地遵循[15]的架构,因为我们使用BPE训练基于transformer的[50]掩蔽语言模型。视觉作为多模态桥梁意味着使用视觉作为一个其他的工作把输入的图像看作是翻译的额外信息[例如10,48],我们建议读者[47]对这个主题进行广泛的概述。使用语言之间的配对数据,而不是使用图像作为桥梁。也有研究针对下游视觉任务训练多语言语言表征,杠杆化视觉语言对应,但没有将翻译作为目标。与本文不同的是,他们使用了地面真值语言对[9,25,30,52]。通过检索进行翻译。我们使用基于检索的机器翻译[5,38]来评估表示,通常用于基于示例的机器翻译[例如,6,7,8,16,21],类比为基础的翻译[例如,31、41],或者翻译存储器[例如,4、11、19、51]。最先进的跨语言检索方法依赖于有监督的语言对,并且范围从在标准对比学习设置中训练模型[14]到更复杂的语言对组合,例如交叉注意[40]或使用自定义融合层[22]。我们的方法不需要监督语言对。3. 方法我们提出了一种方法,学习映射单词和句子从一种语言到语义相似的单词和句子从不同的语言,同时为大量的语言。我们的方法不需要任何语言之间的配对数据,而是只依赖于图像语言对。图2提供了我们的框架的概述。3.1. 句子嵌入我们的方法学习了一个对齐的嵌入空间,跨语言时态 设zl∈RD是学习的em-所有语言之间的中间语。 使用第三种语言作为一个支点,在两种语言之间进行翻译,判决的铺垫我i(l代表语言),通过源-目标配对语料库已被广泛研究通过语言网络Θ1处理所述文本。更多-其中,设βij为句子zl和zl之间的相似度,[例如,23、24、29]。[3,27]使用视觉为同一目的,我j直接对语音波形而不是文本进行操作[13]使用图像来帮助在文本模态中进行语言之间的翻译。他们的模型涉及生成和再学习,这使得优化变得困难,并且他们不会推广到两种以上的语言。Sig-Urdsson等人 [46]也使用视觉作为无监督单词翻译的支点。然而,与他们的方法不同的是,我们的模型并不局限于依赖于广泛的视觉监督进行预训练,也不局限于使用缺乏表达力的拓扑方法来将概念与语言联系起来。此外,我们的方法例如通过余弦相似性。我们的目标是学习嵌入z的参数,使得具有相同含义的句子被映射到嵌入空间中的相似位置,尽管它们是不同的语言。在学习之后,我们将有一个句子嵌入zl,我们可以用于各种任务,例如检索或生成不同语言的句子。我们通过优化对比学习问题来学习嵌入空间的参数:非常自然地同时扩展到多种语言(而不是两种),建模视觉和局域网之间的不一致,Lt=−αijij=iexp(βij/τ)logexp(β/τ)k=i(一)语言,关键是要学会在句子层面上而不仅仅是语言我们的实验定量地-其中β ij= sim。z l,zl对比两种方法,表明本文方法在词和句的翻译中都有较好的表现.在这个框架中,我们需要定义在学习的嵌入空间中哪些示例对应该接近(16476∈II−IIIJIJI1IJI2我1我2ΣIj其中αv=sim(z v,z v).图2.我们的模型通过视觉利用传递关系来学习对齐的嵌入空间以进行语言翻译。跨句子相似度βij由通过图像集合的路径估计。详情见第3节。(1)积极的,不应该的(消极的)。在上面的公式中,标量αij[0,1]表示该分配。然而,由于我们处于无监督翻译设置中,因此我们没有地面真值对。我们的主要想法,我们将在下一节介绍,是我们可以使用视觉模态来发现这些对。3.2. 传递关系在没有标签的情况下,估计不同语言的句子的相似性是具有挑战性的。无监督机器翻译方法通常依赖于拓扑属性,例如分布对齐或反向翻译[32,34]。然而,这些约束为学习提供了噪声梯度,这使得大规模优化变得困难。我们建议通过视觉模态利用传递关系来估计语言空间αij中的相似度。给定图像的数据集和它们对应的字幕,我们估计跨模态(图像-图像)相似性以及跨图像(图像-图像)相似性。设αx为跨模态相似度,它表示图像i与其对应的字幕i之间的对齐。我们还让αv是跨图像相似性,指示图像i和另一图像j之间的感知相似性。它提供了trans-作为相似IJIIIJJJ(二)标题,并且还有另一个图像具有密切的视觉相似性,将形成传递关系在现实场景中,在存在噪声的情况下,可能难以建立某些图像和字幕对的对应关系,我们的公式通过打破传递关系来处理。换句话说,我们只考虑具有高总相似性的路径作为对比目标的肯定,并且丢弃具有低总相似性的那些路径,因为它们的句子可能不匹配。3.3. 学习为了优化等式1,我们需要估计αx和αv。我们用神经网络对两者进行参数化,并训练它们直接估计相似性,也使用对比学习[12]。视觉相似性:我们共同学习视觉特征空间来估计αv。对于每幅图像,我们执行两次随机增强,从而产生同一图像的两个不同版本。运行这两个变换后的图像通过图像网络,以及其他N1对(在一批N个样本中)。这导致2N个特征图。对于每一对(i1,i2)具有表示zv和zv的图像,我们计算对比损失,其中所有其他2(N−1)个图像都是负数。我们使用损失函数:exp(αv/τ)L=− logΣα= f。αx·α v·αx≤1/3μm,vi1,i2j i1exp(αv1/τ)(三)其中f(x)=max(0,x-m)/(1-m),i j i j映象网文本网络16477∈我II而m是我们设置为m = 0的余量。4、防止相似度低的配对被用作阳性。注意α ij= α ji。传递性相似导致两种意义--不同语言中的时态如果出现在in similar类似visual视觉context上下文.最终的相似度在αij[0,1]范围内。只当图像与其v表示图像i的学习特征,通过图像网络Θv处理图像。我们使用随机图像裁剪来增强图像,高斯模糊和随机颜色失真,如[12]。跨模态相似性:我们还需要估计图像与其对应字幕之间的相似性αx。视觉表现锚定跨语言对齐-这种相似性限制了句子的嵌入z16478LΘΣi j ij0.70你知道吗?0.67 0.76바다에서 파도의상 단에서핑 보드를 타 这可是个好消息好吧ﺭ0.72ﻣﺣﻗﺭﻁﻋﺎﻙﻛﻣﺭﻭﻊﺑﺔﺏ0的情况。810.64���a)(一个穿着潜水服的人用冲浪板冲浪)你好(一名男子骑着冲浪板在海浪之上)(一辆火车引擎载着一辆额外的车沿着轨道行驶)(一列火车在桥下行驶)0的情况。940910.06一个达沃达巴布尔丁达,又名萨塞达加吉丹穆图姆,在吉扬桑达。c)(警方说,一辆被盗的摩托车从一个人的家中0.78 0.77בםצינמיסםיכםיריןצםכריעהיחםתםמתבקצאמעלתלי(标志指示跑步者在起跑时应该站在哪里)0.85je polnjenimedved,ki ima zdrevesa(有一个填充d)即将到来(一棵树)0的情况。05091法官团让我感到非常高兴。(一群人在沙滩上放风筝)0.220.19图3.我们展示了两个正匹配的例子(上)和两个负匹配的例子(下)。我们的模型使用顶部的三个分数训练其文本到文本的估计(底部)在测试时,它直接估计不同语言文本之间的相似性,而不需要视觉输入。使每种语言共享与图像嵌入相同的空间我们通过对比目标学习此相似性度量:Σ。exp(α x/τ)exp(α x/τ)IJJ纪被训练在句子层面上保持一致我们还可以通过将它们与单词对齐来进一步细化表示。为了获得单词级对齐,我们在学习的单词嵌入上使用Procrustes算法[ 43 ]:我们找到一个Lx=− 我日志exp(αx/τ)+logτ exp(αx/τ)从一个局域网的词嵌入的线性变换另一种语言的词嵌入的为了esti-其中α x= sim(z v,z l)。(四)匹配线性变换,我们遵循标准实践,通过找到k=5的互标记完形填空:我们最后也用一个to来训练模型-知识完形填空任务,以使语言表征的语境。我们遵循与BERT相同的损失和目标[18]在句子输入上。我们把这种损失标为C。完整目标:我们优化的最终目标是上面定义的所有四个损失的组合:minLt+λ1Lv+λ2Lx+λ3Lc(5)其中Θ是神经网络参数,λ是用于平衡项的标量超参数。在优化过程中,模型学习跨语言相似性度量β和传递相似性α。随着学习的进行,αij形成软正对和负对,模型使用它们来学习对齐的多语言表示。多语言表示的质量取决于我们的模型发现的传递对齐αij的质量。然而,由于对比对象依赖于大型数据集上的统计模式,因此我们的方法对噪声相当鲁棒,正如我们的实验所支持的那样。3.4. 优化字级对齐我们的方法在视觉和多种语言的句子之间学习了一个共同的嵌入空间,我们的实验将证明这为无监督机器翻译提供了一个鲁棒的表示这种表示是跨语言的词嵌入之间的最近邻然后,我们继续使用[49]中的Procrustes方法,该方法将原始算法扩展到两个以上的为了翻译单词,我们直接使用转换后的单词嵌入进行检索。3.5. 架构我们的方法使用两个分支架构,提取共享相同语义嵌入空间的文本和图像特征。我们在下面简要描述网络架构选择。我们建议读者参考补充材料以了解完整的细节。图像网络Θv:为了提取视觉特征,我们在图像上应用卷积网络我们使用ResNet- 18,使用ImageNet特征初始化[17,28],并在ResNet的最后一个隐藏层之后添加预测头。文本网络:我们使用神经网络来嵌入句子。我们使用一个编码器,在所有语言中共享单词嵌入,这已经被证明可以很好地扩展到多语言设置[2,15]。所有语言共享使用字节对编码创建的相同词汇表[44],这改善了共享相同字母表的语言之间嵌入空间的对齐[33]。然后我们使用[50]中的一个Transformer,它被所有语言共享。为了产生输出,我们添加一个预测头,并对输出进行归一化,以便||z||2=1。IIIIb)16479语言:拉脱维亚语天后们都很高兴,一个非常漂亮的女孩正在和其他女孩聊天。语言:希伯来语םימולהימןיאושינתוע语言:阿拉伯语اﺟﺔﻣﺗﻭﻗﻔﺔﺑﺟﺎﻧﺏ这是一个很好的例子。语言:阿姆哈拉语እናም እንደገናም ደስ ይለናል በኤልቪሽ选择语言:中文ERING个小姑娘跟着她的球踢。语言:俄语такие красивые语言:印尼语泰拉斯河谷语言:韩国외부에 침식לעםינזוםוአለባበሳችን እንደዚህ አይነት ቀለሞችሲታዘዝ ለመጀመሪያ ጊዜ ነው እናለእኛሳይታሰብ ቀይን ከብር ጋርበማዋሃድ ይህን የመሰለ አስደሳችውጤት አግኝተናል።акварельныецветыимогутбытьналюбых языках석회암과 침몰한 숲을 통로语言:西班牙语一朵鲜花插在门廊上。语言:泰语หอ้ งน'าํํ พร้อมฝักบวัอาบน'าํํติดกบหอ้งน'าํํละออาางะาํ้งาาน语言:波斯语دﻭﻣزادﺭﭘﻧﺟهﺭﺑﮫدﻭﻧﻔﺭ你知道的,我是说,语言:荷兰语当欧洲人骑着自行车在山顶上奔跑时,他们的孩子会打喷嚏。图4.我们展示了我们的数据集的一些例子见英文翻译的补充材料详情见第44. Globetrotter数据集为了训练和评估我们的方法,我们收集了一个跨越52种不同语言的图像和标题的联合数据集。完整的语言列表在Supple-PasteMaterial中。我们结合了三个字幕数据集,并使用来自Ama-zon Web Services的AmazonTranslate 进 行 翻 译 。 我 们使 用 来 自 Flickr30k [53],MSCOCO [37]和Conceptual Captions[45]数据集。联邦数据集中的语言是多样的,既包括来自人类注释者的标题,也包括从Web上获取的标题。我们在图中展示了一些例子。4.第一章该数据集总共包含410万个图像-标题对,英语句子平均长度为10.4个单词。我们将公开发布此数据集。我们将数据集分为训练集、验证集和测试集。我们进行分区,确保它们每个都包含一组不相交的图像和句子。我们使用315万个唯一的文本图像对进行训练,787k用于验证,78.7k用于测试。训练和验证分割包含对应于所有语言的样本,每个图像只有一种语言与之关联将测试集翻译为所有语言(相同的样本),以获得用于评估的地面实况对齐。我们进一步收集了一个测试集,由流利的演讲者翻译成11种不同的语言(见补充材料)的200个英语字幕,总共有2200个人工翻译。5. 实验评价我们的实验分析了我们的模型的语言翻译能力,并量化了视觉对学习过程的影响。我们称我们的模型为环球旅行者。5.1. 基线Sigurdsson等人[46]:与我们最接近的方法是[46],这是一种使用跨模态信息的无监督单词翻译的最先进方法。他们的起源-最终模型被训练为只在两种语言之间进行翻译,我们的实验使用了50多种语言。因此,我们通过为每种语言创建不同的单词嵌入和适配层,将他们的方法扩展到多种我们使用与我们的方法相同的词汇表,但为不同的语言训练Conneau Lample [32]:我们还比较了不使用视觉信息的最先进的无监督翻译方法。我们试验了几种基线,选择了性能最好的一种.该基线使用语言对之间的循环一致性(或回译)损失。我们在我们的数据集上同时训练所有M种语言的方法。我们最初尝试为所有M2语言对添加循环一致性约束我们随机选择了总共500万对,每种语言作为源语言出现五次,作为目标语言出现五次。我们也尝试了[34],但这比[32]更糟糕。纯文本模型:为了量化视觉的影响,我们还训练了一个模型版本,其中删除了所有图像和图像相关的损失,如[18]所示。该模型能够通过让不同的语言使用相同的标记来学习一些基本的跨语言概念。完全监督:为了理解非监督和监督方法之间的差距,我们使用配对语言语料库训练我们的方法。我们使用相同的框架,不同的是我们将成对句子的α值设置为1,将非成对句子的α值设置为常见评估设置:在我们的实验中,我们采用一个共同的评估设置来评估所有的模型。我们对所有模型进行200个epoch的训练,并在保持的验证集上选择最佳模型在所有情况下,在测试期间不使用视觉。16480−−−LLLL资料来源:西班牙文目标:俄罗斯目标:希伯来语Una vista aérea durante su remodelación重建期间的鸟瞰图Вид на город с бара на крыше从屋顶酒吧从屋顶露台你好,我是来找你的演员asiste al estreno de los angeles celebradoАктер посещает премьеру сезона你好,演员出席洛杉矶举行的首映式演员出席本季首映式人到达首映式Ilustración de la niña de dibujos animados en colornegro sobre el fondo blanco插图的卡通女孩在黑色的颜色在白色背景Hари с о в а н ный н с к и й с к и й с к л а с си й е с к и й д и в а н о в и н а ду с к а т и н ал е л о в а н е手绘素描与软经典沙发和枕头在白色背景你知道吗?一群十几岁的女孩表1.我们展示了一些通过我们的方法获得的翻译水平的例子英语仅用于可视化目的。仅限监督机会文本Lample Conneau(2019)Sigurdsson et al.(2019年)无LX仅限Chance文本Lample& Conneau(2019)Sigurdsson et al.(2019)环球旅行者(我们的)句级监督Globetrotter无吕0% 20% 40% 60% 80%(我们的)没有Lt无LC人工生成测试集检索到的阳性完整模型0% 20% 40% 60% 80%检索到的阳性百分比图5.我们在翻译水平上进行评估。我们的方法优于几个无监督的翻译基线。虽然无监督的方法仍然无法与完全监督的方法相匹配,但我们的方法使用了更少的监督。5.2. 句级翻译我们使用包含一组翻译成所有语言的句子的保留数据来评估句子翻译。我们通过检索给定查询的最接近的示例来生成翻译。从测试集中,我们随机选择200个字幕,所有M种语言,共200M句。这些句子中的每一个都被用作测试期间的查询,并且它具有M1个阳性(不同语言中的相同句子)。我们报告的指标是模型在所有200个M1可能选项中排名前M1为了给焦油分级-得到句子,我们计算它们与查询句子之间的相似度我们在图中示出了结果。五、我们的方法优于所有基线的显着保证金,强调跨模态的传递关系的效用。图5还报告了我们的框架消融时,没有训练的四个损失的每一个方程五、没有损失的训练(方程式5)3)或x(Eq.4)意味着打破图中所示的传递闭包2,这导致性能急剧下降t(等式1) 1)是使跨语言对齐显式的损失,但重要的是,它不需要通过视觉模态关闭传递关系。没有它的训练代表了一种考虑-图6.我们使用人工生成的测试集在翻译水平上评估我们的翻译在测试集中,11种语言的手动注释翻译的流利发言者。我们的方法在这个测试集上的表现也超过了几个无监督的翻译基线准确性可能会下降,但结果仍优于基线。最后,c也有助于最终性能,与先前的工作一致[32,39]。我们在表1中展示了一些句子翻译的例子。我们的方法适用于所有语言对,我们只是选择了一些用于可视化目的。这些例子展示了我们的方法如何根据语言的视觉语义来排列语言尽管对机器生成的翻译进行了训练,但我们的方法以最小的退化推广到自然人类语言。为了证明这一点,我们评估了Globetrotter数据集的人类翻译子集上的所有我们在图中报告了结果6,其中我们显示了人工翻译和机器翻译文本的准确性值我们使用与之前相同的度量,现在M=11。虽然所有方法的性能都有很小的下降,但我们的方法在人工生成的测试中也优于无监督基线。5.3. 词级翻译在[46]的评估之后,我们还评估了词级翻译。由于大多数语言对的词典都不容易对于每一对语言,我们发现哪些词在两种语言之间的句子中频繁出现参见补充材料。然后我们测试每一对语言百分之零点五8.9%15.6%56.7%9.0%九点五厘72.3%92.5%百分之六十八点四百分之六十三%+0.6%百分之一+2.6%3.1%+3.1%+百分之九十一70.8%+4个百分之五十一+百分之十五点二11.90.0%百分之零点五16481→→1.00I T1.00我不是17.7518.2243.7744.7556.61我57.53不37.8435.1167.5677.14我不66.19 76.11不资料来源:西班牙文(英文翻译)目标:俄文(英文翻译)目标:希伯来文(英文翻译)chica(女孩)(女孩)(妻子)השיאtenis(网球)网球的前缀网球(tennis)人物角色简体中文O(people)空气空气(air)背景(background)坎波领域在外地(in the field)béisbol(棒球)棒球(棒球)לובסייבespect(显示的前缀)展览(Show)事件(event)motocic(摩托车的前缀)摩托车(摩托车)摩托车)是(()载重汽车公共汽车在街上(In the street)宽边帽俄罗斯套服衬衫)是(הצלו男的жчина(мужчинаis man)Oדא(man)mientras(while)当(when)tıחאל(after the)par(两个,或前缀为夫妇)ара(夫妇)第二个 (The Second)街道外部(Outside)在街上(In the street)卡米诺(路径)海滩(Beach)[路径]表2.我们展示了西班牙语-俄语和西班牙语-希伯来语单词级翻译的例子所有词汇不相交词汇仅限Chance文本Lample& Conneau(2019)Sigurdsson et al.(2019)环球旅行者(我们的)句级监督普罗克鲁特斯之后+2.00+139.5744.05+11.3814.77+0。27.6725.46+2.84.98470.270% 11% 22% 33% 44%55%平均召回率@10+2.56+8.7118.24.87+626.20+10.1917.15+13.5011.102.320.278% 16% 24% 32%平均召回率@10图7.我们还评估单词级翻译。虽然我们的方法是在词级相似性上训练的,但词嵌入也学会了提供强大的词级翻译。这个结果可以用Procrustes进一步完善。机会Sigurdsson等人(2019年)Globetrotter(我们的)跨模态检索精度0% 25% 50% 75% 100%召回@1召回@5召回@105.4. 跨模式检索图像和文本表示之间的对齐对于我们的模型正确执行至关重要。我们通过从一种模态到另一种模态图 8显示了我们的模型和Sigurdsson等人的召回率。[46 ]第46段。对于每种语言,我们选择1000个文本图像对,并计算每一个对的Recall@K结果,使用其他对作为负数。我们从图像到文本和从文本到图像计算这些值,并使用K=1,5,10。我们报告的平均图8.跨模态检索结果。我们在[1,5,10]中显示了文本到图像(T I)和图像到文本(I T)的召回。我们比较了所有使用图像来执行翻译的模型分开对于每一个翻译,我们都在两个方向上评估检索 。 图 7 报 告 了 所 有 翻 译 对 和 所 有 语 言 对 的 平 均Recall@10。在右列中,我们从对列表中排除了两种语言中标记相同的那些对。即使是只用文本训练的模型-我们在表2中展示了一些单词翻译的例子。所有语言。我们的模型表现明显优于基线,表明我们的方法学习了强大的多语言和多模式表示。5.5. 分析可视化传递匹配:图3示出了估计的传递相似性值的我们显示了预测的αv(图像间相似性),αx(跨模态相似性)和β(句子间相似性)。Fig. 3a and 3bshow examples where both the similarity between imagesand the cross-modal similarity are high, resulting in a largeα.如果这些对用于训练,它们将是阳性的。该模型正确地预测了两个文本之间的高β值图3c展示了在创建语言对时除了使用αv之外还使用αx在这种情况下,16482资料来源:西班牙文目标:俄罗斯目标:希伯来语如果你不说话,你的一个人-我的天啊,我的天啊,O我知道你在说什么на деревянном фоне简单的人如果你倾听,一个人假日写在一张纸上,在一个木材如果我不给你钱是因为你给了用语言无法理解背景剪刀一个新的概念Заднее изображение модели автомобиля你是谁?שפחלתויגולונכטהמכהנהв пальто新概念汽车模型在大衣购买新车? 这里有一些技术-要注意的问题一只灰色的猫在里面Кролик ждет на переднем плане для我的天啊绿色植物обычной проверки一只带斑点的灰色虎斑猫坐在绿色植物一只兔子在前台等待一个例行程序赤狐在一个领域检查表3.我们列举了一些失败的案例。讨论见第5.5节末尾两个图像之间的视觉内容是一致的,并且模型以高αv值正确地检测到这一点然而,由于网络数据并不总是干净的,左边的标题并不对应于视觉内容。这在小αx值中被正确地捕捉到如果我们是我们-HungarianFinnishEstonianLatvianArabicAmharicHebrewPersianDariPashtoSpanishPortuguese法语意大利语罗马尼亚语如果你让这对搭档去训练,尽管视觉上有很大的相似性。因此,未对准噪声不会传播到跨舌损失。最后图3D示出了一个例子,其中两个句子都准确地描述了它们对应的图像,但是图像不匹配。正如预期的那样,这会导致负对。按语言划分的翻译难度:我们在图中按语言逐项列出了中级翻译的性能。9.第九条。 来自同一语系的语言往往更容易相互翻译。最难的语言是泰米尔语,这是我们数据集中唯一的达罗毗荼语。局限性:我们在表3中显示了三个代表性失效案例。在第一种情况下,标题与任何视觉概念都不相关第二个例子显示了一些翻译错误的单词荷兰语南非荷兰语德语丹麦语瑞典语挪威语波兰语捷克语斯洛伐克语斯洛文尼亚语保加利亚语塞尔维亚语波斯尼亚语克罗地亚语乌克兰语俄罗斯语阿尔巴尼亚语希腊语格鲁吉亚语阿塞拜疆语土耳其语豪萨语索马里语斯瓦希里语越南语泰语印地语乌尔都语孟加拉语泰米尔语马来语印度尼西亚语标签语韩语日语目标语言由于训练集中的虚假相关性。在这种特定情况下,短语“新概念”与汽车强烈相关,因为它出现在“概念汽车”的背景下的训练中,即,汽车公司的汽车,以探索新的设计。因此,该模型检索涉及汽车的句子,即使它们与短语“新概念”没有任何关系。最后,第三个失败案例显示了一个含有新词(“tabby”)的句子6. 结论利用语言和视觉之间的传递关系,我们的实验表明,我们的框架在没有平行语料库的情况下学习了句子级和单词级机器翻译的我们相信,对于学习健壮的语言模型来说,vision将继续具有价值。图9. 我们通过查询显示了高级翻译准确性-目标语言对。在图中,语言按家族(罗曼语、波罗的语等)排序块对角结构表明,来自同一家族的语言更容易在之间翻译。我们还发现,在我们的数据集中,语言隔离整体表现较差(例如,泰米尔语,唯一的德拉威语)。绿色表示高精度,蓝色表示低精度。社会影响:传统的NMT方法集中于具有大量平行语料库的语言,自然地偏向于具有许多说话者和强大的在线存在的语言。通过利用视觉,我们的模型为将NLP模型转移到低资源语言提供了一个有希望的途径。与所有深度学习系统一样,我们的模型可能会继承用于训练它的图像-文本数据集中存在的偏见查询语言匈牙利语芬兰语爱沙尼亚语拉脱维亚语阿拉伯语阿姆哈拉语希伯来语波斯语达里语普什图语西班牙语葡萄牙语法语意大利语罗马尼亚语荷兰语南非荷兰语德语丹麦语瑞典语挪威语波兰语捷克语斯洛伐克语斯洛文尼亚语保加利亚语塞尔维亚语波斯尼亚语克罗地亚语乌克兰语俄罗斯语阿尔巴尼亚语希腊语格鲁吉亚语阿塞拜疆语土耳其语豪萨语索马里语斯瓦希里语越南语泰语印地语乌尔都语孟加拉语泰米尔语马来语印度尼西亚语标签语韩语日语16483引用[1] Mikel Artetxe , Gorka Labaka , Eneko Agirre , andKyunhyun Cho.无监督神经机器翻译。第六届国际学习表征会议,ICLR 2018,2018。2[2] Mikel Artetxe和Holger Schwenk大规模多语言句子嵌入零镜头跨语言传输和超越。Transactions of theAssociation for Computational Linguistics,7:597-610,2019。二、四[3] Emmanuel Azuh,David Harwath,and James Glass.朝向从视觉接地语音音频的双语词典发现。Proc. Interspeech2019,第276-280页,2019年。2[4] 蒂莫西·鲍德温。 低成本、高性能的翻译检索:哑巴更好。计算语言学协会第39届年会论文集,第18-25页,法国图卢兹,2001年7月。计算语言学协会。2[5] 蒂莫西·鲍德温和田中穗实。 Word的效果顺序和切分对翻译检索性能的影响。在COLING 2000第1卷中:第18届国际计算语言学会议,2000年。2[6] R.布朗 基于实例的trans-based的trans-rule归纳lation. 2001年,MT Summit VIII Workshop on Example-Based Machine Translation。2[7] 拉尔夫·布朗基于实例的机器翻译pangloss系统在COLING 1996年第1卷中:1996年第16届国际计算语言学会议. 2[8] Ralf D. 布朗自动化 字典 提取“无知识”的实例翻译。第七届机器翻译理论与方法国际会议论文集,第111-118页,1997年。2[9] Andrea Burns , Donghyun Kim , Derry Wijaya , KateSaenko,和布莱恩·普卢默学习为视觉语言任务扩展多语言2020年欧洲计算机视觉会议。2[10] Iacer Calixto和Qun Liu。句子级多语用于自然语言处理的多模态嵌入。在自然语言处理的国际会议最新进展,RANLP 2017,第139-148页,保加利亚瓦尔纳,9月。2017. INCOMALtd.[11] 康斯坦丁·查齐西奥多鲁提高翻译质量-理论模糊匹配的释义。 在翻译记忆集,第24-30页,Hissar,保加利亚,9月2015年。计算语言学协会。2[12] Ting Chen,Simon Kornblith,Mohammad Norouzi,andGe-奥弗里·埃佛勒斯·辛顿。视觉表征对比学习的一个简单框架在2020年第37届机器学习国际会议上第1、3条[13] 云琛、杨柳、维克多·OK·李。零资源神经网络机器翻译与多智能体通信博弈。第三十二届AAAI人工智能会议,2018。2[14] 池泽文,李东,魏福如,杨楠,萨克沙姆星-哈尔, 王文辉, 夏松: 毛先玲,何燕黄,明周。Infoxlm:一个跨语言语言模型预训练的信息理论框架。ArXiv,2020年7月。2[15] Alexis Conneau、Kartikay Khandelwal、Naman Goyal、Vishrav Chaudhary 、 Guillaume Wenzek 、 FranciscoGuzmán、Edouard Grave、Myle Ott、Luke Zettlemoyer和Veselin Stoyanov。无监督跨语言表征学习。在计算语言学协会第58届年会的会议记录中,第8440- 8451页计算语言学协会二、四[16] Lambros Cranias,Harris Papageorgiou和Stelios Crandis。基于实例的机器翻译中的匹配技术在COLING 1994年第1卷中:第15届国际计算语言学会议,1994年。2[17] Jia Deng , Wei Dong , Richard Socher , Li-Jia Li , KaiLi,还有李飞飞Imagenet:一个大规模的分层图像数据库。在IEEE计算机视觉和模式识别会议论文集,第248-255页。Ieee,2009年。4[18] Jacob Devlin、Ming-Wei Chang、Kenton Lee和Kristina图坦诺娃BERT:用于语言理解的深度双向变换器的预训练。在计算语言学协会北美分会2019年会议论文集中:人类语言技术,第1卷(长论文和短论文),第4171-4186页,明尼苏达州明尼阿波利斯,2019年6月。联系人计算语言学。二、四、五[19] Meiping Dong , Yong Cheng , Yang Liu , Jia Xu ,Maosong Sun,Tatsuya Izuha,and Jie Hao.用于翻译检索的查询网格在COLING 2014会议录中,第25届国际计算语言学会议:技术论文,第2031-2041页,2014年。2[20] 莱昂·E·多斯特 乔治城-IBM实验。19 5 5 )。语言的机器翻译。John Wiley& Sons,New York,pages124-135,1955. 1[21] T El-Shishtawy和A El-Sammak。最佳模板匹配例如基于机器翻译技术。arXiv预印本arXiv:1406.1241,2014年。2[22] Yuwei Fang,Shuohang Wang,Zhe Gan,Siqi Sun,and刘晶晶。过滤器:一种用于跨语言理解的增强融合方法,2020年。2[23] Orhan Fi
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功