没有合适的资源?快使用搜索试试~ 我知道了~
1⼦⽝基于视频的无监督词汇翻译贡纳河Sigurdsson3让-巴蒂斯特 Alayrac1艾达 Nematzadeh1卢卡斯Smaira1 Mateusz Malinowski1João Carreira1菲尔 Blunsom1,2安德鲁 Zisserman1,21DeepMind2牛津大学工程科学系3卡内基梅隆大学github.com/gsig/visual-grounding摘要地球上有成千上万种活跃的语言,但只有一个视觉世界。扎根于这个视觉世界有可能弥合所有这些语言之间的差距。我们的目标是使用视觉基础来改善语言之间的无监督词映射。其核心思想是通过学习嵌入从非成对的教学视频叙述在母语之间建立一个共同的视觉表示两种语言。鉴于这种共享嵌入,我们证明:(i)我们可以映射语言之间的单词,特别是“视觉”单词;(ii)共享嵌入为现有的无监督基于文本的单词翻译技术提供了良好的初始化,形成了我们提出的混合视觉-文本映射算法MUVE的基础;以及(iii)我们的方法通过解决基于文本的方法的缺点而实现了卓越的性能-它我们将这些方法应用于跨-库乔洛ﺗﻮﻟﻪﺳﮓ基奥西印度群岛َ�ﺟﺮوHund克佩克בלבלכ从英语到法语、韩语和日语的– all without any parallel corpora and simply by watchingmany videos of people speaking while doing1. 介绍孩子们可以通过熟悉环境和与他人互动来学习多种语言,而无需任何明确的监督或指导;多语种儿童不会同时听到一个句子及其翻译,也不会在观察同一情景时听到多种语言的句子[20]。相反,他们可以利用不同情况下的视觉相似性:他们在星期一听到“狗在吃东西”时所观察到的与他们在星期五听到“lechienmange”时所看到的相似。Gunnar在DeepMind实习时完成的工作图1:在世界各地,可以参考但在视觉领域,a只是地球上的在这项工作中,我们利用这个目标来学习在没有任何配对双语数据的情况下翻译不同语言中的单词。我们通过将机器翻译任务与儿童学习多种语言的方式联系起来,朝着构建无监督多模态翻译系统迈出了第一步:我们将系统暴露给来自不同国家的人执行任务的视频YouTube上有很多这样的视频:例如,我们可以通过观看韩语或英语视频来学习如何榨橙汁。教学视频往往看起来视觉上相似,正在讲的我们获得了大量这样的视频和相应的10850卡乔里托िपप�ला俄罗斯人PuppySzczeniak卡乔罗щено́к康赫沃尔布尔幼⽝10851共同视觉基础“...挤压橙子”“... peindreenorange.”- 视力丧失- 视力丧失图2:我们基于视频建模的最新进展,训练了一个无监督的系统,该系统通过将视频中的语言作为基础,在没有任何配对数据的情况下学习翻译多种语言的单词。(使用自动语音识别的字幕,将[35]的最近过程扩展到多种语言。处理这些数据会带来各种挑战。首先,尽管最近取得了重大进展,但视频中的视觉理解远未解决-即使使用最先进的模型,聚类相似的活动也不容易。此外,与其中词语倾向于描述场景的手动字幕数据集相比,在教学视频中,词语对应于教师所说的内容。在执行任务时,讲师经常谈论没有任何视觉相关性的随机主题(例如订户计数和本文表明,尽管存在这些挑战,共享的视觉表示可以促进不同语言在单词级别的映射。如示于图2,我们提出了一个模型,通过视觉域(视频)映射两种语言。对于英语和法语,该模型正确翻译了28.0%和45.3%的常见单词和视觉单词,所有这些都是通过观看视频实现的。作为比较,基于检索的基线(不共享视觉 表 示 ) 对 于 普 通 词 和 视 觉 词 分 别 达 到 12.5% 和18.6%。此外,我们表明,我们的模型比利用共现统计的最先进的无监督基于文本的词映射模型更鲁棒[4,10],在对(a)两种语言不同的程度(例如,英语比韩语更接近法语),(b)两种语言的训练语料库的不同(例如,英语和法语维基百科高度相似),以及(c)训练数据量最后,我们表明,组合方法(与基于文本的approaches)是可靠的各种各样的任务。例如,当法语和英语的训练语料库不相似时(法语的教学视频和英语的维基百科),我们的方法达到了32.6%的召回率,而基于文本的方法不到0.5%。捐款. 贡献有三方面。(i)我们提出了一种方法来映射语言通过视觉域只使用不成对的教学视频,(ii)我们demonstrate,我们的方法是有效的,在连接不同的语言中的单词通过视觉在一个无监督的方式,最后(iii)我们表明,我们的方法可以作为一个很好的初始化现有的词映射技术,解决了许多基于文本的方法的缺点。2. 先前工作双语儿童语言习得。 双语语言习得领域的一个悬而未决的问题是,每种语言的系统和表征在多大程度上是共享的。这种共享可以发生在语言的不同方面,如语法,形态或概念表征[11,19]。例如,双语儿童最终会了解到“chien”和“dog”都我们探讨是否共享的概念(视觉)表示提高不同语言的文字翻译的质量。无监督的基于文本的单词对齐。单词经常出现在不同语言中的同一上下文中-以前的工作已经使用这种洞察力来对齐不同语言的嵌入空间,并使用对齐的空间将单词从一种语言翻译为另一种语言[31,36]。早期的工作通过地面实况词典或词典使用不同程度的监督[4,26,42];最近,完全无监督的方法在没有任何监督的情况下实现了不同语言对的单词对齐的类似性能[6,10]。然而,由于这些方法利用了语言对及其训练语料库之间的相似性,因此当语言(或其训练语料库)非常不同时,它们并不鲁棒[5,43]。10852视觉与语言人们越来越感兴趣的是将计算机视觉和自然语言处理中开发的方法结合起来,以解决这些领域交叉点的更具挑战性的问题[2,13,25,27,30,33,41,45]。基础语言是这两个社区利益的核心。它在符号人工智能方面也有着悠久的传统,在那里为符号赋予意义的问题早期的工作探索了文本注释和图像区域之间的弱监督和对应问题[7,14],更现代的方法探索了联合图像-文本词嵌入[17],或在帽生成,视觉问答和基于文本的检索中在图像上构建语言条件注意力图[3,12,24,32,38,39,45,48、50]。特别令人感兴趣的是,最近的工作集中在多模态和多语言环境中,例如用多种语言制作字幕,视觉引导翻译[8,16,44,46]或双语视觉问答[18]。然而,这些使用一对corpora,即.相同的视频或图像与多种语言的字幕相关联[46]。在七种语言中获得配对语料库视频线性+ ReLU线性MaxPooli3D+线性WordEmbed联合嵌入空间视频线性+李阿i3DneAdaptLayer联合嵌入空间WordEmbed共享参数Linear + ReLUMaxPool图3:三个编码器的详细信息:一个用于语言X,一个用于语言Y,一个用于视频Z。两种语言的耦合是通过共享部分模型(阴影区域)来实现的。低视频-文本相关性;此外,视觉上相似的视频可能在语义上不相似。这一挑战无法通过使用视频的相似性来构建平行文本语料库来解决(见图10)。4).相反,根据Miechetal. [35],我们从指导性视频中学习联合(单语)视频-文本嵌入空间。我们通过定义以下目标将培训策略扩展到多语言案例:传统语言是昂贵的,并且不能扩展。教学视频。在这项工作中,我们依赖于教学视频[1,40,49],因为它们可以大规模获得-minL(f,h)(X × Z)+L(g,h)(Y× Z),f,g,h`x` x语言X和视觉语言Y和视觉(一)任何手动注释[35]:它们由YouTube视频及其相关的叙述组成,这些叙述是使用自动语音识别(ASR)生成的。我们建议使用不同语言的教学视频,以表明我们可以通过观看和倾听人们执行各种任务来翻译单词。3. 无监督多语言学习我们描述了我们的方法,通过接地在视觉域Z无监督的多语言单词对齐。我们的方法是无监督的,因为它学习两种语言X和Y之间的对应关系(例如,英语和法语),没有任何平行(配对)语料库。而是有两套不同的教学录影带,用语言X叙述的n个视频和用语言Y叙述的另外m个不同的视频。配备了这个,我们的目标是学习映射语言X和Y通过利用共享的视觉模态Z我们用词语翻译的准确性来评价这种能力,即多好一种语言的词汇可以映射到另一种语言。通过教学视频映射语言具有挑战性:首先,从教学视频中学习视频-文本嵌入是困难的,因为这些视频中的语音与场景仅松散第二,在多语言设置中,由于两种语言都有这种错误,例如,HowTo100M中只有50%的字幕和视频是相关的[35]。其中L是文本和视频之间的度量学习损失嵌入[34]。参数f、g和h分别定义语言X、语言Y和视频域Z这个想法是在两种语言之间共享视觉编码器h对于对齐两种语言X和Y至关重要。接下来,我们描述所提出的方法(等式10)。(1)在de-尾巴秒3.1解释了我们对嵌入模型f、g和h的选择。秒3.2定义损失函数L。最后,在第3.3,我们解释了我们的初始模型如何用于改进基于文本的词映射技术。3.1. 多语言视觉嵌入:建筑我们的架构的说明是在图。3 .第三章。模型的输入。我们把句子表示成一个固定长度的整数序列,即. X和Y的形式为{1,. . . 其中K和L是词汇量,句子长度分别。平均而言,句子由10个单词组成。视频在像素空间中:Z=RT×H×W×3,其中T是视频剪辑中的帧数(这里是10FPS的32帧); H和W分别是视频的高度和宽度,具有3个RGB通道。文本编码器。语言X中的文本编码器f,如下[35],包括:(i)单词嵌入层,其将由L个令牌组成的序列作为输入,并输出-把L个向量的维度dw,(ii)一个位置明智的充分10853j=1i=1j=1i=1F连接的前馈层,然后在单词上进行最大池化,以生成整个序列的单个d维向量,以及最后(iii)线性层,以将中间表示映射到联合嵌入空间Rd。对于Y语言中的文本编码器g,我们共享模型跨语言的权重[22,28]。具体来说,我们分享前馈层和f与g之间的最后一个线性层的权重。为了将不同的语言输入到共享层,我们在Y语言的单词嵌入层之后添加了一个线性层,称为AdaptLayer。直观地说,AdaptLayer的作用是将语言Y的词嵌入空间,使得语言Y中的词嵌入变得尽可能类似于语言X中的词嵌入。然后,网络的其余部分可以共享,但保留单语如果需要的话,可以使用单词嵌入的属性。我们的archi- tecture是对称的,但AdaptLayer似乎不对称。但是,AdaptLayer中使用的正交性约束强制了整个模型的对称性。实际上,每种语言都配备了AdaptLayer的对称情况与我们的情况是等效的;这可以通过将X和Y的AdaptLayer乘以X的AdaptLayer的倒数来显示,最终得到Y的单个AdaptLayer。视频编码器。对于视频编码器,我们使用标准的I3D [9]模型,然后是一个线性层,将输出映射到联合嵌入空间。3.2. 基础模型:训练和推理训练数据。我们给出了一组以语言X叙述的n个视频:{(xi,z i)}n和一组以语言Y叙述的m个不同视频:{(yj,z<$j)}m。 注意,在第一和第二集合中的视频中没有重叠,即,我们不都可以访问成对的双语数据。培训目标。我们的目标函数Eq.中的第一项L(f,h)(1)定义如下:Σ从同一语言的批处理元素。L(g,h)在方程中 (1)具有相同的形式,除了g和{(yj,z<$j)}m.推理。因为我们对两种语言使用相同的视觉编码器h,所以我们可以假设语言编码器f和g的输出在相同的空间中。在训练我们的模型后,方程中的联合损失。(1)可以将第一语言直接映射到第二语言;对于给定的x∈ X,我们发现y∈ Y,其中嵌入g(y)具有最小余弦距离f(x)3.3. MUVE:改进无监督翻译在本节中,我们将解释如何使用基本模型来改进最先进的基于文本的单词翻译技术。基于文本的单词翻译。它已被证明,分布式表示的话(如。Word2Vec [37])在不同语言之间有相似之处。特别地,Mikolovet al. [36]示出了目标语言中的词嵌入矩阵可以通过简单地对不同源语言中的词嵌入矩阵应用线性映射来近似。为了恢复线性映射,Mikolovet al.[36]采用监督方法,其中给定两种语言中的5,000对单词的子集,通过最小化源语言的单词嵌入和目标语言的线性映射单词嵌入之间的L2Xing等人。[47]表明,可 以 通 过 添 加 正 交 约 束 来 改 进 结 果 。 这 可 以 用Procrustes算法以封闭形式完成(详见[10])。无监督的MUSE方法Conneau等人[10]提出了MUSE方法,与Mikolov等人的方法相反。[36],不需要任何有监督的词对。MUSE有三个主要步骤:(i)通过对抗方法找到初始线性映射,然后(ii)使用Procrustes算法改进映射,最后L(f,h)({(xi,zi)}n)=-logNCE(f(xi),h(zi)),我(二)(iii)使用局部邻域来归一化距离MUVE:通过视觉对齐单词 解释其中NCE对应于噪声对比估计[21,29]判别算子:⊤ef(x)h(z)NCE(x,z)=ef(x)h(z)+ef(x′)h(z′),(3)(x′,z′)<$N其中N是一组负对,用于强制数据中共同出现的视频和叙述在空间中是近的,而不同时出现的视频在这项工作中,消极因素是第3.1节,线性AdaptLayer背后的直觉(参见图3)是将来自语言Y的词嵌入映射到与来自语言X的词嵌入相似的向量空间,然后将其馈送到共享层。考虑到这一点,我们建议替换步骤(i)(对抗初始化),MUSE算法由我们的基础模型的AdaptLayer在视频上训练之后。我们称之为MUVE方法用于多语言无监督视觉嵌入。为了进一步提高性能,我们遵循[47]的观察,向目标(1)添加正交惩罚x和z与其他x′和z′配对,WW关于权W∈Rdw×dw 的Adapt-从训练集X中随机选取,遵循[34]。实际上每个训练批次包括来自任一语言的剪辑,并且在NCE损失中的每个元素的负面是其他的层,其中I是dw维单位矩阵。在秒5.3,我们证明了MUVE比基于文本的同行在多个方面更强大。108544. 多模态和多语言数据集本节介绍了第二节中使用的训练和评估五、所有数据 集 都 可 以 在 github.com/gsig/visual-grounding上找到。4.1. HowToWorld数据集现 有 的 教 学 视 频 数 据 集 来 自 YouTube ( 例 如 ,HowTo100M数据集)是英文。我们遵循[35]的方法获得三种新语言的数据:法语(Fr)、日语(Ja)和韩语(Ko)。我们使用他们的23,000个任务列表(例如,制作拿铁),并将它们翻译给Fr、Ja和Ko。我们分别从Fr、Ja和Ko数据集的自动语音识别中获得了31M、30M和34M具有叙述的独特片段。我们使用HowTo100M [35]作为英语(En)数据集。为了确保我们的数据集是严格未配对的,我们删除了存在于多个数据集中的任何更多详情见附录。4.2. 培训嵌入文本语料库为了将MUVE与最先进的无监督基于文本的单词对齐方法进行比较,我们使用三种文本corpora:(i)Wiki-En/Fr:以英文和法文公开发布的维基百科。我们过滤结构化输出,以提取句子,然后进行第二节所述的处理。5.1,(ii)HowToW-Text-{En,Fr,Ko,Ja}:我们使用从HowToWorld的多语言视频中提取的叙述和(iii)WMT Fr-En语料库:我们使用公开可用的WMT法语-英语语料库,包括各种新闻文章的En-Fr翻译。4.3. 评价基准我们的目标是将单词从一种语言翻译成另一种语言(例如,En-Fr、En-Ko、En-Ja)。我们描述了用于分析翻译的数据集,也可以在附录中找到。字典En-{Fr,Ko,Ja}. 我们使用MUSE论文[10]中使用的地面实况双语词典的测试分裂来将我们的方法与基于文本的单词映射方法进行比较。每本词典提供1500个英语单词在另一种语言中的翻译(例如,Fr)并列出每个英语单词的多种翻译有2943个En-Fr,1922个En-Ko和1799个En-Ja对。当我们专注于视觉并了解不同方法如何比较视觉与非视觉单词时,我们还手动注释en-fr的双语词典以选择可以视觉观察的单词(词典(视觉))。这导致637个英语单词和1430个En-Fr对 。 字 典 数 据 集 中 的 示例 词包 括 : {toppertone ,giovanni,chat,catholics,herald,chuck,. }而字典(视觉)包含{鱼雷,卡盘,坑,驻军,冲刺,. }.简单的词En-{Fr,Ko,Ja}. 为了检验词频的作用,我们从简单英语维基百科中创建了一个1000个最常见的英语单词的列表。我们trans-late这个名单,以Fr,Ko,和Ja使用谷歌翻译接口。我们手动过滤这些单词以创建一个视觉单词列表(简单单词(视觉))。 简单单词数据集中的示例单词包括{correct, touch,hit,either,regard,carry,with,three,. 简单单词(视觉)包含{do,fall,police,carry,make,station,afternoon,money,club.}人类的语言-{Fr,Ko,Ja}. 为了也定性地评估我们在第二节中提出的模型的性能。5.5中,我们创建了一个文本数据集(人类语言),其中包含与教学视频中包含的叙述类似的表达。我们手动定义了一组444个可视化查询,以及它们在En,Fr,Ko和Ja中的翻译。示例包括{油画,堆雪人,胶合木材,切番茄,拉小提琴,开车门,油漆衬衫,网球服务,煮咖啡,运球篮球,. }.5. 实验在本节中,我们首先提供我们的实现细节(第二节)。5.1);在第二节。5.2,我们在单词翻译基准测试中证明了我们的基本模型的有效性。节中5.3,我们表明,我们的模型学习的表示可以用来提高基于文本的单词翻译方法的质量。我们还表明,我们的方法(MUVE)比基于文本的方法(第二节)更强大。5.4)。最后,在第5.5,我们展示了各种定性结果,进一步了解我们的方法。5.1. 实现细节我们标记了视频的文字记录,我们为每种语言创建了65,536个最常见单词的词汇表,并将其余单词映射到UNK符号。在预处理之后,我们使用Word 2 Vec [37](Skip-Gram,300 dim,5个单词,5个否定词)训练单语单词嵌入。我们在MUVE、MUSE和VecMap模型中使用这些预训练的嵌入在训练时,我们从给定的数据集(例如,HowToW-En或相关HowToW-{Fr-Ko-Ja})。每个训练批次包括来自任一语言的剪辑,并且NCE损失中每个元素的否定是来自同一语言的批次的其他元素。对于视频编码器,我们微调了在Kinetics-400数据集[9]上预训练的 I3D模型[9]对于语言模型(Sec. 3.1),单词嵌入层在相应的HowToW-Text数据集上进行预训练,以包含分布语义。我们使用Adam优化器,初始学习率为10−3,批量大小为128,并在2个Cloud TPU上训练模型进行20万次迭代。10855英法词典简单词视频在HowToW-En最近的视频在HowToW-Fr所有视觉所有视觉1)随机机会0.10.20.10.22)视频检索6.37.612.518.63)基础模型9.115.228.045.34)MUVE28.939.558.367.5“... stich得到颜色序列.“... le pompon va se placer.”(... pompom将被放置.)表1:我们的模型和基线的性能,如在En-Fr字典和简单单词上的Recall@1。评估指标。我们在实验中报告了Recall@n:给定一个查询(例如, ‘Chien’, - 是的- 是的),并且如果n个结果中的任何一个在地面实况字典中被列为正确的翻译,则检索是如果没有特别说明,我们将在论文中报告Recall@1。我们在Recall@10中观察到相同的趋势,并在附录中报告。5.2. 基础模型评估我们调查是否共享跨语言的视觉编码器提高了翻译质量;为此,我们将基本模型的结果与下面解释的两个基线进行比较。基线。我们的第一个基线方法(Random Chance)在不使用视频的情况下检索随机假设翻译。第二个基线我们首先为HowToW-En和HowToW-Fr中的所有视频片段提取在Kinetics [9]然后,对于每个英语视频剪辑(100 M),找到三个最长的法语视频剪辑(根据L2距离)。最后,我们把这些视频对的相关叙述创建一个平行文本语料库。给定平行语料库,我们可以根据英语和法语单词的共现找到它们之间的对齐。更具体地说,我们计算了英语和法语单词对之间的联合概率。对于每个英语单词,我们可以使用这个联合概率对法语单词进行排名。结果我们在表1中报告了我们的模型的结果以及字典和简单单词基准的基线。我们观察到,我们的基础模型在两个基准测试中都明显此外,毫不奇怪,所有方法的性能在这些基准测试的可视部分都图4、我们提供了视频检索模型的两种失败类型的两个例子:在第一行中,检索到的视频是正确的(与查询在视觉上相关),但英语和法语的叙述不传达相同的含义。在第二行中,来自检索到的视频的帧在视觉上与查询相似(两者都包含食物),但不描绘相同的概念。这个例子显示了视觉理解如何为这项任务带来挑战。“...感谢您收看"再见“我想要姜黄和丁香“(...我需要姜黄和丁香.)图4:视频检索基线的两种类型的故障示例。在第一行,视频是视觉相关的(编织),但没有单词匹配,使学习翻译具有挑战性。在第二种情况下,视频是相关的(食物),但左标题与视觉内容无关5.3. MUVE:改进基于文本的对齐我们评估所提出的MUVE方法,即我们的基本模型学习的表示可以改善基于文本的单词翻译方法。我们首先描述了基于文本的方法,使用大规模语料库的单词翻译。然后,我们展示了如何使用我们模型的表示(第二节)。3.1)改进了基于文本的方法:下面描述的三种无监督方法和一种有监督方法。所有方法都使用在HowToW-Text上针对各自语言训练的词嵌入迭代Procrustes使用基于距离的启发式算法迭代映射两种语言的词嵌入;然后找到最佳映射所选对的正交矩阵。我们从25种不同的初始化(单位矩阵或随机矩阵)中选择最佳解决方案MUSE[10]使用对抗训练将单词嵌入映射到它们无法区分的空间,这为迭代Procrustes方法提供了更好的起点。已发现从MUSE[10]获得的结果对初始化[4]敏感。与MUSE相比,VecMap[4]对初始化和跨语言的差异更鲁棒;它通过仔细的归一化,白化和降维获得Supervised提供了无监督方法的上限:它使用5,000个单词及其翻译来找到对齐嵌入的最佳标准正交矩阵。结果在表2中,我们给出了英语与法语、韩语和日语之间的单词翻译结果。我们的方法,MUVE,优于所有基于文本的方法。我们观察到一个更大的改进,基于文本的方法,英语-韩语和英语-日语对。这些结果证实了先前的发现,即文本-10856字典En-Fr En-Ko En-Ja表2:我们和基于文本的方法在不同语言对上的性能我们在Dictio- nary数据集上报告Recall@1所有方法都使用在HowToW-Text上针对各自语言训练的词嵌入。基于的方法更适合于类似的语言(例如,英语和法语)[4,43],并表明接地在视觉域的词翻译是特别有效的,在该制度。最后,我们还在表1中观察到MUVE(第4行)相对于我们单独的基础模型(第3行)(+19.8%和+30。在字典和简单单词基准上分别有3%的绝对改进)。总的来说,这个实验验证了我们的直觉,即视觉域中包含的信息与基于文本的方法用于无监督单词翻译任务的单词共现统计是互补的正交约束的重要性。 解释的 节中3.3,在应用MUVE时,我们在Adapt-Layer中加入了正交约束.我们观察到,这种惩罚是MUVE的关键组成部分准确地说,有一个43。当去除正交约束时,在Diction-nary En-Fr(从表2中的28.9变为16.6)基准上,Recall@1的性能相对下降0%这进一步证实了[47]中描述的结果。5.4. 无监督词翻译的鲁棒性秒5.3表明,与基于文本的方法相比,MUVE对语言对之间的差异更鲁棒(即,表2中从法语到日语和韩语时,性能下降较少)。在这里,我们检查鲁棒性的另外两个轴:两种语言的训练语料库的不同以及训练数据的数量。本节中报告的所有结果都是关于英语和法语的,因为基于文本的模型在这两种语言中表现得更好。型号选择。我们观察到MUSE [10]和VecMap [4]都对初始化敏感。为了解决这个问题,我们在测试集上为基于文本的方法选择最佳的超参数:我们对超参数和随机初始化进行了广泛的搜索,例如:213次运行,并计算这些运行的然后,我们在测试集上选择性能最好的运行,从而报告这些基线的真实性能请注意,当报告-表3:不同方法对训练语料库差异性的鲁棒性。我们报告了MUSE[10],VecMap[4]和MUVE的英法词典数据集上的Recall@10,以及用Jensen Shannon距离表示的训练corpora的相异度(dissimilarity)。对于MUVE,我们只使用单语验证损失进行模型选择,并且MUVE的所有数字都使用相同的超参数。训练语料库的差异。 我们研究了训练语料库的差异如何影响模型。在[15]之后,我们通过比较两个语料库的词共现统计来衡量它们的不相似性具体地说,我们统计同一句话中每对词的共现,并归一化以获得每个词的分布。然后,我们使用Google翻译界面对齐英语和法语的单词对,并计算分布之间的Jensen Shannon距离。我们在表3中报告了结果;所有方法都在Recall@10度量的Dictionary数据集上进行了评估。看着表的对角线,我们观察到语料库什么时候是相似的(例如,Wiki-En和Wiki-Fr),所有方法都表现良好。然而,当语料库不太相似(非对角线元素)时,我们观察到MUVE显著优于其基于文本的同行。我们注意到,与Wiki-Fr和WMT-En相比,在Wiki-En和WMT-Fr上训练的方法表现更好。这可能是由于Wiki-Fr和WMT-En的组合是一个较小的语料库:Wiki-En比Wiki-Fr大得多,而两种语言的WMT语料库大小相同。因此,本文提出的基于视觉背景的方法对两种语言语料库的差异性具有更强的鲁棒性。训练数据量。 无监督的单词翻译对于没有大型语料库的低资源语言特别有吸引力。我们调查在何种程度上MUVE和基于文本的方法是强大的训练数据的大小不同。更具体地说,我们使用100%,10%和1%的目标训练 语 料 库 ( Wiki-Fr 或 HowToW-Fr ) 并 报 告Recall@10。对于MUVE,当减少HowToW-Fr时,我们也减少了处理的视频量我们的结果如图所示。五、与基于文本的方法相比,MUVE对训练语料库较小的条件更具鲁棒性,揭示了视觉基础对于未监督的单词翻译任务的另一个优势。HowToW-FrWMT-FrWiki-Fr∼[10]第10话∼[10]第10话∼[10]第10话HTW-En0.6245.845.4.670.3 0.735.1.650.3 0.1四十一点二WMT-En.540.3 0.2二十六点四0.4088.087.2 85.04445.9 1.3五十四点九所有视觉所有所有第一章迭代Procrustes0.20.30.30.3(二)MUSE [10]26.336.211.811.6第三章VecMap [4]28.440.813.013.7四、MUVE28.939.517.715.1第五章)监督57.960.341.841.1108576040200百分百10%1%百分百10% 1%缪斯VecMapMUVE英语检索视频顶级法语假设给定视频Wiki En-Fr HowToX En-Fr图5:在En-Fr字典上,针对MUSE、VecMap和MUVE不同数据量的Recall@10。604020065k 10k 1k 500词汇量缪斯VecMapMUVE图7:左:模型选择的与英语查询最相关的视频帧右:法国前2图 6 : MUSE 、 VecMap 和 MUVE 的 英 法 词 典 上 的Recall@10,用于英语和法语预训练的单词嵌入,具有不同的词汇量,预测取决于视频。视觉背景为翻译提供了一个微弱但有用的信号。法语(65k、10k、1k或500个最常见的法语单词)。所有方法都使用HowToW-En和HowToW-Fr。词汇量。基于文本的方法依赖于单词的英文文本第一模型检索(英文意思)Boy Playing Balle whi rebondit par le chat(Ball(Bouncing by theCat)女孩吃冰淇淋Chocolat(巧克力)第二次模型检索(英文意思)人在脚上跳(Man踢足球)Sucrer les煎饼(Top煎饼糖)语境协调两种语言的空间;因此,驾驶红色汽车的人红色汽车词汇量的大小(以及单词的近邻数量对于低资源语言,我们无法访问大型语料库,因此单词可能没有很多邻居。我们探索(男子驾驶红色轿车)A Man with a Dog带着狗的男人(Walk狗)空调Voler dans les airs(Fly Air)(红色汽车)Nourrir un chien(Feed狗)空调(Air调节)词汇量的大小对不同方法的性能有多大的图6显示了不同方法和词汇大小的Recall@10。我们保留完整的英语词汇,并改变法语词汇的大小。我们只评估在英语和法语词汇中都能看到的单词。我们观察到,MUVE是唯一的方法,其性能不会恶化时,词汇量的大小减少(即使当它是小到500)。5.5. 定性结果在图7中,我们可视化了一个两阶段的推理过程:(1)给定一个英语查询(来自人类数据集),使用我们的基本模型,我们从与该查询最相似的训练集中检索视频。(2)给定该视频,我们从法国Hu- man数据集中检索最接近的文本。该模型能够检索相关视频。然而,我们也注意到这种两阶段的方法对翻译来说可能是有问题的(例如,图2的第二行。其中两个单独的步骤都是有意义的,但由于模型漂移,总体结果是不正确的)。在表4中,我们可视化了第二节中描述的1阶段推理过程3.2.该模型通常是准确的,并且错误通常会导致语义相似的单词,例如将“表4:法语中检索到的前2个结果在给定英文查询的情况下对数据集进行排序6. 结论学习多种语言是一个具有挑战性的问题,多语言儿童轻松解决。共享的视觉领域可以帮助儿童通过视觉体验的相似性将不同语言中的单词受此启发,我们提出了一个无监督的多模态单词翻译模型,该模型从YouTube视频中学习这比基于文本的方法更有优势,在面对不同的语料库时可以实现更强大的翻译。未来的工作需要探索扩展到所提出的模型翻译完整的句子。鸣谢。作者要感谢Antoine Miech提供的宝贵建议和他们的HowTo100M 代 码 , 以 及 CarlDoersch , AnkushGupta ,ReljaArandjelovic' , VioricaPalitrapecucean , EllenClancy 和DeepMind的其他人对项目的有益讨论,支持和反馈作者最后要感谢Lisa Anne Hendricks和Sebastian Ruder对手稿的反馈。海滩Plage(沙海滨库里尔(在沙滩)指向天空德努阿热(云)太阳沙发(日落)圣诞树Sapin de noël Faire un bonhomme de neige(圣诞树)(堆雪人)切胡萝卜Couper la carotte(切胡萝卜)(胡萝卜)加入泡菜马朗热豆科牧草的生长(加泡菜)(拌青菜)加水美丽水诗(加水)(充分混合)召回@10召回@1010858引用[1] Jean-Baptiste Alayrac , Piotr Bojanowski , NishantAgrawal,Ivan Laptev,Josef Sivic,and Simon Lacoste-Julien. 从 叙 述 式 教 学 视 频 中 进 行 非 监 督 式 学 习 在CVPR,2016年。3[2] Peter Anderson,Qi Wu,Damien Teney,Jake Bruce,MarkJohnson,Niko Sünderhauf,Ian Reid,Stephen Gould,and Anton van den Hengel.视觉和语言导航:在真实环境中解释视觉基础的导航指令。在CVPR,2018年。3[3] 丽莎·安妮·亨德里克斯,苏布哈希尼·韦努戈帕兰,马库斯Rohrbach,Raymond Mooney,Kate Saenko,and TrevorDarrell.深度组合字幕:在没有配对训练数据的情况下描述新的在CVPR,2016年。3[4] Mikel Artetxe Gorka Labaka和Eneko Agirre。学习双语词嵌入(几乎)没有双语数据。在ACL,2017年。二六七[5] Mikel Artetxe Gorka Labaka和Eneko Agirre。推广和改进双语词嵌入映射与线性变换的多步框架。在AAAI,2018。2[6] Mikel Artetxe Gorka Labaka和Eneko Agirre。一个强大用于词嵌入的完全无监督跨语言映射的自学习方法。在ACL,2018年。2[7] Kobus Barnard,Pinar Duygulu,David Forsyth,NandodeFreitas,David M Blei,and Michael I Jordan.匹配文字和图片。JMLR,2003年。3[8] Loic Barrault,Fethi Bougares,Lucia Specia,ChiraagLala,德斯蒙德·埃利奥特和斯特拉·弗兰克第三个多模态机器翻译共享任务的发现。2018. 3[9] João Carreira和Andrew Zisserman Quo vadis,开拍认可?新模型和动力学数据集。在CVPR,2017年。四五六[10] Alexis Conneau,Guillaume Lample,MarcLudovic Denoyer和Hervé Jégou。不带并行数据的单词翻译。arXiv:1710.04087,2017年。二四五六七[11] Annick De Houwer 双语语言习得。的儿童语言手册,2017年。2[12] Harm De Vries、Florian Strub、Sarath Chandar、OlivierPietquin、Hugo Larochelle和Aaron Courville。你猜怎么着?!通过多模态对话的视觉对象发现。在CVPR,2017年。3[13] 杰弗里·多纳休丽莎·安妮·亨德里克斯塞尔吉奥·瓜达拉马Marcus Rohrbach 、 Subhashini Venugopalan 、 KateSaenko和Trevor Darrell。用于视觉识别和描述的长期递归卷积网络CVPR,2015。3[14] Pinar Duygulu、Kobus Barnard、Nando de Freitas和David A.福赛斯 对象识别作为机器翻译:学习固定图像词汇的词典。见ECCV,2002年。3[15] Julian Eisenschlos , Sebastian Ruder , Piotr Czapla ,Marcin卡尔达斯,西尔万古格,杰里米霍华德。Multifit:高效的多语言语言模型微调。EMNLP,2019。7[16] Desmond Elliott,Stella Frank,Khalil Sima很特别Multi 30 k:多语言英语-德语图像描述。ACL,2016。3[17] Andrea Frome,Greg S Corrado,Jon Shlens,SamyBengio,10859杰夫·迪恩,马克·奥雷利奥·兰扎托,托马斯·米科洛夫 。 Devise : 一
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Flex垃圾回收与内存管理:防止内存泄露
- Python编程规范与最佳实践
- EJB3入门:实战教程与核心概念详解
- Python指南v2.6简体中文版——入门教程
- ANSYS单元类型详解:从Link1到Link11
- 深度解析C语言特性与实践应用
- Gentoo Linux安装与使用全面指南
- 牛津词典txt版:信息技术领域的便捷电子书
- VC++基础教程:从入门到精通
- CTO与程序员职业规划:能力提升与路径指南
- Google开放手机联盟与Android开发教程
- 探索Android触屏界面开发:从入门到设计原则
- Ajax实战:从理论到实践
- 探索Android应用开发:从入门到精通
- LM317T稳压管详解:1.5A可调输出,过载保护
- C语言实现SOCKET文件传输简单教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功