没有合适的资源?快使用搜索试试~ 我知道了~
1VA TE X:用于视频和语言研究的大规模高质量多语言数据集vatex.org王欣1吴佳伟1陈俊坤2李磊2王元芳1王威廉11美国加州大学圣巴巴拉分校2字节跳动人工智能实验室,北京,中国摘要我们提出了一个新的大规模多语言视频描述数据集V A T E X 1,它包含超过41,250个视频和825,000个中英文字幕。在这些字幕中,有超过206,000个英汉对照,字幕模型一个小男孩把手伸进篮子里,把衣服放进洗衣机里。但是,ᓯጱ ᚍ๐။̶̶翻译对。 与广泛使用的MSR相比,(a) 多语言视频字幕VTT数据集[64],V A T E X是多语言的,更大,语言复杂,并且在视频和自然语言描述方面更加多样化。我们还介绍了基于V A T E X的视频和语言研究的两个任务:(1)多语言视频字幕,旨在描述一个男人站在一个一个 男人 站在 门口使用 拉起酒吧 做 拉。(pullingpub)(pull)具有紧凑的统一字幕模型的各种语言的视频,以及(2)视频引导的机器翻译,使用视频信息作为附加的时空上下文来将源语言描述翻译成目标语言。在V A TE X数据集上的大量实验表明,首先,统一的多语言模型不仅可以更有效地为视频生成中英文描述,而且还可以提供比单语言模型更好的性能。此外,我们证明时空视频上下文可以有效地用于对齐源语言和目标语言,从而辅助机器翻译。最后,我们讨论了使用V A TE X进行其他视频和语言研究的潜力。1. 介绍最近,计算机视觉和自然语言处理社区的研究人员都在努力桥接视频和自然语言。为了更深入地理解活动,视频字幕/描述的任务旨在用自然语言描述视频内容。已经为这项任务引入了一些数据集,涵盖了各种领域,如烹饪[15,70],电影[45],*同等缴款。1VA TE X代表视频和文本,其中X也代表各种语言。一个 男人 在 门口使用 拉杆 做 向上运动。(上拉杆)(向上运动)(b) 视频引导机器翻译图1:演示VA TE X任务。(a)为了准确地描述中英文视频内容,需要一个简洁统一的(b)机器翻译模型错误地将“pullup bar“ 解 释 为 “pulling pub“ , 将 “do pull ups“ 解 释 为 “dopull“(两个动词),这是没有意义的。同时结合相关的视频语境,将英文句子准确地翻译成中文。人的行为[13,64]和社交媒体[21]。尽管这项任务有各种各样的变体,但最根本的挑战是准确地描述视频剪辑中的重要活动,这需要高质量、多样化的字幕来描述各种各样的视频。此外,现有的大规模视频字幕数据集大多是单语言(英语),因此视频字幕模型的发展仅限于英语语料库。然而,多语言视频字幕的研究对于地球上大量不会说英语的人口来说是必不可少的为此,我们收集了一个新的大规模多语言数据集,用于视频和语言研究,VA TE X,它包含4581门口使用引体向上酒吧做引体向上。机器翻译视频引导机器翻译4582•A person dressed as a teddy bear stands in a bouncy house ando一个打扮成泰迪熊的人站在充气房上,然后然后摔倒了摔倒了。•穿着熊装的人在充气城堡里摔倒了。o有个穿着熊装的人在充气城堡摔倒了。•A person dressed up as a bear is standing in a bouncy castle ando一个装扮成熊的人站在充气蹦床里,然后摔倒下了倒了。•A man in a bear costume is balancing in a bouncy castle beforeo一个穿着熊服装的人在一个有弹性的城堡里他们会摔倒在地平衡,然后他们就倒在了地板上。•A man in costume was trying to stand straight on a bouncyo一个穿着布偶熊的人试图站在一个充气城堡城堡,但倒下了。上,但却摔倒了。10个英文说明:10个中文说明:•一个穿着熊服装的人在一个充气游戏区里失去平衡摔倒了。•一个穿着熊服装的人站在一个弹跳屋里,当人们在背景中交谈时,他摔倒了。•一个穿着卡通熊服装的人试图在一个弹跳屋里行走。•一个穿着吉祥物制服的人试图操纵一个充气房子。•一个穿着漫画熊服的人在月球弹跳中摔倒并翻滚o 一个人穿着熊的布偶外套倒在了蹦床上。o 一个人穿着一套小熊服装在充气蹦蹦床上摔倒了。o 一个穿着熊外衣的人在充气垫子上摔倒了。o 一个穿着深色衣服的人正在蹦蹦床上。o 在一个充气大型玩具里,有一个人穿着熊的衣服站了一下之后就摔倒了。图2:我们的VA TE X数据集的示例该视频有10个英文和10个中文描述。所有这些都描绘了相同的视频,因此彼此平行,而最后五个是彼此成对的翻译。拥有超过41,250个独特的视频和825,000个高质量的字幕。它涵盖了600种人类活动和各种视频内容。每个视频都配有来自20个人类注释者的10个英语和10个中文不同字幕。图2展示了我们的VA TE X数据集的一个示例。与最流行的大规模视频描述数据集MSR-VTT[64]相比,VA TE X的特征在于以下主要独特属性。首先,它包含了规模化的中英文描述,可以支持许多受单语言数据集约束的多语言研究。其次,VA TE X的剪辑-句子对数量最多,每个视频剪辑都标注了多个唯一的句子,并且每个字幕在整个语料库中都是唯一的。第三,《VA TE X》包含了更丰富、更有代表性的视频内容,总共涵盖了600种人类活动。此外,VA TE X中的中英文语料库都具有更丰富的词汇,因此可以生成更自然和多样化的字幕。借助VA TE X数据集的功能,我们引入了多语言视频字幕的任务(参见图1a),即训练统一模型以生成多种语言的视频描述(例如,英语和汉语)。然而,多语言知识会进一步加强视频理解吗?我们研究了不同的多语言模型,其中架构的不同部分为多种语言共享。实验表明,紧凑的统一多语种字幕模型不仅效率更高,而且比单语种模型更有效。视频字幕的目的是推动视频理解与自然语言的描述,但视频信息可以帮助自然语言的任务,如机器翻译作为回报?为了回答这个问题,我们在所有字幕中收集了大约206K的英汉平行句,并引入了一个新的任务,视频引导的机器人。中文翻译(VMT),使用视频信息作为附加的时空上下文将源语言描述翻译成目标语言。我们假设时空语境可以减少语言的歧义(特别是动词和名词),从而促进语言对之间的对齐。因此我们进一步进行了大量的实验,验证了VMT的有效性。在图1b中,我们展示了一个例子,视频信息可以在翻译基本信息中发挥关键作用。总之,我们的贡献主要有三方面:• 为了促进视频与语言研究的发展,我们收集了一个新的大规模、高质量的多语言视频描述数据集,并对MSR-VTT、VA TE X英语语料库和VATE X中文语料库进行了• 本文介绍了多语言视频字幕生成的任务,并通过一个紧凑、统一的模型验证了其生成中英文视频描述的效率和有效性。• 我们首次提出了视频引导机器翻译的任务,并检验了结合时空上下文来提高机器翻译性能的有效性。2. 相关工作视频描述数据集。已经引入了用于视频描述/字幕的各种数据集,以支持不同的方式来描述视频内容,覆盖广泛的领域,例如烹饪[15,70,43,44],电影[54,45,46],社交媒体[21],以及人类活动。领带[13,50,64,28]。在表1中,我们总结了现有的视频描述数据集[1],并简要比较了它们的主要统计数据。通常,视频描述任务主要4583数据集MLingual域#classes #videos:clips #sent #sent/clipTACoS[43]-烹饪26127:3.5k11.8k-[44]第四十四话-烹饪67185:25k75k3Youcook[15]-烹饪6第八十八章:2.7k-[70]第七十话-烹饪892k:15.4k15.4k1MPII MD[45]-电影-94:68k68.3k1M-VAD[54]-电影-92:46k55.9k-LSMDC[46]-电影-200:128k128k1[第50话]-室内157一万:一万 27.8k2-3[21]第二十一话-社交媒体-20k:123k123k1[28]第二十八话-开放20020k:100k100k1MSV [13]C开放-2k:2k70k35TGIF[32]-开放-- :10万128k1VTW[67]-开放-18K:18K18k1MSR-VTT[64]-开放2577公里:10公里200k20VA TE X(我们的)C开放60041.3k:41.3k826k20表1:视频描述数据集的比较。分为两个家族,单句生成(例如,[13,64])和多句子生成(例如,[28]),尽管它们可能由于语料库的不同而表现为不同的变体,例如,视频标题生成[67]和视频故事生成[21]。在这项工作中,我们提出了一个大规模的,高质量的多语言单句生成基准,旨在鼓励更深入地了解人类行为的如表1所示,我们的V A TE X数据集是视频覆盖率和语言语料库方面最大的基准;它还为每个视频片段提供20个字幕,以在描述同一视频时考虑到人类差异,因此支持更符合人类的评估。此外,我们的VA TE X数据集在规模上包含英文和中文描述,这比MSVD大一个数量级[13]。此外,MSVD不像VA TE X那样有任何翻译对因此,VA TE X可以为许多需要大规模培训的多语言,多模式研究提供支持。多语言视觉理解。 许多 已经提出了将视觉和语言结合起来的任务,以增强对其中一个或两个的理解,例如视频/图像字幕[17,58,2],视觉问答(VQA)[4]和自然语言矩检索[24]等。多语言研究很少在视觉和语言领域进行探索。Gao等人[20]介绍了一个多语言图像问答数据集,和清水等。[49]提出了一种跨语言的方法,利用英语注释,以改善日本VQA系统。Pappas等人[40]提出多语言视觉概念聚类来研究不同语言之间的共性和差异。同时,多语言图像字幕被引入以用多种语言描述图像的内容[30,55,31]。 但没有一个研究视频和多语言知识之间的相互作用。Sanabria等人[47]为自动语音识别(ASR)任务收集英语→葡萄牙语字幕,但不会直接显示分裂火车验证公开测试秘密测试#视频25,9913,0006,0006,278#字幕519,82060,000120,000125,560动作标签CC--表2:VA TE X数据集的分割(C表示视频具有可公开访问的动作标签)。对于秘密测试集,我们保留了人工注释的标题以供挑战使用。记录视频内容。因此,我们引入了VA- TE X数据集和多语言视频字幕的任务,以促进视频动态的多语言理解。多式 机 翻译.的 多模态中文翻译任务旨在产生更好的目标感,通过用从其他模态中收集的额外信息补充源句来增强语气。以前的研究主要集中在使用图像作为视觉模态来帮助机器翻译[52,18,6]。Multi30K数据集[19]基于图像字幕数据集Flickr30K [42]进行注释,通常用于此方向。例如,[26,22]考虑图像的对象特征,[9,33]将卷积图像特征导入机器翻译。此外,其他研究[37,11,38,8]探索了图像和句子的跨模态特征融合。本文首次将视频作为机器翻译的时空背景,提出了一种新的任务--视频引导的机器翻译。与图像相比,视频提供了更丰富的视觉信息,如动作和时间转换,这可以更好地帮助模型理解和对齐源语言和目标语言之间的单词/短语此外,VA TE X中的平行字幕超越了空间关系,并且在语言上比Multi30K更复杂,例如,一系列的行动。最后但并非最不重要的是,我们的VA TE X数据集包含超过206K的英汉句子对(每个视频5个),大约是Multi30K的7倍。3. VA TE X数据集3.1. 数据收集为了广泛覆盖人类活动,我们重用了Kinetics-600数据集[27]中的视频子集,这是最大且广泛使用的动作分类基准。Kinetics-600包含600个人类动作类和大约50万个视频剪辑。为了收集这些视频,凯等人。[27]首先通过结合先前的视频数据集[23,29,51,3,60]建立了一个动作列表,然后从YouTube上搜索候选视频,最终由Amazon Mechanical Turkers过滤。每段视频时长约10秒,均来自一段独特的YouTube视频。VATE X数据集将视频连接到自然语言描述,而不是粗糙的动作标签。值得注意的是,4584(a) 标题长度的分布(b)每个标题中独特名词的分布。(c)每个标题中唯一动词的分布。图3:MSR-VTT、VA TE X-en和VA TE X-zh的统计直方图分布。与MSR-VTT相比,VA TE X数据集包含更长的标题,每个标题都有更多独特的名词和动词。我们从Kinetics-600验证和保持测试集中收集了41,269个有效视频片段的中英文描述,总共花费了大约51,000数据收集窗口大约为两个月。我们已获得机构审查机构的批准,可进行人类受试者众包实验,而我们的报酬率相当高(估计时薪高于法律规定的最低工资)。我们将这些视频分为四组,如表2所示。请注意,训练集和验证集是从Kinetics-600验证集中分离出来的,测试集来自Kinetics-600保持测试集。下面我们将详细介绍英文和中文描述的收集过程。3.1.1英文描述收藏对于大规模和多样化的人工注释视频描述,我们以Amazon Mechanical Turk(AMT)2为基础,为VA TE X中的每个视频片段收集10个英文字幕具体而言,要求工人观看视频剪辑并用英语描述相应的字幕。在每个任务中,工作人员需要描述5个视频。我们展示了工作人员应该描述视频剪辑中所有重要人物和动作的指示,每个标题的字数不少于10个。AMT接口可以在补充材料中找到,其中包含更多细节。为了确保所收集字幕的质量,我们只雇用来自英语国家的工作人员,包括澳大利亚、加拿大、爱尔兰、新西兰、英国和美国。工人还需要在AMT上完成至少1000个先前的任务,并获得至少95%的批准率。此外,我们每天抽查每位员工撰写的字幕,以查看其是否与相应的视频相关同时,我们运行脚本来检查标题少于8个字;(2)字幕是否重复;(3)字幕是否含有敏感字眼;及(4)标题是否不是用英语写的。我们拒绝所有不符合要求的字幕,并阻止工人一贯提供低质量的注释。被拒绝的字幕将被重新收集,直到所有字幕严格符合要求。在初步的实验中,我们发现工人可能很难只用说明书写出好的标题。因此,我们进一步提供了一些被接受的好例子和被拒绝的坏例子(两者都与当前的视频片段无关)供工作人员我们观察到,这一额外的信息带来了明显的质量改进,收集的字幕。总的来说,2159名合格的工人注释了412690个有效的英文字幕。3.1.2中文描述集与英语语料库相似,我们为每个视频收集了10个中文描述符。但是为了支持视频引导的机器翻译任务,我们将这10个描述分为两部分,五个直接描述视频内容,另外五个是同一视频的5个所有标注均在字节跳动众包平台3上进行。所有工作人员均为母语为汉语的人,并具有良好的教育背景,以确保能够正确理解视频内容并准确撰写相应的描述对于直接描述视频内容的第一部分,我们遵循与英文字幕收集过程相同的注释规则,但每个中文字幕必须包含至少15个中文字符。对于第二部分,我们的目标是为每个视频收集5个英汉平行对,以实现VMT任务 但是,专业翻译人员的直接翻译-根据以下规则:(1)字幕是否3A公共中文众包平台:https://zc.2https://www.mturk.combytedance.com4585重复发送率#uniquen-gram #unique POS tags数据集发送长度视频内视频间1克2克3克4克动词名词形容词副词MSR-VTT9.2866.0%16.5%29,004 274,000614,449811,9038,86219,703 73291,195VA TE X-en15.2300538,5171,660,0152,773,21112,796二万三千二百八十八一万零六百三十九1,924VA TE X-zh13.9500626,0311,752,0852,687,16620,29930,797 4,7033,086表3:我们展示了平均句子长度,视频内(视频内)和整个语料库内(视频间)的重复句子率,唯一n元语法和POS标签的数量我们的VA TE X数据集在词汇上比MSR-VTT更丰富请注意,中文的词性标注规则遵循Penn Chinese Treebank标准[63],这与英语不同,因为词素不同。例如,VA TE X-zh比VA TE X-en具有更多的名词和动词,但较少的形容词,因为许多汉语形容词的语义包含在名词或动词中[69]4。但这是昂贵和耗时的。因此,遵循收集平行对的复杂方法[7,66],我们选择编辑后注释策略。特别地,对于每个视频,我们从注释的10个英文字幕中随机抽取5个字幕,并使用多个翻译系统将它们翻译成中文参考句子。然后,注释任务是,给定视频和参考文献,工作人员需要对参考文献进行后期编辑,并根据两个规则编写平行的中文句子:(1)需要保持原始的句子结构和语义,以保证与相应的英语句子的对齐,以及(2)可以基于视频内容来校正丢失或错误的实体和动作,以消除来自翻译系统的错误。为了进一步减少注释偏向于一个特定的翻译系统,在这里我们使用三个先进的英语→中文翻译系统(谷歌,微软和自开发的翻译系统),为工作人员提供机器翻译的句子作为每个英语字幕的参考。为了确保中文字幕的质量,我们进行严格的两阶段验证:每一个收集的描述必须由另一个独立的工人审查和批准。支持率低于90%的员工被屏蔽。中文字幕采集器在补充材料中可以找到。最终,450名中国工人参与了这两项任务,并编写了412,690个有效的中文字幕。一半的字幕是英汉对照句,所以我们总共有206345个翻译对3.2. 数据集分析在表1中,我们简要比较了现有视频描述数据集的总体统计数据在本节中,我们对VA TE X数据集和MSR-VTT数据集[64]进行了全面分析,MSR-VTT数据集是视频字幕的广泛使用的基准,在域和规模方面最接近VATE X由于MSR-VTT只有4For example, the segmented Chinese word 长发 (“long hair”) is la-beled as one noun in Chinese, but an adjective (“long”) and a noun (“hair”)in English.图4:类型-标题曲线。类型:独特的4克。VA TE X比MSR-VTT具有更多的词汇风格和标题多样性。英语语料库中,我们将VA TE X分为英语语料库(VATE X-en)和汉语语料库(VA TE X-zh)进行比较。VA T E X包含413 K英文和413 K中文字幕,描绘了41. 来自600个活动的3k唯一视频,而MSR-VTT具有描述来自257个活动的7k视频的200k字幕。除了更大的比例外,VA TE X-en和VA TE X-zh中的标题比MSR-VTT中的标题更长,更详细(见图3)。V A T E X-en、V A TE X-zh和MSR-VTT的平均字幕长度为15。23,13。95,9。28岁为了评估语言复杂性,我们比较了唯一的n元语法和词性(POS)标签(例如,动词、名词、副词等)在 MSR-VTT 、 VATEX-en 和 VA-TEX-zh 之 间 的 差 异(见表3),这说明VATEX比MSR-VTT有了改进,以及英语和汉语语料库之间的差异显然,我们的VA TE X数据集代表了更广泛的字幕风格,涵盖了更广泛的动作、对象和视觉场景。我们还对字幕多样性进行了深入的比较。首先,如表3所示,MSR-VTT面临严重的重复问题,0%的视频包含一些完全相同的字幕,而我们的VA TE X数据集没有这个问题,并保证同一视频中的字幕是唯一的不仅在视频中,我们的VA TE X数据集中的字幕也更加多样化,45863DConvNet两个孩子雕刻你好,你好,������解码器编码器关注解码器编码器解码器中国视频英语基地:Y共享Enc:共享Enc-Dec:图5:单语视频字幕模型。这表明我们的VA TE X也可以作为视频检索的高质量基准。为了更直观地衡量词汇丰富度和字幕多样性,我们提出了类型-字幕曲线,它改编自类型-令牌词汇曲线[65],但专门为这里的字幕语料库设计。计算每个语料库的字幕总数和不同词汇词(类型)的数量。因此,我们绘制了MSR-VTT、VA TE X-en和VA TE X-zh的类型数量与字幕数量的关系图(参见图4,其中我们选择4-gram作为类型)。 从这些类型标题曲线,推断出词汇风格或标题多样性(词汇使用),以及词汇能力图6:多语言视频字幕模型。在前一步骤yt-1中,通过学习注意力机制得到的视觉xt向量ct我们通过调整来自最先进的视频字幕方法的模型架构来实例化字幕模型[41,59]。我们使用预训练的I3 D模型[12]作为3D ConvNet来获得视觉特征X,双向LSTM[48](bi-LSTM)作为视频编码器fenc,LSTM [25]作为语言解码器fdec。我们还采用点积注意力,因此在解码步骤t,我们有yt , ht=fdec ( [yt-1 , ct] , ht-1 ) ,(1)其中ht是解码器在步骤t的隐藏状态,(词汇量),因此我们的VA TE X数据集显示为语言更加复杂多样。ct=softmax(ht−1WVT)V,(2)4. VA TE X任务4.1. 多语言视频字幕多语言视频字幕是使用一种以上的语言(如英语和中文)来描述视频内容的任务。下面,我们首先介绍一个单语视频字幕的基线模型,然后提出三种不同的多语种视频字幕模型。4.1.1模型我们从众所周知的基于注意力的视频字幕编码器-解码器模型开始。如图5所示,该架构有三个主要模块:• 3D卷积神经网络(3D ConvNet),其学习视频的时空特征并输出片段级特征序列X={x1,x2,. . . ,XL}。• 视频编码器模块 fenc将X编码成视频级特征V={v1,v2,. . . ,vL}的时间序列。• 基于注意力的语言解码器模块fdec,其通过考虑以下因素在每个时间步长t产生单词yt其中W是可学习的投影矩阵。为了实现多语言视频字幕,我们研究了三种方法(见图6):(1)两个基本模型,这是两个单语编码器-解码器模型(如图5所示),分别针对英语或中文进行训练(2) 共享编码器模型,它有一个共享的视频编码器,但有两个语言解码器来生成英语和中文;(3) 共享Enc-Dec模型,其中只有一个编码器和一个解码器,都由英语和汉语共享,唯一的区别是词嵌入权重矩阵对于不同的语言是不同的。4.1.2实验装置实施详情。我们在表2中的分割之后在VA- TEX数据集上训练模型。为了预处理视频,我们以25fps对每个视频进行采样,并从这些采样帧中提取I3D特征[12]。I3D模型是在原始的Kinetics训练数据集[27]上进行预训练的,在这里使用时无需微调。关于数据预处理和实现的更多细节可以在补充材料中找到。评估指标。我们采用四种不同的自动评估指标:BLEU[39],Meteor [16],Rouge-L [34]和CIDEr [56]。我们使用来自MS- COCO服务器[14]的标准评估代码来获得结果。编码器解码器编码器解码器中国视频英语编码器解码器中国视频英语45873DConvNetX视频编码器目标解码器来源注意源编码器时间注意力s1,s 2,两个孩子…雕刻…x1,x 2,ENCDecDecENC不不不ENCENCdectt英语中国模型#参数BLEU-4流星胭脂-L苹果酒BLEU-4流星胭脂-L苹果酒不含WT的基础52.5M28.1±0.3821.7±0.1546.8±0.1844.3±0.9824.4±0.8629.6±0.3051.3±0.4334.0±0.11基地39.7M28.1±0.3221.6±0.1946.9±0.1644.3±0.1024.9±0.2029.7±0.2151.5±0.2834.7±0.47共享Enc34.9M28.4±0.2121.7±0.6547.0±0.0945.1±0.2524.9±0.2629.7±0.1151.6±0.2034.9±0.40共享编码-解码26.3M27.9±0.5021.6±0.5546.8±0.1944.2±0.2324.9±0.2529.8±0.2351.7±0.0935.0±0.18表4:多语言视频字幕。我们报告了BLEU-4、Meteor、Rouge-L和CIDEr评分的基线模型结果每个模型使用不同的随机种子训练五次,结果以95%的置信水平报告。WT:权重绑定,这意味着输入单词嵌入层和softmax层共享相同的权重矩阵。4.1.3结果和分析表4显示了三个基线模型在英文和中文测试集上的结果。多语言模型(共享Enc和共享Enc-Dec)的性能与单语言模型(Base)相比得到了一致(尽管不显着)的改善。这表明,多语言学习确实有助于通过共享视频编码器的视频理解。更重要的是,共享Enc和共享Enc-Dec的参数显著减少了4。7米,13。4米以上的基础模型。这些观察结果验证了紧凑的统一模型能够产生多种语言的字幕,并受益于多语言知识学习。我们相信,更特殊的多语言模型将提高对视频的理解,并带来更好的结果。此外,引入多模态特征(如音频[61])将进一步提高性能,我们将其留给未来的研究。4.2. 视频引导机器翻译在本节中,我们讨论启用的新任务,视频引导机器翻译(VMT),使用视频信息作为附加的时空上下文将源语言句子翻译成目标语言。该任务具有各种潜在的现实世界应用,例如,在社交媒体上发布带有视频内容的帖子。4.2.1方法在VMT中,翻译系统将源句子和对应的视频作为输入,并且生成翻译的目标句子。为了有效地利用文本和视频这两种模态,我们设计了一个多模态序列到序列模型[53,57],其中注意力机制[5,36]用于VMT。我们的模型概述如图7所示,它主要由以下三个模块组成。源编码器。 对于表示为N个词嵌入的序列的每个源句子,S ={s1,s2,. . . ,sN},源编码器fsrc将其变换为句子特征U ={u1,u2,. . . ,uN}。S图7:视频引导的机器翻译模型。视频编码器。与4.1节类似,我们使用3D Con-vNet将每个视频转换为片段级特征序列X。 然后,我们采用视 频 编 码 器 fvi 将 X 变 换 为 视 频 特 征 V ={v1 ,v2,. . . ,vL}。目标解码器。 来自源语言编码器fsrc的句子嵌入和来自视频编码器fvi的视频嵌入被级联并被馈送到目标语言解码器ftgt中。为了动态地突出源句子中的重要单词和视频中的关键时空片段,我们为目标解码器fsrc配备了两种注意机制。因此,在每个解码步骤t,我们有yt,ht=ftgt([yt−1,csrc,cvi],ht−1),(3)其中ht是步骤t处解码器的隐藏状态。cvi是利用视频片段的时间注意力计算的视频上下文向量(参见等式2),并且csrc是源语言上下文向量:csrc= softmax(ht−1W srcU T)U,(4)其中W src是可学习的投影矩阵。两个孩子雕刻4588示范英语→中文中文→英语不含VI的26.8524.31+平均VI26.97(+0.12)24. 39(+0.08)+LSTM VI w/o Attn27.43(+0.58)24.76(+0. 第四十五章)+LSTM VI w/Attn(VMT)29. 27)26. 第十一章表5:视频引导机器翻译。结果以BLEU-4评分报告。VI:来自预训练I3D模型的视频特征Attn:时间注意力机制。4.2.2实验装置基线。我们考虑以下三个基线进行比较:(1)基本NMT模型:我们只考虑机器翻译的文本信息,采用带有源注意机制的编码器-解码器模型。(2)平均视频特征:我们将每个视频的段级特征X平均为x。然后将平均视频特征x与S中的每个单词嵌入st连接起来。模型结构与基本NMT模型相同。(3)LSTM视频功能:这是我们的VMT模型,没有对解码器中的视频进行时间关注。4.2.3结果和分析VMT 我们首先在表5中显示了四种不同模型对汉语→英语和英语→汉语翻译的结果。平均视频特征和LSTM视频特征的边际改进表明,被动地接收和合并视频特征在帮助对齐源语言和目标语言方面是然而,我们可以观察到,当使用具有时间注意力的LSTM视频特征(我们的完整VMT模型)与视频特征动态交互时,翻译系统实现了更好的性能这是因为在注意机制下,语言动态被用作查询以突出视频中的相关时空特征这也验证了额外的视频信息可以有效地用于提升机器翻译系统。蒙面VMT 视频包含了丰富的主宾名词和动作动词的信息。因此,我们相信-导管名词/动词掩蔽实验[10],以调查视频信息在多大程度上可以帮助机器翻译。我们将英文字幕中的0%/25%/50%/75%/100%名词或动词随机替换为一个特定的to- ken [M],然后在不同掩蔽率下对NMT和VMT模型进行训练。本实验的目的是评估VMT在视频语境的帮助下恢复源句缺失信息的能力除了BLEU-4指标之外,我们还建议使用名词/动词恢复准确率,即BLEU-4准确度(%)价格0% 25% 50% 75% 100% 0% 25% 50% 75% 100%名词掩蔽NMT 26.9 20.2 13.08.54.1 七十二53.7 35.4 15.610.1VMT 29.1 24.7 19.3 16.914.3七十六点四65.6 50.8 43.239.7动词掩蔽NMT 26.9 23.3 15.4 11.67.2六十五点一57.4 40.9 33.619.8VMT 29.1 26.8 22.019.316.570.463.6 54.2 48.740.5表6:具有不同名词/动词掩蔽率的英语→中文的视频引导机器翻译。我们使用BLEU-4评分和名词/动词恢复准确性来评估结果。目标句子中正确翻译的名词/动词,以精确评估附加视频信息对恢复名词/动词的影响。不同掩蔽率的结果见表6。首先,VMT模型始终优于NMT模型,在两个指标上具有不同的掩蔽率。此外,随着掩蔽率的增加,NMT模型很难找出正确的名词/动词,因为很少有匹配的标题对;而VMT模型可以依靠视频上下文获取更多的有用信息进行翻译,因此在恢复精度上的性能差距急剧增大。这表明,在我们的VMT模型中,视频信息可以在理解主体,对象和动作以及它们之间的关系方面发挥至关重要的作用。5. 讨论和未来工作在本文中,我们介绍了一个新的大规模多语言数据集的视频和语言的研究。除了(多语言)视频字幕和视频引导机器翻译之外,该数据集还具有其他一些潜力。例如,由于VA TE X中的自然语言描述是唯一的,因此一个有希望的方向是使用我们数据集的多语言描述作为查询,以从所有视频中检索视频剪辑[35],甚至将其本地化在未修剪的长视频中[68]。同时,VA TEX有600个细粒度的动作标签,因此我们可以保留某些动作类来评估不同视频字幕模型的泛化能力,以支持零镜头/少镜头学习[62]。此外,我们的数据集可以为神经科学等其他研究领域做出贡献。例如,当描述同一个视频时,使用不同语言的人的焦点可以通过他们的文字标题来反映通过对多语种字幕的分析,可以发现不同文化和语言背景的人在大脑注意方面的共性和差异总的来说,我们希望VA TE X数据集的发布将促进视频和语言研究的发展。4589引用[1] Nayyer Aafaq,Ajmal Mian,Wei Liu,Syed ZulqarnainGi- lani,and Mubarak Shah.视频说明:方法、数据集和评价指标的调查。arXiv预印本arXiv:1806.00186,2018。[2] Harsh Agrawal , Karan Desai , Xinlei Chen , RishabhJain,Dhruv Batra,Devi Parikh,Stefan Lee,and PeterAnderson. nocaps:按比例绘制新对象字幕。arXiv预印本arXiv:1812.08658,2018。[3] 放大图片作者:Peter V. Gehler和Bernt Schiele。2D人体姿态估计:新的基准和最先进的分析。Proceedings ofthe 27th IEEE Conference on Computer Vision and PatternAppropriation(CVPR),pages 3686[4] Stanislaw Antol , Aishwarya Agrawal , Jiasen Lu ,Margaret Mitchell,Dhruv Batra,C.劳伦斯·齐特尼克和德维·帕里克Vqa:可视化问答。Proceedings of the 2015IEEEInternationalConferenceonComputerVision(ICCV),pages 2425[5] Dzmitry Bahdanau,Kyunhyun Cho,Yoshua Bengio.通过联合学习对齐和翻译的神经机器翻译。第三届国际学习表征会议(ICLR),2015年。[6] Loıc Barrault、Fethi Bougares、Lucia Specia、ChiraagLala、Desmond Elliott和Stella Frank。第三个多模态机器 翻 译 共 享 任 务 的 发 现 。 第 三 届 机 器 翻 译 会 议(WMT)论文集,第304-323页,2018年[7] Houda Bouamor , Hanan Alshikhabobakr , BehrangMohit,and Kemal Oflazer.人类判断语料库及阿拉伯语机 器 翻 译 评 价 指 标 。 在 Proceedings of the 2014Conference on Empirical Methods in Natural LanguageProcessing(EMNLP),第207-213页[8] Ozan Caglyan,Walid Aransa,Adrien Bardet,MercedesGarc 'ıa-Mart' ınez,Fethi Bougares,Loíc Barrault,MarcMasana,Luis Herranz,Joost van de Weijer. wmt17多模态翻译任务的cvc提交。第二届机器翻译会议(WMT)论文集,第432-439页,2017年[9] Ozan Caglayan,Loic Barrault和Fethi Bougares。神经机器 翻 译 的 多 模 态 注 意 。 arXiv 预 印 本 arXiv :1609.03976,2016年。[10] Ozan Caglayan , Pranava Madhyastha , Lucia Specia ,and Loic Barrault.探讨多模态机器翻译对视觉语境的需求。 在计算语言学协会北美分会2019年年度会议论文集中:人类语言技术(NAACL-HLT),2019年。[11] Iacer Calixto和Qun Liu。将全局视觉特征转换为基于注意力的神经机器翻译。在2017年自然语言处理经验方法会议(EMNLP)上,第992-1003页[12] J oaoCarreira和Andr e wZisserman。Quovadis,动作识别?新模型和动力学数据集。第30届IEEE计算机视觉和模式识别会议(CVPR)的论文集,第4724-4733页[13] David L.Chen和William B.多兰收集高度平行的数据进行释义评估。在计算语言学协会(ACL)第49届年会上,2011年。[14] XinleiChen , Hao Fang , Tsung-Yi Lin , RamakrishnaVedan-tam , SaurabhGupta , PiotrDol la´r , andCL awrenceZitnick. Microsoft coco字幕:数据收集和评估服务器。arXiv预印
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索AVL树算法:以Faculdade Senac Porto Alegre实践为例
- 小学语文教学新工具:创新黑板设计解析
- Minecraft服务器管理新插件ServerForms发布
- MATLAB基因网络模型代码实现及开源分享
- 全方位技术项目源码合集:***报名系统
- Phalcon框架实战案例分析
- MATLAB与Python结合实现短期电力负荷预测的DAT300项目解析
- 市场营销教学专用查询装置设计方案
- 随身WiFi高通210 MS8909设备的Root引导文件破解攻略
- 实现服务器端级联:modella与leveldb适配器的应用
- Oracle Linux安装必备依赖包清单与步骤
- Shyer项目:寻找喜欢的聊天伙伴
- MEAN堆栈入门项目: postings-app
- 在线WPS办公功能全接触及应用示例
- 新型带储订盒订书机设计文档
- VB多媒体教学演示系统源代码及技术项目资源大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功