VATEX：大规模多语言视频描述与机器翻译的数据集与应用

PDF格式 | 1.49MB | 更新于2025-01-16 | 16 浏览量 | 举报

VATEX是一个专为视频和语言研究设计的大规模多语言数据集，由王欣等人提出，包含超过41,250个视频片段和825,000条中英字幕，其中超过206,000对英汉对照字幕。与MSR的VTT数据集相比，VATEX具有以下特点： 1. 多语言支持：VATEX不仅限于英语，而是涵盖了多种语言，使其在语言多样性方面更具优势，这对于多语言模型的训练至关重要。 2. 规模和多样性：数据集庞大，包含了丰富的视频内容，涉及多个领域，如烹饪、电影、人的行为和社交媒体，这使得研究人员能够探索视频理解和描述的广泛场景。 3. 视频字幕研究：该数据集推动了多语言视频字幕任务的发展，旨在训练模型生成简洁、统一的语言描述，如描述一个人如何在门口使用拉杆做向上运动，展示出多语言模型在视频描述方面的效率和准确性。 4. 视频引导机器翻译：VATEX也被用于视频引导的机器翻译研究，通过结合视频上下文，为源语言描述提供时空背景，帮助模型更准确地将文本翻译成目标语言。例如，通过利用视频，模型能理解“pull upbar”是指做引体向上，而不仅仅是拉杆的动作，从而避免翻译错误。 5. 应用潜力：VATEX展示了在视频分析、跨语言沟通和自动化翻译等领域的广阔应用前景，为未来的深度学习模型提供了丰富的训练材料，有助于提升AI在理解和生成自然语言描述上的能力。 VATEX是一个重要的资源，它不仅推动了多语言视频处理技术的发展，也为解决实际问题，如跨文化交流和自动视频内容索引，提供了强大的工具。通过VATEX，研究者可以探索并改进机器翻译模型，更好地理解和生成视频内容的自然语言描述，从而促进计算机视觉和自然语言处理领域的交叉融合。

4583

数据集MLingual 域 #classes #videos：clips #sent #sent/clip

TACoS[43]

烹饪

127

：

3.5k

11.8k

[44]第四十四话

烹饪

185：25k

75k

Youcook[15]

烹饪

第八十八

章：

2.7k

[70]

第七十话

烹饪

2k：15.4k

15.4k

MPII MD[45]

电影

94：68k

68.3k

M-VAD[54]

电影

：

46k

55.9k

LSMDC[46]

电影

200

：

128k

[

第

话

]

室内

157

一万：一万

27.8k

2-3

[21]第二十一话

社交媒体

20k：123k

123k

[28]第二十八话

开放

200

20k：100k

100k

MSV [13]

开放

：

70k

TGIF[32]

开放

- ：10万

128k

VTW[67]

开放

18K：18K

18k

MSR-VTT[64]

开放

257

7公里：10

公里

200k

VA TE X（我们的）

开放

600

41.3k：

41.3k

826k

表

：视频描述数据集的比较。

分为两个家族，单句生成（

例如

，[13，64]）和多句

子生成（

例如

，[28]），尽管它们可能由于语料库的

不同而表现为不同的变体，

例如

，视频标题生成[67]

和视频故事生成[21]。在这项工作中，我们提出了一

个大规模的，高质量的多语言单句生成基准，旨在鼓

励更深入地了解人类行为的如表1所示，我们的V A T

E X数据集是视频覆盖率和语言语料库方面最大的基准;

它还为每个视频片段提供20个字幕，以在描述同一视

频时考虑到人类差异，因此支持更符合人类的评估。

此外，我们的VA TE X数据集在规模上包含英文和中文

描述，这比MSVD大一个数量级[13]。此外，MSVD不

像VA TE X那样有任何翻译对因此，VA TE X可以为许

多需要大规模培训的多语言，多模式研究提供支持。

多语言视觉理解。许多已经提出了将视觉和语言结

合起来的任务，以增强对其中一个或两个的理解，例

如

视频/图像字幕[17，58，2]，视觉问答（VQA）[4]和

自然语言矩检索[24]等。多语言研究很少在视觉和语

言领域进行探索。Gao等人[20]介绍了一个多语言图像

问答数据集，和清水

等

。[49]提出了一种跨语言的方

法，利用英语注释，以改善日本VQA系统。Pappas等

人[40]提出多语言视觉概念聚类来研究不同语言之间

的共性和差异。同时，多语言图像字幕被引入以用多

种语言描述图像的内容[30，55，31]。但没有一个研

究视频和多语言知识之间的相互作用。Sanabria等人

[47]为自动语音识别（ASR）任务收集英语→葡萄牙语

字幕，但不会直接显示

分裂

火车

验证

公开测试

秘密测试

#视频

25,991

3,000

6,000

6,278

字幕

519,820

60,000

120,000

125,560

动作标签

表

：

数据集的分割（

表示视频具有可公开访问的

动作标签）。对于秘密测试集，我们保留了人工注释的标题

以供挑战使用。

记录视频内容。因此，我们引入了VA- TE X数据集和

多语言视频字幕的任务，以促进视频动态的多语言理

解。多式机翻译. 的多模态

中文翻译任务旨在产生更好的目标感，

通过用从其他模态中收集的额外信息补充源句来增强

语气。以前的研究主要集中在使用图像作为视觉模态

来帮助机器翻译[52，18，6]。Multi30K数据集[19]基

于图像字幕数据集Flickr30K [42]进行注释，通常用于

此方向。例如，[26，22]考虑图像的对象特征，[9，33]

将卷积图像特征导入机器翻译。此外，其他研究[37，

11，38，8]探索了图像和句子的跨模态特征融合。本

文首次将视频作为机器翻译的时空背景，提出了一种

新的任务--视频引导的机器翻译。与图像相比，视频

提供了更丰富的视觉信息，如动作和时间转换，这可

以更好地帮助模型理解和对齐源语言和目标语言之间

的单词/短语此外，VA TE X中的平行字幕超越了空间

关系，并且在语言上比Multi30K更复杂，

例如

，一系

列的行动。最后但并非最不重要的是，我们的VA TE X

数据集包含超过206K的英汉句子对（每个视频5个），

大约是Multi30K的7倍。

VA TE X数据集

3.1.

数据收集

为了广泛覆盖人类活动，我们重用了Kinetics-

600

数

据集[27]中的视频子集，这是最大且广泛使用的动作

分类基准。Kinetics-600包含600个人类动作类和大约50

万个视频剪辑。为了收集这些视频，凯

等人

。[27]首

先通过结合先前的视频数据集[23，29，51，3，60]建

立了一个动作列表，然后从YouTube上搜索候选视

频，最终由Amazon Mechanical Turkers过滤。每段视

频时长约10秒，均来自一段独特的YouTube视频。VA

TE X数据集将视频连接到自然语言描述，而不是粗糙

的动作标签。值得注意的是，

剩余10页未读，继续阅读

cpongm

粉丝: 6

VATEX：大规模多语言视频描述与机器翻译的数据集与应用

多视点视频的多描述编码

编译原理期末考试押题

【MIPI相机视频流处理】：v1.1.1视频流捕获与播放的优化技巧

【R语言处理大型数据集】：diana包在大规模数据分析中的应用技巧

掌握汇编指令集：一步到位的x86与x64性能优化秘籍

R语言高维数据分析：Poisson分布与多变量统计探究

软件测试国际化挑战：GB∕T 9386-2008标准的多语言支持策略

R语言数据分析入门速成：9个技巧助你一飞冲天

系统调用与汇编指令集：x86与x64架构下的系统服务深入解析

R语言数据挖掘：挖掘数据科学的10大核心精华，北大李东风教材案例

最新资源