EPIC-KITCHENS：大规模第一人称视角视频数据集

60 浏览量更新于2024-06-20 收藏 3.49MB PDF 举报

"EPIC-KITCHENS数据集是针对第一人称视角的视觉理解而创建的一个大规模、多样化的数据集，旨在推动自我中心视觉领域的研究。这个数据集包含32位参与者在各自本地厨房环境中进行非脚本化日常活动的视频，总共有55小时的视频，约1150万帧，且对39.6K个动作片段和454.3K个对象边界框进行了密集标注。此外，参与者还对他们的视频进行了事后叙述，提供了反映真实意图的注释。EPIC-KITCHENS数据集提供了‘看见的厨房’和‘看不见的厨房’两种测试分割，用于评估模型在不同条件下的性能。该数据集的发布旨在促进自我中心物体检测、动作识别和预测等任务的研究，并且已经为这些任务设置了基线评估。" 在第一人称视角（First-Person Perspective，FPP）或自我中心视觉（Egocentric Vision）的研究中，EPIC-KITCHENS数据集是一个重要的里程碑。它弥补了现有数据集在长时间、复杂场景和真实意图注释方面的不足。传统的视觉任务，如图像分类、对象检测和视觉问答，已经受益于深度学习技术的提升和大规模数据集的使用，但视频理解领域的进展相对较慢，主要受限于注释视频数据的困难。EPIC-KITCHENS数据集的出现，使得研究者能够更好地模拟实际生活中的视觉感知，尤其是在动态交互和目标识别方面。这个数据集的独特之处在于其多样性，包括不同城市的厨房环境、参与者来自10个不同国家，以及涵盖了各种烹饪风格，这为研究跨文化、跨环境的行为理解和视觉理解提供了宝贵资源。同时，参与者对视频的叙述使得注释更接近真实的意图，这对于理解和预测动作的上下文至关重要。在评估部分，EPIC-KITCHENS提出了‘看见的厨房’和‘看不见的厨房’两种场景，前者测试模型在已知环境中的泛化能力，后者则考察模型在新环境中的适应性。这为动作识别和预测的研究提供了挑战性的问题，也鼓励了模型的鲁棒性和泛化能力的提升。 EPIC-KITCHENS数据集对于推动自我中心视觉、第一人称视角的理解，以及相关领域的深度学习算法发展，都具有重大的贡献。它不仅为研究人员提供了丰富的实验素材，也为未来的数据集建设和标注方法提供了参考。通过这个数据集，可以深入研究如何处理连续视频中的复杂行为序列，以及如何在不完全信息的情况下准确理解并预测人的意图。

D. Damen等

人

用任何你喜欢的词你可以随意改变你的措辞，或者坚持几

个。使用现在时态动词（例如切割/打开/关闭）。

使用动词-宾语对（例如洗胡萝卜）。

您

可以（如果您已更新）备份和更新（

例如

，

“

cut k i w i”是“I cut h e k i w

i”中的一个字）

。

我们

提供了所需的成本（

例如

“

p o u r wat t e r i n to ok et tt l

e“）

。

我们和其中一个人是一个真正的合作伙伴

。

“

hol d mug and pour ur

wat et er”）

。

如果

taking

，则您可以在

（

“

s t ill s t irr i n g s o up”）

。

图2：用于从我们的参与者

3.1

数据收集

该数据集由不同国家（北美和欧洲）4个城市的32名个人记录：2017

年5月至11月，英国布里斯托尔15家，加拿大多伦多8家，意大利卡塔

尼亚8家，美国西雅图1家。参与者被要求连续三天记录所有的厨房访

问，在进入厨房之前立即开始记录，直到离开厨房之前才停止。他们

自愿记录数据集，没有经济奖励。参与者被要求在所有的录音中独自

在厨房里，因此只捕捉一个人的活动。我们还要求他们移除所有会暴

露他们身份的物品，如肖像或镜子。使用头戴式GoPro捕获数据，该

头戴式GoPro具有可调节的安装

件，以便于观察不同的图像和部件

。

在

每次录制之前，参与者使用GoPro Capture应用程序检查电池寿命和视

角，以便他们伸展的手大约位于相机框架的中间。相机被设置为线性

视野，

59.94 fps

和1920x1080的全高清分辨率，然而一些受试者进行了

微小的改变，如宽或超宽FOV或分辨率，因为他们在家中记录了多个

序列，因此在几天内关闭和打开设备。具体而言，1%的视频是以

1280x720录制的，0.5%是以1920x1440录制的。此外，30 fps时为1%

，

48 fps

时为

，90 fps时为0.2%

。

根据

零件的零件规格，重新设计的尺寸各不相同

。平均而言，人们记

录了1.7小时，最高为4.6小时。烹饪一顿饭可以跨越多个序列，这取

决于一个人是呆在厨房里，还是离开并稍后返回。平均而言，每个参

与者记录了13.6个序列。图3显示了使用记录的本地时间、高级目标和

序列持续时间的一天中的时间统计信息。

由于对这样长的视频进行众包注释非常具有挑战性，我们让最初的

参与者做一个粗略的第一注释。每个参与者在完成所有记录后，被要

求观看他们的录像，并使用手持记录设备叙述所进行的行动。我们选择

了录音而不是书面字幕，因为这对参与者来说可以说是更快的，因此他

们更愿意提供这些注释。这些类似于视频的

现场评论

。叙述的一般说

明列在图中。2.参与者用英语（如果足够流利）或其母语进行叙述。总

共使用了5种语言：17篇以英语叙述，7篇以意大利语叙述，6篇以西班牙

语叙述，1篇以希腊语叙述，1篇以中文叙述。图3示出了每种语言中最频

繁的单词的单词

剩余16页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

EPIC-KITCHENS：大规模第一人称视角视频数据集

epic-kitchens-55-lib:EPIC-KITCHENS-55数据集python库

epic-kitchens-100-annotations:EPIC-KITCHENS-100数据集公开发布的注释

epic-kitchens-55-annotations:E EPIC KITCHENS-55数据集的注释

基于EPIC-Kitchens数据集的TSN/TRN/TSM动作识别基准

epic-kitchens.github.io:史诗厨房自我中心行动数据集

video_datasets_api:视频数据集（EPIC-Kitchens，Something-Something-V1）工具和API

C1-Action-Recognition-TSN-TRN-TSM:EPIC-Kitchens-100动作识别基准

EPIC KITCHENS-55:大规模第一人称视频数据集注释解读

Kitchens and Baths - Latest Blog News Update-crx插件

kitchens:小厨房

最新资源