EPIC-KITCHENS:大规模第一人称视角视频数据集

0 下载量 60 浏览量 更新于2024-06-20 收藏 3.49MB PDF 举报
"EPIC-KITCHENS数据集是针对第一人称视角的视觉理解而创建的一个大规模、多样化的数据集,旨在推动自我中心视觉领域的研究。这个数据集包含32位参与者在各自本地厨房环境中进行非脚本化日常活动的视频,总共有55小时的视频,约1150万帧,且对39.6K个动作片段和454.3K个对象边界框进行了密集标注。此外,参与者还对他们的视频进行了事后叙述,提供了反映真实意图的注释。EPIC-KITCHENS数据集提供了‘看见的厨房’和‘看不见的厨房’两种测试分割,用于评估模型在不同条件下的性能。该数据集的发布旨在促进自我中心物体检测、动作识别和预测等任务的研究,并且已经为这些任务设置了基线评估。" 在第一人称视角(First-Person Perspective,FPP)或自我中心视觉(Egocentric Vision)的研究中,EPIC-KITCHENS数据集是一个重要的里程碑。它弥补了现有数据集在长时间、复杂场景和真实意图注释方面的不足。传统的视觉任务,如图像分类、对象检测和视觉问答,已经受益于深度学习技术的提升和大规模数据集的使用,但视频理解领域的进展相对较慢,主要受限于注释视频数据的困难。EPIC-KITCHENS数据集的出现,使得研究者能够更好地模拟实际生活中的视觉感知,尤其是在动态交互和目标识别方面。 这个数据集的独特之处在于其多样性,包括不同城市的厨房环境、参与者来自10个不同国家,以及涵盖了各种烹饪风格,这为研究跨文化、跨环境的行为理解和视觉理解提供了宝贵资源。同时,参与者对视频的叙述使得注释更接近真实的意图,这对于理解和预测动作的上下文至关重要。 在评估部分,EPIC-KITCHENS提出了‘看见的厨房’和‘看不见的厨房’两种场景,前者测试模型在已知环境中的泛化能力,后者则考察模型在新环境中的适应性。这为动作识别和预测的研究提供了挑战性的问题,也鼓励了模型的鲁棒性和泛化能力的提升。 EPIC-KITCHENS数据集对于推动自我中心视觉、第一人称视角的理解,以及相关领域的深度学习算法发展,都具有重大的贡献。它不仅为研究人员提供了丰富的实验素材,也为未来的数据集建设和标注方法提供了参考。通过这个数据集,可以深入研究如何处理连续视频中的复杂行为序列,以及如何在不完全信息的情况下准确理解并预测人的意图。