谷歌AVA数据库:原子视觉动作标注视频集1705.08421 中文解析

需积分: 9 3 下载量 87 浏览量 更新于2024-09-09 收藏 1.29MB DOCX 举报
"谷歌发布了AVA数据库,这是一个专注于原子视觉动作(Atomic Visual Actions, AVA)的视频数据集。该数据集包含80种不同的原子视觉动作,对57.6k个3秒视频片段进行了密集标注,总计210k动作标签,包括对每个人可能存在的多个动作的标签。与现有的数据集如JHMDB和UCF相比,AVA着重于原子级动作定义、清晰的时空标注以及对多样、真实视频内容的使用。这一数据集旨在推动视频理解技术的发展,并提供了一个基准来衡量在现实场景中的性能和进步。" 在论文中,作者介绍了AVA数据集的创建背景和特点。首先,ava数据库的特色在于其原子视觉动作的概念,这允许研究者不必关注复杂的复合动作,而是专注于更基本的动作单元。其次,每个动作都有明确的时空边界,同时考虑了多人在同一场景中执行不同动作的情况。此外,数据集来源于真实的电影剪辑,增加了多样性并提供了丰富的上下文信息。 图1展示了AVA数据集中的一帧示例,其中人物被矩形框标注,每个框与其相关的动作标签相匹配,包括姿势动作、物体交互和人际交互。这种标注方式使得数据集能够处理多个人同时进行的不同动作。 数据集的构建过程中,选取了电影的连续3秒片段,并在每个片段的中心帧进行标注,但标注者可以参考整个视频的动态来理解动作。这些动作被标记为“Atomic Visual Actions”,缩写为AVA,这也是数据集的名字。目前,AVA包含了80种不同的动作,源自192部电影的57.6k个3秒片段,每个片段来自电影的15分钟剪辑,以确保多样性和连续性。总共有210k个动作标签,显示出多标签现象的普遍性。作者计划将此标注过的数据集公开给计算机视觉领域的研究者。 这一工作受到之前对日常生活细致观察的启发,比如堪萨斯州小镇孩子们的活动,这表明ava数据集的创建是为了更好地理解和解析日常生活中复杂的人类行为。通过对AVA数据集的使用,研究人员能够开发出更精确的动作识别算法,进一步推动视频理解领域的进展。