谷歌AVA数据库：原子视觉动作标注视频集1705.08421 中文解析

需积分: 9 87 浏览量更新于2024-09-09 收藏 1.29MB DOCX 举报

"谷歌发布了AVA数据库，这是一个专注于原子视觉动作(Atomic Visual Actions, AVA)的视频数据集。该数据集包含80种不同的原子视觉动作，对57.6k个3秒视频片段进行了密集标注，总计210k动作标签，包括对每个人可能存在的多个动作的标签。与现有的数据集如JHMDB和UCF相比，AVA着重于原子级动作定义、清晰的时空标注以及对多样、真实视频内容的使用。这一数据集旨在推动视频理解技术的发展，并提供了一个基准来衡量在现实场景中的性能和进步。" 在论文中，作者介绍了AVA数据集的创建背景和特点。首先，ava数据库的特色在于其原子视觉动作的概念，这允许研究者不必关注复杂的复合动作，而是专注于更基本的动作单元。其次，每个动作都有明确的时空边界，同时考虑了多人在同一场景中执行不同动作的情况。此外，数据集来源于真实的电影剪辑，增加了多样性并提供了丰富的上下文信息。图1展示了AVA数据集中的一帧示例，其中人物被矩形框标注，每个框与其相关的动作标签相匹配，包括姿势动作、物体交互和人际交互。这种标注方式使得数据集能够处理多个人同时进行的不同动作。数据集的构建过程中，选取了电影的连续3秒片段，并在每个片段的中心帧进行标注，但标注者可以参考整个视频的动态来理解动作。这些动作被标记为“Atomic Visual Actions”，缩写为AVA，这也是数据集的名字。目前，AVA包含了80种不同的动作，源自192部电影的57.6k个3秒片段，每个片段来自电影的15分钟剪辑，以确保多样性和连续性。总共有210k个动作标签，显示出多标签现象的普遍性。作者计划将此标注过的数据集公开给计算机视觉领域的研究者。这一工作受到之前对日常生活细致观察的启发，比如堪萨斯州小镇孩子们的活动，这表明ava数据集的创建是为了更好地理解和解析日常生活中复杂的人类行为。通过对AVA数据集的使用，研究人员能够开发出更精确的动作识别算法，进一步推动视频理解领域的进展。

技术修行

粉丝: 47
资源: 2

谷歌AVA数据库：原子视觉动作标注视频集1705.08421 中文解析

ava_v2.2.zip

GPlayer（监控av播放）.exe

ava_downloader:下载AVA数据集（用于审美视觉分析的大型数据库）

ava.lang.InterruptedException

ava.lang.IllegalMonitorStateException

ava.lang.UnsupportedOperationException

ava.sql.SQLSyntaxErrorException

ava.lang.nullpointerexception

ava.lang.assertionerror

ava.lang.NullPointerException

最新资源