谷歌AVA数据库:原子视觉动作标注视频集1705.08421 中文解析
需积分: 9 87 浏览量
更新于2024-09-09
收藏 1.29MB DOCX 举报
"谷歌发布了AVA数据库,这是一个专注于原子视觉动作(Atomic Visual Actions, AVA)的视频数据集。该数据集包含80种不同的原子视觉动作,对57.6k个3秒视频片段进行了密集标注,总计210k动作标签,包括对每个人可能存在的多个动作的标签。与现有的数据集如JHMDB和UCF相比,AVA着重于原子级动作定义、清晰的时空标注以及对多样、真实视频内容的使用。这一数据集旨在推动视频理解技术的发展,并提供了一个基准来衡量在现实场景中的性能和进步。"
在论文中,作者介绍了AVA数据集的创建背景和特点。首先,ava数据库的特色在于其原子视觉动作的概念,这允许研究者不必关注复杂的复合动作,而是专注于更基本的动作单元。其次,每个动作都有明确的时空边界,同时考虑了多人在同一场景中执行不同动作的情况。此外,数据集来源于真实的电影剪辑,增加了多样性并提供了丰富的上下文信息。
图1展示了AVA数据集中的一帧示例,其中人物被矩形框标注,每个框与其相关的动作标签相匹配,包括姿势动作、物体交互和人际交互。这种标注方式使得数据集能够处理多个人同时进行的不同动作。
数据集的构建过程中,选取了电影的连续3秒片段,并在每个片段的中心帧进行标注,但标注者可以参考整个视频的动态来理解动作。这些动作被标记为“Atomic Visual Actions”,缩写为AVA,这也是数据集的名字。目前,AVA包含了80种不同的动作,源自192部电影的57.6k个3秒片段,每个片段来自电影的15分钟剪辑,以确保多样性和连续性。总共有210k个动作标签,显示出多标签现象的普遍性。作者计划将此标注过的数据集公开给计算机视觉领域的研究者。
这一工作受到之前对日常生活细致观察的启发,比如堪萨斯州小镇孩子们的活动,这表明ava数据集的创建是为了更好地理解和解析日常生活中复杂的人类行为。通过对AVA数据集的使用,研究人员能够开发出更精确的动作识别算法,进一步推动视频理解领域的进展。
2021-05-11 上传
2023-09-17 上传
2023-08-02 上传
2023-12-22 上传
2023-08-29 上传
2023-03-16 上传
2023-07-15 上传
技术修行
- 粉丝: 47
- 资源: 2
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常