PA3D：统一框架下的3D姿势动作识别新突破

PDF格式 | 936KB | 更新于2025-01-16 | 178 浏览量 | 举报

姿势动作3D机器（PA3D）是一种创新的视频识别方法，旨在充分利用人体姿势动态这一重要的动作识别线索。当前的视频动作识别研究主要依赖于RGB（颜色）和光流数据，但这些信息并未完全捕捉到人类行为的三维时空变化。PA3D通过构建一个统一的3D框架，提出了时间姿态卷积聚合门（TAConvAG），这是一种不同于传统时域卷积的新技术，它能够直接学习并区分姿势运动，这对于理解和识别复杂的人类动作至关重要。 PA3D的设计目标是克服现有基于姿势方法的局限性，它们通常依赖于预先定义的人体姿态特征或固定的编码方案，导致姿势表示与动作识别之间的互动不足。PA3D通过将多帧姿势信息整合到一个自适应的、通用的语义流中，实现了姿势动态与动作识别的无缝融合，从而增强了对复杂视频动作的理解能力。在实证研究中，PA3D在三个流行的数据集——JHMDB、HMDB和Charades上展现了卓越的性能，超越了近期的基于姿势方法。值得注意的是，PA3D与现有的3D CNN，如I3D多流融合，形成了有效的互补，共同推动了视频动作识别领域的前沿进展。 PA3D的出现填补了3D视频识别中姿势动态利用的空白，提供了一个强大且灵活的框架，促进了姿势表示和动作识别的深度交互，有助于提升视频监控和人机交互等应用场景下的动作识别准确性和鲁棒性。在未来的研究中，这种结合姿态信息的3D机器有望进一步推动计算机视觉与模式识别领域的发展。

7922

PA3D：用于视频识别的姿势动作3D机器

王亚

丽

李志峰

乔

宇

，

1中国科学院深圳先进技术研究院SIAT-SenseTime联合实验室深圳市计算机视觉与模式

识别重点实验室

腾讯人工智能实验室

加州大学圣地亚哥

分校

香港中文大学

摘要

最近的研究已经见证了使用

3D CNN

进行视频动作

识别的成功。然而，大多数

模型是建立在

RGB

和光

流流上的，这可能没有完全利用姿态动态，即，一个

模拟人类行为的重要线索为了填补这一空白，我们提

出了一个简洁的姿势动作

机器（

PA3D

），它可以

有效地编码在一个统一的

框架内的多个姿势模态，

从而学习时空姿势表示的动作识别。更具体地说，我

们引入了一种新的时间姿态卷积

aggre

门空间构成的

帧。与经典的时域卷积不同，我们的操作可以显式地

学习姿势运动，这些姿势运动对识别人类动作是有区

别的在三个流行的基准上进行了广泛的实验（即，

JHMDB

、

HMDB

和

Charades

）表明，

PA3D

的性能优于

最近的基于姿势的方法。此外，

PA3D

与最近的

CNN

高度互补，例如，

I3D

多流融合实现了所有评估数

据集的最先进性能。

介绍

视频动作识别在视频监控、人机交互等领域有着广

泛的应用前景，近年来得到了广泛的研究。这一领域

的进步主要是由深度学习驱动的[2，24，35]。特别

是，3D CNN已被证明可以有效地学习视频的时空然

而，大多数现有的方法主要是建立在两种输入类型，

即RGB和光流。这忽略了另一个有区别的动作线索，

即人类姿势动态。

或者，基于人类姿势估计[1，38]的显著成功，已经

开发了几种基于姿势的方法用于动作识别[3，4，5，

18]。一个有吸引力的方向是姿态动态编码[3，4]，

颜

安和王雅丽是同等贡献的第一yl.wang @ siat.ac.cn）。

†

余乔为通讯作者（yu. siat.ac.cn）。

其聚集不同帧的人体姿势作为用于动作识别的时空表

示。然而，这些方法主要依赖于预定义的人体姿势补

丁的双流特征[3]和/或使用预定义的编码方案学习姿势

动态。在这种情况下，姿势表示和动作识别是孤立

的，没有自适应交互，这可能会限制理解野生视频中

复杂动作的能力更重要的是，目前基于姿态的动作识

别研究缺乏一个统一的框架，通用语义流，其是双流

3D CNN的补充。

为了解决这些困难，我们提出了一种新的姿态动作

3D（PA3D）机，它提供了一个无缝的工作流程来编

码时空姿态表示的视频动作识别。具体地说，PA3D由

三个语义模块组成，即，空间姿态CNN、时间姿态卷

积和动作CNN。首先，空间姿态CNN可以鲁棒地提取

姿态热图的不同模态（即，关节、部分亲和场和卷积

特征）。其次，时间姿态卷积可以自适应地聚合帧上

的空间姿态热图，这为每个姿态模态生成时空姿态表

示。最后，动作CNN将学习到的姿势表示作为输入来

识别人类动作。

总的来说，我们在本文中做出了三个贡献。首先，

PA 3D是一个简洁的3D CNN框架，它可以通过分解语

义任务（姿势/动作），卷积操作（空间/时间），姿势

模态（关节/部分亲和场/卷积特征）来实现学习效率。

在这种情况下，PA3D可以灵活地将各种姿势动态编码

为区分线索，以对复杂动作进行分类。其次，我们提

出了一种新的时间姿态卷积操作，它主要包括时间关

联和语义卷积编码姿态运动。与3D CNN中传统的时间

卷积不同，我们的时间姿势卷积可以学习时空语义表

示来显式描述姿势运动。此外，我们的时间膨胀设计

允许这种卷积捕获具有多尺度姿态动态的复杂动作。

因此，

下载后可阅读完整内容，剩余9页未读，立即下载

cpongm

粉丝: 6

PA3D：统一框架下的3D姿势动作识别新突破

姿势检测的动作识别

Pose-guided-action-recognition:使用人的姿势信息来帮助动作识别，并在pytorch中实现了注意力集中方法，C3D方法和两流体系结构的探索

actionrecognition:视频动作识别

递归3D姿势序列机：单目图像中的3D人体姿态自动学习

【KinectManager与AI结合的未来】：动作识别中的机器学习革命

使用关键姿势和原子运动的人类动作识别

通过预测关节深度来估计单眼3D人的姿势

自监督学习：无标签视频中的对象姿势识别

机器人辅助治疗中儿童自闭症的3D人体感知、动作与情绪识别挑战与方法研究

MeTRAbs：基于RGB图像的3D人体姿势估算

最新资源