基于深度学习的3D骨架序列动作识别新方法

9 浏览量更新于2025-01-16 收藏 794KB PDF 举报

本文主要探讨了一种新颖的三维动作识别方法，该方法利用骨架序列作为输入。骨架序列，特别是3D坐标中的人体关节运动，是动作识别的重要载体，因为它能够抵抗光照变化和摄像机视角变化，具有高度的鲁棒性。研究者针对这一特性，提出了一个两阶段的处理流程。首先，将每一个骨架序列分解为三个剪辑，每个剪辑由若干帧构成，这一步旨在提取序列中的时空特征。每个帧不仅包含时间信息，还反映了关节间的特定空间关系。通过这种方式，剪辑不仅展示了动作的连续性，还捕捉到了骨骼结构的关键空间布局。接着，采用深度卷积神经网络（DCNN）对这些剪辑的帧进行学习，深度神经网络的优势在于能有效地处理长序列数据，尤其是对于具有复杂时空依赖性的动作识别任务。然而，单个LSTM网络在处理长序列时可能存在信息遗忘的问题，因此，研究者引入了多任务学习网络（MTLN），以并行处理所有剪辑的帧，从而更好地融合空间结构信息。通过这种结合，深度卷积网络和多任务学习网络共同作用，可以捕捉到骨架序列的时空特征，以及不同帧之间的空间关系，从而提高了三维动作识别的准确性和鲁棒性。实验结果显示，与传统方法相比，这种方法在三维动作识别任务上表现出显著的优势。本文的主要贡献在于提出了一种新颖的骨架序列表示方法和特征学习策略，结合了时空信息的深度学习模型和多任务处理机制，为三维动作识别领域的研究带来了新的突破。这一研究对于提高视频监控、游戏交互和人体行为理解等应用场景中的动作识别性能具有重要意义。

3290

（a）（b）（c）（d）（e）

（f）

（

）

图

所提出方法的架构。给定骨架序列（

），生成对应于圆柱坐标的三个通道的三个剪辑（

）。深度

CNN

模型（

）和时间

平均池化（

TMP

）层（

）用于从剪辑的每个帧提取紧凑表示（详细信息参见图

）。在同一时间步长处的三个剪辑的输出

CNN

表示被级联，从而产生四个特征向量（

）。每个特征向量表示骨骼序列的时间信息和骨骼关节的特定空间关系所提出的

MTLN（f）包括全连接（FC）层、整流线性单元（ReLU）、另一个FC层和Softmax层，其并行地联合处理四个特征向量，并

输出四组类得分（g），每组对应于使用一个特征向量的一个分类任务。在训练期间，四个任务的损失值被求和以定义用于更

新网络参数的网络的损失值为了测试，四个任务的类得分被平均以生成动作类的最终预测。

由于骨架关节的数量很少，视频也将非常稀疏为了克

服这个问题，我们建议在一帧图像中表示骨架序列的

时间动态，然后使用多帧来合并关节之间的不同空间

关系。该方法的优点在于，对于任何长度的任何骨架

序列，所生成的剪辑包含相同数量的帧，并且可以利

用所生成的剪辑中的帧图像的强大CNN表示来有效地

捕获原始骨架序列的长期时间信息

如图2所示，对于骨架序列，首先通过连接每个身

体部位的关节将每个帧的关节布置为链考虑到关节之

间的相对位置提供比它们的绝对位置更有用的信息

（

例如

，在“推”时手与肩膀的相对位置这四个关节被

选为参考关节，因为它们在大多数动作中是稳定的。

因此，它们可以反映其他关节的运动虽然脊柱的底部

也很稳定，

靠近左右臀部。因此，为了避免信息冗余，将其丢

弃。通过组合所有帧的相对关节，生成 4个尺寸为

（m-1）×t的2D阵列（m是每个帧中的骨架关节的数

量，t是骨架序列的帧的数量）。2D阵列中关节的相对

位置最初用3D笛卡尔坐标描述。考虑到圆柱坐标更适

合于分析人体利用枢轴关节运动来执行动作时的运

动，在所提出的骨架序列表示中将3D笛卡尔坐标转换

为圆柱在[47]中，圆柱坐标已被用于提取用于动作识别

的视图不变运动特征。通过使用线性变换在0到255之

间缩放坐标值，将对应于3D圆柱坐标的相同通道的四

个2D阵列变换为四个灰度图像。然后用四个灰度图像

构造剪辑。因此，从四个2D阵列的3D坐标的三个通道

生成三个剪辑。

3.2.

剪辑学习

生成的剪辑的每个帧描述骨架序列的所有帧的节奏

动态，

CNN

MTLN

ReLU

足球俱

乐部

Softmax足球会

...

TMP

剩余10页未读，继续阅读

cpongm

粉丝: 6

基于深度学习的3D骨架序列动作识别新方法

解决硬三维位姿估计：基于骨架图神经网络的新方法

多层级LSTM在骨骼序列动作识别中的应用

无监督骨架动作识别：预测与聚类方法

使用深度序列进行人体动作识别的骨架嵌入运动身体分区

基于深度学习的人体骨架动作识别.pdf

基于图的骨架运动表示与相似度测量用于动作识别

电信设备-基于骨架信息的时不变及视不变的人体行为识别方法.zip

冠状动脉造影图像序列的心脏三维运动分析

基于三维深度卷积神经网络的车间生产行为识别.pdf

基于三维图卷积与注意力增强的行为识别模型.docx

最新资源