骨架数据识别中的AGC-LSTM方法及其性能比较

36 浏览量更新于2023-10-18 收藏 1.61MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1227基于骨架的动作识别中国科学院智能感知与计算研究中心（CRIPAC），中国科学院自动化研究所模式识别国家重点实验室2中国科学院大学（UCAS）3中国科学技术大学（USTC）{chenyang.si，wentao.chen}@ cripac.ia.ac.cn，{wangwei，wangliang，tnt}@ nlpr.ia.ac.cn摘要基于节拍的动作识别是一项重要的任务，它要求从给定的节拍序列中充分理解人类动作的运动特征。近年来的研究表明，挖掘骨架序列的时空特征是这一任务的关键。然而，如何有效地提取具有区分性的时空特征仍然是一个挑战性的问题.在本文中，我们提出了一种新的 Atten- tion Enhanced Graph ConvolutionalLSTM Network（AGC-LSTM），用于从骨架数据中识别人体动作。所提出的AGC-LSTM不仅可以捕获空间配置和时间动态方面的区别性特征，而且还可以探索空间域和时间域之间的共现关系我们还提出了一个时间层次架构来增加顶部AGC-LSTM层的时间感受野，这提高了学习高级语义表示的能力，并显着降低了计算成本。此外，为了选择有区别的空间信息，使用注意力机制来增强每个AGC-LSTM层中的关键关节的信息。提供了两个数据集的实验结果：NTU RGB+D数据集和西北-UCLA数据集。比较结果表明，我们的方法的有效性，并表明我们的方法优于国家的最先进的方法在两个数据集。1. 介绍在计算机视觉领域中，人类动作识别起着基础和重要的作用，其目的是从视频中预测动作类。它已经-通讯作者：王伟图1.一个AGC-LSTM层的结构与传统的LSTM不同，AGC-LSTM中的图卷积算子使AGC-LSTM的输入、隐藏状态和单元内存都是图结构数据。已经研究了几十年，并且由于其广泛的潜在应用，例如，视频监控、人机交互、体育分析等[18，36，1]。动作识别是计算机视觉领域的一项具有挑战性的任务。在基于RGB视频和3D图像的人体动作识别方面，人们进行了各种尝试.基于RGB视频的动作识别方法[24，34，27，35]主要关注从RGB帧和时间光流建模空间和时间表示。尽管基于RGB视频的方法已经取得了有希望的结果，但是仍然存在一些限制，例如，背景杂乱、照明变化、外观变化等等。3D骨架数据用一组关键关节的3D坐标位置来表示身体结构。由于骨架序列不包含颜色信息，因此不受RGB视频的限制。这种鲁棒的表示允许对关于人类动作的更具区别性的时间特性进行建模。此外，Johanssonet al.[9]已经给出了关键关节可以提供关于人体运动的高效信息的经验和微软Kinect1228图2.提出的注意力增强图卷积LSTM网络（AGC-LSTM）的架构。特征增广（FA）计算特征与位置特征的差异，并连接位置特征和特征差异。LSTM用于消除特征差异和位置特征之间的尺度差异。三个AGC-LSTM层可以对有区别的时空特征进行建模。时间平均池化是时间域中平均池化的实现。我们使用所有关节的全局特征和最后一个AGC-LSTM层中聚焦关节的局部特征来预测人类动作的类别[42] 而先进的人体姿态估计算法[3]使骨骼数据的获取更加容易。对于基于骨架的动作识别，现有的方法探索不同的模型来学习空间和时间特征。Song等人[25]采用基于LSTM的时空注意力模型来选择有区别的空间和时间特征。卷积神经网络（CNN）用于从[4，14，10]中[39，26]采用图形卷积网络（GCN）进行动作识别。与[39，26]相比，Siet al.[22]建议利用图神经网络和LSTM分别表示空间和时间信息。总之，所有这些方法都试图设计一个有效的模型，可以识别骨骼序列的空间和时间特征。然而，如何有效地提取具有区分性的时空特征仍然是一个具有挑战性的问题.人类骨骼序列总体上有三个显著特征：1）每个节点与其相邻节点之间具有很强的相关性，从而使子帧包含了丰富的身体结构信息。2）时间连续性不仅存在于相同的关节中（例如，手、腕和肘），而且在身体结构中。3)空间域和时间域之间存在共现关系。在本文中，我们提出了一个新的和通用的框架，称为注意力增强图卷积LSTM网络（AGC-LSTM），用于基于动作的动作识别，它通过同步学习上述时空特征来改善骨架所提出的AGC-LSTM网络的架构如图2所示。首先，每个连接的坐标-t被转换成具有线性层的空间特征。然后将空间特征和特征差异连接起来，在两个连续的帧之间以组成增强特征。为了消除两个特征之间的尺度差异，采用共享的LSTM来处理每个join-t序列。接下来，我们应用三个AGC-LSTM层来建模时空特征。如图1所示，由于AGC-LSTM中的图卷积算子，它不仅可以有效地捕获空间配置和时间动态中的区分特征，还可以探索空间和时间域之间的共生关系。更特别的是，使用注意力机制来增强每个时间步的关键节点的特征如“肘”、“腕”、“手”等特征对“握手”动作的识别非常重要，在识别过程中应加强对这些特征的识别。受CNN中空间池化的启发，我们提出了一种具有时间平均池化的时间分层架构，以增加顶级AGC-LSTM层的时间感受野，这提高了学习高级时空语义特征的能力，并显着降低了计算成本。最后，我们使用所有关节的全局特征和来自最后一个AGC-LSTM层的聚焦关节的局部特征虽然基于关节的模型实现了最先进的结果，我们也探讨了所提出的模型的性能上的一部分。对于基于零件的模型，每个零件的接头的连接用作构造图的节点。此外，基于关节和部分的双流模型可以导致进一步的性能改善。本文的主要贡献概括如下：• 我们提出了一种新的和通用的AGC-LSTM网络，用于基于动作的动作识别，这是第一个1229图卷积LSTM的尝试。• 所提出的AGC-LSTM能够有效地捕获有区别的时空特征。更多spe-最后，利用注意力机制增强关键节点的特征，从而改善时空表达。• 提出了一种时间层次结构，以提高学习高级时空语义特征的能力，并显着减少计算量。国家成本• 该模型在 NTU RGB+D 数据集和 Northwestern-UCLA数据集上都我们进行了大量的实验证明了我们模型的有效性。2. 相关工作最近，基于图的模型由于图结构数据的有效表示而引起了很多关注[38]。现有的图模型主要分为两种架构。图神经网络（GNN）是图和递归神经网络的结合.每个节点通过消息传递和状态更新的多次迭代，获取其邻居节点之间的语义关系和结构信息。Qi等人[19]应用GNN来解决在图像和视频中检测和识别人与物体交互的任务。Li等[15]利用GNN对角色之间的依赖关系进行建模，并预测一致的结构化输出以进行情景识别。另一个框架是图卷积网络（GCN），它将卷积神经网络推广到图。有两种类型的GCN：光谱GCN和空间GCN。谱GCN在图谱域上变换图信号，然后在谱域上应用谱滤波器。例如，CNN在依赖于图拉普拉斯算子的谱域中被利用[6，7]。Kipf等人[12]介绍了用于图结构数据半监督分类的谱GCN。对于空间GCN，利用其邻域信息对每个节点进行卷积运算以计算新的特征向量。Simonovsky等人[23]在空间域中对图形信号进行类似卷积的运算，并且是第一个将图形卷积应用于点云分类的。为了捕捉图序列的时空特征，图卷积LSTM在[20]中首次提出，它是GCN的扩展，具有递归架构。受[20]的启发，我们利用一种新的AGC-LSTM网络从骨架序列中学习固有的时空表示基于骨架的动作识别基于骨架数据的人体动作识别由于其能够有效地表示人体的运动动力学而受到广泛的关注。传统的基于机器人的动作识别方法主要集中在设计手工制作的功能[28，31，8]。Vemulapalli等人[29]使用不同身体部位之间的相对3D旋转来表示每个骨架在[28]中，所有身体部位对之间的最近的工作主要是使用深度学习网络学习人类动作Du等人[5]根据人体的生理结构，将人体骨骼分为五部分，分别输入一个在[25]中，时空注意力网络学习选择性地关注有区别的空间和时间特征。Zhang等人[41]提出了一种自适应的视点自适应模型，该模型能够自动调整观测视点到合适的视点。[39，26，14，22]中的工作进一步表明，学习有区别的空间和时间特征是人类动作识别的关键因素。[14]中提出了一种分层CNN模型，用于学习联合同现和时间演化的表示在[39]中提出了一种用于动作识别的时空图每个时空图卷积层用图卷积算子构造空间特征，并用卷积算子对时间动态进行建模。此外，在[26]中提出了一种基于部件的图卷积网络（PB-GCN）来学习部件之间的关系。与ST-GCN [39]和PB-GCN [26]相比，Siet al. [22]应用图神经网络来捕获空间结构信息，然后使用LSTM来建模时间动态。尽管在[22]中有显著的性能改进，但它忽略了空间和时间特征之间的同现关系。在本文中，我们提出了一种新的注意力增强图卷积LSTM网络，它不仅可以有效地提取区分空间和时间的特征，还可以探索空间和时间域之间的共现关系。3. 模型架构3.1. 图卷积神经网络图卷积神经网络（GCN）是一种通用的、有效的学习图结构数据表示的框架。各种GCN变体已经实现了在许多任务上取得了最先进的成果对于基于骨架的动作识别，设Gt={Vt，Et}表示在时间t的单个帧上的人体骨架图，其中Vt是N个关节节点的集合，Et是关节边的集合.节点vti的邻居集被定义为：1230ΣKΣ^. ^Σ^^^K2KK2XWk（2）标签k∈ {1，2，...，K}。 Λii=ij是一个度WH^tiN（vti）={vtj|d（vti，vtj）≤D}，其中d（vti，vtj）是从v tj到v ti的最小路径长度。图标号函数Vt→ {1，2，...，K}被设计为分配标签{1，2，...， K}，它可以将v ti的邻集N（v ti）划分为固定数目的K个子集. 图卷积通常是计算为：你出去（vti）=的vtj∈N（vti）1X（vtjZti（vtj））W（vtj））（1）图3.AGC-LSTM单元的结构与LST-M相比，AGC-LSTM的内部算子是图卷积计算，其中X（vtj）是节点vtj 的特征。 W（·）是权重函数，其从K个权重中分配由标签nk（v tj）索引的权重。Zti（vtj）是对应的数。响应子集，用于规范化特征表示。Yout（vti）表示节点vti处的图卷积的输出。更具体地说，利用邻接矩阵，Eqn. 1可以表示为：Λ−1AΛ−1k=1lation. 为了突出更多的区别性信息，注意力机制被用来增强关键节点的特征。it=σ（ Wxi<$G Xt+ Whi<$G Ht−1+bi） ft=σ（ Wxf<$G Xt+Whf<$GHt−1+bf） ot=σ（ Wxo<$G Xt+Who<$G Ht−1+ bo）ut=tanh（Wxc<$GXt+Whc<$GHt−1+bc）（3）Ct⊙Ct−1 +it 乌鲁特=ft其中Ak是空间配置中的邻接矩阵KJKHt=ottanh（Ct）Ht=fatt。H^t+H^t其中，图卷积算子表示图卷积算子，矩阵3.2. 注意力增强的图卷积L STM对于序列建模，许多研究表明，LSTM作为RNN的一种变体，具有建模长期时间依赖的惊人能力。采用各种然而，由于LSTM中的全连接运算符，基于卷积的动作识别存在忽略空间相关性的局限性与LSTM相结合，AGC-LSTM不仅可以捕捉空间结构和时间动态的区别性特征，还可以探索空间域和时间域之间的共现关系。像LSTM一样，AGC-LSTM也包含三个门：输入门I、遗忘门F、输出门O。然而，在这方面，注意Hadamard乘积。 σ（·）是S形作用函数。ut是调制输入。Ht是一个中间隐藏状态。 Wxi<$GXt表示Xt与Wxi的图卷积，其可以写成等式1。fatt（·）是一个注意力网络，它可以选择关键节点将fattHt与Ht之和作为输出，在不削弱非聚焦节点信息的前提下，增强了关键节点的信息，保持了空间信息的完整性。注意力网络通过软注意力机制自适应地聚焦于关节点，并自动度量关节点的重要性。空间注意力网络的图示如图4所示AGC-LSTM的中间隐藏状态Ht包含丰富的空间，时间结构信息和时间动态，有利于指导关键节点的选择。所以我们首先将所有节点的信息聚合为查询功能：t t t这些门是用图形卷积运算获得的ator. 输入Xt、隐藏状态Ht和单元存储器CtAGC-LSTM是图形结构的数据。图3示出了. ΣNΣqt=ReLU（四）i=1AGC-LSTM单元结构由于AGC-LSTM中的图卷积算子，细胞记忆Ct和隐藏状态Ht能够表现出时间动态，以及包含空间结构信息。AGC-LSTM单元的功能定义如下：其中W是可学习的参数矩阵。然后是atten-所有节点的得分可以计算为：α t=Sigmoid.你是我的。WhH^t+Wqqt+bs+bu（五）Y输出=1231^不不...ΣΣΣF=H（6）ti不Σtiti不tiG不L图4. 空间注意力网络（Spatial Attention Network）其中α t=（α t1，α t2，.，α tN），Us，Wh，Wq是可学习的参数矩阵. bs，bu是偏置。由于可能存在多个关键关节，我们使用Sigmoid的非线性函数节点v ti的隐藏状态Hti也可以表示为（1 + α ti）·Hti。注意增强的隐藏状态Ht将被馈送到下一个AGC中。LSTM层。请注意，在最后一个AGC-LSTM层，所有节点特征的聚合将用作全局特征Fg，并且聚焦节点的加权和将用作局部特征Fl：NGti=1N存在特征向量的尺度方差。因此，我们采用LSTM层来消除两个特征之间的尺度差异：Eti=flstm（concat（Pti，Vti））=f lstmconcatPti，Pti− P（t−1）i（8）其中，Eti是关节i在时间t处的增强特征。请注意，线性层和LSTM在不同的关节之间共享时态分层架构。在LSTM层之后，序列{E1，E2，...， Et}的增强特征将被馈送到下面的GC-LSTM层中作为n节点特征，其中Et∈RN×de。所提出的模型堆叠三个AGC-LSTM层来学习空间配置。持续性和时间动态。受CNN中空间池化的启发，我们提出了一种时间域平均池化的AGC-LSTM时间分层架构，以增加顶部AGC-LSTM层的时间感受野通过时间分层架构，在顶部AGC-LSTM层处的每个时间输入的时间感受野变成来自帧的短期剪辑，其可以对时间动态的感知更敏感。此外，它还可以在提高性能的前提下显著降低计算成本。学习AGC-LSTM。最后，全局特征FgFl=α·H^和局部特征F1 每个时间步的时间i=1全局特征Fg和局部特征Fl用于预处理。进入T的分数和OT 对于C类，其中ot=（o t1，o t2，.，o tC）。预测的概率是第i类然后被获得为：t t判定人类行为的类别。y=埃奥蒂，i= 1，… 中文（简体）3.3. AGC LSTM网络tiCj=1 eotj我们提出了一个端到端的注意力增强图卷积LSTM网络（AGC-LSTM），用于基于骨架的人类动作识别。整个管道在训练过程中，考虑到顶部AGC-LSTM上每个时间步的隐藏状态包含短期动态，我们用以下损失来监督我们的模型：我们的模型如图2所示。在下文中，我们将详细讨论拟议框架背后的基本原理。关节特征表达。对于骨架本身-L=−3000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000t=1i =1yilogyg−3000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000t=1i =1中文（简体）1232αT3T3我爱你（十）顺序，我们首先使用线性层将每个关节的3D坐标映射到高维特征空间中，Σ3 ΣN+λ.ΣTjΣ2Σ31 − t = 1 tnj + β不1先令j .ΣN不Σ2αtnjLSTM层。第一线性层对坐标进行编码，n=1jj=1jt=1n=1将节理i作为位置特征Pt∈RN×256，Pti∈R1×256表示节理i的位置表示。由于位置特征Pti只包含位置信息，有利于学习图模型中的空间结构特征帧其中y =（yi，… y C）是groundtruth标签。Tj表示第jAGC-LSTM层上的时间步长数第三个术语旨在对不同关节给予同等重视最后一λ和β是权重衰减系数。请注意，只有总和两个连续帧之间的差异特征Vti可以概率g我的意思是，在最后一次步骤中，便于AGC动态信息的获取，LSTM。为了兼顾这两个优点，两个特征的级联用作增强特征以丰富特征信息。然而，位置特征Pti和帧差特征Vti的级联预测人类行为的类别。虽然基于joint的AGC-LSTM网络已经取得了最先进的结果，但我们还在部件级别上探索了所提出的模型的根据人体的生理结构，身体可以分为1233图5.基于联接和零件的混合模型的图示分成几部分与基于joint的AGC-LSTM网络类似，我们首先使用线性层和共享LSTM层捕获零件特征。然后将零件特征作为节点表示送入三个AGC-LSTM层以建模时空特征。结果表明，我们的模型也可以实现卓越的性能上的一部分。此外，基于关节和零件的混合模型（如图5所示）可以进一步提高性能。4. 实验4.1. 数据集NTU RGB+D数据集[21]。该数据集包含60个不同的人类动作类，这些动作类被分为三个主要组：日常动作、相互动作和健康相关动作。总共有56，880个动作样本，由40个不同的主体执行。每个动作示例包含RGB 视频、深度图序列、 3D 骨架数据和由三个Microsoft Kinect v2摄像头同时捕获的红外视频。我们关注的3D骨架数据由每帧25个身体关节的3D位置组成。该数据集有两个评价方案：交叉受试者（CS）和交叉视图（CV）[21]。在跨受试者方案下，由20个受试者执行的动作构成训练集，并且由其他20个受试者执行的其余动作用于测试。对于交叉视图评估，前两个摄像机捕获的样本用于训练，其余的用于测试。Northwestern-UCLA数据集[33]。该数据集包含1494个视频剪辑，涵盖10个类别。其被捕获三个Kinect摄像头同时从不同的角度拍摄。每个动作样本包含由10个不同受试者执行的RGBD和人类骨架数据。评价方案与[33]中相同。来自前两个相机的样本构成训练集，来自另一个相机的样本构成测试数据集。4.2. 实现细节在我们的实验中，我们从每个骨架序列中采样固定长度T作为输入。我们设定长度NTU数据集和Northwestern-UCLA数据集的T= 100和50。在建议的AGC-LSTM中，每个节点的邻居集仅包含与其自身直接连接的节点，因此D= 1。为了与ST-GCN [39]进行公平比较，AGC-LSTM中的图标记函数将根据[39]将邻居集划分为K = 3个子集：根节点本身、向心群和离心群。三个AGC-LSTM层的通道设置为512。在训练过程中，我们使用Adam 优化器 [11] 来优化网络。采用概率为 0.5 的Dropout来避免这两个数据集上的过度拟合。我们将λ和β分别设为0.01和0.001。初始学习率设置为0.0005，并通过每20个epoch乘以0.1来降低。NTU数据集和Northwestern-UCLA数据集的批量大小分别为64和30。4.3. 结果和比较在本节中，我们将我们提出的注意力增强图卷积LSTM网络（AGC-LSTM）与使用的两个数据集上的几种最先进的方法进行比较。4.3.1NTU RGB+D数据集从表1中可以看出，我们提出的方法在NTU数据集上的两个协议方面实现了95.0%和89.2%的最佳性能为了证明本方法的有效性，我们选择了以下相关方法对结果进行比较和分析：AGC-LSTM vsHCN HCN [14]采用CNN模型从骨架数据中学习全局同现它将骨架的每个关节视为一个通道，然后使用卷积层来学习glob同现fea。方法年份CV CSHBRNN-L [5]201564.059.1Part-aware LSTM [21]201670.362.9Trust Gate ST-LSTM [1]201677.769.2双流RNN [30]201779.571.3STA-LSTM [25]201781.273.4Ensemble TS-LSTM [1]201781.374.6可视化CNN [17]201782.676.0VA-LSTM [41]201787.679.4ST-GCN [39]201888.381.5[22]第二十二话201892.484.8HCN [14]201891.186.5PB-GCN [26]201893.287.5AGC-LSTM（联合）-93.587.5AGC-LSTM（部分）-93.887.5AGC-LSTM（联合部分）-95.089.2表1.与N-TU RGB+D数据集上最先进的方法进行比较，以进行跨视图（CS）和跨受试者（CV）的准确性评价。1234方法准确度（%）从所有的关节。我们可以看到我们的表演方法CV CS显著优于HCN [14]约3.9%，跨视角评价和跨学科评价分别为2.7%。AGC-LSTM与GCN模型为了与[39]进行公平比较，我们在建议的AGC-LSTM层中使用与ST-GCN相同的GCN运算符。在联合级评估上，AGC-LSTM的结果为93.5%和87.5%，优于ST-GCN的5.2%和6.0%。此外，我们的模型优于PB-GCN [26] 1.8%和1.7%进行两次评估。比较结果证明，AGC-LSTM比ST-GCN更适合于基于手势的动作识别。空间域与时间域的共现关系。虽然Siet al. [22]推荐一个spa-基于图神经网络（GNN）和LSTM的空间推理和时间堆栈学习网络，它们忽略了空间域和时间域之间的由于能够探索空间和时间域之间的共现关系，我们的AGC-LSTM比[22]高出2.6%和4.4%。接头级和零件级性能。最近的方法可以分为两类：基于关节的方法[39，41，13，30，14]和基于部件的方法[22，30，5]。我们的方法在关节级和部件级上实现了最先进的结果，这说明我们的模型对于关节级和部件级输入具有更好的泛化能力。4.3.2西北-UCLA数据集如表2所示，所提出的AGC-LSTM在西北大学-加州大学洛杉矶分校数据集上再次达到了93.3%的最佳准确度。之前的最先进模型[13]采用多个时间滑动LSTM（TS-LSTM）分别提取短期，中期和长期的时间动态，这与我们的时间分层架构具有类似的功能。然而，我们的模型比TS-LSTM [13]高出4.1%。与基于CNN的方法[17]相比，我们的方法也获得了很多年份准确度（%）李群[28] 2014 74.2[32]第32话：我的世界HBRNN-L [5] 2015 78.5可视化CNN [17] 2017 86.1Ensemble TS-LSTM [13] 2017 89.2AGC-LSTM（Joint）-92.2AGC-LSTM（部分）-90.1AGC-LSTM（联合部分）-93.3表2.在准确性上与西北-UCLA数据集上的最新方法进行比较。表3.几个基线和我们的NTU RGB+D数据集上的AGC-LSTM。LSTM70.0联合GC-LSTMLSTM+TH87.578.5GC-LSTM+TH89.4AGC-LSTM+TH（AGC-LSTM）92.2部分AGC-LSTM+TH（AGC-LSTM）90.1AGC-LSTM（联合部分）93.3表4.几个基线和我们的AGC-LSTM在西北-UCLA数据集上的比较结果更好的性能。4.4. 模型分析4.4.1体系结构分析表3和4分别示出了NTU RGB+D数据集和Northwestern-UCLA数据集上的TH表示时间分层架构。与LSTM和GC-LSTM相比，LST-M +TH和GC-LSTM+TH可以增加顶层每个时间步长的时间接收场。性能的提高证明了时态层次结构可以提高对时态动态的表达能力。用GC-LSTM代替LSTM，GC-LSTM +TH在NTU数据集上的准确率分别提高到2.5%、4.9%，在Northwestern-UCLA数据集上提高到10.9%。大量的性能改进验证了GC-LSTM的有效性，它可以从骨架数据中捕获更多有区别的时空特征。与GC-LSTM相比，AGC-LSTM可以利用空间注意机制来选择关键节点的空间信息，从而提高特征表示能力。此外，基于部件和基于关节的AGC-LSTM的融合可以进一步提高性能。我们还在图6中可视化了三个AGC-LSTM层对于“握手”动作，实验结果表明，我们的LSTM89.480.3联合GC-LSTMLSTM+TH92.490.485.681.4GC-LSTM+TH92.986.3AGC-LSTM+TH（AGC-LSTM）93.587.5部分AGC-LSTM+TH（AGC-LSTM）93.887.51235(a)(b)（c）第（1）款图6.三个AGC-LSTM层对动作“握手”的一个演员的注意力权重的可视化。垂直轴表示关节。水平轴表示帧。(a)、（b）、（c）分别是第一、第二和第三AGC-LSTM层的注意力结果“右手”，“右手”，“右手”。同时，“右手尖”和“右手拇指”也有一定程度的关注。此外，我们分析了实验结果与混淆矩阵的西北大学-加州大学洛杉矶分校的数据集。如图7（a）所示，LSTM识别类似的动作是非常令人困惑的。例如，动作尽管如此，我们可以看到，所提出的AGC-LSTM可以显着提高对这些相似动作进行分类的能力（如图7（b）所示）。上述结果表明，所提出的AGC-LSTM是一种有效的方法，用于基于混沌的动作识别。4.4.2失败情形最后，我们用混淆矩阵分析了NTU数据集上的误分类结果。图8示出了对于N-TU数据集上的跨受试者设置，动作（“吃饭/零食”、“阅读”、“写作”、“玩手机/平板电脑”、“在键盘上打字”、“用手指指向某物”、“打喷嚏/咳嗽”、“轻拍其他人的背”）的部分混淆矩阵比较我们可以看到，错误分类的动作主要是例如，20%的(a) LSTM（b） AGC-LSTM图7.西北大学-加州大学洛杉矶分校数据集上的混淆矩阵比较。(a)LSTM。(b)AGC-LSTM。图8. NTU数据集上的混淆矩阵比较。它示出了动作的混淆矩阵比较的一部分（“reading” are misclassified as “writing”, and there are对于NTU数据集，手指上只标记了两个关节（5. 结论和未来工作在本文中，我们提出了一种用于基于骨架的动作识别的注意力增强图卷积LSTM网络（AGC-LSTM），这是图卷积LSTM用于该任务的首次尝试所提出的AGC-LSTM不仅可以捕获空间配置和时间动态中的鉴别特征，而且还可以探索空间域和时间域之间的共现关系此外，使用注意力网络来增强每个AGC-LSTM层中关键关节的信息。此外，我们还提出了一个时间hierarchi- cal架构，以捕捉高层次的时空语义特征。在两个具有挑战性的基准测试中，所提出的AGC-LSTM实现了最先进的结果。学习姿势-对象关系有助于克服失败案例中提到的限制。未来我们将尝试骨架序列和物体外观的结合，6. 确认本工作得到国家重点研究发展计划（ 2016YFB1001000 ）、国家自然科学基金（61525306，61633021 ，61721004，61420106015，61572504 ）、首都科技大学（ 2016 ）、北京大学（2016）等单位的联合资助。科技领军人才培养项目（Z181100006318030）、北京市科技攻关项目（Z181100008918010）。1236引用[1] Jake K Aggarwal和Michael S Ryoo。人类活动分析综述.ACM Computing Surveys，2011.[2] Fabien Baradel Christian Wolf和Julien Mille 人的动作识别：基于姿势的注意力将注意力吸引到手。在ICCV研讨会，2017年。[3] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。利用局部仿射场进行实时多人二维姿态估计。在CVPR，2017年。[4] 雍都、云甫、梁王。基于卷积神经网络的骨架ACPR，2015年。[5] 雍都、魏王、梁王。用于基于骨架的动作识别的分层递归神经网络CVPR，2015。[6] DavidKDuvenaud 、 DougalMaclaurin 、 JorgeIparraguirre、Rafael Bombarell、Timothy Hirzel、AlanAspuru-Guzik和Ryan P Adams。用于学习分子指纹的图上卷积网络在NIPS。2015年。[7] Mikael Henaff，Joan Bruna，and Yann LeCun.图结构数据上的深度卷积网络。 arXiv 预印本 arXiv ：1506.05163，2015。[8] 穆罕默德·E.放大图片作者：Marwan Torki，MohammadA. Gowayyed和Motaz El-Saban利用三维关节位置的协方差描述符的时间层次结构识别人类动作。InIJCAI，2013.[9] 贡纳·约翰森生物运动的视觉感知及其分析模型。感知心理物理学，1973年。[10] Qiuhong Ke ， Mohammed Bennamoun ， Senjian An ，Ferdous Sohel，and Farid Boussaid.一种新的三维动作识别骨架序列表示方法在CVPR，2017年。[11] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。2015年，国际会议[12] 托马斯·N Kipf和Max Welling。使用图卷积网络的半监督分类。在ICLR，2017。[13] Inwoong Lee 、 Doyoung Kim 、 Seoungyoon Kang 和Sanghoon Lee。使用时间滑动lstm网络进行基于骨架的动作识别的集成深度学习。InICCV，2017.[14] Chao Li，Qiaoyong Zhong，Di Xie，and Shiliang Pu.从骨架数据中学习共现特征用于分层聚合的动作识别和检测。在IJCAI，2018。[15] Ruiyu Li，Makarand Tapaswi，Renjie Liao，Jiaya Jia，Raquel Urtasun，and Sanja Fidler.基于图神经网络的态势识别。InICCV，2017.[16] Jun Liu，Amir Shahroudy，Dong Xu，and Gang Wang.具有信任门的时空lstm用于三维人体动作识别。在ECCV，2016年。[17] 刘梦媛，刘红，陈晨。增强的骨架-吨可视化视图不变的人类行动识别。模式识别，2017年。[18] 罗纳德·波普基于视觉的人体动作识别研究综述。图像和视觉计算，2010年。[19] Siyuan Qi ， Wenguan Wang ， Baoxiong Jia ， JianbingShen，and Song-Chun Zhu.通过图解析神经网络学习人-物交互在ECCV，2018。[20] YoungjooSeo，MichalDefferrard，PierreVandergheynst，and Xavier Bresson.图卷积递归网络的结构化序列建模。arXiv预印本arX- iv：1612.07659，2016年。[21] Amir Shahroudy，Jun Liu，Tian-Tsong Ng，and GangWang.Ntu rgb+d：用于3D人类活动分析的大规模数据集。在CVPR，2016年。[22] 司晨阳、雅静、王伟、王良、谭铁牛。具有空间推理和时间堆栈学习的基于骨架的动作识别。在ECCV，2018。[23] Martin Simonovsky和Nikos Komodakis。图上卷积神经网络中的动态边缘条件滤波器。在CVPR，2017年。[24] Karen Simonyan和Andrew Zisserman双流卷积网络用于视频中的动作识别InNIP-S，2014.[25] Sijie Song，Cuiling Lan，Junliang Xing，Wenjun Zeng，and Jiaying Liu.一个端到端的时空注意力模型，用于从骨架数据识别人类动作。InAAAI，2017.[26] Kalpit Thakkar和P J Narayanan。用于动作识别的基于部分的图在BMVC，2018年。[27] Du Tran 、 Lubomir Bourdev 、 Rob Fergus 、 LorenzoTorresani和Manohar Paluri。用3d卷积网络学习时空特征。在ICCV，2015年。[28] RavitejaVemulapalli ， FelipeArrate ， andRamaChellappa.以谎言群中的点表示三维骨骼来识别人类行为。CVPR，2014。[29] Raviteja Vemulapalli和Rama Chellappa。滚动旋转-用于从3d骨架数据中识别人的动作。在CVPR，2016年。[30] 王红松和王亮。使用双流递归神经网络建模动作的时间动态和空间配置。在CVPR，2017年。[31] J. Wang，Z. Liu，Y. Wu，and J. Yuan.使用深度相机挖掘动作识别的actionlet引擎。CVPR，2012。[32] Jiang Wang，Zicheng Liu，Ying Wu，and Junsong Yuan.用于3d人体动作识别的学习actionlet集成。IEEE模式分析与机器智能学报，2014年。[33] 王江，聂晓涵，尹霞，吴英，朱松春.跨视图动作建模、学习和识别。CVPR，2014。[34] Limin Wang，Yuanjun Xiong，Zheng Wang，Yu Qiao，Dahua Lin，Xiaoou Tang，and Luc Van Gool.时间段网络：深入行动识别的良好实践。在ECCV，2016年。[35] Pichao Wang ， Wanqing Li ， Philip Ogunbona ， JunWan，and Sergio Escalera.基于RGB-D的深度学习人体运动识别：一个调查。计算机视觉和图像理解，2018年。[36] 丹尼尔·温兰德，雷米·朗法德，埃德蒙·博耶。综述了基于视觉的动作表示方法，1237心理状态和认知计算机视觉与图像理解，2011。[37] Chunyu Xie， Ce Li ， Baochang Zhang，Chen Chen，Jungong Han，Changing Zou，and Jianzhuang Liu.记忆注意力网络用于基于行为的动作识别。在IJCAI，2018。[38] Keyulu Xu，Weihua Hu，Jure Leskovec，and StefanieJegelka.图神经网络有多强大？在arXiv预印本arXiv

下载后可阅读完整内容，剩余1页未读，立即下载