基于动作结构图卷积网络的骨架动作识别

201 浏览量更新于2023-10-18 收藏 835KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3595基于动作结构图卷积网络的骨架动作识别李茂森1，陈思恒2，陈旭1，张雅1，王晓1，田琦31上海交通大学2卡内基梅隆大学3华为诺亚{李茂森，徐晨2016，张亚，王艳峰}@ sjtu.edu.cn，sihengc@andrew.cmu.edu，huawei.com摘要基于骨架数据的动作识别是近年来计算机视觉领域的研究热点.以往的研究大多基于固定的骨架图，只捕捉关节间的局部物理依赖关系，可能会遗漏隐含的关节相关性。为了捕获更丰富的依赖关系，我们引入了一个编码器-解码器结构，称为A-link推理模块，以捕获特定于动作的潜在依赖关系，即。动作链接，直接来自动作。我们还扩展了现有的骨架图来表示高阶依赖，即.结构链接。将这两种类型的链接组合成一个广义的骨架图，我们进一步提出了动作-结构图卷积网络（AS-GCN），它将动作-结构图卷积和时间卷积堆叠为基本构建块，以学习动作识别的空间和时间特征。一个未来的姿态预测头被添加到并行的识别头，以帮助捕捉更详细的动作模式，通过自我监督。我们使用两个骨架数据集NTU-RGB +D和Kinetics验证了AS-GCN在动作识别中的作用。所提出的AS-GCN实现considerably大的改善相比，国家的最先进的方法。作为一个副产品，AS-GCN也显示出有前途的结果，为未来的姿态预测。1. 介绍人类动作识别广泛应用于视频监控、人机交互和虚拟现实[9，7，25]，最近在计算机视觉中引起了广泛关注。已证明，表示动态3D关节位置的骨架数据在动作表示中是有效的，对传感器噪声具有鲁棒性，并且在补偿中是有效的。时间活动链接输入动作结构上的联系特征响应特征响应ST-GCN图1.广义骨架图特征学习。作用链接和结构链接捕获关节之间的依赖性。对于动作右边的半圆是识别的联合特征图，其面积是响应幅度。与ST-GCN相比，AS-GCN获得协作移动关节（红框）上的响应。储存和储存[18，30]。骨架数据通常通过使用深度传感器定位关节的2D或3D空间坐标或使用基于视频的姿态估计算法来获得[3]。骨骼动作识别的最早尝试是将每帧中的所有身体关节位置编码为用于模式学习的特征向量[27，8，6，21]。这些模型很少探索身体关节之间的内部依赖关系，导致错过了丰富的动作信息。为了捕获关节依赖性，最近的方法构建了一个骨架图，其顶点是关节，边缘是骨骼，并应用图卷积网络（GCN）来提取相关特征[17]。时空GCN（ST-GCN）被进一步开发，以同时学习空间和时间特征[29]。ST-GCN虽然提取了3596A-links推理S-links一种行为一全局平均池Prob类提取struct分类器识别头识别结果ASGC T-CNAS-GCN块ASGCT-CN输入动作骨干AS-GCN块预测器预测头预测动作图2.拟议AS-GCN的管道。将推断的动作图A-链接和扩展的结构图S-链接馈送到AS-GCN块以学习空间特征。最后一个AS-SCN块连接到两个并行分支，即识别头和预测头，它们同时被训练。通过骨骼直接连接的关节的特征，结构上遥远的关节，可能涵盖关键的动作模式，在很大程度上被忽略了。例如，在走路时，手和脚是密切相关的。虽然ST-GCN试图用分层GCN聚合更宽范围的特征，但节点特征在长扩散期间可能会减弱[19]。在这里，我们试图通过构建广义骨架图来捕获关节之间更丰富的依赖关系。特别地，我们数据驱动地推断出多连杆（A连杆）以捕获任何关节之间的潜在依赖性。类似于[16]，提出了具有编码器-解码器结构的A链路推断模块（AIM）。我们还扩展了骨架图表示高阶关系的结构链接（S-链接）。基于具有A-链和S-链的一般化图，我们提出了一种动作-结构图卷积来捕获空间特征。我们进一步提出了动作-结构图卷积网络（AS-GCN），它堆叠了多个动作-结构图卷积和时间卷积。作为骨干网，AS-GCN适应各种任务。在这里，我们认为动作识别的主要任务和未来的姿态预测作为侧之一。预测头通过保留详细特征来促进自我监督并提高识别。图1显示了AS-GCN模型的特征，我们在其中学习了动作识别的结构链接并扩展了结构链接。特征响应表明，我们可以捕获更多的全局关节信息比ST-GCN，它只使用骨架图来建模的局部关系。为了验证所提出的AS-GCN的有效性，我们在两个不同的大规模数据集上进行了广泛的实验：NTU-RGB+D[22]和Kinetics [12]。实验表明，AS-GCN在动作识别方面优于现有的方法。此外，AS-GCN准确预测未来帧，显示捕获了足够的详细信息主要的缺点-本文的贡献总结如下：• 我们提出了A-link推理模块（AIM）来推断捕获特定于动作的潜在依赖的链接。我的职责将结构链与非结构链组合成广义骨架图;见图1;• 我们提出了动作-结构图卷积网络（AS-GCN），以提取有用的空间和时间基于多个图表的信息;见图2;• 我们引入了一个额外的未来姿态预测头来预测未来的姿态，这也通过捕捉更详细的动作模式来提高识别性能;• AS-GCN在两个大规模数据集上的性能优于几种最先进的方法;作为副产品，AS- GCN还能够精确预测未来的姿势.2. 相关作品骨架数据在动作识别中有着广泛的应用。基于两种方法开发了多种算法：基于手工制作的和基于深度学习的第一种方法设计算法来捕获基于物理直觉的动作模式，例如局部占用特征[28]，时间联合协方差[10]和李群曲线[27]。另一方面，基于深度学习的方法自动从数据中学习动作特征。一些基于递归神经网络（RNN）的模型捕获连续帧之间的时间依赖性，例如双RNN [6]，深度LSTM [22，20]和基于注意力的模型[24]。卷积神经网络（CNN）也取得了显着的成果，例如残差时间CNN[14]，信息增强模型[21]和动作表示的CNN [13]。近年来，由于利用人体关节关系的灵活性，基于图的方法引起了人们的广泛关注[29，23].在这项工作中，我们采用基于图的方法进行动作识别。与以往的任何方法不同，我们从数据中自适应地学习图，这捕获了有用的非局部信息。3597解码器先前动作Σ我StΣ˜=M◦A Xstst关于行动的形成3. 背景在本节中，我们将介绍本文其余部分所需的背景材料。3.1. 符号我们将骨架图视为G（V，E），其中V是n个身体关节的集合，E是m个骨骼的集合。设A∈{0，1}n×n是骨架图的邻接矩阵，其中Ai，j=1，如果第i个和第j个关节是(a) 骨架图(b) S-links（c）A-links连接，否则为0。 A完全描述了骨架结构设D∈Rn×n是对角度矩阵，图3.骨架图、S-链和A-链走路用在每一个情节中，从“左手”到它的邻居的链接其中D我-我=jAi，j. 为了捕捉更精致的位置，孔以实线示出（a）骨架链接，邻近范围有限;（b）S链接，允许信息，我们把一个根节点和它的邻居分成三组，包括1）根节点本身，2）向心群，它们比根更靠近身体重心3）离心群，A又分为A（根）、A（向心）和A（离心）。我们将划分群集表示为 P ={root ，centralphatic，centralphic}。注意p∈PA（p）=A。设X ∈Rn×3×T 为 T 帧上的 3D 关节位置。设 Xt=X：，：，t∈ Rn×3为第t帧处的3D关节位置，其对第t帧进行切片臂;（c）A-links，捕捉长期特定动作关系。A-link推理编码器在X的最后一个维度上的帧。设xt= X第i个关节在第t帧的位置i，：，t∈Rd是输入动作序列未来行动3.2. 时空GCN时空 GCN（ST-GCN ）[29]由一系列ST-GCN 块组成。每个块包含空间图形卷积，然后是时间卷积，其交替地提取空间和时间特征。最后一个ST-GCN块连接到一个全连接的分类器以生成最终预测。ST-GCN中的关键部分是空间图卷积运算，它引入了每个关节设Xin∈Rn×din为一帧中所有关节的输入特征，din为输入特征维数，Xout∈Rn×dout为空间图卷积的输出特征，dout为输出特征维数.空间图形卷积是图4.A-links推理模块（AIM）。为了推断两个关节之间的A链接，关节特征被连接并馈送到编码器-解码器形成的AIM中。编码器产生推断的A-链接，解码器生成以A-链接和先前动作为条件的未来姿态。Eg是广义链的集合。在Eg中有两种类型的链接：结构链接（S-链接），明确地从身体结构中导出，以及结构链接（A-链接），直接从骨架数据中推断。请参见图3中这两种类型的图示。4.1. 活动链接（A-Links）X输出（p）（p）stp∈P在W（p）中，（1）许多人类动作需要相距很远的关节协同移动，导致关节之间的非物理依赖性。要捕获各种其中A（p）=D（p）-一个2A（p）D（p）-一个2∈Rn×n是正规的-我们在这里介绍的是一个链接（A-链接），这是一个交流，表示Hadamard积，M（p）∈Rn×n和W（p）∈Rn×dout是每个划分组的可训练权重以捕获边缘权重和特征重要性。4. 结构GCN广义图称为作用-结构图，定义为Gg（V，Eg），其中V是原始关节由动作驱动，可能存在于任意一对接头.为了从动作中自动推断出A-link，我们开发了一个可训练的A-link推理模块（AIM），它由一个编码器和一个解码器组成。编码器通过迭代地在关节和连杆之间传播信息以学习连杆特征来产生A连杆;并且解码器基于推断的A-链路预测未来的关节位置;参见图4。我们使用AIM来预热A-links，并在训练过程中进一步调整。3598我ΣΣΣ*、*、c我法我C法我我˜i、j（k+1）ev（k+1）我（k）vJc=1概率1被分配给C链接类型，很难支持。c=1i，j，0是孤立的概率。在这里，我们设置先验i、jτ法法i、jc=1i，j，cev我vJ我i，：Σ我Σ编码器。编码器的功能是在给定3D关节位置的情况下估计A连杆的状态;即，n×n ×C步骤（b）聚合链路特征以获得对应的联合特征;步骤（c）使用门控递归单元（GRU）来更新联合特征[5];以及步骤（d）预测未来关节位置的平均值我们会-A=encode（ X）∈[0，1]、（二）最终从a中采样未来关节位置x∈t+1∈R3，高斯分布，即x<$t+1<$N（μ<$t+1，σ2I），其中σ2其中C是A-链路类型的数量。每个元素i iai，j，c表示第i，j个关节与第c个类型连接的概率。设计映射编码器（·）的基本思想是首先从3D中提取精确的链接要素表示方差，I是单位矩阵。我们对AIM进行了几个epoch的预训练，以预热A-links。数学上，AIM的成本函数为关节位置，然后将链接特征转换为n Ttt2C联系概率为了准确的链接特征，我们建议-LAIM(A) =−xi−μi2σ2+ logA：，：，c，A（0）交替地在关节和链接之间门控信息。让xi=vec（Xi，：，：）∈RdT是i=1t=2c=1*、*、ci- 第th关节我们初始化联合特征p（0）= xi. 在第k次迭代中，我们在关节和链接之间来回传播信息链路特征： Q （ k+1 ） =f （ k ）（ f （ k ）（ p（k））<$（f（k）（p（k），接头特征：pi=F（Qi，：）<$pi，其中，fv（·）和fe（·）都是多层感知器，其中，fv（·）是向量级联，而F（·）是一种用于聚集门链路特征并获得联合特征的操作;例如平均和元素最大化。在传播K次，编码器输出链接概率为其中A（ 0 ）是A的先验。在实验中，我们发现当p（A）提升稀疏性时，性能会提高背后的直觉是，太多的链接将捕获使用-更少的依赖性来混淆动作模式学习;然而，在（3）中，我们确保CAi，j，c=1。以来当C较小时，尘埃稀疏。为了控制稀疏水平，我们引入了一个鬼链接的概率很大，这表明两个关节不通过任何A-链接连接幽灵链接仍然确保概率之和为1;也就是说，对于Ai，j，0+CAi，j，c=1，其中一（0）：，：，0 =P0（0）*、*、c=P0/C，c=1，2，···，C。在. Q（K）+rAIM的训练，我们只更新A-链接一i，j，c，其中c= 1，···，C.其中r是随机向量，其元素是i.i.d.。从Gumbel（0，1）分布采样，τ控制Ai ，j ，：的离散化。这里我们设τ=0。五、我们通过Gumbel softmax [11]得到了近似范畴形式的连接概率Ai，j，：译码器解码器的功能是预测我们累积多个样本的LAIM，它可以获得一个预热的A。设A（c）= A：，：，c∈[0，1]n×n是c阶连通概率，它表示c阶连通图的拓扑.我们定义了图卷积（AGC），它使用A链接来捕获关节之间的依赖关系在AGC中，我们使用A（c）作为图的卷积核，其中A（c）为根据推断的A连杆确定未来3D关节位置法D（c）−1A（c）。给定输入XAGC是法由编码器和先前的姿势;即，法行事X=dec ode（X， . ，X，A）∈Rn×3，Xact =AGC（Xin）（4）t+1t1链接，然后将关节特征转换为将来的关节位置。设xt∈Rd是第t帧上第i个映射decode（·）的工作原理如下：= <$A<$（c）Xi nW（c）∈Rn×dout，其中W（c）是捕获特征重要性的可训练权重。请注意，我们在预训练过程中使用AIM来预热A环节;在动作识别训练过程(a)Qt（b）pt=1000A f（c）（f（c）（xt）<$f（c）（xt））=F（Qt）xt通过点火和姿态预测，进一步优化通过仅向前传递AIM的编码器。（c）St+1=GRU（St，pt）4.2. 结构连接（S形连接）我我我一和Ai，j，：=softmax∈RC，（3）其中Xt是第t帧处的3D关节位置。的基本思想是首先基于A-c=13599v eout（d）其他事项μmt+1=fout（St+1）∈R3，如（1）所示，A（p）Xin聚合了骨架图中的1跳邻居其中f（c）（·），f（c）（·）和f（2）是MLP。步骤（a）生成-ST-GCN仅在局部范围内传播信息为了-通过对链接tain长距离链接进行加权平均来计算链接特征，我们使用3600S（dout，T，n）（dout，T/s，n）ASGC一种行[dout，dout，7，1][dout，din，1，1]×（nA+nS）结构的∈和W结构的A，表示S形链路。这里我们使用AL作为图connv解kernel，其中A=D−1A是图trans-n，位置矩阵，L是多项式阶。一位记者介绍说，度归一化，以避免幅度爆炸，并具有概率直觉[1，4]。利用L阶多项式，我们定义了结构图卷积（SGC），它可以直接到达L-hop邻居以增加接收场。SGC公式如下：Xstruc=SGC（Xin）（5）LT-CNBN和ReLUBN和ReLUstride =s图5. AS-GCN块由ASGC、T-CN和其他操作组成：批量归一化（BN）、ReLU和残差块。数据的形状位于BN和ReLU块上方。网络参数在ASGC和T-CN下的形状=M（p，l）<$A<$（p）lXi nW（p，l）l=1p∈P∈Rn×dout，结构的结构的输入AS-GCN块×3AS-GCN块×3AS-GCN块×3输出行动d输出=64d输出=128d输出 =256特征其中l是r阶多项式，A（p）是图的变迁T=300T=150T=75第p分图的矩阵M（p，l）Rn×n（p，l）结构stride = 1，1，1步长= 2，1，1步长= 2，1，1Rn×dstruc是用于捕获边缘权重的可训练权重和特征重要性;即，较大的权重指示更重要的对应特征。每个多项式阶次和每个个体的权重都被引入分图注意，通过度归一化，图转移矩阵A（p）为边权重提供了良好的初始化，这稳定了M（p ，l ）的学习。当L=1时，SGC退化为原始空间图卷积运算。对于L >1，SGC的作用类似于Chebyshev滤波器，并能够近似在图谱域中设计的卷积[2]4.3. 结构图卷积块为了完整地捕捉任意关节之间的运动和结构特征，我们将AGC和SGC相结合，并开发了动作结构图卷积（ASGC）。在（4）和（5）中，我们分别在每个时间戳中从AGC和SGC获得联合特征。我们使用两者的凸组合作为ASGC的响应。数学上，ASGC操作公式为：图6.AS-GCN骨干网，包括9个AS-GCN块。给出了特征尺寸为了捕获帧间动作特征，我们沿着时间轴使用一层时间卷积（T-CN），其独立地提取每个关节的时间特征，但共享每个关节上的权重。由于ASGC和T-CN分别学习空间和时间特征，因此我们将两层连接为动作-结构图卷积块（AS-GCN块），以从各种动作中提取时间特征;参见图5。注意，ASGC是仅提取空间信息的单个操作，并且AS-GCN块包括提取空间和时间信息的一系列操作。4.4. AS-GCN的多任务处理骨干网络。我们将一系列的AS-GCN块堆叠起来作为骨干网络，称为AS-GCN;参见图6。在多个空间和时间特征聚合之后，AS-GCN提取高层语义信息，X输出=ASGC（Xin）穿越时间的信息动作识别头。为了对行为进行分类，我们-=Xstruc+λXact∈Rn×dout，其中λ是超参数，其权衡了结构特征和非结构特征之间的重要性。可以在ASGC之后进一步引入非线性作用函数，诸如ReLU（·）定理1.动作-结构图卷积是有效的线性运算;也就是说，当Y1= ASGC（X1）且Y2 为ASGC（X2）.那么aY1+bY2=ASGC（aX1+bX2），α，b∈R.线性确保ASGC有效地保留在-从结构和形态两个方面进行分析;例如，当行动方面的反应较强时，通过ASGC可以有效地反映出来。构造一个跟随骨干网的识别头。我们在骨干网络输出的特征图的联合和时间维度上应用全局平均池化，并获得特征向量，该特征向量最终被馈送到softmax分类器中以获得预测的类别标签y。动作识别的损失函数是标准交叉熵损失Lrecog=−yTlogg（y），其中y是动作的地面真值标签未来姿态预测头。大多数以前的作品骨架数据的分析侧重于分类任务。这里我们还考虑姿态预测;即利用∈3601输入要素AS-GCN Block×5dout = 128TCN内核：7，7，7，3，5T = 38、19、10、5、1步幅= 2，2，2，2，1AS-GCN块×4 din =128+3，64+3，32+3d输出 = 64，32，30T = 1stride = 1，1，1，1预测的姿态表1.NTU-RGB+D跨主题的识别精度与各种链接：S-links、A-links和A- with S-links（AS- links）。我们将S-链路中的多项式阶数从1调整到4。图7.AS-GCN的未来预测负责人AS-GCN用于预测由基于历史事件的动作给出的未来3D关节位置。为了预测未来的姿势，我们构建了一个预测模型，然后构建了骨干网络。我们使用几个AS-GCN块来解码从历史数据中提取的高级特征图，并获得预测的未来3D关节位置X<$∈Rn×3×T′;见图7。损失函数-未来预测的标准是l2损失模型设置。我们构造了9个AS-GCN块的AS-GCN主干，每3个块中的特征维数分别为64，128，256。未来位姿预测模块的结构和操作与识别模块对称，并采用残差连接。在AIM中，我们将隐藏特征尺寸设置为128. A -链路类型的数量C = 3，并且先前的ndT′幽灵链接P=0。九十五 λ=0。五、我们使用PyTorchL=1毫米×10毫米−X- .（六）00.4.1并在8 GTX-1080Ti上训练模型100个epoch预测ndT′ i=1t=1？i，：，ti，：，t<$2GPU。批量为32。我们使用SGD算法联合模型。在实践中，当我们一起训练识别头和未来预测头时，识别性能得到提高。其背后的直觉是，未来预测模块促进了自我监督，避免了过度拟合。5. 实验5.1. 数据集和模型配置NTU-RGB+D. NTU-RGB+D包含由一个或两个表演者完成的56，880个千吨动作序列，并分为60类，是基于动作识别的最大数据集之一。它为每个人在一个动作中提供25个关节的3D空间坐标。为了评估模型，建议采用两种方案：跨主题和跨视图。在交叉测试中，将20名受试者的40，320个根据摄像机视图的Cross-View as-signs数据，其中训练集和测试集分别具有37，920和18，960个样本动力学Kinetics是一个用于人类行为分析的大型数据集，包含超过240，000个视频剪辑[12]。那里有400种行为由于仅提供RGB视频，我们通过使用OpenPose工具箱[3]估计某些像素上的关节位置来获得骨架数据。工具箱生成2D像素坐标（x，y）和置信度分数c共18个关节，分辨率为340×256。我们把每个关节代表成三个-元素特征向量：[x，y，c]T。对于多人情况，我们选择具有最高平均关节舒适度的身体，在每个序列中找到。因此，具有T帧的一个剪辑被变换成具有维度的骨架序列。18×3×T）。最后，我们通过从开始到总共T=300重复数据来填充每个序列。训练AS-GCN的识别头和预测头，其学习率最初为0.1，每20个epoch衰减0.1。我们使用Adam优化器[15]来训练初始学习率为0的A-link推理模块。0005所有超参数都是使用验证集选择的。5.2. 消融研究为了分析AS-GCN的每个单独组件，我们对NTU-RGB+D数据集的跨主题基准进行了广泛的实验[22]。链接类型的影响。在这里，我们专注于验证所提出的A-链接和S-链接。在实验中，我们考虑了三种连杆类型的组合，包括S-连杆，A-连杆和AS-连杆（A-连杆+S-连杆），与原始的骨架连杆。当涉及S-环时，我们分别设置模型的多项式阶数L=1，2，3，4。请注意，当L=1时，对应的S-链路正是电子元本身。表1显示了动作识别的分类准确度。我们发现：（1）多项式阶数较高的S-环或A-环都能提高识别性能;（2）当同时使用S-link和A-link时，性能最佳;（3）在只使用A-链环和骨架图的情况下，分类正确率达到83. 2%，高于多项式阶数为1的S-链（81. 5%）。这些结果验证了原始骨架图的局限性和所提出的S-link和A-link的有效性。视觉化的A-links 各种动作可以激活关节之间的不同的运动依赖性。图8显示了三个动作的推断A链接。概率大于0.9的A链接以橙色线表示，其中较宽的线表示较大的链接概率。我们看到，（1）在图（a）和（c）中，挥手和自拍的动作主要是上肢动作，其中2多项式阶S-linksA-linksAS-links1百分之八十一点五83.2%23百分之八十二点二83.2%83.7%百分之3602表3.列出了在NTU-RGB+D Cross-Subject上有/没有预测头的模型的识别结果，其中模型使用AS链接。我们将S-links的顺序从1调整到4。多项式阶AS-links+ Pred183.2%84.0%283.7%84.3%3百分之八十四点四85.1%486.1%百分之八十六点八(a) 挥手(b) Kick something（c）Taking a selfie（一）图8.A-Link在行动中我们绘制概率大于0.9的A链接较宽的线表示较大的概率。表2.不同数量的A-链接类型和不同的幽灵链接先验的识别精度。C12345ACC84.6%百分之八十六点五百分之八十六点八百分之八十五点八百分之八十三点三均p00.990.950.500.200.00ACC86.0%百分之八十六点八84.3%82.7%81.1%手臂有很大的运动，并与整个身体相互作用，因此许多A型链接建立在手臂和其他身体部位之间。(2)在图（b）中，踢某物的动作表明被踢的腿与其他关节高度相关，表明在该动作期间身体平衡。这些结果验证了A-links能够捕捉到更丰富的动作模式信息。A-links的数量和优先级。选择合适的C：A型环的数量;P0：训练AIM的幽灵链路的先验。我们使用不同的C和P0测试模型，以获得相应的识别精度，如表2所示。当C= 3，P=0时. 95，可以获得最高的识别准确率。直觉是，太少的A-链接类型无法捕捉重要的因果关系，太多的原因过度拟合。稀疏的A-links会提高识别性能。预测头的影响。为了分析预测头对提高识别性能的影响，我们进行了两组对比测试。对于第一组，AS-GCN仅使用S-链接进行动作识别，但一个具有预测头，另一个没有。在另一组中，具有/不具有预测头的AS-GCN额外地采用A链路。 S环的多项式阶数为1到4。表3显示了有/没有预测头的分类结果。当我们引入预测头时，我们获得了约1%的更好的识别性能。其背后的直觉是，预测模块促进保存更详细的信息，并引入自我监督，以帮助识别模块避免过度拟合并实现更高的动作图9.AS-GCN骨干网最后一层的特征响应透明圆圈的面积表示响应幅度。图（a）示出了不同帧中的动作“挥手”的特征图识别性能稀疏骨架动作有时可能依赖于详细的运动，而不是在某些动作类中容易混淆的特征可视化。为了验证每个关节的特征如何影响最终性能，我们在图9中可视化了动作的特征图，其中每个关节周围的圆圈表示该关节在AS-GCN识别模块的最后AS-GCN块中的特征响应幅度图（a）示出了动作“挥手”在不同时间的特征响应在动作的初始阶段，即帧15，上肢和躯干的许多关节有近似相当的响应，但在随后的帧，大的响应分布在上身，特别是挥动手臂。请注意，其他非功能性关节并没有被太多地忽略，因为建立了丰富的隐藏关系图（b）显示了另外两个动作，在这两个动作中，我们能够捕捉到许多长期依赖性。图（c）比较了AS-GCN和ST-GCN之间的特征。ST-GCN确实应用多层GCN来覆盖整个空间域;然而，在传播期间特征被削弱，并且远距离关节不能有效地相互作用，导致局部特征响应。t = 10t = 27t = 45t = 62(b)（c）第（1）款鼓掌振作起来AS-GCNST-GCN3603目标Pred表4.NTU-RGB +D上动作识别性能的比较跨学科和跨视图基准的分类精度。最后输入t=66t=68t=70 t=72t=74表5.Kinetics上动作识别性能的比较我们列出了前1名和前5名的分类准确度。方法Top-1访问前5名访问特色Enc [8]14.9%百分之二十五点八深度LSTM [22]百分之十六点四35.3%时间转换[14]百分之二十点三40.0%ST-GCN [29]百分之三十点七52.8%AS-GCN（Ours）34.8%百分之五十六点五另一方面，建议的AS-GCN可以捕捉有用的长期依赖关系，以识别的行动。5.3. 与最新技术水平的我们在NTU-RGB+D和Kinetics的数据集上比较了AS-GCN在基于机器人的动作识别任务上与最先进的方法。在NTU-RGB+D上，我们在两个推荐的基准上训练AS-GCN：Cross-Subject和Cross-View，然后在测试阶段分别获得前1名的分类准确率。我们与覆盖手工制作的方法[27]，基于RNN/CNN的深度学习模型[6，22，20，14，21，13，18]和最近的基于图形的方法[29，26，23]。具体来说，ST-GCN [29]将GCN与时间CNN相结合以捕获时空特征，SR-TSL [23]使用门控回流单元（GRU）在图上传播消息并使用LSTM学习时间特征。表4显示了比较结果。我们看到，拟议的AS-GCN优于其他竞争力的方法。在Kinetics数据集中，我们将AS-GCN与四种最先进的方法进行了比较。首先提出了一种名为特征编码的手工方法 [8] 。然后将 Deep LTSM 和 Temporal ConvNet[22，14]作为Kinetics骨架上的两个深度学习模型实现。此外，还评价了ST-GCN的动力学作用识别。表5显示了前1名和前5名分类绩效。我们看到，AS-GCN优于其他COM-图10.从预测模块预测的动作样本我们在NTU-RGB+D数据集中提出了“使用风扇”的动作显示了地面实况和预测数据在top-1和top-5精度中的小方法。5.4. 未来姿势预测我们评估性能的AS-GCN未来的姿态预测。对于每个动作，我们将除最后十帧之外的所有帧作为输入。我们试图预测最后十帧。图10显示了原始和预测的动作。我们在十帧中以固定的间隔采样五帧。预测的帧提供具有低误差的未来关节位置，特别是特征性的活动身体部位，例如肩膀和手臂。对于腿和脚等外围部位，预测位置具有较大的误差，这是动作模式的次要信息。这些结果表明，AS-GCN保留了更详细的特征，特别是对动作功能关节。6. 结论我们提出了动作结构图卷积网络（AS-GCN）的骨架为基础的动作识别。A-link推理模块捕获依赖关系。我们还扩展了骨架图，以表示更高阶的关系。广义图被馈送到AS- GCN块以更好地表示动作。主动式未来姿势预测头通过自我监督捕获更详细的模式。我们验证AS-GCN在动作识别中使用两个数据集，NTU-RGB+D和Kinetics。AS-GCN实现了大的改善与以前的方法一致。此外，AS-GCN还显示出未来姿态预测的有前途的结果。确认国家高技术研究发展计划（2015AA015801）、国家自然科学基金（61521062）、国家科技攻关委员会（18DZ2270700）资助项目。方法交叉学科截面视图李群[27]百分之五十点一52.8%H-RNN [6]59.1%64.0%深度LSTM [22]百分之六十点七百分之六十七点三PA-LSTM [22]百分之六十二点九百分之七十点三ST-LSTM+TS [20]百分之六十九点二百分之七十七点七时间转换[14]74.3%百分之八十三点一[21]第二十一话76.0%百分之八十二点六C-CNN+MTLN [1]百分之七十九点六百分之八十四点八3604引用[1] S. Brin和L.页.大规模超文本网络搜索引擎的剖析。国际万维网会议（WWW），第107-117页，1998年[2] M. M. 布朗斯坦Bruna，Y.LeCun，A.Szlam和P.范德根斯特。几何深度学习：超越了欧盟-加勒比数据。CoRR，abs/1611.08097，2016。[3] Z. Cao，T.Simon，S.-E. Wei和Y.酋长利用部分相似性场进行多人2D位姿实时在IEEE计算机视觉和模式识别会议中，第7291-7299页[4] S. Chen ，中国粘蝇D.蒂安角Feng ，中国山梅花A.Vetro和J. Kovacev ic'. 三维点云的图形快速表示。IEEETrans. 信号处理，66（3）：666 -681，2018。[5] K.乔湾，巴西-地van Merrienboer、D. Bahdanau和Y.本吉奥。关于神经机器翻译的特性：编码解码器接近。CoRR，abs/1409.1259，2014年。[6] Y. 杜，W.Wang和L.王. 基于骨架的动作识别的层次递归在IEEE计算机视觉和模式识别会议中，第1110-1118页[7] Z. Duric，W. D.格雷河Heishman，F. Li，长穗条锈菌A.罗森菲尔德M. J. Schoelles角Schunn和H.韦克斯勒整合感知和认知建模，实现自适应和智能人机交互。在Proceedings ofthe IEEE，第90卷，第1272-1289页[8] B. Fernando，E. Gavves，J. M.奥拉马斯A. Ghodrati，以及T. Tuytelaars为动作识别建立视频演化模型。在IEEE计算机视觉和模式识别会议（CVPR）中，第5378[9] 联合Gaur，Y.Zhu，B.Song和A.罗伊·乔杜里一种用于识别自然视频中复杂活动的特征图串模型在国际计算机视觉会议，第2595-2602页[10] M. E. 侯赛因M.托尔基湾A. Gowayyed和M.艾尔萨班基于三维关节位置协方差描述子时间层次的人体动作识别在IJCAI，第2466-2472页[11] E. 张，S.Gu和B.浦耳使用gumbel-softmax进行分类在ICLR，2017年4月。[12]W. Kay，J. Carreira，K.西蒙尼扬湾Zhang C.，中国古猿科希利尔S. Vijayanarasimhan，F.Viola，T.格林，T.后退，P。纳采夫，M. Suleyman 和 A. 齐瑟曼。人体动作视频数据集。CoRR，abs/1705.06950，2017。[13] Q.克，M. Bennamoun，S. An，F. Sohel和F.布赛德一种新的三维动作识别骨架序列表示方法。在IEEE计算机视觉和模式识别会议（CVPR），第3288-3297页，2017年7月。[14] T. S. Kim和A.瑞特用时间卷积网络进行可解释的三维人体动作在 IEEE 计算机视觉和模式识别研讨会（CVPRW）上，第1623-1631页[15] D. P. Kingma和J. L. BA. Adam：随机最佳化的方法。ICLR，2015年5月。[16] T. Kipf，E.Fetaya，K.-C. Wang，M.Welling和R.泽梅尔交互系统的神经关系推理。在第35届国际机器学习会议（ICML）的会议上，第2688-2697页，2018年7月[17] T. N. Kipf和M。威林使用图卷积网络的半监督分类。在ICLR，2017年4月[18] C.李角Zhong，L.等，中国山杨D. Xie和S. PU.从骨架数据中学习共现特征，用于分层聚合的动作识别和检测在IJCAI，第786[19] Q. Li，Z. Han和X.吴深入了解用于半监督学习的图卷积网络。在AAAI人工智能上，第3538[20] J. Liu，中国粘蝇A.Shahroudy，D.Xu和G.王. 具有信任门的时空lstm用于三维人体动作识别。在欧洲计算机视觉会议（ECCV）中，第816-833页[21] M. Liu，H. Liu和C.尘增强的骨架可视化视图不变的人类动作识别。模式识别，第68卷，第346-362页，2017年8月[22] A. Shahroudy，J.刘德铭T. Ng和G.王. Ntu rgb+d：用于3d人类活动分析的大规模数据集在IEEE计算机视觉和模式识别会议中，第1010-1019页[23] C. Si，Y. Jing，W.王湖，加-地Wang和T. Tan.结合空间推理和时间堆栈学习的基于骨架的动作识别在欧洲计算机视觉会议（ECCV），2018年9月。[24] S.宋角，澳-地Lan，J. Xing，W. Zeng和J.刘某基于骨架数据的端到端时空注意力模型在AAAI人工智能会议上，第4263-4270页[25] M. R. Sudha，K.Sriraghav，S.S. Abisheck，S.G. 叶尔孤白和S.玛尼莎虚拟现实和手势识别的方法和应用：综述。在InternationalJournalofAmbientComputingIntelligence，第8卷，第1[26] Y.唐，Y。Tian，J. Lu，P.李和周杰。深度渐进强化学习用于基于机器人的动作识别。在IEEE计算机视觉和模式识别会议（CVPR），第5323[27] R. Vemulapalli，F.Arrate，和R.切拉帕以谎言群中的点表示三维骨骼来识别人类在IEEE计算机视觉和模式识别会议（CVPR）中，第588[28] J. Wang，Z. Liu，Y. Wu，and J. Yuan.使用深度相机挖掘动作识别的 actionlet 引擎。 IEEEInternationalConference on Computer Vision and Pattern Recognition（CVPR），第1290-1297页[29] S. Yan，Y. Xiong和D.是林书时空图卷积网络用于基于混沌的动作识别。在AAAI人工智能会议上，第7444[30] Y. Yan，J. Xu，B. Ni，W. Zhang和X.杨骨架辅助关节运动生成.在ACM国际多媒体会议（ACMMM），第199

下载后可阅读完整内容，剩余1页未读，立即下载