贝叶斯图卷积LSTM在基于骨架的动作识别中的应用

146 浏览量更新于2023-10-13 收藏 1.06MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6882HTHT贝叶斯图卷积LSTM在基于骨架的动作识别中的应用赵瑞1，王康1，苏辉1，2，季强11RPI，2IBM研究院{zhaorui.zju，kangwang.kw}@ gmail.com，huisuibmres@us.ibm.com，qji@ecse.rpi.edu摘要我们提出了一个框架，通过建模的基础动态过程，产生的运动模式，从骨架数据识别人类的我们捕捉到三个主要因素，有助于运动模式的复杂性，包括身体关节之间的空间依赖关系，身体姿势的时间依赖关系，以及动作执行中的受试者之间的变化我们利用图卷积提取结构感知的特征表示的姿态数据，通过利用骨骼解剖。然后使用长短期记忆（LSTM）网络来捕获数据的时间动态。最后，在贝叶斯框架下将整个模型扩展为概率模型，以便更好地捕捉数据中的随机性和变化。为了提高模型的泛化能力，提出了一种对抗性先验知识来正则化模型参数贝叶斯推理问题制定解决分类任务。我们证明了这个框架的好处，在几个基准数据集识别在各种泛化条件下。1. 介绍近年来，随着2D/3D姿态估计方法的质量提高，基于骨架的动作识别吸引了越来越多的关注[56，48，8]。骨架数据源自RGB或深度视频，为动作执行提供了简洁和信息性的表示。纯粹的基于回声的动作识别可以实现相当好的结果[17，57]，尽管是低得多的维度表示。这些结果使得骨架成为一种有吸引力的动作识别方式。然而，从骨架数据中识别动作仍然具有挑战性，部分原因是人体运动动力学的复杂性。特别是，有三个主要因素促成了复杂的动态。首先，人体运动往往涉及不同身体部位的协调，这引入了身体部位之间的时空依赖性例如，要完成一个保龄球动作，四肢需要以特定的方式运动，以完成投掷的动作图1.概述我们的框架。红色和蓝色箭头分别显示了训练和测试数据的流程。第3节讨论了每个组件的详细信息。球，同时保持整个身体的平衡此外，运动模式的运动学可以是非线性和复杂的，例如，拳击和舞蹈。第二，运动模式存在长期依赖性。不同动作的身体姿势在某个时刻可能是相似的。然而，这种姿势的成因及其在上下文中的具体含义取决于过去的运动。最后，由于不同的习惯，存在显著的受试者依赖性差异。不同的受试者可能会在运动的程度和速度方面以不同的方式执行相同的动作。总之，空间、时间和主体因素的耦合增加了从骨架数据中识别动作的挑战性。在本文中，我们提出了一个端到端的可训练框架，该框架将神经网络与概率建模相结合，以同时处理导致复杂动态的三个因素。更具体地说，我们提出了一个贝叶斯神经网络（BNN）模型。我们的模型首先建立在图卷积与长短期记忆（LSTM）网络的组合上，其中图卷积用于捕获不同身体关节之间的空间神经网络模型进一步扩展到概率模型贝叶斯建模框架后，通过处理模型参数作为随机变量。该扩展允许模型更好地处理运动数据中的随机性。为了进一步提高对未知数据的泛化能力，我们引入了对抗性先验，其灵感来自对抗性学习以正则化模型参数。我们制定的分类任务作为贝叶斯推理问题，以充分利用提出的概率GCU⨂+t&t（LSTM&分类器不&t*）贝叶斯&T1推理/（1′|（3′，7）图卷积鉴别器+t（+不+t*）1′Xt&Td6883模型，这使我们能够减少过度拟合。我们的具体贡献概述如下。• 提出一种结合图卷积和LSTM的BNN模型，以模拟骨架数据中的复杂动态。• 引入对抗性先验对模型参数进行正则化。• 开发一个贝叶斯推理框架，利用参数的分布，以提高鲁棒性和泛化。2. 相关工作基于骨架的动作识别：关于从骨架数据中识别人类动作的文献很多[52，75]。传统的方法要么专注于开发手工制作的功能[66，51，35，16，63]，要么专注于分类，模型[26，49，44，76，71，24，77]。最近，由于特征表示和分类器的端到端学习，基于神经网络的方法成为主导框架[17，78，46，58，64，65，60，70，73]。特别地，基于图卷积的方法变得流行。图卷积将卷积扩展到任意图结构化数据，如骨架，这在以前的工作中已经由图建模[17，68]。图卷积的现有工作可以分为两类[6]。第一种类型的方法在空间域中操作[54，18，50]。对于每个节点，基于其与其他节点的连接构造子图。然后通过聚合子图中每个节点的值来执行卷积。这种方法的挑战在于节点排序的正确选择和子图间基数差异的处理。第二种方法在谱域中操作[31，15，39]。这种方法建立在谱图理论[30]的基础上，它提供了图形数据的谱域表示。我们采用基于频谱的方法，它的灵活性，在构造卷积滤波器，允许参数共享。此外，该构造允许轻松扩展到深度神经网络。在这两种类型的方法中，通常假设图结构是固定的。最近的几项工作[42，55]提出从数据中学习图形结构，以捕获关节之间的隐式依赖关系。我们的方法是通过利用贝叶斯框架来实现的，贝叶斯框架使用参数分布进行推理，以更好地捕获骨骼动力学的变化。复杂动力学建模：以往的复杂动力学建模工作主要分为两大类，即基于概率图模型（PGM）的建模方法和基于递归神经网络（RNN）的建模方法。最近，越来越多的人对将PGM与RNN模型结合起来以获得两者的好处框架，即随机性建模和自动特征表示学习。这方面的现有工作可分为三大类。第一类侧重于结合两个独立的模型。例如，CNN或MLP用于执行自动特征提取，PGM（如隐马尔可夫模型（HMM））用于对动态进行建模[3，72，38]。另一个例子是使用RNN来建模动态，并使用PGM来捕获数据中的结构化依赖关系，如[4，36，41，69]。第二个主要类别侧重于将RNN及其变体扩展到概率模型。一种策略是向RNN添加额外的随机节点，以允许对动态数据中的随机性进行建模[2，29，13，20]。另一种策略是根据贝叶斯框架扩展RNN [21，22，19]。第三个主要类别通过使用NN对条件分布进行参数化，直接将PGM转换为端到端可训练模型，如[40，14，9]。我们的工作重点是利用贝叶斯建模框架将基于RNN的模型扩展到概率模型，该框架为了捕捉身体关节之间的相互依赖性，我们利用图卷积同时捕捉结构化依赖和自动表示学习的能力。我们制定的分类贝叶斯推理问题，其中我们考虑到数据和模型的不确定性。这使得模型能够更好地推广到看不见的数据。域适配：我们的工作是将模型推广到不同的领域，如不同的子模型组。已经提出了各种方法来减少域偏移，例如，通过最小化最大平均差异[62]或相关距离[59]。在[23，5，61]中，作者采用了对抗学习的思想，通过引入额外的域分类器来区分从源域到目标域的样本。这个想法是为了促进功能，是域不变的，这样来自不同领域的数据是不可区分的主分类器。然而，这些方法主要是为非顺序数据而设计的。在这项工作中，我们将对抗学习纳入贝叶斯推理框架，并将其作为先验知识，这有助于正则化参数分布。总的来说，所提出的贝叶斯图卷积LSTM可以捕获复杂的动态，以及跨主题和数据集的泛化。3. 方法我们首先描述了应用图卷积的细节，骨架数据提取结构感知表示，- tation。然后，我们描述了提出的贝叶斯GC-LSTM模型和对抗先验，然后是贝叶斯推理公式。6884阿吉−KK−K3.1. 从子图中学习表示骨架图由一组节点和一组连接不同节点的边定义。节点对应于不同的身体关节。边缘表示节点之间的连接，并且它们通常基于解剖结构来确定。例如，肘关节与肩关节连接。也可以引入人工连接。例如，Liu等人 [46]根据骨架的树遍历顺序构建边。Tang等人 [60]在肢体（如手和脚）中添加了额外的边，这些肢体的运动高度相关。在这项工作中，我们遵循了基于解剖学的图形设计。具体来说，我们定义一个无向图，每个时间步长 Gt={Xt ， Et} 。 Xt={X t1 ， Xt2，.，X tN}是时间t的节点集合，其中每个节点表示身体关节，N是关节的总数Et={（Xti，Xtj）：Xti，Xtj∈Xt，Xti<$Xtj}是图中的边的集合，其中Xti<$Xtj表示节点i和节点j用无向边连接一次考试-骨架图的一部分如图2所示。Et可以由邻接矩阵At∈RN×N指定。它可以被看作是一个具有网格结构的图形。由于网格的规则性，在图像上执行卷积是直接的结构的不变性允许参数共享，其中相同的卷积核可以用于不同的节点。执行一般图形卷积的一种方法来自频谱图论[30]，其允许在频谱域中执行图形卷积。关键操作是计算图傅里叶变换，这相当于计算图关于图拉普拉斯算子的特征函数的展开Defferrard等人 [15]提出了一种基于K阶Chebyshev多项式的高效近似计算图形傅立叶变换Kipf和Welling [39]进一步将K降低到1，从而得到图卷积的线性近似，其中卷积仅取决于直接连接到目标节点的相邻节点一个图卷积层的操作定义如下。ΣK.（1）A= 0（FkH（1）W（1）+b（1））（2）At（ i，j）=1、如果（Xti，Xtj）∈Et（一）K Kk=10，否则对于每个节点Xti，相关联的观测是3D关节位置和速度。速度是通过计算得到的。计算连续时间步长之间的位置变化。因此，每个节点具有6维观测，Xt∈RN×6。在[67，70]中也使用了类似的表示其中H（l）∈RN×dl和H（l+1）∈RN×dl+1是具有特征di的图卷积的第l层的输入和输出1 1相对于水平方向的长度d1和d1+ 1。Fk=D22RN×N是图k的核，其中A是k =A k+I是增广邻接矩阵包含额外的自连接到每个节点。德鲁克是对角线上的位置和速度是互补的，A的矩阵关于DΣ（i，i）= A（i，j）.W（l）∈k kjkk因为他们抓住了第一个和第二个，二阶运动学的运动，分别。该图提供了一种简洁的方式来指定不同关节之间的依赖关系。我们假设图结构不随时间改变，即，Gt对所有t保持不变。Rdl×dl+1，b（l）∈ Rdl+1是核权和偏置. K是图核的总数多重图的使用内核允许模型捕获不同的依赖性结构。图2中显示了两个图表示例。σ是非线性激活函数。注意，Fk是对称矩阵，等式（2）隐式地假设在卷积结果上的每个图核内的对称贡献为了进一步提高卷积的有效性，我们将Fk乘以一个可学习的掩码N×NMk∈R，导致以下操作。ΣK（1）A=0（（Mk<$Fk）H（l）W（l）+b（l））（3）K Kk=1图2.骨架图，由身体关节和连接两个关节的边组成左：局部图。右：全局图。图卷积定义了一个卷积运算，用于对任意图结构指定的数据进行卷积运算。图卷积的一个特殊情况被应用于图像，通过堆叠具有H（0）=Xt的多个图卷积层，我们可以提取有用的表示，其编码由图指定的依赖性。3.2. 贝叶斯GC LSTMGC-LSTM：我们首先简要描述了LSTM [32]，它是RNN的一个变体，对递归38 24915106110716 1217131814191531061814∈6885状态计算 LSTM有助于克服RNN在学习长期依赖关系方面的不足。假设我们有一个观测序列X t∈RD，t=1，...，T，D是每个X t的维数。LSTM的相应隐藏态是Z t∈ RQ，t = 1，.，T，Q是每个Zt的尺寸。在每个时间t，使用计算给定Xt和Zt−1的Zt。LSTM单元的参数化参考[28]。直观地说使用经验贝叶斯方法[25]。我们使用标准高斯作为先验，即，P（θ|α）= N（0，I）.使用贝叶斯GC-LSTM的分类可以是公式这是一个贝叶斯推理问题。给定一组训练数据D={Xi，yi}和一个测试数据查询X′，贝叶斯推理的目的是计算目标变量y′的条件后验分布如下。∫LSTM单元引入了具有可学习参数的额外节点，以保留过去的记忆并结合当前输入来更新隐藏状态。我们使用最后一个图卷积层在每个时间t的输出作为LSTM的输入，从而产生如图所示的动态模型。P（y′|X′，D，α）=≈P（y′|X′，θ）P（θ| D，α）dθ（4）θ1ΣMP（y′|X′，θ m），θ m<$P（θ| D，α）Mm=1图3.我们称这个模型为GC-LSTM。当量（4）用Monte Carlo估计来近似θ上的积分，由于模型的复杂分类标准如下。y= arg max1y′ MΣMm=1P（y′|X′，θ m）（5）图3. GC-LSTM模型架构。贝叶斯扩展：我们建议通过将GC-LSTM的参数视为随机变量，将所提出的GC-LSTM扩展为遵循贝叶斯框架的概率模型。这种扩展允许模型更好地捕获动态数据中的随机性和变化。在文献中已经表明，在RNN中添加随机建模有利于对结构化数据中的可变性进行建模[2，13]。此外，贝叶斯推理的使用使我们能够提高模型的泛化能力。贝叶斯RNN已经在[22，19]中提出用于NLP和图像字幕任务。我们的扩展还包括图卷积网络的贝叶斯处理，这使我们能够进一步捕获序列数据中的结构依赖性。假设X和y是分别表示所观察到的运动序列和相应的类别标签的随机变量。Bayesian GC-LSTM模型定义了一个概念，似然概率P（y|X，θ），它规定了X是y类的概率。θ包含图卷积网络和LSTM的所有参数实际上，P（y|X，θ）是通过将最后一个LSTM单元的输出馈送到具有softmax激活功能的全连接层。与非贝叶斯方法不同，θ被视为一个随机变量，其先验分布P（θ|α）由超参数α指定。我们将α视为一个固定的数，如下所示：其中M是参数样本的总数。执行贝叶斯推理的细节将在第3.3节中讨论。对抗性先验：先验分布P（θ|贝叶斯扩展中使用的α）可以被视为一种正则化，它可以防止模型参数过拟合到训练数据。特别地，模型可能过拟合由受试者引起的变化。然而，超参数α的选择由启发式决定。受对抗学习[27]的启发，我们开发了一个额外的先验来进一步正则化模型，以提高不同主题的泛化能力。直觉是，我们更喜欢GC-LSTM提取的特征表示是主题不变的，这样模型就不会过度拟合主题相关变化造成的滋扰。具体来说，我们引入了一个可以区分GC-LSTM产生的特征是否共享相同的主题子集的参数φ我们实施歧视-作为另一个全连接层，其输入与GC-LSTM的分类层设{X+} D是标签为{ y + }的训练小批量，{X−}D是主题与{X+}不同的验证小批量。我们有以下θ的后验分布。logP（θ| D，φ，α θ）= log P（y+|X+，θ）+logP（θ|α θ）+log P D（G（X−; θ）|φ）+C（6）其中G（X;θ）表示分类层之前GC-LSTM的输出。 PD（·|φ）∈[0，1]表示属于训练对象的概率。C是未知数后验分布的归一化常数。我们看到Eq。（6）φ向6886′′′′′′在这个意义上，θ不仅需要改进标记训练小批量上的分类，而且需要欺骗φ以在验证小批量上产生高似然对于φ，我们有下面的后验，其中更高的似然性表明{X+}和{X-}。logP（φ| D，θ，α φ）= log P D（G（X+; θ）|φ）+log P（φ|α φ）算法1GC-LSTM的贝叶斯推理输入：D={X，y}：训练数据。 D′={X ′}：测试数据。r：动量系数。 Tb：burn-in iterations. Tg：gap两个样本之间的迭代。η：初始学习率。输出：{y′}：预测标签1：θ：θ（0）<$N（0，I），v（0）=t=m=02：重复3：从D中选择{X+，y+，X-}的小批量+ log（1−PD（G（X−;θ）|φ））+C′（7）4：使用等式更新θ（t）（8）具有指定的r和η5：t←t+ 1其中C′是未知的归一化常数。比较等式（6）和等式（7），我们看到θ和φ相互竞争。总体框架如图1所示。3.3. 贝叶斯推理进行贝叶斯推断的关键是从后验分布P（θθ）中生成参数θ θ的样本|D，απ）。这里θθ=[θ ， φ] 和 αθ=[αθ ， αφ] 。F 或 BayesianGC-LSTM，似然是θθ的复杂非线性函数，导致θθ的难以处理的后验。因此，AP-需要采用MCMC和变分法等近似推理方法在这项工作中，我们使用随机梯度哈密顿蒙特卡罗（SGHMC）[11]。由于使用梯度信息，HMC与Metropolis-Hastings和Gibbs采样相比可以更有效地探索参数空间。此外，[11]中提出的随机扩展保持了HMC的收敛特性，同时允许该方法扩展到大型数据集。SGHMC更新的一个步骤定义如下。θ（t+1）=θ（t）+v（t+1）（8）v（t+1）=（1−r）v（t）+ηL（θ）+，N（0，2rηI）其中r∈（0，1）是动量系数，L（θ）是等式中定义的未归一化对数后验。（6）和等式（七）、因此，Eq。（8）本质上转换采样进入一个执行基于动量的随机梯度上升的优化过程，这使我们能够使用深度神经网络的experimentalimplementationframeworks我们使用SGHMC代替变分方法，因为它近似精确的后验分布和更好的计算效率。整体贝叶斯推断算法总结在算法1中。请注意，同一组参数样本用于推断所有测试数据。4. 实验我们将在本节中讨论实验评估，首先描述数据集和预处理。在讨论了实现方法之后，我们进行了消融研究和泛化实验。最后，我们在选定的基准数据集上与最先进的方法进行了比较。6：如果t≥Tb且mod（t，Tg）== 0，则7：θm=θ（t）//收集θ 8的样本：m←m+ 19：如果结束十：直到收集到足够的样本11：对于每个Xj∈ D，12：计算P（y| X j，θm），θ m使用GC-LSTM13：使用等式求解yj （五）14：结束15：返回{y}4.1. 数据集MSR 3D是最早的多模态动作识别数据集之一。10名受试者执行了20个动作，序列总数为557个。UTDMHAD[10]是通过Kinect和可穿戴传感器收集的另一个多模态人类动作数据集。共有861个序列，包含8个主体执行的27个动作。SYSU[34]是从40个不同受试者收集的12种活动的人类活动数据集，涉及操纵电话和椅子等物体共有480个视频。NTU RGB-D[53]是目前最大的人类活动数据集之一。它包含60个类别，收集了40个不同的主题。序列总数为56，880。我们只使用骨架数据在每个数据集的所有实验。预处理：我们通过减去从每个关节的躯干关节位置，使骨架是平移不变的。我们进一步调整骨骼长度到一个固定的参考长度，同时保持相同的关节角度，使骨架的比例不变。对每个数据集应用相同的处理，并由我们模型的不同变体使用在两个人参与一个动作的情况下，使用具有主动运动的骨架4.2. 执行我们使用 Tensorflow [1] 实现该模型图卷积单元（GCU）通过如等式（1）中定义的矩阵乘法来实现。（三）、卷积之后是批量归一化和激活函数，我们使用ReLU。我们将多个GCU堆叠在一起，其中较低级别的输出是下一个较高级别的输入在6887实验中，我们发现4个GCU表现最好。我们还在每两个GCU之间添加一个跳过连接。在每个时间步长t，原始骨架表示Xt被馈送到相同的共享GCU栈中。每个GCU的输出通道数对于NTU为64，对于其他数据集为8。最后一个GCU的输出然后被平坦化并馈送到当前时间的LSTM单元中，其展开以形成动态模型。我们使用NTU的状态大小为256，所有其他数据集的状态大小为128。Dropout应用于LSTM的输入和输出，以进一步防止过拟合。LSTM的最后一个时间步的输出被用作运动序列的最终表示。我们把它输入一个完全具有softmax激活函数的连接层生成类概率向量，即，P（y|X，θ）。相同的表示被馈送到具有S形激活函数的单个单元中以生成主题判别概率y，i。e. ，PD（·|φ）。我们使用动量梯度作为-百分初始学习率为0.001。我们将速率衰减为0.9每100个epoch。NTU使用256的批量大小，所有其他数据集使用32的批量大小，在小批量中平均分配训练和验证样本。4.3. 消融研究我们使用UTD数据集进行消融研究。我们评估模型的不同组件如何影响最终性能。首先，我们评估图卷积对最终性能的贡献。我们考虑两种基线方法。第一个（无图）直接将每个时间步的所有联合数据馈送到LSTM输入门。第二个（平均场图）定义了一个具有空边集的图，即图中的所有节点都是孤立的，没有任何连接。在这种情况下，图卷积简化为1×1卷积，沿着每个节点的不同通道运行。对于我们提出的方法，我们评估了三个变体。第一个（局部图）定义了基于骨骼解剖结构的图第二个（全局图）只在四肢和头部之间添加边，而将所有其他关节视为独立的。最后，联合图通过计算局部图和全局图的输出之和，将相邻的两个图组合起来，即。，两个图核。这两个图结构如图2所示。在这组实验中，我们只改变了图卷积的配置，同时固定了模型的其他部分，如LSTM状态大小和优化方案。我们在每个设置下重复实验五次，并报告平均值以解释随机初始化。结果示于表1中。研究结果表明：首先，我们看到局部图优于没有图卷积的变体。这表明捕获不同关节之间的依赖关系的有效性。全局图本身的性能不好，因为它忽略了局部依赖性，表1.图卷积的效果配置边数精度无图表N/A85.0平均场082.2本地图1987.2全局图1081.5联合图2992.1我的职责将两个图组合起来达到最佳性能，表明局部图和全局图包含彼此互补的信息。第二，没有图形设置实现更好的性能相比，简单的平均场图。这表明正确的图的表示是重要的，并且应该避免学习基于独立结构的表示。对于下一组实验，我们评估不同的-动态建模架构包括vanilla RNN，GRU [12]，LSTM，双向LSTM和堆栈LSTM。我们使用联合图进行卷积。在所有变体中，vanilla RNN的性能最差，这表明了建模长期时间动态的必要性。GRU接近LSTM。LSTM的不同变体实现了相当的性能，最佳配置是单个LSTM层。我们使用单层LSTM进行剩余的实验，并将LSTM架构的深入探索作为未来的工作。表2.RNN架构的影响架构精度Vanilla RNN66.4GRU89.7LSTM92.12-stacked LSTM92.0双向LSTM90.8对于下一组实验，我们通过与点估计方法进行比较来评估贝叶斯推断的效果。联合图和单层LSTM用于构建模型。对于点估计方法，我们考虑两种不同的方法，即最大似然（ML）和最大后验（MAP）。对于贝叶斯推理方法，我们考虑了在后验抽样过程中使用和不使用对抗性先验（AP）的情况。为了进一步证明使用贝叶斯推理的好处，我们创建了额外的测试数据，这些数据将扰动添加到原始测试数据中。我们考虑两种类型的扰动。第一种方法是对原始测试数据进行随机旋转，以模拟相机视图的变化。第二种方法是在关节位置上添加高斯随机噪声，以模仿对姿势的不良估计。结果示于表3中。从结果中我们看到贝叶斯推理方法6888表3.旋转（R）和加性噪声（N）下贝叶斯推断的效果摄动清洁只有R只有NR + NML86.262.877.765.1地图85.278.186.177.9贝叶斯87.478.886.982.8贝叶斯+AP92.186.187.585.9优于两种点估计方法。我们还观察到，MAP优于ML在扰动测试数据，这表明它是有益的，放置一个先验分布的参数，以提高鲁棒性。具有对抗性先验的贝叶斯推理在所有变体中获得了最佳结果，这证明了对抗性先验在帮助模型适应新数据方面的有效性。比较干净数据和扰动数据的结果，我们观察到贝叶斯推理方法产生较小的性能下降这表明使用不同参数集的好处增加了模型的鲁棒性。为了评估贝叶斯推断所需的样本数量，我们绘制了准确度与干净测试数据情况下的样本数量的关系图，结果如图4所示。我们观察到，在大约50个样品之后，性能变得饱和。我们使用100个样本进行剩余的实验。图4.不同样本数下的贝叶斯推断结果。4.4. 泛化我们证明了所提出的框架的能力，通过执行一个跨数据集的实验，其中的训练和测试数据来自不同的数据集的泛化。因此，训练数据和测试在第一个实验中，我们使用MSR和UTD数据集，它们在com-mon1中共享10个动作。图5显示了来自两个不同数据集的相同操作的示例。我们不仅观察到不同主体所执行的动作存在实质性差异，1 MSR和UTD：挥动，接球，投掷，画x，画圈，拍手，慢跑，网球挥杆，网球发球，捡球&投掷。由不同的数据收集设置引起的不同的受试者姿势。我们的基线是没有对抗性先验的贝叶斯推理。我们还比较了三个国家的最先进的方法。R3DG [63]使用复杂的手工特征和SVM分类器。DLSTM [78]是一种基于深度学习的方法。[73]是一种基于图形卷积的方法。结果示于表4中。在我们的方法中使用AP，我们观察到了实质性的改善，这证明了自适应的有效性。表4.不同数据集的泛化火车MSRUtdNTUAvg.测试UtdMSRUtdMSRR3DG [63]66.559.969.864.565.2DLSTM [78]66.850.061.062.660.1STGCN [73]59.263.066.177.566.5我们的不含AP77.451.867.766.365.8我们的w/AP82.570.070.176.374.7在第二个实验中，我们在NTU数据集上训练我们的模型，并在MSR和UTD上进行测试，它们分别与NTU共享6个和8个动作。我们只考虑对NTU的适应，它比MSR和UTD有更多的实例。结果示于表4. 与第一个实验类似，我们通过在两个数据集中使用AP观察到一致的改进。自适应结果优于其他三种方法，这再次表明了AP的贝叶斯推理的强度。图5.鼓掌的例子。第一行来自UTD数据集中的受试者。第二行来自MSR数据集中的受试者。4.5. 与最新技术我们在所选的基准数据集上比较了动作识别与其他最先进方法的性能。尽管MSR Action 3D是最早的3D动作数据集之一，但由于遮挡引起的噪声位置，MSRAction 3D仍然具有挑战性。文献中提出了许多不同的评估方案。我们使用跨学科测试，奇数编号的科目用于训练，偶数编号的科目用于2 NTU和MSR：扔，鼓掌，欢呼，挥手，踢，点。NTU和UTD：投掷，坐下，站起来，鼓掌，挥手，指向，交叉手，走。6889进行测试。根据表5，我们优于基于手工制作的特征的方法[37]。我们也优于基于概率模型的方法[44]，后者通过将手工制作的特征与概率建模相结合来提高性能我们的性能与最近基于深度学习的方法[17，45]相当，尽管使用了更简单的RNN架构设计。表5.MSR 3D数据集上的分类结果方法精度SC [37]88.3HBRNN [17]94.5组成[44]93.0ST-LSTM [45]94.8我们94.5对于UTD数据集，我们还根据数据集作者的建议，使用受试者的奇数/偶数分割进行训练和测试。UTD包括几个动作，它们之间的区别很微妙，比如画圆、画三角形和画x。在表6中，我们的方法比基于手工特征的方法[10，7，74]和基于深度学习的方法[33]至少高出5.1%，这表明了所提出的框架的优势。表6.UTD数据集上的分类结果方法精度传感器融合[10]79.1DMM-LBP [7]84.23DHoT-MBC [74]84.4[33]第三十三话87.0我们92.1对于SYSU数据集，我们使用与作者提供的相同的跨学科评估协议，其中所有子样本被随机均匀地分成训练集和测试集。SYSU具有挑战性，因为有大量受试者，并且每个受试者只进行一次活动，因此差异很大。每个序列的平均帧数是203，这也是我们实验的基准中最长的。根据表7中的结果，我们通过图形卷积更好地建模身体关节之间的相互依赖性，显示出优于[45，57]的优势。我们也比[60]更好，后者使用强化学习选择固定大小的帧子集这种策略可能会改变动作的原始动力。表7.SYSU数据集上的分类结果最后，对于NTU数据集，有两种不同的实验设置。第一种是跨学科，训练和测试数据包含不同的主题，没有重叠.第二种是交叉视图，其中训练和测试数据具有不同的相机视图。所有的方法都是基于神经网络的方法，因为它们在处理大规模数据集上具有优势。与[17，53，47，64]相比，我们显示出两个因素的优势，第一个是捕获身体部位之间的依赖性，第二个是使用对抗先验改进泛化。[73]还使用图形卷积，将时间视为图形的另一个维度。这种策略避免了使用动态模型，如RNN。但它需要一个固定长度的序列。该模型具有较好的性能，在处理不同长度的序列时具有更大的灵活性. [60，57]优于我们的方法，其中[60]使用了更复杂的训练方案，[57]具有更复杂的动态模型设计。我们相信我们的方法仍然具有竞争力，因为动态模型的设计更简单，鲁棒性和泛化能力更强。表8.NTU数据集上的分类结果方法X主题X-ViewHBRNN [17]59.164.0PLSTM [53]62.970.3[47]第四十七话74.482.82Stream-RNN [64]71.379.5ST-GCN [73]81.588.3DPRL [60]83.589.8ST-TSL [57]84.892.4我们81.889.05. 结论在本文中，我们解决的挑战，建模复杂的动力学表现在人体运动数据。我们明确地考虑了复杂性的三个来源，包括运动过程中身体关节之间的相互依赖性，动作过程中姿势之间的长期时间依赖性，以及主体依赖性变化。我们提出了一种结合图卷积和LSTM来建模时空动态的解决方案。整个模型进一步扩展到一个概率模型，遵循贝叶斯框架与一个新的对抗性先验。为了提高分类器的鲁棒性和泛化能力，提出了一个贝叶斯推理问题基准数据集上的消融研究和评估表明了该框架的有效性。确认这项工作得到了IBM和RPI合作的认知沉浸式系统实验室（CISL）的部分支持方法精度D-骨架[34]75.5ST-LSTM [45]76.5DPRL [60]76.9SR-TSL [57]80.7我们82.06890引用[1] Martin Abadi等人Tensorflow：一个大规模机器学习系统。在OSDI，2016。5[2] 贾斯汀·拜尔和克里斯蒂安·奥森多夫。学习随机递归网络。arXiv，2014. 二、四[3] 约瑟芬·本吉奥，扬·勒昆，唐尼·亨德森。使用空间表示、卷积神经网络和隐马尔可夫模型的全局训练手写字识别器NIPS，1994年。2[4] 尼古拉斯·布朗热·莱万多夫斯基，约瑟芬·本吉奥，帕斯卡尔·文森特。在高维序列中建模时间依赖性：应用于复调音乐的生成和转录。arXiv，2012年。2[5] Konstantinos Bousmalis ， George Trigeorgis ， NathanSilber-man，Dilip Krishnan，and Dumitru Erhan.域分离网络。在NIPS，2016年。2[6] Joan Bruna ， Wojciech Zaremba ， Arthur Szlam ， andYann Le- Cun.图上的谱网络和局部连通网络。ICLR，2014年。2[7] Mohammad Farhad Bulbul，Yunsheng Jiang，and JinwenMa.基于dmms的多特征融合人体动作识别。国际多媒体数据工程与管理杂志，2015年。8[8] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。利用局部仿射场进行实时多人二维姿态估计。在CVPR，2017年。1[9] Zhengping Che，Sanjay Purushotham，Guangyu Li，BoJiang，and Yan Liu.多速率多变量时间序列的分层深度生成模型在ICML，2018。2[10] Chen Chen ， Roozbeh Jafari ， and Nasser Kehtarnavaz.Utd-mhad：一个利用深度相机和可穿戴惯性传感器进行人类动作识别的多模式数据集。在ICIP，2015年。五、八[11] Tianqi Chen，Emily Fox，and Carlos Guestrin.随机梯度哈密顿蒙特卡罗。InICML，2014. 5[12] KyunghyunCho，BartVanMerrieenboer，CaglarGulcehre ， Dzmitry Bahdanau ， Fethi Bougares ，Holger Schwenk，and Yoshua Bengio.使用rnn编码器-解码器学习短语表示用于统计机器翻译。arXiv，2014. 6[13] Junyoung Chung、Kyle Kastner、Laurent Dinh、KratarthGoel、Aaron C Courville和Yoshua Bengio。序列数据的递归潜变量模型。2015年，在NIPS中。二、四[14] Hanjun Dai，Bo Dai，Yan-Ming Zhang，Shuang Li，andLe Song.递归隐半马尔可夫模型。在ICLR，2017。2[15] Michae¨lDefferrard，XavierBresson，andPierreVandergheynst.具有快速局部谱滤波的图上卷积神经网络。在NIPS，2016年。二、三[16] Maxime Devanne，Hazem Wannous，Stefano Berretti，Pietro Pala，Mohamed Daoudi，and Alberto Del Bimbo.基于黎曼流形上运动轨迹形状分析的三维Cybernetics，2015. 2[17] 雍都、魏王、梁王。用于基于骨架的动作识别的分层递归神经网络CVPR，2015。一、二、八[18] DavidKDuvenaud 、 DougalMaclaurin 、 JorgeIparraguirre 、 Raf aelBombarell 、 Timoth yHirzel 、 Ala´nAspuru-Guzik和Ryan P Adams。用于学习分子指纹的图上卷积网络2015年，在NIPS中。2[19] Meire Quinato，查尔斯·布伦德尔和Oriol Vinyals。贝叶斯递归神经网络arXiv，2017. 二、四[20] Marco Fraccaro、Søren Kaae Sønderby、Ulrich Paquet和Ole Winther。具有随机层的序列神经模型。在NIPS，2016年。2[21] 亚林·加尔和祖宾·加赫拉马尼。在递归神经网络中的一个理论上接地应用辍学在NIPS，2016年。2[22] 甘哲，李春元，陈长友，蒲云辰，苏勤良，劳伦斯.用于语言建模的递归神经网络的可扩展的贝叶斯学习在ACL，2017年。二、四[23] 雅罗斯拉夫·甘宁和维克多·伦皮茨基。通过反向传播的无监督arXiv，2014. 2[24] 吉列尔莫·加西亚·埃尔南多和金泰均过渡林：学习用于动作识别和检测的有区别的时间转换。在CVPR，2017年。2[25] 安德鲁·格尔曼，哈尔·斯特恩，约翰·卡林，大卫·邓森，阿基·维塔里和唐纳德·鲁宾。贝叶斯数据分析。2013. 4[26] Dian Gong和Gerard Medioni。基于动态流形见ICCV，2011年。2[27] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在NIPS，2014。4[28] 亚历克斯·格雷夫斯，阿卜杜勒·拉赫曼·穆罕默德，杰弗里·辛顿。深度递归神经网络语音识别载于ICASSP，2013年。4[29] Karol Gregor 、 Ivo Danihelka 、 Alex Graves 、 DaniloJimenez Rezende和Daan Wierstra。画图：一个用于图像生成的递归神经网络. arXiv，2015. 2[30] 哈蒙德，皮埃尔·范·安斯特，还有雷米·格里邦瓦尔。基于谱图论的图上的小波。应用和计算谐波分析，2011年。二、三[31] Mikael Henaff，Joan Bruna，and Yann LeCun.图结构数据上的深度卷积网络。arXiv，2015. 2[32] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经计算，9（8）：1735-1780，1997。3[33] Yonghong Hou，Zhaoyang Li，Pichao Wang，WanqingLi.使用卷积神经网络的基于骨架光谱的动作识别。IEEE Transactions on Cir-10 and Sy

下载后可阅读完整内容，剩余1页未读，立即下载