3D动作识别中全局上下文感知注意力LSTM网络的应用

13 浏览量更新于2023-10-15 收藏 785KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1647用于3D动作识别的全局上下文感知注意力LSTM网络Jun Liu< $，Gang WangZhang，Ping Hu<$，Ling-Yu Duann§，Ale x C.Kot††新加坡南洋理工大学电气与电子工程学院阿里巴巴集团，杭州，中国§北京大学视频技术国家工程实验室{jliu029，wanggang，phu005，eackot}@ ntu.edu.sg，lingyu@pku.edu.cn摘要长短期记忆（LSTM）网络在3D人类动作识别方面表现出了卓越的性能，因为它们在建模动态和序列数据的依赖关系方面具有强大的能力。由于并不是所有的关节都能为动作分析提供信息，而且不相关的关节往往会带来大量的噪声，因此我们需要更多地关注信息关节。然而，原始的LSTM并不具有很强的注意力能力。因此，我们提出了一类新的LST-M网络，全局上下文感知注意力LSTM（GCA-LSTM），用于3D动作识别，它能够在全局上下文信息的帮助下选择性地关注动作序列中的信息关节为了实现动作序列的可靠注意力表示，我们进一步为我们的GCA-LSTM网络提出了一种递归注意力机制，其中注意力性能得到迭代改善实验表明，我们的端到端网络可以可靠地集中在骨架序列的每一帧中信息量最大的关节。此外，我们的网络在三个具有挑战性的3D动作识别数据集上具有最先进的性能。1. 介绍人体动作识别是一个非常重要的研究问题，由于其相关的广泛的应用。随着微软Kinect、华硕Xtion和英特尔实感等深度传感器的出现，使用3D骨架序列的动作识别吸引了大量的研究关注，并提出了许多先进的方法[33，14，1，72]。人类的动作可以通过3D空间中骨骼关节运动的组合来表示[67，11]。然而，这并不意味着所有的骨骼关节都能为动作分析提供信息.例如，手关节的运动对于拍手动作是非常有用的，而脚关节不同的动作顺序图1. 使用全局上下文感知注意力LSTM网络进行3D动作识别。第一层LSTM对骨架序列进行编码，并为该序列生成初始全局上下文记忆。第二层在全局上下文记忆的帮助下对输入执行注意，并进一步生成序列的注意表示。注意力表示，然后使用回细化的全局上下文-t.进行多次注意迭代以逐步完善全局上下文。最后，细化的全局上下文信息用于分类。通常具有不同的信息接头，并且在相同的序列中，接头的信息程度也可以在帧上变化。因此，有选择地关注每帧中的信息关节是有益的，并且尝试忽略不相关关节的特征，因为后者对动作识别的贡献非常小，甚至会带来可能破坏动作识别性能的噪声[20]。这种选择性聚焦机制也被称为注意力，它已被证明在各种领域非常有效，例如语音识别[7]，机器学习[8]，机器视觉[9]，机器视觉[10]，机器视觉[11]，机器视觉[12]，机器视觉[13]，机器视觉[14]，机器视觉[15]，机器视觉[16]，机器视觉[17]，机器视觉[18]，机器视觉[19]，第二层迭代#1迭代#2细化信息门全球背景存储器第一层Softmax分类器初始化1648翻译[3]、图像字幕生成[64]等。长期短期记忆（LSTM）网络[15]已成功应用于语言建模[46]，基于RGB的活动分析[17，68，69，61，10，21，43，30]，以及3D动作识别[11，73，27]，因为它在建模序列数据方面具有强大的能力然而，LST-M对三维动作识别的注意能力不强这种限制主要是由于LSTM为了对关节执行可靠的注意，我们需要测量关于全局动作序列的每个帧中的每个关节这意味着我们首先需要有全球背景知识。然而，LSTM每一步的可用上下文都是相对局部的。在LSTM中，顺序数据被一步一步地馈送到网络，每一步的上下文信息（隐藏表示）被馈送到下一步。这表明在每一步，当前可用的上下文是来自前一步的隐藏表示，与全局信息1相比，这是非常局部的。在本文中，我们扩展了原有的LSTM网络，并提出了全局上下文感知注意力LSTM（GCA-LSTM），它具有强大的3D动作识别能力。在我们的GCA-LSTM网络中，全局上下文信息被馈送到所有步骤，因此网络可以使用它来测量所有步骤的新输入的信息性得分，并相应地调整它们的注意力如果新的输入是关于全局动作的信息，则网络导入更多的信息，然而，如果它是不相关的，则网络阻止它。如图1所示，我们提出的用于3D动作识别的GCA-LSTM网络包含两个LSTM层。第一层对骨架序列进行编码，并为其生成初始全局上下文记忆。然后，这个全局上下文被馈送到第二个LSTM层，以帮助网络选择性地关注每个帧中的信息关节，并进一步为全局动作产生注意力表示。接着，将注意表征反馈到全局上下文记忆中，以对其进行优化具体来说，我们为我们的GCA-LSTM网络提出了一个循环注意力机制。由于在注意过程之后实现了精细的全局上下文记忆，因此我们可以将全局上下文再次馈送到第二层以执行更可靠的注意。可以执行多次注意迭代以逐步地改进全局上下文记忆最后，细化的全局上下文被馈送到分类器以预测动作的类别标签。1在LSTM中，尽管与初始步骤相比，后面步骤的隐藏表示包含更广泛的上下文信息，但它们的上下文仍然相对局部，因为LSTM在记忆过去太久的信息方面存在困难[60]。本文的主要贡献如下。(1)我们提出了一种GCA-LSTM网络，它保留了原始LSTM的顺序建模能力，同时提高了其选择性注意能力。(2)我们提出了一种循环注意机制来逐步提高网络的注意力（3）可视化结果表明，利用全局上下文信息的相关性，可以可靠地识别出动作序列中各帧中的关节信息。(4)我们的端到端GCA-LSTM网络在所有评估的数据集上都实现了最先进的据我们所知，这是第一个将显式注意力作为其3D动作识别基本2. 相关工作3D动作识别。在过去的几年中，已经提出了用于3D动作识别的各种特征提取器和分类器学习方法[28，37，31，65，54，26，34、5、47、59、38、56、32、2]。Wang等人[52，53]提出了一个actionlet集成模型来表示动作，同时捕获类内方差。Vemulapalli等人[49]将每个动作表示为李群中的曲线，并采用SVM分类器来识别动作。乔杜里等人[4]将骨架序列编码为时空层次模型，并利用一组线性动态系统学习动态结构。Xia等人[62]使用隐马尔可夫模型（Himp）来模拟动作序列中的时间动态- s。Zanfir等人[71]提出了一种MovingPose框架，结合改进的kNN分类器进行低延迟活动识别。Chen等人[6]提出了一种基于部分的5D特征向量，以探索骨骼序列中身体部位的最相关关节。Koniusz等人[22]探索了张量表示来捕捉骨骼关节之间的高阶关系Wang等人[57]介绍了一种基于图形的骨架运动表示以及SPGK内核SVM，用于3D动作识别。使用RNN/LSTM进行3D动作识别。除了上述主要集中于提取手工特征的方法之外，最近，基于深度学习，特别是基于递归神经网络（RNN）的方法在处理3D动作识别任务中显示了强大的能力。我们提出的网络主要基于LSTM网络，它是RNN的扩展这部分我们回顾了基于RNN/LSTM的3D动作识别方法，如下所示，因为它们与我们的方法非常相关Du等人[11]提出了一种分层递归神经网络来模拟人体的身体结构和骨骼关节的时间动力学。Zhu等[73]提出了全连接层的混合范数正则化，以驱动模型学习1649接头.他们还在LSTM单元中引入了深度dropout，以帮助有效地训练深度网络。Vee- riah等。[48]对LSTM网络采用了差分门控机制，使其强调信息的变化。Shahroudy等人[35]提出了一个部分感知的L-STM网络，以推动模型单独学习不同身体部位的长期上下文表示。Liu等[27]提出了一个二维时空LSTM框架，同时在空间和时间域上使用动作相关信息的隐藏源。在[27]中还引入了旨在处理骨骼关节的不准确3D坐标的信任门。除了3D动作识别，RNN和LSTM也被应用于3D动作检测[25，18]和预测[18]。与上述基于RNN/LSTM的方法不同，这些方法不考虑每个关节关于全局动作序列的信息量，我们的GCA-LSTM网络对LSTM的进化步骤进行关注在我们的网络中生成了一个注意力表示，可以用来优化分类性能。此外，还引入了一种循环注意机制，以迭代地提高注意性能.注意力机制。我们的方法也与注意力机制有关[7，3，63，39，23，29，45]，它允许网络选择性地关注特定信息。Xu等[64]结合了软注意力和硬注意力，用于图像字幕生成。Yao等人[66]介绍了一种用于视频字幕生成的时间注意机制Luong等人[29]提出了融合全局注意力和局部注意力的神经机器翻译。Stoleya等人[44]提出了一种用于图像分类的深度注意力选择网络。虽然基于深度学习的方法[40，36，55]已用于现有作品中的动作识别，但其中大多数并不关注注意力。有几项工作-[39，58]，然而，我们的方法与他们在以下方面有显著不同：它们都使用LSTM的前一个时间步的状态，其上下文信息是非常本地的，以提供下一个时间步的注意力分数。对于全局分类问题-动作识别，全局信息是可靠地评估每个输入的重要性以实现可靠注意的必要条件，因此我们提出了一种用于LSTM的全局上下文记忆，用于评估每个输入的信息性得分。据我们所知，我们是第一个将全局记忆单元引入LSTM网络以解决全局分类问题的人。此外，我们引入了一个迭代的注意机制，以提高对动作识别的注意能力，图2. ST-LSTM单元的插图[27]。在空间方向上，框架中的身体关节被布置为链，并作为序列被馈送到网络。在时间方向上，身体关节在帧上被馈送。而[39]和[58]只使用一次注意力由于我们的新贡献，我们的方法在所有评估的数据集上实现了最先进的性能。3. 全局上下文感知注意力LSTM网络在本节中，我们首先简要回顾2D Spatio-TemporalLSTM（ST-LSTM）作为我们的基础网络。然后，我们详细描述了我们提出的全局上下文感知注意力LSTM网络，该网络能够在全局上下文信息的帮助下选择性3.1. 时空LSTM在基于机器人的动作识别中，提供了每个帧中身体关节的3D坐标同一关节在不同帧间的时间依赖性和同一帧内不同关节的空间依赖性都是基于运动分析的重要线索。最近，Liuet al. [27]提出了一种用于3D动作识别的2D ST-LSTM网络，以对空间和时间域上的依赖性和在ST-LSTM中，一个帧中的身体关节被安排和馈送为一个链（空间方向），并且不同帧中的相应关节也按顺序（节奏方向）馈送，如图2所示。每个ST-LSTM单元被馈送有新的输入（xj，t，帧t中的关节j的3D位置），即在先前帧t处的相同关节的隐藏表示。时间步长（h j，t-1），以及相同帧（h j-1，t）中的先前关节的隐藏表示，其中j ∈ {1，.，J}和t ∈{1，...，T}分别表示节点和框架的索引。ST-LSTM单元配备有输入门（ij，t）、对应于两个控制源的两个遗忘门（文本信息（f（S）用于空间域，f（T）j，t j，t（J，T）（j-1，t）（j，t）（j，t-1）空间（关节）时间（帧）1650Fj，tj，t对于时间维度）和输出门（0，j，t）。ST-LSTM如[27]中所示ij，tσ中国（S）阿利什杰山σ（T）=σ联系我们 xj，th中国（1）fj，toj，tuj，tσtanhj，t−1hj−1，tc j，t=ij，tuj，t+f（S）<$cj−1，t（2）+f（T）<$cj，t−1h j，t =（3）第一章：第一章：其中，cj ，t和hj ，t表示单元在空间-时间步长（j，t），req处的单元状态和隐藏表示。W是由模型参数组成的仿射变换， u ， j ， t 是调制输入，并且codeindi- cates是逐元素乘积。3.2. 全局上下文感知注意力LSTM以前的工作[20，6]已经表明，在每个动作序列中，通常有一个信息关节的子集，这些关节很重要，因为它们对动作分析的贡献更大，而其他关节可能与该动作无关（因此，为了实现3D动作识别的高准确性，我们需要识别信息关节并更多地关注它们的特征，同时试图忽略不相关关节的特征，即，选择性地聚焦（注意力）在提供信息的关节上对于可靠的3D动作识别是有益的。动作可以由骨骼关节的运动的组合来表示。为了可靠地识别动作中的信息性关节，我们可以评估关于全局动作序列的每个帧中的每个关节的信息性得分。为此，我们首先需要有全局上下文信息。然而，LSTM每个进化步骤的可用上下文是前一步的隐藏表示，这是相对局部的图3.所提出的GCA-LSTM网络的图示为了清楚起见，省略了一些箭头。时间步骤，以产生动作的注意力表示，然后使用该注意力表示来细化全局上下文分类。在第一层中，每个时空步长（j，t）处的新输入是帧t中的关节j的3D坐标。第二层的输入是来自第一层的隐藏表示。在我们的网络中进行多次注意迭代（再流注意）以迭代地优化全局上下文记忆。最后，利用改进的全局上下文记忆进行分类。为了便于解释，本文中，我们使用Hj，t代替hj，t来表示第一层中步骤（j，t）处的隐藏表示，并且在第3.1节中定义的符号，例如hj，t，cj，t，ij，t和oj，t，仅用于表示第二层中的组件。初始化全局上下文内存：由于我们的GCA-LSTM网络基于全局上下文信息执行注意力，因此我们需要首先获得初始全局上下文记忆。一个可行的方案是使用第一层的输出来生成全局上下文表示。我们对第一个ST-LSTM层中所有步骤的隐藏表示进行平均，以实现初始全局上下文记忆：与全球行动相比。因此，我们建议在LSTM网络中引入全局上下文记忆，IF（0）=1ΣJ ΣT（4）第一章保存动作序列的全局上下文信息，并可以提供给LSTM的每个步骤，以帮助注意力过程，如图3所示。我们将这种L-STM架构称为全局上下文感知注意力LST-M（GCA-LSTM）。概述：我们提出的用于3D动作识别的GCA-LSTM网络如图3所示。它包含三个主要模块。全局上下文记忆保持-这是整个动作序列的一个总体表示。第一个ST-LSTM层对骨架序列进行编码，并存储全局上下文记忆。第二个ST-LSTM层在所有空间上对输入执行关注JTj=1t =1我们还可以将第一层的所有隐藏表示馈送到前馈神经网络，然后使用结果激活作为IF（0）。在我们的实验中，我们观察到这两种初始化选择的执行情况相似。然而，平均不涉及新的参数，而使用前馈网络带来相当多的参数。注意第二个ST-LSTM层：在第二层中，我们在每一个时空步长上对输入的信息量进行评估. 在第n次注意中-第二ST-LSTM层（个）0的情况。0细化0的情况。300hj，tRj，t0的情况。40的情况。10.0全球背景存储器（个）（0）初始化j，t第一个ST-LSTM层1651j，te=WR=j，tj，tj，tj，t因此，我们的网络通过将输入本身和由前一次注意力迭代产生的全局上下文记忆（IF（n-1））馈送到网络来学习每个输入（n，t）的信息性门r（n）：负对数似然损失函数[13]用于测量真实标签y和预测结果 y之间的差异。我们使用时间反向传播（BPTT）算法来最小化损失函数。（个）j，t.e1tanh..WE2阿利什杰山IF（n−1）ΣΣΣ（五）4. 实验我们在NTU RGB+D上验证了所提出的方法（个）j，tint n（n），inte（n）J ΣT（个）（六）数据集[35]、UT-Kinect数据集[62]和SBU-Kinect交互数据集[70]。为了调查我们p=1q =1 exp（ep，q）网络，我们进行了广泛的实验与以下三种不同的架构：其中r（n）是第n次迭代中步骤（j，t）利用学习的信息性门r（n），第二层中的ST-LSTM单元的单元状态可以更新为：cj，t =r（n）<$ij，t<$uj，t+（1−r（n））<$f（S）<$cj−1，t（7）(1) ‘ST-LSTM 这个网络结构类似于 [27]中的 ST-LSTM网络。怎么-然后，将第二层所有时空步长的隐藏表示连接起来，并馈送到一层前馈网络，以生成骨架序列的全局表示，并对全局表示进行分类;在[27]中，j，tj，t对单个隐藏表示+（1−r（n））<$f（T）<$cj，t−1在每一步（局部表示），以及预测得分j，tj，t对所有步骤进行平均，用于最终分类。该小区状态更新方案可以解释为：如果如果input（i，j，t）是关于全局上下文的信息（重要），那么我们让学习算法通过从第二个ST-LSTM层导入更多信息来更新第二个ST-LSTM层的记忆单元;然而，如果输入是不相关的，那么我们需要抑制它对记忆的影响并利用更多的历史信息。优化全局上下文内存：通过采用Eq. （7）然后将单元状态馈送到Eq. （3），我们可以在第二层的每一步得到隐藏表示hj，t，其中联合选择（注意力）。第二层中最后一步的输出可以用作动作的注意力表示F（n）。最后，注意力代表-将F（n）馈送到全局上下文存储器以对其进行细化，如图3所示该细化被公式化为：(2) GCA-LSTM网络这就是GCA-LSTM网络。在全局上下文存储器上执行分类。(3) ‘GCA-LSTM network 这个网络结构类似于上面的注意模块被移除。 ‘GCA-LSTM注意力时空步长具体地，“GCA-LSTM网络”使用Eq. （7）更新单元状态，而“网络注意力”使用原始小区状态更新函数（等式（1））。（2）译注。在“GCA-LSTM网络的注意力”中文本表示。我们的实验是基于Torch7框架进行的[8]。随机梯度下降（SGD）算法-.IF（n） =ReLuWF.F（n）IF（n−1）（八）m用于训练我们的端到端网络。我们将学习率、衰减率和动量设置为1。5×10−3，0。95，0。9，分别。应用的脱落概率[42]其中IF（n）是IF（n−1）的改进版本。我们执行多个注意迭代（经常性的atten-在我们的网络中。其动机是，在我们获得细化的全局上下文记忆之后，我们可以再次执行注意力，以更可靠地识别信息关节，然后可以用于进一步细化全局上下文。t.在多次迭代之后，全局上下文对于分类可以更具区分性。学习分类器：最后一个细化的全局上下文存储器IF（N）被馈送到softmax分类器，以产生预测的类标签向量y=：网络是0。五、ST-LSTM的单元状态和全局上下文记忆的维数都是128。在我们的实验中进行了两次注意迭代的第一层是具有信任门的双向ST-LSTM [27]。为了公平比较，我们使用与[27]相同的帧采样程序，其中每个动作序列采样T=20帧。4.1. NTU RGB+D数据集使用Microsoft Kinect（V2）记录NTU RGB+D数据集[35]它包含超过五万六千个1652.y=softmaxWc.ΣΣIF（N）（九）视频样本。该数据集包括60个不同的动作班据我们所知，这是最大的1653j，tj，t用于基于RGB+D的人类活动分析的公共可用数据集。主题和视图的大量变化使得该数据集非常具有挑战性。该数据集有两种标准评估方案：（1）X主题：20个科目用于培训，其余20个科目用于测试;（2）X视图：两个视点用于训练，一个用于测试。为了更广泛地评估所提出的方法，这两个协议在我们的实验中进行了测试。我们将我们的“GCA-LSTM网络”与最先进的方法进行了比较，如表1所示。我们可以发现比使用2次迭代的情况稍差）。在我们的实验中，我们观察到性能下降是由过度拟合（增加迭代次数引入新参数）引起的。值得注意的是，通过使用不同的测试迭代次数（1，2和3）产生的分类由于GPU的内存限制，我们不会尝试更多的迭代表2.NTU RGB+D数据集上不同注意力迭代次数（N）的性能（准确性）比较r（n）在等式中使用（七）、软注意[64，29]，即，计算注意力表示F（nJj=1 ΣTt=1（n）j，t j，t.利用温柔的关注，准确的-在NTU RGB+D上，数据集。这可以解释为为给LSTM神经元配备门r（n）提供了LSTM关于何时更新、忘记或记住的更好洞察。此外，它可以保持输入的顺序信息，而软注意失去顺序和位置信息。4.2. UT Kinect数据集上的实验由于比原始的“ST-LSTM”[27]更好我们还可以发现这可以解释为：尽管它们的结构似乎有一点不同，但它们的基本设计是相同的。它们都使用ST-LSTM来建模时空依赖性，并使用全局信息进行分类。此外，他们都没有外显注意能力。使用NTU RGB+D数据集，我们还测试了不同数量的注意力迭代对我们的“GCA-LSTM网络”的影响，并在表2中显示了结果。我们可以观察到，增加迭代次数可以帮助增强我们网络的分类性能（与仅使用1次迭代相比，使用2次和3次迭代可以获得更高的精度然而，过多的迭代会导致性能下降（使用3次迭代的性能UT-Kinect数据集[62]是使用单个固定Kinect收集的。该数据集中的骨架序列噪声非常大。10名受试者共完成10个动作类，每个动作由同一受试者完成两次。我们遵循[62]中的标准留一交叉验证（LOOCV）协议来评估我们的网络。我们的方法在此数据集上实现了最先进的性能，如表3所示。表3.UT-Kinect数据集上的结果方法精度3D关节直方图[62]百分之九十点九黎曼流形[9]91.5%Grassmann流形[41]百分之八十八点五[50]第50话96.5%[51]第51话百分之九十三点五ST-LSTM[27]97.0%‘ST-LSTM97.0%‘GCA-LSTM network97.5%‘GCA-LSTM百分之九十八作为R我们提出的迭代次数X主题X视图基于网络的方法有很大优势。具体而言是171.9%81.1%‘GCA-LSTM network’ outperforms the ‘GCA-LSTM274.4%82.8%工作注意力3百分之七十二点七81.2%两个协议。这表明注意力机制在我们的网络带来了显着的性能改进-在我们的方法中，t.作为一个门，在LSTM 神经元，如制定方法X主题X视图[12]第十二话百分之三十八点六41.4%李群[49]百分之五十点一52.8%[16]第十六话百分之六十点二65.2%HBRNN[11]59.1%64.0%深度RNN[35]百分之五十六点三64.1%深度LSTM[35]百分之六十点七百分之六十七点三Part-aware LSTM[35]百分之六十二点九百分之七十点三1654点五1655j，t迭代#1迭代#2(1)指着什么东西(2)自拍(3)踢别人图4. NTU RGB+D数据集的定性结果示例。说明了三个动作（指向某个东西，自拍，踢别人）两个注意力迭代的信息量门可视化。每个迭代显示四个帧圆圈大小指示帧中对应关节的信息性门的大小。为了清楚起见，没有示出具有微小信息性门的接头。4.3. SBU Kinect交互数据集实验SBU-Kinect交互数据集[70]包含8个用于双人交互识别的类。该数据集包括282个骨架序列，对应于6822帧。该数据集具有挑战性，因为(1)由Kinect提供的关节位置的相对低的精度，以及（2）在许多序列中两个人之间的复杂交互。4.4. 可视化和讨论为了更好地了解我们的网络，我们分析并可视化通过使用本节中NTU RGB+D数据集上的全局上下文信息学习的信息性得分（r（n））我们分析了两次迭代过程中信息量分数的变化，以验证我们网络中回流注意机制的有效性，并显示了表4. SBU-Kinect交互数据集的结果。LSTM[27]都是基于RNN/LSTM的3D动作识别模型我们可以看到，我们的方法精度我们通过以下方式对该数据集进行5重交叉验证Yun等人[70个国家]80.3%降低标准评价方案[70]。经验-魅力[24]百分之八十三点九初步结果见表4。在此表中，HBRNNJi等人[19个]86.9%[11]、Co-occurrence LSTM[73]、 Deep LSTM[73]和ST-HBRNN[11]80.4%Co-occurrence LSTM[73]百分之九十点四Deep LSTM（由[73]报道）86.0%ST-LSTM[27]百分之九十三点三1656右手左手图5.所有测试样本的平均信息量门的可视化围绕每个关节的圆圈的大小指示相应信息性门的大小。图4中的三个动作（指向某物、自拍和踢别人）的定性结果。信息量分数用软注意力进行归一化以用于可视化。在这个图中，我们可以看到注意力表现在两次注意力迭代之间增加在第一次迭代中，网络试图在帧上找到潜在的信息关节。在这种关注之后，网络实现了对全球行动的良好理解然后在第二次迭代中，网络可以更准确地关注骨架序列的每帧中的信息关节。我们还可以发现，在不同的帧中，同一关节的信息度得分可以不同。这意味着我们的网络不仅在空间域中执行注意，而且在时间域执行注意。为了进一步定量评估我们网络中注意力机制的有效性，我们分析了图4中所有动作中三个动作类的分类准确性。我们发现，如果不涉及注意机制然而，如果我们使用一次注意力迭代，准确率分别上升到72.4%，67.8% 如果执行两次注意迭代，则准确率分别为73.6%、67.9%和86.6%。为了粗略地探索哪些关节对于NTU RGB+D数据集中的活动更具信息性，我们还尝试平均所有测试序列中相同关节的信息性得分，并将其可视化在图5中。我们可以发现，平均而言，更多的注意力分配给手和脚关节。这是因为在NTU RGB+D数据集中，大多数动作都与手和脚的姿势和运动有关我们还可以观察到，右手关节的平均信息得分高于左手关节。这表明大多数受试者是右撇子。5. 结论在本文中，我们扩展了LSTM网络，以实现用于3D动作识别的全局上下文感知注意力 LSTM（ GCA-LSTM）网络，该网络具有在全局上下文信息的辅助下选择性地关注骨架序列的每个帧中的信息关节的能力。我们进一步为我们的GCA-LSTM网络提出了一种循环注意机制，其中选择性聚焦能力得到了迭代增强。实验结果通过在所有评估的基准数据集上实现最先进的性能来验证贡献。确认这项研究是在新加坡南洋理工大学（NTU）的快速丰富对象搜索（ROSE）实验室进行的。ROSE实验室由新加坡国家研究基金会（NationalResearch Foundation，Singapore）在其交互式数字媒体（IDM）战略研究计划下提供支持。这项研究得到了新加坡教育部（MoE）Tier 2 ARC28/14和新加坡A*STAR科学与工程研究委员会PS-F1321202099的部分支持。我们非常感谢NVAITC（N-Vidia AI技术中心）的支持，捐赠特斯拉K40和K80 GPU用于我们在玫瑰实验室的研究。 Jun Liu 要感谢来自南大的 KamilaAbdiyeva、Amir Shahroudy和Bing Shuai，以及阿里巴巴的Peiru Zhu，感谢他们提供了有益的讨论。引用[1] J. K. Aggarwal 和 L. 夏从 3D 数据中识别人类活动 PRLetters，2014.[2] R. Anirudh，P.Turaga，J.Su和A.斯里瓦斯塔瓦。人类行为的弹性功能编码：从向量场到隐变量。CVPR，2015。[3] D. 巴赫达瑙湾Cho和Y.本吉奥。通过联合学习对齐和翻译的神经机器2015年，国际会议。[4] R. Chaudhry，F. Ofli，G.库里略河Bajcsy和R.维达尔仿生动态3d判别骨骼特征用于人体动作识别。载于CVPRW，2013年。[5] C.陈河，巴西-地Jafari和N. Kehtarnavaz。用于人类动作识别的深度、骨架和惯性数据的融合。InICASSP，2016.[6] H. Chen，G.王建- H. Xue和L.他外一种新的人类动作识别层次框架。PR，2016.[7] J. K. Chorowski，D. Bahdanau，D. Serdyuk，K. ch0以及Y.本吉奥。基于注意力的语音识别模型。2015年，在NIPS[8] R. Collobert，K. Kavukcuoglu和C.法拉比特Torch7：类似matlab的机器学习环境。NIPSW，2011年。1657[9] M. Devanne，H. Wannous，S. Berretti，P.帕拉，M。Daou-di和A.德尔·宾博基于黎曼流形上运动轨迹形状分析的三维人体动作识别。 IEEE Transactions onCybernetics，2015。[10] J.多纳休L.安妮亨德里克斯S. 瓜达拉马M. Rohrbach，S. Venugopalan湾Saenko和T. 达雷尔。用于视觉识别和描述的长期递归卷积网络。CVPR，2015。[11] Y.杜，W. Wang和L.王.基于骨架的动作识别的层次递归神经网络。CVPR，2015。[12] G.埃万格尔湾Singh和R.霍罗德骨骼四头肌：使用关节四元组的人类动作识别。载于ICPR，2014年。[13] A. Graves.监督序列标记。用递归神经网络进行监督序列标记。2012年。[14] F.汉湾Reily，W. Hoff和H.张某基于3D骨骼数据的人的时空表示：审查. arXiv，2016.[15] S. Hochreiter和J.施密特胡博长短期记忆。神经计算，1997年。[16] J. - F.胡伟S. Zheng，J. Lai，and J.张某联合学习rgb-d活动识别的异构特征。CVPR，2015。[17] M.易卜拉欣， S 。Muralidharan ， Z.Deng 、 A.Vahdat，以及G.森一种用于群体活动识别的层次深时态模型。在CVPR，2016年。[18] A. 贾恩 A.R. Zamir ， S.Savarese 和 A. 萨克塞纳结构 -rnn：时空图的深度学习。在CVPR，2016年。[19] Y. Ji，G. Ye和H.程交互式人体部位对比度挖掘用于人机交互识别。载于ICMEW，2014年。[20] M. Jiang，J. Kong，G. Bebis和H.霍使用骨架上下文的基于信息关节的人类动作识别信号处理：图像通信，2015年。[21] Q.克，M. Bennamoun，S. An，F. Bossaid和F. Sohel用于人类交互预测的空间、结构和时间特征学习arXiv，2016.[22] P. Koniusz，A. Cherian和F.波里克利基于核线性化的张量表示在三维骨架动作识别中的应用。在ECCV，2016年。[23] A.库马尔河，澳-地Irsoy，P. Ondruska，M. Iyyer，J.Bradbury，I. 古拉贾尼河谷忠河，巴西-地Paulus和R.索彻问我任何事情：用于自然语言处理的动态记忆网络。InICML，2016.[24] W. 利湖，澳-地温，M.Choo Chuah和S.吕分类盲人类动作识别：实用的识别系统。在ICCV，2015年。[25] Y. Li，C.兰，J。邢，W.Zeng C.，中国茶苔属袁和J.刘某基于联合分类回归递归神经网络的在线人体动作检测。在ECCV，2016年。[26] I. Lillo，J. Carlos Niebles，and A.索托一种基于姿态的层次化方法，使用动作小程序和运动姿态的字典来理解复杂动作。在CVPR，2016年。[27] J. Liu，A. Shahroudy，D. Xu和G.王.具有信任门的时空lstm用于三维人体动作识别。在ECCV，2016年。[28] J. Luo，W. Wang和H.气组稀疏和几何约束字典学习用于深度图的动作识别。InICCV，2013.[29] M.- T. Luong，H. Pham和C. D.曼宁基于注意力的神经机器翻译的有效方法。在EMNLP，2015年。[30] S.马湖，加-地Sigal和S. Scaroff用于活动检测和早期检测的lstms中的学习活动进展。在CVPR，2016年。[31] M.孟氏H.德里拉湾Daoudi和J.博纳通过学习物体与骨骼关节之间的距离来识别人与物体的交互. InFG，2015.[32] F.奥夫利河Chaudhry，G.库里略河Vidal和R.巴伊奇信息量最大的关节序列（smij）：一种新的人体骨骼动作识别方法. JVCIR，2014.[33] L. L. Presti和M.拉卡夏基于3D动画的人体动作分类：一个调查。PR，2016.[34] H. Rahmani，A.Mahmood，D.Q. Huynh和A.眠使用深度梯度直方图和随机决策森林的实时动作识别。InWACV，2014.[35] A. Shahroudy，J.刘德铭T. Ng和G.王. Ntu rgb+d：用于3d人类活动分析的大规模数据集。在CVPR，2016年。[36] A. Shahroudy，T. T. Ng，Y. Gong和G.王. rgb+ d视频中用于动作识别的深度多模态特征分析。TPAMI，2017。[37] A. Shahroudy，T.T. Ng，Q.Yang和G.王. 多模态多部分学习用于深度视频中的动作识别。T-PAMI，2016.[38] A. Shahroudy，G.王和T T. Ng. rgb-d序列动作识别的多模态特征融合见ISCCSP，2014年。[39] S.夏尔马河，巴西-地Kiros，和R.萨拉赫季诺夫使用视觉注意力的动作识别。载于ICLRW，2016年。[40] K. Simonyan和A.齐瑟曼。用于视频中动作识别的双流卷积网络。在NIPS，2014。[41] R.斯拉马湾Wannous，M. Daoudi和A.斯里瓦斯塔瓦。在格拉斯曼流形上使用学习的精确三维动作识别PR，2015年。[42] N. Srivastava、G.E. Hinton，A.克里热夫斯基岛Sutskever和R.萨拉赫季诺夫Dropout：防止神经网络过拟合的简单方法。JMLR，2014年。[43] N. Srivastava、E. Mansimov和R.萨拉赫季诺夫使用lstms的视频表示的非监督学习。ICML，2015。[44] M. F. Stoleya，J. Masci，F. Gomez和J.施密特胡博深层网络通过反馈连接进行内部选择性注意在NIPS，2014。[45] S. Sukhbaatar，A. Szlam、J. Weston和R.费格斯。端到端内存网络。2015年，在NIPS[46] M. 松德梅河 Schl ué te r和H. 是的。语言建模的神经网络InINTERSPEECH，2012.[47] L. Tao和R.维达尔移动possible：一种用于动作识别的有区别的和可解释的骨骼运动表示。ICCVW，2015年。1658[48] V. Veeriah，N. Zhuang和G.- J. Qi。用于动作识别的差分递归神经网络。在ICCV，2015年。[49] R. Vemulapalli，F. Arrate，和R.切拉帕以谎言群中的点表示三维骨骼来识别人类行为。CVPR，2014。[50] C.王，J.弗林，Y. Wang和A. L.尤尔。使用动作片段和激活的单纯形识别三维动作。在AAAI，2016。[51] C. Wang，Y. Wang和A. L.尤尔。挖掘3d关键姿势主题用于动作识别。在CVPR，2016年。[52] J. Wang，Z. Liu，Y. Wu，and J. Yuan.使用深度相机挖掘动作识别的actionlet引擎。CVPR，2012。[53] J. Wang，Z. Liu，Y. Wu，and J. Yuan.用于三维人体动作识别的actionlet集成学习。TPAMI，2014年。[54] J.Wang和Y.吴学习最大间隔时间翘曲的动作识别。InICCV，2013.[55] P. Wang，W.Li，Z.Gao，Y.Zhang C.，中国古猿科Tang和P.奥贡博纳场景流到动作贴图：基于rgb-d的卷积神经网络动作识别新表示。在CVPR，2017年。[56] P. Wang，W.李，P.奥贡博纳角Gao和H.张某基

下载后可阅读完整内容，剩余1页未读，立即下载