基于双流递归神经网络的动作时间动态和空间动态建模

190 浏览量更新于2023-10-15 收藏 932KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

499基于双流递归神经网络的动作时间动态和空间动态建模王洪松1，3王良1，2，31智能感知与计算研究中心（CRIPAC），模式识别国家重点实验室（NLPR）2中国科学院自动化研究所脑科学与智能技术卓越中心（CEBSIT）3中国科学院大学（UCAS）{hongsong.wang，wangliang}@ nlpr.ia.ac.cn摘要最近，基于骨架的动作识别由于具有成本效益的深度传感器与实时骨架估计算法相结合而越来越受欢迎。传统的基于手工特征的方法仅限于表示运动模式的复杂性。最近的方法，使用递归神经网络（RNN）来处理原始骨架只专注于上下文的依赖关系在时间域，而忽略了空间配置的关节骨架。在本文中，我们提出了一种新的双流RNN架构的时间动力学和空间配置建模骨架为基础的动作识别。我们探讨了两种不同的结构的temporal流：堆叠RNN和分层RNN。层次RNN是根据人体运动学原理设计的。我们还提出了两种有效的方法来建立空间结构模型，通过将空间图转换为关节序列。为了提高模型的泛化能力，我们进一步利用基于3D变换的数据增强技术，包括旋转和缩放变换，以在训练过程中变换骨架的3D坐标在3D动作识别基准数据集上的实验一般动作、交互活动和手势。1. 介绍人类动作识别[2]已经成为计算机视觉中的一个活跃领域，并且存在许多重要的研究问题，例如事件识别[23]，基于组的活动识别[27]，人类对象交互[15]和以自我为中心的视频中的活动[29，11]。大多数方法已经被提出来识别RGB视频中的动作图1.一种用于基于骨架的动作识别的双流RNN架构这里Softmax表示具有softmax激活函数的全连接层。由2D摄像机拍摄。然而，由于三个原因，它仍然是一个挑战性的问题。首先，很难从高维低质量的输入数据中很好地提取有用的信息。第二，RGB视频对一些因素如光照变化、遮挡和背景杂波高度敏感。第三，动作的识别与高级视觉线索有关，如人体姿势和物体，这些都很难直接从RGB视频中获得。人类可以通过描述骨架主要关节运动的几个点来识别动作[24]，并且实验表明可以仅从骨架中识别大量动作[25]。与基于RGB的动作识别相比，基于骨架的动作识别可以避免从视频中提取特征的可怕任务，并显式地对动作的动态进行建模。有三种方法可以获得骨骼：运动捕捉系统、RGB图像和深度图。复杂的运动捕捉系统非常昂贵，并且需要用户穿戴具有标记的动捕从单眼RGB图像或视频中提取可靠的骨架，即，姿态估计仍然是一个未解决的问题。幸运的是，随着最近价格合理的深度传感器的出现，从深度图中获取3D骨架变得更加容易和便宜。例如，射击-关节时间RNNRNN时间空间RNNRNNSoftmaxRNN评分SoftmaxRNN关节时间500ton等人[38]提出了一种从单个深度图像快速准确地预测身体关节的3D位置的方法。这些进展激发了人们对基于电子音的动作识别的极大兴趣，并提出了各种各样的算法.传统的基于骨架的动作识别方法主要分为两类：基于关节的方法和基于身体部位的方法。基于关节的方法将人体骨骼视为一组点，并使用各种基于位置的特征，如关节位置[20，31]和成对相对关节位置[46，51]来表征动作。而基于身体部位的方法将人体骨骼看作是一组相连的线段，然后将重点放在单个或相连的身体部位对上[50]和关节角度[33]。基于手工制作的低级特征，两种方法都采用相对简单的时间序列模型，例如，隐马尔可夫模型[47，49]，以识别动作。然而，人类工程特征仅限于表示动作的内在特征的复杂性，并且随后的时间序列模型不能释放序列数据的全部潜力。受深度学习在基于RG-B的动作识别中取得巨大成功的启发[39，26，21]，使用深度神经网络进行基于骨架的动作识别的趋势正在增长。递归神经网络（RNN）的不同结构，例如，分层RNN [7]，具有正则化的RNN[55]，差分RNN [43]和部分感知的长短期记忆（LSTM）[37]已被用于从原始骨架中学习运动表示。然而，考虑到动作是由关节连接的铰接刚性段的连续演变[54]，这些基于RNN的方法仅通过连接每个帧的骨架来对时域中的上下文信息进行建模。事实上，不同的动作是由不同的空间结构的骨骼关节空间域的依赖性也反映了动作的特征，在基于骨架的动作识别中不能忽视。为此，我们引入了一种新的双流RNN体系结构，它结合了空间和时间网络的作品骨架为基础的动作识别。图1显示了我们方法的流水线时间流使用基于RN-N的模型来从不同时间步长处的关节的坐标学习时间动态我们采用两种不同的RNN模型，堆叠RNN和层次RNN。与层叠式RNN相比，层次式RNN是根据人体运动学设计的，参数较少。同时，空间流学习关节的空间依赖性。我们提出了一种简单有效的空间结构建模方法，该方法首先将关节骨架的空间图转换为关节序列，然后将所得序列馈送到RNN结构中。探讨了将图结构转化为为了更好地保持空间关系的目的而进行的序列。然后通过后期融合将这两个通道组合起来，整个网络是端到端可训练的。最后，为了避免过拟合和提高泛化能力，我们利用数据增强技术，通过使用3D变换，即，旋转变换、缩放变换和剪切变换，以在训练期间变换骨骼的3D坐标本文的主要贡献如下.首先，我们提出了一个双流RNN架构，利用空间和时间的骨架关节的关系。其次，我们利用和比较这两个流的不同架构。第三，我们提出了基于三维变换的数据增强技术，并证明了基于骨架的动作识别的有效性最后，我们的方法在三个重要的基准上获得了最先进的结果，用于各种动作，即，通用动作（NTU RGB+D）、交互活动（SBUInteraction）和手势（ChaLearn）。2. 相关工作在本节中，我们简要回顾与我们相关的动作识别方法。这两个方面如下。2.1. 深度网络的动作识别深度神经网络在动作识别领域取得了很大进展。提出了3D卷积神经网络（CNN），并研究了不同的架构以利用局部时空信息[26，21]。为了捕获外观和运动之间的互补信息，开发了一种双流CNN架构，用于基于RGB的动作识别[39]。最近，递归神经网络（RNN）已被广泛用于动作识别。Srivastava等人[40]使用多层长短期记忆（LSTM）网络来学习视频序列的表示Donahue等人[4] 开发一个端到端可训练的长期递归卷积网络（LRCN）架构，它可以同时从RGB视频中学习时间动态和卷积感知表示。深度卷积和递归神经网络也被提出并应用于活动识别[34，19]。在我们的工作之前，已经提出了几种基于RNN的基于骨架的动作识别模型。Du等 [7，6]首先设计一个端到端层次化RN，N架构的骨架为基础的行动识别。Zhu等人。[55]提出了一个具有正则化项的完全连接的深度LSTM网络，以学习关节的同现特征Veeriah等人[43]提出了差分RNN，通过对随时间演变的状态动态进行建模来扩展LSTM结构。Shahroudy等人[37]提出LSTM的部分感知扩展，以利用物理结构501Softmax人体的这些方法只考虑了关节骨架的时域运动动力学，而忽略了关节骨架的空间构型最近，Liu等人。[30]将LSTM扩展到时空域，以建模关节之间的依赖关系。由于时间动态和空间配置是独立的视觉路径[14]，因此我们采用双流架构对其进行相应的建模。2.2. 基于骨架的特征序列RNNXtRNN(a)序列的RNN分类.xtxthtXt(b) LSTM神经元以前的基于骨架的动作识别方法主要集中在手工特征[1]。为了获得姿势的表示，一个简单的特征是成对的关节位置差异，它可以简单地连接[32]，或者投射到3D锥箱中以构建3D关节位置的直方图[49]用于动作识别。关节方向是另一个很好的特点，因为它是invari-图2.（a）用于序列分类的双层堆叠RNN(b)一个带有输入、输出和遗忘门的LSTM块[17]。在很长的时间跨度内存储和访问信息图2（b）描绘了一个LSTM单元：it=σ（Wxixt+Whiht−1+Wcict−1+bi）ft=σ（Wxfxt+Whfht−1+Wcfct−1+bf）蚂蚁的体型。例如，Sempena et al.[36]应用动态时间扭曲的基础上建立的特征向量从关节方向沿时间序列。 Bloom等人[3]使用AdaBoost组合五种类型的特征，ct=ftct−1+ittanh（Wxcxt+Whcht−1+bc）ot=σ（Wxoxt+Whoht−1+Wcoct+bo）ht=ot tanh（ct）（一）也就是说，成对关节位置差、关节速度、速度大小、关节角速度和3D关节角来识别游戏动作，用于实时动作识别。有一些工作是将骨架的关节分组以从关节构造平面，然后测量关节到平面的距离和运动。Yun等人[53]捕获了关节与由三个关节平移的平面之间的几何关系。Sung等人。[41]计算关节人躯干和关节旋转运动作为特征。3. RNN概述与从一个输入向量/矩阵映射到一个输出向量/矩阵的前馈神经网络不同，递归神经网络（RNN）将输入序列X映射到另一个输出序列Y。RNN架构自然适用于序列分类，其中每个输入序列都分配有一个类。通过将前一层的输出序列视为当前层的输入序列，可以堆叠RNN的层以构建深度RNN。用于序列分类的RNN的典型结构如图2（a）所示，其中包含一个RNN层堆栈，最后一个隐藏层上有一个softmax分类层由于梯度消失和错误爆破问题[16]，标准RNN无法长时间存储信息或访问长范围的上下文。长短期记忆（LSTM）[17]通过使用额外的门来确定输入何时足够重要以记住，何时应该继续记住或忘记值，以及何时应该输出值来解决这个LSTM单元已被证明能够其中i、f、o分别对应于输入门、遗忘门和输出门。所有矩阵W是连接权重，所有变量b是偏差。4. 双流RNN骨架的序列决定了动作的演化，动作具有时空结构。空间结构显示关节的图像形式，而时间结构跟踪并表示关节的运动。因此，我们设计了一个基于RNN的端到端双流架构，如图1所示。在这里，通过组合来自两个网络的softmax类后验来执行融合。4.1. 时间RNN我们首先描述RNN的时间通道，它对骨架的时间动态进行与之前的工作类似[7，55，43，37]，它在每个时间步连接不同关节的3D坐标，并使用RNN架构处理生成的序列。我们主要关注以下两种模型结构。堆叠RNN。该结构在每个时间步向RNN网络提供所有关节的级联坐标。在这里，我们堆叠了两层RNN，发现添加更多层将不会显著地改善性能。由于骨架序列的长度相对较长（例如，50 × 200），我们对所有层采用LSTM神经元。虽然简单，但堆叠RNN已被广泛用于处理和识别可变长度的序列。分层RNN。人体骨骼可以分为五部分，即，两条胳膊，两条腿和一个躯干我们观察到，一个行动是由一个独立的InputgateitOutputgateot细胞Ct反馈ft遗忘门502RNNRNN347RNN5RNN16151719RNNRNN911级联1个序列。我们在下面提供了两种替代方法1012链序列。我们假设关节排列成2、手臂、躯干和腿的链状序列。13躯干放在中间，因为它连接两个手臂-20多岁，腿。例如，MSR123D数据集在图第4（b）段。链序列保持物理连接，14每个身体部位（手臂、躯干和腿）的18个关节，以及6.关节按顺序放置，不重复。一缺点之一是，图3.用于基于骨架的动作识别的分层RNN部分或几个部分的组合例如，踢取决于腿，跑步涉及腿和手臂。因此，RNN的层次结构用于对不同部位以及整个身体的运动进行建模。图3显示了拟议的结构。为了与堆叠的RNN结构保持一致，我们的分层RNN也有两个垂直层。在第一层中，我们使用相应的RNN来基于每个时间步处关节的级联坐标来建模每个身体部位的时间运动。在第二层中，我们将不同部分的RNN的输出连接起来，并采用另一个RNN来建模整个身体的运动与[7]中开创性的层次结构相比，我们的结构更加简洁和直接，并且在具有softmax激活的逻辑回归分类器之前没有使用额外的与叠层结构相比，层次结构具有相对较少的参数，并且不太可能过拟合。4.2. 空间RNN人体可以看作是由多个刚性节段通过关节连接而成的铰接系统。以MSR Ac-tion 3D数据集[28]为例，20个关节的物理结构由图4（a）中的无向图表示节点表示关节，边缘表示物理连接。当一个动作发生时，这个无向图显示出一些不同的空间结构模式例如，拍手是用两个手掌的关节撞击在一起，弯曲是当躯干的关节形成曲线时。为了对关节的空间依赖性进行建模，我们将图结构转换为关节序列，并准确地开发了相关的RNN架构。RNN archi的输入-手、躯干和腿之间关节的边界。例如，索引为13的关节不与索引为20的关节连接。但在生成的链状序列中，这两个关节是相邻的。Traffic序列。针对链序列的局限性，提出了一种基于邻接关系的图遍历方法，部分受基于树结构的遍历方法的启发[30]。如图4（c）所示，我们首先选择中央脊柱关节作为起点，并访问左臂的关节。当到达终点时，它会返回。然后，我们参观右臂，上躯干等。在访问所有关节后，它最终返回起点。我们根据访问顺序将图排列成一个关节序列。遍历序列通过在正向和反向两个方向上访问大多数关节两次来保证图中的空间关系。与时间RNN不同，空间RNN可以通过一帧的一瞥（当时间窗口大小为1时）识别动作。这里，我们不使用基于身体部位的层次结构，因为关节的数量是有限的（例如，25对于NTU RGB+D数据集）。4.3. 骨架的3D转换对于基于骨架的动作识别，输入数据是关节的序列3D坐标。由于一维神经网络需要大量的数据来提高泛化能力和防止过拟合，我们利用了几种基于三维变换的数据增强请注意，3D变换技术仅在训练期间使用。轮换。根据欧拉旋转定理，任何三维旋转都可以表示为绕三个轴的旋转的合成。三个基本的旋转矩阵以逆时针方向围绕x，y，z轴旋转角度α，β，γ表示，方向表示如下：每一步的结构对应于某个关节的坐标矢量由于关节只有三个坐标，因此我们选择以时间步长为中心的时间窗口，并将该窗口内的坐标连接起来以表示1 0 0Rx（α）=100 cosα−sinα0 sinαcosα中国（2）2013 2810947511136141516181719Softmax8这个关节。这种RNN架构对空间关系进行建模，cosβ0sinβ图结构中的关节连接，称为空间Ry（β）=010（三）5031202328191041175631416181517191108122034729115 614 1516171819cosγ−sinγ0Rz（γ）= sinγcosγ0π（4）0 0 1121312 1313一般旋转可以通过矩阵乘法从这三个基本旋转矩阵中获得：R=Rz（γ）Ry（β）Rx（α）（5）(a) 关节的无向(b) 关节的链式(c) 关节的运动其中R是3D坐标系中的通用旋转矩阵。对于关节的3D坐标，我们在x，y轴的一定范围内随机旋转输入骨骼序列，因为相机的旋转平面与z轴正交。旋转变换模拟了摄像机的视点变化，提高了模型在交叉视图实验环境中的鲁棒性。我们发现最近的工作[6]也使用了旋转变换的跨视图识别的行动。缩放。缩放变换用于改变骨架的大小。变换矩阵可以用公式表示图4. (a)20个关节的物理结构。(b)将关节图形转换为序列。首先是手臂关节，然后是身体关节，最后是腿关节。 (c)使用遍历方法将关节图转换为序列。序列的顺序与箭头的访问顺序相同。上千个序列和4百万帧，在各种背景条件下捕获。该数据集有60个常见的动作类，包括日常，相互和健康相关的动作。这些动作是由40个不同的人类受试者执行的，他们的年龄范围从10岁到35岁。受试者和视图的众多变化以及大量样本如：S=sx0 00sy 00 0sz中文（简体）使其非常适合深度学习方法。我们遵循跨学科和跨视图评估[37]，并以百分比报告分类准确性。SBU交互数据集。这是一个复杂的人类活动-其中sx、sy、sz分别是比例因子以及三个轴。缩放变换可以通过使用随机缩放因子来扩展或压缩骨架的维度。由于不同的动作表演者有不同的身高和体型，他们的骨骼尺寸可能会有所不同。因此，标度变换对于跨学科实验设置是有益的。切变剪切变换是一个线性映射，它在固定的方向上移动每个点。它使关节坐标的形状倾斜，并改变它们之间的角度。变换矩阵可以表示如下：描述两个人交互的ity数据集，Kinect每个骨架有15个关节。它包括6822帧中的282个音调序列所有视频均在相同的实验室环境中记录，由7名参与者进行8项活动该数据集非常具有挑战性，因为交互是非周期性的，并且具有非常相似的身体运动。在5折交叉验证[53]之后，我们将该数据集的21个集合分成5折，并给出平均识别准确度。ChaLearn手势识别数据集。该数据集包含由27个不同的人执行的20个意大利手势有23小时的Kinect数据，包括RGB，深度，前景分割和骨架。数据集1shy公司简介共有955个视频。每个视频持续1至2分钟，X xx包含8到20个不连续的手势。在这里，我们只使用Sh=上海市徐汇区（七）用于手势识别的x yy骨架。如文献shzshz其中shy、shz、shx、shz、shx、shy是剪切因子。[9，12]，我们报告了验证集上的精确度，召回率和F1分数测量。x x y y z5. 实验在三个数据集上评估所提出的模型：N-TU RGB+D数据集[37]、SBU交互数据集[53]和ChaLearn手势识别数据集[9，8]。5.1. 数据集NTU RGB+D数据集。目前，这是最大的基于深度的动作识别数据集，提供了Kincet v2收集的25个关节它包含超过56个5.2. 实现细节我们通过减去中心连接- t来规范化骨架，中心连接-t是髋中心、髋左和髋右的3D坐标的平均值。通过采样和零填充将序列转换为固定长度T，T应大于大多数序列的长度，以减少采样造成的信息损失。NTU RGB+D数据集有一个变量（一个或两个）执行动作的人。对于两个人的样本，我们每次只处理一个序列，20132810479115 6141618151719504求两人预测得分的平均值。我们为这个数据集设置T=100，因为大多数序列的长度小于100。对于SBU交互数据集，其中一对骨架表示两个人的交互，我们在每个时间步连接每个关节的两个3D坐标，并将其视为一个6D坐标序列。我们为该数据集设置归一化序列长度T=35。对于ChaLearn手势识别数据集，我们设置T=50。对于NTU RGB+D数据集，堆叠RNN的每层的s是512。对于分层RNN，身体部分和w孔体的神经元的数量分别为128和512。对于ChaLearn手势识别数据集，网络结构与NTU RGB+D数据集相同。与上述两个数据集相比，SBU Interaction数据集的训练样本数量较少，序列长度较短。因此，我们将时间RNN的堆叠RNN的神经元数量减少到256，并将身体部分和全身的神经元数量分别设置为64和对于所有数据集，空间RNN的结构与时间RNN的堆叠RNN我们采用LSTM神经元用于所有层，因为它在序列识别方面表现出色。为了证明双流RN-N的有效性，我们简单地采用堆叠RNN用于时间信道和链式序列用于空间信道。时间RNN的预测得分的权重为0.9，空间RNN的时间窗口大小为固定长度T的1/4，两者都是通过交叉验证确定该网络使用随机梯度下降进行训练。学习率从0.02开始，在训练过程中每60个epoch乘以0.7。该实现基于Theano [42]和Lasagne1。使用一个NVIDIA TITAN XGPU来运行所有实验。5.3. 实验结果模型之间的比较。我们的双流RNN在三个数据集上的综合结果如表1所示。我们可以看到，双流RNN一致优于单独的时间RNN和空间RNN，这证实了空间和时间通道都是有效的和互补的。此外，对于两个活动识别数据集，三维变换技术带来了显着的性能提高骨架为基础的识别，特别是跨视图评估。例如，在NTURGB+D数据集上，具有3D变换的双流RNN比没有3D变换的双流RNN的性能高7。8%的交叉视图评价，远高于优于值2。7%用于跨学科评估。解释很简单，旋转变换从不同的视图随机生成新的骨架，从而使我们的双流RNN1https://github.com/Lasagne/Lasagne对视点变化的鲁棒性。一般来说，时间RNN的结果比空间RNN的结果好得多这一观察结果与大多数先前基于RNN的方法采用时间RNN来识别动作的事实是一致的对于时间RNN，层次结构通常比堆叠结构性能更好。例如，在N-TURGB+D数据集上，分层RNN的性能平均优于堆叠RNN对于空间RNN，遍历序列的结果优于链序列的结果，因为遍历方法通过在正向和反向两个方向上访问大多数关节来保持图结构的更好的空间关系。结构之间的比较。在第5.2节中，我们手动定义了堆叠RNN和递归RNN的结构。在这里，我们经验性地研究了堆叠层数和每层神经元数量对性能的影响。由于篇幅有限，我们仅在表2中通过交叉视图协议给出了NTURGB+D数据集的结果。对于堆叠RNN，我们观察到两个堆叠层（R512-512 ）的性能优于一个层（ R512 ），三个堆叠层（R512-512-512）的性能甚至优于两个堆叠层。对于RNN层的神经元数量，将其减少到256（R256-256）会降低精度，将其增加到1024（R1024-1024）并不一定会改善结果。由于增加更多的层和增加隐藏的神经元会导致更多的参数，增加我们模型的计算复杂度，我们采用R512- 512作为堆栈RNN的默认结构。对于分层RNN，为部分（P128-128，B512）使用两个堆叠的RNN层，并将部分的神经元数量从128增加到256（P256，B512），以提高性能。通过增加局部和全身神经元的数量，可以进一步提高准确性（P256，B1024）。为了与层叠结构（R512-512）进行公平的比较并降低计算成本，我们保持了两层结构，并选择128作为部分神经元的数量，这是整个身体神经元数量的四分之一。5.4. 双流RNN与时态RNN由于以前的基于RNN的方法只使用时间RNN，在这里，我们的目标是显示我们的双流RNN优于时间RNN。我们在图6中的SBU Interaction数据集上绘制并比较了我们的双流RNN和时间RNN的混淆矩阵我们可以观察到，时间RNN有三对错误分类的动作，但我们的双流RNN只有此外，对于推送，样本被时间RNN错误分类为打孔，而我们的双流RNN可以正确识别所有样本。505表1.双流RNN在三个数据集上的综合评估结果信道（%）NTU RGB+DSBU互动ChaLearn手势交叉学科截面视图精度召回F1得分时间RNN堆叠66.168.989.089.589.689.5分层67.870.590.289.889.989.7空间RNN链53.758.982.281.982.181.9遍历55.260.586.684.084.284.0双流RNN无变换68.671.791.991.391.391.33D变换71.379.594.891.791.891.710.90.80.70.60.50.40.30.2图5. NTU RGB+D数据集上每个操作的准确性。表2.网络结构的实证研究。对于堆叠的RN-N，R512-512表示具有512个隐藏神经元的RNN的两个堆叠层。类似地，R1024表示具有1024个隐藏神经元的RNN层。对于分层RNN，P128-128，B512表示两个堆叠的RNN层，其中128个隐藏神经元用于身体部位，一个RNN层具有512个隐藏神经元用于整个身体。其他符号也是如此堆栈RNN和层次RNN的默认结构分别是R512-512和P128，B512(a) 时间RNN（a）双流RNN我们还描述了每个动作的准确性。图5显示了NTURGB+D数据集的跨学科评估结果。对于大多数动作，我们的双流RNN的准确性例如，对于刷牙，摇头和向前走，双流RNN的准确性比时间RNN高出8%5.5. 参数敏感性在本节中，我们将评估参数对性能的影响。我们的双流RNN有两个参数-图6. SBU Interaction数据集上混淆矩阵的比较。s，即，空间信道的时间窗口的大小和时间信道的权重，分别由λ和τ表示。图7显示了SBU交互数据集的评估结果。应该注意的是，其他数据集也观察到类似的结果。图7（a）显示了双流RNNw.r.t.参数λ，λ∈ {0，0. 1，· · ·，0. 9，1}。我们可以看到当λ =0时达到最佳性能。8或λ=0。9 .第九条。当λ<0. 8，精度随λ值的减小而降低。最佳结果远高于λ∈{0，1}的两个极值点，这两个极值点分别对应于空间和时间RNN。我们选择τ∈ {1，3，5，···，T}并绘制精度时间RNN双流RNN喝水吃饭刷牙梳头落下拾起投掷坐着站着鼓掌阅读写作撕纸穿夹克脱夹克穿鞋脱鞋戴眼镜摘眼镜戴帽子摘帽子振作起来挥手踢东西放在口袋跳频跳跃式接听电话用手指点打电话式键盘自拍检查时间搓手点头摇头擦脸敬礼合掌交叉双手打喷嚏蹒跚下落触摸头摸胸摸背摸脖子恶心用扇子打踢人推人拍人指人拥抱给予一些东西摸他的口袋握手走向走向走分开堆叠RNN层次RNNR512-512型68.9P128、B51270.5电话：0512 -512-51269.2P128-128，B51271.4R51268.6P256、B51271.4R1024-1024型68.9P128，B102470.6R256-256型68.2P256，B102472.250694929088860 0.2 0.40.6 0.818886848280780 5101520253035表3.在NTU RGB+D数据集上将所提出的方法与最先进的方法进行比较。（a）时间RNN的权重（b）时间窗口大小图 7.SBU 交互数据集的参数敏感性分析这里 0≤λ≤1 和1≤τ≤T，其中T= 35是预处理后的序列长度。图7（b）中的空间RNN。我们发现，当5≤τ≤17时，即，当T/7≤τ≤T/2时，时间RNN得到的结果最好。当τ不在这个范围范围我们的结论是，我们的结果是不敏感的τ在很宽的范围内。5.6. 与最新技术我们将我们的双流RNN方法与文献中的最新方法进行了比较。表3显示了NTU RGB+D数据集的结果。我们首先将我们的方法与三种传统方法进行比较，即，李群中的3D骨架表示[44]，四元组的Fisher矢量编码[10]和FTP动态[18]。我们观察到我们的性能明显更高，这表明深度学习方法优于基于手工特征的方法。然后将我们的方法与其他基于RNN的深度学习方法进行了比较我们的结果比 HBRNN[7] 和 Part-awareLSTM[37]的报告结果要好得多，这两种方法都只对动作的时间动态进行建模。此外，我们的方法比具有信任门的最新时空LSTM [30]的性能高出2。1%和1. 8%，分别为跨学科评价和跨视图评价。SBU相互作用数据集的结果见表4。我们的结果是7。比基于手工特征的最佳结果高9%此外，我们的方法优于最近的基于RNN的方法，优于现有的最佳结果1。百分之五这个实验表明，我们的双流RNN模型可以很好地识别两个人进行的交互Chalearn手势识别数据集的结果总结在表5中。在这里，我们的双流RNN仅与仅基于骨架的方法进行比较-S.对于精确度，召回率和F1分数，我们的方法产生了最先进的性能，比最近提出的VideoDarwin [12]高出16%以上。6. 结论在本文中，我们提出了一个端到端的双流RNN架构的骨架为基础的动作识别，与时间流建模的时间动态和空间流处理的空间配置。表4.所提出的方法与SBU交互数据集上的最新方法的比较。方法精度[53]第五十三话80.3[22]第二十二话86.9HBRNN [7]80.4深度LSTM [55]86.0Co-occurrence LSTM [55]90.4Trust Gate ST-LSTM [30]93.3双流RNN94.8表5.在ChaLearn手势识别数据集上将所提出的方法与最先进的方法进行比较。方法精度召回F1得分[48]第四十八话59.959.359.6[52]第五十二话––56.0[35]第三十五话61.262.361.7[45]第四十五话74.975.674.6CNN for Skeleton [5]91.291.391.2视频达尔文[12]75.375.175.2双流RNN91.791.891.7我们探索了两种结构来模拟时间流的骨骼关节序列对于空间流，我们还设计了两种方法将骨架结构转换此外，为了提高基于深度学习的方法的泛化能力并防止过拟合，我们采用旋转变换、缩放变换和剪切变换作为基于骨架的3D变换的数据增强技术。我们的实验表明，双流RNN在通用动作（NTU RGB+D）、交互活动（SBU Interac- tion）和手势（ChaLearn）的数据集上优于现有的基于骨架的方法。在未来，我们将考虑学习空间通道的结构模式，并进一步改善结果。确认本课题得到了国家重点研究发展计划（ 2016YFB1001000 ）、国家自然科学基金（61525306、61633021、61420106015）和北京市自然科学基金（4162058）的联合资助这项工作也得到了英伟达和英伟达DGX-1人工智能超级计算机的资助。准确度（%）准确度（%）方法交叉学科截面视图李群[44]50.152.8[10]第十届全国人大代表38.641.4[18]第十八话60.265.2HBRNN [7]59.164.0Part-aware LSTM [37]62.970.3Trust Gate ST-LSTM[30]69.277.7507引用[1] J. K. Aggarwal和X.陆从3D数据识别人类活动：审查. 模式识别快报，2014年。[2] J. K. Aggarwal和M. S.亮人类活动分析：审查. ACM计算调查（CSUR），2011年。[3] V. Bloom，D. Makris和V.阿吉瑞欧G3d：游戏动作数据集和实时动作识别评估框架。CVPR研讨会。IEEE，2012。[4] 多纳休湖A. Hendricks，S. Guadarrama，M. 罗尔巴赫S. Venugopalan湾Saenko和T.达雷尔。用于视觉识别和描述的长期在CVPR中。IEEE，2015年。[5] Y. 杜，Y.Fu和L.王. 基于卷积神经网络的骨架动作在ACPR。IEEE，2015年。[6] Y.杜，Y. Fu和L.王.基于时间的动作识别的时间动态表示学习IEEE Transactions on Image Processing，2016。[7] Y.杜，W. Wang和L.王.基于骨架的动作识别的层次递归神经网络。在CVPR中。IEEE，2015年。[8] S. Escalera，X. Ba ro'，J. 冈萨雷斯，M。A. Bauti s ta，M. Mada-di ， M.是的，维。庞塞 - 洛佩斯。J.Escalante ，J. Shotton和我Guyon Chalearn查看2014年的人员挑战：数据集和结果。在ECCV车间。Springer，2014.[9] S. Escalera，J. Gonzalez，X. Baro，M. Reyes，O. 洛佩斯I. 居永河谷Athitsos和H.J. 埃斯卡兰特2013年多模态几何识别挑战赛：数据集和结果。在IC- MI。ACM，2013年。[10] G.埃万格尔湾Singh和R.霍罗德骨骼四头肌：使用关节四元组的人类动作识别。在国际公民权利委员会。IEEE，2014。[11] A. Fathi，Y. Li和J. Rehg.学习使用凝视识别日常行为。ECCV，2012年。[12] B. Fernando，E. Gavves，M. J. Oramas，A. Ghodrati，以及T. Tuytelaars为动作识别建模视频演变。在CVPR中。IEEE，2015年。[13] F. A.格斯湾N. Schraudolph和J.施密特胡博用lstm递归网络学习精确的时间。机器学习研究杂志，2002年。[14] M. A. Goodale和A. D.米尔纳感知和行动的视觉路径分开。神经科学趋势，1992年。[15] A. 古普塔A。Kembhavi和L.S. 戴维斯观察人与物体的相互作用：利用空间和功能的兼容性进行识别。TPAMI，2009年。[16] S. Hochreiter，Y. Bengio，P. Frasconi，and J.施密特胡博循环网络中的梯度流：学习长期依赖的困难。动态递归神经网络现场指南。IEEE Press，2001.[17] S. Hochreiter和J.施密特胡博长短期记忆。神经计算，1997年。[18] J. - F.胡伟S. Zheng，J. Lai，and J.张某联合学习rgb-d活动识别的异构特征。在CVPR中。IEEE，2015年。[19] Y.黄，W. Wang和L.王.用于多帧超分辨率的双向递归卷积网络。2015年，在NIPS[20] M. E. 侯赛因M.托尔基湾A. Gowayyed和M.艾尔萨班基于三维关节位置协方差描述子时间层次的人体动作识别。InIJCAI，2013.[21] S.吉，W. Xu，M. Yang和K. Yu.用于人类动作识别的3D卷积神经网络。TPAMI，2013年。[22] Y. Ji，G. Ye和H.程交互式人体部位对比度挖掘用于人机交互识别。在ICME工作室。IEEE，2014。[23] Y.-- G. Jiang，S. Bhattacharya，S.- F. Chang和M. Shah.无约束视频中的高级事件识别。I-JMIR，2013年。[24] G.约翰森生物运动的视觉感知及其分析模型。感知心理物理学，1973年。[25] G.约翰森视觉运动知觉。科学美国，1975年。[26] A. Karpathy，G.Toderici、S.Shetty，T.良河，巴西-地Sukthankar和L.飞飞用卷积神经网络进行大规模视频分类。在CVPR中。IEEE，2014。[27] T.兰岛，澳-地Wang，W. Yang和G.森超越行动- s：情境群体活动的判别模型。在NIPS，2010年。[28] W. Li，Z. zhang和Z.刘某基于一袋三维点的动作识别。CVPR研讨会。IEEE，2010。[29] Y. Li，Z.Ye和J.M. 瑞格深入研究自我中心的行为。在CVPR中。IEEE，2015年。[30] J. Liu，A. Shahroudy，D. Xu和G.王.具有信任门的时空lstm用于三维人体动作识别。在ECCV。施普林格，2016年。[31] F. Lv和R.奈瓦提亚基于hmm和多类adaboost的三维人体动作识别与分割。在EC- CV中。Springer，2006年。[32] S. Z. 马苏德角Ellis，A.纳加拉贾湾F. Tappen，J.J. LaVi-ola和R.苏克坦卡在识别动作时测量和减少观察延迟在ICCV研讨会上。IEEE，2011年。[33] E. On-Bar和M.特里维迪用于动作识别的关节角度相似性和hog2。CVPR研讨会。IEEE，2013。[34] F. J. 或者是Do'n Bleez和D。罗根用于多模态可穿戴活动识别的深度卷积和lstmSensors，2016.[35] T. Pfister，J. Charles，and A.齐瑟曼。手势的域自适应判别式一次性学习。在ECCV。Springer，2014.[36] S.森佩纳湾联合Maulidevi和P. R.雅利安人使用动态时间规整的人体动作识别。在冰岛。IEEE，2011年。[37] A. Shahroudy，J.刘德铭T. Ng和G.王. Ntu rgb+ d：用于3d人类活动分析的大规模数据集。在CVPR中。IEEE，2016.[38] J. Shotton，T. Sharp，A. Kipman，A. Fitzgibbon，M.Finoc-chio，A.布莱克M. Cook和R.摩尔从单个深度图像

下载后可阅读完整内容，剩余1页未读，立即下载