基于点云的PointLSTM手势识别

157 浏览量更新于2023-10-25 收藏 856KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5761基于点云的高效PointLSTM手势识别闵悦聪1，2，张艳晓1，2，柴秀娟3，陈西林1，21中国科学院智能信息处理重点实验室，中国科学院计算技术研究所，北京，1001902中国科学院大学，北京，1000493中国农业科学院农业信息研究所，北京，100081{yuecong.min，yanxiao.zhang}@ vipl.ict.ac.cn，chaixiujuan@caas.cn，xlchen@ict.ac.cn摘要点云包含丰富的空间信息，为手势识别提供了补充线索。在本文中，我们将手势识别描述为不规则序列识别问题，旨在捕获点云序列之间的长期空间相关性。提出了一种新颖有效的PointLSTM，在保持空间结构的同时将所提出的PointLSTM将过去相邻点的状态信息与当前特征相结合，通过权重共享的LSTM层更新当前状态。该方法可以集成到许多其他序列学习方法中。在手势识别任务中，所提出的PointLSTM在两个具有挑战性的数据集（NVGesture和SHREC'17）上实现了最先进的结果为了显示其在泛化方面的优势，我们在MSR Action3D数据集上评估了我们的方法，并且它与以前的基于骨架的方法产生了竞争结果。1. 介绍基于视觉的手势识别[37]是计算机视觉中一个经过充分研究但具有挑战性的问题，在人机交互中具有相当大的潜在应用有效地从序列数据中提取时空特征是手势识别的关键问题之一大多数以前的手势识别系统使用基于双流的方法[24，34，22，44]或3D卷积神经网络网络[18，22，24，25，34，35]。与RGB数据相比，点云数据精确地描述了物体表面潜在的几何结构和距离信息，为手势识别提供了补充线索。不过，怎么撬-F(a) 有序点云上的PointLSTM。F(b) PointLSTM在无序点云上。图1.PointLSTM的基本思想（s和f分别是状态和特征（a）在理想情况下，当前帧中的每个点可以找到前一帧中的对应点(b)提出的PointLSTM放松了以前的假设，并从过去的邻居收集相关信息。点云中如此丰富的空间信息仍然是一个重大挑战。Qi等人没有将点云表示为体素或多视图格式，[30]提出了直接从原始点云数据中提取结构信息的PointNet架构。PointNet++ [31]通过应用分层分组和采样操作来捕获局部结构信息，从而扩展了Point-Net。一些最近的作品[19，20，23]修改分组操作，以从时空邻居提取运动和结构特征。然而，这些方法仅仅关注短期建模，而没有足够的能力来捕捉长期关系。递归神经网络（RNN）和长短期记忆（LSTM）在序列模型中的最新成功LSTM共享LSTM��− 1��− 1LSTM共享LSTM5762ing [3，7，12，15，38]提供了一些关于如何解决上述问题的方法论见解。在LSTM的帮助下，可以从时空对应中捕获随时间演变的运动和外观变化。然而，大多数点云数据是无序列的，直接将权重共享的LSTM层应用于未对齐的点云序列将导致优化困难。因此，如何在保留空间结构的同时利用时间信息是不规则序列建模的主要挑战。为了解决这个问题，我们提出了一个修改版本的点云序列LSTM（PointLSTM）。图1说明了所提出方法的基本思想在理想的情况下，对于当前帧中的每个点，我们可以在前一帧中找到相应的点（图11）。1（a）），并且权重共享的LSTM足以处理这样的点云序列。然而，由于闭塞和其他原因，这种假设在实践中很少得到满足。出于这个原因，我们通过搜索关键帧中的相关点并从前辈收集状态信息（由LSTM预测如示于图在图1（b）中，我们将当前点和先前相邻状态的特征连接起来。使用权重共享的LSTM来更新每个点对的状态信息，并且应用池化操作来收集相关信息并更新当前点状态。即使相邻两帧之间可能没有对应的点对，该更新机制仍能从空间相邻点中收集每个点的结构和运动信息。此外，一个简化的版本与点共享的状态（PointLSTM-PSS），提出了减少计算和探索改进的起源。在NVIDIA动态手势数据集[24]和SHREC为了证明PointL-STM的推广，我们在MSR 3D数据集[17]上验证了所提出的动作识别方法，并且我们的方法显示出与基于MSR的方法竞争的结果。综上所述，本文的主要贡献在于：• 所提出的PointLSTM可以利用不规则序列数据中的长期时空关系，同时保留不规则序列识别问题的空间结构。• 一个简化的版本（PointLSTM-PSS），以减少计算和探索改进的起源。• 两个序列识别任务，3D手势识别和动作识别的建议PointLSTM的评估，显示出巨大的潜力，实时应用。2. 相关工作2.1. 基于视觉的动态手势识别有效地捕获时空信息是动态手势识别的主要挑战[37]。在过去的几十年里，研究人员专注于设计适当的特征，例如定向梯度直方图（HOG）[9]和形状函数的集合（ESF）[16]。随着深度学习的成功，一些先前的作品[4，18，22，24，25，34，35，44]探索了使用3D卷积从视频数据中进行手势识别。这些方法的一个限制是手仅占据帧的一小部分。换句话说，视频数据包含许多不相关的信息，并且基于视频的模型更可能过拟合。因此，集成算法[18，22，25]被广泛用于整合来自多个模态的信息并进一步提高性能，这导致实践中不可接受的训练和推理时间。随着商品深度传感器和手部姿势估计方法[10，11，42]的最新发展，估计手部关节序列作为手势识别中的中间体变得可行。最近的作品[2，26，27]应用图卷积网络和LSTM来学习手部关节序列的空间和时间特征然而，基于卷积的方法高度依赖于估计结果的质量，这对自遮挡、运动速度和图像分辨率敏感，并且可能导致不可恢复的错误。与骨架数据相比，点云反映了物体表面的潜在几何结构，为手势识别提供了可靠和互补的线索。受直接使用点云作为输入并从其近邻提取特征的开创性工作[30，31]的启发，最近的几项工作[19，20，23]试图从点云序列中提取Liu等[19]提出FlowNet3D来估计两个连续帧之间的场景流，并且几种最近的方法[20，23]修改分组操作以找到帧之间然而，这些方法只关注短期建模，与所提出的方法不同2.2. 用于序列建模对于序列建模，一些研究[3，7，12，15，38]已经证明，LSTM作为RNN的特殊情况，具有出色的长期建模能力。LSTM的关键思想是它的更新机制：输入门I（t）和遗忘门F（t）控制信息从输入Y（t）和过去的隐藏状态H（t-1）流到单元状态C（t），而输出门O（t）控制最终的隐藏状态H（t），其将被传播到下一步骤。我们使用以下-5763我我我我下式表示整个过程（⊙表示Hadamard乘积）：帧包含任意数量的点P（t）={p（t）|i=1，2，...，nt}。此外，点云序列中的任何点i（t） =σ（U（一）y（t）+W（i）h（t−1）+b（i）），可能在其他帧中没有对应点，阻塞和其他原因。每个点p（t）可以表示为：f（t）=σ（U（f）y（t）+W（f）h（t−1）+b（f）），o（t）=σ（U（o）y（t）+W（o）h（t−1）+b（o）），表示为两部分：d维坐标向量x（t）和m维特征向量f（t）。Nt（x（t））是相邻的我我c吨 = tanh（U（c）第（1）款y（t）+W（c）h（t−1）+b（c）），（一）标架P（t+t）中点p（t）的点集。一般LSTM层（等式2）1)可以缩写如下：c（t）=f（t）<$c（t−1）+i（t）<$c<$（t），h（t）=o（t）⊙c（t），h（t），c（t）= LSTM（y（t），h（t−1），c（t−1））。（二）其中U（·）和W（·）是隐藏的输入和隐藏的输入。（·）点独立国家。在这种情况下，我们假设点云序列中的每个点p（t）具有独立的hid，到隐藏的权重矩阵，和b是偏置向量。我（吨）（吨）在视觉序列学习任务[7，15，38]中，LSTM主要附着在预训练CNN的最后一层之上，这将损害LSTM捕获随时间演变的动态空间相关性的能力。一些基于LSTM的模型被提出来解决这个问题。ConvLSTM [38]采用卷积运算来控制状态信息转换，同时保留网格结构。AGC-LSTM [32]提出了图卷积LSTM来捕获空间卷积中的区分特征。登邦并且单元状态c i .如果我们能得到-相邻点云之间的一一对应该问题可以被简化为一般的序列学习问题。然而，这在大多数情况下是不切实际的。因此，我们放松了这一假设，通过搜索其过去邻居中的相关点。前一帧的状态信息可以传播到下一帧，整个过程如图所示第2段（a）分段。对于每个点对（p（t），p（t−1）），p（t−1）∈ N−1（x（t）），我们用公式表示更新-i j j i形状和时间动态。最近的几项工作试图在点云中利用LSTM和RNN。Ye等人[41]将整个3D空间分割成将机制设置为：y（t）=[x（t）−x（t−1）;f（t）]，均匀间隔块，并采用双向分层，~（t）i，j i（吨）J（吨）我（t−1）（t−1）（三）calRNN来探索用于语义分割的长距离空间关系。PointRNN [8]和CloudLSTM [43]hi，j，ci，j=LSTM（yi，j，hj，cj），其中我们使用[·;·]来表示级联运算符ion，在动态点云上应用RNN进行逐点预测~（t）~（t）第这些工作与我们的工作很接近，但有明显的区别：与使用池或加权和不同和hi，j，ci，j是点对的虚拟隐藏和单元状态（p（t），p（t−1））。p（t）的最终状态更新为：操作来总结用于逐点预测的局部信息，我们保持空间结构并使用池化I jh（t）~（t）我~（t）~（t）我= g（hi，1，hi，2，···，hi，nt−1），为全局FEA查找相关信息的操作（吨）（吨）（吨）（吨）（四）真提取3. 方法在本节中，我们首先介绍了PointLSTM，这是这项工作的核心思想，然后考虑了几种用于手势和动作识别的网络架构建议。3.1. PointLSTM如等式所示。1，尽管LSTM具有创建跨多个状态的短路径来建模远程关系的能力，但很难将其用于未对齐的点云序列。在这里，我们的目标是设计一个合适的机制，不准确的对应点云。为此，我们提出了两种类型的解决方案，以容忍粗对齐，根据是否在同一帧中的点共享状态信息或不。5764我我我Ci=g（ci，1，ci，2，···，ci，nt−1），其中h（t）、c（t）对应于点p（t）的更新的隐藏和单元状态，g是对称函数并且被实现为最大池化层。点共享状态。在先前的点独立状态方案中，每个点拥有独立状态并从过去的邻居收集信息。这将是耗时的，特别是当点集的大小很大时。为了促进更新过程并探索PointLSTM的基本组件，我们提出了一个简化版本，在同一框架中使用点共享状态，称为PointLSTM-PSS。同一帧P（t）中的所有点具有共享的隐藏状态h（t）和单元状态c（t）。更新机制如图所示。2（b），公式为：y（t）=[x（t）;f（t）]，这里有一些符号。点云序列，T帧由（P（1），P（2），···，P（T））表示，并且每个我（t）我我（吨）（t−1）（t−1）（五）hi ，ci = LSTM（yi，h，c），5765总重量（t）我我我我��，1,( )2001年，��，1LSTM，美国你，你，你（−1）…（−1）2001年，,( )2002年，��，2ℎ ,��ǁ(��−1)��，共享t -1…2002年，…你好，你好，你好（）你好，��（−1）LSTMℎ,��ǁ,（−1），��，池化层不，（−1）��，��（��）��，1ℎ ,��ǁ(��−1)1，，t -11，……共享共享ℎ ,��ǁ(��−1)2…2��，��n��，（）（−1）（−1）LSTM你好��, n（）不��，池化层(a) PointLSTM（b）PointLSTM-PSS图2. PointLSTM和PointLSTM-PSS概述。(a)在PointLSTM中，每个点都拥有独立的状态，该状态基于当前输入和前一帧中邻域的状态进行更新。(b)在PointLSTM-PSS中，相同帧中的点共享相同的状态，并且全局状态通过对当前帧中的所有更新状态求平均来获得。（吨）其中hi、ci是点的虚拟隐藏和单元状态通过对齐点云的质心来生成点云：p（t）和在时间t的最终状态被定义为：∆x¯(t) =1nt−1x（t−1）−1Σntx（t），（吨）~（t）~（t）~（t）nt−1inti（七）h=g（h1，h2，···，hnt），（六）i=1i=1（吨）（吨）（吨）（吨）当i=1，···，nt时，c=g（c∈1，c∈2，···，c∈nt），i其中h（t）、c（t）对应于在时间t的更新的隐藏和单元状态，g是对称函数并且被实现为平均池化层。3.2. 邻域分组在PointLSTM中从前辈收集信息的想法类似于卷积神经网络中的感受野概念。然而，当考虑非刚性运动时，事情变得更加复杂。为了研究未对准的影响，我们遵循先前的文献[20，23]并评估两种类型的分组方法：直接分组和对齐分组。直接分组。为了从前一帧中捕获运动信息，我们直接在前一帧中找到质心点pt，i的k个最近邻作为其相邻点集N−1（x（t）;k）。该操作可以在观测数据保持静止的情况下，融合相邻帧的空间信息. 由于没有半径限制，直接分组操作还可以在对象快速移动时捕获相对运动信息。对齐分组。最近的几种方法[19，20]估计场景流的刚性对象。如果我们能估计出在质心之间的后向流x（t）=x<$（t−1）−x（t）值得一提的是，ConvLSTM实际上是PointLSTM在对常规数据应用网格分组策略时的一个特例，所提出的点共享状态可以被认为是一种全局分组策略。3.3. 网络架构我们评估所提出的方法在3D手势和动作识别任务。如图3，我们采用FlickerNet [23]的修改版本作为基线，其利用一个帧内 PointNet++[31]层和三个帧间PointNet++层。使用时空分组和修改的采样层对两个相邻帧间层之间的点云进行下采样。所提出的PointLSTM可以嵌入到现有的架构中，可以测量特征之间的相似性为了进一步研究PointLSTM在不同阶段的效果，我们考虑了四种架构设计：PointLSTM-原始、早期、中期和晚期。PointLSTM-raw。与视频序列相比，原始点云序列包含了丰富的结构和距离信息.我们将第一个帧内层替换为单个PointLSTM层，以测试它是否可以从原始点云中捕获PointLSTM-早、中、晚。我们替换三个（吨）我我我（t−1）帧内层和单个PointLSTM层，第一点以及其在预处理中的虚拟对应点p_i，前一帧，则N-1（x（t）;k）可以由k-帧P（t − 1）中p（t−1）的最近邻。然而，非刚性场景流估计仍然是一个挑战性的任务[14]。为了评估所提出的方法对小位移的鲁棒性，我们粗略地对齐邻居，相反，看看PointLSTM在不同阶段捕获运动和结构信息的效果如何。此外，为了找到PointLSTM和一般LSTM之间的差异，我们用LSTM层替换了stage-5，该层在帧级别提取动作信息。我们将这种方法称为基线LSTM。5766时间我我1号线+1第一阶段第二阶段第三阶段第四阶段第五阶段帧内帧间图3.本文使用的基本网络架构。该体系结构包含五个阶段：第一级使用空间分组来提取帧内特征，第二级至第四级使用空间-时间分组和基于密度的采样来提取帧间特征。第五阶段提取逐点特征，并遵循最大池化层以获得全局特征。PointLSTM-raw、early、middle和late分别用PointLSTM层替换阶段1、2、3、4。3.4. 实现细节基于密度的采样图层。从深度视频中提取的点的数量很大，并且它们中的大多数包含相似的深度信息。先前的工作[23]显示了来自每个帧的少量点（大约100-200）是手势识别的合理选择。然而，与手势识别不同，hu-……骨架(a) SHREC…...…(b) [17]第十七话人的活动只占整个云的一小部分。为了减少冗余计算，我们采用了一种简单的基于密度的采样方法[21]。据估计，点p（t）在位置x（t）处的sity给出为：图4.点云序列的示例第一行显示输入点云序列，每个帧包含128个点。第二行呈现采样后的64点序列。第三行显示了相应的骨架序列。我我1ntx（t）−x（t）ρ（x（t））=ntrdw（ij=1（j）、（8）R4. 实验在本节中，我们首先对所提出的方法进行了验证，其中r是框架P（t）中p（t）与其第k个最近邻之间的欧几里得距离，w是有界可积权函数。在每个采样层，我们选择具有较低密度的点，指的是它们对应于点云的边界。实例在图1中可视化4.第一章训练和推论。按照通常的做法，我们均匀采样32帧剪辑沿其时间轴，并为每帧生成512个点。我们在一台Tesla P100上从零开始训练所有模型200个纪元，小批量大小为8。亚当的动量为0.9，学习率为10−4，在100、160和180时除以10。在训练阶段，我们随机采样128个点（示例如图所示）。4）从预处理后的点云数据中，均匀采样进行测试。我们扩充训练集随机缩放（±20%）、旋转（±15°）和丢弃输入点（20%）。无测试增强策略采用了为了减少随机效应，我们使用不同的随机种子运行所有实验四次，并报告平均准确度和标准差。两个具有挑战性的动态手势数据集，NVGesture和SHREC'17。一些建筑实验进行，以获得一些基本的理解，我们的模型。此外，我们进行烧蚀实验，以证明所提出的方法的有效性。最后，我们提出了一个多模态动作识别数据集，MSR E3D上的实验，以验证所提出的模型的普适性和适用性。4.1. 数据集NVGesture [24]. NVIDIA Dynamic Hand Gesture Dataset是一个具有挑战性的数据集，适用于车辆人机界面。该数据集提供多种模式，包括RGB、深度和IR图像。25个班级共1532个视频，按科目分为1050个培训视频和482个测试视频。SHREC'17 [5]. SHREC'17 Track Dataset 是为 SHREC'17Track提供的公共动态手势数据集。SHREC'17中的手势（1024）采样时间最大池…采样…骨架…分类器预测分数5767表1.在不同窗口大小的不同阶段应用PointLSTM（直接分组）的性能比较（%）NVGestureSHRECk=1k=4 k=16PSSk=1k=4 k=16PSS基线基线LSTM85.9（±0.5）82.8（±0.8）87.2（±1.0）88.9（±1.0）PointLSTM-原始82.5（±1.3）82.9（±0.5）83.3（±0.7）83.0（±0.8）90.7（±0.7）90.3（±1.4）90.5（±0.7）89.5（±0.3）PointLSTM早期87.9（±0.7）86.4（±0.5）86.9（±0.4）87.3（±0.4）93.5（±0.6）93.4（±0.8）93.3（±0.6）92.8（±0.4）PointLSTM-中间85.4（±0.6）86.0（±0.4）86.9（±0.6）86.8（±0.9）94.3（±0.3）94.0（±0.1）94.7（±0.1）93.1（±0.2）PointLSTM-late87.3（±0.1）87.5(±1.0)86.4(±1.1)86.4（±0.9）93.2（±0.4）93.5（±0.2）92.5（±0.5）92.4（±0.4）通过手势来描述手形或手形，这些手势对应于粗手势和细手势。该数据集包含14个手势类的2800个视频，每个手势以两种方式执行：使用一个手指或整个手。它被分为1960个训练序列（70%）和840个测试序列（30%）。该数据集还提供了3D世界空间中22个手部关节的坐标，并广泛用于基于骨架的手势识别。MSR Action3D [17]. MSR Action3D数据集包含20个类，每个类由10个受试者执行。这些动作涵盖手臂、腿、躯干及其组合的各种运动。原始数据集共有567个序列，其中10个序列由于噪声太多而被丢弃[36，45]。该数据集还为基于骨架的动作识别提供了20个关节位置。4.2. 手势识别我们的主要应用是动态手势识别，这是人机交互的一个基本但必不可少的任务。我们从手部区域提取点云序列，这些点云序列可以根据检测结果或原始深度视频中的深度信息进行分割。我们首先评估了何时何地使用PointLSTM来编码点云序列的长期特征。与基线方法的比较。表1中基线和基线LSTM之间的比较揭示了这两个数据集的不同特征。由于NVGesture中的大多数手势都相对简单，例如相比之下，SHREC该方法在两个数据集上都显示出很好的结果。在NVGesture上，PointLSTM与基线和基线- LSTM相比获得了1.9%和5.1%的增益，这表明PointLSTM确实捕获了时间信息，同时保留了空间结构。此外，与SHREC'17上的基线和基线LSTM相比，PointLSTM获得了7.5%和5.8%的增益图5.SHREC'17（28个手势）的识别准确率：PointLSTM-中间（k=16，94.70%）与88.90%。 H和F对应于用整个手和一个手指执行的手势。我们展示了PointLSTM相对于基线的性能增益（橙色）和下降（绿色），并突出显示了几个具有明显改进的手势（黑色）。根据基线（H）的性能对候选人进行排序。图5显示了PointLSTM中间和基线之间的每类性能比较。所提出的方法在大多数类别中产生更好的分数，并且在粗略手势（“向上滑动”、“向下滑动”和“轻击”）和精细手势（“抓取”、“旋转抓取”和“捏”）两者上都获得了显著的改进实验结果表明，该方法在手形识别和运动识别方面都是有效的.建议的PointLSTM只在两个类别中下降包埋阶段的比较。如上所述，PointLSTM可以在任何阶段应用于嵌入长期信息。因此，我们在表1中比较了在不同阶段使用不同窗口大小（k在原始点云序列上应用PointLSTM只会带来很小的改进，但在后期阶段使用它会带来更有效的进展。这种比较表明，PointLSTM在后期阶段得到了更好的利用，这为相关信息收集提供了更可靠的线索。窗口大小范围的比较。表1的另一个观察结果是，即使使用最近的邻居，所提出的方法仍然可以产生竞争性的结果。5768·(a) NVGesture（28手势）(b) SHREC'17图6. PointLSTM-middle的不同窗口大小k与更大的窗口尺寸相比，PointLSTM-early的结果更好，k= 1的PointLSTM-early在NVGesture上实现了最高的准确性。我们怀疑这是因为NVGesture中的手势与手形更相关，并且相邻的帧对齐良好。PointLSTM可以从其邻居收集上下文信息，以进行更准确的识别，如图所示。第1（a）段。为了进一步比较未对准的影响，我们在图中使用不同的分组操作和窗口大小来评估PointLSTM-中间。6.具有对齐分组的 PointLSTM- 中间实现了比在NVGesture 上直接分组更好的结果（图 2 ）。 6（a）），这验证了良好的对齐将有助于PointLSTM收集更多相关信息。然而，图中的结果。6（b）显示相反的趋势。我们分析了故障情况，并将主要性能下降归因于质心位移和不准确检测导致的不稳定对齐，这在对齐质心时带来了噪声运动信息（示例可以在材料中找到）。这一结果表明，不准确的比对将恶化性能，并且当难以获得准确比对时，直接状态共享的比较。如表1所示，PointLSTM-PSS产生比基线更好的性能，并且PointLSTM和PointLSTM-PSS之间的主要区别是分组策略。因此，我们可以推断SHREC'17的主要改进（PointLSTM-middle从87.2%到93.1%）是从权重共享的LSTM层获得的这个有趣的结果证明了该模型可以处理在几何识别任务中的小的错位我们将具有点共享状态的PointLSTM-middle称为图1中的默认PointLSTM-PSS表2.NVGesture数据集上的性能比较（%）方法模态准确度R3DCNN [24] IR image 63.5R3DCNN [24] optical flow 77.8R3DCNN [24]深度视频80.3PreRNN [40]深度视频84.4MTUT [1]深度视频84.9R3DCNN [24] rgb video 74.1PreRNN [40] rgb video 76.5MTUT [1] rgb video 81.3PointNet++[31]点云63.9FlickerNet [23] point clouds 86.3基线点云85.9（±0.5）PointLSTM-早期点云87.9 （ ±0.7 ） PointLSTM-PSS 点云 87.3（±0.4）PointLSTM-中间点云86.9（±0.6）PointLSTM-晚期点云87.5（±1.0）人类[24]rgb视频88.4表3.SHREC'17数据集的性能比较（%）报告了14和28个手势的结果方法模态1428关键帧[5]深度序列82.9 71.9SoCJ+HoHD+HoWR [4]骨架88.2 81.9Res-TCN [13]骨架91.1 87.3STA-Res-TCN骨架93.6 90.7ST-GCN [39]骨架92.7 87.7DG-STA [2]骨架94.4 90.7基线点云90.5 87.6PointLSTM早期点云95.4 93.5PointLSTM-PSS点云95.0 93.1PointLSTM-中间点云95.9 94.7PointLSTM-late点云94.9 93.5这张纸的其余部分。与最先进技术的比较。我们将所提出的方法与两个数据集上的几种最先进的方法进行了比较，并在表2和表3中给出了结果。从表2中，我们可以看到PointLSTM-early在NVGesture上实现了87.9%的最佳性能，这明显高于使用其他模态的单模态方法同时，所提出的方法是接近人类的RGB视频性能（88.4%）。由于SHREC'17数据集提供了手和手指的骨骼数据，大多数先前的工作使用双音序列作为输入，其提供相对准确的手部姿势结构和关节轨迹。如表3所示，与这些方法相比，所提出的方法显示出明显的改进不同于一般的动作，手势5769表4.PointLSTM的模型大小和推理时间我们提出了#Paras（参数的数量）和推理时间，以及以FLOPs（浮点运算）衡量的计算复杂度。模型#段落FLOPs时间（ms）基线0.9M6.2G22.5PointLSTM-原始0.9M7.3G36.1PointLSTM早期1.0M12.1G36.0PointLSTM-PSS1.2M3.7G27.5PointLSTM-中间1.2M16.1G33.6PointLSTM-late2.2M30.6G43.1是用来传递信息的因此，可见表面提供了可靠的识别信息，这些信息可以通过基于点云的方法来捕获。使用这种一致的输入比估计的骨架序列更鲁棒，估计的骨架序列对遮挡敏感。此外，这些结果表明，基于云的方法可以实现优异的性能，即使准确的手姿势是很难在现实世界的情况下获得。模型大小和推理时间。表 4 给出了基线和提议的PointLSTM （ k=16 ）的模型参数和推理时间。用PointLSTM层替换PointNet++层对参数数量的影响很小，因为大多数参数都存储在最后两个具有更高维度的阶段推理时间32帧（12FPS情况下的12.67秒采样，每帧128个点）。对于PointLSTM-middle，单颗Tesla P100 GPU完成12帧（约1秒采样）的计算仅需（12*33.6/32）12.6ms，采用点共享状态进一步提高了推理速度，具有很大的实时应用潜力。4.3. 动作识别动作是人类为了达到某种目的而采取的一种行为形式，与手势不同，手势是为为了评估所提出的方法的泛化性能，我们评估了我们的方法MSR的3D数据集的动态动作识别。有不同的实验方案[17，36，45]与此数据集相关，我们遵循[17]该算法将数据集按主题平均划分为训练集和测试集，并以不同的分割方式运行分类算法十次然而，我们发现在数据集分割中存在显著的方差。例如，我们用奇数的受试者训练模型，用偶数的受试者测试模型，反之亦然。前者为96.73%，后者为91.44%。因此，我们将数据集按受试者随机拆分五次，并将训练集和测试集交换另外五次，以使比较更加可靠。平均费用表5.MSR Action3D数据集的性能比较（%）方法模态精度[36]第三十六话骨架88.20H-HMM [29]骨架89.01谎言[33]骨架89.48Traj.形状[6]骨架92.10[45]第四十五话骨架94.74HON4D [28]深度视频88.89[第20话]点云88.50基线点云87.62±1.48PointLSTM早期点云91.78±3.10PointLSTM-PSS点云90.79±3.14PointLSTM-中间点云91.08±3.43PointLSTM-late点云92.29±3.09报告了种族和标准偏差与最先进技术的比较。表5显示了与最近方法的比较结果。所提出的方法优于基线的一个相当大的保证金，并实现了最佳的识别精度点云输入。然而，最近的基于小波的方法产生更好的结果比所提出的方法。我们认为这主要是因为身体动作包含较低的自由度，骨架序列比点云序列具有更清晰的物理意义和更强的类内差异性。点云包含更多与动作无关的信息（见图1）。4）使网络更容易过拟合。需要研究更高效的点云总体而言，MSR 3D的结果验证了我们的方法对于各种视觉序列学习问题是通用的，并且可以在未来的工作中与其他模块和模态相结合5. 结论在本文中，我们提出了一个PointLSTM层，它可以直接从动态点云序列中捕获长期关系，这对遮挡和运动速度具有鲁棒性。大量的实验表明，我们的方法通常适用于基于不同点云的序列学习任务，并证明了权重共享LSTM层是所提出的方法的主要组成部分。此外，我们提供了深入了解的点云为基础的方法和基于云的方法之间的性能差异。在未来的工作中，我们打算探索和扩展我们的方法在更不规则的序列学习任务，如活动预测和多帧场景流估计。鸣谢。这项工作得到了中国自然科学基金的部分资助。61702486、U19B2036和61532018。5770引用[1] Mahdi Abavisani，Hamid Reza Vaezi Joze，and Vishal MPa- tel.利用多模态训练提高单模态动态手势识别的性能。在IEEE计算机视觉和模式识别会议论文集，第1165-1174页，2019年[2] 陈玉晓，赵龙，彭希，袁建波，和Dim- itris N Metaxas.基于时空注意力的手势识别动态图构建。2019年英国机械视觉会议[3] KyunghyunCho，BartVanMerrieenboer，CaglarGulcehre ， Dzmitry Bahdanau ， Fethi Bougares ，Holger Schwenk，and Yoshua Bengio.使用rnn编码器-解码器学习短语表示用于统计机器翻译。在自然语言处理中的经验方法会议上，第1724-1734页[4] 昆汀·德·斯迈德，哈齐姆·万努斯，还有让·菲利普·范·德博尔。基于手势的动态手势识别。在IEEE计算机视觉和模式识别研讨会会议论文集，第1-9页[5] Quentin De Smedt 、 Hazem Wannous 、 Jean-PhilippeVandeborre 、 Joris Guerry 、 Bertrand Le Saux 和 DavidFilliat。Shrec'17曲目：使用深度和骨架数据集的3D手势识别。在欧洲3D对象检索研讨会上，2017年。[6] Maxime Devanne，Hazem Wannous，Stefano Berretti，Pietro Pala，Mohamed Daoudi，and Alberto Del Bimbo.基于黎曼流形上运动轨迹形状分析的三维 IEEEtransactions on cybernetics，45（7）：1340[7] JeffreyDonahue 、 LisaAnneHendricks 、 SergioGuadarrama、MarcusRohrbach、SubhashiniVenugopalan、Kate Saenko和Trevor Darrell。用于视觉识别和描述的长期递归卷积网络。在Proceedings of theIEEEConferenceonComputerVisionandPatternRecognition，第2625-2634页[8] 范呵呵和易阳。Pointrnn：用于移动点云处理的点递归神经网络。arXiv预印本arXiv：1910.08287，2019。[9] William T Freeman和Michal Roth。用于手势识别的方向直方图在International work-shop on automatic face andgesture recognition，第12卷，第296-301页[10] Guillermo Garcia-Hernando 、Shanxin Yuan 、 SeungryulBaek和Tae-Kyun Kim。第一人称手部动作基准标记，带有rgb-d视频和3d手部姿势注释。在IEEE计算机视觉和模式识别会议论文集，第409-419页[11] 刘浩、蔡玉军、翁君武、袁俊松。手点网：使用点集的3d手姿态估计。在IEEE计算机视觉和模式识别会议论文集，第8417-8426页[12] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经计算，9（8）：1735[13] Jingxuan Hou，Guijin Wang，Xinghao Chen，Jing-HaoXue，Rui Zhu，and Huazhong Yang.基于时空注意力的动态手势识别。在欧洲计算机视觉会议论文集，第273-286页[14] Mari anoJaimez，MohamedSouiai，Jo？ rgSt？ ckler，JavierGonzalez-Jimenez，and Daniel Cremers.运动配合：从rgb-d影像平滑分段刚性场景流。2015年国际3D视觉会议，第64- 72页。IEEE，2015年。[15] Andrej Karpathy和李飞飞。用于生成图像描述的深度视觉语义在IEEE计算机视觉和模式识别会议论文集，第3128-3137页[16] AlinaKuznets ov a，LauraLeal-Taix e'，andBodoRosenhahn.使用消费者深度相机的实时手语识别IEEE InternationalConference on Computer Vision Workshops，第83-90页，2013年[17] Wanqing Li，Zhengyou Zhang，and Zicheng Liu.基于一袋三维点的动作识别。法律程序中在IEEE计算机协会计算机视觉和模式识别研讨会上，第9-14页。IEEE，2010。[18] Chi Lin，Jun Wan，Yanyan Liang，and Stan Z Li.基于掩码res-c3 d网络和骨架lstm的精细融合模型的大规模孤立手势识别在IEEE自动面部姿势识别国际会议的会议论文集，第52-58页IEEE，2018年。[19] Xingyu Liu ， Charles R Qi ， and Leonidas J Guibas.Flownet3d：学习3D点云中的场景流。在IEEE计算机视觉和模式识别会议上，第529-537页，2019年[

下载后可阅读完整内容，剩余1页未读，立即下载