基于多尺度特征的折叠二维手部骨架的三维手部姿势估计网络

72 浏览量更新于2023-10-15 收藏 1.22MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11260HandFoldingNet：基于多尺度特征引导折叠二维手部骨架的三维手部姿势估计网络郑文灿1，朴在贤1，高钟焕2*1成均馆大学人工智能系2成均馆大学信息通信工学部{cwc1260，xoxc4565，jhko} @ skku.edu摘要随着3D手部姿态估计在各种人机交互应用中的应用越来越多然而，现有的模型需要复杂的架构或冗余的计算资源，以与可接受的精度进行交易。为了解决这一限制，本文提出了HandFoldingNet，一个准确和有效的手姿态估计回归的手关节位置从归一化的3D手点云输入。所提出的模型利用基于折叠的解码器，该解码器将给定的2D手部骨架折叠成相应的关节坐标。为了获得更高的估计精度，折叠由多尺度特征引导，所述多尺度特征包括全局和联合局部特征。实验结果表明，该模型在三个手部姿态基准数据集上以最低的模型参数要求取得了优于现有方法的效果代码可在https://github.com/cwc1260/HandFold 上获得。1. 介绍3D手部姿态估计旨在从输入手部图像中估计关节准确和实时的估计在各种人机交互应用中至关重要，特别是在虚拟现实和增强现实中[20，7，23]。最近，许多研究通过利用来自深度相机的手部深度图像取得了令人印象深刻的进展。然而，由于诸如自遮挡、噪声、高维度和手的各种取向的各种问题，实现准确和实时估计仍然具有挑战性[12，9，24，6]。随着深度神经网络（DNN）的发展在这些技术中的大多数中，2D卷积神经网络（CNN）已经被实现。*Jong Hwan Ko是通讯作者。点云3D姿态二维手部骨架“force”图1.折叠概念图。网络可以解释为通过从点云提取的多尺度特征来模拟“力”。The ”force” will drive a 2D hand skeletonto ”fold” into the 3D joint coordinates representing the hand被采用以执行直接手深度图像处理[40，10，14，30，3]。然而，2D CNN不能充分利用深度图像的3D空间信息，这对于实现高精度是必不可少的。直观的解决方案是将手深度图像离散化为3D体素化表示，并使用3DCNN [11，24]执行3D到3D推断。然而，它的关键限制是随着图像分辨率的增加，存储器消耗的立方增长[31]。因此，3D CNN的应用仅限于低分辨率图像，这可能导致丢失用于估计的关键细节。相比之下，点云被认为是用于3D手部姿势估计的有效且精确的表示，因为它将手部深度图像建模为连续的3D坐标而无需离散化。然而，由于点的不规则顺序，点云不能直接由传统DNN处理，直到PointNet的出现[28]。PointNet是由逐点共享权重的多层感知器（MLP）和最大池化层组成的简洁对称架构，不随输入点的顺序而变化。基于这种架构，已经提出了一系列基于PointNet的手部姿势估计模型[9，12，4，21]11261PointNet++编码器全局折叠解码器局部折叠块局部折叠块集合套网抽象抽象级别1级别2设置×2抽象级别3��超级链接超级链接2D手部骨骼折叠层聚合折叠层聚合折叠层复制联系我们��全球N×（3+）��N ��×（3+��）N ��×（3+��）特………��×（��×3J×S ×（3++×3）��×3J×S ×（3++×3）��图2.HandFoldingNet架构。它将来自2D深度图像的具有表面法向量的预处理的归一化点云然后利用分层PointNet编码器提取各个级别的特征，以从输入点云中总结全局特征。全局折叠解码器接收全局特征以引导预定义的2D手骨架折叠到初始关节坐标中。最后，将初始关节坐标附近的局部特征分组并馈送到局部折叠块中以估计准确的关节坐标。摆姿势。它们可归纳为两类：1）基于回归的方法和2）基于检测的方法。基于回归的方法[9，4]通过基于PointNet的特征提取器将手形编码为单个全局特征表示在高维潜在空间中的手部姿势的全局特征被馈送到执行关节坐标的推断的非线性另一方面，基于检测的方法[12，21]采用分层特征来计算每个点的热图特征。逐点特征表示每个关节的可能性分布。然而，现有的基于回归和基于检测的策略具有局限性。基于回归的方法仅处理单个全局特征，这对于高度复杂的映射到3D手部姿势是不够的。另一方面，基于检测的方法将分层特征传播到每个点，包括对特定联合估计贡献很小的点。因此，这种冗余特征传播显著地增加了计算成本并且减慢了估计。为了解决这些限制，我们提出了HandFoldingNet，一个准确而高效的 3D 手部姿势估计网络。HandFoldingNet的核心思想是通过从全局和局部信息中提取的多尺度特征来引导将 2D 手部骨骼折叠FoldingNet中采用基于折叠的设计的动机[45]是它适合于3D手姿态估计任务。本质上，特定的手部姿势是在人手骨架上施加力的结果。折叠操作可以被解释为模拟施加到固定的2D手骨架的为了指导折叠，HandFoldingNet引入了两个新颖的模块来处理不同规模的功能：1）全局特征引导的折叠（全局折叠）解码器，以及2) 关节式局部特征引导的折叠（局部折叠）块。受FoldingNet的启发，全局折叠解码器将2D手部骨架折叠成3D手部关节坐标。nates。通过基于PointNet的编码器从输入手部点云提取引导折叠的全局特征[29，9，12]。局部折叠块利用局部特征以及关节之间的空间依赖性，以便增强关节式特征并校正坐标估计。局部特征的利用被认为是为了弥补传统的基于回归的方法的弱点此外，与将局部特征传播到所有点的基于检测的方法不同，我们只提取每个关节附近的局部特征的小区域，以避免大量计算。我们在ICVL [36]、MSRA [35]和NYU [40]数据集上评估了我们的网络，这些数据集是通常用于评估3D手部姿态估计任务的具有挑战性的基准。结果表明，我们的网络一般优于形式的准确性和效率方面的先前国家的最先进该网络在ICVL、MSRA和NYU数据集上的平均距离误差分别为5.95mm、7.34mm和8.58mm。同时，它只包含128万个参数，在单个GPU上以每秒84帧的速度实时运行。本文的主要贡献如下：• 我们提出了一种新的神经网络HandFoldingNet，它以手部点云作为输入，基于多尺度特征引导折叠来估计3D手部关节坐标• 我们提出了一个全局特征引导折叠解码器，推断联合方式的功能和坐标。关节方面的功能帮助模型利用关节之间的自然空间依赖性，以获得更好的估计性能。• 我们提出了关节明智的本地功能引导折叠，以捕获本地功能和空间依赖性，增强关节明智的功能，以获得更高的准确性。• 我们进行了大量的实验，以分析我们提出的网络及其关键组件的效率和准确性。11262×个我2. 相关工作2.1. 基于深度的三维手势估计传统的基于深度图像的3D手部姿态估计方法主要在三个类别中实现：生成方法[18，41，39，32]，判别方法[17，22]和混合方法[38，34，37]。近年来，基于DNN的模型在3D手部姿势估计任务上表现出了优异的性能在各种实施方式中，通常采用代表性的2D CNN来进行姿态估计一系列研究[40，10]利用2D CNN以便从深度图像中提取表示手关节的可能性分布的2D热图。另一个工作线提出了基于2D CNN的基于回归的方法[14，30，3]，其充当为关节坐标回归提供有效特征的特征提取器。代替在2D空间中处理，几种方法[11，24]将2D深度图像编码成3D vox。由共享权重MLP的序列实现。该折叠操作可以直观地解释为学习将给定的2D网格格折叠到目标点云中的“力”。我们的网络和FoldingNet有两个关键的区别：1）我们引入2D手骨架的折叠而不是常规网格，以便使其适应手姿态估计任务，2）我们利用多尺度特征来获得更高的估计精度，不像FoldingNet只处理单个全局特征。3. HandFoldingNetHandFoldingNet旨在使用2D手部关节骨架折叠执行手部姿势估计。网络体系结构如图2所示。它以N6矩阵（Pnor，Fnor）作为输入，该矩阵表示一组归一化点。输入矩阵的每一行由归一化的 3Dxyz 坐标Pnor∈Pnor和cor-nor组成。响应的3D表面法向量fnor∈Fnor。的els，并采用3D CNN来估计3D手部姿势。由于深度图像可以很容易地转换成点输出是我J×3矩阵，表示3D坐标通过乘以相机固有矩阵来计算点云，已经提出了几种基于点云的模型[9，12，4，21]它们通过直接处理输入坐标来估计相同3D空间中的关节坐标，显示出可接受的效率和性能。HandFoldingNet的灵感来自于这些基于点云的方法，但它在以下方面与它们不同。建议的网络不直接回归的手关节坐标，也不估计逐点的概率分布。相反，它首先回归用于分组局部特征的初始联合坐标。同时，它还提供了用于建模空间依赖性的关节式特征最后，网络聚合这些局部特征和空间依赖性以估计准确的关节坐标。2.2.深层点云重建深度点云重建的目的是基于从图像、点云或其他类型的数据中提取的特征来重建点云。直观的方式实现点云重建的方法是采用3D CNN，如[44，2，13，33]所示。然而，这些方法重建点云的体素化表示。代替基于CNN的方法，其他方法[1，45，43，5]提出了点云的直接重建从理论上讲，我们的主要任务，估计手关节坐标为一个给定的手点云，可以转化为点云重建任务，因为估计的关节坐标可以被视为一个小的一组点，需要重建。因此，我们继承FoldingNet [45]的思想来重建关节点云。FoldingNet提出了一种新颖的折叠操作估计的J关节。首先将N个点输入到分层PointNet编码器，该编码器提取各个级别的局部特征然后，全局特征被馈送到全局特征引导的折叠解码器中，并且引导固定的2D手骨架折叠到3D关节坐标中。为了增强估计性能，全局折叠解码器的输出和它们附近的局部特征由基于联合局部特征的折叠块处理3.1. 点云预处理首先，通过在3D空间中重新投影像素来将2D深度图像转换成点云，从而形成模型输入（Pnor，Fnor）。我们遵循HandPointNet [9]中描述的点云预处理方法。输入的深度图像首先通过相机内部参数转换成点云表示，以适应我们的基于点云的网络。然后，为了处理各种手部方向，从3D点云创建定向边界框（OBB）。在那之后，将点云旋转到OBB坐标系中，OBB坐标系的轴与手部点分布的主分量对准。定向的点被二次采样并归一化到[-0.5，0.5]的范围内以形成最终的输入坐标Pnor。最后，从标准化点云计算逐点表面法向量Fnor请参阅[9]了解更多详情。3.2. 分层PointNet编码器我们利用与[9，12]中相同的分层PointNet编码器从无序点云中提取特征。如图2所示，编码器由一个L点集抽象层次的级联。第l层（l ∈ {1，2，. . . ，L}）从N l−1×（3+C l−1）矩阵中取11263--我我我·×个J年代我年代我s=1年代我我JpJeJ关节坐标J×图3.关节式局部特征引导折叠块。局部折叠块接受三个输入，这三个输入是先前估计的关节坐标、来自先前折叠块的中间层的折叠嵌入、以及由先前集合抽象级别提取的局部特征图。关节坐标用作对来自局部特征图的局部特征进行分组的质心。折叠嵌入被重新布置以与对应的相邻关节对齐，以收集空间依赖性。最终，由分组的局部特征和重新布置的嵌入组成的聚合特征图被馈送到对称架构中，以相对于先前估计的联合位置计算残差，以进行更准确的联合估计。上一个（l1）第i级作为输入，其中第i行是由3D坐标pl-1和对应的我特征fl−1。然后输出ll矩阵，即iN×（3+C）由Nl个子采样质心pl和它们的对应C1-dim局部特征fl组成。具体地，对于第一级，输入坐标是p-nor，并且对应的也不ing特征是3D表面法向量fi。Nl个质心是从输入坐标随机采样的。然后，S个相邻点及其在每个质心pl周围的对应特征被聚集作为局部图4.基于ICVL数据集的2D手部骨骼的示例。骨架包含J= 16个点，每个点被表示为2D坐标。区域{pl−1，fl−1}S通过使用球查询[29]指定半径r。然后将局部区域中的坐标相对于其质心平移到局部帧： pl−1−p l 对于每个局部区域，对称PointNet[28]采用3层MLP为区域中的每个点生成Cl-dim特征。随后，最大池化操作将这些逐点特征聚集成表示对应质心的单个局部特征。因此，在第1级中的第j个子采样质心的局部特征被表示为：fl=MAX（h（[pl−1−pl，fl−1]）），（1）功能. 手骨架是二维平面中的一组手关节坐标，通过以下步骤手工制作：1）从训练集中随机选择样本，2）从样本中测量每对相邻地面真实接头之间的平均连杆长度，3）在2D平面中展开连杆，4）收集跨越每两个连接的连杆的接头坐标。图4中示出了ICVL数据集的2D手部骨骼的示例。在分层PointNet编码器提取全局特征g之后，将其馈送到全局折叠解码器。我1≤s≤S年代我是，是在插入全局特征g之前，我们复制它J倍其中h是MLP，MAX是逐通道最大池化操作，并且对于最后一级，它直接对整个输入（没有采样）采用共享权重MLP和最大池化操作，以便生成单个Cg-dim全局特征，其表示为：并将复制的特征与尺寸为J2的固定手骨架连接。连接的结果被提供给2层MLP，其为每个关节生成高维折叠嵌入ej。随后的1层MLP通过处理输入嵌入来预测初始3D关节坐标。因此，第j个关节的输出坐标j〇表示为：G=MAX（h（[pL−1，fL−1]）。（二）我我1≤i≤NL−1j0=h（e）其中e=h（[skel，g]），（3）3.3. 全局特征引导的折叠解码器建议的解码器折叠一个固定的2D手骨架到3D坐标的关节，由一个全球其中h_p和h_e表示MLP，e_j表示中间折叠嵌入，并且skel_j表示固定骨架的2D坐标的第j个从设置抽象级别分组最大池MLP从上一个折叠折叠嵌入式J��×N×（3+）聚合MLP特征地图J×S ×（3++×3）联系我们��折叠嵌入残差J��×J×...…...的邻国重复S次重新排列重复S次聚合折叠层.........y(0.0，（-0.125，0.47）(0.0，0.45）（-0.125，0.37）(0.21，(0.21，0.36）(0.0，0.21）（-0.17，（-0.125，（-0.17，(0.0，0.0）(0.350.2）(0.25，0.1）（-0.15，0.0）X1 x 1转换1 x 1转换J型接头J11264--×× ×联系我们×个Js，js，jJs，jJs，j×个3.4. 联合智慧局部特征引导折叠重新排列折叠重新排列块嵌入2嵌入嵌入1仅使用单个全局特征（即，e.全局特征引导的折叠和其它基于回归的方法）不足以精确地估计关节坐标。我们认为，使用额外的关节局部特征可以鼓励网络纠正关节坐标。因此，我们提出了一种新的关节局部特征引导折叠块，用于捕获有助于更好估计的局部特征和对于接头1对于接头j对于接头J图5.ICVL数据集的手部关节之间的空间依赖性映射（左）。每个关节置换其嵌入ej，以沿着的映射方向与其两个相邻关节映射箭头形成两个重新排列的嵌入E1和E2（右）。如图3所示，来自jj的输出坐标第（k1）个局部折叠块首先用作当前第k个J个质心对来自半径r内的第l集合抽象级别的输出的J个局部区域进行分组。从每个区域中，S个邻居被采样，每个邻居由3D局部坐标组成例外地，指尖被迫与自身映射（红色虚线箭头）以保持一致性。pl−jk−1和Cl-dim对应的局部特征fl，其中1sS.因此，该分组的输出大小是JS（3+Cl）。请注意，l默认设置为1，而l的选择将在4.4节中讨论。此外，我们引入了一个重排过程，明确地模型的空间依赖性。值得注意的是，特定关节的特征由来自全局折叠解码器的折叠嵌入的对应行表示。类似地，局部折叠块也提供联合折叠嵌入，使得网络能够堆叠更多局部折叠块以用于准确估计。重新排列过程首先置换折叠嵌入以便形成重新排列的嵌入，其匹配如图5中所示的空间依赖性映射。每个重排嵌入的第j行是第j个关节的相邻关节的折叠嵌入。然后，我们通过将重新排列的嵌入与输入折叠嵌入连接来形成空间依赖性特征图。在依赖性映射中，如图5所示，每个关节与其他两个相邻关节链接。因此，该重排过程采用大小为J的折叠嵌入，并输出大小为J（Cf+Cf+Cf）的空间依赖性图。具体地，由于指尖仅具有一个相邻关节，因此我们将它们与它们自身连接以保持空间依赖性图的均匀形状。如图5所示，表1.实施规范。每个块包含四种类型的超参数：搜索半径（r）、分组邻居的数量（S）、采样质心（NI）和每个MLP层的输出声道的数量。Max表示在块的末尾存在最大池化层。SA代表PointNet编码器的集合抽象级别在最大池化时将局部折叠块分成两部分，以清晰地表示折叠块。随后，我们引入另一个3层MLP，将高维嵌入映射到3D坐标。直观地，由于每个关节聚焦于其单独的局部区域，因此通过该MLP-MAX-MLP结构仅可以有效地计算相对位移因此，我们继承了残差区组设计[15]。通过将相对位移输出与先前预测的坐标相加来计算最终关节坐标因此，第k个块的第j个估计的联合被表示为：是指尖的自我关系。此外，我们复制了j，k=h，r（MAX（h，f（[p，l−jk−1，fl，ek−1]）+jk−1，（四）空间相关性特征图S次，以将尺寸与之前的分组输出对齐，然后再执行以下操作J1≤s≤Ss，j js，jj j聚合来在局部要素和空间依赖性要素其中h，r和h，f表示共享权重MLP。jk−1表示先前的第j个输出关节坐标。地图准备好了，我们把它们连接在一起，形成全局折叠解码器或局部折叠块。pl和fl聚合特征图。聚合特征图然后被馈送到具有对称结构的聚合折叠层，如图3所示。在这种结构中，我们引入了一个3层MLP和一个最大池，它将每个关节的特征聚合成一个单一的折叠嵌入。是第j个关节的第s个邻居坐标和特征，其中L表示第l个集合抽象级别。ek-1表示来自先前全局折叠解码器或局部折叠块的折叠嵌入的第j行及其两个.........块类型RSNlMLP信道MaxSA（l=1）0.1264512三十二三十二一百二十八√√SA（1=2）0.264128六十四六十四二百五十六√SA（l=3）-1281128，128，512全局折叠（k=0）--J256，256，3√×局部褶皱0.464J二五六二五六二五六11265.L=ΣL1smooth（j0 −j*）+Σ ΣL1smooth（jk−j*），3.5. 损失函数作为我们的损失函数，我们采用平滑的L1损失，这是不太敏感的离群值比L2损失。平滑L1损失定义为方法平均误差（mm）输入类型L1光滑（X）=0。5|X|、 |X| 0<的情况。01|-0。| − 0. 005否则.（五）由于我们的网络的全局折叠和局部折叠块输出其各自的估计坐标，因此我们通过以下联合损失函数来监督所有输出：J K Jj=1J Jk=1j =1J（六）表2.所提出的方法与先前状态的比较-其中j*j表示第j个关节的地面真实坐标，K表示堆叠的局部折叠块的数量。4. 实验4.1. 实验设置我们在使用PyTorch的NVIDIA TITAN RTX GPU上进行了实验对于训练，我们使用Adam优化器[19]，其中beta1 = 0.5，beta2 = 0.999，学习率α= 0.001。网络的输入点数被预处理为1,024，批量大小被设置为32。网络实现细节如表1所示。批归一化[16]和ReLU [25]激活功能在所有MLP层中采用，除了输出坐标和残差的层。同时，为了避免过拟合，我们采用随机旋转（绕z轴[-37.5，37.5]度）、3D缩放（[0.9，1.1]）和3D平移（[-10，10]mm）的在线数据增强。我们使用公共手部姿势数据集、ICVL [36]、MSRA [35]和NYU [40]数据集评估了所提出模型的性能我们在ICVL上训练了400个时期的模型，在纽约大学上训练了200个时期，在MSRA上训练了80个时期（60个时期后学习率衰减为0.1）。4.2. 数据集和评估指标MSRA数据集。MSRA数据集[35]提供了来自9个受试者的超过76K帧。每个主题包含17个手势。每个帧的地面实况包含J=21个关节，包括用于手腕的一个关节和用于每个手指的四个关节。根据最近的工作[35]，我们使用leave-one-subject-out交叉验证策略评估该数据集。ICVL数据集。ICVL数据集[36]是常用的深度流手部姿势数据集，其分别提供22K和1.6K深度帧用于训练和测试。ICVL、MSRA和NYU数据集上的最先进方法平均误差表示平均距离误差。输入指示2D（深度图像）或3D（体素或点云）的输入表示。类型D和R分别指示基于检测的方法和基于回归的方法每个帧的地面实况包含J=16个关节，包括手掌的一个关节和每个手指的三个关节。由于帧也包含人体区域，我们首先使用[ 26 ]中提出的方法从深度图像中裁剪手部区域，并采用全局折叠解码器的输出关节位置来分割手部区域的图像。纽约大学数据集。NYU数据集从三个不同的视图捕获。每个视图包含72 K训练8 K测试- ING与微软Kinect传感器捕获的深度图像根据最近的工作，我们只使用一个视图和14个关节，总共36个注释的关节进行训练和测试。我们还遵循与ICVL数据集中相同的手部区域分割过程。评估指标。我们用两个常用的度量来评估手部姿势估计性能：平均距离误差和成功率。平均距离误差测量整个测试集上所有关节的估计坐标和地面实况坐标之间的平均欧几里得距离。成功率是平均距离误差小于某个距离阈值的帧的分数。4.3. 与现有技术的我们将HandFoldingNet与其他最先进的方法进行比较，包括2D（深度图像）输入的方法：基于模型的方法（ DeepModel ） [46] ， DeepPrior [27] ，改进的DeepPrior（DeepPrior++）[26]，区域集成网络（Ren-4x 6x6 [14]，Ren-9 x6 x6 [42]），Pose-Ren [3]，密集回归网络（DenseReg）[42]，CrossInfoNetICVLMSRA纽约大学DeepModel [46]11.56-17.042DR[27]第二十七话10.4-19.732DR[14]第十四话7.63-13.392DR[42]第四十二话7.319.712.692DR[26]第二十六话8.19.512.242DR[3]第三季6.798.6511.812DR简体中文[CN]7.37.210.22DDCrossInfoNet [6]6.737.8610.082DRJGR-P2O [8]6.027.558.292DD3DCNN [11]-9.614.13DRSHPR-Net [4]7.227.7610.783DRHandPointNet [9]6.948.510.543DR[第12话]6.37.79.103DDV2V [24]6.287.598.423DD我们5.957.348.583DR11266图6.与使用ICVL（左）、MSRA（中）和NYU（右）数据集的最新方法的比较。成功率如图所示。图7. HandFoldingNet在ICVL（左），MSRA（中）和NYU（右）数据集上的定性结果。手深度图像被变换成3D点，如图所示地面实况以黑色显示，估计的关节坐标以红色显示[6]和JGR-P2 O [8]，以及具有3D（点云或体素）输入的方法：3DCNN [11]，SHPR-Net [4]，HandPointNet[9]，点对点[12]和V2 V [24]。图6显示了ICVL、NYU和MSRA数据集的成功率。定性结果如图7所示。表2总结了基于三个数据集上的平均距离误差的性能。结果表明，我们的方法优于现有的方法在ICVL数据集上，实现了5.95mm的平均距离误差。该模型还实现了MSRA数据集上的第二低误差和纽约大学数据集上的第三低误差。在使用3D输入的方法中，我们的方法在ICVL和MSRA数据集上都优于其他最先进的方法。此外，HandFoldingNet显示了所有三个数据集上基于回归的方法之间的最新性能图6表示当ICVL、MSRA和NYU数据集上的误差阈值分别低于10mm、13mm和25mm时，我们的方法实现了最高的成功率。4.4. 消融研究我们进行消融实验，评估模型中每个组件的性能影响基于ICVL数据集评估以下实验。局部折叠块的有效性。本实验通过附加所提出的局部折叠块来评估准确度的提高。为了与所提出的具有一个全局折叠和两个局部折叠块（三重折叠）的网络相比，我们引入了仅提供全局折叠的浅网络（单重折叠），具有只有一个局部折叠块（双折叠），以及具有三个局部折叠块（四折叠）的网络。表3显示了具有不同局部折叠数目的模型之间的性能比较。结果表明，局部折叠显著减小了距离误差。该实验证明，仅接受单个全局特征用于估计的全局折叠相对较弱，并且局部特征有助于最终关节坐标的校正尽管附加更多的局部折叠块增加了推理开销，但是与现有模型相比，所提出的模型（三重折叠）的参数和操作的数量并不显著然而，结果也表明，模型的性能饱和在三倍。原因是来自第三局部折叠的附加梯度破坏了反向传播并且使得训练更难。请注意，双折叠仍然优于具有较小参数大小和操作计数的几个基于点云的网络局部特征和空间依赖性。我们评估了聚合特征图的关键特征成分的贡献，这些关键特征成分是局部特征和空间依赖特征。我们进行了两个独立的实验：1）没有地方特色和2)没有空间依赖性。对于没有局部特征的情况，我们去除了聚集图中的分组局部特征分量，保留了空间依赖分量。对于无空间依赖的情况，我们去除了后置折叠嵌入，并保持了局部特征.表4显示平均距离误差增加了11267全球倍# 当地倍是说误差（mm）#参数FLOPs√√√√×1238.130.38M0.46G6.340.78M0.78G5.951.28M1.10G6.081.78M1.48G表3.模型中使用的不同数量的局部折叠块的比较#局部折叠指示在全局折叠解码器之后附接的局部折叠块的数目# Params表示网络参数的总数。FLOPs表示网络推理所需的浮点运算总数当地特征空间依赖是说误差（mm）# ParamsFLOPs√×√7.901.21M1.04G√√×6.351.08M0.91G5.951.28M1.10G表4.局部要素和空间依赖性之间不同设置的比较抽样水准是说误差（毫米）#参数FLOPs输入6.581.21M1.04G第一个（l=1）5.951.28M1.10G秒（l=2）6.481.34M1.17G表5.局部特征的不同集合抽象级别的比较。方法#参数速度时间（ms）GPU类型[24]第二十四话457.5M3.523 + 5.5Titan XHandPointNet [9]2.58M488.2+11.3GTX1080[第12话]4.3M41.88.2+15.7泰坦XP我们1.28M848.2+3.7Titan RTX表6.使用3D输入的方法的模型大小和推理时间的比较。速度代表单个GPU上的帧速率（fps）。时间代表总计算时间，包括预处理时间和模型推理时间。1.55mm，无局部特征。类似地，在没有空间依赖性的情况下，平均距离误差增加0.40mm。这些实验表明，这两个功能是至关重要的，以提高估计精度。同时，局部特征对性能的贡献更有效，因为它需要更小的参数和FLOP，同时实现比使用空间依赖性更好的性能。局部特征的采样级别。HandFoldingNet由PointNet编码器中的三个抽象层组成因此，我们应该仔细地确定抽象级别，使得局部折叠块可以有效地收集额外的局部特征。分析每-为了提高抽象层的性能影响，我们用输入、第一和第二集合抽象层作为局部折叠块的输入进行实验。表5表明，采用来自第一组提取级别的输出点云实现了最高性能，因为关节周围的相邻点是足够的（输入点是密集的），并且它们提供的特征是有效的信息（输入特征是复杂的）。另一方面，输入点云不够复杂，因为它仅包括3D表面法向量。因此，直接使用输入点云进行局部折叠在捕获可以改善性能的必要特征方面是无效的。相反，使用更高的抽象级别（采样级别2）会降低性能。虽然第二级特征足够复杂，但是点在3D空间中实际上是稀疏的因此，局部折叠不能分组足够的点。4.5. 运行时和模型大小HandFoldingNet在NVIDIA TITAN RTX GPU上的平均运行时间为每点帧11.9ms，其中预处理8.2ms，网络推理3.7ms。因此，它可以以大约84.0fps的速度实时运行。表6示出了我们的方法在基于3D输入的方法中具有最低的总延迟。我们的方法还实现了最快的推理点云为基础的方法，需要8.2ms的预处理时间。此外，我们提出的网络的参数的数量是足够小的，这是只有1.28M。与以前的国家的最先进的模型相比，我们的模型需要最少的参数。5. 结论在本文中，我们提出了HandFoldingNet，一种新颖的和高效的神经网络，以点云为输入和估计的3D手的姿态。所提出的网络实现了准确的关节坐标估计，通过利用多尺度特征，包括全局特征和关节的局部特征。三个具有挑战性的基准测试的实验结果表明，我们的网络优于以前的国家的最先进的方法，同时需要最少的计算资源。消融实验证明了其关键部件对更好的准确性和效率的贡献。确认这项工作部分得到了韩国政府资助的信息和通信技术规划评估研究所（IITP）对AI研究生院计划（IITP-2019-0-00421 ）和 ICT 创意一致计划（ IITP-2020-0-00821）的资助。程文灿得到了中国学校管理委员会的支持。11268引用[1] Panos Achlioptas，Olga Diamanti，Ioannis Mitliagkas，and Leonidas Guibas.三维点云的学习表示与生成模型。在机器学习国际会议上，第40-49页，2018年。三个[2] Andrew Brock、Theodore Lim、James M Ritchie和NickWeston。用卷积神经网络进行生成和判别体素建模。arXiv预印本arXiv：1608.04236，2016。三个[3] Xinghao Chen ， Guijin Wang ， Hengkai Guo ， andCairoong Zhang.用于级联手部姿态估计的姿态引导结构区域集成网络。神经计算，395：138- 149，2020。一、三、六[4] Xinghao Chen ， Guijin Wang ， Cairong Zhang ， Tae-Kyun Kim，and Xiangyang Ji. Shpr-net：从点云进行深度语义手部姿势回归。IEEE Access，6：43425一二三六七[5] 郑文灿和李素汉。点自动编码器及其在二维-三维变换中的应用。在International Sym-on Visual Computing中，第66-78页。Springer，2019年。3[6] Kuo Du，Xiangbo Lin，Yi Sun，and Xiaohong Ma.跨信息网：基于多任务信息共享的手部姿态估计。在IEEE/CVF计算机视觉和模式识别会议论文集，第9896-9905页，2019年。一、六、七[7] Ali Erol、George Bebis、Mircea Nicolescu、Richard DBoyle和Xander Twombly。基于视觉的手部姿势估计：综述。计算机视觉与图像理解，108（1- 2）：52-73，2007。一个[8] Linpu Fang ， Xingyan Liu ， Li Liu ， Hang Xu ， andWenxiong Kang. Jgr-p2 o：基于联合图推理的像素到偏移预测网络，用于从单个深度图像估计3d手部姿势欧洲计算机视觉会议，第120-137页。Springer，2020年。六、七[9] 刘浩、蔡玉军、翁君武、袁俊松。手点网：使用点集的3d手姿态估计。在IEEE计算机视觉和模式识别会议论文集，第8417-8426页一二三六七八[10] Liuhao Ge ， Hui Liang ， Junsong Yuan ， and DanielThalmann.单深度图像中的鲁棒3d手部姿态估计：从单视图cnn到多视图cnn。在IEEE计算机视觉和模式识别会议论文集（ Proceedings of the IEEE conference oncomputer vision and patternrecognition），第3593-3601页，2016年。第1、3条[11] Liuhao Ge ， Hui Liang ， Junsong Yuan ， and DanielThalmann.3D卷积神经网络，用于从单个深度图像进行高效和鲁棒的手部姿势估计。在IEEE计算机视觉和模式识别会议论文集，第1991-2000页，2017年一、三、六、七[12] 六号戈，周仁，袁俊松。点到点回归点网络用于三维手姿态估计。在欧洲计算机视觉会议（ECCV）的会议记录中，第475-491页，2018年一二三六七八[13] Rohit Girdhar，David F Fouhey，Mikel Rodriguez，andAb-hinav Gupta.学习一个可预测的生成向量对象的表示在欧洲计算机视觉会议上，第484-499页施普林格，2016年。三个[14] Hengkai Guo，Guijin Wang，Xinghao Chen，CairoongZhang，Fei Qiao，and Huangzhong Yang.区域集合网络：改进卷积网络用于手部姿态估计。2017年IEEE图像处理国际会议（ICIP），第4512-4516页IEEE，2017年。一、三、六[15] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。五个[16] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。在机器学习国际会议上，第448-456页。PMLR，2015. 六个[17] CemKeskin，FurkanKırac ，YunusEmreKara，andLaleAkarun.使用多层随机决策森林的手部姿势估计和手部形状分类。欧洲计算机视觉会议，第852Springer，2012. 三个[18] Sameh Khamis，Jonathan Taylor，Jamie Shotton，CemKe- skin，Shahram Izadi，and Andrew Fitzgibbon.从深度图像学习手形变化的有效模型。在IEEE计算机视觉和模式识别会议论文集，第2540-2548页，2015年。三个[19] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。六个[20] Rui Li，Zhenyu Liu，and Jianrong Tan.三维手势估计综述：相机、方法和数据集。Pattern Recognition，93：251-272，2019。一个[21] 李世乐和李东赫基于点到位姿投票的残差置换等变层手部位姿估计在IEEE计算机视觉和模式识别会议论文集，第11927-11936页一、二、三[22] Hui Liang，Junsong Yuan，and Daniel Thalmann.解析深度图像中的手。IEEE Transactions on Multimedia，16（5）：1241-1253

下载后可阅读完整内容，剩余1页未读，立即下载