半监督学习下的3D手部姿态估计方法SO-HandNet的优异性能验证

137 浏览量更新于2023-10-13 收藏 2MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

6961SO-HandNet：基于半监督学习Yujin Chen1，Zhigang Tu1 *，Liuhao Ge2，Dejun Zhang4，Ruizhi Chen1，Junsong Yuan31武汉大学，武汉，中国2新加坡南洋理工大学3纽约州立大学水牛城分校Buffalo，NY，美国4中国地质大学，中国{yujin.chen，tuzhigang，ruizhi.chen}@whu.edu.cnge0001ao@e.ntu.edu.sgzhangdejun@cug.edu.cnjsyuan@buffalo.edu摘要3D手势估计最近取得了重大进展，其中卷积神经网络（CNN）发挥了关键作用。然而，大多数现有的基于CNN的手部姿态估计方法在很大程度上依赖于训练集，而在训练数据上标记3D手部姿态是费力且耗时的。受自组织网络（SO-Net）[18]中提出我们利用手部特征编码器（HFE）从手部点云中提取多层次特征，然后通过手部姿态估计器（HPE）融合它们以回归 3D 手部姿态。我们设计了一个手特征解码器（HFD），以恢复输入点云的编码功能。由于HFE和HFD可以在没有3D手部姿态标注的情况下进行训练，所提出的方法能够在训练阶段充分利用未标注的数据在四个具有挑战性的基准数据集上的实验验证了我们提出的SO-HandNet可以通过半监督学习实现3D手部姿态估计的优异性能。1. 介绍手是人体在日常生活中的重要组成部分。由于其在人机交互、计算机图形学、虚拟/增强现实等领域的广泛应用，实时三维手势自动估计技术受到了广泛的关注经过多年的深入研究，3D手部姿态估计在准确性和精确性方面都有了显著的进步。※通讯作者：tuzhigang@whu.edu.cn图1.概述我们提出的SO-HandNet用于3D手部姿势估计。在训练阶段，我们同时使用注释数据和未注释数据来训练模型。对于具有3D手部注释的训练数据，从编码的特征预测3D手部姿势和新的点云并通过点云倒角损失和手部姿态损失对对于没有3D姿态标注的训练数据，我们使用点云倒角损失来优化HFE和HFD。在测试阶段，HFE和HPE被用来估计3D手部姿态。效率[5，7，10，11，12，13，21，22，23，24，29，33，35，36，39，41]。大多数提出的现有技术的3D手部姿态估计方法是基于卷积神经网络（CNN）的。由于CNN在处理图像方面表现良好，许多作品修改了2D CNN以处理深度图像[36]或其2D投影[11]。然而，由于缺乏3D空间信息，由2D CNN提取的特征不直接适用于3D姿态估计为了更好地捕捉深度数据的几何特征，最近6962研究[12，21]将深度图像转换为3D体积表示，然后使用3D CNN来估计手部姿势。然而，3D体积具有相当大的存储器和计算需求[37]。虽然这些方法在估计精度方面取得了显著的进步，但它们通常需要大量的难以获得的完全注释的训练数据。只有少数方法[3，25，31，38]考虑使用未注释的数据来训练手部姿势估计网络。[31，38]使用具有共享潜在空间的生成深度神经网络来学习手部模型。[38]尝试通过变分自动编码器和生成对抗网络的组合来学习手部姿势的流形然而，他们的方法需要在两个独立的主流之间建立一个映射函数，这使得网络很难训练。[3]利用合成大小的数据来丰富现有的数据集，但合成深度图与真实世界的数据不同。[31]提出从图像中学习单个潜在空间，这不能充分利用深度图像中的3D信息。为了解决这些问题，受SO-Net [18]最近工作的启发，该工作利用空间分布来执行点云的分层特征提取，并提出点云自动编码器作为预训练以提高网络性能，我们的目标是直接从3D点云回归3D手部姿势，并在半监督训练阶段使用点云自动编码器机制。[10]是第一个直接从3D点云回归手部姿势的工作。与[10]中的PointNet++ [28]相比，我们的HFE中的自组织网络通过系统地调整感受野重叠来执行分层特征提取因此，我们的方法的特征编码器能够揭示输入点云的空间分布。最重要的是，我们应用了一个自动编码器结构，其解码器从点集的全局表示中恢复点云。为了学习更具鉴别力的全局特征，我们将恢复的点云与原始点云进行比较。因此，我们能够将注释数据与未注释数据相结合来训练网络。自动编码器的想法最近已被应用于手部姿势估计任务[31]。与我们的方法不同，它们直接处理RGB图像或深度图像。如图1所示，我们提出了一种用于从单个深度图像进行3D手部姿势估计的端到端回归方法。深度图像首先被转换成一组3D点。然后对点集进行采样和归一化，然后输入网络。利用编码器通过分层提取机制将输入点云编码为全局特征，并收集称为节点特征的全局特征和节点特征都用于3D手部姿态估计。另外，在训练阶段，所获得的全局特征可以重建点云以与原始输入点云进行比较。因此，我们通过最小化重建点云与原始点云之间的间隙来优化全局特征的表示能力。所提出的方法的优点是显而易见的，当应用到的情况下，训练集的一部分是注释和其余的是未注释的。在这种情况下，我们使用标记的数据来训练整个网络，使用未标记的数据来帮助训练编码器和解码器。总之，我们的方法具有以下贡献：• 我们提出了直接从3D点云估计3D手的姿态与半监督学习。我们设计了一个半监督训练策略，利用少量的标注数据对整个流水线进行训练，充分利用未标注数据对网络进行优化。• 针对三维手位估计，提出了一种新的点云编码解码机制来提取和评估fea。真的。自组织编码器在自组织映射的指导下，通过分层提取特征，对点云的空间解码器从编码的全局特征重构手部点云，这有助于学习点云编码器。• 我们进行全面的实验四手姿态估计数据集。实验结果表明我们提出的SO-HandNet比最近的半监督方法表现得更好。此外，它优于或与最先进的全监督方法相当。2. 相关工作手部姿势估计。由于具有成本效益的深度传感器（如Microsoft Kinect [46]和Intel RealSense [15]）的重大进步和进展，基于深度的手部姿势估计领域已变得很有吸引力。基于深度的手部姿态估计方法可以分为生成方法、判别方法和混合方法。手部姿势估计的全面综述可以在[34，43]中找到。我们3D手部姿势估计方法与应用深度神经网络的判别方法有关。Tompson等[36]首先将CNN应用于手部姿势估计任务。他们训练CNN输出热图图像，然后推断相应的3D手部姿势。然而，3D空间信息在2D热图中丢失Ge等人[11]通过将深度图像投影到多视图上，然后从多个热图恢复3D坐标来解决这个问题。Ge等人[12]将点云编码为手的3D体积表示，并使用3D CNN来直接回归3D手部姿势。Ge等人[10]提出了一个Hand-PointNet来直接处理用于手部姿势估计的3D点云，并设计了一个指尖细化网络来细化指尖位置。Moon等人[21]利用使用3D体素化网格的体素到体素预测，并估计每个关键点的每体素可能性。此外，还有结合语义分割[6]、在骨架空间中增强数据[3]和引导学习的方法6963合成图像[29]。最近，半监督学习已被用于手部姿态估计任务。Wan等人。 [38]使用两个具有共享潜在空间的深度生成模型来建模深度图像和相应手部姿势的统计关系。他们设计了一种架构，以半监督的方式从未标记的数据中学习。Spurr等人[31]提出通过跨模态训练的潜在空间经由生成的深度神经网络来学习他们还通过交叉训练使用未标记的数据。[25]使用标记的合成和未标记的真实数据来学习真实数据和合成数据之间的特征映射。我们的方法受到[10]的启发，但本质上与它不同。采用多尺度和多分辨率分组来组合来自多个尺度的特征。此外，我们的特征编码器可以显式地模型的空间分布的输入点集。此外，该方法设计了一个半监督的训练模式，为特定的情况下。3D深度学习3D深度学习与大型3D数据集一起兴起，如ShapeNet [4]和Mod- elNet [40]。3D数据可以被表示为光栅化形式（例如，多视图图像和体积）或Geomet-Ric形式（例如，多边形网格，点云和基于图元的CAD模型），并且有深度学习方法[14，16，20，26，27，28，30，32，40，42]来处理它们。我们的工作与直接将点云作为输入的方法密切相关。Qi等人[26]目前PointNet是通过深度学习直接处理点云的先驱。它们使用对称最大池来将局部点特征聚合到一个全局描述符中，该全局描述符对输入点的排列是不变的。后来，他们设计了PointNet++ [28]，将点分成不同级别的几组，以分层地从不同尺度提取特征。通过组合和修改先前的工作PointNet [26]和NetVLAD[2]，Uy等人.利用Point-NetVLAD方法[1]。该深度网络允许端到端训练和推理以从输入3D点集提取全局描述符。Li等[19]提出了PointCNN，它使用典型的CNN从点云中学习特征在SO-Net [18]中，Liet al.提出了一种置换不变自组织网络（SO-Net），该网络在特征提取过程中对输入点云的空间分布进行了显式建模。网络的感受野可以通过进行点到节点的k近邻搜索来系统地调整。在本文中，我们使用一个架构，如SO-Net进行分层特征提取输入点云。关于SO-Net的更多细节在第3.1节中给出。3. 该方法类似于[10]，我们的手部姿势估计方法是基于回归的方法。通常，手姿态回归方法将包含手的深度图像作为输入。并输出相机坐标系（C.S.）中的3D手关节的估计位置将手深度图像转换成一组3D点，并且在输入到网络之前对点进行在这项工作中，我们显示了一个管道，由三部分组成。首先利用HFE进行层次化特征提取，然后利用HPE融合多层次特征，回归三维手势。此外，我们利用HFD优化的特征编码过程中的训练阶段。在下文中，我们首先简要介绍了点云预处理的流水线，并回顾了SO-Net的机制，这是专为点云分析，然后描述我们提出的手姿态估计方法。3.1. 再访销售订单网络SO-Net [18]是一种用于无序点云深度学习的置换不变架构。该网络通过构建自组织映射（SOM）[17]对一组点的空间分布进行建模，然后对单个点和SOM节点进行分层特征提取，最终产生输入点云的判别特征。如图2所示，具有构建大小为M=m×m的二维表示，以产生输入N个点的 SOM是CON-通过无监督竞争学习方法构建。给定SOM的输出，进行点到节点的k个最近邻（kNN）搜索。在该过程中，在SOM节点S上针对每个点pi搜索kNN。通过与相关联的节点相减，每个pi被归一化为k个点，因此点云被变换为kN个归一化点。采用一系列完全连接的层来提取单个点特征。在上述kNN关联之后，进行逐通道最大池化操作以从与对应SOM节点相关联的点特征获得节点特征。然后将M个节点特征转发到一系列共享层中，并聚合成表示输入点云的全局特征。与通过分组策略处理点云的PointNet++[28]相比， SO-Net利用了高效的分离和组装图2. 左：8×8自组织映射（SOM）的初始节点。右图：SOM训练结果示例。在无监督竞争学习过程之后，节点与输入点云很好地拟合6964i=1i=1i=1i=1图3.我们提出的SO-HandNet的体系结构。在HFE中，输入点N×C用k-最近的SOM节点归一化。在一系列共享FC层之后，归一化点被转换为点特征，然后最大池化为节点特征，这些节点特征相应地聚合成全局表示。在HPE中，由HFE提取的多级特征被组合，然后被转发到FC层中以回归输出姿态。在该图中，N是指点编号，C是指输入通道（当仅输入点时C等于3，并且当还应用每个点的表面法线时C等于6），k是指kNN搜索中的k个邻居，M是指节点编号，N是指接头编号。由于SOM能够很好地描述点的空间分布，3.2. 点云处理首先根据深度相机的内部参数将手深度图像转换成一组3D点。为了提高计算效率，将3D点集采样为N个点。在我们的实现中，我们将采样点的数量N设置为1024，并将采样的3D点集变换和归一化到定向边界框坐标系（OBB C.S）[10]中。原始手部点云可以在相机C. S.中具有多个取向。但归一化到OBB C. S后，点云的方向更加一致[10]中的实验表明，基于OBB的点云归一化可以提高分层点特征提取的性能。3.3. 手部姿态回归网络我们设计了一个端到端的可训练网络用于3D手部姿态估计。姿势回归问题输入一组cloud.如图3所示，我们重建了SO-Net [18]的编码器来处理我们的手部点云。在SOM的指导下，编码器能够分层地捕获特征，并输出包括点特征、节点特征和全局特征的多层次特征HFE的输入可以仅是归一化的点坐标或坐标和表面法向量的组合。利用SOM引导的kNN搜索，将输入转换为kN规格化点，然后利用一系列共享的全连通层提取单个点特征。将得到的点特征馈送到通道最大池中以获得节点特征。相应地，节点特征被转发到一系列共享层，并被聚合为表示整个输入点集的全局向量。手特征解码器（ HFD ）。我们设计了一个HFDfHFD来从编码的全局特征向量中恢复输入点云。如图4所示，我们从具有两个并行分支的网络生成点云[8，18]，即完全连接的分支和反卷积。的归一化点X={xi}N={（pi，ni）}N和分支。在[8]中已经证明了两个分支输出估计的姿态 ={（xi，yi，zi）}NJ具有三维的Nj个手部关节，其中pi是3D是点的坐标，并且是3D表面法线。回归函数fr由以下等式给出P=fr（X，θr），（1）其中θr是回归函数fr的可训练参数。在我们的方法中，我们应用深度CNN来优化参数θ r，以便最小化估计的手部姿势P和地面真实手部姿势P之间的差距。手部特征编码器（HFE）。我们的HFEfHFEhierarchically-chically从输入点提取多级特征该方法在生成点云时具有更好的性能比单分支方法。全连通分支预测N？1个点。该分支帮助解码器获得高灵活性，因为每个点被独立地预测。反卷积分支预测一个大小为3×W×H的特征矩阵，其中N1=W×H是点的数量由于convo引起的空间连续性-在分层中，恢复的点更具有几何一致性。此外，与完全连接的分支相比，该分支的权重共享有助于其需要更少的参数。上面介绍了HFD的设计，我们提出使用倒角距离（CD）作为我们的解码器损失（LossD）来评估恢复的图像之间的相似性。6965|X|图4.手部特征解码器（HFD）的架构，其采用输入点云并恢复新的点云。FC分支独立地预测每个点，并且在描述复杂结构方面表现出良好的性能。上卷积分支由去卷积和卷积组成，并且用于利用空间连续性。conv2pc模块由两个1 ×1卷积层组成。两个分支的预测稍后合并在一起以形成整个点集。点云Xr∈R3和输入点云X∈R3：数据集。我们介绍了一种半监督训练方法损失D1（Xr，X）=Σ2最小值x−y2使用较少注释的数据来训练适用的手部姿势充分利用未注释数据的估计模型|x ∈ Xr|x∈Xr1Σ2+min x-y 2。x∈Xry∈X（二）（如图1所示）。当使用未注释的数据来训练网络时，HFD恢复新的点云，将其与原始点云进行比较，然后计算点云倒角损失损失D。在这种情况下，注意，X和Xr中的点的数量不一定相同。对于每个点，CD在另一个点集中找到最近的邻居，并将距离相加。Hand Pose Estimator（HPE）.为了从HFE中提取的特征恢复手部姿态，我们构造了HFE手部姿态估计器。由于多层次特征是在编码器的流水线中获得的，因此它们可以作为HPE的输入。但是这些特征是否对姿态估计有影响需要验证。根据不同层次特征的特点和组合方法，构造了四种HPE输入特征输入可以是全局特征或其他三个变体（如图5所示），我们在第4.1节中比较了这些不同融合方法的性能。集成的功能被转发到一个共享的全连接层，以确保每个通道具有相同的大小，然后使用平均池融合冗余信息。此外，还采用了一系列全连接层来回归手部关节的坐标。当训练网络时，我们使用欧几里得距离（ED）作为预测姿势的损失函数，如等式中定义的：训练损失Losst1定义为：损失t1=损失D。（四）该训练LossLosst1被应用于优化HFE和HFD。当使用注释数据来训练网络时，除了通过HFD计算倒角损失损失D之外，HPE预测3D手部姿势并计算姿势损失损失E。对于注释数据，训练损失Losst2定义为：损失t2=λ×损失E+损失D，（5）其中λ是加权因子。训练损失Losst2用于优化整个网络。4. 实验在本节中，为了评估所提出的方法，选择四个具有挑战性的公开可用的手部姿势数据集进行实验。ICVL数据集[35]包含22，059帧用于训练，1，596帧用于测试。该数据集提供了每个帧的16个手部关节的地面真实值。MSRA数据集[33]包含超过76K帧损失E（P，P）=1|NJ|ΣNJi=12（posei−posei2），（3）9个科目。每个实验对象都有17个手势每个姿势具有大约500帧。对于每个帧，数据集提供手部区域的边界框以及21个手部关节的坐标继前其中，位置i是第i个关节的预测坐标，并且姿态i是对应的地面真实坐标。3.4. 半监督训练当构造用于3D姿态估计的地面实况时，注释用于3D姿态估计的地面实况既具有挑战性又耗时。作品，我们利用留一个主题的交叉验证策略进行评估。NYU数据集[36]包含72，757个训练集框架和8，252个测试集框架。对于每一帧，提供来自3个Kinect的RGBD数据。在我们的实验中，我们只使用深度图像。地面实况包含J=36个注释关节，我们对y∈X6966图5.特征融合策略。(a)融合M个通道中的全局和节点特征。(b)在kN通道中融合全局和节点特征。(c)在kN通道中融合全局、节点和点特征。J=14个手部关节的子集为[7，10，12，39]，并且我们仅使用视图 1 进行训练和测试。 HANDS 2017Challenge Frame Based Dataset[44]包含957k训练帧和295k测试帧，这些帧是从BigHand2.2M [45]和FHAD[9]数据集中采样的该数据集有21个注释关节。我们用两个常用的指标来评估手部姿势估计的性能。第一个度量是所有测试帧上的欧几里得空间中的每关节平均误差以及所有测试帧上的所有关节的总体平均误差。第二度量是其中最大联合误差低于阈值的好帧的分数。对于网络结构，我们输入采样和归一化点以及表面法向量。采样点的数量N被设置为1024，并且kNN搜索的k为3。我们选择一个8×8的SOM。我们的实验是在PyTorch框架下进行的。英特尔至强E5-2620工作站，64 GB内存和NVIDIATITAN Xp GPU。4.1. 自我比较融合战略的影响。为了更好地表示输入点云，HFE分层提取多级特征：点特征、节点特征和全局特征。首先，我们想知道节点特征和点特征是否实际上有助于姿势回归。我们使用全局特征作为HPE的输入作为基线方法，并构建三种融合策略来组合特征（如图5所示）。（a）全局+节点特征（v1）。全局特征向量被重复M次，然后与M个节点特征连接。（b）全局+节点图6. ICVL数据集的自我比较。显示了融合策略对每个关节平均误差和总体平均误差的影响。图7.ICVL数据集的自我比较我们的模型的平均误差训练监督和半监督与注释数据的百分比。特征（v2）。全局特征向量被重复kN次，然后与kN个相关联的节点特征连接。（c）全局+节点+点特征。将全局特征和节点特征转换为上述kN特征，然后将全局、节点和点特征组合为集成特征。我们在ICVL数据集上评估了这些不同的融合策略。值得注意的是，不同组合特征的大小对我们的估计过程没有影响，因为进行共享FC和平均愚弄以将组合特征转换为固定大小。如图6所示，全局+节点特征（v1）获得最高的准确性。与仅使用全局特征相比，融合节点特征提高了性能。我们还比较了两种融合策略，将全球和节点的功能，并发现v1优于v2。此外，添加点特征的先验融合没有贡献，并轻微损害性能。半监督学习的影响。我们研究了半监督学习对ICVL数据集和基于HANDS 2017 Challenge Frame的数据集的影响。在相同的网络架构下，我们使用来自训练集的部分注释数据来训练整个网络，同时使用其余数据来训练自动编码器，而不使用它们的姿势信息。如图7所示，6967与仅使用ICVL数据集上相同大小的注释数据进行训练的方法相比，当使用25%，50%和75%的注释数据进行模型训练时，半监督训练相应地提高了13.2%，11.7%和0.7%。当带注释数据的比率很小时例如25%，使用未标记的数据可以得到显着改善的手姿态估计。通过半监督方案使用25%注释数据进行训练的性能与正常方案中使用50%注释数据进行训练的性能相当。当比较使用50%的方法的性能时，也可以观察到该特征。方法平均误差（mm）LRF12.6深度优先级11.6深度模型10.4穿越网10.2Cascade 9.9HBE 8.6我们的7.7V2V-PoseNet 6.3表2.平均误差与ICVL数据集最新技术水平的比较。用于以半监督方式训练的注释数据用75%的标注数据进行常规训练的方法。在HANDS2017 Challenge Frame- based Dataset上，我们使用10%的标注数据以及其余未标注数据进行模型训练，改进也很明显（如表1所示）。在15个时期后，全监督训练的平均误差为40.03 mm，而我们的半监督训练的平均误差为24.65 mm。请注意，在我们的实验中没有实施数据增强。方法全监督我们的半监督平均误差40. 03 mm 24.65 mm表1.我们的模型的平均误差在HANDS 2017 Chal- lenge基于框架的数据集上使用10%的标记数据进行监督和4.2. 与最新技术我们将我们的方法与一些最先进的方法进行比较，包括 LRF [35] ， Deep Model [47] ， DeepProir [23] ，Crossing Nets [38]，Cascade [33]，HBE [48]，V2 V-PoseNet [21]。如表2所示，在没有任何数据增强的情况下，当利用所有带注释的训练数据时，我们获得了相当的准确率。我们得到了比其他所有的方法，除了V2 V-PoseNet的效果更好。值得注意的是，我们使用更少的数据来训练网络，我们的计算成本也要低得多（如表3所示）。在一般情况下，我们获得了可比的性能与国家的最先进的监督方法在实时手姿态估计。为了验证半监督训练策略的有效性，我们将我们的方法与最先进的方法[3，31，38]进行了比较，后者也旨在解决数据注释的挑战。与所提出的减少用于训练的带注释数据量并充分利用未注释数据的方法不同，Baek等的关键思想。[3]是合成骨架空间中的数据以用于数据增强。Beak等人的注释帧的百分比。是100%，他们通过比原始模型大10倍左右的增强集来方法参数数量测试速度V2V-PoseNet457.5M3.5fps我们16.6M58fps表3.单个GPU上的参数数量和测试时间的比较。图8.与ICVL（左）和NYU（右）数据集上的交叉网络比较半监督训练模型的平均误差与注释数据的百分比。训练集从表4中可以看出，与[3]相比，我们的方法在使用相同数量的注释数据时获得了更好的性能，而且，我们的方法在仅使用部分注释帧时也优于它们。交叉网[38]是在半监督设置中执行准确手部姿势估计的里程碑式作品之一。我们将我们的方法与[38]进行比较，其中注释的训练数据的百分比相同。如图8和表4所示，我们的方法在大多数实验中优于它们。更重要的是，当标注帧的数量从25%增加到75%时，他们的方法几乎没有改进，而我们的方法得到了显着的提升。图9显示，我们的方法在三个数据集上的大多数错误阈值上比最近的半监督方法[31，38]具有更好的性能。在NYU数据集上，当最大允许距离在20 ~ 30 mm之间时，本文方法的好帧率比它们高30%左右。在MSRA数据集上，当最大允许距离在20mm和30mm之间时，我们的方法的好帧分数比它们高约15%在ICVL数据集上，6968图9.我们的方法与最近最先进的半监督方法在NYU（左），MSRA（中）和ICVL（右）数据集上的比较。在该图中呈现了在不同错误阈值上的好帧的比例。方法注释帧用法增强集ICVL（mm）NYU（mm）Beak等人（基线）100%没有12.117.3Beak等人（w/o aug.;精炼）100%没有10.416.4Beak等人（不含精制）100%是的，10次9.114.9Beak等人百分百是的，10次8.514.1百分之二十五没有10.516.1交叉网50%没有10.016.0百分之七十五没有10.115.9百分百没有10.215.5百分之二十五没有11.114.9我们的50%没有9.414.1百分之七十五没有9.112.8百分百没有7.711.2表4.我们的工作与ICVL和NYU数据集上的半监督方法的比较。我们通过测试估计误差以及用于模型训练的注释数据和总数据的百分比来评估性能。我们的网络产生更好的准确性和更适用于情况下，注释数据是有限的。当最大允许距离为15%时，我们的方法的好帧的分数比[31]好约10%，比[38]好约20%。总之，我们的方法提供了一个实用的模式，以减少对注释的数据在手姿势估计任务的依赖，并优于最近的半监督方法。4.3. 运行时和模型大小测试时间平均为17.2ms，其中点采样和面法向计算等数据处理时间平均为8.2ms，手位估计时间平均为9.0ms。我们的方法以大约58fps的速度实时运行。此外，HFE、HFD和HPE的尺寸分别为8.1M、74M和8.5M。由于我们只在测试阶段使用HFE和HPE，因此我们网络的模型大小为16.6MB。5. 结论在本文中，我们提出了一种新的网络，从一个单一的深度图像的3D手姿态估计。更好地为了更好地表示原始数据并更有效地进行特征提取，我们将深度图像转换为点云，并通过自组织编码器提取多级特征。融合多层次特征，回归准确的3D手部姿势。此外，我们利用一个解码器来优化训练阶段的编码过程。此外，为了减轻训练数据上费力的3D手部姿势注释的负担，我们建议以半监督的方式使用注释数据和未注释数据来训练我们的手部姿势估计网络。在四个数据集上的实验结果表明，我们提出的 SO-HandNet在深度图像的3D手部姿势估计的半监督训练中取得了优异的性能。致谢：这工作是在部分中国国家重点研究发展计划（批准号： 2018YFB1600600，2016YFB0502200和2016YFB0502201）。这项工作也得到了布法罗大学启动资金的部分支持。6969引用[1] Mikaela Angelina Uy和Gim Hee Lee。Pointnetvlad：基于深度点云的检索，用于大规模地点识别。在IEEE计算机视觉和模式识别会议论文集，第4470-4479页[2] Relja Arandjelovic，Petr Gronat，Akihiko Torii，TomasPa-jdla，and Josef Sivic. Netvlad：用于弱监督位置识别的CNN架构。在IEEE计算机视觉和模式识别会议论文集，第5297-5307页[3] Seungryul Baek，Kwang In Kim，and Tae-Kyun Kim.基于深度的手部姿态估计的增强骨架空间转移在IEEE计算机视觉和模式识别会议论文集，第8330-8339页，2018年。[4] AngelXChang ， ThomasFunkhouser ， LeonidasGuibas，Pat Hanrahan，Qixing Huang，Zimming Li，Silvio Savarese ， Manolis Savva ， Shuran Song ， HaoSu，et al. Shapenet：一个信息丰富的3D模型存储库。arXiv预印本arXiv：1512.03012，2015。[5] Xinghao Chen ， Guijin Wang ， Hengkai Guo ， andCairoong Zhang.用于级联手部姿态估计的姿态引导结构区域集成网络。神经计算，2019。[6] Xinghao Chen ， Guijin Wang ， Cairong Zhang ， Tae-Kyun Kim，and Xiangyang Ji. Shpr-net：从点云进行深度语义手部姿势回归。IEEE Access，6：43425[7] Xiaoming Deng，Shuo Yang，Yinda Zhang，Ping Tan，Liang Chang，and Hongan Wang.Hand3d：使用3D神经网络进行手部姿势估计。 arXiv 预印本 arXiv ：1704.02224，2017。[8] Haoqiang Fan，Hao Su，and Leonidas J Guibas.从单幅图像重建三维物体的点集生成网络在IEEE计算机视觉和模式识别会议论文集，第605-613页[9] Guillermo Garcia-Hernando 、Shanxin Yuan 、 SeungryulBaek和Tae-Kyun Kim。第一人称手部动作基准标记，带有rgb-d视频和3d手部姿势注释。在IEEE计算机视觉和模式识别会议论文集，第409-419页[10] 刘浩、蔡玉军、翁君武、袁俊松。手点网：使用点集的3d手姿态估计。在IEEE计算机视觉和模式识别会议论文集，第8417-8426页[11] Liuhao Ge ， Hui Liang ， Junsong Yuan ， and DanielThalmann.单深度图像中的鲁棒3d手部姿态估计：从单视图cnn到多视图cnn。在IEEE计算机视觉和模式识别会议论文集（ Proceedings of the IEEE conference oncomputer vision and patternrecognition），第3593-3601页[12] Liuhao Ge ， Hui Liang ， Junsong Yuan ， and DanielThalmann.3D卷积神经网络，用于从单个深度图像进行高效和鲁棒的手部姿势估计。在IEEE计算机视觉和模式识别会议论文集，第1991-2000页，2017年[13] Hengkai Guo，Guijin Wang，Xinghao Chen，CairoongZhang，Fei Qiao，and Huangzhong Yang.区域集合网络：改进卷积网络用于手部姿态估计。2017年IEEE图像处理国际会议（ICIP），第4512-4516页IEEE，2017年。[14] Evangelos Kalogerakis ， Melinos Averkiou ， SubhransuMaji，and Siddhartha Chaudhuri.3D形状分割与投影卷积网络。在IEEE计算机视觉和模式识别会议论文集，第3779-3788页[15] Leonid Keselman，John Iselin Woodfill，Anders Grunnet-Jepsen，and Achintya Bhowmik.英特尔实感立体深度相机。在IEEE计算机视觉和模式识别研讨会会议集，第1-10页[16] 罗曼·克洛科夫和维克多·伦皮茨基逃离细胞：用于三维点云模型识别的深度kd网络。在IEEE计算机视觉国际会议论文集，第863-872页[17] Teuvo Kohonen和Timo Honkela。Kohonen网络。Scholarpedia，2（1）：1568，2007.[18] Jiaxin Li，Ben M Chen，and Gim Hee Lee. So-net：用于点云分析的自组织网络。在IEEE计算机视觉和模式识别会议论文集，第9397-9406页，2018年[19] Yangyan Li，Rui Bu，Mingchao Sun，Wei Wu，XinhanDi，and Baoquan Chen.Pointcnn：x变换点上的卷积神经信息处理系统进展，第828-838页，2018年[20] Daniel Maturana和Sebastian Scherer。Voxnet：用于实时对象识别的3D卷积神经网络。2015年IEEE/RSJ智能机器人和系统国际会议（IROS），第922-928页。IEEE，2015年。[21] 文京植，张朱勇，李京武。V2v-posenet：体素到体素预测网络，用于从单个深度图进行准确的3d手部和人体姿势估计。在IEEE计算机视觉和模式识别会议论文集，第5079-5088页[22] Markus Oberweger和Vincent Lepetit Deepprior++：改进快速且准确的3D手姿态估计。在IEEE计算机视觉国际会议的论文集，第585-594页[23] Markus Oberweger，Paul Wohlhart，and Vincent Lepetit.深入学习手部姿势估计。 arXiv 预印本 arXiv ：1502.06807，2015。[24] Markus Oberweger，Paul Wohlhart，and Vincent Lepetit.训练用于手部姿势估计的反馈回路。在IEEE计算机视觉国际会议的论文集，第3316-3324页[25] Georg Poier，Michael Opitz，David Schinagl，and HorstBischof. Murauer：为标签紧缩映射未标记的真实数据。2019年IEEE计算机视觉应用冬季会议（WACV），第1393IEEE，2019。[26] Charles R Qi， Hao Su ，Kaichun Mo， and Leonidas JGuibas.Pointnet：对点集进行深度学习，用于3D分类和分割。在IEEE计算机视觉和模式识别会议论文集，第652-660页[27] Charles R Qi，Hao Su，Matthias Nießner，Angela Dai，Mengyuan Yan，and Leonidas J Guibas.容量法和6970用于3D数据上的对象分类的多视图CNN。在IEEE计算机视觉和模式识别会议的论文集，第5648-5656页[28] Charles Ruizhongtai Qi，Li Yi，Hao Su，and Leonidas JGuibas. Pointnet++：度量空间中点集的深度层次特征学习。神经信息处理系统，第5099-5108页，2017年[29] Mahdi Rad ， Markus Oberweger ， and Vincent Lepetit.feature- ture mapping for learning fast and accurate 3d poseinference from synthetic images.在IEEE计算机视觉和模式识别会议论文集，第4663-4672页[30] Gernot Riegler、Ali Osman Ulusoy和Andreas Geiger。Octnet：以高分辨率学习深度3D表示在IEEE计算机视觉和模式识别会议论文集，第3577-3586页[31] Adrian Spurr 、 Jie Song 、 Seonwook Park 和 OtmarHilliges。跨模态深度变分手部姿势估计。在IEEE计算机视觉和模式识别会议的论文集，第89-98页[32] Hang Su，Subhransu Maji，Evangelos Kalogerakis，andErik Learned-Miller.用于三维形状识别的多视图卷积神经网络。在 Proceedings of the IEEE internationalconference on computer vision ， pages 945-953 ， 2015中。[33] Xiao Sun，Yichen Wei，Shu

下载后可阅读完整内容，剩余1页未读，立即下载