实时3D手部姿态估计的三分支卷积神经网络方法

198 浏览量更新于2023-10-13 收藏 950KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

HBE：用于实时3D手部姿态估计的Yidan Zhou1，Jian Lu2，Kuo Du1，Xiangbo Lin1 *，Yi Sun1，and XiaohongMa11大连理工大学，中国{shine0910，dumyy2728}@ mail.dlut.edu.cn{linxbo，lslwf，maxh}@ dlut.edu.cn2大连大学，中国大连lujian@dlu.edu.cn抽象。本文的目标是从单个深度图像估计手关节的3D坐标。为了兼顾准确性和实时性，我们设计了一种新的三分支卷积神经网络，称为手分支集成网络（HBE），其中三个分支对应于手的三个部分：拇指、食指和其他手指。HBE网络的结构设计灵感来自于对不同手指功能重要性差异的理解。此外，特征集成层以及低维嵌入层确保了整体手部形状约束。在三个公开数据集上的实验结果表明，我们的方法在训练数据更少、训练时间更短和帧速率更快的情况下，关键词：手势估计，深度图像，卷积神经网络1介绍三维手位估计的研究是计算机视觉、虚拟现实和机器人领域的一个热点[5，18]。随着深度相机的出现，基于深度图像的研究取得了重大进展[28]。然而，由于深度图像质量差，关节灵活性高，局部自相似性和严重的自遮挡，三维手部姿态的恢复仍然是一个挑战。通常，基于深度的手部姿势估计可以被分类为两种主要方法，作为基于生成模型的方法或基于判别学习的方法。基于模型的方法假设预定义的手模型，然后通过最小化特定目标函数- s [21，22，24，13，26，32，31]将其拟合到输入深度图像。然而，这些方法的精度是高度依赖于目标函数和敏感的初始化。此外，这种基于跟踪的模型方法难以处理两个相邻帧之间的大的变化，这在手倾向于移动时是常见的2Y.Zhou，J.Lu，K.Du，X.Lin，Y.Sun和X.Ma快了或者，基于学习的方法用大量数据训练模型，并且手部姿势参数可以直接回归以这种方式，逐帧检测手部姿势易于利用快速手部移动来处理最近，基于学习的方法已经在从单个深度图像估计手部姿势方面取得了显著的性能虽然传统的机器学习方法已经取得了重大进展，但它们的性能过于依赖手工特征[28，12，35，30，27]。近年来，深度学习方法因其能够自动学习有效特征而受到越来越多的关注早期的研究使用简单的2D卷积神经网络[20，33，39，16]从深度图像回归关节位置，该网络具有高帧速率但精度低为了提高精度，提出了不同的策略。一种方法是提高数据质量。[19]使用数据增强来减少预测误差。[8，17]将2.5D深度图像转换为3D体素表示，以利用3D空间结构。[23] 从高质量的合成图像中学习特征映射，一个真实的形象另一种方法是设计更复杂的网络来提取更多功能。[19，17，10，9]在他们的网络中添加了剩余模块[17，34]使用编码器和解码器来学习潜在空间中的特征。[8，17]应用3D CNN而不是2D CNN来估计每个手关节的3D位置的每体素可能性。通过结合上述有效策略，[17]在Hands In the Million（HIM2017）挑战赛中取得了最佳成绩到目前为止[36]。然而，他们的方法过于复杂的数据预处理过程和网络结构，以获得有效的训练和测试。为了在保证精度的同时提高效率，本文设计了一种高效且相对简单的卷积神经网络结构--Hand Branch Enhancement Network（HBE）。所提出的网络可以实现与最先进的研究相当的准确性，甚至比他们使用更少的训练数据和更短的训练时间，但更快的帧速率。图1给出了我们提出的网络结构的概述。核心思想是利用运动的先验知识和不同手指的功能重要性[29，2，15，4]。由于拇指和食指在抓握、操纵和交流中起着更重要的作用，而中指、无名指和小指在大多数情况下起着辅助作用，因此我们将五指结构简化为三个部分：拇指、食指和其他手指。相应地，所提出的HBE网络分别通过每个分支学习每个部分的特征。它充分利用了图像中对大小、方向和位置信息较为敏感的浅层低层特征，大大降低了计算复杂度和训练时间。此外，我们提出了一个分支集成策略，通过连接功能，从最后的全连接层的每一个分支，然后集成的功能被用来推断与extra回归层的联合坐标。与REN[10]在多个特征区域上训练单个全连接层并将其组合为集成不同，我们的集成策略直接利用不同手部部位的特征，这对于手部姿势估计更直观。受Deep Prior [20]的启发，我们添加了一个用于实时三维手位姿估计的手支集成网络3瓶颈层作为低维嵌入，以在输出层之前学习手部姿势Fig. 1. Hand Branch Ensemble（HBE）网络：基于五个手指的活动空间和功能重要性。最上面的分支控制拇指，中间的分支控制食指，最下面的分支控制其他手指。这些要素与一个附加的全连接图层和一个瓶颈图层集成在一起拟议的HBE网络在三个具有挑战性的基准上进行评估：HIM2017挑战数据集[37]、ICVL手部姿势数据集[30]和MSRA数据集[27]。实验表明，我们的方法取得的结果相当或优于国家的最先进的方法。总的来说，我们的贡献是：1. 我们提出了一个新的三分支卷积神经网络估计完整的3D手关节位置从一个单一的深度图像。结构设计灵感来自于对不同手指功能重要性差异的理解。此外，引入分支特征集成策略，将各分支的特征与全连接层和低维嵌入层进行融合，强调了不同手部的相关性，保证了整体手部形状的约束。2. 我们设计了一个相对轻量级的架构，并在公开可用的数据集上实现了与最先进的方法相当或更好的性能，具有更少的训练数据，更短的训练时间和更快的帧速率。本文的结构如下。在回顾了第2节中的相关工作实验结果和讨论在第4节中报告，并且在第5节中得出结论。手深J_接头*3瓶颈辍学批次正常FC_ALLT_接头 *3特色包围O_接头 *3I_接头 *3FC-Block FC-BlockConv-块FC-BlockConv-块Conv-块Conv-块Conv-块Conv-块4Y.Zhou，J.Lu，K.Du，X.Lin，Y.Sun和X.Ma2相关工作在本节中，我们简要讨论了基于深度学习的手部姿势估计工作，特别是与我们的方法密切相关的工作。由于深度学习的成功以及公共大型手部姿势数据集[30，27，33，38，6]，这些方法已经取得了良好的性能。然而，大多数研究直接通过单分支网络估计所有关节的手部姿势。Deep Prior [20]首次在网络中提出了一个瓶颈层来学习姿势先验，Deep Model [39]采用了基于正向运动学的层来确保估计姿势的几何有效性。尽管引入了手的物理约束，这些网络的性能不够好。为了提高准确率，单分支网络被设计得更复杂，以提取复杂的特征。[19]通过使用残差网络架构、数据增强和更好的手部分割，大大提高了Deep Prior的准确性。[17]也使用了残差块并将深度图像转换成3D表示形式。他们以体素到体素映射的方式实现了复杂的3D CNN进行预测。虽然精度有了明显提高，但数据转换和网络结构过于复杂，训练和测试过程耗时。REN [10]还在其特征提取模块中应用了残差块，并将最后一个卷积层的特征图划分为几个区域，这些区域被集成到随后的全连接层中。然而，REN使用均匀网格提取区域特征，而不考虑手特征图的空间信息。层次分支结构可以更好地建模手的拓扑结构。在REN的基础上，Pose-REN [3]通过迭代精化提高了精度与我们的方法类似，他们根据手部的拓扑结构但他们使用后验分支策略，侧重于迭代求精。相比之下，我们使用前支提取不同的手部分的特征。以这种方式设计的网络可以估计更简单的局部姿态，并让训练过程更快地收敛。通过后分支结构[16]基于手的几何结构使用6个分支来表示手腕和每个手指。与他们的工作不同，我们从生物学角度出发，从手部功能和运动学特征两个方面考虑，设计了一个前分支结构，先学习每个功能部分的特定此外，我们将最后三个手指分组在一个分支中，而不是每个手指一个分支，这保证了肌肉的关联加快了网络融合的速度。3方法在本节中，我们将详细说明我们提出的方法，网络结构和实现细节。我们的目标是估计J的三维坐标J关节：C={ci}i=1，其中ci=[xi;yi;zi]。用于实时三维手位姿估计的手支集成网络5我们设计了一种新的三分支卷积神经网络的基础上的功能重要性和活动空间的不同的手指，然后集成功能回归所有的三维关节位置。我们提出的HBE网络的概述如图所示。1.一、3.1网络架构手经常用于处理不同的任务，每个手指具有不同的重要性并占据不同的活动空间[2，15]。拇指具有独特的结构作为对生特征，在交流或灵巧操作中起着重要作用。因此，拇指是最重要的，由于最高的自由度和最大的活动空间，所以我们使用一个单独的分支来学习它的功能。虽然其他四个手指中的每一个具有相同的D0F，但是食指最接近拇指并且两个手指单独可以生成一些手势，因此食指是第二重要的并且被分配给单独的分支。考虑到最后三个手指之间的肌肉相关运动和活动的高度相关性，我们将它们分组在单个分支中。我们设计了基于上述手指功能重要性的手部姿态估计网络将手的五指结构简化为三个部分，分别对应于网络的三个分支。如图1，该网络中的三个卷积分支用于提取每个手部分的特征。由于中指、无名指和小指的功能不太重要，而且动作相似，因此我们将它们合并为一个部分，并将手的5指结构抽象地理解为3部分结构。每一部分都同等重要。因此，每个分支的特征提取网络结构相同。融合来自每个分支的特征以预测手部姿势。这里我们介绍分支集成策略：来自所有分支中的最后完全连接的层的特征被连接并用于推断具有额外回归层的3D关节坐标。应该指出的是，在输出层之前，受Deep Prior [20]思想的启发，我们添加了线性瓶颈层。瓶颈嵌入迫使网络学习手部姿势的低维表示作为网络中手部形状的全局物理约束。通过主成分分析（PCA）降低训练数据的标签维数（J×3），并将其用作瓶颈嵌入层的基础真值。将低维数据的主成分和均值最后，输出层将瓶颈层的低维预测恢复到原始的J×3维关节位置。3.2分支详细信息在设计特征提取层时，我们认为预测关节位置的回归问题与分类有相当大的不同6Y.Zhou，J.Lu，K.Du，X.Lin，Y.Sun和X.Ma对象识别的问题，因为语义特征是至关重要的后者。由于浅层网络学习更容易受到对象大小，方向和位置影响的低级空间特征。在图中示出了每个分支中的特征提取模块的公共卷积层和最大池化层。2.复杂的全局姿态的估计被简化为更简单的局部姿态的估计，使得网络能够更轻量并且更容易训练。一个更大的卷积核，可以获得更多图二、特征提取分支的结构细节。 Ci表示卷积层，MP表示最大池化层，FC表示全连接层空间信息和较大的感受野，是非常有用的位置回归和有效的推断闭塞关节。在每个分支上，我们使用两个5× 5卷积层的堆栈而不是一个更大的卷积层，这将获得与单个9×9卷积层相同大小的有效感受野，并减少参数的数量，如[25]中所计算的在特征映射模块中，我们在每个全连接层之后添加批量归一化（BN）层训练数据经过中间隐层处理后，其分布变化会累积起来，影响网络的训练。BN层有能力解决这种数据分布变化问题，使梯度传递更加流畅，提高训练模型的鲁棒性和泛化能力[11]。所有层都使用Rectified Linear Unit（ReLU）激活函数。3.3损失函数我们的网络的损失函数定义为：损失=L+λR（w）（1）FC1FC2FC-BlockC1 C2 MPC3 C4 MP--，××--，××Conv-BlockConv-Block-×-×辍学BN1024辍学BN2048（三、三）55 *3255 *32（三、三）55 *3255 *32用于实时三维手位姿估计的手支集成网络7其中λR（w）是L2范数正则化项，并且在我们的实验中正则化系数λ被设置为0.001。L是预测值和真实值之间的均方误差。具体来说，我们以以下形式定义损失项L=α×Lthumb+β×Lindex+γ×Lothers+σ×Ld（2）其中，Lthumb是拇指分支的损失，Lindex是食指分支的损失，Lothers是其他手指分支的损失，Lld是低维嵌入层的损失，并且{α，β，γ，σ}是平衡这些损失的因子。在我们的实验中，为了简化，我们将它们设置为1。设Ci是以3D形式预测关节位置的分支的输出，并且Ci是地面实况，Ci和Ci两者具有[xi;yi;zi]的形式。我们将每个分支的损失定义为：ΣJbLb=i=12ci−Ci其中Jb是每个分支中的关节数。对于瓶颈嵌入，设D是降维的数量，其远小于J×3，Pi是瓶颈层的输出，Pi是作为基础事实的降维训练标签。我们将低维嵌入的损失定义为：Ld= ΣDi=12pi−Pi3.4实现细节我们的网络的输入是一个只有手的深度图像，它是在数据集上经过一系列预处理步骤后生成的。首先，我们根据数据集提供的地面真值标签裁剪出手部区域，然后将裁剪后的图像填充成正方形，最后将其调整为128× 128，同时将手部深度值归一化为[-1，1]。大于最大手深度或由于噪点而不可用的像素值设置为1。这个深度归一化步骤对于网络适应从手到相机的不同距离是重要的。我们的模型在具有 Intel Core i7 CPU ， 32GB RAM 和 NVIDIAGTX1080 GPU的计算机上进行训练和测试我们的网络使用Tensorflow[1]框架在Python中实现除输出层外，所有权重均从具有0.01标准差的零均值正态分布该网络使用Adam [14]优化器进行反向传播训练，批量大小为128，用于100个epochs。我们使用初始值为0.001的动态学习率并且将脱落率设置为0.85（保持概率）。8Y.Zhou，J.Lu，K.Du，X.Lin，Y.Sun和X.Ma4实验在本节中，我们将在几个具有挑战性的公共手部姿势数据集上评估我们的Hand Branch Entrance（HBE）网络首先，我们介绍了这些数据集和我们的方法的参数。然后，我们描述的评估指标，最后我们提出并讨论我们的定量和定性的结果。4.1数据集我们在三个最近的公共手部姿势数据集上评估我们的网络：最新的高质量HIM2017挑战数据集[37]，传统的广泛使用的ICVL数据集[30]和MSRA数据集[27]。ICVL数据集[30]包括330K手部姿势深度帧的训练集在我们的实验中，我们只使用随机抽样的110K训练数据该数据集提供了16个带注释的3D关节。MSRA数据集[27]包含来自9个受试者的76K深度帧，具有21个标注的关节。在[27]之后，我们使用留一个受试者交叉验证策略，并对9个受试者的结果进行平均。Hands In the Million（HIM2017）挑战数据集包含基于帧的手部姿势估计数据集和连续动作跟踪数据集[36]。我们专注于基于帧的估计数据集，该数据集从BigHand2.2M数据集[38]和FHAD数据集[6]中采样，包括957K训练和295K测试深度图像。训练数据是随机的，而不是连续的动作序列。包括第一人称视图和第三人称视图手部姿势深度图像，该数据集因其丰富的视角和手部姿势而更具挑战性。此外，该数据集提供了准确的21关节3D位置注释。在我们的实验中，我们从原始HIM2017挑战数据集中随机抽取了72K训练数据作为我们的训练集。由于挑战赛提供的原始测试集不包含地面实况，我们很难自己测量我们方法的准确性。为了更公平地进行评估，考虑到原始测试集包含SEEN和UNSEEN主题共295，510帧，我们从原始训练集中随机抽取295，510帧，由于我们的测试集只包含SEEN主题，因此我们只比较挑战排行榜中SEEN的结果。4.2评估指标我们遵循手部姿势估计的常见评估指标1. 平均关节误差：每个帧的所有关节的平均3D距离误差和所有测试帧的平均值。2. 正确的帧比例：所有关节都在地面实况注释的特定距离内的帧的比例用于实时三维手位姿估计的手支集成网络94.3自我比较首先，我们比较了分支数目对结果的影响，如图1的左图所示。3. 单分支意味着我们不按部分分解手，而是直接通过单分支CNN预测手的所有关节。关于双分支，我们训练一个双分支网络，其中一个分支处理拇指，另一个分支管理其他手指。显然，三分支代表原始的三分支网络。至于四枝，最后一枝同时处理戒指和小指，其他枝依次处理其他手指五支指的是每支对应一根手指。通过调整卷积通道的数量，每个网络的参数大致保持不变。这些网络在HIM2017挑战数据集上进行了训练和测试。如图2的左图所示。3、原有的三分支结构达到最佳精度。图的水平纵坐标。3代表每个关节。C表示手腕，Ti（i={ 1， 2， 3， 4}）、Ii、Mi、Ri和Li分别表示拇指、食指、中指、无名指和小指中的关节。平均值是指平均联合误差。对于每个手指，以拇指为例，T1、T2、T3和T4分别代表MCP关节、PIP关节、DIP关节和指尖。以下图表以相同的方式表示。中指和无名指之间有一个联动，被四支和五支的结构强行破坏此外，在大多数情况下，最后三个手指处于同一活动范围内，三分支网络可以提取它们的关联特征，减少特征组合和映射的冗余。因此，三分支的性能优于其他分支。1681 41261 08464220C T1 T2 T3 T4 I1 I2 I3 I4 M1M2M3M4R1 R2 R3 R4 L1 L2 L3L4Avg0C T1 T2 T3 T4 I2 I3 I4 M1M2M3M4R1 R2 R3 R4 P1 P2 P3 P4Avg三分支单枝双分支四分支五支PCA-35DPCA-20DPCA-30DPCA-40DPCA-50D图三. 自我比较。左：不同分支结构中的联合误差的分布。右：不同瓶颈尺寸中的关节误差分布具有低维嵌入的瓶颈层的效果已经在Deep Prior [20]的论文在我们的实验中，我们也用这个关节平均误差/mm关节平均误差/mm10Y.Zhou，J.Lu，K.Du，X.Lin，Y.Sun和X.Ma距离内的帧分数/ %方法引入整体手部姿势形状的物理先验至于ICVL数据集，我们遵循[20]使用30维嵌入瓶颈层。在MSRA和HIM2017数据集上，我们根据我们的实验结果使用了35维嵌入层，如右图所示3，在MSRA P0测试集上进行评价关节误差的分布表明，原始63维姿态空间中的35维表现最好。评估表明，与全姿态空间中的直接回归相比，实施姿态先验是有益的，这与[20]的结论一致，但根据我们的实验，其在准确度的提高方面并不显著。然后，我们在HIM2017数据集上评估了我们的集成策略的重要性。当我们直接连接三个分支的联合预测而不是融合每个分支的特征作为我们的集成策略时，平均联合误差达到5.71mm，而我们的原始网络与特征集成的平均联合误差达到5.26mm，联合误差的分布和正确的帧比例如图所示。结果表明，全连接层的集成策略性能最好，证实了在我们的网络中使用的集成方法的有效性100108806604402200C T1 T2 T3 T4 I1 I2 I3 I4 M1M2M3M4R1 R2 R3 R4 L1 L2 L3L4Avg00.02.55.07.510.012.515.0十七点五距离阈值/mm关于Ensemble没有包围见图4。集成策略的自我比较。左：关节误差的分布。右：正确的帧比例定性结果：我们在图1中展示了ICVL，MSRA和HIM2017数据集的定性结果。五、正如我们所看到的，大多数手部姿势可以在三个数据集上正确预测。4.4与最新方法的我们将Hand Branch Ensemble（HBE）网络在三个具有挑战性的3D手部姿势数据集（HIM 2017，ICVL和MSRA）上的性能与一些最先进的方法进行了比较，包括Deep Prior [20]，Deep Mod- el [39]，潜在随机森林（LRF）[30]，Crossing Nets [34]，V2 V-PoseNet [17]，关于Ensemble没有包围关节平均误差/mm用于实时三维手位姿估计的手支集成网络11ICVLMSRAHIM2017图五、MSRA、ICVL和HIM2017挑战数据集的定性结果。地面实况用蓝线标记，预测用红线标记Cascade [27]、MultiView [7]、Pose-REN [3]和Global2Local [16]。以前的工作[30，20，39，17]的一些其他结果[27，16，34，3，7]是从他们论文的图表中计算出来的。表1. ICVL数据集上的平均联合误差方法平均关节误差（mm）LRF12.58深度先验11.56深度模型10.4穿越网10.2级联9.9我们8.62V2V-PoseNet6.28在ICVL数据集上对我们的网络进行评估，并与最先进的方法进行比较。如表1所示，我们得到了比Cascade更好的结果，但不如V2 V-PoseNet。然而，我们使用比它们更少的数据来训练我们的方法，并且参数复杂度远远低于它们。图6显示了ICVL数据集上与Deep Pri- or[20]，Deep Model [39]，latent random forest（LRF）[30]，Crossing Nets[34]和Cascade [27]相比的正确帧比例，其中横轴表示允许的最大值。12Y.Zhou，J.Lu，K.Du，X.Lin，Y.Sun和X.Ma之前距离地面真相一般来说，我们在标准评估指标中实现了与ICVL数据集上最先进方法相当的性能图六、ICVL数据集上的帧比例在MSRA数据集上，我们与Cascade [27]，MultiView [7]，Cross-ingNets [34]和Global 2Local [16]进行了比较，如图中的左图所示。7. Glob-al 2Local [16]也使用类似分支的结构，但我们的方法与第2节中描述的方法完全实验结果也证明了我们的三分支前分支结构取得了更好的性能。见图7。与最先进方法的比较。左：MSRA数据集上的正确帧比例。右：HIM2017数据集上SEEN受试者的正确帧比例。THU VCLab和NAIST RVLab的曲线来自[36]我们还在HIM2017 Challenge数据集上实现了我们的HBE网络和DeepPrior网络，并得到了我们测试集上所有关节的预测结果。用于实时三维手位姿估计的手支集成网络13由于我们的测试集与原始测试集大小相同，但只包含SEEN受试者，因此我们只比较挑战排行榜中SEEN的结果。表2显示了Challenge排行榜和我们对平均关节误差（单位：毫米）的比较。图中的右图7示出了平均联合误差在一定值内的SEEN对象的正确帧比例来自THUVCLab的Pose-REN结果和NAIST RVLab的结果来自[36]。我们需要强调的是，以上的比较只是一个近似的比较。尽管如此，从结果可以看出，我们的方法具有优越的性能。表2.HIM2017挑战数据集的近似比较团队方法AVG看到看不见mks0601V2V-PoseNet9.956.9712.43NVResearch UMontrealRCN+9.977.5512.00NTU3D CNN11.308.8613.33THU VCLabPOSE-REN11.709.1513.83NAIST RVLab5-分支3D CNN11.909.3414.04深度先验深度先验- -9.63- -我们HBE- -5.26- -4.5计算复杂度我们以HIM 2017挑战数据集为例，比较了所提出的HBE网络和V2 V-PoseNet的计算复杂度。我们在单个GPU上训练我们的网络100个epoch，耗时26250.24s（7.2h）。输入生成和数据预处理耗时435s，输入数据加载耗时7.04s。在测试阶段，处理一帧需要1.5ms。表3比较了我们的HBE网络与V2 V-PoseNet的计算复杂度。我们只使用原始训练集的一部分进行训练，而V2 V-PoseNet使用整个训练集，花费6天的时间进行训练，包括耗时的I/O操作。关于测试阶段，我们可以在单个GPU上实现673 fps，而V2 V-PoseNet在单个GPU上达到3.5 fps，在一个GPU上达到35fps。与此同时，我们不需要对数据转换和历元模型集成进行测试，并且由于其简单性，我们的此外，在我们提出的方法中的参数的数量是远远少于V2 V-PoseNet回归三维坐标。总之，我们使用了更少的训练集和更简单的网络结构，但达到了与他们相同的水平，甚至比他们更好。我们的方法是更快，更有效，适合于实时应用。14Y.Zhou，J.Lu，K.Du，X.Lin，Y.Sun和X.Ma表3. HIM2017 Challenge数据集的计算复杂度比较项目单GPU参数数量测试多GPUV2V-PoseNet 457.5M 3.5fps 35fps我们的67.27M 673 fps--5结论我们提出了一种新的三分支网络称为手分支集成（HBE）网络的3D手姿势估计从一个单一的深度图像。根据手指活动空间和功能重要性，我们将手分解为三个部分：拇指食指和其他手指。每个分支对应一个部分。三个分支的特征被集合以预测所有3D关节位置。我们的网络使用少量训练数据进行训练，并在三个具有挑战性的数据集上进行评估训练和测试时间都很短，实验结果表明，我们的方法在HIM2017 Challenge数据集上的性能优于最先进的方法，并在ICVL和MSRA数据集上实现了相当的性能我们的方法具有较低的复杂性，可以适应大范围的视点和不同的手姿态。我们提出的方法提供了一种技术方法，用于跟踪和分析人类与环境之间的复杂交互。引用1. Abadi，M.，Barham，P.，陈杰，陈志，戴维斯，A.，迪恩J Devin，M.，Ghe-mawat，S.，Irving，G. Isard，M.，等：Tensorflow：一个大规模机器学习系统。在：OSDI。卷第16页。2652. Braido，P.，张X：手操作与手势动作中手指运动协调性之定量分析。Humanmovement science22（6），6613. 陈旭，Wang，G.，郭，H.，Zhang，C.：用于级联手部姿态估计的姿态引导结构区域集成网络arXiv预印本arXiv：1708.03416（2017）4. Cotugno，G.，Althoefer，K.，Nanayakkara，T.：拇指的作用：研究人类和机器人手在抓取和可达空间中的手指运动。IEEE系统、人和控制论汇刊：系统47（7），1061-1070（2017）5. Erol，A.，Bebis，G.，Nicolescu，M.，博伊尔，R. D.，Twombly，X.：基于视觉的手部姿势估计：审查.计算机视觉和图像理解108（1-2），526. Garcia-Hernando，G. Yuan，S.，Baek，S.，Kim，T.K.：第一人称手部动作基准与rgb-d视频和3d手部姿势注释。在：CVPR中。第1卷（2018）7. Ge，L.，Liang，H.，Yuan，J.，Thalmann，D.：单个深度图像中的鲁棒3D手部姿势估计：从单视图CNN到多视图CNN。在：IEEE计算机视觉和模式识别会议论文集。pp. 3593-3601（2016）用于实时三维手位姿估计的手支集成网络158. Ge，L.，Liang，H.，Yuan，J.，Thalmann，D.：3D卷积神经网络，用于从单个深度图像进行高效和鲁棒的手部姿势估计IEEE计算机视觉和模式识别会议论文集。第1卷，第5页（2017年）9. 郭，H.，Wang，G.，陈旭，Zhang，C.：深度3d手部姿态估计的良好实践。arXiv预印本arXiv：1707.07248（2017）10. 郭，H.，Wang，G.，陈旭，张，C.，乔F，Yang，H.：区域集合网络：改进卷积网络用于手部姿态估计。在：图像处理（ICIP），2017年IEEE国际会议上。pp.4512-4516. IEEE（2017）11. Ioffe，S.，Szegedy，C.：批次标准化：通过减少内部协变量偏移来加速深度网络训练。国际机器学习会议（International Conferenceonpp. 44812. Kes k in，C.， Kırac，F.， Kara，Y. E、阿卡湖（AcaarunL.）：使用多层随机化决策森林的Hand_d_p〇sestimation和Hand_d_欧洲计算机视觉会议。pp. 852-863 03 The Dog（2012）13. Khamis，S.，Taylor，J. Shotton，J.，Keskin，C.，Izadi，S.，Fitzgibbon，A.：学习从深度图像的手形变化的有效模型。在：IEEE计算机视觉和模式识别会议论文集。pp. 2540-2548（2015年）14. 金玛，D.P.，Ba，J.：Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980（2014）15. Lin，Y.，（1996年），Sun，Y.：基于示范抓取策略的机器人抓取规划。 TheInternational Journal of Robotics Research34（1），2616. 我的天M Es c alera，S.， Bar´o，X.， Gonzalez，J. ：End-to-endglololo cal cnn用于深度数据中的手部姿势恢复的学习。arXiv预印本arXiv：1705.09606（2017）17. Moon，G.，Chang，J.Y.，Lee，K.M.：V2v-posenet：体素到体素预测网络，用于从单个深度图进行精确的3d手部和人体姿势估计。在：CVPR中。第二卷（2018）18. Mueller，F. Mehta，D.，Sotnychenko，O.，Sridhar，S.，Casas，D. Theobalt，C. ：基于自我中心rgb-d传感器的遮挡下手部实时跟踪。In：Proceedings ofInternationalConferenceonComputerVision （ ICCV ）（ 2017 ），https://handtracker.mpi-inf.mpg.de/projects/OccludedHands/19. Oberweger，M.，Lepetit，V.：Deepprior++：提高快速准确的3d手部姿态估计。In：ICCV workshop.卷^John，p.2017年第220. Oberweger，M.，Wohlhart，P.，Lepetit，V.：深入学习手部姿势估计。在：计算机视觉冬季研讨会（2015）21. 奥伊科诺米季斯岛Kyriazis，N.，Argyros，A.：利用kinect实现基于模型的手部关节高效bmvc 2011年。03 The Dog（2011）22. 钱，C.，太阳，X.，魏，Y.，唐，X.，孙杰：从深度进行实时和鲁棒的手部跟踪。在：IEEE计算机视觉和模式识别会议论文集pp. 110623. Rad，M.，Oberweger，M.，Lepetit，V.：特征映射用于从合成图像学习快速和准确的3d姿态推断。在：IEEE计算机视觉和模式识别会议论文集。pp. 466324. Sharp，T.，Keskin，C.，罗伯逊D. Taylor，J. Shotton，J.，Kim，D.，瑞曼C.的方法，莱希特岛Vinnikov，A.，魏，Y.，等：准确、稳健、灵活的实时手部跟踪。第33届ACM计算机系统人为因素年会论文集。pp. 3633-3642 ACM（2015）16Y.Zhou，J.Lu，K.Du，X.Lin，Y.Sun和X.Ma25. 西蒙尼扬，K.，齐瑟曼，A.：用于大规模图像识别的深度卷积网络。ArXiv预印本arXiv：1409.1556（2014）26. Sridhar，S.，Mueller，F. Oulasvirta，A. Theobalt，C.：使用检测引导优化的快速和鲁棒的手跟踪。IEEE计算机视觉和模式识别会议论文集。pp. 321327. 太阳，X.，魏，Y.，Liang，S.，唐，X.，孙杰：级联手部姿势回归。在：IEEE计算机视觉和模式识别会议论文集。pp. 82428. Supancic，J.S.，Rogez，G.，杨，Y.，Shotton，J.，Ramanan，D.：基于深度的手部姿势估计：数据、方法和挑战。在：IEEE国际计算机视觉会议pp. 186829. Susman，R.L.：早期原始人的手功能和工具行为。Journal of Human Evolution35（1），2330. Tang，D.，Jin Chang，H.，Tejani，A.，Kim，T.K.：潜在回归森林：结构化3D关节手姿态的估计。在：IEEE计算机视觉和模式识别会议论文集。pp. 378631. Taylor，J. Tankovich，V. Tang，D.，Keskin，C.，Kim，D.，Davidson，P.，考德尔一、Izadi， S.：关节式距离场，用于超快速跟踪手的交互。ACMTransactions on Graphics36（6），132. Tkach，A. Pauly，M. Tagliasacchi，A.：用于实时手部建模的和跟踪。 ACM Transactions on Graphics（TOG）35（6）， 222（2016）33. Tompson，J. Stein，M.，Lecun，Y.，Perlin，K.：使用卷积网络的人手实时连续姿态恢复。ACM Transactions on Graphics（ToG）33（5），169（2014）34. Wan，C.，Probst，T.凡古尔湖Yao，A.：交叉网：结合gans和具有用于手部姿势估计的共享潜在空间的vae2017年IEEE计算机视觉和模式识别会议（CVPR）。IEEE（2017）35. 徐，C.，Cheng，L.：从单个深度图像的高效手部姿势估计。IEEE计算机视觉国际会议论文集。pp.第345636. Yuan，S.，Garcia-Hernando，G. Stenger，B.，Moon，G.，Chang，J.Y.，Lee，K.M.，Molchanov，P. Kautz，J.，Honari，S.，Ge，L.，等：基于深度的3d手部姿态估计：从当前成就到未来目标。In：IEEE CVPR（2018）37. Yuan，S.，Ye，Q.，Garcia-Hernando，G. Kim，T.K.：2017年在3D手部姿势估计上的百万挑战。arXiv预印本arXiv：1707.02237（2017）38. Yuan，S.，Ye，Q.，Stenger，B.，Jain，S.，Kim，T.K.：大块头2 2m基准：手部姿势数据集和最先进的分析。在：计算机视觉和模式识别（CVPR），2017年IEEE会议上。pp. 2605-2613 IEEE（2017）39. Zhou，X.，中国科学院，万，Q，张伟，Xue，X.，中国科学院，魏云：基于模型的深度手部姿态估计。在：第二十五届国际人工智能联合会议的会议记录。pp.2421-2427 北京大学出版社（2016）

下载后可阅读完整内容，剩余1页未读，立即下载