大规模手部姿势数据集和最新技术分析

57 浏览量更新于2023-10-15 收藏 15.4MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

48660BigHand2.2M基准测试：手部姿势数据集和最新技术分析0Shanxin Yuan 1 � Qi Ye 1 � Bj¨orn Stenger 2 Siddhant Jain 3 Tae-Kyun Kim 101 伦敦帝国学院 2 楽天技术研究所 3 IIT Jodhpur0摘要0在本文中，我们介绍了一个大规模的手部姿势数据集，采用了一种新颖的捕捉方法进行收集。现有的数据集要么是通过合成生成的，要么是使用深度传感器捕获的：合成数据集与真实深度图像存在一定程度的外观差异，而真实数据集在数量和覆盖范围上受到限制，主要是由于难以对其进行注释。我们提出了一种跟踪系统，使用六个6D磁传感器和逆运动学自动获取深度图的21个关节手部姿势注释，而对运动范围的限制最小。捕捉协议旨在充分覆盖自然手部姿势空间。如嵌入图所示，与现有基准测试相比，新数据集展示了更广泛和更密集的手部姿势范围。当前最先进的方法在该数据集上进行评估，我们展示了在跨基准测试性能方面的显著改进。我们还展示了在新数据集上训练的CNN在自我中心手部姿势估计方面的显著改进。01. 引言0在最近的手部姿势估计领域取得了显著进展，并提出了许多系统[5, 8, 11, 14, 15, 18, 24, 30, 7, 1, 4, 33,6]。然而，正如[12]所指出的，现有的基准测试[18, 26, 28,31,34]在图像数量、注释准确性、关节覆盖范围和手形和视角变化方面受到限制。目前手部姿势估计的最新技术是使用深度神经网络从输入数据中估计手部姿势[31, 13, 14, 40, 2,38]。已经证明这些方法在训练数据集的规模上具有良好的可扩展性。因此，大规模、准确标注的数据集的可用性是推动该领域发展的关键因素。手动注释一直是创建大规模基准测试的瓶颈[18,25]。这种方法不仅工作量大，而且可能导致位置标签不准确。0� 表示相等的贡献0半自动捕捉方法已经被设计出来，其中3D关节位置是从手动标注的2D关节位置推断出来的[12]。其他方法，虽然仍然耗时，但结合了跟踪手部模型和手动调整，如果需要的话，可以迭代这些步骤[26, 28,31]。附加传感器可以显著帮助自动捕捉，但必须注意不要限制运动范围，并尽量减小与裸手的深度外观差异，例如使用数据手套[36]。最近，更少侵入性的磁传感器已经被用于HandNet数据集中的指尖标注[34]。在本文中，我们介绍了我们的百万级BigHand2.2M数据集，它在手部数据变化的完整性和注释质量方面取得了重大进展，见图1和表1。我们详细介绍了捕捉设置和方法，以实现高精度的手部姿势注释。这使我们能够捕捉到可以在没有外部力的情况下采用的手部运动范围。我们的数据集包含了220万个深度图，其中包含了准确标注的关节位置。数据是通过在手部上安装六个磁传感器来捕获的，每个手指甲上有五个传感器，手掌背部有一个传感器，每个传感器都提供准确的6D测量。通过在具有31个自由度（dof）和运动约束的手部模型上应用逆运动学，可以获得所有关节的位置。BigHand2.2M数据集还包含290K帧的自我中心手部姿势，比以前的自我中心手部姿势数据集多130倍（表2）。在数据上训练卷积神经网络（CNN）显示出显著改进的结果。Supancic等人在交叉基准测试中的最近研究表明，大约40%的姿势估计误差大于50mm。这是由于不同的捕捉设置、手形变化和注释方案所导致的。通过使用BigHand2.2M数据集训练CNN，我们在现有基准测试中展示了最先进的性0现有的用于评估和比较的基准测试在规模上受到严重限制（从几百到几万个）48670图1：BigHand2.2M数据集的示例图像。该数据集涵盖了手部姿势的范围，而不需要对手部施加外力。关节注释的准确性高于以前的基准数据集。0数据集注释帧数关节数主题数视角深度图分辨率0Dexter 1 [25] 手动 2,137 5 1 3rd 320 × 240 MSRA14 [18] 手动 2,400 21 6 3rd 320 × 240 ICVL [28]跟踪+优化 17,604 16 10 3rd 320 × 240 NYU [31] 跟踪+优化 81,009 36 2 3rd 640 × 480 MSRA15 [26]跟踪+优化 76,375 21 9 3rd 320 × 240 UCI-EGO [20] 半自动 400 26 2 自我中心 320 × 240 Graz16 [12] 半自动2,166 21 6 自我中心 320 × 240 ASTAR [36] 自动 870 20 30 3rd 320 × 240 HandNet [34] 自动 212,928 6 103rd 320 × 240 MSRC [24] 合成 102,000 22 1 3rd 512 × 424 BigHand2.2M 自动 2.2M 21 10 全部 640 × 4800表1：基准测试比较。现有数据集在帧数上有限，这是由于它们的注释方法，无论是手动还是半自动。我们的自动注释方法允许以帧速率收集完全注释的深度图像。我们的数据集是使用最新的Intel RealSense SR300相机[3]收集的，该相机以640×480像素的分辨率捕捉深度图像。0数千个），注释准确性，关节运动，视角和手形状[18,24,26,28,31,34,12]。使用捕获的数据构建大规模基准测试的瓶颈是缺乏快速准确的注释方法。通过手动注释[18,25]创建数据集是费时费力的，并且可能导致不准确的标签。这些基准测试数据集规模较小，例如MSRA14[18]和Dexter1[25]只有2,400和2,137帧，不适合大规模训练。替代的注释方法仍然费时费力，跟踪手部模型并在必要时手动优化结果，迭代这两个步骤[26,28,31]。ICVL数据集[28]是最早的基准测试之一，它使用3D骨骼跟踪[9]进行注释，然后进行手动优化。然而，它的规模较小，并且文献中已经注意到注释准确性的限制[26,12]。NYU数据集[31]具有更大的范围视角。其注释是通过基于模型的手部跟踪在三个摄像头的深度图像上获得的。使用粒子群优化来获得最终注释。这种方法经常漂移到不正确的姿势，需要手动校正来重新初始化跟踪过程。MSRA15数据集[26]目前是该领域中最复杂的数据集[12]。它是以迭代的方式进行注释的，其中优化方法[18]和手动调整交替进行，直到收敛。0使用3D骨骼跟踪[9]进行注释，然后进行手动优化。然而，它的规模较小，并且文献中已经注意到注释准确性的限制[26,12]。NYU数据集[31]具有更大的范围视角。其注释是通过基于模型的手部跟踪在三个摄像头的深度图像上获得的。使用粒子群优化来获得最终注释。这种方法经常漂移到不正确的姿势，需要手动校正来重新初始化跟踪过程。MSRA15数据集[26]目前是该领域中最复杂的数据集[12]。它是以迭代的方式进行注释的，其中优化方法[18]和手动调整交替进行，直到收敛。MCPPIPDIPTIPV1V2l1 l248680还包含错误，例如偶尔缺少手指和拇指的标注。这个基准测试具有广泛的视角覆盖范围，但关节变化很小，捕捉了17个基本关节，并在500帧序列中对每个关节进行变化。使用半自动标注方法捕获了两个小型数据集[12,20]。UCI-EGO数据集[20]通过迭代搜索合成集中最接近的示例，然后进行手动细化进行注释。Graz16数据集[12]通过在一些关键帧中迭代地注释可见关节，并使用优化方法自动推断完整序列，该方法利用外观、时间和距离约束。然而，注释快速移动的手仍然具有挑战性。当优化失败时，还需要手动校正。这种半自动方法导致了一个包含2,166帧注释的自我中心数据集，这对于大规模训练来说也是不足够的。附加传感器可以显著帮助自动捕捉[17,32,34,36]，但必须注意不要限制运动范围。ASTAR数据集[36]使用了一个ShapeHand数据手套[23]，但佩戴手套会影响捕捉到的手部图像，并在一定程度上阻碍自由的手部关节运动。在[17,32]的工作中，全身姿势估计被视为给定磁传感器和深度数据的状态估计问题。最近，使用较少侵入性的磁传感器在HandNet数据集[34]中用于指尖注释，该数据集利用与我们基准测试类似的注释设置，使用trakSTAR磁传感器[10]。然而，该数据集仅提供指尖位置，而不提供完整的手部注释。已经利用合成数据生成训练数据[19,21,37]以及评估[24]。尽管可以生成无限量的合成数据，但目前合成数据与真实数据之间仍存在差距。除了手部特征的差异和缺乏传感器噪声外，合成生成的图像有时会产生运动学上不合理和不自然的手部姿势，参见图10。MSRC基准数据集[24]是一个合成基准数据集，其中数据在3D视角空间中均匀分布。然而，数据在关节空间上有限，姿势是通过从六个关节中随机采样生成的。03.全手姿态注释0在本节中，我们介绍了使用trakSTAR跟踪系统和6D磁传感器进行准确的全手姿态注释的方法。03.1.逆向运动学注释0我们的手部模型有21个关节，可以以31个自由度（dof）移动，如图2所示。我们捕捉0（a）（b）0（c）（d）0图2：手部模型定义。（a）我们的手部模型有21个关节，以31个自由度（dof）移动。（b）模型适应手部形状。（c）和（d）显示了如何测量手部形状。0x0yz06D传感器0r0S 20T0D 20P 2 M 20T 1 D 1 P 1 M 10W0S 60D P0P ′0M0T 20图3：使用六个6D磁传感器推断手部姿态。可以通过手掌背部传感器S6的位置和方向推断全局手部姿态。每个指甲上的传感器用于推断相应手指的TIP和DIP关节。可以使用骨骼长度和物理约束计算每个PIP关节。031个维度，包括6个全局姿态维度和25个关节角度。每个手指的姿态由五个角度表示，包括MCP关节的扭转角度、屈曲角度、外展角度以及DIP和PIP关节的屈曲角度。对于每个受试者，我们手动测量骨骼长度，参见图2（c）和（d）。给定六个磁传感器，每个传感器具有6个自由度（位置和方向），以及一个手部模型，我们使用逆向运动学推断由21个关节位置定义的全手姿态，如图2所示。每个受试者的物理约束条件是（1）手腕和5个MCP关节T = L(S) + l1V1 + rV2,(1)D = L(S) − l2V1 + rV2,(2)48690深度相机0发射器06D传感器0图4：注释设置。我们注释系统中使用的设备包括：两个硬件同步的电磁跟踪单元、六个6D磁传感器、一个中程发射器和一个IntelRealSense SR300相机。0它们相对固定，(2) 骨骼长度保持不变，(3)每个手指的MCP、PIP、DIP和TIP关节位于同一平面上。类似于[22]，五个磁传感器（从拇指到小指，传感器分别为S1、S2、S3、S4、S5）被固定在五个手指的指尖上。第六个传感器（S6）被固定在手掌背部，参见图3。根据S6的位置和方向，以及手部模型的形状，可以推断出手腕（W）和五个MCP关节（M1、M2、M3、M4、M5）。对于每个手指，根据传感器的位置和方向，可以按照以下方式计算TIP和DIP（如图3所示，以食指为例）：使用传感器的方向找到三个正交轴，V1沿着手指，V2从手指尖向前指向。计算TIP（T）和DIP（D）关节位置的公式如下：0其中L（S）表示传感器位置，r是手指厚度的一半，l1 + l2=b，其中b是连接DIP和TIP关节的骨骼长度。最后一个要推断的关节是PIP，如图3所示的位置P，使用以下条件计算：（1）给定T、M、D，（2）∥P−D∥和∥P−M∥固定，（3）T、D、P、M在同一平面上，（4）T和P应在连接M和D的线的不同侧。这些约束足以唯一确定P。03.2. 同步和校准0为了构建和注释我们的数据集，我们使用trakSTAR跟踪系统[10]结合最新一代的Intel RealSenseSR300深度传感器[3]，见图4。trakSTAR系统由两个硬件同步的电磁跟踪单元组成，每个单元可以跟踪最多四个6D磁传感器。6D传感器（“Model180”）宽度为2mm，附着在一个宽度为1.2mm、长度为3.3m的柔性电缆上。当电缆使用紧弹性环固定在手上时，深度图像和手部运动的影响最小。我们使用最大跟踪距离为660mm的中程发射器，适用于手部跟踪。跟踪系统以720fps捕捉六个传感器的位置和方向，在连续运行中稳定且无漂移。深度相机以640×480的分辨率捕捉图像，最大速度为60fps。通过找到最近的时间戳来同步测量数据。深度图像和磁传感器之间的时间差最多为0.7毫秒。trakSTAR系统和深度传感器有各自的坐标系，我们使用透视N点问题的解决方案来校准坐标，如[34]所述。给定一组3D磁传感器位置和深度图中对应的2D位置，以及内部相机参数，ASPnP算法[39]估计这两个坐标系之间的转换。0基准Rogez [20] Oberweger [12] BigHand2.2M视角0帧数400 2166 290K0表2：视角基准大小比较。BigHand2.2M数据集的视角子集比下一个最大的可用数据集大130倍。0每个6D磁传感器的尺寸为2mm，附着在一个宽度为1.2mm、长度为3.3m的柔性电缆上。当电缆使用紧弹性环固定在手上时，深度图像和手部运动的影响最小。我们使用最大跟踪距离为660mm的中程发射器，适用于手部跟踪。跟踪系统以720fps捕捉六个传感器的位置和方向，在连续运行中稳定且无漂移。深度相机以640×480的分辨率捕捉图像，最大速度为60fps。通过找到最近的时间戳来同步测量数据。深度图像和磁传感器之间的时间差最多为0.7毫秒。trakSTAR系统和深度传感器有各自的坐标系，我们使用透视N点问题的解决方案来校准坐标，如[34]所述。给定一组3D磁传感器位置和深度图中对应的2D位置，以及内部相机参数，ASPnP算法[39]估计这两个坐标系之间的转换。04. BigHand2.2M基准0我们收集了BigHand2.2M数据集，其中包含了220万个带有关节注释的单手深度图像（见第3节）。共有10名受试者（7男性，3女性），每人被捕捉了两个小时。04.1. 手视角空间0为了覆盖多样的视角，我们改变了传感器的高度、受试者的位置和手臂方向。视角空间（第三人称视角的半球体）被分为16个区域（沿两个3D旋转轴均匀分布的4个区域），要求受试者在每个区域内进行随机的视角变化。此外，我们的数据集还收集了以自我为中心的视角的随机变化。如图5（左）的t-SNE可视化所示，我们的基准数据在全局视角空间上覆盖了一个显著更大的区域，比ICVL和NYU数据集更广。04.2. 手关节空间0tended position. For maximum coverage of the articulationspace, we enumerate all�322�= 496 possible pairs of theseextremal poses, and capture the natural motion when transi-tioning between the two poses of each pair.In total the BigHand2.2M dataset consists of three parts:(1) Schemed poses: to cover all the articulations that a hu-man hand can freely adopt, this contains has 1.534 millionframes, captured as described above. (2) Random poses:375K frames are captured with participants being encour-aged to fully explore the pose space. (3) Egocentric poses:290K frames of egocentric poses are captured with subjectscarrying out the 32 extremal poses combined with randommovements.As Figure 5 (middle, right) shows, our benchmark spansa wider and denser area in the articulation and the combinedof articulation and view-point space, compared to the ICVLand NYU.-80-60-40-200204060-15-10-505101520ICVLNYUMSRCBigHandnew person48700图5：手势空间的2Dt-SNE嵌入。BigHand2.2M用蓝色表示，ICVL用红色表示，NYU用绿色表示。图中显示了（左）全局视角空间覆盖范围，（中）关节空间（25D），以及（右）全局方向和关节覆盖范围的组合。与现有数据集相比，BigHand2.2M包含了更完整的变化范围。04.3.手形空间0我们选择了十个具有不同手形的参与者（7男性，3女性，年龄范围：25-35岁）。现有的基准也使用不同的参与者，但由于注释方法的限制，注释的手形数量有限。图6使用手形参数的前两个主成分可视化了不同数据集中的形状。ICVL数据集[28]包括十个手形大小相似的参与者，并且所有参与者都用一个手形模型进行注释。NYU[31]的训练数据使用一个手形，而测试数据使用两个手形，其中一个来自训练集。MSRA15数据集包括九个参与者，但在注释的真实数据中，只使用了三个手形。MSRC[24]的合成基准包括一个形状。在实验中，我们使用10个受试者的数据集进行训练，并测试学习模型在其他数据集上的泛化能力。0现有基准中的不同形状（跨基准）和一个未见过的新形状（图6中的“新人”）。更多解释请参见第5节。0图6：手形变化。通过对形状参数应用PCA可视化手形变化。BigHand2.2M数据集包含10个手形和一个额外的测试形状。ICVL数据集由于其注释方法只包含一个手形。NYU数据集包含两个手形，MSRC数据集包含一个合成手形。05.现有技术的分析0在本节中，我们将HoliCNN架构[38]作为当前的最新技术。详细结构请参见补充材料。CNN模型的输入是使用地面真实关节位置裁剪的手部区域。该区域被归一化为96×96像素，并与两个缩小为48×48和24×24的副本一起输入CNN。成本函数是位置估计与地面真实位置之间的均方距离。CNN使用Theano实现，并在一台装有Nvidia GeForce GTXTITAN的台式机上进行训练。0 %10 %20 %30 %40 %50 %60 %70 %80 %90 %100%Melax et al.Keskin et al.LRFSun et al.HSOCNN_MSRCCNN_ICVLCNN_NYUCNN_BigHand0 %10 %20 %30 %40 %50 %60 %70 %80 %90 %100%DeepPriorFeedLoopHierCNN_MSRCCNN_ICVLCNN_NYUCNN_BigHand1020304050487100 10 20 30 40 50 60 70 80误差阈值（mm）0带有误差<的帧比例0ICVL00 10 20 30 40 50 60 70 80误差阈值（mm）0关节误差小于某个阈值的比例<0NYU0图7：跨基准性能。分别在ICVL、NYU、MSRC和新的BigHand2.2M数据集上训练CNN模型，并在（左）ICVL和（右）NYU测试数据上进行评估。在ICVL和NYU上，BigHand2.2M上训练的CNN实现了最先进的性能，而在ICVL、NYU和MSRC上训练的CNN不能很好地推广到其他基准。网络CNN MSRC、CNN ICVL、CNN NYU和CNN BigHand分别在MSRC、ICVL、NYU和BigHand2.2M的训练集上进行训练。0PPPPPPP P train test ICVL NYU MSRC BigHand2.2M0ICVL 12.3 35.1 65.8 46.3 NYU 20.1 21.4 64.1 49.6 MSRC25.3 30.8 21.3 49.7 BigHand2.2M 14.9 20.6 43.7 17.10表3：跨基准比较。在ICVL、NYU、MSRC和BigHand2.2M上训练的CNN的平均误差在交叉测试时的表现。在ICVL和NYU上，BigHand2.2M训练的模型表现良好，而在合成的MSRC数据上表现较差。在ICVL、NYU或MSRC上训练不能很好地推广到其他数据集。0黑色和32核的英特尔处理器。该模型使用Adam进行训练，其中 β 1 = 0.9，β 2 = 0.999，α =0.0003。当验证集的成本达到最小值时，我们停止训练过程，每个训练周期大约需要40分钟。在BigHand2.2M、ICVL、NYU和MSRC上训练CNN模型时，我们保持CNN结构和Adam的 β 1、β 2、α不变。0所有10个受试者的所有帧均均匀分为训练集和验证集，比例为9比1，这与ICVL、NYU和HandNet[34]类似。除了这10个受试者外，还记录了一个具有37K帧的新受试者的具有挑战性的测试序列，并进行自动注释，如图6中的“新人”所示。为了定量比较，我们测量了在某个误差界限ε[38,29,24]内的关节比例。01/16 1/8 1/4 1/2 1整个数据集用于训练的比例0平均误差（毫米）0ICVL NYUMSRCBigHand0图8：数据规模对交叉基准评估的影响。当CNN模型在1/16、1/8和1/4的数据上训练时，02和所有基准数据上，ICVL、NYU、MSRC和BigHand2.2M的测试结果不断提高。05.1. 交叉基准性能0跨基准评估是许多领域中一个具有挑战性且研究较少的问题，例如人脸识别[16]和手部姿势估计[27]。由于训练数据集数量较少，现有的手部姿势估计系统在未见过的手部姿势测试时表现不佳。正如[27]所指出的那样，在现有数据集中，“测试姿势与训练姿势非常相似”，他们提出了“一个简单的最近邻基准线，优于大多数现有系统”。表3和图7显示了在ICVL、NYU、MSRC和BigHand2.2M上进行交叉测试时，基于ICVL、NYU、MSRC和BigHand2.2M训练的CNN的估计误差。当CNN在BigHand2.2M训练集上训练并在其他数据集上评估时，性能仍然很高。在真实测试数据集（ICVL和NYU）上，它实现了与在相应训练集上训练的模型相当甚至更好的性能。这证实了在具有高精度注释和足够的形状、关节和视角参数变化的情况下，基于大规模数据集训练的CNN能够推广到新的手部形状和视角，而最近邻方法在交叉测试性能上表现不佳[27]。MSRC数据集是一个具有准确注释和均匀分布视角的合成数据集。当在MSRC上训练CNN并在所有真实测试集上进行测试时，性能比在NYU上训练的CNN差，比在BigHand2.2M上训练的CNN显著差。性能与仅为MSRC训练集大小的六分之一的ICVL训练集上训练的CNN相当。另一方面，在Big-48720图9：在BigHand2.2M上训练的CNN的泛化性能。与原始注释的地面真值相比，CNN对ICVL数据集的泛化性能误差较低。（顶部）ICVL地面真值注释，（底部）我们的估计结果。0图10：MSRC基准示例。合成数据缺乏真实的手部形状和传感器噪声，并且往往具有运动不合理的手部姿势。顶部一行显示了一些深度图像，底部一行显示了相应的地面真值注释。0“一个简单的最近邻基准线，优于大多数现有系统”。当CNN模型在BigHand2.2M上训练并在NYU上进行测试时，它优于最近的两种方法DeepPrior和FeedLoop，并与Hier方法的准确性相当，尽管该模型从未见过任何来自NYU基准的数据，如图7右侧所示。由于NYU的注释方案与我们的不同，我们选择了一个共同的（仍然有一定偏差）11个关节位置的子集进行比较。我们期望在一致的注释方案下获得更好的结果。在BigHand2.2M上训练的CNN模型的ICVL测试误差曲线如图7左侧所示。我们选择了最大允许误差[29]指标。尽管它看起来不如在ICVL本身、HSO和Sun等方法上训练的模型好，但它优于其他方法。请注意，我们的CNN模型的平均估计误差已经低至14毫米，这意味着训练和测试数据之间的小注释差异将对结果产生很大影响。正如[12]所指出的，ICVL的注释不如NYU的准确。我们的估计结果中的许多帧看起来是合理的，但由于注释不准确，导致估计误差较大，请参见图9进行定性比较。另一个原因是手部测量方案与我们的不同。在我们的数据集中，每个受试者的手部形状是通过手动测量确定的。0Hand2.2M在所有真实数据集上表现一致且表现良好，但在MSRC测试集上表现较差，这是由于真实数据和合成数据之间的差异。图10显示了MSRC数据集的示例。合成图像往往会产生运动不合理的手部姿势，这些姿势很难在没有外力作用的情况下产生。手部形状也存在差异，例如，拇指相对于手部其他部分来说较大。增加训练数据的数量可以提高跨基准评估的性能，参见图8。在这个实验中，我们均匀地对1/16、1/8和1/4的数据进行子采样。02和1分别来自训练和验证数据。当我们使用越来越多的BigHand2.2M进行训练并在ICVL、NYU、MSRC和BigHand2.2M的测试序列上进行测试时，性能得到了显著改善。这些观察结果支持更多的训练数据能够使CNN更好地推广到新的未见数据。此外，注意我们的数据集是密集的，即使对训练数据的随机小部分进行采样，仍然能够提供良好的准确性。05.2. 最先进的比较0在本节中，我们将我们在BigHand2.2M上训练的CNN模型与8种最先进的方法进行比较，包括HSO[29]、Sun等[26]、潜在回归森林（LRF）[28]、Keskin等[5]、Melax等[9]、DeepPrior [13]、FeedLoop [14]和Hier[38]。当在BigHand2.2M上训练的CNN模型用于在NYU上进行测试时，它优于最近的两种方法DeepPrior和FeedLoop，并与Hier方法的准确性相当，尽管该模型从未见过任何来自NYU基准的数据，如图7右侧所示。由于NYU的注释方案与我们的不同，我们选择了一个共同的（仍然有一定偏差）11个关节位置的子集进行比较。我们期望在一致的注释方案下获得更好的结果。在BigHand2.2M上训练的CNN模型的ICVL测试误差曲线如图7左侧所示。我们选择了最大允许误差[29]指标。尽管它看起来不如在ICVL本身、HSO和Sun等方法上训练的模型好，但它优于其他方法。请注意，我们的CNN模型的平均估计误差已经低至14毫米，这意味着训练和测试数据之间的小注释差异将对结果产生很大影响。正如[12]所指出的，ICVL的注释不如NYU的准确。我们的估计结果中的许多帧看起来是合理的，但由于注释不准确，导致估计误差较大，请参见图9进行定性比较。另一个原因是手部测量方案与我们的不同。在我们的数据集中，每个受试者的手部形状是通过手动测量确定的。0 %10 %20 %30 %40 %50 %60 %70 %80 %90 %100%0 %10 %20 %30 %40 %50 %60 %70 %80 %90 %100%0 %10 %20 %30 %40 %50 %60 %70 %80 %90 %100%487300 10 20 30 40 50 60 70 80 误差阈值 (mm)0误差小于阈值的关节比例0FORTHIntelCNN00 10 20 30 40 50 60 70 80 误差阈值 (mm)0误差小于阈值的关节比例0CNN00 10 20 30 40 50 60 70 80 误差阈值 (mm)0误差小于阈值的关节比例0CNN 10折交叉验证 CNN10折交叉验证平均0图11：手部姿势估计性能。 (左) 新主体37K帧手部图像的基准性能。Holi CNN明显优于基于跟踪的方法FORTH [15]和Intel[3]。(中)在BigHand2.2M数据的90%上训练的CNN在剩余的10%验证图像上实现了高精度。(右)使用CNN进行自我中心手部姿势估计的10折交叉验证结果。我们实现了与第三视角手部姿势估计相似水平的准确性。0图12：自我中心视角数据集的定性结果。在BigHand2.2M上训练的CNN在自我中心视角姿势估计任务中达到了最先进的性能。0关节距离。在ICVL中，相同的合成模型用于所有主体，MCP关节倾向于向手指滑动，而不是保持在物理关节上。05.3. BigHand2.2M的基准线0我们在我们的37K帧测试序列上评估了三个基准线，分别是在BigHand2.2M上训练的CNN，粒子群优化方法（FORTH）[15]和Intel方法[3]。后两种是生成跟踪方法。CNN模型优于这两种生成方法，见图11的左图。如上所述，我们选择了训练集和验证集之间的大小比例为9:1。图11（中）显示了验证集上的结果，其中90%的关节可以在5mm的误差范围内估计。05.4. 自我中心数据集0缺乏大规模注释数据集一直是自我中心手部姿势估计的一个限制因素。现有的自我中心基准[20，12]很小，见表2。Rogez等人[20]提供了400帧，Oberwerger等人[12]提供了2,166帧注释帧。BigHand2.2M自我中心子集包含了10个主体（每个主体29K帧）的约290K帧注释帧。这个数据集使我们能够训练一个CNN模型，其性能与第三视角手部姿势估计相竞争。在实验中，我们在九个主体上训练CNN，并在剩下的一个主体上进行测试。这个过程使用10折交叉验证完成。我们报告了十个折叠的平均值和标准差，见图11的右图。图12显示了定性结果。06. 讨论和结论0手部姿势估计引起了很多关注，并且已经展示了一些高质量的系统，但数据集的发展仍然落后于算法的进步。为了弥补这一差距，我们捕获了一个包含百万级真实手部深度图像的基准数据集。为了进行自动注释，我们提出使用具有六个磁性6D传感器和逆运动学的磁性跟踪系统。为了构建一个全面而简洁的基准，我们系统地设计了一个手部运动协议来捕捉自然手部姿势。BigHand2.2M数据集包括约290K帧从自我中心视角捕获的图像，以促进自我中心手部姿势估计领域的进展。使用新的基准评估了当前最先进的方法，并在跨基准评估中展示了显著的改进。我们的目标是这个数据集将有助于进一步推动研究领域的发展，促使探索新的方法。48740参考文献0[1] C. Choi, A. Sinha, J. Hee Choi, S. Jang, and K. Ramani.一种实时手部姿势估计的协同过滤方法. 在ICCV, 2015. 10[2] L. Ge, H. Liang, J. Yuan, and D. Thalmann.单一深度图像中的稳健3D手部姿势估计：从单视角CNN到多视角CNN。在CVPR, 2016. 10[3] Intel SR300. https://click.intel.com/intelrealsense-developer-kit-featuring-sr300.html . 2, 4, 80[4] Y. Jang, S.-T. Noh, H. J. Chang, T.-K. Kim, and W. Woo.3D手指披风：自我遮挡下的点击动作和位置估计。《VR》，2015年。10[5] C. Keskin, F. Kırac¸, Y. E. Kara, and L. Akarun.利用多层随机决策森林进行手部姿势估计和手部形状分类。在ECCV, 2012. 1, 70[6] S. Khamis, J. Taylor, J. Shotton, C. Keskin, S. Izadi, and A.Fitzgibbon.从深度图像中学习手部形状变化的高效模型。在CVPR, 2015. 10[7] P. Li, H. Ling, X. Li, and C. Liao.利用分割索引点的随机决策森林进行3D手部姿势估计。在ICCV,2015. 10[8] H. Liang, J. Yuan, and D. Thalmann.解析深度图像中的手部。《TMM》，2014年。10[9] S. Melax, L. Keselman, and S. Orsten.基于动力学的3D骨骼手部跟踪。在i3D, 2013. 2, 70[10] NDI trakSTAR.https://www.ascension-tech.com/products/trakstar-2-drivebay-2/ . 3, 40[11] N. Neverova, C. Wolf, G. W. Taylor, and F. Nebout.结构化卷积学习中的手部分割。在ACCV, 2014. 10[12] M. Oberweger, G. Riegler, P. Wohlhart, and V. Lepetit.高效创建用于精细手部姿势估计的3D训练数据。在CVPR, 2016. 1,2, 3, 4, 7, 80[13] M. Oberweger, P. Wohlhart, and V. Lepetit.深入深度学习的手部姿势估计。在CVWW, 2015. 1, 70[14] M. Oberweger, P. Wohlhart, and V. Lepetit.训练反馈循环进行手部姿势估计。在ICCV, 2015. 1, 70[15] I. Oikonomidis, N. Kyriazis, and A. A. Argyros.利用Kinect进行基于模型的高效3D手部关节跟踪。在BMVC, 2011.1, 80[16] O. M. Parkhi, A. Vedaldi, and A. Zisserman.深度人脸识别。在BMVC, 2015. 60[17] G. Pons-Moll, A. Baak, J. Gall, L. Leal-Taixe, M. Mueller,H.-P. Seidel, and B. Rosenhahn. 利用逆运动学和vonMises-Fisher采样进行室外人体运动捕捉。在ICCV, 2011. 30[18] C. Qian, X. Sun, Y. Wei, X. Tang, and J. Sun.实时且稳健的深度手部跟踪。在CVPR, 2014. 1, 20[19] G. Riegler, D. Ferstl, M. R¨uther, and H. Bischof.关节手部姿势估计和评估的框架。在SCIA, 2015. 30[20] G. Rogez, J. S. Supancic, and D. Ramanan.利用自我中心工作空间进行第一人称姿势识别。在CVPR, 2015. 2,3, 4, 80[21] G. Rogez, J. S. Supancic, and D. Ramanan.从RGB-D图像中理解日常手部动作。在ICCV, 2015. 30[22] S. Schaffelhofer and H. Scherberger.一种准确的小型灵长类动物手臂跟踪方法。《神经工程学杂志》，2012年，9(2)。40[23] ShapeHand. 2009. http://www.shapehand.com/shapehand.html . 30[24] T. Sharp, C. Keskin, D. Robertson, J. Taylor, J. Shotton, D.Kim, C. Rhemann, I. Leichter, A. Vinnikov, Y. Wei, D. Freedman,P. Kohli, E. Krupka, A. Fitzgi

下载后可阅读完整内容，剩余1页未读，立即下载