FreiHAND：真实世界的大规模单RGB图像中3D手部姿势预测与注释数据集

3 浏览量更新于2023-10-12 收藏 1.25MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1FreiHAND：一种用于从单幅RGB图像Christian Zimmermann1、Duygu Ceylan2、Jimei Yang2、BryanRussell2、Max Argus1和Thomas Brox11弗赖堡大学2Adobe研究项目页面：https://lmb.informatik.uni-freiburg.de/projects/freihand/摘要从单个RGB图像估计3D手部姿势是一个高度模糊的问题，依赖于无偏的训练数据集。在本文中，我们分析了在现有数据集上训练时的跨数据集我们发现，ap-proaches在它们训练的数据集上表现良好，但不能推广到其他数据集或野外sce- narios。因此，我们引入了第一个大规模，多视图手数据集，伴随着3D手的姿势和形状注释。为了注释这个真实世界的数据集，我们提出了一种迭代的、半自动的我们表明，在我们的数据集上训练的方法在其他数据集上测试时表现良好此外，该数据集允许我们训练一个网络，从单个RGB图像预测完整的关节手形。评估集可以用作关节手形状估计的基准1. 介绍从单个RGB图像进行3D手部姿势和形状估计在手势识别、机器人和AR中具有各种应用。各种深度学习方法已经解决了这个问题，但其结果的质量取决于训练数据的可用性。此类数据通过渲染合成数据集[4，6，19，20，33]或通过在通常变化很小的受控设置下捕获真实数据集[7，22，27]来创建。这两种方法都有局限性，在我们的相关工作部分讨论。合成数据集使用具有纹理信息的可变形手模型与所有渲染数据集一样，很难对真实图像的广泛特征集进行建模，例如变化的照明，相机镜头失真，运动模糊，景深和去拜耳。更重要的是，仁-图1：我们通过一种新颖的迭代程序创建了一个手部数据集这导致具有姿态和形状标签的大规模真实世界数据集，其可用于训练在姿态和形状估计上具有优异的跨数据集泛化性能的单视图网络手的去噪需要来自可行的和现实的手姿势的真实分布的样本。与人的姿势相反，这种分布数据并不存在到相同的程度。因此，合成数据集要么在各种姿势中受到限制，要么对许多不切实际的姿势进行采样。捕获真实人手的数据集需要在后处理阶段进行注释。在单个图像中，手动注释是困难的，并且由于遮挡和歧义而不能容易地众包。此外，收集和注释大规模数据集是一项值得尊敬的工作。在本文中，我们分析了这些限制如何影响单视图手部姿势估计的能力，以推广到整个数据集和野外的实际应用场景。我们发现，数据集在各自的评估分裂上表现出优异的性能我们看到了一个经典的数据集偏差。为了解决数据集偏差问题，我们创建了一个新的大规模的数据集，通过增加样本之间的变化。我们收集了一个真实世界的数据集，并开发了一种方法，使我们能够自动化大部分的标记过程，同时手动确保非常高保真的3D姿态和3D手形的注释。之一813814训练集评估集图2：来自我们提出的数据集的示例，显示图像（顶行）和手形注释（底行）。训练集包含来自绿屏记录的合成图像，而评估集包含室内和室外记录的图像。该数据集包含多个主题以及对象交互。关键的方面是我们记录来自多个视图的同步图像，这是先前在[2，22]中已经使用的思想。多个视图消除了许多歧义，并且简化了手动注释和自动拟合。我们的方法的第二个关键方面是一个半自动化的人在环标记程序与强大的自举组件。从2D关键点注释的稀疏集合（例如，指尖注释）和半自动生成的分割掩模，我们提出了一种手拟合方法，该方法将可变形手模型[21]拟合到一组多视图输入。该拟合为每个视图生成3D手部姿势然后，我们使用这些注释训练多视图3D手部姿势估计网络。该网络预测我们数据集中未标记样本的3D手部姿势以及置信度。通过验证的信心预测和注释最不自信的样本在迭代过程中，我们获得11592annotations与适度的人工努力，由人类注释。该数据集涵盖32个不同的人，具有完全铰接的手形，手部姿势的高度变化，还包括与对象的交互。我们标记为训练集的部分数据集被捕获在绿色屏幕上。因此，样本可以容易地与变化的背景图像组合测试集由不同室内和室外环境中的记录组成;样本图像和相应注释见图2与在现有数据集上进行训练相比，在此数据集上进行训练明显提高了跨数据集的泛化能力。此外，我们能够从单个RGB图像训练用于全3D手部形状估计的网络。对于这项任务，目前还没有任何公开的数据，既不用于培训，也不用于基准测试。我们的数据集可以在我们的项目页面上找到，因此可以作为该领域未来研究的训练和基准数据集。2. 相关工作由于数据集对于3D手部姿势和形状估计的成功至关重要，因此已经在获取这样的数据上做了很多努力在手形估计的上下文中，大多数方法属于基于模型的技术的类别。这些方法是在严格控制的环境中开发的，并且直接利用深度数据[24，25，28]或使用多视图立体方法进行重建[2]。与我们的工作更相关的是将统计人类形状模型拟合到来自野外彩色图像的观察结果[3，17]这样的方法需要半自动方法来获取每个输入图像的诸如关键点或分割掩模之类的注释，以引导拟合过程。从历史上看，采集方法通常将标记物结合到手上，这使得事后可以简单地估计姿势。常见的选择是红外线标记器[9]、彩色编码手套[29]或电子传感设备[32]。这改变了手的外观，因此，使数据的训练判别方法的价值较低。注释也可以手动提供在手图像[20，23，30]。然而，注释限于手的可见区域因此，要么要求受试者从导致严重自遮挡的复杂手部姿势中保持，要么只能注释手部关节的子集为了避免遮挡并在更大的尺度上注释数据，Simonet al. [22]利用多视图记录设置。他们提出了一种迭代自举方法来检测每个视图中的手部关键点，并对其进行三角测量以生成3D点假设。虽然我们的数据收集策略的精神是相似的，但我们直接将多视图信息纳入神经网络中以预测3D关键点，我们的数据集由姿势和形状组成注释。815eval火车STBRHDGAN潘LSMVFPAHO-3D我们平均秩旅游[30]0的情况。7830的情况。1790的情况。0670的情况。1410的情况。0720的情况。0610的情况。1380的情况。138六、0RHD [33]0的情况。3620的情况。7670的情况。1840的情况。4630的情况。5440的情况。1010的情况。4500.508二、9GAN [19]0的情况。1100的情况。1030的情况。7650的情况。0920的情况。2060的情况。1800的情况。0870的情况。183五、4[第11话]0的情况。4590的情况。3160的情况。1360的情况。8700的情况。3200的情况。1840的情况。3510的情况。4073 .第三章。0LSMV [7]0的情况。0860的情况。2090的情况。1520的情况。1890的情况。7170的情况。1290的情况。2510的情况。2764.第一章1[5]0的情况。1190的情况。0950的情况。0840的情况。1200的情况。1180的情况。7770的情况。1060的情况。163六、0HO-3D [8]0的情况。1540的情况。1300的情况。0910的情况。1110的情况。1490的情况。073-0的情况。169六、1我们0的情况。4730的情况。5180的情况。2170的情况。5620的情况。5370的情况。1280的情况。5570的情况。678二、2表1：该表显示了跨数据集泛化，测量为[33]后正确关键点百分比的曲线下面积（AUC）。每行表示使用的训练集，每列表示评估集。最后一列显示了每个训练集在不同评估集上的平均排名每个评估集的前三个排名训练集标记如下：第一第二第三请注意，在提交时HO-3D的评价集不可用，因此一个表格条目缺失，相应列中的其他条目报告了根据训练集计算的编号。由于捕获真实数据需要昂贵的符号设置和过程，因此最近更多的方法是部署合成数据集[20，33]。3. 现有数据集我们彻底分析了用于从单个RGB图像进行3D手部姿势估计的最先进的数据集，通过测试它们推广到看不见的数据的能力。我们确定了七个最先进的数据集，这些数据集以RGB图像的形式提供样本，并附带了3D关键点信息，如表2所示。3.1. 考虑的数据集Stereo Tracking Benchmark（STB）[30]数据集是第一个也是最常用的数据集之一，用于报告来自单个RGB图像的3D关键点估计的手动获取注释，将设置限制为手部姿势，其中手部的大多数区域可见。因此，该数据集示出了具有不同背景场景并且没有对象的以正面姿势摆姿势的独特主体。Panoptic（PAN）数据集[11]使用由10个RGB-D传感器，480个VGA和31个HD摄像机组成的密集多视图捕获设置创建。它展示了人类执行不同的任务并相互交流。有83个序列可供检索，其中12个序列有人工注释。我们选择171204个姿势3作为评估集，并使用其余11个序列从范围运动，讨价还价和工具类别进行训练。Garcia 等人 [5] 提出了第一人称手部动作基准（FPA），这是一个从自我中心的角度记录的大型数据集，并使用附着在受试者指尖的磁性传感器进行注释。电线沿着受试者的手指运行，显着改变手6自由度传感器测量是uti-816在给定的手模型的逆运动学优化中进行化，以获取完整的手姿势注释。使用商业Leap Motion设备[18]进行关键点注释，Gomez等人。[7]提出了大规模多视图3D手部姿势数据集（LSMV）。由设备给出的注释被转换成近似时间同步的4个校准的摄像机。由于传感器设备的限制，该数据集没有显示任何手-物体交互。Zimmermann 等人提出的渲染手部姿势数据集（RHD）。[33]是一个合成数据集，由20个角色在随机背景图像前执行31个不同的动作，没有手对象交互。基于SynthHands [20]数据集Muelleret al.[19]介绍了GANerated（GAN）数据集。SynthHands是通过将测量的人手关节重定向到混合现实方法中的操纵网格模型来创建的。这在一定程度上允许手对象交互，因为主体可以实时看到渲染的场景并相应地摆出手的在下面的GANerated手部数据集中，CycleGAN方法用于将合成域转换为真实域。最近，Hampaliet al. [8]提出了一种用于数据集创建的算法，该算法部署了一种精心设计的优化方案，其中包含时间和物理数据，以及轮廓和深度信息。由此产生的数据集被称为HO-3D。3.2. 评估设置我们训练了一个最先进的网络架构[10]，该架构将RGB图像作为输入，并在每个数据集的训练分割上预测3D关键点，并在所有其他数据集的评估分割上对于每个数据集，我们要么使用作者报告的标准训练/评估划分，要么创建80%/20%的划分817KK数据集num.帧num.科目房目标ECTS形状标签旅游[30]15 k/3 k1✓✗✗手动[33]第三十三话641 k/34 k>10✓✓✗[22]第二十二话[5]52 k/53 k6✓✓✗标记LSMV [7]117 k/31 k21✓✗✗跳跃运动RHD [33]41 k / 2。7K20✗✗✗合成GAN [19]266 k/66 k-✗✓✗合成HO-3D [8]11 k /-3✓✓✓自动[8]我们33 k/4 k32✓✓✓混合表2：用于我们分析中使用的单色图像的3D关键点估计任务的最新数据集我们报告数据集大小的帧的数量，子帧的数量，如果它是真实的或渲染的数据，关于手对象的交互，如果形状注释提供，以及用于标签生成的否则，详见补充资料。单视图网络将RGB图像I作为输入，并推断3D手部姿势P ={pk}，其中每个pk∈R3表示位于其上的预定义地标或关键点。人手的运动骨架由于尺度模糊性，在以摄像机为中心的坐标系中估计真实世界3D关键点坐标的问题因此，我们采用[10]的问题公式来以相对根和尺度归一化的方式估计坐标：具有足够变化的数据集（例如，手的姿势、视点、形状、对象的存在等）。表1显示了对于每个现有的训练数据集，网络能够推广到相应的评估分割，并在那里达到最佳结果。另一方面，当网络在其他数据集上进行测试时，per-coverage会大幅下降。GAN和FPA数据集似乎都特别难以概括，这表明它们的数据分布与其他数据集显著不同。对于FPA，这源于由于用于注释目的的标记而导致的外观变化。改变后的外观为在此数据集上训练的网络提供了强有力的线索，以解决在评估时其他数据集不存在的任务。因此，在FPA上训练的网络在其他数据集上测试时表现不佳。基于GAN数据集的视觉检查，我们假设细微的变化，如错过的手纹理和不同的颜色分布是泛化问题的主要原因。我们还观察到，虽然在STB上训练的网络在其余数据集上表现不佳，但在其他数据集上训练的网络在STB的评估分割上表现出合理的性能。我们的结论是，一个良好的性能STB是不是一个可靠的衡量方法如何推广到看不见的数据。xkpk=s·pk=s·yk=zkxk中国（1）zrel+zroot基于每个网络的性能，我们计算表1最后一列中报告的每个数据集的累积排名得分。为了计算累积排名，我们为表中的每一列分配排名，其中，标准化因子s被选择为手中的一个参考骨的长度s，k是根深度，并且z是k的相对深度。我们将得到的2.5D表示定义为：p=.x，y，zre lT.（二）根据各个训练集实现的性能来速率地进行。然后计算所有评估集的平均值，即累积排名。表的行。基于这些观察，我们得出结论，需要一个新的基准数据集，可以提供卓越的通用化能力。雷尔克k kk我们提出了FreiHAND数据集来实现这一目标。给定标定相机中的点的尺度约束和2D投影，可以从珀雷湖关于这个过程的细节，我们参考[10]。我们使用与Iqbal等人相同的超参数选择来训练单视图网络。[10 ]第10段。然而，我们只使用一个阶段，并减少了网络层中的通道数量我们应用标准选择的数据增强，包括颜色，缩放和平移增强以及围绕光轴的我们将这种增强应用于每个数据集。3.3. 结果预计网络在其训练的数据集上表现最好，但当在它由真实图像组成，提供了足够的视点和手部姿势变化，并显示了有和没有对象交互的样本。因此，在该数据集上训练的单视图网络在跨数据集泛化的排名方面实现了实质性的改进。接下来，我们将描述如何获取和注释该数据集。4. FreiHAND数据集数据集是用图1所示的多视图设置捕获的。3.第三章。该设置是便携式的，使在室内和室外捕捉. 我们捕捉了32个不同性别和种族背景的主题的手姿势。要求每个受试者在有或没有对象的情况下执行动作。为了捕捉手与物体的互动，受试者被给予一些日常生活用品，允许合理的单手操作，并被要求818KPKPKP图3：记录设置与8个校准和节奏同步RGB相机位于一个立方体的角落。绿色屏幕背景可以安装到设置中，使背景减除更容易。展示了不同的抓取技巧。补充材料中提供了更多信息。为了保持手的真实外观，在捕获期间不使用标记器。相反，我们采取后处理方法，生成3D标签。手动获取3D注释显然是不可行的。替代策略是获取每个输入视图的2D关键点注释，并利用多视图相机设置将这样的注释提升到3D，类似于Simon等人。[22 ]第20段。我们发现，经过初步实验，目前的2D手姿态估计方法表现不佳，特别是在具有挑战性的手姿态与自我和对象遮挡的情况下。手动注释每个视图的所有2D关键点对于大规模数据收集来说成本过高。使用专用工具对多视图中的所有21个关键点进行注释，此外，仅关键点注释不足以获得形状信息。我们用一种新的自举程序来解决这个问题（见图1）。4）由一组利用稀疏2D注释的自动方法组成。由于我们的数据是在绿色屏幕上捕获的，因此可以自动执行前景。细化只需要共同对齐的分割掩模与手模型的手腕。此外，还手动注释一组稀疏的六个2D关键点（指尖这些注释是相对便宜的，以合理的高质量获得例如，手动校正分割掩码平均需要12秒，而注释关键点大约需要2秒。利用这些信息，我们使用第4.1节中描述的新颖拟合过程将可变形手模型拟合到多视图图像。这产生了3D手部姿势和形状标签的候选项。这些可以-图4：数据集标记工作流程从手动注释开始，然后是4.1中描述的形状拟合过程，该过程为我们的数据样本产生候选形状拟合。样本拟合被手动验证，允许它们被接受、拒绝或排队以进行进一步注释。或者，启发式可以接受样本，而无需人工干预。初始数据集允许训练所涉及的网络，其对于过程的后续迭代，可以预测拟合所需的信息标记过程可以自举，允许更多可接受的样本在数据集中积累。然后，在将数据添加到一组标签之前，人工验证数据。给定一组初始标签，我们训练我们提出的网络MVNet，该网络将多视图图像作为输入，并预测3D关键点位置以及置信度得分，如第4.2节所述。关键点预测可以代替手动注释的关键点用作拟合过程的输入迭代该引导过程手动注释最低置信度样本（第4.3节）。通过这种人在环过程，我们可以快速获得大规模注释数据集。接下来，我们将详细描述此过程的每个阶段。4.1. 基于稀疏标注的手部模型拟合我们的目标是将可变形的手形模型拟合到同时采集的多个视图的观察结果。我们建立在统计MANO模型，罗梅罗等人提出的。[21]，它由θ∈R61参数化。的模型参数θ=（α，β，γ）T包括形状α∈R10，关节β∈R45以及整体平移和定向γ∈R6。使用关键点和分割信息，我们优化了多项损失，L=L2D+L3D+Lseg+Lshape+Lpose，（三）以估计模型参数θe，其中波浪号表示正在优化的变量。接下来，我们在（3）2D关键点损失L2D：损失是距离模型的3D关键点的2D投影关键点分割蒙版形状拟合候选项接受形状数据集MVNetHandSegNet手动验证人工注释形状配件启发式接受手动微调819KKP˜L=w·p∈R3到2D注释qi在视图i上可见关键点k∈Vi：Σ Σ¨ ¨L2D=w 2D··<$qi−i（pk）<$。（四）KPKPK2i k∈Vi3D关键点损失L3D：该损失以与（4）类似的方式定义，但是在3D关键点上。在此，pk表示3D关键点注释，无论何时这样的注释被可用的（例如，如果由MVNet预测），ΣΣ图5：MVNet使用所有8个视图的图像预测单个手部姿势P（为简单起见，仅示出2个）。每个图像都由跨视图共享的2D CNN单独处理。这产生2D特征图f1。这些是在-3D三维KP KPpk−pi k∈Vi.（五）分别重新投影到一个共同的坐标系中，执行已知的相机校准以获得Fi=f-1（fi）。Fi在所有视图上聚合，最后是3D CNN分割损失Lseg：对于形状优化，我们使用模型相关掩模Msegi之间的l2损失之和以及在视图i上的手动注释Mi：在体素表示中定位3D关键点。4.2. MVNet：多视图3D关键点估计为了使拟合过程自动化，我们寻求估计L=w·¨ ¨ ¨“ii"¨iié）。自动生成3D关键点。我们提出了MVNet，如segseg（�M我-Mé2 +EDT（M）·M2（六）图图5中所示的方法，其聚集来自所有八个相机图像Ii的信息并且预测单个手部姿势P={pk}。我们此外，我们应用基于欧氏距离变换（EDT）的轮廓项。具体地，我们将对称EDT应用于Mi，其包含到每个位置处的最近边界像素的距离。Shape PriorLshape：对于形状正则化，我们采用使用可微非投影操作，类似于Karetal. [13]，将每个视图中的特征聚合到共同的3D体积中。为此，我们将关键点估计问题公式化为逐体素回归任务：Σ¨ ¨�L=1µS-S、（10）L形¨ ¨=w形状·<$$>，2（七）MVNet克克克K其强制预测形状保持接近MANO的平均形状。Pose PriorLpose：pose prior有两项。第一项对PCA系数aj应用正则化，用于根据PCA基向量表示姿态αβ其中，Sk∈RN×N×N表示关键点k的网络预测，Sk是我们根据验证的MANO拟合计算的地面实况估计。Sk被定义为非-以真实关键点位置为中心的高斯分布。预测点pk是最大的cj（即，α=jaj·cj）。该规则化强制预测姿态保持接近关于MANO的PCA姿态空间的可能姿态。第二项正则化当前姿势αi到从[ 5 ]获取的手部姿势数据集的N个最近邻居的距离：位于首尔。此外，我们还定义了预测为沿空间的最大值和关键点维度上的平均值1Σc=（maxSk（i，j，l））。（十一）Ki，j，lLpose=w pose· ΣaJΣn∈Nαn−α （八）K其他信息可参见补充材料。我们在Tensorflow [1]中实现了拟合过程，并使用MANO实现了从θe到3D模型k∈y点p∈k和3D模型v∈x位置的可区分映射V∈R778×3。我们采用神经渲染器[14]来渲染分割从手模型顶点掩模MiV并使用AD AM优化器[15]来最小化：θ=argmin（L（θ））（9）θ˜Σ8204.3. 迭代细化为了生成大规模的注释，我们提出了一个迭代的，人在回路中的过程，这是可视化的图。4.第一章对于初始引导，我们使用一组手动注释来生成初始数据集D0。在迭代i我们使用数据集Di，一组图像和相应的响应MANO拟合，以训练MVNet和HandSegNet[33]。MVNet对剩余的未标记数据和Hand进行3D关键点预测以及置信度评分821我我我方法网格误差↓F@5mm↑F@15mm↑平均形状1 .一、780的情况。3000的情况。808MANO Fit1 .一、450的情况。4150的情况。884MANO CNN1 .一、160的情况。4840的情况。925表3：该表显示了刚性对线后FreiHAND评价分割的我们报告两项措施：两个不同距离阈值下的平均网格误差和F分数。SegNet预测手部分割掩码。使用这些预测，我们执行第4.1节的手形拟合过程。随后，我们执行验证，接受，拒绝或部分注释这些数据样本。启发式验证。我们定义了一个启发式的三个标准，以确定数据样本与良好的MANO适合。首先，我们要求平均MVNet置信度得分高于0。8并且所有单独的关键点置信度至少为0。6，其对3D关键点预测实施最低水平的确定性。其次，我们定义了一个最小阈值的交集超过工会（IoU）之间的预测分割掩模和MANO拟合结果得出的掩模。我们将这个阈值设置为0的情况。所有视图的平均值为7，同时也拒绝了具有超过2个视图且IoU低于0的样本。五、第三，我们需要预测3D关键点和拟合MANO的关键点最多为0。5cm，其中没有单个关键点的欧几里得距离大于1cm。我们只接受满足所有三个标准的样本，并将其添加到集合Dh中。手动验证和注释。剩下的未被接受的样本根据MVNet的置信度得分进行排序，我们从第50个百分位数向上选择样本。我们在所选样本之间强制执行最小时间距离，以确保多样性，并选择当前姿势估计的样本。充分不同于如通过姿势参数中的欧几里德距离所测量的平手形状我们要求安-5. 实验5.1. FreiHAND的跨数据集综合为了评估我们的数据集的跨数据集泛化能力并与表1的结果进行比较，我们定义了以下训练和评估分割：存在具有和不具有绿屏的样本，并且我们选择使用所有绿屏记录进行训练，剩余的用于评估。训练和评估拆分分别包含来自24和11名受试者的数据，只有3名受试者在拆分中共享。在2个不同的室内和1个室外位置捕获评估分割。我们通过利用绿色屏幕进行简单有效的背景减除并使用新背景创建合成图像来增强训练集。为了避免在手部边界处的绿色出血，我们应用Tsai等人的图像协调方法。[26]以及Zhang等人的深度图像着色方法。[31]与我们的数据分开。使用了[31]的自动和采样变体使用原始样本，这将训练集大小从33k唯一到132k扩增样本的四倍。得到的图像的示例示于图1中。二、考虑到训练和评估的分离，我们在我们的数据上训练单视图3D姿态估计网络，并在不同的数据集上测试如表1所示，该网络在所有数据集上都实现了很高的准确性，并且在跨数据集泛化方面排名第一。5.2. 3D形状估计我们获得的数据集具有姿势和形状注释，可以用于以完全监督的方式训练形状估计模型此外，它作为第一个真实的数据集，可用于评估形状估计方法。基于Kanazawaet al.[12]中，我们训练了一个网络，该网络将单个RGB图像作为输入，并使用以下损失预测MANO参数θεL=w3Dpk−pk2+w2D（pk）−（p）2+notators来评估质量的MANO适合这些w′θ− θθ′。（十三）样品将验证为良好拟合的任何样本添加到集合Dm。对于剩余样本，注释器具有丢弃样本（在这种情况下被标记为未标记）或提供附加注释（例如，注释错误标记的指尖）以帮助改善配合。这些附加注释的样本被添加到集合D1。pé2我们为2D和3D关键点以及模型参数部署了l2损失，并将权重选择为w3D=1000，w2D=10和wp=1。我们还提供了两种基线方法，常数均值形状预测，没有会计用于关节运动将来自所有流的样本合并产生更大的la-贝尔莱德数据集MANO模型与3D关键点的匹配我们的单视图网络预测。为了比较，我们使用两个分数。网格误差Di+1= Di+ Dh+ Dm+Dl（十二）测量相应的两个节点之间的平均欧氏距离我我我这使得我们能够重新训练HandSegNet和MVNet。我们重复这个过程4次，以获得最终的数据集。响应地面实况中的网格顶点和预测的手形。我们还评估了F分数[16]，给定距离阈值，定义了822WKPKP两个点之间的召回和精确度[16]。在我们的评估中，我们使用两个距离：F@5mm和F@15mm来报告精细和粗略尺度下的精度为了将形状评估与全局旋转和平移解耦，我们首先使用Procrustes对齐作为刚体变换来对齐预测网格。结果总结见表3。直接使用CNN估计MANO参数在所有测量中的表现都优于基线方法。评估表明，F-分数的差异在高准确度范围内更明显我们的网络预测的定性结果在图中提供。六、图6：给定单个图像（顶行），示出了预测手形的定性结果（底行）。请注意，我们5.3. 迭代标记的评价在迭代标记过程的第一步骤中，我们设置2D=100和w2D=0（因为没有3D关键点标记可用），wseg=10。0，wshape=100。0，wnn=10。0，且wpose=0。1 .一、(For随后的迭代我们设置w2D=50和w3D=1000。考虑到装修重新-数据集D0D1D2D3D4样本数量302993144926094565RHD0的情况。2440的情况。4530的情况。4930的情况。5110的情况。518潘0的情况。3470的情况。5210的情况。5210的情况。5390的情况。562表4：通过报告RHD和PAN的交叉数据集泛化来评估自举收敛。性能的测量是AUC，它显示出单调的改进。我们使用额外接受的样本重新训练 MVNet 和HandSegNet并重新验证该过程。在第一次迭代结束时，我们能够将数据集增加到993个样本，其中140个通过启发式自动接受，其余的来自验证1000个样本。在第二次迭代中，总的数据集大小增加到1449，其中289个被自动接受，其余的来自验证500个样本。在随后的迭代中，完整的数据集大小增加到2609和4565个样本，其中启发式接受产生347和210个样本。这是我们用于交叉数据集泛化（见表1）和形状估计（见表3）实验的数据集。我们通过在我们数据集的不同迭代上训练单视图3D关键点估计网络来评估迭代标记过程的有效性。为此，我们选择了两个评估数据集，它们在表1中达到了良好的平均排名。表4报告了结果，并显示了随着数据集的增长，两次迭代的稳定增长。更多的迭代过程中的实验定位在补充材料。6. 结论我们介绍了FreiHAND，这是迄今为止最大的RGB数据集，包含真实图像的手部姿势和形状标签我们使用一种新的迭代程序捕获这个数据集。该数据集使我们能够提高从单个图像估计3D手部姿势的任务的泛化性能，以及单目手部形状估计的监督学习为了促进对手形估计的研究，我们计划进一步扩展我们的数据集，为社区提供一个具有挑战性的基准，在现实的野外条件下进行评估迈出了一大步。KP KP结果，我们训练MVNet并在剩余的数据集上进行测试在第一个验证步骤之后，接受了302个样本。验证样本需要大约5秒，我们发现在大多数情况下正确捕获了全局姿态，但是为了获得高质量的地面实况，即使具有微小不准确性的拟合也会被丢弃。确认我们衷心感谢巴登-符腾堡州基金会对鼠T架项目的资助。部分工作是在Christian在Adobe Research实习期间完成的823引用[1] Mart 'ın Abadi，Ashish Agarwal，Paul Barham，EugeneBrevdo，Zhifeng Chen，Craig Citro，Greg S Corrado，Andy Davis ， Jeffrey Dean ， Matthieu Devin ， et al.Tensorflow：异构分布式系统上的大规模机器学习。arXiv预印本arXiv：1603.04467，2016。6[2] LucaBallan，AparnaTaneja，JürgenGall，LucVanGool，andMarc Pollefeys.使用区别性显著点的动作中的手的运动捕获。欧洲计算机视觉会议，第 640-653 页。Springer，2012. 2[3] Federica Bogo、Angjoo Kanazawa、Christoph Lassner、Peter Gehler、Javier Romero和Michael J Black。保持它smpl：由单一影像自动估计三维人体位姿与形状。在欧洲的过程中。Conf. on Computer Vi-sion（ECCV），pages 561-578.施普林格，2016年。2[4] Adnane Boukhayma、Rodrigo de Bem和Philip HS Torr。3d手的形状和姿势从图像在野外。arXiv预印本arXiv：1902.03451，2019。1[5] Guillermo Garcia-Hernando 、Shanxin Yuan 、 SeungryulBaek和Tae-Kyun Kim。第一人称手部动作基准标记，带有rgb-d视频和3d手部姿势注释。在IEEE Conf.计算机视觉和模式识别（CVPR），第409-419页，2018年。三、四、六[6] Liuhao Ge ， Zhou Ren ， Yuncheng Li ， Zehao Xue ，Yingying Wang，Jianfei Cai，and Junsong Yuan.根据单个RGB图像的3D手的形状和姿态估计。arXiv预印本arXiv：1903.00812，2019。1[7] Francisco Gomez-Donoso、Sergio Orts-Escolano和MiguelCazorla。大规模多视角3d手部姿势数据集。Image and Vision Computing，81：25-33，2019。一、三、四[8] Shreyas Hampali，Markus Oberweger，Mahdi Rad，和Vin-cent Lepetit. Ho-3d：用于联合3D手部对象姿态估计的多用户、多对象数据集。arXiv预印本arXiv：1907.01481，2019。三、四[9] Gerrit Hillebrand，Martin Bauer，Kurt Achatz，GudrunKlinker，and Am Oferl.逆运动红外光学手指跟踪。在Proceedings of the 9 th International Conference onHumans and Computers（HC 2006），Aizu，Japan，第6-9页中Citeseer，2006. 2[10] Umar Iqbal，Pavlo Molchanov，Thomas Breuel JuergenGall，and Jan Kautz.基于潜在2.5维热图回归的手部姿态估计在欧洲的过程中。计算机视觉会议（ECCV），第118-134页，2018年。三、四[11] Hanbyul Joo Tomas Simon和Yaser Sheikh总捕获量：用于跟踪面部、手部和身体的3d变形模型。在IEEE Conf.计算机视觉和模式识别（CVPR），第8320-8329页，2018年。3[12] Angjoo Kanazawa、Michael J Black、David W Jacobs和Jitendra Malik。端到端恢复人体形状和姿势。在IEEEConf.计算机视觉和模式识别（CVPR），第7122-7131页，2018年。7[13] Abhi s hekKa r，ChristianHaíne，andJitendraMalik. 学习多视角立体机。在Int.神经信息处理系统（NIPS）会议，第365-376页，2017年。6[14] Hiroharu Kato、Yoshitaka Ushiku和Tatsuya Harada。神经三维网格渲染。在proc IEEE会议关于COM-824计算机视觉和模式识别（CVPR），第3907- 3916页，2018年。6[15] Diederik P. Kingma和Jimmy Ba。Adam：随机最佳化的方法。CoRR，abs/1412.6980，2014。6[16] Arno Knapitsch ， Jaesik Park ， Qian-Yi Zhou ， andVladlen Koltun.坦克和寺庙：大规模场景重建的基准。ACM Transactions on Graphics（ToG），36（4）：78，2017。七、八[17] 放大图片作者：Christoph Lassner，Javier Romero，Martin Kiefel，Federica Bogo，Michael J.布莱克和彼得五世盖勒团结人民：关闭3D和2D人类表现之间的循环。在IEEE Conf.计算机视觉和模式识别（CVPR），2017年7月。2[18] 跳跃运动https://www.leapmotion.com网站。3[19] Franziska Mueller、Florian Bernard、Oleksandr Sotny-chenko、Dushyant Mehta、Srinath Sridhar、Dan Casas和Christian Theobalt。从单目rgb实时3d手部跟踪。在IEEE Conf.计算机视觉和模式识别（CVPR），第49-59页，2018年。一、三、四[20] Franziska Mueller、Dushyant Mehta、Oleksandr Sotny-chenko 、 Srinath Sridhar 、 Dan Casas 和 ChristianTheobalt。基于自我中心rgb-d传感器的遮挡下手部实时跟踪。InInt. Conf. on Computer Vision（ICCV），Oc- tober 2017. 一、二、三[21] Javier Romero ， Dimitrios Tzionas ， and Michael JBlack.Em-身体的手：建模和捕捉手和身体到一起。ACM Transactions on Graphics（ToG），36（6）：245，2017。二、五[22] Tomas Simon，Hanbyul Joo，Iain Matthews，and YaserSheikh. 使用多视图自举的单图像中的手关键点检测在IEEE Conf.计算机视觉和模式识别（CVPR），第1145-1153页，2017年。一、二、四、五[23] SrinathSridhar，FranziskaMueller，MichaelZollhoefer，Dan Casas，Antti Oulasvirta，and ChristianTheobalt.从rgb中实时跟踪操纵物体的手的关节d输入。在欧洲的过程中。计算机视觉会议（ECCV），2016年10月。2[24] Anastasia Tkach，Mark Pauly，and Andrea Tagliasacchi.用于实时手部

下载后可阅读完整内容，剩余1页未读，立即下载