基于深度学习的3D手部形状和姿势预测方法

159 浏览量更新于2023-10-17 收藏 1.76MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13D手形和姿势从图像在野外Adnane Boukhayma1，Rodrigo de Bem1，2，Philip H.S.Torr11英国牛津大学2巴西格兰德河联邦大学{adnane.boukhayma，rodrigo.andradedebem，philip. niche}@eng.ox.ac.uk摘要在这项工作中，我们提出了第一个基于端到端深度学习的方法，该方法可以从RGB图像中预测3D手部形状和姿势。我们的网络由深度卷积编码器和基于固定模型的解码器的级联给定输入图像和从独立CNN获得的可选2D联合检测，编码器预测一组手和视图参数。解码器有两个组件：预先计算的铰接网格变形手模型，其从手参数生成3D网格;以及由视图参数控制的再投影模块，其将所生成的手投影到图像域中。我们表明，在深度学习框架内使用手部模型中编码的形状和姿势先验知识，可以在标准基准的图像中获得最先进的3D姿势预测性能，并产生几何有效和合理的3D重建。此外，我们表明，在野外图像数据集上以2D联合注释形式进行弱监督的训练，结合有限可用数据集上以3D联合注释形式进行的全面监督，可以很好地推广到野外图像上的3D形状和姿势预测。1. 介绍3D中的人手姿态估计和重建是计算机视觉和图形领域中的一个长期存在的问题，其在诸如虚拟和增强现实以及人机交互的各种领域中具有应用[35，15，46，13]。随着可负担得起的商品深度相机的丰富，研究文献自然更多地集中在通过深度观察来估计3D手部姿势（例如，[62，66，10，36，61]），许多作品也在多视图设置中探索了这个问题[33，65，41，8，31，50]。当涉及到单目色时输入，由于增加的深度和尺度模糊性，该问题变得固有地不适定，但这并没有阻止一些研究人员[4，9，51，57，63，39]在过去尝试解决它，尽管结果有限。最近，深度学习在类似任务上取得了前所未有的成功，这激发了新的工作，并从单张图像中获得了令人鼓舞的3D手部姿势[68，27，7，47，14]。然而，这项任务仍然特别困难：手不像穿着衣服的人的身体或脸，具有几乎一致的外观，并且缺乏面部的特征性局部特征，例如眼睛和嘴。与身体不同，它们可以有更复杂的姿势配置，并且可以从更广泛的视图中捕获。此外，在野外观察时，如数据集MPII +N L中，[44]（图9），它们的图像通常包含外部遮挡、自遮挡、杂乱和由于它们的运动而造成的模糊此外，与场景相比，手的尺寸通常很小，因此它们周围的裁剪补丁具有较低的分辨率。通过深度学习从图像中估计3D手部姿势的主要障碍包括：（i）缺乏用可靠的3D地面实况注释的大型数据集，（ii）当前3D注释数据集无法使网络极大地推广到野外具有挑战性的图像。第一点由文献通过使用合成图像进行训练[68]、通过将合成图像转换为真实图像来填充数据集[27]或在训练中利用辅助类型的数据（如深度）来[7，47]。我们提出了一种不同的、简单而有效的方法，通过消除训练中对3D数据的严重依赖来缓解挑战（i）和（ii）：不是依赖于与3D关节注释配对的图像来学习手部几何形状的先验，我们利用最近提出的用线性混合蒙皮[ 18 ]构建的可微分铰接网格变形手部模型[40]，并且我们将预测问题重新表述为基于学习的模型拟合，其可以使用3D和2D关节注释进行训练。使用2D注释图像进行训练1084310844图1：我们的管道将手部图像和可选的来自独立CNN的2D关节热图作为输入编码器生成形状、姿态和视图参数。手部参数被馈送到手部模型，该手部模型生成三角化的3D网格及其底层3D骨架。后者被重新投影到图像域使用由视图参数控制的弱透视该网络通过弱2D和全3D联合监督的组合进行端到端训练。手和视图参数不受监督。访问较大数据集的能力较低（例如， P ANOPTIC[44]），在野外（例如，与具有3D地面实况的数据集相比，M PII +N NPDL [44]），从而有助于提高对这种具有挑战性的数据的泛化能力。给定输入图像，以及可选地从独立CNN获得的2D联合检测，深度卷积编码器预测手的形状和姿势参数以及视图参数。基于模型的解码器使用后者来生成3D三角化手部网格及其底层骨架，以及它们在图像域中的重新投影（参见图1）。我们在本文中的贡献如下：这项工作是第一个提出从单个RGB图像中学习3D手部形状和姿势的端到端学习。我们还首次表明，预先计算的线性混合蒙皮[18]手部模型[40]中的因子手部形状和姿势的先验知识与深度卷积编码器相结合，在图像的3D姿势预测中产生了最先进的性能，并产生了几何有效和合理的3D重建，而无需后处理优化[27]。我们表明，这种策略结合在野外图像的2D注释数据集上的训练，在不受控制的环境中对具有挑战性的图像的3D手部重建中产生了良好的泛化我们使用各种公共数据集在3D姿态估计和定性方面定量评估我们的工作。这些评估集考虑了手与对象交互、遮挡和杂乱的情况，并且包含自我中心视图图像、第三人称视图图像和野外图像。我们的方法在标准基准测试中获得了最先进的结果，甚至与在训练中使用额外深度信息的方法[7，47]，相机内在函数[27，34]和后处理优化[27]相比。我们的方法在野外图像的chal-chaling数据集上显示出优异的定性结果（图9柔软的材料）。2. 相关工作有大量关于3D手部姿势和深度反射的文献[62，66，10，36，61，11，43，45，19，20，24，30，37，48，52，53，59，64]，图像和深度[26，32，49，28]，立体[33，65，41]和多个图像[8，31，50]。我们在此集中研究材料，只考虑一个单一的颜色输入图像。从单个图像获得在深度学习之前，已经尝试使用判别和生成方法来解决来自单眼颜色输入的3D手部姿势估计[4，9，51，57，63，39]。然而，这些方法中的大多数具有有限的性能，并且依赖于各种要求，例如仔细的初始化和背景的先验知识深度学习[68]的工作是第一个提出使用深度学习从单个图像进行3D手部姿势估计的工作。他们的方法由三个网络的串联组成，这些网络分割手，预测2D关节，然后预测3D关节。[27]的工作表明，以前的方法很难推广到真实世界的图像，因为它们的训练数据的主要部分是合成的。反过来，他们（[27]）建议使用Cycle-GAN[67]将手部的合成3D注释图像转换为真实的图像。所得数据用于训练回归器以预测2D和3D手部关节。最后的优化步骤使用相机固有函数将3D骨架拟合到先前的2D和3D预测。[34]中的方法包括将手模型拟合到从最先进的CNN [44]获得的2D关节检测的优化我们还使用预定义的手部模型[40]，但在管道中进行端到端训练。深度正则化最近的作品通过在训练中对深度图[7]建议减少10845通过介绍一个从3D关节预测完整深度图的网络，可以在真实数据集中消除对噪声3D注释的依赖性。该深度正则化器使用真实和合成训练图像的地面真实深度数据进行训练，而3D预测仅由可靠的合成标签监督。[ 47 ]中的作者使用共享相同潜在空间的多个可变自动编码器，每个自动编码器自动编码单独的手部数据模态（例如，图像、2D关节、3D关节）。他们表明，辅助自动编码器有助于正则化潜在空间，并产生改进的跨模态预测（例如，图像到3D关节）。[14]表明，预测隐式2.5D热图表示产生改进的3D预测，即使没有显式全深度图监督。手模型在文献中已经提出了许多手模型，主要旨在跟踪深度和颜色数据，其中使用各种技术对手进行建模，例如组装的几何图元[32]、高斯求和[50]、球体网格[58]或控制网格的循环细分[20]。为了更好地捕捉手的形状，[32]定义了缩放项以允许骨骼长度变化，而[54]则预先校准形状以适应感兴趣的手。[20]中的工作是第一个从线性混合蒙皮的扫描中学习手部形状变化[18]。最近在[40]中提出的称为MANO的模型通过学习姿势相关的相关混合形状[25]来改进后者，从而对手部形状和姿势进行建模，并生成更逼真的姿势网格。我们在这项工作中使用MANO [40]模型。几项工作提出将深度卷积编码器与生成模型相结合，特斯重新投影模块和手模型一起形成基于模型的解码器，其参数是固定的并且不需要训练。编码器是用我们在第2.1节中六、我们注意到，我们的管道的训练是使用2D和3D关节注释进行端到端的，而不需要监督手部和视图参数，除了对手部参数进行我们在下面详细说明和解释管道各个部分的功能4.手模型我们使用基于人体SMPL模型[25]的MANO手模型[40]。它是用可微函数M（β，θ）表示的铰接网格变形模型，将分别控制所生成的手的形状和姿势的两组参数β和θM（β，θ）=W（T（β，θ），J（β），θ，W），（1）其中W是应用于模板手动三角网格T的线性混合蒙皮[18]函数，该模板手动三角网格T装配有K=16个关节的运动树。J表示关节位置，它是从网格顶点学习的稀疏线性回归量，W是混合权重。为了减少线性混合蒙皮的伪影例如过度平滑的输出和关节周围的网格折叠，通过分别用形状和姿态校正的混合形状Sn和Pn对平均网格T'进行变形来获得手模板T，如下所示：解码器的人脸[56，55]和身体[17，60]三维重建。在许多这些作品中，解码器是参数模型（例如，线性人脸模型[6]，T（β，θ）=T<$+Σ|β|n=1βnSn+1999年n=1（Rn（θ）−Rn（θ））Pn，（2）SMPL [25]）和重新投影/渲染模块。虽然大多数作品修复了这些解码器，但有些人建议在监督初始化后对其进行调整[2，22，55]。这是第一个提出CNN编码器与固定生成手模型[40]相结合的工作，用于从图像重建3D手的问题。3. 概述如图1所示，我们的流水线将手的图像和可选的来自独立手检测器的2D关节热图作为输入。深度卷积编码器处理输入并生成一组手形β和姿态θ参数以及一组视图参数R、t和s。手的参数被馈送到一个可微的关节网格变形的手模型，生成一个三角形的3D网格和它的基础3D骨架。然后，这些输出通过由视图参数控制的弱透视相机模型重新投影到图像域中其中Rn（θ）是连接来自姿态θ的所有关节的旋转矩阵系数的向量的第n个元素，并且θn是静止姿态。模型常数{T'，S，P，J，W}是使用来自31个执行大约51个手部姿势的受试者的配准手部扫描来学习的。在SMPL模型中，姿态向量θ堆叠角度-关节的轴值。为了帮助手模型生成物理上合理的姿势，[40]中的作者通过对收集的数据中的关节角轴值执行主成分分析来将该姿势表示减少到线性嵌入，以构建模型。姿态向量θ包含从PCA得到的主系数，而不是角轴值。保留10个系数对于姿态（θ∈IR10），使用10个系数来也表示形状（β∈IR10）。给定输入形状和姿态参数，我们得到一只手N=778个顶点和1538个面的网格M（β，θ），以及相应的3D关节J（β，θ）=Rθ（J（β））108462其中Rθ是由姿态θ引起的全局刚性变换。由于MANO中的手部骨架不包含指尖关节，因此我们将来自手部网格的对应于这些关键点的5个顶点附加到J。最终的3D关节输出J（β，θ）计数21个关键点。5. 相机模型为了将3D手部网格顶点M（β，θ）和3D关节J（β，θ）重新投影到2D图像平面中，我们使用弱透视模型。这种近似允许我们即使在没有相机内在函数的情况下也可以使用带注释的图像进行训练，例如从Youtube视频中获得的野生图像（例如，数据集MPII +Nμ L）。给定全局旋转矩阵R∈SO（3），平移t∈IR2和缩放s∈IR+，投影写为：x=s（RJ（β，θ））+t，（3）y=s∈（RM（β，θ））+t，（4）式中t是正投影。6. 编码器给定输入手部图像，编码器的目标是预测对应的手部姿势和形状参数{β，θ}以及相机参数{R，t，s}。我们使用ResNet-50网络[12]，并调整最终的完全一致性。连接层以输出向量v={R，t，s，β，θ} ∈IR26。我们注意到，全局旋转R是用轴角值编码的，因此用3个参数表示我们还尝试将使用最先进的方法[44]获得的2D手部关节热图作为额外的通道输入到手部RGB图像。图2：我们为预训练编码器而创建的合成数据集的示例。网络预训练我们对编码器进行预训练，以确保相机和手部参数收敛到可接受的值。为此，我们使用我们用作解码器的相同的生成模型，创建具有地面实况相机和手部参数的成对手部图像的合成数据集。通过采样姿态θ∈[−2，2]10和形状β∈[−0. 03，0。然后应用旋转R、平移t和缩放s。虽然[40]的工作并没有模拟手的外观，但作者提供了用于构建的扫描几何模型与其注册的对应物。原始扫描带有每个顶点的3D坐标和RGB值。我们使用注册的扫描拓扑创建示例手部外观：对于注册网格中的每个顶点，我们将原始对应扫描中最近顶点的RGB值分配给它们，然后将这些值插入面内。最后，在随机背景图像上渲染有纹理的手。图2显示了结果数据集的示例。7. 培养目标我们结合多种损失来训练我们的管道：2D联合重投影损失L2 D、3D联合损失L3 D、手掩模损失L mask和模型参数正则化损失Lreg。L=L2D+α 3DL 3D+αmaskLmask+αregLreg，（5）其中α3D=102、αmask=102和αreg=101是加权因子。2D关节重新投影损失该损失确保图像平面中的重新投影的手关节与地面实况2D手关节注释一致：L2D=x−x1，（6）其中x是包含地面实况2D手部关节坐标的向量。我们使用L1损失来解释训练数据集中手动注释的不准确性3D关节损失当地面实况3D手部关节注释可用时（例如STEREO数据集），这种损失使后者与手部模型生成的3D手部关节之间的距离最小化：L3D=RJ（β，θ）−x3D2，（7）其中x3D是包含地面真实3D手部关节坐标的向量。Hand mask loss我们引入这种新的损失来帮助加快我们的训练收敛并改进手部形状预测。这种损失会惩罚位于二进制掩码中的手区域外部的重新投影的手顶点，该二进制掩码在训练之前预先计算：1ΣLmask=1−NH（yi），（8）我其中H是遮挡感知的手掩模，即，如果像素u在手区域内，即使手被包括在图像中，则H（u）=1，否则H（u）=0。注意到1084722(a)(b)（c）第（1）款图3：使用2D关节注释初始化GrabCut [42]手部分割。(a)输入图像，（b）来自2D关节的前景、背景和未定区域，（c）最终分割。这些掩模不能用手部皮肤分割方法（例如，[23，5]），因为它们对闭塞敏感我们得到了这些掩码的近似值（图3）对于使用GrabCut [42]算法的训练图像，通过使用2D手部关节注释初始化前景、背景和可能的前地/背景区域：如图3b所示，我们通过根据手骨架层次绘制连接关节的1像素宽度的线来创建初始前地。由解剖学上属于手表面的关节形成的三角形内部的像素未识别区域定义为距离前景最多70个像素内的区域，其余像素被分配最初的背景。正则化损失该损失通过降低物理上合理的手部重建的幅度和减少的网格失真来作用于编码器输出处的手部模型参数：L reg=αθβ2+ αβ2，（9）其中αβ= 104是加权因子。8. 评价我们评估我们的方法的3D姿态估计定量和3D重建定性的几个数据集和国家的最先进的方法。在不访问相机内在函数的情况下，仅使用2D和3D联合注释进行训练，我们的方法优于基于深度学习的竞争方法，包括在训练中使用额外深度信息或在评估中使用相机内在函数的方法。我们在野外的图像上显示了特别出色的3D重建，这些图像呈现出具有挑战性的情况，如模糊，低分辨率，遮挡，极端变化的视点和手部姿势配置。与[44]类似，假设输入图像是手部周围固定大小的作物。为了实现这一点，我们使用手关键点检测器[44]来找到包含手的边缘大小为l然后用大小为2的正方形补丁裁剪图像。2l以与先前检测到的盒子相同的2D位置为中心随后，调整所得到的裁剪图像的大小以具有320的宽度和高度。如[44]中所做的，我们使用右手模型，左手的图像水平翻转。最后，我们使用Adam求解器[21]训练我们的管道（图1），学习率为10−4，权重衰减为10−5。数据集我们的训练集由数据集PANOP-TIC [44]组成，该数据集计数14847张图像，MPII +NPINOL [44]的训练集计数[44]中分裂后的1912张图像，以及STREO[65]的训练集计数[68]中分裂后的15000张这相当于31729张训练图像，15000张（STEREO）具有3D关节注释，其余16729张（PANOPTIC MPII +NTEREL）仅具有2D关节注释。PANOPTIC数据集[44]包含从Panoptic studio [16]中的多个视图观察到的各种姿势的手。 MPII +NNSL数据集[44]是来自MPII Human Pose数据集[3]的手动注释图像的组合，其中包含来自YouTube视频的图像，以及来自惠灵顿维多利亚大学新西兰手语（NSL）练习的图像[38]。STEREO数据集[65]在第三人称视角下显示了演员的手，用手指计数并随机移动手。为了进行评估，我们使用DEXTER +OBoundary数据集[49]其从第三人称视角示出了演员的手与长方体物体的交互。为了评估对遮挡和混乱的鲁棒性，我们使用EGO DEXTER数据集[28]，该数据集显示了与各种对象交互的以自我为中心的视图中的手。最后，我们使用MPII +NPNL [44]的测试集来评估在存在模糊、低分辨率、不同视点和手部姿势配置以及野外图像数据集的其他特征的情况为了定量评估3D手部姿势估计，我们报告了3D中正确点的百分比（3D PCK）以及估计的3D关节与地面实况之间的平均3D欧几里得距离，当后者可用，其中距离以毫米（mm）表示。当只有地面实况2D关节注释可用时（数据集MPII +NPNL），我们报告2D PCK和估计的2D重新投影关节与地面实况之间的平均2D欧几里得距离，其中距离以像素（px）表示。与竞争方法的比较我们比较我们的重新-在STEREO数据集上的结果，图4和图5中的3D PCK项，我们显示了3D关节1084810.980.960.940.920.90.880.86我们的RGB我们的RGB+2DCaietal.Iqbal等人Spurr等人Mueller等齐姆等人20 25 30 35 40 4550误差阈值（mm）10.90.80.70.60.50.40.30.2RGB+2D我们的2D我们的RGB2D拟合Iqbaletal.Mueller等Spurr等人20 25 30 35 40 4550误差阈值（mm）图4：STEREO的3D PCK。图6：DEXTER +OBLOCK的3D PCK。10.90.80.70.60.50.40.3我们的RGB我们的RGB+2DPantelerisetal.CHPRICPPSO20 25 30 35 40 4550误差阈值（mm）图5：STEREO的3D PCK。我们RGB我们RGB+2D我们2D3D距离33.1625.5325.93表2：DEXTER +OBELLOW的平均3D关节距离（mm）。0.90.80.70.60.50.40.30.2表1：STEREO的平均3D关节距离（mm）。表1中的错误。图4示出了基于深度学习的方法（Cai etal.[7] ， Iqbal et al.[14] ， Spurr et al. [47] ， Mueller etal.[27]，Zimm. et al [68]），图5显示了不依赖于深度学习的方法（Panteleris et al.[34]，PSO，ICPPSO，CHPR [65]）。在这个实验中，我们在MANO模型的手掌中心[40]作为几个网格顶点的插值，以匹配STEREO数据集的注释。我们通过对10个序列进行训练并对剩余的2个序列进行测试，并将预测与地面实况手根关节对齐，重现了最初在[68]Addi-通常，为了与作品[7，47，14]进行公平比较，我们裁剪了本实验的手部图像，使得最终图像大小为手部大小的150%仅使用RGB图像输入，我们获得了最佳结果，即使一些竞争方法在训练中使用深度数据（[7，14]）以及图像，而其他方法（[27]）通过优化后处理其输出，使其手部骨骼适合其3D和2D关节预测，并使用相机固有函数作为额外输入。图6显示了我们的方法在oc-在DEXTER +OBLOCK数据集，表2显示了3D关节误差。此外，本发明还0.120 25 30 35 40 45 50误差阈值（mm）图7：EGO DEXTER的3D PCK。我们RGB我们RGB+2D我们2D二维拟合Spurr等人齐姆等人3D距离51.8745.5845.3356.5956.9252.77表3：EGO DEXTER的平均3D关节距离（mm）。图7显示了我们在以自我为中心的视图中的手以及在EGO DEXTER数据集上的3D PCK方面与各种对象交互的结果，表3显示了3D关节误差。如图所示，我们的方法在这些设置中优于竞争对手。我们注意到，我们显示了所有方法的相对3D姿态估计值，除了[14]作者报告的绝对值。我们RGB我们RGB+2D我们2D二维拟合齐姆等人2D距离23.0418.9520.6522.3659.40表4：MPII +NPNL我们希望我们的方法在野外图像数据集上表现得特别好，因为我们的训练集包含这种类型的数据，并考虑了低分辨率，模糊，遮挡以及具有挑战性的视图和姿势的手。我们的2DRGB+2D我们的RGB2D 拟合 Iqbaletal.Spurr 等人齐姆等人3D PCK3D PCK3D PCK3D PCK我们RGB我们RGB+2D我们2D二维拟合3D距离9.7610.1810.4623.2110849220.90.80.70.60.50.40.30.20.100510 15 20 25 30错误保留（px）以及图5中的数据集STEREO上的透视投影模型。消融研究我们评估了仅使用图像（我们的RGB），仅使用从最先进的手探测器[44]获得的2D关节热图（我们的 2D ），最后将两者一起用作输入（我们的RGB+2D ）之间的差异。我们对数据集 STEREO 、DEXTER +OBELLE 和EGO DEXTER与3D PCK进行了比较，如图10所示。结果5、6和7以及表1、2和3中的3D关节误差，图8：MPII +Nμ L的2D PCK。口粮事实上，我们分别通过2D PCK和2D联合误差将我们的结果与图8和表4中的MPII +NNPL数据集的测试集[68]进行了我们的表现更胜一筹[68]如图所示，有很大的裕度。我们的方法在这个数据集上的优越性在图9中得到了直观的证实。与2D拟合的比较在使用2D关节检测作为输入的情况下，解决3D手部姿态估计的替代方式是以与[34]提出的工作类似的方式在重新投影的手部模型关节和图像上检测到的关键点之间执行2D拟合我们实施这一战略包括最小化以下目标函数，弱透视相机参数{R，t，s}以及手形状和姿态参数{β，θ}：Σ2E（R，t，s，β，θ）=pi（s（RJi（β，θ））+t-xi）我+αβ<$β<$2+<$θ<$2，（十）其中pi是由检测器CNN [44]提供的第i手联合估计置信度。类似于等式9中的损失，等式10的第二行中的正则化对于确保合理的3D手部重建是我们在Chumpy [ 1 ]框架内使用Powell的Dogleg方法[ 29 ]执行此优化我们将该方法（2D拟合）与我们在数据集STEREO，DEXTER +OBELT和EGO DEXTER 上提出的方法进行比较，其中3D PCK分别在图5，6和7中，3D联合误差分别在表1，2和3中，并且还在数据集MPII +NBELT L上，2D PCK在图8中，2D联合误差在表4中。结果表明，我们的方法优于所有数据集的2D拟合为基础的战略。我们观察到，虽然优化赶上我们的方法在2D（MPII +NμL）略有下降，其性能在3D中显着下降。我们的方法明显受益于在学习框架中解决拟合问题，并在预测3D手部位置和配置时利用视觉线索，而2D拟合仅依赖于2D关节检测信息。我们还优于[34]中基于2D拟合的方法，该方法使用与[32]相似的手部模型图8中的2D PCK和表4中的2D联合误差也在数据集MPII+NPNL上进行。在数据集STEREO上，单独对图像进行训练会产生最佳性能，而使用图像和2D联合热图的组合进行训练通常是我们测试的其他数据集的最佳方法。定性图9显示了我们在挑战性测试集MPII +NPNL上的3D手部重建。如该图所示，输入数据（9a）显示手的图像，这些图像有时是模糊的、低分辨率的、被遮挡的、从不同的视点观看我们在输入图像（9b）和替代视图（9c，9d）上显示了我们的3D网格。我们还将我们的手部骨骼（9e）与[68]（9f，9g）的2D和3D姿势预测以及[47]（9h）的3D预测我们的方法获得了视觉上合理的结果，而 [68] 和 [47] 中的方法未能在MPII+NPNL数据集中的许多情况下预测良好的3D姿态估计。我们在补充材料中展示了更多的例子。9. 结论我们提出了一种方法来预测三维手部姿势和形状从一个单一的RGB图像。我们将深度卷积编码器与生成的手部模型结合起来作为解码器，并使用2D和3D手部关节注释图像端到端地训练生成的网络。编码器预测输入到手部模型的手部我们在3D姿态基准上生成最先进的结果，并在野外具有挑战性的一组图像上显示引人注目的3D重建。这种方法可以通过利用[56，55]中针对面部提出的训练中的光度损失来极大地受益于手部外观这项工作的一个可能的扩展可以是允许MANO[40]模型的一些组件，例如校正混合形状S和P（等式2），以便在训练中进行微调以提高性能。确认这项工作得到了ERC赠款ERC- 2012-AdG 321162-HELIOS，EPSRC赠款的支持。双字节 EP/M013774/1 和 EPSRC/MURI 授权 EP/N019474/1。RGB+2D我们的2D我们的RGB2D拟合Zimm。等人二维PCK10850(g)[47]第47话：我的世界(a) 输入（b）我们的网格（c）后视图（d）侧视图（e）我们的骨架（f）[68]2D图9：我们对来自MPII+N L的挑战性测试集的示例进行的3D手部重建与[68]和[47]的3D手部姿势预测进行了比较。10851引用[1] http://chumpy.org。 7[2] 诉F. Abrevaya，S.Wuhrer和E.波耶用于三维人脸模型学习的多线性在WACV，2018。3[3] M.安德里卢卡湖Pishchulin，P. Gehler和B.席勒2D人体姿态估计：新的基准和最先进的分析。CVPR，2014。5[4] V. Athitsos和S. Scaroff从杂乱图像中估计三维手部姿态。在CVPR，2003年。一、二[5] S. Bambach，S. Lee，D. J. Crandall和C. Yu. Lending ahand ： Detecting hands and recognizing activities incomplex egocentric interactions.（伸出援手：在复杂的自我中心互动中检测手和识别活动在ICCV，2015年。5[6] V. Blanz和T.维特一种用于三维人脸合成的变形模型。计算机图形学和交互技术会议，1999年。3[7] Y.蔡湖，加-地Ge，J. Cai，and J.元基于单目rgb图像的弱监督三维手势估计在ECCV，2018。一、二、六[8] T. E. de Campos和D. W.默里基于回归的多相机手部姿态估计。CVPR，2006。一、二[9] M. de La Gorce，D. Fleet和N.帕拉吉奥斯基于模型的单目视频三维手姿态估计 IEEE trans-actions on patternanalysis and machine intelligence，2011。一、二[10] L. Ge，Y.Cai，J.Weng和J.元手点网：使用点集的三维在CVPR，2018年。一、二[11] L. Ge，H. Liang，J. Yuan，and D.塔尔曼单个深度图像中的鲁棒3D手部姿势估计：从单视图CNN到多视图CNN。在CVPR，2016年。2[12] K.他，X。Zhang，S. Ren和J. Sun.深度剩余网络中的身份映射。在ECCV，2016年。4[13] W. Hürst和C. 我们走。通过手指跟踪的基于手势的移动增强现实交互多媒体工具和应用，2013年。1[14] 联合作者声明：A. Breuel，J. Gall，and J.考茨基于潜在2.5维热图回归的手部姿态估计。在ECCV，2018。一、三、六[15] Y. 张成泽T. Noh，H.J. 张TK. Kim和W.哇哦。3d手指斗篷：自我中心观点下自遮蔽下的点击动作与位置估计。IEEETransactionsonVisualizationandComputerGraphics，2015。1[16] H. 朱，H。柳湖，加-地坦湖，澳-地Gui，B.纳贝岛马修斯T. Kanade，S. Nobuhara和Y.酋长 Panoptic Studio：用于社交运动捕捉的大规模多视图系统。在ICCV，2015年。5[17] A. Kanazawa，M.J. Black，D.W. Jacobs和J.马利克端到端恢复人体形状和姿势。在IEEE计算机视觉和模式识别会议（CVPR），2018。3[18] L. K av an和J. 你好球形混合蒙皮：铰接模型的实时交互式3D图形与游戏研讨会，2005年。一、二、三[19] C. Keskin，F. Kıra c，Y. E. Kara和L. 阿卡伦利用多层随机决策森林进行手部姿势估计及手部形状分类ECCV，2012年。2[20] S.作者：J.肖顿角Keskin，S. Izadi，以及A.菲茨吉本从深度图像学习手形变化的有效模型。CVPR，2015。二、三[21] D. P. Kingma和J. BA. Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。5[22] S. 莱恩，T.Karras，T.Aila，A.Herva，S.斋藤河Yu，H.Li和J.莱赫蒂宁使用深度卷积神经网络进行生产级面部表现在2017年的计算机动画研讨会上。3[23] C. Li和K. M.喜谷以自我为中心的视频中的像素级手部检测。CVPR，2013。5[24] P. Li，H.凌，X。Li和C.辽基于分割指标点的随机决策森林的三维手势估计。在ICCV，2015年。2[25] M. 洛珀，N.Mahmood，J.罗梅罗湾Pons-Moll和M.J.布莱克。 SMPL ：一个多人皮肤线性模型。 ACMTransactions on Graphics（TOG）SIGGRAPH Asia），2015年。3[26] A. Makris和A. Argyros基于模型的3d手形跟踪与在线手形自适应。2015. 2[27] F.穆勒角，澳-地伯纳德岛Sotnychenko，D.梅塔，S。Srid-har，D. Casas和C.希奥博尔特从单目rgb实时3d手部跟踪。在CVPR，2018年。一、二、六[28] F. Mueller、D.梅塔岛Sotnychenko，S.Sridhar，D.Casas和C.希奥博尔特基于自我中心rgb-d传感器的遮挡下手部实时跟踪。InICCV，2017. 二、五[29] J. Nocedal和S. J·赖特非线性方程组Springer，2006年。7[30] M. Oberweger，P.Wohlhart和V.莱珀蒂训练一个反馈回路来估计手的姿势.在ICCV，2015年。2[31] I. Oikonomidis，N. Kyriazis和A. A. Argyros无标记和高效的26自由度手部姿势恢复。InACCV，2010. 一、二[32] I. Oikonomidis，N. Kyriazis和A. A. Argyros利用kinect实现基于模型的手部关节高效三维跟踪。在BMVC，2011年。二、三、七[33] P.Panteleris和A. Argyros回到RGB：基于短基线立体的手和手-物体交互的3d跟踪。Hands17 Workshop ICCV，2017. 一、二[34] P. 潘泰莱里斯岛Oikonomalanum和A.Argyros在野外使用在WACV，2018。二六七[35] T. Piumsomboon，A. Clark，M. Billinghurst，和A.他妈的。增强现实的用户自定义手势。IFIP人机交互会议，2013年。1[36] G. Poier，D. Schinagl和H.比肖夫通过预测不同的视图来学习姿势特定表示在CVPR，2018年。一、二[37] C. Qian，X.太阳，Y. Wei，X. Tang和J.太阳从深度进行实时和鲁棒的手部跟踪。CVPR，2014。2[38] D. A. R. McKee，D. McKee和E.派拉新西兰手语练习。惠灵顿维多利亚大学聋人研究系。5[39] J. Romero，H. Kadenstrm，和D.克拉吉奇手在行动：实时3D重建手在与ob-batch交互。InICRA，2010. 一、二10852[40] J. Romero，D. Tzionas和M. J.布莱克。具体化的手：建模和捕捉手和身体在一起。 ACM Transactions onGraphics（TOG），2017年。一二三四六七[41] R. Rosales，V. Athitsos，L. Sigal和S. Scaroff使用专门映射的3D手部姿态重建。载于ICCV，2001年。一、二[42] C. Rother，V. Kolmogorov，and A.布莱克Grabcut：使用迭代图切割的交互式前景提取。ACM Transactions onGraphics（TOG），2004年。5[43] T.夏普角凯斯金D.罗伯逊，J。Taylor，J.肖顿D. 金角，澳-地莱曼岛Leichter，A.Vinnikov，Y.Wei，etal. ， Accurate ， robust ， and flexible real-time handtracking。InACM CHI，2015. 2[44] T. Simon，H.朱岛，智-地Matthews和Y.酋长使用多视图自举的单图像中的手关键点检测在CVPR，2017年。一二四五七[45] A.辛哈角Choi和K. Ramani Deephand：通过完成具有深度特征的矩阵来进行鲁棒的手部姿势估计。在CVPR，2016年。2[46] J. 宋， G. 我是F. Pece， S. R. Fanello ， S. 伊扎迪角Keskin和O.希利格斯在未经修改的移动设备周围的空中手势。2014年ACM用户界面软件和技术研讨会。1[47] A. Spurr，J.宋，S.Park和O.希利格斯跨模态深度变分手部姿势估计。在CVPR，2018年。一二三六七八[48] S. Sridhar，F. Mueller，A. Oulasvirta和C.希奥博尔特使用检测引导优化的快速和鲁棒的手部跟踪。CVPR，2015。2[49] S.斯里达F.穆勒M.佐尔霍费尔，D. 卡萨斯A. Oulasvirta和C. 希奥博尔特基于rgb-d输入的手操纵对象的实时关节跟踪。在ECCV，2016年。二、五[50] S. Sridhar，H. Rhodin，H. P. Seidel，A. Oulasvirta，C. 希奥博尔特基于各向异性高斯模型的实时手部跟踪。在3DV，2014年。一、二、三[51] B. 施滕格河，山口R. Mendon c. 西波拉基于模型的关节手三维载于CVPR，2001年。一、二[52] X.太阳，Y. Wei，S. Liang，X. Tang和J.太阳级联手部姿势回归

下载后可阅读完整内容，剩余1页未读，立即下载