基于多模态数据的实时3D手部姿态估计方法

175 浏览量更新于2023-10-23 收藏 1.25MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5346基于多模态数据的周宇晓1Marc Habermann2，3徐伟鹏2，3Ikhsanul Habibie2，3 Christian Theobalt2，3徐峰11清华大学软件学院、2马普信息学院、3萨尔信息学院摘要我们提出了一种新的方法，单目手的形状和姿态估计在前所未有的运行时性能的100 fps和最先进的精度。这是通过一种新的基于学习的架构实现的，该架构被设计成使得它可以利用可用的手动训练数据的所有来源：具有2D或3D注释的图像数据，以及没有相应图像数据的独立3D动画。它具有一个3D手部关节检测模块和一个逆运动学模块，该模块不仅可以回归与仅回归3D关节位置相比，该输出使得该方法更直接地可用于计算机视觉和图形中的应用。我们证明，我们的建筑设计导致了一个显着的定量和定性的改进，在几个具有挑战性的基准上的最先进的。我们将公开我们的代码，以供将来的研究使用。1. 介绍手是人类与现实世界互动的最相关的工具。因此，捕捉手部运动对于AR/VR、人机交互等各种应用都非常重要理想地，这样的捕获系统应当实时运行以向用户提供直接反馈，其应当仅利用单个RGB相机以降低成本和功耗，并且其应当预测关节角度，因为它们对于计算机图形、AR和VR中的大多数常见应用是更直接可用的。3D手部运动捕捉是非常具有挑战性的，特别是从单个RGB图像，这是由于单目设置的固有深度模糊性、自遮挡、手部的复杂且快速的运动以及均匀的皮肤国家重点研发计划项目2018YFA0704000，国家自然科学基金（No.61822111，61727808，61671268），北京市自然科学基金项目（JQ19015，L182052）和ERC整合者基金4DRepLy（770784）。冯旭为通讯作者。图1.我们提出了一种新的手部运动捕捉方法，估计3D手关节的位置和旋转实时从一个单一的RGB图像。然后，可以使用预测的关节旋转来制作手部网格模型的动画。我们的系统是鲁棒的chal，challing方案，如对象遮挡，自遮挡，和不受约束的规模。外观.现有的最先进的方法诉诸于深度学习，并在近年来取得了显着的改进[2，10，51，17，3]。然而，我们观察到这些方法存在两个主要问题。首先，现有方法中没有一种利用所有公开可用的训练数据模态，即使由于难以收集具有3D注释的真实人手图像而严重限制了注释的手数据。具体地，为了获得3D注释，需要特定的捕获设置，例如，利用立体摄像机[50]或深度摄像机[36，42，38，49]，这防止大规模收集各种数据另一种方法是合成数据集[23，54]。然而，由于域间隙，在合成图像上训练的模型不能很好地推广到真实图像[23]。相比之下，具有较大变化的2D注释互联网图像[33]更容易获得。然而，它几乎是-5347可以用3D地面实况来注释它们我们注意到，还有另一种有价值的数据形式被所有以前的工作所忽视-手部运动捕捉（MoCap）数据。这些数据集通常在手的姿势有很大的变化，但缺乏配对的图像，因为它们通常是使用数据手套[12]或3D扫描仪[30]收集的。因此，以前的方法不能使用它们来学习从图像到手部姿势的映射。其次，大多数先前的方法集中在预测3D关节位置[48，34，17，3，54]。虽然对于某些应用是有用的，但是这种位置表示不足以在计算机图形中使手部网格模型动画化，其中通常需要关节旋转。一些作品[23，29，42]通过将运动学手模型拟合到稀疏预测作为单独的步骤来克服这个问题这不仅需要手工制作的能量函数，但昂贵的迭代优化也遭受错误的局部收敛。其他作品[51，1，2]直接从RGB图像回归关节角度。他们都受过训练由于缺乏与关节旋转注释配对的训练图像，因此采用弱监督方式（使用可微分运动学函数和3D/2D位置损失）。因此，姿势的解剖正确性不能得到保证。为此，我们提出了一种新的实时单目手部运动捕捉方法，不仅估计2D和3D关节位置，而且还将其直接映射到关节旋转。我们的方法经过严格设计，可利用所有上述数据模式，包括具有2D和/或3D标注的合成和真实图像数据集以及非图像MoCap数据，以最大限度地提高准确性和稳定性。具体来说，我们的架构包括两个模块，DetNet和IKNet，分别预测2D/3D关节位置和关节旋转。所提出的DetNet是一种用于3D手部关节检测的多任务神经网络，通过将2D关节检测明确地制定为辅助任务，可以同时利用完全和弱注释的图像在这种多任务训练中，模型学习如何利用2D监督从真实图像中提取重要特征，而预测3D关节位置可以纯粹从合成数据中学习。然后可以通过将参数手模型[30]拟合到预测的关节位置来估计手的3D形状为了获得关节旋转预测，我们提出了新的数据驱动的端到端IKNet，它通过将DetNet的3D关节预测作为输入并回归关节旋转来解决逆运动学（IK）问题。我们的IKNet在一个高速前馈通道中预测运动参数，避免了复杂和昂贵的模型拟合。在训练过程中，我们可以结合提供直接旋转监督的MoCap数据以及提供弱位置监督的3D关节位置数据，以学习姿势先验，纠正3D关节预测中的错误。总的来说，我们的贡献是：• 提出了一种新的基于学习的单目手形和运动捕捉方法，该方法使联合用户能够2D和3D注释图像数据以及独立运动捕捉数据的年龄。• 反向运动学网络，在单个前馈过程中将3D关节预测映射到关节角度的更基本表示，实行岗位监督和轮岗监督的联合训练。我们的方法优于最先进的方法，在定量和定性上具有挑战性的基准测试，并显示出看不见的运行时性能。2. 相关工作在下文中，我们讨论了使用单个相机来估计3D手部姿势的方法，这与我们的工作密切相关。基于深度的方法由于商品深度相机的广泛传播，许多作品提出从深度图像估计手部姿势。早期基于深度的作品[28，21，31，7，37，41]通过拟合生成的模型到深度图像上。一些作品[35，32，40，36，43]还利用了用于初始化和正则化的判别预测最近，深度学习方法已被应用于这一领域。作为一个先驱工作，汤普逊等。[42]提出使用CNN结合随机决策森林和逆运动学来实时估计来自单个深度图像的手部姿势。后续工作通过利用先验和背景[25]、高级知识[39]、反馈循环[26，27]或中等密集指导图超视[46]实现了更好的性能。[52，6]提出使用几个分支来预测每个部分的姿态，例如，手掌和手指，并利用跨分支信息。还提出了手形和姿势的联合估计[19]。Wan等人。[44]利用未标记的深度图进行自我监督微调，而Mueller等人。[24]构建了一个真实感数据集，以获得更好的鲁棒性。一些作品利用了其他表示，例如点云[8，11，4，18]和3D体素[16，22，9]，可以从深度图像中检索。尽管这些工作实现了吸引人的结果，但是它们遭受深度传感器的固有缺点，深度传感器在明亮的阳光下不工作，具有高功耗并且人们必须靠近传感器。单目RGB方法。为此，人们最近开始研究从单眼RGB图像中估计3D手部姿态，这甚至比基于深度的设置由于深度模糊。Zimmer- mann和Brox[54]训练了一个基于CNN的模型，该模型直接从RGB图像估计3D关节坐标。5348FJJFIqbal等人[17]使用2.5D热图公式，将2D关节位置与深度信息一起编码，从而大大提高了准确性。为了更好地概括，许多作品[3，34，48]利用深度图像数据集来扩大训练期间看到的多样性Mueller等[23]提出了一个由CycleGAN[53]后处理的大规模渲染数据集，然而，他们只关注关节位置估计，而不关注关节旋转恢复，这对于手部网格动画要好得多为了估计关节旋转，[47，29]通过基于迭代优化的方法将通用手部模型拟合到预测中，该方法不具有时间效率并且需要手工制作的能量泛函。[51，1]提出以端到端的方式从输入图像回归可变形手网格模型的参数尽管如此，估计的旋转只能是弱监督的，从而导致较差的准确性。Ge等人[10]使用GraphCNN [5]直接他们的无模型方法对具有挑战性的场景也不太鲁棒。相比之下，通过充分利用来自不同模态的现有数据集，包括图像数据和非图像MoCap数据，我们的方法获得了良好的准确性和鲁棒性。3. 方法如图2.我们的方法包括两个主要模块。首先，联合检测网络DetNet（Sec. 3.1），在多任务方案下从单个RGB图像预测2D和3D手关节位置然后，我们可以通过将手模型拟合到3D关节预测来检索3.2）。第二，逆运动学网络，IKNet（Sec. 3.3），采用3D关节预测并以端到端的方式将它们转换成关节旋转表示3.1. 手关节检测网络DetNet选项。因此，特征提取器和2D检测器可以用来自互联网的2D标记的真实图像数据来训练。这大大提高了泛化能力，因为在训练过程中，特征提取器和2D检测器都可以看到比3D注释数据集的图像包含更多变化的野外图像3D探测器。现在，3D检测器获取特征图F和热图H，并以位置图L的形式估计3D手关节位置，类似于[20]。对于每个关节j，Lj具有与Hj相同的2D分辨率，并且Lj中的每个像素对关节j这种冗余性有助于健壮性。类似于L，我们还估计增量图D，其中Db中的每个像素编码骨骼b的方向，由从父关节到子关节的3D向量表示。需要这种中间表示来明确地通知网络运动链中相邻关节的关系。在3D检测器中，我们首先使用2层CNN从热图H和特征图F估计delta图D。接下来，热图H、特征图F和增量图D被合并并馈送到另一个2层CNN中以获得最终位置图L。位置图L和增量图D由3D注释监督。在推断期间，关节j的3D位置可以通过在位置图Lj中在对应于热图Hj的最大值的UV坐标处的简单查找来检索。为了减轻单眼设置中的基本深度尺度模糊性，预测坐标相对于根关节并且通过参考骨的长度标准化我们选择中间掌指关节作为根关节，从该关节到手腕的骨被定义为参考骨。损失条款。我们的损失函数Lheat+L loc+L delta+L reg（1）包括四个项以说明多任务学习方案。首先，L热量定义为：DetNet获取单个RGB图像，并输出根相对和尺度归一化的3D手部关节预测。Lheat=||H GT−H||2（二）以及图像空间中的2D联合预测。DetNet的架构包括3个组件：特征提取器、2D检测器和3D检测器。特征提取器。我们使用ResNet50架构的主干[14]作为我们的特征提取器，其中权重使用Xavier初始化[13]进行初始化。它以128×128的分辨率拍摄图像并输出特征尺寸为32×32×256的体积F。2D探测器。2D检测器是紧凑的2层CNN，其采用特征体积F并输出热图Hj对应于J= 21个接头。如[45]中所示，Hj中的像素对该像素被关节j覆盖的置信度进行编码。热图用于2D姿态估计，这确保了回归热图H接近于地面实况热图HGT。 ||·||F表示FrobeNius范数.为了生成关节j的真实热图HGT，我们使用标准偏差σ= 1，利用以2D注释为中心的高斯滤波器来平滑HGT。再次注意，Lheat仅需要2D注释的图像数据集。我们特别强调这一点的重要性，年龄，因为它们包含更多的变化比那些与3D注释。因此，这种损失监督我们的特征提取器和我们的2D检测器学习在野外图像上进行手部关节检测为了监督3D检测器，我们提出了两个额外的损失项这是一个子任务，由地面实况2D注释监督，Lloc=||HGT（LGT−L）||2（三）5349F图2.我们的架构概览。它包括两个模块：首先，我们的DetNet从单个RGB图像预测2D和3D关节位置。其次，我们的IKNet采用DetNet的3D关节预测，并将其映射到关节角度。Ldelta=||HGT（DGT−D）||2（四）从手部扫描中学习，而θ表示其分别测量地面实况与预测位置图L和增量图D之间的差异。通过将地面实况关节位置和骨骼方向的坐标平铺到热图的大小来构建地面实况位置图LGT和增量图DGT由于我们主要对热图的最大值处的3D预测感兴趣，因此对差异进行加权用HGT表示，其中n是元素矩阵乘积。轴角表示中的关节旋转。它们允许变形平均模板T<$∈RV×3以匹配不同恒等式的形状，以及考虑姿态依赖性。变形这里，V表示顶点的数量。在提出之前，平均模板T<$变形为：T（β，θ）=T<$+Bs（β）+Bp（θ）（6）其中Bs（β）和Bp（θ）是形状和姿态融合变形，Lreg 是网络权重的L2正则化器，分别则手模型M（θ，β）∈ RV×3防止过拟合。在训练期间，具有2D和3D注释的数据在同一批中混合，并且所有组件都被联合训练。在这种多任务方案下，网络学习从2D标记图像预测不同现实世界外观下的2D姿势，以及从3D标记数据预测3D空间信息。全球翻译。如果提供相机本征矩阵K和参考骨长度lref，则根关节的绝对深度zr可以通过求解被定义为M（θ，β）=W（T（θ，β），θ，W，J（θ））（7）其中W（·）是标准线性混合蒙皮函数，其采用变形模板网格T（β，θ）、姿态参数θ、蒙皮权重W和设定的关节位置J（θ）。形状估计由于我们不仅对手的姿势感兴趣，而且对它的形状感兴趣，因此我们利用预测的关节位置，以估计MANO的形状参数βur一个模型。由于预测是尺度归一化的，估计-U形匹配形状只能表示相对的手形，例如，l参考=||Kzrvr−K1（zr+lrefdw）vw||二（五）1手指与手掌的比例我们计算手形β通过最小化这里，下标·r和·w分别表示根关节和腕关节。u和v是图像平面中的2D关节预测，dw是由DetNet回归的腕部的归一化和根相对深度由于zr是唯一的未知变量，因此可以用封闭形式求解在计算zr之后，可以经由相机投影公式来计算在x和y维度上的全局平移。3.2. 手模型和形状估计手模型我们选择MANO [30]作为由IKNet输出驱动的手部模型。MANO的表面网格可以通过形状参数β ∈R10和位姿参数θ ∈R21×3进行完全变形和位姿。更具体地，β表示形状PCA5350BE（β）=||lb（β）−lpred||2+λ||β||二、（八）lref（β）b2β2B这里，第一项确保对于每个骨骼b，变形的手模型的骨骼长度lb（β）匹配长度预测的3D骨长度lpred的值，其可以从DetNet的3D预测导出。标签·ref是指变形MANO模型的参考骨骼。第二项作为形状参数的L2正则化子，以λβ加权。3.3. 逆运动神经网络IKNet虽然3D关节位置可以解释手部姿势，但这种表示不足以使手部网格动画化535122模型，这在例如计算机图形（CG）应用中是重要的相比之下，驱动CG角色的广泛使用的表示是关节旋转。因此，我们从关节位置推断网络中的关节旋转为此，我们提出了一种新的端到端神经网络，IKNet，来解决逆运动学问题。我们基于学习的IKNet的主要这与直接从图像[51，1，2]回归旋转的方法形成鲜明对比其次，我们可以以更高的速度解决IK问题，因为与迭代模型拟合方法相比，我们只需要一个前馈通道[23，29]。第三，手部姿势先验可以直接从数据中学习，这与基于优化的IK中手工制作的先验不同[23，29]。最后，我们还表明，我们的IKNet可以校正DetNet的噪声3D预测，并且关节旋转表示本质上是骨骼尺度保留的。IK网络的类似想法也在[15]中提出，但用于对基于标记的MoCap数据进行去噪，同时我们执行手部姿势估计。MoCap Data. 当涉及到训练IKNet时，理想情况下希望具有3D手部关节位置和对应的关节旋转角度的配对样本。MANO模型的数据集包含来自31个受试者的1554个真实人手最初，旋转是在轴角表示，我们将它们转换为四元数表示，这使得两个姿势之间的插值更容易。然而，仅此数据集因此，我们基于两个假设来增加数据集：1）我们假设每个手指的姿势与其他手指无关; 2）四元数空间中从静止姿态到来自扩展数据集的姿态的任何插值（即，基于1））是有效的。基于1），我们从原始数据集中为每个手指选择独立的姿势基于2），我们现在可以在静止姿势和新的手部姿势之间进行插值。以考虑对于不同的手形，我们还通过对具有正态分布N（0，3）的β进行采样来丰富数据集。在上述增强技术之后，我们在训练期间即时生成成对的关节位置和旋转样本。3DPosData。但是，如果我们纯粹基于这些数据训练IKNet，那么它对于DetNet的3D预测中包含的噪声和错误并不鲁棒。这是由配对的MoCap数据基本上是无噪声的事实引起的。因此，我们还利用3D注释的图像数据。特别是，我们让预训练的DetNet为所有具有3D注释的训练示例生成3D联合预测，并将这些联合预测用作输入然后通过正向运动学层来重建关节位置，然后由相应的地面真实3D关节注释来监督关节位置。换句话说，我们还构建了一个具有成对3D DetNet预测和地面真实3D关节位置的数据集在下文中，我们将此数据集称为3DPosData。通过这种方式，IKNet学习处理Det-Net的3D预测，并且对噪声输入具有鲁棒性。网络设计。我们将IKNet设计为一个具有批量归一化的7层全连接神经网络，并使用sigmoid作为激活函数，除了最后一层使用线性激活。我们将输入3D关节位置编码为I=[X，D，Xref，Dref]∈R4×J×3，其中X是根相对尺度归一化的3D关节位置，如在Sec. 3.1;D是每个骨骼的方向，我们额外提供作为输入以显式编码信息。相邻的关节。Xref、Dref编码关于形状标识的信息，并且分别被定义为静止姿态中的3D关节位置和骨骼取向它们可以提前测量以获得更好的准确性，或者从DetNet的预测中推断出来，如秒3.2. IKNet的输出是每个关节的全局旋转，表示为四元数Q∈RJ×4，然后归一化为单位四元数Q。我们更喜欢四元数表示，而不是轴角1，因为在我们的数据扩充步骤中需要更好的插值属性。此外，四元数可以转换为旋转矩阵，稍后在我们的损失中使用，而不使用三角函数，这是更困难的。因为他们是非内射的。为了将最终的姿态应用于MANO模型，我们将四元数Q转换回轴角表示，然后根据等式2对模型进行变形。7 .第一次会议。损失条款。我们的损失函数包括四项L cos +L l2 +L xyz + L norm。（九）首先，Lcos测量差角的余弦值之间的距离，该差角由地面真实四元数QGT和我们的预测Q跨越，如下所示：Lcos=1−real（QGT<$Q−1）。（十）real（·）表示四元数的实部，R是四元数的乘积，Q−1是四元数Q的逆。此外，L12直接监督预测的四元数Q：Ll2=||QGT−Q||二、（十一）拟议的两种损失只能适用于MoCap数据。为了也使用3DPosData，我们提出了第三个损失Lxyz，以测量摆姿势后3D坐标方面的误差到IKNet。IKNet的估计关节旋转Lxyz=||XGT−FK（Q）||2（十二）53522其中， FK（·）是指边界运动学函数，XGT是地面实况3D关节注释。最后，为了软约束未归一化的输出Q为单位四元数，我们应用L范数为：Ln或rm=|1−||Q||2|.（十三）4. 结果在本节中，我们首先提供实施细节（第4.1）。然后，我们展示了具有挑战性的示例的定性结果4.2）。最后，我们将我们的方法与以前的工作进行比较（Sec.4.3）并进行消融研究，以评估我们所有设计选择的重要性（第4.3节）。4.4）。4.1. 实现细节我们所有的实验都是在带有NVIDIA GTX1080Ti图形卡的机器上进行的，其中DetNet需要8.9ms，IKNet需要0.9ms进行单次前馈。因此，我们实现了超过100fps的最先进的运行时性能。培训数据。我们的DetNet在3个数据集上训练：CMUPanoptic Dataset（CMU）[33]，Rendered Hand-pose Dataset（RHD）[54]和GANerated Hands Dataset（GAN）[23]。CMU数据集包含16720个具有从真实世界收集的2D注释的图像样本。RHD和GAN都是合成数据集，分别包含21358和330000张带有3D注释的图像请注意，DetNet是在没有任何带有3D注释的真实图像的情况下训练的。我们发现，真实图像3D数据集不包含足够的变化，让我们的网络过拟合，导致不同数据集之间的泛化能力差为了训练IKNet，我们利用来自MANO模型和3DPosData的MoCap数据，如前所述。4.2. 定性结果图3，我们在几个具有挑战性的野外图像上展示了我们的新方法的结果，证明它对看不见的数据有很好的泛化能力。最重要的是，我们不仅预测3D关节位置，还预测关节角度，使我们能够直接制作手部表面模型的动画。这样的输出表示在图形和视觉的许多应用中更加有用。更多Fig.3表明我们的方法适用于非常快速的运动和模糊的图像（左上），以及复杂的姿势，如抓取（左下）。也可以处理物体遮挡（右上）、自遮挡和挑战性视点（右下）更多的结果显示在我们的补充材料中。图4，我们证明了我们的方法可以捕捉不同的手的形状，只是从一个单一的图像。请注意，手指和手掌的形状是正确调整，他们看起来似乎合理。在图5中，我们将我们的结果与Zimmermann和Brox [54]以及Ge等人的结果进行了定性比较。[10]关于图像处理。虽然[54]仅恢复3D关节位置，图3.我们在几个具有挑战性的场景下展示了我们的结果：运动模糊、对象遮挡、复杂姿势和无约束视点。我们将结果叠加到输入图像上，并从不同的虚拟相机视图中显示。图4.我们的形状结果的插图。请注意，我们恢复的形状在视觉上看起来似乎是合理的，并反映了输入图像中主体手部的整体形状图5.与[54]和Ge等人的比较。[10 ]第10段。我们的方法不仅可以输出一个完全变形和构成密集的3D手模型，但也表现出更好的鲁棒性下的闭塞与以前的工作。我们展示了从原始和不同相机视图渲染的相同姿势。我们的方法可以动画的一个完整的3D手网格模型，由于关节旋转表示。与[10]相比，我们还证明了卓越的鲁棒性，我们将其归因于2D标记的野外图像和MoCap数据的组合训练4.3. 与相关工作的比较评估数据集和数据库。我们在四个公共数据集上评估我们的方法：RHD [54]和Stereo Hand Pose TrackingBenchmark（STB）[50]、Dexter+Object（DO）[36]和EgoDexter（ED）[24]的测试集。再次注意，RHD是一个合成数据集。STB数据集包含12个序列的一个独特的主题，共18000帧。在[23]之后，我们在2 se上评估我们的模型5353序列DO数据集包括与来自第三视图的对象交互的2个子序列的6个序列。ED数据集由4个序列组成，每个序列由2名受试者组成，他们在存在从自我中心观点捕获的遮挡的情况下进行手-物体交互。我们使用以下评估指标：正确3D关键点的百分比（PCK）和PCK曲线下面积（AUC），阈值范围为20mm至50mm。与以前的工作一样，我们进行了全局对齐，以更好地测量局部手部姿势。对于ED和DO，我们将指尖预测的质心与GT对齐;对于RHD和STB，我们将根与地面真实根位置对齐。定量比较。在表中。1，我们将我们的方法与其他最先进的方法进行比较。请注意，并非所有方法都是在完全相同的数据上训练的。一些方法使用额外的数据，其中一些不是公开的，以提高准确性，包括：具有地面真实手网格的合成图像[10]，深度图像[48，3，34]，具有2D注释的真实图像[17]，以及具有来自全景立体的3D标签的真实图像[47]。我们认为，在所有测试数据集中，最公平的比较可以在DO和ED数据集上报告，因为没有模型使用它们进行训练。这进一步意味着，对DO和ED的评估可以很好地估计模型的泛化程度。在DO和ED上，我们的方法远远优于其他方法。这是由于我们的新架构允许组合所有可用的数据模态，包括2D和3D注释图像数据集以及MoCap数据。我们进一步强调了用于训练模型的数据集组合的重要性在STB上，我们的准确性在DO和ED上的结果范围内，进一步证明了我们的方法在数据集上的通用性。虽然与其他方法相比，我们在STB上实现的准确性较差，但请注意，与所有其他方法相比，我们的最终模型不是在STB上训练的正如许多作品所提到的[47，48，51，17]，STB数据集很容易饱和。由于STB的大量帧和很少的变化，模型往往过拟合STB。我们认为，利用STB进行训练会使训练数据不平衡，不利于泛化。我们的额外实验证明了这一点，在该实验中，我们将STB添加到我们的训练集，并在STB的测试集上实现了0.991的AUC，这与以前的工作相当，但该模型在所有其他三个基准测试中都遭受了巨大的性能下降。因此，我们没有使用STB来训练我们的最终模型。对于RHD，我们的模型再次实现了与其他基准一致的结果。作为一种合成数据集，RHD与真实数据集相比具有不同的外观和姿态分布以前的工作是通过专门的RHD培训或微调来实现这一点，从而获得卓越的结果。我们的最终模型避免了这一点，因为对真实图像的泛化是有害的。来证明我们的建筑设计方法PCK的AUC做EDSTBRHD我们.948.811.8980.856*Ge等人[10个国家]--0.998*0.920*Zhang等人[五十一].825-0.995*0.901*Yang等人[48个]--0.996*0.943*Baek等人[1]第一章.650-0.995*0.926*Xiang等[47个].912-0.994*-Boukhayma等人[二]《中国日报》.763.6740.994*-Iqbal等人[17个].672.5430.994*-Cai等人[3]第一章--0.994*0.887*Spurr等人[34个].511-0.986*0.849*Mueller等[23日].482-0.965*-Z B [54].573-0.948*0.670*表1.在四个公共数据集上与最先进的方法进行比较。我们使用“*”表示模型是在数据集上训练的，使用“-”表示那些没有报告结果的人。我们的系统在DO和ED数据集上的表现远远优于其他系统，我们认为这是最公平的比较，因为没有一个模型是在这些数据集上训练的。由于[17]仅报告了未比对的结果，因此我们报告了该方法的绝对值。我们方法PCK的AUC做EDSTB第一章我们.948.811.898（二）不含IKNet.923.804.891第三章不含Ll2和Lcos.933.823.869四、不含3DPosData.926.809.873第五章）不含L 12.943.812.890第五章）不含L成本.840.782.808表2. 消融研究。我们评估以下因素的影响：2）IKNet3）对关节旋转进行直接旋转监督。（4）关节转动的监督能力弱5）四元数上的损失项5354与最先进的模型相当或更好，我们进行了一项其他评估，其中也专门在RHD上进行训练，并实现了与其他模型相同的AUC为0.893。4.4. 消融研究在表中。2和图 6、我们评估我们方法的关键组成部分：具体来说，我们评估1）我们的架构设计和与基线相比的训练数据的组合，2）IKNet对DetNet的纯3D关节位置回归的影响，我们称之为DetNet- only，3）直接旋转监督对MoCap数据启用的关节旋转的影响，4）我们的弱监督如何使用3DPosData帮助IKNet适应噪声三维联合预测; 5）两个损失项对四元数的影响。1）作为基线，我们与Zhang et al.[51]因为他们在DO上报告了最先进的结果，而没有使用任何未发布的数据集。5355图6.针对DO上的训练数据进行消融研究。我们使用“相同的数据”来表示我们使用RHD和STB训练的模型，这与Zhang等人的相同。[51 ]第51段。我们证明，我们的架构是优于他们的设计。整合更多的数据可以进一步提升结果。图7.我们的IKNet能够根据从MoCap数据中学习到的先验知识来补偿DetNet的一些错误。licly可用（与Xiang et al.[47]在CMU上利用未发布的3D注释）。为了评估我们的模型架构，我们在与[51]完全相同的数据上训练了DetNet，与[51]相比，这表明我们的架构本身有助于提高准确性。添加IKNet，并在MoCap数据上进行额外训练，进一步改善了结果。这进一步证明，将运动捕捉任务分解为关节检测和旋转恢复使得模型更容易训练，并且还能够利用MoCap数据。最后，结果显着改善与训练数据，特别是在野生的2D标记的图像的建议组合。2）在所有数据集上，IKNet仅改进了DetNet。这可以解释为我们的IKNet就像一个姿势先验，从MoCap数据中学习，因此可以纠正DetNet的原始3D联合预测在图7中，DetNet本身不能正确地估计3D关节位置。尽管如此，我们内置的IKNet学习手部姿势先验可以纠正这些错误的预测。3）在这里，我们删除了所有的轮换监督术语，只使用弱监督。尽管数值结果与我们的最终方法相当，但估计的旋转是图8.比较IKNets与MoCap数据的旋转监督。请注意，即使3D关节位置匹配地面实况，在没有这种监督的情况下，也会估计不自然的姿势。如图8所示，在解剖学上是错误的。这表明添加从MoCap数据检索的旋转监督使训练更容易，并导致解剖学上更正确的结果。4）表中1）和4）的区别。2证明了3DPosData对于使IKNet与DetNet兼容至关重要。换句话说，如果没有这些数据，IKNet永远不会看到DetNet的噪声3D预测，而只能看到准确的3D MoCap数据。这甚至使结果变得更糟。将预训练DetNet的输出输入IKNet有助于处理嘈杂的3D预测并获得最佳结果。5）最后，在网络训练方面，我们发现，与朴素的L12相比，Lcos是衡量两个四元数之间差异的更好度量，并且两者的组合平均给出了最高的准确度。5. 结论我们提出了第一种基于学习的方法，用于单目手部姿势和形状估计，该方法利用来自两种完全不同的模态的数据：图像数据和MoCap数据。我们新的神经网络架构采用了一个经过训练的反向运动学网络，可以直接回归关节旋转。这两个方面导致在准确性、鲁棒性和运行时间方面对现有技术的显著改进。今后计划扩展我们的模型，通过合作的密集3D扫描来捕获手部纹理。另一个方向是从单个RGB图像中联合捕获两个交互的手，这目前只有深度传感器才有可能。引用[1] Seungryul Baek，Kwang In Kim，and Tae-Kyun Kim. 通过神经渲染推进基于rgb的密集3d手部姿态估计的包络在IEEE计算机视觉和模式识别会议（CVPR），2019年。[2] Adnane Boukhayma、Rodrigo de Bem和Philip H.S.乇3d手的形状和姿势从图像在野外。在IEEE计算机视觉和模式识别会议，2019年。[3] 蔡宇军、葛柳浩、蔡建飞、袁俊松。基于单角rgb图像的弱监督三维手势估计。在欧洲计算机视觉会议（ECCV），2018。5356[4] Yujin Chen，Zhigang Tu，Liuhao Ge，Dejun Zhang，Ruizhi Chen，and Junsong Yuan. So-handnet：用于3d手部姿势估计的半监督学习自组织网络。IEEEInternationalConferenceonComputerVision（ICCV），2019年。[5] MichaeülDefferrard，XavierBresson，andPierreVandergheynst.具有快速局部谱滤波的图上卷积神经网络。神经信息处理系统的进展，第3844-3852页，2016年[6] Kuo Du，Xiangbo Lin，Yi Sun，and Xiaohong Ma.交叉点：基于多任务信息共享的手部姿态估计。在IEEE计算机视觉和模式识别会议（CVPR），2019年。[7] Shachar Fleishman ， Mark Kliger ， Alon Lerner ， andGershom Kutliroff.Icpik：基于关节式icp的反向运动学。在IEEE计算机视觉和模式识别会议（CVPR）研讨会上，2015年。[8] 刘浩、蔡玉军、翁君武、袁俊松。手点网：使用点集的3d手姿态估计。在IEEE计算机视觉和模式识别会议（CVPR），2018年6月。[9] Liuhao Ge ， Hui Liang ， Junsong Yuan ， and DanielThalmann.利用3d卷积神经网络进行实时3d手部姿态估计。IEEE Transactions on Pattern Analysis and MachineIntelligence，41（4）：956[10] 刘浩戈，周仁，李运成，薛泽浩，王颖英，蔡建飞，袁俊松.根据单个RGB图像的3D手的形状和姿态估计。在IEEE计算机视觉和模式识别会议（CVPR），2019年。[11] 六号戈，周仁，袁俊松。点到点回归点网络用于三维手姿态估计。在欧洲计算机视觉会议（ECCV）上，2018年9月。[12] Oliver Glauser ，Shihao Wu ，Daniele Panozzo ，OtmarHilliges，and Olga Sorkine-Hornung.使用拉伸感测软手套的交互式手部姿势估计。ACM事务处理图表，38（4）：41：1[13] 泽维尔·格洛特和约舒亚·本吉奥了解训练深度前馈神经网络的困难。第十三届人工智能和统计，第249-256页，2010年[14] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议（CVPR）上，2016年6月。[15] 丹尼尔·霍顿光学运动捕捉数据的去噪鲁棒求解。ACMTransactions on Graphics（TOG），37（4）：1[16] Fuyang Huang，Ailing Zeng，Minhao Liu，Jing Qin，and Qiang Xu.基于结构感知的3d沙漏网络用于单深度图像手部姿态估计在英国机械视觉会议（BMVC），2018年。[17] Umar Iqbal，Pavlo Molchanov，Thomas Breuel JuergenGall，and Jan Kautz.基于潜在2.5d热图回归的手部姿势估计在欧洲计算机视觉会议，2018。[18] 李世乐和李东赫基于点到位姿投票的残差置换等变层手部位姿估计在 IEEE 计算机视觉和模式识别会议（CVPR），2019年。[19] Jameel Malik ， Ahmed Elhayek ， Fabrizio Nunnari ，KiranVaranasi ， KiarashTamaddon ， Al exisHe'loir ，andDidier Stricker.Deephps：通过从合成深度学习，端到端估计3D手部姿势和形状。在2018年国际3D视觉会议（3DV）[20] DushyantMehta，SrinathSridhar，OleksandrSotnychenko ， Helge Rhodin ， Mohammad Shafiei ，Hans-Peter Seidel ， Weipeng Xu ， Dan Casas ， andChristian Theobalt. Vnect：使用单个rgb摄像头进行实时3d人体姿势估计。ACM Transactions on Graphics，36（4），2017年7月。[21] 斯坦·梅拉克斯、列昂尼德·凯瑟曼和斯特林·奥斯滕。基于动力学的三维骨骼手跟踪。在Proceedings of GraphicsInterface 2013中，第63-70页。加拿大信息处理协会，2013年。[22] 文庆植张居勇李庆穆V2v-posenet：体素到体素预测网络，用于从单个深度图进行准确的3d手部和人体姿势估计。在IEEE计算机视觉和模式识别会议（CVPR），2018年。[23] Franziska Mueller 、 Florian Bernard 、 Oleksandr Sotny-chenko、Dushyant Mehta、Srinath Sridhar、Dan Casas和Christian Theobalt。从单目rgb实时3d手

下载后可阅读完整内容，剩余1页未读，立即下载