基于单目RGB图像的弱监督三维手位估计

2 浏览量更新于2023-10-13 收藏 1.27MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

基于单目RGB图像的弱监督三维手位估计蔡玉军1[0000 - 0002 - 0993 - 4024]、葛刘浩1、蔡建飞2、袁俊松31南洋理工大学{yujun001，ge0001ao}@ e.ntu.edu.sg2南洋理工大学asjfcai@ntu.edu.sg3纽约州立大学布法罗大学jsyuan@buffalo.edu抽象。与基于深度的3D手部姿态估计相比，由于大量的深度模糊性和难以获得完全注释的训练数据，从单目RGB图像推断3D手部姿态更具挑战性。与现有的基于学习的单RGB输入方法不同，这些方法需要准确的3D注释来进行训练，我们建议在训练期间利用可以从商品RGB-D相机轻松获得的深度图像，而在测试期间，我们仅采用RGB输入进行3D联合预测。通过这种方式，我们减轻了现实世界数据集中昂贵的3D注释的负担。特别是，我们提出了一种弱监督方法，从完全注释的合成数据集适应弱标记的真实世界数据集的深度正则化器的帮助下，从预测的3D姿态生成深度图，并作为3D姿态回归的弱监督在基准数据集上的大量实验验证了所提出的深度正则化器在弱监督和全监督设置中的有效性。关键词：3D手部姿态估计，弱监督方法，深度正则化1介绍关节手姿态估计在过去几十年中引起了长期的研究[23，38，39]，因为它在许多应用中起着重要作用这项研究得到了BeingTogether中心的支持，该中心是新加坡南洋理工大学（NTU）和教堂山北卡罗来纳大学（UNC）之间的合作。BeingTogether中心由国家研究基金会，总理办公室，新加坡根据其国际研究中心在新加坡资助倡议.这项研究也得到了新加坡教育部Tier-2 Grant（MOE 2016-T2-2-065）和布法罗大学启动资金的部分支持。2蔡宇军、葛刘浩、蔡建飞、袁俊松图1.一、弱监督3D手部姿势估计的概念的图示。与使用3D标签来引导联合预测的常规全监督方法（a）不同，我们提出的弱监督方法（b）利用可以由消费级深度相机容易地获得的参考深度图来提供弱监督。注意，我们在训练期间仅需要参考深度图作为正则化器。在测试期间，训练的模型可以从仅RGB输入预测3D手部姿势例如人机交互和虚拟现实。尽管利用深度相机的3D手部姿态估计[13，7，26，41，6]近年来取得了巨大的成功，但是基于单目RGB的3D手部姿态估计[46，18，27，15]的进展由于RGB相机的广泛可用性，在许多视觉应用中，用于3D手部姿势估计的基于RGB的解决方案比基于深度的解决方案更受青睐。与深度图像相比，单视图RGB图像具有固有的深度模糊性，这使得从单个RGB图像估计3D手部姿势成为一个具有挑战性的问题。为了克服模糊性，最近基于RGB的3D手部姿势估计[46]的工作依赖于大量的标记数据进行训练，而具有完整3D注释的全面真实世界数据集通常难以获得，从而限制了性能。具体地，与2D注释相比，为真实世界RGB图像提供3D注释通常更困难，因为2D位置可以直接在RGB图像中定义，而3D位置不能容易地由人类注释者标记。为了解决这个问题，Zimmermann等人。[46]转向使用3D模型渲染低成本的合成手，从中可以轻松获得3D关节的地面实况。尽管该方法在合成数据集上取得了良好的性能，但是由于图像特征之间的域偏移，该方法不能很好地推广到真实图像数据集。Paschalis[22]采用判别方法来定位2D关键点，并采用模型拟合方法来计算3D姿态。真的，我会等你的。[18]级别dC环GAN[45]存储“真实”基于单目RGB图像的弱监督三维手势估计3图二. 我们提出了一种弱监督的方法，从单目RGB输入的3D手姿态估计。我们使用深度正则化器（列4）的方法显著提高了其他基线（列2和列3）的性能注意，为了更好的比较，列2-5以新颖的视角示出。从合成数据集转移。然而，有限的性能表明，这种存储器的差距是由通用的“真实”图像和真实的尺寸造成的。我们提出的弱监督自适应方法从一个新的角度解决了这一我们观察到，用于从真实世界单视图RGB图像进行手部姿势估计的大多数先前工作[46，18，27]集中于利用完整的3D注释进行训练，这是昂贵且耗时的，同时忽略了可以由普通RGB-D相机容易地捕获的深度图像此外，它表明，这种低成本的深度图像包含丰富的线索的3D手姿态标签，基于深度的方法显示体面的性能上的3D姿态估计。基于这些观察结果，我们建议利用容易捕获的深度图像来补偿训练期间整个3D注释的稀缺性图1示出了我们提出的弱监督3D手部姿势估计方法的概念，该方法减轻了现实世界数据集中昂贵的3D注释的负担。特别地，类似于身体姿态估计中的先前工作[44，32，42，37，1]，我们应用包括2D姿态估计网络和3D回归网络的级联网络架构。我们注意到，直接将在合成数据集上训练的网络转移到现实世界的数据集通常会产生较差的估计精度，因为它们之间存在域差距。为了解决这个问题，受[19，4]的启发，我们用深度正则化器来创新结构，该深度正则化器从预测的3D手部姿势生成深度图像，并通过监督渲染的深度图来正则化预测的3D回归，如图1（b）所示。该网络基本上学习从3D姿态到其对应的深度图的映射，其可以用于从3D姿态到其对应的深度图的知识传递。4蔡宇军、葛刘浩、蔡建飞、袁俊松将完全注释的合成图像转换为没有整个3D注释的弱标记的真实世界图像。此外，我们将深度正则化器应用于全监督设置。深度正则化器的有效性在两个基准数据集上针对我们的弱监督和全监督方法进行了实验验证：RHD[46]和STB数据集[43]。总之，这项工作做出了以下贡献：• 我们创新性地引入了在训练过程中利用低成本深度图的弱监督问题，用于从RGB图像进行3D手部姿势估计，从而减轻了3D联合标记的负担。• 提出了一种基于端到端学习的三维手势估计模型用于从完全注释的合成图像到弱标记的真实世界图像的弱监督适应。特别地，我们引入了由容易捕获的深度图像监督的深度调节器，与弱监督基线相比，这大大提高了估计精度（参见图2）。• 我们在两个基准数据集上进行了实验，结果表明，我们的弱监督方法与现有的作品和方法相比毫不逊色。我们提出的全监督方法优于所有现有技术的方法。2相关工作三维手势估计技术是一个长期以来被广泛研究的领域，有着大量的理论创新和重要的应用。关于从单眼颜色输入的3D手部姿势估计的早期工作[23，17，28然而，这些复杂的方法，通常遭受低的估计精度和受限制的环境，这导致在现实世界中的应用前景有限。虽然多视图方法[21，35]缓解了遮挡问题并提供了相当的准确性，但它们需要复杂的网格模型和优化策略，这阻止了它们执行实时任务。近几年来低成本消费级深度传感器的出现极大地促进了基于深度的3D手部姿态估计的研究，因为捕获的深度图像提供了更丰富的上下文，显著降低了深度模糊。随着深度学习技术的流行[10]，还引入了基于学习的来自单个深度图像的3D手部姿势估计，其可以实时实现最先进的3D姿势估计性能一般来说，它们可以分为生成方法[20，34，16]，区分方法[13，40，6，7，5，8]和混合方法[25，31，30]。受深度图像[24]中基于CNN的3D手部姿势估计的巨大改进的启发，深度学习也已被用于基于单目RGB的应用程序的一些最近的工作中[46，18]。特别地，Zimmermann et al.[46]提出了一种深度网络，该深度网络学习规范坐标中关节位置的隐式3D关节连接先验，并构建合成数据集以基于单目RGB图像的弱监督三维手势估计5k=1解决注释不足的问题。Muller等人[18]嵌入了一种“通用”网络，该网络将结构域转换为存储器上的结构域，以减少它们之间的结构域转换。实现的性能增益通过这些方法表明了一个有前途的方向，虽然估计3D手姿态从单视图RGB图像是更具挑战性的，由于缺乏深度信息。作为后续探索，我们的工作旨在通过弥合完全注释的合成图像和弱标记的真实世界图像之间的差距来减轻真实世界数据集中3D注释的负担。Dibra等人[4]是与我们的方法最接近的工作，它提出了一个端到端网络，可以从合成数据集适应未标记的真实世界数据集。然而，我们要强调的是，我们的方法在几个方面与[4]有显著不同首先，我们的工作针对来自单个RGB输入的3D手部姿势估计，而[4]专注于基于深度的预测。其次，与利用操纵的3D手部模型来合成深度图像的[4]相比，我们使用简单的全卷积网络来从预测的3D手部姿势推断相应的深度图。据我们所知，我们的弱监督适应是第一次基于学习的尝试，其将深度正则化器引入到基于单目RGB的3D手部姿势估计。这为该问题提供了一种替代解决方案，并且将使得能够进一步研究在RGB输入应用中利用深度图像3方法3.1概述我们的目标是从单眼RGB图像推断3D手部姿势，其中3D手部姿势由3D关节坐标的集合Φ={Φk}K∈~3D。它是一个K=21的K×3维空间我们的案子图3描述了所提出的网络架构，该架构采用了受[44]启发的级联架构。它由2D姿态估计网络（卷积姿态机- CPM）、3D回归网络和深度正则化器组成。给定包含具有特定手势的人手的裁剪的单个RGB图像，我们的目标是从所提出的端到端网络中获得每个关节的2D热图和相应的二维节理位置不为Φ2D∈Λ2D，其中Λ2D∈RK×2，并且该值的端点表示为Φ z∈ Λ z，其中Λ z∈ RK×1。最终输出3D关节位置在相机坐标系中表示，其中前两个坐标使用相机固有矩阵从图像平面坐标转换，并且第三坐标是关节深度。请注意，我们的深度正则化器仅在训练期间使用。在测试期间，仅使用2D估计网络和回归网络来预测接头位置。深度正则化器是促进所提出的弱监督训练的关键部分，即。，通过利用粗略的深度图来减轻现实世界数据集的痛苦的联合深度注释，这可以很容易地由消费级深度相机捕获。此外，我们的实验表明，引入的深度正则化器可以稍微改善3D手部姿势预测，6蔡宇军、葛刘浩、蔡建飞、袁俊松图3.第三章。概述我们提出的弱监督3D手部姿势回归网络，该网络以端到端的方式进行训练。在训练期间，来自合成数据集和真实图像数据集的裁剪图像在每个单个批次中混合作为网络的输入为了补偿真实数据中联合深度的地面实况注释的缺失，我们通过利用合成和真实数据集中可用的相应深度图来扩展具有深度正则化器的网络，以提供弱监督。在测试期间，真实图像仅通过虚线框中的网络部分所获得的2D热图和关节深度被连接作为网络的输出完全监督的方法，因为它作为一个额外的约束，为3D手部姿势空间。整个网络使用由[46]创建的渲染手部姿势数据集（RHD）和来自立体手部姿势跟踪基准的真实世界数据集[43]进行训练。为了便于表示，合成数据集和真实世界数据集分别表示为IRHD和ISTB注意，对于弱监督学习，我们的模型在IRHD上进行预训练，然后通过融合两个数据集的训练来适应ISTB。对于全监督学习，两个数据集在训练和评估过程中独立使用。3.22D姿态估计网络对于2D姿态估计，我们采用类似于Wei等人的卷积姿态机的编码器-解码器架构。[36]和[46]，其在分辨率上与连续细化的热图完全卷积。网络输出K个低分辨率热图。每个热图上的强度指示位于2D位置中的关节的置信度。在这里，我们通过应用MMSE（最小均方误差）估计器来预测每个关节，该估计器可以被视为通过热图中的概率加权的所有位置的积分，如[29]中所提出的我们初始化网络基于单目RGB图像的弱监督三维手势估计7zzz权重从人体姿势预测调整到IRHD，由Zimmermann调整等人[46]第46段。为了训练这个模块，我们使用在mapΦHM∈RH×W处的pricte与map处的gruthGaussieG（Φgt）从具有标准偏差的地面实况2D标签Φgt生成2个Dσ= 1。损失函数ΣHL2D（ΦHM，Φgt）=2个DΣW （Φt（h，w）−G（Φgt）（h，w））（一）2D HM2DHW3.3回归网络回归网络的目标是从获得的2D热图推断每个关节的深度基于单个图像的3D人体姿势和手部姿势估计中的大多数先前工作[46，2，32]试图将 2D热图的集合直接提升到3D空间中，而该策略的关键问题是如何区分从单个2D骨架推断的多个3D姿势受[44]的启发，我们的方法利用上下文信息来减少将2D热图提升到3D位置的模糊性，方法是在2D姿态估计网络中提取与预测的2D热图级联的中间图像证据作为回归网络的输入我们采用了一个简单而有效的深度回归网络结构，只有两个卷积层和三个全连接层。请注意，这里我们通过用根关键点的位置减去每个手关节，然后通过某对关键点之间的距离对其进行归一化，来推断关节深度的尺度不变和平移不变表示，如[46，18]中所做的对于全监督学习，我们简单地应用[ 9]中引入的平滑L1损失，然后我们将其应用于我们的预确定的jog 中。对于弱监督学习，由于没有3D，因此没有执行惩罚注释。为了解决这个问题，我们引入了一种新的深度正则化器作为联合深度回归的弱监督，这将在第3.4节中详细说明。总的来说，回归网络的损失函数定义为：.其中Lz（Φz，Φgt）=s_moo_hL_1（Φ_z，Φ_g_t），如果满足0，如果监管不力.（二）smoothL1（x）=0的情况。5 x2，如果|X|<1|-0。| − 0. 5、否则（三）3.4深度调节器深度正则化器的目的是将容易捕获的深度图像作为可以应用于弱监督和完全监督情况的物理结构的隐式约束。图4示出了所提出的深度正则化器的架构，其是由[19，3]启发的具有六层的全卷积每一层都包含一个转置卷积，8蔡宇军、葛刘浩、蔡建飞、袁俊松2个D2个D见图4。我们提出的深度正则化器的网络架构。给定3D手关节位置作为输入，深度正则化器能够通过逐渐放大中间特征图并最终将它们组合成单个深度图像来渲染对应的深度图。a Relu，之后沿两个图像维度扩展特征图。在前五层中，在Relu之前引入了批归一化[12]和丢弃[11]，以减少对初始化的依赖性并减轻对训练数据的过度拟合。最后一层组合所有特征图以从3D手部姿势生成对应的深度图像。lett（Φ3D，D）de其中，D是包含3D手关节位置的集合的正则化器，并且D是对应的深度图像。我们将D归一化为Dn：Σdmax−dijDn =i、jd范围（四）其中d_ij是图像位置（i，j）处的深度值，并且d_max和d_range分别表示最大深度值和深度范围注意，当位于更靠近相机并且在该过程中背景被设置为0时，归一化深度值趋于更大两个函数kΦ3D={（Φgt，Xz）}的输入包含两个部分：truth 2D标签Φgt在图像坐标系中和关节深度Xz。注意，我们使用地面真实2D位置而不是我们预测的2D结果的原因是为了简化训练过程，因为没有来自深度正则化器的反向传播被反馈到2D姿态估计网络中。对于关节深度Xz，我们应用相同的归一化：dmax−Φz·Lscale−drootXz =范围（五）其中，Φd_z_d_e_d为了训练深度正则化器，我们采用L1范数来最小化由对himageDn进行的估计和对grruthDn进行的估计之间的差异：Lde p（Dn，Dn）=|Dn−Dn|（六）D基于单目RGB图像的弱监督三维手势估计93.5培训在Eq. (1)，（2）和（6），我们得到总损失函数为L= λ2DL2D（ΦHM，Φgt）+ λzLz（Φz，Φgt）+ λde pLde p（Dn，Dn）.（七）二维zAdam优化[14]用于训练。对于弱监督学习，类似于[44]和[33]，我们采用融合训练，其中每个小批量包含合成和真实训练示例（一半一半），在训练过程中随机洗牌。在我们的实验中，我们采用了一个三阶段的培训过程，这是更有效的实践相比，直接端到端的培训。特别地，阶段1初始化回归网络并利用来自Zimmermann等人 [46]的权重微调2D姿态估计网络，这些权重从卷积姿态机[36]中调整。第二阶段，如3.4节所述，对深度正则化函数进行迭代。第3阶段使用所有训练数据对整个网络进行微调，这是一个端到端的训练。4实验4.1实现细节我们的方法是用Pytorch实现的对于3.5节中描述的第一个训练阶段，我们采用60个epoch，初始学习率为10−7，批量大小为8，正则化强度为5× 10−4。对于阶段2和阶段3，我们分别花费40和20个时期在整个网络的微调过程中，我们设置λ2 D= 1，λ z= 0。1且λdep= 1。所有的实验都是在一个GeForce GTX 1080 GPU上进行的，使用CUDA 8.0。4.2数据集和指标我们在两个公开可用的数据集上评估了我们的方法：渲染手部姿势数据集（RHD）[46]和来自立体手部姿势跟踪基准（STB）[43]的真实世界数据集。RHD是一个分辨率为320× 320的渲染手部图像的合成数据集，由20个不同的角色执行39个动作组成，由41，258张用于训练的图像和2，728张用于测试的图像组成所有样本均使用2D和3D关键点位置进行注释对于每个RGB图像，还提供对应的深度图像。该数据集是相当具有挑战性的，由于在视点和手的形状，以及由随机噪声和不同的照明引起的大的视觉多样性的大的变化。使用提供的所有标签，我们训练整个提出的网络，包括2D姿态估计网络，回归网络和深度正则化器。STB是包含具有640× 480的图像分辨率的两个子集的真实世界数据集：从Point Grey Bum-blebee 2立体相机捕获的立体子集STB-BB和从Point Grey Bum-blebee 2立体相机捕获的颜色深度子集STB-SK。10蔡宇军、葛刘浩、蔡建飞、袁俊松10.90.80.70.60.50.40.30.20.100 510STB数据集15 20 25 30误差阈值（mm）图五. 左：不同基线的3D PCK结果与STB [43]上我们的方法的比较。我们提出的弱监督方法，w/2D + w/深度正则化器，显著优于其他弱监督基线（橙色和绿色曲线）。右：RHD [46]和STB [43]数据集上的不同注释方案请注意，我们将STB数据集的根关节位置从手掌移动到手腕关键点，以使两个数据集彼此一致。有源深度相机。注意，这两种类型的图像是以相同的分辨率、相同的相机姿势和相似的视点同时捕获的。STB-BB和STB-SK都提供21个关键点的2D和3D注释。对于弱监督实验，我们在具有2D注释的STB-SK中使用颜色-深度对，以及根深度（即实验中的腕部）和手部比例（某对关键点之间的距离）。对于完全监督的实验，使用具有2D和3D注释的颜色深度对（STB-BB）和立体声对（STB-SK）来训练整个网络。注意，在STB数据集上进行的所有实验都遵循[46，18]中使用的相同训练和评估方案，其在10个序列上训练并在另外两个序列上测试。我们评估的3D手姿态估计性能与两个指标。第一个度量是正确关键点（PCK）分数百分比的曲线下面积（AUC），这是评估具有不同阈值的姿势估计准确度的流行标准，如[46，18]中所提出的。第二个度量是在所有测试帧上的z维中的平均误差距离，其用于进一步分析所提出的深度正则化器的影响。遵循[46，18]中使用的相同条件，我们假设在实验评估中已知全局手部尺度和根部深度，使得我们可以基于全局域中的3D手部关节位置报告PCK曲线，所述3D手部关节位置是从输出根部相对关节计算的。4.3定量结果监管不力。我们首先评估了弱标签约束对STB数据集的影响，并与具有完整2D和3D的全监督方法进行了w/ 2D+w/ 3D+w/深度调节剂（AUC=0.722）w/2D+w/ 3D（AUC=0.714）w/ 2D+w/深度正则化剂（AUC=0.508）w/ 2D+w/o深度调节剂（AUC=0.372）w/o2D+w/o深度调节剂（AUC=0.278）3D PCK基于单目RGB图像的弱监督三维手势估计11我们的w/2D+ w/3D+ w/深度正则化器（（AUC=0.887）我们的w/ 2D+ w/ 3D（AUC=0.856）RHD数据集1STB数据集1250.90.99200.80.98150.70.60.97100.960.550.40.950.320253035404550零点九四误差阈值（mm）20 25 30 35 40 4550误差阈值（mm）0手腕MCP管烫头端平均值手腕MCP管烫头端平均值RHD数据集STB数据集见图6。在RHD [46]和STB数据集[43]上的全监督设置中提出的深度正则化器的效果。左：RHD数据集上的3D PCK。中间：STB数据集上的3D PCK。右：RHD和STB数据集上z维的平均关节误差距离。注释。具体来说，我们将我们提出的弱监督方法（w/2D+ w/深度正则化器）与三个基线进行比较：a）w/o2D+ w/o深度正则化器：直接使用基于RHD数据集的预训练模型; c）w/2D+ w/3D：具有完整2D和3D注释的全监督方法。如图5的左侧部分所示，全监督方法实现了最佳性能，而直接转移在没有自适应的合成数据（基线-a）上训练的模型产生了最差的估计结果。这这并不令人惊讶，因为全监督方法在3D手部姿势估计任务中提供了最有效的约束，并且真实世界图像具有相对于合成图像的相当大的域偏移。请注意，这两个基线作为我们弱监督方法的上限和下限。与基线-a相比，通过使用真实图像的2D标签微调预训练模型，基线-b将AUC值从0.667显著提高到0.807。此外，添加我们提出的深度正则化器进一步将AUC增加到0.889，这证明了深度正则化器的有效性。我们注意到，STB和RHD数据集采用不同的2D和3D注释方案特别地，STB数据集将手掌位置注释为根关节，这与使用手腕位置作为根关键点的RHD数据集不同。因此，我们在STB中移动手掌关节以使注释一致以用于融合训练。为了评估移动根关节引入的噪声，我们比较了我们在STB数据集上的全监督方法与手掌相对和手腕相对表示的结果。原始的手掌相对表示表现稍好，平均误差减少约0.6mm。此外，还注意到，与合成数据集w/2D+w/3D+w/深度正则化剂（AUC=0.990）w/ 2D+w/3D（AUC=0.989）二维+三维w/ 2D+w/ 3D+ w/深度正则化器3D PCK3D PCKz轴12蔡宇军、葛刘浩、蔡建飞、袁俊松10.90.80.70.60.50.4RHD数据集10.90.80.70.60.50.4STB数据集0.320 25 30 35 40 4550误差阈值（mm）0.3202530 35 40 45 50误差阈值（mm）见图7。与RHD [46]和STB [43]的最新方法进行比较。左：RHD数据集上的3DPCK右：STB数据集上的3D PCKRHD（例如在背景中注释了拇指蘸取由于这些差异，我们认为我们的姿势预测和STB数据集提供的地面实况之间存在偏差，这可能会降低我们提出的弱监督方法的估计准确性。此外，另一方面，这些不一致性表明了引入深度正则化器的必要性，因为它提供了手部姿势和形状的某些先验知识。全监督3D手部姿势估计。我们还评估了深度正则化器在RHD和STB数据集上的全监督设置注意，在这种情况下，两个数据集是独立训练的如图6（左）和图6（中）所示，我们的具有深度正则化器的全监督方法在RHD和STB数据集上的表现优于没有深度正则化器的方法，AUC分别提高了0.031和0.001。图6（右）示出了z维度中的平均联合误差，表明添加深度正则化器能够略微改善联合深度估计中的与最先进技术的比较。图7显示了在RHD和STB数据集上与最先进方法[46，43，18，27，22]可以看出，在RHD数据集上，即使没有深度正则化器，我们的全监督方法也显著优于最先进的方法[46]，将AUC值从0.675提高到0.887。在STB数据集上，与现有的方法相比，我们的全监督方法取得了最好的效果请注意，我们的弱监督方法也优于一些现有的工作，这表明了弱监督探索的潜在价值时，完整的3D注释是难以获得在现实世界的数据集。还应注意，图7中我们提出的方法的AUC值与第4.3节中的对应值略有不同这是因为在这里我们的w/2D+ w/3D+ w/深度正则化器（（AUC=0.887）口服2D +3D（AUC=0.856）Zimmermann（（AUC=0.675）3D PCK3D PCK我们的全监督+深度调节器（AUC=0.994）我们的完全监督（AUC=0.993）Spurr（2018 CVPR）（AUC=0.983）Mueller（AUC=0.965）Zimmermann（AUC=0.948）Panteleris（2018 WACV）（AUC=0.941）我们的弱监督（AUC=0.876）CHPR（AUC=0.839）ICCPSOpso（AUC=0.709）基于单目RGB图像的弱监督三维手势估计13图8. 由经训练的深度正则化器生成的深度图的样本，其中输入地面真实3D手关节位置。我们训练的深度正则化器能够呈现合理和令人信服的深度图。注意，误差主要位于手的轮廓周围，其中参考深度图像（例如，由深度相机捕获）通常是有噪声的。我们对立体声对子集STB-BB而不是色深子集STB-SK进行测试。4.4定性结果图9显示了我们提出的弱监督方法和基线的一些可视化结果为了更好的比较，我们显示了在一个新的视图和骨架重建的原始视图，我们的方法的3D骨架可以看出，在附加地利用参考深度图像施加深度正则化器之后，我们对现实世界数据集的弱监督方法产生了相当好的估计准确度，特别是在全局取向方面，这与我们前述的定量分析一致。图10显示了我们的完全监督方法在RHD和STB数据集上的一些可视化结果我们展示了从各种角度捕获的样本，具有严重的自遮挡。可以看出，我们的完全监督的方法与深度正则化是鲁棒的各种手的方向和复杂的姿势关节。虽然深度正则化器只用于训练而不用于测试，但看看它是否学习了多种手部姿势是很有趣的。因此，我们收集由我们良好训练的深度正则化器生成的深度图像的一些样本，给定地面真实3D手关节位置，如图8所示。我们可以看到，我们的深度正则化器能够为大变化和自遮挡的手部姿势渲染平滑和14蔡宇军、葛刘浩、蔡建飞、袁俊松见图9。我们提出的弱监督方法（列1，4）和其他基线（列2，3）的视觉结果，与地面实况（列5）相比。注意，列2-5以新颖的视点示出以便于比较。图10个。我们的全监督方法在RHD和STB数据集上的可视化结果。第一行：RHD数据集。第二行：STB数据集。请注意，骨架显示在一个新的观点，以方便比较。5结论构建具有完整3D注释的大型真实世界手部数据集通常是3D手部姿态估计任务中基于学习的方法的主要瓶颈之一为了解决这个问题，我们的方法提出了一种借助于低成本深度图像从完全注释的合成数据集适应弱标记的真实世界数据集的方法，据我们所知，这是对杠杆老化深度图的首次探索具体来说，我们引入了一个简单而有效的端到端架构，包括一个2D估计网络，回归网络和一个新的深度正则化。定量和定性的实验结果表明，我们的弱监督的方法与现有的作品相比，我们的完全监督的方法大大优于国家的最先进的方法。我们注意到，我们仅示出了用于弱监督3D手部姿势估计的一种方式无监督/弱监督学习有很大的空间。基于单目RGB图像的弱监督三维手势估计15引用1. Bogo，F.，Kanazawa，A.，Lassner，C. Gehler，P. Romero，J.布莱克，M.J.：保持它smpl：由单一影像自动估计三维人体位姿与形状。欧洲计算机视觉会议pp.561-578. Springer（2016）2. Chen，C.H. Ramanan，D.：3D人体姿态估计= 2D姿态估计+匹配。在：CVPR中。卷2，p.第六期（2017年）3. Cice k，O.， Abdulkadi r，A.， Lienkamp，S. 美国， Br ox，T.， Ronneberge r，O. ：3D-NET：从稀疏注释学习密集体积分割。医学图像计算和计算机辅助干预国际会议pp. 424-432. Springer（2016）4. Dibra，E.，Wolf，T.，Oztireli，C.，格罗斯，M.：如何从未标记的深度数据中改进3d手部姿势估计？在：3D视觉（3DV），2017年国际会议上。pp. 135-144. IEEE（2017）5. Ge，L.，Cai，Y.，Weng，J.，Yuan，J.：手点网：3D手部姿势估计设置点集。IEEE计算机视觉和模式识别会议论文集。pp. 20186. Ge，L.，Liang，H.，Yuan，J.，Thalmann，D.：单个深度图像中的鲁棒3D手部姿势估计：从单视图CNN到多视图CNN。在：IEEE计算机视觉和模式识别会议论文集。pp. 3593-3601（2016）7. Ge，L.，Liang，H.，Yuan，J.，Thalmann，D.：3D卷积神经网络，用于从单个深度图像进行高效和鲁棒的手部姿势估计IEEE计算机视觉和模式识别会议论文集。第1卷，第5页（2017年）8. Ge，L.，Ren，Z.，Yuan，J.：点到点回归点网络用于三维手姿态估计。In：Proc.欧洲会议中Comput. 目视（2018年）9. Girshick，R.：快速R-CNN。在：计算机视觉（ICCV），2015年IEEE国际会议上。pp. 1440-1448年。IEEE（2015）10. 顾，J.，王志，Kuen，J.，马，L.， Shahroudy，A.，帅湾 Liu，T.，王，X.，Wang，G.，蔡杰，等：卷积神经网络的最新进展。模式识别（2017）11. 辛顿通用电气Srivastava，N.，Krizhevsky，A.，萨茨克弗岛Salakhutdinov ，R.R.：通过防止特征检测器的协同适应来改进神经网络。arXiv预印本arXiv：1207.0580（2012）12. Ioffe，S.，Szegedy，C.：批次标准化：通过减少内部协变量偏移来加速深度网络训练。国际机器学习会议。pp. 44813. Kes k in，C.， Krac，F.， Kara，Y. E、阿卡湖（AcaarunL.）：使用多层随机化决策森林的Hand_d_p〇sestimation和Hand_d_欧洲计算机视觉会议。pp. 852-863 03 The Dog（2012）14. 金玛，D.P.，Ba，J.：Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980（2014）15. Liang，H.，Yuan，J.，Thalman，D.：单幅rgb图像中以自我为中心的手部姿态估计与距离恢复。在：多媒体和博览会（ICME），2015年IEEE国际会议上。pp. 1-6IEEE（2015）16. Liang，H.，Yuan，J.，Thalmann，D.，张志：基于模型的手部姿态估计通过空间-时间手部解析和3D指尖定位来识别。The Visual Computer29（6-8），83716蔡宇军、葛刘浩、蔡建飞、袁俊松17. Lu，S.，Metaxas，D.，Samaras，D.，Oliensis，J.：使用多个线索进行手部跟踪和模型细化。计算机视觉与模式识别，2003年。前-首席执行官。2003年IEEE计算机协会会议。第2卷，第II-443 IEEE（2003年）18. Mueller，F. Bernard，F. Sotnychenko，O.，Mehta，D.，Sridhar，S.，Casas，D.Theobalt，C.：从单目rgb实时3d手部跟踪。In：Proceedings of Computer Visionand Pattern Recognition （ CVPR ）（ June 2018 ）， https://handtracker.mpi-inf.mpg.de/projects/GANeratedHands/19. Oberweger，M.，Wohlhart，P.，Lepetit，V.：训练用于手部姿势估计的反馈回路。在：IEEE计算机视觉国际会议论文集。pp. 331620. 奥伊科诺米季斯岛Kyriazis，N.，Argyros，A.A.：利用kinect实现基于模型的手部关节高效在：BmVC中。卷1，p.第三次（2011年）21. 奥伊科诺米季斯岛Kyriazis，N.，Argyros，A.A.：通过建模遮挡和物理约束来实现手与对象交互的全自由度跟踪。在：计算机视觉（ICCV），2011年IEEE国际会议上。pp. 2088-2095. IEEE（2011）22. Panteleris，P.，奥伊科诺米季斯岛Argyros，A.：在野外使用单一rgb帧进行实时3d手部姿态估计。在：计算机视觉应用（WACV），2018年IEEE冬季会议pp. 436-445 IEEE（2018）23. Rehg，J.M.，Kanade，T.：Digiteyes：基于视觉的人机交互手部跟踪。在：非刚性和铰接对象的运动，1994年。1994年IEEE研讨会论文集。pp. 16比22 IEEE（1994）24. Ren，Z.，Yuan，J.，孟，J.，张志：基于kinect传感器的鲁棒部分手势识别。IEEETrasactions on Multimedia15（2016）25. Sharp，T.，Keskin，C.，罗伯逊D.Taylor，J.Shotton，J.，Kim，D.，瑞曼C.的方法，莱希特岛Vinnikov，A.，魏，Y.，等：准确、稳健、灵活的实时手部跟踪。第33届ACM计算机系统人为因素年会论文集。pp. 3633-3642 ACM（2015）26. Shotton，J.，格尔希克河Fitzgibbon，A.，Sharp，T.，Cook，M.，Finocchio，M.，摩尔河Kohli，P.，Criminisi，A.，Kipman，A.，等：从单个深度图像进行有效的人体姿态估计。 IEEE Transactions on Pattern Analysis and MachineIntelligence35（12），282127. Spurr，A.，宋杰公园，S.，Hilliges，O.：跨模态深度变分手姿态估计在：IEEE计算机视觉和模式识别会议论文集。pp. 8928. Stenger，B.，Thayananthan，A.，托，pH值，Cipolla，R.：基于模型的手跟踪使用分层 baidu 滤波器。 IEEE transactions on pattern analysis and machineintelligence28（9），137229. 太阳，X.，Xiao，B.，Liang，S.，魏云：整体人体姿态回归。arXiv预印本1711.08229（2017）30. Tang，D.，Taylor，J. Kohli，P.，Keskin，C.，Kim，T.K.，Shotton，J.：打开黑盒：用于估计人手姿势的分层采样优化。在：IEEE计算机视觉国际会议论文集。pp. 332531. Taylor，J.波尔多湖现金男T Corish，B.， Keskin，C.， Sharp，T.， Soto，E.，Sweeney，D. Valentin，J. Luff，B.，等：通过姿态和对应关系的联合、持续优化实现高效、精确的交互式手部跟踪ACM Transactions on Graphics（TOG）35（4），143（2016）32. 托梅D.拉塞尔角阿加皮托，L.：从深处提升：卷积3D姿势从一个单一的图像估计CVPR 2017 Proceedings pp.2500基于单目RGB图像的弱监督三维手势估计1733. Tzeng，E.，Hoffman，J.，Darrell，T.，Saenko，K.：跨域和任务的同步深度传输。In：Computer Vision（ICCV），2015 IEEE International Conference on.pp.4068-4076 IEEE（2015）34. Tzionas，D.，巴兰湖斯里坎塔，A.，Aponte，P.，Pollefeys，M.，Gall，J.：使用区别性突出点和物理模拟捕捉动作中的手。International Journal of ComputerVision118（2），17235. 王，R.， Paris，S.， J. ：6

下载后可阅读完整内容，剩余1页未读，立即下载