基于深度学习的单目3D人体姿态估计方法

114 浏览量更新于2023-10-17 收藏 787KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

110905在野外使用显式2D特征和中间3D表示的Ikhsanul Habibie，Weipeng Xu，Dushyant Mehta，Gerard Pons-Moll，ChristianTheobalt Max Planck Institute for Informatics，Saarland Informatics Campus，Saarbrucken，Germany{ihabibie，wxu，dmehta，gpons，theobalt}@ mpi-inf.mpg.org摘要基于卷积神经网络的单目3D人体姿态估计方法通常需要大量带有3D姿态注释的训练图像。虽然为具有人类的野外图像的大型语料库提供2D联合注释是可行的，但是向这样的野外语料库提供准确的3D注释在实践中几乎不可行大多数现有的3D标记数据集要么是合成创建的，要么是工作室内的图像。在这样的数据上训练的3D姿态估计算法通常具有有限的能力来推广到真实世界场景多样性。因此，我们提出了一种新的基于深度学习的方法，用于单目3D人体姿态估计，该方法具有高精度，并且更好地推广到野外场景。它有一个网络架构，包括一个新的解开隐藏空间编码的显式2D和3D功能，并使用监督的一个新的学习投影模型从预测的3D姿态。我们的算法可以在具有3D标签的图像数据和仅具有2D标签的图像数据上进行联合训练。它在具有挑战性的野外数据上实现了最先进的准确性。1. 介绍人体运动捕捉在计算机动画以及生物力学、医学、人机交互等领域有着广泛的应用。然而，标准的3D人体运动捕捉系统通常需要标记套装和/或在受控设置中记录的多个摄像机，这是昂贵的并且设置复杂，并且在实验室或研究环境之外是不切实际仅从单目图像推断3D姿态的方法克服了许多这样的限制，并且使得3D姿态估计更广泛地适用。然而，由于单目3D姿态估计的欠约束性质，实现精确的3D预测仍然是一项具有挑战性的任务。卷积神经网络研究进展图1：使用我们的方法对一般场景进行3D姿态预测。请参阅Sec。3为我们的方法和SEC的细节。4用于成果和评价。(CNN)[17]已经实现了有前途的基于学习的方法，用于从单色图像进行3D人体姿势估计。训练这样的方法通常需要大量的RGB图像，这些图像用来自基于标记或无标记的多相机运动捕捉系统[31，8，28，15]、合成数据[6]或基于IMU的系统[10，38，37]的参考3D姿态进行注释由于这种复杂的参考数据捕获，在训练数据中很难实现真实世界外观或姿势的多样性，这限制了训练网络在野外场景中的泛化。为了改进野外泛化，以前的工作利用了在野外注释的2D姿态数据上学习的特征。一些方法[21，22]提出使用在工作室中捕获的3D姿态数据集来微调3D姿态预测上的这种学习表示其他人[43]使用这种学习的表示作为初始化来联合预测2D关键点和深度信息。对于其中3D注释可用的图像，2D关键点和深度两者都被监督，否则监督来自几何约束。通过这种方式，网络继承了对野外2D有用的功能，以便在工作室外的设置中进行更好的3D姿态估计。如果标记的3D训练数据很少，使用强的预先存在的姿势先验（如参数化身体模型）也可以帮助网络预测更准确的3D姿势[41，16]。由于一般场景图像上的3D姿态标签难以获得，而较大的注释2D训练语料库存在，因此一些基于深度学习的方法诉诸于使用2D姿态作为目标预测，随后是额外的3D姿态提升。110906执行步骤[11，39，42，2，34，5，20]。使用这种方法，[20]表明，仅2D姿态数据就足以训练一个网络，实现有希望的3D姿态估计精度。然而，仅从2D姿态预测3D是固有的模糊任务，并且在这些方法中，来自图像的重要3D姿态线索被忽略。在本文中，我们介绍了一种用于3D姿态估计的新卷积神经网络架构，该架构在具有挑战性的野外数据上实现了最先进的精度。它引入了两个主要的创新，使我们能够有效地训练网络使用，更难得的图像数据与3D注释和更容易生成的图像数据，只有2D注释。第一个创新的灵感来自2D到3D的姿势提升[20]，但保持了网络在图像中显式利用3D线索的能力。为此，我们设计了卷积潜在空间的一些通道来编码热图中的显式2D关键点特征，留下其余特征来包含关于人类姿势的“深度”信息。分离2D和深度，并使用额外的野外数据监督2D，这是准确的2D姿态估计方法的主要驱动力[40，23，4]，允许网络因此更可靠地预测3D姿态，即使在训练和测试时间之间输入外观的显著变化这些2D姿态特征可以与具有3D注释的数据上的深度特征联合训练，或者在具有2D注释的数据上独立训练，而在这两种情况下都可以提高整体网络性能。第二个创新是一种监督方法，当仅对具有2D注释的数据进行训练时，该方法可以减少3D到2D的模糊性。为此，我们设计了一个神经网络，它学习如何通过使用从早期网络层预测的3D人体姿势作为潜在特征来估计2D身体关节的位置。更具体地说，我们学习预测给定单眼图像输入的弱透视相机参数，这些参数将预测的3D姿态投影到2D空间。在训练期间，该投影损失可以用于更新3D关节位置的信息，而不管训练图像是否具有3D标签或仅具有2D标签。我们的方法在MPI-INF-3DHP基准测试中实现了70.4%的3D PCK的最新准确度，具有挑战性的户外场景，即使只使用来自H3.6M [12]工作室数据集的3D姿势标签的图像进行训练。当在具有3D标签的工作室内图像和具有2D标签的野外数据的较大语料库上进行联合训练时，我们在MPI-INF-3DHP上实现了91.3%的3DPCK，其性能优于所有以前的方法。2. 相关工作人体姿态估计是计算机视觉领域的一个研究热点。我们将重点讨论最近与我们的工作相关的基于学习的方法。从2D关键点检测的3D姿态。由于最近一些基于CNN的2D姿态检测方法[36，35，40，23，4]的鲁棒性，许多3D姿态估计方法将任务重新模拟为2D关键点预测和身体深度回归的组合。Mehta等人[22]将2D热图预测与3D位置图相结合，以估计每个关节在3D空间中的位置。Zhou等[43]提出了一种弱监督训练方案，该方案使用堆叠的沙漏网络[23]对野外2D数据和具有3D标签的studio数据进行训练。该网络经过训练，可以预测工作室和室外数据集上的2D姿态，同时还可以学习从3D标记数据中预测深度信息。Yang等[41]也使用类似的弱监督，但他们通过引入对抗网络来扩展这一想法，该网络学习如何区分地面实况和3D姿态预测网络生成的预测姿态Dabral等人提出了另一个类似的工作路线。[7]其通过使用身体对称约束和单独的时间预测网络来进一步改进该方法，以实现跨连续帧的更好的3D预测稳定性。为了充分利用基于检测的方法，Pavlakoset al.[26]提出使用体积表示作为3D空间中的2D联合热图的扩展。然而，即使在使用其提出的用于缓解该问题的由粗到细策略之后，该公式化也是计算上昂贵的直接3D姿态预测。代替使用2D和深度预测的组合，一些作品直接回归3D身体关键点。Tekin等人[33]通过使用姿态自动编码器学习人体结构来增强直接3D预测网络。Mehta等人[21]使用多个中间监督任务，例如预测多个网络级别的输出他们使用两步训练法来提高概括能力。该网络首先被训练以学习2D关节热图，然后在从3D注释的工作室数据直接预测3D关节位置图的任务上进行改进。而不是直接预测关键点，[44]在运动学身体模型上回归关节角度，假设受试者的骨长已知。Sun等人[32]使用几何感知公式，该公式还预测骨长度和骨矢量方向，而不是仅回归3D关键点位置。Rhodin等人[30]提出了一种训练过程中的多视点一致性预测方法，以改进神经网络但它需要同步的多摄像机镜头来训练。多视图设置还可以用于对人体姿势估计执行无监督或半监督学习，通过训练网络来学习几何感知潜在空间，110907图2：我们提出的架构的概述我们使用CNNfRGB来学习表示为潜在空间中的2D热图位置h2D和附加3D姿势线索d的3D姿势特征这两个信息分别用于使用网络f3D和fc来预测以根为中心的3D姿态p3D和视点参数c最后，我们将p3D和c串联起来，学习2 D关键点信息h2D，即使3 D标签不可用，也允许网络更新3 D姿态信息。可以在不同的相机上生成新的视图[29]。没有深度信息的3D提升。一些方法通过仅从检测到的2D关键点估计深度来计算3D姿态Tome等人[34]执行一系列3D提升和重投影，以迭代地提高预测质量。Chen等人[5]从人类姿势库中找到最匹配检测到的2D姿势的最接近的3D姿势[20]使用具有残差连接的全连接神经网络可以使用2D地面实况或非常精确的2D关键点检测作为输入来实现精确的3D姿态估计性能。无论如何，这些方法不能克服原则上的模糊性，即存在许多可能的3D身体姿势，这些姿势可以被正确地投影到相应的2D姿势中。为了减少从2D估计的3D提升的这种模糊性，Pavlakos等人。[25]在关节对之间使用顺序深度注释，这是Pons-Moll等人引入的posebits的特殊情况。[27]第10段。使用2D投影信息估计3D姿态。Bogo等人[2]使用优化方法将参数SMPL [18]身体模型的2D关键点投影拟合到来自单独方法的2D预测。Brau等人[3]证明了2D投影，身体姿势先验和身体部位长度信息可以用作3D姿势预测的训练损失目标我们的方法通过在野外数据集上引入额外的3D监督和配对训练来扩展[3]的思想Kanazawa等人[16]表明可以使用神经网络学习来自单目图像的SMPL身体模型的姿势和形状参数。虽然他们的方法使用身体模型的2D投影损失作为主要目标，但是他们的方法还3D姿态和SMPL参数的标签（如果可用）。Omran等人[24]提出了另一种深度学习方法来推断SMPL身体模型的参数，并分析了改变输入表示（轮廓，2D关键点，部分分割）以及2D和3D数据比例时的性能我们的方法在几个基准数据集上优于这些方法。上述综述表明，许多方法使用来自2D姿态任务的迁移学习或通过将3D姿态估计解耦为单独的2D关键点检测和深度回归问题来解决野外图像上的通用性。对于解耦3D表示的方法[43，41，7]，如果3D标签可用，则预测深度信息，否则一些弱监督约束（例如，参数身体模型）用于正则化。在本文中，我们提出了一种新的架构，它结合了隐藏空间中单独的2D和3D深度特征的显式编码，而不是像以前的提升方案那样对矢量化的2D预测进行操作我们训练的投影网络进一步稳定了整体3D预测精度。3. 方法该方法估计K个人体关节P ={J1，. . . .，J，K}中的图像。我们的方法假设对象周围的作物是可用的。我们目标的基线策略如下：给定由RGB图像对及其对应的3D姿态标签组成的训练集，D =需要对抗参数体{（In，PGT）}N，我们可以训练一个基于卷积的神经元-n n=1模型该方法可进一步改进，通过使用自适应网络fRGB（In，θ）来预测矢量化的表示，110908RGBnn23D关节位置。网络参数θ可以通过最小化姿态预测和地面实况之间的差异L3D为此，我们在提取器网络f RGB之后设计了一个卷积特征图F3D=[h2D，d]。该特征图由64个输出通道组成，具有空间分辨率，L3Dpose=1ΣN布拉夫n=1（I，θ）−PGT2（一）尺寸为16×16。我们用前14个频道来捕捉2D姿态信息。我们优化这个区域，通过在最小二乘意义上最小化与2D地面实况热图相比的损失来训练其余的功能通过对当前可用的图像数据集进行训练，3D姿态标注，这种直接监督方法已经可以使网络在工作室测试图像上实现合理的性能。然而，由于具有地面实况3D姿态的可用真实世界图像的有限量，这种基线方法在其推广到野外场景的能力方面仍然受到限制。因此，我们引入了几种策略来增强这样的3D姿态网络，使其在野外场景中表现得更好。我们的增强网络可以在两种图像上训练，带有3D标签的图像和只有2D标签的野生图像。首先，在CNN的特征空间中使用显式的2D姿态表示与2D预训练相结合可以显着提高预测的质量其次，我们提出了额外的监督，通过使用一个训练投影子网络，学习弱透视相机的信息投影3D姿态估计到2D图像空间。我们的网络概述如图2所示。3.1. 用于3D姿态预测的显式2D特征表示Martinez等人[20]表明，简单的神经网络能够通过仅使用矢量化的2D姿势作为输入来以良好的精度直接回归3D人体姿势。这表明神经网络能够在一定程度上从相应的2D信息估计自然3D人体姿势的结构然而，这样的提升方案只能在一定程度上补救多个3D姿势在2D中看起来相同的基本模糊性[25]表明，额外的弱顺序深度监督可以部分解决问题的模糊性。我们认为，2D到3D提升方法也可以应用于2D热图输入，而不是矢量化的2D姿态表示。根据这一观察，我们决定设计CNN的卷积特征，以显式编码2D姿态热图信息。这个决定背后的想法是显式地将2D姿态信息与卷积潜在空间中的其他学习特征其余的特征图可以由网络用来捕获与3D人体姿势相关的其他图像信息，通道d不直接受到任何显式损失的约束，并且将通过3D姿态、2D投影以及稍后解释的附加姿态约束损失来监督为了从F3D推断3D姿态，我们首先通过使用简单的全连接层将显式2D热图h2D和由卷积编码器学习的附加特征d组合到潜在向量z ∈ R 1024中。然后，一个完全连接的具有剩余连接的f3D网络用于学习矢量化的3D姿态表示。我们将f3D设计为类似于[20]中的提升结构更具体地说，我们使用一个由四个完全连接的层组成的系列，宽度为1024，ReLU激活。一个剩余的连接也被合并，以连接z与f3D的第二层的输出。骨丢失一些早期的工作报告说，使用热图或体积表示的基于检测的方法往往在2D和3D姿态估计任务上实现比回归矢量的方法保守的预测。然而，额外的结构感知监督可以将矢量化预测的性能提升到竞争水平[32]。由于我们的方法还执行矢量化的3D姿态预测，我们补充了3D训练，在骨监测损失L骨的情况下，测量损失L3Dpose（公式1）。对于3D训练数据，Lbone测量关节Jk与运动学链中其对应父节点之间的向量与地面实况的相似性。对于2D数据，这意味着-确保标量骨骼长度与地面实况的差异。3.2. 从3D姿势预测2D投影为了进一步提高我们的方法利用2D姿态数据来训练3D姿态预测的能力，我们训练子网络以将预测的3D姿态投影到图像空间。我们的相机网络fc从给定的输入图像预测弱透视相机模型的主坐标（Cx，cy）和焦距（α x，αy）参数。通过使用从潜在表示z中提取的特征，我们使用多层感知器来推断相机参数c ∈ R 4。在训练期间，2D损失L2Dpose测量地面真实2D姿态与预测的3D姿态的2D投影p2D例如3D深度。以此引导网络学习由于强大的2D功能，3D姿态功能更加可靠p2D=Σ Σπx（p3D）=Σαxp三维Σ（x）+cx（二）姿势预测和更容易解释。此外，我们-πy（p3D）αyp3D（y）+cy在这个组件上使用2D训练损失，我们允许网络在3D姿势标签不可用时从图像中学习有用的特征。我们的投影公式允许网络学习有关3D姿态的部分信息，即使只有2D姿态注释可用。但是，没有任何约束N110909这保证了预测深度信息的正确性。为了在对2D数据进行训练时使3D姿态预测规则化，我们使用额外的骨丢失Lbone来加强骨长度与地面实况的相似性以用于额外的监督。我们随机选取其中一个作为每个训练实例的基础事实的训练科目。3.3. 网络设计我们使用经过调整的ResNet-50 [9]作为从2D图像中提取姿态特征的骨干子网fRGB（图2）的基础。这在预测精度和推理时间之间提供了一个很好的权衡，使我们的网络可以选择性地用于实时应用。原始的ResNet-50架构用于Res 4f级，我们从头开始训练Res 5a级，同时将其输出通道数量减少到1024个。这个提取器网络之后是3.1中描述的3D姿态回归器网络。我们训练的带有3D标签的工作室数据集和带有2D标签的室外数据集由于对比度差异以及3D数据集上的前景背景增强而具有略微不同的图像统计为了进一步减轻这种剩余域差距，超出我们的新网络架构通过其设计已经可以做到的，我们采用了与几种早期3D姿态预测方法类似的预训练方法，例如。[21 ]第20段。为此，我们首先在ImageNet功能上预训练ResNet-50网络，以仅执行2D热图预测。这里，在前14个通道上使用中间2D姿态监督res4d和res5a的特征图。相同的中间当稍后在2D和3D姿态数据上微调整个网络时，也使用监督。在预训练之后，在具有2D注释的室外图像和具有3D注释的工作室图像上对完整网络进行最终训练，从而获得学习到的特征，这些特征可以很好地推广到野外场景，并在3D姿态估计中获得高精度。我们的算法可以修改为处理人类周围任意帧的输入图像，因为我们的子网工作fRGB是卷积的。例如，我们可以在将重新缩放的图像传递到后续子网络之前，围绕检测到的2D关键点执行紧密的边界框裁剪。4. 实验与讨论在讨论数据集和网络训练之后，我们将定性和定量地展示我们方法的高性能我们使用H3.6M数据集[12]来比较工作室内数据的一般3D姿态估计精度，并表明我们在更一般的MPI-INF-3DHP基准集上优于以前的方法后者具有更多样化的运动，更多样化的场景，包括室内场景与绿色屏幕背景（GS），以及方法PCKPCKPCKPCK AUC MPJPEGS无一般事务人员户外所有所有所有梅赫塔[21] 84.672.469.776.5--梅赫塔[22]---76.640.4124.7达布拉尔[7]---76.739.1103.8我们的（美国）87.880.273.881.544.590.7我们的（一般事务）88.080.574.882.044.791.0美国（PA）94.992.484.091.357.565.4表1：在使用MPI-INF-3DHP和H3.6M 3D训练集以及MPII和LSP 2D训练集进行训练之后，MPI-INF-3DHP数据集上的3D PCK（越高越好）。我们在室内和野外场景的基准测试中明显优于使用类似的2D和3D组合训练这适用于所有评估原型（未缩放（美国），全球）。scaled（GS），Procrustes（PA））。更多的野外场景，包括室内（无 GS ）和室外（Outdoor）的一般背景。消融分析显示了所提出的方法中各个组件的重要性。补充文件载有进一步的解释和评价。4.1. 数据集和评价指标作为具有地面真实3D姿态的训练数据，我们使用H3.6M训练集以及背景增强和未增强的MPI-INF-3DHP训练集的组合，这些训练集总共由350 k训练图像组成。作为仅具有2D姿势注释的野外训练图像，我们使用MPII [1]和LSP [13] [14]数据集，这些数据集通过随机裁剪，平移和旋转图像来增强在测试时，我们与其他先前提出的方法在标准H3.6M和MPI-INF- 3DHP测试数据上进行比较，以显示一般的3D姿态预测准确性，以及最先进的户外场景概括我们还定性地可视化了我们的算法在野外图像上的最新精度（见图3）。通过比较平均每个关节位置误差（MPJPE）、150mm半径下的正确3D关键点（3D PCK）百分比[21]以及对应于3D PCK阈值的曲线下面积（AUC）度量来评估定量性能。由于以往工作中的评价方案不统一，我们在三种最常用的方案下进行定量评价：（i）3D联合预测既不被缩放也不与地面实况（ground truth）对准（未缩放），（ii）3D联合预测在评估前用地面实况比例进行全局缩放（glob.缩放），以及（iii）3D联合预测与具有完全Procrustes对齐（Procrustes）的地面实况对齐。我们进一步按照作物的标准做法-110910图3：MPI-INF-3DHP测试集（第一至第三行）和LSP（第四和第五行）的定性示例。更多示例请参见补充文档。使用2D地面实况信息在测试图像中ping紧密边界框。由于裁剪本质上是从原始相机执行虚拟旋转，因此我们使用透视校正[21]将姿势重新对齐到正确的视图。4.2. 训练过程如前所述，我们分两个阶段训练网络。我们首先在MPII [1]和LSP [14，13]数据集上对2D热图回归任务在这个阶段，网络被训练了186k次迭代，小批量大小为21。初始学习率为0。我们会以指数衰减。在预训练之后，我们使用学习的权重来初始化完整3D姿态预测网络的权重。然后，在3D标记的工作室数据以及仅具有2D注释的野外数据上训练完整的网络。带有3D和2D注释的图像数据都以10的minibatch大小输入到网络中，以训练240k次迭代。对于第二阶段，我们再次使用0的学习率开始训练。05，在60k次迭代中衰减。我们在两个训练阶段都使用了动量为0.9的Adadelta我们根据经验发现，如[21]所建议的那样，在预训练层上使用学习率差异来保留野生特征，如果3D训练数据非常有限或更有偏见，则有必要实现良好的泛化。我们发现，当使用H3.6M数据作为唯一的训练时，在MPI-INF-3DHP数据集上进行测试时，3D姿势标签的源会产生最佳结果。另一方面，当在H3.6M和MPI-INF-3DHP的增强数据上训练作为3D标签的源这表明3D数据的前景和背景增强可以进一步缩小室内和室外场景之间的域差距。4.3. 定量比较表1比较了我们在MPI-INF-3DHP基准上的方法与可以在具有2D和3D注释的图像上训练的最接近的竞争方法。所有方法都使用H3.6M和增强和未增强的MPI-INF-3DHP 3D数据集以及LSP和MPII 2D数据集进行训练。除非另有说明，否则我们使用H3.6M数据集的H80K样本，该数据集在增强之前由大约41K训练样本组成。我们的算法实现了迄今为止最高的准确性（在所有评估方案中），产生了82.0%的3D PCK，44.7%的AUC和91.0 mm的MPJPE（使用glob.用于评估）。我们还实现了最先进的结果，特别是在室外场景中，3DPCK为74.8%。此外，91.3%的平均3D PCK是在MPI-INF-3DHP上评估的所有算法报告的最高值，无论使用何种训练数据表4进一步显示了我们的方法与MPI-INF-3DHP上其他方法的比较，当所有方法都经过训练时110911方向讨论吃问候打电话构成购买坐梅赫塔 *[21]59.769.760.668.876.459.175.096.2[22]第二十二话62.678.163.472.588.363.174.8106.6帕夫拉科斯[26]67.472.066.769.172.065.068.383.7马丁内斯 *[20]51.856.258.159.069.555.258.174.0周 *[43]54.860.758.271.462.053.855.975.2杨 *[41]51.558.950.457.062.149.852.769.2[32]第三十二话52.854.854.254.361.853.153.671.7金泽 *[16]--------[19]第十九话49.251.647.650.551.848.551.761.5达布拉尔 *[7]46.953.847.052.856.945.248.268.0我们的 *（H80K）57.169.661.666.073.457.170.989.8我们的 *（5fps）54.065.158.562.967.954.060.682.7坐下烟雾拍照等待走遛狗行走对平均梅赫塔 *[21]122.970.885.468.554.482.059.874.1[22]第二十二话138.778.893.873.955.882.059.680.5帕夫拉科斯[26]96.571.777.065.859.174.963.271.9马丁内斯 *[20]94.662.378.459.149.565.152.462.9周 *[43]111.664.165.566.163.251.455.364.9杨 *[41]85.257.465.458.460.143.647.758.6[32]第三十二话86.761.567.253.447.161.653.459.1金泽 *[16]-------88.0[19]第十九话70.953.760.348.944.457.948.953.2达布拉尔 *[7]94.055.763.651.640.355.444.355.5我们的 *（H80K）109.268.681.365.854.378.458.271.1我们的 *（5fps）98.263.375.061.250.066.956.565.7表2：当在H3.6M上训练时，H3.6M上的平均每个关节位置误差（MPJPE）（我们的是全局的）。用于评估）。（*）表示在训练或预训练期间也使用2D标记数据集的方法。直接.讨论吃迎接电话构成采购坐SitD烟雾照片等走WalkDWalkPAvg.[32]第三十二话42.144.345.045.451.543.241.359.373.351.053.044.038.348.044.848.3金泽 *[16]---------------56.8达布拉尔 *[7]32.836.842.538.542.435.434.353.666.246.549.034.130.042.339.742.2奥姆兰[24]---------------59.9我们的 *（H80K）46.151.346.851.055.943.948.865.881.652.259.751.140.854.845.253.4我们的 *（5fps）43.746.945.448.050.240.641.660.775.648.854.946.836.947.543.949.2表3：在H3.6M上训练时，H3.6M上的平均每关节位置误差（MPJPE）。（*）表示在训练或预训练期间也使用2D标记数据集的方法。（Procrustes评价）。方法PCK AUC MPJPEMehta等人[21日]64.731.7-Yang等[41个]69.032.0-Zhou等[四十三]69.232.5-我们的（未缩放） 69.635.5127.0Ours（我们的）缩放）70.436.0129.1我们的（普罗克鲁斯特）82.945.492.0表4：仅在H3.6M上训练后MPI-INF-3DHP的比较。我们在所有的标准和测试协议上都优于所有其他方法110912仅使用H3.6M作为3D姿态标签的源。同样在这里，我们的方法在所有三个评估方案的基础上在3D PCK和AUC方面实现了最高的准确度。最后，我们还通过仅使用H3.6M的H80K样本作为3D姿势数据集并在H3.6M中的S9和S11主体的每第64帧上进行测试来比较我们的方法，参见表2（我们使用glob. [43][41][7]）和表3（Procrustes）。在这个测试集，这是严重的偏见，在工作室数据的一个单一的背景，我们的方法适合在野生泛化不能击败最好的表现方法。然而，它仍然达到了竞争的准确性。当我们通过以每秒5帧的速度从H3.6M采样来增加训练数据的数量时，110913图4：我们提出的方法预测失败的例子。在MPI-INF-3DHP上测试时，方法获得了65.7 mm的较好MPJPE，同时保持了竞争结果，3D PCK为71.2%，AUC为36.3%。当在比较过程中使用Pro- crustes时，当使用H80 K样本训练时，我们实现了53.4 mm 平均MPJPE的最新精度，当使用以5 fps采样的H3.6M数据训练时，我们实现了49.2 mm平均MPJPE的最新精度。值得注意的是，在这里，我们也优于其他方法，这些方法使用与我们的体系结构相关的某种形式的姿势投影操作，并使用统计身体模型进行正则化，即[16]和[24]。4.4. 消融研究我们进行了一项消融研究，以衡量我们提出的贡献的有效性（表5）。我们使用一种直接的3D姿态回归方法，该方法具有2D姿态预训练，而没有在特征空间中的显式2D姿态损失，并且没有作为基线的2D从3D投影损失。基线仅在3D数据上训练，并使用关节位置和骨丢失作为训练目标。我们在H3.6M的H80 K样本上训练所有比较结果，然后在MPI-INF-3DHP数据集上进行评估测试。基线达到62.3%的3D PCK。在潜在特征空间中使用这一增加使性能相对于基线提高了3.1%。类似地，添加3D到2D投影损失改进了该方法的性能，即使在潜在特征空间中没有显式2D姿态。使用这两种建议的组件推进的结果与70.4%的3D PCK的最先进的结果。4.5. 定性结果和进一步讨论我们在图3中可视化MPI-INF- 3DHP和LSP测试图像上的示例预测结果。我们的方法在工作室，一般室内和野外图像上表现良好。我们在图4中展示了几个失败案例。我们的方法可能会失败的挑战姿态，这是严重（自）封闭，从不寻常的相机角度看到的姿态，或姿态，这是从什么是在训练集中看到的这种失败的情况是常见的许多单目3D姿态估计方法。补充文件显示了我们的方法的其他失败示例。方法PCK AUC基线（直接3D预测+骨丢失）62.3 30.3+ 二维潜在损失+室外数据66.4 33.0+ 3D到2D投影+室外数据 69.5 三十五点三+ 2D潜在损失+室外数据+3D到2D投影70.4 36.0表5：MPI-INF-3DHP测试数据的消融研究（分为场景子类别：带绿屏（GS）的演播室内场景，以及更多的室内（无GS）和室外（室外）野外场景）。仅使用具有地面实况3D标签的H3.6M数据进行训练。3D预测是全局缩放的。5. 结论我们提出了一种新的深度学习架构，用于从单目彩色图像中估计3D人体姿势。它被设计用于在两种情况下进行训练，一种是使用地面真实3D姿势标签的更难获得的真实图像，另一种是仅使用2D姿势标签的更广泛获得的野外图像。我们的架构增加了一个骨干3D姿态推理网络，在潜在的特征空间和一个学习的3D到2D投影模型的显式解开2D姿态表示。我们的算法在工作室H3.6M数据集上实现了最先进的性能，并且在具有更大挑战性的MPI-INF-3DHP基准上的性能明显优于相关工作。6. 致谢这项工作得到了 ERC Consolidator Grant 4DRepLy（770784）的支持。 Gerard Pons-Moll由德国研究共同体（DFG）资助。德国研究基金会）-409792180。引用[1] M.安德里卢卡湖Pishchulin，P. Gehler和B.席勒2D人体姿态估计：新的基准和最先进的分析。在IEEE计算机视觉和模式识别会议（CVPR）中，2014年。五、六[2] F. Bogo、A.金泽角放大图片，P. Gehler，J. Romero和M.J. 黑色. 保持SMPL：自动估计3D110914从单个图像确定人姿势和形状。计算机视觉施普林格国际出版社，2016年。二、3[3] E. Brau和H.蒋通过深度学习从2D注释估计3D人体姿势。第四届3D视觉国际会议，3DV 2016，斯坦福，加利福尼亚州，美国，2016年10月25-28日，第582-591页，2016年。3[4] Z. Cao，T.Simon，S.-E. Wei和Y.酋长利用局部仿射场进行实时多人二维位姿估计在CVPR，2017年。2[5] C. Chen和D. Ramanan 3D人体姿态估计= 2D姿态估计+匹配。在2017年IEEE计算机视觉和模式识别会议上，CVPR 2017，檀香山，HI，美国，2017年7月21日至26日，第5759-5767页，2017年。二、三[6] W. Chen ， H.Wang ，Y.Li ，H. 苏， Z.Wang ， C.Tu ，D.Lischin- ski，D.Cohen-Or和B.尘合成训练影像以提升人体三维位姿估计。在3D Vision（3DV），2016年。1[7] R. 达布拉尔，A. 蒙达达，联合库苏帕蒂，S.阿法克，A. Sharma和A.贾恩。从结构和运动学习三维人体姿态2018. 二三五七[8] A. Elhayek、E.Aguiar，阿吉亚尔A.Jain，J.汤普森湖皮舒林M.安德里卢卡角布雷格勒湾Schiele和C.希奥博尔特高效的基于convnet的无标记运动捕捉，在一般场景中使用少量相机。在 IEEE 计算机视觉和模式识别会议（CVPR），2015年6月。1[9] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。2016年IEEE计算机视觉和模式识别会议（CVPR），第770- 778页，2016年。5[10] Y. Huang，M.考夫曼，E.Aksan，M.J. Black，O.Hilliges和G.庞莫尔深度惯性姿势学习，从稀疏惯性测量实时重建人体姿势。美国计算机学会图形学报，（Proc.SIGGRAPH Asia），37（6）：185：1-185：15，nov2018. 1[11] E. 因萨富季诺夫湖皮舒林湾Andres，M.安德里卢卡，B.席勒Deepercut：一个更深、更强、更快的多人姿势估计模型。2016年10月。2[12] C.约内斯库D. Papava、V.Olaru和C.斯明奇塞斯库Hu-man 3. 6 m：大规模数据集和自然环境中三维人体感知的预测方法IEEE Transactions on Pattern Analysis andMachine Intelligence，36（7）：1325- 1339，2014年7月。二、五[13] S. Johnson和M. Everingham用于人体姿态估计的离散姿态和非线性外观模型。在procBMVC，第12.1-11页，2010年。doi：10.5244/C.24.12。五、六[14] S. Johnson和M. Everingham从不准确的注释中学习有效的人体姿势估计。在CVPR 2011、2011中。五、六[15] H. Joo，T. Simon和Y.酋长总捕获量：用于跟踪面部、手部和身体的3d变形模型。在IEEE计算机视觉和模式识别会议上，第8320-8329页，2018年。1[16] A. Kanazawa，M.J. Black，D.W. Jacobs和J.马利克端到端恢复人体形状和姿势。在计算机视觉和模式识别（CVPR），2018年。一、三、七、八[17] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。在F. 佩雷拉角，巴西 - 地 J. C. 伯吉斯湖 Bottou 和 K.Q.Weinberger ，编辑， Advances in Neural InformationProcessing Systems 25，第1097-1105页2012. 1[18] M. 洛珀，N.Mahmood，J.罗梅罗湾Pons-Moll和M.J.布莱克。SMPL：一个多人皮肤线性模型。ACM Trans.Graphics（Proc. SIGGRAPH Asia），34（6）：248：1-248：16，Oct. 2015. 3[19] D. Luvizon，D. Picard和H.塔比亚使用多任务深度学习进行2D/3D姿态估计和动作识别。在CVPR，2018年。7[20] 马丁内斯河Hossain、J. Romero和J.小J一种简单有效的三维人体姿态估计基线。在IEEE计算机视觉国际会议（ICCV）上，Piscataway，NJ，美国，10月。2017.美国电气与电子工程师协会。二、三、四、七[21] D. Mehta，H. Rhodin、D. Casas，P. Fua，O. 索特尼琴科W. Xu和C.希奥博尔特使用改进的cnn监督在野外进行单目3d人体姿态估计。在3D视觉（3DV），2017年第五届国际会议上。IEEE，2017年。一、二、五、六、七[22] D. 梅塔S. 斯里达O. 索特尼琴科H. 罗丹M. Shafiei，H. P. Seidel，W. Xu，L. Casas和C.希奥博尔特Vnect：使用单个rgb相机进行实时3d人体姿势估计。ACM Transactions on Graphics，36（4），2017。

下载后可阅读完整内容，剩余1页未读，立即下载