基于人体部位双向相似性建模的三维位姿估计方法

151 浏览量更新于2023-10-12 收藏 1.37MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7771并非所有部分都是平等的：基于人体部位双向相似性建模的三维位姿估计王珏1、2黄少利1王新潮3陶大成11UBTECH Sydney AI Centre，School of Computer Science，FEIT，University of Sydney，Darlington，NSW 2008，Australia2悉尼科技大学3史蒂文斯理工学院gmail.com，{shaoli.huang，dacheng.tao}@www.example.com，www.example.comsydney.edu.au@xinchao.wang stevens.edu摘要由于生理结构的原因，并非所有人体部位都具有相同的自由度（DOF）。例如，四肢可以比躯干更灵活和自由地移动现有的大多数3D姿态估计方法，尽管取得了非常有希望的结果，但同样对待身体关节，因此经常导致肢体上的较大重建误差。在本文中，我们提出了一个渐进的方法，明确占不同的自由度之间的身体部位。我们将具有较高自由度的部件（如肘部）建模为具有较低自由度的相应部件（如躯干）的从属部件，可以更可靠地估计其3D位置。同时，高自由度的部分可以反过来对低自由度的部分施加约束。因此，具有不同自由度的部件相互监督，产生物理约束和合理的姿态估计结果。为了进一步促进对高自由度部分的预测，我们引入姿态属性估计，其中明确地估计肢体关节相对于具有人体的最小自由度的躯干的相对位置，并且进一步馈送到关节估计模块。所提出的方法取得了非常有希望的结果，在几个基准测试中优于现有技术。1. 介绍人体独特的生理结构导致不同的身体部位可能具有不同的自由度（DOF）。例如，人手腕的运动范围明显比肩膀的运动范围宽。当涉及3D姿态估计时，这种不同的DOF进一步导致不同程度的困难，3D姿态估计的目标是从一个或多个图像预测人体关节的3D位置大多数现有的3D姿态估计方法[48，*通讯作者3D躯干3D近端肢体关节3D远端肢体关节低自由度高自由度图1.拟议办法的说明。首先使用多任务网络估计2D关节位置以及姿态属性，然后将其作为输入馈送到3D姿态估计网络，该3D姿态估计网络明确地对不同DOF的身体部位之间的双向具体而言，高自由度的身体部位被视为低自由度的依赖组件，并反过来，提供了一个约束的低自由度的谎言。47，49，14，17，7，22，33，45，21，5，31]，尽管im-令人印象深刻的国家的最先进的性能实现，已经忽略了这种自由度的身体部位之间的区别，并平等地对待他们在学习过程中。因此，这导致在更灵活且因此更具挑战性的身体部位（诸如肢体）上的通常更大的重建误差。在本文中，我们提出了一种专门的方法，该方法充分利用身体部位之间的DOF差异来简化3D姿态估计（见图11）。①的人。我们根据自由度的增加水平将身体部位分为三组：躯干、包括头部、肘部和膝盖的近端肢体关节以及包括手腕和脚踝的远端肢体关节。通过这种分类，我们yyyzzzXXXOOO姿势属性2D关节位置回来在飞机上前回来在飞机上7772- 以渐进的方式将较高DOF关节（如肘部）的位置明确地建模为较低DOF关节（如躯干）的因变量，其中后者在大多数情况下可以更可靠地估计反过来，较高DOF关节的位置这种双向和渐进的依赖性使得各种DOF的身体部位能够彼此监督，从而产生物理上合理的3D姿态估计结果。为了进一步利用图像证据进行依赖建模，我们引入了姿势属性，该属性捕获肢体关节相对于躯干的相对位置，躯干是具有最少自由度的身体部位可以为每个肢体关节指定三个姿势属性（前、后和平面上）中的一个，以描述其相对于躯干的偏移。给定输入图像，这些属性经由多任务网络与2D姿态一起被估计，并且被进一步馈送到后续的3D姿态模块，该后续的3D姿态模块明确地考虑上述渐进依赖性。换句话说，作为3D姿态估计的输入的所估计的姿态属性提供了肢体可能位于何处的明确且强的先验，从而有益于下游部分依赖性建模。与经常产生偏差的基于回归的深度估计不同，偏差可能进一步传播到3D姿态估计并使结果恶化，如我们的实验中所示，三类姿态属性预测在大多数情况下是可靠的，提供有利的图像线索。因此，我们的主要贡献总结如下。• 通过将人体部分分类为三个不同级别的DOF，我们明确地对身体部分之间的双向依赖性进行建模，这些身体部分相互监督并且一起产生物理约束的和合理的3D姿态估计。• 我们为每个肢体关节引入一个姿势属性，描述关节从躯干的偏移通过多任务网络与2D姿态一起估计，姿态属性提供了关节位置的显式先验我们在包括Hu- man3.6M [11]和MPI-INF-3DHP [15]在内的基准上测试了我们的方法，并证明它始终取得了非常令人鼓舞的结果，表现出最先进的水平。此外，我们表明，即使在没有3D注释和姿态属性的地面真理，通过采用无监督域自适应方法，我们的方法可以很容易地应用到野外图像，并取得良好的性能。2. 相关工作我们在这里简要回顾了3D姿态估计方法的两个主流，一阶段方法和两阶段方法。第一阶段，然后看看显式地使用附加图像提示的方法。最后，我们概述了所提出的方法与以前的不同之处。一步到位。单阶段方法直接从输入图像中转换3D人体姿势。Tekin等人[32]训练一个自动编码器来学习高维空间中的潜在姿势Pavlakos等人[22]提出了一种三维关节的体积表示，并使用了一种由粗到细的策略来迭代地细化预测Rogez等人[27，28]使用ConvNets对适当姿势类中的每个图像进行Nie等[19]提出从全局和局部图像特征预测关节的深度。所有上述方法都需要具有对应的3D地面实况的图像。由于缺乏具有3D注释的野生图像，这些方法往往在具有域偏移的输入上产生不令人满意的结果为此，Zhouet al.[45]提出了一种弱监督的方法来利用大规模的野外2D姿态数据。Dabral等人[5]通过使用两个额外的损失来限制预测的3D姿势结构，改进了这种弱监督设置。Yang等[41]将3D姿态估计器视为生成器，并使用对抗学习方法来生成不可区分的3D姿态。Sun等人[31]使用软argmax直接从图像回归2D/3D姿势。尽管这种策略取得了成功，但这些方法的主要缺陷在于，当对象的高度与训练集中的高度显著不同时，它们往往会失败，因为它们固定了3D姿势的比例，以便从2D姿势和深度构建3D姿势。两阶段方法。另一种广泛使用的策略是将3D姿态估计任务分成两个解耦的子任务：2D姿态检测，随后是从2D姿态推断3D姿态。这些方法包括2D姿态检测器和后续优化[48，47，49]或回归[4，3，17，30，36，14，19，7，12]步骤，以估计3D姿态.在这些方法中，2D姿态和3D姿态估计阶段被分离，使得这些3D姿态估计器在室外图像上很好地通用。最直接的方法是将3D姿势表示为从训练数据中学习的模型的线性组合[48，47，49]。该方法基于字典学习，并且必须为每个示例运行优化，这使得训练和评估都非常耗时。具体而言，Chenet al. [4]和Yasinet al.[42]使用姿势库来检索给定相应的2D姿势预测的最近的3D姿势。最近，随着大规模3D姿态数据集的可用性，基于深度学习的2D到3D姿态回归方法取得了重大进展。例如，Moreno-Noguer [17]使用沙漏网络回归3D关节距离矩阵而不是3D姿势，因为7773他们发现距离矩阵表示法比笛卡尔距离矩阵表示法显示出更相关的模式，并且具有更小的模糊性。值得注意的是，Martinezet al. [14]使用具有残余块的简单多层反射器[9]直接从2D姿态回归3D姿态，实现了最先进的结果。Sun等人[30]重新参数化姿态表示以使用骨骼而不是关节，并提出了结构感知损失。Lee等提出了一种长短期记忆（LSTM）架构，通过学习关节的相互依赖性来重建从质心到边缘关节的3D深度然而，由于2D到3D映射是不适定问题，如果没有利用附加图像线索，则沿着这条线的方法在该流水线的第二阶段的2D到3D回归中容易产生歧义额外的图像提示。计算机视觉领域的发展使得从图像中学习各种图像线索成为可能[37，38，44，24]。Pons-Moll等人首先提出了姿态属性的概念。[23]第10段。在他们的工作中，他们提出了一组广泛的posebits，表示身体部位之间的布尔几何关系，并设计了一种算法来选择有用的posebits进行3D姿势推断。最近，许多研究人员已经研究了将2D姿态检测技术和CNN的能力相结合以从图像中提取补充信息来增强3D姿态估计的方法。Tekin等人[33]提出了一种具有可训练融合的双流网络，以融合2D热图和图像特征，以获得最终的3D姿态估计。Pavlakos等人[21]使用顺序深度注释增强了LSP和Zhou等[45]使用CNN来预测2D关节位置和相应的深度，然后将预测重新缩放到预定义的规范骨架。所有这些方法都试图从单个图像中学习深度信息。然而，图像本身是二维表示，不携带深度信息，这使得从图像中学习深度变得困难。此外，深度对相机参数（例如平移和旋转）高度敏感，使得人体关节的深度预测更加困难。我们的方法。通过明确地将身体部位分类为不同级别的自由度，这在先前的方法中已经在很大程度上被忽视，所提出的方法将较高自由度的部位视为较低自由度的部位的依赖部件，并且相反地，使用前者来约束后者。这种双向3D依赖性建模进一步通过专用的和新引入的姿态属性估计来促进，该姿态属性估计预测肢体关节相对于躯干的相对位置。3. 方法由于人体独特的生理结构，不同的身体部位具有不同的自由度水平看到为了消除这种差异，我们使用Human3.6M数据集[11]的地面真值来计算每个关节位置的标准差（STD），这为我们提供了关于关节运动范围的粗略描述我们在Tab中显示结果。1，其中，如预期的那样，包括手腕和脚踝的远端肢体关节具有最大的STD，其次是包括肘和膝的近端肢体关节。躯干上的关节，如脊柱和臀部，产生最小的性病。身体关节之间的这种DOF差异导致姿势估计方面的不同水平的挑战，并且进一步导致不同质量的估计结果，特别是通过平等对待所有部分的常规方法获得的那些估计结果。例如，如Tab. 6，[14]的方法对躯干上的关节和四肢上的近端关节产生更准确的预测，但对远端关节的预测较差。为此，我们将身体关节从低到高分为三个自由度级别：躯干、近端肢体关节和远端肢体关节。然后，我们显式地将较高自由度的关节建模为较容易估计的低自由度关节的依赖组件，并且反过来，强制前者对后者施加物理约束。为了帮助学习这种双向依赖性，我们引入姿势属性来测量肢体关节相对于躯干的相对位置，躯干是在大多数情况下可以可靠估计的身体部位。与基于回归的深度估计（其通常易于发生偏差）不同，所提出的姿势属性估计被认为是要求低得多的分类问题，其中仅有的三个标签（前、后和平面上）中的一个被分配给每个肢体关节。更具体地说，我们的3D姿态估计遵循两步策略，如图所示. 2.在第一步中，我们采用多任务网络来估计2D姿态和建议的姿态属性，这两者一起被馈送到另一个网络中，以在第二步中对3D姿态估计的双向依赖性进行建模这两个网络通过软argmax层连接[43，35，13，31]，因此网络训练是端到端的。在下文中，我们将提供有关这两个网络的更多详细信息。3.1. 多任务网络如所讨论的，多任务网络同时处理近年来，已经提出了许多用于2D姿态估计的网络架构，并且已经取得了令人鼓舞的结果[39，18，10，40，31]。在这里，我们采用最先进的髋关节脊柱胸椎肩头标准（mm）68.557.8109127140联合肘膝手腕脚踝Avg.标准（mm）195188240227150表1.每个关节的3D位置的标准差，使用Human3.6M训练集的地面实况注释获得。7774图2.我们的方法的网络架构。它由两个部分组成，一个是从图像中学习2D姿势和属性的多任务网络，另一个是渐进式3D姿势估计网络。多任务网络在MPII和Human3.6M数据集的混合上进行训练由于MPII中没有可用的3D注释，我们采用无监督域自适应方法[8]来帮助网络学习属性预测的域独立特征，以便网络可以在没有属性监督的情况下预测野外图像的合理属性（更多细节请参见第3.1.2节）。3D姿态网络将估计的2D姿态和姿态属性作为输入，并且明确地对不同DOF的三组身体部位之间的双向依赖性进行建模。最终的3D姿态估计是三个组预测的级联。堆叠沙漏骨干，在许多其他方法中完成[14，45，5，7，21，41]，是我们的多任务架构，以下的网络设计提出的Zhou等人。[45]第45段。由于姿态属性与关节的位置高度相关，并且预训练的2D姿态检测器可以充当可靠的关节特征提取器，因此在2D姿态检测器中重用特征图以简化姿态属性另一方面，它有助于训练具有良好的泛化能力的2D姿态检测器。另一方面，通过提供更好的图像特征，也有利于姿态属性学习子网络的训练。让我们使用Mn 来表示关节n的地面实况2D姿态热图，并使用Mn来表示预测的热图。用于2D姿态检测的损失函数被认为是学习3.1.1二维姿态检测1ΣL2D=NnMSE（Mn−Mn），（1）许多先前的3D姿态估计方法[14，7，12]在3D姿态数据集（如Human3.6M）上微调预训练的2D姿态检测器以获得姿态估计结果。由于3D姿态数据集中的图像是在具有多个对象的室内实验室环境中捕获的，因此与2D姿态数据集相比，图像背景、服装、肤色等的因此，模型的泛化能力可能在微调后恶化，限制了姿态检测器在真实世界图像上的应用。在这里，我们使用来自2D姿势和3D姿势数据集的混合图像从头开始训练2D姿势检测器在每个训练批次中，一半的示例从2D姿势训练数据集中随机采样，另一半从3D训练数据集中随机采样。通过这种策略，2D姿态检测器可以在2D和3D姿态数据集上实现高性能。换句话说，2D姿态检测器具有良好的通用化能力。此外，混合训练策略还有助于学习姿势属性，如实验所示（见表1）。4），可能是由于混合训练的网络可以学习更好的人类关键点特征。混合训练策略在我们的方法中是必不可少的。一其中N是接头的总数。3.1.2姿态属性学习为了简化三维肢体关节的学习和推理，我们引入姿态属性作为三维姿态估计的额外输入。引入这种属性的主要动机在于，我们的目标是将更多的视觉线索与2D估计的姿态一起编码到3D估计中;同时，这些视觉线索应该被可靠地估计。为此，我们将姿态属性作为肢体关节相对于躯干的相对位置的三级具体来说，我们将躯干平面定义为五个身体部位所在的平面：左、右肩、左、右髋和骨盆。在实践中，该平面使用正交距离回归进行回归，其中五个点到平面的欧几里得距离的总和被最小化。然后，我们计算所获得的躯干平面与四肢上的关节之间的欧几里得距离，包括左和右肘，左和右腕，左和右膝，左和右踝以及头部。基于导出的距离，预定义的阈值，以及第一区块L13DL2DL属性来自不同域的0/1L域L23Dblock-II回归模块10241024x23D姿态3D姿态Concatenate3D远端关节3D远端关节回归模块回归模块3D近端关节3D近端关节回归模块回归模块3D躯干3D躯干回归模块回归模块2D姿态属性领域分类器属性预测器梯度反转属性特征多任务网络7775Y关节所在的平面的一侧，我们为每个关节分配前、后和平面上三个标签中的一个。距离小于阈值的关节被视为在平面上。设p i表示关节i上的姿态属性的地面真实概率分布，并且设pi表示估计的概率分布。此外，令J={l-肘，l-腕，r-肘，r-腕，l-膝，l-踝，r-膝，r-踝，头}表示肢体关节的集合。我们的模型用一个网络同时预测所有九个属性采用交叉熵损失进行训练：3.2. 三维位姿估计网络3D姿态网络将估计的2D姿态和姿态属性作为输入，并且显式地对不同DOF的身体部位之间的双向依赖性进行建模以产生最终的3D姿态估计。通过将关节分为三组，躯干，包括头、肘和膝在内的近端肢体关节，以及包括腕和踝在内的远端肢体关节，我们允许高自由度组的位置依赖于低自由度组的位置变量，并且1L属性=Σ CrossEntrop y（pi，pi），（2）转，用前者约束后者。具体地，实现|J|i∈J哪里|J|表示J的基数。然而，当在没有3D注释的2D数据集上训练时，我们没有可用的属性监督。为了解决这个问题，我们将2D和3D训练样本视为来自不同领域的图像，并采用无监督的领域自适应方法[8]来帮助多任务网络生成用于属性预测的领域无关特征。分类器被训练为基于要馈送到属性预测器中的特征来区分输入的域，而多任务网络被训练为通过生成域-通过两块网络架构，如图所示。2.每个块从两个方向之一对身体部位依赖性进行建模。让我们将三个组中的3D关节位置表示为Y1、Y2和Y3。在块I中，使用基本回归分量G11（·;θ11），从由多任务网络学习的图像证据推断第一DOF组中的关节的位置Y11。预测重新-由于其较低的DOF，结果通常是合理的。的高自由度组中的Y_（12）和Y_（13）节理的位置，根据图像证据和它们的解算结果进行了估计依赖于较低自由度群体的预测。因此，对于第一区块，我们有，Y独立的特征。让我们用q表示域的真实概率分布，用q表示相应的预测，Y12=G12（X，Y11;θ12），Y（四）域分类器的损失函数被认为是L domain = CrossEntropy（q）.（三）具体来说，我们采用梯度反转层[8]来连接多任务网络和领域分类器。其中，X表示图像证据，Gij表示网络。在块i中重新生成组j的工作模块，θij表示G ij中的可学习参数。在块II中，我们强制导出的高自由度部分约束低自由度部分可能位于何处换句话说，这种依赖性是在与块I中的依赖性相反的方向上建模的。我们写在前向传播中，梯度反转层起作用作为一个身份函数，而在向后的一个，它多-21=G21（X，Y=12，Y=13;θ21），将梯度平铺−λ，其中λ >0。因此，多任务网络中的参数以预定时间更新Y22=G22（X，Y21，Y13;θ22），Y（五）这是一种增加域分类器损失的方法，这意味着CNN试图学习与域无关的特征。在理想情况下，领域分类器的准确率为50%，这意味着由多任务网络提取的属性特征在这个领域训练的属性预测器-其中，α gain、Yij、Gij和θij分别表示接收到的姿态位置、网络模块和可学习参数。块的最终3D姿态预测，即Y_s，是所有身体部位的连接损失函数独立的特征也是域独立的。实验，如表3所示。4、给力强被认为是，L3D=Σs∈{1，2}|.|.（六）支持上述域适配方法。在-贡预测器的准确度达到84. 0%，当使用这种域自适应方法，和82。在MPI-INF-3DHP数据集上的属性预测准确率为70。1%，而不使用来自该数据集的任何训练数据，这也证明了域适应方法的有效性。在这里，我们选择L1损失超过L2，因为前者在我们的实验中表现出一致的更好的性能。4. 实验在本节中，我们首先介绍我们使用的数据集和原型，然后提供我们的实现细节，7776协议#1直接.讨论吃迎接电话照片构成采购坐SittingD烟雾等WalkD走步行Avg.Tekin等人[34个]102.4147.288.8125.3118.0182.7112.4129.2138.9224.9118.4138.8126.355.165.8125.0Zhou等[48个]87.4109.387.1103.2116.2143.3106.999.8124.5199.2107.4118.1114.279.497.7113.0Du等人[6]美国85.1112.7104.9122.1139.1135.9105.9166.2117.5226.9120.0117.7137.499.3106.5126.5Zhou等[46个]91.8102.496.798.8113.4125.290.093.8132.2159.0107.094.4126.079.099.0107.3Chen等人[4]美国89.997.690.0107.9107.3139.293.6136.1133.1240.1106.7106.2114.187.090.6114.2Tome等人[36个]65.073.576.886.486.3110.768.974.8110.2173.985.085.886.371.473.188.4Rogez等人[28日]76.280.275.883.392.2105.779.071.7105.9127.188.083.786.664.984.087.7Pavlakos等人[22日]67.471.966.769.172.077.065.068.383.796.571.765.874.959.163.271.9Nie等[19个]90.188.285.795.6103.9103.092.490.4117.9136.498.594.490.686.089.597.5Tekin等人[33个]54.261.460.261.279.478.363.181.670.1107.369.370.374.351.874.369.7Zhou等[45个]54.860.758.271.462.065.553.855.675.2111.664.266.151.463.255.364.9Martinez等人[14个]51.856.258.159.069.578.455.258.174.094.662.359.165.149.552.462.9Sun等人[30个]52.854.854.254.361.867.253.153.671.786.761.553.461.647.153.459.1Fang等人[七]《中国日报》50.154.357.057.166.673.353.455.772.888.660.357.762.747.550.660.4Rhodin等人[26日]---------------66.8Yang等[41个]51.558.950.457.062.165.449.852.769.285.257.458.443.660.147.758.6Pavlakos等人[21日]48.554.454.452.059.465.349.952.965.871.156.652.960.944.747.856.2Lee等[12个]43.851.748.853.152.274.952.744.656.974.356.766.468.447.545.655.8Dabral等人[五]《中国日报》46.953.847.052.856.963.645.248.268.094.055.751.655.440.344.355.5Rogez等人[29日]50.955.963.356.065.170.752.151.981.190.764.754.661.144.753.761.2我们44.748.947.049.056.467.748.747.063.078.151.150.154.540.143.052.6协议#2直接.讨论吃迎接电话照片构成采购坐SittingD烟雾等WalkD走步行Avg阿赫特·布莱克[1]199.2177.6161.8197.8176.2186.5195.4167.3160.7173.7177.8181.9176.2198.6192.7181.1Ramakrishna等人[25日]137.4149.3141.6154.3157.7158.9141.8158.1168.6175.6160.4161.7150.0174.8150.2157.3Zhou等[47个]99.795.887.9116.8108.3107.393.595.3109.1137.5106.0102.2106.5110.4115.2106.7Bogo等人[3]第一章62.060.267.876.592.177.073.075.3100.3137.383.477.386.879.787.782.3[17]第十七话66.161.784.573.765.267.260.967.3103.574.692.669.671.578.073.274.0Pavlakos等人[22日]47.550.548.349.350.755.246.148.061.178.151.148.352.941.546.451.9Martinez等人[14个]39.543.246.447.051.056.041.440.656.559.449.245.049.538.043.147.7Fang等人[七]《中国日报》38.241.743.744.948.555.340.238.254.564.447.244.347.336.741.745.7Pavlakos等人[21日]34.739.841.838.642.547.538.036.650.756.842.639.643.932.136.541.8Lee等[12个]38.039.146.344.449.055.140.241.153.268.951.039.156.433.938.546.2Dabral等人[五]《中国日报》32.836.842.538.542.449.035.434.353.666.246.534.142.330.039.742.2我们33.638.137.638.543.448.836.035.751.163.141.038.640.930.334.140.7表2.方案#1和#2下关于Human3.6M的详细结果表中记录的所有数字均指每个关节的平均值位置误差（MPJPE），单位为毫米。所有方法的结果都取自原始论文。就结果的平均值而言，我们的方法优于所有以前的最先进的方法。接下来显示定量和定性结果以及消融研究。更多的结果可以在我们的补充材料中找到。4.1. 数据集和协议我们在以下三个流行的人体姿势基准上评估我们的方法。人3.6M[11]。它包含360万张图像以及在室内环境中捕获的相应2D姿势和3D姿势注释，具有7个主题，执行15项日常活动，如我们遵循Human3.6M的标准方案，使用S1、S5、S6、S7和S8进行训练，使用S9和S11进行评估。评估度量是在对准根关节的深度之后，在所有相机和关节上的地面实况与预测之间的以毫米为单位的平均每关节位置误差（MPJPE）。我们称之为协议#1。在一些作品中，预测通过刚性变换与地面实况进一步对齐。我们称之为协议#2。在[48，22，45，21]之后，我们将原始视频从50fps下采样到10fps以消除冗余。我们使用所有相机视图，并为所有活动训练单个模型。MPII[2]。它是使用最广泛的2D基准人体姿态估计它包含从YouTube视频中收集的25K野外图像，涵盖了广泛的活动。它提供2D注释，但没有3D地面实况。因此，直接从图像到3D的训练并不是这个数据集的实际我们采用该数据集进行多任务网络的训练和测试，并对我们的3D姿态估计方法进行MPI-INF-3DHP[15].它是由Mocap系统构造的具有受限室内场景和复杂室外场景的3D姿态数据集。我们只使用这个数据集的测试分裂，其中包含2929帧，从六个主题执行七个动作，定量和定性地评估概括能力。4.2. 实现细节我们的方法是使用PyTorch实现的[20]。我们网络的训练过程包括三个步骤：训练多任务网络，训练逐步回归网络，并将它们连接和微调。对于第一步，多任务网络被训练60个epoch。学习率设置为5×10−4，批量大小为12。对于第二步骤，在预测的2D关键点位置和60个时期的地面实况姿态属性上训练3D姿态回归网络。学习率设置7777模型头昭Elb.Wri.髋膝谢谢 Avg.Hg96.395.089.084.587.182.578.387.6[41个]96.195.689.984.687.984.381.288.6我们94.794.090.888.784.983.083.488.5表3. MPII验证集上的PCKh@0.5评分。接头按双侧对称性（脚踝、手腕等）分组HG表示预训练的沙漏模型[18]。我们的多任务网络的2D姿态检测性能非常接近[41]，而我们的3D结果要好得多（见表1）。2、Tab。（五）。到2. 5×10−4，批量为64。对于最后一步，多任务网络和3D姿态网络与软argmax层连接，并微调40个epoch。学习率设置为1。0×10−4，批量大小为64。第一步和第三步是在MPII和Human3.6M数据集的混合上训练的。训练样本以相等的概率从两个数据集中随机量表（1± 0. 2）和随机颜色抖动（1±0. （2）用于两个数据集。对于MPII数据集，还使用随机旋转（±30°）和随机水平翻转。RMSprop优化器用于所有训练步骤。整个训练过程在两个Tesla V100 GPU上大约需要2天，每个GPU都有16G内存。4.3. 定量结果在下文中，我们展示了2D姿态估计、属性预测、3D姿态估计、定性结果和消融研究的定量结果。4.3.1MPII上的2D姿态估计结果已知2D姿态检测的准确性对于3D估计是至关重要的[14]。虽然我们的2D检测器是在MPII和Human3.6m数据集的混合上训练的，但我们的模型在MPII验证分割上的PCKh@0.5得分非常接近以前的工作[41]（见表1）。（3）第三章。这表明，性能的提高并不依赖于一个非常训练有素的2D检测器。4.3.2属性预测在本节中，我们进行实验，以找出学习属性的最佳训练策略。有三种候选训练策略，仅在Human3.6M上训练，在MPII和Human3.6M的混合物上训练，以及在具有域适应（DA）的混合物上训练。从Tab。4.可以看出，混合训练策略可以显著提高属性预测精度.在领域自适应的帮助下，属性预测得到进一步改善。值得注意的是，我们的属性预测器在 MPI-INF-3DHP数据集上也运行良好，而无需使用该数据集的任何示例进行训练，这表明我们的多任务网络成功地学会了在域之间进行转移。表4. Hu- man3.6M（H36 M）和MPI-INF-3DHP（MPI 3D）数据集上属性预测的准确性。H36m代表仅使用Human3.6M进行训练，mix代表使用Human3.6M和MPII的混合，DA代表使用第3.1.2节中讨论的域自适应方法。未将MPI-INF-3DHP的培训数据用于培训。[第十五条][45个][21日][41个]我们3DPCK64.769.271.969.071.9AUC31.732.535.332.035.8表5. MPI-INF-3DHP数据集上的3DPCK和AUC。所有方法的结果都取自原始论文。此数据集中的训练数据未用于训练。4.3.3Human3.6M上的3D姿态估计结果我们使用Human3.6M上两个最流行的原程序（见第4.1节）来评估我们的方法。我们的方法和以前的最先进的方法的详细结果列在表中。二、我们的方法优于以前的方法，ODS，在所有的行动的平均结果。4.3.4MPI-INF-3DHP上的3D姿态估计结果我们在另一个看不见的3D人体姿势数据集MPI-INF-3DHP [15]上评估我们的方法，以测试跨域生成能力。我们遵循[15，16，45，41，21]使用3DPCK和AUC作为评估指标。与以前方法的比较见表1。5.我们的方法在这个看不见的数据集上优于先前的方法，证明了我们的方法对域偏移的鲁棒性。4.4. 定性结果在图3中，我们显示了我们的方法在Human3.6M上的几个3D姿态预测的可视化。正如我们可以观察到的，我们的结果在视觉上非常接近地面实况，并且比第4.5节中讨论的基线方法要好得多此外，在Fig.4.通过对MPII和MPI-INF-3DHP等场景图像的定性分析，证明了该方法对区域偏移的鲁棒性。4.5. 消融研究为了分析每个组件的有效性，我们根据方案1对Human3.6M进行了消融研究。每个关节误差的平均值报告在表中。六、符号定义如下：数据集方法头Elb.Wri.膝谢谢 Avg.h36m75.777.280.682.077.978.6H36M混合79.280.987.584.082.182.7混合+DA79.482.688.485.983.684.0h36m47.548.458.759.641.451.1MPI3D混合74.667.172.569.255.367.7混合+DA73.165.071.179.761.870.17778（一）（b）第（1）款（c）第（1）款图像基线我们的GT图像基线我们的GT（（（（（（图3.H3.6M的定性结果我们对肢体的预测明显优于4.5节定义的基线联合髋脊柱胸部肩膀头[14个]20.737.642.556.565.3（d）其他事项（e）（f）第（1）款基线20.938.343.056.465.0进步21.437.942.856.063.6渐进+属性20.436.840.652.258.4图4.具有域转移的数据集上的定性结果。前两列来自MPII，最后一列来自MPI-INF- 3DHP。关节肘膝腕踝平均值• 基准是指采用相同的方法，进步78.455.794.280.156.9我们的网络架构，但没有建模双-渐进+属性71.351.087.674.752.6身体各部分之间的方向依赖关系，以及-输出姿势属性作为输入。换句话说，我们只做模特，表6. [14]的预测误差和我们的模型通过关闭一些模块。Y n =G n（X;θ n）n∈ {1，2，3}。（七）• 渐进式是指双向方法，如第3.2节中所介绍的，但没有姿势属性作为输入。• 属性是指使用预测的姿态属性来估计3D姿态。我们还重新实现了[14]中的方法以进行比较。我们的实现实际上产生的结果略好于那些在原来的文件。虽然基线模型和渐进模型的参数数量几乎相同，但后者的性能明显优于前者。从这个对比实验中，我们可以看到，双向模型确实是有效的三维姿态估计。所提出的属性进一步提高了性能，特别是在关节的姿态属性定义，证明了所提出的姿态属性的有效性。5. 结论在本文中，我们提出了一个两步的三维姿态估计方法，显式模型的双向依赖，不同自由度的身体部位之间的差异。在第一步中，我们采用了一个多任务网络，共同估计的2D姿态和姿态属性为每个肢体关节，一个三类分类，描绘关节和躯干平面之间的相对位置。与更具挑战性的基于回归的深度估计不同，姿势属性提供了关节位置的可靠但信息丰富的先验然后将2D姿态和属性的预测馈送到3D姿态估计网络，其中较高DOF部分被显式地建模为较低DOF部分的因变量通过这种方式，不同自由度的身体部位相互监督和受益，共同产生了令人鼓舞的结果，在标准基准上超过了最先进的水平。确认这项研究得到了澳大利亚研究委员会项目 FL-170100117和DP-180103424的支持。J. W.获国家留学基金委资助项目#201603170329。[14个]81.658.7100.384.859.4基线80.656.498.581.958.37779引用[1] Ijaz Akhter和Michael J Black。三维人体姿态重建的姿态条件关节角度限制。IEEE计算机视觉与模式识别会议论文集，2015年。[2] Mykhaylo Andriluka，Leonid Pishchulin，Peter Gehler，and Bernt Schiele. 2D人体姿态估计：新的基准和最先进的分析。在2014年IEEE计算机视觉和模式识别会议论文集[3] Federica Bogo、Angjoo Kanazawa、Christoph Lassner、Peter Gehler、Javier Romero和Michael J Black。保持它smpl：由单一影像自动估计三维人体位姿与形状。2016年欧洲计算机视觉会议。[4] 陈景航和德瓦·拉曼南。3D人体姿态估计= 2D姿态估计+匹配。在IEEE计算机视觉和模式识别会议论文集，2017年。[5] Rishabh Dabral、 Anurag Mundhada 、 Uday Kusupati、Safeer Afaque、Abhishek Sharma和Arjun Jain。从结构和运动学习三维人体姿势。在欧洲计算机视觉会议上，2018年。[6] Yu Du，Yongkang Wong，Yonghao Liu，Feilin Han，Yilin Gui ， Zhen Wa

下载后可阅读完整内容，剩余1页未读，立即下载