基于结构和运动学习的3D人体姿态估计方法及其应用

193 浏览量更新于2023-10-13 收藏 1.52MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

从结构和运动学习三维人体姿态Rishabh Dabral1、Anurag Mundhada1、Uday Kusupati1、Safeer Afaque1、Abhishek Sharma2和Arjun Jain11印度理工学院孟买{rdabral@cse，anuragmundhada@，udaykusupati@，ajain@cse}.iitb.ac.in2 Gobasco AI Labsabhsharayiya@gmail.com抽象。从单个图像估计3D人体姿势是一个具有挑战性的问题，特别是对于由于缺乏3D注释数据而处于野外的环境。我们提出了两个受解剖学启发的损失函数，并将它们与弱监督学习框架一起使用，以从大规模的野外2D和室内/合成3D数据中共同学习。我们还提出了一个简单的时间网络，利用预测的姿势序列中存在的时间和结构线索，以暂时porally协调的姿势估计。通过损失面可视化和灵敏度分析，对提出的贡献进行了细致的分析，以便于更深入地了解其工作机理。这两个网络共同捕获人体静态和动态的解剖学约束。我们完整的流水线在Hu-man 3. 6 M和MPI-INF-3DHP上分别提高了11.8%和12%，并在商品显卡上以30 FPS运行1介绍从单目图像和视频中准确地估计3D人体姿态是解锁机器人、人机交互、监视、模拟和虚拟现实中的若干应用的关键。这些应用需要在服装、照明、视点、自遮挡、活动、背景杂波等具有挑战性的变化下从单目图像或视频进行准确且实时的3D姿态估计。[33、32]。随着深度学习，计算硬件以及最重要的大规模真实世界数据集（ImageNet [31]，MS COCO [20]，CityScapes [10]等）的最新进展，计算机视觉系统在性能上已经有了显著的改进人体姿态估计也受益于合成和真实世界数据集，例如MS COCO [20]，MPII Pose [3]，Human3.6M [14，6]，MPI-INF-3DHP [22]和SUR-2010。真实[37]。特别是，由于大规模的野外数据集[20，3]，2D姿态预测已经取得了巨大的进步然而，3D姿态估计仍然是具有挑战性的，由于严重的约束性质的问题和缺乏任何真实世界的3D注释数据集。大量现有技术要么直接回归3D关节坐标[17，18，34]，要么以两阶段方法从2D关节位置推断3D [22，24，19，43，41]。这些方法在合成3D基准数据集上表现良好，但缺乏泛化能力2由于缺乏3D注释的野外数据集，因此无法与真实世界的设置相匹配。为了解决这个问题，一些方法使用合成数据集[9，37]、绿屏合成[22，23]、域自适应[9]、来自中间2D姿态估计任务的迁移学习[22，17]以及来自2D和3D数据的联合学习[41，34]。值得注意的是，由于大规模的真实世界2D数据集，使用2D和3D数据的联合学习在野外表现出了良好的性能。我们寻求动机，从最近出版的联合学习框架周等人。[41]并提出了一种新的结构感知损失函数，以便于使用2D和3D数据训练Deep ConvNet架构，从而从单个RGB图像准确预测3D姿态。所提出的损失函数适用于训练期间的2D图像，并确保预测的3D姿态不违反解剖约束，即人体的关节角度限制和左右对称。我们还提出了一个简单的可学习的时间姿态模型，从视频的姿态估计。由此产生的系统是能够共同利用人体的静态和动态状态中明显的结构线索。我们提出的结构感知损失的灵感来自于管理人体结构和运动的解剖学约束。我们利用了这样一个事实，即某些身体关节不能弯曲超过一个角度范围;例如膝（肘）关节不能向前（向后）弯曲。我们还利用人体的左右对称性，并惩罚相应的左右骨长度不相等的对。最后，我们还使用来自[41]的骨长度比先验，其强制某些骨长度对是恒定的。重要的是要注意，非法角度和左右对称约束是互补的骨长度比先验，我们表明，他们表现得更好。我们提出了可视化的损失表面的建议损失，以便于更深入地了解他们的工作。上述三个结构损失用于训练我们的结构感知PoseNet。关节角度限制和左右对称性以前已经以优化函数的形式使用[1，13，4]。据我们所知，我们是第一个利用这两个约束的人，以可区分和易处理的损失函数的形式，直接训练ConvNets在Human3.6M和MPI-INF-3DHP上，我们的我们进一步建议学习时间运动模型，以利用来自视频的连续帧的线索来获得解剖学上连贯且平滑变化的姿势，同时保持不同活动的真实感我们表明，一个移动窗口完全连接的网络，采取前N个姿势执行非常好的时间以及解剖线索从姿势序列。在精心设计的对照实验的帮助下，我们展示了模型学习的时间和解剖学线索，我们报告了一个额外的7%的改进Human3.6M与使用我们的时间模型，并证明实时perfor-曼斯在30 fps的完整管道。我们的最终模型分别将Human3.6M [14]和MPI-INF-3DHP [22]上发表的最新技术水平提高了11.8%和12%2相关工作本节从三个角度简要总结了与人体姿态估计相关的过去工作：（1）ConvNet架构和训练策略，（2）利用3人体的结构约束，以及（3）来自视频的3D姿态估计。读者可参考[32]以了解文献的详细综述。ConvNet架构：大多数现有的基于ConvNet的方法直接从输入图像回归3D姿态[34，17，42，43]或以两阶段方法从2D姿态推断3D [35，41，23，24，19]。一些方法利用体积热图[27]，一些方法使用骨骼而不是关节定义姿势[34]，而[23]中的方法直接回归3D位置图。2D到3D流水线的使用使得能够使用大规模的野外2D姿势数据集进行训练[3，20]。一些方法使用统计先验[43，1]将2D姿势提升到3D。Chen等人[7] Yasin et al.[40]使用姿势库以在给定对应的2D姿态预测的情况下检索最近的3D姿态最近的基于ConvNet的方法[23，30，41，34，43，27]已经报告了通过预训练或联合训练其2D预测模块在现实世界中的实质性改进，但它仍然是一个开放的问题。利用结构信息：人体骨骼的结构受到固定骨骼长度、关节角度限制和肢体穿透约束的约束。一些方法使用这些约束来从2D关节位置推断3D。Akhter和Black[1]通过优化问题学习姿势相关的关节角度限制，用于将2D姿势提升到3D。Ramakrishna等人[28]以活动相关的方式求解人体测量约束。最近，Moreno [24]提出使用简单的神经网络架构从2D关节间距离矩阵估计3D关节间距离矩阵。这些方法不利用图像中存在的丰富视觉线索，并且依赖于导致次优结果的预测的2D姿态。Sun等人。[34]重新参数化姿势表示，以使用骨骼而不是关节，并提出结构感知损失。但是，他们没有明确地寻求惩罚在没有3D地面实况数据的情况下推断的3D姿态的可行性。Zhou等人。[41]介绍了一种弱监督框架，用于在几何损失函数的帮助下使用2D和3D数据进行联合训练，以利用人体骨骼长度比的一致性。我们在关节角度限制和基于左右对称性的损失函数的帮助下进一步加强了这种弱监督设置，以获得更好的训练。最后，存在经由网格拟合策略从2D图像恢复形状和姿态两者的方法。Bogo等人[4]在其目标函数中惩罚身体部位相互渗透和非法关节角度，以找到基于SMPL [21]的形状和姿势参数。这些方法由于其计算要求而在本质上大多是离线的，而我们的方法以30fps运行。利用时间信息：从不连贯的图像直接估计3D姿态导致具有可见抖动和变化的骨骼长度的时间不相干输出。可以通过使用简单的滤波器或时间先验来改进来自视频的3D姿态估计。梅塔等人[23]提出了一种实时方法，其在使用ConvNet生成3D姿态建议之后在优化步骤中惩罚加速度他们还使用针对交互系统优化的可调低通滤波器[5]来平滑输出姿势。Zhou等人。[43]在其时间优化步骤中引入了一阶平滑先验。Alldieck等人[2]利用2D光流特征从视频预测3D姿态Wei等人[38]利用基于物理的约束来在视频关键帧之间真实地内插3D运动。也有人尝试学习运动模型。Urtasun等人[36]学习活动特定运动优先级4我或使用线性模型，而Park et al.[26]使用运动库来找到给定一组2D姿势预测的最近运动，然后进行迭代微调。运动模型是特定于活动的，而我们的方法是通用的。最近，Lin et al.[19]使用递归神经网络从其基于ConvNet的架构的中间特征中学习时间依赖性。在类似的尝试中，Coskun et al.[11]使用LSTM来设计学习人体运动模型的卡尔曼滤波器。与上述方法相比，我们的时间模型是简单的，但有效地捕获过去姿势的短期相互作用，并以节奏和解剖学一致的方式预测当前帧的姿势它是通用的，不需要针对特定活动的设置进行培训。我们表明，它学习复杂的，非线性的相互联合的依赖性随着时间的推移;例如，它学会基于肘关节和肩关节的过去运动来细化手腕位置，对于手腕位置，跟踪是最不准确的。3背景和注释本节介绍本文中使用的符号，并提供有关Zhou等人的弱监督框架的必要细节。[41]用于从2D和3D数据进行联合学习。3D人体姿势P ={pi，p2，. . . ，p k}由k = 16个身体关节在欧几里得空间中的位置定义。这些关节位置是相对于根关节定义的，根被固定为骨盆。到姿态估计系统的输入可以是单个RGB图像或RGB图像的连续流I = I。 . . ，I i−1，I i}. 第i个关节pi为关节在3D欧几里得空间中的坐标，即pi=（px，py，pz）。在整个我我我本文推断的变量用~*表示，地面实况用因此，一个推断的关节将被表示为p~，地面真实值被表示为p。2D姿态可以仅用x，y坐标来表示，并且表示为pxy=（px，py）;仅深度关节位置表示为pz=（pz）。的第i个训练数据3D注释数据集由图像I i和3D中的对应关节位置Pi组成。另一方面，2D数据仅具有2D关节位置Pxy。手持这些符号，下面我们描述来自[41]的用于联合学习的弱监督框架由于缺乏野外3D数据，使用受控或合成3D数据学习的姿态估计系统不能很好地推广到野外设置。因此，Zhou et al.[41]提出了一种弱监督框架，用于从2D和3D注释数据中进行联合学习。联合学习利用3D数据进行深度预测，并利用野外2D数据更好地推广到真实世界场景。该框架的总体示意图如图1B所示1.一、它建立在用于2D姿态估计的堆叠沙漏架构[25]的基础上，并在其上添加深度回归子网络。经训练后的hourglass在图像坐标中输出2D关节位置，使用预测和地面实况关节位置热图之间的标准欧几里得损失，更多细节请参见[25深度回归子网络是一系列的四个残差模块[12]，后面是一个完全连接的层，它采用了来自堆叠沙漏并输出每个关节的深度，即P~z。使用标准欧几里德损失Le（P~z，Pz）用于3D注释的数据样本。另一方面，一个薄弱--监督流于形式53D2个DFig. 1. 网络架构示意图。堆叠沙漏模块使用标准欧几里得损失L_HM针对地面实况热图进行训练。而深度回归模块在Lz或或Lz取决于地面实况深度Pz是否为可用或不可用。的几何损失函数，Lg（P〜 z，P（xy），用于用仅2D注释的数据样本进行训练几何损失充当正则化器并且惩罚违反骨骼长度比先验的一致性请注意在Lg中使用具有推断深度P〜z的地面实况xy坐标Pxy，以使训练简单。几何损失充当用于联合训练的有效正则化器，并且在受控和野外测试条件下提高了3D姿态估计的准确性，但它忽略了人体的某些其他强在下一节中，我们建立在所讨论的弱监督框架的基础上，并提出了一种新的结构感知损失，它捕获了更丰富的解剖约束，并提供了比几何损失更强的弱监督正则化。4该方法本节介绍了两个新的解剖损失函数，并展示了如何在弱监督设置中使用接下来，提出的动机和推导建议的损失和损失表面的分析，以促进更深入的理解，并强调从以前的方法的差异。最后，提出了一种可学习的时间运动模型，并通过精心设计的控制实验对其进行了详细的分析。图图2显示了我们用于3D姿态估计的完整流水线它包括1. 结构感知PoseNet或SAP-Net：基于单帧的3D姿态估计系统，其获取单个RGB图像Ii并输出推断的3D姿态P-i。2. 时间PoseNet或TP-Net：学习的时间运动模型，其可以采用推断的3D姿态的连续序列。 . . ，Pi−2，Pi−1}，并输出节奏协调的3D姿态Pi。3. 骨架拟合：可选地，如果受试者的实际骨架信息也可用，则我们可以执行简单的骨架拟合步骤，其保留骨向量的方向。6图二. 我们的方法的总体流程：我们顺序地将视频帧传递到产生3D姿势输出的ConvNet（一次一个）。接下来，通过将过去N个帧的上下文连同当前帧一起传递到时间模型来在时间上细化预测。最后，骨架拟合可以根据应用要求作为可选步骤来执行。4.1结构感知PoseNet或SAP-NetSAP-Net使用图1所示的网络架构2.这是从[41]中提取的这种网络选择允许以弱监督方式对2D和3D数据进行联合学习，如第3节所述。3D注释的数据样本提供强监督信号，并将推断的深度驱动到唯一的解。另一方面，弱监督以解剖约束的形式对无效解施加惩罚，从而限制解集。因此，约束集合越强且越全面，解集合越小且越好。我们从上面的讨论中寻找动机，并建议使用来自关节角度限制和人体左右对称性的损失函数以及骨长度比先验[41]进行弱监督。总之，这三个约束比仅先前的骨长度比更强，并且导致更好的3D姿势配置。例如，如果未违反骨长比，则骨长比先验将认为向后弯曲的肘部有效，但关节角度限制将使其无效。类似地，对称性损失消除了在推断的姿态中具有不对称的左右半部的配置接下来，我们描述并推导出所提出的约束条件的可微损失函数非法角度损失（La）：大多数身体关节被约束为仅在特定角度限制内移动。我们的非法角度损失La封装了膝关节和肘关节的此约束，并限制其弯曲超过180◦。对于给定的2D姿态Pxy，存在多个可能的3D姿态，并且La惩罚违反膝关节或肘关节角度限制的3D姿态。为了利用这些约束，一些方法 [13、1、8]使用不可微函数来推断姿势的合法性。不幸的是，不可微性限制了它们在训练神经网络中的直接使用。其他方法采用旋转矩阵或四元数表示姿态，以施加关节角度限制[1，38]，这提供了可微性，但难以使用野外2D数据（MPII）。因此，当用关节位置表示姿势时，这种公式是不平凡的，这是ConvNets更自然的表示7图3.第三章。非法角度损失的说明：对于合法的肘关节角度，下臂必须沿nr（垂直于锁骨-上臂平面）投影正分量，即 nr·vwe ≥0。S s请注意，我们只需要2D注释数据来使用此公式训练我们的模型我们的新配方非法角度发现解决了在区分内部和外部的角度的一个关节的3D关节位置为基础的姿势表示的模糊性使用我们的公式并记住我们的可微性的要求，我们制定La直接用作损失函数。我们说明我们的配方与图的帮助3、并说明其推导为对肘关节下标n、s、e、w、k依次表示颈、肩、肘、腕和膝关节，并且上标l和r分别表示左身体侧和右身体侧我们定义vr=Pr−Pn，vr=Pr−Pr和vr=Pr−Pr作为锁骨，SNsESES我们上臂和下臂，分别（见图）。（3）第三章。现在nr=vr×vr是s sn es垂直于由锁骨和上臂限定的平面的肘关节为了合法，vr必须在nr的方向上具有正分量，即nr·vr我们是我们必须是积极的。我们不会招致任何处罚时，联合角度是合法的，并定义Er= min（nr·vr，0）作为不可信性的度量。注意，这个案例是相反的我们对于右膝和左肘关节（如右手定则所示），并要求Er和El为阳性的非法情况。我们对E取幂以强烈惩罚Ke超出合法性的巨大偏差。La现在可以被定义为：r−Erl Elr Erl−ElLa= −Eeee+Eeee+Ekek−Ekek（1）损失中的所有项是骨向量的函数，骨向量又根据推断的姿势来定义。因此，La是可微的。请参阅补充材料了解更多详情。对称性损失（LS）：它很简单，但严重约束关节深度，特别是当推断的深度由于遮挡而模糊时Ls被定义为左/右骨对的长度差。设B是除躯干和头部骨骼外的右半部身体上的所有骨骼的集合。此外，令BLb表示骨骼b的骨骼长度。我们将L定义为Ls= Σb∈B||BL b− BL C（b）||第二章其中C（. ）表示相应的左侧骨骼。8SASASA最后，我们的结构感知损失Lz定义为非法角度损失Lz，对称损失Lz和几何损失Lz，来自[41]-a s gz（P~z，P（xy））=λaLa（P~z，P（xy））+λsLs（P~z，P（xy））+λgLg（P~z，P（xy））（3）损失表面可视化：在这里，我们采取的帮助下，当地的损失表面可视化，以了解如何提出的损失是推动无效的配置向其有效的同行。为了获得损失表面，我们采取随机姿势P并且在XZ网格上改变左肘部的（xle，zle）坐标，同时保持所有其他关节位置固定。然后，我们评估Lz在XZ中的不同（x，z）网格，以获得损失，这是绘制为表面图。4.第一章我们绘制损失面仅2D-位置损失、2D-位置+对称损失、2D-位置+对称+非法角度损失和基于3D-注释的欧几里德损失来示出损失表面在不同解剖约束下的演变。从图中可以清楚地看出，对称损失和非法角度损失都使损失表面变形，以便于远离非法接头配置。见图4。损耗表面演变图（a）至（d）示出了（a）2D位置损耗的局部损耗表面。(b)（c）2D位置+对称性+非法角度损失和（d）全3D注释欧几里德损失。图上突出显示的点（1）、（2）和⑶是（f）、（g）和（h）中所示的相应3D姿态，其中⑶是地面实况深度。非法角度惩罚增加了姿势（1）的损失，该姿势使肘部向后弯曲姿势（2）具有合法的关节角度，但失去了对称性。（3）正确。我们可以看到，在没有角度损失的情况下，（1）和（3）处的损失是相等的，并且我们无法区分这两点。4.2时态PoseNet或TP-Net在本节中，我们建议学习一个时间姿态模型，称为Temporal PoseNet，以利用视频序列中存在的时间一致性和运动线索。给定来自SAP-Net的独立姿态估计，我们寻求利用来自一组相邻姿态估计Padj的信息来改进对所需姿态P的推断。L9图五. （a）对于从t =0到t =-19，输出姿态相对于TP-Net的输入姿态的扰动的灵敏度的变化。(b)从t=0帧处的姿势输入学习强结构相关性。(c)过去的框架显示出更小但更复杂的结构相关性。自相关性（对角线元素）大一个数量级，并且色图范围已被限制以更好地显示。我们建议使用一个简单的两层，4096个隐藏神经元，具有ReLU非线性的全连接网络，它将固定数量N = 20的相邻姿势作为输入，并输出所需的姿势P¯。相邻的姿态向量被简单地展平和连接，以便形成进入TP-Net的单个向量，并且使用来自地面真实姿态的标准L2损失对其进行训练尽管本质上非常简单，但我们证明它优于更复杂的变体，如RNN，见表4。为什么？为什么？我们认为，这是因为随着时间窗口的增加，复杂的人体运动可能会发生越来越多的变化，这可能会使来自太远时间的额外信息变得无用或至少难以利用。因此，具有有限上下文的密集网络可以有效地捕获有用的一致性和运动线索。为了可视化TP-Net所利用的时间和结构信息，我们进行了一个简单的敏感性分析，其中我们随机扰动Pt的联合位置，即从TP-NetP¯的输出开始的t个时间步长，并绘制出图中所有关节的时间步长t=−1至t=−19的灵敏度第五条（a）款。我们可以观察到，超过5个时间步长（或200ms时间窗口）的姿态对预测姿态没有太大影响。同样，图5am（b）显示了模型的结构相关性在当前帧内学习。TP-Net学习依靠臀部和肩部的位置来优化几乎所有其他关节。我们还可以观察到子关节与父关节相关，例如。腕部与肘部密切相关，肩部与颈部密切相关。图5（c）示出了在t=-1时对输入姿态的灵敏度。在这里，从过去学到的相关性很弱，但表现出更丰富的模式。子关节的灵敏度进一步向上延伸到运动链中，例如。对于t= -1帧，手腕显示出与肘、肩和颈的更高的相关性。因此，我们可以安全地得出结论，TP-Net学习复杂的结构和运动线索，尽管本质上如此简单。我们希望这一发现将有助于未来在这一方向的研究。由于TP-Net将固定数量的相邻姿势作为输入，因此我们可以选择在所需姿势之前采用所有相邻姿势，称为在线设置，或者我们可以选择在所需姿势的任一侧具有N/2= 10个相邻姿势，称为半在线设置。由于我们的整个管道运行在30fps，即使是半在线设置10将仅以10fps的延迟运行。从图5中，我们观察到TP-Net可以随着时间的推移学习复杂的非线性关节间依赖关系-例如。它学习基于肘关节和肩关节的过去运动来细化手腕位置，对于手腕位置，跟踪是最不准确的4.3培训和实施详情在训练SAP-Net时，来自MPII 2D的2D样本和来自任一3D数据集的3D样本在每次迭代中以相等的比例消耗，小批量大小为6。在第一阶段，我们通过使用SGD在MPII和Human3.6上预训练SAP-Net的沙漏模块来获得强大的2D姿态估计网络，如[25]所示。具有弱监督损失的训练需要热启动[44]，因此，在第二阶段中，我们仅用3D注释的数据样本训练3D深度模块进行240k次迭代，使得它学会在打开弱监督损失之前输出合理的姿势监管在第三阶段，我们用Lg和La训练SAP-Net，进行160 k次迭代，其中λ a=0。03，λ g= 0. 03学习率为2。5e-4。最后，在第四阶段，我们引入对称性损失L∫，λ s= 0。05和学习率2。5e−5。TP-Net使用Adam优化器[16]训练30个时期，使用姿势预测。由经过充分训练的SAP-Net生成。在我们的实验中，我们发现N=20个帧的上下文产生对MPJPE的最佳改进（图1）。5）我们在所有的实验中都使用它。使用一个NVIDIA 1080 Ti GPU训练SAP-Net大约需要两天时间，训练TP-Net大约需要一个小时SAP-Net的平均测试时间为每个图像20ms，而TP-Net增加的延迟可以忽略不计（1 ms）。5实验在本节中，我们介绍了消融研究、Human3.6M和MPI-INF-3DHP数据集的定量结果以及与先前技术的比较，以及MPII 2D和MS COCO数据集的定性结果。我们首先描述我们实验中使用的数据集。Human3.6M有11个主题执行不同的室内动作，使用基于标记的MoCap系统捕获地面实况注释。我们遵循[35]并在1）协议1下评估我们的结果，协议1使用每关节位置误差平均值（MPJPE）作为评估度量w.r.t.根相对姿势和2）使用Procrustes的协议2对准的MPJPE（PAMPJPE），其是在预测的姿态与地面实况刚性对准之后计算的MPJPE。通常，我们每隔五帧评估结果MPI-INF-3DHP（测试）数据集是最近发布的具有不同室内设置（绿屏和正常背景）的6个测试对象和在野外执行的2个对象的数据集，这使得它比Human3.6M更具挑战性，Human3.6M仅具有一个单独的室内环境。我们遵循[22]中提出的评估指标，并报告150mm范围内的正确关键点百分比（PCK）和曲线下面积（AUC）。与[41]类似，我们假设全局尺度是已知的，并且在训练时执行骨架重定向，以考虑Hu-man 3. 6 M和MPI-INF-3DHP数据集之间的关节定义的差异。最后，骨架拟合作为可选步骤来完成，以将姿势拟合到已知骨骼长度的骨架中。11表1. 我们的模型在人类3.6上的比较评估遵循方案1。使用地面实况边界框作物对受试者9和11进行评估，并且仅在Human3.6和MPII 2D姿势数据集上训练模型。方法方向探讨吃饭打招呼电话摆姿势购买现场周[43]68.774.867.876.476.384.070.288.0贾汉吉里[15]74.466.767.975.277.370.664.595.6[19]第十九话58.068.263.265.875.361.265.798.6梅赫塔[22]57.568.659.667.378.156.969.198.0帕夫拉科斯[27]58.664.663.762.466.957.762.576.8周[41]54.860.758.271.462.053.855.675.2阳光[34]52.854.854.254.361.853.153.671.7我们的（SAP-Net）46.953.847.052.856.945.248.268.0我们的（TP-Net）44.850.444.749.052.943.545.563.1方法坐下来吸烟照片等待散步散步狗散步平均周[43]113.878.078.489.162.675.173.679.9贾汉吉里[15]127.379.679.173.467.471.872.877.6[19]第十九话127.770.493.068.250.672.957.773.1梅赫塔[22]117.569.582.468.055.376.561.472.9帕夫拉科斯[27] 103.565.770.761.656.469.059.566.9周[41]111.664.165.566.051.463.255.364.9阳光[34]86.761.567.253.447.161.653.459.1我们的（SAP-Net）94.055.763.651.640.355.444.355.5我们的（TP-Net）87.351.761.448.537.652.241.952.1表2. 使用方案2对我们的模型在人3.6M上的比较评估。模型仅在Human3.6M和MPII 2D数据集上进行训练。坐走走直接法。讨论吃问候电话姿势购买。坐下烟照片等待走狗配对平均值亚辛[40]88.472.5110.2 97.191.6 107.2 119.0 170.8 108.2 142.5 86.9 165.7 102.0 108.3罗格斯[29]--- --88.1陈[7]71.666.674.779.170.1 67.6 89.390.7 195.683.593.3 71.2 55.7 85.962.5 82.7聂[39]62.869.279.678.880.8 72.5 73.996.1 106.988.086.9 70.7 71.9 76.573.2 79.5莫雷诺[24]67.463.887.273.971.5 69.9 65.171.798.681.393.3 74.6 76.5 77.774.6 76.5周[43]47.948.852.755.056.8 49.0 45.560.881.153.765.5 51.6 50.4 54.855.9 55.3阳光[34]42.144.345.045.451.5 43.2 41.359.373.351.053.0 44.0 38.3 48.044.8 48.3我们的（SAP-Net）32.836.842.538.542.4 35.4 34.353.666.246.549.0 34.1 30.0 42.339.7 42.2我们的（TP-Net）28.030.739.134.437.128.9 31.239.360.639.344.831.1 25.3 37.828.436.32D数据集：MS-COCO和MPII是没有3D地面实况注释的野外2D姿态数据集。因此，我们在图中示出了它们两者的定性结果。六、尽管缺乏深度注释，我们的方法推广以及预测有效的3D构成下的背景杂乱和显着的闭塞。5.1定量评价我们评估了我们的管道的三个阶段的输出，并显示在每个阶段的改进。1. 基线：我们训练与SAP-Net相同的网络架构，但只有完全监督的损失，即2D热图监督和仅用于3D数据的L e。12S表3. 使用方案1在Hu-man 3. 6 M上消融不同损失项。表4. 不同时间模型的比较上下文大小。 LSTM网络模型方法MPJEZhou w/oLg[41] 65.69+几何损失64.90基线58.50整个过去的上下文直到时间t。双向关系网络的背景框架一半来自未来，一半来自过去。基线+Ls58.30基线+La57.70输入帧的型号基线+Lg58.3041020基线+Lg+La56.20LSTM--54.05基线+Lg+La+Ls55.51Bi-LSTM 53.86 53.7253.65基线+Lg+La+Ls+ TP-Net52.10TP-Net53.0 52.2452.1基线+Lg+La+Ls+ Bi-TP-Net51.10双TP网络 52.4 51.3651.12. SAP-Net：使用第4.3节中提出的结构感知损失进行训练。3. TP-Net：在视频序列的SAP-Net输出上进行训练（参见第4.3节）。4. 骨架拟合（可选）：我们根据受试者的骨骼长度拟合骨架下面，我们在SAP-Net上进行消融研究，并报告两个数据集的结果SAP-Net消融研究：为了了解个体解剖结构的影响损失，我们训练SAP-Net，连续添加几何形状Lz，非法角度Lz和G a对称性Lz损失，并在表3中根据方案1报告它们在Human3.6M上的性能。我们可以观察到，非法角度和对称性损失的合并几何损失显著地改进了性能，而几何损失甚至在基线上也没有提供太多的改进。同样，TP-Net比SAP-Net有了显著的改进，TP-Net的半在线变体（Bi-TP-Net）甚至比TP-Net更好。对Human3.6M的评价：我们表现出显着的改善，国家的最先进的，并实现MPJPE为55。5mm，SAP-Net进一步改进为TP-Net 52. 1毫米。表1和表2分别给出了我们在方案1和方案2下的结果的比较分析。我们的表现优于其他竞争对手的方法，利润率显著提高了12%。MPI-INF-3DHP评价：来自表5的结果显示，与当前技术水平相比，我们在PCK和AUC方面实现了略差的性能，但在MPJPE方面实现了好得多的性能，提高了12%。尽管在训练期间缺乏通过绿屏合成的数据增强。5.2结构效度分析本节分析预测的3D姿态在解剖约束方面的有效性，即左右对称性和关节角度限制。理想地，对应的左右骨对应该具有相似的长度;因此，我们计算MPI-INF-3DHP上相应左右骨对之间的平均L1距离（单位：mm）13图六、（a）我们的时间模型TP-Net与SAP-Net在视频上的比较。突出显示的姿势展示了TP-Net学习时间相关性的能力，并平滑和细化来自SAP-Net的姿势估计（b）SAP网络对MPII和MS-COCO数据集的一些图像从多个角度得出的定性结果数据集并在表6的上半部分中呈现结果。为了比较的公平性，我们对仅在Human3.6M上训练的模型进行评估。我们可以看到，与[41]中使用骨长度比先验的系统相比，使用对称性损失训练的SAP-Net显着提高了对称性，TP-Net通过利用相邻帧的时间线索提供了进一步的改进。它显示了明确强制对称的重要性。此外，它清楚地证明了TP-Net在隐式学习对称性约束方面的有效性。使用[1]评估预测姿势的关节角度有效性，并且与[41]的1.4%相比，我们仅观察到0.8%的非法非躯干表6的下半部分列出了SAP-Net和TP-Net的各帧骨长度的标准差（单位：mm）。我们可以观察到TP-Net将整个帧的骨长度标准偏差降低了28.7%。同样值得注意的是，我们没有使用任何额外的过滤器（移动平均线，1欧元等）这引入14[23]第二十三话 40.4124.7我们的76.739.1103.8上腿–61.348.8小腿–68.848.3表5. MPI-INF- 3DHP数据集的结果。期望较高的PCK和AUC，而较低的MPJPE更好。注意，与 [22 ， 23] 不同， MPI-INF-3DHP序列-ing数据集未增强。方法PCK AUC MPJPE表6. 在MPI-INF-3DHP数据集上评估我们的模型：（i）对称性-左/右骨对之间的平均L1距离（以mm为单位）（上半部分），以及（ii）跨所有视频帧的骨长度的标准偏差（以mm为单位）（下半部分）。[22]第二十二话 39.3一百一十七点六滞后，使运动看起来不可思议。最后，我们在图6和补充材料中呈现了一些定性结果，以表明TP-Net有效地校正了SAP-Net预测的姿势中的急动。6结论我们提出了两个解剖学启发的损失函数，即非法角度和对称性损失。我们证明了它们对于训练弱监督Con-vNet架构非常有效，用于从单个RGB图像中预测有效的3D姿势配置我们分析了局部损耗表面的演变，以清楚地证明所提出的损耗的好处。我们还提出了一个简单的，但令人惊讶的有效的，滑动窗口完全连接的网络，从一系列相邻的姿势的时间姿势建模。我们发现，它是能够学习语义有意义的短期时间和结构的相关性。时间模型被证明可以显着减少抖动和噪声的姿态预测的视频序列，而每次推理1毫秒<我们完整的流水线在Human3.6M和MPI-INF-3DHP上分别将已发布的最先进水平提高了11.8%和12%，同时在NVIDIA Titan 1080Ti GPU上以30 fps运行。确认这项工作得到了梅赛德斯-奔驰印度研发部（RD/0117-MBRDI 00 -001）的支持。引用1. I. Akhter和M.J. 黑色. 三维人体姿态重建的姿态条件关节角度限制。CVPR，2015。二三六十三2. T. Alldieck，M.卡苏贝克湾万特湾Rosenhahn和M.玛格诺基于光流的基于单目视频的三维人体运动估计。在GCPR，2017年。3骨周[41]SAP网络上臂37.8二十五8 ↓31。7%23.9↓36. 占7%下臂50.732.1 ↓36. 百分之七三十三。9 ↓33。百分之一上腿43.4二十七岁8 ↓35。9%24.8 ↓42. 百分之八38.第38章我的世界2↓20。1%29.2↓38. 百分之九153. M.安德里卢卡湖Pishchulin，P. Gehler和B.席勒2D人体姿态估计：新的基准和最先进的分析。CVPR，2014。第1、3条4. F. Bogo、A.金泽角Lassner，P.Gehler，J.Romero和M.J. 黑色. 保持它smpl：由单一影像自动估计三维人体位姿与形状。在ECCV，2016年。二、三5. G. Casiez，N. Roussel和D.沃格尔1滤波器：一个简单的基于速度的低通滤波器，用于噪声交互系统中的输入。InSIGCHI，2012. 36. C. S. Catalin Ionescu，Fuxin Li.用于人体姿态估计的潜在结构模型在ICCV，2011年。17. C.- H. Chen和D. Ramanan 3D人体姿态估计= 2D姿态估计+匹配。在CVPR，2017年。三、十一8. J. Chen，S.Nie和Q.纪无数据先验模型在上半身姿态估计与跟踪中的应用。IEEE Transactions on Image Processing，22，2013。69. W. Chen，H.Wang，Y.Li，H.苏，Z.Wang，C.Tu，D.Lischinski、D.Cohen-Or和B.尘合成训练影像以提升人体三维位姿估计。在3DV，2016年。210. M. 科德茨，M。奥姆兰，S。拉莫斯，T.雷费尔德，M。恩茨韦勒河贝南森，美国弗兰克，S。罗斯和B.席勒用于语义城市场景理解的cityscapes数据集。在CVPR，2016年。111. H. Coskun，F.阿基里斯河DiPietro，N.Navab和F.Tombari 长短期记忆卡尔曼滤波器：用于姿态正则化的递归神经估计器。InICCV，2017. 412. K. 他，X。Zhang，S.Ren和J.太阳用于图像识别的深度残差学习在CVPR，2016年。413. L.赫尔达河Urtasun，和P.呸人体分层隐式曲面关节极限跟踪. 计算机视觉与图像理解，2005年。二、六14. C.约内斯库D. Papava、V.Olaru和C.斯明奇塞斯库Human3.6m：大规模数据集和预测方法，用于自然环境中的3D人体感知。IEEE TPAMI，2014年。一、二15. E. Jahangiri和A.L. 尤尔。生成用于人体3D姿态的多个不同假设与2D联合检测一致。 InICCV，2017. 1116. D. P. Kingma和J.

下载后可阅读完整内容，剩余1页未读，立即下载