单目三维人体姿态估计综述：挑战、方法和未来

103 浏览量更新于2024-01-24 收藏 918KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

引文：纪小鹏，方启，董俊廷，帅青，姜文，周晓伟。单目三维人体姿态估计研究综述。虚拟现实智能硬件，2020，2（6）：471-500DOI：10.1016/j.vrih.2020.04.005虚拟现实智能硬件2020年12月第6·回顾·单目三维人体姿态估计方法谢鹏吉，方启芳，董俊廷，舒庆爱，王江，谢伟智浙江大学计算机辅助图形学国家重点实验室，浙江杭州310058*通讯作者，xzhou@cad.zju.edu.cn投稿时间：2020年3月18日修订日期：2020年4月21日接受日期：2020年4月25日国家自然科学基金（61806176）;中央高校基础研究基金（2019 QNA 5022）。摘要近年来，从RGB图像和视频中恢复人体姿态引起了越来越多的关注，这是由于最低的传感器要求和在人机交互、机器人、视频分析和增强现实等不同领域的适用性。虽然大量的工作已经致力于这一领域，3D人体姿态估计的基础上单目图像或视频仍然是一个非常具有挑战性的任务，由于各种困难，如深度模糊，遮挡，背景杂波，缺乏训练数据。在这项调查中，我们总结了单目三维人体姿态估计的最新进展。我们提供了一个通用的分类法，以涵盖现有的方法，并分析其功能和局限性。我们还总结了广泛使用的数据集和指标，并提供了一些代表性的方法的定量比较。最后，我们总结了现实的挑战和未来研究方向的开放性问题的讨论。关键词人体姿态估计;人体运动捕捉;运动分析1介绍单目人体姿态估计是从单个图像或图像序列中估计人体部位的配置的过程。在许多以人为中心的任务中（例如，人体检测、人体跟踪和人体动作识别）在计算机视觉中，人体姿态估计特别重要，因为它为各种应用提供了人体的丰富几何和运动信息，例如视觉监视、行为分析、自动驾驶、服务机器人、医疗保健、游戏和动画。人体姿态估计是一个具有挑战性的问题，由于存在大的自由度，高度变化的外观，在视点的变化，和复杂的背景。这些困难中的一些已经通过具有反射标记[1-4]、深度传感器[5-10]或惯性测量单元（IMU）[11-15]的运动捕获（MoCap）系统在约束设置中得到解决。然而，这样的系统需要通常昂贵且专用的特定硬件，而数据采集过程通常限制人类运动的范围。因此，作为一种更容易获得的方法，从常规相机捕获的RGB图像中估计人体姿势正在引起研究人员的注意。在视觉系统中，人体的姿态通常是通过预定义骨架上各个关节的角度来表示的。如图1a所示，人体姿势的简化表示是一组2096-5796/©版权所有2020北京中科学报出版有限公司Elsevier B. V.代表KeAi Communization Co. Ltd.提供的出版服务。这是CC BY-NC-ND许可证下的开放获取文章（http：//creativecommons.org/licenses/by/4.0/）。www.vr-ih.com虚拟现实智能硬件2020年12月第6图1人体姿态表示和姿态估计的图示。(a)通过17个关键点对人体进行共同的运动学表示;（b）3D人体姿势估计、2D-3D姿势提升以及人体姿势和形状估计。人体上的关键点，这些关键点在图像中比在关节角度中更好地直接观察。利用这种简化表示，2D人体姿态估计的目标是定位图像中每个关键点的x，y坐标，而3D人体姿态估计的目的是推断x，y，z坐标。3D空间中每个关键点的坐标。关键点可以是稀疏的身体关节或身体表面上的密集采样点[16]。图1b示出了通过将2D姿态提升到3D来估计3D姿态并从图像推断最终姿态和形状的图示。样本图像来自Penn Action数据集[17]。近年来，通过利用深度学习的力量，在这一领域取得了重大进展[18-20]，特别是在检测RGB图像中的2D关键点方面表现出了卓越的性能[21，22]。虽然获得手动2D姿势注释很容易，但收集准确的3D姿势注释很困难。单目3D重建中的模糊性，缺乏注释数据来训练3D姿态估计器，以及在现实世界中缺乏基准数据集，使得3D姿态估计问题更具挑战性。尽管如此，可访问的大规模3D姿态数据集（如HumanEva[1]，Human3.6M[2]和CMU Panoptic[23] ）的可用性促进了显着的进展。这些数据集由MoCap系统在受控实验室环境中收集，这表明可以通过从2D姿势提升或通过图像直接回归来恢复3D姿势。最近的一项工作还解决了野外3D姿态估计的泛化问题，例如使用混合的2D和3D数据进行训练[24]，合成训练图像[25]以及在野外收集准确的3D姿态注释[15]。此外，使用统计体型模型，如皮肤多人线性模型（SMPL）[26]，可以从具有详细表情和手势的单个图像中推断全身3D形状[27-31][32，33]。因此，在计算机视觉和图形学中，对单目3D人体姿态和形状恢复的兴趣一直在增加。在这一领域的出现越来越多的兴趣和显着的进步促使我们调查的国家的最先进的方法。已经有一些关于人体姿势估计的调查和书籍章节。读者可以参考Moeslund和Krüger[34]，了解该领域早期工作的概述。Poppe等人讨论了人体运动分析的特征[35]。Pons-Moll和Rosenhahn[36]提供了一个分析472Xiaopeng Ji et al：A survey on monocular 3D human pose estimation人体运动的运动学参数化，以及基于模型的姿态估计算法中的人体形状表示。Sminchisescu等人回顾了基于特征的姿态估计方法[37]。Perez-Sala等人讨论了基于模型的姿态估计方法[38]。Liu等人讨论了身体部分解析[39]。Gong等人。[40]和Holte等人。[41]调查了关于从单目图像和多视图视频中估计人体姿势的文献。关于3D人体姿态估计的最新调查是Sarafianos等人。[42]2016年出版。从那时起，在这个主题的各个方面都取得了重大进展，如方法，数据集和实证结果，这些都在本次调查中进行了总结。我们专注于从单目图像或视频的3D姿态估计，并提供了一个通用的分类，以涵盖现有的方法。图2显示了支持该调查的分类法的说明。图2三维人体姿态估计方法的分类。现有的三维人体姿态估计方法可以分为三类：（1）三维姿态跟踪，它涵盖了大多数基于增量帧到帧跟踪的早期工作。(2)2D-3D位姿提升，其具有两个阶段：检测2D位姿和将2D位姿提升为3D。(3)从图像中进行姿势回归，直接从原始图像像素推断3D姿势。在下面的部分中，我们将对每类方法进行更详细的讨论。2三维位姿跟踪3D人体姿势的早期工作主要集中在从第一帧中的姿势开始的增量帧到帧跟踪[43-45]。由于初始化步骤的要求和无法从跟踪失败中恢复[46]，后来的方法将跟踪问题制定为跨帧的数据关联之一，即。例如，“跟踪检测”[47]。这类研究集中在多帧上跟踪人体关节。表1列出了这一类别中讨论的出版物。2.1基于优化的跟踪方法对于优化方法，Bregler和Malik使用扭曲和指数映射的乘积局部参数化人体[43]。他们通过亮度恒常性方程在缩放的正投影模型的情况下获得了最小二乘解。他们的方法可以很容易地扩展到多视图设置[58]。Gall等人提出了一种综合分析框架，该框架结合了基于块和基于区域的匹配，以获得2D对应关系，其中通过比较原始图像和合成图像来去除由遮挡引起的离群值[54]。然后在扭曲框架中使用这些来基于从3D到2D的投影求解线性方程。这些早期的方法利用足够但不那么鲁棒的对应关系，例如像素级特征或局部描述符[54]来计算封闭形式的解决方案。473虚拟现实智能硬件2020年12月第6表1基于跟踪的方法作者Leonardos et al.[48个]Simo-Serra等人[49]Hauberg et al.[50]Sigal et al.[45个]Pons-Moll等人[12个]方法亮点人体运动的二阶随机动力学模型。推导黎曼扩展卡尔曼滤波器的方程，以执行结构估计。在黎曼流形上学习人体姿势和运动学的联合高斯混合模型。将Unscented变换和UKF推广到黎曼流形。使用此黎曼UKF进行铰接式跟踪。将身体表示为无向图形模型。利用粒子信息传递估计人体姿态和运动。使用来自稀疏惯性传感器的方向线索通过逆运动学对粒子进行采样。评价数据集CMU Mocap1Human3.6MCustomHumanEva-ICustom2016年2014201320122011Yao等人[五十一]从数据中学习高斯过程隐变量模型。使用随机梯度-HumanEva-I梯度下降算法来跟踪潜在空间中的人类主体。2011Andriluka等人[47]Gall et al. [52]泰勒等人。[53]Gallet al.[五十四]Wang等人[55个]多伊彻和里德[56]斯明奇塞斯库和[44]第四十四话[57]第五十七话2D跟踪和视点估计。跨帧的数据关联。使用基于tracklet的观察结果进行3D姿态重新制定。一个结合了随机优化、过滤和局部优化的多层框架。使用条件限制玻尔兹曼机作为人类姿势跟踪的潜在变量模型。一个综合分析框架，结合基于块和基于区域的匹配，以解决漂移问题。用于非线性动力学分析的高斯过程动力学模型。用于关节式身体运动捕捉的退火粒子滤波。利用运动树信息加速搜索并强制执行在线模糊拒绝。一种基于重标协方差和粒子滤波的混合采样-精化搜索方案。[47]第四十七话：一个女人HumanEva-IHumanEva-II，定制定制天线定制天线20102010201020082006200520032001一些研究者将姿态恢复问题转化为一个搜索问题，并提出了一些有效的搜索方法来解决优化问题。为了找到与所有视图一致的姿态参数，Gavrila和Davis[59]使用搜索空间分解方法和基于倒角匹配的最佳优先技术来搜索高维姿态参数空间。Sminchisescu和Triggs[57]设计了一种结合光流、边缘能量和运动边界的鲁棒匹配度量，并提出了一种混合采样和细化搜索方案，用于使用粒子滤波器获得更鲁棒的结果。首先，通过时间传播将先前的后验和动态模型相结合来生成分布。然后对协方差进行膨胀，使抽样充分。最后，使用基于似然的局部优化来细化结果。为了准确地映射人体结构，他们进一步利用运动学树信息来改变样本策略，包括向前和向后翻转以加速搜索，并实施在线模糊拒绝[44]。2.2基于过滤的方法滤波方法主要来源于贝叶斯框架下的卡尔曼滤波和粒子滤波。卡尔曼滤波器系列由于其显式形式、简单性和最优性而被广泛使用[60，61]。例如，Wachter和Nagel[62]使用迭代扩展卡尔曼滤波器（IEKF）来解决具有恒定速度的简单运动模型Kraft提出了一种基于四元数的Unscented Kalman滤波第1http://mocap.cs.cmu.edu/474Xiaopeng Ji et al：A survey on monocular 3D human pose estimation(UKF)追踪方向[63]。Sunday bladh等人分析了模糊性和非线性动力学，预计模型参数的后验概率分布是多模态的[64]。因此，他们通过包括形状、外观和运动来定义生成模型，并通过粒子滤波器计算后验概率。此外，使用混合蒙特卡罗方法将粒子滤波器与马尔可夫链相结合，以获得高维空间中的样本[65]。然而，在大多数情况下无法获得关于运动模型的先验知识，这在贝叶斯滤波器中是必不可少的。因此，从数据集中学习运动是很自然的。Howe等人将似然运动建模为高维空间中高斯概率的混合，并从训练数据中学习[66]。嵌入流形是欧几里得状态空间的另一种表示，用于更好的描述[67]，因为人体运动可以自然地局限于一些已知的黎曼流形。因此，流形上的滤波问题引起了该领域的广泛关注。Deutscher和Reid开发了一种改进的退火粒子滤波器，用于搜索关节式人体运动的高维配置[56]。通过使用来自稀疏惯性传感器的方向线索，Pons-Moll等人引入了基于退火粒子的优化，以从有效姿态的流形中采样粒子[12]。Sigal等人将身体运动估计公式化为无向图形模型中的推理，并通过使用粒子消息传递（PAMPAS）解决了它[45]。Hauberg等人将无迹变换和UKF推广到黎曼流形[50]。他们使用这种黎曼UKF建立了一个铰接式跟踪系统，与粒子滤波器相比，实现了更低的跟踪误差和更少的计算时间。Leonardos等人提出了一种状态空间为S2流形的二阶随机动力学模型，并推导出了黎曼扩展卡尔曼滤波器的方程，以根据透视相机捕获的图像序列进行结构估计[48]。Simo-Serra等人。[49，68]将姿势建模为流形，并学习了该流形上人类姿势和运动学的联合高斯混合模型。2.3高斯过程人体姿态参数空间维数高、获取困难，过拟合和泛化能力有限是模型学习中的重要问题。降维是缓解这个问题的一种方法。研究人员已经提出了许多方法来从数据集学习低维潜在空间。高斯过程序列是用于嵌入运动的最突出的潜变量模型[69]。Yao等人提出了高斯过程潜变量模型（GPLVM）的随机梯度下降算法，以学习由多个活动组成的概率非线性潜空间。因为GPLVM不对潜在空间中的动态进行建模[51]。Wang等人提出了高斯过程动力学模型（GPDM），使用高斯过程先验进行动力学和观测映射[55]。这些可以从相对少量的数据中学习。Urtasun等人通过将动态密度函数提高到标量（观察空间和潜在空间的维度之间的比率）来修改GPDM，以平衡学习中两个阶段的影响[70]。由于GPLVM和GPDM的学习和推理不是线性的，Taylor等人提出了条件限制玻尔兹曼机（ImCRBM）的隐式混合，它在训练样本的数量上是线性的[53]。它是一种隐式降维方法，e.潜在表示仍然是高维的，但是模型学习在潜在空间中构建能量沟，消除了真实数据偶尔偏离流形的可能性。2.4混合方法过滤方法具有保持时间一致性的优点，但它们很少改善时间一致性。475虚拟现实智能硬件2020年12月第6估计的准确性。相比之下，局部优化方法可以提供非常精确的结果，假设状态向量被初始化为接近全局最优值，但是它们可能会受到抖动的影响。随机搜索方法具有找到全局解的能力，但状态空间维数越高，所需的计算资源就越多。潜在空间方法具有简单的结构，因此将这些类型的方法组合在一起是很自然的。Gall等人引入了一个多层框架，结合了随机优化，过滤和局部优化[52]。Andriluka等人。[47]提出了一种三阶段混合方法。前两个阶段基于检测跟踪获得2D姿态轨迹，第三阶段通过分层GPLVM恢复3D姿态。它们可以在真实的街道条件下跟踪3D姿势。Elhayek等人[71]通过组合的姿势优化能量，将基于CNN的2D联合检测与基于高斯和（SoG）的生成运动跟踪算法相结合。32D-3D姿态提升2D-3D提升的过程是基于两阶段的级联框架的一部分，该框架首先执行2D姿态估计以使用2D姿态估计器[19，72]预测图像中的2D关节位置或关键点，然后将这些2D关节提升到3D空间[46，73]。关键的想法是，由于在野外具有2D注释的大规模数据集的可用性，可以很容易地执行2D姿态估计。2D-3D提升方法通常可跨域推广，受益于最先进的2D姿态检测器的可靠性能，并且通常优于直接从图像回归3D姿态的方法。表2列出了这类方法。请注意，MPII[21]和Leeds Sports Pose（LSP）[74]数据集仅使用2D姿势进行注释，这些姿势通常用于显示大多数作品在真实世界图像上的定性示例。3.1基于优化的提升方法基于优化的提升方法领域的早期工作采用人体关节的带注释的2D地标，以通过优化某些成本函数来恢复3D姿态。例如，Ramakrishna等人提出了一种基于稀疏表示的方法，用于从单个图像中的注释地标估计人体3D配置[110]。他们提出了一种投影匹配追踪算法，通过最小化重新投影误差来重建3D姿态和相机设置。Simo-Serra等人采用贝叶斯框架将生成模型与区分性2D部件检测器集成，并使用进化算法进行推理[108]。Wang等人建议通过最小化3D关节投影和2D检测之间的L1范数惩罚来估计3D姿态，以减少不准确的2D姿态估计的影响[105，115]。Ionescu等人没有使用关节位置或热图作为中间体，而是使用迭代方案[107]基于从身体部位标签计算的描述符预测3D姿势。他们提出了二阶池在身体的层次区域分解上构建一个全局表示。为了解决交替最小化方案通常对初始化敏感的问题，Zhou等人采用了一种增强的形状空间模型，以在凸公式下给出内在形状变形和外在视点变化的线性表示[104]。Akhter和Black利用关节角度的限制来避免不可能的姿势[103]。Zhou等人提出了一种在整个序列上的期望最大化（EM）算法，以通过将基于CNN的热图与3D人体姿势的稀疏表示相结合来恢复3D姿势[99]。Du等人加强了姿态条件关节速度和时间相干性约束，并制定了一个目标函数来估计3D476Xiaopeng Ji et al：A survey on monocular 3D human pose estimation表2基于2D-3D姿态提升的方法作者Rhodin et al.[第七十五章]Pavlakos等人[76]Zhao et al.[第七十七章]Wandt和Rosenhahn[78]Arnab et al.[79个]Chen等人[80个]Véges等人[81]Li et al.[第八十二章]Cha等人[83]杨等人。[84]Fang etal.[八十五]Hossain和Little[86]方法亮点2D关键点轨迹上的扩展时间卷积。利用未标记视频的半监督方法。扩展SMPL与充分阐述的手和一个富有表现力的脸。使用图形结构数据对任务进行操作，以实现2D到3D人体姿势回归。使用对抗训练来学习从2D姿态的分布到3D姿态的分布的映射。通过鼓励时间一致性，将光束法平差应用于SMPL模型。使用自一致性方案：生成的3D骨架的随机投影被馈送到2D姿势训练器，以向2D-3D提升网络提供反馈。一个学习旋转等变隐藏表示的连体架构。使用混合密度模型生成多个3D姿态假设以缓解模糊性问题。一种基于多部分假设的单图像三维人体姿态估计方法。合成虚拟候选姿态，保证扩充后的样本集具有更丰富的多样性。设计一个深度语法网络来显式编码一组关于人类身体配置的知识，包括运动学，对称性和运动协调。层规范化LSTM单元，具有快捷连接以利用时间信息。评价数据集Human3.6M、HumanEva-I定制人性化3.6MHuman3.6M，MPI-INF-3DHP，LSPHuman3.6M，HumanEva，3DPWHuman3.6M，MPI-INF-3DHP[21]第二十一话Human3.6M，MPI-INF-3DHP，MPIIHuman3.6M，HumanEva- I，MPII人3.6M，LSPHuman3.6M，HumanEva- I，MPIIHuman3.6M，HumanEva-I2019年20192019201920192019201920192019201920182018Zhao等人[87]李等人[八十八]使用一组完全连接的层来直接恢复深度信息。基于2D姿态来扩展长短期记忆网络以估计深度信息。人类3.6M，CMU MoCap 2018人类3.6M，HumanEva-I，2018Drover等人[89]Wanget al. [90]第90话[91]Martinez等人[九十二]莫雷诺-诺格尔[93]Lassner等人[94]Nie et al.[95个国家]Lin等人[97个国家][98]第98话Bogo等人[28]Zhou et al. [99]Yasin等人[100个项目]带有对抗训练的随机投影层，用于从2D投影中对3D结构执行先验。使用CNN从图像中学习人体关节对之间的深度排名。关系网络，以捕捉不同群体配置之间的关系。不同的身体部位。在2D到3D关键点回归中应用具有剩余连接的两个全连接层。在两个欧氏距离矩阵之间执行2D到3D距离矩阵回归。预测身体的31个节段和91个标志位置，并扩展基于SMPLify的优化方法。LSTM网络的两级层次结构：学习深度信息的passion-LSTM和利用局部图像证据的patch-LSTM。一个顺序预测框架，以隐式和全面的方式通过多个重现阶段细化预测的姿势。在3D中生成各种有效的人体姿势假设，所有这些都与关节的2D检测一致。通过最小化投影的3D模型关节和检测到的2D关节之间的误差来拟合统计体形模型。在帮助2D关节定位之前利用3D几何，并在统计框架中严格处理2D估计不确定性。使用检索到的最近的3D姿态迭代更新图像结构模型的二进制并更新2D姿态。人3.6M，MPII，LSP人3.6M，MPII人3.6M，MPIIHuman3.6MHuman3.6M，HumanEva-I Human3.6M，HumanEva-I[96]第96话我的世界Human3.6M，HumanEva-I Human3.6MHumanEva-I，Hu‐ man 3.6M，LSP人类3.6M，PennActionHumanEva-I，CMU Mo‐ Cap，Human3.6M201820182018201720172017201720172017201620162016Du等[一百零一]结合RGB图像和计算的高度图来检测2D关节的标志。加强对相机和3D姿态的时间相干性约束。HumanEva-I，Human3.6M，2016MCAD[102]（下一页续）477虚拟现实智能硬件2020年12月第6（续）作者[103]第一百零三话Zhou等人[104]Wang et al.[第一百零五章]Ionescu等人[第一百零七话]Simo-Serra等人[第一百零八章]Radwan等人[109]第一百零九话Ramakrishna等人[110]Simo-Serra等人[第111话]蒋[112]Shakhnarovich等人[第113话][114]第114话方法亮点学习姿势相关的关节角度限制。使用姿态的过完备字典从2D关节位置估计3D姿态的多阶段方法。通过求解凸规划将3D形状空间模型与2D地标对齐。通过最小化3D姿态的投影与对应的2D检测之间的L1范数误差来估计3D姿态。标签敏感池的分层区域分解的身体。连续值姿态回归一个贝叶斯框架，集成了生成模型，并使用进化算法进行推理。基于回归的多视图合成。在多个合成视图上实施运动学和方向约束。一种在过完备字典中估计3D姿态稀疏表示的匹配追踪算法。模糊假设的随机探索与消歧。利用kd树在数据库中顺序搜索上半身姿势和下半身姿势学习一组哈希函数，有效地索引示例。结合基于运动链的变形模型，从示例2D视图进行形状上下文匹配。评价数据集CMUMoCap，LSP自定义CMU MoCap，HumanE-va-I，UvA 3D姿势[106]Human3.6MHumanEva-I，TUDStad-mitteHumanEva-I，LSPCMU MoCap，自定义HumanEva-I，TUDStad-mitte定制定制定制2015年2015201420142013201320122012201020032002从单目图像序列中检测到的2D关节运动[101]。与之前估计3D骨架的方法相比，Bogo等人提出了SMPLify[28]，通过拟合统计体型模型来恢复姿势和形状，即。例如，SMPL[26]通过最小化目标函数来对2D关节进行优化，该目标函数对从基于CNN的估计器[116]检测到的投影3D和2D模型关节之间的误差进行惩罚。Lassner等人预测了身体的31个节段和91个标志位置，并应用了扩展的基于SMPLify的优化方法[94]。Alldieck等人对投影射线定义的圆锥体进行了分解，以获得公共参考系中的视觉外壳，并生成了个性化的混合形状模型[117]。与大多数在单帧上操作的方法不同，Arnab等人提出了一种基于调整的算法来恢复整个序列上的3D人体姿势和网格，以解决模糊性[79]。最近的工作还显示了通过在基于CNN的估计器的2D关键点上应用优化方案来捕获人体姿势和形状的实时性能。Habermann等人提出了一种通过设计两阶段综合分析优化的单目视频实时人类表现捕获方法[118]。3.2基于实例的方法作为一种非参数模型，基于范例的方法在从给定数据库匹配复杂的3D姿态时是有效的。Mori和Malik提出通过将其2D投影与来自已知视点的2D样本进行匹配来估计3D人体配置[114]。他们使用测试图像和样本上的边界点之间的对应关系来估计2D关键点。利用这些关键点进一步估计身体的3D配置。Shakhnarovich等人提出了一种参数敏感的哈希方法，用于使用提取的图像特征有效地匹配人体上身的关节姿势。[113]Jiang构建了一个数据库，其中包含日常生活中数百万种不同的3D姿势[112]。为了隐式地平方样本数据库的大小并有效地重建无约束的姿势，他们将人体姿势分为上半身姿势和下半身姿势。基于kd树478Xiaopeng Ji et al：A survey on monocular 3D human pose estimation实现在数据库中的实时查询。在3D姿态估计中，获取具有精确注释的3D姿态的大规模训练数据通常是昂贵且具有挑战性的任务。为了克服这一困难，Yasin等人提出了一种双源方法，集成了注释的2D姿态和3D运动捕捉数据[100]。将3D运动捕捉数据投影到归一化的2D姿态空间中。具有注释的2D姿态的图像数据用于通过随机森林学习图像结构模型。给定测试图像，首先估计2D姿态，并且通过最小化与最近检索的3D姿态的投影误差来获得最终的3D姿态。Chen和Ramanan提出了一种简单的非参数方法来编码高级约束，并使用2D-3D匹配将预测的2D姿势提升到3D[119]。具体来说，他们首先从给定的3D姿势库中生成大量的2D投影。使用来自2D姿态估计算法的预测[72]，他们使用非参数最近邻模型从3D姿态库中检索最准确的3D姿态。Yang等人生成了一个包括真实和合成姿势的样本集，以确保增强的样本集具有更大的多样性[84]。他们引入了一个两步策略，从候选集中选择最佳样本，以匹配检测到的2D姿势。3.3深度学习方法利用在受控环境中捕获的大量3D MoCap数据，可以训练深度神经网络（DNN）以直接从给定的2D姿势回归3D人体姿势。多层感知器是实现从2D到3D姿态的映射的直接方式。Zhao等人使用一组具有分层非线性变换的全连接层来恢复单个图像中许多已知2D标志点的深度信息[87]。Martinez等人还提出了一种简单的端到端网络，由两个完全连接的层组成，具有直接从2D关键点检测回归3D关键点的残余连接[92]。Moreno-Noguer提出用每对关节之间的欧几里得距离的N×N矩阵来表示2D和3D姿态，并将3D姿态估计问题公式化为2D到3D距离矩阵回归[93]。为了更好地捕捉人体骨骼的运动学关系，Nie等人设计了一个基于二级树结构的LSTM网络，以整合来自全局2D骨骼和局部图像块的特征[95]。Véges等人介绍了一种具有等变嵌入的Siamese网络，该网络为跨相机3D人体姿势估计提供正则化[81]。Fang等人开发了一种深度语法网络，该网络扩展了双向RNN，以编码一组3D人体姿势语法的高级知识，例如运动学，对称性和运动协调[85]。时间上不相干的估计通常由于各个帧上的独立误差而引起抖动。为了解决这个问题，已经通过利用跨2D关节位置的序列的时间信息进行了各种尝试。Lin等人提出了一种循环的3D姿态序列机器，用于自动学习图像相关的结构约束和序列相关的时间上下文[97]。他们通过将2D姿势模块、2D到3D适配模块和3D姿势递归模块组装到顺序预测框架中，采用了多阶段顺序细化。Hossain和Little设计了一种基于层规范化LSTM单元的序列到序列网络，该网络施加时间平滑度约束，即使在2D姿态检测器失败时也能恢复时间一致的3D姿态[86]。为了学习空间和时间相关性，Lee等人提出了一种基于LSTM的多阶段架构，该架构基于联合相互依赖性来构建人体结构作为中心到外围维度的扩展，与时间域上的自然人类识别一致[88]。Rhodin等人提出了一种基于2D姿态序列上的膨胀时间卷积的全卷积模型，479虚拟现实智能硬件2020年12月第6取得了最新成果[75]。为了通过2D姿势间接学习潜在的3D分布，Drover等人提出了一个随机投影层来随机投影生成的3D骨架，然后将生成的2D姿势发送到网络[89]。Wang等人设计了一个成对排名CNN来学习图像中每对人体关节之间的深度排名，然后将其与2D关节位置一起使用来估计3D姿势[90]。Park等人采用关系网络的结构来捕捉不同身体部位之间的关系[91]。从人体不同部位的一组构型中推断出人体的三维姿态。为了解决过拟合问题，Wandt和Rosenhahn提出了一种投影网络（RepNet），使用对抗训练方法学习从2D姿势分布到3D姿势分布的映射[78]。Chen等人提出通过将生成的3D骨架投影到2D来以自我监督的方式学习2D-3D提升，并使用2D姿势训练来监督训练[80]。由于2D姿势是一种图形结构数据，Zhao等人提出了用于2D到3D人体姿势回归的语义图卷积网络（GCN），该网络通过端到端训练学习语义关系，而无需额外的监督或手工规则[77]。3.4多种假设深度模糊是将2D姿势提升到3D时的主要挑战，因为不同的3D姿势在2D图像中可能具有相似的投影。提出了一些方法，以减轻这种模糊性，产生多个假设。Simo-Serra等人提出了一种随机采样策略，将噪声从图像传播到形状空间[111]。它提供了一组与给定的2D关节位置对应的合理的3D形状。然后，通过同时施加几何和运动学约束，从排序的集合中拾取精确的3D姿势。Radwan等人采用Twin-GP回归方法从初始姿势创建合成视图[109]。通过强制执行运动学和方向约束，进一步减少了3D姿态的模糊性。Jahangiri和Yuille认为，由于2D关节的遮挡和不完善，生成多个姿势假设比仅生成单个3D姿势更合理[98]。他们提出了一种方法来生成与2D联合检测一致的多个，多样化和有效的3D人体姿势假设。Cha等人提出通过聚合许多弱估计来获得更好的姿势[83]。他们从部分2D姿势生成假设。Li和Lee提出使用混合密度网络来解决3D人体姿势估计中的深度模糊和遮挡[82]。他们引入了一个基于从2D姿态估计器中提取的特征的假设生成器，以生成多个可行的假设。4从图像进行将3D人体姿态估计的任务解耦为2D姿态检测和2D到3D提升可能由于单视图重建中的固有模糊性而导致错误的3D姿态。从图像直接推断3D人体姿势是可以更好地利用原始RGB图像中的丰富信息（诸如阴影和遮挡）来解决模糊性的另一种方法。这些方法的总结列于表3中。4.1手工制作的基于特征的方法许多早期关于从单个图像估计人体姿势的工作依赖于区分训练的模型来学习从图像特征（例如轮廓[148-150]）到3D人体姿势的直接映射，而不需要480Xiaopeng Ji et al：A survey on monocular 3D human pose estimation表3基于姿态回归的方法作者Kocabas et al.[一百二十]Kolotouros等人[121]Chen等人[122]哈比比等人[123]Luo etal. [124]Kanazawa etal.[125]Luvizon et al.[126]杨等. [127]帕夫拉科斯等人[第128话]Rhodin等人[129]Zan fir等人[130]第一百三十话Sun等人[131]Dabral et al.[73]第73话[133]第一百三十三话Tome等人[135]Rogez et al.[136]Popa et al. [137]第137话[138]Zhouet al. [24日]Sun等人[139]Tekin etal.[140]Coskun等人[141]Tekin等人[142]Tekin et al.[一百四十三]Zhou等人[144]Sanzari et al.[第145话]Li等人[第146话]Pons-Moll等人[第147话]方法亮点自我监督学习。使用2D姿态估计和对极几何来获得3D姿态。直接回归网格顶点的3D位置，同时保留SMPL模板的拓扑结构。通过从一个视点到另一个视点合成人体姿势，学习视点之间的共享3D表示。包括显式2D和3D特征的解纠缠隐藏空间编码。在具有3D标签的图像和仅具有2D标签的图像上联合训练。对2D关键点位置和肢体方向进行建模。以端到端的方式直接从图像特征推断3D网格参数。设计多任务框架，用于从静态图像中进行联合2D和3D姿态估计以及从视频中进行动作识别。设计一个多源机器人来区分预测的3D姿态与对抗学习。使用由人类关节的顺序深度提供的较弱的监督信号进行端到端训练。将多视图约束视为弱监督，以训练从单个图像预测3D姿态的深度网络。将单个人模型与其他约束条件（如地平面估计、相互体积排除和场景中多个人的联合推断）相结合。积分回归混合使用3D和2D数据。利用预测姿态序列中存在的时间和结构线索来在时间上协调姿态估计。在由粗到细的框架下预测人体关节的每体素可能性多级CNN架构。使用合理的3D标志位置的知识来完善更好的2D位置的搜索。定位-分类-回归（LCR）架构，用于同时估计多个人体姿势。多任务-多级架构，使用多级循环前馈处理。几何驱动的3D注释从多视图重建训练单视图的姿态估计网络。基于2D注释和人类骨架先验知识的弱监督损失。统一的2D和3D姿态回归，使用骨骼而不是关节进行重新参数化的姿态表示。设计一个可训练的融合方案，学习如何最佳地融合信息，而不是手工设计。长短期记忆卡尔曼滤波器（LSTM-KF）网络，以产生改进的时间正则化器。使用过完备自动编码器学习高维潜在姿势表示。直接从边界框的时空体积回归。以物体为中心的运动补偿。将运动对象模型嵌入深度神经网络。多层贝叶斯非参数模型。基于字典的组3D姿态估计。通过最大间隔代价函数学习图像姿态嵌入。在身体部位之间强制执行布尔几何关系，以解决挑战姿势的模糊性。评价数据集Human3.6M，MPI-INF- 3DHP人3.6M，LSPHuman3.6M、MPI-INF- 3DHP、MPII Human3.6M、MPI-INF- 3DHPHuman3.6M，MPI-INF- 3DHPHuman3.6M，MPI-INF- 3DHPHuman3.6M，MPII人3.6M，MPI-INF 3DHP，MPIIHuman3.6M、HumanE-va-I、MPI-INF-3DHP、LSP+MPII Ordinal Human3.6M，MPII-INF- 3DHP，Ski-PosePTZ[129]人类3.6M，CMU泛光学[23]人3.6M，MPII，[第132话]Human3.6M，MPI-INF-3DHPHuman3.6M，HumanE-va-I，KTH Multiview Football-II[134] Human3.6M，MPII，LSPHuman3.6M，MPIIHuman3.6M、HumanE-va-I、LSPHuman3.6M，KTH Multi ‐ tiview Football-II Human3.6M，MPIIHuman3.6M，MPIIHuman3.6m，HumanE-va-I，KTH Multiview Football-II，LSP Human 3.6MHuman3.6MHuman3.6M，HumanE-va-I，HumanEva-II KTH多视角足球-II Human3.6MHuman3.6MHuman3.6MPosebit数据库2019年201920192019201820182018201820182018201820182018201720172017201720172017201720172017201620162016201620152014481虚拟现实智能硬件2020年12月第6通过2D姿态估计。Sanzari等人介绍了一种基于贝叶斯非参数模型的分层框架，用于3D姿态估计[145]。他们的模型依赖于人体部位的特殊运动的表示，这是通过将人体骨骼关节细分为组来捕获的。为每个组构造运动快照的字典，并且用于基于所提取的视觉特征来

下载后可阅读完整内容，剩余1页未读，立即下载