全局自我中心的三维人体姿态估计方法优于传统的外部相机方法

118 浏览量更新于2023-10-13 1 收藏 1.84MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

11500全局空间中以自我为中心的三维人体姿态估计Jian Wang1，2 Lingjie Liu1，2 Weipeng Xu3 Kripasindhu Sarkar1，2 Christian Theobalt1，21 MPIInformatics2 Saarland Informatics Campus3 Facebook Reality Labs{jianwang，lliu，ksarkar，theobalt} @ mpi-inf.mpg.dexuweipeng@fb.com摘要使用单个鱼眼相机的以自我为中心的3D人体姿态估计最近已经变得流行，因为它允许在不受约束的环境中捕获广泛的日常活动，这对于使用外部相机的传统的由外向内运动捕获是困难的。然而，现有方法具有若干限制。一个突出问题所估计的姿态位于鱼眼相机的局部坐标系中，而不是位于世界坐标系中，这对于许多应用是限制性的。此外，这些方法遭受有限的准确性和时间不稳定性，由于由单眼设置和严重遮挡在强烈扭曲的自我中心的角度引起的歧义。为了解决这些限制，我们提出了一种新的方法，使用一个单一的头戴式鱼眼相机的自我中心的全球3D身体姿态估计。为了实现准确且时间稳定的全局姿态，通过最小化热图重投影误差并强制执行从mocap数据集学习的局部和全局身体运动先验，在帧序列上执行时空优化。实验结果表明，我们的方法优于国家的最先进的方法，在定量和定性。1. 介绍具有外部的、由外向内的相机的传统光学运动捕捉系统对于许多姿势估计应用是限制性的，这些姿势估计应用要求人能够在超过固定记录体积的更大空间中漫游。示例包括移动交互应用、大规模工作环境中的姿态估计或许多AR/VR应用。为了实现这一点，研究了使用头戴式或身体安装式相机的以自我为中心的3D人体姿势估计的方法这些方法是可移动的、灵活的，并且即使在大规模杂乱的环境中也具有捕获广泛的日常人类活动一些以自我为中心的捕获方法研究面部[9，8，21]和手部运动[38，40，27，39]的估计，而全局全身姿势的估计较少硬件自我中心图像全局三维姿势图1.考虑到具有挑战性的自我中心的视频，我们的方法产生逼真和准确的3D全局姿态序列。探讨了Mo2 Cap2 [45]和xR-egopose [43]使用单个头戴式鱼眼相机以无标记的方式捕获3D骨骼身体姿势。这两种方法都已经证明了令人信服的3D姿态估计结果，同时仍然受到重要的限制：他们估计在自我中心的相机空间中的局部3D身体姿势，而不能获得在世界坐标系中具有全局位置和方向的身体姿势。此后，我们将把前者称为对于许多应用，单独的局部姿态捕获是不够的例如，所捕获的局部身体姿势不足以使虚拟化身在XR环境中的运动动画化，这需要全局姿势。直接的解决方案是简单地将局部姿态投影到世界坐标系中，其中重心相机姿态由SLAM估计然而，所获得的全局姿态表现出显著的不准确性。首先，它们示出了显著的时间抖动，因为视频帧被独立地处理而不采取时间帧相干性。其次，它们经常显示跟踪失败，原因是11501鱼眼摄像机的扭曲视图中的自遮挡。第三，由于彼此独立的局部姿态和估计的相机姿态之间的不一致性，所获得的全局姿态经常示出不真实的运动（诸如脚滑动和全局抖动）。为了解决这些挑战，我们提出了一种新颖的方法，用于利用单个头戴式鱼眼相机进行准确且时间稳定的以自我为中心的全局3D姿态估计，如图1B所示。1.一、为了获得时间上平滑的姿态序列，我们求助于时空优化框架，其中我们利用来自CNN检测的2D和3D关键点以及从大型mocap数据集学习的基于VAE的运动先验。基于VAE的运动先验已被证明有效地在像VIBE[19]和MEVA[25]的姿态估计方法中产生真实和平滑的运动。然而，由于在我们的优化过程中梯度的消失和爆炸，因此，我们提出了一种新的基于卷积VAE的运动先验，它可以实现更快的优化速度和更高的准确性。此外，为了减少由于强遮挡引起的误差，我们通过对热图上由3D估计的关节的投影占据的像素处的概率值求和而不是将3D估计的关节的投影与预测的2D关节位置进行比较，提出了新颖的不确定性感知的重投影能量项。最后，为了使局部身体姿势与SLAM估计的相机姿势一致我们在Mo2 Cap2 [45]提供的数据集上评估了我们的方法，同时也是我们收集的一个新基准，2个受试者执行各种运动。我们的方法比-形成了定量和定性的最先进的方法。我们的消融分析证实了我们提出的优化算法的有效性总而言之，我们的技术贡献如下：• 一种新的框架，用于从单目自我中心视频进行准确且时间稳定的全球3D人体姿势估计• 一种新的优化算法的辅助下，局部和全局运动先验捕获的一个有效的卷积网络的VAE。• 不确定性感知重投射损失，以减轻自我中心设置中自我闭塞的影响。• 我们的方法优于各种基线的估计的全球和本地姿势的准确性。我们的方法适用于各种运动在各种环境.我们推荐观看 http://gvv.mpi-inf.mpg.de/projects/globalegomocap中的视频以获得更好的可视化效果。2. 相关工作以自我为中心的3D全身姿势估计从以自我为中心的相机视角捕获全身运动近年来吸引了越来越多的关注，同时由于在以自我为中心的环境中很难从近距离观察整个身体而一些作品通过分析观察环境的运动来估计全身姿势。Shiratori等人[37]将16台摄像机连接到受试者的四肢和躯干，以通过执行环境的SFM来恢复人体姿势。Jiang和Grau-man [13]通过在长时间跨度上利用学习的动态和姿势耦合来Yuan和Kitani [47，48]使用视频调节控制技术来估计和预测物理上合理的人体运动。Rhodin等人[36]是第一个提出用头盔安装的立体鱼眼摄像机进行全身捕捉的方法Cha等人[5]利用递归神经网络从两个头戴式针孔相机估计3D身体姿势为了避免大设置的不便，一些研究人员使用单个宽视角鱼眼相机。Xu等[45]和Tomeet al.[43]使用紧凑的单目设置和开发的基于学习的方法来从单帧估计自我姿态Hwang等人[11]将超宽鱼眼相机安装在用户的胸部，并从单个鱼眼图像估计身体姿势、相机旋转和头部姿势。然而，这些方法既不利用时间一致性，也不确保预测运动的真实性。相反，我们的方法利用基于运动先验的优化方法来使预测一致和准确。为了提高姿态估计的准确性并使预测更真实，许多最近的方法利用从mocap数据集学习的先验。它们中的一些捕获高斯空间中的先验。例如，Bogoet al.[3]和Arnabet al. [2]通过将高斯混合拟合到CMU mocap数据集[1]来捕获优化SMPL身体模型[24]的先验。Pavlakos等人[34]训练VAE以学习AMASS数据集上SMPL参数的先验Zanfir等人[49]使用归一化流，以避免KL发散和VAE中的重建损失之间的折衷一些其他方法通过训练生成对抗网络（GAN）来结合姿态Yang等[46]开发具有多源鉴别器的对抗学习框架。Kanazawa等人[14，15]和Zhanget al. [51]训练每个关节旋转参数的鉴别器，以判断这些参数是否真实。Ko- Cabas等。[19]提出了一种具有基于RNN的鉴别器的时间网络架构，用于SMPL参数序列上的对抗训练。与以往的方法不同，我们的方法捕捉的是全局运动11502˜ ˜ ˜˜我H {H H}P {P P } P ∈seq1BP {P P}{I I}我优化的3D全局姿势热图图2.我们的方法概述。我们的方法需要一个以自我为中心的视频作为输入，并在段处理它。对于由固定数量的连续帧组成的每个片段，我们首先应用以自我为中心的姿势估计方法来获得初始3D局部姿势和2D热图，然后将其馈送到局部姿势优化框架中以获得优化的局部姿势。接着，结合从ORB-SLAM 2估计的相机位姿，将优化的3D局部位姿从局部自我中心相机空间变换到世界坐标空间，然后经由全局位姿优化来优化以产生最终的全局位姿。先前学习的轻量级顺序VAE，这使得能够在全局坐标系中直接优化。视频中的单目三维位姿估计单目三维位姿估计一直是研究的热点。一些方法预测2D关节并单独执行2D到3D提升[6，12，29]，而一些其他方法直接回归3D姿势[22，30，41，42，20]。这些方法处理单个图像，因此在视频序列中表现出为了解决这个问题，许多最近的方法利用来自视频的时间信息。Zhou等[52]引入EM方法来从整个序列上的2D预测估计3D姿态。Mehta等人[32]和Duet al. [7]在2D和3D姿态上应用时间滤波。Lin等 [23] ， Hossainet al. [10] ， Kocabaset al. [19] 和Katirciogluet al.[16]通过利用先前预测的2D和3D姿势，使用递归Pavllo等人[35]用时间卷积生成3D姿势，而Cai等人。[4]和Wanget al. [44]利用图卷积网络来捕获模板信息。Luo等人[26]首先用基于GRU的人体运动VAE得到粗运动，然后用残差估计网络细化运动。与以前的所有作品不同，我们的方法捕获运动先验与一维卷积为基础的顺序VAE，我们使用的VAE在我们的优化框架。3. 方法我们的目标是估计全球的身体姿势从视频序列捕获的头戴式鱼眼摄像机时代。我们在图中提供了我们的管道概述二、视频帧被分割成每个具有B帧的片段（在我们的实验中B=10）。我们的流水线采用由B个连续帧组成的一个段，seq=1、. . .，B的全局姿态作为输入和输出，g=g，. . .，g. 对于每个片段，我们首先使用以自我为中心的局部身体姿势估计方法计算每个帧的3D局部姿势和2D热图（第二节）。第3.1节）。接下来，我们从AMASS数据集[28]的局部运动序列中学习局部运动先验，并使用顺序VAE [18]（第二节）。3.2.1），并且通过最小化热图重投影项和若干正则化项来执行具有局部运动先验3.2.2）。给定优化的局部姿态，我们将它们从局部鱼眼相机空间变换到具有通过SLAM方法估计的相机姿态的世界坐标系，以得到初始全局姿态（第12节）。3.3.1）。为了改善全局姿态，我们通过在AMASS数据集的全局运动序列上训练第二顺序VAE来学习全局姿态先验，并且在时空全局姿态优化中施加全局姿态先验（第22节）。3.3.2）。请参阅补充质询我们的实施细节的材料。3.1. 局部位姿估计给定包含B个连续帧seq的片段，我们估计由15个关节位置seq=1，. . . ，B，iR15×3，以及2D热图seq=1，. . . ，B使用自我中心的局部姿态估计方法。注意，我们的方法可以与任何以自我为中心的局部姿态估计方法一起工作在我们的实验中，我们评估我们的方法对两个国家的结果现有技术方法：Mo2 Cap2[45]和X R-自我（egopose）[43]。满贯3D局部姿势局部姿态优化器（第二节）3.2）全局姿态优化器（第二节）3.3）自我中心图像序列自我中心姿态估计（第二节）第3.1节）优化的3D局部姿态11503P˜^Q{Q Q}Q∈Q {Q Q } Q ∈2N√~PPB2Q_seq在潜在空间中的投影分布我的热图我23.2. 局部位姿优化虽然Mo2 Cap2和xR-自我定位可以产生复杂的结果，但这两种方法都存在有限的精度和时间不稳定性，这主要是由于单目设置和自适应引起的深度模糊- 学习的潜在空间，使得重构的局部姿态序列seq=fdec（z）最小化以下目标函数：在一个强烈扭曲的自我中心的角度来看，严重闭塞。为了改善局部姿态，我们设计了一个有效的空间-E（Pseq）=λR ER（Pseq）+λJ EJ（Pseq，Pseq）+λT ET（Pseq）+λB EB（Pseq）（二）时间优化框架，其首先学习局部姿态先验作为具有顺序VAE的潜在空间[18]（Sec. 3.2.1），然后通过最小化重投影项和一些正则化项来在学习的潜在空间中搜索潜在向量（第3.2.1节）。3.2.2）。3.2.1学习运动优先级为了构建潜在空间编码局部运动先验，我们在AMASS数据集[28]的局部运动序列上训练顺序VAE[18]，这些局部运动序列被分成用于训练的片段。我们将由B个连续姿态组成的段表示为seq=1，. . .、B（iR15×3）。顺序VAE由编码器f_enc和解码器f_dec组成。编码器用于将人类局部姿态的输入序列Q_seq映射到潜在向量z，并且解码器用于将人类局部姿态的输入序列Q_seq映射到潜在向量z。重建姿态序列，seq=1，. . .，B（iR15×3）。在[18]之后，VAE的训练损失被公式化为：其中E R（. ）、E J（. ）、ET（. ），E B（. ）分别是重投影项、姿态正则化项、运动平滑正则化项和骨长度正则化项，我们将在后面详细描述。在我们的实验中，我们设置权重λ R=0。01，λ J=0。01，λ T=1且λ B=0。01，分别。基于热图的重投影：先前的工作[2，3，34，50]通过对估计的3D关节的投影和检测到的2D关节的投影之间的欧几里得距离值求和来计算重投影项。然而，这种计算是敏感的2D联合检测错误，由于强烈的自我遮挡所造成的自我中心的角度。为了解决这个问题，我们通过利用预测的2D热图中捕获的不确定性来定义基于热图的重投影误差，其中每个像素处的值描述该像素是2D关节的通过最大化重新投影的2D关节位置处的求和热图值来计算该新的重新投影项L总 =c1？Q^ seq - Q序列¨2(1)B+c2KL[q（z| Qse q）N（0，I）]ER（Pseq）=−ΣHMi（Π（Pi））2（3）其中，z=fen c（Qseq），Q_seq=fde c（z），q（z|Qse q）指的是i=1其中HM（. ）返回H上某个像素处的值，（0，I）是指标准正态分布，KL（. ）是指Kullback-Leibler散度。与先前的姿态估计方法[19]不同，其利用基于RNN的VAE来捕获运动先验，编码器f_enc和解码器f_dec都是第i帧。Π（. ）是指3D点的投影。具体地，3D点[x，y，z]T的投影可以写为：[x，y]T×f（ρ）（4）我们的顺序VAE被设计为5层1D卷积。[u，v]= √x2+y2国家网络。与基于RNN的VAE相比，的我们的顺序VAE中的卷积网络在优化迭代中更有效，因为它可以在时间序列上被并行化。此外，RNN更容易遭受消失和爆炸梯度，这使得优化过程不太稳定。我们将我们方法中的顺序VAE与VIBE [19]和MEVA[25]中基于RNN的VAE进行了比较。4.4补充材料中显示了顺序VAE其中ρ=arctan（z/x2+y2）且f（ρ）=α0+α1ρ+α2ρ2+ α3ρ3+。. . 是从相机校准获得的多项式。姿态正则化：为了约束优化的姿态i以保持接近初始姿态i，我们将姿态正则化器定义为：Σ¨ ¨3.2.2基于局部运动先验的利用学习到的局部运动的潜在空间，EJ（Pseq，P~seq）=i=1¨Pi−P~i¨2（5）利用局部运动先验优化局部姿态可以被公式化为在运动平滑正则化：与[31]相同，时间平滑度正则化器（等式32）是时间平滑度正则化器。（6）用于改善不11504我···˜ΣE（P）=P−PTseqi i−1B姿态序列Pseq~，Pseq我我seq2¨图3.潜空间内插。最左边和最右边的姿势序列（挥手和跳跃）是从两个随机采样的潜在向量重建，和中间的姿势序列是从左，右潜在向量之间的线性插值重建。使用全局姿态优化器图4.具有/不具有全局姿势优化器的全局姿势放大左脚以进行更好的比较。在主体部分上检测到的点为了有效性和鲁棒性，我们使用固定的利用估计的相机姿态（ Ri， ti）（i=1，…，B），可以将局部身体姿态Pi变换到世界坐标空间中以获得其初始全局身体姿态P-g：P~g=Ri·Pi+ti，P~g∈P~gG（八）序列：B第二章（六）其中，Pseq是对应的初始全局姿态段pseq.3.3.2全局姿态优化器I=2其中，Pi=Pi− Pi−1。骨长度规则化：为了明确地强制每个骨骼长度保持固定的约束，我们将骨骼长度正则化器定义为骨骼长度与姿势序列上的平均骨骼长度之间的差。ΣB简单地将局部姿势与相机姿势组合将不会实现非常高质量的全局姿势，因为优化的局部身体姿势不被约束为与对应的相机姿势一致。例如，图1B的左侧部分中的初始全局姿态4患有脚滑神器，这意味着脚在应该保持在地面上的固定位置时移动。为了减轻这种不一致的错误，我们执行另一个时空优化的初始全局姿态。我们首先EB（Pseq）=i=11LPi−B¨j=1LPj2（七）以与第2节中所述相同的方式，在来自AMASS数据集的3.2.1. 为了测量我们学习的潜在空间的平滑度，我们其中，LPi是由每个LPi3D姿态P1的骨骼。3.3. 全局姿态估计基于由局部位姿优化器优化的位姿，我们寻求在全局坐标系中获得3D位姿。我做了一个插入两种不同身体运动的实验。结果显示在图。3证明了学习的潜在空间是平滑的（也请参见补充视频中的此结果），这对于后续的优化过程很重要。利用学习到的全局运动的潜在空间，我们寻找潜在向量zg，使得全局我们首先使用单目SLAM来获得相机姿态序列，并将局部姿态序列投影到全局空间（Sec.3.3.1），然后我们优化初始全局姿态序列与我们的全局姿态优化器（第二。3.3.2）。gseq目标函数：GDec（zg）最小化以下gseq ）=λJ EJ（Pg+λB EB（Pggseq））+λT ET（Pg）（九）3.3.1初始化为了获得初始全局身体姿势，我们首先使用ORB-SLAM 2 [33]估计为了避免在自我中心观点中移动的人所造成的影响，我们采用了一个大致覆盖身体大部分的正方形掩模来去除大部分特征seq其中E J（. ）、ET（. ），E B（. ）同3.2.2，λJ、λT、λB分别取0.01、1、0.01。优化结果的示例在图的右侧部分中示出。4，其中由于我们的全局优化器，脚滑伪影得到缓解。2=fE（P估计的姿态的时间稳定性，其基于每个关节在整体115054. 实验4.1. 数据集在[45]和[43]之后，我们在来自Mo2 Cap2的合成数据集上训练我们的局部自我中心姿态估计器。我们使用AMASS数据集[28]来训练我们的序列VAE。为了使训练数据中的关节位置分布与真实世界数据中的关节位置分布一致，我们设置了一个虚拟鱼眼相机，该相机连接到人体网格的前额，距离与我们的捕获设置相似。我们在Mo2 Cap2 [45]的真实世界数据集和一个新的以自我为中心的数据集上评估了我们的方法。我们新的真实世界数据集是使用头戴式鱼眼相机拍摄的，相机位置与Mo2Cap2相似[45]而地面真实3D姿态是使用多视角动作捕捉系统。这个数据集包含大约12k帧，其中有2个演员穿着不同的衣服，执行13种动作。这一数据集将向公众提供，其进一步详情见补充材料。4.2. 评估指标我们用三种不同的度量评估我们的方法，即PA-MPJPE、骨长度对齐的MPJPE（BA-MPJPE）和全局MPJPE 。它们都计算平均每关节位置误差（MPJPE），但使用不同的方式与地面实况对齐。对于PA-MPJPE，我们严格地使用具有Procrustes分析的P_seq将每个帧的估计姿态与地面真实姿态P_seq对齐[17]。F或BA-MPJPE，我们首先将序列Pseq和Pseq中的每个帧的骨骼长度调整为标准骨骼的骨骼长度然后，我们计算了两个结果序列。对于全局MPJPE，我们使用Procrustes分析将每个批次（100帧）的所有姿势与地面每个指标都有自己的重点。PA-MPJPE测量单个姿势的准确性全局MPJPE计算全局关节位置的精度，考虑全局平移和旋转。4.3. 与最新技术水平结果的表1将我们的方法与我们的数据集和Mo2 Cap2数据集的室内序列上的先前最先进的基于单帧的方法进行比较。由于xR-egopose的代码或预测不是公开的，我们使用我们的实现代替。为了获得Mo2 Cap2和xR-自我姿态的全局姿态，我们将局部预测刚性地转换到具有由SLAM估计的相机姿态的该全局姿态被认为是我们的主基线并且被表示为Mo 2Cap2（或XR-egopose）+SLAM。由于来自ORB-SLAM 2的摄像机姿态对于场景尺度是模糊的，因此我们通过使用方法全球MPJPEPA-MPJPEBA-MPJPEMo2 Cap2测试数据集Mo2 Cap2 +SLAM117.480.4861.40Mo2帽2+SLAM+光滑113.076.9258.25Mo2 Cap2+我们的110.569.8752.90xR-egopose+SLAM114.071.3355.43xR-自我+SLAM+平滑112.270.2754.03xR-自我+我们的110.166.7450.52测试数据集Mo2 Cap2 +SLAM141.8102.374.46Mo2帽2+SLAM+光滑135.596.3770.84Mo2 Cap2+我们的119.582.0662.07xR-egopose+SLAM163.4112.087.20xR-自我+SLAM+平滑158.1109.684.70xR-自我+我们的134.184.9764.31表1. Mo2 Cap2测试数据集[45]和我们的测试数据集上的实验结果。Mo2 Cap2（或xR-自我）+ Ours是我们基于Mo2 Cap2（或xR-自我）预测的方法的结果。我们的方法在所有三个度量中优于先前最先进的Mo2Cap2 [45]和XR-egopose[43在序列的前几帧中的棋盘。注意，由于Mo2 Cap2数据集不提供具有棋盘的帧，因此我们应用Procrustes分析来将由SLAM估计的轨迹与地面实况轨迹对齐以计算比例。为了公平的比较，我们还使用高斯滤波器对Mo2Cap2和XR-自我姿态的全局姿态进行平滑，并将结果表示为Mo2 Cap2（或XR-自我姿态）+ SLAM +平滑。从这些比较中，我们观察到显着的IM-证明了该方法可以提高以自我为中心的视频的姿态估计结果的准确性。请同时参考BA- MPJPE关于每种动议的补充材料对于定性评估，我们在图5中显示了Mo2Cap2和我们的方法（基于Mo2 Cap2）之间的比较。请观看我们的补充视频了解更多结果。我们的方法还具有估计全局身体姿势的能力，如图所示。6、我们的视频在图6中，我们通过将预测的全局姿态投影到外部相机来展示我们的全局姿态估计的准确性。4.4. 消融研究我们进一步进行实验，以评估我们的方法的各个组成部分的效果我们使用Mo2 Cap2作为我们所有消融研究的局部姿态估计器，以使结果具有可比性。局部/全局姿态优化器。在这个实验中，为了研究我们的局部和全局优化器的功效，我们在从我们的整体中移除局部姿势优化器或全局姿势优化器之后评估我们的方法。11506输入图像Mo2 Cap2 + SLAM Mo2 Cap2 + SLAM我们输入图像Mo2 Cap2 + SLAMMo2 Cap2 +SLAM我们输入图像Mo2 Cap2 + SLAM Mo2 Cap2 + SLAM +我们+平滑+平滑光滑图5.定性比较单个姿态的精度。从左至右：输入图像、用SLAM投影的Mo 2 Cap 2结果（绿色）、用SLAM投影的平滑Mo 2 Cap2结果（绿色）以及覆盖在地面实况（红色）上的我们的结果（绿色）。请注意，为了更好地显示结果，我们严格地将估计的姿势与地面实况对齐。图6.全局姿态估计结果来自第三视角相机。顶行：输入的自我中心图像，底行：所估计的3D姿态投影在外部相机上。没有我们的运动先验的框架直接优化-设置3D姿态Pseq 其中E（Pseq）而不是优化表2.消融研究的定量结果渠道.结果显示在表2的第2行和第3行中，这表明两个模块对我们的方法都很局部姿态优化器中的热图重投影误差确保优化的3D姿态符合2D预测的约束。全局姿态优化器中的VAE先验保持身体肢体的运动与全局相机姿态一致，从而改善全局MPJPE和局部MPJPE。有动议前科。为了验证运动先验的重要性，我们测试了我们的优化性能VAE 我们评估了我们的数据集上没有运动先验的方法，并在图中显示了我们的结果之一。7.第一次会议。在该图中，输入图像中的人腿严重闭塞图像的模糊性显著降低了我们的单帧姿态估计网络的准确性。在没有运动先验的情况下，我们的优化框架不能解决模糊性并且误差仍然很大，而在我们的方法中，运动先验能够校正估计的姿态。表2第4行中的定性评价也证实了我们的主张。有了运动先验，我们的时空优化框架能够使姿势预测更平滑，更不模糊。我们还将我们的先验与[3，2，20]中使用的高斯混合模型（GMM）先验和[34]中使用的单帧VAE先验进行了与GMM先验相比然后，我们用局部和全局GMM代替我们的方法中的局部和全局VAE，并评估三个MPJPE，如表2的第5行所示。GMM先验的性能较差，因为VAE使用神经网络作为特征提取器，使其更容易捕获先验。当比较-方法全球MPJPEPA-MPJPE BA-MPJPEMo2 Cap2 + SLAM141.8102.374.46无本地优化134.796.3370.77无全局优化。123.184.9964.10无运动先验128.192.3168.10W. GMM125.090.1267.50W.单帧VAE122.287.0465.58W. VBE中的VAE126.786.4866.46W. MEVA中的VAE121.684.4963.69W.基于MLP的VAE122.285.0765.05传统的reprise128.289.9767.99Mo2 Cap2+我们的119.582.0662.0711507PP输入图像Mo2 Cap2 + SLAM，无运动优先于我们图7.我们的方法之间的比较有和没有运动的先验。从左至右：输入图像，Mo 2 Cap 2+ SLAM（绿色），没有运动先验的结果（绿色）和具有运动先验的结果（我们的结果）（绿色）覆盖在地面实况（红色）上。图8. E（seq）-不同VAE的迭代曲线。我们的方法在优化过程中保持稳定的同时给出了最低的误差。使用基于单帧的VAE先验，我们在AMASS数据集上训练采用单输入姿态的VAE网络，并在局部优化器中用单帧VAE代替VAE。评价结果示于表2的第6行。单帧VAE不能随时间捕获先验，使得其不如我们的顺序VAE有效基于CNN的序列VAE。我们使用基于CNN的顺序VAE而不是基于RNN的VAE，以获得更好的效率和优化稳定性。为了评估我们的优势，我们用VIBE [19]或MEVA [25]中的VAE替换局部和全局优化器中基于CNN的顺序VAE（参见补充材料以了解实现细节），并在表2的第7至第9行中报告结果。结果证明，我们的基于CNN的VAE在优化精度方面优于其他人，这可以归因于更稳定的优化过程。为了证明这一点，我们展示了局部姿态优化过程的E（seq）迭代曲线（第二节）。3.2.2），其中基于RNN的VAE由于梯度爆炸问题而不太稳定。为了显示基于CNN的VAE的效率，我们评估了优化所需的时间。我们的方法每10帧分段需要195.7ms，而VIBE和MEVA中基于RNN的VAE每段分别需要552.1ms和1139.4ms。我们还比较了我们的基于CNN的VAE与基于多层感知器（MLP）的VAE。根据图如表8和表2的第10行所示，基于MLP的VAE性能较差，因为它没有被设计成2D检测右侧热图比较缩放比较图9.热图重投影误差与传统重投影误差的比较。在左起第三和第四张图像中，我们显示了绿色骨架中热图重投影误差的结果和蓝色骨架中传统重投影误差的结果。捕获姿势序列的时间上下文。热图重投影错误。在这项工作中，我们使用热图重投影误差，而许多以前的工作通过计算估计的2D关节和相应的投影3D关节之间的距离来获得重投影误差[2，3，34，50]。为了评估热图重新投影误差相对于先前方法的改进，我们用[3]中的传统重新投影误差替换我们的流水线中的热图重新投影误差，并将其与我们的方法进行比较。在图中所示的定性评价中。如图9所示，2D姿态估计给出了右手位置的错误结果，而地面实况手位置仍然被热图覆盖。我们的热图重投影误差可以平衡热图中的这种不确定性，并且给出比常规重投影误差更好我们还在表2的第10行中示出了定量结果。这些结果验证了我们的热图重投影误差的优势。5. 结论在本文中，我们提出了一种方法来估计全球构成与一个单一的头戴式鱼眼相机。这通过在我们的时空优化框架中采用新的策略来实现：（1）顺序VAE以有效地捕获身体运动先验。(2)全局运动，以确保局部身体运动和相机姿态之间的一致性（3）基于热图的重投影误差项，以利用预测热图中的不确定性大量的实验表明，我们的方法优于国家的最先进的方法。我们进一步评估我们的方法的各个组成部分的效果。在未来的工作中，我们将研究解决这个问题的方法，如深度传感器的集成。其他未来的研究方向包括使用优化的三维姿态在现实世界中微调本地姿态估计网络和应用我们的方法，多人的情况下。致谢Jian Wang、Kripasindhu Sarkar和Christian Theobalt得到了ERC Consolidator Grant 4DReply（770784）的支持，Lingjie Liu得到了Lise Meitner博士后奖学金的支持。11508引用[1] CMUmocap数据集。http://mocap.cs.cmu.edu/，2008年。2[2] Anurag Arnab，Carl Doersch，and Andrew Zisserman.野外三维人体姿态估计的时间背景开发。在IEEE计算机视觉和模式识别会议上，第3395-3404页，2019年。二、四、七、八[3] Federica Bogo，Angjoo Kanazawa，Christoph Lassner，Pe- ter V. Gehler，Javier Romero，and Michael J.黑色.保持它SMPL：从单个图像自动估计3D人体姿势和形状。欧洲计算机视觉会议，第9909卷，第561-578页，2016年。二、四、七、八[4] Yujun Cai，Liuhao Ge，Jun Liu，Jianfei Cai，Tat-JenCham，Junsong Yuan，and Nadia Magnenat-Thalmann.利用空间-时间关系通过图形卷积网络进行3d姿态估计。在IEEE计算机视觉国际会议上，第2272-2281页，2019年。3[5] Y. Cha，T. Price，Z. Wei，X. Lu，N.鲁科夫斯基河查布拉Z. Qin，H.金，Z.Su，Y.Liu，中国粘蝇A.Ilie，A.State，Z.许、J. Frahm和H.福克斯朝向仅使用头戴式摄像机的完全移动的3D面部、身体和环境捕获。IEEE Transactions onVisualization and Computer Graphics，24（11）：2993-3004，2018。2[6] 陈景航和德瓦·拉曼南。3D人体姿态估计= 2D姿态估计+匹配。在IEEE计算机视觉和模式识别会议上，第5759-5767页3[7] Yu Du，Yongkang Wong，Yonghao Liu，Feilin Han，Yilin Gui ， Zhen Wang ， Mohan S. Kankanhalli ， andWeidong Geng.基于单目图像序列和高度图的无标记三维人体运动捕捉。在European Conference on ComputerVision，第9908卷，第203[8] Mohamed Elgharib ， Mallikarjun BR ， Ayush Tewari ，Hyeongwoo Kim，Wentao Liu，Hans-Peter Seidel，andChris-tian Theobalt.自我脸：以自我为中心的面部表现捕捉和视频逼真的重演，2019年。1[9] Mohamed Elgharib ， Mohit Mendiratta ， Justus Thies ，Matthias Nießner， Hans-Peter Seidel，Ayush Tewari，Vladislav Golyanik，and Christian Theobalt.以自我为中心的视频会议 ACM Transactions on Graphics ， 39（6），2020年12月。1[10] 作者：Mir Rayat Imtiaz Hossain和James J.点利用时间资讯进行三维人体姿态估测。在欧洲计算机视觉会议，第11214卷，第69-86页3[11] 黄东贤、麻生康平、叶远、Kris Kitani、小池秀树。Monoeye：使用单个超宽鱼眼相机的多模式人体运动ACM用户界面软件技术研讨会，第98-111页，2020年。2[12] Ehsan Jahangiri和Alan L.尤尔。生成与2d关节检测一致的人类3d姿态的多个不同假设在IEEE计算机视觉研讨会国际会议上，第805-814页，2017年。3[13] Hao Jiang和Kristen Grauman。看不见的姿势：从自我中心的视频中估计3D身体姿势。在IEEE Con中11509计算机视觉和模式识别，第3501-3509页，2017年。2[14] 作者：Michael J.作者：David W.雅各布斯和吉坦德拉·马利克端到端恢复人体形状和姿势。在IEEE计算机视觉和模式识别会议上，第7122-7131页，2018年。2[15] 作者：Jason Y.张，潘纳·费尔森，和吉滕德拉·马利克.从视频中学习三维人体动力学。在IEEE计算机视觉和模式识别会议上，第5614-5623页，2019年。2[16] Isinsu Katircioglu、Bugra Tekin、Mathieu Salzmann、Vincent Lepetit和Pascal Fua。用深度神经网络学习3d人体姿势 Int. J. Comput.目视，126（12）：1326-1341，2018. 3[17] 大卫·G·肯德尔形状的统计理论综述Statistical Science，第87-99页，1989年。6[18] 迪德里克山口金玛和麦克斯·威林自动编码变分贝叶斯。2014年，在学习代表国际会议上。三、四[19] Muhammed Kocabas、Nikos Athanasiou和Michael J.黑色. VIBE：人体姿势和形状估计的视频推理。在IEEE计算机视觉和模式识别会议上，第5252-5262页，2020年。二、三、四、八[20] 放大图片作者：Michael J.布莱克和科斯塔斯·丹尼利迪斯学习通过循环中的模型拟合重建3d人体姿势和形状。在 IEEE International Conference on ComputerVision，第2252-2261页，2019年。三、七[21] 放大图片作者： Hao Li ， Laura C.Trutoiu ， KyleOlszewski ， Lingyu Wei ， Tris-tan Trutna ， Pei-LunHsieh，Aaron Nicholls，and Chongyang Ma.脸部表现感测头戴式显示器。ACM事务处理图表，34（4）：47：1-47：9，2015. 1[22] Sijin Li和Antoni B.陈基于深度卷积神经网络的单目图像三维人体姿态估计。在 Asian Conference onComputer Vision，第9004卷，第332-347页，2014年。3[23] Mude Lin，Liang Lin，Xiaodan Liang，Keze Wang，and Hui Cheng. 循环3d姿态序列机器。在IEEE计算机视觉和模式识别会议上，第5543-5552页3[24] Matthew Loper、Naureen Mahmood、Javier Romero、Gerard Pons-Moll和Michael J.黑色. SMPL：一个多人皮肤线性模型。ACM Trans. Graphics（

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

全局自我中心的三维人体姿态估计方法优于传统的外部相机方法

三维网格姿态估计技术的现状挑战是什么

基于openpose的人体姿态估计算法

matlab 2021a 实现双目相机三维重构

opencv下的立体匹配和三维定位

双目 三维 重建 opencv

双目三维重建技术原理

深度学习的三维点云补全方法

openmvg和openmvs三维重建原理

基于OpenSfM的单目三维重建实现详细步骤

相机运动估计国内外研究现状

vkt三维重建算法c++

SFM三维点云建模的建模算法

全局优化 open3d

姿态估计1-00:hr-net(人体姿态估算)-目录-史上最新无死角讲解

如何用C语言定义一个全局变量的二维数组

matlab 双目视觉三维重构

python已知视差求三维坐标

主动立体视觉三维重建matlab代码

最新资源

双目三维重建 opencv