单目全捕捉：单目视图中捕获目标人物的3D全身运动

179 浏览量更新于2023-10-18 收藏 2.4MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1单目全捕捉：在野外摆出脸部、身体和手的姿势卡内基梅隆大学{donglaix，hanbyulj，yaser}@ cs.cmu.edu图1：我们提出了第一种方法，从单目视图输入同时捕获目标人物的3D全身运动。对于每个示例，（左）输入图像和（右）3D全身运动捕获结果覆盖在输入上摘要我们提出了第一种方法来捕捉3D总运动的目标人从单目视图输入。给定一个图像或单目视频，我们的方法重建的运动从身体，面部和手指表示的3D可变形网格模型。我们使用一个有效的表示，称为三维部分方向字段（POFs），编码的3D方向的所有身体部位在共同的2D图像空间。POF由全卷积网络预测，以及联合置信度图。为了训练我们的网络，我们收集了一个新的3D人体运动数据集，在多视图系统中捕获40个受试者的不同全身运动。我们利用3D可变形人体模型，在模型中的姿势和形状先验的帮助下，从CNN输出中重建全身姿势我们还提出了一种基于纹理的跟踪方法，以获得时间上一致的运动捕捉输出。我们进行了全面的定量评估，包括与现有的身体特定和手特定的方法进行比较，并对摄像机视点和人体姿势变化进行了性能分析最后，我们展示了我们的全身动作捕捉各种具有挑战性的野外视频的结果。公司网址：http://domedb.perception.cs.cmu.edu/mtc1. 介绍人体运动捕捉对于许多应用是必不可少的，包括视觉效果、机器人、运动分析、医学应用和人类社会行为理解。然而，捕捉3D人体运动通常是昂贵的，需要具有多个摄像机的特殊运动捕捉系统例如，最广泛使用的系统[2]需要多个校准的摄像机，其具有小心地附接到受试者身体的反射标记。积极研究的无标记方法也基于多视图系统[21，29，19，25，26]或深度相机[50，7]。由于这个原因，可用的3D运动数据量极其有限。从单个图像或视频捕获3D人体运动可以通过增加3D人体运动数据的可访问性，特别是通过将互联网上的所有人体活动视频转换为大规模3D人体运动语料库，为许多应用提供巨大的突破。然而，由于基本的深度模糊性，从单目图像或视频重建3D人体姿势或运动是极具挑战性的有趣的是，人类能够几乎毫不费力地从单个视图中推理出3D人体运动，大概是通过获取关于可行的3D人体运动的强先验知识。受此启发，在过去几年中已经提出了几种基于学习的方法来从单目视频（im-video）预测3D人体运动（姿势）1096510966年龄）[58，44，4，60，9，35，33，73，27，36，69]使用可用2D和3D人体姿势数据集[5，28，1，22，25]。最近，已经引入了类似的方法来从单目视图预测3D手部姿势[74，37，12]。然而，由于缺乏提供成对图像和3D姿态数据的可用的野外3D身体或手数据集，仍然存在基本困难;因此，大多数先前的方法仅在受控的实验室环境中证明结果。重要的是，不存在可以从单个视图重建包括身体、手和面部在内的所有身体部位的运动的方法，尽管这对于充分理解人类行为很重要。在本文中，我们的目标是使用在野外捕获的单目图像重建人的3D总运动[26]。这一雄心勃勃的目标需要解决复杂的3D姿态估计问题的不同的身体部位，这往往被认为是单独的研究领域。值得注意的是，我们将我们的方法应用于野外情况（例如，YouTube上的视频），这在以前的工作中很少被证明我们使用一个名为部分方向字段（POFs）的3D表示，有效地编码在2D空间中的身体部位的3D方向POF是为连接躯干、四肢和手指中相邻关节的每个身体部位定义的，并且表示刚性部位的相对3D方向，而不管3D Cartesian坐标的原点。POF可通过全卷积网络（FCN）以及2D联合置信度图进行有效预测[63，68，15]。为了训练我们的网络，我们收集了一个新的3D人体运动数据集，其中包含来自40个受试者的不同身体，手部和面部运动。身体、手部和面部采用单独的CNN，它们的输出在统一的优化框架中合并在一起。我们利用为总捕获而构建的3D可变形模型[25]，以利用嵌入模型中在我们的优化框架中，我们将模型拟合到每帧的CNN测量值，以同时估计身体、面部、手指和脚的3D运动。我们的网格输出还使我们能够通过优化纹理空间中的光度一致性来进一步细化运动捕捉结果，以获得更好的时间一致性本文提出了在各种具有挑战性的野外场景（例如，图1）。我们证明，我们的单一框架工作取得了可比的结果，现有的最先进的3D身体或只手的姿态估计方法在公共基准。值得注意的是，我们的方法适用于各种野外视频，这在3D身体或手部估计领域很少得到我们还进行了彻底的实验，我们新收集的数据集，定量评估我们的方法的性能方面的观点和身体姿势的变化。本文的主要贡献总结如下：• 我们提出了第一种方法来产生3D总运动捕捉结果从单目图像或视频在各种具有挑战性的野外场景。• 我们介绍了一个优化框架，以适应3D POF和2D关键点测量全身姿势估计的可变形人体模型，显示在3D身体和3D手估计基准上，与最先进的方法的结果相当。• 我们提出了一种方法，以加强光度一致性跨时间，以减少运动抖动。• 我们捕获了一个新的3D人体运动数据集，40个科目作为训练和评估数据的单目总运动捕捉。2. 相关工作单个图像2D人体姿态估计：在过去几年中，通过利用具有深度卷积神经网络（CNN）框架的大规模手动注释数据集[28，5]，在从单个图像[64，63，11，68，38，15]中检测2D人体关键点方面取得了很大进展。特别是，通过使用全卷积架构为每个关节产生具有热图表示的置信度得分[63，68，38，15]来促进主要突破，已知这比直接回归具有全连接层的关节位置更有效[64]。最近的一项工作[15]学习了相邻关节对之间的连接性，称为2D热图形式的部分亲和场（PAF），以在多人2D姿势估计问题中为不同的个体组装2D关键点。单图像3D人体姿态估计：早期的工作[44，4]将3D人体姿势空间建模为从3D人体运动数据库中学习的过完备字典[1]。最近的方法依赖于深度神经网络，其大致分为两阶段方法和直接估计方法。两阶段方法将2D关键点估计作为输入，并专注于将2D人体姿势提升到3D，而不考虑输入图像[9，17，33，36，39，20]。这些方法忽略了编码3D信息的图像中的丰富信息，例如阴影和外观，并且还遭受对2D定位误差的敏感性。直接估计方法以直接坐标回归[46，55，56]、体素[42，32，66]或深度图[73]的形式直接从图像预测与我们类似，最近的工作使用3D方向场[31]作为3D身体姿势的中间表示然而，这些模型通常是在MoCap数据集上训练的，推广到野外场景的能力有限由于上述局限性，已经提出了一些方法来整合关于人体姿态的先验知识10967i=1i=1i=1i=1我 i=1模型拟合（第5节）美国有线电视新闻零件方向字段L联合置信度图S模型参数表输入图像Ii可变形人体模型Input ImageIi−1图2：我们的方法概述我们的方法由CNN部分，网格拟合部分和网格跟踪部分组成以获得更好的野外性能。一些工作[41，48，67]建议使用顺序深度作为对对于每一帧。给定一个N帧视频序列，我们的方法产生三维人体的参数CNN训练中引入了额外的损失函数，模型，包括身体运动参数{θi}N，面部[73，18]对预测的骨长度实施约束，表达式参数{σi}N，以及全局翻译页-关节角度一些工作[27，70]使用生成副词-参数{ti}N. 身体运动参数θ包括sarial网络（GAN）利用人体姿势先验，数据驱动方式。单目手部姿势估计：手姿态估计通常被认为是一个独立的研究领域从身体姿态估计。大多数以前的工作是基于深度图像作为输入[40，54，49，52，65，71]。最近已经引入了基于RGB的方法，用于2D关键点估计[51]和3D姿态估计[74，12，23]。3D可变形人体模型：3D可变形模型通常用于无标记身体[6，30，43]和面部运动捕获[8，13]，以将重建输出限制在模型定义的形状和运动空间。尽管输出受到模型表达能力的限制（例如，一些身体模型不能表示衣服，一些面部模型不能表示皱纹），它们大大简化了3D运动捕捉问题。我们可以根据可用的测量结果，通过优化成本函数的模型参数来拟合模型最近，Romero等人提出了一种可以表示人体和手的 [47]亚当模型是由Joo等人引入的。[26]为了实现全身运动捕获（面部、身体和手），我们采用手和脚的运动，连同全局旋转，身体我们的方法还估计了序列中所有帧之间共享的形状系数φ，而θ，σ和t分别为每个帧估计。这里，输出参数由3D可变形人体模型Adam [26]定义然而，我们的方法也可以应用于仅捕获总运动的子集（例如，仅使用SMPL模型的身体运动[30]或仅通过[26]中弗兰肯斯坦的单独手模型的手运动）。我们将所有参数（φ，θ，σ，t）的集合表示为φ，并将第i帧的结果表示为φi。我们的方法分为3个阶段，如图所示。二、在第一阶段，将每幅图像输入卷积神经网络（CNN），获得身体部位的联合置信度图和3D方向信息，我们称之在第二阶段，我们通过在CNN产生的图像测量上拟合可变形的人体网格模型[26]来估计全身姿势。我们利用嵌入在人体模型中的先验信息，该阶段独立地产生每个帧的3D姿态，由以下参数表示：单目完全捕获。可变形模型N. 在第三阶段，我们-人体跟踪的光度一致性：纹理的光度一致性已用于各种先前的工作中，以提高身体跟踪[45]和面部跟踪[61，62]的鲁棒性。一些工作[16，10]还使用光流来对齐渲染的3D人体模型。在这项工作中，我们提高了时间的一致性，我们的输出的照片一致性项，显着减少抖动。据我们所知，这3. 方法概述我们的方法将从单目RGB相机捕获单个人的运动的图像序列作为输入，并以可变形的3D人体模型的形式输出目标人的3D全身运动（包括身体，面部，手和脚的运动）[30，26]增强跨帧的时间一致性，减少运动抖动。根据第二阶段的拟合结果，我们定义了一个代价函数，以保证网格模型纹理域中的光度一致性这一阶段产生精细的模型参数{N+}N。这个阶段对于获得逼真的身体运动捕捉输出至关重要4. 预测3D零件方向场3D部件取向场（POF）对铰接结构的身体部分的3D取向进行编码（例如，四肢、躯干和手指）。在最近的文献[31]中使用了相同我们以一组“（父，子）”对1的形式预定义人类骨架层次结构S一个刚性的身体部分连接-[1]参见附录，了解我们的身体和手骨架定义。型号参数+我网格跟踪（第六、i−1型号参数+10968JMJM相机中心JNJNx通道y通道z通道⎡ ⎤0的情况。269P（m，n）=0。785⎦-0。559（m，n）2DMPOFPOF（m，n）POFˆ-1.01.0图3：零件方向字段的图示身体部位P（m，n）的方向P（m，n）是从Jm到Jn的单位向量。POF中属于该部分的所有像素都被分配x、y、z通道中的该矢量值将3D父关节Jm∈R3和子关节Jn∈R3一个3D骨架结构的规模[31]。在实践中，S和L可能是有噪声的，所以我们利用3D可变形网格模型来更鲁棒地估计3D人体姿势，其中形状和姿势先验嵌入在模型中。在本节中，我们首先描述我们的身体网格拟合过程，然后将其扩展到手部姿势和面部表情，以实现全身运动捕捉。我们使用上标B、LH、RH、T和F分别表示身体、左手、右手、脚趾和面部的函数和参数。我们使用亚当[26]，它在一个模型中包含了身体，手和面部表情的表达能力。其它人类模型（例如，SMPL[30]）也可用于目标是仅重建全身运动的一部分。5.1. 基于POFs的可变形网格模型拟合给定由我们预测的2D联合置信度图SB，对于身体的CNN，我们获得2D关键点位置{jB}J由P（m，n）表示，其中Jm，Jn定义在相机M通过在SB上取通道方向的argmax。给定{jB}Jm=1和m m=1坐标，如果（m，n）∈S.其3D方向P（m，n）是代表-另一个CNN输出POFsLB，我们计算3D方向，由R3中从Jm到Jn每根骨的位置通过平均LB如[15]中所示，沿着从jB到jB的线段我们得到一组Jn−Jmm nP=.（一）（m，n）||Jn−Jm||与这些图像一致的网格参数θ，φ和t通过最小化以下目标来实现测量：对于特定身体部位P（m，n），其部位定向场FB（θ，φ，t）=FB（θ，φ，t）+FB（θ，φ）+FB（θ），（3）L（m，n）∈R3×h×w编码其3D方向P（m，n）作为二维POFp3通道热图（分别在x，y，z方向），其中，FB、FB和FB是不同的约束，二维POFp图像空间，其中h和w是图像的大小。在像素x处的POFL（m，n）的值被定义为，.P<$ （m，n）如果x∈P（m，n），下面罚款。2D关键点约束F_B惩罚网络预测的2D关键点和人体模型中关节的投影：ΣL（m，n）（x）=（二）FB（θ，φ，t）=<$jB−<$（J<$B（θ，φ，t））<$2，（4）0否则。二维m mM注意，POF值仅对于属于当前目标部分P（m，n）的像素是非零的，并且我们遵循[15]以将属于该部分的像素定义为矩形。一个示例POF如图所示。3 .第三章。实施详情：我们训练CNN来预测联合置信度图S和部件方向场L。输入其中JB（θ，φ，t）是人体模型的第m个关节，并且θ（·）是从3D空间到图像的投影函数，其中我们假设弱透视相机模型。POF约束FB惩罚POF预测与网格模型中身体部位的取向之间的差异：Σ将图像围绕目标人物裁剪为368×368。OpenPose2 [15，51，14]给出了边界框用于测试。我们遵循[15]的CNN架构，BPOF（θ，φ）=wB（m，n）∈SB（m，n）~B（m，n）（θ，φ），（五）变化使用3个通道而不是2个通道来估计POF[15]在《易经》中，每个人都有自己的故事。应用L2损失其中P= B是骨骼的单位方向向量对S和L进行网络预测。我们也训练我们的网络B（m，n）在人体网格模型中，是一种平衡在具有2D姿态注释的图像上（例如，COCO）。在这种情况下，我们只监督S上有损失的网络。两个网络分别针对身体和手进行训练。F1 −P·PP10969pp5. 基于模型的三维位姿估计这一项的权重，并且·是vec之间的内积tors. 先验项FB用于将我们的输出限制为可行的人体姿势分布（特别是旋转骨骼周围），定义为：FB（θ）=wB<$AB（θ−µB）<$2，（6）p p θ θ理想地，联合置信度图S和POFL亲其中，AB和µB是从CMU Mo学习的姿态先验θ θCNN提供了足够的信息来重建capdataset [1]，以及wB 是一个平衡砝码。我们使用2https://github.com/CMU-Perceptual-Computing-Lab/openposeLevenberg-Marquardt算法[3]优化Eq. 3 .第三章。网格拟合过程如图所示。4.第一章10970⎡ ⎤（m，n）i=1（m，n）pMMM联合置信度图SB-1.0零件方向字段LB1.0亚当把它们放在一起，总的优化目标是F（θ，φ，t，σ）=FB+FLH+FRH+FT+ FF+Rφ+Rσ，（十一）B（m，n）0的情况。269=100。785⎦-0。559其中为了简单起见省略了所有项的平衡配重。我们在多个阶段优化这个总目标函数，以避免局部极小值。我们首先拟合躯干，然后添加肢体，最后优化完整的目标函数-图4：人体模型拟合估计POF和关节置信图我们从关节置信度图（左）中提取2D关节位置，然后从POF（中）中提取身体部位方向。然后，我们优化成本函数（等式10）。第三章包括所有的限制。该阶段独立地以Adam模型参数{Ei}N的形式产生每个帧的 3D 全身运动捕获结果。最小化了（J<$B）和jB之间的距离和6. 增强纹理的照片一致性P与 B之间的夹角M mB（m，n）在前面的阶段中，我们执行逐帧处理，这容易受到运动抖动的影响。灵感来自于前-5.2. 全身捕捉，包括手、脚和脸给定手部网络SLH、LLH和SRH、LRH的输出，我们可以使用类似的优化目标来另外拟合Adam模型以估计手部姿势F LH（θ，φ，t）= F LH（θ，φ，t）+F LH（θ，φ）+F LH（θ）.关于身体和面部跟踪[45，61]的工作，我们建议使用给定初始模型拟合结果的像素级图像线索来减少抖动。其核心思想是通过将拟合的网格模型投影到输入图像上来提取模型纹理，从而实现模型纹理的光度一致性通常，纹理应该在帧之间保持一致，但在二维塑料光纤p（七）实际上存在由于运动抖动而导致的差异在为了在我们的opti中有效地实现该约束FLH是左手的目标函数，每个项的定义类似于Eq。四，五，六。类似于以前的工作，手部跟踪[59，57]，我们使用从MANO数据集[47]学习的手部姿势先验约束FLH 右手FRH的目标函数也是类似定义的。一旦我们把身体和手的变形部分模型到CNN输出，模型在图像上的投影已经与目标人物很好地对齐。然后，我们可以通过使用额外的2D关键点测量来简单地添加更多的2D关节约束来重建其他身体部位特别是，我们包括来自OpenPose检测器的2D面部和脚部脚趾的附加成本函数定义为：ΣFT（θ，φ，t）=<$jT−<$（J<$T（θ，φ，t））<$2，（8）M其中{jT}是双脚上的2D脚尖关键点，mization框架，我们计算从投影纹理到目标输入图像的光流。每个流的目的地指示顶点投影的预期位置。为了描述我们的方法，我们定义了一个函数T，它提取给定图像和网格结构的纹理：Ti=T（Ii，M（Ii）），（12）其中Ii是第i帧的输入图像，M（Ii）是由参数Ii确定的人体模型。函数T通过将可见部分的网格结构投影到图像上来提取纹理图Ti我们理想地期望第（i+1）帧Ti+1的纹理与Ti相同。而不是直接使用这个约束优化，我们使用光流来计算这些纹理之间的差异，以便于优化。更具体地，我们预先计算图像Ii+1和图像Ii+ 1之间的光流在第（i+1）帧处的网格模型与第i帧处的网格模型之间的最小化渲染。OpenPose和{Jm}是网格的3D关节位置模型在使用中同样，对于face，我们定义：Σ帧fi+1=f（R（Mi+1，Ti），Ii+1），（13）FF（θ，φ，t，σ）=<$jF−<$（J<$F（θ，φ，t，σ））<$2.（九）M m其中Mi+1=M（Mi+1）是第（i+1）个网格帧，R是渲染网格请注意，fkey指向JF是由所有的with a texture纹理to an image图像. 函数f计算光学网格参数θ，φ，t，σ在一起。另外我们也JBMJBnJBMPB（m，n）JBnP和P.10971对形状参数和面部表情参数应用正则化Rφ（φ）=<$φ<$2，Rσ（σ）=<$σ<$2。（十）从合成图像流向输入图像Ii+1。输出流fi+1：x−→x′将2D位置x映射到新的位置x′跟随光流结果。直观地，计算的流映射fi+1驱动3D网格顶点朝向更好的光度测定方向的投影。10972n一期+1nnMMF（F）一期+1我一期+1我帧间纹理的一致性。基于这个流映射，我们定义了纹理一致性项：ΣFtex（i+）=<$v+（i+1） −v′（i+1）<$2，i+1nn n（十四）其中v+（i+1）是第n个网格顶点的投影，模型参数的函数+优化中v′（i+1）=fi+1（vn（i+1））是每个光流的目的地，其中vn（i+1）是网格Mi+1的第n个网格顶点的投影. 注意，v′（i+1）是预先计算的，并且在优化期间是常数。该约束是在图像空间中定义的，因此它主要减少x，y方向上的由于没有图像线索来减少沿z方向的抖动，因此我们仅对3D关节位置的z分量实施平滑度约束ΣF<$z（θ+，φ+，t+）=（J+z（i+ 1） −Jz（i））2，图5：我们的时间细化算法的说明。顶行示出了在前一帧、当前目标帧和细化之后投影在输入图像上的网格在放大视图中，一个特定的顶点显示为蓝色，这在应用我们的跟踪方法后更加一致。30K图像用于训练，6K图像用于测试。Dex- ter+Object（D+O）[53]是由一期+1一期+1i+1mMM（十五）RGB-D相机，提供约3 K测试图像，6个序列。仅对指尖的位置进行注释。其中，J+z（i+1）是第m个接头的z坐标，网格模型作为优化下的参数的函数，并且Jz（i）是作为固定常数的前一帧中的对应值。最后，我们定义一个新的目标函数：新捕获的全运动数据集：我们使用 Panoptic Studio[24，25]以无标记的方式捕获3D身体和手部姿势的新数据集[26]。40名受试者在身体进行大范围运动时被捕获正+ +一期+1）=Ftex+Fz+FPOF +FF，（16）并在视频的指导下进行2.5分钟。滤波后，我们得到约834K的身体图像和111K的其中省略了平衡配重我们最小化该函数以获得第（i+1）帧的参数，其从最后一级的输出初始化。与原始的全目标Eq。11，这个新的目标函数更简单，因为它从一个好的初始化开始大多数2D关节约束被Ftex取代，而我们发现仍然需要POF项和面部关键点项，避免误差积累。请注意，这种优化是递归执行的-我们使用第i帧的更新参数来提取等式中的纹理Ti 12岁以上从第i+1帧开始计算第（i手部图像与相应的3D姿态数据。我们将这个数据集分为训练集和测试集，这样两者中都不会该数据集可在线公开获取。7.2. 与以前工作的定量比较7.2.13D人体姿态估计。比较Human3.6M。我们比较了我们的单帧身体姿态估计方法与以前的国家的最先进的性能。我们的网络是从OpenPose的2D身体姿势估计网络+一期+1通过这种优化。还请注意，+我们使用COCO数据集[28]训练网络，我们的新数据集3D身体姿势数据集和Human3.6M，用于165k次迭代参数{φi}在整个序列中应该是相同的所以我们取φ+=φ+并在优化过程中固定它。在这个阶段，我们还固定了面部表情参数。7. 结果在本节中，我们提出了彻底的定量和定性评价我们的方法。7.1. 数据集身体姿势数据集：Human3.6M [22]是一个基于室内标记的人体MoCap数据集，目前是3D身体姿势估计最常用的基准。我们在上面定量评估我们算法的身体部分。我们遵循[42]中的标准训练测试协议。手部姿势数据集： StereoHand Pose Tracking Bench- mark（STB）[72]是一个3D手部姿势数据集，包括批量大小为4。在测试期间，我们将Adam模型[26]拟合到网络输出上。由于Human3.6M具有与Adam模型不同的关节定义，因此我们构建了一个线性回归器，以使用训练集将Adam网格顶点映射到Human3.6M定义中的17个关节，如[27]所示为了进行评估，我们按照[42]重新调整我们的输出，以匹配从训练集计算的平均骨架的大小。根关节对齐后的平均每个关节位置误差（MPJPE）报告如[42]所示。实验结果示于表1中。我们的方法实现了有竞争力的性能;特别是，我们在所有方法中显示了最低的姿态估计误差，这些方法在野外视频中展示了它们的结果（在表中标记为我们认为，重要的是要显示在野外视频的结果，以确保泛化是这个特定的数据集。作为一输入图像Ii网格Mi+1一期+1更新网格参数+优化Ftex光流场输入图像Ii+1合成图像纹理Ti渲染R纹理提取测试网格Mi到10973个例子，我们的结果与10974方法Pavlakos[第四十二届]周[73个国家]罗[三十一]马丁内斯[33个]方[20个]杨[70个国家]Pavlakos[41个]达布拉尔[18个国家]孙[56个]* 金泽[27日]* 梅塔[35]第三十五届* 梅塔[34个]* 我们的* 我们的+MPJPE71.964.963.762.960.458.656.255.549.688.080.569.958.364.5表1：与以前在Human3.6M数据集上工作的定量比较。“*”符号表示在野外视频上显示结果的方法。评估度量是以毫米为单位的平均每关节位置误差（MPJPE）。这些数字来自原始文件。‘Ours’ and ‘Ours+’ refer to our resultswithout and with priorSTB数据集1Dexter+Object数据集1表2：人3.6M的消融研究。评估度量是以毫米为单位的平均每关节位置误差。0.950.90.850.8Zimmermann等人（0.948）Mueller等人（0.965）Spurr等人（0.983）Iqbal等人（0.994）Cai等人（0.994）我们的（0.994）0.80.60.40.20与我们的结果相比，pose prior显示出更高的误差-20 30 40 5误差阈值（mm）0 20 40 60 80 100误差阈值（mm）out prior，尽管我们发现pose prior有助于在野外保持良好的网格表面和关节角度。消融研究。我们通过对Human3.6M的消融研究来调查每个数据集的重要性。我们通过以下训练网络来验证结果：（1）人3.6M;(2)Human3.6M和我们捕获的数据集;以及（3）我们捕获的数据集 Hu-man 3.6M 和 COCO 。注意， set-ting（3）是我们在前面的比较中使用的。我们遵循与表1相同的评估方案和度量，结果如表2所示。首先，值得注意的是，仅使用Human3.6M作为训练数据，我们已经在表1中标记为“*”的结果中实现了最佳性能其次，将（2）与（1）进行比较，尽管我们的数据集与Human3.6M之间的背景、人类外观和姿势分布存在差异，但我们的新数据集提供了改进。这验证了我们新数据集的价值。第三，当我们将COCO添加到训练数据时，我们看到错误下降，这表明我们的框架可以利用这个数据集，仅具有用于3D姿势估计的2D7.2.23D手部姿态估计。我们评估我们的方法上的立体手姿态跟踪基准（STB）和Dexter+对象（D+O），并比较我们的结果与以前的方法。在这个实验中，我们使用了[26]中弗兰肯斯坦的独立手模型。STB. 由于STB数据集具有手掌关节而不是我们方法中使用的手腕关节，因此我们将手掌关节转换为手腕关节，如[74]中所示，以训练我们的CNN。我们还使用STB数据集的训练集学习线性回归在测试过程中，我们从我们的模型拟合输出中回归手掌关节以进行比较。为了进行评估，我们遵循严格的工作[74]，并在将根关节和全局尺度的位置与地面实况对齐后计算误差，并报告图6：与以前的3D手部姿势估计工作的比较。我们绘制PCK曲线，并在图例中的括号中显示每种方法的AUC。左：STB数据集[ 72 ]的结果，20 mm-50 mm;右：Dex- ter+Object数据集[ 53 ]的结果，0- 100 mm。深度对齐的结果标记为在20 mm-50 mm范围内校正关键点（PCK）曲线。结果显示在图的左侧六、我们的性能与专门为手部姿势估计设计的最先进的方法相当我们还指出，该数据集的性能几乎已经饱和，因为即使在最低阈值下，该百分比也已经超过90%D+O。在[37]和[23]之后，我们使用PCK曲线和图右侧的相应AUC报告了我们的结果。六、由于以前的方法是通过估计3D手部关节的绝对3D深度来评估的，因此我们通过使用数据集中的单个帧找到近似的手部比例来跟踪它们，并在评估期间固定比例。在这种情况下，我们的性能（AUC= 0. 70）与先前的最新技术水平[23]（AUC= 0. 第71段）。然而，由于单视图姿态估计存在基本的深度尺度模糊性在这种情况下，我们的方法（ AUC= 0. 84 ）优于先前的最先进方法 [37]（ AUC= 0. 70 ），甚至比基于 RGB-D 的方法 [53]（AUC= 0. 81）。7.3. 视角和姿势变化的定量研究我们新的3D姿势数据包含具有不同身体姿势的多视图图像。这使我们能够定量地研究我们的方法在视图变化中的性能，+Sridhar et al.（0.81）Mueller等人（0.56）Iqbal等人（0.71）我们的（0.70）*Mueller et al.（0.70）训练数据MPJPE(1)Human3.6M65.6(2)人类360万+我们的60.9(3)人类360万+我们的+COCO58.33D PCK1097520.7818.7310.2510.608.273.443.604.335.11 5.145.215.44 5.61 5.68 5.75 5.805.94 6.176.26 6.44跟踪前地面实况跟踪后地面实况−60（厘米）710605−20x坐标-180-900 90180方位角0 100 200 300 400 500 600（cm）20−1010−20−30y坐标0图7：Panoptic Studio中的评估结果。顶部：准确性与观点;底部：准确度与pose.度量单位为cm的 MPJPE所有测试样品的平均MPJPE为6。30厘米（cm）2802600 100 200 300 400 500600z坐标0 100 200 300 400 500600身体姿势改变。我们将我们的单视图3D身体重建结果与地面实况进行比较。由于单目姿态估计的尺度-深度模糊性，我们通过从相机中心沿着射线方向缩放我们的结果来将根关节的深度与地面实况对齐，并计算以厘米为单位的平均每关节位置误差（MPJPE）所有测试样品的平均MPJPE为六、30厘米我们计算每个摄像机视点的平均误差，如图1顶部所示7 .第一次会议。每个摄像机视点由相对于对象我们得到两个利益-调查结果：首先，由于严重的自遮挡和透视缩短，在具有较高仰角的相机视图中的性能下降;其次，与正面视图相比，在背面视图中的误差更大，因为在许多姿势中肢体被躯干遮挡。在图的底部。7，我们展示了不同身体姿势的表现。我们在地面真实数据上运行k-means算法来找到身体姿势组（中心姿势如图所示），并计算每个聚类的误差。自遮挡或透视缩短越严重的人体姿势误差越大.7.4. 网格跟踪为了证明我们的时间细化方法的效果，我们使用Panoptic Studio数据比较了我们的方法在此细化阶段之前和之后的结果。我们将重建的左肩关节绘制在图中。8.我们发现，跟踪后的结果（蓝色）往往比跟踪前的结果（绿色）在时间上更稳定，并且通常更接近地面实况（红色）。7.5. 定性评价我们展示了我们的总动作捕捉结果在各种不同的视频捕捉我们或从YouTube上获得的补充视频。对于其中仅目标人的上半身可见的视频，我们假设躯干和腿的取向在等式5中垂直向下指向。图8：使用地面实况跟踪前后关节位置随时间的比较。地平线-横轴表示帧编号（30fps），纵轴表示摄像机坐标中的关节位置。这里的目标关节是受试者的左肩。8. 讨论在本文中，我们提出了一种方法来重建三维整体运动的一个人从图像或单目视频。我们彻底评估了我们的方法在各种基准上的鲁棒性，并在野外视频上展示了单目3D我们的方法有一些局限性。首先，我们观察到由于错误的网络预测而导致目标人物的重要部分不可见（超出图像边界或被其他物体遮挡）的其次，我们的手姿态检测器在分辨率不足、严重运动模糊或被操纵对象遮挡的情况下失败。第三，我们使用一个简单的方法来估计脚和面部表情，只利用2D关键点信息。更先进的技术和更多的图像测量可以纳入我们的方法。最后，我们的CNN需要身体和手的边界框作为输入，并且不能同时处理多个身体或手。这些问题的解决指向了有趣的未来方向。鸣谢。这项研究得到了情报高级研究项目活动（ IARPA ），通过内政部 / 内政部商业中心（DOI/IBC）合同号D17 PC 00340。我们感谢赵天一在Unity中为运动重定向提供的帮助引用[1] 动作捕捉数据库。http://mocap.cs。cmu.edu/resources.php网站。[2] 维康运动系统。 www.vicon.com。[3] Sameer Agarwal，Keir Mierle，and Others. 谷神星解算器http://ceres-solver.org网站。高程MPJPE10976[4] Ijaz Akhter和Michael J Black。三维人体姿态重建的姿态条件关节角度限制CVPR，2015。[5] Mykhaylo Andriluka，Leonid Pishchulin，Peter Gehler，and Bernt Schiele. 2D人体姿态估计：新的基准和最先进的分析。CVPR，2014。[6] Dragomir Anguelov 、 Praveen Srinivasan 、 DaphneKoller、Se- bastian Thrun、Jim Rodgers和James Davis。景观：人的形体完成与动画。TOG，2005年。[7] Andreas Baak，Meinard M，Gaurav Bharaj，Hans-peterSei- del，and Christian Theobalt.一种用于从深度相机进行实时全身姿态重建的数据驱动方法见ICCV，2011年。[8] Volker Blanz和Thomas Vetter。三维人脸合成的可变形模型。第26届计算机图形学与交互技术年会集，1999年。[9] Federica Bogo、Angjoo Kanazawa、Christoph Lassner、Peter Gehler、Javier Romero和Michael J.黑色.保持它smpl：由单一影像自动估计三维人体位姿与形状。在ECCV，2016年。[10] Federica Bogo，Javier Romero，Gerard Pons-Moll，andMichael J Black. 动态浮士德：记录人体运动。在CVPR，2017年。[11] Adrian Bulat和Georgios Tzimiropoulos通过卷积部分热图回归的人体姿势估计在ECCV，2016年。[12] 蔡宇军、葛柳浩、蔡建飞、袁俊松。基于单角rgb图像的弱监督三维手势估计。在ECCV，2018。[13] 曹晨、翁彦林、周顺、童一英、周坤。Facewarehouse：用于视觉计算的三维面部表情数据库。TVCG，2014.[14] 曹哲、吉内斯·伊达尔戈、托马斯·西蒙、魏世恩和亚瑟·谢赫。OpenPose：使用部件亲和场进行实时多人3D姿态估计。在arXiv预印本arXiv：1812.08008，2018。[15] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。利用局部仿射场进行实时多人二维姿态估计。在CVPR，2017年。[16] 丹·卡萨斯，马可·沃利诺，约翰·科洛莫斯，阿德里安·希尔顿。用于交互式角色外观的4D视频纹理。在计算机图形论坛，2014年。[17] 陈景航和德瓦·拉曼南。3D人体姿态估计= 2D姿态估计+匹配。在CVPR，2017年。[18] Rishabh Dabral、 Anurag Mundhada 、 Uday Kusupati、Safeer Afaque、Abhishek Sharma和Arjun Jain。从结构和运动学习三维人体姿势。在ECCV，2018。[19] A. Elhayek、E.Aguiar，阿吉亚尔A.Jain，J.汤普森湖皮舒林M.安德里卢卡角布雷格勒湾Schiele和C.希奥博尔特高效的基于convnet的无标记运动捕捉，在一般场景中使用少量相机。CVPR，2015。[20] 方浩树，徐元路，王文冠，刘晓柏，朱松春。学习位姿文法编码人体构形以进行 3d位姿估测。在AAAI，2018。[21] Juergen Gall ， Carsten Stoll ， Edilson De Aguiar ，Christian Theobalt ， Bodo Rosenhahn ， and Hans-PeterSeidel.使用关节骨架跟踪和表面估计的运动捕获。CVPR，2009。10977[22] Catalin Ionescu ， Dragos Papava ， Vlad Olaru ， andCristian Sminchisescu. Human3.6m：大规模数据集和预测方法，用于自然环境中的3D人体感

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

单目全捕捉：单目视图中捕获目标人物的3D全身运动

基于单目视觉的运动目标跟踪定位技术研究

单目图像以像素强度的形式提供三维空间中的详细信息，具有丰富的语义及纹理特征。单目3D目标检测以单视图RGB图像作为模型输入，其对于传感器的要求更低，这意味着其可以在现实世界中以较低的成本实现部署。

多视图 3d 目标检测

mysql求数据库平均成绩视图_MySQL数据库实验：任务五 数据库的视图设计

自监督单目深度估计方法

android 视图布局控件

altium designer的3D视图快捷键

以下哪项是在视图上不能进行的操作?() B.查询视图A.更新视图 C.在视图上定义新的表 D.在视图上定义新的视图

在视图中不能进行什么操作

MFC 视图中 添加自己的界面

sql 哪些视图中的数据不可以增删改操作？

运用MySQL：创建学生基本情况视图SubS（包括学号、姓名、出生日期）

my sql实验视图_实验四 数据库的视图操作实验

mvc怎么单独引用css文件,关于asp.net mvc：如何在剃刀视图中引用.css文件？

mysql中建立视图，设计多表应该注意什么

pcl显示点云各种视图

将视图和视图注释列出来

JAVA+access综合测评系统毕业设计(源代码+论文+开题报告+任务书).zip

最新资源

mysql求数据库平均成绩视图_MySQL数据库实验：任务五数据库的视图设计

MFC 视图中添加自己的界面

my sql实验视图_实验四数据库的视图操作实验