没有合适的资源?快使用搜索试试~ 我知道了~
8619Skeleton2Mesh:运动学先验注入的无监督人体网格恢复Zhenbo Yu1,2*,JunjieWang1,2*,Jingwei Xu1,2,BingbingNi1,2†赵成龙1,2,王敏思1,2,张文军1,21上海交通大学2上海市数字媒体处理传输重点实验室{于振波,dreamboy.gns,xjwxjw,倪冰冰,cl-zhao,mswang 1994,zhangwenjun}@ sjtu.edu.cn摘要在本文中,我们解耦无监督的人体网格重新细化到无监督的3D姿态估计和人体网格恢复估计的3D骨架,重点放在后一项任务的研究问题。后一项任务的挑战有两个方面:(1)姿势故障(即,姿态不匹配(2)形状模糊(即,缺少对身体构造的形状约束为了解决这些问题,我们提出了Skele-ton 2 Mesh,一个新的轻量 级 框 架 , 从 一 个 单 一 的 图 像 恢 复 我 们 的Skeleton2Mesh 包 含 三 个 模 块 , 即 , 微 分 逆 运 动 学(DIK)、姿态优化(PR)和形状优化(SR)模块。DIK被设计成从估计的3D骨架传输3D旋转,这依赖于最小的运动学先验知识集。然后利用PR和SR模块分别解决姿态模糊和形状模糊。所有这三个模块都可以通过端到端的方式无缝集成到Skeleton2Mesh中。此外,我们利用一个自适应的联合回归,以allevi- ate从不同的数据集的骨架拓扑结构的影响。在Human3.6M数据集上进行人体网格恢复的结果表明,在相同的设置下,我们的方法比传统的无监督方法提高了32.6%在野外数据集上的定性结果表明,恢复的三维网格是自然的 , 逼 真 的 。 我 们 的 项 目 可 以 在https://sites.google.com/view/skeleton2mesh上找到。1. 介绍从野外单目图像中恢复人体网格一直是视觉界一个很有前途的目标。这被认为是一个品种的关键一步下游应用,如机器人交互[38],*平等贡献†通讯作者表1:在监督信号和优化模块的使用方面,我们的方法与先前基于模型的方法的增强现实[16],动画产业[1]等。基于参数模型的最新方法,如SCAPE [2],SMPL [22]和SMPL-X [41]可以简单地分为两类:基于回归和基于优化。基于回归的方法[22,49]或基于优化的方法[4,13,30]依赖于3D注释或优化模块。与上述不同的是,我们的方法需要3D监督训练方案,但没有3D注释(即,3D骨架、SMPL中的β或θ)、优化模块和时间信息(如表10中所示)。①的人。具体而言,无监督人体网格恢复旨在恢复SMPL模型,该模型由姿势参数(3D旋转)和形状参数组成。(a)在姿态参数方面,大多数现有方法[22,14]直接从图像或2D姿态回归3D旋转。然而,这些方法都严重依赖于配对或未配对的3D标注。然而,我们可以容易地看到,忽略形状信息,仅具有3D旋转的SMPL最近的无监督3D姿态估计[6]已经实现了有希望的性能,这促使我们使用估计的3D骨架来促进人类网格恢复[14,48]。HybrIK利用反向运动学过程在SMPL模型提供的24个3D关节和24个3D旋转之间建立严格的对应关系,该模型严重依赖于监督基于模型的方法配对3D支持未配对的3D支持时间信息优化模块SMPLify [4]✗✓✗✓Song等人[46个]✗✓✗✓NBF [40]✓✗✗✓Pavlakos等人[第四十二届]✓✗✗✗HMR [22]✗✓✗✗[27]第二十七话✗✓✗✓PoseNet [48]✗✗✓✗86203D注释。值得注意的是,24个3D关节(包括手和脚)和24个3D旋转非常难以获得。(b)在形状参数方面,最新的方法[22,27]通过未配对的3D姿态(如CMU先验[27])或通过平均形状[48]的简单正则化器利用鉴别器来获得更有效的3D人体网格。然而,未配对的3D姿势捕获起来也是昂贵的,并且基于平均形状的简单正则化器无法捕获针对特定人类角色的更合理的形状这启发我们使用剪影来获得更有效的形状。在没有任何可训练参数的情况下无缝地评估到我们的框架中。(b)姿态细化模块。大多数现有的无监督3D姿态估计方法通常输出具有14-17个关节的3D骨架[6,32]),其不估计手或脚。此外,跨数据集的头部位置彼此不同。例如,Human3.6M数据集[18]和3DHP数据集[36]中的头部位置因此,将这些关节转换为相应的均匀3D旋转是不合理的。为此,我们使用姿势优化模块来解决上述问题。(c)形状细化模块。额外形状不适定问题形状歧义通过来自现成检测器的轮廓来获得信息我们利用形状细化模块来消除形状模糊性。总之,所有模块都可以以端到端的方式无缝集成到轻量级框架中。我们在各种3D人体姿势数据集上对所提出的方法进行了基准测试,并且它优于最先进的联合国通过4.0mm PMPJPE对Hu-man 3. 6 M [18]、7.6AUC对MPI-INF-3DHP [36]和11.8 AUC对Hu-man 3. 6 M [18 ]进行监督方法[48,49mm PMPJPE on Surreal [50].图1:将3D骨架转换为网格是一个没有唯一解的不适定问题。值得注意的是,姿态失败包括姿态不匹配和姿态模糊。为此,我们将人体网格恢复解耦为无监督3D姿态估计[6]和从估计的3D骨架进行无监督人体网格恢复的充分研究的问题,重点关注后者。具体来说,后一项任务的挑战有两个方面(见图1)。1):(1a.)姿势不匹配。不同的骨架定义,不匹配的关节编号,以及单个3D骨架可能对应于多个3D网格的情况,这导致姿势估计和重建之间的准确度差距很大[14,27,43,51]。(1b.)姿势模糊。姿态模糊是指端点旋转中的模糊。换句话说,对于相同的3D关节坐标,端点具有任意关节角度配置。(2)形状模糊。很容易看出,我们无法从3D骨架中获得足够的形状信息。在本文中,我们提出了Skeleton2Mesh,一种新的轻量级框架,从一个单一的图像恢复人体网格。我们的EQUETON2Mesh由三个模块组成,即,DIK、PR和SR模块。这三个模块将详细讨论如下:(a)可微分逆运动学模块。已经研究了逆运动学方法以使机器人能够模仿人的人体运动。因此,我们的动机是设计可微逆运动学(DIK)模块来推断从估计的3D骨架的3D旋转。DIK模块依赖于定义基础运动学3D结构的先验知识的最小集合,并且它可以被合并。2. 相关工作无监督3D姿态估计。以前的无监督2D到3D方法可以广泛地分为无监督3D姿态估计[44,6,29,24]和无监督3D姿态估计[44,6,29,24监督人体网格恢复[4,30,26,48]。Rhodin等人[44]提出从生成的没有3D标签的多视图图像学习几何感知的身体表示,其利用相机几何和多视图信息的一致性。几何自监督是由Chen等人提出的。[6]而不需要任何多视图对应。它为无监督的3D姿态估计提供了一个简单而有效的基线,这也是在我们的工作中采用的。Kundu等人[29]以自我监督方式利用最小的一组先验运动学知识或编码器和解码器模块,以便于姿态估计。尽管在无监督3D姿态估计方面取得了相当大的进展,但由于缺乏3D网格监督,无监督3D人体网格恢复仍然具有挑战性,与3D关节相比,3D网格监督更难以捕获。无监督的3D人体网格恢复。不 超-可视化的人体网格恢复比由于更丰富的重构信息,因此可以进行无监督的3D姿态估计。 最近的基于模型的方法[4,30,22,49,42,26,48]可以简单地分为两类:基于优化的方法和基于回归的方法。SMPLify [4]和Lassner et al.[30]是最早的端到端方法,它将SMPL身体模型拟合到2Devidence(预测的2D关键点或轮廓)。HMR [22]使用对抗学习直接从图像中回归SMPL参数,以利用未配对的3D数据。最近,SPIN [27]结合了基于优化的方法地面实况位姿失效3D关节3D网格8621回归器渲染SMPLJ2DJ3D姿态匹配分支姿 态 θ形 状 β 旋转RJ2DJ3DPR冯客我裁判形状匹配分支cams,tISR图2:Skeleton2Mesh框架的详细架构。给定单个图像,通过预先训练的2D姿态检测器(例如,CPN [7]),并且掩码由名为omy具体地,左侧的PR、DIK和SR表示相对于V的姿势细化、可微分逆运动学和形状细化。 J2D和J2D表示2D关节。 J3D和J3D表示3Ds k eletons。 I和Iref表示轮廓。和基于回归的方法来形成自我改进的循环。然而,嵌入式优化模块仍然是耗时的,使得它很难应用于实时任务。此外,上述大多数现有方法使用不成对的3D监督,这也是昂贵的并且获得起来繁琐。相比之下,我们的方法没有使用任何形式的3D标注,优化模块。逆运动学有[53][54][55][56][57][ 58][ 59][5或2D/3D人体姿态估计的学习范例。反向运动学(IK)计算可变关节参数(例如,旋转矢量),并且广泛用于人类模仿[39,33]和机器人控制[8]。通常,IK解算器基于迭代优化[5,11,17,25]。也有启发式方法(FABRIK [3],IK-FA[45]),旨在加快收敛和分析解决方案,设计用于一些特殊的应用[21,47]。 并发工作HybrIK [31]与我们的最相关,它还将逆运动学集成在端到端的人体网格恢复管道中。HybrIK将关节旋转解耦为分析求解的摆动分量和可学习的扭曲分量。与HybrIK不同,我们专注于完全无监督的设置,并为人体系统提供有效的分析IK解决方案。我们的DIK模块是有效的,可以很容易地匹配和形状匹配分支。具体地说,Pose匹配分支包括将2D关节提升到3D骨架,将3D骨架转换为3D旋转(DIK和PR模块)。形状匹配分支包含SR模块。然而,我们只介绍DIK,PR和SR模块。3 .第三章。将2D关节提升到3D骨架的详细信息可以在补充材料中看到。3D身体表现我们编码的3D使用蒙皮多人线性(SMPL)模型的人体网格。该模型由Θ参数化,Θ分别包含姿态和形状参数θ∈R72和β∈R10姿态参数由全局体组成旋转R和轴角格式的23个关节的相对旋转SMPL是可微函数M(θ,β) ∈R6890×3,形成模板基于θ和β约束的正向运动学网格。利用自适应回归因子W,通过J3D=RWM(θ,β),可以从网格顶点得到3 D k元J 3 D。由于反向运动学模块被设计为视图不变,因此我们依赖于在规范系统C中的相机本征函数π,以获得骨架的2D界标。注意,这些2D界标预期与输入图像中因此,2D地标是ob-o-o-o-o。式中,J2D=P(J3D,π),其中P表示投影。我我任何学习模式中。3. 方法3.1. 概述Skeleton2Mesh的总体框架总结见图2。我们可以看到Skeleton2Mesh包含姿势弱透视相机的功能。3.2. 姿势匹配分支在该部分中,姿态匹配分支旨在仅利用来自所生成的3D骨架的姿态参数来生成与对应SMPL相同的身体移动我们识别两种类型的姿势不匹配,如下所示:8622父关节ILDint位姿不匹配位姿模糊CCC c位姿失配ch位姿模糊(0, 0,0)(0°,0°,0°)(���,0°,0°)���对于3D骨架中的每个关节(蓝色圆圈),我们使用DIK模块通过特定的匹配方程分别计算相应的局部3D旋转我们选择合适的轴定义来驱动骨架jo17接头24个关节旋转相对于X轴直接匹配SMPL,以及坐标系(0,0,0)(0°,0°,0°)(,0°,0°)������旋转相对于X轴旋转相对于Z轴旋转相对于Y轴(0°,0°���,)(0°,���,0°)���tem与SMPL完全相似 为了澄清这一点,我们描述了右肘的详细匹配过程(参见图1B)。4).具体而言,我们将SMPL中的3D旋转视为多刚体系统,以表达方便性。该系统中的刚体(对应于3D网格中的关节图3:姿势失败的图示。(一).位姿不匹配和姿态模糊集中在不同类型的关节,即,蓝色和橙色的,分别由不同类型的原因造成的。具体地,姿势失配是指关节数量失配,例如,数据集中定义了17个关节,SMPL中定义了24个关节[35],关节角度不匹配,例如,我-吨)称为单位,分为两类:连接单元和叶单元(如图所示)。4). 给出了三维骨架中关节的坐标系作为[xc,yc,zc],则右肘的父坐标系[xp,yp,zp]由等式(1)计算。1、在围绕轴的旋转中的歧义(由DIK解决,参见图3(b))。姿势模糊,Fig.3(c)中,DIK不能约束端点的旋转。[xp,yp,zp]=[- lrers,|lre rs|lre rwlre rwlre rs、|lre rw ⊗ lre rs|yc xcypxp]|ypxp|• 接头编号不匹配。 在3D姿势[xc,yc,zc]=[re rw|, yp,|yc]xc|(一)在SMPL中的局部3D旋转(14-17个关节)通常少于SMPL中的局部3D旋转(23个局部3D旋转),其缺乏足够的信息来从估计的3D骨架恢复SMPL中的准确3D旋转。• 关节角度不匹配。根方向不能由三维骨架的解析解计算。位姿估计和重建具有不同的表示形式,这导致这两种表示类型之间存在很大的准确性差距。其中每个项目(例如,xc)是相机坐标中的3×1双叉系统 lab表示从关节b连接到接头a。 下标re、rs和rw表示右肘,右肩和右腕。具体地,lrers是指从右肘关节指向右肩关节的向量坐标定义为左手坐标系,与SMPL相同在声明与每个关节绑定的坐标系的配置之后,我们可以通过等式11获得旋转矩阵二、[14,27,43,51]。这可以通过IK解决Tp=TcT=Σxy zΣ ΣxyΣTz(2)方法.c ppppCcc如图所示。在图3中,利用3D关节(蓝色关节)来匹配对应的局部3D旋转(θ主)。3D骨架中的3D关节(橙色关节)(包括其中Tp是子节点和子节点之间的传输矩阵。父坐标系 。 然 后 , 可 以 通 过 等 式 11 计 算 相 对 旋 转 矢 量θre∈R3。3、头、手和脚)缺乏足够运动学约束(请参考DIK模块),因此我们使用PR模块|θretr(Tp)−1| = arccos()从轮廓学习合适的局部3D旋转(θPR)2此外,一些局部3D旋转(θ其他)对SMPL几乎没有影响。为此,我们不对这些局部3D旋转(θ其他)进行任何匹配操作,并将这些操作设置为SMPL中的默认值。更多详情请参见0 −rzryrz0−rx−ryrx0Tp− TpT2sin| θre|(三)可微逆运动学。 逆运动学方法已被研究,使机器人模仿人体运动[33,39],因此我们有动机设计DIK模块来将3D骨架转换为3D旋转。DIK模块依赖于定义基础运动学3D结构的最小先验知识集基于运动学骨架结构(即,SMPL中的骨骼关节连接信息),通过逆运动学对每个单元应用也就是说对于哪里|θre|是θ re的范数,且[rx,ry,rz]T=θre/|θre|. 在对其他九个单元执行类似的映射操作后,我们可以得到相应的十个局部3D旋转称为θDIK。有关其他九个单位的更多配套详情,请参阅补充资料。请注意,我们只在SMPL中对齐10个局部3D旋转,因此DIK模块能够推广到具有不同拓扑结构的所有数据集,只需对匹配操作进行少量错配接头|L8623修改8624具 体 地 , 我 们 使 用 可 微 分 渲 染 器 F ( NMR[23]),将人类网格M和弱透视相机π作为输入来渲染掩模(即,I=F(M,π))。形式上,像素级重投影损失定义如下:低点:L型掩模 =D(I,Iref)(5)图4:左侧为多刚体系统,其单元为刚体,包括连接单元和叶片单元。直观上,连接单元有父节点和子节点,叶单元只有父节点,右图是DIK模块以右肘为例的流程。姿势优化。在DIK模块中,我们以简单而有效的方式执行显式姿势映射等式2和Eqn. 3显示子单元和父单元都需要计算特定的局部3D旋转。例如,在3D姿态估计中估计的手腕的局部3D旋转通常由于缺少对应的父单元(即,手关节)。因此,我们提出了PR模块,其目的是帽-D(·,·)是距离函数,其可以采取渲染掩模I和参考掩模I_ref(从现成的检 测器[12]获得)之间的IoU( Intersection Over Union ) 和 MSE ( Mean SquaredErr)的形式此外,Lsreg=β用于惩罚β的范数。3.4. 自适应联合回归器将密集人体顶点映射到来自[ 35 ]的3D骨架的联合回归器由于以下两个折叠而粗糙:(a)给定特定联合回归量,相似的网格对应于相似的网格。然而,不同数据集中的类似网格(例如,人3.6M [18]和SMPL [35])通常具有不同的骨骼。(b)来自[35]的原始联合回归使用地面实况θ和β进行训练。然而,我们无法获得3D注释。为了解决这些问题,我们采用自适应联合回归器W,然后预训练具有目标L wpre的联合回归器。转向端点局部旋转。PR模块将编码轮廓信息的特征图作为输入并输出端点部分的3D旋转(即,头、手和LwpreΣ Σ=J3D−WM(θ,β)+λI jWij -11英尺,DIK模块中未处理我们通过实验发现,PR和SR模块是互补的。最后,θ=θroot∪θDIK∪θPR∪θother。其中∪是向量级联,θPR是PR模,θroot是根方向,θother是所有其他方向3D rotatioΣns,as in Fig.4.第一章我们还增加了一个正则化项(六)其中,J3D指示从预训练提升模块获得的伪地面实况3D关键点,第二项是鼓励每个关节被表示为顶点的凸组合的正则化项λ是超参数。W无缝地集成到模型中,无需固定Lpreg=i∈SθPR,i惩罚肢体的幅度相应的参数,然后通过其中θPR,i∈ R3是第i个旋转向量,集合S表示需要细化的人体部位。在获得了细化的人体姿态θ和形状β之后,我们获得了三维网格M=M(θ,β),三维关键点J<$3D=RWM和二维关键点J<$2D=P(J<$2D,π)。然后,我们添加损失项以在2D和3D关键点上强制一致性L2D=J2D−J2D,L3D=J3D−J3D(4)其中 J2D可以是2D检测器的地面实况2D注释或预测。J3D是从一个预先训练的提升模块中得到的预测.3.3. 形状匹配分支与3D骨架相比,轮廓包含了关于身体形状和身体方向的丰富线索。因此,我们利用resnet18 [15]与附加的平行层分别从轮廓学习身体形状β、全局3D旋转R和相机特征π附加正则化Lwreg(与图1中的第二项相同)等式6)对W.4. 实验4.1. 实现细节网络设计。在[6]之后,我们使用残差块作为我们框架中的构建块。我们采用Resnet18 [15]作为Silhouettes的CNN特征提取器,其中连接了四个平行的全连接层,以执行形状细化,姿势细化,学习全局方向和学习相机本质。培训战略。在无法访问源代码的情况下,我们首先根据[6]重新实现提升模块,以完全无监督的方式训练模块,然后冻结所有参数。有关提升模块的详细信息,请参阅补充资料。此外,我们训练了一个自适应联合回归器,如第3.4节所述。然后我们把损失θreywzp…pXpyzCCle_sXCXWle_wzW父坐标世界坐标子坐标向量连接叶方仓单元8625图5:4个不同数据集的定性结果第1列:人类3.6M数据集[18]。第2列:MPI-INF-3DHP数据集[36]。第三列:超现实数据集[50]。第4列:LSP数据集[20]方程中的函数4,等式5和其他正则化术语来训练我们的框架。L=w2DL2D+w3DL3D+w掩码L掩码4.3. 定性结果人3.6M [18]、3DHP [36]、Sur- real [50]和LSP [20]的定性结果显示于图1B中。五、注意+wsreg Lsreg +wwreg L形+w预浸料L预浸料(七)为了证明所提出的模型的泛化能力,LSP [20]上的人体网格用其 中 w2D=1 。 0 , w3D=2 。 5 , w 掩 码 =0 。 15 ,wsreg=0。06,wwreg=1。0,wpreg=0。05分别。我们采用IoU作为SR中的距离函数,并对SMPL中的顶点数量进行下采样,如[28]所示,以加快渲染过程。我们设置λ = 0。4用于联合回归量预训练。我们将批量大小设置为512,所有组件的学习率为3e−5,每个epoch的衰减率为0.95我们采用在Human3.6M上训练的模型[18]。如示于图5,我们在背景图像上可视化渲染网格。我们的方法通常可以提供合理的和有希望的结果。更多的可视化可以在补充材料中找到,以供参考。4.4. 定量评价亚当优化器和训练我们的框架200个时代。4.2.数据集和数据库。人3.6M [18]。Human3.6M是Mosh [34]可用的最大室内数据集之一。我们报告了平均每关节位置误差(MPJPE)和PMPJPE(刚性对线后的MPJPE)。MPI-INF-3DHP [36].采集MPI-INF-3DHP室内和室外都有。除了PMPJPE,我们报告在150 mm处阈值化的正确关键点百分比(PCK)和曲线下面积(AUC)。超现实主义[50]。Surreal包含许多具有各种形状和姿势的人类角色的我们报告每顶点误差(PVE)和PPVE(刚性对齐后的PVE),以显示体型捕获性能。LSP[20]。LSP由2000张没有地面实况3D注释的野外图像组成。我们进行定性评价,以说明泛化能力。表2:Human3.6M测试集的结果[18]。* 表示使用时间信息的方法。P和U分别表示配对和非配对3D监督人3.6M的结果[18]。如Tab中所示。 2,我们获得2D关节和轮廓使用现成的算法3D数据MPJPE PMPJPEHMR [22] CVPRP87.958.1HoloPose [14] CVPRP-46.5SPIN [27] ICCVP-41.1[31]2021年 CVPRP54.434.5SMPLify [4] ECCV姿势优先-82.3HMR [22] CVPRU106.867.5SPIN [27] ICCV姿势优先-62.0*VIBE [26] CVPRU65.641.4Lassner等人[30] CVPR'2017没有一-93.9*PoseNet [48] 3DV没有一-59.4我们没有一87.155.48626探 测 器 和 目 前 的 网 格 恢 复 结 果 方 面 的 MPJPE 和PMPJPE。我们展示了使用配对的3D注释、未配对的3D注释(或姿势先验)和无3D注释的结果。我们的方法优于Lassner等人。 [30]在相同的设置下,以显著的幅度(55.4 vs. 93.9)在PMPJPE方面,这可能是由算法3D数据 MPJPE PMPJPE PVE PPVE*Zhe等人[52] P37.1--Tung et al.[49]P203.9 64.4-74.5我们的无99. 553. 1107. 8 七十五点一我们的(不含SR)无95. 1 52. 6112. 9 80. 8我们的(不包括公关)无97. 8 53. 9 111. 1 82. 5DIK模块。 此外,我们的表现优于PoseNet3D [48]使用时间信息约5%的PM-PJPE。此外,我们超越了一些使用配对3D数据的方法(例如, NBF [40],HMR[22])或未配对的3D监督(例如SPIN [27],证明了我们设计的有效性。MPI-INF-3DHP的结果[36]。 如Tab.所示。 3,我们使用现成的模型获得2D关键点和轮廓,并在刚性对齐后以PCK和AUC的形式呈现网格恢复结果。除了最近的工作PoseNet3D [48],我们还比较了以前使用配对3D数据或未配对3D数据的作品。仅在MPI-INF-3DHP [36]上训练,我们的模型能够在配对监督下优于VNect [37],在非配对监督下优于HMR[22]。此外,当从Human3.6M [18]转移时,我们的方法能够超过[48],证明提高了模型的泛化能力。表4:Surreal [50]验证集的结果。* 表示姿态估计方法。P表示在训练或预训练中使用的配对3D监督。图6:第一列:输入图像。第2列:模型w/o可微分渲染器和w/o姿势细化。第3列:模型w/可微分渲染器和w/o姿势细化。第4列:包含所有组件的模型。超现实主义的结果[50]。50.第50章是一个最大的合成数据集,在人类中具有高度多样性身体形态我们在表中报告定量结果4.第一章在[49]之后,我们使用地面实况2D关键点和sil-houette作为输入。Tung等人。[49]使用成对3D数据的监督预训练,但我们在时间平均关节角度误差的推断方法在PMPJPE方面具有可比性,在PPVE方面具有可比性。表5:DIK模块的定量结果。评价-在Human3.6M数据集上进行上标全部算法3D数据训练集刚性对齐PCK AUC PMPJPE[37]第三十七话PH3.6M+3DHP 83.947.398.0HMR [22]PH3.6M+3DHP 86.347.889.8[27]第二十七话P各种92.555.667.5HMR [22]UH3.6M+3DHP 77.140.7113.2[27]第二十七话U各种87.048.580.4*PoseNet [48]没有一H3.6M81.943.2102.4我们没有一H3.6M83.942.5100.8我们没有一3DHP87.050.887.4表3:MPI-INF-3DHP [36]测试集的结果。P表示配对监督,U表示未配对监督。* 表示使用时间信息的方法。4.5.消融研究DIK模块分析。(一)定量结果。在DIK模块中,我们直接从估计的3D骨架推断3D旋转。为了验证这种DIK模块的有效性,我们将我们的方法与基于学习的替代方案进行比较,该替代方案通过几个残差块从估计的3D骨架中学习人体姿势所示表明我们在PR模中细化了所有局部旋转。选项卡. 7、这种基于学习的方法表现出较差的性能。此外,我们计算我们的DIK模块产生的关节角度误差1,并与迭代逆运动学对应2比较。结果见表。五、值得注意的是,我们实验了仅细化端点旋转和所有局部旋转,并发现前者获得了更好的性能。这可能是由于缺乏3D监督造成的我们的DIK模块在速度(0.019s/it vs30.6s/it)和精度(0.391 vs 0.592关节角度误差)方面优于简单的迭代求解器。此外,我们说明了姿态修正模块可以通过校正端点旋转来改善关节角度误差。我们执行刚性对齐,因为迭代IK的优化是敏感的全局旋转,由于高的非凸性。(b)DIK模块的稳定性。考虑到旋转上的不连续性很难被正式定义,为了验证这种性质,我们计算了右肘关节在1参考https://github.com/aymenmir1/3dpw-eval2https://github.com/CalciferZh/Minimal-IK网站迭代基线30.6s0.592冯客0.019s0.391DIK + PR0.169s0.389DIK + PR全部0.169s0.4048627cmr我们的cmr我们的两个连续帧,其为0.0647m(地面实况)和0.0680m(从DIK模块的输出恢复)。差异小于5mm,证明接头的连续性。此外,如果时间信息是可用的(例如,输入是视频序列),我们可以通过检查相邻帧来识别时间校正前/后的性能报告见表1。六、间断很少发生,对整个序列的影响可以忽略不计。样本PPVE(TC前)PPVE(TC后)不连续帧81.9869.70全序列51.09 51.03表 6 : TC 之 前 / 之 后 的 性 能 ( 时 间 校 正 ) 。 在Human3.6M数据集上进行评价。SR模块分析。在图6中,我们示出了由我们的方法在具有/不具有可区分的渲染器(即,第2和第3列)。可见,可微分渲染器实现了更有效、更合理的人体网格。在表1中定量显示。7,我们可以观察到PVE在Human3.6M上的渲染器下降了1.8点[18]。与包含有限受试者的Human3.6m相比,我们想要强调的是,对于具有挑战性的数据集(例如,Surreal [50]),体型多样,在选项卡中的PVE和PPVE4.第一章可以看出,渲染器在MPJPE方面导致更差的性能。其原因是可微分渲染器在网格级优化了我们的模型,这并不一定意味着在联合度量方面更好的性能。并且姿态/形状预测(由我们的框架获得)分别在左侧和右侧部分中给出。在左侧部分(GT空间),我们的自适应回归器(蓝色)给出了更大的MPJPE w.r.t.与[28](红色)相比,地面真实3D骨架(绿色,直接从3D注释中获得)。然而,在学习的参数空间中,与GraphCMR(89mm)相比,来自我们的回归量的关节给出了更小的误差(85mm)。这说明在学习过程中,我们的回归器可以自适应地将SMPL参数映射到更精确的3D关节。从Tab。7,我们实验发现,我们的模型没有自适应回归有更差的性能。形状gt姿势gt学习形状推断姿势图 7 : 我 们 的 联 合 回 归 器 与 Human3.6M [18] 上GraphCMR [28]的联合回归器之间的比较。绿色关键点直接从3D注释中获得。红色关键点和蓝色关键点分别使用[28]和我们的联合回归器从网格中获得左:由地面实况θ、β给出的网格。右:由我们的框架预测的θ和βDIK SR回归器PR MPJPE PMPJPE PVE PPVE(e.g.头、脚)。由于该方法仅拟合轮廓和3D关节位置(以无监督的方式学习),而没有任何可用的地面真实旋转,因此很难很好地学习肢体方向,例如头部方向和扭转运动 在Human3.6M [18]上,PR模块仅将PVE提高0。5%,PPVE为0。百分之八在Sur- real [50]上,改进更明显(3. 0%的PVE和9。PPVE的0%为了评估捕捉肢体旋转的能力,我们计算了Surreal [50]验证集上的关节角度误差0.325(不带PR模块)至0.314(带PR模块)。此外,PR模块与SR模块是互补的,并且可以帮助捕获身体形状。如果一起优化,则改进更显著(在表1中报告)。4).自适应联合回归分析。 我们将我们的联合回归量与图7中的GraphCMR [28]一起可视化。来自GT姿势/形状的表7:对不同组件模块的分析在Human3.6M测试集上评价性能[18]。5. 结论在本文中,我们解耦无监督的人体网格重新细化到无监督的3D姿态估计和人体网格恢复估计的3D骨架的研究问题。建议Skeleton2Mesh,一种新的轻量级框架,它依赖于一组最小的运动学先验知识。在未来,我们希望扩展这样的框架,工作的实时机器人或纸箱字符控制。鸣 谢 本 工 作 得 到 国 家 自 然 科 学 基 金 资 助(U20B2072,61976137)。作者对上海交通大学学生创新中心提供GPU表示感谢。PR模块分析。 我们进行消融研究✗✓✓✓159.1111.9--在PR模块上,在图中显示定性比较。6和✓✗✓✓90.455.3122.681.5在选项卡中报告定量结果4(Surreal [50])和Tab.7✓✓✗✓108.663.7--(人3.6M [18])。如可见于图6、我们的模式✓✓✓✗87.755.3121.881.4与PR模块可以更好地捕捉肢体末端的姿态✓✓✓✓87.155.4120.880.88628引用[1] Kfir Aberman,Peizhuo Li,Dani Lischinski,OlgaSorkine-Hornung,Daniel Cohen-Or,and BaoquanChen.用于深度运动重定位的信标感知网络。ACM事务处理图表,39(4):62,2020. 1[2] Dragomir Anguelov、Praveen Srinivasan、DaphneKoller 、 Sebastian Thrun 、 Jim Rodgers 和 JamesDavis。SCAPE:人的形状完成和动画。ACM事务处理图表,24(3):408-416,2005. 1[3] Andreas Aristidou和Joan Lasenby。FABRIK:一个快速,迭代求解逆运动学问题。Graph.模型,73(5):243-260,2011. 3[4] 放大图片作者:Peter V. Gehler,Javier Romero,and Michael J.黑色.保持它SMPL:从单个图像自动估计3D人体姿势和形状。ECCV,第561-578页,2016年。一、二、六[5] Samuel R.巴斯和金镇秀反向运动学的选择性阻尼最小二乘法。J.图表。Tools,10(3):37-49,2005. 3[6] Ching-HangChen , AmbrishTyagi , AmitAgrawal , Dylan Drover , Rohith MV , StefanStojanov,and James M.瑞格具有几何自监督的无监督3d姿态估计。在CVPR中,第5714-5724页。计算机视觉基金会/ IEEE,2019年。一、二、五[7] Yilun Chen , Zhicheng Wang , Yuxiang Peng ,Zhiqiang Zhang,Gang Yu,and Jian Sun.用于多人姿态估计的级联金字塔在2018年IEEE计算机视觉和模式识别会议,CVPR 2018,美国犹他州盐湖城,2018年6月18日至22日,第7103-7112页。IEEE计算机学会,2018年。3[8] Akos Csiszar,Jan Eilers,and Alexander Verl.用神经网络求解运动学逆解问题。在第24届机电和机器视觉实践国际会议上,M2 VIP 2017,新西兰奥克 兰 , 2017 年 11 月 21 日 至 23 日 , 第 1-6 页 。IEEE,2017年。3[9] 方浩树,徐元路,王文冠,刘晓柏,朱松春。学习姿势语法来编码人体配置以进行3d姿势估计。在Sheila A. McIlraith和Kilian Q. Weinberger,编辑,第32届AAAI人工智能会议(AAAI- 18),第30届人工智能创新应用(IAAI-18)和第8届AAAI人工智能教育进展研讨会(EAAI-18),美国路易斯安那州新奥尔良,2018年2月2日至7日,第6821-6828页AAAI Press,2018. 3[10] GeorgiosGeorgakis , RenLi , SrikrishnaKaranam , TerrenceChen , JanaKosecka' ,andZiyanWu.高性能运动人体网格恢复.In An-drea Vedaldi,Horst Bischof,Thomas Brox,andJan-Michael Frahm , editors , Computer Vision -ECCV2020-16thEuropeanConference ,Glasgow , UK , August23-28 , 2020 ,Proceedings,Part XVII,volume 12362 ofLectureNotesinComputerScience , pages768-784.Springer,2020年。3[11] Michael Girard和Anthony A.马切耶夫斯基腿形人物计算机动画的计算建模。在Pat Cole、RobertHeilman和Brian A. Barsky编辑的第12届计算机图形和交互技术年会论文集,SIGGRAPH 1985,美国加利福尼亚州旧金山,1985年7月22-26日,第263ACM,1985年。3[12] Ke Gong,Yiming Gao,Xiaodan Liang,XiaohuiShen,Meng Wang,and Liang Lin.Graphonomy:通过图迁移学习的通用人类解析。在CVPR中,第 7450-7459 页 。 计 算 机 视 觉 基 金 会 / IEEE ,2019。三、五[13] 放大图片作者:Peng Guan,Alexander Weiss,Alexandru O. Balan,and Michael J.黑色.从单个图像估计人体形状和姿势。在IEEE第12届计算机视觉国际会议,ICCV
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 深入理解23种设计模式
- 制作与调试:声控开关电路详解
- 腾讯2008年软件开发笔试题解析
- WebService开发指南:从入门到精通
- 栈数据结构实现的密码设置算法
- 提升逻辑与英语能力:揭秘IBM笔试核心词汇及题型
- SOPC技术探索:理论与实践
- 计算图中节点介数中心性的函数
- 电子元器件详解:电阻、电容、电感与传感器
- MIT经典:统计自然语言处理基础
- CMD命令大全详解与实用指南
- 数据结构复习重点:逻辑结构与存储结构
- ACM算法必读书籍推荐:权威指南与实战解析
- Ubuntu命令行与终端:从Shell到rxvt-unicode
- 深入理解VC_MFC编程:窗口、类、消息处理与绘图
- AT89S52单片机实现的温湿度智能检测与控制系统
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功