没有合适的资源?快使用搜索试试~ 我知道了~
132530FLAG:基于流的稀疏观测生成3D化身0Sadegh Aliakbarian Pashmina Cameron Federica Bogo Andrew Fitzgibbon Thomas J. Cashman0微软混合现实与人工智能实验室0https://microsoft.github.io/flag0摘要0为了在混合现实应用中表示人物以进行协作和交流,我们需要生成逼真和忠实的化身姿势。然而,从头戴设备(HMD)中可以应用于此任务的信号流通常仅限于头部姿势和手部姿势的估计。虽然这些信号很有价值,但它们对人体的表示是不完整的,这使得生成忠实的全身化身具有挑战性。我们通过开发基于流的3D人体生成模型来解决这个挑战,该模型从稀疏观测中学习到了3D人体姿势的条件分布,以及从观测到潜在空间的概率映射,通过该映射我们可以生成一个合理的姿势,并估计关节的不确定性。我们展示了我们的方法不仅是一个强大的预测模型,而且在不同的优化设置中可以作为一个高效的姿势先验。在这些设置中,一个良好的初始潜在代码起着重要的作用。01. 引言0混合现实技术为与人们互动提供了新的方式,应用于远程协作、虚拟聚会、游戏和教育等领域。人们是所有这些应用的核心,因此生成具有高保真度的逼真人物形象对用户体验至关重要。虽然外部传感器和摄像头[33]是有效的,但仅使用头戴设备(HMD)来生成逼真和忠实的人物形象仍然是一个具有挑战性的问题。来自HMDs(如MicrosoftHoloLens和OculusQuest)的相关数据仅限于头部和手部的位置和方向,可以通过自我中心的手部跟踪[11,39]或运动控制器的信号获得。这对于全身姿势和动作来说是一个非常不完整的信号。尽管先前的工作已经提出了从部分和模糊观测(如图像[3, 19, 42]、2D关节/关键点[4,26]和标记[9, 22, 44,45])生成3D人体姿势的人体姿势先验,但这些观测比从HMDs中实际获得的数据更丰富。尽管这个问题很重要,但从极度稀疏的观测(即头部和手部的位置和方向)生成全身姿势的尝试很少。Dittadi等人[8]开发了一个变分自编码器(VAE),将头部和手部输入压缩到一个潜在空间中,允许通过从该潜在空间中采样来生成全身姿势。我们提出了一种基于条件归一化流的新方法来处理稀疏输入。具体而言,我们通过基于流的模型学习给定头部和手部数据的全身姿势的条件分布,该模型实现了3D姿势分布和基础分布之间的可逆映射。我们模型的可逆性使我们能够进一步学习从条件到相同基础分布中的高可能性区域的概率映射,如图1所示。我们将我们的方法命名为基于流的化身生成模型(FLAG)。这种设计的优势是:首先,使用基于流的生成模型可以计算精确的姿势似然,而不是在基于VAE的姿势先验中看到的近似似然[8,26]。其次,我们生成模型的可逆性使我们能够计算出理想的潜在代码。在训练过程中,理想的潜在代码充当了我们映射函数的基本真值。这使我们能够学习从观察到的头部和手部到潜在空间的代表性映射。0部分观测0人体,例如头部和手部0生成0训练0图1.我们通过训练一个基于流的生成模型,提供了一个从稀疏的头部和手部输入(三个SE3)生成完整身体化身的方法,该模型在基础分布和3D人体姿势分布之间提供了可逆的映射。在测试时,根据头戴设备的信号,我们预测潜在空间中的一个区域,将其作为输入传递给基于流的模型来生成姿势。0位置和方向的稀疏观测生成全身姿势是一个具有挑战性的问题。Dittadi等人[8]开发了一个变分自编码器(VAE),将头部和手部输入压缩到一个潜在空间中,允许通过从该潜在空间中采样来生成全身姿势。我们提出了一种基于条件归一化流的新方法来处理稀疏输入。具体而言,我们通过基于流的模型学习给定头部和手部数据的全身姿势的条件分布,该模型实现了3D姿势分布和基础分布之间的可逆映射。我们模型的可逆性使我们能够进一步学习从条件到相同基础分布中的高可能性区域的概率映射,如图1所示。我们将我们的方法命名为基于流的化身生成模型(FLAG)。这种设计的优势是:首先,使用基于流的生成模型可以计算精确的姿势似然,而不是在基于VAE的姿势先验中看到的近似似然[8,26]。其次,我们生成模型的可逆性使我们能够计算出理想的潜在代码。在训练过程中,理想的潜在代码充当了我们映射函数的基本真值。这使我们能够学习从观察到的头部和手部到潜在空间的代表性映射。132540空间,使得我们的方法成为一个强大的预测模型。最后,无论是在姿势空间还是潜变量空间进行优化,使用我们的模型作为姿势先验在潜变量空间中提供了一个更好的初始化,使得优化非常高效。02. 相关工作0最近的一些研究通过给定部分观测数据(如图像[3, 18, 19,35],2D关键点[4, 15, 19],HMDs [8],IMUs[10]和额外的上半身跟踪信号[41],或者部分可见身体关节的轨迹[16])来生成3D人体姿势。这些方法通常需要比商用HMDs[40]更丰富的输入,而我们希望解决的是仅通过HMD输入生成完整身体姿势的挑战。大多数相关工作使用人体姿势的生成模型,直接预测身体模型的参数[23, 25,26],或者作为优化框架中的姿势先验[4, 19,45]。一些作者将两者结合起来,通过训练一个模仿优化器行为的网络[15,43]或使用神经网络初始化的优化器[18]。SMPLify[4]提出了基于高斯混合的概率3D人体姿势先验。Pavlakos等人[26]发现SMPLify对于建模复杂的人体姿势分布不够表达能力,提出了使用变分自编码器的VPoser。当使用无条件的基于VAE的姿势先验时,必须通过优化成本函数中的附加项来强制与观测一致。相反,有条件的基于VAE的(CVAE)姿势先验使用观测来估计姿势的可能性。Liang等人[20]和Rempe等人[28]使用先前观察到的姿势来调整姿势先验,而Sharma等人[36]使用CVAE从从图像中提取的2D关键点生成3D人体姿势。先前的研究[6, 12,27]已经确定基于VAE的方法由于在VAE的证据下界(ELBO)中调整重建和KL散度损失之间的平衡的启发式性质而难以训练。如果目标是学习一个接近正态分布的丰富语义潜变量空间,KL项的权重需要相对较高(接近标准ELBO中的1),这反过来会通过解码导致较低质量的姿势重建。如果需要高质量的姿势重建,则KL的权重应该相对较小,例如VPoser中的5×10^-3,这会导致模型不能通过优化真正的ELBO来优化不完美的潜变量表示。这种对两个项的权重的推拉效应使得VAE的训练变得困难,但是当引入强条件信号(如图像、先前姿势或2D关键点[20, 28,36])时,情况变得更加具有挑战性。如果按照标准方式进行训练,条件信号足够强大,以至于解码器可以仅通过条件生成姿势,从而学会忽略0潜变量[1,2]。为了避免这种情况,CVAE-based姿势先验倾向于将KL项的权重设得非常小,例如Rempe等人[28]中的4×10^-4,以避免后验崩溃[6, 12,27]。与基于VAE的方法不同,基于正则流的模型通过可逆变换的组合来表示复杂的数据分布,并最小化姿势的精确负对数似然。Biggs等人[3]在优化问题中使用基于流的模型作为姿势先验,目标是找到一个最小化2D关键点的重投影误差的可能姿势。Zanfir等人[42]在弱监督框架中使用基于流的姿势先验在2D图像上拟合3D身体模型。Kolotouros等人[19]将这些模型扩展为条件于观察图像的模型,使其既可以作为姿势先验,又可以直接作为预测模型,从而能够根据图像和潜变量(z=0)生成一个合理的3D人体姿势。这些进展增强了对具有丰富条件输入(如图像或关键点)的高度表达条件流模型的信心。我们的方法在本文中进一步推进了这一研究方向,并提出了FLAG,一种基于条件流的稀疏输入姿势先验,通过以下先前工作来实现:(1)从极度稀疏的条件信号生成高质量的3D姿势,(2)提供潜变量采样,通过学习从观测到在潜变量空间中生成可能和合理姿势的区域的映射。这使我们既拥有一个强大的预测模型,又拥有一个高效的姿势先验用于优化。此外,我们还展示了在条件场景中,从z=0开始并不一定会导致最佳的预测结果,而我们的方法提供了一个更有前景的替代方案。03. 预备知识0标准化流。标准化流[30]作为基于似然的生成模型为数据提供了一个表达丰富的概率分布的路径。与VAE不同,VAE的主要挑战是找到一个合适的近似后验分布,标准化流只需要定义一个简单的基本分布(也称为先验分布)和一系列双射变换。这些双射变换允许模型将数据映射到潜在空间和反之亦然。给定数据x∈Rd,目标是学习数据的联合分布。标准化流将x建模为从选择的基本分布pz(z)中采样的实向量z的变换T。通过可逆且可微的T(因此也是T−1)和使用变量变换公式[32],我们得到x的密度为:0px(x) = pz(T−1(x)) ∙ det JT−1(x)−1 (1)132550图2.FLAG的概述,包括基于流的模型fθ和潜在区域逼近器fLRA。在训练期间,fθ旨在学习xθ的分布,fLRA旨在学习从条件到xθ的潜在表示的映射。在测试时,我们通过fLRA对潜在变量zH进行采样,并使用它通过ˆxθ=fθ(zH, [xH, β])生成新的姿势。0其中JT是T的Jacobian。由于z =T−1(x),px(x)也可以用x和T−1的Jacobian表示为:0px(x) = pz(T−1(x)) ∙ det JT−1(x) (2)0可以将多个简单的变换组合成复杂的变换T = TK ◦ TK−1 ◦ ...◦T1,其中Ti将zi−1转换为zi,z0是基本分布中的潜在变量,x =zK。这种组合可以使用最大化数据对数似然的神经网络构建。如[30]所示,log p(x)可以写成:0log p(x) = log p(z0) −0i=1 log det ∂Ti ∂zi0方程(3)0SMPL身体模型。SMPL[23]是一个人体网格的参数生成模型。SMPL接收以轴角表示的3D人体姿势θ和身体形状参数β作为输入,并生成表示为3×6890的身体网格矩阵M =SMPL(θ, β)。为此,我们定义SMPL(θ,β)。HH()来计算头部和手部的位置和方向。04. 提出的方法0我们首先定义我们的问题陈述,然后概述我们的方法。然后我们描述FLAG的组成部分以及完整身体姿势的训练和生成。04.1. 模型概述0我们的任务是在给定稀疏观察xH和形状参数β的情况下生成完整的身体姿势xθ。xθ∈R3×J表示J个身体关节的关节旋转作为轴角向量,xH∈R9×K表示全局6D关节旋转[46]和K=3个观察(头部和手部)的3D关节位置。这些信息可以从人体的参数模型(例如SMPL[23])中获得。0从xH和β通过条件流模型fθ学习给定观察到的xH和β的身体姿势的分布是生成xθ的一种有效方法。虽然这种方法可以有效地提供给定姿势的可能性,但生成过程仍然不完整;为了生成给定xH和β的新姿势,需要对潜在变量进行采样。然而,采样过程完全独立于观察结果。虽然[19]依赖于潜在空间z=0(全零向量)的均值作为生成完整姿势的潜在代码,但我们认为存在一个比z=0更好地表示xθ的潜在代码。实际上,虽然z=0是基本分布中最可能的潜在代码,但它不一定对应于姿势空间中最可能的姿势,因为通过fθ的变换可以改变分布的体积(方程3中的第二项)。为了获得这样的潜在代码,我们的模型估计了给定xH和β的正态流基本分布N(µH,ΣH)中的一个子区域,从中可以对潜在变量进行采样以生成完整的身体姿势。在测试时,为了生成给定xH和β的完整身体姿势,我们从zH�N(µH,ΣH)中对潜在代码进行采样,并将其用作生成完整身体姿势的近似值zθ的潜在代码。我们使用这个潜在估计通过ˆxθ=fθ(zH, [xH,β])生成完整的身体姿势。接下来,我们定义fθ并描述我们如何建模N(µH, ΣH)。04.2. 全身姿势的流动0我们使用一个正规化流模型来建模 x θ 的分布。我们的模型 fθ 是一个条件RealNVP [7],以 x H 和 β为条件。这可以通过将 x θ从姿势分布映射到基本分布(反之亦然)来实现,通过一系列简单的可逆变换的组合来实现,其中每个变换可以拉伸或收缩其输入分布。虽然直接研究每个可逆变换在给定从基本分布采样的人体姿势生成中的贡献并不直接,但我们期望每个连续的变换都能为其作用的人体姿势分布增加表达能力。为了直观地理解每个变换的作用,我们可视化了模型中所有变换如何形成人体姿势。图3a说明了从基本分布中的 z θ经过 f θ的可逆变换逐步演化为姿势分布的过程。如图所示,大部分可观察到的中间分布的修改发生在后期阶段,其中观察到形成了类似人体的姿势。我们认为这是因为唯一的监督来源是显式引导最后一个变换块的GT姿势。为了简化训练并充分利用 f θ 中的每个变换块,我们建议引入中间监督到 f θ中。除了将GT姿势作为最后一个变换的输入之外,还将GT姿势作为中间转换的输入。132560(a) 不使用中间监督0(b) 使用中间监督0图3. 通过从基本分布到姿势分布的变换(T K ← T1)展示的姿势演变,包括使用和不使用中间监督。第一列显示了GT姿势。姿势以颜色编码,黄色表示与GT的大误差,深蓝色表示零误差。0在每个块中,我们将GT姿势作为中间转换块的输入,就好像它们是子网络的最后一个块一样。这是可能的,因为 f θ中的变换不会修改数据维度。因此,中间转换块被鼓励产生合理的人体姿势,并充分发挥其容量。我们通过图3b中的转换过程以及图2中的结果表明,中间监督导致生成的姿势更加合理。04.3. 潜变量采样0为了生成给定 x H 和 β的新姿势,我们需要从基本分布中采样一个潜变量z,并使用它来生成姿势 ˆ x θ = f θ (z, [x H,β])。在标准的条件流模型中,人们随机采样 z � N(0,I),希望模型能生成一个合理的姿势,或者考虑 z = 0[19]。尽管这些方法可以得到有效的解决方案,但我们认为它们并不构成最佳解决方案。这可以通过正规化流的可逆性来明确地检验,其中可以获得理想的潜变量 z� = f−1θ(xθ, [x H,β])。由于在训练过程中已知理想的潜变量,我们训练我们的模型使其学习将条件(x H 和 β)映射到基本分布中 z�有高概率的区域。在训练过程中利用 z�可以考虑基本分布的体积变化以及通过 f θ从基本分布到姿势空间的概率质量的变化。我们用一个高斯模型来建模感兴趣的区域,并学习其参数 µ H 和 Σ H =diag(σ H)2。这样的映射应该具有两个理想的属性:(i)它应该具有表达能力,以便在给定稀疏观测的情况下能够产生完整身体的表示。这对于估计代表完整身体的基本分布的子区域是必要的。(ii) 它应该考虑人体表示的不确定性。0给定稀疏观测时,当只观测到头部和手部时,存在多个可能的全身姿势。对于每个可能的姿势,我们需要知道基本分布中对应的子区域。考虑到这些关键属性,我们设计了一个基于Transformer的映射函数,具有离散潜变量空间。基于注意力的潜变量区域估计。我们提出了一个基于Transformer模型(具有Transformer编码器)来建模映射函数,利用自注意机制在训练过程中学习身体中不同关节之间的关系。简而言之,Transformer编码器接收 x H 和 β作为输入,并估计 N ( µ H , Σ H ) ,其中 µ H被训练成对应于理想潜变量 z �的良好近似。为了使这样的分布能够代表全身,我们做出了几个设计选择,以得到图 4中所示的模型。首先,使用稀疏输入直接训练这样的模型是具有挑战性的。为了使模型更容易,我们定义了一个辅助任务,即通过Transformer编码器的输出(通过图 4 中的ToPoseSpace 块)生成 x θ,最初的目标是从完整的身体关节重建 x θ,然后逐渐减少编码中的关节可见性(通过掩蔽),直到只提供头部和手部 1。为了进一步帮助Transformer学习身体的表示,我们引入了另一个辅助任务,即根据观察到的关节预测掩蔽的关节。这种逐渐掩蔽和预测(MaskedJointPredictor)使模型能够通过输入中可用关节的注意力(层)推断出全身表示。为了从Transformer编码器中获得紧凑的表示,我们对输出关节应用池化(Pool H),并仅采用头部和手部的表示,因为它们始终是未掩蔽的。接下来,我们使Transformer编码器的输出具有随机性,以获得预测姿势的不确定性估计。我们建议使用一个分类潜变量空间[13, 31,34],从Transformer编码器的输出中采样一个离散潜变量(通过Gumbel-Softmax [13]以实现可微分性)来生成 x θ,以满足定义的辅助任务,或者使用整个潜变量表示来估计N ( µ H , Σ H ) (通过LatentRegionApproximator),其中包含关于可能的姿势和相关不确定性的信息。为了高效地建模人体运动的复杂分布,我们需要相对较大数量的潜变量类别。为了解决这个问题,我们使用一个二维分类潜变量空间,如图 4 所示。我们建模一个 G维潜变量,每个潜变量负责 M个模式,从而使我们具有以下能力:01尽管原则上可以随机进行掩蔽,但我们遵循SMPL骨架的运动学树,从下半身关节开始掩蔽,然后是脊柱关节,接着是手臂关节,最后是骨盆(运动学树的根部)。....PE+....Lnll = −�log pθ(xθ) +�s∈Sws log psθ(xθ)�(5)Lmjp =�j∈Jmasked��ˆxjP − xjP��22(6)Lrec =ˆxtpsθ − xθ22(7)Llra = −αnll log pH(z∗) + αrec ∥µH − z∗∥22−αreg(1 + ln σH − σH)(8)C(θ) = − log pθ(xθ) + ||SMPL(θ, β).HH() − xH||2(9)C(z) = − log p(z) + ||SMPL(ˆθ, β).HH() − xH||2 + r(10)132570图 4. 基于Transformer的 f LRA 。基于注意力的编码器旨在学习 xH与身体其他部分之间的关系,以生成身体的表达。从Transformer编码器的输出中得到的分类潜变量空间使我们能够预测一个可能的姿势和相关的不确定性。0使用 M G 的独热潜变量编码。04.4. 学习0我们使用一个多样化的3D人体模型数据集,其中每个样本是一个三元组 ( x θ , x H , β ) ,其中 β是SMPL形状参数。我们的损失函数 L 给出如下:0L = λ nll L nll + λ mjp L mjp + λ rec L rec + λ lra L lra (4)0其中 λ . s 是与每个项相关的权重。L nll:该项鼓励模型在模型 f θ 下使 x θ的负对数似然最小化,遵循方程 3 。此外,我们还考虑了由f θ 的子网络产生的对数似然,作为中间监督讨论在第 4.2节中。0其中 S 是 f θ 的子网络集合(例如,从块 T i 到 T 1的预定义一组 i s), p s θ ( x θ ) 是 x θ 在子网络 s下的似然,而 w s是与子网络相关联的权重,与每个子网络中的变换块数量成比例。 L mjp:为了训练遮挡关节预测的辅助任务,我们采用该项0其中 J masked 是被遮挡的关节列表, x j P 是第 j个关节在 R 9 中的表示(6D 旋转和 3D 位置),而 ˆ x j P是网络的相应预测。 L rec:该项作用于从离散潜变量采样的变压器的分类潜变量空间解码出完整身体姿势的辅助任务的输出,旨在指导构建有意义的离散潜变量空间。0其中 ˆ x tps θ 是 ToPoseSpace 的输出。0L lra :最后,该项鼓励学习一个高似然性的高斯分布 N ( µH , Σ H ) ,其中理想的潜变量 z � 具有高似然性。0其中 p H 是基本分布的估计子区域。虽然等式 8中的第一项足以实现这个目标,但我们添加第二项是为了隐式地鼓励 µ H 与 z � 相似,第三项则防止 σ H为零,从而避免确定性映射。注意,α reg 和 α rec可以相对较小,但需要存在。尽管整个模型可以进行端到端的训练,但我们观察到先训练 f θ,然后训练潜变量区域逼近器非常有效,因为我们从一开始就可以访问有效的 z � 。第二个训练阶段很快,需要 4 个GPU 小时。这种两阶段的训练在希望使用先前训练的 f θ作为基础模型 [ 5 ]并仅为其他数据模态(例如身体标记或环境扫描)训练映射函数的情况下也可能很有用。04.5. 条件生成0我们可以根据 x H 和 β生成完整的身体姿势,首先计算给定观察的 µ H ,然后使用 µ H 作为 z θ 的近似值生成姿势 ˆ x θ = f θ ( µ H , [ x H, β ])。为了进一步提高生成姿势的质量,还可以将我们的基于流的模型作为姿势先验用于优化,以最小化先验和数据上的代价函数。优化可以在姿势空间或潜变量空间中进行。我们在整个过程中使用 LBFGS 优化器 [ 21](详见补充材料以获取更多细节)。在姿势空间中进行优化:优化器寻找一个符合我们模型的、与观察值 x H匹配的合理人体姿势 θ。我们通过最小化以下代价函数来优化 θ :0在潜变量空间中进行优化:优化器寻找一个潜变量 z,该潜变量在模型下导致一个与观察值 x H匹配的合理姿势。使用姿势先验( f θ)的生成功能生成一个姿势,我们通过最小化以下代价函数来优化 z :0其中 log p ( z ) 是优化后的 z 在基本分布 N (0 , I )下的对数似然, ˆ θ = f θ ( z, [ x H , β ]) ,而 r = || z − µ H ||是一个正则化项(详见补充材料),隐式地防止潜变量过于偏离初始猜测(数据项中没有关于下半身的信号,即等式10 中的第二项)。132580图5. 定性结果。第一列(橙色)显示真实姿势。生成的姿势以颜色编码,以显示黄色的大顶点误差。0方法 上半身MPJPE(↓) 全身MPJPE(↓)0VPoser-HMD 1.69 cm 6.74 cm HuMoR-HMD 1.52 cm 5.50 cmVAE-HMD 3.75 cm 7.45 cm ProHMR-HMD 1.64 cm 5.22 cm0FLAG(我们的方法) 1.29 cm 4.96 cm0表1. 在AMASS上与现有方法的比较。05. 实验0首先介绍数据集,然后呈现我们方法的实验结果、消融研究和定性结果(有关实现细节请参见补充材料)。数据集。我们在AMASS[24]上报告结果,这是一个大规模的动作捕捉数据集,使用SMPL身体模型表示各种姿势。我们在AMASS的Transitions和HumanEVA[37]子集上评估我们的方法和现有方法。模型在剩余的数据集上进行训练,不包括跳舞序列[28]。基线。已经有一些努力生成给定头部和手部输入的全身姿势[8]。我们的第一个基线称为VAE-HMD,涉及一个两步过程。首先,在没有任何条件的情况下,训练一个VAE编码器-解码器来处理全身数据。然后,在下一步中,训练另一个VAE(从冻结的解码器开始),将头部和手部表示编码到潜在空间中,并使用先前训练的全身解码器进行生成。由于我们的方法是一个条件姿势先验,我们将其与现有的条件姿势先验进行比较,将它们适应到我们的问题设置中。ProHMR[19]在体系结构上与我们的方法最接近,因为它是一个条件流模型。我们将调整条件信号以适应头部和手部表示,并将其作为另一个基线称为ProHMR-HMD。我们的第三个基线是VPoser[26]的条件版本,它是一种基于VAE的方法,因为它是文献中强大且常用的人体姿势先验,我们将其称为VPoser-HMD。我们还评估了另一种最近提出的基于CVAE的姿势先验,HuMoR [28]。0该方法学习给定条件信号的先验分布。我们将该方法调整到我们的场景中,并将其称为HuMoR-HMD。对于所有基线方法,我们遵循原始实现(如果有的话),否则遵循论文中的描述。为了公平比较,我们对所有方法使用相同的数据和条件表示。按照惯例[8,29],角色的根部位于原点。评估指标。为了定量地衡量准确性,我们报告以厘米为单位的平均每关节位置误差(MPJPE)。由于上半身表示的质量对于增强现实(AR)、虚拟现实(VR)和混合现实(MR)应用更为重要,我们还报告了上半身的MPJPE以及全身的MPJPE。05.1. 与现有方法的比较0我们评估我们的方法在给定稀疏观测的情况下生成合理姿势的能力,并将其与现有方法进行比较。表1总结了这个评估结果2。我们在这个比较中没有使用优化。基于流的方法ProHMR-HMD和FLAG(我们的方法)通常具有较低的全身误差,但具有条件潜变量采样的方法往往能够生成更好的上半身。这是HuMoR和我们的方法的情况,其中潜变量是在给定头部和手部信息的情况下进行采样,而对于其他技术,潜变量是独立于条件信号进行采样的。我们方法的优越性在图5的定性结果中也是显而易见的,FLAG相对于其他技术产生的误差最小,而HuMoR产生的上半身相对较好。我们在补充材料中提供了更多的定性结果。05.2. 消融研究0中间监督的效果。在第4.2节的基础上,我们评估了提出的中间监督的效果。02VAE-HMD在标准AMASS测试集上的MPJPE相对较高。我们在补充材料中对此进行了分析,证明这是由于VAE-HMD方法中使用的两阶段训练导致的潜空间利用不完美。pose. In Table 4, we compare our approach, z = µH with theproposal of ProHMR-HMD [19] which claims z = 0 yieldsthe most plausible pose. While z = 0 yields a plausiblepose, this experiment shows the existence of a better latentcode, zH that leads to a more plausible pose that has a highlikelihood under the model. This is also shown in Table 5,where we compute the distance between the oracle latentcode z∗ = f −1θ(xθ, [xH, β]) to the latent code from our ap-proach as well as that of [19]. For the sake of completeness,we also compare our method with an MLP that learns to finda good latent code given the condition, which we refer toas z = MLPH in Table 4. In addition to quantitative evalua-tion, Fig. 6 shows the effect of a proper initial latent code ingenerating pose from sparse observation.We also observed that initial latent variable affects thequality of predicted poses refined via optimization in ei-ther the pose space or the latent space, as described in Sec-tion 4.5. We evaluate this in Fig. 7, where we use flow-based approaches as a pose prior in the optimization processand report the MPJPE. Consistent with Table 4, the resultsdemonstrate that a proper initialization leads to a better per-formance. Given a fixed optimization budget, our methodreaches a desired error threshold quicker owing to (a) a betterinitialization and (b) more reliable likelihood estimates (sup-ported by results in 3). For instance, even after 50 iterationsof optimization, ProHMR-HMD [19] does not outperformthe solution reached by our approach after 2 optimizationiterations regardless of the (pose or latent) space we opti-mize in. Finally, we also demonstrate that optimization inthe latent space generally yields lower error compared tooptimization in the pose space, for either model designs.Partial Hand Visibility. All methods presented assume that132590设置 上半身MPJPE ( ↓ ) 全身MPJPE ( ↓ )0无中间监督 1.64 cm 5.22 cm 有中间监督 1.39 cm 5.11 cm0表2. 评估中间监督的效果。0方法 真实姿势 操纵姿势 (RD ↑ ) 噪声 (RD ↑ )0CVAE * (真实ELBO) 29.68 29.68 (0.0) 32.40 (0.08) VPoser-HMD * 34.79 35.56(0.02) 2.39 × 10^3 (0.98) HuMoR-HMD * 46.02 49.21 (0.06) 2.37 × 10^4 (0.99)ProHMR-HMD † 110.72 282.01 (0.61) 6.63 × 10^7 (1.0)0FLAG (我们的方法) † 98.54 489.66 (0.80) 3.04 × 10^13 (1.0)0表3.通过检查内部和外部分布样本的NLL来评估学习到的潜变量表示的泛化能力。*表示基于VAE的方法,†表示基于NF的方法。0潜变量采样 上半身MPJPE ( ↓ ) 全身MPJPE ( ↓ )0零采样 ( z = 0 ) 1.39 cm 5.11 cm MLP ( z = MLP H ) 1.36 cm 5.05 cm我们的采样 ( z = µ H ) 1.29 cm 4.96 cm0表4. 评估潜变量采样的效果。比较 z = 0 [19],使用MLP估计z,以及我们的方法。0中间监督。这种监督为 f θ的中间转换块提供了额外的信号,使得从基本分布开始的变换过程中更好地收敛到一个合理的姿势。这在图3中可见,并且在我们在表2中的定量结果中也是明显的,我们展示了生成姿势质量的显著改善。潜变量表示的泛化能力。由于各种模型的训练方式不同,使用各种训练技巧如KL项退火或修改ELBO以减轻后验坍缩,我们定义了一个辅助任务来评估学习到的潜空间的质量。为此,我们使用负对数似然(NLL)度量来识别出分布外(OOD)样本。我们将分布内样本定义为来自真实测试集的姿势,而OOD样本有两种定义方式:(1)通过向一部分关节添加少量噪声来操纵真实姿势;(2)创建类似姿势的随机噪声(自然姿势范围内的随机值)。表3总结了不同模型在检测OOD样本时的表现。为了更清楚地比较,我们还报告了相对差异(RD = |NLL OOD - NLL GT|)。0max(NLL OOD, NLLGT))是模型对OOD样本和真实姿势的NLL之间的最大值,数值越大越好。可以看到,基于流的模型通常更擅长检测OOD样本,表明其学习到了更丰富的潜变量表示,而基于VAE的模型尽管使用了各种技术来避免后验坍缩,但效果较差。为了参考,我们还提供了使用真实ELBO训练的CVAE的结果。初始潜变量编码的影响。本工作的一个关键贡献是从条件到潜空间中的子区域的概率映射,从而得到一个高度可信的姿势。0潜变量采样 余弦距离 ( ↓ ) Sinkhorn距离 ( ↓ )0随机采样 ( z � N (0, I) ) 1.0 0.29 零采样 ( z = 0 ) 1.0 0.22 我们的采样 ( z= µ H ) 0.81 0.180表5. 到oracle潜变量编码 z* = f^(-1)_θ(x_θ) 的距离。0图6. 潜变量采样的定性评估,比较我们从 z = 0 和从 z = µ H预测的结果。生成的姿势使用颜色编码以显示黄色的大顶点误差。132600图7.优化迭代次数与MPJPE的关系。如图所示,ProHMR-HMD在潜变量空间中需要50次优化迭代才能达到与我们方法相当的误差,而我们的方法在没有任何优化的情况下,使用适当的初始潜变量代码z =µH即可达到相同的误差。在潜变量空间中进行优化可以得到比在姿势空间中进行优化更低的误差。0头部和手部信号始终可见。实际上,一个或两个手可能会超出视野范围;真实世界的系统需要对此具有鲁棒性。为了使我们的模型对手部超出视野范围具有鲁棒性,我们使用随机手部遮罩(p =0.2)对模型进行了10个时期的微调。渐进式关节遮罩的使用使我们能够为此目的使用微调。在图8中,我们演示了FLAG可以在部分或无手观测下生成高度合理的姿势。限制和未来工作。尽管在大多数情况下,FLAG能够在极度稀疏的观测下生成高度合理的姿势,但它可能无法生成复杂的、不常见的下半身姿势,例如武术(示例在补充材料中提供),可能是因为这些姿势在训练数据集中并不常见。FLAG仅使用静态姿势信息;将FLAG扩展到使用时间数据是一个自然的研究方向。我们仅使用HMD信号作为模型的输入,而在某些AR/VR场景中,可能还可以使用其他模态,如音频或环境扫描。尽管FLAG旨在找到更好的潜变量代码来生成合理的姿势,但我们估计的潜变量代码与理想代码之间可能仍存在相当大的差距(见表5)。在这个领域的进一步探索可能会导致更加忠实和准确的角色姿势。社会影响。尽管像AMASS这样的当前数据集拥有大量的姿势,但数据来自346个主体,可能不能代表全球人口的真实多样性。作为一个社区,我们还有更多的工作要做,以代表所有年龄段的人和残疾人(例如轮椅使用者、截肢者)。对于那些体型不在数据集所代表的分布之外的人来说,我们应该问:1)这项技术对他们有效吗?2)他们能否选择他们想要的代表方式?0为了得到图8中的不确定性图,我们从z � N(µH,ΣH)生成K个姿势,并计算这些采样姿势与使用z =µH生成的姿势之间的顶点距离。0图8.FLAG在处理部分可见手部时的定性结果。从左到右,我们展示了GT、角色手部可见性状态(黑框表示可见,灰框表示不可见)、基于不确定性对zH =µH生成的姿势的不确定性图(白色表示确定,红色表示不确定)、µH生成的姿势,以及从N(µH, ΣH)开始生成的姿势样本。0以一种将残疾从视野中移除的方式来代表个体可能会产生负面结果。混合现实应用带来了增强的远程协作和沟通的承诺,但也可能存在潜在的负面社会影响:包括冒充、进一步边缘化社会经济弱势群体的误导性行为,无论是无意还是有
下载后可阅读完整内容,剩余1页未读,立即下载
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://profile-avatar.csdnimg.cn/default.jpg!1)
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
我的内容管理 收起
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助
![](https://csdnimg.cn/release/wenkucmsfe/public/img/voice.245cc511.png)
会员权益专享
最新资源
- 谷歌文件系统下的实用网络编码技术在分布式存储中的应用
- 跨国媒体对南亚农村社会的影响:以斯里兰卡案例的社会学分析
- RFM2g接口驱动操作手册:API与命令行指南
- 基于裸手的大数据自然人机交互关键算法研究
- ABAQUS下无人机机翼有限元分析与局部设计研究
- TCL基础教程:语法、变量与操作详解
- FPGA与数字前端面试题集锦:流程、设计与Verilog应用
- 2022全球互联网技术人才前瞻:元宇宙驱动下的创新与挑战
- 碳排放权交易实战手册(第二版):设计与实施指南
- 2022新经济新职业洞察:科技驱动下的百景变革
- 红外与可见光人脸融合识别技术探究
- NXP88W8977:2.4/5 GHz 双频 Wi-Fi4 + Bluetooth 5.2 合体芯片
- NXP88W8987:集成2.4/5GHz Wi-Fi 5与蓝牙5.2的单芯片解决方案
- TPA3116D2DADR: 单声道数字放大器驱动高达50W功率
- TPA3255-Q1:315W车载A/D类音频放大器,高保真、宽频设计
- 42V 输入 5A 降压稳压器 TPS54540B-Q1 的特点和应用
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
![](https://img-home.csdnimg.cn/images/20220527035711.png)
![](https://img-home.csdnimg.cn/images/20220527035711.png)
![](https://img-home.csdnimg.cn/images/20220527035111.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![](https://csdnimg.cn/release/wenkucmsfe/public/img/green-success.6a4acb44.png)