没有合适的资源?快使用搜索试试~ 我知道了~
1人体网格恢复的概率建模Nikos Kolotouros1,Georgios Pavlakos2,Dinesh Jayaraman1 KostasDaniilidis11宾夕法尼亚大学2加州大学伯克利分校摘要本文主要研究从二维证据重建三维人体的问题。虽然这是一个固有的模棱两可的问题,大多数最近的作品避免了不确定性建模,并通常回归一个单一的估计为一个给定的输入。与此相反,在这项工作中,我们建议接受重建的模糊性,我们重铸的问题,学习从输入到分布的合理的3D姿态的映射。我们的方法是基于规范化流模型,并提供了一系列的优势。对于传统的应用程序,其中需要一个单一的3D估计,我们的配方允许高效的模式计算。使用该模式导致的性能与确定性单峰回归模型之间的最新技术水平相当。同时,由于我们可以访问每个样本的可能性,我们证明我们的模型在一系列下游任务中是有用的,在这些任务中,我们利用预测的概率性质作为更准确估计的工具。这些任务包括从多个未校准的视图重建,以及人体模型拟合,丁,其中我们的模型作为一个强大的基于图像的网格恢复之前。我们的研究结果验证了概率建模的重要性,并表明在各种设置的最先进的性能。代码和模型可在:www.seas.upenn.edu/^nkolot/projects/prohmr.1. 介绍从任何形式的2D观察(图像、2D关键点、轮廓)重建3D人体姿势是一个基本上不明确的问题。当然,这是一个非常古老的见解,甚至从处理单视图人类姿势重建问题的最早方法[25]中就确定了然而,现有技术方法的当前规范是返回通常在这项工作中,我们认为,有很大的价值,在捕获的3D构成的分布条件的首选输入。我们对系统的依赖是返回一个确定性的图1:3D人体网格恢复。我们建议重铸的3D人体重建的问题,学习从输入到分布的3D构成的映射。输出分布在与2D证据一致的不同姿势集合上具有高概率质量3D姿态输出经常出于方便而发生;它使传统基准的比较简单和公平,而一个单一的输出就足以满足许多下游应用。用于3D人体姿势重建的最近文献目前主要由这些方法主导,并且它们对于图像[22]或关键点[43]输入、基于骨架[32]或基于网格[23]的重建以及回归[17]或基于优化[4]的方法非常流行另一方面,总是有一些方法主张支持每个输入生成多个预测。最近的努力已经证明了有趣的潜力[3,27],但通常依赖于集合型预测,将当前系统修改为组合N个输出头而不是一个。这可能导致繁琐的架构选择,无法扩展和/或输出分布的表达能力有限。我们的方法旨在弥合这一差距,并证明了预测的3D姿态的分布condi,conditioned上所提供的2D输入的价值。为了实现这一目标,我们提出了一个优雅和高效的方法,从最近的工作中丢失了许多理想的属性,我们证明了它的有效性。我们使用Normalizing Flows来回归合理姿势的分布,而不是回归所提供输入的单个估计。这让我们可以训练返回作为输入函数的3D姿态的条件分布的网络(例如,图像或2D关键点),如图1所示。我们的概率模型1160511606图2:3D人体网格估计的概率建模的价值。我们表明,在3D人体网格估计的情况下,概率建模可以是特别有用的,因为它的优雅和灵活的形式,这使得一系列的下游应用程序。第一行:在3D网格回归的典型情况下,我们可以自然地使用分布的模式第二行:当关键点(或其他类型的2D证据)可用时,我们可以将我们的模型视为基于图像的先验,并通过将其与2D重投影项组合来将人体模型拟合到关键点。第三行:当多个视图可用时,我们可以通过添加跨视图一致性项来自然地合并我们强调,所有这些应用程序都涉及测试时行为,并且它们使用相同的训练概率模型(不需要每个任务的训练)。允许对不同的输出进行快速采样,我们可以有效地计算每个样本的似然性,并且存在快速和封闭形式的解决方案来计算分布的模式。上述内容的重要性以各种方式体现出来,如图2所示。首先,我们可以容易地计算分布的模式,其返回针对特定输入的最可能的3D姿态。当某些应用需要单个估计时,这是方便的。有趣的是,这个回归值与最先进的确定性方法相当,因此即使在更传统的设置中,我们的模型也是有价值的。更重要的是,通过将我们训练的概率模型视为条件分布,我们可以在许多下游应用中使用它来组合来自不同来源的信息。例如,当2D关键点可用时,使用优化方法[4,38]将参数化人体模型拟合到这些2D位置。在这种情况下,我们的模型可以作为一个强大的基于图像的先验,可以引导优化向准确的解决方案,满足2D关键点重投影和图像证据。同样,当有多个视图可用时,我们可以通过优化交叉视图一致性来合并来自所有条件分布的信息,并恢复与可用观察一致的3D结果最后但并非最不重要的是,我们强调所有这些应用程序都可以在测试时使用相同的训练概率模型,而不需要任何特定于任务的再训练。我们进行了大量的实验,以证明我们学到的概率模型的重要性。我们主要关注基于图像的网格恢复[17],提出ProHMR模型,但我们也研究了2D关键点输入[32]。我们在不同的任务和评估设置中实现了特别强大的性能。我们的贡献可总结如下:• 我们提出了一个概率模型,人类网状re-kind,并证明其价值在各种任务。• 在传统的单一估计方法的评估,我们的模型是与最先进的水平。• 我们证明了在存在附加信息源的情况下,多视图或2D键-11607转∈..点,我们的模型提供了一个优雅和有效的方式来巩固说来源。• 在人体模型拟合的设置中,我们的模型作为一个强大的基于图像的先验,实现了比以前的基线显着提高。2. 相关工作虽然我们的公式非常通用并且可以处理不同的输入/输出,但这里我们主要关注从单个图像[17]恢复人体网格,同时我们简要地触及其他设置,特别是从2D关键点[32]进行3D姿态估计。由于相关的工作是巨大的,这里我们讨论更相关的方法。我们引导感兴趣的读者到一个最近的和广泛的调查[51]。2.1. 从单幅图像回归:最近的网格恢复方法遵循回归范式,其中参数模型[30,38,48,36]的参数从深度网络回归,给定单个图像作为输入。这里的典型例子是HMR [17],许多设计决策也被后续工作采用,例如:[2、11、23、39、6、9、15]。这里,我们的回归网络也遵循HMR的原理,然而,不是回归单个3D姿态估计,而是回归给定输入图像的似然3D姿态的整个最佳化:这些方法迭代地估计身体模型的参数,使得其与一组2D线索一致。SMPLify [4]的规范示例在给定2D关键点的情况下优化SMPL参数。后续工作调查其他输入,例如,轮廓[24],POF [47],密集对应[11]或接触[34,44]。然而,最近的方法[2,22,38]几乎完全依赖于2D关键点;失去了大部分的图像线索,但获得了鲁棒性。在这项工作中,我们展示了我们的概率模型如何利用基于图像的信息来指导基于关键点的优化。优化-回归混合:在最近的工作中,已经广泛地探索了在两种范式之间构建混合体的想法。 HMR [17]和HUND [50]使用网络来模拟优化步骤并将更新回归到模型参数。Song等人[43]使用模型关节的重新投影误差来指导其基于学习的梯度下降方法。SPIN [22]使用回归网络初始化优化,并使用优化的输出监督网络。EFT [16]通过在拟合过程中更新网络权重来建立这一点。我们的概率模型还通过回归的分布调查这种类型的合作2.2. 三维人体姿态在3D人体姿态估计的背景中已经使用了多个假设方法来处理重建的固有模糊性,诸如遮挡、截断或深度模糊性。Jahangiri和Yuille [14]使用组成模型和解剖学约束来生成与2D关键点证据一致的多个假设。Li和Lee[27]使用混合密度网络,并基于高斯内核的质心生成固定数量的建议,而Sharma等人。[42]使用条件VAE解 决 相 同 的 问 题 最 近 , Biggs 等 人 。 [3] 扩 展 HMR[18],具有N个预测头。这导致了一组离散的假设,而不是像我们这样的姿势的完全在同时进行的工作中,Senguptaet al. [41]使用高斯后验来对参数预测中的不确定性进行与这些方法不同的是,我们的方法并不限于学习一个生成模型的合理的3D姿态,而是显示了如何使用这样的模型有用的下游应用。2.3. 标准化流程归一化流用于将复杂分布表示为简单基分布的一系列可逆变换。它们最初是为变分推断的后验分布建模而开发的[40,20]。流行的例子包括MADE [10],[19][在3D人体姿势估计的背景下使用归一化流来学习关于合理姿势的分布的先验[3,48,49]。这些先验通常使用未配对的MoCap数据进行训练[31]。我们的工作是fundamentally从这些方法的不同,在这个意义上,我们有兴趣在学习一个姿势先验条件的2D图像证据,而不是一个通用的3D姿势空间。3. 方法在本节中,我们详细介绍了我们提出的方法。我们从规范化流[40]和SMPL身体模型[30]的概述开始然后,我们描述了模型的体系结构和训练过程。最后,我们展示了我们的训练模型如何以简单直接的方式用于下游3.1. 标准化流程设Z Rd是分布为p的随机变量Z(z),f:Rd Rd是可逆映射.如果我们用f变换Z,则所得随机变量X=f(Z)具有概率密度函数:.无所谓然后可以将其用作拟合的先验项pX(x)=pZ(z)det伊茨(一)−1个11608|k=1×→K..|M∈Ⓢ图3:所提出的用于人体网格恢复的概率模型ProHMR的架构。左:我们的图像编码器回归隐藏向量c,该向量用作流模型的调节输入并行地,还将其解码为形状参数β和相机π。右:我们的流模型学习了一个可逆映射,允许两个处理方向;根据所需的函数,我们可以执行采样和快速似然计算。标准化流模型用于将任意复杂分布建模为简单基础分布的一系列可逆变换。典型地,基础分布pZ(z)被选择为标准多元GaussianN(0,I).如果我们将f写成可逆变换{fk}K的复合,其中Z0=Z,Z i= fi(Zi−1)范例[17]。我们的网络的输出是条件概率分布pΘ|I(θI)以及分别针对形状和相机参数β和π的点估计。完整的流水线如图3所示。给定输入图像I,我们使用CNNg对其进行编码,并获得一 个 连 续 向 量 c=g ( I ) 。 We 模 型 pΘ|I ( θ|c=g(I))且Zk=X,则X的对数概率密度可以是计算为:Σ。 塞尔夫岛使用条件规范化流。我们学习一个映射f:RdRcRd在z和θ上双射,即θ=f(z; c)且z = f −1(θ; c)。我们采用标准化流程,而不是简单的算法。lnpX(x)= lnpZ(z)−k=1因代伊茨i−1 .(二)混合密度网络(MDN)[27],因为它们的表达能力和建模能力更强Winkler等人[46]扩展的Normalizing Flow模型对条件分布p X进行建模|Y(x,y)通过使用在x和z上双射的变换x = f(z; y)。3.2. SMPL模型SMPL [30]是参数化人体模型。它定义了一个映射(θ,β),该映射将一组姿态参数θ和形状参数β作为输入,并输出一个人体网格复杂的分布,正如我们在后面的评估部分所示。在我们的设置中,归一化流也比VAE具有明显的优势,因为VAE不提供计算给定输出样本的可能性的简单方法,这在下游任务中使用我们的模型时至关重要。我们的标准化流模型基于辉光架构[19]。每个构建块fi由3个基本变换组成:MRN×3,其中N=6890是网格顶点数。另外,给定输出网格,身体关节Jfi=f对◦ f线 ◦ f范数 、(3)可以表示为网格顶点的线性组合,J=WM,其中W是预先训练的线性回归量。3.3. 模型设计不失一般性,我们提出了我们的管道的情况下,输入是一个人的图像和目标输出是SMPL身体模型参数的集合。我们称这个模型为ProHMR,目标是概率人体网格恢复。在本节的最后,我们还将展示如何在具有不同输入和输出表示的替代场景中应用相同的方法。在我们的设置中,我们被给予包含一个人的输入图像I,并且我们的目标是学习以I为条件的那个人的合理姿势的分布。由于我们无法访问准确的图像-形状注释对,因此我们选择仅对SMPL姿态参数θ的不确定性进行建模。我们的体系结构紧密遵循HMR其中,f范 数(z)=a z+b(实例归一化),f lin(z)=Wz+b(线性变换)以及f耦合=[z1:k,zk+1:d+ t(z1:d,c)](加性耦合)。 为了使反演和雅可比计算更快,在线性变换中,我们参数化W的LU分解。 通过组合这些构建块中的四个来获得最终的流模型。所选择的流模型使我们能够执行快速似然计算和快速采样的分布。同时,一个非常重要的性质是雅可比行列式的行列式不依赖于z,这反过来意味着输出分布的模式是:θ*I=argmaxθpΘ|I(θ|c)=f(0;c)。(4)这个结果允许我们把我们的模型作为预测模型11609以直截了当方式;在不存在任何附加的11610边信息,我们使用输出分布的模式进行预测。为了回归相机和SMPL形状参数,我们使用小的MLPh,其将上下文向量c作为输入并输出单点估计,即,[β,π]=h(c)。我们还尝试了让β和π依赖于θ,但没有明显的改善。3.4. 培养目标让我们假设我们具有与SMPL姿势注释配对的图像集合通常,归一化流模型被训练以最小化地面真实示例的负对数似然度θgt,即损失函数为:Lnll=−lnpΘ|I(θgt|c).(五)然而,对于3D姿态估计的任务,3D注释通常不可用,除了在受限的工作室环境中捕获的少量室内数据集[13,33],并且在这些数据集上训练的方法无法在具有挑战性的野外场景中推广因此,像[17]这样的先前方法提出使用仅具有2D关键点注释的示例,并将关键点重投影损失与对抗先验联合最小化。为了在我们的框架内实现这样的混合训练,我们建议最小化上述误差相对于学习分布的期望,即L exp= E θpΘ|I [L2D(θ,β,π)+Ladv(θ,β)].(六)为了使这种损失可微,我们使用无意识统计学家定律,并将期望重写为:L exp= EzpZ [L2D(f(z; c),β,π)+L adv(f(z; c),β)].(七)在概念上,即使我们没有地面实况注释,为了最大化这些示例的条件概率,我们仍然可以通过迫使输出样本平均具有低的重新投影误差并且位于有效姿态的流形上来约束输出分布的形式与VAE [21]的情况一样,我们通过从先验中提取单个样本来近似期望。如前所述,我们的目标是将我们的模型不仅用作生成模型,而且用作预测模型。因此,我们建议利用的财产,为每个图像I,输出分 布的模式θ*I对应于z=0的变换。我们通过e用所有可用的注释显式地监督θ*I对输出分布模式的监督有助于提高我们的模型在预测任务中的性能。重要的是要提到,在存在L模式的情况下,Lexp不是冗余的;模式的行为不指示完全分布,而Lexp鼓励分布具有某些期望的性质。最后,对于建模旋转,我们使用[52]中提出的6D表示。这种特定表示的一个问题是它不是唯一的。例如,对于任何3D向量x和y,[x,y]和[αx,βx+γy]被映射到相同的旋转矩阵。根据经验,我们发现,对6D表示不施加约束会导致具有全3D SMPL参数监督的示例与仅具有2D关键点注释的示例之间存在较大差异。除此之外,这导致没有3D地面实况的示例的模式崩溃。因此,我们引入另一个损失函数Lorth,其迫使从分布中提取的样本的6D表示接近正交6D表示。最后,最终的训练目标变成:L=λnllLnll+λexpLexp+λmodeLmode+λorthLorth 。(九)3.5. 下游应用在这一部分中,我们将展示我们学习的条件分布如何在一系列下游应用中使用。我们强调,所有这些应用程序都是指测试时处理相同的训练模型,而没有任何特殊的per-task训练。这些任务的示例如图2所示。这些应用程序属于最大后验估计的更一般的保护伞,我们使用所有可用的证据来做出更明智的预测。3D姿态回归如前所述,我们可以在常规任务中使用我们的模型,例如从单个图像进行3D姿态回归。在没有额外证据的情况下,最合适的预测选择是选择分布的众数θ*I。人体模型拟合SMPLify [4]是一种流行的方法,它使用传统的优化方法将SMPL人体模型拟合到一组2D关键点。目标是:其中, Ej惩罚两个点之间的加权2D 距离。在标准回归框架中,并最小化:L 模 式=L3D (θ*I ,β)+L2D (θ*I ,β,π)+Ladv(θ*I,β),(8)其中L3D是可用3D注释(3D关节和/或SMPL参数)的损失,无论何时它们是可用的。 正如我们在实验部分所示,这种显式投影模型关节和检测到的关节,Eθ是高斯3D姿态先验的混合,Eα是惩罚肘部和膝盖的不自然旋转的姿态先验,Eβ是形状系数的二次惩罚。将参数化身体模型拟合到2D图像地标是一个非常具有挑战性且固有模糊的问题。数据项Ej纯粹由2D关键点和2D关键点驱动。116111-|- -2θ角=Nn=1nnn nnΣ|c)+ λ Σ||θ − θ||、(忽略包含在输入图像中的丰富信息。SPIN [22]通过使用基于图像的回归网络部分解决了这个问题,该网络为优化提供了良好的初始化,帮助拟合收敛到更好的最小值。然而,图像信息仅在初始化阶段中使用,因为SMPLify不包含防止姿态任意远离给定图像的合理姿态集合的显式图像特定先验。漂移问题也是[16]的一个重要限制,迫使该方法依赖于良好的初始化和仔细选择的停止标准。受这些限制的启发,我们建议用显式姿态先验Eθ来替换较弱的通用3D先验E θ和E α|I=lnpΘ|I(θc),其对以图像证据为条件的给定姿态的似然性进行建模。因此,最终优化目标变为:λJEJ−lnpΘ|I(θ|c)+λβΕβ。(十一)作为拟合的初始化,我们使用条件分布的模式θ*I在实验部分中,我们表明,通过使用这种学习的基于图像的先验,我们能够在质量和数量上一致地改善拟合结果,如3D度量中所反映的多视图融合虽然我们的模型已经被训练用于单图像重建,但是我们仍然可以使用学习的条件分布来在存在人的多个视图的情况下获得精细的姿势估计。让我们假设我们具有同一对象的未校准视图的集合InN我们将每个帧的姿势向量划分为θn=(θg,θb),其中θg对应于模型的全局旋转,θb是身体姿势。我们建议通过最小化以下目标来细化姿势:对于编码器g,而不是CNN,我们使用来自[32]的主干。由于所有示例都具有完整的3D监督,因此我们的训练目标仅由Lnll和L模式组成。下游任务。对于下游任务中采用的拟合过程,我们发现在潜在空间而不是直接在姿态空间中执行优化是有益的(类似于SMPLify-X [38])。因此,我们将z保留为自由变量,并将其解码为姿态向量θ=f(z;c)。此外,由于对于我们的归一化流模型,雅可比矩阵的确定不依赖于z,因此可能性项变为ln p(θ|c)= −||z||2+常量4. 实验评价在本节中,我们提出了我们的方法的实验评估首先,我们提供用于训练和评估的数据集的概述,然后我们将提供详细的定量和定性评估结果。4.1. 数据集我 们 报 告 了 Human3.6M [13] , MPI-INF- 3DHP[33],3DPW [45]和Mannequin Challenge [28]的结果,其中我们使用Leroy等人产生的注释。[26]第10段。对于 训 练 , 我 们 使 用 具 有 3D 地 面 实 况 的 数 据 集(Hu_man3.6M [13]和MPI-INF-3DHP [33]),以及具有2D关键点注释的数据集(COCO [29]和MPII [1]),其增强了来自SPIN [22]的伪地面实况SMPL参数,只要它们可用。4.2. 定量评价在这一部分中,我们评估我们提出的方法的不同方面我们比较了我们的模型与标准回归方法的预测准确性,并表明它在人类N-lnp(θn=1Nb¯b2n nn2n=1补片恢复。我们还基准的生成能力,我们的方法在多个假设的情况下,我们优于以前的方法。最后,我们恶魔-我们学习的图像条件先验可以提高哪里b1ΣNθb。目标的第二项下游应用中的性能,例如模型等效于最小化所有姿势对之间的平方距离。3.6.附加细节ProHMR 。根据以前的工作[17,22],我们使用ResNet-50 [12]作为编码器。对于标准化流,我们使用4个构建块有关架构,数据集和训练超参数的更多细节,我们请读者参阅补充材料。2D姿势提升。作为ProHMR的补充,我们使用我们的方法将2D姿势提升到3D骨架,如Martinez等人所述。[32 ]第32段。我们使用与ProHMR中相同的标准化流架构在这种情况下,输入是一组2D沙漏检测[35],输出是3D姿态坐标。拟合和多视图细化。人体补片回收。首先,我们专注于我们的模型的预测性能,将其与回归SMPL身体模型参数的其他最先进的方法进行比较。 对于ProHMR的评估,我们使用学习分布的模式θ*I。对于Biggs等人[3]我们在量化到n = 1个样本之后报告度量。基于表1的结果,使用ProHMR作为回归因子,导致与现有技术相当的性能这表明我们确实可以将问题从点转换为密度估计,而不会在性能上有任何重大损失多个假设。接下来,我们比较了ProHMR与不同的多假设基线的代表能力,包括Biggs等人。[3]以及MDN11612图4:学习分布的样本。粉色补片对应于该模式。3DPWH36MMPI-INF-3DHP3DPWH36M(OP)H36M(GT)HMR [17]81.356.889.8Spin [22] 59.241.841.8[22]第二十二话59.141.167.5SPIN+SMPLify(GMM) [4] 66.554.643.3Biggs等人[3] 59.9 41.6无ProHMR59.8表1:人体补片回收率评价。 我们的模型达到了与最先进的精度相媲美。报告的数字为PA-MPJPE,单位为mm。n=5n=10n=25min[45个][13个国家][45个][13个国家][45个][13个国家][45][13][3](MDN)61.243.360.743.060.142.760.1 42.7[3](CVAE)60.746.460.546.360.346.260.3 46.2[3](NF)57.142.056.642.255.642.255.6 41.6ProHMR56.539.454.638.352.436.840.8 29.9表 2 :多 个 假 设 评 估 。 数字 为PA-MPJPE, 单位 为mm。我们报告的错误小n和最小误差从分布的样本。和条件性VAE变体在同一篇论文中探索。在[3]之后,我们报告了小样本量n的结果。由于我们对测量学习分布的代表能力感兴趣,因此我们还比较了从[42]中提出的每个分布中提取的样本的最小3D姿态误差。我们在表2中呈现了人3.6M和3DPW的详细结果。模型拟合。在这一部分中,我们评估将SMPL身体模型拟合到一组2D关键点的不同方法我们比较的身体模型拟合基线包括标准SMPLify [4,38],EFT [16]以及我们 提 出 的 与 学 习 的 图 像 条 件 先 验 的 拟 合 。 对 于SMPLify和EFT,我们使用公开可用的实现并使用SPIN初始化拟合过程,而对于SMPLify,我们使用两个不同版本的姿态先验GMM [4]和VPoser [38]。为了得到公正的评价表3:不同模型拟合方法的评价。拟合算法由相应的回归结果初始化。所有数字均为PA-MPJPE,单位为mm。在性能益处方面,我们比较了在相同数据集上训练并且具有相似回归性能的方法。结果如表3所示。虽然在回归之上执行SMPLify改进了模型-图像对齐,但它增加了3D姿态误差,特别是在使用OpenPose检测时[5]。我们假设这是由于SMPLify的通用3D姿势先验项而发生的。回归之上的EFT改进了3D姿态度量,然而我们的方法设法进一步提高了在3DPW中,我们的方法与传统方法相比具有4.7mm的相对误差改善。对于EFT为2.6mm,而如果我们在Human3.6M中使用地面真实2D关键点,我们将获得6.3mm的改进,而对于EFT为3.1mm。多视图细化。我们评估了我们学习的图像条件先验在未校准的多视图场景中改进姿势对于基准测试,我们使用Human3.6M和更具挑战性的Mannequin Challenge数据集。我们将我们的基于拟合的方法与表4中的单个按视图预测和执行旋转平均的基线进行比较。对于旋转平均,我们首先对每个视图的旋转矩阵进行平均,然后使用SVD将它们投影回SO(3)。消融研究。我们还评估了这个术语的意义SPIN+SMPLify(VPoser) [38]70.953.539.9SPIN+EFT [16]56.641.638.7ProHMR59.841.241.2ProHMR +拟合55.139.334.811613图5:模型拟合结果。粉色:回归。绿色:ProHMR +拟合。灰色:回归+SMPLifyH36 M人体模型MPJPE PA-MPJPEMPJPEPA-MPJPEMPJPE PA-MPJPEMartinez等人[32] 62.9 47.7表4:多视图细化的评估。我们比较单图像三维重建与基线细化使用旋转平均和建议的基于优化的细化方案。3DPW H36M MPI-INF-3DHP我们的(分)42.4 32.9表6:对Human3.6M上基于骨架的2D姿势提升的3D姿势准确度的评估。上图:回归精度。底部:分布的最小误差。表5:L消融模式 .编号为PA-MPJPE。行),我们的基于图像的先验,与SMPLify不同,不会让姿势远离图像证据。L模式,我们使用它来显式地监督学习分布的模式。我们在表5中报告了有和没有这种损失的训练ProHMR的结果。我们可以看到,包括- INGL模式是至关重要的,以实现在传统的回归任务的竞争力的表现。其他评价。最后,我们表明,所提出的建模是一般的,足以处理不同的输入和输出表示。这里,我们考虑将2D姿态输入提升到3D骨架输出的设置[32],并在表6中呈现结果。我们的模型与等效回归方法[32]表现相当,而它优于Li和Lee [27]的MDN方法。4.3.定性结果在图4中,我们显示了我们的方法的样本重建。此外,在图5中,我们显示了我们的模型拟合方法与SMPLify的比较。我们的方法产生更真实的重建整体,特别是在5. 总结这项工作提出了一个概率模型,从2D证据的三维人体网格恢复。与大多数方法,输出一个单点估计的3D姿态,我们建议姿势学习的映射从输入到一个分布的似是而非的姿态。我们使用条件规范化流来模拟这种分布。我们的概率模型允许不同的输出采样,每个样本的可能性的有效计算,和一个快速和封闭形式的解决方案的模式。我们证明了我们的方法的有效性,在几个基准的实证结果。未来的工作可以考虑将我们的方法扩展到其他类别的铰接或非铰接对象,并可能对其他模糊性(如深度-尺寸权衡)进行建模。鸣谢:研究由以下赠款赞助:ARO W911NF-20-1-0080、NSF IIS 1703319、NSFTRIPODS 1934960、NSF CPS 2038873、ONR N00014-17-1-2093、DARPA-SRC C-BRIC、本田研究所Honda Research Institute GP由BAIR赞助商支持。ProHMR65.143.7176.091.9李和李[27](模式)64.547.8ProHMR+拟合64.862.235.234.5174.4171.385.183.9我们李和李[27](分)62.942.647.634.4ProHMR(无L模式)67.4 54.876.5缺少或置信度非常低的情况下-ProHMR59.8 41.265.0点检测。在类似的情况下(例如,最后的例子11614引用[1] Mykhaylo Andriluka,Leonid Pishchulin,Peter Gehler,and Bernt Schiele. 2D人体姿态估计:新的基准和最先进的分析。CVPR,2014。六个[2] Anurag Arnab,Carl Doersch,and Andrew Zisserman.利用时间背景进行野外3D人体姿态估计。在CVPR,2019年。三个[3] 本杰明·比格斯、塞巴斯蒂安·埃赫哈特、韩宝、本杰明·格雷厄姆、安德烈·维达尔迪和大卫·诺沃特尼。 3D多体:将似然3D模型集拟合到模糊图像数据。在NeurIPS,2020年。一、三、六、七[4] Federica Bogo、Angjoo Kanazawa、Christoph Lassner、Peter Gehler、Javier Romero和Michael J Black。SMPL:从单个图像自动估计3D人体姿势和形状。在ECCV,2016年。一二三五七[5] 曹哲、吉内斯·伊达尔戈、托马斯·西蒙、魏世恩和亚瑟·谢赫。OpenPose:使用部件亲和字段的实时多人2D姿势估计。PAMI,43(1):172-186,2019. 七个[6] Vasileios Choutas、Georgios Pavlakos、Timo Bolkart、Dimitrios Tzionas和Michael J Black。通过身体驱动注意力的单眼表达性身体回归。在ECCV,2020年。三个[7] Laurent Dinh , David Krueger , and Yoshua Bengio.NICE:非线性独立分量估计。2015年,国际会议。三个[8] Laurent Dinh,Jascha Sohl-Dickstein,and Samy Bengio.使用真实NVP进行密度估计。 在ICLR,2017。三个[9] Georgios Georgakis , Ren Li , Srikrishna Karanam ,Terrence Chen,JanaKo sˇ eck a´,andZiyanWu. 分层运动人体网格恢复。在ECCV,2020年。三个[10] Mathieu Germain , Karol Gregor , Iain Murray , andHugo Larochelle. MADE:用于分布估计的掩蔽自动编码器。ICML,2015。三个[11] Riza Alp Guler和Iasonas Kokkinos。HoloPose:野外整体3D人体重建。在CVPR,2019年。三个[12] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在CVPR,2016年。六个[13] Catalin Ionescu , Dragos Papava , Vlad Olaru , andCristian Sminchisescu. Human3.6M:大规模数据集和预测方法,用于自然环境中的3D人体感知PAMI,36(7):1325-1339,2014. 五、六、七[14] Ehsan Jahangiri和Alan L Yuille。生成与2D关节检测一致的人类3D姿态的多个不同假设在ICCVW,2017年。三个[15] Wen Jiang , Nikos Kolotouros , Georgios Pavlakos ,Xiaowei Zhou,and Kostas Daniilidis.从单个图像相干重建多个人。在CVPR,2020年。三个[16] Hanbyul Joo,Natalia Neverova,and Andrea Vedaldi.针对3D人体姿势拟合的示例性微调朝向野外3D人体姿势估计。arXiv预印本arXiv:2004.03686,2020。三六七[17] Angjoo Kanazawa、Michael J Black、David W Jacobs和Jitendra Malik。端到端恢复人体形状和姿势。在CVPR,2018年。一、二、三、四、五、六、七11615[18] Angjoo Kanazawa、Shubham Tulsiani、Alexei A Efros和Jitendra Malik。从图像集合学习特定类别的网格在ECCV,2018。三个[19] Durk P Kingma和Prafulla Dhariwal。Glow:具有可逆1x1卷积的生成流。NeurIPS,2018。三、四[20] Durk P Kingma,Tim Salimans,Rafal Jozefowicz,XiChen,Ilya Sutskever,and Max Welling.用逆自回归流改进变分干扰。在NIPS,2016年。三个[21] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。见ICLR,2014年。五个[22] Nikos Kolotouros , Georgios Pavlakos , Michael JBlack,and Kostas Daniilidis.学习通过循环中的模型拟合重建3D人体姿势和形状。在ICCV,2019年。一、三、六、七[23] Nikos Kolotouros Georgios Pavlakos 和 Kostas Dani-ilidis卷积网格回归用于单幅图像的人体形状重建。在CVPR,2019年。第1、3条[24] Christoph Lassner 、 Javier Romero 、 Martin Kiefel 、Federica Bogo、Michael J Black和Peter V Gehler。团结人民:关闭3D和2D人类表现之间的循环在CVPR,2017年。三个[25] Hsi-Jian Lee和Zen Chen。从单个视图确定3D人体姿势。CVIU,30(2):148-168,1985. 一个[26] VincentLer oy,PhilippeWeinzaepfel,RomainBr e'gie r,HadrienCombaluzie r,andG re' goryRogez. SMPL y在野外对3D人体姿势估计进行基准测试。在3DV,2020。六个[27] 陈莉和金熙李。用混合密度网络生成三维人体姿态估计在CVPR,2019年。一二三四八[28] Zhengqi Li , Tali Dekel , Forrester Cole , RichardTucker,Noah Snavely,Ce Liu,and William T.弗里曼 。 通 过 观 察 冷 冻 人 来 学 习 感 动 人 的 深 度 。 在CVPR,2019年。六个[29] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。Microsoft COCO:上下文中的公用对象。2014年,在ECCV。六个[30] Matthew Loper、Naureen Mahmood、Javier Romero、Gerard Pons-Moll和Michael J Black。SMPL:一个有皮肤 的 多 人 线 性 模 型 .ACM Transactions on Graphics(TOG),34(6):248,2015。三、四[31] 放大图片作者:Nima Ghorbani,Nikolaus F.Troje、Gerard Pons-Moll和Michael J.黑色. AMASS:将动作捕捉存档为表面形状。在ICCV,2019年。三个[32] Julieta Martinez 、 Rayat Hossain 、 Javier Romero 和James J Little。一个简单而有效的三维人体姿态估计基线。InICCV,2017. 一二三六八[33] Dushyant Mehta Helge Rhodin Dan CasasPascal Fua,Oleksandr Sotnychenko , Weipeng Xu , and ChristianTheobalt.使用改进的CNN监督在野外进行单目3D人体姿势估计。在3DV,2017年。五、六[34] Lea Muller,Ahmed AA Osman,Siyu Tang,Chun-HaoP
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++标准程序库:权威指南
- Java解惑:奇数判断误区与改进方法
- C++编程必读:20种设计模式详解与实战
- LM3S8962微控制器数据手册
- 51单片机C语言实战教程:从入门到精通
- Spring3.0权威指南:JavaEE6实战
- Win32多线程程序设计详解
- Lucene2.9.1开发全攻略:从环境配置到索引创建
- 内存虚拟硬盘技术:提升电脑速度的秘密武器
- Java操作数据库:保存与显示图片到数据库及页面
- ISO14001:2004环境管理体系要求详解
- ShopExV4.8二次开发详解
- 企业形象与产品推广一站式网站建设技术方案揭秘
- Shopex二次开发:触发器与控制器重定向技术详解
- FPGA开发实战指南:创新设计与进阶技巧
- ShopExV4.8二次开发入门:解决升级问题与功能扩展
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功