没有合适的资源?快使用搜索试试~ 我知道了~
{wandt,little,rhodin}@cs.ubc.ca66350ElePose:通过预测相机仰角和在2D姿势上学习归一化流进行无监督的3D人体姿势估计0Bastian Wandt,James J. Little和HelgeRhodin英属哥伦比亚大学0摘要0从单个图像中估计人体姿态是一个具有挑战性的问题,通常通过监督学习来解决。不幸的是,对于许多人类活动,尚不存在标记的训练数据,因为3D注释需要专用的动作捕捉系统。因此,我们提出了一种无监督的方法,通过仅使用可以众包和已经广泛可用的2D姿势数据来学习预测3D人体姿势。为此,我们估计最有可能的3D姿势是通过随机投影得到的,使用2D姿势上的归一化流来估计可能性。虽然以前的工作在训练数据集中对相机旋转有强先验要求,但我们学习了相机角度的分布,这显著提高了性能。我们的另一个贡献部分是通过首先将2D姿势投影到线性子空间来稳定高维3D姿势数据的归一化流训练。在基准数据集Human3.6M和MPI-INF-3DHP上,我们在许多指标上超过了最先进的无监督人体姿势估计方法。01. 引言0从单个图像中估计人体姿态是一个正在进行的研究课题,在医学、体育和人机交互等许多应用中都有很多应用。通过机器学习,近年来取得了巨大的进展。然而,许多最近的方法依赖于大量的数据,用于以监督方式训练3D姿态估计器。不幸的是,这样的训练数据很难记录,并且在专业领域很少可用。因此,最近的工作侧重于通过使用无配对的2D-3D示例的弱监督、少量标记的3D数据的稀疏监督,或者在训练过程中使用多视角设置来减少标记数据的数量。相反,我们提出了一种仅从2D数据训练的方法,通过点击可以轻松注释。0图1.传统方法和我们的方法创建虚拟视图时的仰角采样从左到右显示。常用的随机采样仰角的先验分布如果与训练数据集中的分布不完全匹配,会导致错误。ElePose通过学习这个分布并进行补偿来解决这个问题,然后应用其他转换,从而显著提高了我们方法的性能。0通过在现有图像中识别可见的关键点,从而减轻了弱监督和全监督方法所需的3D标注和多视角捕获步骤。0在单目图像中观察到的2D人体关节,我们训练一个神经网络来恢复深度-3D人体姿势的缺失第三个坐标。与此相同的目标,Chen等人[4]和Yu等人[63]在对抗性设置[11]中训练了一个3D姿势估计器。他们的生成器预测一个随机旋转并投影到虚拟相机中的3D姿势,然后将其输入到对抗网络中,与“假”投影的3D姿势和“真实”2D姿势分布进行对抗。这个想法是,对于正确的3D姿势预测,旋转和投影的2D姿势也应该来自2D训练姿势的分布。然而,预测的3D姿势在相机坐标系相对于固定先验分布上随机旋转。当相机接近与地平面平行时,这是一个合理的假设。然而,即使对于小的仰角,即使通过从预定义的高斯分布中进行采样来建模变化,这也会导致66360随机投影,这些投影在训练数据中找不到,如图1所示。我们在这个概念的基础上改进了处理不同摄像机角度的方法。我们的核心贡献是训练一个网络,为每个2D输入预测仰角。在校正了预测的仰角之后,3D重建是直立的,这样绕y坐标旋转就对应于绕上方旋转,并且从所有可能的方位角均匀采样是有意义的,因为人体姿势通常在重力方向和地面法线方向周围对称。虽然在监督和弱监督设置中已经估计了摄像机角度[13, 14, 19, 56,57],但我们在单目情况下并且没有监督地进行。将投影到随机虚拟摄像机的方法需要知道摄像机姿态的分布。为此,我们提出了一种从多个点估计中估计仰角分布的方法,这进一步提高了我们模型的性能。与以GAN为代表的方法相比,GAN最多只能给出鉴别器响应的结果的替代品的可能性,我们通过正则化流的概率公式自然地给出了推断时预测姿势的可能性。除了在准确性和鲁棒性上获得显著改进外,我们的方法还能够提供其性能的度量,这在实际应用中非常有价值。我们克服了训练和推断中的几个技术挑战。首先,正则化流的双射性是一个有用的属性,它使它们能够避免模式崩溃。然而,它们的构造限制了它们的输入和输出维度必须相等。对于高维数据,如人体姿势,这导致了非最优的收敛和不完整的潜在空间。其次,正则化流仍然是对真实姿势分布的近似,并且可以对训练分布之外的姿势预测高概率。优化深度估计网络以产生具有其背投影高概率的3D姿势会导致收敛到非最优解。为了避免这种情况,我们建议首先将2D姿势投影到由训练数据上的主成分分析(PCA)给出的低维空间。此外,我们引入了适合人体的相对骨长的先验,以预测符合人体测量学的3D姿势。0伦理和一般影响。构建这样一个无监督的运动捕捉方法承诺对那些没有很好代表的人和活动更具包容性。0当前运动捕捉数据集中没有呈现。源代码:0https://github.com/bastianwandt/ElePose .姿势估计器可能会被滥用用于不需要的监视,我们的方法可能会被用于运动模式分析。然而,我们认为这种风险很低,因为它不会重建任何视觉特征。02. 相关工作0在本节中,我们讨论了最近的3D人体姿势估计方法,按照不同类型的监督进行结构化,并将我们的方法放入上下文中。0全监督。监督方法依赖于包含数百万张图像和相应的3D姿态注释的大型数据集。Li等人[25]是第一个将CNN应用于直接从图像输入中回归3D姿态的人。他们后来通过结构化学习框架改进了他们的工作[27]。其他人也采用了这种从图像到3D的方法[9, 17, 26, 29, 33, 37, 39, 43, 48, 50-53, 62,65]。通常,这些端到端的方法在类似的图像数据上取得了出色的性能。然而,它们很难推广到非常不同的场景。为了避免对图像数据的依赖,其他方法使用预训练的2D关节检测器[2, 10, 31, 32, 35,38]。Martinez等人[30]在2D姿态和相应的3D真值上训练了一个神经网络。由于其简单性,它可以快速训练大量的时代,从而达到高精度,并成为许多后续方法的基准。尽管有效,所有监督方法的主要缺点是它们不能很好地推广到具有未见姿态的图像。0弱监督。弱监督方法仅需要一小组标记的3D姿势或未配对的2D和3D姿势。几种方法假设未配对的2D和3D姿势[6, 12,22, 56, 58,64],并利用可用的动作捕捉数据将其与未知的2D数据相结合。Mehta等人[31]引入了一种迁移学习方法,允许在没有训练数据的数据集中进行野外姿势估计,后来在Mehta等人[33]中进行了改进,以实现实时性能。其他工作首先学习多视图数据的嵌入,然后用稀疏的标记3D姿势集来训练3D姿势估计器。Rhodin等人[45,46]使用多视图图像和已知的相机位置来学习3D姿势嵌入。其他工作[34, 36, 44,49]也遵循了相同的思路。与完全监督方法相比,这些弱监督方法在新领域中具有更好的泛化和迁移能力。然而,它们仍然难以处理与标记训练集非常不同的姿势。0无需3D数据的多视图监督。多视图方法仅使用来自多个摄像机的信息66370图2.我们方法的概述。给定一个归一化的2D输入姿势,一个提取网络预测每个关节坐标的深度,从而得到一个3D姿势。此外,它还预测了一个平行路径上的相机仰角。这个3D姿势被随机旋转并投影到2D。预训练的正则化流计算负对数似然,作为训练提取网络的损失。0无需任何3D数据。Rochette等人[47]取得了与可比较的完全监督方法相似的性能。然而,他们使用了大量来自不同视角的摄像机,这限制了实际应用性。Kocabas等人[20]将极线几何应用于来自多个视图的2D姿势,以计算伪地面真值,然后用于训练3D提取网络。Iqbal等人[16]训练了一个端到端的网络,在自监督训练期间改进了预训练的2D姿势估计器。同样,Wandt等人[57]在一个一致的规范姿势空间中重建3D姿势,该空间在所有视图上保持一致。虽然这些多视图方法是野外动作捕捉的一个有希望的方向,但它们仍然需要多个时间同步的摄像机进行训练。0无监督。本节涵盖不使用任何3D数据或附加视图的工作。我们的工作也属于这个类别。Drover等人[8]提出了一种无监督学习方法来进行单目人体姿势估计。他们随机将估计的3D姿势投影回2D。这个2D投影然后通过一个鉴别器进行评估,遵循对抗训练方法。然而,他们从已知的地面真实3D姿势创建了一个人工的2D数据集。Chen等人[4]在[8]的基础上增加了一个循环一致性损失,该损失通过将随机投影的2D姿势提升到3D并反转先前定义的随机投影来计算。与Drover等人[8]相比,他们只使用数据集提供的2D数据。Yu等人[63]在[4]的基础上引入了一个可学习的缩放因子用于输入的2D姿势。他们都没有估计相机的方向和分布,我们也是第一个将正则化流应用于这种情况的人。一旦训练完成,无监督方法的泛化能力不如监督方法,但它们可以通过在目标领域中使用来自示例的训练来避开这个问题,因为不需要3D标记。0正则化流。非正式地说,正则化流是一种在两个空间之间高效地映射分布的工具。它适用于概率密度估计,我们用于姿势的似然估计。设 Z ∈ R N是一个已知分布(在我们的情况下是正态分布),g是一个可逆函数 g(z) = x,其中 x ∈ R N表示人体姿势的关节向量。通过变量的改变公式,计算 x的概率密度函数为0pX(x) = pZ(f(x)) ÷ det ∂f0∂x0,(1)0∂x是f的雅可比矩阵。这意味着给定可逆函数f,可以通过其投影f(x)的密度与相应的雅可比行列式的乘积来计算2D姿势x的密度。在我们的情况下,f是[7]中提出的可训练神经网络。有关构建和训练的详细信息,请参见补充文档。归一化流已被用于学习3D人体姿势的先验分布[1, 21, 61,64]或在抬升步骤中建模不确定性[59]。然而,它们旨在构建骨架的概率3D模型,因此需要3D训练数据。据我们所知,我们的方法是第一个使用归一化流来学习2D输入数据的先验分布,以推断重建的3D姿势的概率。03. 公式0我们的目标是训练一个神经网络,给定一个以根关节为中心的2D姿势x∈R2J,恢复3D姿势y∈R3J0具有J个3D关节位置。在我们的无监督设置中,只有2D姿势数据集可用于训练。一般的01 这可以是2D姿势向量x或其在PCA子空间中的图像。66380该概念遵循该领域先前工作的假设,即当从多个视图查看其2D投影时,3D姿势是合理的。困难在于在没有多视图数据的情况下为这些2D投影找到一个合理性度量。我们提出通过归一化流来学习这个度量。作为第二个主要贡献,我们学习相机角度分布而不是预定义一个依赖于数据集的先验。这不仅使我们的方法更加灵活,而且还解决了错误旋转姿势导致性能显著提高的问题。我们流程的所有部分在图2中可视化,并在下面的章节中进行解释。0抬升和相机模型。给定2D关节位置x∈R2×J,我们引入一个抬升网络,为每个关节j预测深度wj=dj+D,其中dj是到常数深度D的偏移量。完整的3D姿势是基于透视反投影进行重建的0yj = [uj/wj, vj/wj, wj], (2)0其中uj和vj是图像中的水平和垂直关节位置。它反转了透视投影操作0P(yj) = P([y(x)j, y(y)j, y(z)j]) = [y(x)j/y(z)j, y(y)j/y(z)j],0(3),其中[y(x)j, y(y)j,y(z)j]是关节j的3D位置。为了防止深度为负的模糊重建,wj被剪切为大于1。根据先前的工作[4,63],深度D被固定为D=10,因为透视效果在深度变化很小的情况下改变,并且每个2D姿势y通过将其居中于根关节并将其除以从根关节到头关节的向量的平均长度来进行归一化。0将投影到虚拟相机。我们从多视角相机设置中提出了我们的方法,其中深度可以通过重新投影到其他视图来进行监督。由于在无监督设置中没有多视图数据,我们假设存在一个虚拟的第二视图。它需要以根关节为中心旋转3D姿势,其中y2 =R[y1]3×J,其中R∈R3×3是从原始相机到虚拟相机的旋转矩阵,[y1]3×J是在原始相机坐标系中重塑为矩阵的姿势向量y1,每列中包含一个J个3D关节位置之一。通常,旋转R是从预定义分布R[4,63]中随机采样的。然而,一般来说,它是未知的,并且对于每个数据集都是不同的。我们的一个核心贡献是学习这个分布而不是预定义它,我们将在下面讨论。使用与等式3中的抬升相同的透视相机模型,通过使用预定义的平移D移动预测的3D姿势并将每个关节除以其深度来计算2D姿势x2 =P(y2)。0重投影似然在多视图设置中,重投影似然通常是一个以2D投影x2为中心,标准差为σr的高斯分布,导致使用最大似然或MAP推断时产生最小二乘损失。由于在无监督设置中无法获得多相机信息,因此不存在与x2匹配的相应2D姿势。虽然先前的工作[4,63]尝试使用对抗性方法学习可信的2D姿势分布,但我们利用归一化流来学习训练数据集中2D姿势的概率密度函数。我们通过使用公式1计算归一化流潜变量z在潜空间中的似然度来定义重投影似然。与[4,63]不同,这使我们能够计算每个重建的3D姿势的似然度,这对于下游任务非常有价值。在实践中,我们最小化公式1的负对数似然,从而得到归一化流损失。0L NF = -log(pX(x)). (4)0稳定的归一化流。我们发现直接在2D姿势上训练归一化流会导致提升网络训练过程中的非最优收敛。我们假设这是由于输入数据的高维度导致归一化流的潜空间稀疏。这意味着潜空间包含不在原始2D姿势分布中的姿势,尽管归一化流为它们分配了较高的似然度。为了缓解这个问题,我们建议先将2D姿势投影到低维子空间。我们的子空间由主成分分析确定。对子空间的投影消除了数据中的冗余和噪声,因此可以更稳定地训练归一化流和随后的提升网络。0相机分布和仰角。将预测的3D姿势y随机旋转到虚拟视图中,通过随机采样R�R。为了实现旋转后的3D姿势的合理2D投影,需要定义分布R,使其与训练数据集中存在的旋转分布相匹配。在无监督设置中,R通常是未知的。然而,基于记录另一个人时的自然人类行为,存在合理的相机设置先验:1)相机水平放置,2)由于重力定义了明确的上方方向,相机(或被观察的主体)主要围绕方位轴旋转,3)类似的活动以类似但略有变化的仰角角度记录。对于R,这三点意味着1)光轴周围几乎没有旋转,2)在360°的范围内均匀分布的先验0围绕方位轴的旋转是合理的,3)一个p(b1, b2, . . . , bK|¯b1,¯b2, . . . ,¯bK) =K�k=1N(bk|¯bk, σb), (8)66390未知但受限制的仰角轴旋转。虽然前两个假设可以直接建模,但后者通常通过从均匀分布中采样仰角来近似,该分布在区间[−π/9,π/9] [4,63]中。不幸的是,这可能导致重建的人物在相机前倾,如图1所示。这反过来导致无法在训练集中观察到的反投影。作为本文的主要贡献之一,我们提出学习仰角角度R_e的分布。由于每个2D姿势可以具有唯一的仰角角度,因此通过预测仰角角度扩展了提升网络。得到的旋转矩阵R_e用于通过R_Te[y]3×J将预测的3D姿势y旋转到重力方向。仅仅这一步就已经改善了预测,因为它补偿了先前忽略的仰角,因此方位旋转在方位轴周围正确应用。为了进一步改善结果,我们还使用仰角预测来预测数据集中仰角角度的正态分布,通过计算批次中所有仰角角度的均值µ_e和标准差σ_e。0p ( Re ) = N ( µe , σe ) . (5)0绕方位轴Ra的旋转是从均匀分布中随机采样的,该分布位于[−π,π]区间内。为了将姿势在仰角方向上旋转回来,批次中每个样本的旋转˜Re是从正态分布N(µe,σe)中随机采样的。为了通过采样步骤进行反向传播,我们使用与变分自编码器相同的重参数化方法,即0˜Re � µe + σeN(0 , 1) . (6)0完整的旋转R现在可以写成0R = RTeRa˜Re . (7)0我们的实验证明,我们的新颖的仰角估计在PA-MPJPE方面的结果显著提高了约15%,在MPJPE方面提高了超过22%。0骨骼似然。人体姿势具有由骨骼的运动链定义的几个人体测量特性。其中大多数特性,如骨骼长度和关节角度限制,在无监督设置中是未知的。然而,相对骨骼长度在不同人之间几乎是恒定的[42]。因此,我们计算相对骨骼长度bk,即第k个骨骼长度除以单个姿势的所有骨骼的平均长度。我们使用均值为预计算的相对骨骼长度¯bk的高斯先验。骨骼长度先验的密度由以下公式给出0其中K是骨骼的数量。这形成了关于3D姿势y的先验和关于给定深度d的x1的似然函数p(x1,d),因为3D姿势是观测和潜在变量的组合。实际上,我们将损失Lbone定义为等式8的负对数似然。请注意,我们的公式强加了一个软约束,但没有将骨骼固定为预定义的长度。0附加损失。我们还使用了3个与[63]类似的损失,即3D提升损失L3D,变形损失Ldef和2D重投影损失L2D。图2可视化了这三个损失。由于产生2D姿势x2的3D姿势y2是已知的,再次将提升网络应用于x2以获得提升的姿势˜y2。我们定义了传统的监督L2损失。0L3D = ∥˜y2 − y2∥2. (9)0通过将˜y2旋转回原始视图,我们得到一个3D姿势˜y1 =RT˜y2,应该与y1匹配。Yu等人[63]表明,与直接在这两个姿势上应用另一个L2损失相比,考虑不同时间步骤的两个姿势之间的变形是有益的。由于我们不假设任何时间数据,我们定义了来自批次中可能来自不同人和序列的两个样本之间的相同损失。对于批次位置a和b处的姿势y1和˜y1,我们定义了与时间和姿势无关的变形损失。0Ldef = ∥(˜y(a)1 − ˜y(b)1) − (y(a)1 − y(b)1)∥2. (10)0使用与之前相同的透视投影,将˜y1投影到2D姿势˜x =P(˜y1)。这给出了2D反投影损失。0L2D = ∥˜x − x∥1. (11)0由于这三个术语的组合在[63]中被证明是成功的,我们将它们总结为我们的基础损失。0Lbase = L3D + Ldef + L2D. (12)0神经网络结构。提升网络受到Martinez等人[30]基于MLP的提升网络的启发,由3个残差块组成,每个残差块包含2个全连接层,每个层有1024个神经元,后跟一个泄漏的ReLU激活函数。输入通过一个全连接层和一个泄漏的ReLU激活函数进行上采样,将维度调整为1024。通过另一个没有激活函数的全连接层进行下采样,将维度调整为深度的维度。高度角在与深度估计网络的3个残差块平行的路径上进行预测,该网络具有相同的结构。归一化流由8个耦合块组成。预测仿射变换s和t的每个子网络都包含2个具有1024个神经元的全连接层。66400和ReLU激活函数。有关正则化流的更多细节,请参见补充材料。0训练细节。正则化流和lifting网络分别进行100个epoch的预训练,批量大小为256个样本。我们使用Adam优化器,初始学习率为10^-4,权重衰减为10^-5。对于正则化流的预训练,我们在第10、20和30个epoch之后将学习率除以10。完整的损失函数为0L = LNF + 50Lbone + Lbase. (13)0训练lifting网络时,我们使用初始学习率为2∙10^-4,并使用指数调度,每个epoch衰减0.95,共进行100个epoch。正则化流的预训练和lifting网络的训练都需要约6小时,在NVIDIA P100 Pascal上进行。04. 实验0我们在著名的benchmark数据集Human3.6M[15]、MPI-INF-3DHP [31]和3DPW[55]上进行实验。对于Human3.6M数据集,我们遵循标准协议,并在测试集的每64帧进行评估。0评估Human3.6M时,我们计算平均每个关节位置误差(MPJPE),即重建姿势和地面实况关节坐标之间的平均欧氏距离。由于无监督设置不包含度量数据,我们将重建的3D姿势缩放以匹配地面实况,通常称为N-MPJPE[46]。第二种常见的协议在计算MPJPE之前首先对姿势进行Procrustes对齐(包括缩放),也称为PA-MPJPE。对于3DHP,我们报告正确关键点的百分比(PCK)及其对应的曲线下面积,与上述相同进行了规范化,我们称之为N-PCK。它表示预测关节中与相应地面实况关节的距离在150mm或更低的百分比。此外,我们还评估了最近由Wandt等人提出的正确姿势得分(CPS)[57]。与PCK不同,CPS将一个姿势分类为正确姿势,如果该姿势的所有关节都被正确估计。为了独立于阈值,CPS在从0mm到300mm的范围内计算曲线下面积。04.1. 受控条件下的结果0为了公平比较我们的方法与其他方法的性能,我们首先使用数据集提供的2D姿势。这样可以进行公平比较,因为它不依赖于从方法到方法不同的预训练2D检测器的性能。表1呈现了结果0表1.Human3.6M数据集的评估结果,单位为mm。底部部分标有“无监督”,显示了可比较的无监督方法。最佳结果以粗体标出。数字取自各自的论文。星号�表示使用数据集的尺度先验。[30]的MPJPE取自[63]。0监督方法 PA-MPJPE ↓ N-MPJPE ↓0全监督 Martinez [30] 37.1 45.5*0弱监督 3D interpreter [60] 88.6 -0AIGN [54] 79.0 -0RepNet [56] 38.2 50.90Drover [8] 38.2 -0Kundu [22] 62.4 -0多视角 EpipolarPose [20] 47.9 54.90Wandt [57] 51.4 65.90无监督 Chen [4] 58.0 -0[4] reimplemented by [63] 46.0 -0Yu [63](时序)42.0 85.3�0我们的方法 36.7 64.00对于benchmark数据集Human3.6M,我们使用不同类型的监督方法进行评估。所有展示的结果都使用相同的2D输入数据。在PA-MPJPE指标上,我们的无监督姿势估计方法比现有方法[63]提高了12.6%。值得注意的是,我们甚至在Martinez等人的全监督方法[30]的PA-MPJPE上稍微有所改进。在N-MPJPE指标上,我们的方法的性能与弱监督方法和使用多视角监督的方法相当。需要注意的是,[63]在训练过程中使用了一个尺度先验,因此直接计算MPJPE。然而,即使在他们在训练过程中应用了地面实况尺度(PA-MPJPE:39.7),我们的方法仍然优于他们。对于Human3.6M数据集,我们获得了196.1的CPS。表2和表3分别显示了MPI-INF-3DHP和3DPW(在训练-测试模式下)数据集的结果。在3DHP数据集上,我们只找到另外两种使用数据集提供的2D姿势的方法,而在3DPW数据集上,我们没有找到可比较的方法。为了创建3DPW数据集的训练数据,我们将3D骨架重新投影到2D。由于提供的2D和3D数据之间的差异,这一步骤是必要的。需要注意的是,对于实际应用,这一步骤是不必要的。3DPW数据集特别具有挑战性,因为其训练集仅包含在野外捕获的数据,并且与其他两个数据集相比,规模要小得多。结果表明,我们的方法即使在具有挑战性的条件下也表现良好。此外,我们评估了预测和地面实况仰角之间的平均距离,Human3.6M为3.0°,MPI-INF-3DHP为0.4°。图3显示了两个数据集的主观结果。左侧是具有低PA-MPJPE和视觉上合理的3D骨架的重建结果。即使是在训练集中很少出现的姿势,例如坐在地板上交叉腿,也能正确重建。右侧列出了偶尔的失败案例,PA-MPJPE超过200mm。典型的失败案例包括:肢体旋转方向错误。66410图3.我们方法在Human3.6M数据集(顶行),3DHP数据集(中间两行)和3DPW数据集(最后一行)的主观结果。最后一列显示失败案例。0表2.MPI-INF-3DHP数据集的评估结果。标有无监督的底部部分显示可以解决我们设置的方法。数字取自[63]。星号�0表示未知的归一化。0监督方法 PA-MPJPE ↓ N-PCK ↑ AUC ↑0较弱的 Kundu [22] 93.9 84.6 60.80无监督的 Yu [63] - 86.2 � 51.7 �0我们的 54.0 86.0 50.10表3. 3DPW数据集的评估结果。带有*的结果不使用真实输入数据。0方法 PA-MPJPE ↓ N-MPJPE ↓ N-PCK ↑ AUC ↑ CPS ↑0有监督的 Kocabas [19]* 53.2 - - - -0Lin [28]* 45.6 - - - -0Li [24]* 48.8 - - - -0Kocabas [18]* 46.5 - - - -0无监督的 我们的 64.1 93.0 81.5 51.5 120.30方向(第一行和第三行)和肢体排序(第二行和第四行)。04.2. 实际条件下的结果0在实践中,只有图像可用时,我们使用现成的2D姿势检测器。为了与我们最接近的竞争对手直接比较,我们使用由VideoPose3D的作者提供的由级联金字塔网络[5]生成的相同的2D检测结果。表4显示了我们的0表4.使用2D姿势预测时Human3.6M数据集的无监督方法的结果。星号�表示在推理阶段使用数据集的比例先验,而不是通过N-MPJPE进行归一化。0PA-MPJPE ↓ N-MPJPE ↓ CPS ↑0Kundu [22] 62.4 - - Kundu [23] 63.8 - - Chen [4]68.0 - - Yu [63] 52.3 92.4 � -0我们的 50.2 74.4 165.30在预测的2D姿势测试中,我们的结果优于可比较的无监督方法,即使[3, 63]两者都使用时间信息。04.3. 预测的3D姿势与投影的似然之间的相关性0我们新颖的归一化流公式的一个好处是,它也可以在测试期间用于评估预测的3D姿势的似然性。对于实际应用,这可以是评估预测姿势在下游任务中可靠性的重要值。我们应用归一化流来计算预测姿势的负对数似然。对于重投影似然,我们从训练阶段学习的分布中随机采样100个旋转,然后对所有旋转求平均。66420图4.不同PCA基数的PA-MPJPE。22到30个PCA基数似乎是理想范围。0图5.PA-MPJPE与预测的3D姿势投影集分配的负对数似然之间的相关性。如期望的那样,3D误差较小的姿势具有较低的负对数似然,反之亦然。误差以毫米为单位给出。0表5. 在Human3.6M数据集上使用不同损失项的消融研究。0配置PA-MPJPE MPJPE0基础(L NF + L 3D + L def + L 2D)77.9 135.0 基础+L骨骼48.183.8 基础+L骨骼+高度45.5 73.9 基础+L骨骼+PCA43.1 83.80我们的(基础+L骨骼+PCA+高度)36.7 64.00旋转。高度分布是在整个训练集上估计的。图5显示了结果的箱线图。我们以20-120mm的5mm步长显示箱子,而120mm的箱子包括120mm及以上。如预期的那样,在许多情况下,似然与3D重建误差相关。04.4. 消融研究0我们通过在Human3.6M数据集上使用我们方法的不同配置进行了几个实验。0我们分别使用每个贡献训练抬升网络。此外,我们直接在2D姿态上训练归一化流(即没有PCA)。表5中的结果显示,我们的每个贡献都对实现最佳性能至关重要。请注意,使用骨长先验与PCA或仅使用仰角相结合的方法优于[4]及其由[63]改进的重新实现。没有PCA,我们的PA-MPJPE为45.5mm,这表明在训练归一化流之前将其投影到PCA空间的重要性。添加我们的新颖的仰角预测将结果提高了近15%。由于PCA是实现可接受性能的重要部分,我们评估了PCA基数的影响。图4显示了结果。将投影到小于15个基数的PCA空间会从重新投影的2D姿态中删除重要信息,并导致超过100mm的错误。为了可视化目的,我们仅可视化超过15个基数的错误。最佳性能在22到30个基数之间,这些基数覆盖了训练集中99.6%到99.9%的方差。在31个基数处的增加表明,当输入维度过大时,归一化流难以学习概率密度。05. 限制0我们方法的唯一要求是一组2D注释,可以通过众包获得2D关节注释。这是主要的限制。具体而言,我们的方法需要从不同角度看到的相似姿势。虽然我们弥补了其中一个方面,即仰角,但对方位角分布的形状的自然假设很难甚至不可能进行。此外,从所有角度看起来视觉上正确的姿势在3D空间中仍然可能是不合理的,这是单目人体姿态估计中的一个普遍问题。在未来的工作中,我们计划通过联合学习3D姿态先验和完整相机旋转的条件分布来缓解这些问题。06. 结论0我们提出了一种无监督的方法,仅通过2D注释学习估计3D人体姿态。虽然之前的方法利用训练集上的相机分布的预定义先验,但我们发现学习这个分布显著改善了结果。此外,我们利用归一化流来学习在3D姿态的随机投影上的3D姿态先验。此外,我们的公式允许我们在测试时计算重建的3D姿态的似然性,提供了有价值的信息。由于我们观察到直接使用归一化流作为先验会导致抬升网络的训练不稳定,我们另外提出先将2D姿态投影到低维子空间。66430参考文献0[1] Benjamin Biggs, Sébastien Erhardt, Hanbyul Joo,Benjamin Graham, Andrea Vedaldi和David Novotny.3D多体:将一组可能的3D模型拟合到模糊的图像数据中。在NeurIPS,2020年。30[2] Ching-Hang Chen和Deva Ramanan.3D人体姿态估计=2D姿态估计+匹配。在计算机视觉与模式识别(CVPR)会议上,页7035-7043,2017年。20[3] Ching-Hang Chen, Ambrish Tyagi, Amit Agrawal, DylanDrover, Rohith MV, Stefan Stojanov, and James M. Rehg.无监督的几何自监督3D姿态估计。在IEEE/CVF计算机视觉与模式识别(CVPR)会议论文集中,2019年6月。70[4] Ching-Hang Chen, Ambrish Tyagi, Amit Agrawal, DylanDrover, Stefan Stojanov和James M Rehg.无监督的几何自监督3D姿态估计。在计算机视觉与模式识别(CVPR)会议上,页5714-5724,2019年。1,3,4,5,6,7,80[5] Yilun Chen, Zhicheng Wang, Yuxiang Peng, ZhiqiangZhang, Gang Yu, and Jian Sun.级联金字塔网络用于多人姿势估计.在IEEE计算机视觉和模式识别会议论文集中,第7103-7112页,2018年。70[6] Zhihua Chen, Xiaoli Liu, Bing Sheng, and Ping Li.基于对抗学习的图注意力残差网络用于3D人体姿势估计.在计算机图形学进展中,第276-287页,2020年。SpringerInternational Publishing。20[7] Laurent Dinh, Jascha Sohl-Dickstein, and Samy Bengio.使用真实NVP进行密度估计. 在第五届学习表示国际会议(ICLR2017)中,2017年4月24-26日,图伦,法国,会议跟踪论文集。OpenReview.net,2017年。30[8] Dylan Drover, Ching-Hang Chen, Amit Agrawal, AmbrishTyagi, and Cong Phuoc Huynh.仅从2D投影中学习3D姿势?在欧洲计算机视觉会议(ECCV)中,第0-0页,2018年。3, 60[9] Yu Du, Yongkang Wong, Yonghao Liu, Feilin Han, YilinGui, Zhen Wang, Mohan Kankanhalli, and Weidong Geng.无标记的单目图像序列和高度图的3D人体动作捕捉.在欧洲计算机视觉会议(ECCV)中,第20-36页,2016年。20[10] Haoshu Fang, Yuanlu Xu, Wenguan Wang, Xiaobai Liu,and Song-Chun Zhu.学习姿势语法以编码人体配置进行3D姿势估计.在AAAI人工智能会议论文集中,第6821-6828页。AAAIPress,2018年。20[11] Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza,Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville,and Yoshua Bengio. 生成对抗网络.在神经信息处理系统国际会议(NIPS)中,NIPS'14,第2672-2680页,2014年。10[12] Julian Habekost, Takaaki Shiratori, Yuting Ye, and TakuKo- mura. 从不配对的不相交数据集中学习3D全局人体动作估计.2020年。20[13] Ikhsanul Habibie, Weipeng Xu, Dushyant Mehta, GerardPons-Moll, and Christian Theobalt.在野外使用明确的2D特征和中间3D表示进行人体姿势估计.在计算机视觉和模式识别(CVPR)IEEE会议中的论文集,2019年6月。20[14] Yannick Hold-Geoffroy, Kalyan Sunkavalli, JonathanEisen- mann, Matthew Fisher, Emiliano Gambaretto, SunilHadap, and Jean-Franc¸ois Lalonde.用于深度单幅图像相机校准的感知度量.在IEEE计算机视觉和模式识别会议论文集中,第2354-2363页,2018年。20[15] Catalin Ionescu, Dragos Papava, Vlad Olaru, and CristianSminchisescu. Human3.6m:用于自然环境中3D人体感知的大规模数据集和预测方法.IEEE模式分析与机器智能(TPAMI)杂志,第36卷第7期,第1325-1339页,2014年。60[16] Umar Iqbal, Pavlo Molchanov, and Jan Kautz.通过野外多视图图像进行弱监督的3D人体姿势学习.在计算机视觉和模式识别(CVPR)IEEE会议中的论文集,2020年6月。30[17] Muhammed Kocabas, Nikos Athanasiou, and Michael J.Black. Vibe: 用于人体姿势和形状估计的视频推断.在计算机视觉和模式识别(CVPR)IEEE会议中,2020年6月。20[18] Muhammed Kocabas, Chun-Hao P. Huang, OtmarHilliges, and Michael J. Black. PARE:用于3D人体姿势估计的部分注意力回归器.在国际计算机视觉会议(ICCV)中,第11127-11137页。IEEE,2021年10月。70[19] Muhammed Kocabas, Chun-Hao P. Huang, JoachimTesch, Lea M¨uller, Otmar Hilliges, and Michael J. Black. SPEC:使用估计的相机在野外观察人物.在计算机视觉国际会议(ICCV)中的论文集,第11035-11045页,2021年10月。2, 70[20] Muhammed Kocabas, Salih Karagoz和Emre Akbas.使用多视角几何进行自监督学习的3D人体姿势.在计算机视觉与模式识别会议(CVPR)中,2019年6月。3,60[21] Nikos Kolotouros, Geor
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功