基于分层运动概率分布的三维人体形状和姿态估计

194 浏览量更新于2023-10-13 收藏 1.54MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11219基于分层运动概率分布的野外三维人体形状和姿态估计剑桥大学as2562@cam.ac.uk剑桥大学ib255@cam.ac.uk罗伯特·西波拉剑桥rc10001@cam.ac.uk摘要本文讨论的问题，三维人体形状和姿态估计从RGB图像。这通常是一个不适定问题，因为多个似真3D物体可以匹配输入中存在的视觉证据，特别是当对象被遮挡时。因此，期望估计以输入图像而不是单个3D重建为条件的3D身体形状和姿势上的分布。我们训练深度神经网络来估计相对3D关节旋转矩阵（即，关节旋转矩阵）上的分层矩阵Fisher分布。身体姿势），其利用人体的运动学树结构以及SMPL身体形状参数上的高斯分布。为了进一步确保预测的形状和姿态分布与输入图像中的视觉证据相匹配，我们实现了可微分拒绝采样器，以在地面真实2D关节坐标和来自预测分布的样本之间施加重投影损失，投影到图像平面上。我们表明，我们的方法在SSP-3D和3DPW数据集上的3D形状和姿势度量方面与最先进的方法具有竞争力，同时还产生了3D身体形状和姿势的结构化概率分布，我们可以有意义地量化预测不确定性并对多个合理的3Drecruits进行采样以解释给定的输入图像。1. 介绍根据RGB图像的3D人体形状和姿态估计是一个具有挑战性的计算机视觉问题，部分原因是其约束不足的性质，其中多个3D人体可以解释给定的2D图像，特别是当对象被显著遮挡时，这对于野外图像是常见的。几个最近的作品[53，20，27，26，46，63，12，37，14，40，39，54，35，52]使用深度神经网络回归单个身体形状和姿势解决方案，这可以在输入图像中给出足够的视觉证据的情况下产生令人印象深刻的3D身体重建。然而，当对象的形状和姿态的视觉证据图1. 3D重建样本和对应于从给定输入图像计算的预测的分层形状和姿态分布的每顶点不确定性。或者自遮挡，单个解决方案不能完全描述合理的3D重建的空间。相比之下，我们的目标是在输入图像的条件下估计3D身体形状和姿势的结构化概率分布，从而允许我们对任何数量的合理3D重建进行采样，并量化3D身体表面的预测不确定性，如图1所示。我们使用SMPL身体模型[32]来表示人体形状和姿势。身份相关的身体形状由PCA基的系数参数化，因此，形状参数上的简单多变量高斯分布是合适的。身体姿势通过沿着SMPL运动学树的相对3D关节旋转来参数化，其可以使用旋转矩阵来表示。使用神经网络回归旋转矩阵是不平凡的，因为它们位于SO（3）中，SO（3）是一个非线性3D流形，具有与R3×3或R9不同的拓扑，无约束神经网络输出所在的空间。然而，人们可以在李群SO（3）上定义概率密度函数，例如矩阵Fisher分布[33，11，22]，其参数是R3×3的元素，并且可以很容易地用神经网络回归[34]。我们提出了一种沿SMPL运动树的相对3D关节旋转的分层概率分布，其中每个关节的相对旋转矩阵的概率密度函数11220运动树我们训练深度神经网络来预测身体姿势上的这种分布的参数，以及SMPL形状上的高斯分布。此外，为了确保从预测分布中采样的3D物体与2D输入图像匹配，我们在预测样本和地面实况可见2D关节注释之间实现了重投影损失。为了允许通过采样操作的梯度的反向传播，我们提出了一个可微拒绝采样器的矩阵Fisher分布在相对的3D联合旋转。最后，从野外图像进行SMPL体型回归的一个关键障碍是缺乏具有准确和多样化体型标签的训练数据集[46]。为了克服这一点，我们遵循[46，52，40，47]并利用在训练过程中随机生成的合成数据。受[7]的启发，我们使用卷积边缘滤波器来缩小大的合成到真实的差距，并表明使用基于边缘的输入比常用的基于轮廓的输入产生更好的性能[46，52，47，40]，由于提高了鲁棒性和保持视觉形状信息的能力。综上所述，我们的主要贡献如下：• 给定一个输入图像，我们预测一个新的层次矩阵Fisher分布在相对的3D关节旋转矩阵，其结构是明确地告知SMPL运动树，旁边的高斯分布在SMPL形状参数。• 我们提出了一个可微拒绝采样器采样任何数量的合理的三维重建和量化的预测不确定性的身体表面。这使得预测样本与可见2D关节的地面实况坐标之间的重投影损失成为可能，进一步确保预测分布与输入图像一致。• 我们使用简单的卷积边缘滤波器来改进[46，47]使用的随机合成训练框架。边缘滤波是一种计算成本低、鲁棒性强的方法，用于缩小合成RGB训练数据和真实RGB测试数据之间的域差距。2. 相关工作本节回顾单目3D人体形状和姿势估计的方法，以及基于深度学习的概率旋转估计方法。单目3D形状和姿态估计方法可以被分类为基于优化或基于学习。基于优化的方法将参数化3D身体模型[32，1，38，19]拟合到2D观察，例如2D关键点。点[5，29]、轮廓[29]或身体部位分割[61]。这些方法不需要昂贵的3D标记的训练数据，但对不良初始化和噪声观测敏感。基于学习的方法可以进一步分为无模型或基于模型。无模型方法使用深度网络从输入图像直接输出人体顶点网格[27，35，63，62，8]，体素网格[54]或隐式表面[44，45]。相反，基于模型的方法[20，46，37，12，53，14，40，39，59]回归3D身体模型参数[38，32，19，1]，其给出3D人体的低维表示。为了克服缺乏野外3D标记的训练数据，一些方法[20，59，27，12，14]使用不同的2D标记数据作为弱监督的来源。[26]通过将优化纳入其模型训练循环来扩展这种方法，将2D标签提升到自我改进的3D标签。这些方法通常导致令人印象深刻的3D姿势预测，但是难以准确地预测各种各样的身体形状，因为2D关键点监督仅提供稀疏形状信号。可以使用合成训练数据[46，52，40，47]来提高形状预测准确度，所述合成训练数据由与真实身体形状和姿势配对的合成输入代理表示（PR）组成PR通常由轮廓和2D联合热图[46，40，47]组成，需要在测试时进行准确的轮廓分割[25，15]，这对于具有挑战性的野外输入是不能保证的。其他方法[54]对合成RGB输入[55]进行预训练，然后对可用的稀缺且有限形状多样性的真实3D训练数据[17，56]进行微调，以避免对低保真度合成数据中的伪影过度拟合。相比之下，我们利用基于边缘的PR，因此降低了对准确分割网络的依赖，而不需要对真实数据或高保真合成数据进行微调。三维人体形状和姿态分布估计。早期基于优化的3D姿态估计器[49，50，51，9，10]指定了与给定2D观察的3D姿态的后验概率相对应的成本函数，并分析了由于不适定性而导致的多模态结构。以高后验概率对多个3D姿势进行采样的策略包括成本协方差缩放[49]和基于逆运动学[51]的全局搜索和局部细化，以及成本函数修改MCMC [50]。最近，几种基于学习的方法[48，31，18，57，36]使用贝叶斯专家混合[48]、混合密度网络[31，4，36]或归一化流[57，43]预测以2D输入为条件的3D关节位置上的多模态分布。我们的方法扩展到3D关节之外，并预测人体姿势和形状的分布。Biggs等人已经解决了这一问题。[3]，他们在一组SMPL [32]参数假设上预测分类分布Sengupta等人[47]估计SMPL形状和关节旋转向量上的独立高斯分布。相比之下，我们注意到3D旋转位于SO（3）中，从而激发了我们的分层矩阵Fisher分布。旋转分布估计经由深度学习Prokudin等人[41]使用双元数网络预测11221J J∈{∈|}∈∈∈Mi=1i=1∈图2.我们的分层SMPL形状和姿态分布预测器的网络架构。将给定的输入图像转换为转换成边缘和关节热图代理表示，其通过预测网络以产生形状参数和相对3D关节旋转矩阵上的分布。拒绝采样用于从预测的分布中对3D重建进行物体姿态角上的von-Mises混合分布。Gilitschenski等人[13]使用单位四元数上的宾汉分布来表示方向不确定性。然而，这些作品必须对它们的预测分布的参数（例如，正半定性）。为了克服这一点，Mohlinet al.[34]训练深度网络以在3D旋转矩阵上回归矩阵Fisher分布[33，11，22我们采用这种方法来定义我们的分层矩阵Fisher分布J3D=V其中RL×6890是线性顶点到联合回归矩阵。3.2. SO（3）上的矩阵Fisher分布3D特殊正交群可以被定义为SO（3）=RR3×3RTR=I，det（R）= 1. 的矩阵Fisher分布[11，22，33]定义了SO（3）上的概率密度函数，由下式给出1在相对3D关节旋转矩阵上。p（R|F）=c（F）exp（tr（FTR））=M（R;F）（1）3. 方法本节概述了SMPL [32]和矩阵Fisher分布[11，22，33]，介绍了我们的结构化分层姿态和形状分布估计架构，并讨论了用于训练它的损失函数3.1. SMPL模型SMPL [32]是一个参数化的3D人体模型。身份相关体型由形状参数βR10表示，其是PCA体型基础的系数。身体姿势由身体形成的骨骼的相对3D旋转限定（即，身体姿势）。非根）其中FR3×3是分布的矩阵参数，c（F）是归一化常数，RSO（3）。我们在下面呈现了矩阵-Fisher分布的一些关键性质，但请读者参考[30，34]以获得进一步的细节，可视化和用于近似难以处理的归一化常数及其梯度w.r.t.的方法F.（R; F）的性质可以用F的奇异值分解（SVD）来描述，表示为F=U′S′V′T，其中S′=diag（s′1，s′2，s′3）。U′和V′是标准正交矩阵，但它们可能有行列式-1，因此不一定是SO（3）的元素。因此，使用适当的SVD [30]F=USVT，其中U=U′diag（1，1，det（U′））SMPL运动学树中的运动类型。可以使用旋转矩阵{Ri} 23来表示旋转，其中Ri∈{Ri} 23。V=V′diag（1，1，det（V′））（2）S=diag（s1，s2，s3）= diag（s′，s′，det（U′V′）s′）SO（3）.我们参数化全局旋转（即根关节的旋转）以轴角形式通过γ ∈ R3。不同的-12 3这使得U，V∈SO（3）。然后，模式的可分函数S（{Ri}23 ，β，γ）映射输入姿态，并且分布由[30]形状参数到输出顶点网格VR6890×3。对于感兴趣的L个关节，3D关节位置被获得为R模式 =arg max p（R F）= UV T。（三）11222|R∈SO（3）11223i=1--β∈β联系我们Jβi=1--βββΣ。ΣL=−logNβ;µ（X），diag（σ（X））。β-NLLβ求X∈R. 代理表示[46，40]我i=1关于我们n=1--不JβU的列定义了分布的旋转主轴（类似于多元高斯分布的主轴），而S中的适当奇异值给出了分布围绕主轴旋转的集中度[ 30 ]。具体地，对于（i，j，k）（1，2，3），（2，3，1），（3，1，2），沿着R模式绕第i主轴（U的第i列）的旋转的浓度由sj+ sk给出。每个主轴周围的离散度可能不同，允许轴相关旋转不确定性建模。3.3. 代理表示计算给定输入RGB图像I，我们首先计算代理表示X（参见图2），其由与联合热图连接第5.1节给出了与基于轮廓和RGB的表示的比较。用Canny边缘检测获得边缘图像[6]。使用Detectron2 [16，58]计算2D联合热图，并对具有低置信度分数的联合预测进行阈值化。边缘图像与关节其中findep由具有权重Windep的深度神经网络表示。然而，等式5中的独立矩阵-Fisher分布没有忠实地对SMPL 3D关节旋转进行建模，因为每个部分/骨骼的旋转是相对于SMPL运动学树中的其父关节定义的因此，以输入X为条件的第i个旋转矩阵Ri上的分布应该由其所有父关节P（i）上的分布以及全局身体旋转γ来通知，以使得该分布能够匹配存在于X中的2D视觉姿态证据。此外，SMPL静止姿态骨架中的3D关节取决于形状参数β，而从3D到2D图像平面的映射由相机模型给出。因此，给定X的Ri上的分布还应考虑预测的形状平均值μs和变化σ2以及预测的相机c。这类似于[20，12]中确定性迭代/分层预测器背后的基本原理，除了我们在概率意义上对这些关系建模，通过定义p. Ri|X，{Fj}j∈P（i），γ，μβ，σ2，c∈M（Ri;Fi）热图沿着通道维度堆叠，高×宽×（长+1）Fi=fi。X，{（Uj，Sj，R模）}j∈P（i），γ，μβ，σ2，cΣ（六）是用来缩小合成火车之间的领域差距ing图像和实时测试时的RGB图像，因为合成与合成RGB图像与真实RGB图像相比，代理表示与它们的真实对应物更相似3.4. 体型和姿态分布预测我们的目标是预测以给定输入代理表示X为条件的相对3D关节旋转R123和SMPL形状参数β上的概率分布。我们还预测了全局身体旋转γ和弱透视相机参数c =[s，t x，t y]的确定性估计，表示尺度和xy平移。由于β表示PCA形状空间，具有对角协方差矩阵的高斯分布是合适的[47]，p（β|X）=N（β; μβ（X），diag（σ2（X））（4）其中平均值μβ和方差σ2是X的函数。矩阵Fisher分布（等式1）可以是用于定义3D关节旋转的分布p（R1）|X）=M（Ri;Fi（X））（5）因为我1，2，...，23岁属性的matrix参数第i个关节是其所有父分布rep的函数由主轴 Uj 、奇异值 Sj 和模式 Rmodej = UjV （j ∈ P（i））以及形状分布μβ、σ2、全局旋转γ、摄像机参数c和输入X表示。请注意，父分布本身是其各自的父关节的函数，而γ，μβ，σ2和c都是X的函数。预测层次矩阵的参数-根据等式6中的Fisher分布，我们提出了具有权重Whier的分层神经网络架构fhier（图2）。当被认为是一个黑盒时，f产生与findep相同的输出集合Y。然而，它利用图2中呈现的迭代分层架构，其相当于全连接层的多个流，每个流跟随运动树的一个相比之下，findep使用完全连接的层的单个流类似于形状、相机和全局旋转参数来预测姿势。我们将朴素独立公式与第5.1节中的分层公式进行了比较。3.5. 损失函数分布预测网络的训练与一个同步-对于i∈ {1，2，…，23}。在这里，每个关节都是独立建模的-模拟数据集{Xn，（{Rn}23，βn，γn）}N（第4节）。所有其他的关节。因此，第i个关节的矩阵参数Fi仅是输入X的函数。除了形状分布参数、全局身体旋转和弱透视相机之外，为了预测在3D关节旋转上的这种朴素的独立分布的参数，我们学习将输入X独立映射到期望输出集合Y=分布参数的负对数似然（NLL）损失。对应于高斯体型分布（等式4）的NLL由下式给出：Nn n2nβn=1（七）β11224∈MBM1∈N∈∝i，kN联系我们模式i我我2D2n=1FL2B我我我我 i=1我i=1n=12D我i=1i，ki=1kxyΣΣ关于我们βk=1算法一：可微拒绝采样器输入：U，S=diag（s1，s2，s3），V，b输出：RSO（3）s.t. R（R;USVT）1A=diag（0，2（s2+s3），2（s1+s3），2（s1+s2））2Ω=I4+2A3M=失效 b−4Σ。 4 Σ2我们将[21]中提出的拒绝采样器调整为从矩阵Fisher分布（R;F）中采样，对其进行修改以允许通过建议采样步骤（算法1中的第5-7行）进行梯度的反向传播。我们建议读者参考[21]，以了解有关拒绝采样器的更多详细信息。简而言之，为了模拟具有参数F=USVT的矩阵Fisher分布，我们对单位四元数进行采样。从宾汉分布[33]在单位3-5个样本N（04，I4）6y=（Ω−1）27提出x=ys.t. xS3阿夫里8个样本，带Unif[0，1]球S3，其中从S计算Bingham参数A，然后将采样的四元数转换为旋转质量。trices [21，33]与所需的矩阵Fisher分布。拒绝抽样是用来从宾汉抽样不9直到wexp（−xTAx）;<分布，其中有pdfpBing（x）exp（−x Ax），用于M（xTΩx）−210Q=材料ix（x）s. t的q值O（3）11retur nR=UQVT对应于相对3D关节旋转的矩阵Fisher分布的NLL定义为 [34]：LR-NLL=−ΣlogM（Rn;Fn）n=1（八）XS3. 拒绝sam的提案分布-pler是角中心高斯（ACG ）分布，pdf pACG（x）（xTΩx）−2。ACG分布很容易模拟[21]，方法是从协方差矩阵为n−1的零均值高斯分布中采样，并对单位长度进行归一化（算法1中的第5-7行）。重新参数化技巧[24]用于从该零均值高斯中进行可微分采样，从而允许通过拒绝采样器进行梯度的反向传播。算法1对K组相对3D关节旋转进行矩阵{{Rn23i=1从相应的分布-}Kk=1Σtions{M（Rn;Fn）}23=logc（Fn）−tr（FnTRn）K. 此外，我们可微我我我n=1分布{βnN（β;μβ（Xn），diag（σ2（Xn）}K、对于i1，2，.，23，其中Fn可以通过独立或分层矩阵Fisher模型以上直观地，跟踪项将预测的分布模式Rn（等式3）推向目标Rn，再次使用重新参数化技巧[24]。身体形状和3D关节旋转样本是一致的，使用SMPL模型和弱透视相机参数而对数归一化常数用作正则化器，预避免Fn的奇异值变得过大ˆn二维k =snΠ（JS（{Rn23，β（n，γ（n））+[tn，tn]（9）[34]。所有预测的分布参数取决于模型权重W_indep或W_hier，其在最大似然框架中学习，旨在最小化关节形状和姿态NLL：LNLL=Lβ-NLL+ LR-NLL。其中Π（）是正投影。在预测的2D关节样本和可见目标2D关节坐标之间应用的重投影损失由下式给出：整体旋转损失。我们预测确定性N K全局体旋转向量γn的估计，其使用地面真实全局旋转γn进行监督，损失L个2D样本=ωn（Jnn=1k=1ˆn二维k）2（十）Lglobal=ΣNR（γn）−R（γR（γ）∈SO（3）是其中目标关节的可见性由对应于γ的旋转矩阵。样本上的2D接头损失。单独应用NLL会导致过度不确定的预测3D形状和姿态分布（参见第5.1节）。为了确保预测的分布与输入Xn中的视觉证据相匹配，我们在地面真实2D联合坐标（在图像平面中）与预测的2D联合样本之间施加重新投影损失，预测的2D联合样本通过从预测的分布对3D物体进行微分采样并使用预测的相机cn=[sn，tn，tn]投影到2D来获得。地面实况2Dωn∈ {0，1}L（如果可见则为1，否则为0）。4. 实现细节合成训练数据。为了训练我们的3D身体形状和姿势分布预测网络，我们需要训练数据集Xn，（Rn23，βn，γn）N。我们扩展了[46，47]中提出的合成训练框架，其涉及生成输入和相应的SMPL身体形状和姿势（即，3D关节旋转）随机标记和X y关节Jn由{{Rn}23 ，βη，γη}。总之，每次训练-合成训练数据生成（参见第4节）。例如，SMPL形状βn从a随机采样。}我}-J4个重复从预测的高斯分布中采样K个SMPL形状向量J11225我i=1图3.对应于使用具有2D样本损失的分层架构（左）、没有2D样本损失的分层架构（中）和具有2D样本损失的独立架构（右）预测的形状和姿态分布的3D重建样本和每顶点不确定性。通过从预测分布中采样100个SMPL网格并确定每个顶点的样本均值的平均欧几里得距离来估计每个顶点的不确定性（单位：cm）。预测的分布匹配的输入，同时表现出更大的不确定性的模糊部分的分层结构和样本重投影损失先验高斯分布，而相对三维联合旋转合成RGB图像，边缘滤波桥梁的合成，{Rn}23和全局旋转γn是从序列中选择的在测试时与实域的差距，并且性能优于使用UP-3D [29]、3DPW [56]或Human3.6M [17]。使用SMPL模型和轻量渲染器将这些转换为训练输入Xn和地面真实2D关节坐标Jn[42]。然后将裁剪、遮挡和噪声增强应用于合成输入。先前的合成训练框架[46，47，52]使用基于轮廓的训练输入。这需要在测试时进行准确的人体轮廓分割，这可能具有挑战性。相比之下，我们的输入表示由与2D联合热图连接的边缘图像组成。为了生成边缘图像，我们首先通过渲染纹理SMPL网格来创建合成RGB图像。对于每个训练网格，从[55，2]中随机选择服装纹理。纹理SMPL网格使用随机采样的照明和相机参数渲染到背景图像（从LSUN [60]中随机选择）上。Canny边缘检测[6]用于从合成RGB图像计算边缘图像。我们在第5.1节中表明，尽管缺乏照片写实主义基于轮廓或基于合成RGB的训练输入。补充材料中给出了合成训练样本的示例。培训详情。我们使用Adam [23]，学习率为0.0001，批量大小为80，训练150个epoch。为了稳定性，2D关节重投影损失仅应用于前50个历元中的模式姿态和形状（投影到2D），而不应用于在接下来的100个历元中被监督的样本。为了提升3D姿态度量，在最后50个时期中应用模式3D关节位置上的MSE损失评价数据集。3DPW [56]用于评估3D姿态预测精度。我们报告了尺度校正后（MPJPE-SC）[46]和Procrustes分析后（MPJPE-PA）的平均每个关节位置误差，单位均为mm。使用预测的形状和姿态分布的模式3D关节坐标来计算这两个度量。SSP-3D主要用于评估3D体型预测精度，使用比例校正后T姿势中的每顶点欧几里得误差（PVE-T-SC）[46]（单位：mm，com）。11226LLLLLL输入类型架构2D样本丢失合成测试数据SSP-3D 3DPWPVE-T-SC 二维关节误差 PVE-T-SC 二维关节误差 MPJPE-SC模式/样本模式/样本安静+ J2DHmap独立没有84.912.87.2/11.614.36.0/11.993.0RGB + J2DHmap独立没有79.911.37.1/11.714.05.9/12.092.8边+ J2DHmap独立没有85.812.97.5/12.013.75.9/11.888.4边+ J2DHmap独立是的86.313.27.6/8.913.96.2/9.691.3Edge + J2DHmap分层没有84.412.87.3/10.413.65.3/11.287.7Edge + J2DHmap分层是的79.112.66.7/6.913.64.8/6.984.7表1.研究不同输入表示、分层与独立分布预测网络以及2D样本重投影损失的实验，根据合成数据SSP-3D [46]和3DPW [56]的形状和姿态预测指标进行评估根据预测的形状分布，使用模式3D体型进行拟合。我们还评估2D联合预测误差（2D联合误差）。模式/样本），使用模式3D主体和从预测的形状和姿势分布随机采样的10个3D主体两者计算，使用相机预测投影到图像平面仅在可见目标2D关节上评估2D关节误差最后，我们使用一个合成的测试数据集，我们的消融研究调查不同的输入表示。它由以与合成训练数据相同的方式生成的1000个合成输入-标签对组成，其中姿势从Human3.6M的测试集采样。[17 ]第10段。5. 实验结果本节研究了不同的输入表示和2D关节样本损失的好处，比较了独立和分层分布预测器，并将我们的方法与最先进的方法进行了比较。5.1. 消融研究输入代理表示。表1中的行1-3比较输入代理表示的不同选择：二进制silhouettes，RGB图像和边缘过滤图像（每个广告都与2D联合热图连接）。独立网络架构用于所有三种输入类型。为了研究合成域与真实域之间的差距，提出了合成测试数据以及来自SSP-3D和3DPW的真实测试图像的对于后者，使用DensePose[15]进行silhouette分割。使用基于RGB的输入表示（行2）导致合成数据上的最佳3D形状和姿态度量，这是合理的，因为RGB包含比轮廓和边缘滤波图像更多的信息。然而，在真实数据集上，度量明显更差，这表明网络过度拟合合成RGB中存在的不切实际的伪影与合成数据相比，基于轮廓的输入表示（行1）还证明了真实测试数据上的3D度量的劣化，因为它们严重依赖于准确的轮廓，这在包含挑战性姿势或严重遮挡的测试图像中难以鲁棒地分割。轮廓分割严重削弱了网络预测3D身体姿势和形状的能力。相比之下，边缘滤波是一种比分割更简单、更鲁棒的操作，但仍然能够保留RGB图像中的重要形状信息因此，边缘图像（与2D联合热图级联）可以更好地桥接合成域到真实域的间隙，从而导致真实测试输入上的改进的度量（行3）。2D关节样本的分层结构和重投影损失。图3和表1中的第3-6行比较了第3.4节中呈现的独立和分层分布预测架构（findep和fhier），其中包含和不包含第3.5节中采样的2D关节（2D样本）上的重投影损失。当不应用2D样本时，由独立网络架构和分层网络架构两者预测的形状和姿态分布不一致地匹配输入图像，如通过使用分布的模式计算的可见2D联合误差与从合成测试数据和SSP-3D两者上的分布（在表1的行3和5中）提取的样本之间的显著差距所证明的。第46页]。这意味着预测的分布关于输入图像中可见且明确的对象身体的部分是过度不确定的图3（中间）中对应于在没有2D样本的情况下这导致在明确的身体部位上显著的不期望的每顶点不确定性。将2D样本应用于独立网络findep部分地缓解了输入和预测样本之间的失配，如图3（右）和表1中的行4所示，其中模式与样本2D联合误差间隙已经减小。然而，利用2D样本的训练使独立架构表1的第3行与第4行中的模式）。这是因为f独立于其父关节的旋转而独立地对每个关节的相对旋转进行建模2D采样尝试强制预测的采样与输入匹配，尽管存在这种逻辑不一致，11227LLL方法3DPWMPJPE-PA最大输入集大小方法SSP-3DPVE-T-SCHMR [20] 22.9[27]第二十七话表 2. 与SOTA 在3DPW上的MPJPE-SC 和MPJPE-PA（均为mm）比较[56]。上半部分的方法需要与3D地面实况配对的训练图像，下半部分的方法不需要。导致模式和样本姿态预测度量之间的折衷，特别是恶化MPJPE-SC。相比之下，将2D样本应用于分层网络函数改进了对应于模式和样本预测两者的度量，如表1中的行6所示。现在，每个SMPL关节因此，2D采样和NLL结合工作以使得预测的分层分布（和采样）能够匹配可见输入，同时产生改进的3D度量。图3（左）展示了这样的视觉上一致的样本，并证明了模糊部分的更大的预测不确定性。注意，即使在单目设置中没有遮挡，也可能出现不确定性，例如，在单目设置中没有遮挡。由于深度模糊[49，51]，如图3的最后一行中的左臂样本所示。更多目视检查结果见补充材料。5.2. 与最新技术水平的形状预测表3评估了SSP-3D [46]上针对单图像输入和多图像输入集的3D体型度量，我们使用[ 47 ]的均值和概率组合方法进行评估。我们的网络超越了最先进的[47]，主要是由于我们使用了基于边缘的代理表示，而不是[46]和[47]中使用的基于剪影的表示这些方法依赖于准确的人体轮廓，这可能很难在测试时计算，如第5.1节所讨论的，而我们的方法没有这样的依赖性。然而，当受试者穿着模糊身体形状的宽松衣服时，我们的方法可能导致错误的形状预测，在这种情况下，形状预测高估了受试者姿势预测。表2评估了3DPW上的3D姿态度量[56]。我们的方法与现有技术相比具有竞争力，并且超过了不需要3D标记的训练图像的其他方法[46，47，28，20]。图4（a）示出了1SPIN [26] 22.2[63]第63话皮带[46] 15.9Sengupta等人[47] 15.2我们的13.6HMR [20]+平均值22.9GraphCMR [27]+平均值19.3SPIN [26]+平均值21.95DaNet [63]+平均值22.1带[46]+平均值14.4Sengupta等人[47]+平均值13.6Sengupta等人[47] +概率Comb.13.3我们的+平均值12.2我们的+概率Comb.12.0表3. SSP-3D上PVE-T-SC（mm）与SOTA的比较[46]。上半部：单输入，下半部：多输入。图4.使用a）3DPW上的MPJPE-SC和b）SSP-3D上的PVE-T-SC的分类的每样本分布与SOTA进行比较我们的方法在3DPW中的大多数测试示例中表现良好，甚至与不试图准确预测不同体型的姿势聚焦方法相匹配[35，26]。然而，3DPW中的一些图像包含显著遮挡，这可能导致代理表示中的噪声2D关节热图，从而导致如图4（a）中的曲线的右端所示的差的3D姿态度量6. 结论在本文中，我们提出了一种概率方法来解决单目3D人体形状和姿态估计的不适定问题，其动机是多个3D身体可以解释给定的2D图像。我们的方法预测一种新的分层矩阵-相对3D关节旋转的Fisher分布和SMPL上的高斯分布[32] 形状参数，从中我们可以对任何数量的合理3D重建进行采样。为了确保预测的分布匹配的输入图像，我们已经实现了一个可微拒绝采样器施加预测的2D联合样本和地面实况2D联合坐标之间的损失。我们的方法在3DPW上的姿态度量方面与最先进的技术具有竞争力，同时在SSP-3D上的形状精度方面超过最先进的技术。HMR [20]102.871.5GraphCMR [27]102.070.2[26]第二十六话89.459.0I2L-MeshNet [35]80.757.7Biggs等人[3]第一章-55.6DaNet [63]82.454.8HMR（未配对）[20]126.392.0Kundu等人[28日]-89.8皮带[46]99.066.8Sengupta等人[47个]90.961.0我们84.759.211228引用[1] Dragomir Anguelov 、 Praveen Srinivasan 、 DaphneKoller、Se- bastian Thrun、Jim Rodgers和James Davis。SCAPE：形状完成和动画的人。在ACM Transactions onGraphics （ TOG ） - Proceedings of SIGGRAPH，第 24卷，第408-416页，2005中。2[2] BharatLalBhatnagar ， GarvitaTiwari ， ChristianTheobalt，and Gerard Pons-Moll.Multi-garment net：学习从图像中为3D人物穿衣。在IEEE国际计算机视觉会议（ICCV）的会议记录中，2019年10月。6[3] 本杰明·比格斯、塞巴斯蒂安·埃哈特、韩宝、本杰明·格雷厄姆、安德烈·维达尔迪和大卫·诺沃特尼。 3D多体：将似然 3D 模型集拟合到模糊图像数据。在NeurIPS，2020年。二、八[4] Christopher M.主教混合密度网络技术报告，1994年。2[5] Federica Bogo、Angjoo Kanazawa、Christoph Lassner、Peter Gehler、Javier Romero和Michael J.黑色. SMPL：从单个图像自动估计3D人体姿势和形状。在欧洲计算机视觉会议（ECCV）的会议记录中，2016年10月。2[6] John F.精明边缘检测的计算方法IEEE Transactions onPattern Analysis and Machine Intelligence（PAMI），8（6）：679-698，1986. 四、六[7] J. Charles，S. Bucciarelli和R.西波拉实时读屏：减少一次性学习的域偏移。英国机器视觉会议（BMVC），2020年。2[8] Hongsuk Choi，Gyeongsik Moon，and Kyoung Mu Lee.Pose2mesh：用于3D人体姿势和从2D人体姿势恢复网格的图形卷积网络。在 2020 年欧洲计算机视觉会议（ECCV）上。2[9] Kiam Choo和DJ舰队使用混合蒙特卡罗滤波的人跟踪。在 Proceedings of the IEEE International Conference onComputer Vision（ICCV），第2卷，第321-328页，第2卷，2001中。2[10] J. Deutscher，A.布莱克和我。里德通过退火粒子滤波的关节式身体IEEE计算机视觉与模式识别会议，2000年。2[11] Thomas D.唐斯定向统计。Biometrika，59（3）：665-676，12 1972. 第1、3条[12] Georgios Georgakis ， Ren Li ， Srikrishna Karanam ，Terrence Chen，Jana Kosecka，and Ziyan Wu.分层运动人体网格恢复。欧洲计算机视觉会议（ECCV）论文集，2020年。一、二、四[13] Igor Gilitschenski、Roshni Sahoo、Wilko Schwarting、Alexander Amini、Sertac Karaman和Daniela Rus。基于宾汉损失的深度方向不确定性学习。在2020年国际学习代表会议上。3[14] Riza Alp Guler和Iasonas Kokkinos。Holopose：在野外进行整体3D人体重建。在IEEE计算机视觉和模式识别会议，2019年6月。一、二[15] Ri z aAlpGuüler，N a taliaN ev er ov a，andIasonasKokkinos.密度：野外密集的人体姿势估计。在IEEE计算机视觉和模式识别会议（CVPR）上，2018年。二、七[16] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick. 面罩 R-CNN 。 IEEE InternationalConference on Computer Vision（ICCV），2017。4[17] Catalin Ionescu ， Dragos Papava ， Vlad Olaru ， andCristian Sminchisescu. Human3.6M：大规模数据集和自然环境中三维人体感知的预测方法。IEEE Transactionson Pattern Analysis and Machine Intelligence（PAMI），36（7）：1325-1339，2014年7月。二六七[18] Ehsan Jahangiri和Alan L.尤尔。生成与2D关节检测一致的人类3D姿态的多个不同假设在IEEE国际计算机视觉会议（ICCV）研讨会（PeopleCap），2017年。2[19] Hanbyul Joo Tomas Simon和Yaser Sheikh Total capture：用于跟踪面部、手部和身体的3D变形模型在IEEE计算机视觉和模式识别会议论文集，2018年6月。2[20] 作者：Michael J.作者：David W.雅各布斯和吉坦德拉·马利克端到端恢复人体形状和姿势。在IEEE计算机视觉和模式识别会议（CVPR）上，2018年。一、二、四、八[21] John T. Asaad M. Kent Ganeiber和Kanti V.玛迪亚方向数据分析中模拟宾汉和相关分布的新方法及其应用，2013年。5[22] C. G. Khatri和K. V. Mardia方向统计中的Von Mises-Fisher 矩阵分布皇家统计学会杂志。Series B（Methodological），39（1）：95-106，1977. 第1、3条[23] Diederik P. Kingma和Jimmy Ba。Adam：随机最佳化的方法。国际学习代表会议（ICLR），2014年。6[24] Diederik P Kingma和Max Welling。自动编码变分贝叶斯，2014年。5[25] 亚历山大·基里洛夫，

下载后可阅读完整内容，剩余1页未读，立即下载