表现力的人体捕捉：来自单张图像的3D手部、面部和身体

149 浏览量更新于2023-10-19 收藏 19.1MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

109750表现力的人体捕捉：来自单张图像的3D手部、面部和身体0Georgios Pavlakos *1,2，Vasileios Choutas *1，Nima Ghorbani 1，Timo Bolkart 1，Ahmed A. A. Osman 1，Dimitrios Tzionas 1，Michael J.Black 101 智能系统MPI，图宾根，德国，2 宾夕法尼亚大学，美国 {gpavlakos，vchoutas，nghorbani，tbolkart，aosman，dtzionas，black } @tuebingen.mpg.de0摘要0为了便于分析人类的动作、互动和情感，我们从单目图像中计算出人体姿势、手势和面部表情的3D模型。为了实现这一目标，我们使用数千个3D扫描来训练一个新的、统一的人体3D模型SMPL-X，它通过完全关节化的手和有表现力的面扩展了SMPL。在没有成对图像和3D真值的情况下，直接从图像中回归SMPL-X的参数是具有挑战性的。因此，我们采用了SMPLify的方法，该方法估计2D特征，然后优化模型参数以适应这些特征。我们在几个重要方面改进了SMPLify：（1）我们检测与脸部、手部和脚部相对应的2D特征，并将完整的SMPL-X模型拟合到这些特征上；（2）我们使用大规模的MoCap数据集训练了一个新的神经网络姿势先验；（3）我们定义了一种新的快速准确的相互穿透惩罚；（4）我们自动检测性别和适当的身体模型（男性、女性或中性）；（5）我们的PyTorch实现比Chumpy快了8倍以上。我们使用新方法SMPLify-X将SMPL-X拟合到受控图像和野外图像中。我们在一个新的精选数据集上评估了3D准确性，该数据集包含100张带有伪造地面真值的图像。这是实现从单目RGB数据自动捕捉表现力人体的一步。模型、代码和数据可供研究目的使用，网址为https://smpl-x.is.tue.mpg.de。01. 引言0人类通常是图像和视频中的核心元素。理解他们的姿势、他们传达的社交暗示以及他们与世界的互动对于全面的场景理解至关重要。最近的方法在估计2D中的主要身体关节、手部关节和面部特征方面取得了快速进展。然而，我们与世界的互动基本上是3D的，最近的工作也在3D估计方面取得了进展。0� 平等贡献0图1：交流和手势依赖于身体姿势、手部姿势和面部表情，所有这些要素共同作用。身体的主要关节不足以表示这一点，当前的3D模型也不够表达。与以往的工作相比，我们的方法从单张图像中估计出更详细、更有表现力的3D模型。从左到右：RGB图像、主要关节、骨架、SMPL（女性）、SMPL-X（女性）。SMPL-X中的手和脸使得整体和表现力更强的身体捕捉成为可能。0直接从单张图像中提取出主要关节和粗糙的3D姿势[10, 37,59,62]。然而，为了理解人类行为，我们需要捕捉身体的完整3D表面、手和脸。由于缺乏适当的3D模型和丰富的3D训练数据，目前没有系统能够做到这一点。图1说明了这个问题。仅使用稀疏的2D信息或缺乏手和脸部细节的3D表示来解释富有表现力和交流的图像是困难的。为了解决这个问题，我们需要两个东西。首先，我们需要一个能够表示人脸、手和身体姿势复杂性的3D模型。其次，我们需要一种从单张图像中提取这样一个模型的方法。神经网络和大规模标记图像数据集的进展在2D人体“姿势”估计方面取得了快速进展。在这个领域，“姿势”通常指的是109760图2：我们学习了一个名为SMPL-X的新的3D人体模型，它同时模拟了人体、面部和手部。我们使用SMPLify-X将女性SMPL-X模型拟合到单个RGB图像中，并展示它捕捉到了丰富多样的自然和富有表现力的3D人体姿势、手势和面部表情。0人体的主要关节。这还不足以理解人类行为，如图1所示。OpenPose[15, 60,70]将这一点扩展到包括2D手关节和2D面部特征。虽然这更多地捕捉了关于交流意图的信息，但它不支持对表面和人与3D世界的交互进行推理。关于3D人体的模型主要集中在捕捉人体的整体形状和姿势，不包括手和面部[2, 3, 6, 26,48]。关于建模手部[39, 53, 57, 58, 68, 69, 71, 74,75]和面部[4, 9, 11, 13, 14, 43, 63, 76,79]的文献也很多，但是它们与身体的其他部分是隔离的。直到最近，该领域才开始将身体与手[68]或将身体与手和面部[36]一起建模。例如，Frank模型[36]将SMPL人体模型的简化版本与艺术家设计的手部骨骼和FaceWarehouse[14]面部模型结合在一起。这些不同的模型被拼接在一起，结果是一个不完全真实的模型。在这里，我们从大量的3D扫描数据中学习了一个新的、整体的身体模型，包括面部和手部。新的SMPL-X模型（SMPLeXpressive）基于SMPL，并保留了该模型的优点：与图形软件兼容、简单参数化、体积小、高效、可微分等。我们将SMPL与FLAME头部模型[43]和MANO手部模型[68]结合起来，然后将这个组合模型注册到我们为质量而策划的5586个3D扫描中。通过从数据中学习模型，我们捕捉到了身体、面部和手部形状之间的自然相关性，得到的模型没有人为瑕疵。0与Frank一起见面。模型的表现力可以在图2中看到，我们将SMPL-X拟合到有表现力的RGB图像中，也可以在图4中看到，我们将SMPL-X拟合到公共LSP数据集[33]的图像中。SMPL-X可供研究目的免费使用。几种方法使用深度学习从单个图像中回归SMPL的参数[37, 59,62]。然而，要估计带有手和脸的3D人体，目前没有合适的训练数据集。为了解决这个问题，我们采用了SMPLify的方法。首先，我们使用OpenPose[15, 70,77]从底部“自下而上”估计2D图像特征，OpenPose可以检测到身体、手、脚和面部特征的关节。然后，我们使用我们的方法SMPLify-X将SMPL-X模型拟合到这些2D特征的“自上而下”，我们在SMPLify的基础上进行了几个重要的改进。具体来说，我们使用变分自动编码器从大规模的动作捕捉数据集[50,51]中学习了一个新的、性能更好的姿势先验。这个先验是关键的，因为从2D特征到3D姿势的映射是有歧义的。我们还定义了一个新的（自我）穿透惩罚项，它比SMPLify中的近似方法更准确和高效；它仍然是可微分的。我们训练了一个性别检测器，并使用它自动确定使用哪个身体模型，男性、女性或性别中性。最后，训练直接回归方法来估计SMPL参数的一个动机是SMPLify很慢。为了解决这个问题，我们使用PyTorch实现的速度至少比相应的Chumpy实现快8倍，利用了现代GPU的计算能力。图2展示了这种SMPLify-X方法的示例。109770为了评估准确性，我们需要具有全身RGB图像和相应的3D真实身体的新数据。为此，我们策划了一个新的评估数据集，其中包含一个主体进行各种姿势、手势和表情的图像。我们使用扫描系统捕捉3D身体形状，并将SMPL-X模型拟合到这些扫描中。这种伪真实的形式足够准确，可以对身体、手和面部模型进行定量评估。我们发现，我们的模型和方法比相关且功能较弱的模型表现更好，产生了自然和富有表现力的结果。我们相信，这项工作是从单个RGB图像中同时捕捉身体、手和面部的表达的重要一步。我们在https://smpl-x.is.tue.mpg.de上提供了SMPL-X模型、SMPLify-X代码、训练网络、模型拟合和评估数据集，供研究目的使用。02. 相关工作02.1. 建模身体0身体、面部和手部。以前，建模三维身体的问题是通过将身体分解为部分并分别对这些部分进行建模来解决的。我们专注于从三维扫描中学习统计形状模型的方法。Blanz和Vetter[9]通过他们的三维可塑面部模型开创了这个方向。此后，许多方法从扫描数据中学习了三维面部形状和表情；参见[13,81]进行最新评论。这种模型的一个关键特点是它们可以表示不同的面部形状和广泛的表情，通常使用受FACS启发的混合形状来实现[21]。大多数方法只关注面部区域，而不是整个头部。相比之下，FLAME[43]模型整个头部，捕捉三维头部旋转，并模型化颈部区域；我们发现这对于连接头部和身体至关重要。这些方法都没有对面部形状和身体形状之间的相关性进行建模。三维身体扫描仪的出现使得可以从扫描中学习身体形状。特别是CAESAR数据集[67]开启了形状学习的大门[2]。大多数早期的工作都集中在使用大致相同姿势的人的身体形状进行研究。Anguelov等人[6]将形状与一个人在多个姿势下的扫描相结合，基于三角形变形学习了身体形状和姿势的分解模型。许多模型都遵循这个方法，使用三角形变形[16, 23, 26, 29,64]或基于顶点的位移[3, 27,48]，但它们都只关注建模身体形状和姿势，而不包括手部或面部。这些方法假设手部处于握拳或张开的姿势，面部处于中性表情。同样，手部建模方法通常忽略身体。此外，三维手部模型通常不是通过学习获得的，而是由艺术家设计的[71]，基于形状进行建模0基于三维重建的基本形状[53, 58,69]，使用多视角立体匹配并具有固定形状[8,75]，使用非学习的部分缩放参数[19]，或使用简单的形状空间[74]。最近的研究中才出现了一些学习的手部模型[39,68]。Khamis等人[39]收集了50个人的部分深度图像来学习形状变化模型，但他们没有捕捉到姿势空间。另一方面，Romero等人[68]使用31个主体在多达51个姿势下的三维扫描学习了一个参数化手部模型（MANO），遵循SMPL[48]的公式。统一模型。与我们的模型最相似的模型是Frank [36]和SMPL+H[68]。Frank将三个不同的模型拼接在一起：SMPL（没有姿势混合形状）用于身体，艺术家创建的骨骼用于手部，FaceWarehouse模型[14]用于面部。得到的模型不是完全逼真的。SMPL+H将SMPL身体与从三维扫描中学习的三维手部模型相结合。手的形状变化来自全身扫描，而姿势相关的变形则来自手部扫描数据集。SMPL+H不包含可变形的面部。我们从公开可用的SMPL+H[52]开始，并将公开可用的FLAME头部模型[22]添加到其中。然而，与Frank不同的是，我们不仅仅将其植入到身体上。相反，我们将完整的模型拟合到5586个三维扫描中，并学习形状和姿势相关的混合形状。这样可以得到一个自然的模型，具有一致的参数化。基于SMPL，它是可微分的，并且可以轻松替换已经使用SMPL的应用程序。02.2. 推断身体0有许多方法可以从图像或RGB-D估计三维面部，以及从这些数据估计手部的方法[80]。虽然有许多方法可以从单个图像估计3D关节的位置，但我们这里关注的是从图像中提取完整的3D身体网格的方法。几种方法可以从单个图像估计SMPL模型[37, 41, 59,62]。由于缺乏带有配对的3D模型参数的训练图像，这并不容易。为了解决这个问题，SMPLify[10]在优化框架中“自下而上”地检测2D图像特征，然后“自上而下”地将SMPL模型拟合到这些特征上。在[41]中，这些SMPLify拟合被用于迭代地筛选配对数据集，以训练直接回归方法。HMR[37]通过使用2D关键点和了解3D身体的对手来训练一个没有配对数据的模型。与SMPLify类似，NBF[59]使用中间的2D表示（身体部分分割）并从这个中间表示推断3D姿势。MonoPerfCap[78]在推断3D姿势的同时，还对表面几何进行了改进以捕捉服装。这些方法只估计身体的3D姿势，而不包括手部或面部。还有许多多摄像机设置用于捕捉3D姿势、3D网格（性能捕捉）或参数化的1097803D 模型[7, 20, 24, 30, 35, 46, 54, 66, 72]。最相关的是 Panopticstudio[35]，它与我们的目标相同，捕捉丰富、富有表现力的人类互动。在[36]中，Frank 模型参数是通过将模型拟合到 3D 关键点和 3D点云的多相机数据中估计得出的。捕捉环境非常复杂，使用了 140个 VGA 摄像头用于身体，480 个 VGA 摄像头用于脚部，以及 31个高清摄像头用于面部和手部关键点。我们的目标是从单个 RGB图像中获得类似的表现细节。03. 技术方法0接下来我们将介绍 SMPL-X（第 3.1节）以及我们的方法（第 3.2 节）用于将 SMPL-X拟合到单个 RGB 图像中。与 SMPLify [10]相比，SMPLify-X 使用更好的姿势先验（第 3.3节），更详细的碰撞惩罚（第 3.4 节），性别检测（第 3.5节）以及更快的 PyTorch 实现（第 3.6 节）。03.1. 统一模型：SMPL-X0我们创建了一个统一的模型，称为 SMPL-X，用于 SMPLeXpressive，其形状参数同时训练了面部、手部和身体。SMPL-X使用基于顶点的线性混合蒙皮和学习的修正混合形状，具有N = 10,475 个顶点和 K = 54个关节，其中包括颈部、下巴、眼球和手指的关节。SMPL-X 由一个函数 M(θ, β, ψ): R | θ |×| β |×| ψ | → R3N定义，参数化为姿势 θ ∈ R3(K+1)，其中 K是除全局旋转关节外的身体关节数量。我们将姿势参数 θ分解为：下巴关节的 θf，手指关节的θh，以及其余身体关节的θb。关节的身体、面部和手部形状参数用 β ∈ R | β |表示，面部表情参数用 ψ ∈ R | ψ | 表示。更正式地说：0M(β, θ, ψ) = W(Tp(β, θ, ψ), J(β), θ, W) (1)0TP(β, θ, ψ) = ¯T + BS(β; S) + BE(ψ; E) + BP(θ; P) (2)0其中 BS(β; S) = Σ|β|n=1 βnSn 是形状混合形状函数，β 是线性形状系数，|β|是它们的数量，Sn ∈ R3N是捕捉由于不同人物身份引起的形状变化的正交主成分的顶点位移，S = [S1, ..., S|β|] ∈R3N ×|β| 是所有这些位移的矩阵。BP(θ; P): R | θ | → R3N0是姿势混合形状函数，将修正的顶点位移添加到模板网格 ¯T中，如 SMPL [47] 所示0BP(θ; P) =0n=1 (Rn(θ) - Rn(θ�))Pn, (3)0其中 R: R | θ | → R9K 是一个将姿势向量 θ映射到拼接的部分相对旋转矩阵向量的函数，使用Rodrigues 公式 [12, 55, 65] 计算得出0其中 Rn(θ) 是 R(θ) 的第 n 个元素，θ�是静止姿势的姿势向量，Pn ∈ R3N是顶点位移的正交主成分，P = [P1, ..., P9K] ∈ R3N × 9K是所有姿势混合形状的矩阵。BE(ψ; E) = Σ|ψ|n=1 ψnE是表情混合形状函数，其中 E是捕捉由于面部表情引起的变化的主成分，ψ 是 PCA系数。由于不同形状的身体的 3D 关节位置 J会有所不同，它们是从网格顶点回归 3D关节位置的稀疏线性回归器 J(β) = J ¯T + BS(β; S)，其中 J是一个稀疏线性回归器，从网格顶点回归 3D关节位置。标准的线性混合蒙皮函数 W(.) [42] 将 Tp(.)中的顶点围绕估计的关节 J(β) 进行旋转，通过混合权重 W∈ R N × K 进行平滑。我们从一个由艺术家设计的 3D模板开始，其面部和手部与 FLAME [43] 和 MANO [68]的模板相匹配。我们将模板拟合到四个 3D人体扫描数据集，以获得用于 SMPL-X 的训练数据的 3D对齐。形状空间参数 {S} 在 A 姿势的 3800个对齐中进行训练，捕捉了身份之间的变化[67]。身体姿势空间参数 {W, P, J} 在多样姿势的 1786个对齐中进行训练。由于全身扫描对于手部和面部的分辨率有限，我们利用了 MANO [68] 和 FLAME [43]的参数，它们分别来自于 1500 个手部和 3800个头部高分辨率扫描。具体来说，我们使用 MANO的姿势空间和姿势修正混合形状用于手部，以及 FLAME的表情空间 E。手指有 30 个关节，对应于 90个姿势参数（每个关节的 3个自由度作为轴角旋转）。SMPL-X对于手部使用了一个较低维度的 PCA 姿势空间，使得 θh =Σ|m h |n=1 m h n M，其中 M是捕捉手指姿势变化的主成分，m h 是相应的 PCA系数。如上所述，我们使用了 MANO 的 PCA姿势空间，该空间是在一个大型的 3D关节人手数据集上进行训练的。SMPL-X 的模型参数总数为119：全局身体旋转和 {身体、眼睛、下巴} 关节的 75个参数，低维手部姿势 PCA 空间的 24 个参数，主体形状的10 个参数和面部表情的 10个参数。此外，还有单独的男性和女性模型，当性别已知时使用，以及一个由两性构成的形状空间，用于性别未知时。SMPL-X是逼真、富有表现力、可微分且易于拟合到数据中的模型。03.2. SMPLify-X：从单个图像中获取SMPL-X0要将SMPL-X拟合到单个RGB图像（SMPLify-X），我们遵循SMPLify[10]，但改进了每个方面。我们将将SMPL-X拟合到图像的问题形式化为一个优化问题，我们寻求最小化目标函数0E(β,θ,ψ) = EJ + λθbEθb + λθfEθf + λmhEmh +0λαEα + λβEβ + λEEE + λCEC(4)LKL = KL(q(Z|R)||N(0, I))(7)Lrec = ||R − ˆR||22(8)Lorth = || ˆR ˆR′ − I||22(9)Ldet1 = |det( ˆR) − 1|(10)Lreg = ||φ||22,(11)109790其中θb，θf和mh分别是身体、脸部和两只手的姿势向量，θ是可优化的完整姿势参数集。身体姿势参数是一个关于θb(Z)的函数，其中Z∈R32是在第3.3节中描述的低维姿势空间。EJ(β,θ,K,Jest)是下面描述的数据项，而Emh(mh)、Eθf(θf)、Eβ(β)和EE(ψ)是手部姿势、面部姿势、身体形状和面部表情的简单L2先验，惩罚与中性状态的偏差。由于SMPL-X的形状空间经过单位方差缩放，类似于[68]，Eβ(β)=∥β∥2描述了正在优化的形状参数与SMPL-X训练数据集中形状分布之间的马氏距离。Eα(θb)=�0i∈(elbows,knees)exp(θi)遵循[10]，是一个简单的先验，仅对肘部和膝盖进行极端弯曲的惩罚。我们进一步使用了基于VAE的身体姿势先验Eθb(θb)（第3.3节），而EC(θb,h,f,β)是一个相互穿透惩罚（第3.4节）。最后，λ表示在方程4中每个项的影响权重。我们经验性地发现，λ的一个退火方案有助于优化（第3.6节）。对于数据项，我们使用重新投影损失来最小化估计的2D关节Jest和SMPL-X对应的姿势3D关节Rθ(J(β))i的加权鲁棒距离。其中Rθ(∙)是一个函数，根据姿势θ沿着运动学树变换关节。按照[10]的符号表示，数据项为EJ(β,θ,K,Jest) = �0关节i γi ωi ρ (ΠK (Rθ (J(β))i) − Jest,i) (5)0其中ΠK表示具有内在相机参数K的3D到2D投影。对于2D检测，我们依赖于OpenPose库[15, 70,77]，该库为图像中的每个人提供身体、手部、面部和脚部关键点。为了考虑检测中的噪声，数据项中每个关节的贡献都由检测置信度分数ωi加权，而γi是针对退火优化的每个关节的权重，如第3.6节所述。最后，ρ表示Geman-McClure鲁棒误差函数[25]，用于减小噪声检测的权重。03.3. 变分人体姿势先验0我们寻求一个关于身体姿势的先验，惩罚不可能的姿势，同时允许可能的姿势。SMPLify使用了一个在MoCap数据上训练的高斯混合模型的负对数的近似。虽然有效，但我们发现SMPLify的先验不够强。因此，我们使用变分自动编码器[40]训练了我们的身体姿势先验VPoser，它学习了人体姿势的潜在表示，并规范了潜在代码的分布为正态分布。我们在[50, 51]发布的数据上训练我们的先验，即姿势参数0通过在三个公开可用的人体动作捕捉数据集上应用MoSh[47]获得：CMU[17]、Human3.6M的训练集[32]和PosePrior数据集[1]。我们的训练和测试数据分别由大约1百万个和65千个姿势组成，以旋转矩阵表示。有关数据准备过程的详细信息请参见补充材料。VAE的训练损失定义如下：0Ltotal = c1LKL + c2Lrec + c3Lorth + c4Ldet1 +c5Lreg(6)0其中 Z ∈ R 32 是自动编码器的潜在空间，R ∈ SO (3)是每个关节的 3 × 3 旋转矩阵作为网络输入，ˆ R是一个形状相似的矩阵，表示输出。Eq.(7)中的Kullback-Leibler项和Eq.(8)中的重构项遵循[40]中的VAE公式，它们的作用是鼓励潜在空间上的正态分布，并以高保真度重构输入。Eq.(9)和(10)鼓励潜在空间编码有效的旋转矩阵。最后，Eq.(11)通过鼓励较小的网络权重φ来防止过拟合。有关实现细节，请参阅补充材料。为了在优化中使用VPoser，而不是直接在Eq. 4中优化θ b，我们优化32维潜在空间的参数，对Z施加二次惩罚，并将其转换回关节角度θ b，以轴角表示。这类似于处理手部姿势，只是手部姿势θ h被投影到线性PCA空间，并对线性系数施加惩罚。03.4. 碰撞惩罚项0在将模型拟合到观测数据时，通常会出现自身碰撞和多个身体部位的穿透，这在物理上是不可能的。我们的方法受到SMPLify的启发，它使用基于形状基元的碰撞模型对穿透进行惩罚，即一组胶囊。尽管这个模型在计算上是高效的，但它只是人体的一个粗略近似。对于像SMPL-X这样还模拟手指和面部细节的模型，需要一个更准确的碰撞模型。为此，我们使用来自[8,75]的网格详细碰撞模型。我们首先通过使用边界体积层次结构（BVH）[73]检测一组碰撞的三角形C，并计算由三角形C及其法线n定义的局部锥形3D距离场Ψ。然后通过穿透的深度进行惩罚，通过以下方式高效计算EC(θ) =�(fs(θ),ft(θ))∈C� �vs∈fs∥ − Ψft(vs)ns∥2+�vt∈ft∥ − Ψfs(vt)nt∥2�.(12)109800距离场中的位置。对于两个碰撞的三角形f s和ft，入侵是双向的；f t的顶点v t是接收三角形f s的距离场Ψ fs中的入侵者，并受到Ψ f s ( v t)的惩罚，反之亦然。因此，目标函数（Eq. 4）中的碰撞项E C 定义为0有关Ψ的技术细节以及处理具有永久或频繁自接触部分的碰撞的详细信息，请参阅[8,75]和补充材料。为了提高计算效率，我们使用了高度并行化的BVH实现，该实现遵循[38]，并在自定义的CUDA核函数中封装了自定义的PyTorch运算符。03.5. 深度性别分类器0男性和女性具有不同的比例和形状。因此，使用适当的身体模型来拟合2D数据意味着我们应该应用适当的形状空间。我们不知道以前有哪种方法可以自动考虑拟合3D人体姿势时的性别。在这项工作中，我们训练了一个性别分类器，该分类器以包含全身和OpenPose关节的图像作为输入，并为检测到的人物分配性别标签。为此，我们首先通过AmazonMechanical Turk对来自LSP [33]、LSP-extended[34]、MPII [5]、MS-COCO [45]和LIP datset[44]的图像进行大规模数据集的注释，同时遵循它们的官方训练和测试集划分。最终的数据集包括50216个训练样本和16170个测试样本（详见补充材料）。我们使用这个数据集对预训练的ResNet18[28]进行微调，用于二元性别分类。此外，我们使用一个类别均衡的验证集来阈值化计算的类别概率，以获得丢弃、正确和错误预测之间的良好平衡。我们选择了0.9的阈值来接受预测的类别，这样可以得到62.38%的正确预测和7.54%的错误预测。在测试时，我们运行检测器并拟合适当的性别模型。当检测到的类别概率低于阈值时，我们拟合性别中性的身体模型。03.6. 优化0SMPLify使用Chumpy和OpenDR[49]使优化变慢。为了使Eq.4的优化可行，我们使用PyTorch和有强Wolfe线搜索的有限内存BFGS优化器（L-BFGS）[56]。实现细节可以在补充材料中找到。我们使用类似于[10]的多阶段方法优化Eq.4。我们假设我们知道相机的焦距的精确或近似值。然后我们首先0估计未知的相机平移和全局身体方向（参见[10]）。然后固定相机参数并优化身体形状β和姿势θ。经验上，我们发现在数据项EJ（Eq.5）中使用权重γ的退火方案有助于优化目标（Eq.4）处理模糊和局部最优解。这主要是因为像手和脸这样的小身体部位相对于其大小具有许多关键点，并且可以在Eq.4中占主导地位，当初始估计值远离解决方案时，会导致优化陷入局部最优解。在接下来的步骤中，我们用高正则化开始，主要是为了改进全局身体姿势，并逐渐增加手关键点的影响力，以改进手臂的姿势。在收敛到更好的姿势估计后，我们增加了手和面部关键点的影响力，以捕捉表情。在上述步骤中，Eq.4中的权重λα，λβ，λE始终以高正则化开始，逐渐降低以实现更好的拟合，唯一的例外是λC，它在EJ中手的影响力增强和预期发生更多碰撞时逐渐增加。04. 实验04.1. 评估数据集0尽管最近对更具表现力的模型[36，68]的兴趣增加，但目前还没有包含身体、手和面部的形状的图像的数据集。因此，我们通过拟合和精心筛选当前可用数据来创建一个用于评估的数据集。表情手和面部数据集（EHF）。我们从SMPL+H数据集[52]开始，每帧获取一个完整的身体RGB图像。然后我们按照[68]的方法将SMPL-X与4D扫描对齐。一个专家标注员手动筛选了数据集，根据对齐质量和有趣的手势和面部表情选择了100帧，可以自信地认为是伪地面真实，伪地面真实网格允许使用更严格的顶点到顶点（v2v）误差度量[48，62]，与不捕捉表面误差和沿骨骼旋转的3D关节误差的常见范例相反。04.2. 定性和定量评估0为了测试SMPL-X和SMPLify-X的有效性，我们与最相关的模型进行比较，即SMPL [48]，SMPL+H [68]和Frank[36]。在这个方向上，我们将SMPL-X拟合到EHF图像上进行定性和定量评估。请注意，我们仅使用1个图像和2D关节作为输入，而以前的方法使用更多的信息；即3D点云[36，68]和关节[36]。具体来说，[48，68]使用66个相机和34个109810模型关键点v2v误差关节误差0“SMPL”身体57.6 63.5“SMPL”身体+手+脸64.5 71.7“SMPL+H”身体+手54.2 63.9SMPL-X身体+手+脸52.9 62.60表1：在EHF数据集上使用SMPLify-X拟合的“SMPL”、“SMPL+H”和SMPL-X的定量比较，如4.2节所述。我们报告了顶点到顶点（v2v）的平均误差和标准平均3D身体（仅）关节误差（以毫米为单位）。表格显示，更丰富的建模能力导致更低的误差。0版本v2v误差0SMPLify-X 52.9性别中性模型58.0用GMM替换Vposer 56.4无碰撞项53.50表2：对EHF数据集上的SMPLify-X进行削减研究。数字反映了每个组件对整体准确性的贡献。0[36]使用超过500个相机，而我们使用的是投影仪。我们首先在EHF数据集上将SMPL、SMPL+H和SMPL-X进行比较，并在表1中报告结果。该表格报告了经过Procrustes对齐后的平均顶点对顶点（v2v）误差和平均3D身体关节误差，分别使用地面真实3D网格和身体（仅）关节。为了便于数值评估，仅在这个表格中，我们使用锁定自由度的SMPL-X变体“SMPL”和“SMPL+H”来“模拟”SMPL和SMPL+H。如预期的那样，误差表明标准的平均3D关节误差无法准确捕捉到模型表达能力的差异。另一方面，更严格的v2v指标显示，丰富身体的手指和面部建模可以降低误差。我们还为未正确建模的部位（例如手指特征）配备了额外的SMPL特征。额外的特征导致误差增加，这表明更丰富和表达丰富的模型的重要性。我们在补充材料中报告了类似的定性比较。然后我们进行了一个削减研究，总结如表2所示，其中报告了平均顶点对顶点（v2v）误差。具有性别特定模型的SMPLify-X实现了52.9毫米的误差。性别中性模型更容易使用，因为它不需要性别检测，但在准确性方面有一些妥协。用SMPLify[10]的GMM替换VPoser将误差增加到56.4毫米，显示了VPoser的有效性。最后，去除碰撞项也会增加误差，达到53.5毫米，同时还允许非物理合理的姿势估计。0参考文献[36]：>500 我们的：>500我们的：1个RGB相机相机相机0图3：我们的性别中性模型（上、下行）或性别特定模型（中间）与Frank[36]在一些数据上的定性比较。为了适应Frank[36]，使用了超过500个相机的3D关节和点云。相比之下，我们的方法仅使用2D关节就能产生逼真而表达丰富的重建结果。我们展示了使用[36]的3D关节在一个相机视图中投影的结果（第三列），以及仅使用一个图像估计的关节的结果（最后一列），以展示2D关节检测中噪声的影响。与Frank相比，我们的SMPL-X在关节周围没有蒙皮伪影，例如肘部。0与SMPL-X最接近的可比模型是Frank[36]。由于Frank到目前为止还没有可用，也没有适应[18]的结果，我们展示了在网上找到的结果图像。图3展示了Frank对3D关节和点云的适应，即使用超过500个相机。将此与SMPL-X的适应进行比较，SMPL-X仅使用1个RGB图像和2D关节进行适应。为了更直接地进行比较，我们将SMPL-X适应到[36]用于Frank的3D关节的2D投影上。尽管我们使用的数据要少得多，但SMPL-X在面部和手部的表达能力至少与Frank相似。由于Frank不使用姿势混合形状，它在关节周围存在蒙皮伪影，例如肘部，如图3所示。相比之下，SMPL-X经过训练包括姿势混合形状，不会出现这种问题。因此，它看起来更自然和逼真。109820图4：SMPL-X在LSP数据集[33]的野外图像上的定性结果。像SMPL-X这样的强大整体模型可以自然而表达地重建身体、手和脸部。灰色表示用于自信性别检测的性别特定模型。蓝色是当性别分类器不确定时使用的性别中性模型。0图5：[61]的仅手部方法（中）与我们的男性模型方法（右）的比较。这两种方法都依赖于OpenPose。在检测良好的情况下，两者都表现良好（顶部）。在2D检测嘈杂的情况下，我们的整体模型表现出更高的鲁棒性（底部）。（为了节省空间，图像在底部被裁剪）0为了进一步展示整体模型对身体、面部和手部的价值，在图5中，我们将SMPL-X和SMPLify-X与[61]的仅手部方法进行了比较。这两种方法都使用OpenPose进行2D关节检测，而[61]还依赖于手部检测器。如图5所示，在检测良好的情况下，这两种方法都表现出色，但在检测嘈杂的情况下，由于身体的上下文，SMPL-X表现出更高的鲁棒性。我们在将拟合结果与EHF对齐后进行定量比较。由于不同的网格拓扑结构，为了简单起见，我们使用手关节作为伪基准，并独立地对每只手进行Procrustes分析，忽略身体部分。Panteleris等人[61]的平均3D关节误差为26.5毫米，而SMPL-X为19.8毫米。0最后，我们将SMPL-X与SMPLify-X拟合到一些野外数据集，即LSP [33]，LSP-extended[34]和MPII数据集[5]。图4显示了一些定性结果。0对于LSP数据集[33]，请参阅Sup.Mat.以获取更多示例和失败案例。这些图像表明，像SMPL-X这样的强大整体模型可以有效地从日常图像中进行自然和富有表现力的重建。05. 结论0在这项工作中，我们提出了SMPL-X，这是一个新的模型，它同时捕捉了身体、面部和手部。我们还提出了SMPLify-X，一种将SMPL-X拟合到单个RGB图像和2DOpenPose关节检测的方法。我们使用新的强大的身体姿势先验和一种快速准确的方法来检测和惩罚穿透来规范拟合。我们使用野外图像展示了广泛的定性结果，展示了SMPL-X的表现力和SMPLify-X的有效性。我们引入了一个带有伪基准的策划数据集来进行定量评估，这显示了更具表现力的模型的重要性。在未来的工作中，我们将策划一个野外SMPL-X拟合的数据集，并学习一个回归器，直接从RGB图像中回归SMPL-X参数。我们相信，这项工作是从RGB图像中同时捕捉身体、手部和面部的表现力捕捉的重要一步。0致谢：我们感谢Joachim Tesch在Blender渲染方面的帮助，以及PavelKarasik在Amazon Mechanical Turk方面的帮助。我们感谢SoubhikSanyal提供面部基准线，感谢FORTH的Panteleris等人在EHF数据集上运行他们的仅手部方法[61]，以及CMU的Joo等人提供早期访问他们的数据[36]。0披露：MJB收到了Intel、Nvidia、Adobe、Facebook和Amazon的研究礼金。虽然MJB是Amazon的兼职员工，但他的研究完全是在MPI进行的，并且由MPI全额资助。MJB在Amazon和Meshcapade GmbH有财务利益。[1] Ijaz Akhter and Michael J. Black.Pose-conditioned jointangle limits for 3D human pose reconstruction. In CVPR,2015. 5[2] Brett Allen, Brian Curless, and Zoran Popovi´c. The spaceof human body shapes: Reconstruction and parameterizationfrom range scans. ACM Transactions on Graphics, (Proc.SIGGRAPH), 22(3):587–594, 2003. 2, 3[3] Brett Allen, Brian Curless, Zoran Popovi´c, and Aaron Hertz-mann.Learning a correlated model of identity and pose-dependent body shape variation for real-time synthesis. InACM SIGGRAPH/Eurographics Symposium on ComputerAnimation, SCA ’06, pages 147–156. Eurographics Associ-ation, 2006. 2, 3109830参考文献0[4] Brian Amberg，Reinhard Knothe和Thomas Vetter.具有可变模型的表情不变3D人脸识别。在国际自动面部手势识别会议上，2008年。20[5] Mykhaylo Andriluka，Leonid Pishchulin，Peter Gehler和BerntSchiele.2D人体姿势估计：新的基准和最新技术分析。在CVPR，2014年。6，80[6] Dragomir Anguelov，Praveen Srinivasan，DaphneKoller，Sebastian Thrun，Jim Rodgers和James Davis.SCAPE：人形的形状补全和动画。ACM Transactions onGraphics，（Proc.SIGGRAPH），24（3）：408-416，2005年。2，30[7] Luca Ballan和Guido Maria Cortelazzo.无标记的四相机设置中皮肤模型的动

下载后可阅读完整内容，剩余1页未读，立即下载