生成3D人体形状和关节姿势模型

128 浏览量更新于2023-10-25 收藏 1.32MB PDF 举报

深度学习框架

人体模型

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1GHUM GHUML：生成3D人体形状和关节姿势模型徐弘毅Eduard Gabriel Bazavan Andrei Zanfir William T.弗里曼·拉胡尔·苏克坦卡尔·克里斯蒂安·斯明基塞斯库Google Research{hongyixu，egbazavan，andreiz，wfreeman，sukthankar，sminchisescu}@ google.com摘要我们在一个完全可训练的、模块化的深度学习框架内提出了一个统计的、清晰的3D人体形状建模管道。给定以各种姿势捕获的人类的高分辨率完整3D身体扫描，以及他们的头部和面部表情以及手部关节的额外特写，并且给定初始的、艺术家设计的、性别中立的操纵四网格，我们训练所有模型参数，包括基于变分自动编码器的非线性形状空间、姿势空间变形校正、骨骼关节中心预测器，和混合皮肤-宁功能，在一个单一的一致的学习循环。这些模型同时使用所有3D动态扫描数据（在我们的新数据集中有超过60，000种模型支持面部表情分析，以及身体（详细的手）形状和姿势估计。我们提供了不同分辨率的完全可训练的通用人体模型-由10，168个顶点组成的中等分辨率GHUM和3，194个顶点的低分辨率GHUML（ite）-，在这些模型将用于研究。1. 介绍人类的运动，动作和表达具有重要的实际意义，并且受到持续关注，以及图像和视频中的创造性捕捉。沉浸式摄影，增强和虚拟现实以及物理3D空间推理将是下一个。因此，为了捕捉和深入分析那些只有在3D中才能完全理解的微妙交互，能够在姿势、形状和面部表情以及手部操作水平上准确表示全身细节的模型是必不可少的。虽然在图像和视频中定位人类简笔画方面取得了相当大的进展，图1. GHUM和GHUML在GHS3D数据上的准确性说明，左侧是两个模型的热图。渲染显示了主体的不同身体姿势的配准（灰色，第一行），以及分别在第二行和第三行中的GHUM和GHUML重建。请注意，两个模型都具有良好的细节捕捉水平，GHUM具有更高的精度。-至少在中期内，模型构建进步的潜力似乎介于直观的物理和语义人类建模与大规模数据集之间。虽然随着时间的推移，许多面部、手部和身体的表达模型已经建立起来，但大多数因此，他们不可避免地没有利用最近在深度学习背景下出现的大规模数据分析和模型许多最近的全身模型，如Adam，Frank或SMPL-X[14，31]，结合了面部，身体和手部的传统组件，但通常专注于构建一个一致的关节参数化，在已经学习的组件之上进行适当的缩放，而不是训练一个完整的61846185图2.概述我们的端到端统计3D铰接人体形状模型构建。我们给出了一组高分辨率3D身体扫描，包括此外，我们还收集详细面部表情的头部特写扫描和手部特写扫描，以捕捉不同的手势和物体抓取。通过在多个虚拟视点中渲染逼真的3D重建，在生成的图像中检测它们并进行三角测量来自动识别身体标志。在尽可能保形的表面先验下，使用结合稀疏地标对应和密集迭代最近点（ICP）残差（实施为点扫描到网格面距离）的该模型具有非线性形状空间，实现为深度变分用于身体φb的自动编码器（VAE）和用于面部表情φf的偏移VAE，并且包括可训练的姿态空间变形由具有J个关节的骨架K调制的函数D、中心预测器C和混合蒙皮函数M。在训练过程中，使用相同受试者的所有高分辨率扫描（包括全身以及面部和手部的特写）（见图1）。3），残差由滤波器F适当地掩蔽。对于模型构建，我们使用N个捕获的主体，B全身扫描，F特写手部扫描和H特写头部扫描在学习过程中，我们在最小化损失函数w.r.t.每次扫描θ中的姿态估计，并对其进行优化相对于其他模型参数（φ，γ，ω，ω）。在操作中，例如，对于姿态和形状估计，模型由参数α=（θ，β）控制，包括运动姿态θ和用于身体形状和面部表情的VAE潜在空间β=（βf，βb），编码器-解码器由φ=（φf，φb）给出。基于大型数据存储库的端到端人体模型。这使得很难同时充分利用所有数据中的结构，试验组件或不同损失的替代表示，评估最终影响并进行创新。在本文中，我们提出了一个端到端的学习管道来构建完整的身体，统计人类形状和姿势模型，能够驱动面部表情，以及身体和手部运动。我们设计了基于深度学习的端到端管道和统一损失函数，允许同时训练所有模型组件，包括非线性形状空间、姿态空间变形校正、骨骼关节中心估计器以及在具有解剖关节角度约束的最小人体骨骼参数化这些模型是用高分辨率的全身体扫描，以及面部和手部运动的特写，以捕捉最大细节并确保身体部件之间的设计一致性。我们新收集的通用人体形状的3D数据集GHS 3D由超过60，000个照片级逼真的动态人体扫描组成，我们还使用了凯撒的4，000多个全身扫描。我们介绍了一个中等分辨率的模型，GHUM，和一个专门设计的（非下采样）低分辨率模型GHUML，评估他们的相对性能的配准和约束3D表面拟合，在不同的线性和非线性模型（如。PCA或用于身体形状和面部表情的变分自动编码器），并且示出了从图像中恢复形状和姿态。相关的工作。有一个显着的工作量都投建三维关节表面模型的身体部位，即。脸，手和全身[2，4，10，24，37，618630，11，29，16，38，3，32，7，8，21，39]，以及，更多的重新-最后，将它们整合成完整的、更有表现力的表达，例如，在Adam、Frank或SMPL-X中[14，31]。还提出了许多基于图像和视频的姿态和形状估计方法[33，27，25，40，22，1，12，26、34、23]。Frank模型[15]基于SMPL主体[24]的简化版本，它连接了艺术家设计的手动钻机和公共FaceWarehouse头部[8]。组合资产可能具有嫁接在一起的不一致组件，导致模型可能缺乏真实性。反过来， SMPL-X 将FLAME[21]头部连接到SMPL-H（身体和手）模型[35]，并将其改装为额外的5，586次扫描。然而，由于这些全身扫描对于手部和面部的分辨率有限，因此作者使用MANO和FLAME的原始预训练参数（分别用于手部的MANO[35]的姿势空间和姿势校正混合形状，以及FLAME[21]的表情空间），从而限制了同时用于学习完整模型的数据量，以及通过共同改进所有参数可获得的潜在现实性。与组合传统组件相反，我们专注于同时使用所有高分辨率数据-这使我们能够对不同的分辨率、线性和非线性形状空间、损失函数进行实验，并无缝评估它们对不同任务的影响。最近的工作重点是构建深度学习管道，以从点云预测铰接网格[19，13]。这些配准替代方案将直接适用于我们的框架，尽管在这里，我们依赖于配准的直接优化与自动地标检测，以获得准确性、鲁棒性和通用性，以几乎任何姿势和人类数据点扫描。大量的工作已经致力于从一个或多个摄像机获取的图像或从视频中估计3D姿态和形状[33，27，25，40，22，1，12，26，9]。几种模型依赖于基于不同学习架构的前馈姿势和形状预测，依赖于姿势预测，然后对语义身体部位分割的身体关节进行姿势和形状细化，或者依赖于多相机融合[28，43，44，20，36，5，18] 。大多数形状先验以 PCA 的形式出现，如SMPL[24]，Frank[15]或SMPL-X[31]中所提供的，姿势先验通常是高斯混合模型[6]，最近是VAE [31]。相反，我们的GHUM和GHUML依赖于从深度变分自编码器构建的非线性形状空间用于身体和面部变形，并依赖于骨架（身体和手）运动学的归一化流表示[42]。此外，我们的最小骨架参数化支持在配准、学习和姿势优化期间无缝集成解剖关节角度限制约束。这减少了搜索空间，并使估计在解剖学上一致且更鲁棒。虽然我们在本文中的主要目标是引入新的端到端可学习的3D统计铰接人体形状方法，但我们提出的模型在大多数旨在从图像中恢复姿势和形状的工作中是有用的。此外，通过创建中分辨率和低分辨率模型，我们可以实现3D人体感知的轻量级移动应用程序，或者不同级别的细节和运行时约束可以使其足以在不同复杂度的模型之间动态切换的方法。2. 概述给定一个人体扫描的训练集，表示为非结构化点云{Y∈R3P}，其中点P的数量变化，我们学习一个统计人体模型X（α）∈R3V，表示由于关节运动引起的身体形状和自然变形的可变性。身体模型X具有与V顶点一致的拓扑，如艺术家提供的（操纵的）模板网格所指定的，并且α是控制身体变形的变量，作为形状和关节的结果。如示于图2、要从3D扫描Y中学习数据驱动的人体模型，我们首先将身体模板配准到点云，以获得相同拓扑的新网格，标记为{X∈R3V}（参见附录Mat. 有关我们的注册方法的详情然后，我们将配准的网格X**送入端到端的图3.我们通过融合身体扫描和特写手和头部扫描来估计中性A姿势下的完整身体形状。与来自单个身体扫描的身体形状估计相一致，我们因此可以利用额外的头部和手部形状细节。训练网络，其中调整模型参数α以产生与输入紧密匹配的输出，作为接合和形状调整的结果在实践中，我们通过迭代最近点（ICP）损失（与用于配准的损失相同）对点云进行直接模型参数调整或与代理网格X对齐进行实验。由于我们的注册过程是非常准确的，我们没有注意到任何重大差异-6187我我我我两者之间的差距相比之下，使用具有相同模型拓扑的目标输入网格X，使得该过程考虑得更快，并且训练损失表现得更好。2.1. 人体模型表示我们将人体模型表示为铰接网格，由具有J个关节的骨架K和基于线性混合蒙皮（LBS）变形的皮肤指定，以显式地编码关节的运动。除了骨骼关节运动，我们使用非线性模型来驱动面部表情。具有J接头的模型X可以用公式表示为M（α=（θ，β），φ，γ，ω，ω），或详细地表示为X（α）=M（θ，X<$（βb），<$X<$（θ），<$X<$f（βf），C（X<$），ω）（一）其中X（βb）∈R3V是A姿态中基于身份的静止形状（图2），βb是低维嵌入向量编码体型可变性（将使用包括PCA或VAE的不同低维表示）;类似地，Xf（βf）是由低维潜在代码βf控制的中性头部姿势下的f e表达式;c=C（X）∈R3J是依赖于身体形状，θ∈R3×（J+1）是骨骼姿态参数的向量，其包括每个关节的（最多）3个以欧拉角的旋转自由度和根处的3个平移变量，ω∈RV×I是受影响的每个顶点蒙皮权重最多我 = 4（在我们的实验中）关节。最后，图4.对凯撒的评价左：GHUM和GHUML配准右：（从上到下，配准，GHUM和GHUML）基于VAE的模型可以很好地表示身体形状。与GHUML相比，肌肉或腰部，软组织细节被GHUM保留。权重ω，并学习静止形状嵌入βb、面部表达式嵌入βf、身份形状相关关节中心估计器C（ω）、姿势相关混合形状函数D（γ），给定多主体和多姿势表面网格X（γ）配准到全身和特写面部和手部扫描（图2）。（3）第三章。作为ICP配准的结果，我们可以在一对一的对应关系下使用每个顶点的欧氏距离误差容易地将重建损失公式化为1伏将姿势相关的校正混合形状X（θ）添加到其余形状以校正蒙皮伪影。我们签个名-Lr（X，X（α））=Vi=1<$Fi（xi−x<$）<$，（4）分别使用艺术家定义的操纵模板网格（V_i=10，168，V_ghuml=3 ， 194 ， J= 63 ）来实现我们的人体模型GHUM和GHUML，并且我们的流水线将在网格拓扑和关节层次K被认为是固定的情况下估计所有参数（θ，φ，γ，ω，ω）分层结构在解剖学上（最低限度）参数化，以便在优化期间利用生物机械关节角度限制。顶点xi∈X可以写为其中，F是一个过滤器，用于处理不同类型的数据（全身扫描，而不是特写）。为了构造X（α），我们需要联合估计姿态θ和统计形状参数。我们依赖于块坐标下降，在基于BFGS层的当前形状参数β下的姿态参数θ的估计和在θ固定的情况下更新其他模型参数我们从艺术家提供的默认值初始化皮肤，所有ΣIxi=ωj=1i，jTj（θ，c）Tj（θ′，c）−1Σx1（二）Σ其他参数为0。在续集中，我们详细介绍了如何每个子模块更新全局损失的参数α（4）。3.1. 可变体型自动编码器YTj（θ， c）=a∈K（j）Ra（θa）ca0 1∈SE（3），（3）我们通过将我们的模型注册到Caesar数据集（4，329名受试者）以及其中T（θ，c）是关节我们在GHS 3D中捕捉到的扫描，在中性A姿势下。目前来看jgiv enrestshapesX<$对于多个受试者，我们j，通过从根部遍历运动链来集成到j.从静止到姿态网格的变换是通过乘以静止姿态θ<$的世界变换矩阵的逆来构造的。3. 端到端统计模型学习在本节中，我们将提供一个端到端的基于神经网络的管道，我们将在其中优化皮肤6188为体型变化营造一个紧凑的潜在空间。而不是简单地建立一个PCA子空间，在这里，我们选择使用一个深度非线性变分自编码器与低维的潜在代码来表示身体形状。因为我们估计了网格接合，所以自动编码器X的输入扫描都在A姿势处很好地对齐，而没有来自刚性变换或姿势接合的显著编码器和解码器使用参数化ReLU6189¯激活函数，因为它们可以为某些参数建模身份转换或标准ReLU。作为标准实践，变分编码器将输出均值和方差（μ，μ），它们将通过重新参数化技巧[17]转换到潜在空间，以获得采样代码βb。我们选择一个简单的分布，N（0，I），并在损失函数中集成Kullback-Leibler发散，以正则化潜在空间B1 乌斯季湾BX（β）=NBX+SD（β）（5）1B.¯1NB图5. 姿态空间变形建筑素描与插图-β=SEX−XNB1（六）显示PSD的好处，这里围绕非被动关节-定位点，例如，右臀部和大腿还有胸部和腋窝为了简化说明，这里我们使用θ作为输入特征，其中，编码器SE从均值将身体形状转换为潜在向量βb，并且解码器SD从βb建立静止形状以匹配输入目标静止形状。特别地，我们初始化第一层和最后一层分别将编码器和解码器的潜在空间映射到PCA子空间U∈R3V×L，其中L是潜在空间的维数。所有其他全连接层都被初始化为标识，包括PReLU单元。我们将对数方差项的子矩阵初始化为0，并将偏差设置为足够大的负值。因此，与PCA相比，网络将有效地从线性模型初始化，同时将附加参数保持在最小值。3.2. 可变面部表情自动编码器可变形状自动编码器可以表示各种身体比例，包括面部形状的变化为了额外支持复杂的面部表情（而不仅仅是静态的人体测量头部和面部变化），我们引入了额外的面部建模。我们从GHS 3D中提供的除了一个3-DOF关节下颌、两个2-DOF眼睑和两个2-DOF眼球外，头部关节的参数，包括蒙皮而不是Ri（θi）−Ri（θ<$i）。3.3. 蒙皮模型除了非线性形状和面部表情模型，我们依赖于从多主题和多姿态网格数据估计的最佳蒙皮函数具体来说，我们分享与（4）中相同的数据项，但是现在优化变量是关节中心预测器C（γ）的参数以及蒙皮权重ω。自然的选择，正交关节中心是将它们放置在连接受关节影响最大的两个网格组件（分割）的边界顶点环上的平均边界顶点的平均值C<$X<$∈R3J，骨架位于网格曲面的凸包中面部，从而适应不同的身体比例的中心位置。然而，我们观察降级的蒙皮质量时，使用这样的预测。为了更好地蒙皮，我们将估计值C¯but保留在顶部，并建立一个线性回归方程C：R3V→R3J学习给定体形的关节中心校正权重和姿态空间变形，将被更新，以与管道的其余部分。对于面部运动引起的c（X）=C<$X+CX（七）通过表达式而非连接，我们构造了一个与变体型自编码器具有相同网络结构的非线性嵌入βf VAE的输入是在中性头部姿势下，通过移除所有关节运动（包括颈部、头部、眼睛和下颌）。为了将配准的头部网格取消姿势为中性，我们首先拟合用于中性头部形状（没有表情）的铰接关节运动θ，该中性头部形状尽可能地匹配配准，c.f.（四）、将姿态头部与配准之间的位移场计入面部表情，并且在估计它之前，我们撤销（unpose）关节运动θ的影响。我们不是通过池化所有网格顶点来全局学习关节中心，而是仅从关节蒙皮的这导致可训练参数从3N×3J下降到3N×3I，4、实践中我们也鼓励稀疏性，通过L1正则化，以及骨方向与模板的对准。为了避免奇异性和防止关节中心移动到曲面之外，我们将幅度正则化。中心修正量CXX2.To correct skinning artifacts as a result of complex soft组织变形，我们学习应用于其余形状的数据驱动的姿态相关校正器（PSD）<$X<$ （θ）。我们估计了一个非线性映射D：Ri（θi）−Ri（θ<$i）∈R9J→6190ωΣ Σ<$X<$ （θ）∈R3n. 然而，网格顶点上的姿态空间校正应该直观地源自相邻关节。因此，我们使用完全连接的ReLU活动-vated层以提取比输入（我们使用32个单位）更紧凑的特征向量，然后我们从该特征向量线性回归姿势空间变形。此外，我们的X（θ）是稀疏的，并且关节只能对其蒙皮网格片生成局部变形与SMPL [24]中的密集线性回归相比，我们的网络产生类似质量的变形，可训练参数少得多（少17倍我们将大小规则化的姿态空间变形是小的，防止匹配的目标过拟合通过PSD校正。这是通过简单的L2惩罚来实现的，Lp（<$X<$ ）=<$$>X<$ （θ）<$2。（八）表1. GHUM和GHUML在Caesar和GHS 3D上的配准错误，包括面部、手部和身体其他部位的细节ICP误差（mm）倒角距离（mm）数据集古姆GHUML古姆GHUML凯撒0.2650.46519.1331.84身体0.3710.72520.7633.64头0.4420.51910.1212.38手0.1640.42314.8822.01输出由可调蒙皮权重参数ω控制的已设定网格（2）。每个蒙皮顶点最多受模板中I= 4个我们还包括基于初始艺术家绘制值ω'的关于ω的先验，以确保权重在空间上是平滑的，并且p er-vertex权重分量是非负的和归一化的。高频局部PSD通常是不期望的，并且大多数ΣVLs（ω）=ΣΣI<$li，j（ωi，k−ωj，k）<$2可能是因为过度拟合因此，我们鼓励顺利姿势空间变形，Vi=1j∈N（i）k=1ΣV ΣILi（ω）=ωi，k−ω<$i，k<$2Ls（<$X<$ ）=<$li，j（<$x<$i−<$x<$j）<$2，（9）ωi=1k =1i=1j∈N（i）其中，N（i）是顶点i和li，j的相邻顶点S.T. ΣIk=1ω i，k= 1，ω i，k≥ 0。（十一）是基于余切的拉普拉斯权重。即使使用PSD正则化器和减少数量的可训练权重，过拟合仍然可能发生。不同我们还弱正则化最终蒙皮网格X，使其光滑，从SMPL或MANO [35]，其中姿势空间变形是专门为某些区域（身体或ΣVLm（X）=Σ<$l i，j（xi− xj）<$2.（十二）手），我们构建了一个PSD模型的整个人形，基于高分辨率的身体、手部和头部数据特写进行联合训练。因此，我们的身体数据在手部和头部运动方面的变化有限，而头部和手部数据对于身体的其余部分没有运动。因此，存在大的铰接空间，其中所有关节可以移动而不会影响损失，这是不期望的。为了防止过度拟合，我们将输入姿势特征向量过滤（掩码）为4个特征向量，包括头部、身体、左手和右手关节。每个特征向量将被带入相同的ReLU层，我们在下一个回归器之前对输出进行求和（图10）。（五）。我们制定一个损失Lf（<$X<$ ）=<$F<$X <$−<$X< $<$2，（10）这使得屏蔽区域外的PSD较小，从而使网络产生的校正偏向于有限的全球影响。然而，从所有相关数据中学习与头部、手部和身体其余部分之间的界面处的区域相对应的共享表面区域的变形。为了估计蒙皮权重，在管道的末端，我们创建一个线性混合层，给定姿势θ和姿态校正静止形状，具有f e表达式X+X+6191i=1j∈N（i）摆个姿势给定身体形状估计和当前蒙皮参数，我们在训练集上重新优化姿势θ为了限制搜索空间，加强一致性，并避免不自然的局部最小值，我们利用我们的人体测量仪可用的解剖关节角度限制。该问题可以有效地解决使用L-BFGS求解器与框约束，和梯度评估（例如，TensorFlow4. 实验数据集。除了凯撒，其中包含不同的身体和面部形状（4329名受试者），我们还使用多个专有系统在60Hz下运行，以捕获48名受试者（24名女性和24名男性），55个身体姿势，60个手部姿势和40个面部表情的运动序列1受试者的BMI范围为17。5到392、身高148cm ~192 cm，年龄21~56岁。对于所有多姿态数据，我们使用4个主题进行评估，4个主题进行测试，包括包含通常不在训练集中的姿态每个面1受试者数据在知情同意的情况下在实验室环境中收集。6192图6. Caesar（左上）和我们的GHS 3D的注册示例。请注意捕捉细微面部细节的配准质量，以及由于关节连接导致的其他身体部位的软组织变形。图7. VAE和PCA模型的分析说明了非线性表示在低维区域的优势。捕获序列从中性面部开始到指定面部表情，并且每个序列持续约2s。来自数据的配准样本如图所示。六、登记在表1中，我们报告了使用ICP和（扩展）倒角距离[19]与点云的配准。ICP误差被测量为到最近配准的网格面的点到平面距离，而倒角距离被双向地配准误差低，并保留了局部点云细节（图1）。（六）。模型评估。我们使用我们的端到端管道构建了一个全分辨率和一个低分辨率的人体模型（ GHUM 和GHUML）。这两个模型共享相同的骨骼关节，但是有10168个和3194个网格顶点（面部表情有1932个和585对于这两种模型，我们评估平均顶点为基础的Eu-在测试数据上，网格X到配准X的数字报告在表2中，可视化显示在图1和图2中。1、4和9。我们将两种模型的输出与其相应的注册网格进行表2.配准的平均基于顶点的欧几里得重建误差（mm）。数据集凯撒GHS3D →身体脸手古姆2.815.212.962.22GHUML3.276.323.282.81拓扑学这两种模型都可以密切代表身体形状的多样性（建模为VAE，图1）。4），产生自然的面部表情（表示为面部VAE），c.f.图5，Sup.垫，并且对于各种形状和姿态（由优化的蒙皮参数产生，c.f.图1）。GHUM vs GHUML。低分辨率模型保留了身体形状的整体特征，并正确地皮肤身体和面部动作与GHUM相比，我们观察到GHUML丢失了嘴唇变形、手臂和手指肌肉凸起以及脂肪组织导致的皱纹的一些细节。性能方面，GHUML为2。在前馈评估模式下，比GHUM快0倍VAE评价。对于体型，我们的VAE支持16-dim和64-dim潜在表示，其中前者具有1。72倍高的重建误差（我们的报告基于16维表示）。我们使用20维嵌入我们的面部表情VAE。图图7示出了对于VAE和PCA，面部表情的反射误差作为潜在维度的函数20维VAE具有类似于使用96个线性PCA基的重建误差，代价为1。4倍更慢的性能。GHUM vs SMPL. 在图8中，我们评估了GHUM和SMPL的蒙皮质量，针对多个主体和姿势，总共1100次扫描。我们有不同的网格和骨架6193图8.从左到右依次为注册、GHUM和SMPL。GHUM生成蒙皮，该运动序列的骨盆伪影较少（0。平均误差降低76SMPL和SMPL的类型学不具有手和面部关节。因此，我们从GHS 3D中获取捕获的运动序列（所有姿势，不在我们的训练数据集中），并分别将捕获的序列与SMPL和GHUM网格配准。我们使用一对一的点到平面欧氏距离进行误差计算（以避免配准过程中对表面滑动的敏感性），并且我们仅评估身体上的误差（减去面部和手部），以便与 SMPL 进行公平比较。GHUM的平均重建误差为4。23 mm，而SMPL为4mm。96mm误差。图9.评估和渲染如图1所示，重点是GHUM和GHUML的手部重建请注意GHUM在GHUML上保留的手掌屈曲区域周围的其他变形细节参见Sup。Mat.面部表情单目图像的三维位姿和形状重建。我们还说明了图像重建使用GHUM。运动学先验（针对手和身体其他部位，不包括面部）基于归一化流，并已使用Human3.6M、CMU和GHS 3D进行训练[42]。我们不使用姿势和形状的图像预测器，而是在6种不同的运动学配置下初始化，并在解剖关节角度限制下优化α参数作为损失，我们使用骨架关节重投影误差和语义身体部分对齐。[6，43]。我们在图中显示结果10、你看。垫更多。应用程序用例：我们构建GHUM/L模型的动机是广泛的变革，将成为可能的混合3D应用，包括服装虚拟服装试穿，健身，个人健康，健康或康复，AR和VR，经过验证的通信或协作、特效、人机交互或游戏等等。相比之下，像视觉监控和人员识别这样的应用目前还不能得到有效的支持，因为该模型对于创建潜在不利影响的深度伪造也是如此，因为外观模型或联合视听模型不包括在内以支持逼真的视觉和语音合成。图10.在语义身体部分对齐丢失的情况下，通过依赖于非线性姿态和形状优化的GHUM进行单目3D人体姿态和形状重建5. 结论我们提出了GHUM和GHUML（ite），两个新的生成三维人体形状和姿态模型的中等分辨率（10168顶点）和低分辨率（3194顶点），分别。这些模型是基于一个新的数据集GHS3D训练的，该数据集包含了超过60000个人体扫描，包括全身和脸部及手部的特写我们提出了一个新的端到端深度学习框架，该框架首次基于所有数据模拟支持所有模型组件参数的组合训练，我们运行广泛的实验，在低分辨率和中等分辨率的注册和约束关节的3D形状拟合和说明3D姿态和形状估计从单目图像。一个可能令人惊讶的结论是，经过适当训练的，大约3000个顶点的低分辨率非线性模型可能具有令人惊讶的良好的人体形状表示能力。模型将用于研究。鸣谢：我们感谢Elisabeta Oneata、Alin Popa、MihaiZanfir和Ana Padurariu在数据收集和处理方面的大力支持。6194引用[1] CMU图形实验室动作捕捉数据库。 2009. 网址：//mocap.cs.cmu.edu/网站。[2] 布雷特·艾伦，布赖恩·库勒斯，布赖恩·库勒斯和佐兰·波普。人体形状的空间：距离扫描的重建ACM Trans.图表学，2003年。[3] Brian Amberg，Reinhard Knothe，and Thomas Vetter.基于变形模型的表情不变三维人脸识别。InFG，2008.[4] Dragomir Anguelov 、 Praveen Srinivasan 、 DaphneKoller、Se- bastian Thrun、Jim Rodgers和James Davis。景观：人的形体完成与动画。ACM Trans. Graphics，2005.[5] Abdallah Benzine ， Bertrand Luvison ， Quoc CuongPham，and Catherine Achard.基于单目图像的深度鲁棒单镜头三维在ICIP，2019年。[6] Federica Bogo、Angjoo Kanazawa、Christoph Lassner、Peter Gehler、Javier Romero和Michael J Black。SMPL：从单个图像自动估计3D人体姿势和形状。在ECCV，2016年。[7] Alan Brunton ， Augusto Salazar ， Timo Bolkart ， andStefanie Wuhrer.统计形状空间的比较分析。CoRR，abs/1209.6491，2012年。[8] 曹晨、翁彦林、周顺、童一英、周坤。Facewarehouse：用于视觉计算的三维面部表情数据库。IEEE TVCG，2014年。[9] Mihai Fieraru 、 Mihai Zanfir 、 Elisabeta Oneata 、 Alin-Ionut Popa、Vlad Olaru和Cristian Sminchisescu。三维重建人际关系。在CVPR，2020年。[10] Nils Hasler ， Carsten Stoll ， Martin Sunkel ， BodoRosenhahn，and Hans-Peter Seidel.人体姿势和体型的统计模型。计算机图形论坛，2009年。[11] Nikolaos Kyriazis Iason Oikonomy和Antonis Argyros。利用kinect实现基于模型的手部关节高效三维跟踪在BMVC，2011年。[12] Catalin Ionescu ， Dragos Papava ， Vlad Olaru ， andCristian Sminchisescu. Human3.6M：大规模数据集和预测方法，用于自然环境中的3D人体感知。PAMI，2014年。[13] Haiyong Jiang，Jianfei Cai，and Jianmin Zheng.基于点云的骨架感知三维人体形状重建。在ICCV，2019年。[14] Hanbyul Joo Tomas Simon和Yaser Sheikh总捕获量：用于跟踪面部、手部和身体的3d变形模型。在CVPR，2018年。[15] Hanbyul Joo Tomas Simon和Yaser Sheikh总捕获量：用于跟踪面部、手部和身体的3d变形模型。在CVPR，2018年。[16] Isinsu Katircioglu 、 Bugra Tekin 、 Mathieu Salzmann 、Vincent Lepetit和Pascal Fua。用深度神经网络学习3d人体姿势的潜在表示。IJCV，2018年。[17] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。arXiv预印本arXiv：1312.6114，2013。[18] 放大图片作者：Michael J.布莱克和科斯塔斯·丹尼利迪斯学习通过循环中的模型拟合重建3D人体姿势和形状。在ICCV，2019年。[19] Chun-Liang Li，Tomas Simon，Jason Saragih，BarnabasPoc- zos，and Yaser Sheikh.LBS自动编码器：铰接网格到点云的自监督拟合。在CVPR，2019年。[20] Jiefeng Li，Can Wang，Hao Zhu，Yihuan Mao，Hao-Shu Fang，and Cewu Lu. Crowdpose：高效的拥挤场景姿态估计和新的基准。在CVPR，2019年。[21] 放大图片作者：Michael J.布莱克、李昊和哈维尔·罗梅罗。从4d扫描中学习面部形状和表情的模型。ACMTrans. Graphics，2017.[22] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。在ECCV。2014年[23] Yebin Liu ， Carsten Stoll ， Juergen Gall ， Hans-PeterSeidel，and Christian Theobalt.使用多视图图像分割的交互角色的无标记运动捕获。CVPR，2011。[24] Matthew Loper， Naureen Mahmood ，Javier Romero ，Gerard Pons-Moll，and Michael J.黑色. SMPL：一个有皮肤的多人线性模型. ACM Trans. Graphics，2015.[25] Diogo C Luvizon，David Picard，and Hedi Tabia.使用多任务深度学习的2D/3D姿态估计和动作识别在CVPR，2018年。[26] 放大图片作者： Nima Ghorbani ， Nikolaus F.Troje、Gerard Pons-Moll和Michael J.黑色. AMASS：将动作捕捉存档为表面形状。在ICCV，2019年。[27] Julieta Martinez、Rayat Hossain、Javier Romero和JamesJ. 点一个简单而有效的三维人体姿态估计基线。InICCV，2017.[28] Dushyant Mehta ， Oleksandr Sotnychenko ， FranziskaMueller ，Weipeng Xu ， Srinath Sridhar， Gerard Pons-Moll，and Christian Theobalt.单镜头多人3D姿态估计从单眼RGB。在3DV，2018年。[29] DushyantMehta，SrinathSridhar，OleksandrSotnychenko ， Helge Rhodin ， Mohammad Shafiei ，Hans-Peter Seidel ， Weipeng Xu ， Dan Casas ， andChristian Theobalt. Vnect：使用单个rgb摄像头进行实时3d人体姿势估计。ACM Trans. Graphics，2017.[30] Markus Oberweger，Paul Wohlhart，and Vincent Lepetit.训练用于手部姿势估计的反馈回路在ICCV，2015年。[31] Georgios Pavlakos，Vasileios Choutas，Nima Ghorbani，Timo Bolkart ， Ahmed A.A. Osman ， DimitriosTzionas，and Michael J.黑色.表现性身体捕捉：从单个图像获得3D手、脸和身体。在CVPR，2019年。[32] Stylianos Ploumpis，Haoyang Wang，Nick Pears，WilliamA. P. Smith和Stefanos Zafeiriou。结合3D变形模型：一个大比例的脸部和头部模型。在CVPR，2019年。[33] Alin-Ionut Popa、Mihai Zanfir和Cristian Sminchisescu。用于集成2d 和3d 人体感知的深度多任务架构。在CVPR，2017年。6195[34] Helge Rhodin ， Nadia Robertini ， Dan Casas ，Christian Richardt，Hans-Peter Seidel，and ChristianTheobalt.根-6196使用体积轮廓线索的自动人体形状和动作捕捉。在ECCV，2016年。[35] Javier Romero、Dimitrios Tzionas和Michael J.黑色.具体化的手：建模和捕捉手和身体在一起。ACM Trans.Graphics，2017.[36] 苏凯，于东东，徐振奇，耿鑫，王长虎。具有增强的信道和空间信息的多人姿态估计在CVPR，2019年。[37] 乔纳森·泰勒、卢卡斯·波尔多、托马斯·现金男、鲍勃·科里什、杰姆·凯斯金、托比·夏普、爱德华多·索托、大卫·斯威尼、朱利安·瓦伦丁、本杰明·勒夫、阿兰·托帕利安、埃罗尔·伍德、萨迈赫·哈米斯、普什梅特·科利、沙赫拉姆·伊扎迪、理查德·班克斯、安德鲁·菲茨吉尔和杰米·肖特顿。通过姿态和对应关系的联合、持续优化实现高效、精确的交互式手部跟踪。ACM Trans. Graphics，2016.[38] Dimitrios Tzionas 、 Luca Ballan 、 Abhilash Srikantha、Pablo Aponte、Marc Pollefeys和Juergen Gall。使用区别性突出点和物理模拟捕获动作IJCV，2016年。[39] Fei Yang ， Jue Wang ， Eli Shechtman ， LubomirBourdev，and Dimitri Metaxas

下载后可阅读完整内容，剩余1页未读，立即下载