三维人体形状和关节姿态的隐式生成模型

174 浏览量更新于2023-10-15 收藏 1.14MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1imGHUM：三维人体形状和关节姿态的隐式生成模型Thiemo Alldieck* Hongyi Xu* Cristian SminchisescuGoogle Research{alldieck，hongyixu，sminchisescu}@ google.com摘要我们提出imGHUM，第一个整体生成模型的三维人体形状和关节姿势，表示为一个有符号的距离函数。与以前的工作相比，我们隐含地模拟整个人体作为一个功能零水平集，而不使用一个明确的模板网格。我们提出了一种新的网络架构和学习范例，这使得有可能学习人类姿势、形状和语义的详细隐式生成模型，与最先进的基于网格的模型相当。我们的模型功能所需的细节，如关节姿势，包括手部运动和面部表情，广泛的形状变化，并可以查询在任意分辨率和空间位置的人体模型。此外，我们的模型附加了空间语义，使其直接建立不同的形状实例之间的对应关系，从而使应用程序难以处理使用经典的隐式表示。在广泛的实验中，我们证明了模型的准确性和适用性，目前的研究问题。1. 介绍人体的数学模型已经被证明在各种各样的任务中是有效的。在过去的几十年中，已经成功地部署了不同程度的现实主义模型。用于3D人体运动分析[46]、3D人体姿势和形状重建[24，52]、个人化身创建[3，54]、医学诊断和治疗[16]或图像合成和视频编辑[53，21]。现代统计身体模型通常从真实人的3D扫描的大集合中学习，其用于捕获人类群体中的身体形状变化当可用时，动态扫描可以用于进一步对不同姿势如何影响人体的肌肉和软组织的变形进行最近发布的GHUM模型[49]遵循这种方法，将人体、其形状变化、包括手指在内的关节姿势和面部表情描述为基于低维、部分可解释参数化的中等分辨率网格。在*前两位作者贡献相当。图1.imGHUM是第一个表示为隐式符号距离函数的参数化完整人体imGHUM成功地模拟了姿势、形状和面部表情的广泛变化imGHUM的水平集以蓝色标度显示。深度学习文献GHUM和类似的模型[27，23]通常用作固定功能层。这意味着模型用神经网络或一些其他非线性函数的输出来参数化，并且所得网格用于计算最终函数值。虽然这种方法对于几个任务（包括最近的3D重建）工作良好，但是如何最好地表示复杂的3D可变形和铰接结构的问题是开放的最近处理一般对象的3D视觉重建的工作旨在将输出表示为隐式函数而不是网格[28，32，7，29]。因此，这种方法通过3D空间中的点上的函数的零水平集（决策边界）来描述表面。这具有明显的益处，因为输出既不受模板网格拓扑的约束，也不被离散化并且因此具有固定的空间分辨率。在这项工作中，我们研究了学习数据驱动的统计身体模型作为隐函数的可能性。考虑到现有技术的显式人体模型的成熟度，至关重要的是，等效的隐式表示保持其关键的、有吸引力的特性-这是具有挑战性的，因为最近提出的隐式功能网络往往会产生过于平滑的形状，并且对于有关节的人来说是失败的[8]。我们提出了一种新的网络架构和学习范式，使，第一次，构建详细的生成模型的人类姿势，形状和语义，表示为符号距离函数（SDF）（见图）。①的人。我们的多部件体系结构专注于难以建模的车身部件，如54615462✓ ✓✓✓✓✗✓✗[49]第四十九话✗ ✗✗✗✗ ✗✗✓IF-Net [8]✗ ✗✗✗✓ ✓✗✓IGR [14]✓✗✗✗✓✗✗✓美国航天局[11]✓ ✓✓✓✓ ✓✓✓imGHUM表1.人体建模的不同方法的比较GHUM是基于网格的，因此是离散的。IGR只允许形状插值。NASA缺乏形状、手部和面部表情的生成能力，并且仅返回发生率值。只有imGHUM结合了所有有利的属性。手和脸。此外，imGHUM通过距离值对其邻域进行建模，使得能够例如碰撞试验我们的模型不受特定分辨率的约束，因此可以在任意位置轻松查询无模板进一步为我们的最终目标铺平了道路，即公平地表示人类的多样性，包括标准拓扑的通用模板可能并不总是很好地覆盖的残疾。最后，与最近的隐函数网络相比，我们的模型还进行了基于网格模型的显式具体地，我们的隐式函数还将对应关系返回到其零水平集附近和上的规范表示，例如，使能。纹理或身体部位标记。这种整体方法是新颖的，并且显著地更难以产生，如在先前的工作中可以注意到的，其只能证明个体特性，c.f.选项卡. 1.一、我们的贡献- 源于适当的、生成的潜在表示、具有细粒度编码的网络架构、具有附加语义的隐式损失以及多部分组件的一致聚合的新颖组合。除了广泛的3D变形和artic，ulated建模能力的评估，我们还展示了表面完成使用imGHUM，并给出了一个展望模型，eling不同的拓扑结构。我们的模型可供研究[1]。1.1. 相关工作我们回顾了在三维人体建模，隐式函数网络的变种，隐式函数网络的应用程序的三维人体重建的发展。人体模型。基于几何基元的参数化人体模型很早就被提出[48]并成功地应用于用于从视频数据进行人体重建[36，46，45]。SCAPE [35]是第一个真实的大规模数据驱动人体模型之一。后来的变体受到混合蒙皮[17]的启发，建模了身体形状和姿势[15]以及软组织动力学[37]之间的相关性。SMPL变体[27，23，33，31]也是流行的参数化身体模型，具有线性形状空间，与标准图形管道兼容，并提供良好的全身表示功能。GHUM是一种最新的参数模型[49]，它使用深度非线性模型表示全身模型-分别用于形状的VAE和用于姿势的归一化流-具有各种可训练参数，端到端学习。在这项工作中，我们依靠GHUM建立我们的新的隐式模型。具体来说，除了我们数据集中的静态和动态3D人体扫描外，我们还依赖于GHUM（1）来表示隐式模型的潜在姿势和形状状态，（2）以潜在姿势和形状代码的形式生成监督训练数据，该代码具有从底层的姿势GHUM网格采样的相关联的3D点云。隐式函数网络（IFNs）最近已被提出[28，32，7，29]。代替将形状表示为网格、体素或点云，IFNs将形状空间学习为低维全局形状代码和3D点的函数。该函数将点分类为内侧/外侧[28，7]（占用网络），或返回其到最近表面的距离[32]（距离函数）。然后，通过该函数的决策边界或零水平集来定义全局形状尽管在任务中优于基于网格和基于体素的表示，例如从局部视图或给定不完整数据进行3D形状重建，初始工作具有局限性。首先，虽然模型可以可靠地编码刚性轴对齐的形状原型，但它们通常无法用于更复杂的形状。其次，重建通常过于平滑，因此缺乏细节。已经提出了不同的基于零件的模型[13，22，12]从较小的局部模型组装全局形状。一些方法不依赖于全局形状代码，而是依赖于通过与输入观察进行卷积而计算的特征[8，10，34，9]。其他人通过改变学习方法来解决这些限制：为此，已经提出了定制的网络初始化[4]和点采样策略[50]或二阶损耗[14，44]。我们发现后者非常有用，并且在这项工作中依赖于类似的损失。IFN用于人类重建。最近，内隐函数已被探索以重建人类。Huang等人[18]学习以多视图摄像机设置中图像特征为条件的占用网络。Saito等[41]使用来自单个图像和估计的正常图像[42]的特征以及沿着相机射线的深度值作为调节变量。ARCH [19]结合了隐式函数重建和显式基于网格的人体模型来表示穿着衣服的人。Karunratanakul等人[25]建议使用SDF来学习人类抓握并使用稀疏区域标签来增强其SDF输出。与我们类似，Deng et al.[11]将可摆姿势的人类主体表示为在运动学结构中建模的多个二进制占用函数。与我们的工作相反，这个框架仅限于一个人，身体只是粗略地近似，缺乏面部特征和手部细节。也5463联系我们∈∈∈∈·ΣL（ω）=（L我|F|i∈F我我ppp~j阿尔法p~1，αp~2，αS1S2s1，c1pSUs，cp~N，αSNsN，cN姿势形状潜码多部分语义符号距离网络体表（从S行进立方体）身体语义（C）和纹理表面图2.imGHUM的概述我们计算空间点p到由生成潜在代码α定义的铰接的人类形状的表面的有符号距离s=S（p，α）和语义c=C（p，α）。使用显式骨架，我们将点p变换为归一化坐标系，作为N=4个子部分网络工作的p ~ j，建模身体、手和头。每个子模型Sj表示语义符号距离函数。最后使用MLPU一致地组合子模型以计算全身的输出s和c。我们的多部分流水线在一致的训练循环中共同构建全身模型以及头部和手部的子部分模型。在右边，我们可视化了用行进立方体提取的零水平集身体表面和由输出语义给出的规范实例的隐式对应语义允许例如用于表面着色或纹理化。SCANimate [43]通过对单个人的多次扫描构建个性化头像。与我们的工作同时，LEAP [30]学习人体形状和姿势的占用模型，在这项工作中，我们的目标是一个完整的隐式身体模型，具有大范围的身体形状对应于不同的人和姿势，详细的手，和面部表情。2. 方法在本节中，我们将描述我们的模型和用于训练的损失。我们引入两个变体：一种是将整个人编码在单个网络中的单部分模型，另一种是多部分模型。后者从四个身体部分网络的输出叠加构造完整的身体。背景我们依靠神经网络和隐式函数来生成3D人体形状和关节姿势。给定人体形状和姿势的潜在表示α，以及潜在的概率分布，我们将摆姿势的身体建模为由深度前馈神经网络给出的符号距离函数（SDF）的零等值面决策边界。符号距离S（p，α）R是一个连续函数，给定任意空间点p R3，输出到由α定义的表面的最短距离，其中符号表示内部（负）或外部（正）侧w.r. t。表面。构成的人体表面由下式隐式给出：S（·，α）=0。GHUM [49]将人体模型表示为铰接网格X（α）。GHUM有一个最小参数化的骨架，J=63个关节（124个欧拉角自由度）和蒙皮变形，对姿势kine明显敏感maticsθ∈R124. 基于normaliz使用非线性嵌入βbR16进行了计算。除了骨骼关节之外，非线性潜在代码βf R20驱动面部表情。我们在这里设计的隐式模型与GHUM共享相同的概率潜在表示，α=（βb，βf，θ），但与计算铰接网格相比，我们为每个任意空间点p估计有符号距离值s = S（p，α）。2.1. 模型和培训给定全身人体网格Y的集合，以及对应的GHUM编码α=（βb，βf，θ），我们的目标是学习基于MLP的SDF表示S（p，α），使得它近似于任何查询点p到Y的最短有符号距离。请注意，Y可以是任意网格，例如原始人体扫描、网格配准或从GHUM潜在空间提取的样本。寻求零等值面S（，α）= 0以保留Y中的所有几何细节，包括身体形状和姿势、手部关节和面部表情。单部件网络。我们用公式表示一个全局神经网络，该网络对给定的潜在码α和空间点P。代替如DeepSDF[32]中那样从点样本预先计算连续SDF，我们训练具有权重ω的MLP网络S（p，α;ω），其精神类似于IGR[14]，以输出Eikonal方程∥∇pS(p,α;ω)∥=1,(1)其中S是在表面Y处消失的带符号距离函数，其梯度等于表面法线。在数学上，我们将总损失表示为以下各项的加权组合（1）A（|S（p，α）|+S（p，α）−n）（2）流定义了有效姿势的分布[52]。每个运动姿态θ表示一组关节变换T（θ，j）∈RJ×3×4，其中o我|O|i∈O一个e|i ∈F|i∈FpiipS（pi，α）−1）2（3）j∈R，J×3是与L（ω）=1ΣBCE（l，（kS（p，α），（4）中性体型统计学上的体型是现代的-5464∇00∈||联系我们§我我我我其中，是S形函数，O是来自Y的具有法线n的表面样本，并且F是具有内侧/外侧标签l的离表面样本，由边界框内的均匀采样点和表面附近的采样点组成。第一项L。促使表面样本在零水平集上，并且SDF梯度等于给定表面法线。Eikonal损失Le从（1）导出，其中SDF在梯度范数为1的任何地方都是可微的。我们通过网络反向传播解析地获得SDF梯度piS（pi，α）在实践中，我们还发现包括用于离表面样本的二进制交叉熵误差（BCE）损失L1是有用的，其中k控制决策边界的锐度。我们在实验中使用k=10。我们的训练损失只需要表面样本与法线和内部/外部标签的表面样本。这些比预先计算地面实况SDF值更容易和更快地最近的工作表明，标准的基于坐标的MLP网络在学习高频函数时遇到困难，这是一种被称为频谱偏差的现象[39，47]。为了解决这个限制，受[47]的启发，我们因此使用基本傅里叶映射ei=[sin（2πp〜i），cos（2πp〜i）]来编码我们的样本，其中我们首先解使用根刚性变换T−01对样本设定姿势并使用共享边界框将它们归一化为[0，1]3B=[b最小值，b最大值]，作为中性体形状X¯（βb）。然而，在我们的隐式表示中，X¯并没有明确地表示出来因此，我们构建了一个从βb到j的非线性联合回归器，使用GHUM的潜在空间采样对其进行训练、监督为了将局部SDF融合成一致的全身SDF，同时保留局部细节，我们使用额外的轻量级MLPU合并局部网络的最后隐藏层。为了训练组合网络，针对全身定义的样本点Pi使用Ti被变换到N个局部坐标系中，然后被传递到单部分局部网络，参见图12。二、然后，联合SDF MLP聚合局部距离中到全身的最短距离我们也将损失应用于工会全身SDF，以确保全身的输出满足SDF属性（1）。我们的多部件流水线产生子部件模型和全身模型，联合训练并利用不同身体部件之间的数据相关性。我们的空间点编码ei需要所有样本p在边界框B内，否则由于正弦编码可能导致周期性SDF。然而，从全身采样的点可能在子部分的局部边界框Bj之外代替裁剪或投影到边界框，我们将子部分网络Sj的样本pi的编码增强为ej=[sin（2πp~j），cos（2πp~j），tanh（π（p~j-0.5））]，其中p~i=T−1（θ，j）[pi，1]−bminb最大值− b最小值.（五）最后一个值指示样品重量边界框。如果点pi在边界框Bj之外，则联合SDF MLP将学习忽略Sj（pj，α）以用于最终的联合输出。请注意，我们的SDF定义为w.r.t.原始网格Y，因此我们不对样本法线进行反姿势和缩放。此外，损失梯度是从w.r.t. 皮岛多部分网络。我们的单部分网络代表了各种人体形状和运动姿态的全球几何特征。然而，尽管其空间编码，网络仍然难以捕捉面部表情和关节手姿势，其中SDF具有局部高频变化。为了增强面部和手部区域的几何细节，我们因此提出了一种多部分网络，该网络将人体分解为N = 4个局部区域，即N = 4个局部区域。头部、左手和右手以及身体的其余部分。这显著减少了每个局部区域内的频谱频率变化，从而允许专门的单部分网络捕获局部几何细节。一致的全身SDF S（p，α）由局部单部位SDF网络输出sj=Sj（p，α），j1，. . .、N.对于每个局部子部件网络，我们遵循2.1中描述的训练协议，其中表面和离表面样本在为每个部件定义的边界框Bj请注意，我们使用颈部和腕关节分别作为头部和手部的根变换。在GHUM中，关节中心j作为给定我隐式语义。与GHUM等显式模型相比，隐式函数不会自然地在不同形状实例之间具有然而，许多应用，例如姿态跟踪、纹理映射、语义分割、表面标志或布料建模，很大程度上受益于这样的对应关系。给定表面Y上或附近的任意空间点，即S（pi，α）<〇，因此我们感兴趣的是对其语义进行解释。我们将语义定义为3D隐式函数C（p，α）R3。给定查询点pi，它返回规范GHUM网格X（α0）上的对应点为C（pi，α）=wivf（α0）=ci，p*i=wivf（α）（6）其中p*i是GHUM网格X（α）中pi的最近点，f是最近面，w是顶点坐标vf的重心权重。与其他的语义编码（如2D 纹理坐标）相比，我们的语义函数C（p，α）在空间域中是光滑的，没有失真和边界不连续性，这有利于学习过程。[5]的文件。根据定义，隐式SDF返回到空间点的底层隐式表面的最短距离，而隐式语义将查询点与其最近的5465§·§| || |×× ×| | ≤§§§表面邻居因此，我们认为隐含语义与SDF学习高度相关。我们用我们的增强多部分网络（2.1）来共同训练这两个任务，计算S（p，α）和C（p，α）。语义训练完全supervised，使用L1损失的训练样本点附近和表面Y上的集合。由于任务之间的相关性，我们的网络能够预测符号距离和语义，而无需扩展其容量。使用训练的隐式语义，我们可以例如将纹理应用于水平集zσ处的任意等值面，从我们的隐式SDF重建。在推理过程中，可以使用Marching Cubes [ 26 ]提取等值面网格S（，α）=z。然后，对于每一个生成的verte xv~ i，我们查询其语义C（v~i ，α）。查询的对应点C（v~i，α）可能不完全在正则曲面上，因此我们将其投影到X（α0）上。现在，我们可以插值UV纹理坐标并将其指定给v~i。类似地，我们还可以分配分割标签或定义表面上或近表面界标。图二个（右）我们示出了纹理化的并且具有二进制“服装”分割的imGHUM重建。我们使用后者在整个文件证明我们的语义允许转移分割标签到不同的等值面重建。请参考3.3了解我们的隐式语义的更多应用，例如：地标或穿着衣服的人体重建。架构对于单部分网络，我们使用与DeepSDF [32]或IGR[14]类似的前馈架构，具有8个512维全连接层。为了实现高阶导数，我们使用Swish非线性激活[40]而不是ReLU。IGR最初提出了SoftPlus，但我们发现Swish更优（见表1）。（3）第三章。多部分网络由用于身体的一个8层256维MLP和用于手和头的三个4层256维MLP组成。每个子网络具有到中间层的跳过连接。在最终的网络输出之前，子网络的最后隐藏层被聚合在具有Swish非线性激活的最终模型特征二、4900万个参数并执行4. 每个点查询9900数据集。我们的训练数据由全身人体网格Y的集合以及对应的GHUM潜在代码α组成，其中X（α）最佳地近似Y。对于每个网格，我们执行泊松磁盘采样的表面上，并获得O=32K的表面样本，连同他们的表面法线。此外，在预定义二、2个2. 8 2. 2m3包围盒，均匀采样F/2 =16K个点。另外16K个样本是通过用σ = 0的各向同性正态噪声随机移位表面样本点来生成的。05米。所有离面样本都与内/外标签相关联，通过投射随机射线和检查奇偶性来计算。我们还标记语义上和近表面的样本，这是绘制与随机的面指数和重心权重的GHUM网格和随机位移的近表面样本。利用对应的面部和重心权重，使用（6）在轻量计算中生成语义标签，而不需要投影或最近邻搜索。然后将每个网格Y分解为N=4个部分，并且我们为每个身体部分生成相同数量的训练样本（我们使用σ=0）。02m（对于靠近手的表面样品）。我们使用两种类型的人体网格进行imGHUM训练。我们首先从H36M和CMU mocap数据集中随机采样75K个姿势，其中高斯采样的身体形状，表情和来自GHUM潜在先验的手部姿势，其中Y是姿势GHUM网格。此外，我们收集了35K人体扫描，在其上我们使用GHUM拓扑执行尽可能一致（ACAP）配准[51]，并拟合GHUM参数。我们的人体扫描包括CAESAR数据集、全身姿势扫描，以及近距离头部和手部扫描。由于一些原始扫描中的噪声和不完整性，我们使用配准进行训练。我们使用配准数据集微调imGHUM-通过这种方式，imGHUM可以捕获GHUM无法很好地表示的几何2）的情况。3. 实验我们在多个实验中定性和定量地评估imGHUM。首先，我们将imGHUM与其显式对应物GHUM（3.1）进行比较。然后，我们进行了广泛的基线和消融研究，证明了imGHUM架构和训练方案的我们还建立了一个模型来比较最近的单一主题占用模型美国宇航局。最后，我们展示了imGHUM在三个有代表性的应用程序上的性能，证明了它的实用性和多功能性（3.3）。我们报告三个不同的指标。双向倒角-L2距离测量曲面的精度和完整性（越小越好）。法线一致性（NC）计算估计的曲面法线（越高越好）。并集上的体积相交（IoU）将重建的体积与地面实况形状（较高的更好）。后者只能报告水密形状。请注意，度量并不总是与重建的感知质量相关。因此，我们还包括定性并排比较。为了可视化和数值评估，我们使用Marching Cubes[26]从imGHUM中提取网格。为此，我们近似的边界框的表面，通过探测，然后运行Marching立方体与256-lution的边界框内的分辨率。在此，签署距离支持使用八叉树采样的加速：我们仅在表面附近使用最高的网格密度，5466†图3.使用imGHUM生成和重建的身体。左：imGHUM具有形状、表情和姿势潜在空间的高斯采样。中间：从CMU mocap数据集[2]重建的运动序列（固定体型）。右：身体形状和面部表情潜码插值（固定姿势）。更多示例请参见补充材料。远离它的频率要低得多。然而，我们注意到，对于大多数应用，例如人体重建和碰撞检测，不需要移动立方体，除了仅一次用于最终网格可视化。3.1. 表示能力图3，我们示出了应用于imGHUM的运动捕捉序列的重建我们的模型很好地捕捉了关节的全身运动，与一致的身体形状的各种姿势。通过与GHUM共享潜在先验，imGHUM支持逼真的身体形状和姿势生成（图12）。3，左）以及形状和表情潜在空间内的平滑插值（图3，左）。3，右）。我们的模型很好地推广到新的身体形状，表情和姿势，并具有可解释性和解耦的潜在代表。在选项卡中。 2 ，我们比较了 imGHUM 与显式GHUM在我们的注册测试集上的表示能力。imGHUM更好地捕捉了目前的细节，如数字所示。仅使用GHUM样本训练的imGHUM模型捕获由于关节化引起的身体变形imGHUM的局限性有时对于训练集中未覆盖的非常极端的姿势配置是明显的，例如，对于人类不可能的人体测量无效姿势，例如，导致自相交或弯曲关节超过其解剖学运动范围。imGHUM为与预期配置不太远的输入产生合理的结果，但结果偶尔具有一些缺陷，例如：扭曲的或不完整的几何形状或不准确的语义，见图2。8个例子。3.2. 基线实验在下一节中，我们将imGHUM与受最近工作启发的各种基线进行比较。第一个是自动编码器，其中编码器端是PointNet++ [38]，解码器是我们的单部分网络。这个想法是让网络找到最佳表示，而不是预先计算低维表示。在实践中，这意味着潜在代码是不可解释的。此外，本发明还表2.配准数据集的GHUM比较。标记为‡的imGHUM仅基于GHUM采样数据进行训练模型IoU↑倒角×10−3↓NC↑Autoencoder0.8310.9570.9580.9650.9610.9670.9550.9662.4570.0850.0700.0520.0700.0580.0950.0510.9230.9830.9830.9860.9840.9860.9840.988单部件†单部件单部分单部件更深†单部分加深imGHUM†imGHUM w/oLl（4）imGHUM0.9690.0360.989表3.与基线的数值比较。标有的模型不使用傅立叶输入映射。标记Softplus激活，如[14]中所示。模型IoU↑头部/手部通道×10−3↓头部/手部NC↑头部/手部单部分0.967 /0.8180.010 /0.2010.937 /0.790单部分深。0.968 /0.8320.011 /0.2710.938 /0.811imGHUM0.976/0.9290.007/0.0310.944/0.934表4.关键身体部位的单向指标（GT到生成的网格）我们的多部分架构显着提高了头部和手部重建的准确性。我们在没有傅立叶输入映射的情况下用我们的单部分网络进行实验，主要遵循IGR [14]提出的训练方案。我们还使用输入映射，并最终训练了一个更深的单部分网络变体（10层），其变量数量与imGHUM大致相同。在选项卡中。3我们在包含1000GHUM样本的测试集上报告了不同变体的度量。在图4中，我们显示了并排比较。傅立叶输入映射一致地改善所有变体的结果我们还尝试了更高维的傅立叶特征，但经验上发现基本编码在我们的设置中工作得最好。自动编码器产生大的伪影，特别是在手区域中。类似的问题，大斑点或缺失的片段，可以在来自单个部分变体的结果中观察到，特别是对于手，并且不太严重，也对于面部区域。然而，这些问题并没有被很好地捕捉到。模型IoU↑倒角×10−3↓NC↑imGUM‡古姆0.9000.9130.0710.0550.9770.983imGHUM0.9320.0400.9845467×个×个联系我们联系我们·±±全局地评估整个形状。为此，我们评估了imGHUM和我们的单部件模型，特别是针对这些关键区域，请参见选项卡。4.第一章只有imGHUM consistently产生高品质的结果，也为手和脸，支持建议的架构选择。接下来，我们将imGHUM与最近的单主体多姿势隐式人类占用模型NASA进行比较[11]。在固定体型的情况下，我们从Human3.6M [20]和CMU mocap数据集[2]生成22500个随机GHUM全身训练姿势和2500个测试姿势，包括头部和手部姿势。使用NASA中的原始点采样策略，基于原始源代码，我们已经训练网络直到收敛。请参阅补充材料的细节，我们如何适应美国宇航局的GHUM骨架。为了进行比较，我们使用相同的数据集训练了一个imGHUM架构，比我们的完整多主题模型少2层，每个模型都有即使基于GHUM的NASA有3个以上的参数，我们的较小尺寸的单一主题imGHUM仍然在表示全局形状和局部细节方面表现得更好（见图中的手重建）。（五）。与计算二元占用的NASA相比，imGHUM返回更多信息的有符号距离值，其产生平滑的决策边界并更好地保留详细的几何形状与NASA的进一步关键区别是我们的架构相当简单，需要更少的计算来产生重构，我们的语义和精心选择的学习模型（即傅立叶编码，二阶损耗），特别关注表面细节。此外，imGHUM还使用生成潜在代码（tab.①的人。3.3. 应用我们将imGHUM应用于三个关键任务：人体表面重建、局部点云完成、着装及包容性人体重建。三角形集曲面重建。给定一个有n个顶点的三角形集合（'soup'）vr3n以及定向法线 n在此基础上，提出了一种基于语义的参数化隐式SDF曲面重构方法. 该任务对于由3D扫描仪产生的三角汤是必要的为了从不完整的扫描中提取表面，我们应用BFGS优化器来拟合α=（βb，βf，θ），使得所有顶点v（）接近隐式表面S（，α）=0。此外，我们在v处强制梯度接近法线n，并生成离表面样本以具有与预期符号的距离。此外，我们沿着表面法线以小距离η对近表面点进行采样，并强制S（vηn（，α）=如[32]中的η。注意，所有这些操作可以容易地实现，并且由于imGHUM是SDF而完全不同。当目标表面上的3D标志可用时，例如三角测量图4.与基线实验的定性比较从左至右：自动编码器、不带和带傅立叶输入映射的单部分模型、我们的多部分imGHUM、地面实况GHUM。我们使用我们的语义网络来为基线结果着色。图5.与NASA [11]在我们的单主题多姿态数据集上的比较。从上到下：GT，单主题imGHUM和NASA重建。imGHUM更好地捕获全局和局部几何形状，尽管在该实验中使用了明显较小的网络版本。在数值上，我们的结果也是优越的：IoU（↑）0. 962（我们的）与0的情况。839.第839章我的（↓）0. 068×10−3（我们的）与3.第三章。53× 10−3（他们的），NC（↑）0。985（我们的）与0的情况。903（我的）在原始扫描仪图像的2D检测到的界标的情况下，我们另外基于imGHUM语义用界标损失来增强优化。具体损失情况见补充材料。作为参考，我们还展示了IF-Net [8]的结果，这是一种用于隐式表面提取，完成和体素超分辨率的最新方法。我们使用与imGHUM相同的姿势和形状变化来训练IF-Net在训练和测试中，我们从观察到的形状中生成15请注意，与我们的方法相比，IF-Net使用的信息更少，但也解决了一个更容易的任务，因为它没有计算全局和语义上有意义的形状代码。因此，完全公平的比较是不可能的。然而，我们相信，通过与IF-Net的比较，我们表明imGHUM足以完成这项任务。图6定性地示出了包含20个受试者的150个人类扫描的imGHUM拟合和IF-Net推断结果的示例。我们的模型不仅适合于扫描的体积，而且还重建面部表情和手部姿势。使用界标和ICP损失，还可以将GHUM拟合到三角形集合。然而，我们的全差分imGHUM损耗显示出优于基于ICP的GHUM的拟合（倒角（↓）0. 77×10−3，NC（↑）0。921）。部分点云完成。许多应用的另一个相关任务是形状完成。在此我们表明5468↓ × ×↑×↑↓ ×图6. 左：三角形集曲面重建（从左到右的输入扫描、imGHUM拟合和IF-Net推断）。在数值上，imGHUM拟合优于倒角距离（）为0的IF-Net。156 10- 3（我们的）对0。844 10−3（IF-Net）和NC（）0。954（我们的）对比0。914（IF-Net）。右图：部分点云完成（输入点云、imGHUM拟合、IF-Net和地面实况扫描）。根据记录的部分点云进行表面重建和完成，例如使用深度传感器。我们使用Kinect V2传感器的内在函数和分辨率从来自Faust数据集[6]的10个受试者的A姿势扫描合成大小深度图为了完成部分视图，我们搜索α，使得来自深度点云的所有点都接近imGHUM我们额外沿着表面法线的点（从深度图像梯度估计），并且通过imGHUM强制估计的距离接近真实距离。我们还对深度云前面和周围的点进行采样，并强制它们的L1标签丢失。最后，我们还监督估计的法线。在这个实验中，我们我们展示了IF-Net [8]的结果进行比较。我们专门为此任务训练了IF-Net，同时我们对所有实验使用相同的imGHUM。Chamfer distance（）为0时，我们的重建在数值上更好。 103 10−3 （我方）对 0 。 315 10−3（their）和NC（）0。962（我们的）对0。936（你的）从质量上讲，我们的结果包含了更多理想的重建细节，特别是手和脸，见图。6，对。请再次注意，IF-Net仅重建表面，而我们恢复身体模型的参数化，这是一项相当困难的任务。穿着和包容性的人类建模。imGHUM是无模板的，这对于未来的开发是有价值的性质。虽然这项工作主要涉及的方法学学习的生成隐含的人类模型-在它-本身是一个复杂的和新颖的构建包括头发和衣服的人体形状的详细模型，或学习包容性模型可以是这样的方向。然而，目前构建这种模型所需的数据并不存在足够大的规模。为了证明imGHUM是这种模型的有价值的构建块，我们利用它作为个性化人体模型的内层。具体地说，我们增加imGHUM的轻量级残差SDF网络，条件是imGHUM的输出，无论是有符号的距离和语义。我们使用与imGHUM相同的学习方案来估计残差模型，但将训练限制为单次扫描。最终输出用层对人建模，包括用imGHUM表示的内部身体形状和作为残差的个性化（头发、衣服、非标准身体拓扑），c.f.如图7所示。该分层表示可以通过改变底层imGHUM的参数化来重新放置。在此，The图 7. 从左至右：扫描、 GHUM 模板网格 ACAP 配准、imGHUM+残差拟合（色标表示语义）、静止imGHUM+残差、imGHUM+残差拟合到具有肢体差异的人。与拟合的模板网格相比，imGHUM+残差成功地建模了与普通人体不同的拓扑结构，并捕获了更多的几何细节。图8.失效模式。相互渗透可能导致不想要的形状和语义（泄露的手部语义到脸颊）。极端姿势可能会导致身体部位变形（手臂变细）。残差模型充当围绕imGHUM的拟合层，并且根据由imGHUM定义的距离和语义场而变形。更多示例、数值评估和实现细节请参见补充材料。4. 讨论和结论我们介绍了imGHUM，第一个3D人体模型，具有可控的姿势和形状，表示为隐式符号距离函数。imGHUM具有与现有技术的基于网格的模型相当的表示能力，并且可以表示身体姿势、形状和面部表情以及潜在的精确语义的显著变化。imGHUM具有附加的有价值的特性，因为其潜在的隐式SDF不仅表示身体的表面，而且还表示其邻域，这例如使得能够进行与其他对象的碰撞测试或有效的距离损失。imGHUM可用于构建可能与标准模板不匹配的人类的这为变革性研究和包括服装建模、实现沉浸式虚拟服装试穿或自由视点照片级真实感可视化等应用铺平了道路。我们的模型可用于研究[1]。5469引用[1] https://github.com/google-research/google-research/tree/master/imghum.二、八[2] CMU图形实验室动作捕捉数据库。 2009. 网址：//mocap.cs.cmu.edu/网站。六、七[3] ThiemoAlldieck ， MarcusMagnor ， BharatLalBhatnagar，Christian Theobalt，and Gerard Pons-Moll.学习从一个RGB摄像机重建穿着衣服的人。在IEEE Conf.Comput.目视模式识别，第1175IEEE，2019。一个[4] Matan Atzmon和Yaron Lipman。Sal：从原始数据中学习形状的符号不可知论在IEEE会议Comput. 目视模式识别，第2565-2574页，2020。二个[5] Bharat Lal Bhatnagar，Cristian Sminchisescu，ChristianTheobalt，and Gerard Pons-Moll. Loopreg：用于3D人体网格配准的隐式表面对应、姿势和在高级神经信息。过程。系统，2020年。四个[6] Federica Bogo ， Javier Romero ， Matthew Loper ， andMichael J.黑色. FAUST：3D网格配准的数据集和评估。在IEEE Conf. Comput.目视模式识别IEEE，2014。八个[7] 陈志勤和张浩。学习生成式形状建模的隐式字段。在IEEE会议Comput. 目视患者记录，第5939-5948页，2019年。一、二[8] Julian Chibane，Thiemo Alldieck，Gerard Pons-Moll.特征空间中的隐式函数用于三维形状重构和补全。在IEEE Conf. Comput.目视模式识别IEEE，2020年6月。一、二、七、八[9] Julian Chibane、Aymen Mir和Gerard Pons-Moll。用于隐函数学习的神经无符号距离场。在高级神经信息。过程系统，二零二零年十二月。二个[10] 朱利安·奇巴内和杰拉德·庞斯-莫尔。隐式特征网络用于部分3d数据的纹理完成。以Eur.Conf. Comput. 目视Worksh. Springer，2020年8月。二个[11] Boyang Deng ， JP Lewis ， Timothy Jeruzalski ， GerardPons- Moll，Geoffrey Hinton，Mohammad Norouzi，andAndrea Tagliasacchi.神经关节形状近似。以Eur.确认补偿目视Springer，2020年8月。二、七[12] Kyle Genova 、 Forrester Cole 、 Avneesh Sud 、 AaronSarna和Thomas Funkhouser。三维形状的局部深度隐式函数。在IEEE会议Comput. 目视模式识别，第4857-4866页二个[13] Kyle Genova 、 Forrester Cole 、 Daniel Vlasic 、 AaronSarna、William T Freeman和Thomas Funkhouser。使用结构化隐函数学习形状模板在Int.确认补偿目视，第7154-7164页，2019年。二个[14] Amos Gropp、Lior Yariv、Niv Haim、

下载后可阅读完整内容，剩余1页未读，立即下载