神经参数模型：一种适应观测数据的学习模型，用于重建和跟踪着装人体和手部的单目深度序列

67 浏览量更新于2023-10-14 收藏 42.09MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

126950NPMs: 用于3D可变形形状的神经参数模型0Pablo Palafox 1 Aljaˇz Boˇziˇc 1 Justus Thies 1 , 2 Matthias Nießner 1 Angela Dai 101 慕尼黑工业大学 2 图宾根智能系统研究所0t 1 t 20t N0s0单目深度序列0潜在代码优化0形状0形状MLP0姿势重建0p N0姿势MLP0t 1 t 2 t N0p 2 p 10图1：给定一个输入的单目深度序列，我们的神经参数模型（NPMs），由学习到的潜在形状和姿势空间组成，可以在测试时通过优化空间来适应观测数据，类似于传统的参数模型拟合（例如，SMPL[26]）。NPMs可以从一个包含变形形状的数据集中构建，而不需要对表面对应关系进行强制要求或具有类别特定的知识。我们的隐式形状和姿势空间可以表达更细致的细节，同时提供一个良好正则化的空间来适应新的变形形状观测数据。0摘要0参数化的3D模型在计算机图形学和计算机视觉中已经实现了各种任务，例如建模人体、人脸和手部。然而，构建这些参数化模型通常是繁琐的，因为它需要大量的手动调整，并且难以表示额外的复杂性和细节，例如皱纹或服装。为此，我们提出了神经参数模型（NPMs），这是一种新颖的、学习的替代传统参数化3D模型的方法，它不需要手工制作的、对象特定的约束。特别地，我们学习将4D动态分解为形状和姿势的潜在空间表示，利用了最近在学习隐式函数方面的发展的灵活性。关键是，一旦学习到了，我们的神经参数模型可以通过优化学习到的空间来适应新的观测数据，类似于传统参数化模型的拟合，例如SMPL。这使得NPMs能够在观测到的可变形序列的重建和跟踪方面显著提高准确性和细节表达能力。我们展示了NPMs在重建和跟踪着装人体和手部的单目深度序列方面明显优于传统参数化模型和非参数化模型的最新技术水平。潜在空间插值以及形状/姿势转移实验进一步证明了NPMs的有用性。代码公开可用于https://pablopalafox.github.io/npms。01. 简介0对可变形表面进行建模对于理解我们所生活的4D世界以及创建或操纵动态内容至关重要。虽然在理解3D形状的重建方面取得了重大进展[12, 15, 16, 46, 37,31]，但表示动态的可变形表面仍然具有挑战性。在过去的几年里，参数化的3D模型在特定领域的表示方面取得了显著的成功，例如人体（例如SCAPE [2]，SMPL [26]，Adam[20]），手部（MANO [43]），动物（SMAL[50]）和面部（[39]，FLAME[23]，[40]）。这些模型在建模可变形的3D对象方面具有广泛的应用和重要作用。然而，构建这样一个参数化模型是一项相当复杂和繁琐的任务，需要大量的手动干预，并且需要将对象特定的约束纳入模型中，以便参数化模型能够很好地表示可能的形状和变形空间。此外，这种参数化模型通常难以表示可变形形状的额外复杂性和细节，例如服装、头发等。我们提出了神经参数模型（NPMs），这是一种替代传统参数化3D模型的新型形式，我们在其中学习了一个解耦的形状和姿势表示，可以像传统参数化模型一样用于适应新的观测数据。我们利用这种表示126960利用隐式函数的表示能力，从不需要对所有样本进行表面配准的数据集中学习解耦的形状和姿势空间；这种灵活性使得我们能够在更多样的数据上进行训练。我们也不对运动链、部件数量或骨架做出特定的假设。对于训练，我们的方法只需要同一身份或形状在不同姿势下可见，包括一个规范姿势。一旦训练完成，我们可以利用我们学到的形状和姿势表示作为正则化空间，在测试时平滑地优化以适应新的观测。此外，我们对形状和姿势的解耦隐式表示使得建模任意连接性和拓扑以及更精细级别的细节成为可能。因此，在推理过程中对我们的形状和姿势空间进行优化，可以表示出全局一致的形状和时间一致的姿势，同时保持几何保真度。给定一个包含各种形状身份和可能不同拓扑的数据集，以及每个形状身份的各种变形（但不需要将任何身份与其他身份进行配准），我们以自动解码器的方式训练形状和姿势空间。我们为每个身份学习一个形状代码，形状代码表示形状几何的SDF。姿势代码表示从身份的规范形状到给定姿势形状的流场。流场预测是基于形状和姿势潜在代码的条件的，以表示形状相关的变形，并帮助学习解耦的形状和姿势空间。我们在单目深度序列的重建和跟踪任务上展示了我们的神经参数化模型的能力，以及它们在形状和姿势转移和插值方面的能力。与最先进的参数化三维模型和隐式四维表示相比，我们的NPMs能够捕捉到更高质量的重建结果，具有更精细的细节和更准确的非刚性跟踪。总之，我们提出了以下关键贡献：0•我们提出了一种替代传统参数化三维可变形模型的公式，其中形状和姿势通过两个前馈网络在独立的潜在空间中解耦，这些网络仅通过数据进行学习，不需要领域特定的知识，如运动链或部件数量。0•重要的是，我们的方法具有正则化能力，可以在形状和姿势的潜在空间上进行测试时优化，以解决将模型拟合到单目深度序列的挑战性任务，同时保留数据中的细节。02. 相关工作0传统参数化模型。参数化的三维模型已成为解耦三维形状和姿势的主要方法。0将可变形的三维形状分解为多个因素，例如形状和姿势，用于人体[2, 26, 20, 48]、手[43]、动物[50]和面部[39, 23,40]等领域。SMPL[26]是一种非常流行的基于混合形状和骨架的人体参数化模型，由一组3D人体扫描数据构建而成。还存在扩展模型来模拟软组织[42]和服装[4, 45, 38, 28, 41,1]。构建这种参数化模型通常需要各种领域特定的注释，例如部件数量或运动链。相比之下，我们的NPMs可以从不需要任何专业知识或手动干预的领域数据中学习。此外，诸如SMPL [26]或GHUM[48]之类的方法是基于顶点的蒙皮模型，往往难以表示复杂的表面特征（如皱纹、服装）。通过利用最近提出的隐式函数，我们的方法可以自然地捕捉更复杂的表面细节。0三维形状的隐式表示。隐式表示，如有符号距离场（SDF），已被广泛用于表示三维重建的表面，包括静态[19, 34, 36,13]和动态[33, 44,8]。因此，各种学习三维形状生成的方法也利用了这种隐式定义的表面在体积网格中的表示，其中规则结构非常适合卷积，但对于高分辨率也会导致立方体内存的增长[47,14]。最近的研究在学习连续的隐式函数来表示形状时消除了显式网格结构的限制，并展示了在生成三维形状方面的强大潜力[10, 17, 31, 32, 37, 11]。特别是DeepSDF[37]提出了一个前馈网络，根据表示形状的潜在代码，以自动解码器的方式预测查询位置的SDF值。然而，这些方法产生的静态表面是不可控的，因为形状和姿势在潜在代码中纠缠在一起。我们的方法利用隐式函数的表示能力来学习解耦的隐式空间-一个用于形状的空间和一个用于姿势的空间，从而实现可控的三维模型，可以用于拟合动态数据或通过空间插值生成新的姿态形状。0可变形形状的学习表示。最近，提出了各种学习方法来表示可变形对象[18, 49, 35, 3, 7, 6,24]。Groueix等人[18]提出了一种学习的模板匹配方法。Zhou等人[49]通过自一致性和交叉一致性约束从注册网格数据集中学习解耦的形状和姿势表示，而不需要数据集中的专家知识。我们的NPMs也不需要任何手动注释，但与[49]不同的是，我们不需要一个�arg minθs,{si}Si=1126970模板或数据集中的身份注册。这使得我们的NPMs能够表示复杂的细节和更广泛的形状变化，例如穿着衣物的身体；此外，我们进一步探索了如何在测试时优化我们学习的潜在空间以适应稀疏观测。最近提出的OFlow [35]基于隐式3DOccNet[31]学习从图像或稀疏点云中进行4D重建。OFlow学习了一个时间和空间连续的矢量场，为空间和时间中的每个点分配一个运动矢量，为时空重建开辟了一个有前途的途径，但仅限于非常短的序列。IP-Net[3]提出了一种将学习的隐式函数和传统参数化模型结合起来生成可控人体模型的方法。隐式网络[11]预测内部身体表面和外部详细表面，SMPL+D [1,22]适用于可控性。NPMs也旨在提供一个可控的模型，但我们不像使用SMPL基础的[49]，而是学习了一个解耦的形状和姿势潜在空间的参数化模型，可以通过联合优化空间来进行拟合。03. 方法0我们引入了神经参数模型（NPMs），这是一种从不同姿势标识的数据集中构建参数化3D模型的学习方法；与传统的参数化3D模型不同，我们不需要数据集具有领域特定属性的注释，例如运动链、骨骼或表面到部分的映射。为了构建我们的NPMs，我们学习了一个（规范化的）形状潜在空间，以及一个在给定形状条件下的姿势潜在空间。然后，我们可以在学习的形状和姿势空间上进行联合优化，以适应新的观测。图2显示了我们方法的概述。我们使用隐式表示来表示形状空间，对于输入点编码SDF值，以及姿势空间，对于输入点编码从规范姿势到变形姿势的流动。这些隐式表示结合了对学习空间的联合优化，能够捕捉输入数据中的细节，同时有效地规范形状和姿势潜在空间。03.1. 神经参数模型0给定一个包含同一类别不同姿势的形状标识集的网格数据集，我们的目标是学习一个参数化模型，不仅规范了对象类别的形状和姿势潜在空间，而且在将学习的模型拟合到新的观测时仍然足够表达局部细节。要从数据集中学习NPMs，后者应满足两个简单的约束条件：（1）每个形状标识都是规范化的（例如，T型姿势），（2）每个形状标识都有几个姿势或变形实例，这些实例与规范形状具有密集的表面对应关系。各种现有数据集0（例如，AMASS [30]，DeformingThings4D [25]，CAPE[29]，MANO[43]等）很容易满足这些要求。我们通过学习解耦的形状和姿势空间构建我们的NPMs，利用由多层感知器（MLPs）分别表示形状和姿势的隐式表示。形状编码学习隐式地表示不同标识的规范姿势。姿势空间在姿势和形状编码的条件下，学习一个围绕规范形状的连续变形场，将点从规范形状映射到变形形状。03.2. 学习的形状空间0我们的形状空间是通过一个多层感知机（MLP）学习的，该多层感知机预测了规范姿势下形状身份的隐式SDF；然后，形状被定义为零等值面的决策边界，并可以使用MarchingCubes [27]提取。我们的形状MLP以DeepSDF[37]提出的自动解码器方式进行训练，在训练过程中不使用编码器，直接优化潜在编码空间。训练集中的每个规范姿势形状身份i都被编码为一个Ds维的潜在形状编码si。形状MLP学习将输入点x ∈R3在规范空间中，以si为条件，映射到SDF值预测˜d：0fθs: R3 × RDs → R, (si, x) �→ fθs(si, x) = ˜d. (1)0我们在数据集的S个形状身份的规范姿势（见图2）上训练我们的形状MLP。为此，我们首先将训练形状（包括规范姿势和随机姿势）归一化为单位边界框内，通过将所有形状除以数据集中最大边界框的范围。然后，我们使我们的S个规范形状密封。请注意，用于训练姿势MLP的任意姿势形状不需要是密封的。接下来，对于训练集中的每个第i个形状身份，我们采样N个点{xki}Nski=1 ∈R3以及它们对应的SDF值{dki}Nski=1 ∈R。这些训练样本来自两个来源：（1）在距离形状表面0.05范围内随机采样的Nns个近表面点和（2）在单位边界框内均匀采样的Nus个点，使得Ns = Nns +Nus。有关详细信息，请参阅附录。最后，为了学习潜在形状空间，我们针对所有形状身份在其规范姿势下最小化以下重构能量，与个体形状编码{si}Si=1和形状MLP权重θs有关：0S�0i = 10�0k = 1 Ls(fθs(si, xki), dki) + ∥si∥220σ2s0�, (2)0其中Ls是对预测的SDF˜dki的截断ℓ1损失：0Ls(˜dki, dki) = ��clamp(˜dki, δ) − clamp(dki, δ)�� (3)�arg minθp,{pj}Pj=1126980x0形状MLP0˜ds0x0p0姿势MLP ∆x0Ls Lp0xx + ∆˜x0d0图2：架构概述。为了训练我们的NPMs，我们首先在规范姿势（例如T-pose）下学习了一组形状身份的潜在空间，通过将我们的形状MLP条件化为分配给每个第i个身份的形状编码si。给定这个学习的形状空间，我们学习了一个围绕规范姿势的变形场，将点从该形状的规范空间映射到形状的第j个姿势版本。因此，我们训练了一个姿势MLP，该MLP在身份的潜在形状编码si和相应的潜在姿势编码pj的条件下，预测了查询点x在规范姿势中的流向量∆x。0并且 clamp(d, δ) := min(max(−δ, d), δ)定义了我们维护度量SDF的截断区域。由参数σs控制的潜在编码的ℓ2正则化是为了强制执行紧凑的形状流形，正如[37]中所发现的。0实现细节。我们在形状MLP中使用了八个全连接的Fs维层，其中包含ReLU，并且最后一个全连接层后面跟着tanh，用于回归标量SDF值。在我们的实验中，Fs = 512和Ds =256。我们使用Adam优化器[21]和学习率分别为5 ×10−4和1 × 10−3，用于形状MLPfθs和形状编码{si}Si=1。此外，我们每500个时期应用学习率衰减因子0.5。我们对形状编码应用正则化σs =102，并将SDF截断设置为δ =0.1。潜在形状编码{si}Si=1从N(0, 0.012)随机初始化。03.3. 学习的姿势空间0我们的姿势空间是通过一个MLP学习的，它预测一个变形场fθp，将身份的规范姿势周围的点映射到变形姿势空间中相应的点位置。具体而言，对于规范空间中的查询点x，姿势MLP预测一个流向量∆˜x，该向量将点从规范空间i变形到变形空间j，条件是给定一个Dp维的潜在姿势编码pj以及潜在形状编码si。这个流预测是在si和pj两者的条件下进行的，因为给定身份i的变形姿势j的流将取决于形状本身（例如，对于大人和小人的相同语义姿势，流看起来会不同）。形式上，我们有：0fθp: R3 × RDs × R Dp → R30(si, pj, x) → fθp(si, pj, x) = ∆˜x.0姿势MLP是在身份的规范姿势到任意姿势之间的一组P个变形场上进行训练的0对于每个训练身份，我们都有一组P个变形姿势可用。请注意，我们不要求以相同的姿势看到每个身份，也不要求每个身份具有相等数量的姿势形状。对于训练，我们在数据集中的每个第i个身份的规范形状上采样Np个表面点{xki}Npk=1（参见第3.2节），并存储每个采样点的重心权重。然后，每个点沿着相应三角形的法线方向随机位移一个小距离δn。然后，对于身份的第j个姿势形状，我们使用相同的重心权重和δn计算相应的点{xkj}Npk=1，以采样姿势形状中的点。这种方法给我们提供了给定身份i的规范姿势和相同身份j的变形姿势之间的（在表面附近定义的）变形场。有关进一步的采样细节，请参阅附录。我们使用地面实况流向量∆xkij =xkj -xki，并定义流预测∆˜xkij上的ℓ2损失Lp。为了学习姿势空间，我们最小化关于各个姿势编码{pj}Pj=1和姿势MLP权重θp的以下能量：0P0j = 1 i =0N0k = 1 Lp(fθp(si, pj, xki), ∆xkij) + ∥pj∥^2_20σ^2p0�,0其中m[∙]是一个将姿势形状的索引j映射到其规范形状的索引i的字典，σp是姿势编码的正则化参数。请注意，我们在学习姿势空间时不优化潜在形状编码si。然而，我们发现在姿势MLP预测中将其条件化于潜在形状编码是必要的，以将姿势与形状分离开来。0实现细节。与形状MLP类似，我们在我们的实现中使用了八个全连接的Fp维层。˜s, {˜pj}Lj=1 = arg mins,{pj}Lj=1Lsdf126990姿势MLP，使用ReLU激活函数，后跟一个最终层，回归3维流向量∆˜x。在我们的实验中，我们使用Fp = 1024和Dp =256。我们使用与形状空间训练相同的训练方案。03.4. 推理时优化0一旦我们构建了形状和姿势的潜在表示，我们可以在测试时利用这些空间，通过遍历它们来解决最佳解释输入的深度图序列的潜在编码。因此，我们通过求解最佳解释整个观测序列的唯一潜在形状编码和每帧的深度图姿势编码来拟合输入数据。对于输入序列中的每个深度图，我们将深度值投影到一个256x3的SDF网格中。我们还计算了遮挡区域的体积掩码Mo，这些区域距离输入观测表面超过0.01（归一化单位），即我们不考虑SDF(g) <-0.01的网格点g。然后，我们使用第3.4.1节中描述的初始化过程获得形状编码和姿势编码的初始估计。给定初始形状编码，我们可以提取规范形状表面，然后从中采样Nt个表面点{xk}Ntk=1（在我们的实验中Nt =500,000），并添加从N(0,0.015^2)中采样的随机位移。为了将NPM拟合到单目深度序列，我们最小化以下能量：0j = 10�xk Lr + Lc + Lt + Licp. (5)0我们使用与方程3中的截断ℓ1损失相同的方式来定义重建损失Lr:0Lr = Mo * Ls * ||fθs(s, xk), xk + fθp(s, pj, xk)||0∑, (6)0其中[∙]sdf表示SDF网格的三线性插值，Mo是之前定义的遮挡区域的掩码。与训练时类似，我们对形状和姿势代码进行正则化:0Lc = 0σ^2s||s||^2 + 10σ^2p||pj||^2_2, (7)0其中σs = 10^-1和σp =10^-4。此外，我们还在当前帧j和其相邻帧Q = {j-1,j+1}之间进行时间正则化。这是通过对姿势MLP流预测的点xk进行ℓ2损失来实现的，并且由权重λt = 200控制:0Lt = λt *0||fθp(s, pj, xk) - fθp(s, pq, xk)||^2_2. (8)0最后，我们使用类似ICP的损失Licp来进一步增强拟合（详见附录）。我们使用0使用Adam优化器[21]和学习率分别为5×10-4和1×10-3来优化形状和姿势代码。给定优化后的形状代码和L个姿势代码，为了重建输入序列，我们的方法只需要通过MarchingCubes[27]一次提取规范姿势的隐式表面（见第3.2节）。然后，我们通过查询姿势MLPfθp来将重建的规范网格变形到输入序列中的每一帧。03.4.1 预测形状和姿势初始化0为了为我们的潜在代码优化提供良好的初始化，我们训练了两个3D卷积编码器fΩs和fΩp，分别用于预测潜在形状和姿势代码的初始估计。这两个编码器将反投影的深度观测作为输入，以部分体素网格的形式。然后，我们使用3D卷积和最后的全连接层输出潜在代码的估计值。为了训练这些编码器，我们利用从训练集中学习到的潜在形状和姿势向量，并将它们用作训练编码器的目标代码。我们发现这种学习的初始化提供了稳健的初始代码估计，从而实现了准确的重建和跟踪结果。附录中可以找到更多的架构细节。04. 实验0我们在合成数据集和真实世界数据集上评估我们的NPMs在模型拟合到单目深度序列观测任务上的性能（第4.1节）。此外，我们在第4.2节展示了形状和姿势的转移，并展示了我们学习到的形状和姿势空间在第4.3节中的平滑、清晰的插值。0数据集。NPMs可以用于任何非刚性可变形物体的学习。我们在穿着衣物的人类数据集上与最先进的方法进行了全面比较，并通过学习手部的NPM展示了我们方法的普适性。对于穿着衣物的人类，我们在最近的CAPE[29]数据集上进行评估，该数据集提供了穿着衣物的人类的真实世界扫描和相应的SMPL+D注册。我们还在DeformingThings4D[25]数据集上展示了我们的方法在合成的类人身份上的应用。在训练时，我们使用了来自118个不同身份的45k个任意姿势的形状：来自[25]的33个，来自[29]的35个（其中13个穿着不同的衣物），以及来自AMASS[30]的50个。我们在来自[29]的4个身份和来自[25]的4个身份上测试了我们的人类NPM，总共超过1600帧分布在8个序列中（每个数据集4个）。我们还从MANO[43]的400个不同身份的40k个姿势形状中学习了一个手部NPM，并在500帧上进行了测试，每个序列包含5个身份和100帧。OFlow*0.550.7552.65IP-Net0.820.0342.52realerOFlow*0.402.6887.52cessge127000评估指标。我们同时测量重建和跟踪性能。为了定量测量重建质量，我们报告了两个已建立的指标（遵循[31]的评估协议），这些指标是基于每帧计算的。交并比（IoU）衡量预测网格与真实网格之间的重叠。我们从单位边界框中随机采样了100万个点（我们的归一化网格所在的位置），并确定这些点位于真实网格/预测网格内部还是外部。Chamfer - ℓ2 （C- ℓ 2）提供了一个结合了重建表面的准确性和完整性的度量。根据[31]，我们在真实网格和预测网格上随机采样了10万个表面点。此外，我们使用端点误差（EPE）评估跟踪性能，该指标测量了估计的关键帧到帧变形与真实变形之间的平均 ℓ2距离，如[6]所提出的；我们采样了10万个表面点，并每50帧选择一个关键帧。04.1. 模型拟合到单目深度序列0真实人体数据。我们在表1中与CAPE[29]真实扫描生成的单目深度数据上与最先进的方法进行了比较，并在图3中进行了定性分析。我们与SMPL[26]、一种最先进的传统参数模型，以及最先进的基于深度学习的方法OFlow [35]和IP-Net[3]进行了比较。我们通过最小化表面点与从深度图中提取的SDF网格之间的重建损失（参见第3.4节），并强制表面点位于SDF网格的零级集上，将SMPL模型拟合到输入深度图中。为了指导这个SMPL拟合，我们使用OpenPose[9]提供稀疏关键点对应关系，最小化投影的SMPL关节与OpenPose预测之间的重投影误差。为了增加鲁棒性，我们还约束了SMPL关节在3D中与反投影（使用输入深度图）的OpenPose预测之间的3D误差。通过最小化相邻帧之间的顶点到顶点距离来应用时间正则化。IP-Net在与我们的人体NPM学习相同的人体数据组合上进行训练。由于OFlow是针对连续的长达17帧的序列开发的（我们发现对于更长的序列，性能明显下降），我们准备了一个包含超过200k帧的训练数据集，满足这个要求；在测试时，我们评估覆盖整个测试序列的17帧子序列的平均值。我们学习形状和姿势空间的方法-使潜在代码优化适应拟合-在流形上提供了有效的形状和姿势正则化，同时捕捉局部细节。这导致了更准确的重建和跟踪性能。0合成人体数据。我们还在DeformingThings4D[25]数据集的合成序列上进行评估，比较0方法 IoU ↑ C- ℓ 2 ( × 10 − 3 ) ↓ EPE ( × 10 − 2 ) ↓0我们的方法（无形状编码）0.83 0.023 0.77我们的方法（无姿势编码）0.78 0.174 3.61我们的方法（无形状和姿势编码）0.77 0.185 3.65 我们的方法0.83 0.022 0.740表1：与CAPE[29]真实扫描数据上的最先进方法进行比较。*由于OFlow[35]仅适用于长达17帧的序列，我们报告了该长度子序列的平均值。0方法 IoU ↑ C- ℓ 2 ( × 10 − 3 ) ↓ EPE ( × 10 − 2 ) ↓0我们的方法 0.78 0.051 1.070表2：与DeformingThings4D[25]数据集上的最先进方法进行比较。*由于OFlow[35]仅适用于长达17帧的序列，我们报告了该长度子序列的平均值。0方法 IoU ↑ C- ℓ 2 ( × 10 − 3 ) ↓ EPE ( × 10 − 2 ) ↓0OFlow 0.74 0.105 1.12 Ours 0.83 0.019 0.610表3：与OFlow [35]在D-FAUST [5]上的比较。0在表2中与SMPL [26]和OFlow[35]进行比较。我们学到的形状和姿势空间有效地捕捉到了我们模型拟合实验中重建和跟踪的显著改进。图4显示了与最先进的方法的定性比较，展示了我们的全局重建和跟踪以及捕捉到的局部细节。0D-FAUST上的4D点云完成。我们还在D-FAUST[5]上与OFlow[35]进行了4D点云完成任务的比较，结果如表3所示。我们使用作者提供的经过预训练的OFlow模型，并在从地面真实网格采样的20k个密集点云轨迹上进行测试。对于我们的方法，我们只考虑单目深度图像序列作为输入，导致观测更为局部。即使有更多的局部数据，我们的NPM拟合也取得了显著的改进性能。0编码器初始化的效果如何？在表1中，我们评估了我们的编码器初始化对于我们的NPMs优化的影响。我们使用训练集中的平均形状和姿势潜码代替编码器预测的初始化。我们测量了不使用形状编码器（无形状编码器），不使用姿势127010输入OP+SMPL OFlow IPNet GT Registration GT Scan0t 00t n0图3：在单目深度序列输入（左列）上与最先进的方法进行模型拟合的比较。从左到右，我们与OpenPose [9] + SMPL[26]，OFlow [35]和IP-Net [3]进行比较；我们的NPM有效地捕捉到输入视图中存在的局部细节。最后两列显示了由CAPE[29]提供的地面真实注册和原始扫描，其中生成了输入深度图。0输入OP+SMPL OFlow GT0t 00t n0图4：在合成数据集（DeformingThings4D[25]）的单目深度序列输入（左列）上与最先进的方法进行模型拟合的比较。从左到右，我们与OpenPose [9] + SMPL[26]和OFlow [35]进行比较；我们的NPM有效地捕捉到输入视图中存在的局部细节。0编码器（无姿势编码器），并且不使用形状编码器和姿势编码器（无S&P编码器）进行代码初始化。我们编码器提供的形状和姿势代码估计结果更接近初始化，并改善了重建和跟踪性能。0手部注册。NPM可以在各种数据集上构建，包括姿势身份。我们展示了它在使用MANO[43]参数模型生成的手部数据上的适用性。图5显示了我们的手部NPM拟合测试单目深度序列。我们准确地捕捉到了全局结构和较小尺度的细节（例如弯曲指节的褶皱），实现了IoU为0.86，Chamfer-ℓ2为1.39×10-5，EPE为5.89×10-3。04.2. 形状和姿势转移0NPM使形状和姿势转移成为可能：我们可以将给定的身份转移到姿势形状（形状转移），并且在不同姿势中给定源身份的情况下，我们可以重新定位目标身份以具有源身份的姿势（姿势转移）。这是由于我们的解缠形状和姿势嵌入空间的存在，它使得形状和姿势潜码的新组合成为可能。在图6和补充视频中，我们展示了更多的形状和姿势转移示例。04.3. 潜空间插值0我们的形状和姿势的潜空间可以被遍历以获得新的形状和姿势。通过插值进行遍历127020t 20t 10输入0t 00侧面视图正面视图 GT0图5：将我们的手部NPM注册到使用MANO[43]生成的单目深度视图测试序列中。0形状转移0姿势转移0图6：使用NPM进行形状和姿势转移。我们可以将给定的身份转移到一个姿态形状上（形状转移）；给定不同姿态的源身份，我们可以将目标身份重新放置到源身份的姿态上（姿势转移）。0学习空间（图7和补充视频）的连续性表明了我们的形状和姿势潜空间的连续性。0限制。虽然NPMs展示了构建和拟合学习参数模型的潜力，但仍存在一些限制。例如，我们对形状和姿势变形的隐式表示在处理非常平坦的表面时可能会遇到困难，因为它们几乎没有体积，并且必须明确定义内部/外部；结合语义信息可以帮助解决这个问题。0形状姿势0图7：形状和姿势潜空间插值。0将形成转化为NPMs可能有助于解决这个问题。虽然NPMs可以捕捉输入数据中存在的细节（例如，服装边界），但高频细节（例如，领带的轮廓）仍然具有挑战性。我们学习的空间也没有考虑变形的物理学，这可能会鼓励体积保持和将变形限制在物理上正确的运动中。05. 结论0在本文中，我们介绍了神经参数模型（NPMs），可以构建具有分离形状和姿势表示的学习参数模型，可以准确表示4D动态对象的序列。与传统的参数模型不同，我们的NPMs利用了学习的隐式函数来表达形状和姿势的局部细节，并且我们的测试时潜空间代码优化可以准确地拟合输入单目深度序列中的观察细节，优于参数化和学习的4D表示。我们学习的NPMs还可以实现有效的形状和姿势转移，并在新的形状和姿势之间展示平滑的插值。我们还展示了对手部数据集的更广泛适用性，并相信这为时空建模的其他领域开辟了许多有前途的途径。0致谢0该项目由巴伐利亚州科学和艺术部资助，由巴伐利亚数字转型研究所（bidt）协调，获得TUM-IAS RudolfM¨oßbauer奖学金、ERC起始资助Scan2CAD（804724）和德国研究基金会（DFG）资助。使机器学习在静态和动态3D数据上变得实用。127030参考文献0[1] Thiemo Alldieck, Marcus Magnor, Bharat Lal Bhatnagar,Christian Theobalt, and Gerard Pons-Moll.从单个RGB相机学习重建穿着衣物的人物。在IEEE/CVF计算机视觉和模式识别会议论文集中，第1175-1186页，2019年。2，30[2] Dragomir Anguelov, Praveen Srinivasan, Daphne Koller,Sebastian Thrun, Jim Rodgers, and James Davis. Scape:人体的形状补全和动画。在ACM SIGGRAPH2005论文集中，第408-416页，2005年。1，20[3] Bharat Lal Bhatnagar, Cristian Sminchisescu, ChristianTheobalt, and Gerard Pons-Moll.结合隐式函数学习和参数模型进行3D人体重建。arXiv预印本arXiv:2007.11432，2020年。2，3，6，70[4] Bharat Lal Bhatnagar, Garvita Tiwari, Christian Theobalt,and Gerard Pons-Moll.从图像中学习为3D人物穿衣服的多服装网络。在IEEE/CVF国际计算机视觉会议论文集中，第5420-5430页，2019年。20[5] Federica Bogo, Javier Romero, Gerard Pons-Moll, andMichael J Black. Dynamic faust:注册运动中的人体。在IEEE计算机视觉和模式识别会议论文集中，第6233-6242页，2017年。60[6] Aljaˇz Boˇziˇc, Pablo Palafox, Michael Zollh¨ofer, JustusThies, Angela Dai, and Matthias Nießner.神经变形图用于全局一致的非刚性重建。arXiv预印本arXiv:2012.01451，2020年。2, 60[7] Aljaˇz Boˇziˇc, Pablo Palafox, Michael Zoll¨ofer, AngelaDai, Justus Thies, and Matthias Nießner.神经非刚性跟踪。在NeurIPS会议上，2020年。20[8] Aljaz Bozic, Michael Zollhofer, Christian Theobalt, andMatthias Nießner. Deepdeform:使用半监督数据学习非刚性RGB-D重建。在2020年IEEE/CVF计算机视觉和模式识别会议论文集中，第7002-7012页，2020年。20[9] Zhe Cao, Gines Hidalgo, Tomas Simon, Shih-En Wei, andYaser Sheikh. Openpose:使用部分关联场进行实时多人2D姿势估计。《IEEE模式分析与机器智能交易》，43(1):172–186，2019年。6, 70[10] Zhiqin Chen和Hao Zhang.学习隐式场用于生成形状建模。在2019年IEEE/CVF计算机视觉和模式识别会议论文集中，第5939-5948页，2019年。20[11] Julian Chibane, Thiemo Alldieck, and Gerard Pons-Moll.隐式函数在特征空间中用于3D形状重建和补全。在2020年IEEE/CVF计算机视觉和模式识别会议论文集中，第6970-6981页，2020年。2, 30[12] Christopher B Choy, Danfei Xu, JunYoung Gwak, KevinChen, and Silvio Savarese. 3d-r2n2:一种用于单视角和多视角3D物体重建的统一方法。在欧洲计算机视觉会议论文集中，第628-644页，2016年。10[13] Angela Dai, Matthias Nießner, Michael Zollh¨ofer,Shahram Izadi, and Christian Theobalt. Bundlefusion:使用即时表面重整实现实时全局一致的3D重建。《ACM图形学交易》，36(3):24:1–24:18，2017年。20[14] Angela Dai, Charles Ruizhongtai Qi, and MatthiasNießner.使用3D编码器-预测器CNN和形状合成进行形状补全。在2017年IEEE计算机视觉和模式识别会议(CVPR2017)论文集中，第6545-6554页，2017年。20[15] Angela Dai, Charles Ruizhongtai Qi, and MatthiasNießner.使用3D编码器-预测器CNN和形状合成进行形状补全。在2017年IEEE计算机视觉和模式识别会议论文集中，第5868-5877页，2017年。10[16] Haoqiang Fan, Hao Su, and Leonidas J Guibas.一种用于从单张图像重建3D物体的点集生成网络。在IEEE计算机视觉和模式识别会议论文集中，第605-613页，2017年。10[17] Kyle Genova, Forrester Cole, Daniel Vlasic, Aaron Sarna,William T Freeman, and Thomas Funkhouser.使用结构化隐式函数学习形状模板。在2019年IEEE/CVF国际计算机视觉会议论文集中，第7154-7164页，2019年。20[18] Thibault Groueix, Matthew Fisher, Vladimir G Kim, BryanC Russell, and Mathieu Aubry. 3d-coded:3D深度变形的3D对应关系。在欧洲计算机视觉会议(ECCV)论文集中，第230-246页，2018年。20[19] Shahram Izadi, David Kim, Otmar Hilliges, DavidMolyneaux, Richard A. Newcombe, Pushmeet Kohli, JamieShotton, Steve Hodges, Dustin Freeman, Andrew J. Davison,and Andrew W. Fitzgibbon. Kinectfusion:使用移动深度相机进行实时3D重建和交互。在第24届ACM用户界面软件和技术研讨会论文集中，第559-568页，2011年。20[20] Hanbyul Joo，To

下载后可阅读完整内容，剩余1页未读，立即下载