没有合适的资源?快使用搜索试试~ 我知道了~
128510SPAMs:结构化隐式参数模型0Pablo Palafox 1 � Nikolaos Sarafianos 2 Tony Tung 2 Angela Dai 101 德国慕尼黑工业大学 2 Meta Reality Labs研究,美国索萨利托0正面视图0输入深度序列重建和跟踪0侧面视图0t 00t 10t 2 t 0 t 1 t 20输入上的部分预测0t 00t 10t 20部分空间0图1.我们提出使用基于部分的解耦空间对变形形状进行结构化分解,作为结构化隐式参数模型(SPAMs)。SPAMs学习可优化的局部形状和姿态空间,我们可以在测试时遍历这些空间以适应未见过的变形物体的深度序列观测。我们的结构化部分分解通过部分之间的相关性实现低维粗略运动对应,从而引导在复杂运动序列下对基于部分的形状和姿态空间进行全局一致、准确的跟踪。0摘要0参数化的3D模型在建模可变形物体(如人体、面部和手部)方面起着基础性的作用;然而,构建这样的参数化模型需要大量的手动干预和领域专业知识。最近,神经隐式3D表示在捕捉3D形状几何方面表现出了很强的表达能力。我们观察到可变形物体的运动通常具有语义结构,并因此提出学习结构化隐式参数模型(Structured-implicit PArametricModels,SPAMs)作为一种可变形物体表示,将非刚性物体运动结构化地分解为基于部分的解耦形状和姿态表示,每个表示由深度隐式函数表示。这使得我们能够对物体运动进行结构化的描述,通过部分分解对低维空间进行粗略的运动对应建模。特别是,在测试时,我们可以利用部分分解来适应未见过的可变形物体的深度序列观测。我们的结构化部分分解通过部分之间的相关性实现低维粗略运动对应,从而引导在复杂运动序列下对基于部分的形状和姿态空间进行鲁棒的联合优化,以实现全局一致、准确的跟踪。0通过建立输入观测和我们学习到的部分空间之间的部分对应关系,我们可以适应新的深度序列观测并对其进行拟合;这通过在所有部分的形状和姿态之间进行鲁棒的联合优化来引导,即使在剧烈运动序列下也能实现。实验证明,我们对部分感知的形状和姿态理解在复杂可变形物体运动的重建和跟踪方面具有最先进的性能。01. 引言0*这项工作是在Meta RL研究实习期间进行的。fixed-topology template [1,4,35,36]. In the latter case, para-metric 3D models in particular have made notable impact inmodeling domain-specific deformable 3D objects, such asfor human bodies [2,20,23], faces [22,34], hands [40], andanimals [51]. However, such parametric 3D models requirea complex construction process involving domain-specificknowledge and manual efforts, while remaining limited inexpressability of local shape details.Recently, advances in learned continuous implicit repre-sentations for modeling 3D shapes have shown impressiverepresentation power for capturing effective static 3D shapegeometry at relatively high resolutions [7, 8, 17, 28, 29, 33,39]. Such approaches have also been extended to represent4D reconstruction of dynamic objects by efficiently disen-tangling learned implicit spaces representing shape and dy-namic movement [31, 32]. This has proven to be a verypromising direction, but these approaches characterize ob-jects as a whole, whereas we observe that the 4D motion ofan object typically maintains a strong structured correlationon a lower-level part basis.Thus, we propose Structured-implicit PArametric Mod-els (SPAMs), which learn a structured, part-based, disentan-gled representation of deformable 3D objects. Given a setof observations of various shape identities in different poses(including a canonical pose) with coarse part annotations,we learn part-based latent spaces characterizing each part’sgeometry and motion. Note that we do not require compre-hensive surface correspondence throughout the dataset, norcomplex domain-specific knowledge (e.g., skeleton, kine-matic chain).We leverage continuous implicit functionrepresentations for each part’s geometry, represented as asigned distance field in its canonical space, and pose, repre-sented as a local deformation relative to the canonical space.At test time, we traverse the learned latent part spacesto fit to new depth sequences.Crucially, our part-basedrepresentation allows leveraging predicted part segmenta-tion of the new observation to establish global correspon-dences with our part-based latent representations. By estab-lishing correspondence through our part priors, we can ro-bustly track sequences with significant motion changes bydiscovering high-level part correspondence and leveragingit to guide our joint optimization over part-based shape andpose. Experiments on non-rigid tracking and reconstruc-tion of single-camera depth sequences of humans from theRenderPeople dataset [12] show that the part-aware reason-ing of our SPAMs can outperform the state of the art byan order of magnitude on reconstruction (Chamfer distance)and by 43% on tracking (3D End-Point-Error). In summary,we present the following contributions:128520•我们学习了一个基于部分的形状和姿势解缠,捕捉了可变形三维物体的局部特征,这些特征在表示每个部分的形状和姿势的潜在空间中。0•我们学到的可优化空间使得基于部分的推理能够指导对部分的联合优化,以适应未见过的测试序列。通过在新观察和我们学到的部分空间之间建立高级部分对应关系,我们可以稳健地引导对部分几何和姿势的联合优化,从而得到更全局一致的非刚性重建和跟踪。02. 相关工作0参数化和神经参数化模型。参数化身体模型[23, 48,50]能够用有限的参数(即低维描述符)表示人体的变化。在这个研究领域中最有影响力的工作之一是SMPL[23],这是一个广泛使用的参数化模型,用于描述具有多样化的3D人体扫描数据集中学习到的变形混合形状的身体形状和姿势。参数化身体模型已经为建模软组织[36]和服装[1, 25,45]的研究工作提供了可能。然而,参数化身体模型[23,48]使用基于顶点的蒙皮模型进行变形,这种模型的分辨率有限,不能表示着装身体的非线性表面变形(例如皱纹)。为了克服这些限制,神经参数化模型[32]学习将4D动态解缠为形状和姿势的潜在空间表示,使用隐式函数,并且可以通过优化姿势和形状代码来适应新的观察结果。然而,它们将人体视为一个单一实体,这导致了一些不太真实的动作。Genova等人[16,17]通过引入LDIF解决了这个问题,LDIF是一种隐式描述形状的3D表示。LDIF通过使用PointNet[15, 37,38]对每个形状内的3D点进行编码,从而输出了一个结构化的形状元素分解,并且能够对全局结构中排列的局部区域中的形状进行编码,例如人体。LDIF的3D分解倾向于时态一致性,但由于没有明确考虑跟踪,所以在更具挑战性的运动场景中,表面跟踪往往变得不一致。相比之下,我们学习了一个语义驱动的部分分解,它引导了基于部分的形状和姿势优化,从而实现了对动态序列的稳健、一致的跟踪。连续隐式可变形表示。基于隐式和生成的人体或服装表示是近年来的一个研究热点[9, 10, 30, 33, 42, 43, 47,49]。最近的一些工作集中在学习特定身份的隐式表示,以实现对着装人物的动画化[11, 13, 19, 30, 41,46]。Neural-GIF[46]提出了一个框架,可以直接根据姿势来为扫描的着装人物进行动画化,而无需进行注册。SCANimate[41]和LEAP[30]学习了人体表面的姿势或形状表示。虽然有希望,但这些方法学习了xx + ∆˜x˜d1˜w˜w1˜w1˜w2˜wQwdxs1s1s2sQx˜d2Lsdxs2˜dQdxsQxp1s1xx∆˜x1∆xLp˜w2∆˜x2∆xLp˜wQ∆˜xQ∆xLpLsLsp2s2pQsQ128530形状MLP 102. 形状潜在空间 3. 姿势潜在空间 1. 部分解码器0部分MLP0形状MLP 20形状MLP Q0姿势MLP 10姿势MLP 20姿势MLP Q0图2. 结构化隐式参数模型构建。SPAMs学习了形状和姿态的结构化分解,其中局部形状代码{s q}可以解码为表示局部部分几何的形状,而{sq}和部分解码器都提供了局部姿态运动的信息。为了构建一个SPAM,我们首先在规范空间中学习结构化分解,作为一个部分解码器,它在所有局部形状代码{sq}的条件下预测部分类别;我们使用这个学习的部分分解来指导局部(形状和姿态)MLPs集中在它们对应的空间划分上。我们在规范空间中通过将一组局部形状MLPs条件化于每个身份和部分q分配的局部形状代码{sq}来学习一个结构化的潜在形状空间。我们使用局部姿态MLPs在局部潜在形状和姿态代码s q和p q的条件下预测规范空间中x的∆ x。0特定的模型,因此缺乏对可变形物体的一般特征描述。给定一个姿态但未穿衣的身体模型,POP[27]用一组点来表示穿衣人体,以创建姿态相关的服装动画。然后可以从穿着衣物的未见过的人的扫描中创建新的动画。Bhatnagar等人提出了IP-Net[3],一种将学习的隐式函数和传统参数化模型相结合的方法,用于生成可控的人体模型。IP-Net预测与SMPL的对应关系,并利用双层表面来表示内部和外部表面,以更好地表示穿着衣物的身体。我们提出的方法也建立在学习的隐式表示的可表达性基础上,并且我们建议从没有对表面对应关系注释的数据集中学习,以构建一个提供强大高级指导的通用、语义驱动的分解,以实现在具有挑战性的运动场景下的稳健姿态跟踪。03. 结构化隐式参数模型0我们引入了结构化隐式参数模型(SPAMs),这是一种从给定对象类的姿态身份数据集中构建部分感知、隐式、参数化3D模型的学习方法。我们不需要数据集中每个实例之间的表面对应关系,也不需要物理领域特定属性(如骨架或运动链)的注释。我们的SPAMs在结构上进行了分解0将非刚性物体运动分解为基于部分的隐式空间,表示每个部分的形状和姿态。SPAMs包括(1)在规范形状空间中表征部分几何的学习潜在空间,(2)在部分形状上有条件的部分解码器,指导规范空间的基于部分的结构化划分,以及(3)有条件的结构化潜在姿态空间,同时考虑部分形状和姿态。在测试时,SPAMs不仅允许对形状和姿态的学习局部空间进行联合优化,以适应新观测数据,而且关键的是,我们基于部分的表达方式使得能够建立预测部分与基于部分的潜在表示之间的高级对应关系。这种部分对应关系使得能够在部分形状和姿态空间上进行稳健的全局优化,从而实现对未见过的非刚性物体序列的稳健、一致的重构和跟踪。03.1. 概述0给定一个相同类别的形状身份数据集,其中包含规范空间中的粗糙部分分割,我们的目标是学习一个基于部分的参数化模型,结构上解耦形状和姿态。我们利用这种结构化的部分分解来适应新的身份的深度序列,其中我们基于部分的表示提供了一个低维空间,以建立语义部分对应关系,为我们基于部分的形状和姿态拟合提供强大的指导,以应对具有挑战性的情况。�fθqs : RDs ×R3 → R,siq, x �→ fθqssiq, x = ˜dq. (2)128540复杂运动。我们的SPAM将分离的形状和姿势表示为基于局部部分的形状空间集合 { s q } 和相应的局部姿势空间集合 {p q }。为了获得这些局部空间的结构化划分,我们首先学习一个部分解码器,用于预测规范空间的分割为一组局部部分(第3.2节)。在学习到的空间划分的基础上,我们可以构建结构化形状空间作为一组局部隐式几何表示(第 3.3节)。然后,我们将结构化姿势空间构建为一组局部隐式变形场,用于描述每个局部形状的运动(第 3.4节)。最后,为了适应测试时未观察到的身份的新深度序列,我们利用部分对应关系将形状和姿势空间集合获得一个稳健的联合优化,准确表示观察到的形状(第 3.5 节)。03.2. 部分解码器0为了建立结构化空间划分,我们学习了一个部分解码器,用于对规范空间进行分割并指导基于部分的形状和姿势潜在空间的学习。部分解码器 f θ q由一个MLP组成,用于预测查询点 x ∈ R 3 的部分置信度。0在规范空间中。我们以自动解码器的方式实现部分解码器[33],并以 D s 维局部潜在形状代码 s q 的串联为条件(第3.3 节)。设 Q 表示部分的数量,导致局部形状代码的 QDs 维串联。形式上,我们有:0f θ q :R QD s × R 3 → R Q,([ s q ],x)→ f θ q ([ s q],x)= ˜ w。(1)0其中 [ s q ] 是所有 Q 个局部形状代码 { s q } 的串联。我们使用二元交叉熵损失训练 f θ q,该损失在预测和地面真实部分标签之间进行计算,地面真实部分标签表示为独热向量。我们考虑六个粗略部分:头部、躯干、右臂、右腿、左臂和左腿(参见图 1 -中心)。一个点 x ∈ R 30在规范空间中,可以属于任何这些部分类别的点,其中 Q维度的 ˜ w 表示 x属于每个相应部分的可能性。特别地,我们允许靠近两个部分边界的点同时属于两个部分,通过在地面真实部分向量中指示两个部分都是一个部分来实现。这样可以对边界区域进行正则化,以确保形状和姿势潜在空间的隐式函数之间的平滑过渡。请注意,f θ q 预测规范空间中所有点 x ∈ R 3的部分概率,而不仅仅是表面点。这种策略在测试时优化过程中为非表面位置提供了更准确的部分预测(第 3.5节)。用于监督部分解码器的地面真实值的获取方法如下:如第 3.3节所示,为了训练我们的形状潜在空间,我们随机采样具有法线的密集表面点以及在 [−1, 1] 3中随机采样的非表面点。0我们重复使用这些点来训练我们的部分解码器,其中每个表面点的部分标签直接从原始扫描或网格中获取,而对于非表面点,则通过最近邻查询获得。实现细节。我们使用一个具有隐藏维度为 256 和频率 ω = 30 的 6 层 SIREN [44] MLP进行部分解码器的实现(遵循 [44])。正如 [6]所示,对于具有周期激活的隐式神经表示,通过串联进行条件处理是次优的,因此我们采用了他们提出的 FiLM条件处理方法,其中一个映射网络接受潜在代码 z并输出频率和相位以对 SIREN MLP的每一层进行条件处理。映射网络是一个具有隐藏维度为128 的 4 层 LeakyReLU MLP。我们使用 Adam 优化器[21],解码器和映射网络的学习率均为 1 × 10^(-4)。03.3. 结构化形状空间0我们的多部分形状空间是通过一个字典中的 Q个局部MLP学习得到的,每个MLP学习表示其规范姿势下的局部形状部分,将其几何特征化为带符号距离场的零等值面决策边界。 Q 个局部MLP的结构分解由部分解码器 f θ q预测的部分分解引导。为了从我们的结构化形状空间中提取完整的形状,我们查询3D网格中的所有 Q个形状MLP,根据给定查询点的预测部分置信度平均其SDF贡献,并最后使用Marching Cubes [ 24]提取网格。每个形状MLP都是以自动解码器的方式进行训练的[ 33 ],类似于部分解码器。我们直接优化潜在编码 s q,它是特定于其分配部分 q的形状潜在空间的编码。然后,训练集中规范姿势形状标识i 的每个部分 q 都被编码为 D s 维潜在形状编码 s i q。反过来,每个形状MLP f θ q s 都学习将输入点 x ∈ R 3在规范空间中,以局部形状编码 s i q为条件,映射到预测的SDF值 ˜ d q :0由于训练数据通常不包含完整的封闭网格,我们直接在从(可能不完整的)训练网格中采样的定向点云上进行训练,遵循[ 18]的方法。这是通过求解Eikonal边界值问题来实现的,该问题约束SDF的空间梯度的范数几乎处处为1 [ 18 , 44]。在实践中,我们使用[ 44]中提出的Eikonal损失。作为训练数据,我们只需要每个标识的表面点及其关联的法线,以及单位立方体中的随机采样坐标。对于批次中的每个标识,我们采样 N s个点,其中一半是从给定标识中子采样的表面点,另一半是随机采样的坐标。arg minθqs ,{siq}Si=1Q�q=1S�i=1� Ns�k=1wi,kq Ls(fθqs (siq, xki ), dki ) + Lr�.(3)�arg minθqp,{pjq}Pj=1128550对于每个部分 q,我们在空间中进行采样。然后,对于每个部分 q,我们通过最小化以下重构能量来训练相应的形状MLP,该能量是相对于数据集的 S 个规范化形状标识和局部形状编码{ s i q } S i =1 以及形状MLP权重集合 θ q s 的:0这里, L s 是SIREN [ 44]中提出的Eikonal损失版本,它强制要求(1)表面点的SDF预测为0,(2)真实表面法线与估计法线匹配(计算为给定位置的SDF函数的空间梯度),(3)SDF梯度的范数几乎处处为1,(4)非表面点的SDF值不接近0。更详细的解释请参考[ 44]。此外,我们对潜在形状编码施加了零均值多元高斯分布,其球形协方差为 σ s ,这是在[ 33 ]中提出的: L r = �� s i q ��2 2 /σ 2 s 。重要的是,每个点的损失贡献都由其来自 f θ q的预测部分置信度 w i,k q加权,使得每个局部形状MLP能够专注于其相应的局部区域。也就是说,如果对于点 x ,类别 q 的 w i,k q 接近1,则x 很可能属于 q 。那么来自点 x的贡献的梯度将以较高的权重反向传播到部分 q 的形状MLP θ q s 。相反,如果 w i,k q 接近0,则 x 很可能不属于 q,并且 f θ q 将不会学习在 x处生成几何形状。实现细节:每个形状潜在空间都被实现为一个具有6层的SIREN [ 44 ] MLP,隐藏维度为256,频率ω = 30 。我们为每个部分使用128维形状潜在编码( D s =128 )。与我们的部分解码器类似,我们使用FiLM条件化[6]将SDF预测条件化为局部潜在形状编码,其中映射网络实现为具有每层128个单元的4层LeakyReLUMLP。我们使用Adam优化器和学习率分别为1 × 10−4和1× 10−3来训练局部形状MLP f θ q s 和局部形状编码 { s i q} S i =1 。潜在形状编码从 N (0 , 0.01^2 ) 中随机初始化。03.4. 结构化姿态空间0与我们的结构化形状潜空间类似,我们的结构化姿态空间是通过一个字典的Q个局部MLP学习的,每个MLP都经过优化,以表示将查询点x从身份i的规范空间映射到变形空间j的局部变形场,通过预测流向量∆˜xq。这个预测是有条件的,既取决于D p维的潜在姿态代码pj q,也取决于相应部分q的潜在形状代码s iq,因为姿态变形随着形状的变化而变化。由于流向量离表面越远,信息越少,因此变形场仅在形状表面附近的薄层中定义。0形式上,我们有:0f θ q p:R D s × R D p × R 3 → R 3,� s i q,p jq,x � �→ f θ q p � s i q,p j q,x � = ∆˜ x q。0我们的局部姿态MLP是通过多达P个变形实例的身份进行训练的;请注意,这不需要不同的身份以相同的姿势出现。为了训练这些局部姿态空间,我们在规范和姿势帧之间采样密集的、接近表面的对应关系,这相当于在相同的重心坐标下采样规范和姿势原始网格,类似于[32]。学习一个局部姿态空间θ qp等于最小化以下能量项,该能量项针对所有P个变形场与个体(和局部)姿态代码{p j q}P j = 1和姿态MLP权重θ qp进行:0P �0j = 1i (j)0� Q 0q = 10k = 1 w i,k q L p + L r,(4)0其中i(j)是将姿态形状的索引j映射到其规范形状的相应索引i的映射,Lp是预测流向量和地面真实流向量之间的ℓ2损失:0L p := L p (f θ q p (s i q, p j q, x k i), ∆ x k ij)。 (5)0与结构化局部形状空间类似,我们通过利用f θq预测的部分置信度w i,kq鼓励相应的结构分解局部部分空间。我们还通过Lr对潜在姿态代码施加类似的零均值多变量高斯分布。在学习这些姿态潜空间时,我们不优化局部形状代码。实现细节。我们将结构化姿态潜空间实现为4层SIRENMLP,隐藏维度为256,ω = 15,并将D p =64设置为我们的局部姿态代码的维度。我们采用与训练形状空间相同的训练方案。03.5. 测试时优化0我们的结构化形状和姿态的潜在表示可以在测试时进行优化,以适应一系列L深度图的SPAM的准确重建和跟踪。这是通过求解一组Q个局部潜在形状代码(表示为[˜s])和Q×L个潜在姿态代码(每帧Q个姿态代码){[˜ p j]}L j=1来实现的,这些代码最好解释了输入序列。序列中的每个深度图被解释为其反投影值的2563-SDF网格。还提取体积掩码Mo,用于遮蔽远离观察表面超过0.02(在归一化单位中)的区域。我们还为每个点预测部分标签。j=1L�j=1sdf128560图3。我们的部分感知Licp可以在困难的运动情况下(例如,绿色的右臂)在输入点(左)和姿态估计(右)之间建立高级对应关系,即使初始姿态估计很差,也可以引导优化到准确的跟踪。0在优化之前,我们初始化局部形状和姿态代码。为了初始化每个局部形状代码sq,我们使用每个部分q的平均优化训练代码。为了初始化局部姿态代码,我们利用一个学习的姿态编码器将输入深度图映射到潜在代码。虽然我们发现我们的结构化形状和姿态的部分表示可以从所有代码的随机姿态初始化中稳健地跟踪,其中所有代码都来自N(0,0.012),但通过学习的编码器初始化可以获得改进的姿态跟踪(参见第4节)。给定初始形状代码估计,我们可以在3D网格上查询我们的结构化形状MLP,提取等值面与MarchingCubes[24]。我们使用初始规范形状来指导接近表面的采样,并在这个初始的规范形状周围采样N t = 500 k个点{x k}Nt k =1;在优化过程中,对于每个小批量中的每个帧,我们从可用的N t中子采样N b = 20 k个点,以最小化以下方程:0[˜ sq] , { [˜ pjq] } Lj =1 = argmin0� xk Lr + Lc + Lt + Licp. (6)0Lc强制形状和姿势代码的正则化,就像训练中一样,而Lt强制当前帧j与其相邻帧之间的时间正则化(更多细节请参见补充材料)。03.5.1 结构引导的形状和姿势优化0为了通知我们的重建损失Lr和Licp,我们使用了在观察到的深度视图中预测的部分之间的结构对应关系,以及来自我们的潜在形状和姿势空间的部分分解(见图3)。我们使用了一个夹紧的ℓ1[14]重建损失Lr:0Lr =0q =1 M L s � fθqs (sq, xk) , � xk + fθqp (sq,pjq, xk) �0�0(7)其中[∙]sdf表示SDF网格的三线性插值,M =MqpartMo利用部分和遮挡信息来通知重建。Mo表示一个遮挡的掩码。0未遮挡区域,如第3.5节所定义。Mpart表示由部分解码器给出的部分标签预测的网格。我们通过在规范空间中随机采样点,并从fθq获取这些点的预测部分标签,通过fθqp将这些点变形到每个帧上,并最终查询每个网格位置上离变形点最近的点,以获得体素的部分标签。这使得能够针对每个估计的部分几何和姿势在局部进行重建。最后,我们采用了一个以部分为导向的类似ICP的损失Licp,它在确保姿势代码初始化的鲁棒性方面起着关键作用。也就是说,我们在每次Iresample迭代中,考虑到当前形状代码状态的规范姿势形状,重新采样一个新的Nt =500k点集,这些点围绕着网格,并保留那些与隐式表示的表面距离为ϵicp的点。我们使用我们的部分解码器(第3.2节)为这些规范点估计部分标签,然后使用我们的姿势解码器将它们变形到一个姿势帧j中。然后对于输入深度图中的每个点,并给定其由PointNet++预测的部分q(obtained byPointNet++),我们根据fθq在属于q的变形点集中找到其最近邻,以建立对应关系。关键是,这在姿势初始化可能明显不对齐的挑战性运动场景中提供了鲁棒的对应关系,如第4节所示。04. 实验0我们在深度序列模型拟合任务上评估了SPAMs(第4.1节),并分析了我们的结构化、基于部分的拟合在第4.2节中的效果。数据集。我们在公共的RenderPeople数据集[12]上进行训练和评估,该数据集包含了穿着衣物的真实世界3D人体扫描,经过后处理成最小噪声的3D网格(即去除孔洞、自相交)。我们对338个身份进行训练,每个身份都被重新缩放到单位边界框中的一个公共尺度作为简单的数据预处理步骤。为了学习结构化姿势空间,我们收集了一组2,446个涵盖了各种日常活动和运动类别的3D人体运动序列,并且动画化了规范姿势的身份。从这组姿势、穿着衣物的人中,我们随机采样扫描-运动对,并获得40K个随机姿势的实例,而不需要在同一姿势中看到多个身份。我们在六个未见过的测试身份上评估我们的方法,这些身份执行各种舞蹈动作,总共包含540个测试帧,每个身份组织成90帧的序列。评估指标。为了定量评估模型对深度序列的拟合,我们测量重建质量和跟踪性能。为了测量重建质量,我们遵循Occu-的评估协议。NPMs*0.7550.001630.8560.053Ours0.7850.000320.8830.034We evaluate our SPAMs model fitting to new monoculardepth sequences in comparison with state of the art on se-quences rendered from our Renderpeople [12]-constructeddataset, as well as on CAPE [26] (see supplemental). Wecompare with the state-of-the-art Neural Parametric Mod-els (NPMs) [32] and IP-Net [3]. We train NPMs on ourRenderpeople training split.Since NPMs require water-tight meshes for training to determine inside/outside, andinside/outside queries on our train data tend to be unreliablein often-articulated regions such as hands, we adapt NPMsas NPMs* which incorporates the Eikonal loss, SIREN ac-tivations, and FiLM conditioning of our approach.ForIP-Net [3], we use a model checkpoint provided by the au-thors, which was also used to evaluate on RenderPeople.Table 1 shows a comparison with NPMs* and IP-Net onfitting to monocular depth sequences. Our structural, part-driven representation of shape and pose results in notablyimproved reconstruction and tracking performance. SPAMachieves higher IoU and normal consistency, as well assignificantly reduced Chamfer distance and 3D End-Point-Error, indicating more globally consistent tracking and re-construction leveraging part-based fitting. Qualitative com-parisons are depicted in Figure 4. Under significant, com-plex motion in the input sequence, our SPAM maintains ro-bust tracking and consistent geometry, while NPM* fails tocapture more dramatic motions (e.g. in the arms).Ours (w/o PE, w/o PGM)0.6710.000700.8360.052Ours (w/o PE)0.6810.000650.8390.052Ours (w/o PGM)0.7660.000370.8740.037Ours (w/ GT PS)0.8090.000210.8940.026128570方法 IoU ↑ C-ℓ2 ↓ NC ↑ EPE ↓0表1.与我们RenderPeople数据集的测试集上最先进的NPMs*进行比较。我们的部分感知解耦使得重建和跟踪显著改善。0通过计算Intersection overUnion(IoU)、Chamfer距离和法线一致性来评估我们的SPAMs模型在新的单目深度序列上的拟合效果,与现有的非刚性跟踪方法[5, 32]相似。Intersection overUnion(IoU)衡量预测和真实网格之间的重叠,计算在单位边界框上随机采样的100万个点的重叠。Chamfer-ℓ2(C-ℓ2)测量预测和真实网格之间的双向距离,计算在表面上随机采样的10万个点,为任何可能不匹配的表面重建提供距离特征。法线一致性(NC)通过预测网格的法线与真实网格中对应最近邻的法线的绝对点积的平均值来衡量表面质量。通过End-PointError(EPE)作为预测和真实变形之间的平均ℓ2距离来评估跟踪性能,这与之前的非刚性跟踪方法[5, 32]相似。04.1.对单目深度序列进行模型拟合0方法 IoU ↑ C-ℓ2 ↓ NC ↑ EPE ↓0表2.消融研究。我们评估了学习的姿势编码初始化(PE)对测试时拟合的影响,使用我们的部分网格掩码(PGM),并进一步研究了输入深度图的真实部分分割(GTPS)的影响。我们的部分驱动的形状和姿势空间对缺乏姿势初始化具有显著的鲁棒性,并且利用部分掩码指导优化进一步改善了性能。04.2.消融实验0姿势编码初始化的鲁棒性。我们观察到,我们对形状和姿势的部分感知解耦在姿势跟踪中提供了显著的鲁棒性,特别是在没有姿势编码初始化的情况下保持了鲁棒性(在一些情况下可能无法使用,例如泛化到不同的传感器输入)。我们在表2中进行了演示,将我们的方法的一个变体与没有姿势编码初始化(w/oPE)的方法进行了比较,而是使用随机初始化的姿势编码。这导致了非常差的初始姿势估计,具有有效的随机初始变形场。虽然这种差劣的初始化导致了略微受损的性能,但我们的结构引导的SPAMs仍然可以恢复使用姿势编码初始化的重建和跟踪性能的显著部分。相比之下,我们观察到NPMs*的完整形状和姿势编码无法从差劣的姿势初始化中恢复。我们在补充材料中提供了更多的定性可视化结果。0基于部分的网格遮罩。表2还评估了在测试时优化过程中利用部分信息作为部分网格遮罩(PGM)的效果;这种局部部分焦点可以实现更准确的重建和跟踪。0局限性。我们对可变形物体的结构化参数建模可以对具有挑战性的单目深度序列进行鲁棒的模型拟合,但仍存在一些限制。例如,我们的局部姿态空间不能表征由远离局部区域的运动给出的潜在高级运动先验(例如,一只手向后移动往往比不移动更常见),这可能提供了额外的全局上下文。此外,非常细致的锐利细节可能在全局优化过程中过度平滑,这可能可以通过感知导向的度量来表征。t0t1t2t3128580我们
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功