基于神经网络的人体关节建模方法

144 浏览量更新于2023-10-25 收藏 14.63MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

132010COAP：人的组合关节占据0Marko Mihajlovic 1，Shunsuke Saito 2，Aayush Bansal 2，Michael Zollhoefer 2，Siyu Tang 101 ETH Zürich 2 Reality Labs Research0neuralbodies.github.io/COAP0图1。我们提出了COAP，一种对高度关节化的分布姿势序列具有鲁棒性并且对新的身份具有良好泛化能力的人体的COAP（COmpositionalArticulatedOccupancy）表示。关键思想是将人体分解为关节身体部分，并采用部分感知的编码器-解码器架构来学习神经关节占据，以局部建模复杂变形。所示示例可视化了从PosePrior数据集[1]中执行具有挑战性的姿势的未见主体。颜色方案表示激活的关节局部隐式表示的标签。0摘要0我们提出了一种新颖的神经隐式表示方法，用于建模关节人体。与显式模板网格相比，神经隐式人体表示提供了一种与环境建模的高效机制，这对于在三维场景中进行人体运动重建和合成至关重要。然而，现有的神经隐式人体表示在高度关节化的姿势上要么泛化能力较差，要么推理时间较慢。在这项工作中，我们观察到关于人体形状和运动结构的先验知识可以用来改善泛化能力和效率。我们将全身几何分解为局部身体部分，并采用部分感知的编码器-解码器架构来学习神经关节占据，以局部建模复杂变形。我们的局部形状编码器不仅表示相应身体部位的变形，还表示相邻身体部位的变形。解码器结合了局部身体形状的几何约束，显著改善了姿势泛化能力。我们证明了我们的模型适用于解决与三维环境的自相交和碰撞问题。定量和定性实验证明，我们的方法在效率和准确性方面大大优于现有解决方案。01. 引言0计算机可以通过回归参数化人体模型的潜在参数来感知丰富的三维人体姿势、形状和动作[25, 35,54]。传统上，这种生成性人体模型被表示为多边形网格，并且可以通过利用蒙皮算法（如线性混合蒙皮）进行变形和动画[14]。然而，它们不适用于与三维图形环境的高效交互和解决自相交问题。与网格不同，神经隐式表示[6, 28,48]是灵活、连续的，并且支持与环境的高效交叉测试。最先进的神经隐式人体模型[28, 42,52]学习了一个逆线性混合蒙皮网络，将三维空间中的任意点转换为模型化身份和姿势相关表面变形的规范空间。尽管在捕捉规范空间中的表面变形方面非常有效，但学习到的逆线性混合蒙皮网络往往在高度关节化的未见姿势上具有较差的泛化能力（图1）。SNARF[6]通过将逆映射表述为根查找问题来避免学习逆线性混合蒙皮网络的需要。然而，该模型是针对每个主体进行学习的，并且计算昂贵的根查找阻止了将其方法应用于三维场景中的人体重建。在这项工作中，我们提出了一种新颖的部分感知编码器-解码器架构，用于模型化。132020我们提出了一种名为COAP（COmpositional ArticulatedOccupancy ofPeople）的组合神经占据表示，它具有鲁棒性、高效性，并且可以泛化到各种身体形状和高度关节化的身体姿势。COAP的灵感来自两个关键见解：首先，LEAP[28]中学习到的逆线性混合蒙皮函数捕捉到了不相关的长程相关性，使其难以泛化到高度关节化的未见姿势。为了解决这个问题，我们摒弃了学习到的线性混合蒙皮，并提出了一种新颖的局部形状编码，通过使用运动链中直接邻居的局部上下文来建模关节身体部分的神经占据。这种局部表示身体和其变形的方式减少了对训练集中不相关相关性的过拟合。此外，给定局部部分编码，最终的整个人体被表示为这些预测的局部神经场的组合。与NASA[8]中的简单部分组合不同，COAP中的每个局部编码不仅对应于相应的身体部分，还对邻近身体部分的变形有贡献。总体而言，由部分感知的编码器-解码器架构建模的组合神经场对泛化能力非常有效（第5节）。其次，关于人体形状的先验知识可以显著简化学习鲁棒神经表示的任务。与LEAP[28]类似，我们使用SMPL[25]作为起点。给定输入的骨骼变换，我们可以有效地提取相关的局部身体顶点位置。我们利用每个部分的身体顶点创建简单的几何基元（如3D盒子），并将它们纳入神经网络架构中。这可以被视为局部身体形状的几何先验，它简化了学习问题，并帮助神经网络正确分配其建模能力。正如我们实验证明的那样，几何先验和神经网络的学习能力的有效融合对于学习表示的泛化能力至关重要。我们系统地评估了COAP的鲁棒性和表示能力。我们与SNARF[6]进行了比较，该方法针对每个主体进行训练，并在未见姿势上取得了令人印象深刻的结果[1]。COAP在性能上取得了更好的表现，同时推理时间更高效。我们还与LEAP[28]和Neural-GIF[48]进行了比较，这两种方法都可以生成具有泛化能力的神经隐式人体。再次，COAP在PosePrior[1]和DFaust[5]数据集上显著优于它们的结果。解决可变形3D形状的自相交问题具有挑战性，并且一直是计算机图形学和计算机视觉领域的一个长期问题[4, 11, 18,35, 37, 40,50]。我们提出了一种简单而有效的基于COAP的优化算法，可以有效地解决不同身体部位之间的自相交问题。我们的方法可以可靠地解决那些不适合传统方法的具有挑战性的情况。0现有解决方案[35]已经解决了这个问题（如第5.3节所示）。此外，我们展示了COAP在解决与3D环境的碰撞方面的实用性。之前的工作[13,57]需要预先计算3D场景的有符号距离场（SDF），以在3D人体和场景几何之间执行碰撞检测，这是繁琐的，并且无法适应具有移动物体或人体的场景。我们的强大且通用的神经身体模型可以直接检测与原始扫描的碰撞，以改善3D姿势和形状估计（第5.3节）。0贡献。总之，我们的主要贡献包括：（1）一种新颖的神经隐式身体模型，具有稳健和高效的特性，并且可以推广到各种各样的人体形状和高度关节的姿势；（2）一种有效的局部编码器-解码器架构，利用局部形状编码和几何形状先验知识来学习组合神经身体表示；（3）简单而高效的优化算法，可可靠地解决具有挑战性的自相交和人-场景相互渗透问题。代码和模型已公开[1]。02. 相关工作02.1. 参数化身体表示0参数化身体模型[25, 32, 41,54]由一个模板网格和一个基于运动学骨架的底层组成。为了给身体添加动画效果，通过正向运动学重新调整规范骨架，并通过蒙皮算法[17, 19,23]来变形网格顶点。流行的数据驱动模型，如SMPL[25]和GHUM[54]，使用线性混合蒙皮（LBS）算法来以多个刚体部分变换的加权和的形式变形网格顶点。尽管由于其良好的动画和渲染特性，人体网格在计算机图形学中无处不在，但当人体重新调整姿势时，它们经常会自相交[50]，并且它们也不适合用于与环境进行交互测试。这两个特性对于许多人-场景交互应用[13, 39, 55]和注册流水线[3,51]至关重要，这些应用通常生成自相交或与其他对象碰撞的模型。我们通过我们的组合神经隐式表示解决了这两个关键问题。解决自相交。网格自相交是计算机图形学中常见的问题，当人体网格重新调整姿势时会发生。为了解决这个问题，大多数之前的技术[24, 29, 30,44]在每个动画步骤中构建一个中间体积表示（例如四面体网格），并需要进行昂贵的优化过程来解开自相交的身体，这使得它们不适用于基于图像的人体重建任务[16, 35,45]。更高效的方法适应01 neuralbodies.github.io/COAP132030为了优化人体姿势以解决自相交问题，Guan等人[11,12]通过凸包对每个身体部位进行建模，然后利用凸包创建可微的惩罚函数来处理相互渗透的身体部位。由于这种方法会导致计算开销很大的优化问题，其他研究提出了通过使用简单的几何代理（例如球体[37]或胶囊体[4]）来近似身体部位，从而有效地计算可微的相互渗透项。[35,49]提出了一种更精确的方法，它使用BVH树[46]检测和惩罚自相交的网格三角形。然而，这种损失项会导致表面离散化误差，容易陷入局部最小值，而我们的方法是基于体积的，施加了更稳健的连续惩罚。与环境的碰撞解决。对于参数化的人体与原始扫描或其他几何体的相互作用建模是一项困难的任务。一种常见的方法是将原始扫描转换为网格并对碰撞的三角形进行惩罚[49]。然而，这种方法会导致计算开销很大的基于表面的损失，并且对于更复杂的场景而言计算开销很大。因此，大多数之前的工作[13,55-57]通过计算原始扫描的SDF网格来绕过这个问题，这是一项容易出错且不总是可行的任务[15]。类似地，[16]提出了通过动态计算3DSDF网格来检测两个人体网格之间的碰撞，这是一项内存和计算开销很大的任务（对于256^3网格约为25秒），并且在网格自相交时会出现错误。我们的方法通过将参数化的人体表示为体积表示来解决这些问题，从而能够与由网格或点云表示的其他几何体进行高效的可微碰撞检测。02.2. 神经隐式表示。0神经隐式表示[7, 27, 34, 36,53]通过用神经网络权重参数化的符号距离或占用函数表示形状，实现了高效的内部/外部测试。然而，大多数这些表示方法都是为刚性物体设计的，不能表示高度关节化的人体。神经隐式身体。类似于基于网格的身体模型，最近的一些工作[6, 28, 33, 42, 43,52]提出了学习神经隐式身体的方法。他们通过在规范空间中建模神经表示来简化学习问题。NASA[8]学习了一个特定主体的基于部件的占用表示，通过姿势空间中的刚性骨骼变换组合而成。然而，这种组合在关节周围引入了伪影，并且它们的低维姿势编码不能完全消除长程伪相关性。LEAP [28]和Neural-GIF[48]提出了学习一个通用的神经隐式人体模型的方法0在规范空间中学习人体模型和一个单独的逆LBS神经网络，将任何给定的查询点投影到可靠的规范空间中进行占用检查。类似地，SCANimate [42]和MetaAvatar[52]在规范空间中学习特定主体的化身和一个逆LBS神经网络来变形表面点。这些方法缓解了NASA[8]中关节周围的伪影问题。然而，学习得到的逆LBS对新的动作不够稳健。imGHUM[2]采用多部分模型，在姿势空间中直接学习隐式人体表示。SNARF[6]在规范姿势中学习了一个特定主体的模型，但通过将逆映射表述为根查找问题来规避了逆LBS网络的需求。然而，它的推理计算量大，需要每个主体的训练，这使得它在许多实际应用中不太适用。与现有表示相比，我们的模型更好地适应新的动作和身份。这是通过学习关节化身体部分的隐式场和利用几何先验和本地化编码器来实现的，从而减少了由伪相关性引起的过拟合。03. 基础知识0建模人体。像SMPL[25]这样的参数化身体模型是一个通过形状参数β和姿势参数θ∈RK×3来控制的数据驱动模型，其中K是关节数量。它通过对预定义模板网格¯T进行变形，使用依赖于身份的BS(β)和依赖于姿势的BP(θ)顶点修正来构建一个规范姿势下的人体网格¯V：0¯V = ¯T + BS(β) + BP(θ) . (1)0在这一步之后，通过学习的矩阵J回归出规范空间中由关节位置J∈RK×3组成的骨骼：J = J(¯T + BS(β)) . (2)0重新定位。通过正向运动学对规范姿势的人体骨骼J进行动画化，可以通过一组刚性骨骼变换矩阵G = [Gk] K k =1来紧凑地表示0Gk(θ, J) = �0j ∈ A(k)0� R(θj)Jj0� 0 10� , (3)0其中旋转和平移部分分别对应骨骼方向和关节位置。R将部分j的姿势参数转换为旋转矩阵，A(k)定义了一个运动树，它是关节k的祖先的有序集合。类似于对规范骨架进行重新定位，规范网格顶点¯V通过线性混合进行变形Transformations 𝒢 = 𝐺𝑘 𝑘𝐾and a query point 𝑥𝑧1ො𝑜𝑥1ො𝑜𝑥𝐾ො𝑜𝑥…Weight Sharing𝑧𝐾…Weight Sharing…𝐵1𝐵𝐾𝐺𝐺…132040PointNet0最大0形状回归和分割0本地化编码器-解码器0-1 �0-1 �0局部形状分解0规范化0PointNet0图2.概述。我们提出了一个局部感知的神经网络，包括一个局部形状编码器和解码器。该模型以骨骼变换矩阵G作为输入，并通过SMPL[25]回归出一个分割的人体点云。然后，将点云分解为关节化的身体部位，这些部位经过规范化并由PointNet[38]编码器进行编码。最后，解码器MLPs独立地将每个关节化的身体部位建模为占据场，这些占据场组合起来表示整个人体。右侧提取的网格表示重建的人体，根据解码器MLPs的预测进行分割，用于执行来自PosePrior数据集[1]的新姿势的未见主体。0蒙皮权重W∈RK×N被定义为刚性变换矩阵的线性组合，这些矩阵定义了从规范空间到姿势空间的映射：0Vi = � K0k = 1 Wk,i Gk(θ, J)Gk(�0, J)-1 ¯Vi, (4)0其中Gk（�0，J）-1消除了由于规范姿势而产生的变换（有关详细信息，请参见[25]）。形状回归。骨骼变换矩阵Gk在姿势空间中定义并完全约束了一个人的骨架。它们封装了关于规范关节J的信息，通过线性系统使转换矩阵直接转换为形状向量β，用于少量形状系数：0BS(β) = J - J¯T. (5)0这种转换使我们能够互换使用骨骼变换矩阵Gk来表示形状系数β和姿势矩阵θ，并且可以直接用于回归人体形状（方程（4））。在这项工作中，我们使用Gk符号以保持与先前的神经身体模型[8, 28]一致。04. COAP0COAP（COmpositional Articulated occupancy ofPeople）将关节化的人体表示为可微的隐式函数。它将形状体积定义为零级集fΘ（x | G）=0，其中x∈R3是输入查询点2，G = [Gk] K k =1∈RK×4×4是具有K个关节化身体部位的输入骨骼变换；我们使用相同数量的关节和身体部位。02适当时表示为齐次坐标。0从高层次上看，我们的方法首先使用SMPL[25]回归人体的表面点，然后实现一个局部编码器-解码器神经网络来表示人体作为一个隐式函数。图2显示了我们方法的概述。04.1.局部形状编码器0身体形状回归和分割。首先使用输入的骨骼变换来回归变形的SMPL身体顶点V在姿势空间中（方程4）。这些顶点V根据SMPL蒙皮权重进行分割为不同的身体部位。0局部形状分解。为了编码姿势相关的形状变形，不仅需要考虑分割的身体部位，还需要考虑它们在运动链中的邻域。因此，对于分割的身体部位的局部形状编码，除了它的表面点，我们还包括属于其父体和子体身体部位的表面点。具体而言，为了计算分割的身体部位k的表面点，我们使用蒙皮权重W∈RK×N，并选择所有权重大于阈值（经验设置为0.01）的V中的顶点，这些顶点与身体部位k相连的所有身体部位。我们进一步将这种分解扩展到模板网格¯T的网格面和网格表面上的采样点。每个局部部分都用一个点云作为中间表示进行紧凑表示。有关点采样的更多细节，请参见补充材料。0规范化。直接将局部点云编码为特征向量使得学习变得困难，因为神经网络需要推理所有可能的人体姿势。因此，我们通过基于骨骼变换Gk将局部部分k的点云规范化，简化了学习问题：The second part of our approach is a decoder module thatrepresents articulated body parts as occupancy ﬁelds whichare composed to form a full human shape. The occupancydecoder takes as input the local shape codes [zk]Kk=1, thegeometric prior [Bk]Kk=1, the bone transformation matrices[Gk]Kk=1, and a query point x for which it predicts whetherit is inside of a 3D human body.L =1|P|�x∼P (σ(ˆox) − ox)2 .(8)132050其中ˆPk表示身体部位k的规范化点云。0ˆPki = G−1kPki, (6)0局部形状代码。然后，通过PointNet [38]将规范化的点云ˆPk编码为紧凑的特征向量zk ∈R128，这些特征向量携带有关规范形状和复杂局部变形的信息。这些特征向量进一步与身体部位的独热编码向量进行增强，以帮助神经网络学习部分特定的表示。这个局部PointNet独立地对每个关节部位进行编码，并作为所有关节部位的共享神经网络实现，以减少过拟合并提高对新姿势的泛化能力。0几何先验。为了进一步简化学习问题并帮助神经网络正确分配容量，我们通过构建3D边界框[Bk]Kk=1 ∈RK×6来构建一个简单的几何先验，用于局部身体部位。这些几何基元Bk对应的关节身体部位的中心组件进行了过度估计，并通过在局部点云中找到极端点并添加额外的15%填充来确定。0我们方法的第二部分是一个解码器模块，将关节身体部位表示为占用场，这些占用场组合形成完整的人体形状。占用解码器的输入包括局部形状代码[zk]Kk=1、几何先验[Bk]Kk=1、骨骼变换矩阵[Gk]Kk=1和查询点x，它预测查询点是否在3D人体内部。04.2.神经占用解码器0局部占用解码器。首先，将输入查询点x ∈R3投影到相应关节身体部位的规范空间，即ˆxk =G−1kx。这些局部查询点通过二进制掩码bk ∈ {0,1}进行增强，以便通过减少学习空间来促进训练，其中bk指示局部点ˆxk是否在创建的边界框Bk ∈R6内。接下来，将局部查询点ˆxk ∈ R3、二进制掩码bk ∈R和局部身体代码zk连接为特征向量，并通过一个10层MLP进行传播，预测第k个关节部位ˆok的占用值。占用预测进一步乘以权重bk以减少潜在的错误相关性。与局部PointNet编码器类似，所有局部占用解码器MLP共享相同的权重，并独立执行占用检查，以减少过拟合。请参阅补充材料了解有关神经网络架构的详细信息。0有关神经网络架构的详细信息，请参阅补充材料。0占用预测。然后，通过最大操作确定输入查询点的最终占用预测，即通过局部占用预测的并集：0ˆox = max[ˆok]Kk=1. (7)0注意，我们的方法与NASA[8]的方法之间有两个关键区别，NASA也使用每个部分的占用表示来获得完整身体的占用预测。首先，我们的局部形状编码模型是局部身体部位及其直接相邻部位沿运动链的组合，而NASA只捕捉单个身体部位。其次，我们利用共享的占用解码器和几何先验，而在NASA中，每个身体部位都有一个独立的MLP，导致对于分布之外的姿势的泛化能力较差。04.3. 训练0我们使用AMASS数据集 [ 26 ] 中的SMPL [ 25 ]人体网格来训练我们的模型和基线模型。对于训练集中的每个人体网格，我们采样一组查询点 P。其中一半的点在局部边界框 [ B k ] K k =1内均匀采样，而另一半则通过使用高斯噪声 x � N (0 , 0 .1)在网格表面周围进行采样。对于每个查询点，我们计算地面真实占用值 o x ∈ { 0 , 1 }以进行监督，类似于之前的工作 [ 8 , 28]，并通过sigmoid函数 σ激活网络输出。然后，最终的监督损失是地面真实值和预测占用值之间的简单均方误差：0我们使用批量大小为十，并通过Adam优化器 [ 20 ]以学习率为 10 − 4和其默认参数来优化模型参数。对于大多数实验，表示完全收敛需要大约300k次迭代。05. 实验0我们首先在第5.1节将我们的方法与最先进的主体特定神经隐式模型SNARF [ 6 ] 和可推广的隐式主体模型LEAP [ 28 ]和Neural-GIF [ 48 ]进行比较。然后，我们进行消融研究以验证我们的设计选择的有效性。我们进一步展示了我们的表示对于解开自相交的人体的有效性，并在第5.3节中研究了COAP在估计人-场景交互方面的好处。我们在第5.4节中简要概述了当前的局限性。SNARF [6]80995.75/84.3295.42/86.3295.43/86.0796.08/85.4795.57/85.0196.05/82.5095.69/82.1194.44/83.4195.35/83.4195.22/84.91COAP7595.97/85.3595.84/87.6295.57/86.8295.98/85.6595.84/86.2896.61/82.9695.27/81.9094.91/84.9096.07/85.8995.78/86.90COAP7595.83/84.0996.95/90.5796.93/90.3696.59/87.1697.24/90.3686.75/58.7593.89/76.7296.16/88.1596.79/88.2296.89/89.97132060女性主体男性主体方法 G t [ms] ↓ 50004 50020 50021 50022 50025 50002 50007 50009 50026 500270表1. 单个主体神经隐式模型. 我们的模型和SNARF [ 6 ] 在DFaust数据集 [ 5 ] 的主体上进行了比较，这些主体在PosePrior数据集 [ 1 ]中进行了新的挑战性姿势的表演。虽然两种方法都非常稳健，但我们的模型速度是SNARF的10倍以上，并且还可以推广到新的身份，如第三行所示；G表示模型在训练过程中没有见过测试主体；单元格中的值是均匀采样点和采样在地面真实网格周围的点的平均IoU的对。0PosePrior数据集 [ 1 ] DFaust数据集 [ 5 ] IoU均匀采样IoU 表面采样IoU 均匀采样IoU 表面采样0神经GIF [ 48 ] 65.83 58.21 64.85 43.22 LEAP [ 28 ] 89.36 73.33 87.02 66.35COAP 96.97 89.92 95.41 84.440表2. 对未见过的人的泛化性能. 我们的模型与LEAP [ 28 ]和Neural-GIF [ 48 ] 在DFaust [ 5 ] 和PosePrior [ 1 ]数据集上的身份进行了比较，这些身份在PosePrior数据集上进行了新的挑战性姿势的表演；表中的值对应于均匀采样点和采样在地面真实网格周围的点的平均IoU。05.1. 表示能力的普适性0实验设置 .为了与基线进行公平比较，我们假设人体骨架拓扑结构具有24个身体部位（在第4节中K = 24），并使用DFaust [ 5]、MoVi [ 10 ]和PosePrior [ 1 ]数据集来训练和评估我们的表示。我们报告了10k个点的平均推理时间（以毫秒为单位），均匀采样查询点在围绕地面真实网格的边界框内的交并比（IoU），以及围绕地面真实表面采样的点的IoU（N (0 , 0 . 01)）[ 6 , 28 ]。0单主体神经隐式模型。我们首先将我们的方法与SNARF[6]进行比较，SNARF是一种最先进的主体特定的神经隐式身体表示方法。这两种方法都在DFaust数据集[5]的每个主体上进行训练，并在PosePrior数据集[1]的具有挑战性的姿势上进行评估。我们观察到在表1中，这两种方法都对具有挑战性的姿势具有鲁棒性，而我们的方法在大多数情况下更准确，同时速度比它们快10倍以上。我们的方法还可以推广到新的身份和动作。正如表1（第3行）所示，我们的模型在MoVi[10]序列上训练后，可以直接用于具有具有挑战性姿势的DFaust主体，并且比SNARF[6]在表1（第1行）中训练的每个主体模型的准确性更高。0对未见过的主体的泛化。我们现在将我们的模型与最近提出的两种神经身体表示LEAP[28]和Neural-GIF[48]进行比较，它们可以推广到未见过的身份。0几何先验一位有效编码 IoU局部框[%]↑ IoU表面[%]↑091.99 82.81 - 92.14 84.46 - 92.99 85.44 - - 93.61 86.860表3.消融研究量化了几何先验bk和局部特征one-hot编码向量（第4节）对局部框IoU和表面IoU的影响。IoU Local Boxes和IoUSurface分别是在围绕边界框Bk和围绕地面真实表面附近均匀采样的点的平均IoU。这些指标是在PosePrior序列[1]上计算的。0对于未见过的身份，我们在MoVi[10]数据集上训练我们的模型，并使用作者提供的预训练基线；LEAP在相同的MoVi数据集上训练，Neural-GIF在增强的多形状SMPL模型上训练。作为验证数据集，我们使用PosePrior[1]和DFaust[5]数据集中的新身份，并从具有挑战性的PosePrior数据集中采样新的姿势。定量结果显示在表2中（请参阅补充材料获取定性结果），并且表明我们的方法在准确性方面明显优于基线。这种鲁棒性来自我们表示的组合设计，不需要一个不适用于新动作的逆LBS网络。这进一步实现了更快和端到端的训练，而基线则采用多阶段训练LBS网络，这种训练不太稳定，对超参数调整更敏感。总之，我们的隐式表示对于关节人体是高效、快速和鲁棒的。0消融研究。最后，我们在表3中研究了几何先验和one-hot编码向量（第4节）在MoVi数据集上训练200k次迭代，并在PosePrior序列上进行评估。我们观察到使用几何先验和one-hot编码可以提高模型的准确性。05.2.解决自相交问题0以前的神经隐式身体研究[6,28,48]将人类建模为整体的隐式场。这种建模限制了他们直接解决自相交问题的能力。050751001251501752002510012515017520022575132070迭代次数0碰撞三角形的数量0基准0图3.解决PROX[13]数据集中自相交的人体。我们的方法成功地解决了具有挑战性的自相交问题，并且相对于基准方法收敛速度更快[35,49]。0通过我们的组合身体模型，自然地提供了解决自相交问题的能力，并且对于具有挑战性的情况具有鲁棒性。0方法。给定自相交的人体参数作为输入（例如SMPL形状β和姿势θ向量，参见第3节），我们寻找最优的人体姿势θ�，使得人体不自相交。我们借鉴传统的计算机图形学方法[9,47]，使用几何代理来高效地近似碰撞。我们建议使用3D框来近似身体部位，以便高效地检测潜在的碰撞身体部位。基于这些碰撞的框，我们计算它们的相交体积，在其中均匀采样一组初始点。从这个初始集合中，我们仅选择那些至少在两个身体部位内的点，通过检查我们的部分占用预测。让这个最终集合表示为S，那么我们的自相交损失项定义为：0arg min θ0�0x ∈ S σ (f Θ (x | G))，(9)0为了进一步防止不必要的姿势扭曲（在先前的方法[13,55]中很常见），我们明确禁用了几乎总是相交的运动连接身体部位之间的碰撞检测。请参阅补充材料以获取更多实现细节。0评估。我们使用PROX数据集[13]研究我们方法的有效性。该数据集包含无效的3D人体，其身体部位相互交叉。从PROX中，我们通过检查自相交网格三角形的数量对100个SMPL人体进行采样，并将我们的方法（在MoVi数据集[10]上训练）与常用的基于网格的方法进行比较[35, 49]。0常用的基于网格的方法[35,49]通过局部距离场惩罚相交的网格三角形。这两种方法都使用简单的梯度下降优化输入的姿势参数，直到收敛或达到最大的200次优化步骤。我们通过计算SMPL网格中自相交三角形的平均数量来量化模型性能。图3显示了两种方法在200次优化步骤上的收敛曲线。请注意，由于我们的损失项是体积感知的，而基准方法只对网格表面施加惩罚，因此我们的方法收敛速度明显更快，并且取得了更好的结果。图4中的定性结果说明了我们的方法可以解决高度不适定的自相交问题，例如手深入穿透躯干。05.3. 解决与3D环境的碰撞问题0方法。我们的方法也与场景感知的人体重建方法[13, 39,55]兼容。这些方法将3D场景的原始扫描转换为SDF网格，以处理碰撞。然而，这个过程是昂贵的，而且并不总是可行的。通过使用以下损失项，我们可以直接使用原始扫描R ={r ∈ R^3}解决这种碰撞问题：0E collision (R) = 1|R|0�0r ∈ R σ (f Θ (r | G)) 如果 f Θ (r | G)> 0，那么 I f Θ (r | G) > 0，(10)0评估。我们在PROX数据集的实验室控制部分上进行了这个应用，该数据集具有准确的场景SDF网格和SMPL注册（PROX定量数据集）。为了施加碰撞损失E collision(10)，我们直接从给定的3D扫描中采样点，并将它们沿着扫描表面法线的相反方向移动，移动距离采样自正态分布N(0.05,0.05)。然后将这个碰撞项添加到PROX重建流程中的重建项，包括2D关节投影E J，人体姿势先验E P和接触EC损失项（详见[13]）。最终的重建损失项定义为：0E = E J + E P + E C + E collision，(11)0然后使用L-BFGS优化器[31]对其进行优化，直到收敛。从表4中可以看出，我们的方法提高了重建的准确性，并通过减少与环境的碰撞产生了更加物理合理的人体。我们还提供了假设碰撞项来自地面真实场景SDF E GT SDFcollision（第三行）的分析作为参考。03 代码来自github.com/vchoutas/torch-mesh-isect132080初始姿势[35, 49] 我们的初始姿势[35, 49] 我们的初始姿势[35, 49]0图4. 解决自相交问题。在PROX数据集上，我们的方法与基准方法[35,49]进行比较。我们的优化方法与COAP可以解决高度不适定的自相交问题，例如手深入穿透躯干。0V2V [mm] ↓ PJE [mm] ↓ Penetration ↓0E J + E P + E C 154.26 154.39 143.52 E J + E P + E C + E碰撞 154.15154.34 100.170E J + E P + E C + E GT SDF碰撞 154.01 154.13 46.840表4. 与环境的碰撞. 在PROX定量数据集上进行的实验[13].我们报告了平均顶点到顶点误差(V2V)，平均每关节误差(JPE)，以及SMPL网格顶点穿透到3D场景几何的平均数量(Penetration).我们还提供了假设碰撞项是从地面真实场景SDF E GT SDFcollision (第三行)导出的分析，供参考.0我们将读者引用到补充视频和材料中，以获取定性结果和提出的优化失败的案例.05.4. 限制0尽管COAP在重建准确性方面明显优于神经隐式身体的先进模型[6, 28,48]，但有时我们观察到身体部位之间的连接不平滑(Figure5)，以及对超出分布的极端身体形状的弱泛化能力(例如表1中的第3行，主体50002)，如果模型是在少量多样的身份上训练的.此外，用于解决自相交的自优化算法有时会产生不太真实的人体姿势，因为缺乏额外的项来激励姿势的自然性.我们认为COAP的推理时间(10k个点的75毫秒)可以改进，因为目前与可泛化的人体LEAP(35毫秒)和Neural-GIF(22毫秒)相比较慢.因此，探索更强大的神经表示和优化流程是未来工作的一个有趣方向.06. 结论和未来工作0神经隐式表示的人体建模是一个新兴的研究课题.现有的先进模型在泛化到未见姿势和形状方面存在困难.0图5. 限制.COAP在处理超出分布的姿势时，对身体部位之间的平滑过渡有困难. 显示的示例是来自PosePrior数据集的样本[1].0在这项工作中，我们提出了COAP，一种新颖的组合神经占用表示，极大地提高了对具有挑战性动作的鲁棒性和泛化能力.我们将一个完整身体的几何形状分解为局部身体部位，并通过利用人体形状的先验知识来学习每个部位的占用表示.这种部位感知的表示使得能够有效地解决自相交的人体和与其他物体的碰撞检测. 未来工作.作为未来的工作，我们考虑为我们的神经隐式身体模型建模服装，将COAP部署到3D人体估计器(例如[21, 22,45])中，在神经网络训练过程中强制执行无碰撞的预测，以及解决当前的弱点，如对极端的超出分布的身体形状的泛化能力和某些姿势下身体部位之间的小的可见伪影. 致谢.我们感谢Shaofei Wang和YanZhang的校对工作，以及GarvitaTiwari对其中一个基线的帮助. S. T.和M.M.感谢SNF资助项目200021 204840. 免责声明.该项目完全在苏黎世联邦理工学院完成.它没有得到Meta的资助，也没有在Meta进行过研究.[4] Federica Bogo, Angjoo Kanazawa, Christoph Lassner, PeterGehler, Javier Romero, and Michael J. Black. Keep it SMPL:Automatic estimation of 3D human pose and shape from asingle image. In Eur. Conf. Comput. Vis., 2016. 2, 3[6] Xu Chen, Yufeng Zheng, Michael J Black, Otmar Hilliges,and Andreas Geiger. Snarf: Differentiable forward skinningfor animating non-rigid neural implicit shapes. In Int. Conf.Comput. Vis., 2021. 1, 2, 3, 5, 6, 8[8] Boyang Deng, JP Lewis, Timothy Jeruzalski, Gerard Pons-Moll, Geoffrey Hinton, Mohammad Norouzi, and AndreaTagliasacchi. NASA: Neural Articulated Shape Approxima-tion. In Eur. Conf. Comput. Vis., 2020. 2, 3, 4, 5[9] Christer Ericson. Real-time collision detection. Crc Press,2004. 7[10] Saeed Ghorbani, Kimia Mahdaviani, Anne Thaler, KonradKording, Douglas James Cook, Gunnar Blohm, and Niko-laus F Troje. MoVi: A large multipurpose motion and videodataset. arXiv preprint arXiv:2003.01888, 2020. 6, 7[11] Peng Guan. Virtual human bodies with clothing and hair:From images to animation. PhD thesis, Brown UniversityProvidence, RI, USA, 2012. 2, 3[12] Peng Guan, Alexander Weiss, Alexandru O Balan, andMichael J Black. Estimating human shape and pose froma single image. In Int. Conf. Comput. Vis., 2009. 3[14] Alec Jacobson, Zhigang Deng, Ladislav Kavan, and J. P.Lewis. Skinning: Real-time shape d

下载后可阅读完整内容，剩余1页未读，立即下载