没有合适的资源?快使用搜索试试~ 我知道了~
基于学习神经组成表示的人体4D建模方法(H4D)
19355H4D:通过学习神经组成表示进行人体4D建模蒋伯彦1张银达2魏兴奎1薛向阳1付延伟11复旦大学2谷歌摘要尽管基于深度学习的3D重建取得了令人印象深刻的结果,但直接学习以详细几何形状建模4D人体捕捉的技术本文提出了一种新的框架,可以有效地学习一个紧凑的和组成的动态人体表示,利用人体先验广泛使用的SMPL参数模型。特别是,我们的表示,命名为H4D,表示一个动态的三维人体在一个时间跨度的形状和初始姿态的SMPL参数,和潜在的代码编码运动和辅助信息。提出了一种简单而有效的线性运动模型,以提供粗略的和正则化的运动估计,然后对姿态和几何细节进行逐帧补偿,并将残差编码在辅助代码中。在技术上,我们引入了新的基于GRU的体系结构,以促进学习和提高表示能力。大量的实验表明,我们的方法不仅对复发有效[第44话]4D-CR [26]基于SPL我们覆盖具有精确运动和详细几何形状的动态人体,但也适用于各种4D人体相关任务,包括运动重定向,运动完成和未来预测。1. 介绍基于香草SMPL的参数表示已经被广泛研究并广泛用于建模3D人体形状,因此对许多以人为中心的任务(例如姿势估计)显示出关键影响[16,24,30,32,34,42]和身体形状拟合[9,18,33,48,58]。然而,这些表示法对于涉及动态信号的应用是不够的,例如,3D移动的人类(图)1顶部),因为没有捕获时间信息。作为解决方案,4D表示被提出,并且通常可以分为自由形式和基于先验的*表示平等缴款。江博彦、魏兴奎和薛向阳就职于复旦大学计算机科学学院Yanwei Fu是复旦大学数据科学学院和浙江师范大学复旦ISTBI-ZJNU脑启发智能算法中心的成员。图1. 与现有的4D人类表示的比较。与自由形式方法相比,我们的表示支持更快的推理和更完整的重建(图3)。它提供了长距离的时间上下文和附加的细粒度几何控制的低维SMPL参数和潜在的代码,这是更紧凑的比以前的基于SMPL的方法。方法取决于输出形状的3D表示(图1)。利用神经ODE [13]和深度隐式函数[26,44]的自由形式方法通常依赖于计算昂贵的架构来学习紧凑的潜在空间并重建4D序列。遗憾的是,由于人体先验没有明确建模,这些方法的重建结果可能包含明显的几何伪影,例如缺失的手,并且它们的建模误差随着时间的推移而迅速积累另一方面,基于先验的方法[30,32,66]主要来自SMPL参数模型[37],其通常采用一个形状参数和一系列姿态参数来建模动态序列。虽然它们产生了合理的结果,但它们的运动表示不是紧凑的或唯一的支持小时间跨度,例如,±5帧[30]。运动形状姿势潜在空间形状初始骨架构成运动辅助时间…动态人工…初始形状3D连续流形状构成1构成2构成n19356在本文中,我们提出了H4D,这是一种新的神经表示人类4D建模,结合了基于先验和自由形式的解决方案的优点。为了反映组成性质[60],我们使用表示形状和初始姿势的SMPL参数和表示时间运动的紧凑潜在代码对每个动态人体序列进行编码,然后可以通过解码器重建输入序列。在该解码器的核心,从SMPL [37]扩展的简单而有效的先验模型被设计为提供3D人体几何形状和运动的粗略但长期的估计与现有技术的自由形式重建[26,44]相比,这可以为此,我们添加了一个额外的辅助潜在的代码,我们的代表,以补偿不准确的这种表示通过利用基于强先验的正则化进行合理初始化来充分利用参数模型,并利用强大的深度学习组件对其进行补充,以促进具有令人印象深刻的运动和几何精度的人类4D建模。我们的表示是通过自动编码框架学习的。编码器从密集采样的点云预测SMPL参数一旦训练,编码器和解码器都是固定的,以支持各种应用程序,如运动重定向,完成和预测,通过前向传播(前馈)或后向优化(自动解码)取决于输入。我们为编码器和解码器设计了新颖的基于门控递归单元(GRU)[15]的架构,以在任一模式下工作时使模型性能受益。在前馈模式下,我们不需要输入点云被临时跟踪,即。像以前的工作中的点轨迹[26,44]。这简化了培训要求,提高了高级应用程序的适用性。在自动解码模式下,我们的模型利用时间信息进行优化,这对于恢复详细运动和几何的鲁棒性至关重要。贡献我们提出了H4 D,一个紧凑的和composi- tional表示为4D人类捕获,它combines一个线性先验模型与残差编码在一个学习的辅助代码。该框架通过4D重建来学习大量的实验表明,我们的表示和基于GRU的架构是有效的恢复准确的动态人体序列,并提供了强大的性能,为各种4D人体相关的应用程序,包括运动重定向/完成和未来的预测。2. 相关工作4D表示已经有很多工作旨在基于各种表示来重建3D对象,诸如3D体素[17,22,63],点云[1,20,50,51],网格[12,23,29,36,62]和隐函数[11,14,19、27、43、46]。然而,4D数据的深度表示,即时变3D对象,主要由于对时间维度进行编码的挑战而受到较少关注。先驱工作主要依赖于神经ODE [13],并结合占用网络[43,44],点云[53]和成分属性[26]。尽管在各种运动相关任务中具有最先进的性能,但神经ODE倾向于随着时间的推移积累错误,导致不完整的几何形状,并减慢训练收敛和推理运行时间。相比之下,我们的模型依赖于全面的几何和运动的先验模型和有效推理的递归网络。人体估计用于人体形状和姿态估计[9,16,24,32[2,3,7,10,39,40],大多数作品都是基于SMPL或它的延伸[37,47,54]。具体来说,HMMR [30]通过重建少量的过去和未来帧来学习编码时间信息。Zhang等人[66]提出了第一个自回归模型,用于从图像序列中预测3D人体VIBE [32]利用GRU回归SMPL参数,并设计了一个对抗学习框架来预测时间转换。虽然产生了看似合理的运动,但这些方法中的运动表示要么是隐式的[32],与几何形状[30,32,66]相结合,要么限于短时间范围[30]。相比之下,我们使用基于PCA[28,61]的先验模型来制定运动(其非线性扩展PGA[21]也适用),用于远程上下文,然后通过学习的潜在代码控制每帧调整,该代码是紧凑的,组成的,并且容忍错误累积。细粒度人体重建许多人体重建方法[9,29,30,32,33,42]仅限于无衣身体,因为基于SMPL的模型可能在形状空间中表现力有限。为了捕获细粒度的几何形状,如衣服或头发,神经隐式函数已用于重建自由曲面[8,14,18,55另一类方法通过预测规范体网格上的每个顶点位移来扩展参数模型[4-与我们最相关的是,CAPE [38]训练生成器从潜在空间合成细粒度几何,并且可以在自动解码模式下运行以进行拟合。然而,根据经验,它对时间帧的工作并不鲁棒,并且对不完美姿势中的错误敏感,这在我们的场景中并不19357视频帧形状编码器{简体}人体网格联系我们一种可调框架姿势编码器LMM…{简体}���运动编码器联系我们运动补偿网络…全网格辅助编码器形状补偿网络LBS…∈- −∈∈M∈·MSMPL解码器…合成编码器图2. 概述我们的框架。我们通过4D重建来学习动态人类的组成表示。具体来说,给定输入点云序列,首先利用组合编码器提取形状和初始姿态的SMPL参数、运动的潜在编码和辅助信息,然后利用线性运动模型(LMM)得到粗略的运动估计。然后分别用基于GRU的运动补偿网络和形状补偿网络预测标准姿态下的时间运动和形状残差。我们的方法能够使用SMPL解码器[37]输出准确的人体网格序列,以及使用线性混合蒙皮(LBS)输出带有布料和头发的完整详细的架构在Supp. Mat.3. 方法本节介绍我们的H4D表示,它是通过重建任务学习的(图2)。给定一个3D人体模型在一个时间跨度(30帧的网格序列)中执行运动,我们从每个点中采样8192个点的点云作为网络的输入序列注意,我们不假设帧之间的时间对应关系(例如,点轨迹),这是先前的4D表示[26,44]所必需的。输入序列被馈送到合成编码器中以提取表示形状和初始身体姿势的SMPL参数,以及表示时间运动的潜在代码和对运动和几何形状的附加补偿的辅助第3.1节)。为了重建输入时间序列,通过预先学习的线性运动模型(LMM)组合形状、初始姿态和运动代码,以生成表示为SMPL的每帧3D形状的粗略估计[37](第12节)。3.2)。由于LMM的容量有限为此,我们将运动代码、辅助代码和初始估计馈送到基于GRU的运动补偿网络(第二节)。3.3)和形状补偿网络(第3.3节)。3.4)分别预测典型姿势中的时间运动和形状的残差。最终序列是通过根据细化的每帧姿态使用线性混合权重对细化的规范形状进行3.1. 合成编码器为了保持表示的组合性,我们训练了四个单独的编码器来提取SMPL参数,形状CS和初始姿态CP,以及表示运动CM和辅助信息CA的潜在代码。形状和姿势编码器被实现为基于PointNet的[51]网络,其中ResNet块仅将起始帧作为输入,因为它足以告诉规范的身体形状和初始姿势。另一方面,运动和辅助编码器将所有帧作为输入,因为需要时间信息。为了实现这一点,我们首先将每帧的点云编码为特征向量,一个浅的PointNet,然后进一步聚合每帧的功能与GRU层。特征提取器在运动编码器和辅助编码器之间共享,并且仅分别训练GRU请注意,我们的时间编码器可以处理没有时间对应的无序点云序列。3.2. 线性运动模型我们采用预测的cp和cm来重建运动的粗略估计。 受Urtasunet al启发。[61],我们使用SMPL模型的参数空间,并预先学习运动的线性模型,以确保鲁棒性。每个输入时间序列可以表示为Φ =[θ1,. . . 其中θ iR72是帧i的SMPL姿态参数。然后,我们将运动表示为姿态参数与第一帧的每帧差,即,θ1,θ 2,θ 3,θ4。. .,θLθ1]R72(L-1),并运行主成分分析(PCA)[28]以降低维度。现在可以重建通过线性模型:Φθ=[θ1,αT+µ+θ1],其中αRK是主成分系数,=[M1,. - 是的- 是的 ,MK]R72(L−1)×K和µK为最高K主成分和均值…19358不 t=0M不不L−1t=0{}·ML−1在实践中,我们发现它更强大的PCA单独运行的全球方向(即。骨盆)和身体关节旋转。我们选择了4个基础的全球定位和86个基础的身体关节旋转,这解释了90%的变异1。最后,我们将线性运动模型插入到我们 的 流 水 线 中 , 服 从 合 成 编 码 器 的 输 出 :CP=[c p,c T+μm+cp],其中cp是帧t的姿态参数。3.3. 运动补偿网络LMM在用相对大量的时间帧表示运动方面是有效的;不幸的是,它缺乏表示运动细节的能力。结果,预测的姿态序列不够准确。为了提高运动精度,我们建立了一个运动补偿网络(Motion-Comp)来调整每帧的姿态参数。具体来说,我们采用了基于GRU的网络[15],因为它被证明对处理时间信息是有效 我们将运动从LMM预测{cp}将c m和辅助码c a编码为每帧的姿态参数,然后我们提出了一种形状补偿网络(Shape-Comp),其中GRU将辅助码α作为输入,并为以预测姿态为条件的每个时间帧预测新的潜在向量。然后将潜在向量馈送到图网络中以预测每个顶点的偏移,这类似于CAPE解码器。我们删除了VAE和对抗性损失,因为它们在经验上损害了性能。GRU支持跨时间帧的信息交换,这对于运行运动完成和预测等应用程序3.5.培训战略多级神经网络是高度非线性的,很容易陷入局部极小值.我们建议采用阶段性的训练策略来提高训练的具体来说,我们首先训练形状编码器,姿态编码器,点特征提取器和运动编码器与预先学习的线性运动模型。一旦模型收敛,我们将启用Motion-Comp和Shape-Comp网络进行端到端联合训练。类似的培训策略已被其他作品普遍使用,例如,BC-将它们依次送入GRU,每一帧一旦每帧姿态参数与运动补偿网络的输出一起更新,我们将它们与来自编码器的形状参数cs组合到标准SMPL解码器中以重建每帧网格。总的来说,我们的运动模型受益于线性运动模型中强大的先验知识和运动补偿网络的强大能力。3.4.形状补偿网络到目前为止,我们能够重建正确的运动序列,它可以进一步转换为人体网格序列通过SMPL解码器。然而,预测的形状仍然较差,因为缺少头发或衣服等许多细节这主要是由于SMPL形状空间的约束能力。为了增强几何结构,引入了CAPE [38]中提出的形状表示:通过以目标姿势为条件的基于图形的神经网络,在规范空间中估计人体网格的每顶点偏移。然后,通过SMPL中预定义的线性混合权重将添加的细节转移到目标身体姿势。当与我们的框架相结合时,一种直接的方法是让辅助代码ca对形状细节进行编码,并通过CAPE解码器将其馈送到每个顶点的偏移量。我们发现这在前馈模式下工作得相当好,但在反向传播模式下则不然。我们怀疑这可能是因为来自不同时间帧的不一致梯度,特别是当姿势估计不完全准确时。因此,补偿几何形状是模糊正确的(例如,头上的一些发型),但不精确。 为了提高稳定性,1请参阅补充。Mat.主成分[25],XNect [41]和预测人类动力学[66]。损失函数由于我们的重建是用SMPL拓扑注册的,我们使用每顶点L1损失和地面真实网格作为目标函数。为了进一步减轻身体形状和衣服之间的模糊性,我们在形状代码cs上添加关于地面真值的L2损失。在第一个训练阶段,我们使用的网格重建与运动从LMM的监督。在第二阶段,我们在Shape-Comp网络之前和之后的两个网格上使用附加损耗损失函数的详细公式Mat.4. 实验在本节中,我们进行了大量的实验来验证我们的方法的有效性首先,我们评估了我们的表示能力,用于编码精确的形状和运动的4D重建和人体形状和运动恢复的任务。然后,我们证明了一个大的各种各样的4D相关的应用程序,包括运动重定向,完成和预测,可以实现高品质的与我们的代表。最后,我们提供了一个消融研究,以测试我们的框架中的每个组件对重建质量的影响。数据集我们使用CAPE数据集[38,49]进行训练和评估,这是一个3D动态穿着人体的数据集,包含10名男性和5名女性受试者穿着不同类型的服装。提供了600多个大姿态变化的运动序列。在每个序列中,以60FPS捕获穿着的身体形状以及每个帧的规范姿势和姿势参数中的相应网格总的来说,数据集提供了良好的数据-19359输入OFlow4D-CR我们GT图3. 4D重建。给定从SMPL配准的网格中均匀采样的密集点云序列(行1),我们的方法(行4)可以重建具有精确运动的细粒度网格,而基线方法(行2,3)往往过于平滑并且通常具有不完整的几何形状,例如,失踪的手。我们统一采样5帧(30帧)进行可视化。在3D几何和运动方面的专业知识根据OFlow [44],我们将CAPE中的所有序列划分为30帧的序列。我们使用488个运动序列的连续性进行训练,并从其他123个运动序列中随机抽取2000个子序列进行测试。实现我们使用PyTorch来实现模型,并使用Adam优化器进行训练[31]。在第一阶段,学习率为10- 4,批量大小为16。在第二阶段,初始学习率设置为10−4,由于GPU内存的限制,在批量大小为4的200K次迭代后下降 到 10−5 我 们 使 用 4 个NVIDIA GeForce RTX 2080TiGPU卡。评估为了测量预测和地面真实3D形状之间的差异,我们使用倒角距离(CD)和体积IoU(IoU)[43]用于自由形式的几何形状,并使用每顶点误差(PVE)用于SMPL配准形状。为了测量运动的准确性,我们使用Procrustes 对 齐 的 平 均 每 关 节 位 置 误 差 ( PA-MPJPE),平均每关节位置误差(MPJPE),和加速度误差(mm/s2)上计算的45个关键点,其中包括24个关节和21个关键点的脸,脚和手。有关这些指标的更多详细信息,请参阅[30,32,43]。对于时间序列,我们取所有帧的平均得分。4.1. 表示能力我们首先表明,我们的表示是能够编码和重建人类序列与正确的运动和几何。4D 重 建 我 们 将 最 先 进 的 4D 表 示 Occupational Flow(OFlow)[44]和4D-CR [26]与采样点云输入的网格重建进行了比较。如Tab.所示。1(I),我们的方法在4D重建精度上显著优于其他方法两个时间序列的定性结果如图3所示。OFlow往往会产生不完整的几何形状,缺少手,4D-CR的结果过于平滑,例如。脸和手周围。相反,由于人类的先验知识,我们的结果明显优于其他人,具有完整的几何形状,正确的运动和丰富的细节,如手指,衣服和头发。同样值得注意的是,OFlow和4D-CR都需要具有时间对应性的点云作为输入,而我们的方法可以采用未注册的点云序列,这对于许多应用来说更方便。形状和运动恢复然后我们研究了我们的运动模型的性能,该模型由线性运动模型和恢复的时间时间19360SpMSp是个一I. 与以前的4D表示方法的方法4D重建运动重定向运动完成未来预测IoU↑CD↓IoU↑CD↓IoU↑CD↓[第44话]百分之六十一点五0.199百分之三十点七0.470百分之六十五点八0.18158.8%0.2184D-CR [26]百分之六十二点九0.165百分之四十七点三0.29676.6%0.12864.0%0.200我们百分之七十三点三0.09370.7%0.10090.3%0.03171.7%0.121II. 与人体估计方法的比较(向前)方法形状和运动恢复运动重定向PA-MPJPE↓MPJPE↓PVE↓Accel↓PA-MPJPE↓MPJPE↓PVE↓Accel↓HMMR [30]87.8102.189.220.985.798.086.919.4VIBE [32]45.354.347.613.446.354.147.012.84D-CR-SMPL [26]59.268.559.59.962.473.263.710.14D-CR-SMPL贴片 [26]49.857.749.88.952.259.651.68.7我们38.444.939.28.839.545.239.08.6III. 与人体估计方法的比较(向后)运动完成未来预测方法PA-MPJPE↓MPJPE↓PVE↓Accel↓PA-MPJPE↓MPJPE↓PVE↓Accel↓HMMR [30]146.5148.3 48.7148.4142.9 146.948.3Zhang等人[第六十六话]––134.7146.5 143.423.04D-CR-SMPL [26]87.367.3 66.9 14.191.977.9 77.111.3我们53.842.7 41.773.162.8 59.711.2表1. 在各种任务上与SoTA方法进行比较。为了进行评估,我们采用体积IoU(IoU)和倒角距离(CD)[43]与自由形式方法(块I)进行比较,并采用几个标准度量[30,32]用于基于SPL的方法(块II和III,数字以mm为单位测量)。表示输入点云序列具有时间对应性。从辅助代码。作为基线,我们将基于SoTA视频的人体形状和姿态估计方法HMMR [30]和VIBE [32]进行比较。最初设计用于彩色图像输入,我们在设置中将其图像编码器替换为此外,作为附加基线,我们通过用SMPL解码器替换其隐式占用解码器将4D-CR [26]扩展到基于SMPL的版本,使得其也受益于人类先验。由于所有这些方法都只产生未覆盖的SMPL定义的形状,因此我们禁用形状补偿网络,并使用SMPL解码器的输出进行公平比较。所有的基线方法都是在我们的数据集上重新训练的。为了扩展4D-CR,我们训练了两个模型,一个是像他们工作中一样的注册点云(4D-CR-SMPL),另一个是像我们这样的未注册点云(4D-CR-SMPL)。4.2. 应用我们的代表可以支持各种应用程序。请注意,对于所有应用程序,编码器和解码器在训练后都是固定的。运动重定向运动重定向的目标是将运动序列从一个主体转移到另一个主体。传统的方法通常需要手工操作,例如:提供源和目标标识之间的对应关系[59],以完成这样的任务。我们在没有任何人为干预的情况下实现了运动重定向。取两个点云序列,一个作为身份(I),另一个作为运动(M),我们将两者都馈送到我们的组合编码器中,以获得每个(cI,cI,cI,cI)的SMPL参数和潜在代码,(cM,cM,cM,cM). 我们会进行重新定位-分别为。定量比较见表1。1(II)。我们的方法实现了更精确的运动s p m a通过使用(cI,cM,cM)用于线性运动模型,cM用于与 HMMR 和 VIBE 相 比 , SMPL 形 状 ( 如 通 过 PA-MPJPE、MPJPE、加速度误差在身体关键点处测量的)和SMPL形状(如通过PVE测量的)更好。当输入点云是无序的时,4D-CR-SMPL的性能相对较差,并且一旦给定跟踪点云(4D-CR-SMPL无 序),4D-CR-SMPL的性能就好得多,但仍然比我们的方法差。我们提供了与最近的基于运动的人体估计方法HuMoR [52]的额外比较,其任务是通过Supp中的自动解码从点云恢复形状和运动。材料19361一运动补偿网络,以及形状补偿网络的cI注意,两个ca分别用于运动补偿和形状补偿网络,因为它们分别编码运动和形状信息为了评估的目的,我们随机抽样100对身份和运动序列与L=30帧。我们使用CAPE [38]数据集提供的规范姿势和姿势参数中提供的地面实况形状来生成运动重定向地面实况序列。我们与基于自由形式几何的方法(OFlow和193624D-CR)(在选项卡中)1(I))和基于SMPL的方法(HMMR、VIBE、4D-CR-SMPL)对来自SMPL的1(II))。我们的方法显著优于OFlow和4D-CR。如图4中的定性示例所示,我们的方法产生了更完整的运动重定向结果。注意布料细节是如何成功转移的,例如。与运动序列中的短裤相比,身份序列中的长裤。我们的方法也优于所有的人体估计方法,表明组合编码器在从输入中提取正确信息和促进运动恢复方面更有效。运动完成我们的表示还可以以自动解码的方式完成拟合任务,其中SMPL参数和潜在代码被优化以产生与观察类似的输出有了这个,我们的表示可以执行运动完成,目标是预测动态人类序列中的缺失数据为了评估,我们从我们的测试集中随机选择100个具有30帧的序列。对于每个序列,我们随机选取15帧作为观测值,优化SMPL参数和潜在编码,重建完整序列,然后测量其余15帧的几何精度请注意,我们在均匀采样点上使用倒角损失和从IPNet [8]借来的额外先验项,而不是PVE来模拟实际应用中的情况,其中观察到的网格可能没有注册。与基于自由形式的方法和基于SMPL的方法的比较见表1。1(I)和(III),定性结果见附录。材料Zhang等人[66]使用与HMMR [30]相似的运动模型,因此我们只评估其中之一。总的来说,我们的方法始终优于所有其他方法。此外,我们比较了使用我们的形状补偿网络与朴素CAPE解码器的基于自动解码的拟合的鲁棒性,并在图6(b)中示出了关于添加到观察到的帧的随机噪声量的完成误差我们的模型的错误是一贯低于天真的CAPE解码器和恶化较少的增加噪声。这可能是因为CAPE执行逐帧优化,如果梯度与时间帧不一致,这可能会混淆潜在空间,而我们使用GRU对时间序列进行建模以获得更高的鲁棒性。最后,我们的模型还可以从部分空间观测中完成时间序列。为了证明这一点,我们从与3D形状的运动同时旋转的相机中每帧生成一个深度图像这也可以被认为是与已知相机姿势的典型非刚性融合。我们在Supp中展示了与NPM的定性和定量比较[45]。材料未来预测我们的表示还支持未来时间运动序列身份序列OFlow4D-CR4D-CR-SMPLVIBE我们GT图4. 运动重定目标。我们的目标是将运动序列(第1行)中的人体运动传递给身份序列(第2行)中的人。我们可以准确地将运动转换为新的恒等式,并保持原有的几何细节,例如。服装和发型,在同一时间(行7)。自由形式基线(第3、4行)要么由于形状和运动纠缠而失效,要么由于误差累积而随时间推移产生更多伪影。基于SPL的基线(第5、6行)也实现重定向,但不准确,并且它们只能表示未穿衣的身体。预测.具体来说,我们在前20帧上运行拟合算法,生成SMPL参数和潜在代码,然后重建完整序列以预测未来的10帧。 选项卡. 图1(I,III)和图5显示了与先前方法的比较。同样,我们获得了比其他4D表示方法(OFlow和4D-CR)更好的性能。当仅比较使用SMPL网格的运动精度与先前关于运动预测的工作(HMMR[30],Zhanget al.[66]和4D-CR-SMPL [26]),我们的方法仍然实现了更好的性能。此外,我们根据经验发现,尽管给定19363时间由于在向后优化期间存在姿势先验项,这些基线方法比我们更容易产生不自然的姿势,并且预测不合理的运动,如图5所示,这可能是因为我们的基于PCA的运动模型为输出运动提供了正则化和全局上下文。PA-MPJPE↓ MPJPE↓ PVE↓加速↓-GRU Enc.49.657.049.6十 点六-LMM40.246.841.28.8-动议ca43.750.443.49.0完整模型38.444.939.28.8-形状ca†––43.8–完整模型†––42.0–40200 10 20高斯标准(mm)观测预测(a) 消融研究(b) 噪声容限OFlow4D-CRHMMR张等人4D-CR-SMPL我们GT图5. 未来预测。我们推断10未来的时间帧的基础上20个过去观察到的帧。基线方法(第1-5行)要么产生不令人满意的几何形状,要么陷入不自然的姿势,而我们的方法(第6行)成功地保持了运动趋势,并对未来运动进行了合理的预测。左边和右边的网格分别是对未来时间步长的观测和预测的重建4.3. 消融研究在本节中,我们进行了消融研究,并显示了定量结果,以证明我们的方法中主要设计的效果。可视化示例可以在Supp. 材料运动模型我们首先研究线性运动模型和辅助代码对运动恢复的影响我们将SMPL解码器的输出上的消融情况与地面真实网格上的注册SMPL模型进行比较,这消除了自由形式的变形,并使我们能够专注于运动质量。在图6(a)中,我们示出了去除线性运动模型(“-LMM”)的模型的性能图6. (a)消融研究。我们通过用[26,44]中使用的修改后的点网替换GRU来验证我们的时间编码器的有效性(第1行)。此外,我们依次删除了框架中的主要模块以演示效果不同组分(第2、3、5行)。表示我们用地面实况覆盖网格计算度量(b)稳健性对抗噪音。X轴是添加的高斯噪声的标准偏差,y轴是逐顶点误差(PVE,越低越好)。复苏在任何一种情况下,运动精度下降consition- tently测量的所有指标,表明结合先验模型与学习补偿的必要性。然后我们验证辅助代码是否有助于恢复详细的几何形状。在图6(a)中,我们示出了不具有和具有辅助代码驱动的形状补偿的最终网格的性能(最后两行),其通过输出网格与地面真实覆盖网格之间的PVE来测量。形状补偿的优点也可以在图中找到图4和图5 的 结果 表 明, 当将 我 们的 结 果与 来 自VIBE、HMMR或4D-CR-SMPL的SMPL输出进行比较时,辅助代码有助于改善几何编码器最后但并非最不重要的是,我们验证了我们的基于GRU的时间编码器的有效性。我们用OFlow [44]和4D-CR [26]中采用的PointNet替换我们的这表明我们的基于GRU的编码器有助于从没有时间对应的点云序列中提取时间信息。5. 结论本文介绍了H4D,一个紧凑的和合成的神经表示的4D人体捕捉,它结合了基于先验和自由形式的解决方案的优点。设计了一个新的框架来学习我们的表示,该框架将输入点云序列编码为形状和初始姿态的SMPL参数在4D重建、形状和运动恢复、运动重定向、补全和预测等方面的大量实验验证了该方法的有效性。确认本 工 作 得 到 了 国 家 自 然 科 学 基 金 项 目( 62176061 ) 、 上 海 市 科 技 重 大 专 项(2018SHZDZX01)的部分资助。对应的作者是薛向阳、傅彦伟。我们简单地合并CAPEPvE19364引用[1] Panos Achlioptas,Olga Diamanti,Ioannis Mitliagkas,and Leonidas Guibas.三维点云的表示学习和对抗生成。arXiv预印本arXiv:1707.02392,2(3):4,2017。2[2] Emre Aksan,Peng Cao,Manuel Kaufmann,and OtmarHilliges. 一 种 用 于 三 维 人 体 运 动 预 测 的 时 空Transformer。arXiv电子印刷品,第arXiv-2004页,2020年。2[3] Emre Aksan、Manuel Kaufmann和Otmar Hilliges。结构化预测有助于三维人体运动建模。在IEEE/CVF计算机视觉国际会议论文集,第7144-7153页,2019年。2[4] ThiemoAlldieck , MarcusMagnor , BharatLalBhatnagar,Christian Theobalt,and Gerard Pons-Moll.学习从一个单一的rgb相机重新构建穿着衣服的人。在IEEE/CVF计算机视觉和模式识别会议论文集,第1175-1186页,2019年。2[5] Thiemo Alldieck , Marcus Magnor , Weipeng Xu ,Christian Theobalt,and Gerard Pons-Moll.从单目视频的详细的人类化身。2018年国际3D视觉会议(3DV),第98-109页IEEE,2018年。2[6] ThiemoAlldieck , GerardPons-Moll , ChristianTheobalt,and Marcus Magnor. Tex2shape:从单个图像中获得详细的完整人体几何形状。在IEEE/CVF计算机视觉国际会议论文集,第2293-2303页,2019年。2[7] Emad Barsoum , John Kender , and Zicheng Liu. Hp-gan:通过gan进行概率3d人体运动预测。在IEEE计算机视觉和模式识别研讨会会议的论文集,第1418-1427页,2018年。2[8] Bharat Lal Bhatnagar,Cristian Sminchisescu,ChristianTheobalt,and Gerard Pons-Moll.结合内隐函数学习和参数模 型进 行三 维人 体重 建。 欧洲 计算 机视 觉会 议(ECCV)Springer,2020年8月。二、七[9] Federica Bogo、Angjoo Kanazawa、Christoph Lassner、Peter Gehler、Javier Romero和Michael J Black。Keep itsmpl:从单个图像自动估计3d人体姿势和形状。欧洲计算机视觉会议,第561-578页。施普林格,2016年。一、二[10] Yujun Cai,Lin Huang,Yiwei Wang,Tat-Jen Cham,Jianfei Cai,Junsong Yuan,Jun Liu,Xu Yang,YihengZhu , Xiao-hui Shen , et al. Learning progressive jointpropagation for human motion prediction.在欧洲计算机视觉会议上,第226-242页Springer,2020年。2[11] Rohan Chabra , Jan Eric Lenssen , Eddy Ilg , TannerSchmidt,Julian Straub,Steven Lovegrove,and RichardNewcombe.深度局部形状:学习局部sdf先验,用于详细的3d重建。欧洲计算机视觉会议(ECCV),2020年。2[12] ChaoWen,Yinda Zhang,Zhuwen Li,and Yanwei Fu.Pixel2mesh++:通过变形生成多视图3D网格在ICCV,2019年。2[13] Ricky TQ Chen,Yulia Rubanova,Jesse Bettencourt,and David K Duvenaud.神经元常微分方程神经信息处理系统的进展,第6571-6583页,2018年一、二[14] Julian Chibane,Thiemo Alldieck,Gerard Pons-Moll.特征空间中的隐式函数用于三维形状重构和补全。在IEEE/CVF计算机视觉和模式识别会议论文集,第6970-6981页2[15] KyunghyunCho,BartVanMerrieünboer,CaglarGulcehre , Dzmitry Bahdanau , Fethi Bougares ,Holger Schwenk,and Yoonge Bengio.使用rnn编码器-解码器学习短语表示用于统计机器翻译。arXiv预印本arXiv:1406.1078,2014。二、四[16] Hongsuk Choi,Gyeongsik Moon,and Kyoung Mu Lee.来自视频的时间上一致的3d人体姿势和形状的远距离静态特征在计算机视觉和模式识别会议(CVPR),2021年。一、二[17] Christopher B Choy , Danfei Xu , JunYoung Gwak ,Kevin Chen,and Silvio Savarese. 3d-r2 n2:用于单视图和多视图3D对象重建的统一方法。在ECCV,2016年。2[18] EnricCorona , AlbertPumarola , GuillemAlenya` ,GerardPons-Moll,andFrancescMoreno-Noguer.Smplicit : Topology-aware generative model forclothed people.在CVPR,2021年。一、二[19] Philipp Erler,Paul Guerrero,Stefan Ohrhallinger,NiloyJ. Mitra,and Michael Wimmer. Points2surf:从点云学习隐式曲面。在ECCV,2020年。2[20] Haoqiang Fan,Hao Su,and Leonidas J Guibas.从单幅图像重建三维物体的点集生成网络在IEEE计算机视觉和模式识别会议论文集,第605-613页,2017年。2[21] P Thomas Fletcher,Conglin Lu,Stephen M Pizer,andSarang Joshi.形状非线性统计研究的主测地线分析。IEEE transactions on medical imaging,23(8):995-1005,2004。2[22] 放大图片作者:David F.福伊,米克尔·罗德里格斯,阿布·希纳夫·古普塔.学习对象的可预测和生成矢量表示。在ECCV,2016年。2[23] Thibault Groueix、Matthew Fisher、Vladimir G Kim、Bryan C Russell和Mathieu Aubry。Atlasnet:A papier-m?ch?approachtolearning3dsurf acegeneration. arXiv预印本arXiv:1802.05384,2018。2[24] Riza Alp Guler和Iasonas Kokkinos。Holopose:Holis- tic3D human reconstruction in the wild.在IEEE/CVF计算机视觉和模式识别会议论文集,第10884-10894页,2019年。一、二[25] Boyi Jiang,Juyong Zhan
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功