人体3D建模与动画的自动化方法

140 浏览量更新于2024-01-22 收藏 2.72MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13284S3：用于3D人体建模的杨泽1、2王神龙1、2西瓦巴兰·马尼瓦萨加姆1、2黄曾3马伟秋1、4严新晨1、2埃尔辛·尤默1、2拉奎尔·乌尔塔孙1、21Uber Advanced Technologies Group2多伦多大学3南加州大学4麻省理工{zeyang，slwang，manivasagam，urtasun}@cs.toronto.edu，zenghuan@usc.edu，weichium@mit.edu，{xcyan，yumer}@uber.com图像和/或LiDAR图1：给定单个图像和/或单个LiDAR扫描作为输入，我们的模型可以联合推断形状，骨架和蒙皮，然后可以用于以新颖的姿势生成动画3D角色。摘要在诸如虚拟现实或机器人仿真测试等广泛的应用中，构建和动画化人是构建虚拟世界的重要由于具有不同形状、姿势和服装的人类的变化呈指数级地多，因此开发能够从真实世界数据自动地大规模地重建和动画化人类为了实现这一目标，我们将行人这种表示使我们能够处理各种各样的不同的行人形状和姿势，而无需解释性地拟合人体参数化身体模型，从而允许我们处理更广泛的人体几何形状和拓扑结构。我们证明了我们的方法在各种数据集上的有效性，并表明我们的重建优于现有的最先进的方法。此外，我们的重新动画实验表明，我们可以从单个RGB图像（和/或可选的LiDAR扫描）作为输入生成3D人体动画。1. 介绍真实感、关节式的人体模拟是一项具有广泛应用前景的重要任务。它有助于将视频游戏和电影中的角色带入生活[61]，在体育背景下提供真实的AR/VR体验[71，67]和社交媒体[12]，并开始在室内[51，58，39]和室外环境[20，64]中测试机器人系统的现实模拟中发挥重要作用。传统上，人体重建和动画是一个耗时的手工过程.艺术设计师需要创建一个比例适当的“关节估计”，指定人类最后，艺术家必须指定制定动画的姿势序列。如果我们想要大规模地重建和制作三维人体动画，例如通过数字化在城市场景中观察到的数百万不同行人，这种手动方法既不划算也不高效自动化的人的重建和动画是非常具有挑战性的，因为有很大的变化，行人的形状，姿势，服装和装备。大多数现有的可模拟人体建模方法是由一组单独运行的模块组成的流水线系统[59，53，61]。通常，第一模块使用标记[17]或无标记[11]运动捕获来执行联合估计。从密集的3D扫描或图像，系统然后重建形状[14，6，34，30，66，5，25，4，21，49]和纹理[56，55，41]。估计的姿势骨架通常通过具有手动设计或自动权重绘制[8，19]的闭合形式蒙皮模型[27，28]与网格不幸的是，现有的方法要成功地工作，它们通常依赖于昂贵的3D形状骨架剥皮重新设置形状的动画13285在受控环境中的扫描仪，多摄像机笼[59，53]，或者需要相对受控的视点，具有小变化的典型正面视图[61]。到目前为止，很少有作品对穿着衣服的人进行全自动端到端的重建和动画[22，62，9]，但它们都需要拟合参数化身体模型，这使得难以对几何形状明显偏离的人进行动画（即，非紧身服装，如裙子和连衣裙）。在本文中，我们提出了一个可扩展的解决方案，通过重建3D动画人类在野外，利用我们的城市周围捕获的感官数据的然而，这种设置带来了新的挑战：野外数据缺乏真实的3D形状和姿态，使得基于深度学习的模型的监督具有挑战性。此外，所捕获的传感数据可能是有噪声的、低分辨率的、在非规范视图和姿态下的以及具有各种照明条件的。这些条件对于蒙皮尤其具有挑战性，蒙皮需要每个表面位置与其对应的身体部位精确对应。不精确的像差将在动画过程中导致较大的像差为了解决这些挑战，我们提出了一种新的方法，该方法采用在行人的单个视点（即图像和/或LiDAR扫描）捕获的传感器数据，并联合预测3D网格，骨架关节和蒙皮权重，所有这些都使用单个网络（见图1）。由此产生的可动画化的行人可以直接变形为新的姿势，并使用运动捕捉数据或艺术家创建的动画放置到新的场景中受隐式建模[42，7，15]和神经辐射场[38]最近成功的启发，我们将3D人体表示为连续的多维神经场，其输出占用，人体联合概率以及连续空间中每个输入3D位置的蒙皮权重。这种表示非常灵活，可以捕捉穿着衣服的人的细节，处理不同的表面拓扑结构（即裙子），并很好地适应看不见的人体形状，因为它不受具有固定（网格）拓扑结构的参数化模型的约束此外，我们的端到端架构克服了错误传播的挑战，常规管道。我们证明了我们的方法在真实感合成人体3D数据和大规模真实世界自动驾驶数据集上的有效性我们的方法实现了更好的定量和定性性能相比，国家的最先进的方法在形状重建质量。重要的是，我们还表明，我们可以可靠地重新动画重建的3D人体给定的新姿势。2. 相关工作人体重建：SCAPE [6]和SMPL [34]等早期作品提出使用参数模型表示人体形状和姿势相关变化在此基础上，人们一直在努力通过模拟软组织身体运动来扩展SMPL[46]，整合手部动作，[47]和面部表情[24，43]。后来的作品提出通过最小化联合重新投影误差[10，25]，轮廓重新投影误差与可微渲染器[57，45]来从单个图像估计3D姿态和形状最近的工作还探索了单目视频中的跨帧一致性[26，44]，人机交互[68]和特定部分的注意力[16]，以将重建质量提高到下一个水平。SMPL的局限性之一是它只捕捉了人体裸露的形状空间，这不可避免地导致了在实践中的现实差距。最近的作品[70，4，36，5，23]介绍了每顶点变形或分层服装，以更好地重建穿着人体。连续神经表示：近年来，深度隐式函数（或更一般地说，连续神经场）在静态场景或刚性对象[42，37，63]和人体形状等可变形对象[15，49，50，21，69]的3D表示中越来越受欢迎这些方法通常具有更多的自由度来捕捉人体形状和服装的变化。连续神经表示也显示出在新视图合成[38，52]和对象识别[29，65]中实现了良好的性能动画人类：在计算机图形学中，一种常见的方法是通过骨骼动画来动画人类角色。它需要用两个组件表示的铰接对象蒙皮使用蒙皮权重将每个曲面顶点绑定到骨骼，从而测量骨骼移动时网格顶点的更改方式。线性混合蒙皮（LBS）[32]通过蒙皮权重线性组合来自每个骨骼的变换，SMPL [34]通过身份驱动的形状变化和姿势相关的形状变化来扩展LBS从图像中联合重建和模拟人是视觉和图形学中的一个新兴领域。最近的方法[61，25，31]通过使用SMPL [34]模型从单个照片重建和动画。隐式函数法在处理布料和配饰时获得了更好的重建质量。然而，动画需要额外的后处理，例如生成由参数模型引导的扭曲场[22]，或显式拟合SMPL模型作为后处理步骤[9]。与这些工作不同的是，我们通过一个统一的网络预测动画的所有必要组件：形状，3. 重建可设置动画的行人我们提出了S3，一个端到端的神经S形，S骨架，和Skinning场模型重建现实和动画的三维人体从一个单一的相机图像，一个单一的视图激光雷达扫描，或配对的图像和激光雷达输入。13286皮肤领域油漆图像占领区啮合复活构成体素化激光雷达3D特征图多传感器特性领域Argmax多模式功能（第3.1）点编码器（第3.2）神经S3场（第3.3）动画模型（第（3.4）图2：我们提出的方法的概述从左到右：我们将输入传感器数据处理成空间特征表示（第3.1节）。我们从3D空间自适应地查询点并提取它们的点编码（Sec. 3.2），我们用它来查询我们的形状，姿势和皮肤的神经隐式表示（第二节）。3.3）。我们应用后处理来构建一个动画人物的最终3.4）。假设图像和LiDAR的背景都被屏蔽，我们的网络将图像I和/或LiDAR C作为输入，以形成x=（I，C）∈ X。对于连续空间p ∈ R3中的3D查询点，网络输出一个连续值的多维向量，表示占用、关节位置以及蒙皮权重。图2描绘了我们的方法的概述。我们首先通过骨干特征网络将输入x编码为2D和3D特征表示（第二节）。3.1）。然后基于生成的特征表示获得查询3D点的隐式特征向量（第2节）。3.2）。给定3D位置处的特征向量，使用全连接网络来预测其占用概率、人类关节概率和蒙皮权重（Sec. 3.3）。最后，基于采样点的最终预测提取形状、骨架和蒙皮权重（第二节）。3.4）。3.1. 多模态特征为了提取多模态特征表示用于可动画化的行人生成，我们通过两个单独的骨干网络处理稀疏LiDAR点云和单个相机图像，以分别获得3D体积中心特征和2D图像特征。体积特征表示：体积特征主干将LiDAR数据作为输入，并输出密集的3D体素张量，该张量对从稀疏点云给出的3D形状信息进行编码。具体来说，我们首先将输入点云C转换为规范坐标系。特别地，点云沿着偏航轴旋转并沿着水平面平移，使得其偏航角和水平平移被归一化为零中心。然后，我们体素化规范化的点云到一个vo x el网格。3D卷积网络gvox则为ex-用来产生一个度量特征张量gvox（C）。由于其表现力和效率，我们的3D卷积网络具有U-Net架构[48]。编码器包含8个卷积层，解码器包含6个具有跳过连接的卷积层最终输出特征具有与输入体素网格相同的分辨率详情请图像特征表示：为了利用来自图像的丰富语义和形状线索，我们使用2D卷积网络来计算图像I的图像特征映射gim（I）。对输入图像进行ROI裁剪并使用给定的实例掩码进行掩码，使得目标人物以具有归一化大小的图像为中心，并且背景是干净的。我们的2D卷积网络是一个四层堆叠的沙漏网络[40]，并在[49]中提出了修改与输入图像相比，最终输出特征具有1/4的空间分辨率。3.2. 点要素编码为了更好地预测形状，姿势和皮肤的连续多维神经场表示，我们利用从多模态输入编码的上下文信息观察者。该点特征是体素特征、图像特征和视点特征这三个特征的集合。φ（p，x）=[φvox（p，C），φim（p，I），φview（p）]（1）我们现在更详细地描述这些特征。LiDAR和图像编码：给定输入体素特征gvox（C）和图像特征gim（I），我们通过插值计算任意连续点p处的特征向量。具体来说，我们使用三线性插值来获得相应的3D特征，表示为查询点pGeo.编码二维特征图双线性样本三线性样本三维主干二维主干姿势网皮网占领网13287拉法i=1φvox （ p ， C ） =TrilinearSample （ p ， gvox（C））;We还将点投影到相机平面上并通过双线性插值来检索 2D 图像特征，表示为 φim （p ， I ）=BilinearSample（π（p），gim（I）），其中π是透视投影函数。这里我们假设校准是先验已知的。视点编码：为了提供全局上下文，我们为给定的查询点p计算附加的全局位置特征φview（p），表示如何相对于传感器视角来观看p。viewpoint特征φvieww（p）被定义为样本点p与网片占领网片姿势网片皮肤网片图3：计算每个模块损耗的采样点。蒙皮网络：蒙皮是将3D网格上的顶点绑定到人体骨骼中的每个骨骼例如，旋转角色的脖子最有可能单位照相机光线r2φ视图通过原点c：R（p）=（p-c）·第二章（二）影响头部的顶点蒙皮权重描述每个骨骼的刚性运动对给定顶点的影响重建其中原点c默认定义为人类的骨盆关节，或者当LiDAR 可用时，定义为 LiDAR 点中心此功能在LiDAR缺失的区域中特别有用，同一传出相机射线上的查询点将具有相同的像素特征φim（p，I），此视点蒙皮权重，我们在人体表面上学习蒙皮函数，该函数将人体网格上的每个表面点与其他两个头相似，我们的皮肤网络将点编码φ（p，x）作为输入并输出K维概率单纯形，编码可以帮助区分那些采样点。3.3. 神经S3场f皮肤（φ（p，x））→s∈K在本节中，我们描述如何预测每个查询点p的最终输出f（φ（p，x））。最终输出在连续的3D空间中形成一个高维向量场，编码任意给定点的占用率、关节位置和蒙皮权重网络f的输入是等式n中描述的点编码φ（p，x）1.一、我们的网络由三个5层的多层感知器（MLP），即占用网focc，姿势网f姿势，和皮肤网f皮肤。我们使用三个单独的头部来提高每个任务的预测能力，而不共享权重，而它们的共享输入功能仍然可以促进每个任务输出的一致性我们不共享模块之间的权重，以允许更好的表现力。OccupationalNet：受[49，37]的启发，我们的占用头部输出一个概率值o ∈ [0，1]，表示点p在人体内的概率。focc（φ（p，x））→o∈[0，1]这种连续表示比隐式形状表示（如符号距离函数）更容易训练，同时保持表达能力。姿势网络：人体骨架在3D中表示为一组关键点和相互连接的骨骼为了恢复底层骨架，姿势网络将每个查询点p映射到表示查询点属于每个人体关节的可能性的M维概率向量j中fpose（φ（p，x））→j∈[0，1]M其中，M是关节的数量。其中K是关节的数量。此外，我们在换肤头的全连接层之后添加了一个softmax层，以使预测和为1。3.4. 动画模型提取假设现在我们已经学习了函数 f （ φ （ p ，x））。下一步是从中提取一个可动画化的人体模型。我们首先根据期望的分辨率构造查询点的密集网格P={pi}N 对于每个查询点p，我们评估其体积占用o和身体关节j的概率，从而创建密集的占用场以及关节热图。然后我们在占用网格上运行MarchingCubes算法[35]以生成人体网格。我们还通过在每个关节的热图上获取其最可能的位置来定位所有人体关节的位置。最后，对于重建网格的每个顶点v，我们计算每个顶点的蒙皮权重s。图图2（右）描绘了这种可动画化的模型提取过程。3.5. 网络训练我们通过由成对的感官输入和地面真实动画网格组成的数据集学习由神经网络权重通过联合最小化以下损失函数来训练网络参数：L=λoccL occ+λposeLpose+λ skinL skin（3）图3显示了用于训练三个隐式函数的采样查询点。f（φ（p，x））中所有骨干网和头网络的参数通过以下方式联合学习：13288在采样的查询点上的反向传播。我们现在详细描述每个头的损失函数和查询点样本策略。占用损失：该损失对地面实况（GT）占用率和估计占用率概率之间的不一致进行编码。在训练期间，我们从连续3D空间中采样一批查询点pi∈R3，i∈1，2，···Nocc，并使用地面实况占用率oi和预测占用率focc（φ（pi，x））之间的均方误差作为占用率损失函数：N一些消融研究。由于页数限制，我们建议读者查看柔性材料中的其他消融研究。我们还展示了我们的方法4.1. 数据集我们在RenderPeople [3]数据集上训练我们的算法，其中地面真实形状可用。我们评估了我们的模型上举行的RenderPeople人物和动画，以及一个大规模的自动驾驶数据集，其中包含行人的姿势，形状，服装，在不同的环境照明下有很大的变化。Locc=1NoccCocoCCi=1（oi−focc（φ（pi，x）2（4）RenderPeople数据集：我们购买了793个RenderPeople操纵的角色[3]，然后用39个我们遵循[49]并在空间中采样近表面点和对于近表面点，我们从网格表面随机采样点，并用高斯噪声扰动它们。这种采样策略确保了训练效率，同时仍然学习高清晰度的表面边界。姿态损失：我们使用地面真实关键点概率ji和预测联合概率fpose（φ（pi，x））之间的均方误差作为姿态损失：来自Mixamo的不同动画[2]。我们的角色集包含各种各样的行人，他们有不同的身体形状和服装。我们从[33]中扩展了32个动画的多样性，增加了7个额外的动画，涵盖了行人的行为，如步行和跑步。我们为每个模型的每个动画随机选择3帧，结果是777×39×3 =90，909个网格用于训练，16×39×3 =1，872个用于评价的网格。此外，我们使用了额外的 10 个来自 Mixamo 的新动画（结果为16×10×3 = 480个网格）来测试泛化能力Lpose=1N位姿Nposei=1 （ji−fpose（φ（pi，x）2（5）我们的模型的能力看不见的动画。为了创建真实的图像，我们使用Blender Cycles引擎[18]渲染图像。字符和放置在10米的深度和视角是均匀分布的偏航角周围。我们其中，GT关键点概率ji由com确定对查询点pi和GT关键点位置之间的距离施加高斯函数与在密集网格热图上学习联合概率的现有2D和3D姿态估计方法不同[40，54]，我们从以GT关键点位置为中心的高斯分布中对查询点pi进行采样，并且我们用空间中的均匀采样点对其进行扩增以确保背景点也被覆盖。图3描绘了这种采样策略的示例。皮肤损失：对于训练期间的每个查询点pi，我们还应用地面真实皮肤权重si和预测皮肤权重fskin （φ（pi，x））之间的均方误差作为损失函数：使用HDRI Haven [1]中的HDRI400室外图像，环境照明此外，我们使用Intel Embree光线跟踪器[60]来模拟LiDAR点云。随机光线下降和干扰注入推动现实主义。我们围绕偏航轴每隔20度和120度生成训练和测试示例详情请参阅补充资料。自动驾驶数据集：我们还对真实世界的自动驾驶数据集进行了实验，该数据集包含北美多个大都市的不同场景。我们的自动驾驶传感器平台有一个全局快门相机，具有112的水平FOV和64束旋转LiDAR。为了创建我们的数据集，我们使用3D框注释标记了距离自我汽车6- 25 m范围内的1.3k行人Lskin=1N皮肤Nskini=1（si−fskin（φ（pi，x）2（6）和基于图像的实例注释，产生了超过1k个评估示例。4.2. 实验细节其中Nskin是查询点的数量4. 实验评价在本节中，我们首先介绍我们的实验设置。然后，我们比较我们的方法对几个国家的最先进的方法在三维形状重建和目前实现细节：我们在512 × 512的RenderPeople图像上训练我们的模型，使用16个GPU，批量大小为64，持续14个epoch。我们将LiDAR扫描体素化为形状为64×64×64的体素网格。我们使用RMSProp优化器，初始学习率为1×10−3，然后在第10个epoch和第12个epoch时衰减10我们采样13289（a）我们的（b）PIFu(c) PIFuHD(d) Tex2shape（e）SPIN图4：RenderPeople数据集上的重建。在每个单元格中，我们在前面显示形状，不可见和放大视图。“(a) 我国（b）PIFu（c）PIFuHD（e）自旋图5：真实世界数据的重建在每个单元格中，我们在前面显示形状，不可见和放大视图。“看不见的姿势表1：RenderPeople数据集的定量比较：从其他RenderPeople数据集预训练的模型;†：使用正交图像的模型。我们报告了可见和不可见姿势的倒角和P2S误差（cm），越低越好。对于正常一致性，越高越好。每个模块5，000点，用于在训练期间计算损失函数。在推理过程中，我们评估神经隐场，以构建2563空间分辨率的体积，并执行Marching Cubes，等值面阈值为0.5 以提取输出网格。基线：我们将我们的模型与几种最先进的形状重建方法进行了比较，即PIFu [49]，PIFuHD [50]，Tex2Shape [5]和SPIN [31]。由于(d)Tex2shapeCD↓P2S↓标准↑CD↓P2S↓[31]第三十一话3.252.970.763.262.97[49]第49话2.782.630.782.742.58PIFuHD [50]2.472.440.792.412.38PIFU [49]1.031.050.881.611.70我们的（img）0.920.930.891.581.63我们的（img+激光雷达）0.660.650.910.760.7513290(a) 相机+激光雷达(b)（c）仅图6：不同感觉输入的重建。由于缺乏训练脚本或配置，我们直接使用官方发布的模型，这些模型是在作者的私人RenderPeople数据集上训练的请注意，PIFu [49]和PIFuHD [50]提供的预训练模型是在正交相机图像上训练的。我们发现它们不能很好地转移到透视相机上。为了确保在测试过程中进行公平的比较，我们将正交相机图像作为这些模型的输入进行渲染，同时保持其余渲染设置不变，包括角色，动作，相机姿势，照明和渲染引擎。在预训练模型预测的形状和我们的GT之间也存在全局坐标/姿势偏移。因此，我们在评估之前在预测形状和地面真实形状之间执行点到面ICP [13我们也13291传感器倒角↓P2S↓正常↑图像0.920.930.89LiDAR1.161.300.89图像+激光雷达0.660.650.91表2：多探头消融功能。1.501.251.000.750.5025 50 75 100训练数据比率（%）图7：倒角误差与训练集规模的函数关系。缩放SPIN [31]此外，我们还在与我们相同的训练集上从头开始训练PIFU模型。我们根据三个指标评估模型的重建性能：（1）重建网格和GT网格之间的平均倒角距离（cm），（2）重建表面上的顶点到GT表面之间的平均点到表面（P2S）距离（cm），以及(3)正态一致性度量，定义为正态准确性和正态完全性的平均值。我们通过从预测的网格表面采样10，000个点，在地面真实网格表面上找到它们最近的点，并计算它们的法线方向之间的余弦相似性来我们通过从GT网格表面采样10，000个点，在预测表面上找到最近的点，并计算它们的法线方向之间的余弦相似度来计算4.3. RenderPeople数据集结果最先进的（ SoTA ）比较：我们在我们的测试集（RenderPeople）上将我们的模型与SOTA进行比较。我们使用表示第三方数据集上的预训练模型，†以表示正交摄影机图像的使用作为如表1所示，我们的方法在所有度量中实现了最佳请注意， PIFu 和 PIFu， † 具有显著的性能差距，因为RenderPeople数据集和数据生成过程可能在姿势分布、照明、渲染引擎和训练数据集规模方面有所不同。PIFu模型相当于我们使用深度特征作为视点编码的仅图像基线。图4显示了定性比较。我们使用我们的模型显示结果（图像+LiDAR）。我们的模型捕捉更好的拓扑结构和精细的细节，特别是在闭塞的部分。定量结果对看不见动画：先前的工作[33，49，4，5]在训练和测试期间利用类似的人体姿势为了测试模型泛化，我们还评估了具有10个未见过动画的模型的重建性能如表1所示，我们的仅图像方法和多模式方法在此设置中也优于所有竞争方法。值得注意的是，对新姿势/动作的测试通常会损害在我们的训练集上训练的方法的性能，特别是对于仅图像的方法。这是因为单视图3D重建是不适定问题并且可能存在多个解决方案。基于学习的方法倾向于选择训练集分布内的解决方案。传感器类型上的消融：如表2所示，使用所有传感器可实现最佳性能。图6显示了定性比较。虽然单独使用稀疏激光雷达可以捕获全局结构和人体拓扑结构，但图像提供了额外的信息来细化姿势和形状细节，如头发和衣服。数据集规模上的消融：我们还消融了作为训练集大小的函数的人类重建性能。如图7所示，我们的方法即使在仅使用25%的数据进行训练时也表现良好4.4. 自驾结果在图5中，我们对自动驾驶数据的方法进行了定性评估，以重建野外行人。我们的重建具有更少的伪影并且更好地捕获全局拓扑，而PIFu [49]和PIFuHD [50]倾向于错过区域或预测不正确的身体部位。我们的模型对轻型配件具有鲁棒性，尽管我们的训练数据不包括这些配件。4.5. 为重建的角色设置我们现在展示如何将重建的可动画3D人体模型重定向到新的姿势。给定一个推断的三维人体网格，骨架和蒙皮权重，我们使用逆运动学（IK）来计算我们重建的骨架和目标骨架之间的变换。然后，我们通过推断的蒙皮权重使用线性混合蒙皮（LBS）重新动画网格。有关IK解算器和LBS模型的更多详细信息，请参阅定量评估：我们引入了一个新的指标来衡量我们模型的整体性能，表示为重定向误差。具体地，给定目标人类姿势，我们重新瞄准我们预测的人类以在该目标姿势处生成形状，并且我们评估在目标姿势和目标姿势之间的倒角距离（cm）。PIFUOurs（Img only）Ours（Img+LiDAR）倒角误差（cm）13292蒙皮姿势退役GT退役GT保留GT重定目标到未来帧重建重定目标@+10重定目标@+20重定目标@+100图8：复苏结果。左：定量评估;右：定性评估，从左到右：我们预测的网格、骨架、网格重定向到未来（10、20、100）帧和GT网格。在每个单元格中，左边是重定目标形状，右边是GT形状。网格骨架皮肤网格（新姿势）网格骨架皮肤网格（新姿势）图9：我们从自驱动数据中重建的网格、骨架和蒙皮权重，可用于将网格动画化为新的姿势。我们的重新动画形状和GT形状在目标人类姿势。这个重定向误差衡量了我们模型的表面重建、姿态估计和重新动画的整体性能。我们在RenderPeo- ple测试集上进行评估，并在两个将来的测试集上报告重定向错误。帧（+3、+5、+10、+20、+100）和随机帧。如图8（左）所示，当重定向到更多帧时，错误会增加，并且在大约100个未来帧时饱和据我们所知，我们是第一个定量研究人类复活的表现。我们希望这将导致在这一领域开展进一步的工作。定性评估：图8（右）显示了RenderPeople数据集上重定向网格和GT网格的比较。我们使用蒙皮权重为网格着色。我们观察到重定向和蒙皮预测是准确的，证明了我们的模型使用简单的前馈网络的有效性。图9显示了我们的自动驾驶数据集中的预测网格、骨架、蒙皮权重可视化以及目标姿势中的重新动画网格。重新设定的网格看起来很逼真，并保留了局部细节。失败案例分析我们还在图10中显示了失败案例。我们的形状重建模块会失败，图10：失败案例的可视化。我们的形状模型由于分割不准确，严重的附件而失败。我们的动画模型由于自接触等原因而失败。以分割错误;严重的服装和配饰等。这可能是因为我们的训练数据不包括属性。我们的动画模块将在由于厚重的衣服/配饰而具有自我接触5. 结论在本文中，我们提出了S3，一种新的深度可动人体形状重建算法。我们的网络可以将单个图像，单个LiDAR扫描或两者作为输入，并预测3D空间中的连续多维向量场，表示占用，骨架和蒙皮权重。我们的实验结果表明，该方法在两个具有挑战性的数据集上实现了最先进的性能。此外，我们证明，我们可以生成3D动画人物序列使用重建的3D形状从所提出的方法。重定靶误差（cm）13293引用[1] Hdri haven，https://hdrihaven.com，2020年。5[2] Mixamo，https：www.mixamo.com， 2020. 5[3] Renderpeople ， https ： //renderpeople.com/3d-rigged-people，2020. 5[4] ThiemoAlldieck ， MarcusMagnor ， BharatLalBhatnagar，Christian Theobalt，and Gerard Pons-Moll.学习从一个RGB摄像机重建穿着衣服的人。在CVPR，2019年。一、二、七[5] ThiemoAlldieck ， GerardPons-Moll ， ChristianTheobalt，and Marcus Magnor.Tex2shape：从单个图像中获得详细的完整人体在ICCV，2019年。一、二、六、七[6] 德拉戈米尔·安盖洛夫，普拉文·斯里尼瓦桑，达芙妮·科勒，塞巴斯蒂安·特龙，吉姆·罗杰斯和詹姆斯·戴维斯.景观：人的形状完成与动画。ACM SIGGRAPH 2005论文2005. 一、二[7] Matan Atzmon和Yaron Lipman Sal：从原始数据中学习形状的符号不可知论。在CVPR，2020年。2[8] IlyaBaran和J ov anPop o v ic'。自动索具和动画的三维字符。ACM Transactions on Graphics（TOG），2007年。1[9] Bharat Lal Bhatnagar ，Cristian Sminchisescu ， ChristianTheobalt，and Gerard Pons-Moll.结合内隐函数学习和参数模型进行三维人体重建。Arxiv，2020年。2[10] Federica Bogo、Angjoo Kanazawa、Christoph Lassner、Peter Gehler、Javier Romero和Michael J Black。保持简单：从一张图像自动估计 3d 人体姿势和形状。在ECCV，2016年。2[11] Z. Cao，G. Hidalgo Martinez，T.西蒙，S。Wei和Y. A.酋长Openpose：使用部分亲和字段的实时多人2D姿态PAMI，2019年。1[12] 陈信，陈操，薛泽浩，魏楚。联合音频视频驱动的面部动画。在ICASSP，2018年。1[13] 杨晨和杰拉德·梅迪奥尼。通过多个距离图像的配准进行目标建模图像和视觉计算，1992年。6[14] KMG Cheung，Simon Baker，and Takeo Kanade.关节对象的轮廓形状及其在人体运动学估计和运动捕获中的应用。在CVPR，2003年。1[15] Julian Chibane，Thiemo Alldieck，and Gerard Pons-Moll.特征空间隐函数三维形状重建与补全。在CVPR，2020年。2[16] Vasileios Choutas，Georgios Pavlakos，Timo Bolkart，Dimitrios Tzionas，and Michael J Black.通过身体驱动注意力的单眼表达性身体回归。在ECCV，2020年。2[17] CMU。维基-梅隆mocap数据库。1[18] Blender在线社区。Blender -3D建模和渲染包，2018年。5[19] 奥利维耶·迪翁和马丁·德拉萨。用于生产角色网格的测地线体素绑定。第12届ACM SIGGRAPH/Eurographics计算机动画研讨会论文集，2013年。1[20] Alexey Dosovitskiy ， German Ros ， Felipe Codevilla ，Antonio Lopez和Vladlen Koltun。卡拉：一个开放的城市驾驶模拟器。在机器人学习会议上，2017年。113294[21] Tong He ， John Collomosse ，Hailin Jin ， and StefanoSoatto. Geo-pifu：用于单视图人体重建的几何和像素对齐隐式函数。Arxiv，2020年。一、二[22] Zheng Huang ， Yuanlu Xu ， Christoph Lassner ， HaoLi，and Tony Tung. Arch：衣服人类的动画重建。在CVPR，2020年。2[23] Boyi Jiang，Juyong Zhang，Yang Hong，Jinhao Luo，Ligang Liu，and Hujun Bao. Bcnet：从单个图像学习身体和衣服形状。在ECCV，2020年。2[24] 韩宝，托马斯·西蒙，亚瑟·谢赫.Total Capture：用于跟踪面部、手部和身体的3D变形模型在CVPR，2018年。2[25] Angjoo Kanazawa，Michael J Black，David W Jacobs，and Jitendra Malik.端到端恢复人体形状和姿势。在CVPR，2018年。一、二[26] Angjoo Kanazawa，Jason Y Zhang，Panna Felsen，andJiten- dra Malik.从视频中学习三维人体动力学。在CVPR，2019年。2[27] Ladislav Kavan ， Steven Collins ， Ji Zirí Zirára ， andCarol O'Sullivan.使用对偶四元数蒙皮。InI3D，2007. 1[28] Ladislav Kavan和Ji Zirí Zarra。球形混合蒙皮：铰接模型的实时变形。InI3D，2005. 1[29] 亚历山大·基里洛夫，吴宇新，何开明，罗斯·吉尔希克。点趋势：图像分割作为渲染。在CVPR，2020年。2[30] 作者声明： David Kocabas ， Nikos Athanasiou ， andMichael J.Vibe：用于人体姿势和形状估计的视频推理。在CVPR，2020年。1[31] Nikos Kolotouros ， Georgios Pavlakos ， Michael JBlack，and Kostas Daniilovich.学习通过循环中的模型拟合重建3d人体姿态在ICCV，2019年。二、六、七[32] 约翰·P·刘易斯，马特·科威尔，和尼克森·方。姿态空间变形：形状插值和三角形驱动变形的统一方法。SIGGRAPH，2000年。2[33] Ruilong Li ， Yuliang Xiu ， Shunsuke Saito ， ZengHuang，Kyle Olszewski，Hao Li.单目实时体积性能捕获。Arxiv，2020年。五、七[34] Matthew Loper，Naureen Mahmood，Javier Romero，Gerard Pons-Moll，and Michael J Black. Smpl：一个有皮肤的多人线性模型. ACM图形交易（TOG），2015年。一、二[35] 威廉·E·洛伦森和哈维·E·克莱恩。Marching Cubes：一个高分辨率的3D表面构造算法。ACM siggraph计算机图形，1987年。4[36] Qianli Ma ， Jinlong Yang ， Anurag Ranjan ， SergiPujades，Ger- ard Pons-Moll，Siyu Tang，and MichaelJ Black.学习穿着3d的人在生成服装。在CVPR，2020年。2[37] 拉尔斯·梅谢德，迈克尔·奥切斯勒，迈克尔·尼迈耶，塞巴斯蒂安·诺沃津，安德烈亚斯·盖格.OccupationalNetworks：学习函数空间中的3D重建在CVPR，2019年。第二、四节[38] Ben Mildenhall，Pratul P Srinivasan，Matthew Tancik，Jonathan T Barron ， Ravi Ramamoorthi ， and Ren Ng.Nerf：将场景表示为用于视图合成的神经辐射场Arxiv，2020年。2[39] Aron Monszpart，Paul Guerrero，Duygu Ceylan，ErsinYumer，and Niloy J Mitra.iMapper：交互引导的场景映射-13295单目视频的 pingACMTransactions onGraphics（TOG），2019年。1[40] Alejandro Newell，Kaiyu Yang，and Jia Deng. 用于人体姿态估计的堆叠沙漏网络。在ECCV，2016年。三，五[41] Michael Oechsle、Lars Mescheder、Michael Niemeyer、Thilo Strauss和Andreas Geiger。纹理场：学习函数空间中的在ICCV，2019年。1[42] 朴正俊，彼得·弗洛伦斯，朱利安·斯特劳布，理查德·纽库姆，史蒂文·洛夫格罗夫.DeepSDF：学习连续符号距离函数的形状表示。在CVPR，2019年。2[43] Georgios Pavlakos，Vasileios Choutas，Nima Ghorbani，Timo Bolkart，Ahmed AA Osman，Dimitrios Tzionas，and M

下载后可阅读完整内容，剩余1页未读，立即下载