关节神经渲染：虚拟化身的高逼真渲染框架的优越性及性能优势

196 浏览量更新于2024-01-22 收藏 1.69MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3722ANR：用于虚拟化身的关节神经渲染Amit Raj1Julian Tanke2James Hays1Minh Vo3Carsten Stoll4Christoph Lassner31佐治亚理工学院2波恩大学3Facebook Reality Labs4 Epic Games图1：我们提出了关节神经渲染（ANR），这是一个能够生成高度逼真的化身的渲染框架。类似于延迟神经渲染（DNR）[38]，ANR使用神经网络将粗糙网格上的潜在纹理（左）转换与DNR不同，当网格几何形状不准确或在运动期间变形时，DNR是无效的，ANR明确地考虑了这种几何未对准和姿势相关的变形。摘要延迟神经渲染（DNR）[38]中传统渲染与神经网络的结合在计算复杂性和结果图像的真实感之间提供了令人信服的平衡。使用蒙皮网格渲染关节对象是DNR框架的自然扩展，并将其开放给大量应用程序。然而，在这种情况下，神经着色步骤必须考虑可能未在网格中捕获的变形，以及对齐精度和动态性，这可能会混淆 DNR 管道。我们提出了关节神经渲染（ANR），一个新的框架DNR的基础上，明确地解决其局限性的虚拟人化身。我们显示ANR的优越性，不仅在DNR方面，而且还与专门用于头像创建和动画的方法。在两项用户研究中，我们观察到对我们的化身模型的明显偏好，并且我们在定量评估指标上展示了最先进的性能。在感知上，我们观察到更好的时间稳定性，细节水平和可扩展性。更多结果可在我们的项目页面：https://anr-avatars.github.io。1. 介绍获取真实感的外观是计算机视觉的重要目标之一。3D渲染和神经网络的进步导致了具有显著保真度的方法[22，23，29，30]。这些方法通常使用昂贵且复杂的捕获设置，这妨碍了所得模型的简单数字化和传输[7，8，11]。最近的延迟神经渲染范例提供了一个令人兴奋的机会，可以使用不准确的几何形状和相对简单的神经着色器，同时捕捉具有视图相关效果的复杂场景。在第一步中，使用神经潜在纹理光栅化几何形状渲染网络和神经纹理都经过优化，以产生逼真的效果。延迟神经渲染对于刚性对象特别有效。它的流水线可以以自然的方式扩展到可变形对象：蒙皮网格可以用于捕获几何体。然后可以将来自所设置的网格的光栅化神经纹理转换为RGB图像。虽然这个想法在概念上很简单，但神经网络必须学习更复杂的变形相关效应。此外，用于渲染的网格通常不是3723图2：拟议框架示意图给定一个粗糙的、动画化的3D人体网格，ANR会生成一个详细的化身。使用光栅化的IUV图像的网格，使用弱透视投影，我们绘制了8通道神经纹理进入图像空间。第一阶段，R1，将纹理转换为另一种精细的潜在表示，我们将其与正常信息相结合。第二阶段R2使用此信息创建RGB渲染和前景蒙版。渲染可以扩展到粗网格之外，在这种情况下，我们只看到轻微的细化来绘制衬衫。真实几何形状的完美表示，导致对准问题。这些问题目前没有考虑到[1，27，38]，这限制了DNR在可变形物体场景中的应用。我们提出了关节神经绘制（ANR）来解决这些问题。ANR系统地重建DNR从神经着色模型架构到优化方案。我们使用ANR来解决动画中最具挑战性的问题之一：虚拟人化身。图1示出了使用ANR渲染的化身的示例具体地说，ANR采用一个简单的统计人体模型来拟合训练视频，以捕获每个帧的体型统计和3D姿势信息[39]。此身体模型仅表示粗略的身体几何体，不包括衣服和头发。因此，直接使用DNR管道会导致不切实际和模糊的结果。我们使用视频中的关键帧来学习神经纹理中编码的静态外观，并使用其他帧来学习外观的动态我们基于关键帧的训练方案使模型收敛速度加快5倍，并产生比DNR更好的化身我们在单个模型中同时对多个身份进行ANR训练，从而实现神经纹理和着色模型的解耦。由于统计身体模型的一致表面参数化，我们的模型可以利用这种语义对应来修改和混合来自多个神经纹理的组件，从而通过改变神经纹理中的区域来实现虚拟试穿。虽然我们的模型仅在2D中工作，但我们通过实验验证了它可以用非常小的网络（161M参数）呈现接近真实感和持久的3D外观。在两项用户研究中，我们证明了我们不仅优于DNR管道，而且还优于几种专用于创建虚拟化身的方法[36，41]。直观上，所提出的方法是时间稳定，并捕捉精细的外观细节。我们的贡献是三方面的。首先，我们提出了ANR，一种新的神经渲染框架，从粗糙的3D形状和任意骨骼运动生成我们的关键是要考虑到几何错位的粗体网格和姿势相关的变形。其次，我们展示了ANR作为第一个神经化身模型，除了身份特定的神经纹理映射之外，它还可以仅使用一组网络参数来捕获和渲染多个身份第三，我们证明了ANR允许容易的外观编辑或身份混合。这在化身的神经渲染的上下文中是新颖的。2. 相关工作在创建和渲染铰接模型的许多方法中，它们中的大多数遵循获取精确的4D几何重建的经典管道，在该几何上绘制详细的纹理。使用机器学习，最近的几种方法主要在2D空间中进行推理，只使用粗略的或没有3D指导。我们将讨论来自这两个学派的几个框架以及一些最接近我们方法的混合方法。3D空间中的推理：Relightables [11]提出了一种使用受控光台捕获精确几何形状和纹理的系统。这允许在不同的环境中对所捕获的身份进行重定向渲染。Lom-bardi等人。[22]使用多相机设置来确定基础网格上的平均纹理和变形，并使用神经网络来生成视图特定纹理以从不同视点渲染高保真图像。使用类似的系统，Brualla等人。[28]训练网络以执行渲染的3D模型的完成和超分辨率。在单视图制度，Alldiek等人。[2，3]通过学习使用纯合成数据回归精确的几何和纹理来生成Zhi等人[45]估计个性化3724通过使用自我监督损失对测试视频进行微调，可以获得具有精细几何形状和纹理的化身。DeepCap [12]通过预测参数化的人体配置和变形模型，从单目视频中捕捉精确的几何形状。我们的方法还使用单眼视频捕捉数字化身。然而，而不是变形和细化的化身几何形状，我们提倡的化身与高容量的纹理，以补偿这种几何不准确性（如衣服和头发）的任意身体姿势和视点渲染。2D空间中的推理：同时，为运动重定向，新视图合成和身份转移设计了特定的架构，主要只使用像素和姿态信息[4，6，26，37，44]。Neverova等人[31]使用DensePose进行新颖的视点合成，这受到DensePose身体覆盖范围和准确性的限制。[32]提出了一种半参数方法，该方法使用先前捕获的RGB（D）图像和神经绘制的[25，19]关注于人的姿势调节图像生成，但具有较低的分辨率。Grigorev等人。[10]通过将其公式化为DensePose UV空间中的纹理修复来解决新的视图合成问题。SwapNet [33]通过解开姿势和服装的概念来学习传递服装信息，而不被流行[15，35]。我们通过在渲染阶段生成服装和身体变形，同时使用一个简单的参数化身体模型来适应身体姿势和形状，将自己与这些方法区分开来。3. 方法关节神经渲染（ANR）可以生成关节对象的高度详细的表示与使用高分辨率网格和详细RGB纹理的传统渲染管道不同，我们使用低分辨率网格，但使用高维神经纹理，使用神经网络从新视图中渲染其详细RGB外观。图2显示了拟议框架的概要。在下文中，我们首先概述了DNR [38]，然后介绍了我们的新ANR框架及其训练方案。3.1. 上一篇：Deferred Neural RenderingDNR [38]将传统网格上的高维神经潜在纹理转换为具有神经网络的翻译网络具体地，令T是高维神经纹理（形状为W×H×C的张量），并且令R是将神经图像IuvRGB颜色DNR优化具体身份。人类外观转移[43]通过执行人类解析和3D形状和姿势拟合来学习生成新的视图和转移身份。我们生成塔巴河Σ= argminT、 R||I− R(T, I uv ）||（一）3D纹理化身，使所有这些任务，没有额外的指导信号或变化，在一个单一的框架。混合方法：DNR框架[38]使用大部分刚性网格和神经纹理将渲染结果转化为图像。我们在第二节中详细介绍了这种方法。3.1并将其重新表述为处理完全铰接的对象。纹理神经化身[36]提供了一个框架，可以从多视图数据中以端到端的方式学习神经化身。与这项工作不同的是，我们利用重建的几何结构而不是嘈杂的DensePose对应来生成每个像素的UV坐标，使我们能够在不同的视点之间保持更好的纹理一致性。我们的工作也与Liquid Warping Gan [21]有关，它在单个网络中执行外观转移和运动重定向。然而，我们的框架提供了明确的访问学习纹理允许细粒度的外观编辑。此外，我们的框架使用更少的参数，因此可以以更高的分辨率进行训练。神经渲染和重建[20]训练网络从3D姿态转换为 to image图像.然而，他们的框架涉及为每个人捕获操纵的模板网格，并需要广告深度和身体部位信息。最近，隐式表示与令人印象深刻的几何重建的衣服人重建从一个单一的图像是-在同一对象的所有训练图像I上。神经图像Iuv是使用适当的相机参数和配置然后用神经纹理T来纹理化它。该模型是完全定义的优化纹理T和优化神经绘制模型R。 DNR使用U-Net架构[34]来实现R和使用ADAM优化器的标准梯度下降优化[18]。3.2. 关节神经渲染虽然DNR在概念上是强大的，但它需要精确的3D几何来学习视图相关的外观信息。这种假设在实践中很难实现，特别是对于关节清晰、穿着衣服的人类外观，其形状通常由粗略的统计体型模型表示[24]（见图3）。我们在渲染管道中解决了这个问题，同时保留了处理粗糙动画网格的能力，以（1）保持高渲染速度，（2）能够优化神经网络中的最终外观生成。因此我们重新访问神经渲染组件R。我们的第一个观察结果是，R不仅要在神经图像Iuv的区域内绘制纹理，而且要-由于使用了粗网格，网络还应该意识到它需要的程度3725图3：ANR在一个具有挑战性的动画场景中生成的图像，其中包含服装变形。我们成功地合成图像的变形和身体网格以外的地区如图中突出显示的，区域覆盖以及阴影是依赖于姿势示例帧是该身份和渲染模型的不可见姿势此外，该模型能够在此姿势和其他姿势之间进行时间插值，并相应地调整模拟服装。我们参考补充视频来演示时间稳定性。在栅格化网格的边界外进行绘制。我们通过添加第二个预测来解决这两个问题：一个额外的单通道软掩码M∈[0，1]。所预测的掩模用于将所生成的化身与地面混合，真实背景图像用于训练。为了防止模型预测退化的零掩码（这将使损失最小化为零），我们从自动图像抠图方法[9]中提供了对掩码的监督。请注意，虽然在预分割图像上进行训练是另一种选择，但这种方法对错误的分割很敏感将混合图像与地面实况图像进行比较允许梯度流向掩模，这进而使其潜在地优于监督输入掩模。虽然这解决了在真实几何轮廓之外生成内容的直接问题，但它保留了几何细节和姿势相关渲染。我们注意到，单纯地增加U-Net的容量2）的情况。此外，我们观察到，该模型不能始终渲染- der局部几何-一个问题，越来越多地出现在关节设置时，几何动画。我们解决了几何细节和姿势的问题通过将神经渲染网络分为两个阶段：R1和R2，同时实现依赖效果。这两个组件都是浅U形网，并以原始图像分辨率生成渲染我们可以通过将渲染的法线图像和R1的输出连接到R2的输入来将法线信息注入渲染过程。我们执行一个其中J范数是来自R 1的结果的前三个通道，并且I范数是光栅化的正常图像。该模型具有必要的容量和必要的输出，解决关节神经渲染问题。3.3. 损失函数与正则化方案由于对稳定性、细节水平和铰接设置中的变形有更高的要求，我们发现使用简单的1001损失是不够的（参见表1）。2）的情况。然而，我们观察到，随着训练的进行，它会降低性能：一旦模型学会再现粗糙的外观，网格跟踪和对齐的不准确性5）。我们使用对抗性学习和特征损失计算来指导模型生成真实准确的外观，无需依赖于精确的配准。我们的损失函数是光度损失Lp、特征损失Lfeat、掩模损失Lmask、对抗损失Ladv和总变化损失Ltvi的加权和。请注意，虽然光栅化是不可微的，但ANR是完全可微的，预先计算的光栅化UV查找以从神经纹理T绘制Iuv。像素损失：我们在生成的像素之间强制执行100%的损失。RGB和地面实况图像作为Lp（M，I，J;M，I）=M||J−I||+M||其中J是来自R1的结果的前三个通道。||,(3)where Jˆare the firstthree channels of the result from R1.掩码损失：类似地，我们使用二进制交叉熵损失用于掩模R1的前三个输出通道上的额外RGB损失以帮助收敛。ANR模型定义为L型掩模（M;M）=BCE（M，M）（4）M，I，J=R（R（T， Iuv）， Inorm），（2）对于所有以下损失定义，我们引入短-′2 1 手I对于生成的输出的混合版本，3726feat j jji=1在给定预测掩模的情况下，场景背景BI′=M特征损失：为了增加渲染输出的锐度，我们强制执行特征损失[17]：L（I，M，I）=W||φ（I′）−φ（I）||、（五）J以及从剩余帧绘制网络。实际上，我们观察到这种优化方案可以帮助翻译器网络以5倍的速度收敛，并在数量上产生更好的化身（见表1）。①的人。总体而言，我们的优化在以下两个目标Σ其中φj是来自预训练的fea的第j层的特征argminRL总（I，M，R（T，Iuv，Inorm）），（9）是与第j个矩阵相关联的权重UV规范特征损失项。电视损失：由于纹理是在多个argminT、 R k∈KLtotal（Ik，Mk，R（T，Ik，Ik））.（十）帧，轻微的错位可能会导致学习纹理具有某些高频伪影，特别是对于诸如脸和手的小区域。为了鼓励平滑生成的图像，我们对掩模和生成的图像都强制执行总变差损失Ltv（I，M）=βIT V（I′）+βmT V（M），（6）其中βI和βm分别是与图像和掩模TV损失相关联的权重（参见附录）。mat.详细说明这一损失）。对抗性损失：对抗性训练[14]非常适合增强结果的真实性，并鼓励粗糙的身体遮罩扩展到真实的几何轮廓。为了鼓励结果中的高水平细节，我们使用多尺度的ARMD [42]并将损失表示为注意，当Eq.9是优化的所有图像，方程。10仅应用于关键帧，以减轻粗糙体网格的几何未对准。多实例训练。我们进一步扩展了训练方案，超越了单个捕获实例。由于我们使用相同的统计网格，而不管身份如何，这允许我们仅在神经纹理中捕获身份信息，因此我们的框架可以自然地在单个网络中同时训练多个身份。在优化过程中，我们为每一步随机选择一个恒等式，并使用一个恒等式-- 用于更新步骤的相应身份的特定神经纹理Ti多实例训练提供了额外的益处，即神经渲染组件R生成超出单个身份的标识，并且可以用于仅通过使用新的神经纹理T来渲染新的身份。Ladv（λI）=D（λI′，1）.（七）正规化。为了提高泛化能力，我们添加-我们使用两个训练正则化方案。一是总损失：用于训练R的损失然后给出为Σ通过在[-1，1]中均匀采样，对所有恒等式使用相同的T初始化。因为R有更大的值，L总计=i∈LλiLi（8）pacity thanT，此策略可防止模型使用每个随机初始化T中的不同噪声模式，其中L={p，feat，mask，adv，tv}是所有损失的集合3.4. 优化尽管损失和重量平衡的扩展集，我们发现，对于具有大表面变形的服装，模型开始平均高变形区域中的精细纹理。为了缓解这个问题，我们提出了一个分割优化策略具体来说，我们使用一小组关键帧{Ki}n，捕捉视频中的静态显著外观，以学习神经纹理T，并使用其他帧在神经渲染器R中的关键帧中的外观之间动态混合。我们选择关键帧通过greetly添加一个小的数字使得它们的累积轮廓覆盖被最大化。这确保了整个姿势空间被充分覆盖，以捕获身体上所有位置处的纹理细节使用较少数量的帧（少于训练帧的10%）减少纹理平均。在训练过程中，我们交替训练来自关键帧记住身份，从而鼓励T和R.其次，我们用来自[−0]的均匀样本扰动输入采样网格。02，0。02]并将生成的网格箝位回[-1，1]。这种形式的数据扩充防止网络严格依赖于空间范围作为地面真实人体轮廓的采样网格的一部分可以存在于光栅化的粗略身体模型之外。4. 实验我们使用ANR流水线来构建逼真的虚拟人类化身流水线：我们假设用户使用精确跟踪来执行他们自己的记录的设置，其中他/她的完整外观是可见的，以创建化身模型。为了便于跟踪，我们使用Kinect V2中的深度数据仅用于跟踪。每个视频大约3 -5分钟长。我们通过求解逆运动学问题来实时获得粗网格，以将姿势的身体形状拟合到类似于[40]的3D点3727云，利用额外检测到的身体关键点[5]。我们的数据集比之前发布的iPer数据集更难3728图4：与纹理神经化身（TNA）[36]，vid2vid（V2V）[41]和延迟神经渲染器（DNR）[38]的新颖姿势和视图合成的比较。与竞争方法相比，我们的方法（ANR）更好地保留了面部细节。此外，我们的方法是能够捕捉视图相关的结构，如发际线和服装悬垂更准确，导致更真实和可信的阴影。表1：使用不同方法学习的化身的新姿态合成的结果。我们的模型同时训练所有身份。SSIM↑翻转↓低压脉冲电源↓rIPFIP ↑mFID ↓用户研究V2v0.92520.03630.0703-140百分之八TNA0.93660.03230.1198-2.6%150百分之三DNR0.93980.03420.09187.7%92百分之九ANR0.97380.02890.0508百分之十八点六7481.6%[37]因为我们的演员不是居中的，可以自由地在框架中的任何地方移动作为参数化身体模型，我们使用基于混合变形的类似于SPL的人体模型[24]来提供粗网格结构。该模型是粗略的，只有1831个顶点和3658个面;骨架装备有74个关节。4.1. 实现细节我们对R1和R2使用Pix2Pix [16，42]的变体，并在1024 × 1024图像分辨率上训练模型。图像被归一化到范围 [-1 ， 1] 。每个身份都被编码在一个256×256×8的神经纹理中。对于每个记录的序列，我们使用前1500帧来训练R，使用大约150个关键帧来训练T。其余图像用作测试集。我们通过随机裁剪和随机重新缩放因子f [0. 五，一。25]。4.2. 评价基线和指标：我们包括两个基线的比较：纹理神经化身（TNA）[36]和vid2vid（V2V）[41]。这些方法有根本的不同，表2：ANR模型的损失和模型消融研究标记为（-so）的模型消融在没有建议的分割优化策略的情况下运行。SSIM↑ LPIPS↓ FLIP↓损失烧蚀仅像素0.9680.0860.029Pixel+feat0.9660.0650.033像素+壮举+电视0.9630.0640.032模型消融1阶段（-so）1阶段0.9620.9650.0700.0630.0360.0342阶段（-so） 0.9680.0580.032我们0.9740.0500.028跨越2D（V2V）和3D（TNA）推理方法的空间，而我们的目标是找到一个中间地带。我们还提供了与基线DNR [38]的比较，为了更公平的比较，使用广告特征损失进行训练图4显示了这些比较。显然，ANR与竞争方法相比更好地保留了面部此外，它能够更准确地捕捉与视图相关的结构，如发际线和衣服悬垂，并导致更逼真和可信的着色。我们还使用标准 SSIM 、LPIPS、FLIP监督度量对保持的测试集帧进行量化，并使用mFID非监督度量对新颖姿势的仅人形化身进行量化。选项卡. 1显示了这些比较。我们的模型在所有指标上都优于这些基准测试的竞争方法。消融研究：量化亲-3729图5：多身份模型上损失函数和正常通道中每个项的定性消融研究。前四列不使用正常信息：（a）仅像素损失;（b）像素和特征损失;（c）像素、特征和掩模损失;（d）像素、特征、掩模和TV损失;（e）所有损失+正常;（f）所有损失+正常+分割优化。请注意，分割优化可以更好地保留局部纹理和面部细节。用户研究：虽然SSIM、LPIPS或FLIP是生成任务中最广泛使用的指标，但它们仅仅是不关注显著区域的代理指标（例如，用于衬衫上的面部或图案），并且不能严格地测量感知质量。为了证明我们方法的有效性，我们对80名参与者进行了一项4种选择的强制选择虚拟研究，其中用户可以选择从TNA、Vid2Vid、DNR和我们的ANR生成的结果中挑选最佳化身。向每个人81.6%的患者选择ANR。此外，为了测试我们的化身的照片真实性，我们对200名参与者进行了另一项2-Alternative强迫选择研究，其中向用户呈现真实图像和我们的化身在不同姿势下的图像在这个测试中，我们的模型能够欺骗用户34%的时间（50%是随机的机会）。这显示了我们模型的真实感渲染性能。模型效率：我们计算了每种方法（x）相对于vid2vid（v2v）的LPIPS的相对改善，通过参数数量（#p）的改善因子进行缩放[13]rIPFIP（x）=LPIPSv2v−LPIPSxlog（#pv2v/#px）LPIPSv2vlog（#pv2v）图6：在神经渲染器训练期间看不到的新化身。只有神经纹理是针对这种识别进行优化的。动画人物包括在附录提出了改进，我们运行两个消融研究。图5示出了移除不同损失项的渲染结果。我们注意到，如果没有遮罩和特征丢失（仅像素），模型会产生不切实际的“胖”或“瘦”化身。特征丢失（像素+特征）提高了视觉质量。添加法线提高了重建中的细节水平，并有助于推理自遮挡和时间一致性（如补充视频所示），分割优化大大提高了细节水平。注意感知质量的跳跃使用分裂优化方案的渲染的脸。最后，我们证明了我们的两阶段神经渲染与中间正常注入优于单阶段的方法具有相同的容量，验证了我们的网络设计选择。这一趋势在表中得到了定量证实二、特别地，该度量位于（-∞，1]中，并且对于地面实况图像达到最大值该指标强调，与DNR相比，我们从设计选择中而不仅仅是能力的差异。泛化：图6示出了一个化身，其中只有神经纹理已经在新的主题上进行了优化，保持预先训练的神经渲染器固定。我们观察到T恤的细节也被正确地恢复。这个例子表明，尽管只在少数几个恒等式上进行了训练，但我们的神经渲染器具有很强的泛化能力。5. 应用我们使用一个单一的ANR模型来渲染和渲染多个应用程序的化身。请参考supple-software视频了解更多示例。新颖的视图合成：为了从新颖的视图渲染化身，我们只需要使用场景相机参数来创建UV查找来对跟踪的网格进行光栅扫描的可以使用神经渲染器R容易地生成化身。参见图7的图示和补充视频的附加结果。视点稳定性不同于大多数基于图像的CNN方法，其通常合成具有不同视点的不一致外观[41]。动画：学习的神经身份可以重新定位到动作捕捉数据库中的任何动作。图8示出了来自多个视图的相同运动序列的渲染。重要的是，我们的模型增加了生动和现实的3730图7：视点泛化演示。该模型对视点变化具有鲁棒性，即使是看不见的姿态，也具有高细节水平。图8：Avatar动画示例。可用于使基础网格动画化的任何运动捕捉数据可用于驱动化身。这里显示的所有化身都是使用单个神经网络渲染的。对渲染的化身进行姿势相关变形，这对于使用蒙皮但粗糙网格的其他方法是不可能的[15]。图3提供了依赖于姿态的变形外观生成的详细视图。纹理替换/虚拟试穿：学习的神经纹理不可直接解释。然而，对于在同一神经渲染网络上训练的两个身份，我们可以交换神经体积的部分，以生成具有交换的面孔/衣服项目的身份，如图所示9 .第九条。这与完全基于3D的方法不同，后者需要对每个新化身进行详细捕获[11]。6. 讨论我们引入ANR，一种新的神经渲染框架，用于具有任意骨骼动画和视点的高质量虚拟化身。我们的关键是要考虑几何错位和姿态相关的表面变形。图9：虚拟试穿示例。ANR通过交换神经纹理的区域来实现纹理混合。这个例子验证了当ANR在多个身份上训练时，外观和神经着色网络的解纠缠。动画人物在附录中。我们的解决方案经过精心整合，学习框架与新的神经渲染架构和调整优化方案。ANR可以使用单个神经渲染模型渲染多个化身。通过分离纹理和几何，ANR可以混合和编辑外观。为了获得更高质量的结果，可以根据特定的标识对模型进行微调.这使得所得到的化身直接适用于运动范围已知或可以很好地估计的用例，例如用于虚拟助理或游戏角色。我们注意到，大的和一致的跟踪误差往往会导致模糊的外观合成。这是分割优化无效的地方一种针对大姿态跟踪误差的弹性的潜在解决方案是经由逆渲染的显式姿态和形状细化。此外，ANR目前将场景照明烘焙到神经外观。简化本征分解以解耦照明和表面反射是未来的一个突出方向。致谢这项工作是在AR、JT和CS在Facebook时完成的。我们要感谢智天成和托尼·汤在数据处理方面的帮助，感谢迈克尔·佐尔·霍弗富有成效的讨论。3731引用[1] Kara-Ali Aliev ， Artem Sevastopolsky ， Maria Kolos ，Dmitry Ulyanov，and Victor Lempitsky.基于神经点的图形学。arXiv预印本arXiv：1906.08240，2019。一、二[2] ThiemoAlldieck ， MarcusMagnor ， BharatLalBhatnagar，Christian Theobalt，and Gerard Pons-Moll.学习从一个RGB摄像机重建穿着衣服的人在IEEE计算机视觉和模式识别会议上，2019年6月。2[3] Thiemo Alldieck ， Marcus Magnor ， Weipeng Xu ，Christian Theobalt，and Gerard Pons-Moll.基于视频的三维人体模型重建。在IEEE计算机视觉和模式识别会议（CVPR）上，2018年6月。2[4] Guha Balakrishnan，Amy Zhao，Adrian V Dalca，FredoDu- rand，and John Guttag. 合成人类的图像在看不见的姿势。在IEEE计算机视觉和模式识别会议论文集，第8340- 8348页，2018年。3[5] 曹哲、吉恩斯·伊达尔戈、托马斯·西蒙、魏世恩和亚瑟·谢赫。使用局部亲和场的实时多人2d姿态估计。arXiv预印本arXiv：1812.08008，2018。5[6] Caroline Chan ， Shiry Ginosar ， Tinghui Zhou ， andAlexei A Efros.大家一起跳在IEEE计算机视觉国际会议论文集，第5933- 5942页，2019年。3[7] 阿尔瓦罗·科莱，庄明，帕特·斯威尼，唐·吉列，丹尼斯·埃夫谢夫，大卫·卡拉布雷斯，雨果·霍普，亚当·柯克和史蒂夫·沙利文。高质量的可流式传输的自由视点视频。 ACM Transactions on Graphics （ ToG ）， 34（4）：1-13，2015. 1[8] Paul Debevec 、 Tim Hawkins 、 Chris Tchou 、 Haarm-Pieter Duiker、Westley Sarokin和Mark Sagar。获取人脸的反射场。在Proceedings of the 27th annual conferenceon Computer graphics and interactive techniques，pages145-156，2000中。1[9] Ke Gong，Xiaodan Liang，Yicheng Li，Yimin Chen，Ming Yang，Liang Lin.通过零件分组网络的实例级人工解析。在欧洲计算机视觉会议（ECCV）的会议记录中，第770-785页，2018年。4[10] 阿图尔·格里戈列夫，阿特姆·塞瓦斯托波尔斯基，亚历山大·瓦希托夫，维克多·伦皮茨基.用于姿态引导图像生成的基于坐标的纹理内绘。 arXiv 预印本 arXiv ：1811.11459，2018。3[11] Kaiwen Guo ， Peter Lincoln ， Philip Davidson ， JayBusch ， Xueming Yu ， Matt Whalen ， Geoff Harvey ，SergioOrts-Escherano，RohitPandey，JasonDourgarian ， etal.There-lightables ： volumetricperformance capture of humans with realistic relighting.ACM Transactions on Graphics（TOG），38（6）：1-19，2019。一、二、八[12] Marc Habermann ， Weipeng Xu， Michael Zollhoefer，Ger- ard Pons-Moll，and Christian Theobalt. Deepcap：使用弱监督的单一人员绩效捕获。IEEE计算机视觉与模式识别会议。IEEE，2020年6月。3[13] 史蒂文·D·希克森为动态场景理解编码3D上下文信息。博士论文，佐治亚理工学院，2020年。7[14] Jingwei Huang ， Justus Thies ， Angela Dai ， AbhijitKundu ， Chiyu Jiang ， Leonidas J Guibas ， MatthiasNießner，and Thomas Funkhouser.基于rgb-d扫描的对抗性纹理优化。在IEEE/CVF计算机视觉和模式识别会议论文集，第1559- 1568页，2020年。5[15] Zheng Huang，Yuanlu Xu，Christoph Lassner，Hao Li，and Tony Tung. Arch ： Animatable Reconstruction ofClothed Humans，2020. 三，八[16] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros.使用条件对抗网络进行图像到图像的翻译。在CVPR，2017年。6[17] 贾斯汀·约翰逊亚历山大·阿拉希和李飞飞。实时风格转换和超分辨率的感知损失。欧洲计算机视觉会议，第694Springer，2016. 5[18] 迪德里克·P·金马和吉米·巴。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014年。3[19] Christoph Lassner ， Gerard Pons-Moll ， and Peter VGehler.一个穿着衣服的人的生成模型。在IEEE计算机视觉国际会议论文集，第853-862页，2017年。3[20] Lingjie Liu ， Weipeng Xu ， Michael Zollhoefer ，Hyeongwoo Kim，Florian Bernard，Marc Habermann，Wenping Wang，and Christian Theobalt.人类演员视频的神经渲染和重演，2018年。3[21] 刘文，朴志新，闵杰，罗文汉，马琳，高胜华。LiquidWarping Gan：一个用于人体运动模仿、外观转移和新视图合成的统一框架。IEEEInternational Conference onComputer Vision（ICCV），2019年。3[22] 斯蒂芬·隆巴迪，杰森·萨拉吉，托马斯·西蒙，还有亚瑟 · 谢赫 . 用于面部渲染的深层外观模型。 ACMTransactions on Graphics（TOG），37（4）：1-13，2018。一、二[23] Stephen Lombardi ， Tomas Simon ， Jason Saragih ，Gabriel Schwartz ， Andreas Lehrmann ， and YaserSheikh.NeuralVolume-umes ： LearningDynamicRenderable Volumes from Images.ACM Transactions on Graphics（TOG），38（4）：65，2019。1[24] Matthew Loper、 Naureen Mahmood 、Javier Romero 、Gerard Pons-Moll和Michael J. Black。SMPL：一个多人皮肤线性模型。ACM Trans. Graphics（Proc.SIGGRAPH Asia），2015年。第三、六条[25] 马丽倩，徐佳，孙倩茹，Bernt Schiele，Tinne Tuyte-laars，Luc Van Gool.姿势引导人物图像生成。神经信息处理系统的进展，第406-416页，2017年3[26] Liqian Ma，Qianru Sun，Stamatios Georgoulis，Luc VanGool，Bernt Schiele，and Mario Fritz.分解的人物形象生成。在IEEE计算机视觉和模式识别会议论文集，第99-108页3[27] Ricardo Martin-Brualla、Rohit Pandey、Sofien Bouaziz、Matthew Brown和Dan B Goldman。Gelato：生成的潜在纹理对象。在ECCV，2020年。一、二3732[28] Ricardo Martin-Brualla，Rohit Pandey，Shuoran Yang，Pavel Pidlypenskyi，Jonathan Taylor，Julien Valentin，Sameh Khamis ， Philip Davidson ， Anastasia Tkach ，Peter Lincoln，et al.Lookingood：通过实时神经重渲染增强性能捕获arXiv预印本arXiv：1811.05029，2018。2[29] 放大图片作者：David J. Barron，Ravi Ramamoorthi，and Ren Ng. Nerf：将场景表示为视图合成的神经辐射场，2020年。1[30] Koki Nagano ， Huiwen Luo ， Zejian Wang ， JaewooSeo，Jun Xing，Liwen Hu，Lingyu Wei，and Hao Li.深层面部整形。ACM Transactions on Graphics（TOG），38（6）：11[31] 纳塔利娅·内韦罗娃，里扎·阿尔普·古勒，和亚索纳斯·科基诺斯。密集姿势转换。在欧洲计算机视觉会议（ECCV）的会议记录中，第123-138页，2018年。3[32] Rohit Pandey，Anastasia Tkach，Shuoran Yang，PavelPid-lypenskyi ， JonathanTaylor ， RicardoMartin-Brualla ， Andrea Tagliasacchi ， George Papandreou ，Philip Davidson，Cem Ke-skin，et al. Volume capture ofhumans with a single rgbd camera via semi-parametriclearning.在IEEE计算机视觉和模式识别会议集，第9709-9718页，2019年。3[33] Amit Raj ， Patsorn Sangkloy ， Huiwen Chang ， JamesHays，Duygu Ceylan，and Jingwan Lu. Swapnet：基于图像的图像传输。欧洲计算机视觉会议，第679-695页Springer，2018年。3[34] Olaf Ronneberger，Phi

下载后可阅读完整内容，剩余1页未读，立即下载