用户自拍视频生成纹理头像的精细网络

107 浏览量更新于2023-10-25 收藏 17.09MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

High-Fidelity Human Avatars from a Single RGB CameraHao Zhao1 Jinsong Zhang1 Yu-Kun Lai2 Zerong Zheng3 Yingdi Xie4 Yebin Liu3 Kun Li1*1Tianjin University, China2Cardiff University, United Kingdom3Tsinghua University, China4VRC Inc., Japan{zhaohao120,jinszhang,lik}@tju.edu.cnLaiY4@cardiff.ac.uk{zzr18,liuyebin}@mail.tsinghua.edu.cn{yingdi.xie}@vrcjp.comAbstractIn this paper, we propose a coarse-to-fine frameworkto reconstruct a personalized high-fidelity human avatarfrom a monocular video. To deal with the misalignmentproblem caused by the changed poses and shapes in dif-ferent frames, we design a dynamic surface network to re-cover pose-dependent surface deformations, which help todecouple the shape and texture of the person.To copewith the complexity of textures and generate photo-realisticresults, we propose a reference-based neural renderingnetwork and exploit a bottom-up sharpening-guided fine-tuning strategy to obtain detailed textures.Our frame-work also enables photo-realistic novel view/pose syn-thesis and shape editing applications.Experimental re-sults on both the public dataset and our collected datasetdemonstrate that our method outperforms the state-of-the-art methods.The code and dataset will be available athttp://cic.tju.edu.cn/faculty/likun/projects/HF-Avatar.1. IntroductionAutomatic generation of personalized human avatars hasa wide range of applications in virtual/augmented reality,virtual try-on, entertainment and gaming. Especially tech-nologies using a single RGB camera will enable To C (cus-tomer) applications instead of To B (business).High-quality human models can be reconstructed withexpensive 3D scanners [1], multi-view studios with con-trolled lighting [10], or depth cameras [6, 8, 53].Thesesystems are usually costly or using non-consumer devices,leading to restricted applications. Therefore, avatar acqui-sition from a single RGB camera is the most practical butchallenging. Some methods [38, 39, 51] based on implicitrepresentations reconstruct both geometry and texture froma single image, which can handle arbitrary topology butcannot support animation. Moreover, the reconstructed un-seen regions tend to be smooth due to the limited obser-vation. Therefore, many work proposed to reconstruct an*Corresponding authorGround TruthSOTAOursFigure 1. Given a self-captured RGB video, the state-of-the-artmethod [2] fails to produce seamless and reasonable texture maps.To address this, we propose a coarse-to-fine framework with dy-namic surface deformation and reference-based neural rendering,which can generate seamless and sharp texture maps.avatar from an RGB video. Alldieck et al. [2–4] proposedto generalize visual hull methods to monocular videos ofpeople in motion, which optimized a fixed displacement foreach vertex across the video. Although this method is com-putationally cheap and memory-saving, such a single off-set shared across all the frames is unreasonable, becausethe pose and geometry of the person change with the mov-ing. Besides the reconstructed geometry, a high-quality tex-ture map is also an essential component for a personalizedavatar. Alldieck et al. [4] proposed to get a full texturemap by calculating the median of unwrapped texture maps,which leads to a coarse texture map due to direct averag-ing. To obtain a sharp texture map, they further proposed tosolve the texture stitching based on graph cut [2, 3]. How-ever, all the above methods suffer from either blurred tex-tures or texture artifacts/mistakes, due to the intrinsic com-plexity of textures and unreasonable processing (shown in15904the middle of Fig. 1).To address the above problems, in this paper, we proposea coarse-to-fine framework which consists of a dynamic sur-face network and a reference-based neural rendering net-work, to generate a fully-textured high-fidelity avatar froma monocular video where the person is rotating in front ofthe camera. The geometry of the person will change con-tinuously when the person is moving.This leads to themisalignment among different frames of the video. To dealwith the misalignment problem, we design a dynamic sur-face network to recover pose-dependent surface deforma-tions, which help to decouple the shape and texture of theperson. We learn to optimize both geometry and texture bythe photometric constraint, which guides the vertices to beclose to the right positions and relieves the misalignment ofgeometry.Based on the dynamic surface network, we obtain acoarse texture map. However, texture is extremely complex:it resides in high dimensional space and is difficult to rep-resent. Therefore, to cope with the complexity of texturesand generate photo-realistic results, we propose a reference-based neural rendering network and exploit a bottom-upsharpening-guided fine-tuning strategy to obtain detailedtextures. The neural rendering network fuses observationsinto a joint representation whose results are used as supervi-sion to optimize the texture map which avoids the direct av-eraging of textures and adds more texture details. Besides,we propose to map the supervisions into a new space byenhancing its high-frequency information, which improvesthe clarity and fidelity of texture maps. Our framework canreconstruct high-fidelity personalized avatars and generatephoto-realistic results of novel view/pose synthesis, whichis compatible with traditional graphics pipeline. Experi-mental results on both the public dataset and our collecteddataset demonstrate that our method outperforms the state-of-the-art methods. An example is given in Fig. 1.The main contributions are summarized as follows:159050•我们提出了一个粗到细的框架，将神经纹理与动态表面变形相结合，从用户自己拍摄的单目视频生成完全纹理化的头像。0•我们提出了一种动态表面网络来模拟移动人物的姿态相关表面变形，解决了对齐问题并将人物的形状和纹理分离。0•我们提出了一种基于参考的神经渲染网络，并利用自下而上的锐化引导的精调策略，将所有观测融合成一致的表示，并能够生成详细的纹理贴图。02. 相关工作02.1. 头像获取0个性化人类头像的自动获取对于许多应用程序（如VR/AR、游戏、远程会议和虚拟试穿）至关重要。可以使用扫描仪[1]或多摄像机系统[20,40-42]创建高质量的人体模型，但成本和尺寸限制了它们的实际应用。尽管一些方法[8, 22, 48,53]通过依赖深度传感器获得高质量的3D重建，但RGB-D相机不如RGB相机普及。0为了实现面向客户的应用程序，从普通RGB相机进行人体重建非常重要。为了减少单目情况下的歧义，郑等人[52]提出了一种图像引导的体积到体积转换CNN和密集语义表示用于人体重建，但它们无法恢复细节。为了生成详细的重建，一些方法[38, 39,51]提出建立像素对齐的隐式函数，可以从单张图像推断几何和纹理。它们从合成人体数据集中学习人体先验知识。虽然所使用的隐式场表示可以处理任意拓扑，但不能支持动画。Alldieck等人[5]和Lazova等人[19]通过解决图像到图像转换问题，从单个RGB图像中回归UV空间中的偏移量，重建了详细的参数化人体模型，但需要输入一个正面照片，并且恢复的姿势受到限制。为了获得任意姿势的拓扑一致重建，Li等人[21]提出了一种分层图形转换网络。然而，从单个RGB图像中重建的几何和纹理对于未见部分仍然是光滑的。Alldieck等人[3,4]提出了一种基于视频的方法，将身体转换为规范姿势并优化了投影轮廓，从而实现了一致的3D形状的高效优化。为了避免耗时的优化[3,4]，Alldieck等人[2]提出了一种混合学习和优化方法，从少量RGB视频帧中推断个性化头像。这些基于视频的方法使用单个RGB相机生成了有希望的结果，但无法处理不同帧之间的动态变形，并且容易出现模糊的纹理、拼接伪影或纹理错误。0在本文中，我们提出了一个由单目视频生成完全纹理化头像的粗到细的框架。为了处理不同帧中不一致的姿势和形状，我们开发了一种新颖的动态表面网络来建模姿态相关的变形，这也使得人物的形状和纹理能够分离。为了避免纹理伪影并生成逼真的结果，我们提出了一种基于参考的神经渲染网络，并利用自下而上的锐化引导的精调策略。Dynamic SurfaceNetworkInput VideoFitted PoseReconstructed GeometryNeural RenderingResultsNeural TextureReference-basedNeural RenderingNetworkSupervision3. Method159060图2.为了生成完全纹理化的头像，我们设计了一个粗到细的框架，其中包括动态表面网络和基于参考的神经渲染网络。动态表面网络将人物的形状和纹理分离，并为神经纹理的初始化生成粗糙纹理贴图。然后，我们使用预训练权重对基于参考的神经渲染网络进行精调。在精调后，我们通过反向传播优化纹理贴图，生成逼真的图像并将其作为监督。02.2.新视角/姿势合成0神经表示和隐式场[13, 17, 23,0已经出现了一些强大的工具，如NeRF[30]，可以生成逼真的结果。NeRF提出将场景建模为一个连续的5D函数，将空间位置和视角映射到隐式场，实现了高质量的渲染。许多工作尝试通过采用多摄像机系统获取足够的信息来将NeRF应用于动态场景。神经人体[33]提出了一种表示方法，其中学习的潜在编码与可变形网格相对应，为网络提供了几何引导。其他方法[31, 32,34]提出了一个变形场来建立不同帧之间的对应关系，并取得了惊人的结果。最近，通过结合表面场和辐射场，DoubleField[42]实现了从稀疏视图中高质量的人体重建和渲染。为了更好地模拟通用服装的运动层次结构，一项并行工作[50]提出了一种使用一组结构化局部辐射场锚定到人体模板的方法。然而，多摄像机系统昂贵且难以维护。最近，生成对抗网络（GANs）[9，014,46]在生成高保真度的人体图像方面取得了巨大进展。许多方法将运动转移问题形式化为图像到图像的转换任务。Kappel等人[15]将图像转换任务分为四个级联的生成网络，并提出了一个结构网络来学习服装的皱纹，生成高质量的结果。Zhang等人[49]提出了一种解耦的GAN来解耦服装的形状和纹理。尽管这些方法取得了令人鼓舞的结果，但由于缺乏3D信息，有时会出现不自然的外观、丢失的纹理细节和时间上的不一致。为了减少上述的模糊性，ANR[35]和StylePeople[12]提出将粗糙的参数化人体模型与神经纹理相结合，通过扩展神经渲染网络来生成高保真度的人体图像。0推断神经渲染（DNR）[45]虽然在理论上很强大，但需要准确的几何信息，在实际场景中是不可行的。ANR和StylePeople试图解决神经渲染网络中在几何外部绘制纹理的问题。然而，它们并没有完全解耦人物的形状和纹理，因为它们只使用粗糙的网格来跟踪姿态。此外，由于粗糙的几何结构，显式纹理贴图丢失，并且粗糙的几何结构也会导致伪影。在本文中，我们通过神经网络从单目视频中重建显式的高保真度纹理贴图，并实现了逼真的新视角/动作合成结果。此外，由于我们的动态表面网络，人物的形状和纹理得到了解耦。0我们的工作目标是通过单个RGB相机创建一个完全纹理的高保真度人物模型。图2展示了我们方法的框架。输入是一个单目视频，在相机前面，一个人以A姿势旋转，我们通过一种最先进的抠图方法[16]提取人物前景。与现有工作最显著的区别在于，我们提出了一个动态表面网络来解耦人物的形状和纹理，并且提出了一种基于参考的神经渲染网络，采用一种新颖的自下而上的锐化引导策略将所有观察结果融合成一致的表示，生成无缝和锐利的纹理贴图。我们的方法包括三个步骤：1）动态表面重建和粗糙纹理贴图生成（第3.1节）；2）基于参考的神经渲染（第3.2.1节）；3）纹理贴图细化（第3.2.2节）。为了捕捉人物的非刚性姿态相关变形，我们设计了一个动态表面函数，它不仅捕捉姿态相关变形，还解耦了人物的形状和纹理。为了生成无缝和锐利的纹理贴图，我们设计了一个基于参考的神经渲染网络，并采用一种自上而下的锐化引导的精细调整策略。神经渲染网络学习了几何和输入图像之间的联合表示，缓解了几何和纹理之间的不对齐问题，并能够生成锐利和无缝的纹理贴图。03.1. 几何和纹理贴图重建0之前的工作[2-4]尝试通过将视觉外壳方法扩展到单目情况来重建个性化几何，但无法恢复动态变形。因此，为了模拟移动人物的几何变形并处理非刚性变形，我们提出了一个动态表面网络，用于预测SMPL模板上的动态偏移。Optimizable GeometricFeaturesPose EncoderShape DecoderUV-positionalMapNeuralTextureDynamicOffsetsPose-conditionedFeaturesFitted PoseReconstructedGeometrySource ImageTransformationFlowSampled NeuralTextureWarped ImageUV-mapNeuralTextureNeural RenderingResultsEncoderDecoderEncoderReconstructedGeometryForward PropagationSupervisionData Copy or Generation(1)159070图3.左：我们设计了一个动态表面网络，可以捕捉姿势相关的几何变形。右：我们设计了一个基于参考的神经渲染网络，并利用锐化引导的纹理贴图生成策略来生成无缝和锐利的纹理贴图。0SMPL的灵活性：0M(β, θi, Di) = W(T(β, θi, Di), J(β), θi, W),0T(β, θi, Di) = T + Bs(β) + Bp(θi) + Di,0Di = fw(θi),0其中β是形状参数，θi和Di分别是第i帧的姿势参数和偏移向量。W是一个线性混合蒙皮函数，其混合权重W应用于基于骨骼关节J(β)的变形形状T(β, θi,Di)。变形形状通过将姿势相关的变形Bs(β)，形状相关的变形Bp(θi)和动态偏移Di应用于模板T来获得。fw(∙)是我们的动态表面网络，具有权重w。动态表面网络的详细信息如图3（左）所示。几何特征zi在成为形状解码器的输入之前，受到姿势特征ui的条件约束，类似于[29]。形状解码器由具有256个特征通道的8层多层感知器（MLP）表示。姿势特征由U-net[37]编码，其输入是姿势化身体的UV位置图。为了充分利用唯一的视频输入，我们提出通过轮廓匹配项和光度跟踪项来优化几何和纹理。基于差分渲染器[36]，轮廓匹配项惩罚使用预测几何的渲染轮廓与从原始图像提取的轮廓之间的差异。光度跟踪项鼓励使用预测的几何和预测的纹理获得的渲染图像与输入图像相似。光度项的梯度可以反向传播到顶点，并引导顶点接近正确位置，从而进一步减轻几何不对齐。训练动态表面网络后，我们可以获得一个初始纹理贴图，用于训练神经渲染网络。给定目标姿势，模型通过基于姿势特征和UV空间中学习到的几何特征预测动态偏移场，从而输出3D动态身体。03.2. 详细纹理生成0之前的工作[3,4]通过取中值或从K帧中选择一帧来生成纹理贴图，导致模糊和不连续。特别是，在人体进行3D运动时，需要从单目观测中连贯地聚合外观信息。然而，第3.1节中的纹理贴图生成方法仍然无法避免纹理的平均现象。因此，基于第3.1节中生成的纹理贴图，我们提出了一种基于参考的神经渲染纹理贴图生成方法，并设计了一种从粗到细的策略来生成详细的纹理贴图，如图3（右）所示。我们通过神经纹理和神经渲染框架将所有观测融合成一个联合表示。首先，我们学习一个基于参考的神经渲染网络，该网络基于输入图像和重建的几何形状生成逼真的图像。然后，神经渲染的结果被用作监督，优化粗糙纹理贴图以获得更多细节。此外，为了提高纹理贴图的清晰度和保真度，我们提出了通过锐化核函数将监督从低频域映射到高频域的方法。03.2.1 基于参考的神经渲染我们通过在第3.1节中建立一个实例特定的动态表面函数来获得相对准确的形状网格，该函数将形状和纹理分离，并使神经渲染网络专注于纹理信息。此外，我们通过在重建的几何上采用重心插值来获得一个UV映射。然而，仅仅解耦形状和纹理是不够的，神经网络仍然难以学习复杂的纹理和图案。基于参考的图像处理已经在图像超分辨率[47]方面取得了成功。我们提出了一种基于参考的神经渲染网络，它将高分辨率纹理从给定的参考图像转移到生成的照片逼真结果中。我们通过从输入视频中变形参考图像来获得一个不完整但清晰的图像。159080使用图像变形方法[25]将当前姿势对齐到与我们的输入图像对齐的姿势。为了简化起见，我们使用要重建的人物的正面和背面图像进行变形。通过变形图像，我们可以通过直接连接它们来将纹理信息传递给生成的特征。具体而言，给定一个3D几何和一个有效的UV映射，我们对神经纹理进行双线性采样，并使用类似于[45]的神经网络将高维神经纹理转换为RGB图像，其公式如下：0I = R(T, I uv, I ref)，(2)0其中 I uv 是像素存储在UV空间中对应位置的UV映射，I ref是从输入图像中变形的参考图像，神经渲染模型由神经纹理T 和神经渲染网络 R 定义。神经纹理的特征通道数为16。03.2.2 纹理细化为了生成详细的纹理贴图，我们提出使用神经渲染结果通过反向传播优化粗糙纹理贴图。与使用输入图像作为纹理贴图的监督相比，神经渲染网络生成的图像更与重建几何对齐。为了生成一个锐利且无缝的纹理贴图，我们提出通过锐化核函数将低频域的监督映射到高频域。稀疏梯度图被用于指导保持结构的图像超分辨率[28]。然而，梯度图的大部分区域接近于零，无法提高图像的清晰度。因此，我们使用非锐化掩蔽（USM）方法[11]通过从单位核中减去高斯滤波核来计算核函数。首先，我们将神经渲染结果映射到一个新的域，并通过锐化核函数增强其高频信息。然后，通过映射的神经渲染结果对粗糙纹理贴图进行监督。我们再次使用UV映射对纹理贴图进行双线性插值，计算输出图像与伪地面真值之间的L1距离，并通过反向传播更新粗糙纹理贴图的值。优化后，我们可以获得一个无缝且锐利的512×512像素的纹理贴图。03.3. 训练细节0我们首先训练动态表面网络，然后再训练基于参考的神经渲染网络。具体的损失函数请参考补充文件。03.3.1 动态表面网络为了稳定模型的优化过程，动态表面网络分两个阶段进行优化。首先，0数据集 VideoAvatar [4] Octopus [2] 我们的方法0人物快照 [4] 39.5940 27.7767 26.41350SelfieVideo 23.7101 16.3087 15.12840表1. 两个数据集上的定量比较（FID ↓）。0VideoAvatar [4] Octopus [2] 我们0MVE（cm）5.8183 4.5244 4.45470表2. 几何重建的定量比较。0我们使用SMPLify[7]的解决方案进行初始化，并通过检测到的2D关节和轮廓的监督来优化SMPL的姿势、平移和形状参数。基于初始参数，我们使用ADAM[18]同时优化偏移和纹理。请注意，姿势编码器在不同的人物之间不共享，因为这会增加训练复杂性而带来有限的改进。优化后，我们得到一个动态几何和一个粗糙的纹理贴图。03.3.2基于参考的神经渲染网络直接训练整个网络会导致不稳定和模糊的结果。因此，我们使用生成的粗糙纹理贴图作为神经纹理的前三层的初始值，并将其冻结。然后，神经纹理和神经渲染器在整个数据集上进行端到端的训练。每个人都有一个独特的神经纹理，神经渲染器的参数是共享的。请注意，对于一个新的人物，只需要对具有预训练权重的神经渲染网络进行几个时期的微调。04. 实验结果 4.1. 数据集0我们在People-Snapshot[4]数据集和我们收集的名为SelfieVideo的数据集上评估了所提出方法的性能。People-Snapshot[4]包含11个主体的24个视频，而我们的数据集包含80个不同着装的人的80个视频，使用分辨率为2160×1216的高清相机拍摄。这些主体是从人才市场收集的，并且每个主体都签署了许可协议。由于实验中的内存需求，我们将帧的大小按比例调整为1024×1024的分辨率。每个视频包含约300帧，并且所有主体都需要在相机前以A姿势旋转。请注意，尽管数据集是在绿幕下拍摄的，但我们的方法也适用于具有普通背景的视频。04.2. 比较0VideoAvatarInput ImageInput ImageVideoAvatarOctopusOursvatar [4] and Octopus [2]. The results of the two methodsare generated using the official implementations. Quanti-tative results on the two datasets are given in Tab. 1. Dueto lack of ground truths, the existing pixel-aligned metrics,e.g., PSNR, LPIPS, are not suitable. Therefore, we use FID(Fr´echet Inception Distance), a metric to measure the dis-tance between the distributions of the real images and thegenerated images, for our evaluation. We calculate FID be-tween the rendered images using the generated texture mapand the originally captured images. Our method achievesthe best performance on both datasets, which indicates thatour method generates more realistic results.159090Octopus0我们的方法0图4. VideoAvatar [4]、Octopus [2]和我们的方法在People-Snapshot [4]（左）和SelfieVideo（右）上重建的纹理化头像。0图5. VideoAvatar [4]、Octopus[2]和我们的方法重建的3D几何形状。0图4. 与VideoAvatar[4]相比，我们的方法可以生成更锐利的纹理。0I-noS N-noS N-USM 输入图像0图6.不同超视觉和锐化方案的消融研究的定性结果。与章鱼[2]相比，我们的方法生成了无缝纹理贴图，并且在我们生成的纹理贴图中没有纹理错误或丢失的图案。总之，与最先进的方法相比，我们的方法能够生成无缝且清晰的纹理贴图，这得益于我们的粗到精的框架和锐化引导的微调策略。此外，我们在图5中对重建的几何形状进行了定性比较。我们的方法可以重建更准确和详细的几何形状，这得益于动态表面网络的设计。由于缺乏地面真实值，我们在18个扫描的人体模型上进行了定量评估。我们采用与[2]相同的数据生成协议将SMPL+D注册到每个扫描中，并通过改变渲染视频来评估。159100方法 I-noS N-noS N-USM0FID ↓ 33.2064 23.4513 15.12840表3。关于不同监督和锐化方案的消融研究的定量结果。0w/o TS0w/o REF0Full0图7。关于参考分支和训练方案的消融研究的定性结果。0与VideoAvatar [4]和Octopus[2]相比，我们的方法在整个视频中与测试对象的平均顶点误差在Tab. 2中给出。我们的方法比最先进的方法[2,4]取得了更好的结果。04.3.消融研究0不同的监督和锐化方案。我们研究了不同的监督和锐化方案对纹理映射生成的影响。图6显示了使用不同的监督和锐化方案的定性比较。我们比较了三种变体：仅通过输入图像进行监督而不进行锐化（I-noS），仅通过神经渲染结果进行监督而不进行锐化（N-noS），以及通过神经渲染结果进行监督并进行非锐化掩蔽（N-USM）。从I-noS和N-noS的比较中，我们可以看出通过神经渲染结果进行监督的生成纹理映射具有更准确的纹理细节。在最后两列中，通过非锐化掩蔽生成的纹理更清晰、更详细。在FID方面，对80个受试者的定量结果如表3所示。通过神经渲染结果进行监督并进行非锐化掩蔽的模型也取得了最佳得分，证明了我们提出方法的有效性。参考分支和训练方案。图7显示了参考分支和我们的神经渲染网络训练方案（第3.3.2节）的效果。我们比较了三种变体，其中模型在没有我们的训练方案但有参考分支的情况下进行了端到端的训练（w/oTS），在有我们的训练方案但没有参考分支的情况下进行了训练（w/oREF），以及在有我们的训练方案和参考分支的情况下进行了训练（Full）。从图7的最后两行的比较中，参考分支恢复了更多的纹理细节和图案。从第一行和最后一行可以看出，我们的模型可以通过提出的训练方案生成更合理和照片般逼真的结果。我们还设计了一个用户研究以进行更好的评估，详见补充材料。静态偏移与动态偏移。为了从仅有的RGB输入中捕捉到人体的姿态相关变形，我们设计了一个动态表面网络。图8显示了使用静态偏移和动态偏移重建几何图形的比较结果。可以看出，与使用静态偏移相比，我们的动态表面网络可以恢复更多的几何细节。0动态偏移静态偏移动态偏移静态偏移0图8。使用静态偏移和动态偏移的比较结果。通过动态表面网络，可以更好地重建几何细节，与静态偏移相比。0方法[33] [15] [12] 我们0FID ↓ 81.8043 45.1285 63.8366 28.19640表4。关于新视图合成的定量比较。0分支（无REF）和使用我们的训练方案和参考分支（Full）进行训练。从图7的最后两行的比较中，参考分支恢复了更多的纹理细节和图案。从第一行和最后一行可以看出，我们的模型可以通过提出的训练方案生成更合理和照片般逼真的结果。我们还设计了一个用户研究以进行更好的评估，详见补充材料。静态偏移与动态偏移。为了从仅有的RGB输入中捕捉到人体的姿态相关变形，我们设计了一个动态表面网络。图8显示了使用静态偏移和动态偏移重建几何图形的比较结果。可以看出，与使用静态偏移相比，我们的动态表面网络可以恢复更多的几何细节。04.4.应用0小说视图合成。给定目标视图，我们可以使用z-buffer进行光栅化生成一个与视图相关的UV映射。通过双线性采样使用神经纹理对几何图形进行光栅化，然后使用神经网络将其转换为RGB图像。我们将我们的方法与三种最先进的方法Neural Body [33]，HF-NHMT [15]和StylePeople[12]进行比较。[33]和[15]的训练模型是通过官方实现生成的，[12]的训练模型是由作者提供的SelfieVideo的20个视频。如图9所示，我们的方法实现了最合理和照片般逼真的结果。表4给出了20个视频的定量结果。由于缺乏真实值，FID是通过计算分布之间的距离来计算的。Neural bodyHF-NHMTStyple PeopleOursapplications159110图9. NeuralBody [33]（顶行），HF-NHMT[15]（第二行），StylePeople[12]（第三行）和我们的方法（底行）的新视角合成结果。0图10. 使用第一行的姿势合成的三个人的新姿势合成结果。0图10.新姿势合成的结果。给定目标姿势，我们还可以使用z缓冲区进行光栅化生成姿势条件的UV映射。学习到的人物可以重新定位到预捕获的动作序列中的姿势。0展示了具有相同姿势的不同人物的生成结果。形状编辑。由于我们设计的动态表面网络可以将人物的形状和纹理分离开来，我们的方法可以通过改变SMPL模型的参数来实现形状编辑。图11展示了一个人物的一些神经渲染结果，上半身0图11.形状编辑的结果。从左到右，我们展示

下载后可阅读完整内容，剩余1页未读，立即下载