动态神经肖像的生成方法及其速度优于基于NeRF的复制方法

69 浏览量更新于2023-10-15 收藏 21.74MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

40730动态神经肖像0Michail Christos Doukas 1 , 2 Stylianos Ploumpis 2 Stefanos Zafeiriou 1 , 201 伦敦帝国理工学院，英国 2 华为技术有限公司，伦敦，英国0{ michail.christos.doukas, stylianos.ploumpis, stefanos.zafeiriou1 } @huawei.com0摘要0我们提出了动态神经肖像，这是一种解决全头复制问题的新方法。我们的方法通过明确控制头部姿势、面部表情和眼神来生成逼真的视频肖像。我们提出的架构与现有方法不同，现有方法依赖于基于GAN的图像到图像转换网络，将3D脸部的渲染转换为逼真的图像。相反，我们的系统基于一个基于2D坐标的MLP，具有可控的动态特性。我们采用2D表示的直觉是因为视频肖像是由单目静止摄像机拍摄的，因此场景只有一个视角可用。我们主要将我们的生成模型条件化为表情混合形状，然而，我们展示了我们的系统也可以成功地由音频特征驱动。我们的实验证明，与最近的基于NeRF的复制方法相比，所提出的方法速度提高了270倍，我们的网络在分辨率高达1024×1024时达到24fps的速度，同时在视觉质量方面优于以前的工作。01. 引言0可控的视频肖像合成是一个引起计算机图形学和计算机视觉界关注的有趣研究课题。视频肖像被定义为一系列帧，描绘了一个人进行各种头部运动和面部表情。人的整个头部都包含在帧的边界内，还有一个小部分上半身，即颈部和躯干，而被拍摄对象通常站在静态背景前面。使用神经网络进行视频肖像合成的最近尝试已经显示出非常有希望的结果，基于生成对抗网络（GANs）[20]或神经辐射场（NeRFs）[31]。这种系统的应用非常广泛，从视频编辑和电影配音到远程会议、虚拟助手、社交媒体、虚拟现实和游戏。有许多基于学习的解决方案用于生成0视频肖像依赖于基于GAN的图像到图像转换模型，具有编码器-解码器架构。例如，Deep Video Portraits (DVP)[26]使用一个网络，学习从彩色渲染的3D脸部到逼真肖像的映射。类似地，Head2Head[27]使用视频到视频框架，将Projected NormalizedCoordinate Codes (PNCCs)[53]的图像转换为逼真的帧。作为生成神经网络的条件输入的3D脸部的渲染依赖于将3D Morphable Models(3DMMs) [5, 35, 7, 8,29]拟合到视频后获得的表情混合形状。拟合步骤后跟着一个基于物理的渲染过程，创建2D渲染。相反，我们提出了一个多层感知器（MLP），它直接在非空间数据（例如表情参数）上进行合成，因此不需要3D脸部的渲染。0最近，NerFACE [16]利用NeRFs[31]实现的照片逼真度更高，分辨率更大（如512×512）的合成视频肖像。然而，由于射线投射和体积采样，使用NerFACE进行图像渲染每帧需要几秒钟的时间。此外，作者假设跟踪的头部姿势参数与场景的摄像机视点相一致，这导致躯干合成中存在显著的不一致性，因为实际上摄像机是静止的，因此场景只有一个视点。AD-NeRF[22]提出了一种用于肖像合成的音频驱动方法，并通过利用面部分割图[28]解决了摄像机问题。他们将肖像分为头部、躯干和背景，并设计了两个单独的NeRF模型：一个用于头部，使用头部姿势作为摄像机视点，另一个用于躯干，将头部姿势视为MLP的简单输入，同时考虑摄像机视点固定。然而，AD-NeRF在推理过程中更慢，因为它评估了两个MLP。0在本文中，我们采用了完全不同的方法，提出了一种快速高效的人脸再现框架——动态神经肖像。我们的方法借鉴了隐式神经表示（INR）的思想，利用神经网络对视频肖像进行参数化。我们同时遵循条件独立性的实践。40740(a) 基于图像的视频肖像渲染[26, 27] (b) 基于NeRF的视频肖像渲染[16, 22]0(c) 我们的视频肖像渲染范例0图1. 与传统基于GAN的图像到图像转换方法（如DVP [26]和Head2Head [27]）以及最近的基于NeRF的视频肖像渲染方法（如NerFACE[16]和AD-NeRF [22]）相比，我们提出了一种新的可控视频肖像合成范例，由MLP和基于CNN的解码器组成。0独立像素合成（CIPS）[2]和卷积网络神经渲染。更具体地说，我们使用基于2D坐标的MLP进行视频肖像合成，具有可控的动力学。也就是说，我们在像素坐标、表情、姿势和凝视参数上对MLP网络进行条件约束，而不依赖于3D面部的渲染。尽管如此，我们采用了3D感知GANs [32, 21, 52,9]的实践，并提出了一个MLP，它产生特征向量，这些特征向量在所有2D空间位置上计算并通过基于CNN的解码器进行上采样。我们在视频肖像重建任务上联合优化我们的“混合”MLP-CNN架构。据我们所知，我们是第一个将基于2D坐标的MLP与表情、姿势和凝视参数进行条件约束，以明确控制视频肖像，而不依赖于3D面部、GANs或NeRFs的方法。此外，与之前专注于表情混合形状或音频信号作为驱动数据的方法不同，我们的工作展示了如何使用相同的架构利用两种模态。我们的方法将高质量样本与无与伦比的执行性能相结合，比最近的基于NeRF的最先进的再现方法[16,22]快270倍。本文的贡献可以总结如下：0•我们提出了一种新的全头再现方法，其生成器由一个基于2D坐标的MLP和一个CNN解码器组成，具有可控的动力学。0•我们展示了我们的架构可以通过表情混合形状或基于音频的特征来驱动。0•我们全面的实验证明，我们的方法在执行速度和图像质量方面优于相关的最先进系统。02. 相关工作03D面部建模和面部再现。自引入以来，3DMMs [5, 35, 7,8,29]已被广泛用于表示人脸，因为它们是强大的统计模型，可以明确控制3D面部网格的形状和纹理。各种3D面部重建方法依赖于3DMMs从视觉数据中恢复3D面部。这些方法被分为基于优化的方法[46,6]，它们将3DMMs拟合到视觉数据中，并以分析合成的方式估计参数，或者基于学习的方法[18,15]，它们依赖于神经网络重建3D面部。除了捕捉粗糙的网格外，后者在提取局部细节方面取得了非常有希望的结果。从视频数据中恢复面部形状和表情信息已被证明对于许多面部再现方法非常有用[17, 42,43]。Garrido等人的工作[17]是最早尝试在依赖3D面部建模的基础上再现面部的尝试之一。随后的基于图形的方法Face2Face[43]通过将目标视频的内部面部区域进行重写，实现了从驱动序列帧到目标身份的实时表情转移。最近的方法HeadOn[44]基于RGB-D视频数据实现了包括姿势和凝视转移在内的全头再现。基于学习的说话头合成。与上述基于图形的系统相反，大多数最新的面部重定向方法都是基于学习的[39,26,27]。Suwajanakorn等人[39]是最早提出使用音频驱动的神经网络将声学信号映射到具有准确嘴唇运动的照片逼真帧的人之一。随后的神经语音木偶[40]采用了一个模块，将音频特征转化为表情混合形状，作为中间表示。关于视频-γ(x) = [x, sin(2πx), cos(2πx), . . . ,sin(2N−1πx), cos(2N−1πx)]⊤(3)40750在基于驱动的方法中，Deep Video Portraits (DVP)[26]是最早的基于GAN的完整头部再现方法之一。它依赖于一个图像到图像的转换网络，接收参数化3D人脸模型的合成面部渲染，并生成目标主体的图像。在类似的方向上，Head2Head [27, 12]将PNCCs[53]转换为逼真的帧，借助基于视频的GAN以获得更好的时间稳定性。Deferred Neural Rendering[41]采取了不同的步骤，将传统图形学与可学习的神经纹理相结合，嵌入在3D面部网格上。除了上述针对特定个体的方法外，还有大量的通用个体方法，只需要目标身份的几帧[48, 37, 38, 4, 19, 50, 49, 23,13]。场景和人脸的神经表示。随着NeRFs[31]的引入，许多研究集中在神经场景表示[30,36]上，尝试对人脸进行建模。更具体地说，Nerfies[33]和HyperNeRF[34]展示了重建移动头部的非刚性场景的令人难以置信的结果。尽管这些系统具有令人印象深刻的生成能力，但它们无法控制头部姿势和面部运动。在不同的方向上，NerFACE[16]提出使用表情混合形状来控制动态NeRF。在类似的工作线上，AD-NeRF[22]提出了一种基于音频驱动的类似NeRF的模型，基于DeepSpeech [24, 1]提取的声学特征。03. 方法0在本节中，我们首先描述了解决完整头部再现问题的基线方法（第3.1节），即具有可控动力学的基于2D坐标的MLP。然后，我们将MLP与基于CNN的解码器相结合，构建了我们的视频肖像合成的完整模型（第3.2节），即动态神经肖像。最后，我们展示了一个支持音频驱动合成的系统扩展（第3.3节）。03.1. 具有可控动力学的2D MLP0设I是分辨率为H×W的图像。我们可以通过训练一个全连接的MLP来用神经网络表示I，从其2D坐标[14]重建图像。对于每个像素的合成，我们将其坐标x=(x,y)通过MLP网络，返回像素的颜色c。我们通过惩罚预测颜色和真实颜色之间的距离来优化网络。为了计算整个图像，MLP在坐标网格的每个位置(x,y)处进行评估。上述模型非常有限，因为它只学习从像素坐标重建单个静态图像。我们扩展了基于2D坐标的MLP，以处理时间上变化的数据，例如人脸视频肖像。在这里，我们专注于由单目和静止摄像机捕获的RGB视频。一个时变的表示可以通过在每帧之间变化的面部信息上调节MLP网络来获得。设I_1:T是一系列帧，p_1:T，e_1:T是相应的头部姿势和面部表情参数，这些参数已经通过面部跟踪系统恢复。用神经网络建模视频肖像的直观解决方案是使用MLP从第i帧的像素坐标x和跟踪的参数p_i，e_i估计像素的RGB值，如下所示：0通过将MLP网络与在帧之间变化的面部信息进行条件训练，可以获得时间上变化的表示。设I_1:T是一系列帧，p_1:T，e_1:T是相应的头部姿势和面部表情参数，这些参数已经通过面部跟踪系统恢复。用神经网络建模视频肖像的直观解决方案是使用MLP从第i帧的像素坐标x和跟踪的参数p_i，e_i估计像素的RGB值，如下所示：0c = C(x, p_i, e_i). (1)0这里，c是2D位置x∈[0, 1]^2处的颜色，p_i∈R^60是由旋转（欧拉角）和平移参数给出的头部姿势，而e_i ∈R^nexp是表情参数，对应于非刚性面部变形。请注意，姿势参数p_i描述的是脸部相对于摄像机的刚性运动，不包括有关躯干运动的信息。摄像机的位置在整个帧中保持固定。03.2. 动态神经肖像0尽管基于2D坐标的具有可控动态的MLP对于使用单个MLP网络建模视频肖像是一种直接的方法，但在实践中，我们发现随着视频分辨率的增加，生成样本的逼真度和渲染速度显著下降。正如我们的实验所示，通过将MLP与卷积解码器网络结合，我们在视觉质量方面获得了更好的结果。遵循最近的3D感知GANs [32, 21, 52,9]的范例，我们提出了一个MLP，将其输入映射到一个视觉特征向量f ∈ Rnf。给定2D空间位置x以及姿势pi，表情ei和凝视信息gi，我们的MLP现在预测一个特征向量f = F(γ(x), γ(pi), γ(gi), ei,vi)。 (2)0我们观察到通过将眼睛凝视角度gi ∈R2作为MLP网络的额外输入，我们可以获得更准确的眼动。此外，我们注意到引入每个图像可学习的潜在变量vi作为输入，这是一种在NeRF方法[30, 33, 34,16]中先前采用的技术，可以改善网络的稳定性，因为它使MLP能够学习由姿势和表情参数未建模的帧之间的变化（例如躯干运动，照明变化，小的背景运动）。此外，遵循基于NeRF的系统和CIPS[2]的已建立实践，我们采用位置编码对MLP的输入进行编码，具体包括位置x，姿势pi和凝视gi向量，它们是低维的。标准的编码函数40760图2.训练过程中动态神经肖像框架的概述。与以往依赖于图像到图像转换网络的全头复制方法不同，我们的模型由一个MLP编码器和一个CNN解码器组成。我们可以使用从声学信号中恢复的音频特征来驱动合成，而不是面部表情参数。0在[31]中提出的方法应用于x，pi和gi的所有值，将每个数字x ∈ R映射到更高维度的嵌入γ(x) ∈R2∙N+1。用嵌入替换原始输入使得我们的模型能够在生成的图像中获得高频细节。上述描述的MLP网络学习独立地为图像平面的每个空间位置估计一个特征向量f，同时考虑头部姿势、面部表情和眼睛凝视信息。为了渲染帧i，我们首先在对应于分辨率Hf × Wf的坐标网格的每个空间位置x ∈X上评估MLP网络，同时保持所有其他输入固定。然后，我们将得到的特征累积在一个视觉特征图F i ∈ R H f × W f ×n f中。然后，我们使用一个解码网络D，接收特征图并进行上采样，以合成目标分辨率H × W的输出帧˜I i = D(Fi)。我们提出的框架概述如图2所示。有关网络架构的更多细节，请参见补充材料。目标函数和优化。我们在重建任务上训练我们提出的模型。给定生成的图像˜I i和相应的真实帧Ii，我们将重建损失定义为预测图像与真实图像之间的L2距离。我们尝试了L1、感知[47]和对抗[20]损失，但它们都产生了明显较差的结果。然而，我们发现通过向MLP添加一个额外的输出层，预测颜色c ∈R3与视觉特征f并行，并最小化预测颜色与真实颜色之间的距离，可以提高我们方法的性能。为此，我们将所有2D空间位置的颜色输出累积在C i ∈ R H f × W f ×3中，并惩罚与地面真实图像I ′ i降低到res-的L2距离0分辨率Hf ×Wf的Cf，以匹配Ci的分辨率。帧i的整体损失项如下所示：0L = Lrec + L′rec = ||˜Ii − Ii||22 + ||Ci − I′i||22 (4)0我们以端到端的方式共同优化MLP网络和基于CNN的解码器。03.3. 基于音频的肖像合成0我们选择通过MLP网络将驱动信号（即姿势、表情和凝视参数）注入到我们的系统中，可以轻松地将我们的方法适应其他驱动模态，例如声学信号。与之前的工作[22, 16, 40,26]不同，前者专注于表情混合形状或音频数据作为驱动信号，我们展示了相同的架构可以有效地用于两种模态。具体而言，如果音频流可用，我们可以将表情混合形状替换为音频特征向量αi作为MLP网络的输入。我们使用广泛采用的DeepSpeech模型[24,1]从声学信号中提取高级特征。首先，我们为每个视频帧分配一个由DeepSpeech估计的29维向量。然后，我们从相邻的（过去和未来）时间步骤中取出大小为w =16的向量窗口。这样，每个帧i与一个DeepSpeech特征Ai∈ R16×27相对应。我们采用AD-NeRF[22]类似的方法，利用一个1D卷积网络Naud从Ai中学习计算每帧的潜在代码ai ∈Rna。接下来，我们使用一个自注意力网络Natt，如[40]和[22]中提出的，它在后续音频代码ai-u+1:i+u上操作作为时间滤波器，并通过预测的注意力权重wi-u+1:i+u将它们混合在一起，形成最终的音频特征向量αi = ∑j=i-u+1:i+uwjaj。我们设置u = 4，这样得到一个窗口的2u =8个时间步。407704. 实验0数据集。我们的网络是在单目RGB视频上进行优化的，分辨率各异：2562、5122和10242。我们为每个视频肖像（不同个体）训练一个新模型。作为预处理步骤，我们在目标人脸周围裁剪帧，并计算姿势、表情和凝视参数。我们使用从5K到20K帧的视频进行实验。在补充材料中，我们提供了所采用的视频数据库和人脸跟踪系统的更多细节。04.1. 与现有技术的比较0重建。首先，我们与Deep Video Portraits (DVP) [26]和NerFACE[16]这两种表现最佳的个人特定再现方法以及First Order MotionModel (FOMM)[38]进行比较，FOMM是一种代表性的通用模型。0代表性的通用模型。我们通过重建任务来评估方法的生成性能，也称为自我再现。我们通过生成帧与真实测试帧之间的L1距离以及学习感知图像补丁相似度（LPIPS）[51]来定量评估重建的保真度，该指标测试图像之间的感知相似性。此外，我们还使用Fréchet Inception Distance (FID)[25]和Fréchet Video Distance (FVD)[45]指标来确定照片逼真度，这些指标与人类感知相关性较高。表1中显示的结果表明，我们的方法在三个不同的视频肖像中优于所有基线方法。请注意，报告的数字是针对每个视频肖像的所有测试帧的平均分数。FID [25]和FVD[45]指标是个例外，因为它们是计算在0地面真实性我们的NerFACE [16] DVP [26] FOMM [38] 图3.重建任务中与基线方法的视觉比较。我们的方法始终生成比其对应物更逼真且细节更丰富的样本。对于FOMM[38]的评估，图像还需要进一步裁剪。请放大以查看细节。FOMMID. 18.790.09525.48331.0ID. 27.600.08437.24338.3ID. 39.480.13024.72254.10DVPID. 16.950.15249.35195.4ID. 29.080.07937.58464.3ID. 38.010.12351.30196.7NerFACEID. 16.190.13674.22278.3ID. 210.980.14374.02357.7ID. 36.280.06734.6481.17FOMM [38]0.84013.286.319.42HeadGAN [13]0.75514.173.26◦6.35◦DVP [26]0.86111.954.93◦8.37◦40780方法肖像 L1 ( ↓ ) LPIPS ( ↓ ) FID ( ↓ ) FVD ( ↓ )0我们的 ID. 1 6.45 0.094 23.76 169.8 ID. 2 5.21 0.07124.60 222.1 ID. 3 5.15 0.051 23.94 78.060表1. 在重建（自我再现）任务上与FOMM [38]、DVP[26]和NerFACE [16]进行三个不同肖像的数值比较。0视频对。所有分数都表明我们的方法在视觉质量和真实感方面产生了更好的样本。这一观察结果在图3中得到了视觉上的确认。正如可以看到的那样，我们的方法生成了更清晰的图像，细节更丰富，眼神更一致。为了更好地展示我们的结果，请参考我们的补充视频。0方法 CSIM ( ↑ ) 表情姿势注视距离 ( ↓ ) 距离 ( ↓ ) 距离 ( ↓)0我们的 0.885 10.69 2.57 ◦ 4.74 ◦0表2. 在跨身份再现任务上与FOMM [38]、HeadGAN [13]和DVP[26]进行数值比较。0再现。我们进一步以定量的方式验证了我们模型在跨身份运动转移（再现）任务中的性能。这个任务涉及将头部姿势、面部表情和眼神从一个驱动演员传递给另一个目标人物，同时保持后者的身份，因为现在两个主体是不同的。我们将我们的方法与DVP [26]、FOMM [38]和HeadGAN[13]进行比较。为此，我们使用DVP作者提供的源视频肖像和目标视频肖像。在数值比较中，我们使用余弦相似度（CSIM）来衡量目标的身份保持情况，该相似度是基于使用ArcFace [11]辅助提取的身份嵌入。此外，我们使用DECA[15]来回归驱动和生成的姿势和表情参数。0驱动我们的DVP [26] HeadGAN [13] FOMM [38] 图4.在再现中与基线的视觉比较。我们的方法在传递姿势、表情和注视方面比个人特定的DVP [26]和个人通用的方法HeadGAN [13]和FOMM[38]更可靠。请注意，为了正确评估HeadGAN和FOMM，图像必须更接近脸部。40790方法肖像 L1 ( ↓ ) LPIPS ( ↓ ) FID ( ↓ ) FVD ( ↓ )0AD-NeRF 奥巴马 4.11 0.083 16.67 225.7 5月 5.13 0.14347.31 272.20我们的奥巴马 4.04 0.054 9.12 110.3 5月 5.72 0.08726.72 96.10表3. 在音频驱动的视频重建任务上与AD-NeRF[22]进行数值比较。0我们的真实数据 AD-NeRF [22] 图5.在音频驱动的重建上与AD-NeRF[22]进行视觉比较。与AD-NeRF相比，我们生成了更准确的嘴唇动作和更高质量的细节。请放大查看细节。0生成的帧。然后，我们计算表情参数之间的L1距离，以及头部旋转的角度距离。最后，我们使用[10]中的注视估计器回归注视向量，并计算它们的角度距离。在表2中，我们展示了我们的方法在成功再现相关的所有指标上比所有三个基线都取得了更好的分数。在图4中，我们展示了我们的方法在传递姿势、表情和注视方面比DVP [26]、HeadGAN[13]和FOMM[38]更准确的帧的示例。音频驱动的重建。除了将我们的MLP网络条件化为表情混合形状外，我们还展示了我们的系统在受声学信号驱动时的生成性能。为此，我们与音频驱动重建领域的最先进模型AD-NeRF[22]进行了并排比较。如表3所示，我们的定量分析显示，我们的方法在重建和图像质量方面优于AD-NeRF。我们的发现在图5中也可以从视觉上观察到。执行速度。由于其轻量级架构，我们的方法能够以24fps的速度渲染分辨率高达1024×1024的帧。对于较低的分辨率（例如256×256和512×512），我们的流水线的运行速度比实时更快。与最近的基于NeRF的最先进方法[16,22]相比，我们的系统实现了显著的加速，生成的图像速度几乎快了270倍，这使得它在实际应用中更加高效。在表4中，我们报告了不同方法在NVIDIA的Tesla V100 PCIe 32GB上的执行时间。对于DVP*[26]，我们使用其作者记录的数字。0方法 256 × 256 512 × 512 1024 × 1024 时间(fps) 时间 (fps) 时间 (fps)0AD-NeRF [22] - 9630 (0.10) - NerFACE [16] - 8465(0.12) - DVP* [26] 65 (15.4) 196 (5.1) - HeadGAN [13]41 (24.5) - - FOMM [38] 21 (47.2) - - 我们的方法 11 (90.9 ) 31 ( 32.3 ) 42 ( 24.2 )0表4.我们生成模型和相关方法之间执行时间的比较。时间以毫秒（msec）为单位报告。请注意，所有报告的数字均指推理过程中模型的前向传递时间，不考虑数据预处理。04.2. 剔除研究0接下来，我们评估我们的设计选择并验证构成我们模型的不同组件的重要性。我们对我们系统的六个变体进行了定量和定性实验。为此，我们对重建任务的所有变体进行测试，针对两个不同的肖像（拜登和奥巴马）。我们从一个基线模型(A)开始，该模型是一个基于2D坐标的MLP，具有可控的动力学，如第3.1节所述。为了证明我们提出的架构的优势，我们进一步尝试了仅使用基于CNN的解码网络，而没有MLP网络的实验(B)。然后，我们将MLP与解码网络耦合，得到变体(C)。我们通过首先添加可学习的潜在变量输入(D)，然后包括重建损失项L ′rec(E)，最后添加凝视输入(F)，得到我们的完整模型，如第3.2节所示。我们在表5中的数值分析揭示了每个组件的重要性，特别是当MLP网络与基于CNN的解码网络耦合时的巨大影响。可以观察到，潜在变量增加了FVD分数，因为它们有助于稳定帧之间的运动。此外，根据LPIPS，L ′rec损失改善了与真实数据的感知相似性。最后，凝视输入纠正了眼睛运动，在检查我们的补充视频时更加明显。在图6中，我们展示了通过变异(A)、(B)和我们的完整模型(F)生成的样本之间的视觉差异的一些例子。05. 讨论03D多视角一致性。从理论上讲，我们的方法不具备3D感知能力。然而，对于肖像再现的目的，这对于在各种头部姿势下实现一致的结果并不重要。鉴于训练视频是由固定摄像机拍摄的，它们提供了场景的单一视角。对于这样的数据，这使得基于3DNeRF的方法成为一种过度参数化。我们的数值分析表明，每个组件的重要性，特别是当MLP网络与基于CNN的解码网络耦合时，MLP网络的巨大影响。可以观察到，潜在变量增加了FVD分数，因为它们有助于稳定帧之间的运动。此外，根据LPIPS，L ′rec损失改善了与真实数据的感知相似性。最后，凝视输入纠正了眼睛运动，在检查我们的补充视频时更加明显。在图6中，我们展示了通过变异(A)、(B)和我们的完整模型(F)生成的样本之间的视觉差异的一些例子。40800真实数据 2D MLP contr. dyn. (A) 基于CNN的解码器 (B) 我们的完整模型 (F) 图6.我们剔除研究的定性结果。我们的完整模型(F)显著改善了由基线模型(A)（基于2D坐标的MLP具有可控的动力学）或未辅助的基于CNN的解码器(B)合成的帧的质量。0变异肖像 L1 ( ↓ ) LPIPS ( ↓ ) FID ( ↓ ) FVD ( ↓ ) 凝视距离 ( ↓ )0(A): 基于2D坐标的MLP与拜登 5.33 0.072 10.69 197.2 - 可控动力学（基线，第3.1节）奥巴马 3.74 0.077 14.33132.90(B): 基于CNN的解码器拜登 6.67 0.089 11.51 263.8 - 奥巴马 4.27 0.068 12.78 127.40(C): MLP + 解码器拜登 5.55 0.061 8.76 114.2 - 奥巴马 3.58 0.060 9.37 103.40(D): (C) + 潜在编码拜登 5.68 0.062 8.38 92.05 - 奥巴马 3.10 0.047 9.37 83.10(E): (D) + L ′ rec 拜登 5.14 0.057 9.80 100.9 2.69 奥巴马 2.80 0.041 9.97 82.1 2.310(F): (E) + 凝视输入拜登 5.03 0.054 9.42 107.2 1.86 (完整模型，第3.2节) 奥巴马 2.86 0.041 9.33 79.3 2.180表5. 我们在两个分辨率为512×512的独立视频肖像（拜登和奥巴马）上进行的剔除研究的定量结果。0上半身违反3D一致性并产生严重的肩膀颤动[16]。我们认为，3D建模需要由移动摄像机从多个视角拍摄的视频肖像，最近由RingNeRF[3]最近展示。对于由静止摄像机拍摄的视频，我们的2D模型能够在不同的头部姿势下生成具有一致外观的帧，并在视觉质量和推理速度上超过基于3D NeRF的方法[16, 22]。0头部姿势的大幅变化。我们呈现的再现结果主要是正面的。这归因于训练数据，其中大部分是正面姿势。实际上，无论是2D还是基于3D的方法都受到训练视频中存在的头部姿势变化的限制。我们观察到所有系统都难以合成超出训练数据范围的姿势。在图7中，我们展示了具有最极端偏航角的训练帧，以及NerFACE[16]和我们的方法合成的最极端姿势，质量没有明显下降。我们的方法实现了更高的照片逼真度。0伦理考虑。提供对面部运动具有明确控制的生成模型可能被用于不道德的目的。例如，它们可以用于合成政治家以挑衅方式行事的视频。我们想澄清，我们的意图不是这样的。0最大偏航角（训练）NerFACE [16] 我们的0图7. 头部姿势变化的评估。0本文的目的是为了推动面向善意应用的逼真全头部再现。我们不赞成使用我们的工作来制造假新闻或欺骗公众。06. 结论0我们描述了一种名为Dynamic NeuralPortraits的新方法，用于可控的视频肖像合成。与以前的尝试相比，我们的方法不需要渲染3D面部来驱动合成，也不依赖GAN或NeRF。我们的实验证明了我们的模型在视觉质量和运行时性能方面的优越性，与最先进的视频或音频驱动系统相比。致谢。StefanosZafeiriou的工作部分资助来自EPSRC FellowshipDEFORM：大规模人体可变形模型的形状分析（EP/S010203/1）。40810参考文献0[1] Dario Amodei, Sundaram Ananthanarayanan, RishitaAnub- hai, Jingliang Bai, Eric Battenberg, Carl Case, JaredCasper, Bryan Catanzaro, Qiang Cheng, GuoliangChen等。Deep speech2：英语和普通话的端到端语音识别。在机器学习国际会议上，第173-182页。PMLR，2016年。0[2] Ivan Anokhin, Kirill Demochkin, Taras Khakhulin, GlebSterkin, Victor Lempitsky, and Denis Korzhenkov.具有条件独立像素合成的图像生成器。在计算机视觉和模式识别的IEEE/CVF会议论文集中，第14278-14287页，2021年。0[3] ShahRukh Athar, Zexiang Xu, Kalyan Sunkavalli, EliShechtman, and Zhixin Shu.Rignerf：完全可控的神经3D肖像。在计算机视觉和模式识别的IEEE/CVF会议论文集中，第20364-20373页，2022年。0[4] Hadar Averbuch-Elor, Daniel Cohen-Or, Johannes Kopf,and Michael F Cohen. 将肖像带到生活中。ACM Transactionson Graphics (TOG)，36(6):1-13，2017年。0[5] Volker Blanz和ThomasVetter。用于合成3D面部的可塑模型。在第26届计算机图形学和交互技术年会论文集中，第187-194页，1999年。0[6] James Booth, Epameinondas Antonakos, StylianosPloumpis, George Trigeorgis, Yannis Panagakis, andStefanos Zafeiriou.野外的3D面部可塑模型。在计算机视觉和模式识别的IEEE会议论文集中，第48-57页，2017年。0[7] James Booth, Anastasios Roussos, Allan Ponniah, DavidDunaway, and StefanosZafeiriou。大规模3D可塑模型。国际计算机视觉期刊，126(2):233-254，2018年。0[8] Chen Cao, Yanlin Weng, Shun Zhou, Yiying Tong, andKun Zhou。Facewarehouse:用于视觉计算的3D面部表情数据库。IEEE可视化与计算机图形学交易，20(3):413-425，2013年。0[9] Eric R Chan, Connor Z Lin, Matthew A Chan, KokiNagano, Boxiao Pan, Shalini De Mello, Orazio Gallo,Leonidas J Guibas, Jonathan Tremblay, Sameh Khamis, et al.高效的几何感知3D生成对抗网络。在计算机视觉与模式识别会议上，页码16123-16133，2022年。0[10] Zhaokang Chen and Bertram EShi。基于外扩卷积的外貌驱动凝视估计。在亚洲计算机视觉会议上，页码309-324，2018年。0[11] Jiankang Deng, Jia Guo, Niannan Xue, and StefanosZafeiriou。Arcface:深度人脸识别的增量角度边界损失。在计算机视觉与模式识别会议上，页码4690-4699，2019年。0[12] Michail Christos Doukas, Mohammad Rami Koujan, Vik-toriia Sharmanska, Anastasios Roussos, and StefanosZafeiriou。Head2Head++:深度面部属性重定向。IEEE生物特征、行为和身份科学交易，3(1):31-43，2021年。0[13] Michail Christos Doukas, Stefanos Zafeiriou, and ViktoriiaSharmanska。HeadGAN:单次神经头部合成和编辑。在计算机视觉国际会议论文集中，页码14398-14407，2021年。0[14] Emilien Dupont, Adam Goli´nski, Milad Alizadeh, YeeWhye Teh, and Arnaud Doucet。Coin:基于隐式神经表示的压缩。arXiv预印本arXiv:2103.03123，2021年。0[15] Yao Feng, Haiwen Feng, Michael J. Black, and TimoBolkart。从野外图像中学习可动态细节的3D面部模型。卷40，2021年。0[16] Guy Gafni, Justus Thies, Michael Zollh¨ofer, and MatthiasNießner。单目4D面部化身重建的动态神经辐射场。在计算机视觉与模式识别（CVPR）会议论文集中，页码8649-8658，2021年6月。0[17] Pablo Garrido, Levi Valgaerts, Ole Rehmsen, ThorstenThormahlen, Patrick Perez, and ChristianTheobalt。自动面部再现。在计算机视觉与模式识别会议上，页码4217-4224，2014年。0[18] Baris Gecer, Stylianos Ploumpis, Irene Kotsia, andStefanos Zafeiriou。Ganfit:用于高保真度3D人脸重建的生成对抗网络拟合。在计算机视觉与模式识别（CVPR）会议上，2019年6月。0[19] Jiahao Geng, Tianjia Shao, Youyi Zheng, Yanlin Weng,and KunZhou。基于变形引导的生成对抗网络用于单张照片面部动画。ACM图形学交易（TOG），37(6):1-12，2018年。0[20] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, BingXu, David Warde-Farley, Sherjil Ozair, Aaron Courville, andYoshua Bengio。生成对抗网络。在NIPS，2014年。0[21] Jiatao Gu, Lingjie Liu, Peng Wang, and ChristianTheobalt。Stylenerf:基于风格的3D感知生成器用于高分辨率图像合成。arXiv预印本arXiv:2110.08985，2021年。0[22] 郭宇东，陈科宇，梁森，刘永进，包虎军，张菊勇。Ad-nerf:基于音频驱动的神经辐射场用于说话头部合成。在计算机视觉国际会议论文集中，页码5784-5794，2021年。0[23] Sungjoo Ha, Martin Kersner, Beomsu Kim, S

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

动态神经肖像的生成方法及其速度优于基于NeRF的复制方法

文物重建Paddle Paddle框架实现基于NeRF(神经辐射场)的文物重建系统源码(2d到3D重建).zip

三维生成-基于NeRF+Diffusion实现的Text-to-3D和Image-to-3D生成-附项目源码+流程教程-优质项目

blog_nerf:NeRF复制实施公共资源库

三维重建-基于NeRF实现的稳定+实时3D说话人脸生成-附项目源码-优质项目实战.zip

基于NeRF方法实现校园内真实拍摄场景的三维重建和web端实时渲染源码.zip

基于NeRF的物体重建和新视图合成项目python源码.zip

基于NeRF进行手机拍摄照片的三维重建python源码.zip

python实现基于NeRF进行手机拍摄照片的三维重建源码.zip

nerf

基于NERF算法实现3D重建python源码（已实现渲染、反渲染功能）.zip

基于NERF算法实现视频3D重建python源码(含渲染和反渲染功能）.zip

基于NeRF实现手机拍摄照片的三维重建python源码(高分毕业设计).zip

基于nerf的三维重建方法

基于nerf的三维重建

基于nerf的三维重建国内外研究状况

隐式神经网络NeRF

生成Instruct-NeRF2NeRF的具体解释，以及技术路径、技术架构

nerf神经辐射场讲解

基于Java语言的店小二服务平台数字玛丽设计源码

最新资源