通过语义神经渲染的PIRenderer实现可控肖像图像生成

5 浏览量更新于2023-10-16 收藏 16.59MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

137590PIRenderer：通过语义神经渲染实现可控肖像图像生成0任宇瑞1 葛戈1 陈远琦1 李天翔2 刘珊301 北京大学电子与计算机工程学院 2 北京大学信息技术高等研究院 3 腾讯美国0{ yrren,geli,cyq373 } @pku.edu.cn tli@aiit.org.cn shanl@tencent.com0摘要0通过控制现有面部的动作生成肖像图像是社交媒体行业中一项重要的任务。为了方便使用和直观控制，应使用具有语义意义和完全解耦的参数进行修改。然而，许多现有技术不提供这种精细的控制，或者使用间接的编辑方法，例如模仿其他个体的动作。本文提出了一种肖像图像神经渲染器（PIRenderer），用于通过三维可变形面部模型（3DMM）的参数来控制面部动作。根据直观的修改，该模型可以生成具有准确动作的逼真肖像图像。直接和间接编辑任务的实验证明了该模型的优越性。同时，我们进一步扩展了该模型，以处理由音频输入提取的连续动作的面部复现任务。我们展示了我们的模型可以从仅有的单个参考图像和驱动音频流生成连贯的视频，具有令人信服的动作。我们的源代码可在https://github.com/RenYurui/PIRender找到。01. 引言0肖像图像是最重要的照片描绘之一，在日常生活中被广泛使用。能够通过直观地控制给定面部的姿势和表情来编辑肖像图像（见图1）是一项重要的任务，在虚拟现实、电影制作和下一代通信等领域具有广泛的应用。然而，实现这样的编辑非常具有挑战性，因为它要求算法能够可靠地感知给定面部的3D几何形状。同时，人类视觉系统对肖像图像的敏锐度要求算法能够生成逼真的面部和背景，这使得任务变得更加困难。0源0图像0目标0音频0源0图像0目标0图像0源0图像0目标0动作0图1.我们的PIRenderer生成的示例结果。该模型可以根据用户指定的动作生成逼真的肖像图像（顶部），另一个个体的动作（中间），以及从音频生成的动作（底部）。0最近，生成对抗网络（GANs）[14]的进展在合成逼真的面部方面取得了巨大的进步[5, 22,9]。一些从GANs发展而来的方法[3,42]通过图像翻译技术来解决这个任务，其中目标是训练一个模型，使得给定输入指令（例如边缘）生成的图像的条件分布类似于真实图像的分布。一些后续算法通过提出高效的变形模块[45, 49, 30, 8, 28,31]或将源神经纹理注入到目标中[41,6]来实现更好的泛化能力。然而，绝大多数现有方法使用间接和特定于主体的运动描述符，例如边缘[42, 41,28]、语义分割[8]或关键点137600使用点[30, 31,28]来描述目标动作。尽管这些带有2D空间信息的描述符可以有助于生成目标图像，但它们阻碍了模型以直观的方式编辑肖像的能力。为了实现直观的控制，运动描述符应具有语义意义，这要求面部表情、头部旋转和平移被表达为完全解耦的变量。参数化面部建模方法[4,26]提供了用语义参数描述3D面部的强大工具。这些方法允许通过形状、表情等参数来控制3D网格。结合这些技术的先验知识，可以期望控制生成类似于图形渲染处理的逼真肖像图像。本文提出了一种神经渲染模型PIRenderer。给定源肖像图像和目标3DMM参数，我们的模型可以生成具有准确动作的逼真结果。如图2所示，所提出的模型分为三个部分：映射网络、变形网络和编辑网络。映射网络从运动描述符生成潜在向量。在向量的指导下，变形网络估计源图像和目标图像之间的变形，并通过将源图像与估计的变形进行配准生成粗略结果。编辑网络从粗略图像生成最终图像。我们的模型的优越性和通用性在实验中得到了证明。我们展示了我们的模型不仅可以通过编辑目标图像来实现直观的图像控制，还可以在间接肖像编辑任务中生成逼真的结果，其中目标是模仿另一个个体的动作。此外，我们展示了我们的模型作为高效神经渲染器的潜力，通过进一步将其扩展到处理音频驱动的面部复现任务。由于高级完全解耦的参数化，我们可以从“弱”控制音频中提取令人信服的动作。实验表明，我们的模型可以从音频流中生成各种生动的动作，并将这些动作转化为任意目标人物的逼真视频。主要贡献总结如下：0•我们提出了一种肖像图像生成模型PIRenderer，它可以实现直观的面部表情、头部旋转和平移的照片编辑。0•所提出的模型可以用于处理间接图像编辑任务，该任务需要模仿其他个体。由于我们的分解修改和高效的神经渲染器，我们可以提取与主题无关的动作并生成逼真的视频。0•在音频驱动的面部再现的附加扩展中，展示了所提出模型作为高效面部渲染器的潜力。我们的模型仅通过单个肖像图像和驱动音频流生成各种生动的视频。02. 相关工作0我们将肖像编辑定义为修改给定图像或视频的面部表情、头部旋转和平移的处理。根据控制信号，现有的方法分为以下三部分。0通过语义参数化进行肖像编辑。使用类似计算机动画控制的语义控制空间来编辑肖像图像可以为用户提供直观的控制。一些基于模型的方法通过修改表情[38,39]或姿势[23]参数来合并3DMM的渲染图像并编辑肖像图像。这些方法取得了令人印象深刻的结果，但它们是特定于主题的方法，这意味着它们不能应用于任意人物。X2Face[45]通过使用变形操作对源纹理进行空间变换来实现更好的泛化。然而，它只能编辑源肖像的姿势。最近，生成对抗网络如StyleGAN[22]被训练用于合成逼真的人脸图像。利用这些技术的优势，StyleRig[36]描述了一种通过3DMM控制StyleGAN的方法。然而，因为它被训练用于映射StyleGAN的潜在变量，它不支持真实世界的图像编辑。PIE[35]通过提出一种优化方法来计算真实图像的相应嵌入来解决这个缺点。然而，每个输入图像都需要迭代优化操作，这降低了算法的效率。0通过模仿运动进行肖像编辑。许多模型[45, 3, 42, 30, 41,28, 31, 27,48]不是用语义参数描述目标运动，而是被训练成模仿另一个个体的运动。一些从生成对抗网络[14]派生的方法[3, 46,42]已经被提出来解决这个任务，将其建模为图像到图像转换的视频对应物[19,52]。这些方法需要对单个人的标记视频进行数小时的训练才能进行再现，因此必须为每个个体重新训练。一些后续方法通过提出高效的空间变换模块[30, 31, 28,43]或将源神经纹理注入目标[49, 6,48]来实现更好的泛化。这些方法可以为任意人生成逼真的图像。然而，它们依赖于特定于主题（例如地标、边缘、解析图）或与运动纠缠在一起（例如稀疏关键点）的描述符，这使它们缺乏直观编辑源肖像的能力。0通过音频进行肖像编辑。使用音频编辑肖像图像需要从音频流和源图像生成具有令人信服的运动的连贯视频。一些方法[10, 40, 32,51]通过直接建模音频信号和图像之间的关系来完成这个任务。然而，由于音频输入不能完全确定Source Image 𝐈𝐬Source Image 𝐈𝐬Warped Image "𝐈𝒘Warped Image "𝐈𝒘ℒ𝒘ℒ𝒄ℒ𝒔137610表情0旋转0平移0身份0目标运动0描述符0映射网络0变形网络0编辑网络0变形0生成的图像 " �0流场 �0图2. PIRenderer的概述。我们的模型首先将输入的运动描述符p映射到潜在向量z。然后通过变形网络生成粗糙图像。最后，编辑网络负责通过编辑粗糙结果生成最终图像。0针对目标的头部姿势，这些方法被训练用于生成具有固定头部姿势的视频，因此不支持完全的头部编辑。为了避免来自真实图像中无关因素的干扰，一些模型首先将音频输入映射到中间结果（例如，地标[33, 7]，3DMMs[37, 47,44]），然后生成最终图像。通过结合3DMMs的先验知识，论文[33, 37, 44,47]通过合成渲染图像的逼真纹理并将结果与源图像混合来生成目标图像。然而，这些方法需要视频输入，无法处理单个图像。同时，它们要么是特定于特定主体的模型[33]，要么需要在应用于任意个体之前进行进一步的微调[37,47]。论文[45]通过将音频信号映射到潜在变量来支持从单个图像进行完全头部编辑。然而，它没有对可能的运动变化进行建模。我们的模型可以为音频流生成各种运动，并将这些运动转化为任意目标人物的逼真视频。03. 我们的方法0我们提出了一种语义神经渲染模型PIRenderer，用于可控的肖像图像生成。在目标运动描述符p的指导下，我们的模型可以通过修改给定图像Is的面部表情、头部姿势和平移来生成逼真的肖像图像ˆI，同时保持其他源属性（如身份、光照和背景）。接下来，我们首先介绍运动描述符的详细信息（第3.1节）。然后，我们介绍我们的PIRenderer用于肖像图像语义控制（第3.2节）。最后，我们将我们的模型扩展到更复杂的顺序生成任务——音频驱动的面部再现（第3.3节）。03.1. 目标运动描述符0为了实现直观和细粒度的编辑，应提供语义上有意义的控制。在本文中，我们使用3DMM参数的子集作为运动描述符。通过3DMM，面部的3D形状S被参数化为0S = ¯S + αB id + βB exp (1)0其中¯S是平均面部形状，Bid和Bexp是基于200个人脸扫描的主成分分析（PCA）计算得到的身份和表情基础。系数α∈R80和β∈R64分别描述面部形状和表情。头部旋转和平移表示为R∈SO(3)和t∈R3。通过参数集pi≡{βi, Ri,ti}，可以清楚地表达面部i的期望运动。我们使用现成的3D人脸重建模型[12]从真实肖像图像It中提取相应的3DMM系数进行训练和评估。然而，系数提取会产生估计误差的问题。尽管3D人脸重建方法产生相对准确的结果，但误差和噪声是不可避免的。提取的运动p与目标真实运动It之间的不匹配导致性能下降和不连贯的结果（请参见补充材料）。为了缓解这个问题，连续帧窗口的系数被用作中心帧的运动描述符。因此，可以期望网络通过提取相邻帧之间的关系来避免错误。因此，运动描述符被定义为p≡pi-k:i+k≡{βi, Ri, ti, ...,βi±k, Ri±k, ti±k}，其中k是窗口的半径。1376203.2.用于语义控制的PIRenderer0给定源肖像图像Is和目标运动描述符p，PIRenderer生成具有准确目标运动的肖像图像ˆI，同时保持其他源信息，如身份、照明和背景。图2显示了所提出架构的概述。网络结合了几个完成特定任务的组件。0映射网络。我们使用映射网络fm：P→Z来从运动描述符p生成潜在向量z∈Z。0z = fm(p) (2)0学习到的潜在向量z通过仿射变换进一步转换为控制自适应实例归一化（AdaIN）[18]操作的y = (ys,yb)。AdaIN操作负责将z描述的运动注入到变形和编辑网络中。它的定义如下0AdaIN(xi, y) = ysi xi - 0σ(xi) + yb,i (3)0其中µ(∙)和σ(∙)分别表示平均值和方差操作。每个特征图xi首先进行归一化，然后使用y的相应标量分量进行缩放和偏置。0变形网络。卷积神经网络缺乏以高效的方式对输入进行空间变换的能力。为了更好地保留生动的源纹理并实现更好的泛化性能，我们使用变形网络gw来空间变换源图像Is的重要信息。变形网络预期能够感知源人脸的准确3D几何形状，并估计输入源和目标之间的变形。它以源图像Is和潜在向量z作为输入，并生成包含坐标偏移的流场w，指定源图像中可以采样生成目标的位置。0w = gw(Is, z) (4)0该网络采用自动编码器架构设计。在每个卷积层之后使用AdaIN操作来注入由z描述的运动。根据论文[34, 31, 28,21]，我们不估计全分辨率的光流场。输出的光流是输入图像的1/4分辨率。在训练和评估过程中，我们将预测的光流场上采样以匹配分辨率。在获取光流场w之后，可以通过方程ˆIw =w(Is)计算出粗略结果ˆIw，其中我们使用w将源图像Is进行变形。我们通过变形损失Lw约束变形网络生成准确的光流场。作为真实值0在这个任务中，由于没有光流场可用，我们计算变形图像ˆIw和目标图像It之间的重构误差。变形损失基于Johnson等人的感知损失[20]，计算预训练VGG-19网络的激活图之间的ℓ1距离。0Lw = ∑0i0||ϕi(It) - ϕi(ˆIw)||1 (5)0其中ϕi是VGG-19网络的第i层的激活图。与[31]类似，我们通过对It和ˆIw进行金字塔下采样，在多个分辨率上计算感知损失。0编辑网络。虽然变形网络在空间上转换源图像方面效率很高，但它受限于无法生成源图像中不存在的内容。同时，变形操作引入的伪影会导致性能下降。因此，设计了一个编辑网络来修改变形的粗略结果ˆ I w。编辑网络以ˆ I w，Is和z作为输入，并生成最终的预测ˆ I。0ˆI = ge(ˆIw, Is, z) (6)0编辑网络的设计与变形网络类似。AdaIN操作也用于注入潜变量z。我们在编辑网络中使用跳跃连接层来保留源纹理。有关我们网络架构的更多细节，请参阅补充材料。我们的编辑网络使用重构损失 L c 和风格损失 L s进行训练。重构损失用于减少最终预测值 ˆ I 与真实目标 I t之间的误差。它的设计与变形损失 L w 类似。0L c =0i0|| ϕ i ( I t ) - ϕ i (ˆ I ) ||_1 (7)0类似地，对 I t 和 ˆ I进行金字塔下采样以计算多尺度图像上的损失。风格损失 Ls 计算 VGG-19激活图之间的统计误差，如下所示：0L s =0j0|| G ϕ j ( I t ) - G ϕ j (ˆ I ) ||_1 (8)0其中 G ϕ j 是从激活图 ϕ j构建的格拉姆矩阵。所提出模型的最终损失是上述损失的总和。0L = λ w L w + λ c L c + λ s L s (9)0在实验中，我们设置 λ w = 2.5，λ c = 4，λ s = 1000。𝐩!"#𝐩!"$𝐚!"$𝐚!𝐩!%$𝐩!%#𝐩!%&𝐚!"#𝐚!%$𝐚!%#𝐚!%&…………𝐩!𝒇𝜽𝐡!"$𝐡!137630条件 � ! 潜变量0音频输入0运动描述符输出0连续音频0先前的运动0高斯 � � 归一化流0LSTM隐藏层0LSTM隐藏层0图3. 音频驱动再现模型的概述。先前生成的运动 p i-k:i-1 和音频 ai-k:i+τ 被用作生成当前运动 p i 的条件信息。我们使用归一化流 fθ 将潜变量 n i ∈ N 映射到运动描述符 p i ∈ P。03.3. 音频驱动再现的扩展0在本小节中，我们进一步扩展了PIRenderer以应对音频驱动的面部再现任务，该任务可以从驾驶音频和源图像生成具有令人信服的表情和姿势的视频。这个任务要求我们对音频和面部动作之间的关系进行建模。然而，直接将音频信号映射到照片般逼真的图像或其他低级运动描述符（例如边缘、标记点）是具有挑战性的。身份和光照等与运动无关的因素会干扰模型。因此，采用语义有意义的参数化（如3DMM）作为中间结果可以显著地简化任务。因此，我们通过包括额外的映射函数 f θ来进一步改进我们的模型，该函数可以从音频中生成连续的3DMM系数。设计 f θ的一个基本挑战是处理可能输出的大量变化。将其训练为生成确定性运动将限制网络生成伪影，因为它被约束为预测所有可能结果的平均运动。因此，将 f θ描述为一个可以从单个音频流生成各种运动的随机模型有助于减少这个问题。我们采用归一化流[13, 29,24]来设计这个模型。归一化流的核心思想是训练一个可逆且可微的非线性映射函数，将来自简单分布的样本映射到更复杂的分布。在条件设置下，可以训练模型将连续的运动条件对（p, c）≡（p1:t, c1:t）映射到潜变量 n 中。0n = f^-1 θ (p, c) (10)0通过假设一个简单的分布 p n ( n ) （例如高斯分布 N），通过映射 p = f θ ( n , c ) ，可以得到条件分布 p p | c (p | c , θ ) ，其中 n � p ( n ) 。0具体来说，我们以递归方式生成顺序运动。图3显示了在时间i生成运动pi的详细过程。之前生成的k个运动pi-k:i-1以及音频ai-k:i+τ被用作条件信息ci。同时，为了提取时间相关性，类似于[15,2]，我们将正则化流层中的神经网络设计为LSTM[17]模块。隐藏状态在每次迭代中更新以生成当前运动。我们使用单一负对数似然损失训练该网络。关于体系结构和训练方法的更多细节可以在我们的补充材料中找到。在推理阶段，可以使用p = fθ(n,c)生成各种顺序运动。然后可以使用提出的PIRenderer将这些运动转换为逼真的视频。04. 实验04.1. 实现细节0数据集。我们使用VoxCeleb数据集[25]训练我们的模型，该数据集包含从YouTube视频中提取的22496个说话头像视频。我们按照论文[31]中描述的预处理方法从原始视频中裁剪出人脸。裁剪后的视频包含自由移动在固定边界框内的人脸。然后将视频调整大小为256×256进行训练和测试。相应的音频从视频中提取用于音频驱动的再现任务。共获得17913个训练视频和514个测试视频，长度从64到1024帧不等。评估指标。使用学习的感知图像块相似度[50]（LPIPS）来估计重构误差。它计算生成图像与参考图像之间的感知距离。同时，合成结果的真实性由Fr´echet Inception Distance[16]（FID）来衡量，它计算假图像和真实图像之间的Wasserstein-2距离。运动准确性由平均表情距离（AED）和平均姿势距离（APD）来估计，它们分别计算生成图像和目标之间的平均3DMM表情和姿势距离。使用Yu等人的训练模型[12]来提取3D面部系数。此外，进行了“刚刚能够察觉到的差异”（JND）测试以评估主观质量。志愿者被要求从真实样本和伪造样本的数据对中选择更真实的一个。训练细节。我们分阶段训练我们的模型。首先预训练映射网络和变形网络进行200k次迭代。然后我们以端到端的方式训练整个模型另外200k次迭代。我们采用ADAM优化器，初始学习率为10-4。学习率在300k次迭代后降低为2×10-5。所有实验的批量大小设置为20。FIDAEDAPDStyleRig [36]47.370.3160.0919ask.137640StyleRig 我们0源0目标0图4. 直观肖像图像编辑任务的定性比较结果。使用StyleGAN生成的图像作为源图像。左侧显示了StyleRig[36]的结果。右侧显示了我们模型的结果。我们用红色箭头标记了StyleRig的不良修改和我们的正确结果。0我们的模型 65.97 0.257 0.02520表1. 直观肖像编辑任务的评估结果。04.2. 直观肖像图像编辑0在这个子部分中，我们评估了我们的模型在直观图像编辑任务中的性能。虽然已经提出了许多用于肖像图像语义编辑的方法，但很少有方法能够实现完全解耦的直观运动修改。在这个实验中，我们将所提出的模型与最先进的方法StyleRig[36]进行了比较。StyleRig通过控制StyleGAN[22]通过3DMM实现语义编辑。训练映射函数将StyleGAN的潜在变量根据3DMM系数提供的目标运动进行转换。StyleGAN生成图像的编辑。由于StyleRig需要StyleGAN的潜在变量来执行修改，我们首先与从StyleGAN生成的图像进行比较。我们随机采样了500个潜在变量，用StyleGAN生成测试图像。目标运动是通过对FFHQ数据集[22]的运动分布进行采样获得的。与[11]类似，我们在从FFHQ的真实图像中提取的运动上训练了几个VAE。我们训练这些网络将3DMM系数映射到高斯分布，然后重构输入。训练后，VAE编码器被丢弃，解码器用于通过高斯样本描述运动分布。我们随机采样了100个目标。0获得具有各种表情和旋转的动作1，这导致每个模型的50k编辑图像。评估结果如表1所示。可以看出，通过使用StyleGAN作为最终生成器，StyleRig能够产生更逼真的图像，从而得到更低的FID分数。然而，较高的AED和APD分数表明它可能无法忠实地重建目标动作。与StyleRig不同，我们的模型可以生成具有更准确动作的图像。图4提供了定量比较。可以看出，StyleRig生成了具有逼真细节的令人印象深刻的结果。然而，它倾向于采用保守策略生成图像：远离分布中心的动作被削弱或忽略以获得更好的图像质量。同时，在修改过程中，一些与动作无关的因素（如眼镜、衣服）发生了变化。尽管我们的模型没有使用FFHQ进行训练，但在使用该数据集进行测试时仍然可以取得令人印象深刻的结果。我们可以生成具有正确全局姿势和生动微表情（如噘嘴和抬眉）的逼真图像。此外，无关的源信息得到了很好的保留。真实世界图像的编辑。编辑真实世界图像是一个更有意义的任务。然而，StyleRig不能直接应用于这个任务，因为它在StyleGAN特征层面上转换肖像图像。幸运的是，诸如Image2StyleGAN[1]之类的技术可以将真实世界图像嵌入到StyleGAN潜在空间中，这可以用于帮助进行此类编辑。编辑结果01我们不在这里编辑翻译，因为StyleRig不支持这种编辑。Two tasks are performed in this experiment: (1) theSame-identity Reconstruction task where the source anddriving images are of the same person, and (2) the Cross-identity Motion Imitation task where non-existing videosare generated by mimicking the motions of another indi-vidual. The evaluation results are summarized in Tab. 2.It can be seen that FOMM and GFLA achieve impressiveresults in the same-identity reconstruction task. However,the performance is reduced when driven by cross-identityvideos. One possible explanation is that these methods em-ploy motion descriptors with spatial information (such assparse keypoints [31] and facial landmarks [27]), whichcan benefit the reconstruction task. However, the subject-specific motion descriptors may reduce the performance ofthe cross-identity reenactment task. Our model uses a fullydisentangled motion descriptor, which helps with achievingbetter results in the cross-identity reenactment task. In addi-137650源 Bi-layer GFLA FOM目标0X2Face0图5. 与最先进方法的定性比较。前两行是相同身份重建任务的结果，而后两行是跨身份动作模仿任务的结果。0真实世界图像目标动作 Image2StyleGAN0+StyleRig0图6. 对真实世界肖像图像的直观编辑。一些伪影用红色箭头标记。0如图6所示。由于Image2StyleGAN产生的优化嵌入可能不符合原始潜在分布，因此StyleRig的结果通常是不合理的，尤其是在源图像中显示复杂细节时更为明显。我们的模型可以直接应用于编辑真实世界的图像。同时，我们可以获得具有更少伪影和逼真源纹理的图像。04.3. 说话头部动作模仿0在这个子节中，我们评估了我们的模型在动作模仿任务中的性能。我们将我们的模型与包括：X2Face [45]、Bi-layer[48]、GFLA [27]和FOMM[31]在内的最先进方法进行了比较。如果可用，我们使用这些方法的发布权重进行评估。对于所有方法，都使用绝对运动。由于Bi-layer不预测背景，我们在进行定量分析时减去了背景。137660相同身份重建跨身份动作模仿0FID AED APD LPIPS JND FID AED APD JND0X2Face [45] 31.75 0.2244 0.1017 0.2400 19.0% 57.74 0.3316 0.1319 5.4% Bi-layer [48] 71.96 0.2237 0.0449 0.2527 -83.59 0.2861 0.0494 - GFLA [27] 12.38 0.1555 0.0268 0.1754 20.3% 32.17 0.2599 0.0363 12.3% FOMM [31] 9.114 0.11300.0161 0.1220 34.4% 38.92 0.2635 0.0336 19.4% 我们的模型 8.260 0.1106 0.0164 0.1285 36.1% 28.18 0.2304 0.027925.5%0表2.与最先进方法在说话头部动作模仿上的比较。进行了相同身份重建和跨身份动作模仿来评估性能。由于Bi-layer的图像背景缺失将为志愿者提供线索并导致无意义的评估结果，因此没有提供Bi-layer的JND分数。0除了客观指标外，我们还在亚马逊的 MechanicalTurk（MTurk）上进行了可察觉差异测试。志愿者被要求从真实图像和生成图像的图像对中选择一个更逼真的图像。我们随机选择了每个任务的200个图像作为测试集。每个图像对由不同的志愿者进行了5次比较。愚弄率如表2所示。可以看到，我们的模型在两个任务中都取得了最好的分数，这意味着我们的模型可以生成更逼真的结果。定性比较结果如图5所示。可以看到，X2Face的结果受到了变形伪影的影响，因为它直接输出了变形的图像。Bi-layer生成的图像细节过于平滑，降低了图像的真实性。GFLA和FOMM可以生成照片般逼真的结果。然而，这些方法对于驱动视频中的遮挡非常敏感。同时，当源脸形与目标脸形非常不同时，源身份无法得到很好的保留。我们提出的模型在保持源身份的同时生成了更逼真的结果和准确的动作。04.4. 音频驱动的面部再现0在本小节中，我们展示了我们的模型可以通过从音频中提取令人信服的动作来生成连贯的视频。首先，通过 f θ生成具有各种姿势和表情的连续动作。然后，我们使用我们的PIRenderer将这些动作转换为任意个体。在图7中可以找到定性结果。我们提供了一个最先进的方法 DAVS [51]的结果作为与我们模型的比较。显然，DAVS可以从音频中提取有意义的唇部动作。然而，它无法生成与音频弱相关的动作，如头部姿势和眼睛运动。这种无能力导致了生成的视频的真实性降低。同时，DAVS使用的是一个无法模拟可能动作的大量变化的确定性网络。通过使用语义系数作为中间结果，我们可以从单个音频流中生成各种动作，并将其转换为逼真的视频。可以看到，我们的模型不仅提取准确的唇部动作，还生成逼真的微表情，如噘嘴和眨眼。0DAVS我们0序列20真实图像0音频帧0我们0序列10图7. 音频驱动的面部再现任务的定性结果。我们提供了DAVS [51]的结果作为比较。我们的模型能够为音频流生成各种生动的动作，并将这些动作转化为逼真的视频。05. 结论0我们提出了PIRenderer，一种高效的肖像图像神经渲染器，可以通过修改面部表情、头部姿势和平移来进行直观的真实世界肖像图像编辑。我们的模型结合了3DMM的先验知识，可以根据用户指定的系数进行编辑。同时，它还可以执行动作模仿任务。在受到无关主体动作描述符的指导下，模型可以生成具有良好源身份的连贯视频。我们相信，使用灵活的图形控制生成性神经网络可以实现许多令人兴奋的应用。音频驱动的面部再现任务的扩展提供了一个例子，并展示了这种组合的潜力。0致谢。本工作得到了中国国家重点研发计划的支持（编号：2020AAA0103501）。我们感谢所有审稿人的有益评论。[3] Aayush Bansal, Shugao Ma, Deva Ramanan, and YaserSheikh. Recycle-gan: Unsupervised video retargeting. InProceedings of the European conference on computer vision(ECCV), pages 119–135, 2018.[5] Andrew Brock, Jeff Donahue, and Karen Simonyan. Largescale gan training for high fidelity natural image synthesis.arXiv preprint arXiv:1809.11096, 2018.[10] Joon Son Chung, Amir Jamaludin, and Andrew Zisserman.You said that? arXiv preprint arXiv:1705.02966, 2017.[12] Yu Deng, Jiaolong Yang, Sicheng Xu, Dong Chen, YundeJia, and Xin Tong.Accurate 3d face reconstruction withweakly-supervised learning: From single image to image set.In Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition Workshops, pages 0–0, 2019.[13] Laurent Dinh, David Krueger, and Yoshua Bengio. Nice:Non-linear independent components estimation.arXivpreprint arXiv:1410.8516, 2014.[14] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, BingXu, David Warde-Farley, Sherjil Ozair, Aaron Courville, andYoshua Bengio. Generative adversarial nets. In Advancesin neural information processing systems, pages 2672–2680,2014.[15] Gustav Eje Henter, Simon Alexanderson, and Jonas Beskow.Moglow: Probabilistic and controllable motion synthesisusing normalising flows.ACM Transactions on Graphics(TOG), 39(6):1–14, 2020.137670参考文献0[1] Rameen Abdal, Yipeng Qin, and Peter Wonka.Image2stylegan: How to embed images into the styleganlatent space? In Proceedings of the IEEE internationalconference on computer vision , pages 4432–4441, 2019.0[2] Simon Alexanderson, Gustav Eje Henter, TarasKucherenko, and Jonas Beskow. Style-controllablespeech-driven gesture synthesis using normalising flows.Computer Graphics Forum , 39(2):487–496, 2020.0[4] Volker Blanz and Thomas Vetter. A morphable model forthe synthesis of 3d faces. In Proceedings of the 26th annualconference on Computer graphics and interactivetechniques , pages 187–194, 1999.0[6] Egor Burkov, Igor Pasechnik, Artur Grigorev, and VictorLempitsky. Neural head reenactment with latent posedescriptors. In Proceedings of the IEEE/CVF Conference onComputer Vision and Pattern Recognition , pages 13786–13795, 2020.0[7] Lele Chen, Ross K Maddox, Zhiyao Duan, and ChenliangXu. Hierarchical cross-modal talking face generation withdynamic pixel-wise loss. In Proceedings of the IEEEConference on Computer Vision and Pattern Recognition ,pages 7832–7841, 2019.0[8] Zhuo Chen, Chaoyue Wang, Bo Yuan, and Dacheng Tao.Puppeteergan: Arbitrary portrait animation withsemantic-aware appearance transformation. In Proceedingsof the IEEE/CVF Conference on Computer Vision and PatternRecognition , pages 13518–13527, 2020.0[9] Yunjey Choi, Minje Choi, Munyoung Kim, Jung-Woo Ha,Sunghun Kim, and Jaegul Choo. Stargan: Unified generativeadversarial networks for multi-domain image-to-imagetranslation. In Proceedings of the IEEE conference oncomputer vision and pattern recognition , pages 8789–8797,2018.0[11] Yu Deng, Jiaolong Yang, Dong Chen, Fang Wen, and XinTong. Disentangled and controllable face image generationvia 3d imitative-contrastive learning. In Proceedings of theIEEE/CVF Conference on Computer Vision and PatternRecognition , pages 5154–5163, 2020.0[16] Martin

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

通过语义神经渲染的PIRenderer实现可控肖像图像生成

一种剪纸风格人脸肖像生成算法

matlab实现图像语义分割

设计一个语义分割卷积神经网络，输入为图像与图像中的关键点坐标，输出为需要分割的目标

文本生成图像的改进方法

语义分割提取图像掩膜

遥感图像语义分割pytorch实现教程

什么是遥感图像的语义分割？

matlab 卷积神经网络 语义分割

语义分割 图像分割

基于深度学习的图像语义特征提取

基于神经网络的语义分割

图像语义分割图像预处理

语义分割医学图像应用

语义分割跨级门控模块

语法语义分析中间代码生成c++实现

图像实例分割和图像语义分割有什么区别

matlab 图像语义分割

RGBD图像语义分割算法研究现状

最新资源

matlab 卷积神经网络语义分割

语义分割图像分割