个性化的说话头模型的生成

194 浏览量更新于2023-10-12 收藏 996KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9459真实感神经头模型Egor Zakharov1，2Aliaksandra Shysheya1，2Egor Burkov1，2VictorLempitsky1，21莫斯科三星人工智能中心2斯科尔科沃科技学院源目标→标志→结果源目标→标志→结果图1：使用从同一人的不同视频序列中提取的面部标志轨迹（左侧）和使用不同人的面部标志（右侧）合成说话头部图像的结果。结果取决于从目标帧获取的地标，而源帧是来自训练集的示例。左侧的说话头部模型使用八帧进行训练，而右侧的模型则以一次性方式进行训练摘要最近的几项工作表明，如何高度逼真的人的头部图像可以通过训练卷积神经网络生成它们。为了创建个性化的说话头部模型，这些工作需要在单个人的图像的大数据集上进行训练。然而，在许多实际场景中，需要从人的几个图像视图（可能甚至是单个图像）学习这种个性化的讲话头部模型。在这里，我们提出了一个系统，这种少数拍摄能力。它在大型视频数据集上执行冗长的元学习，并且之后能够将以前看不见的人的神经说话头部模型的少量和一次性学习框架为具有高容量生成器和鉴别器的对抗性训练问题至关重要的是，该系统能够以特定于个人的方式初始化发生器和训练器的参数，因此尽管需要调整数千万个参数，但训练可以基于几张我们表明，这样的方法是能够学习高度逼真和个性化的新的人，甚至肖像画的说话头模型。1. 介绍在这项工作中，我们考虑的任务，创建个性化的逼真的说话的头部模型，即。的系统可以合成特定个体的语音表达和模仿的可信视频序列更具体地说，我们考虑的问题，合成photorealistic个性化的头部图像给定一组面部地标，驱动模型的动画这种能力对于远程呈现具有实际应用，包括视频会议和多玩家游戏，以及特殊的效果工业。合成真实的说话的头部序列是已知的困难的原因有两个。首先，人类头部具有高的光度、几何和运动学复杂性。这种复杂性不仅源于对面部的建模（存在大量建模方法），还源于对口腔、头发和服装的建模。第二个复杂因素是人类视觉系统对人类头部外观建模中即使是微小错误的敏锐性（所谓的恐怖谷效应[24]）。这种对建模失误的低容忍度解释了当前在许多实际部署的远程会议系统中非真实感卡通状化身的流行。为了克服这些挑战，一些工作已经提出通过扭曲单个或多个静态帧来合成铰接头部序列。经典的扭曲算法[4，28]和使用机器学习（包括深度学习）[11，29，40]合成的扭曲场都可以用于此类目的。虽然基于扭曲的系统可以从一张图像中创建说话的头部序列，但运动量、头部旋转和非遮挡9460它们可以处理而没有明显的伪像的能力是有限的。使用逆向训练的深度卷积网络（Con-vNets）直接（无扭曲）合成视频帧，为逼真的说话头带来了新的希望。最近，一些非常现实的结果已经证明了这样的系统[16，20，37]。然而，要想成功，这种方法必须训练大型网络，其中生成器和同步器都为每个说话的头提供数千万个参数。因此，这些系统需要几分钟长的视频[20，37]或大型照片数据集[16]以及数小时的GPU训练，以创建新的个性化说话头部模型。虽然这种努力低于使用复杂的物理和光学建模[1]构建照片级逼真头部模型的系统所需的努力，但对于大多数实际的远程呈现场景来说仍然是过度的，在这些场景中，我们希望使用户能够以尽可能少的努力创建他们的个性化头部模型。在这项工作中，我们提出了一个系统，用于创建说话的头部模型，从少数照片（所谓的几杆学习）和有限的训练时间。事实上，我们的系统可以根据一张照片（一次性学习）生成合理的结果，而添加更多照片可以提高个性化的保真度。类似于[16，20，37]，我们的模型创建的说话头因此，由我们的系统创建的会说话的头可以处理各种各样的姿势，这超出了基于变形的系统的能力。通过对与具有不同外观的不同说话者相对应的说话头部视频的大型语料库进行扩展预训练（元学习在元学习的过程中，我们的系统模拟了几个镜头的学习任务，并学习将地标位置转换为看起来逼真的个性化照片，给出了一个小的训练图像集。在那之后，一个新人的几张照片建立了一个新的对抗性学习问题，这个问题有高容量的生成器和通过元学习预先训练过的训练器。新的对抗性问题在经过几个训练步骤后收敛到生成逼真和个性化图像的状态。在实验中，我们通过定量测量和用户研究提供了由我们的系统创建的说话头与替代神经说话头模型的比较[16，40]，其中我们的方法生成了足够真实和个性化保真度的图像来欺骗研究参与者。我们演示了我们的说话头模型的几种用途，包括使用从同一个人的视频序列中提取的地标轨道的视频合成，以及操纵木偶（基于不同人的面部地标轨道的某个人的视频合成2. 相关工作大量的作品致力于人脸外观的统计建模[5]，经典技术[35]和最近的深度学习[22，25]（仅举几例）都获得了非常好的结果。虽然面部建模是与说话头部建模高度相关的任务，但这两项任务并不相同，因为后者还涉及建模非面部部分，如头发，脖子，口腔和肩膀/上衣。这些非面部部分不能通过面部建模方法的一些微不足道的扩展来处理，因为它们不太适合配准，并且通常具有比面部部分更高的可变性和更高的复杂性。原则上，面部建模[35]或嘴唇建模[31]的结果可以缝合到现有的头部视频中。然而，这样的设计不允许对所得到的视频中的头部旋转进行完全控制，并且因此不导致完全成熟的讲话头部系统。我们的系统的设计借用了很多从生成式建模的图像的最新进展。因此，我们的架构使用对抗训练[12]，更具体地说，是条件判别器[23]背后的想法，包括投影判别器[32]。我们的元学习阶段使用自适应实例规范化机制[14]，这在大规模条件生成任务中很有用[6，34]。模型不可知元学习器（MAML）[10]使用元学习来获得图像分类器的初始状态，在给定少量训练样本的情况下，它可以快速收敛到未见过类的图像分类器。我们的方法也使用了这种高级思想，尽管我们的实现方式非常不同。一些研究进一步提出将对抗训练与元学习相结合。因此，数据增强GAN [2]，Meta [43]，对抗元学习[41]使用对抗训练的网络来生成在元学习阶段看不到的类的额外示例虽然这些方法专注于提高少数镜头分类性能，但我们的方法处理使用类似对抗目标的图像生成模型的训练。总之，我们将对抗性微调引入Meta学习框架。前者是在我们通过元学习阶段获得生成器和神经网络的初始状态后应用的。最后，与我们非常相关的是最近的两项关于文本到语音生成的工作[3，18]。它们的设置（生成模型的少量学习）和一些组件（独立嵌入器网络，发生器微调）也在我们的案例中使用。我们的工作在应用领域、对抗学习的使用、对元学习过程的具体适应以及许多实现细节方面有所不同。9461鉴别器AdaIN参数现实主义评分嵌入器匹配损失Wi地标发生器合成RRGB landmarks地面实况图2：我们的元学习架构涉及嵌入器网络，该网络将头部图像（具有估计的面部标志）映射到嵌入向量，其中包含姿势无关信息。生成器网络通过卷积层集合将输入面部地标映射到输出帧中，卷积层通过自适应实例归一化由嵌入向量调制。在元学习过程中，我们将来自同一视频的帧集传递给嵌入器，对得到的嵌入进行平均，并使用它们来预测生成器的自适应参数然后，我们将不同帧的地标通过生成器，将生成的图像与地面实况进行比较。我们的目标函数包括感知损失和对抗损失，后者通过条件投影来实现3. 方法3.1. 体系结构和符号我们的方法的元学习阶段假设M个视频序列的可用性，其中包含不同人的说话头。我们用xi表示第i个视频序列，用xi（t）表示第t个帧.在学习过程中，以及在测试期间，我们假设所有帧的面部标志位置的可用性使用预定义的一组颜色将地标光栅化为三通道图像，以将某些地标与线段连接起来。我们用yi（t）表示针对xi（t）计算的所得界标图像。在我们方法的元学习阶段，训练了以下三个网络（图2）：• 嵌入器E（ xi（s）， yi（s）;φ）获取视频帧xi（s）、相关联的地标图像yi（s），并将这些输入映射到N维向量ei（s）中。这里，φ表示在网络中学习的网络参数元学习阶段一般来说，在元学习过程中，我们的目标是学习φ，使得矢量e_i（s）包含视频特定的信息（例如人的身份），该信息对姿势不变，并在特定帧s中模仿。我们将嵌入器计算的嵌入向量表示为ei。• 生成器G（yi（t），ei，P）获取嵌入器未看到的视频帧的地标图像yi（t）、预测的视频嵌入ei，并输出合成大小的视频帧xi（t）。该发生器被训练以最大化其输出与地面之间的相似性真相框架发生器的所有参数分为两组：个人通用参数，以及person-specificparameters具体的人。在元学习期间，仅直接训练，而预测使用可训练的投影矩阵P来确定嵌入向量ei：ei=Pei。• 其中θD（xi（t），yi（t），i;θ，W，w0，b）取a视频帧xi（t）、相关联的界标图像yi（t）和训练序列i的索引。这里，θ、W、w0和b表示与以下参数相关联的可学习参数：鉴别器。该图包含 ConvNet 部分 V （ xi （ t ）， yi（t）;θ），其将输入帧和地标图像映射到N维向量中。判别器基于其ConvNet部分的输出和参数W、w0、b来预测单个标量（真实性分数）r，其指示输入帧xi（t）是否是第i个视频序列的真实帧以及其是否匹配输入姿态yi（t）。3.2. Meta学习阶段在我们的方法的元学习阶段，所有三个网络的参数都在对抗训练中进行训练。MLP内容损失9462时尚. 这是通过模拟K-shot学习（在我们的实验中K=8）的片段来完成的在每一集中，我们随机地绘制训练视频序列i和来自该序列的单个帧t 除了t之外，我们还随机地绘制ad-k帧s1，s2，. . . ，s K来自同一序列。然后，我们通过简单地对针对这些附加帧预测的嵌入e_i（s_k）进行平均来计算第i个视频嵌入的估计e_iΣK因此，在我们的系统中有两种视频嵌入：由嵌入器计算的，其对应于判别器中矩阵W的列。（3）中的匹配项LMCH（φ，W）通过惩罚E（xi（s k），yi（s k）;φ）和Wi之间的L1差来促进两种类型嵌入的相似性。当我们更新嵌入器的参数φ同时，我们也对发生器的参数θ，W，w0，b进行了更新驱动e=1Kk=1E（xi（s k），yi（s k）; φ）.（一）通过最小化以下铰链损失，鼓励增加真实图像的真实感得分xi（t）及其在合成图像上的减少xi（t）：然后，基于估计的嵌入e_i ，计算第t帧的重构x_i（t）x∈i（t）=G（yi（t），e∈i;P）.（二）嵌入器和生成器的参数然后被优化以最小化包括内容项、对抗项和嵌入匹配项的以下目标：L（φ，ω，P，θ，W，w0，b）=LCNT（φ，ω，P）+（3）LDSC （ φ ， ω ， P ， θ ， W ， w0 ， b ） =（6）max（0，1+D（x∈i（t），yi（t），i;φ，θ，W，w0，b））+max（0，1 − D（x i（t），y i（t），i; θ，W，w0，b））.因此，目标（6）比较假示例xi（t）和真实示例xi（t）的真实性，然后更新训练参数以将这些分数推到-1+1以上。训练的过程是通过改变-嵌入器和发生器的更新，LADV（φ，φ，P，θ，W，w0，b）+LMCH （φ，W）。用更新的LCNT、LADV和LMCH使损失最小化使损失LDSC最小的补偿器。在（3）中，内容损失项LCNT使用感知相似性度量[19]测量地面实况图像xi（t）和再现xi（t）之间的距离，对应于为ILSVRC训练的VGG 19 [30分类和VGGFace [27]网络训练用于人脸验证。损失被计算为这些网络的特征之间的L1（3）中的对抗项对应于需要最大化的真实度得分，以及特征匹配项[38]，本质上是一个感知相似性度量，使用训练的稳定性来计算（它有助于训练的稳定性）：LADV（φ，ω，P，θ，W，w0，b）=（4）3.3. 通过微调进行少拍学习一旦元学习收敛，我们的系统就可以学习为一个新的人合成说话的头部序列如前所述，该合成以界标图像为条件。该系统是以少量的方式学习的，假设T个训练图像x（1），x（2），. . .，x（T）（例如，相同视频的T个帧），并且y（1），y（2），. . .，y（T）是对应的界标图像。注意，帧的数量T不需要等于在元学习阶段中使用的K自然地，我们可以使用元学习嵌入器来估计新的讲话头部序列的嵌入：1ΣT−D（xi（t），yi（t），i;θ，W，w0，b）+LFM.以下的投影鉴别器想法 [32]第32话eNEW=Tt=1E（x（t），y（t）;φ），（7）矩阵W的列包含对应于各个视频的嵌入首先将其输入映射到N维向量V（xi（t），yi（t）;θ），然后计算现实主义得分为：D（x∈i（t），yi（t），i;θ，W，w0，b）=（5）不V（x∈i（t），yi（t）;θ）（Wi+w0）+b，其中Wi表示矩阵W的第i列。同时，w0和b不依赖于视频索引，因此这些项对应于xi（t）的一般现实性及其与地标图像yi（t）的兼容性。9463重新使用在元学习阶段中估计的参数φ。然后，生成对应于新地标图像的新帧的直接方式是使用估计的嵌入e_NEW和Meta学习参数k_new以及投影矩阵P来应用生成器。通过这样做，我们已经发现，所生成的图像是合理的和现实的，然而，通常存在可考虑的身份差距，这对于大多数旨在高个性化程度的应用是不可接受的这种身份差距往往可以通过微调阶段来弥合。微调过程可以被看作是元学习的简化版本，具有单个视频序列和9464不CNTADVDSC更少的帧。微调过程涉及以下组成部分：• 生成元 G （ y （ t ）， e∈ W;n ， P ）用 G′ （ y（t）;n，p′）代替. 如前所述，它获取界标图像y（t）并输出合成帧x（t）。重要的是，特定于个人的生成器参数，我们现在用“n”表示，现在不直接与个人通用参数“n”一起优化。我们仍然使用在元学习阶段估计的计算的嵌入和投影矩阵P来初始化，即，我们从PeNE W开始。• 如前所述，θD′（x（t），y（t）;θ，w′，b）计算真实感得分。其ConvNet的参数θ部分V（x（t），y（t）;θ）和偏置b被初始化为元学习阶段的结果。下面讨论w′的初始化在微调过程中，以与元学习阶段类似的方式获得真实感评分D′（x∈（t），y（t）;θ，w′，b）=（8）3.4. 实现细节我们基于我们的生成器网络工作G（yi（t），ei，P）上的图像到图像的翻译架构提出的John-son等。al.[19]，但用类似于[6]的残差块替换下采样和上采样层（使用批或非-[15]由实例规范化[36]取代）。特定于个人的参数RP_1用作实例规范化层的精细系数，遵循自适应实例归一化技术在[14]中提出，尽管我们仍然在编码地标图像yi（t）的下采样块中使用常规（非自适应）实例归一化层。对于嵌入器E（xi（s），yi（s）;φ）和卷积部分，我们使用类似的网络，其由残差下采样块（与生成器中使用的块相同，但没有归一化层）。与嵌入器相同的嵌入式网络在末端有一个额外的残差块，它以4×4的空间分辨率工作获得V（x∈（t），y（t）;θ）w′+B.两个网络中的矢量化输出，我们执行全局在空间维度上求和池化，然后是ReLU。从表达式（5）和（8）的比较可以看出，向量w′在微调阶段中的作用与向量Wi+w0在元学习阶段中的作用对于初始化，我们不能访问新人格的W1然而，元学习过程中的匹配项L_MCH确保了视频嵌入和向量嵌入之间的相似性。由嵌入器计算的参数。我们可以初始化w′为w0与e之和，e∈W。一旦新的学习问题成立，损失函数-微调阶段的选择直接遵循Meta学习变量。因此，优化发电机参数θ 1和θ2 ′以最小化简化目标：L′（θ，w′，b）=（9）L′（λ，λ′）+L′ （λ，λ′，θ，w′，b），其中t ∈ {1. . . T}是训练样本的数量。通过最小化与（6）中相同的铰链损失来优化铰链参数θ、w、NEW、bL′（θ，w′，b）=（10）max（0，1+D（x（t），y（t）;θ，w′，b））+max（0，1 − D（x（t），y（t）;θ，w ′，b））.在大多数情况下，微调生成器提供了更好的训练序列拟合。通过元学习阶段初始化所有参数也至关重要。正如我们在实验中所示，这样的初始化注入了一个强大的现实说话的头部之前，这使得我们的模型可以推断和预测具有不同头部姿势和面部表情的姿势的现实图像。我们对所有网络中的所有卷积层和全连接层使用谱归一化[33]我们也使用自我注意力块，遵循[6]和[42]。它们以32×32的空间分辨率插入所有下采样部分在上采样中以64×64分辨率发电机的一部分对于 LCNT的计算，我们评估了真实和假图像的Conv1，6，11，20，29VGG19层和Conv1，6，11，18，25VGGFace层的激活之间的L1 我们把这些损失加起来，权重等于1。V GG 19和2时为5·10−1。VGG F ace项为5 · 10 − 2。我们对这两个网络都使用Caffe [17]训练版本。对于LFM，我们在网络的每个残差块之后使用激活，并且权重等于10。最后，对于LMCH，我们也将权重设置为10。我们在卷积中设置最小通道数将最大通道数以及嵌入向量的大小N设置为512。嵌入器总共有1500万个参数，生成器有3800万个参数。卷积部分有2000万个参数。电视网络都使用Adam优化[21]。我们将嵌入器和生成器网络的学习率设置为5×10−5， 2×10−4对于第一个，对第二个进行两个更新步骤，按照[42]。4. 实验使用两个具有说话头部视频的数据集进行定量和定性评价： VoxCeleb1 [26] （ 256p 视频， 1 fps ）和VoxCeleb2 [8]（224p视频，25 fps），后者的视频数量大约是前者的10倍9465方法（T）FID↓ SSIM↑ CSIM↑ USER↓VoxCeleb1X2Face（1）45.80.680.160.82Pix2pixHD（1） 42.70.560.090.82我们的（1）43.00.670.150.62X2Face（8）51.50.730.170.83（8）35.10.640.120.79我们的（8）38.00.710.170.62中文（简体）56.50.750.180.8518 U.S. 2257备案要求遵守声明24.00.700.160.71我们的（32）29.50.740.190.61VoxCeleb2Ours-FF（1）46.10.610.420.43Ours-FT（1）48.50.640.350.46Ours-FF（8）42.20.640.470.40Ours-FT（8）42.20.680.420.39我们的-FF（32）40.40.650.480.38Ours-FT（32）30.60.720.450.33表1：在具有多个少量学习设置的不同数据集上的方法的定量比较。请参阅文本的更多细节和讨论.而不是前者。VoxCeleb1用于与基线和消融研究进行比较，而通过使用VoxCeleb2，我们展示了我们方法的全部潜力。指标. 为了进行定量比较，我们对大小为T的少量学习集上的所有模型进行微调，以获得在元学习（或预训练）阶段未看到的每个模型。在少数镜头学习之后，对相同序列的保留部分执行评估（所谓的自我重演场景）。为了进行评估，我们从VoxCeleb测试集中统一采样了50个视频，每个视频有32个保持帧（微调和保持部分不重叠）。我们使用多个比较指标来评估生成的图像的照片真实性和身份保留。也就是说，我们使用Frechet初始距离（FID）[13]，主要测量感知真实性，结构相似性（SSIM）[39]，测量与地面真实图像的低级别相似性，以及最先进的人脸识别网络[ 9 ]的嵌入向量之间的余弦相似性（CSIM）用于测量身份失配（注意，该网络具有与在训练期间的内容丢失计算中使用的VGGFace完全不同的体系结构）。我们还进行了一项用户研究，以评估人类受访者所看到的结果的视觉相似性和现实性。我们向人们展示了从三个不同视频序列中拍摄的同一个人其中两个图像是真实的，一个是假的，由其中一种方法产生，正在进行比较。我们要求用户找到假图像，因为所有这些图像都是是同一个人这评估了照片真实性和身份保留，因为用户可以从两个真实图像中推断身份（并且即使生成的图像是完全真实的，也可以发现身份不匹配）。我们使用用户准确率（成功率）作为我们的指标。这里的下限是三分之一的准确度（当用户不能基于非现实主义或身份不匹配而发现假货时，必须随机猜测）。一般来说，我们认为，与FID、SSIM或CSIM相比，这种用户驱动的度量（USER）可以更好地方法. 在VoxCeleb1数据集上，我们将我们的模型与其他两个系统进行了比较：[ 38 ]第40话，我是你的女人对于X2 Face，我们使用了作者提供的模型以及预训练的权重（在原始论文中，它也在Vox-Celeb 1数据集上进行了训练和评估对于Pix2pixHD，我们在整个数据集上从头开始预训练模型，迭代次数与我们的系统相同，而没有对作者提出的训练管道进行任何更改。我们选择X2Face作为基于变形的方法的强大基线，Pix2pixHD用于直接合成方法。在我们的比较中，我们通过改变在少拍学习中使用的帧T的数量来评估几种场景中的模型。X2Face作为一种前馈方法，通过训练帧简单地初始化，而Pix2pixHD和我们的模型在少数镜头集上进行了40个时期的额外微调。值得注意的是，在比较中，X2Face使用在地面实况图像上计算的密集对应字段来合成生成的图像，而我们的方法和Pix2pixHD使用非常稀疏的地标信息，这可以说给了X2Face不公平的优势。比较结果。我们在三种不同的设置中与基线进行比较，微调设置中有1，8和32帧如前所述，测试集由50个测试视频序列中的每一个的32个保持帧组成。此外，对于每个测试帧，我们从具有相同人的其他视频序列中随机采样两个帧这些框架与假框架一起用于用户学习。正如我们在表1-Top中所看到的，基线在我们的两个相似性度量上的表现一直我们认为，这是固有的方法本身：X2Face在优化过程中使用L2损失[40]，这导致了良好的SSIM分数。另一方面，Pix2pixHD仅最大化感知度量，而没有身份保留损失，导致FID的最小化，但具有更大的身份失配，如从CSIM列所见此外，这些度量与人类感知不相关，因为这两种方法都产生了恐怖谷伪影，如从图3和图4的定性比较中可以看出94661832T Source地面实况X2Face Pix2pixHD Ours图3：VoxCeleb1数据集的比较对于每一种比较的方法，我们对元学习或预训练期间未看到的人的视频进行一次和几次我们将训练帧的数量设置为T（最左列）。其中一个训练帧显示在源列中。接下来的列显示了从视频序列的测试部分获取的地面实况图像，以及比较方法的生成结果。用户研究结果。另一方面，余弦相似性与视觉质量的相关性更好，但仍然有利于模糊、不太真实的图像，这也可以通过比较表1-顶部与图3中的结果来看出。虽然在客观指标方面的比较是不确定的，但用户研究（包括4800个三元组，每个三元组显示给5个用户）清楚地揭示了通过我们的方法实现的高得多的真实性和个性化程度。我们还进行了我们的系统的消融研究补充材料中提供了这两项内容。大规模的成果。然后，我们扩大可用的数据，并在更大的VoxCeleb2数据集上训练我们的方法。在这里，我们训练了我们方法的两个变体。FF（前馈）变体在没有嵌入匹配损失LMCH的情况下被训练150个历元，因此，我们仅使用它而没有微调（通过简单地预测自适应参数通过嵌入e的投影（e∈ W）。FT变量被训练一半（75个时期），但使用允许微调的LMCH我们对这两个人进行评估这些模型，因为它们允许权衡几次学习速度与结果质量。两人都达到了一致，与在VoxCeleb1上训练的小规模模型相比，分数要高得多。值得注意的是，FT模型达到0的下限。对于T=32设置中的用户研究准确度，33分，这是一个完美的分数。我们在图4中展示了这两种模型的结果，更多结果（包括结果，其中动画由来自同一个人的不同视频的地标驱动）在文档材料和图1中给出。通常，根据比较结果（表1-底部）和视觉评估判断，FF模型更适合低拍摄学习（例如，one-shot），而FT模型通过逆向微调对于更大的T实现更高的质量木偶表演的结果。最后，我们展示了照片和绘画的木偶表演的结果。为此，我们评估了在一次性设置中训练的模型，这些模型来自VoxCeleb2数据集的测试视频。我们使用CSIM度量对这些视频进行排名，该度量在原始图像和生成的图像之间进行计算。这使我们能够找到具有相似几何形状的地标的人，并将其用于操纵木偶。结果可参见图5和图1。94671832T源微调前的地面实况Ours-FFOurs-FT微调后的Ours-FT图4：我们在VoxCeleb2数据集上的最佳模型的结果训练帧的数量再次等于T（最左边的列），并且示例训练帧在源列中示出接下来的列显示了基础事实图像和Ours-FF前馈模型、Ours-FT模型微调前后的结果。虽然前馈变体允许快速（实时）少量学习新的化身，但微调最终提供了更好的真实感和保真度。源生成的图像5. 结论我们已经提出了一个用于对抗生成模型的元学习的框架至关重要的是，创建一个新模型只需要少数几张照片（少到一张），而在我们的用户研究中（对于224p静态图像），在32张图像上训练的模型达到了完美的现实主义和目前，我们的方法的关键限制是mimics表示（特别是，当前一组地标不以任何方式表示注视）和缺乏地标适应。使用来自不同个体的地标因此，如果想要创建没有这种不匹配的“假”木偶视频，则需要一些里程碑式的适应。我们注意到，图5：让照片栩栩如生。我们在源列中显示了从照片中学习的一次性模型的操纵结果驾驶姿势取自VoxCeleb2数据集。建议使用数码变焦许多应用不需要操纵不同的人，而是只需要驱动自己的说话头的能力。对于这样的场景，我们的方法已经提供了一个高度现实的解决方案。9468引用[1] Oleg Alexander、Mike Rogers、William Lambeth、Jen-Yuan Chiang 、 Wan-Chun Ma 、 Chuan-Chang Wang 和Paul De- bevec。数字艾米丽项目：实现逼真的IEEEComputer Graphics and Applications，30（4）：20-31，2010. 2[2] 作者：Antreas Antoniou，Amos J.斯托奇和哈里森·爱德华兹使用数据增强生成对抗网络增强图像分类器。人工神经网络和机器学习- ICANN，第594-603页，2018年。2[3] Sercan Arik，Jitong Chen，Kainan Peng，Wei Ping，andYanqi Zhou.用几个样本克隆神经语音。在procNIPS，第10040-10050页，2018年。2[4] Hadar Averbuch-Elor ， Daniel Cohen-Or ， JohannesKopf，and Michael F Cohen.将肖像画带入生活。ACMTransactions on Graphics（TOG），36（6）：196，2017。1[5] Volker Blanz，Thomas Vetter，et al.三维人脸合成的可变形模型。在Proc. SIGGRAPH，第99卷，第187-194页，1999中。2[6] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模GAN训练。在学习代表国际会议上，2019年。二、五[7] Adrian Bulat和Georgios Tzimiropoulos我们离解决二维和三维人脸对齐问题还有多远？(and 230，000个3D面部界标的数据集）。在IEEE国际计算机视觉会议，ICCV2017，威尼斯，意大利，2017年10月22日至29日，第1021-1030页，2017年。3[8] Joon Son Chung ， Arsha Nagrani ， Andrew Zisserman.Voxceleb2：深度说话人识别。在INTERSPEECH，2018年。5[9] Jia Guo ， Xue Niannan ， and Stefanos Zafeiriou.Arcface：用于深度人脸识别的附加角度余量损失。在CVPR，2019年。6[10] Chelsea Finn，Pieter Abbeel，Sergey Levine.用于深度网络快速适应的模型不可知元学习。在Proc. ICML，第1126-1135页，2017年。2[11] 雅罗斯拉夫·甘宁，丹尼尔·科诺年科，戴安娜·桑加图利娜，维克多·伦皮茨基。Deepwarp：用于凝视操作的真实感图像重新合成。欧洲计算机视觉会议，第311-326页。施普林格，2016年。1[12] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在神经信息处理系统的进展，第26722[13] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。在重症盖永诉卢克斯堡 S 。 Bengio ， H. 瓦拉赫河 Fergus ， S.Vishwanathan和R. Garnett，编辑，神经信息处理系统进展30，第6626- 6637页。Curran Associates，Inc. 2017. 6[14] Xun Huang和Serge Belongie。任意风格转换以自适应实例规范化实时执行。InProc. ICCV，2017. 二、五9469[15] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。在第32届国际机器学习会议上，第37，ICMLJMLR.org，2015年。5[16] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and AlexeiA.埃夫罗斯使用条件对抗网络的图像到图像翻译。在Proc. CVPR，第5967-5976页，2017年。 2[17] 杨庆贾、埃文·谢尔哈默、杰夫·多纳休、谢尔盖·卡拉耶夫、乔纳森·朗、罗斯·吉希克、塞尔吉奥·瓜达拉马和特雷弗·达雷尔。Caffe：用于快速特征嵌入的卷积架构arXiv预印本arXiv：1408.5093，2014。5[18] Ye Jia，Yu Zhang，Ron Weiss，Quan Wang，JonathanShen ， Fei Ren ， Patrick Nguyen ， Ruoming Pang ，Jiangnacio Lopez Moreno，Yonghui Wu，et al.从说话人确认到多说话人文本到语音合成的迁移学习。在Proc.NIPS，第4485-4495页，2018年。2[19] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失。在Proc. ECCV，第694-711页，2016年。四、五[20] Hyeongwoo Kim ， Pablo Garrido ， Ayush Tewari ，Weipeng Xu，JustusThies，MatthiasNießne r，PatrickPe'rez ， Christian Richardt ， MichaelZoll h ？ fe r ，andChristianTheobalt. 深度视频肖像。 arXiv 预印本arXiv：1805.11714，2018。2[21] Diederik P. Kingma和Jimmy Ba。Adam：随机最佳化的方法。CoRR，abs/1412.6980，2014。5[22] 斯蒂芬·隆巴迪、杰森·萨拉吉、托马斯·西蒙和亚瑟·谢赫。用于面部渲染的深层外观模型。ACM Transactionson Graphics（TOG），37（4）：68，2018。2[23] 西蒙·奥辛德罗·迈赫迪·米尔扎。条件生成对抗网。arXiv：1411.1784。2[24] 森正弘恐怖谷。Energy，7（4）：33-35，1970. 1[25] Koki Nagano，Jaewoo Seo，Jun Xing，Lingyu Wei，Zimo Li ， Shunsuke Saito ， Aviral Agarwal ， JensFursund，Hao Li，Richard Roberts，et al. paGAN：使用动态纹理的实时化身。SIGGRAPH Asia 2018技术论文，第258页。ACM，2018。2[26] Arsha Nagrani， Joon Son Chung ， Andrew Zisserman.Voxceleb：一个大规模说话人识别数据集。在IN-TERSPEECH，2017. 5[27] O. M. Parkhi、黑腹拟步行虫A. Vedaldi和A.齐瑟曼。深度人脸识别。BMVC，2015年。4[28] Steven M Seitz和Charles R Dyer。视图变形。第23届计算机图形学和交互技术年会论文集，第21-30页。ACM，1996年。1[29] Zhixin Shu ， Mihir Sahasrabudhe ， Riza Alp Guler ，Dimitris Samaras ， Nikos Paragios ， and IasonasKokkinos.变形自动编码器：形状和外观的无监督解缠。在欧洲计算机视觉会议（ECCV），2018年9月。1[30] Karen Simonyan和Andrew Zisserman用于大规模图像识别的非常深的卷积网络InProc. ICLR，2015.49470[31] Supasorn Suwajanakorn ， Steven M Seitz ， and IraKemelmacher-Shlizerman.合成奥巴马：从音频中学习对口型 ACM Transactions on Graphics （ TOG ）， 36（4）：95，2017。2[32] 小山雅则带有投影识别器的cgansarXiv：1802.05637，2018。二、四[33] 小山雅则、吉田雄一、宫人、片冈俊树。生成对抗网络的谱归一化。arXiv：1802.05957，2018。5[34] 蒂莫·艾拉·泰罗·卡拉斯，萨穆利·莱恩.一个基于样式的生成器架构，用于生成对抗网络。arXiv：1812.04948。2[35] Justus Thies ， Michael Zollhofer ， Marc Stamminger ，Chris- tian Theobalt，and Matthias Nießner. Face2face：实时人脸捕捉和RGB视频重现。在Proceedings of theIEEEConferenceonComputerVisionandPatternRecognition，第2387-2395页，2016中。2[36] Dmitry Ulyanov、Andrea Vedaldi和Victor S. Lempitsky实例规范化：快速样式化缺少的成分。 CoRR ，abs/1607.08022，2016。5[37] Ting-Chun Wang，Ming-Yu Liu，Jun-Yan Zhu，GuilinLiu，Andrew Tao，Jan Kautz，and Bryan Catanzaro.视频到视频合成。 arXiv 预印本 arXiv ： 1808.06601 ，2018。2[38] Ting-Chun Wang，Ming-Yu Liu，Jun-Yan Zhu，AndrewTao，Jan

下载后可阅读完整内容，剩余1页未读，立即下载