X2Face：一个使用图像、音频和姿势代码控制面部表情的网络模型

4 浏览量更新于2023-10-13 收藏 1.48MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

X2Face：一个使用图像、音频和姿势代码Olivia Wiles*，A. Sophia Koepke*，Andrew Zisserman牛津大学视觉几何组{ow，koepke，az}@ robots.ox.ac.uk抽象。本文的目标是一个神经网络模型，该模型使用另一张脸或模态（例如，人脸）来控制给定人脸的姿势和表情音频）。然后，该模型可以用于轻量级的、复杂的视频和图像编辑。我们做出以下三点贡献。首先，我们介绍了一个网络，X2Face，它可以控制一个源面（由一个或多个帧指定），使用另一个面在驱动帧中产生一个生成的帧的身份的源帧，但在驱动帧中的脸的姿势和表情其次，我们提出了一种使用大量视频数据来训练网络完全自监督的方法第三，我们证明了生成过程可以由其他方式驱动，例如音频或姿势代码，而无需对网络进行任何进一步的训练。将用于驱动具有另一个面部的面部的生成结果与最先进的自监督/监督方法进行比较。我们表明，我们的方法比其他方法更强大，因为它对输入数据的假设更少。我们还展示了使用我们的框架进行视频人脸编辑的示例。1介绍能够以可控的、轻量级的方式动画化面部的静止图像用自然的人类姿势/表情动画化屏幕上的代理这是一项具有挑战性的任务，因为它需要表示面部（例如，脸部）。以3D建模），以便控制它，以及一种映射所需控制形式的方法（例如，表情或姿势）回到面部表示上。在本文中，我们研究是否有可能放弃一个明确的面部表示，而是隐式地学习这在一个自我监督的方式从一个大的视频数据集合。此外，我们调查是否可以直接使用这种隐式表示来控制与另一种方式，如音频或姿态信息的脸。为此，我们引入X2Face，一种新的自监督网络架构，可用于给定驱动向量的源脸的脸木偶。* 表示相等的贡献。2O. Wiles，A. S. Koepke和A. Zisserman图1：X2Face概述：用于使用驱动帧、音频数据或指定姿态向量来控制源面部的模型。X2Face在没有表情或姿势标签的情况下进行训练。源面部从单个或多个源帧实例化，所述源帧从相同面部轨迹提取驱动向量可以来自多个模态：来自相同或另一视频面部轨迹、姿态信息或音频信息的驱动帧;这示于图1.由X2Face产生的所生成的帧具有身份、发型等。但是驱动矢量的属性（例如，如果给出姿态信息，则为给定姿态;或者如果给出驱动帧，则为驱动帧该网络使用成对的源帧和驱动帧以自监督的方式进行训练这些帧被输入到两个子网络：嵌入网络和驱动网络（见图1）。2）的情况。通过控制网络架构中的信息流，模型学习分解问题。嵌入网络学习源面部的嵌入式面部表示-有效地面部正面化;驱动网络学习如何通过嵌入（称为驱动向量）X2Face网络架构在3.1节中描述，自监督训练框架在3.2节中描述。此外，我们做两个进一步的贡献。首先，我们提出了一种从一组标签进行线性回归的方法 (e.g.对于头部姿势）或特征（例如，从音频）到驱动矢量;这在第4节中描述。性能在第5节中进行了评估，其中我们展示了（i）与最先进的自监督[45]和监督[1]方法相比，生成结果的鲁棒性;以及（ii）使用诸如音频或姿态的其他模态的网络的可控性。第6节中描述的第二个贡献示出了嵌入的面部表示如何可以用于视频面部编辑，例如：使用多个或仅单个源帧以[31]的方式添加面部装饰。2相关工作用于图像生成的面部显式建模。传统上，给定一个图像的面部模拟（或操纵）通过拟合3DMM然后修改估计的参数来执行[3]。后来的工作建立在X2Face3通过包括高级细节[34，41]、考虑附加图像[33]或3D扫描[4]、或通过直接从RGB学习3DMM参数来拟合3DMM[2，39]。 PleaserefertoZollhüoferet. [46]第46话调查给定驱动和源视频序列，可以获得3DMM或3D网格，并用于对驱动面和源面进行建模[10，40，43]。估计的3D被用来变换源面部的表情以匹配驾驶面部的表情然而，这需要额外的步骤来转移隐藏区域（例如，牙齿）。因此，以单个驾驶图像为条件的神经网络可用于预测更高级别的细节以填充这些隐藏区域[25]。受3DMM方法受组件限制这一事实的启发相应的变形模型，可能无法模拟所需的表达式/变形和更高级别的细节的全部范围，[1]提出了一种2D扭曲方法。给定只有一个源图像，[1]使用面部标志，以便将一张脸的表情扭曲到另一张脸上。它们还允许通过监控驾驶视频中的变化来传输精细的尺度细节。一组有趣的相关作品考虑如何使用通用参考脸[14]将静止图像中的脸正面化，将演员的表情转移到化身[35]并将一张脸与另一张脸交换[20，24]。基于学习的图像生成方法。关于监督/自我监督方法有大量的文献;这里我们只回顾最相关的工作。用于控制给定面部的受监督方法学习对变化的因素（例如，照明、姿势等）通过根据已知的真实信息调节生成的图像，所述真实信息可以是头部姿势、表情或界标[5，12，21，30，42，44]。这需要具有已知姿态或表情信息的训练数据集，其获得可能是昂贵的或需要主观判断（例如，在确定表达式时）。因此，自监督和无监督方法尝试自动学习所需的变化因素（例如，光流或姿态）。这可以通过最大化互信息[7]或通过训练网络来合成未来的视频帧[11，29]来完成。另一种相关的自我监督方法是CycleGAN [45]，它学习将一个域的图像转换为另一个域的图像。虽然没有明确设计用于此任务，但由于CycleGAN学会了周期一致性，因此转换后的图像通常与原始图像具有语义相似性例如，被训练成将一个人的面部图像（域A）变换成另一个人的面部图像（域B）的CycleGAN模型通常将学习将域A中的面部的姿势/位置/表情映射到域B中生成的面部上使用多模态设置来控制图像生成。诸如音频的其他模态可以通过使用学习音频与对应图像中的相关部分之间的关系的神经网络来控制图像生成例如，用语音控制嘴巴[8，38]，用音频和已知的情绪状态控制头部[16]，用音乐控制身体运动[36]。4O. Wiles，A. S. Koepke和A. Zisserman我们的方法具有自我监督的优点，并且能够控制其他模式的生成过程，而不需要明确的面部建模因此，它适用于其他领域。3方法本节在第3.1节中介绍网络体系结构，然后在第3.2节中介绍用于培训网络的课程策略图2：X2Face在初始训练阶段的概述。给定视频的多个帧（这里是4个帧），一个帧被指定为源帧，另一个帧被指定为驱动帧。源帧被输入到嵌入网络，其学习采样器以将来自源帧的像素映射到嵌入的面部。驱动帧被输入到驱动网络，该驱动网络学习将来自嵌入的面部的像素映射到生成的帧。所生成的帧应当具有源帧的身份和驱动帧的姿态/表情。在该训练阶段中，由于帧来自相同的视频，所以所生成的帧和驱动帧应当匹配。然而，在测试时，源和驱动面的身份可以不同。3.1架构网络有两个输入：驱动帧和源帧。源帧输入到嵌入网络，驱动帧输入到驱动网络。这示于图2.补充材料中给出了精确的建筑细节。嵌入网络。嵌入网络学习一个双线性采样器来确定如何从源帧映射到人脸表示，即嵌入的人脸。该架构基于U-Net [32]和pix 2 pix [15];输出是2通道图像（与源帧具有相同的尺寸），其对每个像素的流δx，δyX2Face5虽然嵌入网络没有被明确地强制对源帧进行正面化，但我们观察到它出于以下原因学会这样做。因为驱动网络在不知道源帧的姿态/表情的情况下从嵌入式面部采样以产生所生成的帧，所以它需要嵌入式面部具有共同的表示（例如：被正面化）。驾驶网驱动网络将驱动帧作为输入，并学习双线性采样器以变换来自嵌入式面部的像素以产生生成的帧。它具有编码器-解码器架构。为了从嵌入的面部中正确地采样并产生所生成的帧，嵌入（驱动向量）必须编码姿态/表情/缩放/其他变化因素。3.2训练网络图3：当源帧和驱动帧具有不同身份时的身份损失函数。该丢失强制所生成的帧具有与源帧相同的身份。该网络使用两个阶段的课程策略进行训练。第一个训练阶段（I）是完全自我监督。在第二训练阶段（II）中，我们利用针对面部识别预先训练的CNN来基于源帧和驱动帧中的面部的身份添加附加约束，以在训练阶段（I）之后微调模型I. 第一阶段（如图所2）仅使用像素级L1损失。生成的和驱动帧。虽然这足以训练网络使得驱动帧对表情和姿态进行编码，我们观察到一些脸部形状信息通过驱动向量（例如，根据驱动帧中的面部，所生成的面部变得更胖/更长因此，我们引入额外的损失函数II. 在第二阶段中，身份损失函数被应用以强制所生成的帧和源帧之间的身份是相同的，而不管驱动帧的身份。该损失应减轻第I阶段中讨论的面形泄漏。实际上，一个源帧是恒等式A6O. Wiles，A. S. Koepke和A. ZissermanEMBEMBA和两个驱动帧dA、dR用作训练输入;dA是单位元A，dR是随机单位元。这分别给出了两个生成的帧g_d_A、g_d_R，它们都应该具有单位元A。然后施加两个身份损失函数：L身份（dA，gdA）和L身份（sA，gdR）。使用针对同一性预先训练的网络来实现L同一性，以通过比较网络的适当层（即，如[6，13]中的内容损失精确的层是根据我们是考虑gdA还是gdR来选择的：1. L同一性（dA，gdA）。gdA应具有相同的身份、姿势和表情因此我们在Conv 2 -5上使用光度L1损失和L1含量损失和Conv7层（即对较低/较高级别信息（诸如姿态/身份）两者进行编码的层）。2. L同一性（sA，gdR）（图3）。gdR 应该具有sA的身份，但姿势和dR的表达。因此，我们不能使用光度损失，但只有内容损失。我们最小化了Conv 6 -7层上的L1含量损失（即编码更高级别身份信息的层）之间的和sA.用于这些损失的预训练网络是在VGG-Face数据集[26]上训练的11层VGG网络（配置A）[37]4使用其他模态给定经训练的X2Face网络，驱动向量可用于控制所述网络。源面向诸如音频或姿势之类其他模态4.1构成代替用驱动帧来控制生成，我们可以使用姿势代码来控制源面部的头部姿势，使得当改变代码的俯仰/偏航/滚动角度时，所生成的帧相应地改变。这是通过学习从头部姿势p到驱动向量的前向映射fp→v来完成的使得fp→v（p）可以用作驱动网络的解码器的修改输入。然而，这是一个不适定的问题;直接使用该映射会丢失信息，因为驱动向量编码的不仅仅是姿势。因此，我们使用向量算术。有效地，我们用其自身驱动源帧，但是修改对应的驱动向量v_source以移除源帧p_source的姿态并且并入新的驱动姿态p_driving。这给出：vdriving = vsource + v∆pose = vsource + fp→v（pdriving − psource）。（一）EMBEMBEMBEMB然而，VoxCeleb [23]不包含地面实况头部姿势，因此需要额外的映射fv-p来确定p_source=fv-p（v_source）。fv→p。fv→p被训练为从v回归p。它是使用一个完全连接的偏置层和训练使用L1损失。训练对（v，p）使用具有图像到姿势标签p的注释数据集来获得;通过使图像通过驱动网络的编码器来获得v。X2Face7EMBfp→v。fp→v被训练为从p回归v。它是使用具有偏置的全连接线性层来实现的，然后是批量范数。当fv→p已知时，可以通过将图像传递通过X2Face来直接在VoxCeleb上学习该函数以获得驱动向量v，并且fv→p（v）给出姿势p。4.2音频来自VoxCeleb数据集中的视频的音频数据可以用于以类似于姿势的方式通过用其自身驱动源帧但使用来自另一帧的音频修改驱动向量来驱动源面部使用音频特征a和驱动向量v的对来训练从音频特征a到对应的驱动向量v的正向映射fa-v。这些可以直接从VoxCeleb中提取（因此不需要向后映射fv→a）。 a是通过从[9]中的神经网络提取256D音频特征而获得的，并且128Dv是通过将对应的帧传递通过驱动网络然后，在首先将音频特征归一化为N（0， 1）之后，使用普通最小二乘线性回归来学习fa→v当采用映射来驱动帧生成时，不使用归一化;这放大了信号，在视觉上改善了生成的结果。由于学习函数fa→v：R1×256→R1×128是欠约束的，因此嵌入学习对一些姿态信息进行因此，我们另外使用在4.1节中描述的映射fp→v和fv→p给定驾驶音频功能的驾驶和相应的，非修改如果新的驱动矢量v_driving是恩布v驱动=v源+fa→v（a驱动）−fa→v（a源）+fp→v（p音频−p源），恩布其中p_source= f_v-p（v_source）是输入到驱动器的帧的头部姿势。其中，fa= fv-p（fa-v（adriving））是fa-v（adriving）中包含的姿态信息，asource是与源帧对应的音频特征向量。5实验本节通过首先在第5.1节中对用于训练的架构和损失进行消融研究来评估X2Face，然后在第5.2节中使用驱动帧控制面部的结果，在第5.3节中使用姿势信息，在第5.4节中使用音频信息。训练 X2Face在VoxCeleb视频数据集[23]上使用dlib [18]进行训练，将面部裁剪为256 × 256。身份被随机分成训练/验证/测试身份（分割为75/15/10），并以1 fps提取帧，900,764帧用于训练，125,131帧用于测试。该模型在PyTorch [27]中使用动量为0的SGD进行训练。9，批量为16。首先，它仅在L1损失和学习率为0的情况下进行训练。001.当损失平稳时，学习率降低10倍一旦亏损8O. Wiles，A. S. Koepke和A. Zisserman收敛时，并入身份损失并如下加权：（i）对于相同的恒等式，其强度与每层的光度L1损失一样强;（ii）对于不同的身份，为每层光度损失大小的1 / 10。该训练阶段以0的学习率开始。0001.试验. 可以使用单个或多个源帧来测试模型。其理由是，如果嵌入的面部是稳定的（例如，不同的面部区域总是映射到嵌入面部上的相同位置），我们期望能够通过对嵌入面部进行平均来组合多个源帧5.1建筑学为了量化在测试时使用附加视图的效用以及用于训练网络的课程策略的益处（即使用3.2节中解释的同一性损失），我们在VoxCeleb的遗漏测试集上评估这些不同设置的结果。我们考虑120 K源和驱动对，其中驱动帧来自与源帧相同的视频;因此，生成帧应该与驱动帧相同结果在表1中给出表1：测试集上的L1重建误差，针对不同训练/测试设置将生成的帧与地面实况帧（在这种情况下为驱动帧）进行比较L1误差越小越好.此外，我们给百分之一的改进，在L1的错误模型训练，只有训练阶段I和测试与一个单一的源帧。在这种情况下，越高越好培训战略测试时的源帧数量L1错误改善百分比培训阶段I10.06320%的百分比培训阶段II10.06300.32%培训阶段I30.0524百分之十七点一四培训阶段II30.052117.62%表1中的结果证实，使用课程策略的训练和在测试时间使用附加视图都改善了重建图像。补充材料包括定性的结果，并表明，使用额外的源帧时，测试是特别有用的，如果一个人的脸被认为是在一个极端的姿态在初始源帧。5.2利用驱动帧控制图像生成我们的架构的动机是能够映射到一个源帧的驱动帧的表达和姿态，而没有任何注释的表达或姿态。本节演示了X2Face确实实现了这一点，因为可以使用驾驶视频控制一组源帧并生成逼真的结果。我们比较两种方法：CycleGAN [45]不使用标签和[1]它是自上而下设计的，并展示了令人印象深刻的结果。补充材料和视频中提供了其他定性结果X2Face9（一）（b）第（1）款（c）第（1）款图4：给定驾驶视频序列，X2Face生成的帧与CycleGAN生成的帧的比较每个示例从下到上显示：驱动框架、我们生成的结果和CycleGAN生成的结果。左侧显示了X2Face的源帧（在测试时，CycleGAN不需要源帧，因为它已经被训练为在给定的源和驾驶身份之间进行映射）。这些实施例展示了我们的方法的多个益处首先，X2 Face能够保持源身份的面部形状（顶行），同时根据驱动帧（底行）驱动姿势和表情; CycleGAN正确地保持姿势和表情，但是当给定太少的训练图像时，丢失关于面部形状和几何形状的信息，如示例中所示。(a)（而X2Face不需要新身份的训练样本）。其次，X2Face具有时间一致性。CycleGAN从潜在空间中采样，所以它有时会从不同的视频中采样，导致帧之间的不和谐变化（例如，在实施例（c）中）。10O. Wiles，A. S. Koepke和A. Zisserman与CycleGAN比较[45]。CycleGAN学习从给定域（在这种情况下，给定身份A）到另一个域（在这种情况下，另一个身份B）的映射。为了与他们针对给定身份对的方法进行比较，我们取给定身份的所有图像（因此图像可能来自不同的视频轨道）以形成两组图像：一组对应于身份A，另一组对应于身份A。B.然后我们使用这些集合训练他们的模型。为了进行比较，对于身份A的给定驱动框架，我们将其从身份B生成的框架可视化，并将其与X2Face的框架进行比较。结果表明，该方法是可行的。4说明了多种益处。首先，X2Face在测试时仅给出源和驱动帧来推广看不见的身份对Cy- cleGAN是在成对的身份上训练的，所以如果样本图像太少，它就不能正确地模拟源面部的形状和几何形状，从而产生不切实际的结果。此外，我们的结果具有更好的时间相干性（即，一致的背景/发型/等。跨生成的帧），因为X2Face变换给定帧，而CycleGAN从潜在空间采样。与Averbuch-Elor et.al. [1]的文件。我们在图中比较[1]。五、我们的公式比他们的公式有两个显著的优点：首先，我们可以处理驾驶视频和源帧中更显著的姿态变化（图12）。5b至5c）。其次，我们的假设较少：（1）[1]假设驾驶视频的第一帧处于具有中性表情的正面姿势，并且源帧也具有中性表情（图12）。第5d段）。（2）当给定单个驱动帧时，可以使用X2Face，而他们的方法需要视频，使得可以跟踪面部，并且跟踪用于扩展对应的数量并获得高级细节。虽然这不是本文的重点，我们的方法可以从这些方法的想法来增强例如，受[1]的启发，我们可以执行简单的后处理以添加更高级别的细节（图1）。5a，X2Face+p.p.）通过使用泊松编辑转移隐藏区域[28]。5.3使用姿势在报告使用姿势控制驱动向量的结果之前，我们验证了我们的主张，即驱动向量确实学习了姿势。为此，我们评估在给定128 D驱动矢量的情况下，我们可以多准确地预测三个头部姿势角度姿势预测器。为了训练也用作fv→p的姿态预测器（第4.1节），AFLW数据集[19]中的25，993个图像被分成训练/值集，将来自[22]的1， 000个测试图像作为测试集。表2中报告了测试集上的结果，证实了驱动向量在没有经过姿势标签训练的情况下学习头部姿势，因为结果与直接为此任务训练的网络的结果然后，我们使用fv→p来训练fp→v（第4.1节），并使用图2中的学习映射为不同的、看不见的测试恒等式呈现六、源帧对应于第4.1节中的p源，而p驱动用于改变一个头部姿势角度，同时保持其他固定。X2Face11图5：X2Face与监督方法的比较。与[1]相比：X2 Face匹配（b）俯仰，以及（c）滚转和偏航;并且X2 Face可以处理源帧（d）中的非中性表达式。与其他方法一样，后处理（X2Face + p.（p.）可以应用于添加更高级别的细节（a）。表2：使用用于头部姿势回归的驱动向量的以度计的MAE（越低越好）。请注意，来自驱动向量的线性姿态预测器的性能仅略差于监督方法[22]，后者已为此任务方法辊间距偏航MaeX2Face[22]第二十二话五、858. 757 .第一次会议。59五、85十四岁62六、459 .第九条。367 .第一次会议。025.4通过音频输入控制图像生成本节介绍了使用VoxCeleb数据集中视频的音频数据来驱动源帧的定性结果VoxCeleb数据集由采访视频组成，这表明音频应该与嘴巴的运动[9]我们使用音频流的最后一个完全连接层（FC7）的256D向量激活，用于0。2s音频信号集中在驱动帧上（该帧发生在0. 2s音频信号）。潜在的误差来源是LRW数据集和VoxCeleb之间的域间隙，因为[9]因此，他们的模型并不一定学会对这种噪音漠不关心。然而，我们的模型对这个问题是相对稳健的;我们观察到在生成的帧中的嘴部运动合理地接近于我们从声音中期望的12O. Wiles，A. S. Koepke和A. Zisserman图6：利用姿态码向量控制图像生成。示出了针对单个源帧的结果，该单个源帧使用针对相同身份（顶部三行）和针对不同身份（底部三行）的三个头部姿势角度中的每一个来控制。对于进一步的结果和视频动画，我们参考补充材料。虽然一些伪影是可见的，但是该方法允许单独地控制头部姿势角度相应的音频，如图所示。7.即使视频中的人没有说话，而是音频来自面试官，这也是正确的。但是，在生成中存在一些抖动6使用嵌入面进行视频编辑我们考虑如何嵌入的脸可以用于视频编辑。这个想法的灵感来自于未包装马赛克的概念[31]。我们期望嵌入的人脸是姿势和表情不变的，正如在论文中所示的嵌入人脸示例中可以定性地看到的那样。因此，嵌入的面可以被认为是面的UV纹理贴图并直接绘制。该任务执行如下。提取源帧（或源帧集合）并将其输入到嵌入网络以获得嵌入的面部。然后可以使用图像或其他交互式工具在嵌入的面部上绘制。使用由一组驱动帧驱动的经修改的嵌入面部来重建视频。因为嵌入的脸在不同的身份中是稳定的，X2Face13图7：利用音频信息控制图像生成。我们展示了相同的声音如何影响各种源帧;如果我们的模型运行良好，那么生成的嘴应该表现相似。（a）示出了源帧。（b）示出了针对给定音频声音所生成的帧，其在（d）中通过所讲单词的彩色部分可视化。由于预期大部分变化在嘴部区域中，因此在（c）中额外可视化裁剪的嘴部区域。音频来自一位母语为英国的人。可以看出，在所有生成的帧中，嘴在“ve”和“I”处更闭合另一个有趣的点是，对于给定的编辑可以应用于不同的身份。示例编辑如图所示。8、补充材料。7结论我们已经提出了一个自我监督的框架X2Face的驱动面生成使用另一张脸。该框架不对输入图像的姿态、表情或身份进行假设，因此它对无约束设置（例如，图像的颜色、颜色、颜色等）更鲁棒。看不见的身份）。该框架还可以在训练后以最小的改变使用，以使用音频或头部姿势信息来驱动面部。最后，训练好的模型可以用作视频编辑工具。我们的模型实现了这一切，而不需要头部姿势/面部标志/深度数据的注释。相反，它在大量视频集合上进行自我监督训练，并学习自己对不同的变化因素进行虽然我们的方法是鲁棒的、通用的，并且允许以其他模态为条件进行生成，但是生成质量不如专门设计用于变换面部的方法（例如，基于人脸的图像）高。[1、17、40]）。这开辟了一条有趣的研究途径：如何修改方法，14O. Wiles，A. S. Koepke和A. Zisserman(a) 输入源帧以提取在其上绘制的嵌入面。修改后的嵌入面用于生成下面的帧。(b) 从修改后的嵌入式模型生成的帧的示例序列使用驱动帧序列控制的面（底行）。图8：视频编辑应用的示例结果。(a)对于给定的源帧，嵌入的面部被提取和修改。（b）修改后的嵌入面用于驱动帧序列（底部），并且示出了结果（顶部）。注意对于第二示例，当在侧面中看到人时，蓝色纹身如何在鼻子后面消失，以及如上所述，如何可以使用相同或另一身份的姿势和表情来驱动修改的嵌入式面部最好是彩色的。放大查看详细信息。使用蓝色纹身和哈利波特疤痕的其他例子在补充视频和PDF中给出保留了多功能性、鲁棒性和自我监督方面，但是具有这些方法的生成质量，这些方法是专门为面部设计的最后，由于没有假设视频是人脸的，考虑将我们的方法应用到其他领域是很有趣的。致谢作者感谢Hadar Averbuch-Elor在我们的数据上运行了他们的模型，并感谢Vicky Kalogeiton的建议/评论。这项工作是由EPSRC学生奖学金和EPSRC计划赠款（见EP/M013774/1）资助。书目[1] Averbuch-Elor，H.，Cohen-Or，D.，Kopf，J.，Cohen，M.F.：将肖像画带入生活。ACM Transactions on Graphics（Proceeding of SIGGRAPHAsia 2017）（2017）[2] Bas，A.，史密斯，W.A.P.，Awais，M.，Kittler，J.：3D变形模型作为空间Transformer网络。In：Proc.ICCV几何与深度学习研讨会（2017）[3] Blanz，V.，Vetter，T.：三维人脸合成的可变形模型。In：Proc. ACMSIGGRAPH（1999）[4] 布斯JRoussos，A.，Ponniah，A.Dunaway，D.Zafeiriou，S.：大规模三维变形模型。IJCV126（2-4），233[5] 曹杰，Hu，Y.，于，B.，他河Sun，Z.：用于多视图的负载平衡gans人脸图像合成arXiv预印本arXiv：1802.07447（2018）[6] 陈昆，Koltun，V.：具有级联细化网络的摄影图像合成。In：Proc.ICCV（2017）[7] 陈旭，段玉，Houthooft河Schulman ，J.，萨茨克弗岛Abbeel，P.：Infogan：通过信息最大化生成对抗网络进行可解释表示学习在：NIPS（2016）[8] Chung，J.S.，Senior，A. Vinyals，O.，齐瑟曼，A.：在野外读唇语句子。In：Proc.CVPR（2017）[9] Chung，J.S.，齐瑟曼，A.：超时：自动对口型In：Workshop on Multi-view Lip-reading，ACCV（2016）[10] Dale ， K. ， Sunkavalli ， K. ，约翰逊 M.K. Vlasic ， D. Matusik ， W. ，Pfister ， H. ：视频脸更换。 ACM Transactions on Graphics （ TOG ）（2011）[11]Denton，E.L.，Birodkar，V.：无监督学习从视频中分离的表示。In：NIPS（2017）[12] 丁，H.，Sricharan，K.，切拉帕河：Exprgan：面部表情编辑，表情强度可控In：Proc.AAAI（2018）[13] 洛杉矶的加蒂斯Ecker，A.S. Bethge，M.：使用卷积神经网络的图像风格转换。In：Proc.CVPR（2016）[14] Hassner，T.，Harel，S.，Paz，E.，Enbar，R.：无约束图像中的有效人脸正面化。In：Proc.CVPR（2015）[15]Isola，P.，Zhu，J.Y.，周，T.，Efros，A.A.：使用条件对抗网络的图像到图像翻译。In：Proc.CVPR（2017）[16] Karras，T.，Aila，T. Laine，S.，Herva，A.，Lehtinen，J.：通过姿势和情感的联合端到端学习的音频驱动的面部动画。ACM Trans-actions onGraphics（TOG）（2017）[17]Kim，H. ，Garrido，P.， Tewari，A. ，Xu，W.，你好J 你好，M.，P'erez ， P. ， Richardt ， C. ，Zollhüofer ， M. ，结果表明， C. ：Deepvideoportrats。 Proc. 电影ACMSIGGRAPH（2018）[18] King，D.E.：Dlib-ml：一个机器学习工具包。机器学习研究杂志10，175516O. Wiles，A. S. Koepke和A. Zisserman[19] Koestinger，M.，Wohlhart，P.，罗斯下午Bischof，H.：野生动物的面部标志：用于面部标志定位的大规模真实世界数据库。在：Proc.第一届IEEE面部图像分析技术基准国际研讨会（2011）[20] 科尔舒诺娃岛施伟，Dambre，J.，泰斯，L.：使用卷积神经网络的快速人脸交换In：Proc.ICCV（2017）[21] Kulkarni，T. D.，Whitney，W.F.，Kohli，P.，Tenenbaum，J.：深度卷积逆图形网络In：NIPS（2015）[22] 库马尔，A.，Alavi，A.，切拉帕河：KEPLER：通过学习高效的H-CNN回归器对无约束人脸进行输入：程序输入Conf. 自动面部和手势识别（2017年）[23] Nagrani，A.，Chung，J.S.，齐瑟曼，A.：VoxCeleb：一款大型音箱识别数据集。在：INTERSPEECH（2017）[24] Nirkin，Y.，马西岛Tran，A.T.，Hassner，T.，Medioni，G.：人脸分割、人脸交换和人脸感知。In：Proc.Int. Conf. 自动面部和手势识别（2018年）[25] Olszewski，K.，Li，Z.，杨，C.，Zhou，Y.，（1996年），中国科学院，尤河黄志，Xiang，S.，斋藤，S.，Kohli，P.，Li，H.：使用gans从单幅图像获得逼真的动态面部纹理In：Proc.ICCV（2017）[26] 帕克希O.M.Vedaldi，A.，齐瑟曼，A.：深度人脸识别。In：Proc.BMVC。（2015年）[27] Paszke，A.，格罗斯，S.，Chintala，S.，Chanan，G.，Yang，E.，DeVito，Z.，林芝，Desmaison，A.，安蒂加湖Lerer，A.：PyTorch中的自动微分（2017）[28] P'er e z，P.， Gangn e t，M.， Blak e，A. ：图像编辑上的问题。ACMTransactions02 The Dog（2003）[29] Patraucean ， V. 、 Hand a、 A. ， Cipolla ，R. ：具有可微分存储器的SPATIO-TEMP或ALVIDEO自动在：NIPS（2016）[30] 乔F，Yao，N.，焦，Z.Li，Z.，陈洪，Wang，H.：几何对比用于面部表情合成的生成对抗网络。 arXiv 预印本 arXiv ： 1802.01822（2018）[31] Rav-Acha，A.Kohli，P.，Rother，C.，Fitzgibbon，A.：展开镶嵌：A视频编辑的新表示。ACM Transactions on Graphics（TOG）（2008）[32] Ronneberger，O.，Fischer，P.，Brox，T.：U-Net：卷积网络生物医学图像分割In：Proc. MICCAI（2015）[33] Roth，J.，唐，Y.，刘X：非约束照片集的自适应三维人脸重建。In：Proc.CVPR（2016）[34] 斋藤，S.，韦湖，加-地胡，L.，Nagano，K.Li，H.：逼真的面部纹理使用深度神经网络进行推理。In：Proc. CVPR（2017）[35] Saragih，J.M.，Lucey，S.，科恩，J.F.：从单个图像实时化身动画。In：Proc.Int. Conf. 自动面部和手势识别（2011年）[36] Shlizerman，E.，德里湖，Schoen，H.，Kemelmacher-Shlizerman，I.：音频身体动力学Proc. CVPR（2018）[37] 西蒙尼扬，K.，齐瑟曼，A.：用于大规模图像识别的极深卷积网络。在：学习代表国际会议（2015）X2Face 17[38] Suwajanakorn，S.，Seitz，S.M.，Kemelmacher-Shlizerman，I.：合成奥巴马：从音频中学习对口型 ACM Transactions on Graphics （ TOG ）（2017）[39] Tewari，A. ，Zollhüofer，M.， Kim，H. ，Garrido，P.， Bernard，F.，Perez，P.，Theobalt，C.：Mofa：用于无监督单眼重建的基于模型的深度卷积人脸自动编码器。见：Proc. ICCV（2017）[40] 你好JZollhüofer，M.，是我的，M.，该观察结果，C.，你好M. ：Face2Face：实时人脸捕捉和RGB视频重现。在：Proc. CVPR（2016）[41] Tran，A.T.，Hassner，T.，马西岛Paz，E.，Nirkin，Y.，Medioni，G.：极致3D人脸重建：透过闭塞看到。在：Proc. CVPR（2018）[42] 特兰湖Yin，X.，刘X：用于姿态不变人脸识别的解纠缠表示学习。In：Proc.CVPR（2017）[43] Vl 为 ic ， D. ，Brand ， M. ，Pfistterr ， H. ， Po povi´c ， J. ：Facetransferwithultiner 模型。 ACM Transactions on Graphics （ TOG ）（2005）[44] Worrall，D.E.，Garbin，S.J.，Turmukhambetov，D.，Brostow，G.J.：使用编码器-解码器网络的可预编码变换。见：Proc. ICCV（2017）[45] Zhu，J.Y.，Park，T. Isola，P.，Efros，A.A.：使用循环一致对抗网络的不成对图像到图像翻译。ICCV（2017）[46] Zollhüofer，M.，你好J Ga rido，P.， Bradley，D.，贝里尔，T. P'erez，P.，Stamminger，M.，Nießner，M. Theobalt，C.：单目3D人脸重建、跟踪和应用的最新技术。In：Proc. Eurographics（2018）

下载后可阅读完整内容，剩余1页未读，立即下载