轻量级实时人脸交换框架FastSwap:高保真、低计算成本的身份、姿态和属性编辑

41 浏览量更新于2023-10-16 收藏 1.74MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1FastSwap：一个轻量级的单阶段实时人脸交换框架Sahng-Min Yoo1，2，Tae-Min Choi2，Jae-Woo Choi2，Jong-HwanKim21 KLleon AI Research2RIT实验室，KAISTsahngmin. klleon.io，{smyoo，tmchoi，jwchoi，johkim} @ rit.kaist.ac.kr图1：FastSwap的面部交换结果目标图像中的面部被替换为源图像中的面部，同时保留姿势和属性。源代码可在https://github.com/sahngmin/fastswap获得。摘要最近的人脸交换框架已经实现了高保真的结果。然而，以前的作品遭受高计算成本，由于深结构和使用现成的网络。为了克服这些问题，实现实时人脸交换，我们提出了一个轻量级的一阶段框架，FastSwap。我们设计了一个以自我监督的方式训练的浅层网络，没有任何人工注释。我们的框架的核心是一个新的解码器块，称为三重自适应归一化（TAN）块，它有效地集成了身份和姿态信息。此外，我们提出了一种新的数据扩充和开关测试策略，从目标图像中提取属性，这进一步实现了可控的属性编辑。在VoxCeleb2和野生人脸上的大量实验表明，我们的框架在123.22 FPS下生成高保真人脸交换结果，并且比其他最先进的方法更好地此外，我们还进行了深入的研究证明我们的建议的有效性1. 介绍在这项工作中，我们考虑了一个人脸交换任务，它可以将图像中的一个人的身份替换为另一个人，同时保留姿势和属性，例如，肤色、化妆和照明条件（见图1）。给定源图像和目标图像，人脸交换框架的目标是生成具有源图像身份、目标图像姿态和属性的人脸图像。我们主要致力于克服以前的人脸交换框架的计算限制。此外，我们引入了一个新的属性编辑操作在一个轻量级的一阶段的框架。以前流行的DeepFakes [6]是一个主体感知的人脸交换框架，必须为每个新的输入源和目标对进行训练。训练每个网络需要至少500张源和目标个体的面部图像以及12个小时的GPU资源[6]。尽管前-35583559图2：之前的人脸交换方法DeepFakes的失败案例。由于冗长的数据收集和耗时的训练过程，交换的面部在感知上并不吸引人。DeepFakes无法保持源人脸的身份，也无法模仿目标人脸的姿势和属性（见图2）。然而，最近的研究已经成功地通过设计深度生成网络并使用巨大的人脸数据集训练网络来生成看不见的个人的真实人脸交换图像虽然额外的训练是不必要的，但仍然需要高端桌面GPU来实时运行深度生成人脸交换框架。为了克服计算量的限制，我们设计了一个轻量级的人脸交换框架，它可以实际用于各种应用场景，如远程显示，游戏，AR/VR等。基于深度生成网络的人脸交换框架试图在不进行额外训练的情况下处理任意的源和目标对。[24，27，25，21]使用额外的输入，如地标，动作单元（AU）和3D变形模型（3DMM）[1]系数，通过采用现成的网络提供不同的姿态和属性信息。然而，这种方法高度依赖于预先训练的网络，并且需要额外的计算来使用框架。或者，[19，20]提出了解耦外观和基于关键点的运动信息的方法。由于这些方法通过跟踪输入视频中最相似的帧来使用相对面部再现，因此它们在实时转换方面存在为了更好地保留源身份，[26，3，22，9]使用多个源图像并利用平均特征作为身份表示。因此，当创建一个看不见的源识别的神经头时，需要努力收集各种新图像。乳房为了实现实时人脸交换，没有广告网络或进程，我们提出了一个轻量级的一阶段框架，一个新的解码器结构，数据增强，和开关测试策略。我们介绍了一种新的人脸交换框架，FastSwap，它解决了计算限制，并在自监督学习方案中生成逼真的人脸图像。在设计一个浅层和轻量级的网络来实现实时人脸交换的同时，我们利用自适应归一化来克服作为网络缩减的折衷而出现的低保真度问题。所提出的三重自适应归一化（TAN）块通过在每个维度空间中应用三种不同的自适应归一化来集成身份和姿态。此外，我们引入了一种新的数据增强和切换测试策略，注意到训练和测试步骤之间的任务差距，并独立处理姿态和属性的输入。在人脸交换任务中，输出的目的是在测试时遵循目标图像的属性。建议将目标图像作为属性提供程序，尽管这是一个矛盾，即输入成为地面实况。因此，我们使用源图像作为属性提供者，在训练过程中将颜色增强与地面实况图像进行匹配。然后，在测试时，我们将提供程序切换到目标图像以生成合适的输出。因此，与其他人脸交换框架不同，我们的策略能够在通过独立属性输入保留身份和姿态的同时进行属性操作[22，27，25，9，24，26，3，21]。综上所述，本文的主要工作如下：（1）提出了一个轻量级的单阶段人脸交换框架。我们的框架以123.22 FPS的速度交换人脸，并通过定量和定性评估显示了高保真度的人脸交换结果。（2）设计了一个TAN模块，以自适应的方式实现身份和姿态的有效解纠缠和整合（3）提出了一种新的数据扩充和开关测试策略，该策略以自监督的方式处理属性输入。我们的策略使可控的属性编辑与一个阶段的框架。（4）通过消融研究分析了我们提出的框架的每个组成部分的效果2. 相关工作2.1. 神经发声头神经说话人头合成框架关注于源人脸以模仿目标人脸的姿态，同时保持源图像的属性LPD [3]协调身份和姿态特征以生成自适应参数，并在每个解码层中使用AdaIN [11]另一方面，[23]提出了一种受SPADE [17]启发的外观自适应归一化机制，以优化3560∈∈∈图3：FastSwap的整体架构（左）以及训练和测试步骤的输入和输出示例（右）。Xs，Xt和Xatt（调整大小的图像）被用作我们框架的输入。在训练步骤中，将颜色失真的数据增强应用于Xs和Xt，以分别从Xs、Xt和Xatt中解开身份、姿态和属性。测试1和测试2分别指示正常面部交换情况和可控属性编辑情况。注意，对于测试1，Xt被用作Xatt，并且对于测试2，期望的属性图像被用作Xatt。这些层局部地改善了身份外观。在我们的框架中，我们设计了一个差分解码器块，它可以通过执行三重自适应归一化来快速组合身份和姿态信息：AdaIN、单通道SPADE和多通道SPADE。2.2. 换脸人脸交换框架将目标图像的人脸替换为重现的源人脸，同时保留目标人脸的属性。FSGAN [16]提出了一个级联的人脸交换框架，包括重演，修复和混合模块。FaceShifter [13]是一个两阶段框架，由利用自适应注意力归一化的面部合成解码器和异常恢复模块组成。SimSwap [4]提出了一个带有ID注入模块的一阶段框架，该模块使用AdaIN将身份信息传输到解码器中。在我们的框架中，我们提出了一个开关测试策略，将目标图像的属性应用到重新制定的图像中，而无需任何额外的网络。3. 方法给定三幅输入图像，一幅源图像Xsr3×256×256，一幅目标图像XtR3×256×256，以及一幅特征输入图像XattR3× H1 × W1（已调整大小的图像），我们的目标是用一个轻量级框架生成一幅保留了Xs的身份、Xt的姿态和Xatt的属性的经修改的图像Y. 为了实现这一目标，我们提出了一个快速交换，网络结构，用新的数据扩充训练网络，并使用开关测试策略。注意，我们独立地处理姿态和属性的输入，而之前的人脸交换框架同时处理来自目标图像的姿态和属性。FastSwap网络分别利用身份编码器和姿态网络提取X s的身份特征和X t的姿态特征。然后FastSwap利用AdaIN [11]和SPADE [17]启发的自适应归一化机制，将特征集成到三重自适应归一化（TAN）解码器中。此外，我们的数据增强诱导网络在训练步骤中从Xatt中提取属性然后，在测试时，通过开关测试策略将期望的属性应用于输出Y。3.1. FastSwap架构我们专注于解开身份和姿势，设计了一种有效的集成方法。因此，如图3所示，我们的FastSwap由三个模块组成：1）身份编码器，其提取身份特征并向生成器提供跳过连接，2）姿态网络，其从目标图像提取姿态并解码空间姿态特征，以及3）具有TAN块的解码器，其以自适应方式有效地集成来自1）和2）的特征。FastSwap网络以自我监督的方式进行训练，无需任何手动注释或现成的网络。3561s，ids，id×pt，poses，ids，idps，id }∈我σt，posep我 Cppppp用于姿态积分的块，其中N= 2是我我我我我∈h−µh−µ其中考虑每个特征维度进行三次自适应归一化TAN解码器构造有多个TAN块以生成输出。在第k个TAN块中，我们设计了两个并行分支其将来自zk的空间自适应参数和kt，pose ，并且来自zt，c的非空间自适应参数为如图4所示。我们安排空间和非空间姿势分别在两个分支中进行积分，并且由于身份特征Zs，in被用作解码器输入，所以身份积分被置于后面。换句话说，在空间自适应分支中的姿态集成和身份集成的序列中应用两个自适应，并且在另一个分支中保持非空间姿态集成。我们执行激活图的三种不同的自适应归一化，其相应的参数从每个输入生成：1）空间姿态集成，图4：第k个TAN块的详细结构，三个独立的自适应归一化。* *kt，pose ，2）与zk的（3）非空间性气3.1.1身份编码器身份编码器从Xs中提取身份信息。我们只使用两个下采样块，与目标代码zt，c的姿态集成（参见图4）。让哈，哈，哈RCk× Hk× Wk 表示激活图，被馈送到第k个TAN块的每个自适应归一化中作为输入，其中Ck是通道的数量，HkWk是空间维度。对于空间姿态整合，姿态激活函数P使用2Dadaptiv eparame对归一化的hk进行反归一化身份特征z1在每个输入高度四分之一大小从zk生成的结果：和宽度。z1通过一个1×1卷积层，变为zs，in，则zs，in用作生成器的输入。此外，身份的中间输出K Khk=p pσk（一）编码器{zkNk=1，其中N= 2是向下的数量。pP（hk）=γk<$h<$k+βk采样块，进一步用于生成自适应每个TAN块中用于标识的标准化参数啪啪啪啪其中µ k，σ k∈R1× Hk× Wk 是平均值和标准hk在HW-wise激活上的偏差，以及βk，γk∈3.1.2姿势网络R1× Hk× Wk 调制参数是从kt，pose是一个元素乘法。在姿态网络中，Xt被编码为zt，cRC×1×1，避免来自Xt的任何空间身份信息。而对于恒等积分，我们将恒等激活函数I定义为根据下式对归一化的h′k进行反归一化：身份编码器维护特征图在四分之一中，提取低维瓶颈目标码zt，c以引起姿态的自解纠缠[3]。ks，idK Khk=i i然后我们解码 zt，cIk为了训练空间姿态特征以再现（二）X的姿势。目标代码Z和多级位姿有限元分析-I（hk）=γk<$h<$k+βkt t，c来自姿态网络的Tures{zk}N被馈送到TAN我我我t，姿态k=1其中µ k，σ k∈RCk× Hk× Wk 是平均值和标准TAN解码器中的TAN块hk在CHW-wise激活上的偏差，以及βk，γk∈RCk× Hk× Wk 是从以下生成的调制参数：3.1.3具有TAN模块的我们将来自身份编码器的z，{zk}Nks，id对于非空间姿态集成，代码激活函数C根据tar get对归一化的hk进行反归一化年代s，idk=1C代码且zt，c，{zkNk=1 从姿势网络中生成一个zt，c：hk−µkzzz的zz}一体化s wapped face imageY.我们提出了一个新的三重适应-：.3562σh<$k=ccCCCCC受AdaIN和c k的规范化（TAN）块（三）黑桃。TAN模块引导身份与姿态C（hk）=γk<$h<$k+βk3563在×LCCCCC在在∈∈在s，idt，pose图5：FastSwap与各种源和目标对的结果其中，µ k，σ kRCk×1×1是C方式激活的h k的平均值和标准偏差，β k，γ kRCk×1×1是从具有平坦终端z t，c输入的MLP学习的调制参数。第k个TAN块的总激活被公式化作为请注意，我们使用调整大小的源图像作为Xatt，这与我们的开关测试策略一致。我们引入了一个开关测试策略，考虑了人脸交换任务的训练和测试步骤之间的任务差距。Xs和Xt在训练阶段具有相同的属性，但在测试TANk（hk，zk ，zt，c，zk）（四）阶段考虑到测试阶段，建议使用X t作为X att，但这是一个情况下，G. 是亲-=I.Conv.P（Conv（h k））n+C.Conv（hk）其中hk是第k个TAN块的输入，Convs是11个卷积层，并且为了可读性而省略了ReLU激活。3.2. 数据扩充和开关测试策略我们的数据增强方便FastSwap网络提取身份信息从Xs，姿态信息从Xt，和属性信息从Xatt。我们利用颜色失真的特点进行数据增强。如图3中的Train案例所示，我们分别在Xs和Xt上操作不同的颜色失真增强，因为图像中的身份和姿态信息不会受到颜色失真的影响。另一方面，属性信息对颜色变化敏感。因此，Xatt和地面实况（G. T.）保持其原始颜色，以便从Xatt中提取属性。利用训练阶段Xs和Xt的属性相同这一事实在训练阶段，我们用一个重新调整大小的X设置Xatt，以保持原始颜色然后，在测试阶段，我们用调整后的Xt切换X att，以重构Xt的属性，如图3中的Test 1案例所示此外，我们可以通过调整独立的输入Xatt来生成具有所需属性的各种输出，如图3中的测试2案例所示。第4.4节报告了使用各种Xatt3.3. 培养目标我们结合五个损失来训练FastSwap框架。首先，我们在输出Y和地面真值（G. T.）之间定义重建损失Lrec和基于VGG-19的感知损失[12]Lper接下来，我们利用对抗训练，目标作为输入。因此，我们使用自监督学习3564AdvL↓Adv↑×提高图像质量。鉴别器通过对抗性损失LD进行训练，而FastSwap则通过对抗性损失LG进行;多尺度判别[17]，每个原始的二进制交叉熵损失被替换为铰链损失[15]。为了保持Xs和Xt的身份和姿态，我们利用身份保持损失Lid和姿态重建损失Lpose。L id是用Y和X之间的弧面[7]的身份特征的余弦相似度计算的。L姿势是-2zt，c和zt，c之间的距离，其中zt，c是由被馈送到姿态网络编码器r的输出Y重构的目标代码。期望zt，c接近zt，c，因为Yt意图具有与Xt相同的姿态。FastSwap最终被训练以最小化上述损失的加权和，公式为Lre c（Y），G. T. ）+λpe rLpe r（Y），G. T. ）+λadvLG（Y_n，G. T. ）+λidLid（Y，Xs）（5）+λposeL pose（zt，c，z<$c）其中λ per= λ adv= 1，λ id= 0。1，且λpose= 10。4. 实验4.1. 实现细节FastSwap使用大型人脸数据集Vox-Celeb 2 [5]进行训练。我们使用[18]对齐并裁剪大小为256 256的面部。身份编码器和TAN块中的层数N被设置为2，而姿态网络对特征下采样8次，这导致zs，in∈R128×64×64，zt，c∈R128×1×1。4.2. 定量比较4.2.1评估指标我们使用各种评估指标来比较交换过程的效率和结果的可接受性。具体来说，我们使用 1 ）每秒帧数（FPS）表示交换速度，这是在一个RTX2080Ti GPU的通用环境下2)测量计算复杂度的乘法累加运算（MAC）和3）参数的数量（Param. ），4）身份相似性（ID），来自输出的Arc- face [7]的嵌入向量与评估身份匹配的源图像之间的余弦相似性，5）姿势误差（Pose），通过使用合成图像和目标图像的68个地标[2]的头部姿势的归一化平均误差，以及6）Frechet-起始距离（FID）[10]测量以目标图像作为基础事实计算的感知真实性。表1：与评价指标的定量比较结果。表示值越高，性能越好，而表示相反。最佳性能以粗体表示，次佳性能以下划线表示。4.2.2实验结果为了进行定量比较，我们从VoxCeleb2测试集中抽取了118个视频（每个人一个视频），并在野生环境中交换了10个按性别和种族均匀分布的源面孔。表1分别在两个部分中示出了与先前的神经讲话头部框架和面部交换框架的比较结果。FastSwap在看到FPS、MAC和Param时以最快的速度交换面部，参数和计算成本最少。.即使MAC和参数。的LPD相对与Ours-M相当，LPD不可避免地需要几次微调过程。由于FaceShifter专注于保留意外属性，因此FaceShifter具有使用目标图像计算的最低FIDFSGAN具有最低的姿势，因为FSGAN倾向于以丢失源图像的身份为代价来保持目标图像的眼睛、鼻子和嘴的形状和大小。然而，可以说FastSwap在通过整体ID、Pose和FID值进行判断时以高质量保留了源的身份和目标最后，我们的研究可能会例外地显示出与COM模型相当或更低的保真度，但很明显，我们的框架在交换速度方面具有明显的优势，比FaceShifter快7倍。4.3. 定性比较我们将FastSwap与最先进的神经发声头框架FOMM[19]，LPD [3]和OSFV [20]进行了比较，如图6所示神经说话头方法遵循源图像的背景和属性，而我们的框架遵循目标图像的背景和由于框架遵循不同的背景，我们使用Graphonomy [8]屏蔽了每个框架结果的背景。我们将没有背景的结果表示为Ours-M。在这里，由于肤色根据属性而变化，因此一眼就比较身份是具有然而，我们的框架打赌-方法FPS↑MAC ↓参数↓ID↑姿势↓FID↓FOMM41.6456.24G73.98M0.650.88138.29LPD57.8130.81G40.07M0.680.96138.45OSFV10.97384.65G195.08M0.661.01143.57Ours-M123.2214.34G26.50M0.700.7190.63FSGAN6.62846.84G226.36M0.380.5788.52SimSwap24.4855.79G107.24M0.480.6677.46FaceShifter17.3681.58G418.75M0.440.7042.40我们123.2214.34G26.50M0.540.6160.083565图6：与最先进的神经说话头方法的比较。我们的-M表示我们的结果，为了便于比较，背景被掩盖了。图7：与最先进的人脸交换方法的比较。ter在单独查看面部组件此外，我们的框架在观察瞳孔的运动或嘴巴的形状时最好地重建了目标的姿势。图6的第3行显示了FastSwap即使对于低保真度输入也能确定目标姿态图7示出了与面部交换中的最先进方法图8：使用各种Xatt时FastSwap的结果。结果遵循Xatt的属性，特别是唇妆和肤色，同时保持相同的身份和姿势。[16][14]，[15]，[16]，[17]，[18]，[19]。从结果的眼睛、瞳孔和嘴唇运动来看，我们的框架最好地再现了目标图像的姿势。此外，FastSwap不仅在不丢失身份的情况下替换了源人脸，而且通过将可信的属性应用于重现的人脸，生成了照片般逼真的结果。虽然在SimSwap和FaceShifter（第1行）中更好地应用了疤痕等意外属性，但FastSwap侧重于保留源身份，包括胡须（第2行）、皱纹（第4行）和痣（第5行）。图1右下结果和图7第5行显示，FastSwap可以提取输入图像的身份和姿态，即使图像是卡通或绘画。4.4. 可控属性编辑在之前的实验中，我们专注于人脸交换任务，只使用两个图像输入，将目标图像放在Xatt中。然而，我们的框架可以通过使用具有所需属性的额外图像来单独编辑结果的属性我们通过用几个不同的图像替换Xatt，同时保持输入Xs和Xt相同，将结果可视化在图8图8显示了根据Xatt的属性（例如肤色和化妆）创建的结果，同时保持相同的姿势和身份。与以前的作品不同，我们的框架可以自由地产生代表所需的属性的结果，只改变X属性。4.5. FastSwap分析4.5.1TAN块为了验证TAN块中每个自适应归一化的必要性，我们将结果与没有身份和姿势激活函数（I，P和C）的模型进行比较，分别为3566∈∈×图9：FastSwap与分离TAN阻滞自适应归一化（I、P和C）的消融模型的比较结果活泼地图9显示了TAN阻滞消融研究的结果如图9所示，TAN块的I提高了输出的分辨率，并集成了源图像的详细标识TAN块的P主要影响眼睛和嘴唇等细节姿态的再现。TAN块的C重建目标图像的总体姿态结果表明，I、P和C整合了身份和姿态信息，如第3.1.3节所述4.5.2数据增强为了检查我们的数据增强（D.A.）的效果，我们将结果与未经DA训练的模型进行比较。在图10中。尽管使用开关测试策略将目标图像输入为X，但模型w/o D.A.遵循源图像的属性，因为它是用源图像属性训练的。X att变得毫无意义，因为模型在没有D.A.的情况下训练。从X s中提取身份和属性，从X t中提取姿态。结果表明，我们提出的D.A.引导FastSwap在训练过程中从Xs、X t和X att，re-turn中提取身份、姿态和属性信息。4.5.3深设计为了分析我们的深度设计是否合理，我们将结果与图11中的深度身份编码器模型1*1 ID（zs，inR128×1×1）和浅层姿态网络模型64*64 Pose（zt，cR128×64×64）进行了比较。1*1 ID显示极端姿态和属性损失，导致低保真度交换结果，64*64 Pose完全重建目标面部。结果表明，将目标代码zt ， c降低到1 1空间分辨率有助于FastSwap提取姿态，而不是目标图像的身份原始的浅身份编码器通过最小化空间特征尺寸的损失来改善来自源图像的身份细节原始的深度姿态网络通过防止来自目标图像的身份泄漏来诱导激活P和C简而言之，我们的深度设计图 10 ：使用和不使用拟定数据扩充（ D.A. ）的FastSwap比较结果。图11：改变深度设计时FastSwap的结果。1*1 ID和64*64 Pose分别指的是深度标识编码器模型（N= 8）和其中姿态网络仅下采样Xt两次的模型。支持TAN块，防止目标图像身份泄露，提高了源图像身份细节。5. 结论我们已经提出并评估了我们的新的人脸交换-平框架，FastSwap，它实现了实时交换和保存的身份，姿态和属性的给定输入。本文的主要贡献是TAN块，它将身份和姿势整合在轻量级网络。我们的第二个发现是，即使我们在训练过程中使用源图像，具有数据增强的切换测试策略也可以从目标图像中提取属性。我们的策略促进了可控的属性编辑，以前通过额外的程序，一个轻量级的一阶段框架.未来的工作将是对操作意外属性的改进。确认这项工作得到了MSIT（韩国）资助的信息通信技术促进研究所（ IITP ）赠款的支持（ No.2020-0-00440）。3567引用[1] Volker Blanz和Thomas Vetter。三维人脸合成的可变形在Proceedings of the 26th annual conference onComputer graphics and interactive techniques ，pages 187[2] Adrian Bulat和Georgios Tzimiropoulos我们离解决二维三维人脸对齐问题还有多远？(and230，000个3D面部标志的数据集在IEEE计算机视觉集，第1021-1030页[3] 叶戈尔·布尔科夫，伊戈尔·帕谢尼克，阿图尔·格里戈列夫，和维克多·列皮茨基。神经头再现与潜在的姿态描述符。在IEEE/CVF计算机视觉和模式识别会议论文集，第13786-13795页[4] 陈仁旺、陈玄鸿、倪冰冰、葛炎昊。Simswap：一个高效的高保真人脸交换框架第28届ACM国际多媒体会议论文集，2003[5] J. S. Chung，A. Nagrani和A.齐瑟曼。Vox-celeb2：深度说话人识别。在INTERSPEECH，2018年。[6] DeepFakes Deepfakes github repository. https：//github.com/deepfakes/faceswap，2019年。访问时间：2021-11-28。[7] 邓健康，贾国，薛念南， Stefanos Zafeiriou 。Arcface：用于深度人脸识别的附加角度余量损失。在IEEE/CVF计算机视觉和模式识别会议论文集，第4690-4699页[8] Ke Gong，Yiming Gao，Xiaodan Liang，XiaohuiShen，Meng Wang，and Liang Lin.Graphonomy：通过图迁移学习的通用人类解析。在IEEE/CVF计算机视觉和模式识别会议论文集，第7450- 7459页[9] Sungjoo Ha ， Martin Kersner ， Beomsu Kim ，Seokjun Seo，and Dongyoung Kim.提线木偶：少镜头的面部重现，保留未被看到的目标的身份。在AAAI人工智能会议论文集，第34卷，第10893-10900页[10] Martin Heusel ， Hubert Ramsauer ， Thomas Un-terthiner，Bernhard Nessler，and Sepp Hochreiter.两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。神经信息处理系统的进展，30，2017。[11] Xun Huang和Serge Belongie。任意风格的实时传输与自适应实例规范化。在IEEE计算机视觉国际会议论文集，第1501-1510页[12] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失。在欧洲计算机视觉会议上，第694-711页。施普林格，2016年。[13] Lingzhi Li ， Jianmin Bao ， Hao Yang ， DongChen，and Fang Wen.易容师：实现高保真度和遮挡感知的人脸交换。 arXiv 预印本 arXiv ：1912.13457，2019。[14] Lingzhi Li ， Jianmin Bao ， Hao Yang ， DongChen，and Fang Wen.推进用于伪造检测的高保真身份交换在IEEE/CVF计算机视觉和模式识别会议（CVPR）上，2020年6月。[15] Jae Hyun Lim和Jong Chul Ye。几何杆arXiv预印本arXiv：1705.02894，2017。[16] 尤瓦尔·尼尔金，约西·凯勒，塔尔·哈斯纳。Fsgan ：主题不可知的面部交换和重演。在IEEE/CVF计算机视觉国际会议论文集，第7184-7193页[17] Taesung Park，Ming-Yu Liu，Ting-Chun Wang，Jun-Yan Zhu.具有空间自适应归一化的语义图像合成。在IEEE/CVF计算机视觉和模式识别会议论文集，第2337-2346页[18] Ivan Perov，Daiheng Gao， Nikolay Chervoniy ，Kun-linLiu ， Sug asaMarangonda ， ChrisUme' ，MrDpfks ， Carl Shift Facenheim ， Luis RP ， JianJiang，et al.深层洁面：一个简单、灵活、可扩展的人脸交换框架 . arXiv 预印本 arXiv ：2005.05535，2020。[19] AliaksandrSiarohin ， Ste'phaneLathuilie`re ，SergeyTulyakov，Elisa Ricci和Nicu Sebe。图像动画的一阶神经信息处理系统进展，32：7137-7147，2019。[20] Ting-Chun Wang，Arun Mallya，and Ming-Yu Liu.用于视频会议的单镜头自由视角神经说话头合成。在IEEE/CVF计算机视觉和模式识别集，第10039-10049页[21] Yuhan Wang ，Xu Chen ，Junwei Zhu ，WenqingChu ， Ying Tai ， Chengjie Wang ， Jilin Li ，Yongjian Wu，Feiyue Huang，and Rongrong Ji.三维形状和语义先验引导的高保真人脸交换。arXiv预印本arXiv：2106.09965，2021。[22] Olivia Wiles，A Koepke，and Andrew Zisserman.X2face：一个网络，用于控制面部生成使用图像，音频和姿势代码。在欧洲计算机视觉会议（ECCV）的会议记录中，第670-686页3568[23] Guangming Yao、Yi Yuan、Tianjia Shao、ShuangLi、Shanqi Liu 、Yong Liu、 Mengdeng Wang 和Kun Zhou。使用ap-perception自适应归一化的单次面部重现。arXiv预印本arXiv：2102.03984，2021。[24] Egor Zakharov、Aleksei Ivakhnenko、AliaksandraShysheya和Victor Lempitsky。快速双层神经合成一次真实头像。在欧洲计算机视觉会议上，第524Springer，2020年。[25] Egor Zakharov 、 Aliaksandra Shysheya 、 EgorBurkov和Victor Lempitsky。现实神经说话头模型的少镜头对抗学习在IEEE/CVF计算机视觉国际会议论文集，第9459-9468页[26] 曾先芳，潘玉苏，王梦梦，张江宁，刘勇.通过自我监督的身份和姿态的解开现实的脸再现。在AAAI人工智能会议论文集，第34卷，第12757-12764页[27] Yunxuan Zhang ，Siwei Zhang，Yue He，ChengLi，Chen Change Loy，and Ziwei Liu.一次面部修复。arXiv预印本arXiv：1908.03251，2019。

下载后可阅读完整内容，剩余1页未读，立即下载