双生成器网络用于大姿势脸部再现

159 浏览量更新于2023-10-25 收藏 29.54MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

{jison, m10903418, m10703435}@mail.ntust.edu.tw6420双生成器脸部再现0徐基恩蔡俊宏吴宏毅台湾科技大学，台北，台湾0摘要0我们提出了双生成器（DG）网络用于大姿势脸部再现。给定源脸和参考脸作为输入，DG网络可以生成一个输出脸，其姿势和表情与参考脸相同，并且与源脸具有相同的身份。由于大多数方法并没有特别考虑大姿势再现，所以我们的方法通过将3D地标检测器纳入框架并考虑捕捉大姿势下可见局部形状变化的损失函数来解决这个问题。DG网络由两个模块组成，即保持身份的形状生成器（IDSG）和再现脸生成器（RFG）。IDSG将参考脸的3D地标编码为参考地标代码，并将源脸编码为源脸代码。参考地标代码和源脸代码被连接并解码为一组目标地标，展示了参考脸的姿势和表情，并保持了源脸的身份。RFG部分基于StarGAN2生成器进行构建，对输入和层设置进行了修改，并添加了面部风格编码器。给定由IDSG生成的目标地标和源脸作为输入，RFG生成具有所需身份、姿势和表情的目标脸。我们在RaFD、MPIE、VoxCeleb1和VoxCeleb2基准测试上评估了我们的方法，并与最先进的方法进行了比较。01. 引言0给定源脸和参考脸，脸部再现是指将参考脸的动作转换为源脸。动作指的是姿势和面部表情。挑战在于参考脸和源脸的动作相似性以及转换后保持源身份。这是计算机视觉领域的一个活跃研究课题，在近年来越来越受到关注[23-26]。它在虚拟现实、动画和娱乐等领域有广泛的应用。0近年来提出了各种方法[4,22-25]。其中一类主要方法是基于地标辅助生成（LAG），它利用面部地标来提升动作转换和再现脸生成[4, 22, 24,25]。FReeNet[25]训练了一个地标转换器，将参考地标转移到源脸上，并训练了一个生成器使目标脸展示参考脸的表情，但无法处理姿势转换。FSTH[24]训练了一个嵌入器来编码源脸的地标，并训练了一个生成器将参考脸的动作转移到源脸上。LAG家族的更多方法将在第2节中进行回顾。与现有的LAG方法不同，我们的方法探索了一种双生成器架构，其中一个生成器用于生成保持身份的3D地标，另一个生成器用于使目标脸满足多个目标。由于嵌入了3D地标和训练中考虑的核心损失，我们的方法可以解决大姿势再现这个具有挑战性的问题，但尚未得到足够的关注。0有一些方法可以不使用地标，例如，MGOS[23]使用重建的3D网格作为指导，学习合成目标脸所需的光流。尽管不同方法取得了实质性的进展，但仍有许多问题有待解决。例如，常见的度量标准（如FID、CSIM和SSIM）衡量的性能仍然远未达到理想状态。许多方法存在特定问题。例如，FReeNet只能转移面部表情，无法处理姿势转移。虽然FSTH可以转移姿势和表情，但用于控制转换的面部地标通常不准确，损害了身份保护。另一个重要问题是大多数方法只处理中间姿势变化（偏航角<45°），忽略了大/极端姿势。0为了解决上述问题，我们提出了包含两个生成器的双生成器（DG）网络，即保持身份的形状生成器（IDSG）和再现面生成器（RFG）。给定源面Is和参考面Ir作为输入，IDSG将参考面Ir的姿态和表情转移到源面Is上，Many approaches have been proposed in recent years[4, 18, 22, 23, 25]. A major family of the approaches is theLandmark-Assisted Generation (LAG), which exploits fa-cial landmarks to leverage the expression and pose conver-sion, followed by the reenacted face generation [22,24,25].There are approaches without using landmarks, for ex-ample, the Mesh Guided One-Shot (MGOS) [23] and theX2Face [21]. However, most approaches only concern me-dian pose variation, i.e., the yaw angle < 45o and ignorelarge/extreme poses. The proposed approach belongs to theLAG family, but it can handle large/extreme poses, in addi-tion to the common median pose variation.The ReenactGAN [22] employs an encoder to encodefaces into a boundary latent space defined by the heatmapsof facial landmarks. A boundary-based transformer is madeto convert the reference’s boundary to the source’s bound-ary, and an identity-specific decoder synthesizes the trans-formed boundary to the reenacted face. Although the Reen-actGAN can generate good quality target faces, it needs toretrain a new face boundary transformer and decoder when6430生成目标地标估计ˆlt。RFG将目标地标估计ˆlt和源Is作为输入，并生成显示与参考面部Ir相同动作但与源Is相同身份的再现面ˆIt。为了处理大姿态参考，我们嵌入了一个3D地标检测器，并考虑了一个目标函数，以捕捉从正面到侧面的姿态相关的局部形状变化。我们在具有完整姿态变化的数据集上训练DG网络，以便学习跨大姿态的地标运动和身份保持。我们总结本文的贡献如下：•验证了ID-preserving ShapeGenerator（IDSG）在生成具有所需姿态和表情的保持身份的面部形状方面的有效性。0•验证了再现面生成器（RFG）在生成具有所需姿态和表情的保持身份的目标面方面的有效性。0与LAG系列中大多数使用2D地标的方法不同，我们使用损失函数嵌入3D地标，以捕捉可见的局部形状变化，从而处理大姿态面部再现。0•在RaFD、MPIE、VoxCeleb1、VoxCeleb2基准测试上优于最先进的方法。我们的代码、模型和更多定性结果可在https://github.com/AvLab-CV/Dual_Generator_Face_Reenactment上找到。接下来，我们首先在第2节回顾相关工作，然后在第3节介绍提出的方法，然后在第4节进行性能评估实验，最后在第5节进行总结。02. 相关工作0应用于未知身份。Few-Shot TalkingHead（FSTH）[24]由一个嵌入网络、一个生成器和一个鉴别器组成，用于激活少样本学习。嵌入网络将面部转换为个性化嵌入向量，这些向量输入到生成器的层中以生成所需的再现面部。FReeNet[25]由一个地标转换器和一个生成器组成，用于面部表情转换。地标转换器将源和参考的地标特征转换为具有参考表情的目标地标。生成器使用转换后的目标地标和源面部进行再现。FReeNet仅转换面部表情，不转换姿势，因此再现面部与源面部处于相同的姿势，对应用造成了很大的限制。PuppeteerGAN[4]由一个用于姿势重定向的草图网络和一个用于外观转换的着色网络组成。前者使用源的分割掩模和参考的地标生成目标的分割掩模和地标，后者使用这些目标来使目标保持源身份和参考动作。0一些方法不属于LAG系列，并考虑不同的注释或关键点来捕捉姿势和表情的转换。为了改善身份保留，MGOS[23]使用重建的3D网格来学习目标脸部合成所需的光流。学习基于直接从3D密集网格中获得的光流，能够提供足够的形状和姿势信息来重建源脸部的表情和姿势。First OrderMotion（FOM）模型[18]由关键点检测器、运动网络和生成器组成。运动网络将运动表示用于生成从参考到源的密集光流。生成器利用光流和遮挡图将源外观和参考运动相结合，生成所需的目标脸部。X2Face[21]由嵌入网络和驱动网络组成。嵌入网络学习跨源脸部的面部表示，具有不同的姿势和表情，驱动网络学习像素采样器，将源脸部的像素转换为生成目标脸部。0由于提出的DG网络中的RFG模块是基于StarGAN2[6]开发的，我们对其进行简要回顾。StarGAN2旨在解决StarGAN[5]的问题，后者在每个视觉域中学习确定性映射，并且无法捕捉多模态数据分布的特性。StarGAN2用特定于域的样式编码替换了StarGAN中的域标签，以表示特定域的样式。它包括两个模块，映射网络和样式编码器。这两个模块都有多个输出分支，每个分支为特定域提供样式编码。StarGAN2生成器学习合成图像。6440图1. DG网络由两个生成器组成，即ID保留形状生成器（IDSG）和再演生成器（RFG）。给定源脸部I s 和参考脸部I r 作为输入，IDSG将I r的动作转换为I s 的动作，以标记点ˆ l t 的形式展现。RFG以ˆ l t 和I s 作为输入，生成具有与I r 相同动作的再演脸部ˆ I t ，并具有与I s相同的身份。0通过使用样式编码，该网络可以在多个领域之间生成图像。03. 提出的方法0双生成器（DG）网络由两个主要模块组成，即ID保留形状生成器（IDSG）和再演生成器（RFG）。配置如图1所示。IDSG包括面部编码器E f、面部标记点检测器Fl、标记点编码器E l 和标记点解码器R l 。给定源脸部I s和参考脸部I r 作为输入，它生成一组目标标记点估计ˆ l t作为输出。RFG包括面部生成器G f 和风格编码器E s。将目标标记点估计ˆ l t 和源脸部I s作为输入，RFG生成所需的目标脸部ˆ I t ，使得ˆ I t 和I s具有相同的身份，并且ˆ I t 和I r在姿势和表情方面具有相同的动作。IDSG和RFG都经过自我再演训练，使用地面真实数据I t 和l t进行训练，然后进行跨身份再演训练（跨再演），以处理未知主体。有关上述组件和模块的详细信息，请参见补充材料中的网络架构和设置。03.1. ID保留形状生成器0IDSG（ID保留形状生成器）旨在通过面部标记点将参考脸部I r 的姿势和表情转换为源脸部I s。该问题被定义为将参考面部标记点l r转换为目标标记点估计ˆ l t ，使得ˆ l t 保留源脸部I s的身份特征，同时展现参考脸部I r的姿势和表情。为了解决这个问题，我们设计了一个编码器-解码器标记点生成器G l = [E l, R l]，其中E l表示标记点编码器，R l是标记点解码器。在训练阶段，标记点生成器G l与标记点鉴别器D l 和基于标记点的主体分类器C l一起工作。鉴别器D l通过将生成的标记点与源图像上获得的实际标记点区分开来，验证G l 生成的标记点的质量。主体分类器C l根据参考脸部的标记点对主体进行分类。0参考数据集，即C_l通过考虑相应的地标对个体进行分类。除了上述四个主要组件E_l、R_l、D_l和C_l之外，IDSG还包括一个3D面部地标检测器F_l和一个面部编码器E_f。这两个网络都是现成的模型，在训练过程中不进行更新。我们使用FAN（面部对齐网络）[1]作为3D地标检测器F_l，使用VG-GFace2[3]的特征嵌入层作为面部编码器E_f。地标检测器F_l检测2D面部的3D地标，并将每个地标标记为可见或不可见，允许我们开发用于处理大姿态再现的可见局部形状损失。面部编码器E_f提供了优化IDSG生成的地标所需的身份损失。下面给出了主要模块的详细信息。0•E_l是由五个全连接（fc）层和一个泄漏ReLU[15]激活函数组成的多层感知机（MLP），它生成一个动作编码γ来表示一组地标的姿态和表情。0•地标解码器R_l的结构与E_l相反，由五个fc层和泄漏ReLU激活函数组成。它接受动作编码γ与面部ID编码r_s连接，生成估计的目标地标ˆl_t。0•地标判别器D_l和主体分类器C_l的结构与地标编码器E_l相同，输入具有相同的维度（由于地标输入具有相同的维度），但输出维度不同。D_l的输出维度为1，用于区分生成的地标和真实的地标；而C_l的输出维度为训练集中要识别的主体数量。我们不仅生成目标地标估计ˆl_t，还通过将参考脸作为源脸输入来生成参考地标估计ˆl_r。本研究的一个创新之处在于损失函数，特别是可见局部形状损失，它能够处理大姿态的形状切换。我们考虑以下损失：对抗损失、可见局部形状损失、动作损失、主体类别损失和定位损失。0对抗损失为了使目标地标估计ˆl_t = G_l(l_r,I_s)展现出实际的一组地标，以下是对抗损失的公式：6450训练地标生成器G_l和判别器D_l需要以下对抗性损失：0L_adv G_l = − E_l_r � p(l_r),I_s � p(I_s) log [1 − D_l(G_l(l_r, I_s))](1)0L_adv D_l = E_l_r � p(l_r) log [D_l(l_r)]+0E_l_r � p(l_r),I_s � p(I_s) log [1 − D_l(G_l(l_r, I_s))] (2)0可见局部形状损失（VLS）损失L_vls提出了两个目标。一个是捕捉目标地标估计ˆl_t在大姿态下的形状变化，例如，当将脸部旋转到大于45°的偏航角时，一个眼睛被遮挡，然后再旋转回来时重新出现。另一个目标是使ˆl_t与参考地标l_r相距较远，同时使估计的参考地标ˆl_r更接近真实的参考地标l_r，因为ˆl_t是为源图像I_s生成的，必须与参考地标l_r相距较远，而ˆl_r是为参考图像I_r生成的，必须与l_r相距较近。我们将地标分为五组，分别是左眼、右眼、鼻子、嘴巴和脸部轮廓。由3D地标检测器F_l给出的地标坐标可以用来标记可见和不可见的地标，我们可以学习可见/不可见地标在大姿态下的变化，并在训练过程中最小化每个区域的以下VLS损失。0L_k_vls = �� l_k_r,v − ˆl_k_r,v �� 1 − �� l_k_r,v −ˆl_k_t,v �� 1 + σ_k (3)0其中Lkvls是定义在区域k（k = 1, 2, ...,5，分别对应左眼、右眼、鼻子、嘴巴和脸部轮廓）的VLS损失；v =0或1是可见性指示器；σk是实验中确定的边界参数。我们仅计算可见的关键点的Lkvls，即v =1。由于关键点检测器Fl可以按照特定顺序对每个关键点进行编号，而不受姿态的影响，我们按照其编号将每个区域的关键点分组。ˆlt的生成由[γ, rs]驱动，ˆlr的生成由[γ,rr]驱动，其中rs和rr分别是源图像Is和参考图像Ir的面部ID编码。VLS损失Lvls通过使用参考关键点编码γ约束ˆlr和ˆlt的生成，奖励lr和ˆlr之间的接近度，并惩罚lr和ˆlt之间的相似度。动作损失为了更好地复制参考图像的姿势和表情，我们最小化以下动作损失La，计算参考关键点和目标关键点估计之间的差异。0La = ||El(ˆlt) - El(lr)||1 (4)0主题类别损失我们使用主题分类器Cl来计算以下主题类别损失LCl，以使ˆlt保持不变0形状空间中的主题身份。0LCl = Elr�p(lr)[-logP(si|Cl(lr))] (5)0其中si是参考面部Ir的ID标签。定位损失为了使生成的关键点位于期望的位置，使用定位损失Ll来最小化lr和ˆlr之间的距离，以及lt和ˆlt之间的距离（在自我重现训练阶段可以获得真实关键点lt时）。0Ll = ||ˆlt - lt||1 + ||ˆlr - lr||1 (6)0请注意(6)中的全局加性设置和(3)中的局部对抗设置之间的差异，以及不同的期望目标。在训练IDSG时，最小化上述五个损失的加权和。0LIDSG = LadvGl + λvLvls + λaLa + λcLCl + λlLl (7)0其中λl，λc，λv，λa是在实验中确定的权重。03.2. 重现面部生成器0重现面部生成器（RFG）以目标关键点估计ˆlt和源图像Is作为输入，并生成重现的面部图像ˆIt作为输出。所需的ˆIt必须与源面部图像Is具有相同的身份，并具有与参考面部图像Ir相同的姿势和表情。它由编码器-解码器生成器Gf和风格编码器Es组成。在训练过程中，Gf和Es与面部鉴别器Df和形状鉴别器Ds一起学习，以生成所需的目标面部图像ˆIt。上述模块的详细信息如下。0•风格编码器Es由六个下采样残差块组成，旨在从源图像Is中提取面部风格编码ss =Es(Is)。ss将输入到生成器Gf的各层中，以保留生成的目标图像ˆIt的源身份。0•生成器Gf由四个下采样残差块、四个中间残差块和四个上采样残差块组成。AdaIN [11,12]应用于将面部风格编码ss输入到最后两个中间残差块和所有上采样残差块中，以生成目标面部图像ˆIt =Gf(ˆlt,ss)。我们以关键点地图的形式将ˆlt输入到Gf中，关键点地图是一个二值图像，其中每对相邻的关键点由一条边连接。0•面部鉴别器Df和形状鉴别器Ds的结构与风格编码器Es相同，但都具有1D输出，用于区分生成的面部图像和真实的面部图像。Df的输入是ˆIt，Ds的输入是Fl(ˆIt)。LadvG= −Eˆlt∼p(ˆlt),Is∼p(Is) log�1 − Df�G(ˆlt, Is)��(8)LadvDf =EIt∼p(It) log�Df (It)�+Eˆlt∼p(ˆlt),Is∼p(Is) log�1 − Df�G(ˆlt, Is)��(9)LadvDs =EFl(It)∼p(Fl(It)) log [Ds (Fl(It))] +EFl(ˆlt)∼p(Fl(ˆlt)) log�1 − Ds�Fl(ˆIt)��(10)Lat =ˆIt − It1(11)Lid = 1 − cos(Ef(ˆIt), Ef(Is))(12)Lst =�Es(ˆIt) − Es(Is)�1(13)Llm =�Fl(ˆIt) − ˆlt�1(14)LRF G = LadvG +λatLat+λidLid+λstLst+λlmLlm (15)6460尽管生成器 G f是基于StarGAN2构建的，但差异包括输入风格信号 s s的层设置、二进制图像中的源格式、判别器设置和损失函数。在可用真实目标 I t进行自我再现的RFG训练时，我们考虑以下损失函数。0对抗损失强制生成的目标图像ˆ I t 符合两个要求：1）ˆ I t必须作为具有与源图像 I s 相同身份的真实人脸出现；2）ˆ It 必须与参考图像 I r中的动作相同。为了满足这些要求，需要以下对 G、D f 和D s 的对抗损失：0属性损失为了使生成的目标图像ˆ I t的图像属性接近于真实目标图像 I t的图像属性，我们利用以下像素级 L1 损失 L at 。0身份损失为了保留源图像 I s 在生成的人脸ˆ I t中的身份，我们使用由VGGFace2[3]的特征嵌入层组成的人脸编码器 E f来计算以下身份（ID）损失，通过余弦相似度。0风格一致性损失为了使风格编码器 E s 生成与源图像 I s和生成的目标图像ˆ I t 相同的面部风格编码 s s，我们利用以下损失。0地标损失为了使生成的目标人脸ˆ I t出现在所需的动作中，我们利用以下地标损失 L lm来最小化ˆ l t 与ˆ I t 上检测到的地标之间的距离。0用于训练RFG的完整目标函数是上述损失函数的加权和：0其中λ at，λ id，λ st，λ lm是待确定的权重。04. 实验0我们首先介绍数据集，然后介绍评估和实现细节，然后对DG网络的不同设置进行消融研究。通过在正常和大姿势设置下的性能进行与最先进方法的比较。04.1. 数据集和实现细节0我们考虑了受限数据集和非受限数据集。Radboud FacesDatabase（RaFD）[14]和MPIE[9]是提供目标姿势和表情的受限数据集；VoxCeleb1[16]和VoxCeleb2 [7]是非受限（也称为野外）数据集。0RaFD Radboud FacesDatabase（RaFD）[14]由来自67个受试者的8,040张图片组成。每个受试者有8种表情，3种注视方向和5种不同的姿势。所有图像都被调整为256×256像素，并且我们使用FAN在每张脸上检测了68个3D地标。我们遵循FReeNet[25]中的相同设置。训练集由67个受试者组成，每个受试者有8种面部表情，3种注视方向和5种不同的姿势。为了性能评估，我们为每个源身份合成了100个再现图像，其中每个再现图像随机选择了100个来自其他身份的参考图像，共为67个受试者生成了6,700个再现图像。0MPIEMPIE提供了超过750k张图像，涵盖了337个主题的15种姿势、6种表情和20种光照条件。它被选为大姿势再现的评估数据集。我们遵循了[2]中的相同设置。训练集由200个主题组成，包含所有姿势、5种光照条件和4种表情，其余的137个主题组成测试集。训练集用于自我再现，测试集用于交叉再现。我们为交叉再现设计了两个测试协议。一个是为测试集中的每个源身份合成100个再现图像，其中参考图像随机选择自其他身份。另一个是重复实验，但源脸部的偏航角<30°，参考脸部的偏航角>60°。后者在实验中被称为MPIE（大姿势）。0VoxCeleb1VoxCeleb1数据集[16]包含来自YouTube视频的超过100k个话语，涵盖了1251位名人，并分为训练集和测试集。在我们的实验中，所有图像都是从以1fps采样的视频中提取的，调整为256x256像素，并由FAN检测到的3D标记点。我们遵循了FSTH[24]中报告的实验协议，并在训练集上训练了所有模型。为了性能评估，我们通过使用从测试集中的50个视频中随机选择的8帧进行微调，并在相同50个视频的32个保留帧上进行测试（微调和保留帧不重叠）。6470VoxCeleb2 VoxCeleb2[7]是VoxCeleb1的扩展。它包含了6112位名人的超过100万个话语，并分为训练集和测试集。我们以每秒25帧的速度从视频中提取图像，并以与VoxCeleb1相同的方式处理图像。我们再次遵循了FSTH [24]中报告的实验协议。评估指标我们选择了多个指标来测试生成图像的照片逼真度和身份保留性，包括Frechet-Inception距离（FID）[10]，结构相似度（SSIM）[20]和余弦相似度（CSIM）。FID通过测量从真实图像和生成图像中提取的特征之间的分布距离来评估照片的逼真度。该特征是通过使用Inception-V3 [19]的最后一个平均池化层来提取的。SSIM通过测量生成图像与真实图像的低级相似性来衡量。CSIM通过使用从源图像和生成图像中提取的面部特征之间的相似性来衡量生成图像中的身份保留性。我们使用ArcFace [8]的特征嵌入层来提取面部特征，并计算余弦相似度。实施细节我们独立地训练了IDSG和RFG，并在测试时将它们合并。我们从每个身份至少有两个图像进行自我再现训练，并将一个图像用作源图像，另一个图像用作参考图像。基于自我再现训练的模型，我们使用其他身份替换参考图像进行交叉再现训练。我们使用（7）中定义的目标从头开始训练IDSG模块。从比较研究中确定了以下参数。VLS损失（3）中的边界[m i] i = 1，...，5被选为0.05, 0.05,0.1, 0.05和0.2。（7）中的权重被设定为λ l = 0.5，λ c =1，λ vls = 10，λ a =1。我们还使用（15）中给出的目标从头开始训练RFG模块。为了计算（12）中的身份损失，我们从ResNet50[3]上构建的VG-GFace2的最后一个全连接层中提取了2048D特征。（15）中的权重被选为λ at = 10，λ id = 10，λst = 1和λ lm =1。我们的程序使用Pytorch深度学习框架[17]编写。所有实验在装有NVIDIA RTX Titan GPU的Ubuntu18.04上以批量大小4运行。我们使用Adam [13]优化器，β1= 0.01，β2 =0.99。两个模块的学习率分别为1e-5和1e-4。04.2.消融研究0为了更好地确定IDSG和RFG的损失函数设置，我们选择RaFD作为数据集来确定损失函数的设置，并选择MPIE（大姿势）来展示0表1.IDSG上不同损失设置的RaFD数据集上的平均坐标误差（ACE）。基线（BL）指的是仅具有对抗性损失L adv G l 和分类损失L C l 的模型0BL: L adv G l + L C l + L l + L a DG（+ L vls）08.07 ± 2.59 6.93 ± 1.90 6.61 ± 1.65 4.13 ± 1.120表2. RFG在基线（BL）上累加不同损失的性能，使用L adv D f + Lat在RFG上。前四行仅使用D f，最后一行添加了D s0指标 SSIM ↑ FID ↓ CSIM ↑0BL: L adv D f + L at 0.503 58.61 0.2110+ L id 0.643 12.01 0.7750+ L st 0.662 9.92 0.8030+ L lm 0.707 5.59 0.8440DG（+ L adv D s）0.726 3.99 0.8620IDSG。RaFD和MPIE（大姿势）都提供了相同姿势和表情的不同面孔，以便可以进行目标动作的基准比较。IDSG的损失函数我们计算了IDSG生成的地标的平均坐标误差（ACE），使用不同的损失设置。我们定义了一个基线，仅考虑对抗性损失L adv G l 和分类损失L C l，其他损失函数累加到基线上。表1给出了ACE的性能比较。当将定位损失L l 和动作损失L a添加到基线时，ACE减小。当添加VLS损失L vls时，ACE显著改善。由于页面限制，请参阅补充材料进行定性比较。RFG的损失函数表2显示了在RFG基线上累加每个损失函数时的FID、SSIM和CSIM，该基线仅考虑面部鉴别器D f 和属性损失L at 。身份损失L id可以显著提高图像质量和身份保护。风格一致性损失L st和地标损失L lm也增强了整体质量和性能。额外的形状鉴别器D s进一步提高了生成质量和身份保护，如三个指标所示，特别是FID。请参阅补充材料进行定性比较。IDSG的影响图2显示了从MPIE（大姿势）实验中采样的IDSG的效果。当源和参考的姿势接近正面时，仅使用RFG和输入源I s和参考地标l r，即形状信息全部由参考提供而不使用IDSG，可以很好地保留身份。但是生成的面部轮廓看起来与参考相似，而不是源。当参考处于大姿势时，这可能是一个严重的问题。如图2所示的情况，RFG将参考的地标错误地识别为张嘴的模式，并使再现的面孔张嘴。当使用目标地标时X2Face [21]0.7556.50.18FSTH [24]0.7429.50.19FOM [18]0.72325.00.813PuppeteerGAN [4]0.72533.60.7176480图2. 第二行显示了由RFG生成的再现面孔，使用参考地标l r，即不使用IDSG；第三行由DG（=IDSG+RFG）生成0图3.与几种最先进的自我再现方法的比较0表3. VoxCeleb1数据集上与最先进方法的自我再现性能比较0方法（N）SSIM ↑ FID ↓ CSIM ↑0MGOS [23] 0.739 n.a. 0.8220DG 0.761 22.1 0.8310标记估计ˆlt，即由IDSG修正的参考标记，性能得到了显著改善。04.3. 与最先进方法的比较0将在消融研究中确认的最佳设置的DG网络与处理自我再现和交叉再现的最先进方法进行比较。我们对具有可用代码的方法进行了相同的实验。对于没有代码的方法，我们复制了它们论文中的结果和图像样本进行比较。自我再现表3显示了自我再现0表4.与VoxCeleb2、RaFD、MPIE和MPIE（大姿态）上的SOTA方法进行交叉再现性能比较0方法（N） SSIM↑ FID↓ CSIM↑0VoxCeleb20FOM [18] 0.53 54.78 0.7140DG 0.54 51.79 0.7210RaFD0FReeNet [25] 0.717 12.17 n.a.0FOM [18] 0.723 9.37 0.8010DG 0.726 4.79 0.8620MPIE0FOM [18] 0.58 28.34 0.7140DG 0.65 16.55 0.7800MPIE（大姿态）0FOM [18] 0.38 62.88 0.3820DG 0.61 25.66 0.7110与X2face [21]、FSTH [24]、FOM [18]、PuppeteerGAN[4]和MGOS[23]在VoxCeleb1数据集上的性能进行比较。DG网络在所有三个指标上都取得了最佳得分。图3显示了与一些方法和真实情况的定性比较。DG在保留身份和面部表情相似性方面表现更好。然而，由于这些样本都接近正面姿态，因此对于跨大姿态的再现性能需要不同的评估。尽管X2face、FOM和FSTH发布了模型/代码，但只有FOM模型根据我们的测试提供了与论文中报告的类似结果。我们无法使用它们的模型/代码复制X2face和FSTH在论文中报告的性能。图3中的样本是从他们的论文中复制的。0交叉身份表4显示了在VoxCeleb2、RaFD、MPIE数据集上的交叉再现性能。如4.1节所述，MPIE有两个测试协议，其中一个用于测试大姿态性能。很少有方法报告交叉再现的性能，我们只发现FReeNet[25]在RaFD上提供了性能报告。表4中的FOM性能是基于作者发布的模型，我们已经在MPIE和MPIE（大姿态）上重新训练了该模型。DG网络声称在所有基准测试中，包括MPIE大姿态，三个指标中都具有最佳性能。图4显示了与FReeNet和FOM生成的脸部的定性比较。请注意，FReeNet只能处理面部表情转移，无法处理姿态转移，因为生成的脸部与源脸处于相同的姿态。FOM可以为正面姿态的源脸提供良好的结果，但对于具有大姿态的源脸无效。有关交叉再现性能的更多定性比较，请参见补充材料。6490图4.在RaFD上与FReeNet和FOM进行交叉再现比较。顶行显示了参考样本。由DG网络生成的样本用红色边框框起来。0图5. MPIE数据集上的交叉再现样本。04.4. 大姿态再现性能0图5显示了在MPIE上的交叉再现样本与真实情况的比较。为了展示处理大姿态再现的性能，我们从源脸选择了大姿态差异较大的参考样本，并且有一些参考样本处于极端姿态。再现的脸部很好地保留了源身份，并展示了参考样本的姿态和表情。供比较。0图6.在VoxCeleb1上进行大姿势再现的在MPIE上训练的DG（+MPIE）；仅在VoxCeleb1训练集上训练的DG，不包含MPIE；以及在VoxCeleb1训练集上使用MPIE进行大姿势再现的FOM的比较。0为此，我们在MPIE和VoxCeleb1训练集的组合上训练了DG网络，并在测试集上测试了交叉再现性能。图6显示了来自VoxCeleb1的源脸和来自MPIE的极端姿势参考的几个案例。比较包括由FOM制作的结果，因为它对于正面姿势的源具有令人满意的性能。然而，FOM无法处理具有极端姿势的源。如果DG网络在MPIE上进行训练，它对于具有极端姿势的源表现良好，因为MPIE提供了足够的大/极端姿势训练数据。如果训练集不包含MPIE，则性能会下降，因为缺乏足够数量的大姿势训练数据。05. 结论0我们提出了双生成器（DG）网络用于人脸再现。它由两个生成器组成，一个用于生成保持身份的面部形状，具有参考姿势和面部表情，另一个用于生成所需的再现面部。由于大多数方法并未特别考虑大姿势再现，所提出的DG网络通过将3D关键点检测器纳入框架并考虑损失函数来解决这个问题，以捕捉大姿势下可见的局部形状变化。实验证实，DG网络在大多数现有方法考虑的动作范围内表现优于现有方法，并且对于大姿势再现表现令人满意。6500参考文献0[1] Adrian Bulat和Georgios Tzimiropoulos.我们离解决2D和3D人脸对齐问题有多远？（以及一个包含230,000个3D人脸关键点的数据集）. 在ICCV, 2017年3月0[2] Jie Cao, Yibo Hu, Hongwen Zhang, Ran He和Zhenan Sun.在野外实现高保真度的人脸正面化. 在IJCV, 2020年5月0[3] Q. Cao, L. Shen, W. Xie, O. M. Parkhi和A. Zisserman.Vggface2: 一个用于识别不同姿态和年龄的人脸数据集. 在FG,2018年3月, 5月, 6月0[4] Zhuo Chen, Chaoyue Wang, Bo Yuan和Dacheng Tao.Puppeteergan: 带有语义感知外观转换的任意肖像动画. 在CVPR,2020年1月, 2月, 7月0[5] Yunjey Choi, Minje Choi, Munyoung Kim, Jung-Woo Ha,Sunghun Kim和Jaegul Choo. Stargan:统一的生成对抗网络用于多领域图像到图像的转换. 在CVPR,2018年2月0[6] Yunjey Choi, Youngjung Uh, Jaejun Yoo和Jung-Woo Ha.Stargan v2: 多领域的多样化图像合成. 在CVPR, 2020年2月0[7] Joon Son Chung, Arsha Nagrani和Andrew Zisserman.Voxceleb2: 深度说话人识别. 在INTERSPEECH, 2018年5月, 6月0[8] Jiankang Deng, Jia Guo, Niannan Xue和StefanosZafeiriou. Arcface: 深度人脸识别的加性角度边缘损失. 在CVPR,2019年6月0[9] Ralph Gross, Iain Matthews, Jeffrey Cohn, TakeoKanade和Simon Baker. Multi-pie. 图像与视觉计算, 2010年5月0[10] Martin Heusel, Hubert Ramsauer, Thomas Unterthiner,Bernhard Nessler和Sepp Hochreiter.通过两个时间尺度更新规则训练的GAN收敛到局部纳什均衡.在NIPS, 2017年6月0[11] Xun Huang和Serge Belongie.实时任意风格转移与自适应实例归一化. 在ICCV, 2017年4月0[12] Tero Karras, Samuli Laine和Timo Aila.用于生成对抗网络的基于样式的生成器架构. 在CVPR, 2019年4月0[13] Diederik P. Kingma和Jimmy Ba. Adam:一种用于随机优化的方法. arXiv预印本arXiv:1412.6980,2014年6月0[14] Oliver Langner，Ron Dotsch，Gijsbert Bijlstra，Daniel HJWigboldus，Skyler T Hawk，AD VanKnippenberg。Radboud面部数据库的展示和验证。认知与情感，2010年。50[15] Andrew L Maas，Awni Y Hannun，Andrew YNg。整

下载后可阅读完整内容，剩余1页未读，立即下载