FaceDancer：一种新的高保真人脸交换和身份转移方法

11 浏览量更新于2023-10-16 收藏 1.58MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3454FaceDancer：姿势和遮挡感知高保真人脸交换费利克斯·罗斯伯格1，2埃伦·埃达尔·阿克索伊2费尔南多·阿隆索-费尔南德斯2克里斯托弗·英格兰21Berge Consulting，Gothenburg，Sweden2 Halmstad University，Halmstad，瑞典fellow. berge.io，{eren.aksoy，fernando.alonso-fernandez，cristofer.englund} @ hh.se图1：FaceDancer生成的人脸交换结果。摘要在这项工作中，我们提出了一个新的单阶段的方法，主题不可知的人脸交换和身份转移，命名为FaceDancer。我们有两大贡献：自适应特征融合注意力（AFFA）和解释特征相似性正则化（IFSR）。AFFA模块嵌入在解码器中，自适应地学习融合特征和身份信息条件下的特征，而不需要任何额外的面部分割过程。在IFSR中，我们利用身份编码器中的中间特征来保留目标面部中的重要属性我们在各种数据集上进行了广泛的定量和定性实验，结果表明，所提出的FaceDancer在身份传递方面优于其他最先进的网络，同时比大多数以前的方法具有更好的姿态保持能力。代码可在github.com/felixrosberg/FaceDance。1. 介绍人脸交换是一项具有挑战性的任务，旨在将源人脸的身份转换为目标人脸，而人脸交换是一项具有挑战性的任务，设置描述性面部属性，例如目标面部的面部表情、头部姿势和光照。生成这种不存在的面孔对的想法在电影、游戏和娱乐行业中具有广泛的应用[2]。因此，人脸交换在计算机视觉和图形学领域引起了越来越多的交换人脸的挑战仍然是从源人脸实现高保真身份转移，其中一组属性需要与目标人脸中的属性一致。存在两种主流的人脸合成方法：面向源和面向目标的方法。前一种方法首先将源面部与目标面部中捕获的属性合成，然后将源面部混合到目标对应部分中[2]，[30]，[31]。这些技术在处理照明、遮挡和复杂性方面仍然存在困难。后一种方法直接将目标人脸的身份转换为源人脸中的身份[8]，[27]，[45]，[40]，[39]，[3]。这些方法特别依赖于使用单阶段优化设置的生成对抗网络（GAN）。这有助于保留目标图像属性，例如姿势和照明，而不需要任何额外的处理步骤，e.G. [27][28][29]在这项工作中，我们介绍了一种新颖的，目标导向的，1在Vinova项目MIDAS内完成的工作（2019-05873）。r3455单阶段方法，称为FaceDancer，用于处理挑战，例如，照明、遮挡、姿势和语义结构（见图1）。①的人。FaceDancer简单、快速、准确。我们的核心贡献是双重的：首先，我们介绍了一个自适应特征融合注意力（AFFA）模块，它在训练过程中自适应学习，以产生可以门控特征的注意力掩码。受最近的方法[27]和[39]的启发，AFFA模块嵌入在解码器中，并在不需要任何额外的面部分割过程的情况下学习属性特征AFFA中的传入特征图是已经以源身份信息为条件的特征，但也是编码器中未条件化的目标信息的跳过连接（参见图11）。2）的情况。简单地说，AFFA模块允许FaceDancer学习哪些条件特征（例如，身份信息）丢弃以及哪些无条件特征（例如，背景信息）以保持在目标面中。我们的实验表明，从AFFA模块门控考虑-很好地改善了身份转移。其次，我们提出了一个解释特征相似性正则化（IFSR）的方法，以提高属性的保护。IFSR规范化FaceDancer，以增强面部表情，头部姿势和照明的保留，同时仍然以高保真度传输身份。更具体地说，IFSR通过比较目标、源和生成的面部三元组中这些特征的余弦距离分布来探索身份编码器中中间特征之间的相似性，这些特征是从预先训练的最先进的身份编码器ArcFace [12]中学习的2）的情况。我们对FaceForensic++[34]和AFLW 2000 -3D [44]数据集进行了广泛的定量和定性实验，并表明所提出的FaceDancer在身份转移方面明显优于其他最先进的网络，同时保持比大多数以前的方法更好的姿势保持。为了解决我们网络的可扩展性，我们进一步将FaceDancer应用于具有苛刻失真的低分辨率图像，并定性地表明FaceDancer仍然可以改善与其他方法相比，2. 相关工作有两种主要的面部交换方法：面向源和面向目标的方法。虽然我们提出的方法属于后一类，我们在这里提供了一个简短的回顾与这两种方法相关的文献。面向源的方法首先对源人脸进行变换以匹配目标人脸的表情和姿态，然后与目标帧融合。最早的方法之一是Digital Emily项目[2]，该项目通过对单个演员进行昂贵且耗时的3D扫描来执行面部交换。然而，使用此方法准备一个面以插入场景可能需要数月时间。Banz等人[4]提出了利用3D的早期方法可变形模型（3DMM）[13]，用于生成具有匹配目标属性的源面。然而，这种方法带来的代价是，对于每个图像，必须仔细地标记出主体头发。Nirkin等人[31]还利用3DMM从目标面部提取姿态和表情系数这些系数，然后采用重建的源面。重建的图像最终与面部分割网络的输出相结合，以自动化整个面部交换过程。然而，这种方法在纹理和光照条件下会遇到困难。FSGAN [30]介绍了一种重演网络，特别设计用于基于目标地标重演源面部在这项工作中，混合过程是在一个额外的步骤中进行的，该步骤将分割网络的输出与绘画网络的输出结合在一起。这种方法还与照明条件作斗争。更重要的是，由于依赖于目标地标进行再现，再现的源在具有有效的身份转移方面不足。面向目标的方法主要依赖于生成模型来操纵编码目标面部的特征，以及半监督损失函数或正则化方法来保留属性。几乎所有这些方法，包括我们的方法，都利用面部识别模型来提取身份信息，以便稍后用于目标特征的条件化。FaceShifter [27]通过具有以半监督方式训练的属性编码器-解码器模型来鲁棒地传输身份，同时保持属性。该模型与生成器耦合，该生成器注入源身份信息并自适应地学习以在生成器和属性模型之间选通特征。FaceShifter还有一个辅助阶段来提高遮挡意识。这种方法在识别和遮挡方面取得了很好的成功，但在硬姿势方面却很困难，这是通过我们新的IFSR损失函数解决的Sim-Swap [8]有一个编码器-解码器模型，它利用身份信息来操纵瓶颈特征。为了保留属性，SimSwap使用pix2pixHD [38]的特征匹配损失的修改版本该方法实现了最先进的性能，用于在对身份可转移性的可论证的大折衷下保留姿态HifiFace [39]使用GAN和3DMM的组合来实现最先进的身份识别性能。虽然HifiFace产生高分辨率的照片级真实感人脸交换，但它似乎没有显着改善姿势，并且比SimSwap表现更差。此外，HifiFace依赖于3DMM模型，该模型仅适用于高分辨率图像[18]，[13]。我们的方法不同于这些方法，因为我们的依赖于身份编码器的简单性，可以处理苛刻的图像失真，如文物出现在低分辨率图像。我们的方法还达到了最先进的身份性能，并提高了姿势保持，3456图2：我们提出的单阶段人脸交换网络FaceDancer的概述。左图：FaceDancer在训练过程中的信息流。黑线表示标准信息流，红线表示周期一致性损失信息流，虚线表示损失的输入（3.4节）。请注意，ArcFace模型有两个实例，只是为了避免图中有多个相交的箭头。右：RB代表ResBlock。Xs是源面部，Xt是目标面部，Xc是改变的面部，zid是从ArcFace提取的身份向量，wid是映射的身份向量，h是传入特征图，并且za是跳过连接特征图。层Resample表示缩写为“down”的平均池化操作层Concat RB在没有AFFA模块的情况下级联h和za对比一下HifiFace。3. 方法本节描述了FaceDancer网络架构图中所示。2，连同AFFA模块，IFSR方法和损失函数。在本文中，我们使用以下符号：Xt指的是目标脸，这是要操纵的人脸图像，Xs定义的源脸，这是其身份被转移的脸的图像，和Xc是改变的脸表示操纵的目标脸与源脸的身份3.1. 网络架构FaceDancer涉及生成器和鉴别器，形成与映射网络和ArcFace [12]耦合的条件GAN模型，如图所示。二、生成器：生成器G依赖于与映射网络M相结合的类似于U-Net的编码器-解码器架构（参见图2）。编码器由一组残差块组成，其中滤波器的数量逐渐增加。解码器还涉及一组残差块，每个残差块采用自适应实例归一化（AdaIN）[19]，[23]，[8]或AFFA模块或连接层，用于利用编码的跳过连接。G的主要目的是从编码图像Xt生成Xc，同时将特征图调节在从Xs提取的映射单位向量wid上，如图1中左侧所示二、鉴别器：用于对抗性损失的CDID与StarGan-v2 [9]和Hi中的CDID相同fiFace [39]，除了我们省略了多任务区分，因为我们使用铰链损失。测绘网络：FaceDancer有一个映射网络M来提高G的性能，如[23]，[24]，[22]，[9]，[21]中所示。映射网络学习将初始身份分布转换为新的分布，以便特别地注入身份信息。M网络由四个全连接层（FC）组成，并在除最后一层外的所有层中结合了作为非线性的泄漏ReLU（2）的情况。ArcFace：为了从源图像Xs中提取和注入身份信息，FaceDancer采用了预先训练的最先进的身份编码器 ArcFace [12] ，带有 ResNet50 骨干 [16] 。最终的ArcFace 输出是一个大小为 512 的身份向量，用作FaceDancer的输入。ArcFace模型还用于计算IFSR（第3.3节）和身份损失（第3.4节）。3.2. 自适应特征融合注意（AFFA）模块AFFA模块的灵感来自以前的工作，如FaceShifters中的自适应注意力去规范化层[27]和HifiFaces中的语义面部融合模块[39]。不像前一种方法，其中一个单独的属性编码器解码器模型存在，我们在这里保持一切凝聚在生成器。与后一种方法相比，它利用分割掩码进行超视，我们在这里避免引入任何额外的需要来计算每个训练样本的分割掩码3457××Σ通过让AFFA自适应地学习注意力掩码。在这方面，AFFA采用来自生成器编码器中的跳过连接的信息，并迫使生成器学习它是否应该依赖于来自跳过连接的特征（z a）或来自以源身份为条件的解码器的特征（h）（图11）。2）的情况。通过这种方式，AFFA可以隐式地学习提取相关的描述性面部特征。AFFA不是简单地连接或添加两个特征图（h和z a），而是首先连接特征图，然后将它们通过几个可学习的层（图2）。2）的情况。最后，AFFA产生具有与h和za中相同的滤波器编号的注意力掩码m。以下等式用于门控和熔丝h和za：h′=h·m+（1-m）·za，（1）其中h′表示h和Za.我们通过实验证明了AFFA模块的影响，通过比较的情况下，无论是级联或添加单独用于将信息从跳过连接在生成器编码器。3.3. 解释特征相似正则化（IFSR）面向目标的人脸交换方法特别依赖于半监督或无监督技术，以确保输出图像保持目标属性。为了有利于属性的保留，我们通过使用第3.1节中描述的ArcFace[12]身份编码器捕获的中间特征来正则化FaceDancer训练。使用预训练的身份编码器来探索面部表情的想法也得到了[36]中的最新工作的为了研究ArcFace的哪些层负责面部表情，从而对特征保存做出更多贡献，我们对最先进的面部交换模型FaceShifter 进行了预研究 [27] 。请注意，由于FaceShifter[27]的源代码，据我们所知，是不公开的，我们在这里使用我们的实现FaceShifter进行微小的修改。例如，在我们的实现中，生成器向下采样到88，而不是2二、我们也吸收弱者[8]与L1重建的特征匹配丢失。结构损失，而不是L2。接下来，我们使用FaceShifter的基线实现在VGGFace2数据集[7]中的身份之间执行随机面部交换。然后我们不仅比较目标之间的余弦距离用于保存属性信息。例如，如果目标面和生成的面交换之间的距离很小，则表明该层的中间特征包含更多的为此目的，我们还基于计算的平均距离为每个第i层定义余量mi边际的动机是正则化的发电机匹配的平均分布，而不是完全最小化的距离。最终的正则化方程如下：nLifsr=min（1−cos（I（i）（Xt），I（i）（Xc））−mi·s，0），I=k（二）其中，I（i）表示身份编码器ArcFace中的第i个中间特征图，m i表示第i层的上述裕度，s是缩放裕度的超参数cos（. 表示两个特征图之间的余弦相似度，k和n分别表示从中提取中间特征图的第一块和最后一块的索引。注意，特征图最初被重新整形为向量，以具有用于余弦相似性操作的适当在我们的实验中，k和n分别设置为2和13。边缘尺度s的主要作用是控制可以偏离边缘的特征相似度的量s值越低，相似性越严格。3.4. 损失函数在训练期间，FaceDancer采用各种损失函数：身份损失，重建损失，感知损失，对抗损失与我们的IFSR方法规则化，和梯度的惩罚。见图图2概述了这些损失函数如何与输入和输出相互作用身份丢失用于传输源身份，如下所示：Li= 1−cos（I（Xs），I（Xc）），（3）其中I是身份编码器ArcFace和cos（. ）取消对余弦相似性的注释。I的输出是身份嵌入向量zid（见图2）。2）的情况。重建损失用于确保当目标Xt和源Xs是相同图像时，最终结果Xc应该在像素级上等于目标图像该重建损失定义如下：.||，如果X t = Xs||,if Xt=Xs并且所生成的面部互换，而且在源面部和所生成的面部对之间互换，以用于探索中间FEA。Lr=、（四）0，否则。ArcFace主干中每个块中的纹理。此外，我们还计算了身份的负对（冒名顶替者）之间的中间特征的距离作为定性参考。所有这些测量的距离分布帮助我们确定哪些层，即，中间特征图是为了进一步加强上述行为并提高图像的语义理解，部署了感知损失。动机是，作为感知损失的深度特征在许多重建任务中表现出鲁棒感知损失定义为：3458Σ（i）（i）LL×Lp=ni=0||、||,如果Xt=Xs，表1：FaceForen-sics ++上的定量实验[34]。有关每个FaceDancer配置（配置B到D）的定义，请参见表2。这些模型已经训练了50万次迭代。000，否则。(5)其中P（i）表示在Imagenet [10]上预训练的VGG16模型[20]的第i个特征映射输出，n是VGG16模型内下采样步骤之前输出的最终索引。在我们的实验中，n是4。此外，我们还利用循环一致性损失来进行计算。激活模型以保持目标图像中的重要属性和结构[43]，[25]，[39]，[9]。循环稳定性损失公式如下：Lc=||X t−G（X c，I（X t））||其中，I表示身份编码器ArcFace，并且G是发电机。为对抗性损失Adv我们使用的[29]，[29]。用梯度惩罚项gp正则化该函数[14]。发电机G的总损耗函数是上述损耗的加权和，公式为：LG=Ladv+λiLi+λrLr+λpLp+λcLc+λifsrLifsr，其中λ i= 10，λ r= 5，λ p= 0。2，λc=1且λifsr=1.一、 Lgp（λgp）的权重设置为10。4. 结果实施详情：FaceDancer在数据集VGGFace 2 [7]和LS3D-W [6]上进行训练。所有面部均与Reti- naFace提取的五个点标志对齐[11]。执行对齐以匹配ArcFace [12]中的我们将所有图像保存在数据集中。Arc- Face在MS1 M [15]上使用ResNet 50 back-bone进行预训练。我们使用Adam [26]优化器，β1=0，β2= 0。99，学习率为0.0001，指数学习率衰减为0。每10万步97目标（Xt）和源（Xs）图像随机地增加亮度、对比度和饱和度。每种配置都经过30万步消融研究训练（表2和表3）。我们进一步训练消融研究（B，C，D）中所有性能最好的配置，最多500K步，以与使用10个批量大小的最新作品进行比较我们所有型号的图像分辨率均为256256。有20%的机会，图像对是相同的，至少有一对在一批是相同的。等式中的裕度标度s2设置为1。二、4.1. 定量结果我们使用FaceForensics++ [34]数据集对FaceDancer进行定量评估，并将其与方法ID↑姿势↓ 实验↓FID↓FaceSwap [1][27]第二十七话54.1997.382.512.96N/AN/AN/AN/AMegaFS [45]90.832.64N/AN/A[40]第四十话98.272.65N/AN/AHifiFace [39]98.482.63N/AN/ASimSwap [8] 92.831.538.0411.76FaceDancer（配置B）98.54 2.24 8.52 25.11FaceDancer（配置C）98.842.047.9716.30FaceDancer（配置D）98.192.155.7019.10其他最先进的面部交换网络，如 Sim- Swap [8] ，FaceShifter [27]，HifiFace [39]和FaceController [40]。评估的指标是身份检索（ID），姿势误差，表达误差和Freche'tInceptionDistance（FID）[17]。对于身份检索，我们最初对测试集中的每个图像执行随机交换，然后使用二级身份编码器CosFace检索正确的身份[37]。为了比较姿态，我们使用[35]中的姿态估计器并报告平均L2误差。由于模型的可访问性差，表达式度量通常被省略用于比较然而，我们在这里使用表达式嵌入器的实现[33]并报告平均L2错误。FID是在测试集的交换版本和未更改的测试集之间计算的，有助于演示模型何时出现照明、遮挡、视觉质量和姿势问题。与之前的作品类似 [27] ， [8] ， [39] ，我们从FaceForensic++中的每个视频中采样10帧，产生10K的测试数据集。如表1所示，我们的方法FaceDancer通过导致最高的身份检索性能而优于所有以前的作品关于姿态度量，我们具有可比较的结果，即，FaceDancer实现了第二低的姿态误差（2. 04）之后SimSwap [8].4.2. 定性结果对于定性评估，我们将我们的模型FaceDancer的性能与最近最先进的作品 SimSwap [8] ， FaceShifter[27]，HifiFace [39]和FaceController [40]进行了比较，如图所示。3.我们在这里注意到SimSwap [8]是唯一一个公共且易于访问的模型。由于这一事实，我们与SimSwap进行了更深入的比较，而对于其他基线模型，我们仅显示了这些作品中报告的样本图像的定性结果。（七）3459图3：将我们的模型FaceDancer与SimSwap [8]，FaceShifter [27]，HifiFace [39]和FaceController [40]进行比较。图3显示了我们的模型FaceDancer的行为与SimSwap相似，但人们可以很容易地注意到我们的结果中显著改进的身份转移。FaceShifter执行良好的身份转移，并能够转移相关的属性，如面部毛发，同时保留遮挡和身份的脸形状。然而，FaceShifter在光线和视线方向上很吃力，因为它严重依赖于第二阶段的模型。FaceController表现出良好的身份可转移性和体面的姿态误差，但是，仍然明显失败，往往与凝视方向。我们的方法FaceDancer更好地处理所有这些问题。最后，HifiFace在所有这些指标上都展示了有希望的结果例如，HifiFace比我们的模型表现出更好的面部形状保持身份。否则，无法与HifiFace进行定性比较，因为我们的模型FaceDancer定量表现更好（见表1）。此外，为了解决我们的模型的可扩展性，我们定性地分析了低分辨率人脸图像上FaceDancer图4示出了FaceDancer即使在低分辨率情况下也具有足够的能力来捕获面部图像的语义结构。FaceDancer能够保持像素化的工件，而SimSwap要么产生一个光滑的脸或完全失败，如图的第一行所示。4. FaceDancer也适用于没有任何节奏信息的视频。我们参考视频结果的补充材料。在补充材料中，我们还包括更高分辨率图像的进一步结果，进一步比较，遮挡，困难姿势，极端情况和最终失败情况。失败通常发生在面部姿势远离相机或面部姿势是数据中表示的不常见角度时。4.3. 消融研究我们在这里消融不同的 FaceDancer 组件（例如AFFA模块和IFSR方法），并与两个基线进行比较，如表2所示。在FaceForensic++ [34]上评价表2所示的消融，在AFLW 2000 - 2000上评价表3所示图4：低分辨率图像的定性比较有关每个FaceDancer配置的定义（配置B至D），请参见表2图5：IFSR影响的图示第3列中给出的配置A显示了在训练期间省略IFSR后的结果，如表 2所述。3D [44].基线1和基线2分别采用连接和加法，以便融合来自解码器的特征图并跳过连接。对于基线1、基线2、配置A和配置B，以前三个分辨率（256、128、64）执行特征融合。对于配置C，我们使用分辨率为256的级联，并处理分辨率为128、64和32的AFFA。配置D与C相同，但具有两个额外的AFFA模块，并在分辨率为16和8时跳过（图1）。2）的情况。配置E与D相同，唯一的区别是省略了发生器中的映射网络（M）（图1）。2）的情况。基线和配置的详细数据参见补充资料。所有消融3460表2：烧蚀分析连同运行时性能。推理时间以毫秒为单位，内存使用量以GB为单位。本表中的所有模型都经过了30万次迭代的训练。ConfigIFSRAFFAConcat final skip*6跳映射ID↑姿势↓实验↓FID↓推理存储器基线1基线2ABCDE✓✓-✓✓✓✓--✓✓✓✓✓----✓✓✓-----✓✓✓✓✓✓✓✓-97.6692.6198.1496.9698.5797.5397.381.971.873.612.482.272.042.078.207.979.828.257.987.765.7316.7213.5131.6323.1114.5913.5014.6874.970.275.875.878.378.264.61.251.251.181.181.261.271.21* 在分辨率256处的级联而不是AFFA+在分辨率32处的一个额外AFFA模块每种配置的详细图形见补充资料针对300K步训练配置。如表2所示，基线1和2实现了最低的姿态误差，然而，代价是具有高FID分数或差的身份性能。配置A提高了识别性能，但不使用IFSR，这会导致姿势错误、表达错误和FID。由于配置B采用IFSR，它改善了表情和姿势问题，然而，仍然与FID斗争。配置C克服了这些问题，并实现了最先进的个人身份。在解码器中以较低的分辨率添加两个以上的AFFA模块稍微破坏了识别性能，但进一步改善了其他指标。这主要是因为配置D融合了来自目标面部的更多该表中的最后一行显示了FaceDancer生成器采用的映射信息改进了身份转移和FID，并以表达错误作为权衡。在表2中，我们还提供了每个FaceDancer配置的总运行时推理和消费分析是在一个单一的Nvidia RTX3090上完成的分析包括对ArcFace的推断。当我们对姿势挑战数据集AFLW 2000 -3D进行消融时，IFSR和AFFA的贡献变得更加清晰[44]（表3）。我们这里使用AFLW 2000-3D作为目标数据集，FaceForsenic++作为源数据集。在这种情况下，在将AFLW 2000 -3D中的所有面部与FaceForensic++中的面部随机交换后，我们尝试在FaceForensic++中检索原始身份。我们在表3中的发现描绘了基线1对于姿势仍然表现最好，但是在其他度量上有所不足。对于ID，A到D的表现明显更好配置E展示了没有在FaceDancer中使用映射网络M的影响。配置E不符合身份性能和姿态误差（表3）。表 3 ：使用 AFLW 2000 -3D [44] 作为目标和FaceForensics++ [34]作为源的消融分析有关配置详细信息，请参见表2。ConfigID↑姿势↓实验↓FID↓基线189.105.635.3419.26基线294.956.235.6021.30一98.5014.977.0740.34B97.955.865.7421.50C97.655.824.1318.50D97.105.754.1520.41E95.456.164.1918.134.4. AFFA模块在本节中，我们提供了一个全面的研究，显示自适应特征融合Atten- tion（AFFA）模块的作用。为此，我们首先在解码器的三个较高分辨率（256，128，64）中使用AFFA训练FaceDancer。然而，这会导致在交换的面部图像中出现明显的颜色缺陷（图1）。（五）。实验结果见 Fig. 7 显示，这是由于在FaceDancer生成器的末尾使用了AFFA。在256的分辨率下生成的注意力地图大多是灰色的，如图所示。7.我们假设，在生成器的最高层，注意力地图远远没有像预期的那样融合特征地图。如表2所示，基线1和2不具有任何颜色缺陷问题，如与依赖于分辨率256的AFFA的配置A和B相比显著更低的FID分数所证明的。为了解决这个问题，我们用一个简单的连接操作替换最终的AFFA模块在图7中，我们示出了在解码器的每个分辨率下针对表2中的每个配置的注意力图的示例，其中FaceDancer生成器使用AFFA模块。3461图6：变化和目标人脸（c2t）、变化和源人脸（c2s）以及不同身份（负样本）之间的中间特征之间的余弦相似性。(a)从ArcFace的第一个块开始的要素之间的距离。(b)从ArcFace的最终块到要素（c）每个块中的中间特征的距离分布之间的相等错误率（EER）图7：表2中不同配置的不同分辨率4.5. IFSR分析我们现在提供一个全面的实验评估的解释特征相似性规则化（IFSR）方法的作用。我们开始研究ArcFace ResNet 50主干中的中间特征，方法是比较使用VGGFace2 [7]数据集为目标面部、源面部、变化面部和负对计算的特征图之间的余弦距离。对ArcFace中的每个残差块输出重复此过程。通过部署FaceShifter [27]的预训练实现来获得更改后的面孔，在第3.3节中简要介绍。如图6（a），变化和目标面（c2t）共享的特征明显比早期ArcFace层中变化和源面（c2s）之间观察到的特征更相似。在最终的残差块中没有观察到这种行为，如图2所示。第6（b）段。这强烈表明身份编码器包含重要信息，例如较早层中的姿势，表情和遮挡，而最后的块存储身份信息。为了证明图1中c2t和c2s分布的可分性，本文给出了一个例子 . 6. 计算了这些分布之间的等误差率（EER）。如图1中的EER图所示。6（c），c2t和c2s分布是完全可分的，直到块14. 之后，EER跳升到50%以上，这意味着c2t分布向c2s的右侧移动，即，与同一层中的Xt相比，Xc与Xs共享更多标识属性这证明了Xc成功地捕获X的身份。我们提出的IFSR方法的定性影响如图所示。5.如果没有IFSR，粘贴的脸的效果和缺乏表情的保存变得更加明显。请注意，IFSR中的层和信息来自冻结的身份编码器。因此，这里可以使用任何预先训练的人脸交换框架来计算IFSR边缘。IFSR本身不包含任何可学习的参数。该过程仅需要获得对层包含何种信息（表情、姿势、颜色、闪电、身份等）的可解释的洞察，以及如何定义IFSR的利润率。5. 结论在这项工作中，我们引入FaceDancer作为一个新的单阶段人脸交换模型，定量地达到最先进的。FaceDancer有一个新颖的正则化组件IFSR，它利用中间特征来保留姿态、面部表情和遮挡等属性。此外，FaceDancer中的AFFA模块在与IFSR结合使用时，大大改善了身份传输，而不会对视觉质量和属性保留进行重大权衡FaceDancer在两个主要方面受到限制，即传输面部形状和需要从预训练的面部交换模型计算IFSR边缘。后者的未来方向是找出如何在线自适应地计算利润率。IFSR可以潜在地用于压缩复杂的换脸（甚至图像翻译）模型。尝试将IFSR与3DMM相结合，以获得强姿态，遮挡和面部形状保持将是未来的工作。3462引用[1] 脸罩。2022-02-18访问[2] 奥列格·亚历山大，麦克·罗杰斯，威廉·兰贝斯，马特·齐昂，还有保罗·德贝维克.创建一个真实的数字演员：数字艾米丽项目。2009年视觉媒体制作会议，第176-187页[3] Jianmin Bao，Dong Chen，Fang Wen，Houqiang Li，and Gang Hua.面向开集身份保持的人脸合成。2018年IEEE/CVF计算机视觉和模式识别会议，第6713-6722页[4] Volker Blanz，Kristina Scherbaum，Thomas Vetter，andHans-Peter Seidel.在图像中交换面孔。计算机图形论坛，第23卷，第669-676页。Wiley Online Library，2004.[5] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模GAN训练。在第七届国际学习代表会议，ICLR 2019，新奥尔良，洛杉矶，美国，2019年5月6日至9日。OpenReview.net，2019年。[6] Adrian Bulat和Georgios Tzimiropoulos我们离解决二维和三维人脸对齐问题还有多远？(and 230，000个3D面部标志的数据集）。法律程序中IEEE InternationalConference on Computer Vision，第1021-1030页，2017年。[7] 曹琼，李申，谢伟迪，奥姆卡·M·帕克希，安德鲁·齐瑟曼. Vggface2：一个用于识别跨姿势和年龄的人脸的数据集。在2018年第13届IEEE自动面部手势识别国际会议（FG 2018）中，第67-74页。IEEE，2018年。[8] 陈仁旺、陈玄鸿、倪冰冰、葛炎昊。SimSwap：AnEfficient Framework For High Fidelity Face Swapping，2003-2011页。美国纽约州纽约市计算机机械协会，2020年。[9] Yunjey Choi，Youngjung Uh，Jaejun Yoo，Jung-WooHa.Stargan v2：多领域的多样化图像合成。在IEEE/CVF计算机视觉和模式识别会议论文集，第8188-8197页[10] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页[11] Jia Guo ， Evangelos Ververas ， Irene Kot- sia ， andStefanos Zafeiriou. Retinaface：在野外进行单次拍摄的多层次面部定位。在IEEE/CVF计算机视觉和模式识别会议论文集，第5203-5212页[12] 邓健康，贾国，薛念南，Stefanos Zafeiriou。Arcface：用于深度人脸识别的附加角度余量损失。 2019 年IEEE/CVF计算机视觉和模式识别会议（CVPR），第4685- 4694页[13] BernhardEgger ， William AP Smith ， Ayush Tewari ，Stefanie Wuhrer ， Michael Zollhoefer ， Thabo Beeler ，Florian Bernard ， Timo Bolkart ， Adam Kortylewski ，Sami Romdhani，et al.三维可变形人脸模型-过去、现在和未来。ACM Transactions on Graphics（TOG），39（5）：1[14] Ishaan Gulrajani 、 Faruk Ahmed 、 Martin Arjovsky 、Vincent Dumoulin和Aaron C Courville。改进的瓦瑟斯坦甘斯训练。神经信息处理系统的进展，30，2017。[15] Yandong Guo，Lei Zhang，Yuxiao Hu，Jongdong He，and Jianfeng Gao. Ms-celeb-1m：大规模人脸识别的数据集和基准。欧洲计算机视觉会议，第87-102页。施普林格，2016年。[16] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[17] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。神经信息处理系统的进展，30，2017。[18] 胡国胜，陈志浩，约瑟夫·基特勒和比尔·克里斯-马斯。分辨率感知的三维可变形模型。在BMVC中，第1-10页。萨里大学，2012年。[19] Xun Huang和Serge Belongie。实时任意样式传输，具有自适应实例规范化。在IEEE计算机视觉国际会议论文集，第1501-1510页，2017年[20] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失。 Bastian Leibe 、 JiriMatas、Nicu Sebe和Max Welling，编辑，计算机视觉施普林格国际出版社.[21] Tero Karras ， Miika Aittala ， Janne Hellsten ， SamuliLaine，Jaakko Lehtinen，and Timo Aila.用有限的数据训练生成式对抗网络。神经信息处理系统的进展，33：12104[22] 泰罗·卡拉斯、米卡·艾塔拉、萨穆利·莱恩、埃里克·哈克·奥嫩、简·赫尔斯滕、贾科·莱赫蒂宁和蒂莫·艾拉。无别名生成对抗网络。神经信息处理系统的进展，34，2021。[23] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构，用于生成对抗网络。在IEEE/CVF计算机视觉和模式识别会议论文集，第4401-4410页[24] Tero Karras ， Samuli Laine ， Miika Aittala ， JanneHellsten，Jaakko Lehtinen，and Timo Aila.分析和改进了扫描仪的图像质量。在IEEE/CVF计算机视觉和模式识别会议论文集，第8110-8119页[25] Taeksoo Kim、Moonsu Cha、Hyunsoo Kim、Jung KwonLee和Jiwon Kim。学习发现与生成对抗网络的跨域关系。国际机器学习会议，第1857-1865页。PMLR，2017年。[26] Diederik P Kingma和Jimmy

下载后可阅读完整内容，剩余1页未读，立即下载