没有合适的资源?快使用搜索试试~ 我知道了~
Smooth-Swap: 一种简化的人脸交换技术
107790Smooth-Swap:一种用于人脸交换的简单增强技术0Jiseob Kim 1,2,Jihoon Lee 2,Byoung-Tak Zhang 101 首尔国立大学,2 Kakao Brain0jkim@bi.snu.ac.kr,jihoonlee.in@gmail.com,btzhang@bi.snu.ac.kr0图1.由我们的Smooth-Swap模型生成的人脸交换图像。在交换的图像中,目标图像的身份被源图像的身份替换。根据不同的源图像,可以看到面部形状、头发和胡须的变化。0摘要0人脸交换模型因其引人注目的生成质量而受到关注,但其复杂的架构和损失函数通常需要仔细调整才能成功训练。我们提出了一种名为“Smooth-Swap”的新的人脸交换模型,它排除了复杂的手工设计,允许快速稳定的训练。Smooth-Swap的主要思想是构建平滑的身份嵌入器,可以为身份变换提供稳定的梯度。与以前的模型中用于纯粹鉴别任务的嵌入器不同,所提出的嵌入器是通过使用监督对比损失训练的,促进了更平滑的空间。通过改进平滑性,Smooth-Swap只需要由通用的基于U-Net的生成器和三个基本的损失函数组成,与以前的模型相比,设计更简单。在人脸交换基准(FFHQ、Face-Forensics++)和野外人脸图像上进行的大量实验证明,我们的模型在定量和定性上都可以与现有方法相媲美甚至更优。01. 引言0人脸交换是一种将给定的人脸图像的人物身份与另一个人交换,同时保留其他属性(如面部表情、头部姿势和背景)的任务。这个任务因其在现实世界中的广泛应用而受到关注,例如在隐私保护中的匿名化等。0在娱乐行业中,创造新角色的需求越来越多。经过多年的进展[3, 6, 16, 21, 22, 28, 31,33],最先进的人脸交换模型可以使用一张新的源身份的单个拍摄生成一个质量不错的交换图像。0然而,尽管性能有所提高,现有模型通常采用复杂的模型架构和众多的损失函数来改变面部形状。面部形状是身份的一个关键组成部分,但改变面部形状是一个非常复杂的任务;它会导致像素的剧烈变化,但由于缺乏地面交换图像的固有缺失,无法给出任何指导。因此,以前的研究主要集中在使用基于蒙版的混合[6]或3D面部形状建模[16,31]等手工组件。虽然这些组件对于改变形状和提高交换图像质量是有效的,但模型增加了超参数和损失函数的复杂性,需要仔细调整才能成功训练。0在这项研究中,我们假设基于手工组件的方法并不是解决人脸交换困难的最佳方式。相反,我们提出了一种具有改进平滑性的新身份嵌入模型,我们认为这与问题的要点最相关。身份嵌入模型,或嵌入器,在交换模型的训练过程中起着关键作用。它为生成器提供梯度,指导其改变身份的方向。因此,嵌入器具有平滑的空间非常重要,否则梯度可能是错误的或带有噪声。在我们提出的模型Smooth-Swap中,我们构建了平滑的身份嵌入器,它可以为身份变换提供稳定的梯度。与以前为纯鉴别任务训练的模型中使用的嵌入器不同,我们的嵌入器是通过使用监督对比损失进行训练的,促进了更平滑的空间。通过改进平滑性,Smooth-Swap只需要由通用的基于U-Net的生成器和三个基本的损失函数组成,与以前的模型相比,设计更简单。在人脸交换基准(FFHQ、Face-Forensics++)和野外人脸图像上进行的大量实验证明,我们的模型在定量和定性上都可以与现有方法相媲美甚至更优。107800通过使用监督对比损失[14]训练了一个新的嵌入器,我们发现它比ArcFace嵌入器[7](大多数现有模型中使用的嵌入器)具有更平滑的空间,有助于更快和更稳定的训练。通过平滑的嵌入器,Smooth-Swap可以在没有任何手工组件的情况下工作。它采用了一个简单的基于U-Net[24]的生成器,并且我们只使用了三个基本的损失函数进行训练——身份变换、目标保持和对抗(图2)。虽然这个设置比现有模型更简单,但我们发现我们的模型仍然可以通过采用数据驱动的方法和最小化归纳偏差来实现可比较或更好的性能。Smooth-Swap的优点可以总结如下:1)简单的架构:Smooth-Swap使用一个简单的基于U-Net[24]的生成器,不涉及任何手工组件,与现有模型相比。2)简单的损失函数:Smooth-Swap生成器可以使用最小的损失函数进行训练,用于人脸交换——身份、像素级变化和对抗损失。3)快速训练:平滑的身份嵌入器通过提供更稳定的梯度信息,使生成器的训练更快。02. 相关工作0基于3D模型和分割的方法早期的换脸模型依赖于外部模块,如3D可塑模型(3DMM)[4]和面部分割模型。Face2Face[29]和[23]将源图像和目标图像拟合到3DMM,并将表情(和姿势)参数转移到合成的交换图像中。RSGAN[21],FSNet [20]和FSGAN[22]使用分割模型将面部区域与背景分离,通过切换和混合区域生成交换图像。尽管早期的成功,但这些方法无法产生高质量的图像,因为它们的性能依赖于不可训练的外部模块。0基于特征的GAN模型与上述方法相反,最近的模型考虑端到端训练,基于学习到的特征生成换脸图像。IPGAN[3]为身份和目标属性学习单独的嵌入向量,通过切换和重新组合它们来生成交换图像。FaceShifter[16]使用编码器-解码器架构进行多级混合,缓解了IPGAN方法中的信息丢失。SimSwap[6]提出了弱特征匹配,更注重保留源图像的面部表情,而HifiFace[31]提出了一种集成3D形状模型的方法,更注重主动形状变化。InfoSwap[8]使用信息瓶颈更好地将身份属性与其他属性区分开来。MegaFS [33]利用预训练的StyleGAN2[13]生成高分辨率的换脸图像。[19]通过为每个身份训练一个单独的生成器来解决高分辨率问题。尽管如此0尽管这些模型不断改进生成图像的质量,但它们往往显示出较弱的身份变化或涉及由手工组件引起的复杂性。03. 问题形式化和挑战0我们首先描述换脸的问题形式化和主要技术挑战。然后,我们介绍身份嵌入器的平滑性如何缓解这些挑战。03.1. 问题形式化0当给定源图像x_src和目标图像x_tgt时,换脸模型需要生成满足以下条件的交换图像x_swap:0C1. 它具有源图像的身份。0C2.除了身份之外,它与目标图像相同(具有相同的背景、姿势等)。0C3. 它看起来逼真(无法与真实图像区分)。0为了满足这些要求,大多数换脸模型[16,31]由三个组件组成:源图像的身份嵌入器f�emb,用于生成交换图像的生成器fgen,以及用于提高保真度的鉴别器fdis。图2显示了包括我们方法在内的这些换脸模型的概述。请注意,身份嵌入器是预训练的,并在其他组件的训练过程中被冻结,因此上标中包含了星号。03.2. 改变身份的挑战0训练换脸模型的主要困难来自于C1和C2之间的冲突。满足C1要求使得x_swap远离x_tgt以改变身份,而满足C2要求则使其保持在附近。如果我们能够准确提取x_swap与x_tgt之间与身份无关的变化,并将其用于C2的损失中,这个冲突就会得到缓解。不幸的是,设计这样的损失是困难的,常见的替代方案是使用各向同性的损失,如感知[32]或像素级Lp损失。冲突和各向同性的C2损失的一个主要后果是面部形状变化停滞不前。例如,从圆形到尖下巴的形状变化涉及几何变换,并导致特征和像素值的显著变化。因此,这是与C2损失作斗争的一场大战,阻止任何与x_tgt偏离的方面,并经常首先妥协。在这方面,以前的工作为正确改变面部形状付出了很多努力,例如使用3D面部模型来更好地捕捉形状[31]。然而,这样的设计引入了额外的复杂性,并需要在模块之间进行仔细的平衡以实现成功训练。在这项工作中,我们假设冲突可以通过向身份嵌入器引入平滑性来缓解,而不是通过添加新的模块。我们将在下一节中详细描述这一点。107810� !"#0� %&0�0� ���0� ���0� %&0�0� ����0� %&0�0� 0�0损失函数:� !*+,$,� -.,� !$/,� "$#,� #0#,� 1,-,! 损失函数:� -.,� +22,� "$#,� +.30Smooth-Swap(我们的模型) FaceShifter HifiFace0� ���0� ���0� ����0� ���0� ���0� ����0损失函数:� -.,� #*/,� +.30生成器身份嵌入器03D模型0与身份相关0特征(嵌入)0其他特征(目标背景、姿势等)0跳跃连接0�(�)0�0�0�(�) � � + 1 − �(�) � �0基于掩码的混合0�0图2. 生成器架构和换脸模型的损失函数的比较示意图。以前的模型(FaceShifter [16]和HifiFace[31])具有特定于换脸的设计,如基于掩码的混合(紫色阴影部分)或3D人脸建模(f *3D)。这些设计引入了复杂的架构和各种损失函数,使得平衡训练变得困难。相反,我们的架构是一个简单的U-Net扩展,不包含与任务相关的启发式算法,并且仅通过三个典型的损失函数进行训练。0图3.当身份从一个变为另一个时,在平滑的嵌入空间中,相应的向量也会平滑地变化。然而,在非平滑的嵌入空间中,向量会发生离散跳跃。如果嵌入器在一个有区分性任务上经过强烈训练,空间可能变得非平滑。在这种情况下,嵌入器无法为生成器提供正确更改身份的良好梯度方向。详见3.3。03.3. 平滑身份嵌入器的重要性0大多数以前的换脸模型使用ArcFace[7]作为身份嵌入器(简称嵌入器),因为它是最先进的人脸识别模型之一。将图像输入嵌入器并比较来自最后一层的特征(称为嵌入向量),它为人脸图像的身份提供了一个不错的相似性度量。使用ArcFace或任何其他人脸识别模型,我们通常处理高度非平滑的嵌入空间,因为这些模型仅通过有区分性的任务进行训练。0然而,在训练换脸模型时,嵌入器的平滑性至关重要。当模型在训练过程中生成了错误身份的x_swap时,嵌入器必须给出一个良好的梯度方向来进行修正。这个梯度必须准确且一致;否则,由于C2的损失,x_swap很容易回到x_tgt。如果嵌入空间不平滑,梯度方向可能是错误的或者嘈杂的,因为梯度只在连续空间中有明确定义。04. 方法:Smooth-Swap0我们解释了我们的主要模型Smooth-Swap。该模型引入了一个新的身份嵌入器,使用有监督的对比学习[14]进行训练,以改善嵌入空间的平滑性。它还引入了一个简单的U-Net风格的生成器架构,非常适合新的身份嵌入器。0符号说明:我们的身份嵌入器接受图像x∈X并输出相应的嵌入向量z∈Z(例如,z_src:=f*emb(x_src))。生成器接受目标图像x_tgt和源嵌入z_src,并生成交换图像:x_swap =f_gen(x_tgt, z_src)。f_dis接受x_swap并输出一个范围为[0,1]的标量(接近0表示伪造,接近1表示真实)。04.1. 平滑身份嵌入器0如第3.3节所讨论的,我们希望获得一个稳定有效的平滑嵌入器进行训练。为了训练这样的嵌入器,Lid= 1 − cos(zswap, zsrc)Lchg= ∥xswap − xtgt∥22/DLadv= − log(fdis(xswap))L(fgen) = E(xtgt,xsrc)[λidLid + λchgLchg + λadvLadv].107820我们参考了有监督对比学习损失[14]:0L(f emb) = E(xi,xi p,xi n)0� − log e(�zi,zp�/τ)0e(�zi,zp�/τ) + 0ne(�zi,zn�/τ)0�0其中,xi表示训练数据集中的样本;xi p和xin分别表示正样本(与xi具有相同身份的图像)和负样本(具有不同身份的图像)。对比学习的一个重要特性是使嵌入向量保持最大信息[30],这与我们需要平滑嵌入器的需求密切相关。如果我们有相同身份但年龄不同或面部形状不同(例如,由于节食)的人脸图像,像ArcFace[7]这样的判别嵌入器会积极地去除这些信息以对齐嵌入向量。虽然这对于身份分类有益,但会导致非平滑的嵌入空间。在这个空间中,当从老年人变为年轻人或从圆形变为尖锐时,嵌入向量无法平滑地改变,因为这些信息被移除了。对于我们的目的来说,更理想的是具有更丰富信息的嵌入向量,即使对齐有所损失,也可以通过对比学习获得(参见图3)。然后,从一个身份变为另一个身份就成为一条平滑的路径,并且可以获得良好的梯度方向来训练交换模型。04.2. 生成器架构0我们的生成器架构是从噪声条件评分网络(NCSN++)进行调整的,它是评分生成建模中最先进的架构之一[27](图2)。虽然NCSN++的原始用途与人脸交换迥然不同,但我们发现它的U-Net结构[24]和条件结构对我们的任务很有用。我们从NCSN++中修改了两个部分;时间嵌入被替换为身份嵌入,并添加了从输入到输出的直接跳过连接。0结构细节NCSN++基本上是一个U-Net[24],具有条件结构和现代层设计,如残差块和注意力块。它的原始目标是接收一个噪声图像,并输出一个与图像具有相同维度的评分向量。由于它必须输出一个受时间控制的不同噪声水平条件下的向量,因此它还接收一个时间嵌入向量,该向量在广播到宽度和高度维度后添加到每个残差块中。在我们的设计中,我们将这个嵌入向量替换为身份嵌入,如图2所示。此外,由于评分向量接近于图像之间的差异而不是图像本身,我们在生成最终输出图像时添加输入图像,而不是直接传递输出(即输入到输出的跳过连接)。0请注意,我们的架构不包括任何特定任务的设计组件,如3D人脸模型或基于掩码的混合。它是通用的,并且在设计上与评分建模大致兼容。0损失函数为了训练这个生成器,我们使用了三个最基本的损失函数,分别对应于第3节开头描述的x swap的条件。0� �0总损失通过组合这些函数并对(x tgt , x src)对取期望值来计算:0请注意,cos(∙, ∙)表示余弦相似度,D表示X的维度数;fdis是使用来自[9]的原始损失和R1正则化器[17]进行训练的。这些损失函数通常与[16]相同,只是我们使用了更简单的像素级变化损失,而不是特征级损失(在论文中称为属性损失)。对于每个小批量,我们包括一个(x tgt , x tgt)对,其变化损失有效地充当重构损失。05. 实验05.1. 训练细节0数据集为了训练生成器,我们使用FFHQ数据集[12],其中包含70k张对齐的人脸图像。我们使用其中的10%进行测试。为了训练身份嵌入器,我们使用VGGFace2数据集[5],其中包含9k个主体的330万个带有身份标签的图像。我们使用与FFHQ相同的过程对VGGFace2图像进行裁剪和对齐。包括FFHQ在内的所有图像都被调整为256×256的尺寸。0架构细节 我们的身份嵌入器基于ResNet50[10]架构。最终的平均池化特征向量经过两个全连接层并归一化为单位长度。生成器的架构大部分与NCSN++[27]相同,只是通道数减半。鉴别器设置为与StyleGAN2[13]相同。网络的详细结构包含在附录中。0训练 我们将λ id = 4,λ chg = 1和λ adv =1设置为训练参数。鉴别器使用非饱和损失[9]和R1正则化器[17]进行训练,以防止过拟合。训练使用Adam优化器[15],学习率分别为0.001(生成器)和0.004(鉴别器)。总共运行800k步,批量大小为8,107830模型 VGG ↓ VGG-R ↓ Arc ↑ Arc-R ↑ Shp ↓ Shp-R ↓ Expr ↓ Expr-R ↓ Pose ↓ Pose-R ↓ PoseHN ↓ Overall ↓0Deepfakes 120.907 0.493 0.443 0.524 0.639 0.464 0.802 0.541 0.188 0.445 4.588 0.927 FaceShifter 110.875 0.482 † † 0.658 0.492 0.653 0.4560.177 0.381 3.175 -0.202 SimSwap 99.736 0.435 † † 0.662 0.479 0.644 0.449 0.178 0.385 3.749 -0.558 HifiFace 106.655 0.469 0.527 0.550 0.6160.465 0.702 0.484 0.177 0.387 3.370 -0.329 MegaFS 110.897 0.461 † † 0.701 0.500 0.678 0.436 0.182 0.398 5.456 0.2340Smooth-Swap 101.678 0.435 0.464 0.611 0.565 0.403 0.722 0.477 0.186 0.395 4.498 -0.617050%步长 101.905 0.430 - - 0.578 0.404 0.726 0.476 0.186 0.399 5.979 -0.398 λ id = 1 107.096 0.446 0.421 0.581 0.610 0.415 0.669 0.461 0.1850.398 4.636 -0.419(Arc) λ id = 1 103.767 0.437 † † 0.682 0.460 0.728 0.493 0.192 0.416 5.457 0.266(Arc) λ id = 4 98.115 0.421 † † 0.6840.441 0.914 0.543 0.207 0.430 5.655 0.6990Shp:形状,Expr:表情,PoseHN:使用Hopenet [26]的姿势度量,(Arc):使用ArcFace进行训练,†:由于模型在训练中使用了ArcFace,无法比较得分。0表1.模型之间的定量比较(详见第5.2节和第5.3节)。箭头↓(或↑)表示得分越低(或越高)越好;最好的两个用粗体标记。中间的竖线将得分分为两组:与身份变化相关的(左侧)和与保持目标属性相关的(右侧)。总体得分是标准化后每个得分的平均值(Arc和Arc-R被排除在外,因为某些模型不符合条件)。最后四行是消融模型(第5.4节)。0其中的数字与HifiFace显示的图像总数相匹配。如第4.2节所述,批次中的一对设置为(x tgt,xtgt),以考虑自重构情况。Adam也用于训练嵌入器(在训练交换模型之前),学习率设置为0.001,并在总共101K步中的60%、75%和90%时按10的倍数递减。批量大小为128(32个身份,每个身份四个实例),温度τ为0.07,如[14]中建议的。05.2. 评估细节0比较模型我们将我们的Smooth-Swap模型与最新的基于特征的人脸交换模型进行比较:FaceShifter [16],MegaFS [33],HifiFace [31],SimSwap[6]和Neural Textures[28]。我们还比较了最早的两个模型:Deepfakes [1]和Faceswap [2]。0定量评估由于大多数比较模型不向公众开放其源代码,目前评估模型的标准是在FaceForensics++(FF++)数据集[25]上比较它们生成的图像,我们按照这个标准进行评估。我们评估各种指标,可以分为以下几类:身份、形状、表情和姿势。我们希望x swap在前两个指标上接近xsrc,在后两个指标上接近xtgt。为了评估身份,我们使用VG-GFace2 [5]和ArcFace[7]嵌入器,分别计算x swap和xsrc之间的嵌入距离和余弦相似度。与[6, 16,31]中使用的检索准确率相比,该指标允许更细粒度的比较。为了评估形状、表情和姿势,我们遵循[31]的评估协议;即,我们使用一个3D人脸模型。01 可在https://github.com/ondyari/FaceForensics上找到;一些模型可在每个模型的项目页面上找到。0使用[ 26]中的方法获取每个类别的参数并计算L2距离。在适用的情况下,我们也计算相对距离和相似度(用'-R'表示)。例如,0dist-R :=0dist ( x swap , x src ) + dist ( x swap , x tgt )0是为了反映人类对变化的感知;在我们的眼中,重要的不仅是 x swap 的身份接近 x src ,而且它与 x tgt的距离也很远。05.3. 基本的人脸交换性能0我们在FaceForensics++数据集上应用了人脸交换,并与其他模型进行了比较(见图4)。图中显示,我们的Smooth-Swap模型在改变身份方面更加积极,尤其是在脸型方面。例如,在第二行和第四行中,我们交换的图像显示出更加圆润和突出的下巴形状,反映了源身份的特点(在图5中可以找到更极端的情况);其他模型的图像主要局限于纹理变化。此外,我们可以观察到我们的结果中其他与身份相关的属性,如肤色或发色,更多地与源身份匹配,使整体图像在视觉上更接近源图像。图5和6展示了在FFHQ和野外人脸图像上的交换结果(更多样本和失败案例的讨论请参见附录)。在表1中总结的定量结果也显示了相同的趋势。在该表中,Smooth-Swap在身份和形状得分(VGG、Arc和Shp)方面表现良好。虽然在其他得分方面不如其他模型好,但至少在某些情况下它也显示出可比较的数字。考虑到一个旁路模型(不改变身份)02 对于姿势和表情,分子被改为 ( x swap , x tgt )dsmooth := ExA,xB∼p(x)�∥Slerp(zA, zB; r) − zC∥�.107840图4. 在FaceForensics++数据集上各种模型的人脸交换结果的比较[ 25]。我们模型的结果显示出最活跃的身份和形状变化,反映了源身份的特点。请注意,由于图像是从视频中提取的,结果之间存在轻微的帧差异。0虽然(在表达和姿势得分方面)分子将获得最高分,但我们强调整体能力在这里是重要的。因此,我们报告最后一列的综合得分——标准化后的指标的平均值——在这个指标中我们的模型得分最高。05.4. 身份嵌入器的消融研究0为了看到我们的身份嵌入器的差异,我们也使用ArcFace [ 7]来训练我们的生成器。从表1的下半部分可以看出,使用ArcFace的模型在大多数指标上表现更差。更重要的是,我们观察到我们的嵌入器使得训练更快速和稳定。在图7中,左图显示我们模型的身份损失比使用ArcFace的模型更快收敛。请注意,这不是由于尺度或λ id的选择,因为Arc16,其身份损失下降的速率类似,但其变化损失的曲线明显更差。在图8中也可以看到相同的趋势。当与ArcFace嵌入器配对时,模型的训练速度较慢,很少发生变化。0直到训练步骤达到400k时,HifiFace模型才开始改变身份。相反,使用我们的嵌入器的模型在100k步骤时就开始改变身份,而在400k步骤(50%训练)时的整体得分已经优于HifiFace(表1)。05.5. 身份嵌入性能0我们期望从我们的身份嵌入器中获得的优势是平滑性;特别是在插值曲线上身份的平滑变化,如图3所示。为了定量评估这一点,我们设计了一个平滑度得分,并与其他基准嵌入器进行了比较。0∥ zA − zB0分数衡量了两个身份嵌入向量的平均点Slerp(zA, zB;r)与最接近的有效嵌入zC之间的(归一化)差距(这里,r是平均比率)。如果嵌入空间是平滑的,这个差距应该很小。有效嵌入的概念取决于设置。当使用样本进行测量时,xA和xB是样本。dsmooth w/smpw/GANVerification AUCr=0.25r=0.5r=0.5VCHQVGG2LFWCE-Lin0.3330.3540.7970.9390.9941.000CE-Arc0.4040.4300.9140.9250.9970.998ArcFace0.3600.3800.802--0.995Ours0.1160.1350.6710.9560.9940.999107850图5.在FFHQ测试集(未筛选)上进行Smooth-Swap的结果。观察到了身份的积极变化(例如,第1行,第2列),但当源身份具有复杂的发型模式时也可能出现一些伪影(第1列)。0图6.Smooth-Swap在野外图像上的人脸交换结果。附录中包含更多样本。0其中,Dtest表示来自FFHQ数据集的测试集,zC =femb(xC),其中xC = arg min x ∈ Dtrain ∥Slerp −femb(x)∥。当使用GAN进行测量时,xA = g(yA)和xB =g(yB)是从预训练的StyleGAN2[13]生成的样本,其中zC =femb(g(Lerp(yA, yB; r)))(g是生成器,y是潜在代码)。0图7.身份嵌入模型的消融研究—我们的模型(实线)与ArcFace模型(虚线)[7]的对比。模型名称旁边的数字表示用于训练的身份损失权重λid。可以看出,我们的嵌入器使模型在学习身份变化时变得更快,同时保持变化损失的稳定性。详见第5.4节的讨论。0表2.嵌入器模型的分数。我们的模型显示出更好的平滑性分数,同时保持相当的验证分数。CE-Lin和CE-Arc是从FFHQ对齐的VG-GFace2数据集中复现的版本。ArcFace是[7]中提供的原始模型,是从一个不同的对齐的更大数据集训练的。0从表2可以看出,我们的模型在保持与ArcFace和VGGFace2相当的验证性能的同时,显示出更好的平滑性。注意,LFW[11]是验证的标准基准数据集之一;VCHQ是我们从VoxCeleb[18]衍生出的数据集(详见附录)。0在图9中也可以定性地确认相同的趋势。该图显示了每个插值点(r∈[0.1, ...,0.9])的检索到的xC图像。我们的嵌入器在沿插值曲线移动时倾向于平滑变化;其他嵌入器倾向于重复相同的身份。为了量化这一点,我们计算了每个插值的唯一图像数量(数量越低,重复越多,越差)。总结64个样本对的结果,数字分别为5.13±1.18(Ours)、4.42±1.41(VGGFace2)和4.25±1.33(ArcFace)。107860图8.使用不同身份嵌入模型和损失权重(λid)进行模型训练的进展;生成器架构固定为我们的架构。使用ArcFace嵌入器[7]的模型训练较慢,在训练400k步之前几乎没有身份变化。另一方面,使用我们的嵌入器的模型在100k步时就开始发生身份变化。详见第5.4节。0图9.通过插值检查嵌入器的平滑性。对于从FFHQ测试集中随机选择的两个图像(最左边和最右边),我们在嵌入空间中计算插值。对于每个九个插值点,我们从训练集中检索最接近的图像(在嵌入空间中进行比较)。我们的嵌入器倾向于显示连续变化的身份,而其他嵌入器显示重复的身份,暗示空间的不平滑性。右侧的图表显示我们的嵌入器更均匀地分布身份。距离通过每个嵌入器的4k个随机对的平均值进行归一化。详见第5.5节。06. 结论0我们介绍了Smooth-Swap,一种新的人脸交换模型,可以生成具有活动性的高质量交换图像。虽然许多现有模型使用手工设计的组件来解决困难,但我们的模型采用了最简单的架构,并考虑了平滑的身份嵌入。通过采用这种数据驱动的方法和最小的归纳偏差,我们观察到Smooth-Swap可以在快速收敛的情况下实现最佳的综合得分。0我们相信这项研究可以为解决更具挑战性的人脸交换问题提供机会,大大降低复杂性。通过减少平衡组件的工作量和减少内存使用,可以考虑扩展问题范围,例如以端到端的方式对视频中的人脸交换进行建模。在这方面,我们当前模型的一个缺点是在保留姿势和表情方面有一定的性能下降。然而,我们认为简单的微调或不同的超参数选择足以实现目标。0然而,我们认为简单的微调或不同的超参数选择足以实现目标。0潜在的负面社会影响人脸交换模型,即Deepfake,已被恶意使用,造成严重的负面影响(例如,传播虚假新闻)。尽管如此,我们认为研究这些模型是重要且必要的,因为对它们的深入理解可以为开发高质量的Deepfake检测算法奠定良好的起点[25]。我们指出,它们也具有积极的应用,包括用于隐私保护的匿名化和无需繁重的CGI技术创建新角色。0致谢这项工作部分得到了IITP(2015-0-00310/20%,2018-0-00622/15%,2019-0-01371/20%,2021-0-02068/15%,2021-0-01343/15%)资助和CARAI(UD190031RD/15%)资助。107870参考文献0[1] DeepFakes(https://github.com/deepfakes/faceswap),2021年11月。50[2] FaceSwap(https://github.com/MarekKowalski/FaceSwap),2021年11月。50[3] Jianmin Bao, Dong Chen, Fang Wen, Houqiang Li, andGang Hua. 面向开放集身份保持人脸合成.在2018年IEEE/CVF计算机视觉和模式识别会议上,第6713-6722页,盐湖城,犹他州,美国,2018年6月。IEEE。1,20[4] Volker Blanz and Thomas Vetter.用于合成3D人脸的可塑模型.在第26届计算机图形学和交互技术年会上,SIGGRAPH'99,第187-194页,美国,1999年7月。ACM出版社/Addison-WesleyPublishing Co. 20[5] Qiong Cao, Li Shen, Weidi Xie, Omkar M Parkhi, andAndrew Zisserman. Vggface2:用于识别不同姿势和年龄的人脸数据集.在2018年第13届IEEE国际自动人脸与手势识别会议(FG2018)上,第67-74页。IEEE,2018年。4,5,70[6] Renwang Chen, Xuanhong Chen, B. Ni, and Yanhao Ge.SimSwap: 一种高保真度人脸交换的高效框架.ACM多媒体,2020年。1,2,50[7] Jiankang Deng, Jia Guo, Niannan Xue, and StefanosZafeiriou. ArcFace: 用于深度人脸识别的加性角度边界损失.在IEEE/CVF计算机视觉和模式识别会议论文集中,2019年2月。2,3,4,5,6,7,80[8] Gege Gao, Huaibo Huang, Chaoyou Fu, Zhaoyang Li, andRan He. 信息瓶颈解缠用于身份交换.在2021年IEEE/CVF计算机视觉和模式识别会议(CVPR)上,第3403-3412页,纳什维尔,田纳西州,美国,2021年6月。IEEE。20[9] Ian J. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza,Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville,and Yoshua Bengio. 生成对抗网络.神经信息处理系统进展,27,2014年。40[10] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun.深度残差学习用于图像识别.在2016年IEEE计算机视觉和模式识别会议(CVPR)上,第770-778页,拉斯维加斯,内华达州,美国,2016年6月。IEEE。40[11] Gary B. Huang, Manu Ramesh, Tamara Berg,和ErikLearned-Miller.野外标记人脸:用于研究非约束环境中人脸识别的数据库。技术报告07-49,马萨诸塞大学,阿默斯特,2007年10月。70[12] Tero Karras, Samuli Laine,和Timo Aila.用于生成对抗网络的基于样式的生成器架构。在IEEE/CVF计算机视觉和模式识别会议(CVPR)论文集中,2019年6月。40[13] Tero Karras, Samuli Laine, Miika Aittala, Janne Hellsten,Jaakko Lehtinen,和Timo Aila.分析和改进StyleGAN的图像质量。在IEEE/CVF计算机视觉和模式识别会议论文集中,页码8110-8119,2020年。StyleGAN2。2,4,70[14] Prannay Khosla, Piotr Teterwak, Chen Wang, AaronSarna, Yonglong Tian, Phillip Isola, Aaron Maschinot, CeLiu,和Dilip Krishnan.监督对比学习。神经信息处理系统进展,33:18661-18673,2020年。2,3,4,50[15] Diederik P. Kingma和Jimmy Ba. Adam:一种随机优化方法。在ICLR(海报)中,2015年。40[16] Lingzhi Li, Jianmin Bao, Hao Yang, Dong Chen,和FangWen.推进高保真度身份交换以进行伪造检测。在IEEE/CVF计算机视觉和模式识别会议(CVPR)论文集中,2020年6月。1,2,3,4,50[17] Lars Mescheder, Andreas Geiger,和Sebastian Nowozin.GAN的哪些训练方法实际上会收敛?在国际机器学习会议上,页码3481-3490。PMLR,2018年。40[18] Arsha Nagrani, Joon Son Chung, Weidi Xie,和AndrewZisserman. Voxceleb:野外大规模说话人验证。计算机科学与语言,2019年。70[19] Jacek Naruniec, Leonhard Helminger, ChristopherSchroers,和Romann M Weber.用于视觉效果的高分辨率神经人脸交换。在计算机图形学论坛中,卷39,页码173-184。Wiley Online Library,2020年。20[20] Ryota Natsume, Tatsuya Yatagawa,和Shigeo Morishima.FSNet:一种面向身份的生成模型,用于基于图像的人脸交换。在亚洲计算机视觉会议上,页码117-132。Springer,2018年。20[21] Ryota Natsume, Tatsuya Yatagawa,和Shigeo Morishima.RSGAN:使用潜在空间中的面部和头发表示进行人脸交换和编辑。在ACMSIGGRAPH 2018海报中,SIGGRAPH'18,美国纽约,2018年。计算机协会。1,20[22] Yuval Nirkin, Yosi Keller,和Tal Hassner. FSGAN:主体不可知的人脸交换和再现。在IEEE/CVF国际计算机视觉会议论文集中,页码7184-7193,2019年。1,20[23] Yuval Nirkin, Iacopo Masi, Anh Tran Tuan, TalHassner,和Gerard Medioni.关于人脸分割,人脸交换和人脸感知。在2018年第13届IEEE国际自动人脸和手势识别会议(FG2018)上,页码98-105,西安,2018年5月。IEEE。20[24] Olaf Ronneberger, Philipp Fischer,和Thomas Brox. U-Net:用于生物医学图像分割的卷积网络。在国际医学图像计算和计算辅助干预会议上,页码234-241。Springer,2015年。2,40[25] Andreas Rossler, Davide Cozzolino, Luisa Verdoliva,Chris- tian Riess, Justus Thies,和Matthias Niessner. FaceForen-sics++:学习检测篡改的面部图像。在2019年IEEE/CV
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功