区域感知人脸交换与局部-全局身份一致的高分辨率生成

48 浏览量更新于2023-10-25 收藏 2.53MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

7632区域感知人脸交换徐超1*<$张江宁1 <$<$缪华2钱贺2李毅2刘勇1张1浙江大学四月实验室2字节跳动有限公司{21832066，186368} @ zju.edu.cn，yongliu@iipc.zju.edu.cn{huamiao，heqian，yizili} @ bytedance.comFaceShifter SimSwap我们的MegaFS我们的图1. 与SOTA方法在挑战性情况下的比较。左半部分显示属性不同情况下的结果，例如，刘海和白发，其中我们的方法明显优于FaceShifter[19]和SimSwap[7]，具有更高的质量，更好的身份一致性和更少的伪影。右部分显示了SOTA MegaFS[46]在光线变化和野外情况下的高分辨率结果，其在面部轮廓和光线周围存在伪影，而我们的方法可以更好地保留目标面部的属性图片来自官方附加的结果或发布的代码，以进行公平的比较。请放大以了解更多详情。摘要本文提出了一种新的区域感知人脸交换（RAFSwap）网络，以局部-全局方式实现身份一致的和谐高分辨率人脸生成： 1 ）局部面部区域感知（FRA）分支通过引入Transformer来有效地对未对齐的跨尺度语义交互进行建模，从而增强局部身份相关特征。2）全局源特征-自适应（SFA）分支进一步补充用于生成身份一致的交换面部的全局此外，我们提出了一个人脸面具预测器（FMP）模块与StyleGAN2结合，以无监督的方式预测身份相关的软面具，这对于生成和谐的高分辨率人脸来说更实用。大量的实验定性和定量地证明了我们的方法在生成身份一致的高分辨率交换图像方面相对于SOTA方法，例如，获得96.70的ID检索，比SOTA MegaFS高5.87↑。在字节跳动实习期间完成的工作†同等贡献。‡通讯作者。1. 介绍人脸交换旨在保持目标人脸与身份无关的属性不变的情况下，将源身份转换为目标身份，在影视业和电脑游戏中引起了广泛的关注。近年来，许多研究者在人脸交换方面取得了重大进展，特别是设计了基于反转的方法来生成高分辨率的人脸图像。然而，有两个持续的关键问题：1）如何保持身份与源身份的一致性，包括局部和全局面部细节。几乎所有当前的方法[7，19]都只在全局特征表示上执行特征交互，而不对身份相关的局部区域进行建模，例如，嘴唇、鼻子、眉毛和眼睛，这将限制模型表达身份一致性的能力。2）如何在GAN反演框架下生成高分辨率的交换人脸，同时保持身份无关细节与目标人脸一致，例如，背景和场景。最近的作品[38，46]利用StyleGAN 2[17]作为强大的解码器，但未能保持目标人脸的身份无关属性的一致性在本文中，我们致力于解决上述两个问题。源目标源目标7633最近的工作[7，18，19，34，37]将人脸交换视为一种风格转换任务，该任务采用全局AdaIN[14]将源人脸的身份信息转换为目标人脸。然而，由人脸识别网络产生的身份向量自然不是很好地解缠的，其不可避免地包括源人脸的一些身份无关的信息，例如，背景、光分布和发型。这些错误信息将通过AdaIN以全局方式进一步注入目标特征，导致低质量的生成结果。如图1的左部分所示。1、现有的基于AdaIN的人脸识别方法不能很好地保持源人脸的身份，在一些具有挑战性的情况下，刘海和白发为了更好地保持生成人脸的身份一致性，在全局表示的基础上，显式地对局部人脸特征进行建模，更精细地进行特征交互，同时也排除了源人脸身份无关区域的影响。以这种方式，我们的方法很好地胜任上述挑战，如图4的第四列所示。1.一、具体来说，我们设计了两个并行分支来处理不同的细粒度信息：1）局部面部区域感知（FRA）分支，用于对源和目标面部之间的身份相关特征交互进行建模，其采用区域感知身份令牌化器（ RAT ）、Transformer层[31]和区域感知身份投影器（RAP）来实现未对齐的跨尺度语义交互，即，嘴唇，鼻子，眉毛和眼睛。2) 全局源匹配-自适应（SFA）分支以补充全局身份相关线索，例如，皮肤皱纹，以获得更一致的结果。详细信息可以在下面的章节中找到。3.1和3.2。为了实现更实际应用的高分辨率人脸生成，我们采用了GAN反转框架[26，30]，类似于最近的人脸交换工作[38，46]。但是这些方法引入了一个致命的问题，即不能保持背景和遮挡，因为向量条件的渐进生成将不可避免地改变身份无关的区域。最近的MegaFS[46]以后处理的方式将高分辨率结果与预先存在的面部掩模融合在一起，而HifiFace[34]则以监督的方式学习预测面部掩模，从而限制应用程序。这些方法必须依赖于地面真实人脸面具，并且通常会在面部轮廓周围产生伪影，如图1的右侧部分所示。相应地，考虑到预训练的StyleGAN2[17]封装了丰富的面部语义先验，我们设计了一个面部面具预测器（FMP）来以无监督的方式预测身份相关的软面部面具，即，而不使用特定的掩模监督。通过这种方式，我们的模型实现了和谐的高分辨率人脸生成，保持身份无关属性与目标人脸一致。总的来说，我们做出了以下三点贡献：• 我们提出了一种新的区域感知人脸交换（RAFSwap）网络，该网络由一个新的FRA分支和一个新的 SFA 分支组成，前者通过引入Transformer来有效地模拟错位的跨尺度语义交互，以增强局部身份相关特征，后者进一步补充全局身份相关线索，以生成身份一致的交换人脸。• 我们提出了一个FMP模块与风格GAN2预测身份相关的软面具在一个无监督的方式，更实用。• 大量的实验定性和定量地证明了我们的方法的优越性，产生更多的身份一致的高分辨率交换面SOTA方法。2. 相关工作2.1. GAN反演GAN反演是一个任务，训练好的GAN可以最准确地重建原始输入图像的潜在代码。通常，作品[1，2]直接优化潜在向量以最小化给定图像的错误。这些方法可以达到较高的重建质量，但它们是耗时的。随后，最近的方法采用编码器将给定图像端到端地映射到潜在空间具体来说，pSp和GHF[26，36]将真实图像嵌入到一系列风格向量中，这些向量被输入到预先训练的StyleGAN2生成器中。e4e[30]设计了编码器，它生成单个基本样式代码和一系列偏移向量，以产生最终的样式代码。2.2. 换脸人脸交换的目的是改变面部身份，但保持其他面部属性不变。早期的努力[5，6，8]集中于基于3D的方法，但它需要手动交互并且不能保留目标表达。为了解决这个限制， Face2Face[29] 将 3D 变形模型（3DMM）拟合到源和目标面部。Nirkin等人[23]结合3DMM和人脸分割模型，在前所未有的条件下实现鲁棒的人脸交换。此外，随着GAN的普及[12]，基于学习的方法已经在人脸交换方面取得了重大进展。DeepFakes[25]为两个特定的身份训练编码器-解码器架构，但缺乏泛化能力。有些作品遵循解纠缠范式。IPGAN[4]将源人脸的身份和目标人脸的属性分开，并将它们重新组合以进行身份保持人脸合成。FaceShifter[19]自适应地将身份和属性嵌入与注意力方式相结合。FaceInpainter[18]采用3D先验，7634.Σ不∈不不SSS.Σ图2.拟议的资源分配框架交换概览。源人脸Is和目标人脸It首先经过权重共享的层次化人脸编码器CREE和预先训练的人脸解析模型，得到层次化特征，即，Fs和Ft，以及相应的语义标签，即，Ms和Mt。然后采用橙色的局部Facial Region-Aware分支和蓝色的全局Source Adaptive-Adaptive分支，以局部-全局的方式将Is的身份信息与It的目标属性进行整合，得到Fl和Fg。融合后的层次特征F_t通过StyleGAN2映射到不同的细粒度向量上，控制目标面生成过程杰内拉托河FaceMaskPredictor利用StyleGAN2特征图来生成软Face MaskM。Is→t混合为目标通过M获得帧It，以获得最终的切换帧I t。表示生成的面而不是真实面。纹理编码和用于显式解缠的身份编码。最近，MegaFS[46]首次利用StyleGAN 2作为高分辨率人脸交换的解码器。然而，由于全局特征融合，上述参考方法难以生成高度身份一致的人脸。2.3. 特征融合特征融合是人脸交换中的一个重要过程。大多数以前的作品[7，18，19，34，37，40]都受到风格转换方法的启发。他们采用AdaIN[14]将身份向量注入目标面部以生成交换面部。此外，MegaFS[46]提出了FTM来控制身份信息的多个属性，而其他方法[22，24，38，42]几乎没有连接身份和属性向量。然而，这样的全局操作不模拟关键的局部特征交互。最近，注意力结构在NLP [11，31，41]和CV [20，35]中的特征增强和交互中起着关键作用。基于注意机制，我们设计了我们的RAT和RAP的特征融合，充分融合的本地和全局的身份相关的功能，同时保留目标的脸的属性。3. 方法本文提出了一种新的RAFSwap算法，用于生成高分辨率、身份一致的交换人脸图像。我们的方法建立在GAN反演框架pSp [26]上。如图所示在图2中，我们首先将源面部Is和目标面部It发送到分层面部编码器EEE，以提取分层特征Fs=F0，F1，F2，并且Ft=F0，F1，F2.上标0、1、2分别表示小、中、大比例所有的特征图都映射到512个通道。同时，通过BiseNet[39]提取源和目标面部在嘴唇、鼻子、眉毛和眼睛区域上的语义标签Ms和Mt。其次，采用FRA和SFA分别提取源人脸I s的局部和全局鉴别身份特征，得到Fl和Fg，然后对它们进行逐元素处理添加以产生融合的分层特征F_t。第三、在pSp之后，训练18个映射网络以从分层特征映射中提取学习的风格。所有样式向量都被输入到StyleGAN2生成器中，合成反式脂肪酸酯。的特征图FMP同时提取StyleGAN 2生成软掩码M。最后，M将I_s→t和I_t混合以产生S_wappedfaceI_t。3.1. 面部区域感知分支区域感知身份令牌化器。为了通过局部身份相关区域，即，嘴唇，鼻子，眉毛和眼睛，我们提出了一个区域感知的身份令牌。如示于图3. RAT的目的是将源人脸特征Fs转换为关键的局部身份相关标记Ts的紧凑集合RN× L ×512，其中N是特征映射尺度的数量，L是区域的数量。我们定义了三个尺度和四个面部区域，因此N和L设置为3和4。在SEAN[45]之后，我们采用区域平均池化层Φ来获得局部语义表示。具体来说，我们通过使用双线性插值来匹配语义标签，IsE美元（StyleGAN2发生器FMPItEIO（$FRA分支机构添加SFA分支共享权重(1-）Is→$I$阿勒面部解析布说唱$伊什面部解析S（S➚S大鼠布GAP + MLP…7635联系我们不不S每个源特征图的大小。然后，每个区域接着是一个线性层，以进一步嵌入所有分层的身份相关令牌。tokenizer操作可以用以下公式表示：Tn=Linear（Φ（Fs，Mn）），哪里S嘴唇鼻子S眉头眼睛MsMs，M s ，M s，M s.（一）Transformer层。基于AdaIN的方法缺乏关键局部特征之间的特征交互导致身份一致性差的交换面孔受益于我们的区域感知机制，我们引入了Transformer层来模拟不同尺度和语义的令牌之间的交互，该层构建在多头自注意（MSA）层以及前馈网络（FFN），层规范化（LN）和剩余连接（RC）操作之上。在实践中，一个重塑歌剧-在T s上应用条件以组合N和L维度：Ts∈图3.每个尺度上的区域感知身份令牌化器和区域感知身份投影器的结构。用于形成局部身份增强特征F1。特别地，Fm沿高度和宽度尺寸变平RNL×512。我们将Ts分别表示为查询、键和值。不问题：Fm∈RHW×512。给定平坦特征Fm活泼地每个注意力头被公式化为：。联系我们的身份相关令牌Ts，每个尺度作为键和值，注意力矩阵AP是一IJAttention（Ts）=Softmax注意力TsWQTsWK√中国台湾计算为Eq。2. 的每个元素P表示重-DK=ATsWV，（二）每个像素和标记之间的关系我们展示分数位于鼻子上的像素和图中的所有四个标记之间的关系。3.第三章。正如预期的那样，它具有令牌其中WQ∈Rdm×dk，WK∈Rdm×dk，WV∈Rdm×dv从源鼻子区域提取身份相关令牌因此线性地转移到Fm，然后是特征投影的参数矩阵。dm是输入维度，而dk和dv是每个投影子空间，A∈RNL×NL是注意力重新塑造成与不Ft，并进一步添加到Ft：矩阵，表示所有标记之间的关系。对于FFN，它由两个级联的线性变换组成，中间有一个ReLU激活：FFN（x）= max（0，xW1+b1）W2+b2，（3）其中x是输入令牌，W1和W2是两个线性层的权重，b1和b2是相应的偏置。变换后的记号T_s被公式化为：Ts = T s+[MSA |FFN]（LN（Ts））。（四）随后，每个令牌通过Transformer层包含足够的多尺度区域感知身份投影器。对应于Tok-enizer，我们需要在空间上将身份相关的token投影到目标特征，同时考虑源和目标人脸之间的未对齐属性，例如，凝视和表情与SEAN[45]通过引用样式面替换编辑的源区域的样式不同，我们设计了一个区域感知身份投影器来自适应地将身份F1=Ft+RS（APTsWP），（5）其中WP是可学习的权重，RS是整形操作3.2. 源路由器-自适应分支在FRA之后，来自源人脸的关键局部身份相关然而，一些全局面部表示也影响交换面部的身份一致性，例如，皮肤皱纹，面部成分的相对距离。因此，我们设计了一个全局的源自适应分支，捕获全局信息作为一个补充线索，以区分不同的身份。如图2、为了避免源人脸和目标人脸之间的空间错位，具有最小尺寸的源特征图首先经过全局平均池化（GAP）。然后，MLP遵循进一步自适应重组的全球功能。最后，我们广播大到三个尺度的全局特征，并将它们添加到具有相同分辨率的Fl中，以获得inte。grated tar get features功能：tty信息的目标脸，并保持其属性不变。如图3、掩蔽目标特征图通过组合加权的Tt来更新Fm，以细化FtFg=MLP（ GAP（F0）），Ft=Fg+Fl。（六）伊伊什伊#s0.030.090.870.01阿勒特更新不布勒$不说唱大鼠线性区域平均合并7636L×·×̸·Iout-It2¨¨StyleGAN2瓶颈作为目标面部和所生成的面部之间的像素级2距离，其可以写为：. ¨ˆ¨2图4. Face Mask Predictor3.3. 面罩预测器为了解决GAN反演框架引入的遮挡和扭曲背景问题，MegaFS[46]直接利用预训练分割模型产生的硬面部掩模进行混合，这往往会在边缘周围产生伪影，并且不便于计算。相反，受La-bels 4Free[3]的启发，我们充分利用了现有的结构。首先，预先训练的StyleGAN2的层已经包含丰富的语义先验。第二，身份一致性约束可以迫使掩码模块聚焦于身份相关区域。因此，我们利用Style-GAN 2的特征图来产生软面具，而无需特定的面具超视。具体地说，如图4，我们首先以16到256的分辨率对特征图进行采样，然后在每个特征图上应用瓶颈，这将通道减少到32，并将分辨率上采样到256。最后，级联的特征图被顺序地馈送到11卷积层和S形层以产生单通道软掩模M。为了生成交换的面，我们通过M将I=t共混到目标获得面I=t，公式为：0否则感知损失。除了在像素级测量两张脸之间的差异外，我们还利用LPIPS[44]损失来计算目标和生成的脸之间的语义错误它可以写为：Lp=p（Iou t）−p（It），（10）其中p（）表示预训练的VGG 16网络。总损失是上述所有损失的加权和Ltotal=λidLid+ λrecLrec+ λpLp。（十一）4. 实验4.1. 数据集和实施详细信息数据集。对于人脸交换，CelebA-HQ [16]是CelebA[21]的高质量版本，它有30000张1024分辨率的图像。FaceForensics++ 是一个取证数据集，由来自YouTube的1000个视频序列组成。实施详情。我们使用CelebA-HQ数据集作为训练集，损失权重的值设置为λid=0。15，λrec=1，λp=0。8，分别。具有It=Is和It=Is的训练数据的比率被设置为一比四。将输入图像的大小调整为256 256。在训练过程中，StyleGAN2是固定的，其余的权重通过使用β1= 0的Adam优化器更新。9，β2=0。999，学习率= 1e−4。RAFSwap使用50K步进行训练，使用1 Tesla V100GPU和8批大小。4.2. 与以前方法的我出去了 =MIs→t +（1 − M）It.（七）定性比较。我们将我们的方法与Face-Forensics ++上的FaceShifter[19] ， SimSwap[7]和 MegaFS[46] 进行了比较。如图5、我们展示一些条件3.4.目标函数在RAFSwap的训练阶段，我们采用了身份损失，重建损失和感知损失。身份丢失。经过良好训练的人脸识别模型可以提供代表性的身份嵌入。我们使用余弦相似度来估计生成的人脸和源人脸的身份嵌入之间的相似度，其可以写为：Lid=1−cos（R（Is），R（Iou t）），（8）其中R（）是预先训练的ArcFace [9]网络。重建损失。如果源和目标面对来自同一个身份，生成的人脸应该看起来与目标人脸相同。我们定义一个重建损失4 x 4恒定…16 x 16块32 x 32块…256 x 256块…Conv 1x1泄漏ReLU上采样↑Concat瓶颈Conv 1x1乙状瓶颈瓶颈Lrec=如果t=s .（九）7637其易于产生伪像，包括源面部和目标面部之间具有较大差异的面部形状、发型和眉毛我们可以看到，MegaFS和我们的方法可以处理这些挑战，但MegaFS不能保留目标人脸的属性，如肤色。此外，我们的结果共享眼睛的颜色与源脸比其他方法更此外，我们将我们的方法与FaceShifter和FaceInpainter[18]在野生人脸图像上进行了比较。如图6、得益于设计良好的身份集成和灵活的软掩码生成模块，我们的结果可以很好地保留源身份信息，小嘴、目标属性，例如，头发颜色和处理闭塞情况，例如，眼镜由于我们的方法可以生成高分辨率的交换面，我们将RAFSwap与CelebA-HQ上的MegaFS进行了7638↑ ↓↓↑ ↓ ↓↓L源目标FaceShifter SimSwap MegaFS Ours源目标FaceShifter我们的源目标FaceInpainter我们的图5. 与FaceShifter[19]、 SimSwap[7]和[27]第四十七话：我的世界方法ID保留值姿势实验[25]第二十五话[19]2016年12月19日SimSwap[7] 89.731.94 2.39MegaFS[46] 90.83 2.64 2.96我们的96.702.53 2.92表1.FaceForensics++上的定量比较结果[27]。粗体表示最佳结果。向上箭头表示该值越大，模型性能越好，反之亦然。方法ID模拟姿势实验FIDMegaFS[46] 0.4837 3.853.13 18.81我们的0.5232 3.773.1513.25表2.CelebA-HQ的定量比较结果[16]。如图7、我们在性别、年龄、肤色和姿势之间抽取了四对显著的显然，我们的方法实现了更高的身份一致性结果，与源人脸共享相同的局部和全局表示，眼睛颜色和皮肤皱纹，并忠实地尊重目标面部的属性。请注意，我们的方法在边缘周围产生更和谐的融合结果。定量比较。我们遵循MegaFS中的实验设置，这与FaceShifter在数据预处理方面略有不同。首先，我们从每个视频中采样10帧，并通过MTCNN[43]处理它们，得到10K对齐的人脸。因为一些视频显示重复的身份，并包含多个面孔在一个图6.与FaceShifter [19]和FaceIn-painter [18]的比较。图片来自官方附带的结果。请放大红色虚线矩形以进行更清晰的比较。我们仔细检查对齐的面孔，并将所有视频手动分类为885个身份。然后，我们评估的准确性的身份检索（焦v。ID Ret.），姿势和表情错误（焦v. Exp.）。我们应用CosFace[32]来提取身份嵌入，并通过使用余弦相似性来检索最近的人脸。姿态估计[28]和3D面部模型[10]用于提取姿态和表情向量，以进行姿态和表情评估。我们测量交换的面和相应的目标面之间的2个比较结果见表1。1、SimSwap较好地保留了目标人脸的属性，但身份一致性较差。我们的方法实现了最高的ID检索，以较大的余量超过MegaFS，并且与FaceShifter具有可比的姿势和表情错误。请注意，我们省略了与FaceInpainter的定量比较，因为源代码不是公开的。为了与MegaFS进行高分辨率交换结果比较，我们在CelebA-HQ测试集中随机抽取了10万对人脸图像。我们报告ID相似性（焦v。ID Sim.），姿势错误、表达式错误和FID。ID相似性通过计算交换的人脸和对应的源人脸的余弦相似性如Tab.所2、RAFSwap在ID相似度和姿态误差方面比 MegaFS 有更好的表现因为MegaFS采用了界标丢失，这会产生交换的脸，忠实地尊重目标的嘴型，但导致低身份-与源一致。此外，较低的FID表明我们的方法可以生成更真实的图像。7639↑↑源目标MegaFS Ours掩码图7. [16]第46话：你的心在哪里？我们在性别、年龄、肤色和姿势方面存在显著差异的情况下对一些具有挑战性的条件进行了方法识别-感知质量DeepFakses[25] 0.07 0.05[19]第19话SimSwap[7] 0.13 0.09MegaFS[46] 0.15 0.16我们的0.49 0.57表3. FaceForensics++上的人类研究结果[27]。人体研究。我们进行了一项人体研究，以评估每种方法的性能。对应于两个挑战，我们让用户选择：i）与源人脸具有最相似身份并且与目标人脸共享最相似属性的人脸;二是最高质量的。对于每个用户，我们从1000个FaceForensics++视频中随机抽取20对，没有重复。结果见表。3是基于50个用户的答案，表明我们的方法显着优于其他四种方法。4.3.消融研究与应用特征融合模块。为了验证FRA和SFA的组合在GAN反演框架中优于AdaIN，我们进行了定性和定量实验。具体来说，我们修改了基于AdaIN的基线，将身份向量注入到分层特征映射中。如图2和图4所示8、AdaIN生成的第三由于全局AdaIN操作和Fixed StyleGAN2生成器，该基线不能自适应地保持详细的身份特征，并且倾向于表达一般表示。对于比较-源目标AdaIN w/o FRA w/o SFA FRA+SFA图8.消融研究的定性结果。我们的完整模型获得了比其他变体更好的结果。因此，我们的方法可以生成更多的身份一致的脸感谢精心设计的特征集成模块。此外，比较Tab.4、我们的方法比ID Ret显著提高了4.22。在AdaIN的基础上。作为成本，额外的13.3M的BiseNet需要在CelebA-HQ进行4小时的培训。分析了FRA和SFA分支的必要性如图8、孤立的SFA识别性能较差，而孤立的FRA识别性能较好，但存在源人脸纹理不匹配的问题。当使用FRA和SFA时，生成的人脸保留了源人脸的局部身份相关特征和全局面部细节。定量实验见Table.4一致地证明了每个组件的有效性和我们模块的优越性。注意结构。为了验证Transformer捕获令牌交互的强大能力，我们进行了定量实验。特别是，我们修改了一个比较版本，用非本地层替换了Transformer层[33]。如Tab的前三行所示。5、一个Transformer层提高了性能，而一个Non-Local层不能充分地对令牌交互进行建模，并导致轻微的性能下降。此外，为了评估层数的影响，我们进行了对照实验。如Tab的最后三行所示。5、随着层数的增加，性能没有明显提高为了平衡性能和计算，我们采用了一层八头的Transformer。此外，我们将一个注意力头想象为一个源脸。如图注意力图表明，Transformer在不同的尺度上集中在不同的语义区域，即，大尺度表征集中在眼睛上，中尺度表征集中在嘴唇上，小尺度表征集中在鼻子上。值得注意的是，眉毛由于面积小和与眼睛重叠的感受野而没有受到太多的关注。7640↑ ↓↓↑ ↓↓↓ ↓ ↓↓方法Adain FRA SFA FMP ID保留构成Exp .✓澳门新萄京 92.48 2.60 2.98澳门永利 96.70 2.53 2.92表4.在FaceForensics++上使用不同拟议组件对RAFSwap进行定量消融研究[27]。方法ID保留值姿势实验+非本地[33]96.50 2.63 3.03+ Tr-396.732.542.90表5.在FaceForensics++上对具有不同注意力成分的RAFSwap进行定量消融研究[27]。CPU GPU参数触发器(s)（ms）（M）（G）LADN[13] 8.70 26.8 26.99 175.77 PSGAN[15]8.45 128.912.6191.02我们的0.283 9.313.6071.39表6.化妆品转移效率评估。FPS是在一辆特斯拉V100上评估的。面罩预测器。为了证明FMP的有效性，我们提供了两个定性比较。如图10，没有面具的指导，我们的方法不能保持一些属性不变，例如，背景在原始交换的面部上应用硬地面实况遮罩会产生过多的信息和不自然的边缘，特别是在刘海区域。相比之下，我们的完整模型与软面具模块实现更和谐的融合面。FMP也带来了改进的数量，如表的最后两行所示4.第一章扩大FRA的应用范围我们进一步应用我们的FRA分支机构在化妆品转移。具体来说，我们采用PS- GAN[15]作为基线。为了公平比较，我们只将PSGAN的AMM模块替换为FRA分支。如图11，与LADN [13]和PS-GAN相比，我们的方法精确地转移了具有逼真效果的化妆颜色，其中源面上的身份和光线得到了很好的保留。此外，我们还比较了它们的运行效率。结果见表。6. 我们的方法比GPU上的PSGAN快十倍以上。扩展实验表明，由于FRA具有灵活的认知机制和充分的特征交互作用，因此它也能处理纹理和颜色特征的迁移。22221111###数量S图9.注意力可视化的来源面。符号l，n，b，e分别表示嘴唇，鼻子，眉毛，眼睛。上标0、1、2分别表示小、中、大刻度源目标w/o遮罩GT遮罩带GT遮罩软遮罩软面膜图10.FMP的定性结果我们放大第二个样本的红色虚线矩形以进行更清晰的比较。来源参考LADN PSGAN Ours图11.在Makeup-Wild数据集上与SOTA化妆转移方法进行比较[15]。5. 结论和未来工作在本文中，我们提出了一种新的RAFSwap建立在GAN反演生成高分辨率和身份一致的交换面。具体地说，FRA集成的身份相关的局部特征到目标脸，和SFA提供互补的身份相关的细节全球。此外，FMP与StyleGAN2相结合，可以在不受监督的情况下保留目标的背景和遮挡大量的实验表明，我们的方法优于其他SOTA方法。由于训练数据集的限制，基于反演的方法不能处理超范围情况，即，面对不同的视角。我们将进一步结合先验知识，以提高我们的方法的实用性。6. 致谢本课题得到了国家自然科学基金项目（批准号：6183601522221111###数量✗✓✗电话：+86-510 - 8888888✗✗✓2.61 3.06✗✓✓电话：+86-510 - 8888888+ Tr-096.622.603.01+ Tr-196.702.532.92+ Tr-296.712.512.947641引用[1] Rameen Abdal，Yipeng Qin，and Peter Wonka.图像-年龄2风格：如何将图像嵌入到潜空间中？在IEEE/CVF计算机视觉国际会议论文集，第4432-4441页[2] Rameen Abdal ， Yipeng Qin ， and Peter Wonka. Im-age2stylegan++：如何编辑嵌入的图像？在IEEE/CVF计算机视觉和模式识别会议的论文集，第8296-8305页[3] Rameen Abdal 、 Peihao Zhu 、 Niloy Mitra 和 PeterWonka 。 Labels4free ：使用 stylegan 的无监督分割。arXiv预印本arXiv：2103.14968，2021。[4] Jianmin Bao，Dong Chen，Fang Wen，Houqiang Li，and Gang Hua.面向开集身份保持的人脸合成。在IEEE计算机视觉和模式识别会议论文集，第6713-6722页[5] Dmitri Bitouk，Neeraj Kumar，Samreen Dhillon，PeterBel- humeur，and Shree K Nayar.换脸：自动替换照片中的人脸。ACM SIGGRAPH 2008论文，第1-8页。2008年[6] Volker Blanz，Kristina Scherbaum，Thomas Vetter，andHans-Peter Seidel.在图像中交换面孔。计算机图形论坛，第23卷，第669-676页。Wiley Online Library，2004.[7] 陈仁旺、陈玄鸿、倪冰冰、葛炎昊。Simswap：一个高效的高保真人脸交换框架。第28届ACM国际多媒体会议论文集，2003[8] Yi-Ting Cheng ， Virginia Tzeng ， Yu Liang ， Chuan-Chang Wang ，Bing-Yu Chen， Yung-Yu Chuang ，andMing Ouhy-Xiao.视频中基于三维模型的人脸替换。在SIG-GRAPH2009年[9] 邓健康，贾国，薛念南，Stefanos Zafeiriou。Arcface：用于深度人脸识别的附加角度余量损失。在IEEE/CVF计算机视觉和模式识别会议论文集，第4690[10] Yu Deng，Jiaolong Yang，Sicheng Xu，Dong Chen，Yunde Jia，and Xin Tong.基于弱监督学习的精确3D人脸重建：从单张图像到图像集。在IEEE/CVF计算机视觉和模式识别研讨会会议中，第0[11] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：为语言理解而进行的深度双向转换器的预训练。arXiv预印本arXiv：1810.04805，2018。[12] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。《神经信息处理系统进展》，2014年第27期。[13] Qiao Gu ， Guanzhi Wang ， Mang Tik Chiu ， Yu-WingTai，and Chi-Keung Tang.Ladn：局部对抗解缠网络，用于面部化妆和卸妆。在IEEE/CVF计算机视觉国际会议论文集，第10481-10490页[14] Xun Huang和Serge Belongie。实时任意样式传输，具有自适应实例规范化。进行中-IEEE International Conference on Computer Vision ，第1501-1510页，2017年。[15] Wentao Jiang，Si Liu，Chen Gao，Jie Cao，Ran He，Jiashi Feng，and Shuicheng Yan. Psgan：姿势和表情鲁棒的空间意识根定制化妆转移。在IEEE/CVF计算机视觉和模式识别会议论文集，第5194-5202页[16] Tero Karras ， Timo Aila ， Samuli Laine ， and JaakkoLehtinen.为提高质量、稳定性和变异性而进行的干细胞生长。arXiv预印本arXiv：1710.10196，2017。[17] Tero Karras ， Samuli Laine ， Miika Aittala ， JanneHellsten，Jaakko Lehtinen，and Timo Aila.分析和改进了扫描仪的图像质量。在IEEE/CVF计算机视觉和模式识别会议论文集，第8110-8119页[18] 李佳，李朝阳，曹杰，宋星光，何冉。Faceinpainter：高逼真度的脸适应异构域。在IEEE/CVF计算机视觉和模式识别会议论文集，第5089[19] Lingzhi Li，Jianmin Bao，Hao Yang，Dong Chen，andFang Wen. Faceshifter：朝向高保真和遮挡感知的人脸交换。arXiv预印本arXiv：1912.13457，2019。[20] Ze Liu，Yutong Lin，Yue Cao，Han Hu，Yixuan Wei，Zheng Zhang，Stephen Lin，and Baining Guo. Swin变压器：分层视觉Transformer使用移位的Win32. arXiv预印本arXiv：2103.14030，2021。[21] Ziwei Liu ， Ping Luo ， Xiaogang Wang ， and XiaoouTang.在野外深度学习人脸属性。在IEEE计算机视觉国际会议论文集，第3730[22] Le Minh Ngo，Sezer Karaoglu，Theo Gevers，等.统一应用风格转移的面孔交换和重演。2020年亚洲计算机视觉会议论文集[23] Yuval Nirkin 、 Iacopo Masi 、 Anh Tran Tuan 、 TalHassner和Gerard Medioni。人脸分割、人脸交换和人脸感知。在2018年第13届IEEE自动人脸手势识别国际会议（FG 2018），第98IEEE，2018年。[24] Yotam Nitzan，Amit Bermano，Yangyan Li，and DanielCohen-Or.基于潜在空间映射的人脸身份解纠缠。arXiv预印本arXiv：2005.07728，2020。[25] Ivan Perov，Daiheng Gao，Nikolay Chervoniy，KunlinLiu ， Su g asaMarangonda ， ChrisU me' ， MrDpfks ，CarlShiftFacenheim ， Luis RP ， Jian Jiang ， et al.Deepfacelab：一个简单、灵活、可扩展的人脸交换框架。arXiv预印本arXiv：2005.05535，2020。[26] Elad Richardson、Yuval Alaluf、Or Patashnik、YotamNitzan、Yaniv Azar、Stav Shapiro和Daniel Cohen-Or。编码样式：一种用于图像到图像转换的stylegan编码器。在IEEE/CVF计算机视觉和模式识别会议论文集，第2287-2296页[27] Andreas Rossler、Davide Cozzolino、Luisa Verdoliva、Chris- tian Riess 、 Justus Thies 和 Matthias Nießner 。Faceforen- sics++：学习检测被操纵的面部图像。在IEEE/CVF计算机视觉国际会议论文集，第1-11页7642[28] Nataniel Ruiz，Eunji Chong，and James

下载后可阅读完整内容，剩余1页未读，立即下载