没有合适的资源?快使用搜索试试~ 我知道了~
5074用于伪造检测的高保真身份交换李凌志1杨健民2<$杨浩2陈冬2方文21北京大学2微软研究院lilingzhi@pku.edu.cn{jianbao,haya,doch,fangwen}@ microsoft.com源目标结果源目标结果图1:源图像中的人脸被用来替换目标图像中的人脸FaceShifter的结果显示在右侧。摘要在这项工作中,我们研究了各种现有的深度伪造检测研究基准。特别是,我们ex-amine一种新的两阶段人脸交换算法,称为FaceShifter,高保真和遮挡感知人脸交换。与许多现有的人脸交换工程,只有利用有限的信息,从目标图像合成交换的脸,FaceShifter生成交换的脸与高保真利用和整合的目标属性彻底和自适应。FaceShifter可以通过第二合成阶段处理面部遮挡,第二合成阶段由启发式错误确认细化网络(HEAR-Net)组成,该网络经过训练,可以在没有任何手动注释的情况下以自我监督的方式恢复异常区域。实验表明,前代deepfake检测算法与FaceShifter相比表现不佳,因为它在所有现有基准测试中获得了有利的质量。然而,我们新 开 发 的 Face X-Ray [23] 方 法 可 以 可 靠 地 检 测FaceShifter创建的伪造图像。1. 介绍人脸交换在视觉和图形社区引起了极大的兴趣,因为它在电影创作、计算机游戏和隐私保护中具有潜在的广泛应用[35]。 更值得一提的是,更好的人脸交换技术将有助于建立更好的人脸伪造检测技术。最近的研究[36]表明,以前的人脸交换算法可以很容易地通过二元分类器检测到。在微软亚洲研究院实习期间完成的工作†通讯作者这是因为这些算法合成的人脸质量通常不令人满意。早期基于替换的工作[6,42]简单地替换内部人脸区域的像素。因此,他们对姿势和视角的变化很敏感。 基于3D的作品[7,12,26,31]使用3D模型来处理姿势或视角差异。然而,人脸三维重建的精度和鲁棒性都不令人满意。最近,基于GAN的工作[21,28,29,30,4]已经说明了令人印象深刻的结果。但它仍然具有挑战性的合成现实主义和高保真度的结果。在这项工作中,我们专注于提高人脸交换的保真度,并在此新的人脸交换算法的人脸伪造人脸检测算法。为了使结果在感知上更具吸引力,重要的是,合成的交换面部不仅共享目标面部的姿势和表情,而且可以无缝地拟合到目标图像中而没有不一致性:交换的面的再现应该忠实于照明(例如,方向、强度、颜色),则交换面的像素分辨率也应当与目标图像分辨率一致。这两个都不能很好地处理一个简单的阿尔法或泊松混合。相反,我们需要在合成交换的面部期间对目标图像属性进行彻底和自适应的整合,使得来自目标图像的属性(包括场景照明或图像分辨率)可以帮助使交换的面部更真实。然而,以前的人脸交换方法要么忽略了这种集成的要求,要么缺乏以一种彻底的和自适应的方式执行它的能力。具体地,许多先前的方法仅使用来自目标图像的姿势和表情指导来合成交换的面部,然后使用以下的掩模将面部混合到目标图像中:5075源靶FaceSwapAEI-Net(我们的)我们的方法可以学习恢复面部异常区域,一种无需任何人工注释的自我监督方式。我们观察到,当将相同的人脸图像作为目标和源输入到一个训练良好的AEI-Net中时,重建的人脸图像在多个区域偏离输入,这些偏离强烈地暗示了人脸遮挡的位置。因此,我们提出了一种新的启发式错误知识细化网络(HEAR-Net),以进一步细化的结果的指导下,这样的重建错误。所提出的方法更具有一般性,因此它可以识别更多的异常类型,如眼镜,阴影和反射效应,以及其他不常见的遮挡。提出的两阶段人脸交换框架,FaceShifter,是主题不可知的。一旦经过训练,该模型就可以应用于任何新的人脸对,而不需要像DeepFakes [1]和Korshunova等人那样进行特定于主题的训练。图2:FaceForensics++上以前方法的失败案例[36]数据集。从左到右,我们显示了输入源图像,输入目标图 像 , FaceSwap [2] 的 结 果 以 及 我 们 的 方 法 的 结 果 。FaceSwap遵循的策略是,首先合成内部面部区域的大小,然后将其混合到目标面部中。这样的策略导致伪像,诸如鼻子上的有缺陷的照明效果(行1),未能保持源身份的面部形状(行2)和不匹配的图像分辨率(行3)。而我们的方法解决了所有这些问题。目标面对。这个过程很容易造成伪影,原因是:1)除了姿态和表情之外,它在合成交换的人脸时利用了关于目标图像的很少的知识,这几乎不能尊重目标属性,如场景光照或图像分辨率; 2)这样的混合将丢弃位于目标面部掩模之外的源面部的所有外围区域。因此,这些方法不能保持源身份的面部形状。我们在图2中展示了一些典型的失败案例。为了实现高保真的人脸交换结果,在我们框架的第一阶段,我们设计了一个基于GAN的网络,称为自适应嵌入集成网络(AEI-Net),用于目标属性的彻底和自适应集成。We made two improvements to the networkstructure: 1) we propose a novel multi-level attributes en-coder for extracting target attributes in various spatial reso-lutions, instead of compressing it into a single vector as RS-GAN [29] and IPGAN [5]. 2)我们提出了一种新的生成器,它具有精心设计的自适应注意力去规范化(AAD)层,该层自适应地学习在哪里集成属性或身份嵌入。这种自适应集成比RSGAN [29]、FSNet [28]和IPGAN [5]使用的单级集成带来了相当大的改进。通过这两个改进,所提出的AEI-Net可以解决照明和人脸形状不一致的问题,如图2所示。此外,处理面部遮挡始终是面部交换中的难题。不像Nirkin等人。[30,31]训练面部分割以获得遮挡感知的面部掩模,al. [21 ]第20段。实验表明,我们的方法取得的结果相当逼真,更忠实于输入比其他国家的最先进的方法。2. 相关作品人脸交换在视觉和图形学研究中有着悠久的历史。早期的努力[6,42]只交换脸与类似的构成。这种限制通过最近的出租来解决,出租大致分为两类:基于3D的方法和基于GAN的方法基于3D的方法Blanz等人[7]考虑了具有不同姿势的两个面部之间的3D变换,但需要用户交互并且不处理表情。Thies等人[39]使用3DMM从RGB-D图像中捕捉头部动作,将静态面部转变为可控化身。它在Face2Face中扩展为RGB参考[40]。Ol- Szewski等[32]动态推断3D面部纹理以提高操作质量。Kim等人[20]使用3DMM对不同的视频进行单独建模,以使肖像可控,而Nagano等人。[27]只需要一个图像来重现里面的肖像。 最近,Thieset al.[38]采用神经纹理,可以更好地解决人脸重现中的几何问题。然而,当应用于人脸交换时,这些方法几乎不利用目标属性,如遮挡、光照或照片风格。为了保持目标面部咬合,Nirkin等人。[31,30]收集数据以监督方式训练遮挡感知面部分割网络,这有助于预测用于混合在交换面部中的可见目标面部掩模。而我们的方法是以一种自我监督的方式发现遮挡,而不需要任何手动注释。基 于 GAN 的 方 法在 基 于 GAN 的 人 脸 交 换 方 法 中 ,Korshunovaet al. [22] I'm sorry.它分别为不同的源身份建模 , 例 如 Nicolas Cage 的 CageNet , Taylor Swift 的SwiftNet。最近流行的DeepFakes [1]是这种主体感知面部交换的另一个例子:对于每个新的输入,模糊脸型照明5076att在在σk在attattA=γ1 2Nh-µ一个新的模型必须在两个视频序列上训练,一个用于源,一个用于目标。这种局限性已经被主题不可知的面部交换研究所解决:RSGAN [29]学习分别提取面部和头发区域的矢量化嵌入,并重组它们以合成交换的面部。FSNet[28]将源图像的面部区域表示为向量,其与非面部目标图像组合以生成交换的面部。IPGAN [5]将人脸的身份和属性分解为向量。通过直接从源身份和目标图像引入监督,识别模型可以提供比基于3D的模型(如3DMM)更具代表性的身份嵌入[7,8]。多层次属性编码器:人脸属性,如姿态,表情,光照和背景,需要更多的空间信息比身份。 为了保护这种详细来说,我们建议将属性嵌入表示为多级特征映射,而不是像以前的方法那样将其压缩到单个向量中[5,29]。具体地说,我们将目标图像Xt馈送到一个类似U网的结构中。然后我们定义属性嵌入为U-Net解码器生成的特征映射更正式地说,我们定义IPGAN支持面部交换,具有更好的身份保护-vation. 然而,由于z引起的信息丢失,.Σattt(X t)=zatt(Xt),zatt(Xt),·· ·zatt(Xt)、(1)压缩表示,以及缺乏更自适应其中zk(Xt)表示第k级特征图,信息集成,这三种方法都无法生成高质量的人脸图像。近日,FSGAN[30]同时执行面部重现和面部交换。它遵循类似的重演和混合策略[32,27]。虽然FSGAN利用遮挡感知的人脸分割网络来保持目标遮挡,但它很难保留目标属性,如光照或图像分辨率,它也不能保持源身份的人脸形状3. 方法我们的方法需要两个输入图像,即, 源图像XS提供身份,目标图像XT提供属性,例如,姿势、表情、场景照明和背景。交换的人脸图像是通过一个两阶段框架生成的,称为FaceShifter。 在第一阶段中,我们使用自适应嵌入集成网络(AEI-Net)来生成基于信息集成的高保真度的facewapping结果Y_s,t。在 第 二 阶 段 , 我 们 使 用 启 发 式 错 误 确 认 网 络(HEAR-Net)来处理面部遮挡并细化结果,最终结果用YS,t表示。3.1. 自适应嵌入集成网络在第一阶段中,我们的目标是生成高保真度的人脸图像Y_s,t,其应该保留源X_s的身份和属性(例如,姿势、表情、照明、背景)。为了实现这一目标,我们的方法由3个组件组成:i)身份编码器zid(Xs),其从源图像Xs中提取身份; ii)多级属性编码器zatt(Xt),其提取目标图像Xt的属性; iii)自适应注意去规范化(AAD)生成器,其生成交换的面部图像。图3(a)显示了整个网络结构。在U-Net解码器中,n是特征级别的数量。我们的属性嵌入网络不需要任何属性注释,它使用自监督训练来提取属性:我们要求生成的交换图像Y_x_t和目标图像X_t具有相同的属性嵌入。损失函数将在方程7中引入。在实验部分(4.2节),我们还研究了属性嵌入学到了什么。自适应注意力去规范化生成器:然后,我们整合这两个嵌入zid(X s)和zatt(X t),以生成一个自适应注意力去规范化生成器。 以前的方法[5,29]只是通过特征关联来整合它们。这将导致相对模糊的结果。相反,我们提出了一种新的自适应注意力去规范化(AAD)层,以更适应的方式完成这项任务。 受SPADE [33]和AdaIN [14,16]机制的启发,所提出的AAD层利用去规范化来实现多个特征级别中的特征集成。如图3(c)所示,在第k个特征级别中,让hk表示馈送到AAD层中的激活图,其应该是大小为Ck<$Hk<$Wk的3D张量,其中Ck是通道数量,Hk<$Wk是空间维度。在积分之前,我们对hk进行批量归一化[17]:K Kh<$k=in.(二)此处,µk2RCk和σk2RCk是h k的小批次内通道激活的平均值和标准偏差。然后,我们设计了3个并行分支从hk 1)属性集成,2)身份集成,3)自适应注意掩码。对于属性嵌入集成,设zk为该特征级别上的属性嵌入,其应该是大小为Ck<$Hk<$Wk的3D张量。为了整合身份编码器:我们使用一个预先训练的国家的最先进的脸katt识别模型[13]作为身份编码器。单位嵌入zid(Xs)被定义为最后一个特征向量。我们计算一个属性激活Ak通过根据以下公式对归一化的hk进行反归一化属性嵌入,公式化为在最后一个FC层之前生成我们相信通过在大量的2D人脸数据上进行训练,K Katth、(3)5077attattattattattIDIDIDID出来KKIDidAEI-Net你好,���(a)(b)第(1)款(c)第(1)款图3:第一阶段的AEI-Net。AEI-Net由身份编码器、多级属性编码器和AAD生成器组成。AAD生成器使用级联的AAD ResBlks在多个特征层中集成身份和属性信息,该AAD ResBlks构建在AAD层上。其中γkβk是两个调制参数,训练损失我们利用对抗训练为AEI-从zk卷积。它们有相同的张量维数-Net. 设Ladv为使Yt为真的广告损失与H�K。计算的γk并添加到hk元素中。βk相乘是的。它被实现为下采样输出图像上的多尺度滤波器[33]此外,一个iden-对于恒等嵌入积分,设zk为恒等嵌入,其应为大小为Cid的1D向量。我们使用实体保存损失来保存源的身份。它被制定为也集成zk通过计算身份激活Ik,述盖= 1-cos(zid (Y=s,t)),zid(Xs))、(6)与集成属性的方式类似。 它被制定为Ik=γkh<$k+βk,(4)其中γk2Rc和βk2Rc是另一个模,其中cos(·,·)表示两个向量的余弦相似性 我们还定义了属性保持损失为Xt和Ys,t的多层属性嵌入之间的L - 2距离。它被制定为从zid到FC层生成的tion参数AAD层的一个关键设计是自适应地自1Xn ¨�zk(Y) )-zk¨2(十).(七)只有身份嵌入的有效区域和att¨2k=1atts和tattt?2属性嵌入,以便它们可以参与合成面部的不同部分。例如,身份嵌入应该相对更多地关注合成最具辨别力的面部部位-当源图像和目标图像在训练样本中相同,我们将重建损失定义为目标图像Xt和Ys,t之间的像素级L-2距离8¨ ¨2<1英寸 -X¨如果X=X识别身份,例如, 眼睛、嘴巴和脸部轮廓。在那里-Lrec=2s,tt2ts.(八)因此,我们在AAD层中引入了注意机制具体来说,我们通过卷积和sigmoid运算使用h <$k生成注意力掩模M k。M k的值在0和1之间。最后,如图3(c)所示,该AAD层的输出hk可以作为两个激活Ak和Ik的按元素组合来获得,由掩码Mk加权。它被制定为:0,否则AEI-Net最终使用上述损失的加权和进行训练LAEI-Net=Ladv+λattLatt+λidLid+λrecLrec,(9)λatt=λrec=10,λid=5. AEI-Net的可训练模块ADD生成器。Kout =(1-Mk)<$Ak+Mk<$Ik。(五)3.2. 启发式错误确认细化AAD生成器然后构建有多个AAD层。如图3(a)所示,在从源X s中提取身份嵌入zid,并且从目标X t中 提 取 属 性 嵌 入 zatt 之 后 , 我 们 级 联 AAD 残 差 块(AADResBlks)以生成经切换的面Ys,t,AAD ResBlksAADconv1 −������ ⊗������ +������ ⊗������批量转换+标准S形��� ���������FCAAD ResBlk1,2,.,多 级 属 性编码器……12������−1AAD发生器AADResBlkAAD AAD…ResBlkAADResBlk身份编码器3x3 ConvReLUAAD3x3转换ReLUAADH5078的结构如图3(b)所示。对于第k个特征级别上的AAD ResBlk,它首先将来自先前级别的上采样激活作为输入,然后将该输入与z_id和z_k进行积分。最终的输出图像Ys,t是从上一个动作中转换的。网络虽 然在第一阶段 中使 用AEI-Net生 成 的人 脸结 果Y_t_s,t可以很好地保留目标属性,如姿势、表情和场景照明,但是它经常不能保留目标人脸X_t上出现的遮挡。先前的方法[31,30]使用附加的面部分割网络来解决面部遮挡。它是在包含遮挡感知面具的人脸数据上训练的,这需要大量的手动注释。此外,这种监督方法可能很难识别看不见的遮挡类型。5079CHGCHGIDrecIDL0你好,���你好,���(1千日元2- XK如果X=XL0=2s,t t2ts.(十四)rec0否则(一)(b)你好,���,由于在大多数人脸数据集中被遮挡的人脸的数量非常有限,我们建议用合成遮挡来增强数据。遮挡是从各种数据集中随机抽样的,包括EgoHands [3],GTEAHand2K [15,25,24]和ShapeNet [9]。它们在随机旋转、重新缩放和颜色匹配后混合到现有的人脸图像上。请注意,我们在训练期间不使用任何遮挡遮罩监督,即使是来自这些合成遮挡。最后,HEAR-Net使用上述损失的总和进行训练:������−������,���LHEAR-NetL recL + L0.(十五)图4:第二阶段的HEAR-Net。 Yt,t是目标图像Xt的反 射率,即, Yt,t=AEI-Ne t(Xt,Xt)。 Ys,t是第一阶段的交换面。我们提出了一种启发式方法来处理面部遮挡。如图4(a)所示,当目标面部被遮挡时,一些遮挡可能在交换的面部中消失,例如,遮住脸的头发或从头巾上垂下的锁链。同时,我们观察到,如果我们将相同的图像作为源图像和目标图像馈送到经过良好训练的AEI-Net中,这些遮挡也会在重建图像中消失。因此,重构图像与其输入之间的误差可以被利用来定位面部遮挡。我们称之为输入图像的启发式错误,因为它直观地指示异常发生的位置。受上述观察的启发,我们使用一种新的HEAR-Net来生成一个精细的人脸图像。我们首先得到目标图像的启发式误差为AEI-Net(X t,X t)。(十)然后,我们将启发式误差Ys,t和第一阶段的结果Ys,t馈送到U-Net结构中,并获得细化图像Ys,t:Ys , t=HEAR-Net ( Ys , t , Yt ) 。( 11)HEAR-Net的流水线如图4(b)所示。我们以完全自我监督的方式训练HEAR-Net,不使用任何手动注释。给定任何目标人脸图像Xt,有或没有遮挡区域,我们利用以下损失来训练HEAR-Net。 一是身份保护损失,以保护来源的身份。与第一阶段类似,其公式为4. 实验实现细节:对于每个人脸图像,我们首先使用[11]提取的五个点地标对齐和裁剪人脸,裁剪后的图像大小为256×256,覆盖整个人脸,以及一些背景区域。AEI-Net中的属性嵌入的数量被设置为n= 8(等式1)。HEAR-Net中的下采样/上采样数量设置为5。有关网络结构和培训策略的更多详细信息,请参阅补充材料。AEI-Net使用CelebA-HQ [18],FFHQ进行训练[19]而HEAR-Net仅使用这些数据集中具有Top-10%启发式错误的一部分面部进行遮挡图像从EgoHands [3]、GTEA Hand2K [15、25、24]和ShapeNet [9]的对象渲染中随机采样。4.1. 与以前方法的定性比较:我们将我们的方法与FaceSwap [2],Nirkin等人 进 行 比 较 。 [31] , DeepFakes [1] 和 IP- GAN [5] 在FaceForensics++ [36]测试图像图5. 与最新工作FSGAN [30]的比较如图6所示。我们可以看 到 , 自 从 FaceSwap , Nirkin 等 人 , DeepFakes 和FSGAN都遵循先合成内部人脸区域然后将其混合到目标人脸中的策略,正如预期的那样,它们遭受混合不一致性。这些方法生成的所有人脸与目标人脸具有完全相同的人脸轮廓,L0= 1-cos(z(Ys,t),zid(X s))。(十二)忽略源面形状(图5第1-4行,图6变化损失L0保证了第一阶段结果之间的一致性。和SEC。第二阶段:..chg=.Ys,t-Ys,t。-是的(十三)当源图像和目标图像相同时,重建损失L0……HEAR-Net+=ID5080行1-2)。此外,他们的结果不能很好地尊重criti-目标图像的校准信息,如照明(图5第3行,图6第3-5行),图像分辨率(图5第2行和第4行)。IPGAN [5]由于其单级属性表示,在所有样本中的分辨率都有所下降。IPGAN不能很好地保留目标面部的表情,例如闭上的眼睛(图5第2行)。5081源目标FaceSwapNirkin等人 DeepFakesIPGAN我们源目标FSGAN我们的图5 : 与 FaceSwap 的 比 较[2] , Nirkin 等 人 。 [31] , Deep-Fakes [1],IPGAN [5] on FaceForensics++[36] face images.我们的结果更好地保留了源身份的面部形状,并且也更忠实于目标属性(例如,照明、图像分辨率)。方法ID 检索↑姿势↓表达↓DeepFakes [1]81.964.142.57[2]第二次世界大战54.192.512.14Nirkin等人[三十一]76.573.292.33IPGAN [5]82.414.042.50我们97.382.962.06表1:FaceForensics++视频的比较我们的方法很好地解决了所有这些问题。我们通过很好地保留源(而不是目标)的面部形状,并忠实地尊重目标(而不是源)的照明和图像分辨率来实现更高的保真度。我们的方法也有能力超越FS- GAN [30]来处理遮挡。定量比较:实验是在FaceForensics++ [36]数据集上构建的。对于FaceSwap [2]和DeepFakes [1],测试集由10K张人脸图像组成,每种方法通过从每个视频剪辑中均匀地采样10帧来实现。对于IPGAN [5],Nirkinet al. [31]和我们的方法一样,使用与其他方法相同的源和目标图像对生成10K人脸图像。然后,我们对三个指标进行定量比较:ID检索、姿势错误和表达错误。我们使用不同的人脸识别模型[41]提取身份向量,并采用余弦相似度来度量身份距离。对于测试集中的每个交换的人脸,我们在所有FaceForensics++原始视频帧中搜索最近的人脸,并检查它是否属于正确的源视频。所有这些检索的平均准确度报告为表1中的ID检索,用于测量同一性保持能力。我们的方法实现了更高的ID检索分数与大的利润率。我们使用姿势估计器[37]来估计头部姿势和3D面部模型[10]来检索表情向量。我们报告的L-2距离的姿态和表达载体是-图6:与FSGAN的比较[30]。除了在人脸质量和输入保真度方面的优势外,我们的结果与FSGAN一样好地保留了请参阅图1、图10和图11,了解更具挑战性的情况。方法ID.attr.现实主义DeepFakes [1]13.76.86.1[2]第二次世界大战12.123.76.8Nirkin等人[三十一]21.37.44.2我们52.962.182.9表2:用户研究结果。我们显示了每种方法的平均选择将表1中的交换面与其目标面之间的差异作为姿势和表达式错误。我们的方法是在表情保护的优势,而与其他人相比,在姿态保持。我们不使用面部标志com-masks[30],因为面部标志涉及身份信息,其在交换的面部和目标面部之间应该是不一致的。人类评估:进行了三项用户研究,以评估所提出的模型的性能。我们让用户选择:i)与源面部具有最相似身份的图像; ii)与目标图像共享最相似头部姿势、面部表情和场景照明的图像; iii)最逼真的图像。在每个研究单元中,两个真实的人脸图像,源和目标,以及由FaceSwap [2],Nirkin等人生成的四个重新洗牌的人脸交换结果。[31],DeepFakes [1]和我们的,提出。我们要求用户选择一个最符合我们描述的面孔。5082att出来出来att源目标添加Cat压缩AEI-Net你好,���4 × 4 8 × 8 16 × 1632 × 3264 × 64128 ×1 28图8:在不同特征水平上可视化AAD层的注意力掩模Mk这些可视化反映出身份嵌入在低和中等特征水平上最有效查询Top-1 Top-2 Top-3图7:AEI-Net与三个基线模型的比较。Add和Cat两个模型用于自适应嵌入积分的消融研究。Compressed模型是一种用于消除多层次属性表示的模型。3att图9:使用属性嵌入的查询结果被输入到所有更高级别的AAD集成中。 其结果对于每个用户,从1K FaceForensics++测试集中随机抽取20个人脸对,没有重复。最后,我们从100名人类评估者那里收集答案关于AVE-也在图7中进行了比较。与IPGAN [5]类似,由于来自目标图像的许多属性信息丢失,结果遭受像模糊的伪像。为了理解什么是编码在属性嵌入-每项研究中每种方法的年龄选择百分比为丁,我们连接嵌入zk(bilinearly up-如表2所示。结果表明,该模型在很大程度上优于其他三种方法。4.2. 框架分析自适应嵌入集成:为了验证使用注意力掩模进行自适应集成的必要性,我们将AEI-Net与两个基线模型进行比较:i)Add:在AAD层中采用逐元素加运算,而不是如等式5中那样使用掩码Mk。输出激活hk采样到256×256并矢量化)作为统一的属性表示。我们进行PCA以将向量维数减少为512。然后,我们执行测试,从训练集查询这些向量的最近的L-2距离的脸。图9所示的三个结果验证了我们的意图,即属性嵌入可以很好地反映面部属性,例如头部姿势,头发颜色,表情甚至脸上是否有太阳镜。因此,它也解释了为什么我们的AEI-Net有时可以保存oc-直接用hk=Ak+Ik;像太阳镜的目标脸上的线索,即使没有一个ii)Cat:在不使用掩码Mk的情况下采用逐元素级联。输出激活变为hk=第二阶段(图10(8))。第二阶段优化:显示Concat[Ak,I出来k]。两个基准模型的结果,具有两个单阶段结果Ys,t和两阶段结果Ys和t以及AEI-Net,在图7中进行了比较。如果没有一个软掩模融合嵌入自适应,基线模型生成的人脸是相对模糊的,并包含大量的重影文物。我们还在图8中可视化了不同级别的AAD层的掩模Mk,其中较亮的像素表示等式5中的用于身份嵌入的更高权重。结果表明,身份嵌入在低层中的效果更好。其有效区域在中层变得稀疏,仅在与人脸身份密切相关的关键区域(如眼睛、嘴巴和脸部轮廓)激活。多级属性:为了验证是否需要提取多级属性,我们与另一 个 称 为 Compressed 的 基 线 模 型 进 行 了 比 较 ,Compressed与AEI-Net共享相同的网络结构,但只利用了第一在图10中。它表明AEI-Net能够生成高保真面部交换结果,但有时其输出Y_s,t在目标中不存在遮挡。幸运的是,HEAR-Net在第二阶段能够恢复它们。HEAR-Net可以处理各种遮挡,例如奖牌(1),手(2),头发(3),面部绘画(4),面具(5)、半透明物体(6)、眼镜(7)、头巾(8)和浮动文本(9)。此外,它还能够校正Y_s,t(10)中可能偶尔发生的色移。此外,HEAR-Net可以在目标面部具有非常大的姿势时帮助矫正面部形状(6)。4.3. 更多关于Wild Faces此外,我们展示了强大的功能FaceShifter通过测试野生人脸图像从互联网上下载。如图11所示,我们的方法可以han-三层嵌入,k= 1,2,3。它最后一次嵌入在各种条件下,包括大z5083你好,���,(1)(2)(3)(4)(5)(6)(7)(8)(9)(10)图10:第二阶段的优化结果显示了HEAR-Net对各种错误的强大适应性,包括遮挡,反射,轻微移动的姿势和颜色等。图11:我们在各种具有挑战性的条件下对野生人脸图像进行人脸交换的结果所有结果都是使用一个经过良好训练的两阶段模型生成的姿势,不寻常的灯光和非常chal-challing种类的闭塞。4.4. 伪造人脸检测算法研究最后,我们研究了不同的人脸伪造检测算法对我们的人脸交换结果的性能。首先,我们随机生成5000张人脸 交 换 图 像 和 5000 张 真 实 图 像 。 然 后 , 我 们 应 用FF++[36]和Face X-Ray [23]的模型,并显示检测结果。方法AUC AP EER FF++[36] 52.2252.870.4805面部X光检查[23]96.82 90.53 0.0956表3:在我们生成的面部上,FF++[36]和面部X射线[23]的AUC、AP和EER结果平.第一阶段的AEI-Net自适应地集成了身份和属性,以合成高保真度的结果。第二阶段的HEAR-Net以自我监督的方式恢复异常区域,而无需任何手动注释。结果见表3。我们可以注意到Face X-Ray有深刻的印象-我们生成的图像上的效果。5. 结论在本文中,我们提出了一个新的框架命名为FaceShifter高保真和遮挡感知人脸交换,站。所提出的框架显示出优越的perfor-曼斯在生成逼真的人脸图像给定的任何人脸对,而无需特定主题的培训。大量的实验表明,该框架显着优于以往的人脸交换方法,建立了一个新的基准人脸取证研究。目标结果源5084引用[1] DeepFakeshttps://github.com/ondyari/FaceForensics/tree/master/dataset/DeepFakes.2019-09-30.二、五、六[2] 换脸https://github.com/ondyari/FaceForensics/tree/master/dataset/FaceSwapKowalski.2019-09-30.二、五、六[3] Sven Bambach , Stefan Lee , David J Crandall , andChenYu.Lendingahand : Detectinghandsandrecognizing activities in complex egocentric interactions.(伸出援手:在复杂的自我中心互动中检测手和识别活动在IEEE计算机视觉国际会议论文集,第1949-1957页5[4] Jianmin Bao,Dong Chen,Fang Wen,Houqiang Li,and Gang Hua.Cvae-gan:通过非对称训练生成细粒度图像在IEEE国际计算机视觉会议论文集,第2745-2754页,2017年。1[5] Jianmin Bao,Dong Chen,Fang Wen,Houqiang Li,and Gang Hua.面向开集身份保持的人脸合成。在IEEE计算机视觉和模式识别会议(CVPR),2018年6月。二三五六七[6] Dmitri Bitouk,Neeraj Kumar,Samreen Dhillon,PeterBel- humeur,and Shree K Nayar.人脸交换:自动替换照 片 中 的 人 脸 。 ACMTransactions on Graphics(TOG),第27卷,第39页。ACM,2008年。一、二[7] Volker Blanz , Kristina Scherbaum , Thomas Vetter ,and Hans-Peter Seidel.在图像中交换面孔。计算机图形论坛,第23卷,第669-676页。Wiley Online Library,2004. 一、二、三[8] Volker Blanz,Thomas Vetter,et al.三维人脸合成的可变形模型在Siggraph,第99卷,第187-194页,1999中。3[9] Angel X Chang , ThomasFunkhouser , LeonidasGuibas,Pat Hanrahan,Qixing Huang,Zimming Li,Silvio Savarese , Manolis Savva , Shuran Song , HaoSu,et al. Shapenet:一个信息丰富的3D模型存储库。arXiv预印本arXiv:1512.03012,2015。5[10] Bindita Chaudhuri ,Noranart Vesdapunt ,and BaoyuanWang.多个人脸的联合人脸检测和人脸运动重定向在IEEE计算机视觉和模式识别会议论文集,第97196[11] 陈冬,任少卿,魏亦琛,曹旭东,孙坚。联合级联人脸检测和对齐。欧洲计算机视觉会议,第109Springer,2014. 5[12] Yi-Ting Cheng , Virginia Tzeng , Yu Liang , Chuan-Chang Wang,Bing-Yu Chen,Yung-Yu Chuang,andMing Ouhy-Xiao. 视频中基于三维模型的人脸替换。在SIG中-GRAPHACM,2009年。1[13] 邓健康,贾国,薛念南,Stefanos Zafeiriou。Arcface:用于深度人脸识别的附加角度余量损失。在IEEE计算机视觉和模式识别会议论文集,第46903[14] Vincent Dumoulin , Jonathon Shlens , and ManjunathKud-lur. 对艺术风格的博学的表现arXiv预印本arXiv:1610.07629,2016。3[15] Alireza Fathi,Xiaofeng Ren,and James M Rehg. 学习在自我中心的活动中识别物体CVPR 2011,第3281-3288页。IEEE,2011年。5[16] Xun Huang和Serge Belongie。实时任意样式传输,具有自适应实例规范化。在IEEE计算机视觉国际会议论文集,第1501-1510页,2017年3[17] Sergey Ioffe和Christian Szegedy。批次标准化:通过减少内部协变量偏移来加速深度网络训练。arXiv预印本arXiv:1502.03167,2015。3[18] Tero Karras , Timo Aila , Samuli Laine , and JaakkoLehtinen.为提高质量、稳定性和变异性而进行的干细胞生长arXiv预印本arXiv:1710.10196,2017。5[19] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构,用于生成对抗网络。在IEEE计算机视觉和模式识别会议论文集,第4401-4410页5[20] Hyeongwoo Kim 、 Pablo Carrido 、 Ayush Tewari 、WeipengXu、JustusThies、MatthiasNiessne r、Pa t rickPe´rez 、 Chris-tianRichardt 、 MichaelZollho¨fer 和ChristianTheobalt。 深度视频肖像。ACM Transactionson Graphics(TOG),37(4):163,2018。2[21] Iryna Korshunova , Wenzhe Shi , Joni Dambre , andLucas Theis. 使用卷积神经网络的快速换脸在IEEE计算机视觉国际会议论文集,第3677-3685页,2017年。一、二[22] Iryna Korshunova , Wenzhe Shi , Joni Dambre , andLucas Theis. 使用卷积神经网络的快速换脸在IEEE计算机视觉国际会议论文集,第3677-3685页,2017年。2[23] Lingzhi Li , Jianmin Bao ,Ting Zhang , Hao Yang ,Dong Chen,Fang Wen,and Baining Guo. 用于更一般的人脸伪造检测的面部X射线。arXiv预印本arXiv:1912.13458,2019。1、8[24] Yin Li,Alireza Fathi,and Ja
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功