没有合适的资源?快使用搜索试试~ 我知道了~
3404身份交换格格高怀波黄朝友付朝阳李然何*中国航天工业科学院模式识别国家重点实验室中国科学院脑科学与智能技术卓越中心中国科学院大学人工智能学院,中国北京{格格.高怀波.黄}@ cripac.ia.ac.cn{朝友.傅,任}@ nlpr.ia.ac.cnzhaoyang0427@gmail.com摘要提高人脸伪造检测器的性能通常需要更多的更高质量的身份交换图像。身份交换的一个核心目标是生成与目标不同而与源相同的身份区分面部。为此,正确地解开身份和身份无关的信息是至关重要的,仍然是一个具有挑战性的努力。在这项工作中,我们提出了一种新的信息分解和交换网络,称为InfoSwap,从预先训练的人脸识别模型中提取最具表现力的身份表示信息。我们的方法的关键见解是将解纠缠表示的学习公式化为优化信息瓶颈权衡,即找到预训练潜在特征的最佳压缩。此外,提出了一种新的身份对比损失,通过要求生成的身份与目标之间的适当距离来进一步解纠缠。虽然大多数先前的工作都集中在使用各种损失函数来隐式地指导表征的学习,但我们证明了我们的模型可以为学习解纠缠的表征提供显式监督,在生成更多的身份判别交换面孔方面取得了令人印象深刻的性能1. 介绍人脸伪造检测旨在识别给定的面部图像是否已被修改,目前主要由数据驱动的方法[35,31,28,27]。这意味着在缺乏高质量Deepfake数据的情况下,很难提高伪造检测器的性能。因此,迫切需要更好的人脸交换方法来帮助开发强大的伪造算法。最近的工作在这方面作出了重大贡献FaceSwap [25]支持实时人脸交换。RSGAN [30]和FSNet [36]引入了基于GAN的方法来合成交换面。FSGAN [32]提出了一种用于人脸交换和绿色识别的主题不可知方法*通讯作者- 是的最近,FaceShifter [26]将重点放在遮挡问题上,并实现了高保真度。身份交换的核心目标(即面部交换)是保持交换面部的身份与源面部相同,同时共享身份无关的感知信息(例如,姿势、表情和照明)。因此,适当的解纠缠是很好地表示身份和感知信息的必要前提。否则,纠缠的目标纠缠将不可避免地把目标身份带入合成过程,导致身份混合的结果。尽管如此重要,但面部交换的非纠缠表示尚未取得突破。以前的作品[25,30,4,19,32,26]试图通过向目标函数添加多个损失项来约束所生成的面部的然而,由于缺乏明确的监督,这仍然是具有挑战性的作品,学习良好的分离表示。在本文中,我们专注于提高主题不可知的人脸交换中的解纠缠主要思想是从预训练模型的潜在特征中学习身份和身份无关感知信息的最小充分统计量,即最佳表示[10]。通过引入信息理论原理[44,40,2],我们将此学习过程建模为优化信息瓶颈(IB)权衡的问题,由新的信息分解网络InfoSwap执行。基于IB原则,我们可以为分离表征学习提供明确的指导。此外,我们改进了IB目标,以进一步促进表示解开。基于正确的交换面孔不仅应该在身份上接近源,而且还应该与目标不同的直觉,我们为歧视性身份提供了一个明确的定义,并将原始的IB目标扩展为一个新的身份对比损失(ICL)作为生成身份的额外规则。大量的实验表明,该方法可以更好地分解信息,生成更多的身份区分和更高的保真度交换脸。一个COM-3405图1.用于生成身份鉴别面部的验证条件。更多详情请参见第4节。用最先进的方法计算的结果如图所示1.一、例如,我们生成的结果的面部形状更接近源而不是目标。经验性的表现意味着我们的模型可以为数据驱动的检测算法提供更真实的Deepfake数据,以提高其性能。本文的主要贡献如下:• 我们采用IB原则的解纠缠表示,以提取最小的充分身份和感知信息。IB原则提供了一个保证,在潜在空间中,得分的身份无关的区域确实贡献很少的信息来预测身份,从而使明确的监督解开。• 我们扩展了IB目标与一个新的身份对比损失,以进一步促进解开要求生成的身份,以保持适当的距离,从目标。• 我们提供了一种新的度量来评估所生成的身份是否基于其统计特征具有歧视性。• 实验结果表明,该方法具有较好的鲁棒性,能够产生更多的具有较高逼真度的身份区分性的交换人脸。2. 相关作品2.1. 身份交换关于换脸的研究始于有影响力的工作[6]。然而,它需要人类的互动,不能保持目标表达。早期的努力[5,47,8,29]主要基于3D方法。Face2Face [43]通过将3D变形模型(3DMM)[7]拟合到源和目标面部来解决表情转移的限制。Nirkin等人[33]提出了一种基于3D的人脸分割方法,用于无缝人脸传输。神经纹理[42]可以合成具有噪声和不完整3D几何形状的照片级逼真图像。此外,基 于 学 习 的 方 法 使 换 脸 技 术 取 得 了 很 大 的 进 步FaceSwap [25]通过逐例构建图像到图像转换模型来实现实时主体感知的面部交换。RSGAN [30]通过分别学习面部和其他区域的表示来交换面部。FS-GAN [32]在与主题无关的管道中实现了面孔交换和面孔重现。FaceShifter [26]提出通过二级残差学习网络来解决遮挡问题虽然有许多关于特征分解的工作,[45,17,16,48,13,14]是用于分类任务,[50,37,12]并不专注于分解识别。[11]提出了一种基于参考的人脸旋转和操作生成方法,可以将其转换为人脸交换。很少有人注意到产生更好的解开和高度歧视的身份,这是这项工作的重点。近年来,人脸伪造检测技术取得了一些重要进展例如,Faceforensics++ [35]提供了一个自动化的基准以及一个大型的操纵图像数据库,用于构建更强大的检测算法。然而,提高数据驱动的伪造检测器的准确性需要更高质量的面部交换数据。2.2. 信息瓶颈深度神经网络(DNN)的概念在[44]中首次指出了互信息平面,表明DNN的目标是优化内部表示的压缩和预测能力之间的信息瓶颈之后,[3]提出了一种变分推理,通过使用重新参数化技巧[24]来近似互信息的界限最近,[39]提出通过量化图像区域可以为分类任务提供的信息量来采用归因中的信息瓶颈权衡我们将在3.2节中更详细地描述信息瓶颈原则及其与我们工作的关系。3. 方法给定两个面部图像,即。源Xs和目标Xt,我们提出的InfoSwap生成与Xs共享身份并与Xt共享感知的面部交 换 图 像 Ys , t 。交 换 过 程 的 概 述 如 图 2 所 示 。InfoSwap由两个可学习的模块组成,信息身份瓶颈(IIB为蓝色)和自适应信息集成器(AII为棕色),而IIB3406IDIDID图2.InfoSwap的概述 它由两个可学习模块组成,一个是信息身份瓶颈(IIB,蓝色),另一个是自适应信息集成器(AII,棕色),而预先训练的人脸识别网络(绿色)是固定的。联合调查局对Xs和Xt相同(权重)。请注意,控制器λt和λs与热图不同它们是根据相互的我我信息,以比特量化每个特征区域的贡献更多详情请参见第3对于Xs和Xt都是相同的(共享权重)。应该在以zs为中心的小角度内,而不是训练几个新的编码器[26],我们表示为zs±k·δs,t.其中µs,t和σs,t为平均值在for-ward过程中,通过预先训练的人脸识别模型[10]量化和压缩信息流,一次性学习身份和感知表示如图在图2(a)中,给定一个预先训练的网络(绿色),表示为确定性编码函数f(·),我们提取其512维特征嵌入zid=f(X)和前m个中间层的内部特征R={R1,R2,·· ·,Rm},分别表示身份和感知信息。我们通过信息控制器{λs}和{λt}向内部特征{Ri}添加噪声来压缩内部特征{ R i },以找到最佳分离器。和标准偏差(std.)的余弦相似度;δs,t是σs,t的反余弦值。在这种情况下,在这个小的间隔内的假身份将与目标身份保持适当的距离,间隔为µs,t±3σs,t(例如,k=3),如图中最轻的绿化带所示。3(b)款。我我身份与知觉信息之间的联系。的通过IIB中的信息瓶颈来预测控制器。然后,在Fig.在图2(b)中,压缩的身份和虚拟特征被发送到AII中并且基于信息控制器被整合,输出最终交换的面Ys,t。在训练过程中,预先训练的网络是固定的。在本节中,我们将说明InfoSwap背后的直觉以及学习分解表示的关键设计。我们首先定义交换面孔的判别恒等式。3.1. 人脸交换中的鉴别身份如果两个身份相似性的区间估计之间没有重叠,则交换面部的假身份更具区分性在图3中示出了视觉解释。两个间隔的重叠意味着一些假身份位于源身份和目标身份之间的角平分线上。也就是说,这些生成的身份与源和目标同样相似,因此区别较小。相反,区别标识应该接近源标识zs,而适当地远离目标标识。如图3(a)所示,生成的身份图3. 解释InfoSwap生成的区别标识。µs,t和σs,t:平均值和标准值。源和目标身份之间的余弦相似性; δs,t= arccos(σs,t)。为了使生成的身份具有高度的区分性,必须避免目标感知将目标身份信息带入合成过程。因此,我们的模型旨在提高信息解纠缠,并产生身份歧视交换的面孔。3.2. 信息身份瓶颈在本节中,我们首先说明信息-信息瓶颈的权衡,并解释如何使用它来设计一个强大的解开功能。3.2.1直觉与IB原则重访。在信息论[3]的观点中,深度学习的目标被解释为找到输入源X的最佳表示R,该表示R:i)尽可能多地捕获关于目标Y的相关信息,由互信息I(R;Y)测量,同时ii)通过丢弃不相关部分来最大限度地压缩X3407RiiRiIDiRi这对Y的预测没有贡献。这表明了以下拉格朗日目标:minI(X; R)− βI(R; Y)。(一)R其中,正拉格朗日乘数β作为由I(X;R)定义的表示复杂度的压缩与由I(R;Y)定义的由R中的相关信息量测量的预测能力之间的权衡参数。为了换脸。 我们的目标是学习最有表现力的关于同一性的表示R,而最大com-可以贡献0比特的信息用于预测身份,因此实际上与身份无关。因此,λi不同于热图(注意力图)。它是基于特征区域和任务目标之间的互信息计算的,以比特为单位量化区域的贡献。信息压缩的监管:Linfo对于等式中的第一项Linfo(2)用互信息I(Zi,Ri)来量化Zi和Ri之间共享的信息,即:未压缩的信息1微米把与身份无关的知觉信息压在里面。L信息=mi=1 I(Zi,Ri).(五)一般来说,我们认为这样的学习过程是一个问题优化信息瓶颈权衡,其中X表示输入面部图像,Y表示真实身份z由预先训练好的模型给出。 根据给定输入X,Ri是恒定的,因为预训练的网络是固定的,因此根据等式(4),Zi|Ri <$N(λiRi+(1 −λi)µR,(1 − λi)2σ2)。由于KL-分歧保持不变,当两个分布都被缩放时,我们将其归一化,当量(1),我们可以通过最小化以下目标函数:Zi|Ri和Zi,使用µRi:σ2,则对于高斯分布-LIB=L信息+βL任务,(2)其中,L_info度量R中可用的信息,并且β是控制权衡的超参数。 L任务意味着-I(Zi,Ri),KL[p(Zi|Ri)||p(Zi)]=− log(1−λi)2(六)确保由信息压缩引起的面部交换性能的总体下降,其中包括12+2[(1−λi)+(λiRi−µRi)2 σRi-1]。不仅是预测身份的能力,因此,当λi=0且Zi=εi时,Zi和Zi|Ri为最终交换的具有相同的分布N(µR,σ2),则I(Zi,Ri)=iRi脸上因此,我们将其定义为两个目标的总和:Ltask=Lrecog+Licl,下面将详细说明3.2.2与IB目标优化过程在IIB中进行。所示图 在 图 2 ( a ) 中 , 我 们 对 表 示 为 IB={IB1 ,IB2,· · ·,IBm}的总共m个信息机器人进行建模,并且将它们插入到预先训练的编码网络的前m层中为了解开每个内部特征Ri中的身份和感知信息,每个瓶 颈 IBi 被 设 计 为 使 用 所 有 m 个 内 部 特 征 R1 ,R2,···,Rm来预测信息控制器λi。我们将每个底颈IBi定义为预测函数hIBi(k),则:0,即贡献0比特信息。至于第二项L任务在方程。(2)对隐空间和像素空间都进行监督对潜在空间的监督:LrecogLrecog定义为精度的平均下降在预测潜在空间的压缩所导致的身份如图在图2(a)中,我们每次向第i层插入一个瓶颈IBi,并将当前网络定义为fIBi(·)。然后,我们将每个Ri替换为其压缩(仅通过IBi)版本Zi,并且所有后续层都在Zi而不是Ri上计算,输出压缩的身份嵌入。dingz∈(i)(X)=fIB(X). 最终压缩的身份是IDIλi=hIBi(R1,···,Rm)∈[0,1],(3)所有m个嵌入的平均值(整个IIB),定义为:其中λi与Ri的大小相同。然后,我们通过添加噪声来压缩Ri中的信息[24,41,23]。在1微米zid(X)=m1微米(i)(X)=MfIBi(X),(7)具体地,我们在Ri和a之间应用线性插值,i=1i=1基于λi的高斯噪声εi,并且Ri的压缩版本被公式化为:Zi=λiRi+(1−λi)εi,(4)因此,对潜在表征的监督是公式如下:Lrecog=1−coszid,zid。(八)其中,噪声εi<$N(µR,σ2)设置为相同其中coszid,zid是com之间的余弦距离按下和原来的身份。由于人脸识别模型,已经训练好了 因此Zi<$N(µR,σ2)fol-3408通过ICL与Ri的分布相同。iRi除此之外,Lrecog主要侧重于la-注意,λi控制用噪声替换身份无关的激活。 在λi= 1的区域,则Zi=Ri,所有信息都保存在Ri中。而在λi= 0,Zi= εi的区域,所有信息都被衰减并被噪声所取代。这意味着这些地区帐篷表示,我们介绍了另一种监督Licl这明确地要求交换的面部以对比的方式是身份辨别的。对比学习背后的直觉是教一个模型来区分相似和不相似的东西。3409我我ID我我AIIAdv我都D我L=−(X,Y以前,对比损失通常用于人脸识别,作为最大边缘方法,以更好地分离阳性和阴性样本[9,38,46]。在我们的例子中,为了使交换的面孔更具身份区分性,如第3.1节所定义的,我们要求生成的身份与目标保持适当的距离。基于这种直觉,与来源身份相结合。由于Ri中的信息通过信息控制器被解开,因此自然地再次使用控制器因此,我们提出了一种新的自适应信息积分器(AII),它具有一组新的信息积分器Λt={Λt,Λt,···,Λt},以指导1 2 m我们提出了一种新的身份对比损失(ICL),它包括一个积极的部分Lpos从源学习基于控制器λλt的积分,λλ t已经学习了由同一性,和一个负的部分L否定探索信息从源和目标身份之间的距离:Licl=L阳性+L阴性(9)正部分Lpos要求Ys,t的恒等式在余弦距离上接近源:以比特为单位的互信息量。如图为了摆脱预训练网络中特征的大小并灵活地生 成 更 高 分 辨 率 的 图 像 , 例 如 512×512 和1024×1024,我们首先使用U-Net解码器dec(·)来扩展感知特征ft和控制器λt的空间大小,定义为:Lpos=−cos<$z<$id(Ys,t),z<$id(Xs)<$,(10)iif其中zid(Ys,t)=fIBi(Ys,t)/m是压缩的我我我Y的恒等式如在Eq. (七)、多个为Ft={ft,···,ft}和λt={λt,···,λt}。s,t1m1m至于否定部分Lneg,而不是强迫认同-然后在AdaIN [18,34]之后,我们使用仿射参数,Y之间的距离s和t目标Xt接近一个来自z的eters并努力使内部激活正常化常数值0,我们使用在AII中,定义为Is和Pt分别指我我源和目标身份,以诱导更适当的dis.身份和知觉激活。 在那之后,积分-Zid之间的距离(Ys,t)和zid (Xt)。如图所示,基于积分器Λt的积分过程被公式化为:第3.1条,歧视性身份应该在一个小的区间内,hi=Λt·Is+(1−Λt)·At,所有我val以源标识为中心。也就是说,它与目标身份的适当距离应该接近于源身份的距离。因此,我们使用余弦距离be-(十五)Λt=Tθ(λt,hi+1)∈[0,1],其中Tθi是第i个特征级别的参数函数(一个具有S形激活的卷积hi+1是作为更好的约束,m+1AIIS生成的身份:前一级的输出动作,ha ii=zaid。的最终结果Ys,t由最后一次激活h1生成。Lneg=[coszid(Ys,t),zid(Xt)-coszid(Xs),zid(Xt)]2.(十一)AII由于积分器Λt是基于每个特征区域包含的关于特征的互信息的量来学习的,基于这种对比损失Licl,我们可以对生成的身份提供有效的监督,使交换的人脸更具区分力。因此,总IB目标函数为:LIB=Linfo+β(Lrecog+Licl)。( 12)通过最小化LIB,有效地减小了区域中λ i的值,关于身份的信息将接近1,而在与身份不太相关的区域中将被压缩接近0。恒等式,这个新的积分公式比仅基于前一个激活hi+1的积分更有意义。我们在第4.3节中通过消融试验证明了这一点。3.4.培训损失对抗性损失:为了使交换的面Ys,t更加现实,我们采用[34]中的多尺度ARMD以对抗性方式训练我们的模型,并采用[20]中的因此,表示可以基于在这些控制器λ1,λ2,· · ·,λm上。GEadvs s,tLD=−E)[log(σ(D(Ys,t) −D(Xs))],[log(σ(D(X)−D(Y)],(十六)3.3. 自适应信息集成Adv(Xs,Ys,t)s s,t其中σ(·)表示S形激活。总的广告-在解缠过程之后,IIB提供了两个-Put:如等式(1)中所定义的压缩恒等式(7)、疟疾损失公式为Ladv=LGadv.以及与身份无关的感知特征。我们将Xt的感知特征定义为:ft=λtεs+(1−λt)Rt,(13)感知损失:给定交换结果Ys,t,我们进一步使用预先训练的网络提取其感知特征与Eq相同。(13)和(14):Y Y y+L3410我我fi(Ys,t)=dec(λs,tεs+(1−λs,t)Rs,t),(17)当Ft={ft,ft,···,ft}时,λt是信息。我我我12米i其中上标Ys,t表示相应的变量。控制器定义在Eq.(三)、注意,控制器λi用的方式与Eq相反(4)由于对于目标,我们需要的信息是与iden无关的领域Ys,t的表。 我们定义了多层次的知觉损失,即。目标感知特征与Ys,t之间的L2损失为:布勒姆奶子 这里的意思和标准。 的噪声是相同的,L=1[f](Y)----2(十八)s t s2每我 是,fi]。Ri代替Ri,即εi<$N(µRs,σRs),对于最近更好的miii=13411循环一致性损失:此外,我们采用循环一致性损失Lcyc来进一步改进源身份的保存。具体地说,我们利用压缩的Ys ,t的特征和分解的Xs的感知特征来重建源图像。我们将AII中的信息集成过程定义为生成函数g(k),则重构源可以被公式化为:其中,F_s和λ_s是X_s的解码感知特征和控制器。 基于此,我们将Lcyc定义为Xs与其重建Xs之间的L-1距离:Lcyc=<$Xs−X<$s<$1。(二十)InfoSwap的总目标:总之,用于训练InfoSwap的最终目标函数由下式给出:Lobj.=LIB+β1Ladv+β2Lper+β3Lcyc,(21)其中β1,β2,β3是超参数。4. 实验在本节中,我们首先将我们的方法与使用定量和定性指标的几种最先进的方法然后,我们进一步评估了这些方法在生成鉴别身份方面的性能。在此之后,我们分析了所提出的IB优化对我们的方法的影响。我们还报告了一项消融研究,以量化InfoSwap每个组件带来的改善我们从实施细节开始。在训练过程中,内部特征从预训练网络的前10层中提取[10],即m=10,因为这些特征在空间上更大。因此,IIB由10个信息瓶颈组成{IB1,IB2,· · ·,IB10}, 而AII包含10个积分层(Eq.(15))。预先训练的网络不参与更新,其他部分根据总目标Lobj进行端到端训练。(方程式(21))。用于训练的图像来自FFHQ [22]和CelebA-HQ [21]数据集,初始分辨率为1024像素。我们通过面部标志[49]对齐这些图像,并将其裁剪为512×512。最终的训练集由预处理后的96000张图像组成,其他4000张图像用于测试集。有关架构和培训战略的更多详细信息,请参阅补充材料。4.1. 定量和定性结果在这一小节中,我们提出了InfoSwap和最先进的方法之间的定量和定性比较的源身份,目标姿态和表情的保存。实验在Face-Forensics ++(FF++)数据集上进行[35]。定量结果:我们首先使用三种定量方法来评估每种方法的交换性能。对于在FF++中提供其操作视频的Deepfakes [1],FaceSwap [25]和FaceShifter [26],我们从每个视频中均匀提取10帧并构建大小为方法ID检索↑姿势↓表情↓FSGAN [32]60.410.6260.028Deepfakes [1]81.961.0920.114[25]第二十五话54.190.4880.029[第11话]93.121.1970.159[26]第二十六话97.380.5110.032InfoSwap99.670.4430.030表1.与SOTA方法的一般比较。↑:越高越好; ↓:越低越好。带下划线的值来自[26],其他值按照相同的方案计算。10k对于遵循与[26]相同的协议的每种方法至于FSGAN[32],DiscoFaceGAN [11]和我们的方法,使用与其他方法相同的源到目标对生成相同大小的测试集。如Tab.所示。1,ID检索(%)是用于测量身份保留的交换面部和所有FF++原始面部之间的分类的平均准确度。遵循与[26]相同的测试协议,我们使用人脸识别模型[46]来提取身份嵌入。对于每个交换的面,我们在所有原始面中找出最近的身份(余弦距离),并检查它是否属于正确的源。实验结果表明,该方法具有较好的身份保持性能.在Tab中报告的姿势和表情1是交换的面部和对应的目标之间的均方误差由于[26]中使用的估计模型现在不可用,因此我们使用另一个3D人脸对齐模型[15]来估计姿态和表情参数。结果表明,我们的方法是可比的其他方法在保持感知信息。FSGAN [32]和FaceSwap[25]的表达错误略低于我们的,可能是由于他们的策略仅生成内部面部区域并通过混合将其交换到目标面部。然而,这样的策略可能会导致混合不一致的问题。定性结果:(一)FF++上的结果。如图1所示,我们将我们的结果与Deepfakes [1],FaceSwap [25]和最新的工作FaceShifter [26]进行了比较,以保留源的各种身份特征,包括脸型,眼睛颜色,颧骨形状,皮肤类型,婴儿脂肪和下巴长度。比较基于FF++提供的测试数据。我们可以看到,由我们的方法产生的结果与源更好地共享这些身份特征。这证明了我们的方法具有很强的(II)FFHQ和CelebA-HQ测试集的结果。我们在图 4 中 展 示 了 更 多 的 测 试 结 果 , 这 些 结 果 证 明 了InfoSwap在不同性别、年龄、肤色和光照条件之间的大间隙补充材料中提供了更多的交换结果。3412图4.InfoSwap在性别、年龄、肤色和照明条件方面的巨大差距中交换了更多的测试结果用户评估:我们进行了一项用户调查,以评估每种方法在保持源身份和目标感知方面的性能。对于每个用户,我们从所有1000个FF++视频中随机抽取30对源到目标的人脸(帧),而不重复。用户被要求从4个结果(由使用每对的4种方法产生)中选择一个:(i)与源面部最相同;(ii)具有与目标最相似的表情和姿势;(iii)看起来最真实。结果报告在表中。2是基于50个用户的答案,表明我们的方法显着优于其他人在所有三个方面。方法身份感知保真度Deepfakes [1]0.1310.0520.026[25]第二十五话0.1200.2440.050[26]第二十六话0.2380.2670.246InfoSwap0.5110.4370.678表2.用户研究。每种方法被选中的百分比4.2. 身份保持评估在本小节中,我们提供了详细的比较,身份保护我们证明了InfoSwap生成的身份更具歧视性,通过提供统计分析,他们的相似性的来源和目标。如Tab.所示。3.计算了InfoSwap和四种SOTA方法生成的恒等式的余弦相似度。第二列显示平均值和标准差。假身份和源身份之间的相似性,而第三列显示目标的值,最后一行显示源和目标之间的值。图5是该表的可视化。很明显,与其他方法相比,InfoSwap身份和源身份之间的大部分相似之处(图5中的第五个红框)(5)高于其他。目标值为0.0669的源 0.1025表3.恒等式的余弦相似性。测试集扩展到100k帧(每个视频100帧),以更好地显示分布,因为每个采样分布的可变性随着样本量的增加而降低。图5.与SOTA方法比较恒等式的余弦InfoSwap与源的平均相似度高于其他算法,而与目标的平均相似度更接近源和目标之间的水平。InfoSwap较窄的框也表明它在健壮性方面的优越性。而与目标身份的相似性(第五个蓝框)处于非常低的水平,非常接近源和目标之间的相似性(绿框)。此外,InfoSwap的更窄的间隔(框长度)表明我们的方法比其他方法更鲁棒。更重要的是,方法与 源与 目标是说STD.是说STD.FSGAN [32]0.38740.17220.34780.1444Deepfakes [1]0.47840.13980.26660.1287[25]第二十五话0.43280.14090.32360.1274[26]第二十六话0.52950.14180.31080.1418InfoSwap0.63320.09830.07700.10353413我InfoSwap的两个估计区间(第五对红色和蓝色框),这在其他方法中没有观察到。零重叠直接表明我们生成的恒等式更具区分性,如3.1节所述。 在FF++上的实验结果表明,目标与InfoSwap生成的身份之间的相似度为97.61%,落在μs,t± 3σs,t的范围内,如图中最浅的绿色带所示。3(b),88.57%进入µ±2σ,以及方法余弦相似度Acc.来源↑目标↓InfoSwap0.633 ±0.0980.077 ±0.10499.7InfoSwap,不含IIB0.529 ±0.1180.119 ±0.11696.3InfoSwap不含ICL0.544 ±0.1110.244 ±0.11897.9InfoSw ap w/oλt我0.550 ±0.1100.096 ±0.11198.5表4.消融结果。Acc.:ID检索(%)↑在Eq.(15)为使本法案生效,s和ts,ti不我i+1t59.44%转换为µs,t±σs,t,表明InfoSwap是幂-在产生高度歧视性的身份。4.3. 成分分析在本小节中,我们首先可视化预训练模型的内部特征在有和没有信息优化的情况下的变化,显示直接插入IIB的影响IIB优化的可视化:图6显示了包含在预训练模型的前8个中间特征图中的信息,其中包含和不包含IIB优化(即,Zi和Ri)。我们可以看到,在原始的未压缩特征Ri(图6(a))中,信息是分散的。面部以外的一些区域被认为是信息重要的(例如,头发中的红色区域),这确实与身份不太相关而在IIB优化后(图6(b)),分散的信息被适当地压缩,使得在所有Zi中,被认为是信息有效的区域集中在面上,这很好地证明了IIB在促进解纠缠方面的能力图6.特征图中信息变化的可视化对 生 成 的 面 部 形 状 的 解 释 : 如 前 所 述 , 观 察 到InfoSwap结果的面部形状更接近源而不是目标。这可能得益于更好的解缠。在IIB的优化过程中,源人脸的形状信息被学习为相关的,并允许通过瓶颈,从而保留在压缩的另一方面,目标人脸的形状信息被排除在与身份无关的感知表征之外,因此不参与生成。这也可能表明使用中的人脸识别模型[10]对形状信息敏感。消融研究:我们进一步使用InfoSwap的三种配置对FF++进行消融研究:(i)移除IIB模块(w/o IIB);(ii)用conven替换ICL典型身份丢失(测量假身份和源身份之间的余弦距离)(w/o ICL);(iii)丢弃Ai仅基于前一层输出haii(w/oλi)。我们计算上面介绍的主要指标来衡量每个组件的效果如Tab.所示4,与源的平均相似性显著下降(大于一个标准差)。在所有三种配置中,“w/o IIB”下降最多,并且在ID检索上以最低值结束。用传统的同一性损失代替ICL后,与目标的相似性明显增加,从而使得交换的面变得与目标不那么明显。在集成中丢弃信息控制器λt也降低了性能。消融实验的更多定性结果请参见补充资料。5. 结论在本文中,我们介绍了InfoSwap用于学习良好分离的表示。通过将学习过程建模为基于信息瓶颈原理找到预训练潜在特征的最佳压缩,有效地解开了身份和感知信息的提取表示我们扩展了IB目标与对比学习的直觉,使我们能够生成身份歧视交换的面孔。大量的实验证明了InfoSwap在与主题无关的人脸交换中的优越性,这对于构建新的基准以提高数据驱动的伪造检测器的性能是6. 更广泛的影响Deepfakes是一种合成媒体,它将现有图像或视频中的人替换为其他人的外观,自首次出现以来一直处于聚光灯下。在它的推动下,电影制作、电脑游戏和其他混合现实即将迎来突破。然而,如果被滥用,它也会引发严重的隐私保护问题。本文所关注的身份互换是人脸图像外观处理的主要方法鉴于这种潜在的负面影响,最近提出了几种人脸伪造检测技术来防止Deepfakes的滥用我们将在补充资料中进一步致谢:这项工作是由国家重点资助的一部分,国 家 自 然 科 学 基 金 项 目 ( 批 准 号 : 2020 AAA0140001);62006228)和中国科学院青年创新促进会(批准号:Y201929)。3414引用[1] Deepfakes , 访 问 时 间 : 2020-09-21 。 https ://github. com/deepfakes/faceswap.[2] Alessandro Reichle和Stefano Soatto。在深层表征中出现JMLR,19(1):1947[3] 亚历克斯·阿莱米伊恩·费舍尔乔什·狄龙和凯文·墨菲深度变分信息瓶颈。在ICLR,2017年。[4] Jian-Min Bao,Dong Chen,Fang Wen,Hou-Qiang Li,and Gang Hua.面向开集保同一人脸合成。在CVPR,2018年。[5] Dmitri Bitouk,Neeraj Kumar,Samreen Dhillon,PeterBel- humeur,and Shree K.纳亚尔人脸交换:自动替换照片中的人脸。SIGGRAPH,2008.[6] Volker Blanz,Kristina Scherbaum,Thomas Vetter,andHans-Peter Seidel. 在 图 像 中 交 换 面 孔 。 ComputerGraphics Forum,23(3):669[7] 沃尔克·布兰斯和托马斯·维特。一种用于合成3d人脸的可变形模型见PACMCGIT,1999年。[8] Yi-Ting Cheng , Virginia Tzeng , Yu Liang , Chuan-Chang Wang ,Bing-Yu Chen, Yung-Yu Chuang ,andMing Ouhy-Xiao. 视 频 中 基 于 3D 模 型 的 人 脸 替 换 。InSIG- GRAPH,2009.[9] Sumit Chopra,Raia Hadsell,and Yann LeCun. 判别式学习相似性度量及其在人脸验证中的应用。在CVPR,2015年。[10] Jiankang Deng , Jia Guo ,Niannan Xue ,and StefanosZafeiriou. Arcface:用于深度人脸识别的附加角度边缘损失。在CVPR,2019年。[11] 登宇,杨蛟龙,陈冬,方文,童欣。透过3d模仿-对比学习的解缠及可控制人脸影像产生。在CVPR,2020年。[12] Chaoyou Fu,Yibo Hu,Xiang Wu,Guoli Wang,QianZhang,and Ran He.高逼真度的面部操作与极端的姿势和表情。TIFS,2020年。[13] 傅朝友、吴翔、胡一波、黄怀波、何冉。双变分生成算法在低比例异构人脸识别中的应用。2019年在NeurIPS[14] 傅朝友、吴翔、胡一波、黄怀波、何冉。Dvg-face:用于异构人脸识别的双变分生成TPAMI,2021年。[15] Jian-Zhu Guo,Xiang-Yu Zhu,Yang Yang,Fan Yang,Zhen Lei,and Stan Z Li.实现快速、准确、稳定的3D密集人脸对齐。在ECCV,2020年。[16] 郭伟阔,黄怀波,孔祥伟,何冉。利用深度互信息估计学习跨模态检索的解纠缠表示。在ACM ICM,2019年。[17] Naama Hadad Lior Wolf和Moni Shahar两步解缠法。在CVPR,2018年。[18] 黄勋和塞尔日·贝隆吉。任意风格的实时传输,具有自适应的实例规范化。在ICCV,2017年。[19] Xun Huang , Ming-Yu Liu , Serge Belongie , and JanKautz.多模态无监督图像到图像翻译。在ECCV,2018年。[20] Alexia Jolicoeur-Martineau.相对论性量子点:标准GAN中缺少的关键元素。2019年,在ICLR[21] Tero Karras , Timo Aila , Samuli Laine , and JaakkoLehtinen.GAN的渐进式增长,以提高质量、稳定性和变异性。2018年,在ICLR[22] Tero Karras Samuli Laine和Timo Aila一种用于生成对抗网络的基于风格的生成器体系结构在CVPR,2019年。[23] 泰罗·卡拉斯、萨穆利·莱恩、米卡·艾塔拉、詹娜·赫尔斯 滕 、 亚 科 · 莱 赫 蒂 宁 和 蒂 莫 · 艾 拉 。 分 析 和 改 进StyleGAN的图像质量。在CVPR,2020年。[24] 迪德里克·P·金马和马克斯·威林。自动编码变量贝叶斯。载于ICLR,2014年。[25] Iryna Korshunova , Wenzhe Shi , Joni Dambre , andLucas Theis.使用卷积神经网络的快速换脸。在ICCV,2017年。[26] Lingzhi Li,Jianmin Bao,Hao Yang,Dong Chen,andFang Wen.推进用于伪造检测的高保真身份交换。在CVPR,2020年。[27] Ling-Zhi Li,Jian-Min Bao,Ting Zhang,Hao Yang,Dong Chen,Fang Wen,and Bai-Ning Guo.用于更一般的面部伪造检测的面部x射线。在CVPR,2020年。[28] Yue-Zun Li,Xin Yang,Pu Sun,Hong-Gang Qi,andSi-Wei Lyu. Celeb-df:一个大规模的具有挑战性的数据集,用于深度伪造取证。在CVPR,2020年。[29] 袁琳,王胜金,钱琳,唐峰。大姿态变化下的人脸交换:基于3D模型的方法。载于ICME,2012年。[30] Natalia Ryota,Tatsuya Yatagawa,and Shigeo Morishima.RSGAN:在潜在空间中使用面部和头发表示进行面部交换和编辑在SIGGRAPH,2018年。[31] 休 伊 Nguyen , Fuming Fang , Junichi Yamagishi , andIsao Echizen.用于检测和分割操作面部图像和视频的多任务学习。在BTAS,2019年。[32] 尤瓦尔·尼
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 多传感器数据融合手册:国外原版技术指南
- MyEclipse快捷键大全,提升编程效率
- 从零开始的编程学习:Linux汇编语言入门
- EJB3.0实例教程:从入门到精通
- 深入理解jQuery源码:解析与分析
- MMC-1电机控制ASSP芯片用户手册
- HS1101相对湿度传感器技术规格与应用
- Shell基础入门:权限管理与常用命令详解
- 2003年全国大学生电子设计竞赛:电压控制LC振荡器与宽带放大器
- Android手机用户代理(User Agent)详解与示例
- Java代码规范:提升软件质量和团队协作的关键
- 浙江电信移动业务接入与ISAG接口实战指南
- 电子密码锁设计:安全便捷的新型锁具
- NavTech SDAL格式规范1.7版:车辆导航数据标准
- Surfer8中文入门手册:绘制等高线与克服语言障碍
- 排序算法全解析:冒泡、选择、插入、Shell、快速排序
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功