没有合适的资源?快使用搜索试试~ 我知道了~
5326FReeNet:多身份人脸重现张江宁1*<$曾先芳1<$王萌萌1 <$<$潘玉苏1刘良1刘勇1丁玉玉2范昌杰21浙江大学2伏羲AI实验室、网易{186368,zzlongjuanfeng,mengmengwang,corenel,leonliuz}@zju.edu.cnyongliu@iipc.zju.edu.cn,{dingyu01,fanchangjie}@corp.netease.com摘要本 文 提 出 了 一 种 新 的 多 身 份 人 脸 再 现 框 架FReeNet,用于将人脸表情从任意的源人脸转换到具有共享模型的目标人脸。FReeNet由两部分组成ULC采用编码器-解码器架构来有效地转换潜在地标空间中的表情,这显著地缩小了源身份和目标身份之间的面部轮廓的差距GAG利用经转换的地标来用目标人的参考图像来再现光致发光图像。此外,提出了一种新的三重感知损失,以迫使GAG模块同时学习外观和几何信息,这也丰富了再现图像的面部细节。进一步的实验证明了我们的方法在生成真实感和表情相似的人脸方面的优越性,以及在身份之间转移面部表情的灵活性。1. 介绍人脸再现是将人脸表情从一个源人脸转移到一个目标人脸的过程,在电影制作、人脸动画、增强现实等方面有着广泛的应用前景。此外,特定人的实况视频可以在另一个人的控制下生成,这可以攻击或加强生物测定系统。在这项工作中,我们专注于解决一个更艰巨的任务:多身份人脸重现,其中源人脸来自任意人,目标人不特定。该任务区别于一(多)对一的人脸重演任务在于目标是否特定,在实际应用中更具有通用性和灵活性受益于大规模人脸数据集的发布[11,20,8,41],许多高精度和可靠的人脸识别技术,提出了可行的人脸检测算法[38,21,4,9]*主要在网易伏羲AI实验室实习期间完成的工作†同等贡献。‡通讯作者。图1.一个面部重现任务的玩具实验。第一行的结果来自Pix2Pix[12]方法,其中唯一的地标作为输入,而第二至第四行来自我们的方法,其中参考面不同,但几何信息相同。注意,第三行的参考图像是第二行中的女孩的化妆。这有助于面部再现任务的发展。在过去的十年中,已经提出了许多优秀的面部表情迁移和面部再现方法,这些方法概括地分为两大类:基于三维(3D)模型的合成和基于GAN的生成。对于基于3D模型的合成方法[34,17,5,31,33],人由预定义的参数模型表示通常,该方法首先捕获源视频的面部运动,该运动将被拟合到预定义模型上的参数空间中,然后通过变形来渲染目标视频这些技术以游戏和电影中的计算机图形(CG)化身动画而闻名[26],因为它们具有高质量和高分辨率的面部重现能力。然而,这些方法通常遭受大预算模型制作和计算昂贵。最近,许多基于GAN的方法已经取得了显着的改进[6,13,40,39,26,37],这是由于从大规模数据集学习分布模式的天然优势。通常,采用编码器-解码器结构来以对抗的思想再现目标面部[12],并且一些进一步的工作[43,13,30,40]引入了强大的循环一致性损失来实现未配对的面部源地标地标插值参考图像男性化妆我们女性Pix2Pix5327重演然而,一旦网络经过训练,他们只能在两个特定身份之间重现面孔其次,多对一人脸重现任务着手解决上述问题,其可以仅使用一个网络从多个人重现一个目标人脸。最近,Nirkinet al. [25]推导出一种基于递归神经网络的方法,用于主题不可知的面部再现,但它需要额外的分割信息,并且比普通方法具有更多的参数ReenactGAN [39]引入了一个Transformer模块,以使多个人的源面部运动适应目标人,潜在的面部边界空间,然后解码目标面部。尽管如此,在实际应用中仍然是网络低效的,因为需要针对每个目标人的Transformer和解码器。因此,在一个统一的网络中实现多身份的人脸重现任务,也称为多对多人脸重现,其中源人脸和参考人脸都可以来自多个人,具有重要意义。X2Face [40]通过首先采用嵌入网络对嵌入人脸进行编码,然后使用驱动网络再现目标人脸来实现该任务,但生成的图像在质量和面部细节方面并不令人满意综上所述,本课题仍存在两个主要的挑战:(1)如何通过统一的网络实现多身份面部表情的转换,因为源和目标人之间的面部轮廓存在差距。(2) 如何在保持姿态、色调和光照一致的情况下,将真实感和身份一致的目标人脸再现为参考人脸。为了解决上述问题,我们提出了一个名为FReeNet的多身份人脸重现框架,它可以有效地将表达式从任意源身份转移到目标身份。首先,利用地标检测器[9]将面部编码到潜在地标空间中。该潜在空间用作下一个面部转换步骤的高质量桥梁,其中面部几何信息被有效地保留,而外观信息被省略。随后,应用统一的界标转换模块,有效地将任意源人物的表情转换为潜在界标空间中的目标人物然后,几何感知生成器同时从转换的地标提取几何信息这样的解耦设计可以生成具有相似或相同标志输入的可区分的面部此外,我们将三重损失[28]和感知损失[14]结合起来,形成了一种新的三重感知损失,这有助于生成更详细的图像,并将外观和几何信息解耦。如图1所示,我们的方法可以有效地保持参考身份,同时转换的几何信息。据我们所知,FReeNet是第一个成功执行多身份人脸重现任务的网络使用统一的模型,同时保持姿态、色调和照明信息与参考面部一致。具体而言,我们做出以下四项贡献:• 提出了一种统一的地标转换器,将表达从源身份转换为目标身份,并且源身份和目标身份都来自多个人。• 提出了一种几何感知生成器,用于再现真实感目标人脸,该生成器采用解耦的思想,从不同的路径中提取外观和几何信息。• 提出了一种新的三重感知损失,以丰富的面部细节再现的脸。• 实验结果表明,该方法实现了多对多的人脸再现任务,能够生成高质量、身份一致的人脸图像。2. 相关工作图像合成。Driven by remarkable generation effects ofGAN [7], researchers have achieved excellent results invarious domains, such as image translation [27, 12, 43, 35],人物图像合成[3,23]和面部生成[2,26,15,16]。Mehdi等人[24]设计了一个cGAN结构,以生成器和属性生成器为条件,以实现更可控的属性生成。随后,Pix2Pix [12]通过使用L1和生成的图像与地面实况之间的对抗性损失,在配对图像翻译任务中取得了令人难以置信的结果。Zhu等[43]随后提出了一种新的用于两个域之间的不成对图像平移的循环一致性损失,该循环一致性损失显著地降低了对数据表示的要求。DualGAN [42]类似地从一个域到另一个域学习两个翻译器,因此可以解决通用的图像到图像翻译任务。此外,StarGAN [2]提出了一个统一的多领域人脸属性传递和表情合成模型.近年来,一些方法可以直接从潜在的输入代码中生成逼真的人脸。Tero等人[15]描述了一种新的渐进增长训练方法,用于从底层代码生成人脸。StyleGAN [16]提出了一种基于风格的生成器,该生成器将潜在输入代码嵌入到中间潜在空间中,可以控制不同尺度下图像特征的权重,并合成非常自然的人脸图像。然而,使用潜在代码作为输入是一个不可控的生成过程,不适合人脸合成任务,并且它们在处理多对多人脸重现任务时具有有限的可扩展性。该方法引入了一个地标空间用于多人之间的表情传递,并利用转换后的地标图像作为引导来重现目标人脸,这与现有方法不同。5328脸重现。受益于大规模的人脸数据库收集[11,20,41]和可靠的地标识别,tectors [9,38,4,21],近年来已经提出了许多令人印象深刻的面部再现方法。这些方法可以大致分为基于3D模型的方法或基于GAN的方法。在基于3D模型的分支中,Volker等人[1]提出了形变三维模型来估计形状向量和纹理向量的参数,然后使用这些参数来恢复人脸的完整三维随后的Face2face [32]对源视频和目标视频的跟踪面部表情应用了有效的变形转移,然后重新渲染合成的目标面部,以更好地拟合检索和扭曲的嘴部内部。Ma等人[22]通过捕获具有精细尺度细节的个体特定面部模型来这些基于3D模型的方法通常需要精细设计的模型,这是耗时和金钱的,并且它们在计算上 也 是 昂 贵 的 。 因 此 , Al-bertet al.[26] 引 入GANimation来控制每个AU的激活程度,然后将其中的几个组合起来合成目标面部,这只需要图像而无需其他程序。Jin等人[13]直接应用Cy- cleGAN在两个身份 之 间 传 递 面 部 表 情 。 最 近 , Wuet al. 提 出 的ReenactGAN [39]能够将面部运动从多个人的一个单目图像转移到特定目标人。然而,我们的框架旨在解决困难的多对多的脸重演问题,使用一个统一的简洁的框架,这有更有前途的应用。3. Freenet本文提出了一种新的框架FReeNet如图2所示,我们首先采用人脸地标检测器[9]来编码两个输入图像IT,r和IS,n(∈R3×256×256)到一个潜在界标空间LT,r3.1. 统一地标转换器如[39]所述,如果我们直接应用不合适的面部轮廓来合成目标图像,则可能导致伪影。与现有的方法相比 , 我 们 设 计 了 一 个 统 一 的 地 标 转 换 器 模 块(ULC),以适应从一个任意的人到目标人的源表达式。它可以显著地减轻源和目标面之间的几何间隙。如图2(顶部)所示,所提出的ULC模块包含两个界标编码器(Φα1和Φα2)和界标移位解码器(Φα3)。编码器α1和α2分别提取目标和源面的界标特征,然后解码器α3融合它们以估计界标移位。 在那之后,我们以逐点方式添加lT、r和l移位以得到-具有f形轮廓的一致的界标T,n,与IT,r,同时保持IS,n的表达式信息。该过程表示为:n=lT,r+lshift(一)=lT,r+<$α3(<$α1(lT,r),<$α2(lS,n)).在训练阶段, 总损失函数LULC定义为:LULC=λ1LL1+λ2Lcyc+λ3LD,(2)其中λi(i=1,2,3)是三个损失函数的权重L1损失。第一项LL1由点水平l1损失函数定义,以计算地标坐标的误差LL1=||1.一、||1.(三)周期一致性损失。第二项L_cyc约束了经转换的L_cyt,n能够转换回增益:Lcyc=||<$(lS,r,<$(lT,r,lS,n))−lS,n||其中L表示人S的参考表达。和lS,n(∈R106×2),其中第一个下标表示iden-S,rtity(T表示目标人,S表示源人)第二个是表达式(r表示参考表达式,n表示任意表达式)。例如,lT,r表示来自具有参考表达式(本文中中性表达式用作参考表达式)的目标个体的界标,该参考表达式可以处于不同的姿态。统一的地标转换器随后使源表达式适应目标,表示为对抗性损失。在这里我们把ULC滤波器看作是一个生成器,第三项LD包含两个鉴别器(D TF和D S),使滤波器更精确和鲁棒。的该方法利用特征点的真实性和相似性来判断特征点的真假,利用特征点对的相似性来估计特征点对的相似性两种损耗定义为:LDT F=Ex对数数据(x)[log(DTF(x))]+如:(lT,r,lS,n)→lT,n。最后,几何-w是生成器同时利用转换后的几何信息L∈ T,n∈R1×64×64和Ez双极数据(z)[log(1−DTF(五)(Z))],编队IT,r∈R3×256×256,以再现目标面LDS=Ex1,x2p数据(x)[log(DS(x1,x2))]+I<$T,n∈R3×256×256,记作φ:(L<$ T,n,IT,r)→I<$T,n.E[log(1−D(x,n(z))],LL,n 表示生成的标绘地标图像zpdata(z),x1pdata(x)S1(六)界标向量T,n. 更重要的是,一个新的三重感知引入损耗以提高GAG的性能。其中,x表示真实地标数据空间,z表示输入空间。5329CC评论:Unifie dLandmarkConverter(第二节)第3.1节)Conv+IN+ReLU你好你好CResBlock添加你知道吗?������������������������������CConcat你好,你好你好,你好∅: Geometry-awareGenerator(第二节)3.2)�������������,������你好,你好����������,������图2.拟议的FReeNet概述该网络由一个统一的地标转换器和一个几何感知生成器组成。给定具有任意表达式IS,n的源人和具有参考表达式IT,r的目标人,转换器使用提取的地标IS,n和IT,r来回归地标移位IS,n,然后构造经校正的地标IT,n。两个鉴别器DTF和采用DS进行广告培训。在此之后,几何-aw是生成器φreenactstogetfaceIT,n在LT,n的指导下,其中IT,r用作参考图像。αi(i=1,2,3)和θj(j=1,2,3,4)表示网络的部分参数3.2. 几何感知生成器给定目标参考面部图像IT,r和转换后的对抗性损失。第二项Ladv引入了改进所生成的图像的真实感的陆标T,n,GA G再现了目标面,T,n一个对抗性的想法:其与源面IS,n具有相同的表达式。Ladv=Ex对数数据(x)[log(D(x))]+具体而言,GAG是基于解耦思想中常用的Pix2Pix框架[12]设计的它是-Ekpdata(k),lpdata(l)(十)[log(1-D(φ(k,l)],Multi学习不同路径中来自I T,r的外观信息和来自LT,n的几何信息。如图2(底部)所示,GAG由图像编码器φθ1、界标编码器φθ2、Transformerφθ3和图像解码器φθ4组成。Transformer由三个ResBlock部分组成,每个部分都连接到地标编码器的输出这种设计确保了输出图像的几何信息(LT,n)将被增强,并且该过程可以被描述为:IT,n=φ(IT,r,LT,n)其中,x表示真实图像数据空间,k和l分别表示图像的输入图像和界标空间。判别器D类似于工作[43]。三重感知缺失。第三个术语LTP负责类内和类间评估,这有助于生成使图像具有更多的细节,并分离外观和几何信息。将在以下第3.3节中详细说明。3.3. 三重感知缺失=φθ4(φθ3(φθ1(IT,r),φθ2(LT,n(七))。在训练阶段,我们发现GAG模块GAG采用解耦思想设计,能够有效地在多人之间再现保留身份和表情转换的人脸图像。在GAG的训练阶段期间,全损失函数L_GAG被定义为:LGAG =λpixLpix+λadvLadv其中λL、λadv和λTP表示权重参数。像素级L1损失。 第一项Lpix计算生成图像和监督图像之间的11个误差:是病态的学习之间的映射输入土地-标记和生成的图像,如果只有在监督下的对抗这个问题是由于RGB和地标图像之间的不同分布引起的。生成器倾向于仅从地标学习,因为其分布简单。为了克服这个问题,我们将三重损失[28]和感知损失[14]结合起来,形成一种新的三重感知(TP)损失,它可以最大化类间损失,最小化类内损失。Lpix 为||IT,n-IT,n ||1.(九)5330类知觉变异。5331第一章,第二第103章,你是我的女人������第一章,���第二������图3.三重感知损失示意图。模拟最大化再现的类间感知变化图像(IT,n2和IR,n2)和最小化类内感知变量(IT,n2和IT,n3)。如图3所示,在目标人T内随机选择具有任意表达式(n_1和n_2)的两个图像IT,n_1和IT,n_2,而在另一个人R内随机选择具有任意表达式(n_1和n_2)的第三图像IR,n_3。4. 实验在本节中,我们在上述RaFD和Multi-PIE数据集上评估了我们的方法,并与最先进的方法进行了对比分析。此外,对RaFD数据集进行了一些消融研究,以说明FReeNet中每个拟议组件的效果,并进一步测试了野外的其他图像。最后,在RaFD数据集上进行了一系列地标插值和仿真实验,验证了该方法的解耦优势我们还在补充文件中提供了演示视频,以获得更多的生成结果。4.1. 数据集和实施详细信息RaFD。Radboud Faces Database(RaFD)[19]包含从67名参与者收集的8,040张图像。每个参与者在三种不同的表情表达n3. 图片IT,n2,我T,n3,我R,n2生成注视方向和五个不同的角度,所有45度,90度,使用了135幅人脸图像。图像通过GAG输入(LT,n2,IT,n1),(LT,n3,IT,n2),和(LR,n2,IR,n3)尊重我,LR,n2表示已转换裁剪为416×416,面居中,然后调整大小,256 ×256。每个面部有106个关键点的地标界标图像是从单位元T到单位元R,表达式为n2,IT,n2和IT,n3也是如此。然后应用TP损失来区分由相似但不同的界标生成的图像。参考人如下:图像由HyperLandmark提供[9]。多个PIE。在CMU 3D房间内,使用Σ。ˆ ˆ ˆ ˆ15个高质量视频的硬件同步网络LTP(IT,n2,IT,n 3,IR,n2)=m+Dκ(IT,n2),κ(IT,n3)摄像头和18个闪光灯面部的细节处理.ΣΣˆ ˆ与RaFD数据集相似。- - D型 κ(IT,n2),κ(IR,n2) ,+(十一)其中m是用于控制帧内和帧间间隙的裕度;κ(·)表示通过VGG[29]进行的特征提取操作;D(·,·)表示L2距离;+表示值是可伸缩的。在没有TP损失的情况下,I_n_T,n_2只是一个一致的类内增量,年龄在其地面真理的监督下,这意味着GAG倾向于自然地耦合界标和生成的面部。相比之下,当使用TP损失时,GAG对于从I_T,n3和I_R,n 2生成的I_T,n2具有附加的类间或类内约束. 在这种情况下,TP损失迫使一个地标参与面数据集中所有目标人物的重现。因此,GAG必须同时从参考面部和地标图像中提取特征以再现目标人。3.4.培训计划FReeNet的培训过程包括两个阶段。在第一阶段,我们从头开始训练ULC模块,使用等式中定义的损失函数 2,其中相应的损失权重设置为λ1=100,λ2=10,λ3=0。1.一、然后,我们固定训练的ULC模块的参数,并在第二阶段学习GAG模块的参数,其中损失权重λpix,λadv和λTP分别为100,1和0.1在所有实验中,TP损失的裕度值m设定为0.3评估指标。 我们使用Amazon Mechanical Turk(AMT)为了评估再现图像的视觉质量结构相似性(SSIM)[36]用于测量给定图像和真实图像 之 间 的 结 构 相 似 性 , 而 Fre'chetInception Distance(FID)[10]用于测量生成图像的真实性和变化。实施详情。 我们遵循第3.4节中描述的培训计划。对于ULC,我们对所有模块使用Adam [18]优化器并设置β1= 0。99, β2= 0。999 初始学习率设为3e−4,每300个epoch衰减10。 我们训练转换器1,000个epoch,批量大小为16。 对于GAG,我们使用Adam优化器并设置β1= 0。5,β2= 0。999 初始学习率设为2e−4,每120个epoch衰减10。我们训练转换器400个epoch,批量大小为4. [12]中提出的PatchGAN被用作训练器,训练设置与生成器相同我们进一步测试了FReeNet的推理速度,ULC可以有效地运行在CPU上,速度为878 FPS,建议的GAG模型的推理时间约为13.5 ms,使用2080 TiGPU。FReeNet的详细结构和参数见补充材料。对于论文中的基线,我们选择修改后的Pix2Pix[12],将地标视为连接到输入RGB图像的第四通道L2016年10月1 日第一章,���第二������∅2016年12月 22日第103章,你是���我的女人������2013年12月3 日第一章,���第二������5332(a)(b)(c)(d)(e)(f)(g)(h)(i)(j)(k)(l)(m)图4.生成结果与RaFD数据集上的基线进行比较。第一列和第一行分别是参考图像和源图像。右四个源图像是在野外。第二行和第三行的图像由基线生成,而其他图像由我们的方法生成。请放大以了解更多详情。4.2. 定性结果我们进行并讨论了一系列的定性实验上的RaFD和多PIE数据集,以证明所生成的图像的高质量和所提出的框架的灵活性。如图4所示,我们从训练数据集中随机选择了8个具有不同表情的身份,并在数据集外随机选择了4个身份然后,他们的面部表情和动作被转移到三个目标人物在三个姿势。实验结果表明,FReeNet能够很好地保持参考图像的几何信息,再现出高质量的目标人脸图像。例如,在列(k)处的基线的生成的图像不能保持面部轮廓作为参考图像,而我们的方法可以实现这一点。此外,我们的模型在细节上表现得更好,例如上唇(柱(l)),鼻子(柱(m))和牙齿(柱(h))。该方法生成的人脸具有照片般的真实感和表情相似性,其中面部外观和轮廓与参考图像一致。在Multi-PIE数据集上的实验进一步验证了该方法的有效性如图5和图6所示,实验结果表明,我们的方法可以很好地将表情从源人物传递到目标人物,同时保持与参考图像相同的姿势和照明图5.在Multi-PIE数据集上相同照明下的实验结果。第一列包含具有不同姿势和表情的三个随机选择的源身份,并且第一行呈现不同姿势的九个参考身份。其余的脸都是我们的方法重现。图6.在Multi-PIE数据集上的不同照明下的实验结果。第一行示出了在不同照明下的三个参考人,并且第一列包含具有不同姿势和表情的三个随机选择的源身份。其余的脸都是我们的方法重现。源参考我们我们基线5333表1.在RaFD数据集上使用不同组件对复制基线和我们的方法缺少条目(-)意味着模型未被度量评估模型SSIM↑FID↓AMT[第12话]0.62912.8441.3%GAG0.65911.67-GAG+ULC0.71113.26-GAG+ULC+TP(完整)0.71712.1774.9%表2.学习n人之间所有变换时的模型参数比较。缺少条目(-)表示模型没有相应的组件。型号参数(M)速度传输生成器(FPS)Pix2Pix-16.7×n(n-1)75Xu等[40]-16.7×n(n-1)73ReenactGAN [39] 7.8×n 61.1×n 48[37]第37话:我的世界我们的4.5 17.3 574.3. 定量结果我们选择SSIM和FID指标来评估我们提出的方法在RaFD数据集上的有效性。在实验过程中,我们为每个参考身份(总共67个身份)生成100个重新激活的图像,其中相应的100个源图像是从其他身份(总共6,700个图像)中随机选择的。通过这种方式,可以生成多样化的图像,因为不同的身份(用作源图像)具有不同的面部属性,例如,面部轮廓和眶距。根据表1所示的比较结果,拟定GAG在两个指标上优于基线然而,这两个模型都不能保持身份一致的无地标适应操作,我们称之为身份转移问题。因此,我们设计了ULC模块来缓解这个问题。结果表明,对于ULC的身份保持能力,SSIM的度量得分有显著的提高,而FID的度量得分略有下降。我们分析了这是由于FID度量既能判断图像的多样性又能判断图像的真实性,而GAG模型由于将其他人的各种轮廓不一致的界标图像用于一个身份,可以生成更最后一行表明,建议的TP损失带来了一些增加在SSIM(0. 006 ↑)和FID(0. 96、与此同时 其原因可以直观地从4.5TP损失提高了再现面部的质量,因为具有更多的面部细节。我们进一步对Amazon Mechanical Turk(AMT)进行了用户研究对于30名测试者中的每一个,67个真实的和67个不同身份的假图像以随机顺序显示,源目标(X2Face)目标(ReenactGAN)目标(拟议)图7.与CelebV数据集上最先进方法的结果比较。第一行是源图像。第二行和第三行的结果来自X2Face和ReenactGAN。最后一排的结果是我们的。请放大以了解更多详情。的真阳性样本为71.1%,这是出乎意料的略低于我们的再现图像。此外,我们比较了几个最相关的工作模型参数(M:百万)和推理速度(FPS:帧每秒),以进一步证明我们的方法的效率,如表2所示。该方法的模型参数远低于其他方法,特别是当单位数n较大时,因为无论n是多少,该方法只需要一个统一的模型,减少了空间占用。此外,我们的方法与其他方法(例如,Pix2Pix,Xu等人,和ReenactGAN),而在重现特殊人物时,对X2Face(16 FPS)的时间接近三分之一,这意味着我们的方法对于实际应用是有效的对于一个身份生成,我们的方法与其他方法(例如,Pix2Pix和ReenactGAN),而对X2Face的时间不到一半。对于多个身份的生成,我们的方法只使用一个统一的模型,而其他方法必须重新加载相应身份的模型,这会消耗额外的时间和空间。4.4. 与最新技术如图7所示,我们还在包含五位名人的CelebV数据集[39]上进行了与大多数相关方法的对比实验我们首先在这个数据集中选择每个人的15张图像来构建成对的图像,这些图像用于训练ULC模块。生成的结果表明,我们的方法可以重现更真实和细节丰富的脸,如牙齿和头发。具体来说,与X2Face和ReenactGAN相比,我们的方法分别获得了26.1%和15.9%的改进。注意ULC模块被稍微修改为具有相同与lS,n的关系,以便与这些方法进行比较。表3.RaFD数据集上不同损失项的ACE结果无限的决策时间。结果表明,我们生成的图像在74.9%的实验中使测试者感到困惑,即:74.9%的生成图像被识别为真实的,而基线中的此值作为参考,损失LL1+Lcyc+Lcyc,LDACE7. 236± 0。015 4. 526± 0。015 0. 895 ±0。010SSIM ↑0.4670.5080.5895334源参考图8.一个测试TP损失效果的玩具实验。第二行和第三行位于不同的源图像中。第二至第五列是没有TP损失的结果,而其余列使用TP损失。请放大以了解更多详情。图9. RaFD数据集上的消融研究。 的结果第二行仅由GAG产生。添加ULC后的结果(GAG+ULC)显示在第三行中,最后一行显示通过我们的完全方法(GAG+ULC+TP)的结果。请放大蓝色和红色矩形以了解更多详细信息。4.5. 消融研究ULC的损失函数。当训练ULC模块时,我们在不同的损 失 函 数 中 测 试 转 换 后 的 地 标 的 平 均 坐 标 误 差(ACE)如表3所示,当加入不同的损失项时,ACE值逐渐减小,这证明了鉴别器的有效性。TP损失的影响。为了进一步说明TP丢失的有效性,我们进行了仅包含两个人的实验,因为三重丢失需要至少两个人。如图8所示,实验结果表明,TP损失在一定程度上可以很好地分离外观和几何信息。例如,当向参考图像馈送黑色或高斯噪声图像时,具有TP损失的再现的面部包含更多的ab-objective特征,而不是几乎完整的面部。这意味着GAG本身包含更少的外观信息,并且可以从参考图像中捕获更多的外观特征FReeNet的组成部分。我们进行了一项消融研究,以评估每个组件对我们提出的方法的影响如图9所示,报告了具有不同组件的模型第一行表明,无论源图像是否在数据集中,所提出的GAG都可以生成质量良好的图像,但无法保留目标人的几何比较第二行和第三行的结果,我们可以观察到添加ULC模块可以显著提高性能。SSIM得分同时大幅增加,如表1所示。 此外,拟议TP图10. RaFD数据集上的地标操作实验。从上到下,我们操纵嘴的形状(关闭打开),面部轮廓(宽到薄),眼睛的位置(旋转)时,重演目标的脸。请放大以了解更多详情。损失在最后一行进行评估。结果表明,生成的图像可以保持更丰富的面部细节,眉毛、皱纹和嘴巴,在FID上也有更好的分数。4.6. 地标操作我们进一步提出了一个地标操作实验,以突出我们的模型在RaFD数据集中的解耦设计的优势。具体地说,我们通过直接修改输入地标的坐标来控制生成图像的几何,这提供了一种灵活的方式来调整再现面部的几何位置。如图10所示,进行了三组操作实验,这些实验仅改变生成的面部的部分属性,例如,嘴巴形状面部轮廓和眼睛位置实验结果表明,该方法在对特定属性进行操作时,能够很好地保持参考人的身份和属性不变,直观地证实了解耦思想的优势.5. 结论在本文中,我们提出了一种新的FReeNet来解决多身份人脸再现任务,其目的是将面部表情从源人传递到目标人,同时保持身份和姿态与参考图像的一致性。具体而言,ULC模块提出了有效地转换的表达任意源人的目标人在潜在的地标空间。然后,GAG模块输入参考图像和转换后的地标图像,以再现真实感目标图像。此外,TP损失,提出了帮助GAG解耦的几何和外观信息,以及生成细节丰富的脸。大量的实验证明了我们的方法的效率和灵活性我们希望我们的工作能帮助用户在人脸重现任务中实现更并且我们的方法可以很容易地转移到其他领域,例如手势迁移或身体的姿势迁移。致谢我们感谢匿名评论者的建设性意见。国家自然科学基金部分资助项目:61836015和浙江省重点&研发计划项目(2019C01004)。参考源5335引用[1] Volker Blanz,Thomas Vetter,et al.三维人脸合成的可变形模型。在Siggraph,第99卷,第187-194页,1999中。3[2] Yunjey Choi,Minje Choi,Munyoung Kim,Jung-WooHa,Sunghun Kim,and Jaegul Choo. Stargan:用于多域图像到图像翻译的统一生成对抗网络。在CVPR,2018年6月。2[3] 董浩业、梁晓丹、龚克、赖汉江、朱佳、尹建。用于姿势 引 导 的 人 物 图 像 合 成 的 软 门 控 warping-gan 。 在NeurIPS,第474-484页,2018年。2[4] 董宣仪、严妍、欧阳万里、杨毅。用于人脸标志点检测的风格聚合网络。在CVPR,第379-388页第1、3条[5] 巴勃罗·加里多,米夏·艾尔·佐勒赫·奥菲,丹·卡萨斯,李·维·V·阿尔-格茨, KiranVaranasi, 帕特里克·佩雷斯和克里斯蒂安·西奥伯特从单目视讯重建个人化三维人脸模型。ACM TOG,35(3):28,2016. 1[6] 耿嘉豪,邵天嘉,郑友谊,翁彦林,周坤。用于单张照片面部动画的翘曲引导甘斯。SIGGRAPH Asia 2018技术论文,第231页。ACM,2018。1[7] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在NeurIPS,第2672-2680页,2014中。2[8] Ralph Gross 、 Iain Matthews 、 Jeffrey Cohn 、 TakeoKanade 和 Simon Baker 。 多 派 Image and VisionComputing,28(5):807-813,2010. 1[9] Xiaojie Guo,Siyuan Li,Jiawan Zhang,Jiaiwan Ma,Lin Ma,Wei Liu,and Haibin Ling. PFLD:一个实用的面部标志检测器。arXiv预印本arXiv:1902.10859,2019。一、二、三、五[10] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。NeurIPS,2017。5[11] 加里湾Huang,Manu Ramesh,Tamara Berg,and ErikLearned-Miller. 在野外贴上标签的脸:数据库用于研究无约束环境中的人脸识别。技术报告07-49,马萨诸塞大学阿默斯特,2007年10月。第1、3条[12] Phillip Isola,Jun-Yan Zhu,Tinghui Zhou,and Alexei AEfros.使用条件对抗网络的图像到图像翻译。在CVPR,2017年。一二四五七[13] 小涵锦、叶琪、武尚轩。赛克里根对决arXiv预印本arXiv:1712.03451,2017年。第1、3条[14] 贾斯汀·约翰逊,亚历山大·阿拉希,李飞飞。实时风格转换和超分辨率的感知损失。参见ECCV,第694-711页。施普林格,2016年。二、四[15] Tero Karras , Timo Aila , Samuli Laine , and JaakkoLehtinen.为提高质量、稳定性和变异性而进行的干细胞生长。arXiv预印本arXiv:1710.10196,2017。2[16] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构,用于生成对抗网络。arXiv预印本arXiv:1812.04948,2018。2[17] Hyeongwoo Kim , Pablo Carrido , Ayush Tewari ,WeipengXu,JustusThies,MatthiasNiessner,PatrickPe'rez,Christian5336Richardt,MichaelZoll hüfer,andChristianTheobalt. 深度视频肖像。ACM TOG,37(4):163,2018。1[18] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。5[19] Oliver Langner、Ron Dotsch、Gijsbert Bijlstra、DanielHJWigboldus、 SkylerTHawk和 ADVanKnippenberg。Radboud人脸数据库的实现与验证。认知与情感,24(8):1377-1388,2010。5[20] 加里湾黄埃里克·勒内-米勒。 在野外贴上标签的脸:更新和新的报告程序。技术报告UM-CS-2014-003,马萨诸塞大学,阿默斯特,2014年5月。第1、3条[21] Jiangjing Lv , Xiaohu Shao , Junliang Xing , ChengCheng,and Xi Zhou.一种深度回归架构,具有两阶段重新初始化,用于高性能面部标志检测。在CVPR中,第3317-3326页,2017年。第1、3条[22] 马路明和邓志刚。实时分层面部表现捕捉。ACMSIGGRAPH,第11页。ACM,2019年。3[23] 马丽倩、徐佳、孙倩茹、Bernt Schiele、Tinne Tuyte-laars和Luc Van Gool。姿势引导的人物图像生成。在NeurIPS,第406-416页,2017年。2[24] Mehdi Mirza和Simon Osindero条件生成对抗网。arXiv预印本arXiv:1411.1784,2014。2[25] 尤瓦尔·尼尔金,约西·凯勒,塔尔·哈斯纳。Fsgan:主题不可知的面部交换和重演。在ICCV,第7184-7193页,2019年。2[26] Albert Pumarola、Antonio Agudo、Aleix M Martinez、AlbertoSanfeliu和FrancescMoreno-Noguer。Ganimation:从单个图像中获得解剖感知面部动画参见ECCV,第818-833页,2018年。一、二、三[27] 亚历克·雷德福卢克·梅斯和苏米特·钦塔拉深度卷积生成对抗网络的无监督表示学习。arXiv预印本arXiv:1511.06434,2015。2[28] Florian SchroffDmitry Kalenichenko JamesPhilbinFacenet:用于人脸识别和聚类的统一嵌入在CVPR
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM Java项目:StudentInfo 数据管理与可视化分析
- pyedgar:Python库简化EDGAR数据交互与文档下载
- Node.js环境下wfdb文件解码与实时数据处理
- phpcms v2.2企业级网站管理系统发布
- 美团饿了么优惠券推广工具-uniapp源码
- 基于红外传感器的会议室实时占用率测量系统
- DenseNet-201预训练模型:图像分类的深度学习工具箱
- Java实现和弦移调工具:Transposer-java
- phpMyFAQ 2.5.1 Beta多国语言版:技术项目源码共享平台
- Python自动化源码实现便捷自动下单功能
- Android天气预报应用:查看多城市详细天气信息
- PHPTML类:简化HTML页面创建的PHP开源工具
- Biovec在蛋白质分析中的应用:预测、结构和可视化
- EfficientNet-b0深度学习工具箱模型在MATLAB中的应用
- 2024年河北省技能大赛数字化设计开发样题解析
- 笔记本USB加湿器:便携式设计解决方案
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功