没有合适的资源?快使用搜索试试~ 我知道了~
642双发生器面部重现国立台湾科技大学,台湾台北{jison,m10903418,m10703435} @mail.ntust.edu.tw摘要我们提出了双生成器(DG)网络的大姿态人脸重现。给定源面部和参考面部作为输入,DG网络可以生成具有与参考面部相同的姿态和表情并且具有与源面部相同的身份的输出面部由于大多数方法没有特别考虑大姿态再现,因此所提出的方法通过将3D地标检测器并入框架中并考虑损失函数来捕获大姿态上的可见局部形状变化来解决该问题DG网络由两个模块组成,ID 保 持 形 状 生 成 器 ( IDSG ) 和 再 现 面 部 生 成 器(RFG)。IDSG将参考人脸的3D界标编码为参考界标码,并将源人脸编码为源人脸码。参考地标代码和源面部代码被级联并解码为一组目标地标,该组目标地标展示参考面部的姿势和表情并保留源面部的身份。RFG部分基于StarGAN2生成器构建,对输入和图层设置进行了修改,并添加了面部风格编码器。给定由IDSG做出的目标地标和源面部作为输入,RFG生成具有期望的身份、姿态和表情的目标面部我们评估我们的方法上的RaFD,MPIE,VoxCeleb1和VoxCeleb2的基准和比较与国家的最先进的方法。1. 介绍给定源脸和参考脸,脸再现是指将参考脸的动作转换为源脸。动作指的是姿势和面部表情。挑战在于参考面和源面的动作之间的相似性以及变换后源身份的保持。它是计算机视觉领域的一个活跃的研究课题,近年来引起了越来越多的关注[23它在虚拟现实、动画和娱乐等领域有着广泛的应用。近年来已经提出了各种方法[4,22这些方法的一个主要家族是地标辅助生成(LAG),它利用面部地标来利用动作转换和再现面部生成[4,22,24,25]。FReeNet[25] 训练一个标志转换器将参考点的标志转换为源点,训练一个生成器使目标人脸显示参考点的表情,但它不能处理姿态变换。FSTH [24]训练一个嵌入器来编码源的地标,并训练一个生成器来将参考的动作转移到源面。更多的方法从LAG家庭审查第二节。二、与现有的LAG方法不同,我们的方法探索了一种双生成器架构,其中一个生成器用于生成保持ID的3D地标,另一个生成器用于使目标人脸满足多个目标。由于在训练中考虑了3D地标的嵌入和核心损失,我们的方法可以解决大姿态重现,这是一个具有挑战性的问题,但尚未得到足够的重视。存在不使用标志的方法,例如,MGOS [23]使用重建的3D网格作为指导来学习目标面部合成所需的光流。虽然各种方法取得了很大的进展,但仍有许多问题有待解决.用常用的FID、CSIM和SSIM等方法测量的性能还很不理想。许多办法都有具体问题。例如,FReeNet仅传输面部表情,但不能处理姿势传输。虽然FSTH可以传输姿势和表情,但用于控制转换的面部标志通常是不准确的,从而损害了身份保存。另一个重要的问题是,大多数方法只处理中值姿态变化(偏航角45o),而忽略大/极端姿态。<为了解决上述问题,我们提出了双生成器(DG)网络,它包含两个生成器,ID保持形状生成器(IDSG)和再现人脸生成器(RFG)。给定源面Is和参考面Ir作为输入,IDSG将参考面Ir的姿态和表情传递到源面Is,并且643生成目标地标估计值。RFG将目标界标估计值It和源Is作为输入,并且生成再现的面It,其显示与参考面Ir相同的动作来源:s。为了处理大姿态参考,我们嵌入了一个3D地标检测器,并考虑一个目标函数来捕获从正面到侧面的姿态相关局部形状变化。我们在具有完整姿态变化的数据集上训练DG网络,以便可以学习跨大姿态的地标我们总结这项工作的贡献如下:• 保身份形状生成器(IDSG)在生成具有所需姿态和表情的保身份面部形状方面是有效的。• 仿真结果表明,该算法能够有效地生成具有期望姿态和表情的目标人脸。• 与LAG家族中使用2D地标的大多数方法不同,我们嵌入了具有损失函数的3D地标来捕获可见的局部形状变化,以便可以处理大姿态人脸重现。• 基于对RaFD、MPIE、Vox-Celeb 1、VoxCeleb 2基准的评估,性能优于最先进的方法。我 们 的 代 码 、 模 型 和 更 多 定 性 结 果 可 在https://github.com/AvLab-CV/Dual_Generator_Face_Reenactment 上 获得。在下文中,我们首先回顾第二节中的相关工作2,然后在SEC中提出的方法。3、在此基础上进行了性能评价实验。4,然后在SEC中得出结论。五、2. 相关工作近年来提出了许多方法[4,18,22,23,25]。一个主要的方法家族是地标辅助生成(LAG),其利用面部地标来利用表情和姿势转换,然后是重新制定的面部生成[22,24,25]。存在不使用标志的方法,例如,网格引导单次拍摄(MGOS)[23]和X2Face [21]。然而,大多数方法仅涉及中间姿态变化,即,偏航角45°并忽略大/极端姿态。<所提出的方法属于LAG家族,但除了常见的中值姿态变化之外,它还可以处理大/极端姿态ReenactGAN [22]采用编码器将面部编码到由面部地标的热图定义的边界潜在空间中。一个基于边界的Transformer 被 用 来 将 参 考 的 边 界 转 换 虽 然 Reen-actGAN可以生成质量良好的目标人脸,但在以下情况下,它需要重新训练新的人脸边界Transformer和解码器:应用 于一 个看不 见的 身份 。Few-Shot Talking Head(FSTH)[24]由嵌入器网络,生成器和用于激活few-Shot学习的触发器组成。嵌入器网络将人脸转换成个性化的嵌入向量,这些向量被输入到生成器的层中以生成所需的再现人脸。FReeNet [25]由地标转换器和面部表情传输生成器组成。地标转换器将源地标和参考地标的特征转换为目标地标,并与参考地标的表达式相结合。生成器获取传输的目标地标和源面进行再现。FReeNet只传输面部表情而不传输姿态,因此再现的面部与源的面部处于相同的姿态,这对应用施加了很大的PuppeteerGAN [4]由一个用于姿态重定向的草图网络和一个用于外观变换的着色网络组成。前者利用源一些方法不属于LAG家族,并且考虑不同的注释或关键点来捕获姿势和表情变换。为了提高身份保护,MGOS [23]使用重建的3D网格来学习目标面部合成所需的光流该学习方法直接从三维密集网格中提取光流信息,能够提供足够的形状和姿态信息来重建源一阶运动(FOM)模型[18]由关键点检测器,运动网络和生成器组成运动网络采用运动表示来生成从参考到源的密集光流。该生成器采用光流和遮挡图来组合源外观和参考运动,以生成所需的目标面部。X2Face [21]由嵌入网络和驱动网络组成。嵌入网络学习具有不同姿势和表情的源面部的面部表示,并且驱动网络学习像素采样器以转换来自源面部的像素以生成目标面部。由于所提出的DG网络中的RFG模块是基于StarGAN2 [6]进行定义的,因此我们对其进行了简要回顾。StarGAN 2是为了解决StarGAN [5]的问题而提出的,StarGAN在每个视觉域中学习确定性映射,并且没有捕获多个域上数据分布的多模态性质。StarGAN 2用特定于域的样式代码替换StarGAN中的域标签,以表示特定域的样式它包括两个模块,映射网络和风格编码器。这两个模块都有多个输出分支,每个分支都为特定的域提供一个样式代码StarGAN 2生成器学习合成IM-644图1. DG网络由两个生成器组成,ID保持形状生成器(IDSG)和再现面部生成器(RFG)。 在源面Is和参考面Ir作为输入的情况下,IDSG根据地标坐标将Ir的动作变换为Is。RFG将Ik和Is作为输入,并且生成具有与Ir相同的动作并且具有与Is相同的身份的再现的面Ik。通过使用样式代码在多个域上进行年龄划分。3. 该方法双生成器(DG)网络由两个主要模块组成,即ID 保持形状生成器(IDSG )和再现面部生成器(RFG)。配置如图1所示。 IDSG由面部编码器E1、面部界标检测器F1、界标编码器E1和界标解码器R1组成。 给定源面Is和参考面Ir作为输入,它生成一组目标地标估计值作为输出。 RFG由一个面生成器G f和一个风格编码器E s组成。以目标作为输入,RFG生成期望的目标帧I_t,使得I_t和I_s参考数据集,即,Cl通过考虑其对应的界标来对个体进行分类。除了上述四个主要组件E1、R1、D1和C1之外,IDSG还包括3D面部标志检测器F1和面部编码器E1。这两个网络都是现成的模型,在训练过程中不会更新。我们使用FAN(面部对齐网络)[1]作为3D地标检测器F1,并且使用VG-GFace 2 [3]的特征嵌入层作为面部编码器Ef。地标检测器F1检测2D面部的3D地标,并且将每个地标标记为跨姿态可见或不可见,从而允许我们开发用于处理大姿态再现的可见局部形状损失。面部编码器Ef提供优化由IDSG生成的地标所需的身份主要模块的细节如下。有相同的身份,我和我有相同的行为in terms条款of the pose姿势and expression表达.IDSG和RFG都被训练用于利用可用的地面实况It和It进行自我重演,然后被训练用于处理不可见的对象的交叉ID重演(交叉重演)上述组件和模块的详细信息在以下章节中给出有关网络架构和设置的更多详细信息,请参见补充资料3.1. 保ID形状生成器IDSG(ID保持形状生成器)被设计为根据面部标志将参考面部Ir的姿态和表情转换为源面部I s。该问题被 公 式 化 为 参 考 f_f_landmark_l_r 到 目 标landmark_estimate_f_t的变换,使得保留源I的身份特征展示了参考Ir的姿势和表情。为了解决这个问题,我们设计了一个编码器-解码器界标生成器Gl=[El,Rl],其中El表示界标编码器,Rl是界标解码器。在训练阶段,地标生成器G1与地标CIDD1和基于地标的主题分类器C1一起工作。通过区分所生成的界标与在源图像上获得的实际界标,BANDl验证由Gl做出的界标的质量。主题分类器Cl根据主题分类器Cl中的主题对参考面部• El是由五个完全连接(fc)层和应用于每个fc层的泄漏ReLU [15]激活函数组成的MLP,并且它生成动作代码γ以表示一组地标的姿势和表达。• 界标解码器R1被构造为具有五个fc层和泄漏ReLU激活的E1的镜像它采用与面部ID码rs级联的动作码γ来生成估计的目标地标rt。• 界标分类器D1和主题分类器C1都以与界标编码器E1相同的方式构造,在输入处具有相同的尺寸(由于界标输入的相同尺寸),但在输出处具有不同的尺寸D1的输出维度是1,用于将生成的地标与真实地标区分开;而C1的输出维度是训练集中要识别的对象的数量。我们不仅生成目标地标估计值,而且还通过在训练期间输入参考面部作为源面部来生成参考地标估计值。本研究的创新之一是关于损失函数,特别是可见的局部形状损失,这使得形状能够在大姿势之间切换。我们考虑以下损失:对抗损失,可见的局部形状损失,动作损失,主题类损失和本地化损失。对抗性损失进行目标地标估计除了实际的地标集合之外,下面的公式是:645AdvLAdvK=lk-我K-我VLSLL1¨¨1¨L¨Adv¨ ¨ ¨¨L需要降低对抗损失以训练地标生成器G1和地标D1:LGl =−Elrp(lr),Isp(Is)log [1−Dl(Gl(lr,Is))](1)LDl =Elrp(lr)log [Dl(lr)]+Elrp(lr),Isp(Is)log [1−Dl(Gl(lr,Is))](2)可见的局部形状损失可见的局部形状(VLS)损失vls提出了两个目标。一个是捕获跨大姿态的目标landmark估计的形状变化,例如,旋转面部时一只眼睛被遮挡到>45英寸偏航,并在旋转回来时重新出现另一种方法是使参考地标lr远离参考地标lr,同时使估计的参考地标lr更接近真实的参考地标lr,因为lr是对于必须远离参考Lr的源Is,进行Lr,而对于必须靠近Lr的参考Ir,进行Lr。我们将地标分为五个局部区域,即左眼,右眼,鼻子,嘴和面部轮廓五组。由于由3D地标检测器F1给出的地标坐标可以用于标记可见和不可见地标,因此我们可以学习跨大姿态的可见/不可见地标的变化,并且最小化训练期间每个区域的后续VLS损失在形状空间的主体身份。LCl=Elrp(lr)[−log P(s i|其中si是参考面Ir的ID标签。定位丢失为了使生成的地标丢失-在期望的位置处定位,当在自重演训练阶段可以获得地面实况Lt时,利用定位损失L来最小化Lr和Lt之间的距离以及Lt和Lt之间的距离。Ll=lt−lt+lr−lr(6)请注意,(6)和(3)中的局部对抗设置,以及不同的期望目标。当训练IDSG时,上述五个损失的以下加权和被最小化。LIDSG=LGl +λvLvls+λaLa+λcLCl+λlLl(7)其中λl、λc、λv、λa是实验中要确定的权重。3.2. 重新生成的面部生成器再现面部生成器(RFG)将目标地标估计值和源图像Is作为输入,并且生成再现面部Ist作为输出。想要的我不想LvlsVLS�r,vkr,v1 -lr,vkt,v1 +σk(三)必须具有与源面1相同的身份,并且与参考面Ir相同的姿势和表情。它是由一个编码器-解码器生成器G f和一个风格哪里K是针对区域- k定义的VLS损失,k =1,2,...,左眼、右眼、鼻子、嘴巴和面部共5个孔,tour;v=0,1是可见性指标;σk是实验中确定的裕度参数。我们只计算Lk对于可见地标,即,v=1。 为编码器Es.在训练过程中,G f和E s随着一个面φD f和一个形状φ D s,以产生所需的目标面φt。上述模块的详细信息如下所示。• 样式编码器Es由六个下采样组成界标检测器F1可以对空间中的每个界标进行无论姿势如何,我们都按其编号对每个区域的地标进行分组。通过级联的[γ,rs]来驱动生成的t,以及由级联的[γ,rr]生成的nrdri ven,其中rs和rr是源Is的面部ID代码,并且参考Ir。 VLS损失vls通过使用参考地标码γ来约束lr和lrt的生成,限制lr和lrt之间的接近度,并且惩罚lr和lrt之间的相似性。动作损失为了更好地复制参考的姿势和表达,我们最小化以下动作损失a,其计算参考地标和目标地标估计的地标代码之间的差残差块,并旨在从源Is中提取面部风格代码s s=Es(Is)。将被输入到生成器G_f的层,以在生成的目标I_t处保留源身份。• 生成器Gf由四个下采样残差块、四个中间残差块和四个上采样残差块组成。AdaIN [11,12]被应用于将面部风格代码ss输入到最后两个中间残差块中,并且所有上采样残差块都被应用于将面部风格代码s s输入到最后两个中间残差块中。两个块,以使目标面I_t=G_f(t_t,s_s)。We以地标图的形式将图像输入到Gf中,其中,地标图是地标的二进制图像,每个相邻地标对通过边缘连接。¨ˆ¨• 面Df和形DsLa=El(lt)−El(lr)1(4)主题类损失我们使用主题分类器Cl来计算以下主题类损失LCl,以使主题类损失L C l保持为具有与风格编码器Es相同的结构,但两者都具有1D输出,用于区分生成的从真实世界中Df的输入是It,并且Df的输入是I t。Ds是Fl(It)646AdvLAdvGDf不不在不不LML不不1t tSsAdvltlt¨¨虽然生成器Gf是建立在StarGAN 2上的,但差异包括用于输入风格信号ss的层设置、二进制映射中的源格式、识别器设置和损失函数。当训练RFG用于自我重演时,我们考虑以下损失函数,其中地面实况目标可用。附加损失迫使生成的目标I_t必须符合两个要求:1)I_t必须作为具有与源I_s相同的身份的真实面出现;2)I_t必须与参考I_r处于相同的动作中。为了满足这些要求,需要G、Df和D s的下列对抗损失:4. 实验我们首先介绍了数据集,然后评估和实施细节,然后对DG网络的不同设置一个比较与国家的最先进的方法与正常和大姿态设置的性能。4.1. 数据集和实施详细信息我 们 考 虑 约 束 和 无 约 束 数 据 集 。[ 14 ][15][16][17][18][19][1L=−Elog1−D.G(t,Is)(8)[16][17][18][19][1约束(也称为野外)数据集。Ladv=EIp(I)logDf(It)+RaFD Radboud Faces Database(RaFD)[14]收集了67名受试者的8,040张图片 每个Elp(l),Ip(I)log1−Df.G(t,Is)(9)LDs=EFl(It)p(Fl(It))log [Ds(Fl(It))]+EF(l)p(F(l))log1−Ds。Fl(It)(10)属性损失为了使生成的目标的图像属性不接近地面实况目标的图像属性,我们利用以下逐像素的L1损失Lat。受试者在3个注视方向和5个不同姿势上具有8个表情。所有图像的大小调整为2562像素,我们使用FAN来检测每个人脸上的68个3D标志。我们遵循与FReeNet相同的设置[25]。训练集由67名受试者组成,具有3个注视方向和5种不同姿势的8种面部为了进行性能评估,我们为每个源身份合成了100个重现图像,并从其他身份中随机选择了100个参考图像,最终生成了6,700个重现图像L=<$I−I<$(十一)67个主题MPIE MPIE提供超过750k的图像,为了在生成的面I_Face_t处保留I的源身份,我们使用由VGGFace 2 [3]的特征嵌入层形成的面编码器E_f来计算通过余弦相似性的以下身份(ID)损失Lid=1−cos(Ef(It),Ef(Is))(12)为了使风格编码器Es生成与源Is相同的面部风格代码ss,如果我们不这样做,我们就可以利用以下损失。Lst=Es(It)−Es(Is)(13)地标损失为了使生成的目标场不出现在期望的动作中,我们利用了以下地标损失lm,以最小化在Ijlt和在Ijlt上检测到的地标之间的距离。337名受试者,15种姿势,6种表情和20种灯光条件它被选择用于大姿态再现的评估。我曾在《易经》中,以《易经》为例。训练集由200名受试者组成,包括所有姿势、5种光照条件和4种表情,137名受试者组成测试集。 训练集用于自我重演,测试集用于交叉重演。我们设计了两个交叉重演的测试方案。一个人为测试集中的每个源身份合成100个重现图像,并从其他身份中随机选择100个参考图像。另一组重复实验,但每个源都有偏航<30度和偏航>60度 的参考面。后者在实验中被称为MPIE(Large Pose)VoxCeleb1VoxCeleb1数据集[16]包含1,251位名人的超过10万条话语,从YouTube视频中提取,并分为训练集和测试集。在我们的实验中,所有图像都是从L=<$F(I)−l<$(十四)以1 fps采样的视频,调整为2562像素,以及每个都具有由FAN检测到的3D地标我们跟着用于训练RFG的完整目标函数是上述损失函数的加权和:LRFG=LG+λatLat+λidLid+λstLst+λlmLlm(15)其中λat、λ id、λ st、λ lm是待确定的权重。ltF11647FSTH [24]中报告的实验方案,并在训练集上训练所有模型。对于性能评估,我们通过使用从测试集中的50个视频中随机选择的8个帧来微调所有模型,并在相同的50个视频的32个保持帧上进行测试(微调和保持帧不重叠)。648GlGlLLLLLLGlLLLLLVoxCeleb2VoxCeleb2 [7]是VoxCeleb1的扩展。它包含6,112位名人的超过100万条话语,并分为训练集和测试集。我们以25 fps的速度从视频中提取图像,并以与VoxCeleb1相同的方式处理图像。我们再次遵循FSTH [24]中报告的实验方案表1. IDSG上不同损失设置的RaFD数据集上的平均坐标误差(ACE) 基线(BL)是指只有对抗损失Ladv和分类损失LC的模型。BL:LADV+LC+ Ll+LaDG(+Lvls)8.07±2.596.93 ±1.90 6.61 ±1.654.13 ± 1.12表2.不同损失的RFG性能累积添加到基线(BL)上 ,RFG上的Ladv+Lat。前四评价指标选择多个指标,测试生成图像的照片级真实感质量和身份保留,包括Frechet-Inception 距 离 ( FID ) [10] 、 结 构 相 似 度(SSIM)[20]和余弦相似度(CSIM)。FID通过测量从真实图像和生成图像中提取的特征之间的分布距离来评估照片真实感质量。通过使用Inception-V3的最后一个平均池化层提取特征[19]。SSIM意味着-的行Df仅Df,最后一行添加了Ds。确保所生成的图像与地面实况图像的低水平相似性。CSIM通过使用从源和生成的图像中提取的面部特征之间的相似性来测量生成的图像中的我们使用ArcFace [8]的特征嵌入层来提取面部特征,并计算余弦相似度。我们独立地训练了IDSG和RFG;并将它们合并以进行测试。我们使用自我重演,每个身份至少有两张图像用于训练,一张图像用作源,另一张用作参考。基于为自我重演训练的模型,我们重新训练它以交叉重演,其中引用被其他身份取代。我们使用(7)中定义 通过比较研究确定了以下参数。 margins [m i]i=1,.,对于(3)中的VLS损失,分别选择5为0.05、0.05、0.1、(7)中的权重设定为λ l=0。5,λ c=1,λ vls=10,λ a=1。 我们还根据(15)中给出的目标从头开始训练RFG模块 为了计算(12)中的身份损失,我们从VG的最后一个全连接层中提取了2048D特征。GFace2基于ResNet50构建[3]。(15)中的权重选择为λat=10,λid=10,λst=1和λlm=1。我们的程序是在Pytorch深度学习框架中编写的[17]。所有实验均在具有NVIDIA RTX Titan GPU的Ubuntu 18.04上以批量大小4运行 我们使用Adam [13]优化器,β1=0。01,β2=0。九十九。的两个模块的学习率分别为1e-5和1e-4,分别为。4.2. 消融研究为了更好地确定IDSG和RFG的损失函数的设置,我们选择RaFD作为数据集来确定损失函数的设置,并且选择MPIE(大姿态)来展示IDSG。RaFD和MPIE(Large Pose)提供的服务不同-输入具有相同姿势和表情的面部,以便目标动作的地面实况可用于比较。IDSG的损失函数我们计算了具有不同损失设置的IDSG生成的地标的平均坐标误差(ACE)。我们定义了一个基线,只考虑对抗损失adv和分类损失Cl,其他损失函数被累积添加到基线。ACE中的性能比较如表1所示。当定位损失l和动作损失a被添加到基线时,ACE减小。当VLS损失vls被添加上时,ACE被显著地改进。由于篇幅所限,请参阅补充资料进行定性比较。RFG的损失函数表2示出了当每个损失函数被累积地添加到RFG基线时的FID、SSIM和CSIM,其仅考虑了面CWDf和属性损失。 身份丢失ID可以显着提高图像质量和身份保持。风格一致性损失st和地标损失lm也增强了整体质量和性能。额外的形状FHD进一步提高了生成的质量和身份保留,如所有三个度量所证明的,特别是FID。见补充材料的定性比较。IDSG的影响图2显示了从实验中采样的IDSG对MPIE(大姿势)的影响。当源和参考的姿态接近于正面时,RFG单独地在与源Is和参考地标Ir的身份鉴别中表现良好,即,形状信息全部由参考给出,而不使用IDSG。但是生成的面部轮廓看起来与参考相似,而不是源。当参考处于大姿势时,这可能是一个严重的问题。如图2所示的情况,RFG将参照物的标志误在使用目标土地时-度量SSIM↑FID↓CSIM↑BL:Ladv+LatDf0.50358.610.211+Lid0.64312.010.775+Lst0.6629.920.803+Llm0.7075.590.844DG(+Ladv)Ds0.7263.990.862649图2.第二行示出了由RFG利用参考界标lr制作的再现面,即, 不使用IDSG;由DG(=IDSG+RFG)构成的第三行。图3.几种SOTA方法的比较表3.在VoxCeleb1数据集方法(N)SSIM↑FID↓CSIM↑VoxCeleb1[21]第二十一话0.7556.50.18FSTH [24]0.7429.50.19[18]第十八话0.72325.00.813PuppeteerGAN [4]0.72533.60.717[23]第二十三话0.739N.A.0.822DG0.76122.10.831标记估计值t,即,通过IDSG校正参考的界标4.3. 与最新方法的将消融研究中确认的具有最佳设置的DG网络与处理自我重现和交叉重现的最新方法进行比较。我们用可用的代码对approaches进行了相同的实验。对于没有代码的方法,我们在他们的论文中复制结果和图像样本进行比较。自我重演表3显示了自我重演表4.在VoxCeleb2、RaFD、MPIE和MPIE(大姿势)方法(N)SSIM↑FID↓CSIM↑VoxCeleb2[18]第十八话0.5354.780.714DG0.5451.790.721RaFDFReeNet [25]0.71712.17N.A.[18]第十八话0.7239.370.801DG0.7264.790.862MPIE[18]第十八话0.5828.340.714DG0.6516.550.780MPIE(LargePose)[18]第十八话0.3862.880.382DG0.6125.660.711与X2face [21],FSTH [24],FOM [18],PuppeteerGAN[4]”[23]《明史》。DG网络在所有三个指标中均获得最佳分数。图3显示了与某些方法和基本事实的定性比较。DG在身份验证和面部表情相似性方面表现出更好的性能。然而,由于这些样本都接近正面姿势,跨大姿势的再现性能需要不同的评估。虽然X2 face、FOM和FSTH已经发布了模型/代码,但根据我们的测试,只有FOM模型提供了与论文中报告的结果相似的结果。我们无法通过使用他们的模型/代码复制X2 face和FSTH的性能,因为它们与他们在论文中报告的性能相似。图3中的样本是从他们的论文中影印的。交叉身份表4显示了VoxCeleb2、RaFD、MPIE数据集上的交叉重现性能。如第4.1,MPIE有两个测试原型,一个是用于测试大姿态性能。很少有方法报告交叉重演的性能,我们只发现FReeNet [25]显示了RaFD的性能。表4中FOM的性能基于作者发布的模型,我们已经对MPIE和MPIE(大姿势)进行了重新训练。DG net声称在所有基准测试中的所有三个指标中表现最好,包括MPIE Large-Pose。图4显示了FReeNet和FOM所做的人脸的定性比较。请注意,FReeNet只能处理面部表情转移,但不能处理姿势转移,因为生成的面部都处于与源相同的姿势。FOM对正面姿态的声源有较好的识别效果,但对大姿态的声源识别效果不佳。请参阅补充材料,以了解交叉重演性能的更多定性比较。650图4.在RaFD上与FReeNet和FOM进行交叉重演比较。顶行显示参考文献。那些被红色边界框包围的是由DG网制成的。图5. MPIE数据集上的交叉重现样本。4.4. 大姿势重现图5显示了MPIE上的交叉重演样本为了证明处理大姿态再现的性能,选择与源面部有大姿态差异的再现的面孔很好地保留了原作者的身份,并展示了参考人的姿态和表情为了比较图6.比较在MPIE(+MPIE)上训练的DG;仅在VoxCeleb 1训练集上训练的DG,没有MPIE;以及在VoxCeleb 1训练集上训练 的 FOM , 具 有 MPIE , 用 于 在 具 有 极 端 姿 势 参 考 的VoxCeleb 1上进行大姿势再现。目的,我们在MPIE和VoxCeleb1训练集的组合上训练DG网络,并在测试集上测试交叉图6显示了几种情况,其中源面来自VoxCeleb1,极端姿态参考来自MPIE。比较包括由FOM所做的结果,因为它显示出令人满意的性能,在正面姿态的源。然而,FOM无法处理具有极端姿态的源。如果在MPIE上训练DG网络,则DG网络对于具有极端姿态的源表现良好,MPIE为学习提供了足够的大/极端姿态数据。如果训练集不包含MPIE,则性能会下降,MPIE提供了足够量的大姿态训练数据。5. 结论我们提出了双发电机(DG)网络的脸重演。它由两个生成器组成,一个用于生成具有参考姿势和面部表情的身份保持面部形状由于大多数方法不特别考虑大姿态重现,因此所提出的DG网络通过将3D地标检测器并入框架中并考虑损失函数来捕获大姿态上的可见局部形状变化来实验证明,DG网络优于国家的最先进的方法,在大多数现有的方法所考虑的行动范围内,并表现出令人满意的大姿态重演。651引用[1] Adrian Bulat和Georgios Tzimiropoulos我们离解决二维和三维人脸对齐问题还有多远?(and 230,000个3D面部标志的数据集)。InICCV,2017. 3[2] Jie Cao , Yibo Hu , Hongwen Zhang , Ran He , andZhenan Sun.在野生环境中,面部额状化的逼真度更高。在IJCV,2020年。5[3] Q.曹湖,加-地沈,W。Xie,O. M. Parkhi和A.齐瑟曼。Vggface2:一个用于识别跨姿势和年龄的人脸的数据集。在FG,2018年。三五六[4] 陈卓,王超越,博远,陶大成。Puppeteergan:具有语义感知外观变换的任意肖像动画.在CVPR,2020年。一、二、七[5] Yunjey Choi,Minje Choi,Munyoung Kim,Jung-WooHa,Sunghun Kim,and Jaegul Choo. Stargan:用于多域图像到图像翻译的统一生成对抗网络。在CVPR,2018年。2[6] Yunjey Choi,Youngjung Uh,Jaejun Yoo,Jung-WooHa.Stargan v2:多领域的多样化图像合成。在CVPR,2020年。2[7] Joon Son Chung , Arsha Nagrani , Andrew Zisserman.Voxceleb2:深度说话人识别。在INTERSPEECH,2018年。五、六[8] 邓健康,贾国,薛念南,Stefanos Zafeiriou。Arcface:用于深度人脸识别的附加角度余量损失。在CVPR,2019年。6[9] Ralph Gross 、 Iain Matthews 、 Jeffrey Cohn 、 TakeoKanade和Simon Baker。多派图像和视觉计算,2010年。5[10] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。在NIPS,2017年。6[11] Xun Huang和Serge Belongie。实时任意样式传输,具有自适应实例规范化。InICCV,2017. 4[12] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构,用于生成对抗网络。在CVPR,2019年。4[13] Diederik P. Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。6[14] Oliver Langner、Ron Dotsch、Gijsbert Bijlstra、DanielHJ Wigboldus、Skyler T Hawk和AD Van Knippenberg。Radboud人脸数据库的实现与验证。认知与情感,2010年。5[15] Andrew L Maas、Awni Y Hannun和Andrew Y Ng。整流器的非线性改善了神经网络声学模型。在Proc.icml,2013中。3[16] Arsha Nagrani , Joon Son Chung , Andrew Zisserman.Voxceleb:一个大规模说话人识别数据集。arXiv预印本arXiv:1706.08612,2017. 5[17] Adam Paszke、Sam Gross、Soumith Chintala、GregoryChanan、Edward Yang、Zachary DeVito、Zeming Lin、Alban Desmaison、Luca Antiga和Adam Lerer。pytorch中的自动微分。2017. 6652[18] Alia ksandrSiarohin , Ste´ phaneLathuilie` re , Ser geyTulyakov,Elisa Ricci,and Nicu Sebe.图像动画的一阶运动模型。在NIPS,2019。二、七[19] Christian Szegedy、Vincent Vanhoucke、Serget Loffe和Zbigniew Wojna。重新思考计算机视觉的初始架构。arXiv预印本arXiv:1512.00567,2015。6[20] Zhou Wang,Alan C Bovik,Hamid R Sheikh,and EeroP Simoncelli.图像质量评价:从误差可见性到结构相似性。TIP,2004年。6[21] 奥利维亚·怀尔斯,索菲亚·科普克,安德鲁·齐瑟曼。X2face:一个网络,用于控制面部生成使用图像,音频和姿势代码。在ECCV,2018。二、七[22] Wayne Wu,Yunxuan Zhang,Cheng Li,Chen Qian,and Chen Change Loy.Reenactgan:学习通过边界转移来重现面孔。在ECCV,2018。一、二[23] 姚光明、易义安、邵天佳、周坤。使用图卷积网络的网 格 引 导 的 单 次 面 部 再 现 。 arXiv 预 印 本 arXiv :2008.07783,2020。一、二、七[24] Egor Zakharov、Aliaksandra Shysheya、Egor Burkov和Victor Lempitsky。现实神经说话头模型的少镜头对抗学习。 在ICCV,2019年。 一、二、五、六、七[25] Jiangning Zhang,Xianfang Zeng,Mengmen Wang ,Yusuu Pan , Liang Liu , Yong Liu , Yu Ding , andChangjie Fan. Freenet:多身份面部重现。 在CVPR,2020年。一、二、五、七[26] Yunxuan Zhang,Siwei Zhang,Yue He,Cheng Li,Chen Change Loy,and Ziwei Liu.一次面部重现。arXiv预印本arXiv:1908.03251,2019。1
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Fisher Iris Setosa数据的主成分分析及可视化- Matlab实现
- 深入理解JavaScript类与面向对象编程
- Argspect-0.0.1版本Python包发布与使用说明
- OpenNetAdmin v09.07.15 PHP项目源码下载
- 掌握Node.js: 构建高性能Web服务器与应用程序
- Matlab矢量绘图工具:polarG函数使用详解
- 实现Vue.js中PDF文件的签名显示功能
- 开源项目PSPSolver:资源约束调度问题求解器库
- 探索vwru系统:大众的虚拟现实招聘平台
- 深入理解cJSON:案例与源文件解析
- 多边形扩展算法在MATLAB中的应用与实现
- 用React类组件创建迷你待办事项列表指南
- Python库setuptools-58.5.3助力高效开发
- fmfiles工具:在MATLAB中查找丢失文件并列出错误
- 老枪二级域名系统PHP源码简易版发布
- 探索DOSGUI开源库:C/C++图形界面开发新篇章
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功