没有合适的资源?快使用搜索试试~ 我知道了~
1从人脸的周期一致性学习人脸表征国立阳明交通大学,台湾新竹{followwar.cs00g,yschen,walon} @ nctu.edu.tw摘要面孔在许多方面表现出很大的变化,例如身份、表情、姿势和面部造型。因此,从人脸图像中分离和提取这些特征是一个巨大的挑战,特别是以无监督的方式。在这项工作中,我们引入了周期一致性的面部特征作为自由监督信号,学习面部表征从未标记的面部图像。通过叠加面部运动周期一致性和身份周期一致性约束来实现学习。面部运动周期一致性的主要思想是,给定具有表情的面部,我们可以通过去除面部运动来对中性面部执行去表情,并且进一步执行重新表情以重建回原始面部。身份循环一致性的主要思想是通过特征重规范化来剥夺给定的中性面孔的身份,从而将身份去除为中性面孔,以及通过向中性面孔添加个人属性来将身份重新识别为中性面孔。在训练时,我们的模型学习解开两个不同的面部表示,以用于执行周期一致的面部重建。在测试时,我们使用的线性协议计划评估,在各种任务,包括面部表情识别和头部姿态回归的面部表征我们还可以直接将学习到的面部表示应用于个人识别,额化和图像到图像的翻译。我 们 的 实 验 表 明 , 我 们 的 方 法 的 结 果 代 码 可 在https://github.com/JiaRenChang/FaceCycle网站。1. 介绍人脸感知对人类至关重要,在计算机视觉领域也是必不可少的。人类和猴子的神经影像学研究[13,15,43]揭示了面部感知中他们的研究结果表明面的循环一致性脸中性面部平均面部去表达去同一化exp再表达id再认同图1.我们提出了一个基于循环一致性的无监督框架我们定义,所有的变化之间的脸和它的相应的中性脸相同的身份作为表达。类似地,中性面和全局平均面之间的所有变化被定义为iden。乳房输入的脸被网络依次剥夺了表情(Rexp)和身份(Rid)的表示,分别成为中性脸和平均脸,它们可以被转换以相反的顺序返回到原始面大脑区域。随着近年来深度学习的复兴,计算机视觉研究领域遵循这一思路,并朝着将面部特征分解为分离的低维潜在表示的方向发展,例如身份[40],表情[45,48],形状/外观[35,44],内在图像[36],以及细粒度属性(年龄,性别,戴眼镜等)[34]。已经提出了几种监督方法,通过在预先指定的面部表示(包括地标[47]、动作单元[32]或面部属性[27])上调节生成模型来特别地,这些方法能够在保持身份的同时操纵面部。其他研究将头部姿势信息纳入到稳健的身份[40]/表情[48]识别的姿势不变表示中。此外,提供中性面部,去表情残留学习[45]可以促进模型学习身份不变的表情表示以执行面部表情识别。用于面部形状建模的3D可变形模型(3DMM)[2,4]最广泛使用的3DMM形式是,面部形状S是平均形状S¯和身份和表达向量这些面部特征是在不同的(zid,zexp):S=S¯+Aidzid+Aexpzexp,其中Aid和96809681exp分别是恒等式和表达式PCA基。Jiang等[20]介绍了一种变分自动编码器方法,用于在3DMM框架中学习表达式网格和身份网格的潜在表示。然而,他们为身份和表情表征的解开提供了强有力的监督,包括表情,身份和平均脸的形状网格的地面真理[20]。很难在不给出任何基础事实的情况下将这样的除了上述主要基于监督学习的工作之外,最近一些研究开始利用无监督学习框架来解开面部特征[26,41,42,44]。这些方法集中于提取面部特征的一部分。例如,FAb-Net [41]学习编码姿势和表情信息的表示,[26,41]引入框架来学习动作单元检测的表示,Zhang等人。[49]提出一种自动编码器来定位面部标志。一些无监督方法[35,44]试图分离人脸图像的两个独立表示然而,这些无监督的方法只能解决人脸图像的一部分信息,而不能研究更一般的人脸生成过程,即同时解决表情和身份表征的问题,以获得更广泛的应用。在本文中,我们提出了一种新的框架,能够同时解开表达和身份表示,从二维人脸图像在无监督的方式,纳。特别地,在我们提出的方法中的表情因子的定义包含任意的人脸图像和其对应的中性的相同的身份,包括面部表情和头部姿势之间的所有变化而对于身份因子,我们定义它包含中性脸和全局平均脸之间的所有变化,包括面部身份和其他特定于主题的特征,如发型,年龄,性别,胡须,眼镜等。基于这些定义,我们提出了两个新的周期一致性约束来驱动我们的模型学习,如图1所示。第一个循环一致性约束源于动作单元[9]的思想,其中头部姿势和面部表情是面部肌肉的组合和协调动作的结果因此,头部姿势和表情可以被视为中性面部和任何相同身份的面部之间的光流[28]。为此,解码器被训练以学习输入面的光流场而没有真实中性面。这是通过应用所提出的被称为面部运动周期一致性的思想来实现的,该思想能够执行去表达和重新表达操作两者。第二个循环一致性约束源自Eigenfaces [38],其中面部图像由下式表示:将特征脸的线性组合添加到平均脸,这表明脸身份嵌入在特征脸的线性组合中。我们没有将身份表示为中性面部图像相对于平均面部的残差[38],而是将身份的添加和剥夺建模为重正化过程,类似于前馈式转移任务[18]。为此,解码器被训练以学习没有地面真实均值脸的重正化特征。这是通过应用所提出的称为身份周期一致性的想法来实现的,该想法能够执行身份剥夺作为去身份和身份样式作为重新身份。我们工作的主要贡献概述如下:• 我们提出了一个新的框架,从一个单一的面部图像的面部表示的无监督学习,ING,基于面部运动周期一致性和身份周期一致性的新思想。• 通过我们提出的方法获得的解开的表情和身份特征可以容易地用于各种下游任务,例如面部表情识别、头部姿势回归、人识别、正面化和图像到图像的翻译。• 我们证明,在不同的下游任务的学习表示的性能是有竞争力的国家的最先进的方法。2. 人脸表征的无监督学习如前所述,在本文中,我们的目标是从一个单一的面部图像的身份和表情表示。我们提出的方法主要基于以下重要假设:从高级视角来看,面部图像F可以分解如下:F=F¯+id+exp=F¯+exp,(1)其中F¯是所有面之间共享的全局平均面id和exp分别是身份和表达因子,F是由id指定的特定身份的中性面。因此,我们提出的模型是训练学习表情和身份表示,分别表示为Rexp和Rid,用于指示面部图像的面部特征。我们引入了四个基于循环一致性的过程来学习这些表示,如图1所示:• 去表达 我们将去表情定义为从输入面部图像F中移除R exp,其中我们可以相应地获得中性面部F。9682转WL·FWBW解纠缠去表达再表达去身份化图2.提出的模型的总体架构 E exp和E id被训练以分别提取表达式和身份表示。通过使用我们的无监督解缠方法。 通过探索解纠缠的表示,网络D flow、D exp、MLP和D id被训练以生成表示恢复的图像、中性面F¨和平均面F¨,并且重构添加了表示的图像、输入面F′和中性面F¨′。请注意,所提出的方法需要两个图像来训练模型为描述在SEC。2.2和2.4,为了简单起见,我们在这里只显示单个图像转发• 再表达重新表达被定义为将Rexp分配给中性面F,以便用表达式F’重建面。• 去身份化我们将去恒等式定义为从输入中性面F¨中移除R id以获得平均面F¨的操作。• 重新认同重新恒等式被定义为根据R i d从平均面F′重新转换中性面F ′的过程。如图2所示,我们提出的模型的整体架构由两个编码器(Eexp和Eid)和两个解码器(Dexp,Did)组成,所述两个编码器分别用于提取表达和身份表示,所述两个解码器用于学习上述四个过程的非线性映射函数在下文中,我们详细介绍了所提出的无监督学习方法来理清表达和身份表示。2.1. 表达表示我们开始介绍面部运动周期-一致性在下文中。我们表示表情表示Rexp由编码器Eexp从输入面部图像F学习:Rexp=Eexp(F)。(二)如前一节中描述的思想,我们将面部表情建模为中性面部和具有表情的面部因此,对于-ward(F→F)光流场flowfw∈R2×H×W,后壁(FF)根据流fw的光流场fl〇 wbw,其基本上是通过扭曲函数W的反向流fw:流量fw=D流量(Rexp),流 量 bw=− W ( 流 量 fw , 流 量 fw ) 。(三)我们使用双线性插值来实现翘曲操作,如[39]所示。通过使用前向光流场流fw,我们可以逐像素地扭曲F以获得内部中间faci al图像,表示为F~。通过使用因此,通过计算对应的后向光流场流bw,我们能够从F~返回以重构F。本程序直接导致重构损失流,其定义为:L流量=|F− W(W(F,流量)、流量)|.(四)此外,我们利用一般图像特征提取来表示人脸图像,即从在Ima-geNet上预训练的VGG 19网络的层conv 2 1和conv 3 1获得的粗到细特征映射featF[37]。给定一个前向流场流fw,我们简单地用双线性插值函数ds()得到大小等于特征F的ds(流fw)。然后通过首先用ds(流fw)扭曲featF并且然后采用解码器Dexp来生成中性面部来实现去表达图像F:F=Dex p(W(fea tF,ds(flo wf w)。(5)进一步证明了一个神经元的图像特征f∈F∈(?)其中H和W是输入图像的高度和宽度,由解码器D流从表达式表示学习。此外,根据众所周知的前向-后向流一致性[1,19],我们可以计算由VGG19获得的标准面可以经由下采样后向流ds(流bw)被扭曲回来,并且然后被馈送到解码器Dexp中,以用于重建具有表示为F’的表达式的面,该表达简体中文expFWNeutr alface���重建���′exp流VGG19expVGG19exp输入ididVGG19idVGG19idMe an faceReconstru ted���neutr al face′���MLPreMLPde逆潮流Adain经纱Adain经纱9683式理想地应当与对应的表达式相同9684G·不L不FFTW去表达再表达(a) 面部运动周期一致性���联系我们���2去同一化���联系���′′1嗯嗯1一个阿基德1一个不变性嗯嗯2二个���22IDID���′′2(b) 恒等循环一致性图3.(a)用于学习表情表征的面部运动周期一致性和(b)用于学习身份表征的身份周期一致性的图示。原始面F。这个过程就是重新表达:′′BWΣll(F)−l(F′′)2+Σl G(l(F))−G(l(F′′))2。·F=Dexp(W(featF,ds(flow)。(六)2.2. 面部运动周期一致性:学习表达式表示的不变性由面部运动引起的面部图像F上的变化可以用空间图像变换T来表示,其中我们表示具有不同运动但与FT相同的同一性的对应面部图像。由于F和FT具有相同的恒等式,因此它们对应的中性面也应该相同。也就是说,它们在执行去表达之后的解码的中性面彼此不变,这导致约束:F=FT.(七)遵循这种不变性的概念,我们应该能够对feat应用重新表达操作(fea-函数l()从层1提取VGG19特征,conv2 1、conv3 1和conv4 1层是在这里使用。函数()计算特征图的Gram矩阵。2.3. 身份表示在身份表示R_id方面,我们利用编码器E_id从输入面部图像F中提取R_id:Rid=Eid(F)。(九)基于前面所描述的想法,我们认为,身份表征可以从中性的脸被剥夺,以获得平均的脸。为了实现去同一性操作,我们设计了一个解码器D_id来生成均值来自调制VGG的 faceF¯的特征是中性点的featFfaceF,这类似于特征调制的思想的已解码中性面的纹理FTFT)通过下-AdaIN论文中提出的想法[18]:F的采样后向流ds(流bw) (关于ThefeatF的表达式’’F)以重建表示为C=D(Fσ(featF)F σm+µm),(10)F=Dexp(W(feat,ds(flowbw),理想情况下为FTF其中µ(·)和σ(·)用于计算平均值和标准值。与原始F非常相似,因为假设标准偏差分别,µm和σm从featF=featFT如F=FT。类似的故事适用于 BW由多层感知器MLPde:通过ds(流FT)对featF?执行再表示以再表示构造F′′=Dexp((feat,ds(flowbw),它几乎与FT相同。 这种不变性的图示,也称为面部运动周期一致性,如图2所示。图3(a).µm,σm= MLP de(Rid)。(十一)此外,可以以类似的方式实现重新标识,但是相反地,利用解码器D_id:从不变性导出的重建(即F=D(featF´−µ(featF´)σid+µid),(12)F′′对F和F′′对FT)建立目标IDσ(featF¯)exp,用于学习表达式表示Rexp,其中我们利用L1损失和感知损失[11,21]来评估重建的误差:������’’简体中简体中文不变性简体中简体中文���������’’9685’’不其中µid和σid也是从Rid学习的,但是由另一个多层感知器MLPre学习。L exp(F,FT)=|F − F|FT − FT|FT− FT|(八)2.4. 恒等循环一致性:不变性学习身份表征+λ(Φ(F,F′′)+Φ(FT,F′′)),其中λ被设置为0。05来平衡L1和感知损失。感知损失被定义为Φ(F,F′′)=我们假设,平均脸是全球所有的脸。换句话说,无论从任何恒等式的哪个神经面出发,我们都应该始终获得相同的’’968612×个LL¨¨2第11章21--1个2个进行反身份操作后的平均脸给定不同恒等式的中性面F?1和F?2,我们可以将与恒等式相关的不变性定义为:F¯1=F¯2(十三)因此,我们应该能够通过使用其对应的{µid,σid}来应用重新标识操作3.1. 培训程序第2.2节中描述的面部运动周期一致性涉及具有不同表情/姿态但具有相同身份的面部的图像对。幸运的是,这种类型的数据可以很容易地从人脸的视频记录中获得,例如,采访或脱口秀的视频,这些视频现在广泛存在于互联网上。11·给定每帧的在从F2获得的平均面上。这种重构的结果表示为F’:儿子,我们可以很容易地获得一对面部图像显示不同的表情。因此,我们可以利用F=Did(fea tF¯2−µ(fea tF¯2)σid+µi d)。(十四)σ(featF¯2)并且收集训练数据以用于在无监督训练中学习表达和身份表示两者。同样,类似的故事也适用于对从F?1获得的平均面执行重新恒等运算(使用µi d,σid)以重新构造F?2。We表示重构结果为F’:方式数据集。所 提出的模型在组合上训练-ˆ′′featF¯−µ(featF¯)id idVoxCeleb1 [29]和VoxCeleb2 [5]数据集的国家D=D(1σ(featF¯1)1 σ2+µ2)。(十五)这两个数据集都是建立在访谈视频上的。VoxCeleb 1总共有153,516个视频剪辑的1,251讲-图3(b)中示出了与身份表示相关的这种不变性的图示,也称为身份循环一致性作为定义Lexp的方式,重构解riv edfromthei variance(即,versusF1andFVoxCeleb 2拥有145,569个视频剪辑,5,994个扬声器。以6fps提取视频帧,裁剪以使面部显示在帧的中心,然后重新调整大小为64 × 64的分辨率。我们采用VoxCeleb2测试数据集来可视化我们的中间结果。相对于12解缠结过程。F2)导致用于学习身份表示Rid的目标id:Li d(F1,F2)=|F1−F|+的|F2−F|+ λ(Φ(F1,F′)+ Φ(F2,F′)).(十六)阶段性培训程序。我们介绍了一个阶段明智的训练过程,我们的模型学习。有两个主要阶段用于顺序地训练1个2个所提出的模型,为了解开的表达此外,我们另外引入边际损失m来约束平均面:Lm(F¯,F¨)=max(F¯−F¨−α,0),(17)这里我们设α=0。1在所有实验中。这种边际损失背后的主要动机是,我们希望将平均面和中性面之间的差异限制在边际之内。否则,所获得的平均面部可能潜在地变成远离面部图像的任意图像3. 实验我们报告了在VoxCeleb1 [29]和VoxCeleb2 [5]组合上从头开始训练的模型的实验结果。在若干任务上评估训练的表示,包括面部表情识别、头部姿势回归、人物识别、正面化和图像到图像翻译。通过各种实验,我们表明,所获得的表示推广到一系列的面部图像处理任务。9687L--LLLL和身份表征。– 第一阶段:Eexp、Dflow和Dexp为了训练与去表达和重新表达部分相关的子网络,如图2中所示的绿色阴影组件,利用flow和exp的目标来更新Eexp、Dflow、Dexp。使用exp所需的变换T可以简单地通过具有水平翻转(即,FT是F的水平翻转版本)或从不同帧中取任意一对面部(即,同一人在视频中的不同时间示出我们在补充材料中提供了– 阶段2:训练Eid、Did、MLPre和MLPde为了训练与去标识和重新标识部分相关的子网络,如图2中所示的橙色阴影部分,应用id和m的目标来更新所有这些子网络。实施详情。我们提出的模型基于PyTorch框架实现,并使用Adam 优化器(β1=0)进行训练。5,且β2=0。999)。该批次9688×个×个对于所有训练阶段,大小被设置为32。初始学习率在阶段1中为0.00005,在阶段2中为0.0001阶段1和阶段2分别被训练40和20个时期。学习速率在总时期的一半处降低10倍。此外,两个表示编码器(即Eexp和Eid)采用相同的网络架构,其是16层CNN。我们利用VGG-19[37]对于一般特征提取(在图2中表示为VGG 19组件),其中VGG-19编码的面部特征可以进一步通过我们的解码器(即Dexp或Did)以生成新的面部图像。补充资料中详细介绍了模型体系结构。基线。我们采用以下基线来对所提取的面部特征的质量和代表性进行评估和比较– HoG描述符[6]: 我们遵循与面向前向流中性面部逆潮流平均面部重建面部在[23]中,首先将面部图像重新缩放为100 × 100的大小,然后为每个图像提取3,240维的HoG特征。– LBP描述符[30]:类似于HoG描述符,我们遵循与[ 23 ]中相同的设置,以从被调整大小为100 100的每个面部图像中提取1,450维LBP特征向量。– MoCo [16]:我们采用最先进的自监督表示学习方法MoCo作为我们进行比较的强大我们遵循MoCo算法来基于与我们相同的训练数据集(即: VoxCelebl和VoxCeleb2)。训练使用SGD优化器运行40个epoch,批大小为128,动量为0.999,负键为65,536。– 自我监督学习的面部表征:利用三种最先进的面部表征学习的自我监督框架[24,26,41]与我们的工作进行比较。我们直接采用其作者正式发布的模型(这些模型都是在Voxceleb数据集上预训练的)来实验表情分类和头部姿势回归的下游任务。请注意,我们对它们的学习特征应用线性协议以进行公平比较。3.2. 模型的中间结果图4示出了从我们的模型获得的中间结果的几个示例,包括输入面、前向流场、中性面、后向流场、平均面以及从它们的中性面重建的面。我们证明,该方法可以处理人脸图像的姿态变化很大,可以保留面部属性,如戴眼镜或胡子。面部运动流的可视化呈现头部运动和面部肌肉的运动。相比之下,中性面部被剥夺了面部运动图4.模型中间结果的可视化输入图像来自VoxCeleb2数据集的测试集[5]。从左到右,列顺序地示出了输入面、前向流场、中性面、后向流场、平均面以及从相应的中性面重建的面。他们的原始面部图像。此外,从不同的输入图像中获得的平均人脸几乎彼此相同,这符合我们的身份不变性的假设。3.3. 表达式表示给定训练好的模型,我们通过评估其在表情识别和头部姿态回归上的应用性能来研究学习的表情表示目标是验证表情表示是否成功地将与面部运动和姿势相关的信息编码为我们的定义(即,表情因子包含面部图像与其对应的相同身份的中性面部之间的所有变化,包括面部运动和头部姿势)。我们进行线性协议的评估计划,以证明我们的方法的有效性。3.3.1表情识别在表情识别的实验中使用了两个数据集,即FER-2013[12]和RAF-DB [23]。FER- 2013数据集[12]由28,709张训练图像和3,589张测试图像组成请注意,对于RAF-DB数据集,我们遵循[23]的实验设置,以特别使用RAF-DB的基本情感子集,其包括12,271个训练图像和3,068个测试图像。对于linear-protocol的评估方案,为了直接验证表达式fea-9689方法偏航间距辊Mae完全监督FSN [50]67.6081.10ALT [10]69.8584.50线性分类协议LBP37.8952.17生猪45.4763.53FAb-Net [41]46.9866.72TCAE [24]45.0565.32[ 26 ]第二十六47.6158.86Moco47.2468.32我们48.7671.01表1.基于FER-2013数据集[12]和RAF-DB数据集[23]对表达分类任务的评估。通过不同模型提取的表情,我们在冻结的表情表示上构建线性分类器以执行表情识别,如[16]中所述。我们遵循与[16]相同的过程来训练线性层(作为分类器)300个epoch,其中学习率从30开始,每80个epoch减少10倍。分类器由SGD优化器以交叉熵目标和256批大小来训练表1中所示的定量结果表明,从我们提出的方法中提取的表达表示能够提供相对于所有基线的优异性能。这些结果表明,我们所提出的方法可以用作表情识别的借口任务,其中面部表情的丰富信息以自我监督的方式很好地学习。3.3.2头部姿势我们的定义表明,头部姿势的信息也将被编码到表情表征。显然,使用所提出的方法计算的流场不仅包含局部面部运动,而且还包含全局头部运动,这表明我们的表情表示也可以用于头部姿态回归任务。我们分别采用300 W-LP [33]数据集和AFLW 2000 [52]数据集作为训练集和测试集,用于实验头部姿势回归。对于线性协议的评估方案,我们在冻结的表达表示Eexp的顶部构造线性回归器。对于具有SGD优化器和批大小设置为16的线性协议,训练运行300个时期如表2所示,对于线性方案评估方案,基于我们的表达表示的回归因子在平均绝对误差(MAE)方面达到12.47,优于所有基线。这些结果证明了我们所提出的方法的有效性,以及捕捉头部姿势信息到表情完全监督风扇[3]6.3612.38.719.12FSA-Net [46]5.276.715.285.75线性回归方案[22]第二十二话23.1013.6010.5015.80LBP23.5814.8616.3618.27生猪13.9413.1714.9214.00FAb-Net [41]13.9213.2514.5113.89TCAE [24]21.7514.5714.8317.39[ 26 ]第二十六22.0613.5015.1416.90Moco28.4916.2915.5520.11我们11.7012.7612.9412.47表2.头部姿态回归任务的评价,其中MAE代表平均绝对误差。表示。3.4. 评估标识表示我们还研究了身份表示的应用程序良好的个人识别性能表明,我们的身份表示包含丰富的信息有关的身份。3.4.1人物识别在这项工作中,我们采用LFW [17]和CPLFW [51]数据集来评估个人识别,特别是个人验证。LFW数据集由来自5,749个身份的13,233张人脸图像组成CPLFW数据集类似于LFW,但包括更大的头部姿势变化。我们通过使用编码器Eid直接从两个数据集中提取人脸对中所有图像的身份表示,然后计算每对人脸图像的身份表示之间的余弦相似度。请注意,基线的特征(即LBP、HoG和MoCo)也直接应用于执行验证,以进行公平比较。如表3所示,我们的身份表示可以在LFW上实现73.72%的准确性,这优于无监督的最先进方法[7]。3.5. 前沿化正面化是合成单个面部图像的正面视图的过程。在这项工作中,有两种方法可以获得正面视图中的中性面部:去表达和重新认同。去表情操作从人脸图像中去除头部运动和面部表情,从而生成正面视图的中性人脸另一方面,重新身份操作通过将身份添加到均值来恢复中性面孔FER-2013RAF-DB方法准确度(%)准确度(%)9690X2Face我们X2Face我们LFWCPLFW方法准确度(%)准确度(%)完全监督VGG-Face [31]98.9584.00[25]第二十五话99.4281.40ArcFace [8]99.5392.08无监督或手工制作的功能VGG [7]71.48-LBP56.9051.50生猪62.7351.73Moco65.8855.12我们73.7258.52表3.基于LFW [17]和CPLFW [51]数据集的人识别任务评估我们比较了最先进的方法在监督和无监督类别的性能。目标源输入图像(一)(b)第(1)款图5.正面化来自(a)所提出的方法和(b)[14]中的方法。这些结果清楚地表明,通过使用我们的方法,具有各种姿态的面部图像的正面化的能力。已经在正面视图中的面。如图5(a)所示,所提出的方法能够通过去表情操作从具有各种姿态的面部图像合成输入图像来自LFW数据集[17],在我们的模型训练期间从未见过。我们还在图5(b)中显示了一种最先进的方法,该方法还使用面部标志[14]进行定性比较。我们注意到所提出的方法合成的图像有点模糊,我们假设这可能是由Vox-celeb数据集中大量模糊的训练图像引起的我们相信,通过使用其他高质量的数据集可以获得进一步的改进。3.6. Image-to-Image Translation所提出的模型可以自然地用于执行图像到图像的翻译,通过将源图像的面部运动转换成目标图像。为此,我们简单地计算并且然后应用源图像的后向流场以经由重新表达操作来扭曲目标图像的中性面部如图6所示,图6.与X2Face [42]基线相比,所提出的方法在图像到图像转换上的示例结果。X2Face在执行大姿态转移时显示伪影。注意,所提出的方法不包括对抗性训练以解开面部运动并提高图像质量。我们的方法可以将头部姿势和表情从源转移到目标,而没有明显的伪像。另一方面,X2Face方法[42]的结果在源和目标之间的姿态差异较大时显示可见的伪影。4. 结论在这项工作中,我们提出了新的周期一致性约束,从一个单一的面部图像,即面部运动的周期一致性和身份的周期一致性的身份和表情表示的解开。所提出的模型可以通过叠加所提出的循环一致性约束以无监督的方式进行训练。我们在多个数据集上进行了广泛的定性和定量评估,以证明我们提出的方法在学习解开的面部表情上的有效性这些表示包含丰富且不同的身份和表情信息,并且可以用于促进各种应用,诸如面部表情识别、头部姿势估计、人识别、正面化和图像到图像的翻译。谢 谢 。本 项目 由MOST 108-2221-E-009-066-MY 3、MOST 110-2636-E-009-001、和MOST 110-2634-F-009-018。我们感谢国家高性能计算中心提供的计算服务和设施。9691引用[1] Michael J Black和Paul Anandan。多个运动的鲁棒估计:参数和分段光滑流场。计算机视觉与图像理解,63(1):75三个[2] Volker Blanz,Thomas Vetter,et al.三维人脸合成的可变形模型。ACMTransactions on Graphics(TOG),1999年。一个[3] Adrian Bulat和Georgios Tzimiropoulos我们离解决二维和三维人脸对齐问题还有多远?(and 230,000个3D面部标 志 的 数 据 集 ) 。 在 IEEE 国 际 计 算 机 视 觉 会 议(ICCV),2017年。七个[4] Baptiste Chu,Sami Romdhani,and Liming Chen.对表情和姿态变化鲁棒的3d辅助人脸识别。在IEEE计算机视觉和模式识别会议中,2014年。一个[5] J. S. Chung,A.Nagrani和A.齐瑟曼。Voxceleb2:深度说话人识别。在INTERSPEECH,2018年。五、六[6] Navneet Dalal和Bill Triggs。用于人体检测的定向梯度的直方图IEEE计算机视觉与模式识别会议(CVPR),2005年。六个[7] Samyak Datta、Gaurav Sharma和CV Jawahar。人脸表征的无监督学习IEEEInternational Conference on AutomaticFace Gesture Recognition(FG),2018。七、八[8] 邓健康,贾国,薛念南,Stefanos Zafeiriou。Arcface:用于深度人脸识别的附加角度余量损失。在IEEE计算机视觉和模式识别会议(CVPR),2019。八个[9] Paul Ekman和Wallace V Friesen。 面部动作编码系统:调查员指南。咨询心理学家出版社,1978年。二个[10] Corneliu Florea 、 Laura Florea 、 Mihai-Sorin Badea 、Constantin Vertan和Andrei Racoviteanu。用于人脸表情识别的退火标签转移。英国机器视觉会议(BMVC),2019年。七个[11] Leon A Gatys,Alexander S Ecker,and Matthias Bethge.使用卷积神经网络的图像风格转换。在IEEE计算机视觉和模式识别会议,2016年。四个[12] IanJ Goodfellow,Dumitru Erhan,Pierre Luc Carrier,Aaron Courville , Mehdi Mirza , Ben Hamner , WillCukierski , Yichuan Tang , David Thaler , Dong-HyunLee,et al.表征学习的挑战:关于三个机器学习竞赛的报告。2013年神经信息处理国际会议。六、七[13] Michael E Hasselmo ,Edmund T Rolls,and Gordon CBaylis.表达和身份在猴颞叶视皮层神经元面孔选择反应中的作用。行为大脑研究,1989年。一个[14] Tal Hassner、Shai Harel、Eran Paz和Roee Enbar。无约束图像中的有效人脸正面化在IEEE计算机视觉和模式识别会议(CVPR),2015年。八个[15] James V Haxby , Elizabeth A Hoffman , and M IdaGobbini.用于人脸感知的分布式人类神经系统。认知科学趋势,2000年。一个[16] Kaiming He,Haoqi Fan,Yuxin Wu,Saining Xie,andRoss Girshick.用于无监督视觉表示学习的动量对比IEEE计算机视觉和模式识别会议(CVPR),2020。六、七[17] 加里湾Huang,Manu Ramesh,Tamara Berg,and ErikLearned-Miller.在野外贴上标签的脸:研究无约束环境下人脸识别的数据库。技术报告,马萨诸塞大学,阿默斯特,2007年。七、八[18] Xun Huang和Serge Belongie。实时任意样式传输,具有自适 应实 例规范 化。 在IEEE国际 计算 机视觉 会议(ICCV),2017年。二、四[19] Junhwa Hur和Stefan Roth。Mirrorflow:在联合光流和遮挡估计中利用对称性。IEEEInternational Conferenceon Computer Vision(ICCV),2017年。三个[20] Zi-Hang Jiang , Qianyi Wu , Keyu Chen , and JuyongZhang.三维人脸形状的解纠缠表示学习。在IEEE计算机视觉和模式识别会议,2019年。二个[21] 贾斯汀·约翰逊,亚历山大·阿拉希,李飞飞。实时风格转换和超分辨率的感知损失。在欧洲计算机视觉会议(ECCV)中,第694-711页施普林格,2016年。四个[22] 瓦希德·卡齐米和约瑟芬·沙利文用回归树的集合进行一毫秒在IEEE计算机视觉和模式识别会议(CVPR),2014年。七个[23] Shan Li,Wehong Deng,and Junping Du.可靠的众包和深度本地保留学习,用于野外表情识别。在IEEE计算机视觉和模式识别会议(CVPR),2017年。六、七[24] Yong Li,Jiabei Zeng,Shiguang Shan,and Xilin Chen.用于面部动作单元检测的视频自监督表示学习。在IEEE计算机视觉和模式识别会议,2019。六、七[25] 刘未央,温延东,余智定,李明,拉吉比丘,宋乐。Sphereface:用于人脸识别的深度超球面嵌入。在IEEE计算机视觉和模式识别会议(CVPR),2017。八个[26] Liupei Lu,Leili Tavabi,and Mohammad Soleymani.通过时间一致性进行面部动作单元识别的自监督学习英国机器视觉会议(BMVC),2020年。二六七[27] 吕永义、戴玉荣和唐志强。使用条件Cyclegan的属性引导的人脸生成。在欧洲计算机视觉会议(ECCV),2018年。一个[28] 真濑健二基于光流的人脸表情识别。IEICE Transactionson Information and Systems,1991. 二个[29] A.纳格拉尼Chung和A.齐瑟曼。Voxceleb:一个大规模说 话 人 识 别 数 据 集 。 在2017 年 国 际 语 音 通 信 协 会(INTERSPEECH)年会上。五个[30] Timo Ojala,Matti Pietikainen,和Topi Maenpaa.基于局部二值模式的多分辨率灰度和旋转不变纹理分类IEEETransactions on Pattern9692分析与机器智能(TPAMI),24(7):971六个[31] Omkar M Parkhi , Andrea Vedaldi , and AndrewZisserman.深度人脸识别。 2015. 八个[32] Albert Pumarola、Antonio Agudo、Aleix M Martinez、AlbertoSanfeliu和FrancescMoreno-Noguer。Ganimation:从单个图像中获得解剖感知面部动画在欧洲计算机视觉会议(ECCV),2018。1[33] Christos Sagonas 、 Georgios Tzimiropoulos 、 StefanosZafeiriou和Maja Pantic。300面临野外挑战:第一个面部地 标 定 位 挑 战 。 IEEEInternational Conference onComputer Vision Workshops,2013。七个[34] 沈伟和刘如杰。学习人脸属性操作的残差图像。在IEEE计算机视觉和模式识别会议(CVPR),2017。一个[35] Zhixin Shu , Mihir Sahasrabudhe , Riza Alp Guler ,Dimitris Samaras,Nikos Paragios,and Iasonas Kokkinos.变形自动编码器:形状和外观的无监督解开。在欧洲计算机视觉会议(ECCV),2018。一、二[36] Zhixin Shu , Ersin Yumer , Sunil Hadap , KalyanSunkavalli,Eli Shechtman,and Dimitris Samaras.具有内在图像解缠的神经人脸编辑。在IEEE计算机视觉和模式识别会议(CVPR),2017。一个[37] Karen Simonyan和Andrew Ziss
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功