没有合适的资源?快使用搜索试试~ 我知道了~
1基于3D模拟-对比学习的邓宇*1、2杨蛟龙2陈冬2方文2童昕21清华大学2微软亚洲研究院{t-yudeng,jiaoyan,doch,fangwen,xtong}@ microsoft.com{zi}生成的图像姿势表达式照明偏航:+15° 俯仰:+5°偏航:-15°俯仰-5°微笑扬眉右照明左照明随机语料库图1:本文提出了一种人脸图像合成方法,该方法生成具有身份,表情,姿势和照明等独立潜在变量的虚拟人的真实人脸图像。潜在空间是可解释的并且高度解纠缠的,这允许精确控制目标图像(例如,每个姿势角度的度数、照明强度和方向),如顶行所示。最下面一行显示了当我们保持身份并随机化其他属性时生成的图像。由我们的方法生成的面孔不是世界上任何真实的人。摘要我们提出了一种虚拟人的人脸图像生成方法,该方法具有解纠缠,精确可控的潜在表示,用于不存在的人的身份,表情,姿势和照明。我们将3D先验知识嵌入到对抗学习中,并训练网络来模拟分析3D人脸变形和渲染过程的图像形成。为了解决真实人脸和渲染人脸之间的域差距所引起的生成自由度问题,我们进一步引入了对比学习,通过比较生成的图像对来促进解纠缠实验结果表明,通过模仿-对比学习,可以很好地解决人脸生成过程中各因素的变化,并且可以精确地控制生成人脸的属性。我们还分析了学习的潜在空间,并提出了几个有意义的属性支持因素的解开。我们的方法也可以用来嵌入真实图像到解开的潜在空间。我们希望我们的方法可以提供新的理解之间的关系的物理性质和深度图像合成。*这项工作是在邓宇在MSRA实习时完成的1. 介绍在过去的几年里,随着生成对抗网络(GANs)的快速发展,人脸图像合成取得了巨大的成功[14]。最先进的GAN模型,如最近的StyleGAN [23],可以生成高保真的虚拟人脸图像,有时甚至很难与真实人脸区分开来。与致力于提高图像生成质量和为各种应用定制GAN的大量工作相比,重新合成具有表征人脸图像不同属性的多个解纠缠潜在空间的人脸图像仍然没有得到很好的研究。这种解纠缠的潜在表示对于受约束的面部图像生成(例如,具有特定照明或姿态的随机身份它还可以通过将真实图像嵌入到学习的特征空间中来导出真实图像的解纠缠表示。用于解纠缠图像生成的开创性GAN研究是InfoGAN [6],其中通过最大化潜在变量和观察之间的互信息以非监督方式学习表示解纠缠然而,在这方面,5154~5155已经表明,在没有任何先验或弱监督的情况下,不能保证每个潜在变量包含语义上有意义的变化因子[30,7]。在本文中,我们研究合成的虚拟人的人脸图像为了获得前四个变量的可预测可控性,我们通过训练一组变分自激励器(VAE)将它们转化为参数模型的系数。我们将来自3D可变形人脸模型(3DMM)的先验知识[4,33]和分析渲染过程纳入对抗学习。引入一组模仿损失,强制生成器模仿可解释的图像绘制过程,从而生成由潜变量表征的人脸属性然而,真实人脸和渲染人脸之间的域间隙产生了某种不可控的生成自由度,导致因子变化的不满意解纠缠。为了处理这种生成自由度并增强解纠缠,我们进一步提出了用于训练的对比损失的集合我们比较生成的图像对和惩罚的外观差异,只引起一组相同的潜变量之间共享的每对。这样,生成器被迫表达每个潜在变量对最终输出的独立影响我们表明,这些对比损失是至关重要的,以实现完整的潜变量解纠缠。我们在本文中使用的模型是基于Style- GAN结构[23],尽管我们的方法也可以扩展到其他GAN模型。我们修改了StyleGAN的潜在代码层,并为其配备了新的损失函数进行训练。 我们表明,潜变量可以高度解开,并可以准确地控制生成与StyleGAN类似,我们的方法生成的人脸我们进一步分析了学习的StyleGAN潜在空间,并发现了一些有意义的属性支持因子去纠缠。我们的方法可以用来嵌入真实图像到解开的潜在空间,我们证明了这与各种实验。本文的贡献可以概括如下。我们提出了一种新的解纠缠表示学习计划从头人脸图像生成通过模仿对比范例利用3D先验。我们的方法能够精确控制目标面部特性,如姿势,表情和照明,实现灵活和高质量的面部图像生成,据我们所知,不能通过任何以前的方法实现 此 外 , 我 们 提 供 了 几 个 分 析 , 以 了 解 解 纠 缠StyleGAN潜在空间的属性。最后,我们证明了我们的方法可以用来投影真实图像到解纠缠的潜在空间进行分析和分解。2. 相关工作我们简要回顾了文献上的解纠缠表示学习和人脸图像合成如下。分解表征学习。人脸图像的非纠缠表征学习(DRL)在过去已经得到了生动的研究。历史上的尝试是基于简单的双线性模型[46],限制玻尔兹曼机[10,39]等。InfoGAN [6]是一个开创性的GAN研究。然而,众所周知,InfoGAN存在训练不稳定性[48],并且不能保证每个潜在变量在语义上都有意义[30,7]。InfoGAN-CR[29]引入了一个额外的方法来识别遍历下的潜在代码SD-GAN [11]应用了一种基于图像对的方法来解开身份和外观因素。最近,HoloGAN [32]使用3D卷积和刚性特征变换将3D姿态和身份与无监督学习进行了近年来,DRL伴VAE也受到了广泛关注[26,48,18,5,25]。用于人脸合成的条件GAN。 CGAN [31]已广泛用于人脸图像合成任务,特别是身份保持生成[47,2,51,3,42]。在典型的CGAN框架中,到生成器的输入包括随机噪声以及一些预设的条件因素(例如,分类标签或特征)作为约束,并且应用辅助分类器/特征提取器来从生成器输出恢复条件因子。它不提供条件因素的生成建模后来,我们表明,我们的方法可以适用于各种人脸生成任务处理以前与CGAN框架。使用GAN嵌入和编辑人脸图像。 GAN在人脸图像处理中得到了大量使用[34,19,49,44,36,45,53]。这些方法通常共享编码器-解码器/生成器-解码器范例,其中编码器将图像嵌入到表征不同面部属性的解开的潜在表示中。我们的方法也可以应用于嵌入人脸图像到我们的disentangled潜空间,因为我们将在实验中显示。GAN的3D先验。 已经提出了许多方法将3D先验知识结合到GAN中用于面部图像合成[51,43,24,8,12,35,13,32]。他们中的大多数都使用3DMM。例如,[24]利用从输入图像中提取的3DMM[12]和[35]在循环fash中转换渲染的3DMM面部和真实面部图像。[24]从3DMM面部生成视频帧,用于面部重新动画。请注意,与这些方法不同的是,我们在模仿对比学习的训练阶段只使用3DMM作为先验。在训练之后,面部生成过程不需要3DMM模型或任何渲染过程。5156我图2:我们的方法概述。左图(绿色)显示了生成管道,其余部分说明了我们的训练方案,其中包含三种类型的损失:对抗性损失、模仿性损失和对比性损失。3. 方法给定一组真实人脸图像Y,我们的目标是训练一个网络G,该网络G从随机噪声z中生成真实人脸图像x,随机噪声z由多个独立变量zi∈RNi组成,每个变量都遵循正态分布。第我们考虑五个独立因素的潜在变量-参数:身份、表情、照明、姿势和考虑其他属性(如背景)的随机噪声。在标准GAN中,应用一个CNOID来与G进行比较。 为了获得解纠缠和可解释的潜在空间,我们将3D先验知识纳入模仿对比学习方案(图1)。(2)描述如下。3.1. 模仿学习为了学习如何根据所需的属性生成人脸图像,我们结合了3DMM模型[33]并训练生成器来模仿渲染的3D人脸。利用3DMM,面部的3D形状S和纹理T被参数化为我们可以很容易地通过一个良好建立的解析图像形成[4]获得一个渲染的面。为了能够模仿,我们首先将z-空间桥接到λ-空间。我们通过在从真实图像集Y中提取的λ样本上训练VAE模型来实现这一点。更具体地说,我们使用[9]到ob的3D人脸重建网络。得到所有训练图像的系数,并分别训练α、β、γ和θ的四个在训练之后,我们丢弃VAE编码器并保留解码器,表示为Vi,i= 1,2,3,4,用于z空间到λ空间的映射。在我们的GAN训练中,我们对z = [z1,. . .,z5]从标准正态分布,将其映射到λ,并将λ馈送到生成器G和渲染器两者,以获得生成的面X和渲染的面X,相对于V。请注意,我们可以将z或λ输入G-在实践中,我们观察到这两个使用λ的好处是易于控制面属性,因为λ是可解释的。我们在x上定义以下损失函数用于模仿学习。首先,我们强制x模仿x的恒等式,S=S<$+BidαsT=T<$+Btαt+Bexpβ(一)通过感知lid(x)=max(1−fid(x),fid(x)>−τ,0),(2)其中S<$和T<$是平均面形和纹理,Bid、Bexp和Bt分别是同一性、表达和纹理的PCA基,αs、β和αt是对应的-.计算3DMM系数向量。 我们将α= [αs,αt]表示为:身份承载系数我们用球谐函数(SH)[38]参数近似场景照明-由系数向量γ表示。面部姿势被定义为三个ro-其中,fid(·)是来自面部识别网络的深度身份特征,<·,·,表示余弦相似性,并且τ是我们根据经验设置为0的恒定裕度。3 .第三章。以来在绘制的3DMM人脸和真实人脸之间存在明显的域差距,我们允许特征之间存在微小的差异本文使用[50]中的人脸识别网络进行深度身份特征提取。 对于expres-zz2z2'z3z3'z1z2z3z4z5V{i}V1V2V3V4真实数据生成渲染GenerationGenerationGenerationαβγθεG对抗性损失对比损失模拟损失5157我定位角1表示为矢量θ。 其中λ= [α,β,γ,θ],和姿势,我们通过以下方式惩罚面部标志性差异:1我们对齐图像以取消平移。llm(x)=p(x)−p2,(3)~~~~~~5158我我CC其中,p(·)表示由3D人脸重建网络检测到的特征点位置,并且p(·)是平凡地获得的渲染人脸的特征点为了照明,我们简单地最小化SH系数差异,lsh(x)=|γ(x)−γ|第1、(4)条其中,γ(·)表示由3D面部重建网络提供的系数g,并且γf是xf的系数。最后,我们添加一个简单的损失,它强制输出为������ ′���通过以下方式模拟渲染面部的肤色������′经向波纹管差异lcl(x)=|c(x)−c(x)|第1条,第(5)项其中c(·)表示由3DMM中的掩模定义的面区域的平均颜色通过使用这些模仿损失,生成器将学习生成面部图像,身份、表情、姿势和照明由相应的潜变量表征Domain Gap的问题。显然,在渲染的3DMM面和生成的3DMM面之间存在不可避免的域间隙。理解这种领域差距的影响并明智地处理它是很重要的。一方面,保留合理大的合法域间隙是必要的,因为它避免了与对抗性损失的冲突,并确保生成图像的真实性。它还防止生成建模被困在3DMM模型2的小恒等子空间中。然而,另一方面,它可能导致不良的因素变化解缠(例如,改变表情可能导致身份和图像背景的不想要的变化,并且改变照明可能干扰表情和毛发结构;见图3和图6)。为了理解为什么会发生这种情况,我们首先将生成的面x与其渲染的对应面x之 间 的 差 异 符 号 化 为x,即, x=x+x。 在模仿学习中,x可以在某些身份特征和面部区域之外的其他图像内容(例如,背景、头发和眼镜)。作为一个结果,Reflux有一定程度的自由是不可控制的。我们通过对比学习来解决这个问题,下面将介绍。3.2. 对比学习为了加强解纠缠,我们以对比的方式强制图像生成的潜在表示的不变性:我们改变一个潜在变量,同时保持其它变量不变,并且强制所生成的面部图像上的差异仅与该潜在变量相关。图3:我们对比学习中的图像扭曲过程的图示。为了能够进行这样的比较,我们需要找到一个函数φk(G(z)),它尽可能对zk不变,但对zi在这项工作中,我们实现了两个简单的功能,人脸图像。第一个是设计用于表达式不变比较。我们的想法是为x和x′恢复一个中性表达式,以实现比较。然而,高保真表情去除本身是一个具有挑战性的问题,在基于GAN的人脸图像处理中仍在积极研究[37,13]。为了解决这个问题,我们求助于渲染的3DMM面,以获得用于图像扭曲的代理流场。这样的流场可以通过修改表情系数并且用中性表情渲染另一个3DMM面部来平凡地获得实际上,不需要同时翘曲x和x′。 我们可以简单地从x′到x′产生流场v,并相应地将x弯曲到x′(见图2)。3为例)。然后,我们通过以下方式最小化图像色差:le x(x,x′)=|x(v)−x′|其中x(v)是扭曲图像。其次,我们设计了两个照明不变的损失,对比学习由于整个图像中的像素颜色会受到光照变化的影响,因此我们简单地强制语义结构保持静态。我们通过最小化x和x′的面结构之间的差异来实现这一点:lil1(x,x′)=m(x)−m(x′)<$2+ω<$p(x)−p(x′)<$2,(7)其中m(·)是从面部解析网络[28]获得的毛发分割概率图,p(·)表示与等式(1)中相同的界标位置3,ω是一个平衡重量.我们还通过以下方式应用深度身份特征丢失:具体地,我们对不同的潜在代码对z,z′进行采样,lil2(x,x′)=1−。(八)只在ZK并且共享相同的zi,我们比较了CID id生成面部图像x,x′,然后惩罚由zi但zk中的任何一个引起的差异。2我们在本文中使用的3DMM来自[33],它是通过200人的扫描构建的。5159在本文中,使用上述关于表情和照明的对比学习损失可以导致令人满意的解纠缠(我们发现,姿态变化可以很好地解纠缠,而不需要另一对比损失)。5160图4:由我们的训练模型生成的人脸图像。如图所示,身份、表情、姿势和照明的变化高度分离,我们可以精确地控制表情、照明和姿势。对比学习的效果。根据3.1节中的讨论,对于两个只在一个因素(如表情)上(且完全)不同的渲染面x和x′,Xxx和Xxx′具有某些不可控制的自由变量。因此,要完全摆脱模仿学习的纠缠是很困难的,甚至是不可能的。对比学习是模仿学习的重要补充:它通过显式地学习x和x ′之间的期望差来对xx和x′施加适当的约束,从而导致增强的解纠缠。我们的经验发现,对比学习也导致更好的模仿和更准确的面部属性控制。这是因为成对比较还可以抑制模仿噪声:X和X′之间或X′和X′之 间的 姿态 或 表达 式的任何未对准将导致较大的对比度损失。4. 实验实作详细数据。在本文中,我们采用Style- GAN结构[23]和FFHQ数据集[23]进行训练。我们按照[7]的时间表训练λ空间VAE,其中 VAE的编码器和解码器都是具有三个隐藏层的MLP对于StyleGAN,我们遵循原始方法的标准训练过程,除了我们1)删除输入潜变量层的归一化操作,2)放弃风格混合策略,以及3)训练到由于时间限制,图像分辨率为256×256。我们首先用[23]中的对抗性损失训练网络,我们的模仿损失,直到看到15M的真实图像,以获得合理的模仿。然后,我们在训练过程中添加对比度损失,并训练网络总共看到20M真实图像。更多的培训细节可以在suppl. 材料随机恒等式目标照明目标姿势目标表达其他随机因素其他随机因素其他随机因素其他随机因素5161我们的不带I的我们的没有信用我们的参考图5:基于参考的生成结果,其中我们提取真实图像的表情、照明和姿势属性,并将它们与随机生成的身份相结合。4.1. 生成结果图4展示了我们的模型在训练后生成的一些图像样本。可以看出,我们的方法能够随机生成具有不同姿态、光照和面部表情的大量身份的高保真面部图像。更重要的是,身份,表情,姿势和照明的变化是高度分离的–此外,我们可以精确地控制表情,照明和姿势使用参数模型系数为他们每个人。精确控制发电的另一个例子在图中给出。1.一、图5显示,我们可以通过模仿真实参考图像的属性来生成新身份的图像We achieve this by extracting theexpression, lighting,andposeparametersfromthereference image and combine them with random identityvariables for generation.4.2. 消融研究在本节中,我们用不同的损失来训练模型,以验证我们的模仿对比学习方案的有效性一些典型的结果如图所示。六、显然,网络无法生成合理的人脸图像,图6:训练损失的消融研究。顶部和底部两行分别显示了当我们改变照明和表情的潜在变量时的结果。表1:解缠结评分以及世代质量的比较。退纠缠↑品质↓DSα DSβDSγDSθFIDPPL3DMM-271-Ladv+l′s我+l′sC0.83一点九八0.870.075.4910613.437.040.431.69.151027.85八十点四48936.712.91234.3. 定量评价在本节中,我们评估我们的模型的性能定量对于前者,在基于VAE的解纠缠表示学习中已经提出了几个度量,例如因子得分[25]和互信息间隙[5]。然而,这些指标不适合我们的情况。在这里,我们为我们的方法设计了一个简单的度量,称为解缠分数(DS),描述如下。我们的目标是测量当我们只改变一个单一因素的潜在变量时,如果生成的图像上的其他因素是稳定的。我们将四个λ-空间变量α,β,γ,θ记为u i,并使用u{j}作为简写如果我们去掉模仿的损失, 这是因为变量集{uj} 的 符 号|j=1,. -是的-是的,4,ji}。到对比损失依赖于合理的模仿,在这些情况下,它们的意义较低,并且网络带宽将不可预测。另一方面,如果没有对比损失,不同因素的变化就不能完全解开。例如,表情和照明变化可能会影响某些身份相关的特征和一些其他属性,如头发结构。对比损失还可以提高模仿的所需精确度(例如,参见最后一行中的嘴闭合状态),从而导致更精确的发电控制。为了测量ui的解纠缠分数,我们首先随机地生成1 K组u{j},对于每个u{j},我们随机生成10个ui。因此,我们可以使用具有ui和u{j}的组合的训练网络生成10 K个图像。对于这些图像,我们使用3D重建网络[9]重新估计ui和u{j}(对于身份,我们使用面部识别网络[50]来提取深层身份特征)。我们计算每个1K组的估计值的方差,然后对它们进行平均以获得σui和σuj。我们通过对方差进行划分,进一步对σui和σuj进行归一化身份参考5162在FFHQ上计算的相应变量的值。最后,我们通过以下方式测量解纠缠分数:σu表2:W空间中变化方向的余弦相似性。顶部:将因子从固定开始更改为固定结束。底部:更改具有固定偏移的因子。DSui i=i,j/i =i,i(9)σuj身份表达灯光造型l adv0.65 ± 0.10 0.21±0.110.16 ± 0.120.17± 0.11。高DS表示当改变某个因子时仅所生成的图像中的相应属性改变(σ ui >0)而其他因素保持不变(σuj →0)。表1显示模仿学习导致到高因子解缠和对比学习-ing进一步增强了它的表达,照明和姿势。同一性的解缠分数随着对比学习而降低我们发现,当身份发生变化时,网络的三维重建结果略有不稳定,这增加了其他因素的方差。为了评估图像生成的质量,我们遵循[23]分别使用50K和100K随机生成的图像计算Fre' chet起始距离(FID)[17]和感知路径长度(PPL)[23表1显示FID随我们的方法而增加。这是预期的额外损失增加到对抗列车-我们0.96±0.020.82±0.04 0.85±0.03 0.87±0.03身份表达照明构成Ladv0.42±0.140.21±0.120.16±0.120.15±0.11我们0.82±0.060.79±0.050.85±0.040.85±0.04来表示当ui从a变到b时W空间的变化方向。的以下两个属性a,b)是可观测的:物业1. 对于第i个变量ui,i∈1,2,3,4,具有任意给定的起始值a和结束值b,我们有:∆ˆw(i,a,b)isalmostconstantfor∀u{j}.物业2. 对于第i个变量u i,i∈ 1,2,3,4,给定偏移矢量△,我们有:不可避免地会影响生成式建模。然而,在这方面,我们发现PPL与仅使用对抗性损失训练的结果相当。对于φu,φw(i,a,a+△)几乎是常数{j}和阿瓜。5. 隐空间分析与嵌入在本节中,我们分析了用我们的方法训练的GAN的潜在空间。我们给出了支持因子变分去纠缠的一些有意义的性质,并在此基础上进一步提出了一种在去纠缠的潜空间中嵌入和处理真实人脸图像5.1. 潜空间StyleGAN的一个关键成分是从z空间到W空间的映射,后者与控制“样式”的AdaIN [22以前的研究[41,1]表明,W-空间中的某些导致生成图像.在我们的例子中,W空间是从λ空间映射而来的,λ空间自然与图像属性相关。因此,我们通过改变λ变量来分析学习的W-空间中的变化方向,并且一些有趣的性质具有我们将介绍这些属性,然后提供强有力的经验证据来支持它们。回想一下,生成器的输入是λ-空间变量α,β,γ,θ和附加噪声ε。这里我们将这五个变量表示为ui,其中u5=ε。我们使用u{j}作为短-对于可变集合{uj} 的 手 写 符 号 |j=1,. -是的-是的,j,j=i},并且w(u i,u{j})表示从u i和u{j}映射的W空间变量。 我们进一步表示一个单位向量属性1声明,如果如果λ空间中的某个因子是固定的,则W空间中的变化方向是稳定的,而不管所有其他因子的选择如何。属性2进一步表明,不需要固定起始值和结束值W空间的变化量只取决于它们之间的差异。为了从经验上检验性质1,我们对每个ui随机抽取50对(a,b)值,并对每对抽取100个对于每个(a,b)对,我们计算100w=w2−w1,得到100×100的成对余弦距离。 我们对每个(a,b)对的所有距离取平均值,最后计算来自所有50对的50个平均距离值的平均值和标准偏差Similarly, we examine Property 2 by randomlygenerating offsets for ui, and all the results are presentedin Table 2. 可以看出所有的余弦相似度都接近于1,表明W空间方向变化的高度一致性。作为参考,在表中,我们还列出了使用相同管道训练的模型获得的统计数据,但没有我们的模仿对比损失。5.2. 真实图像的嵌入与编辑基于上述分析,我们表明,我们的方法可以用来嵌入真实图像到潜在的空间和编辑的因素在一个解开的方式。我们提出了各种因素的实验结果由于篇幅所限,更多的结果可以在补充资料w(i,a,b)=w(ui=a,u{j})−w(ui=b,u{j})w(ui=a,u{j})−w(ui=b,u{j})(十)用于图像嵌入和编辑的自然潜在空间是λ空间。然而,将图像嵌入其中会导致5163S输入+15 °输入+5 °输入输入-5°输入-15°输入PIMTP-GANDR-GAN钱学森我们参考OursZhouetal.SfSNetLietal.GT输入图7:真实图像姿态操作结果。上图:精确的姿态角控制. 下图:与PIM [52]、TP-GAN [21]、DR-GAN [47]、Hassner等人相比的面部额部化结果。”[16],张云飞等。[37]第三十七话其他方法的结果来自[37]。图像重建不佳。即使反转到W空间也是有问题的-为了获得更高的保真度,我们将图像在[1]提出的W+空间(扩展的W空间)中,将其转换为潜码W+使用类似于[1]的基于优化的嵌入方法。然而,W或W+空间不是几何上可解释的,因此不能被分解。直接用于可控发电。幸运的是,由于学习的W空间的良好属性(见5.1节),我们有以下潜在表示编辑和图像生成方法:w+=G−1(x)图8:真实图像重新照明结果。上图:为真实图像进行灯光编辑。下图:与Zhou等人相比,具有挑战性的照明转移任务的结果。[53],SfSNet [40],and Liet al. [27]第10段。其他方法的结果来自[53]。LFW数据集[20]。我们的方法很好地保留了身份承载特征以及其他上下文信息,如头发结构和照明。图像重亮。图8(顶部)显示了使用我们的方法重新照亮图像的示例,其中我们自由地改变照明方向和强度。此外,我们遵循先前的方法来评估我们在Mul-tiPIE [15]图像上的方法。图8(底部)示出了照明转移的挑战性情况。尽管极端的室内照明可能在训练数据之外,但我们的方法仍然产生合理的结果,照明方向与参考一致。6. 结论和未来工作我们提出了一种新的方法,解开和可控的潜在表示的人脸图像生成。s syns(十一)其核心思想是将3D先验知识融入到广告中-xt=Gsyn(w++w(i,a,b))其中xs是输入图像,xt是编辑后的目标图像G syn是StyleGAN的合成子网络(在8层MLP之后)。w(i,a,b)表示通过将第i个λ空间潜变量u i从a改变到b而引起的w的偏移(参见等式第10段)。它可以用任何u{j}来计算(我们简单地使用嵌入的)。编辑可以通过灵活设置a和b来实现。姿势编辑。图7(顶部)显示了姿势操作的典型结果,其中我们将输入面自由旋转所需的角度。我们还测试了我们的方法与人脸额化的任务图7(底部)显示了来自sarial学习框架,并训练网络模仿渲染的3D人脸。通过引入对比损失,明确地加强解纠缠,适当地处理了渲染面和真实图像之间的畴隙的影响。大量的实验disentangled虚拟人脸图像合成和人脸图像嵌入证明了我们提出的模仿对比学习计划的有效性。所生成的具有精确控制属性的虚拟身份人脸图像可以用于广泛的视觉和图形应用,我们将在未来的工作中探索。它也可以应用我们的方法伪造图像检测和反欺骗通过分析真正的和伪造的图像在解纠缠空间。输入偏航间距前后自下而上的左右5164引用[1] Rameen Abdal,Yipeng Qin,and Peter Wonka.图像-年龄2风格:如何将图像嵌入到潜空间中?在IEEE计算机视觉国际会议上,第4432-4441页,2019年。七、八[2] Jianmin Bao,Dong Chen,Fang Wen,Houqiang Li,and Gang Hua.CVAE-GAN:通过非对称训练生成细粒度图像。在IEEE计算机视觉国际会议上,第2745-2754页,2017年。2[3] Jianmin Bao,Dong Chen,Fang Wen,Houqiang Li,and Gang Hua.面向开集身份保持的人脸合成。在IEEE计算机视觉和模式识别会议上,第6713-6722页,2018年。2[4] Volker Blanz,Thomas Vetter,et al.三维人脸合成的可变形模型。在SIGGRAPH,第99卷,第187-194页,1999中。二、三[5] Tian Qi Chen,Xuechen Li,Roger B Grosse,and DavidK Duvenaud.分离变量自动编码器中的解纠缠源。神经信息处理系统的进展,第2610-2620页,2018年二、六[6] Xi Chen,Yan Duan,Rein Houthooft,John Schulman,Ilya Sutskever,and Pieter Abbeel.InfoGAN:通过信息最大化生成式对抗网络进行可解释的表示学习神经信息处理系统的进展,第2172-2180页,2016年一、二[7] Bin Dai和David Wipf。诊断和增强可重构模型。arXiv预印本arXiv:1903.05789,2019。二、五[8] Jiankang Deng,Shiyang Cheng,Niannan Xue,YuxiangZhou,and Stefanos Zafeiriou. UV-GAN:用于姿态不变人脸识别的对抗性面部UV映射完成。在IEEE计算机视觉和模式识别会议上,第7093-7102页,2018年。2[9] Yu Deng,Jiaolong Yang,Sicheng Xu,Dong Chen,Yunde Jia,and Xin Tong.基于弱监督学习的精确3D人脸重建:从单张图像到图像集。在IEEE计算机视觉和模式识别研讨会上,面部和手势的分析和建模,2019年。三、六[10] Guillaume Desjardins , Aaron Courville , and YoshuaBengio. 通 过 生 成 纠缠 解 开 变 异 因 素 。 arXiv预 印 本arXiv:1210.5474,2012。2[11] Chris Donahue、Zachary C Lipton、Akshay Balsubramani和Julian McAuley。生成对抗网络的潜在空间语义分解。在2018年国际学习代表会议上。2[12] Baris Gecer ,Binod Bhattarai, Josef Kittler, and Tae-Kyun Kim.半监督对抗学习从3d变形模型生成新身份的真实感人脸图像。在欧洲计算机视觉会议上,第217-234页,2018年。2[13] Zhenglin Geng,Chen Cao,and Sergey Tulyakov. 3d引导的精细面部操作。在IEEE计算机视觉和模式识别会议上,第9821- 9830页,2019年。二、四[14] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。InAdvances in神经信息处理系统,第2672-2680页,2014年。1[15] Ralph Gross 、 Iain Matthews 、 Jeffrey Cohn 、 TakeoKanade和Simon Baker。多派图像和视觉计算,第807-813页,2010年。8[16] Tal Hassner、Shai Harel、Eran Paz和Roee Enbar。无约束图像中的有效人脸正面化。在IEEE计算机视觉和模式识别会议上,第4295-4304页8[17] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。神经信息处理系统进展,第6626-6637页,2017年。7[18] Irina Higgins 、 Loic Matthey 、 Arka Pal 、 ChristopherBurgess 、 Xavier Glorot 、 Matthew Botvinick 、 ShakirMohamed和Alexander Lerchner。β-VAE:使用约束变分框架学习基本视觉在2017年国际学习代表会议上。2[19] QiyangHu,AttilaSzabo',TizianoPortenier,PaoloFavaro,and Matthias Zwicker.通过混合来分解变异因素。在IEEE计算机视觉和模式识别会议上,第3399-3407页,2018年。2[20] Gary B Huang,Marwan Mattar,Tamara Berg,and EricLearned-Miller.在野外贴上标签的脸:研究无约束环境中人脸识别的数据库。2008. 8[21] 睿煌、张舒、李天宇、冉河。 超越面旋转:用于真实感和身份保持正面视图合成的全局和局部感知。在IEEE国际计算机视觉会议上,第24398[22] Xun Huang和Serge Belongie。 任意风格转换 以自适应实例规范化实时执行。在IEEE计算机视觉国际会议上,第1501- 1510页,2017年。7[23] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构,用于生成对抗网络。在IEEE计算机视觉和模式识别会议上,第4401-4410页,2019年。一、二、五、七[24] Hyeongwoo Kim , Pablo Carrido , Ayush Tewari ,WeipengXu , JustusThies , MatthiasNiessner ,PatrickPe'rez,Christian Richardt,MichaelZoll h? fe r和ChristianTheobalt。深度视频肖像。ACM Transactions onGraphics,37(4):163,2018。2[25] Hyunjik Kim和Andriy Mnih。通过因子分解法解开。2018年国际机器学习会议。二、六[26] Tejas D Kulkarni , William F Whitney , PushmeetKohli,and Josh Tenenbaum.深度卷积逆图形网络。神经信息处理系统进展,第2539-2547页,2015年。2[27] Yijun Li , Ming-Yu Liu , Xuting Li , Ming-HsuanYang,and Jan Kautz.一个封闭形式的解决方案的照片真 实 感 图 像 风 格 化 。 在 欧 洲 计 算 机 视 觉 会 议(ECCV),第453-468页,2018年。8[28] 林金鹏、杨浩、陈东、曾明、方文、陆远。使用ROItanh-翘曲的人脸解析。在IEEE5165计算机视觉和模式识别会议,第5654-5663页,2019年。4[29] Zinan Lin,Kiran Koshy Thekumparampil,Giulia Fanti,and Sewoong Oh. Infogan-cr:用对比正则化器解开生成对抗网络。arXiv预印本arXiv:1906.06034,2019。2[30] Francesco Locatello 、 Stefan Bauer 、 Mario Lucic 、GunnarRaetsch、Syl vainGelly、BernhardScho¨ lk opf和Olivier Bachem。挑战非监督学习中的常见假设。国际机器学习会议,第97卷,第4114-4124页,2019年。2[31] Mehdi Mirza和Simon Osindero条件生成对抗网。arXiv预印本arXiv:1411.1784,2014。2[32] Thu Nguyen-Phuoc,Chuan Li,Lucas Theis,ChristianRichardt,and Yong-Liang Yang. HoloGAN:从自然图像中进行3D表示的无监督学习。在IEEE计算机视觉和模式识别会议,2019。2[33] Pascal Paysan、Reinhard Knothe、Brian Amberg、SamiRomdhani和Thomas Vetter。一种用于姿态和光照不变人 脸 识 别 的 三 维 人 脸 模 型 。 在 IEEE InternationalConferenceonAdvancedVideoandSignalBasedSurveillance,第296-301页,2009年。二、三、四[34] Guim Perarnau、Joost Van de Weijer、Bogdan Raducanu和Jose M.阿尔瓦雷斯用于图像编辑的可逆条件gans。在神经信息处理系统的进步对抗训练研讨会,2016年。2[35] Piao Jingtan,Chen Qian,and Hongsheng Li.端到端保形域转移的半监督单目3d人脸重建。在IEEE计算机视觉国际会议上,第9398-9407页,2019年。2[36] Albert Pumarola、Antonio Agudo、Aleix M Martinez、AlbertoSanfeliu和FrancescMoreno-Noguer。Ganimation:从单个图像中获得解剖感知面部动画欧洲计算机视觉会议,第818-833页,2018年。2[37] Yichen Qian,Xiaodeng,and Jiani Hu.无监督的人脸归一化与极端的姿势和表情在野外。在IEEE计算机视觉和模式识别会议
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功