没有合适的资源?快使用搜索试试~ 我知道了~
6142StyleRig:Rigging StyleGAN用于人像图像Ayush Tewari1 Mohamed Elgharib1 Gaurav Bharaj2 Florian Bernard1Hans-PeterSeidel1PatrickPe'rez3MichaelZoll höfer4ChristianTheobalt11MPI Informatics,萨尔信息学校区2彩色3Valeo.ai4斯坦福大学图1:StyleRig允许对StyleGAN生成的肖像图像进行类似面部rig的控制,方法是将3D面部网格上的语义编辑转换到StyleGAN的输入空间。摘要StyleGAN [18]生成具有眼睛,牙齿,头发和背景(颈部,肩膀,背景)的照片级逼真的肖像图像,但缺乏对3D中可解释的语义面部参数的类似钻机的控制,例如面部姿势,表情和场景照明。另一方面,三维可变形人脸模型(3DMM)[10]提供了对语义参数的控制,但在渲染时缺乏照片真实感,并且仅对面部内部建模,而不是肖像图像的其他部分(头发,嘴巴内部,背景)。我们提出了第一种方法,通过3DMM在预训练和固定的StyleGAN上提供类似面部钻机的RigNet是一种新的装配网络,在3DMM的语义参数和StyleGAN的输入之间进行训练。该网络以自我监督的方式进行训练,无需手动注释。在测试时,我们的方法生成por-trait图像与照片的StyleGAN,并提供了明确的控制的三维语义参数1. 介绍肖像人脸图像的真实感合成在包括特效、扩展现实、虚拟世界和下一代通信在内的多个领域中有在此类应用程序的内容创建过程中,艺术家可以控制面部装备需要照明。计算机视觉和图形学社区有着丰富的面部建模历史[21,25,26,31]。这些模型提供艺术家友好的控制(通常称为面部装备),同时导航可变形面部模型(3DMM)的各种参数[3,4]。这些方法通常受到缺乏训练数据的限制,更重要的是,在最终渲染中缺乏真实感通过3D人脸扫描技术,可以获得高质量的人脸几何数据集[5,21]。然而,从这些数据集导出的模型受到所扫描的人脸的多样性的约束,并且可能限制在丰富的人脸语义参数化集合上的泛化。此外,在野外数据上训练的基于深度学习的模型[31,32,35]也经常依赖于数据驱动的先验和从基于扫描的数据集获得的其他形式的正则化。关于照相现实主义,感知损失最近显示了面部建模质量的改善[9,35]超过现有方法。然而,它们仍然不会产生真实感的面部渲染。嘴巴内部、头发或眼睛,更不用说图像背景,通常不能通过这种方法建模。生成对抗网络(GANs)[14]最近实现了照片写实主义[15,17],特别是面部。Karras等人[17]表明,通过GAN生成器和训练器的逐步增长,可以更好地稳定和加速训练。当在CelebA-HQ [17]数据集上训练时,这会为面部产生显着的照片真实感。他们的方法还展示了如何从学习的GAN分布中采样不存在的人的真实面部图像在Karraset6143al. [17],StyleGAN [18]使用风格转移文献[12,29]中的思想,并提出了一种能够解开各种面部属性的架构。控制各种属性,包括粗(头发,几何),中(表情,面部毛发)和细(颜色分布,雀斑)属性的有希望的结果。然而,这些可控属性在语义上没有很好的定义,并且包含几个相似但纠缠的语义属性。例如,粗略和中等级别属性都包含面部身份信息。此外,粗层次包含几个纠缠的属性,如面部身份和头部姿势。我们提出了一种新的解决方案,使用面部的语义参数空间来装配StyleGAN。我们的方法带来了两全其美:现有可变形人脸模型的可控参数性质[26,31],以及生成人脸模型的高真实感[17,18]。我们采用固定的和预先训练的StyleGAN,不需要更多的数据进行训练。我们的重点是提供计算机图形风格的钻机一样的各种语义参数的控制。我们的新的训练过程是基于一个自我监督的双向循环一致性损失,这是授权的人脸重建网络与一个differentiable渲染器的组合。这使我们能够在图像域中测量光度再现误差,并获得高质量的我们展示了令人信服的结果,我们的方法,包括交互式控制的StyleGAN生成的图像以及图像合成条件下定义良好的se-mantic参数。2. 相关工作在下文中,我们将讨论用于图像合成的深度生成模型,重点关注面部,以及3D参数化面部模型。对于参数人脸模型及其可能应用的深入概述,我们参考最近的调查论文[10,39]。生成对抗网络(GAN)包含两个主要模块:一台发电机和一台发电机[14]。生成器将噪声向量作为输入并产生输出,并试图欺骗识别器,其目的是对输出是真还是假进行分类。当网络的输入是噪声向量时,输出是来自学习分布的样本。Karras等人[17]表明这样的噪声向量可以生成人脸的高分辨率照片级真实感图像。为了实现这一目标,他们采用了一种渐进的策略,通过在训练过程中添加更多的层来慢慢增加生成器和递归函数的大小。这使得训练阶段更加稳定,进而有助于学 习 高 分 辨 率 的 人 脸 图 像 。 与 Karras 等 人 相 比 ,StyleGAN [18]可以合成高度真实感的图像,同时允许对输出进行更多控制。[17 ]第10段。然而,StyleGAN仍然遭受语义不同属性的明显纠缠。因此,它不提供对图像合成过程的语义和可解释的控制。探索用于图像编辑的GAN的潜在空间最近在Jahanian等人中进行了探索。[16 ]第10段。它们只能实现简单的转换,例如缩放和2D转换,因为它们在训练期间需要用于每个转换的地面实况图像对于人脸,已经在控制GAN合成的图像方面做出了共同的努力[1,30],但它们缺乏对生成模型的明确的rig式3D控制。Isola等人[15]使用条件GAN来产生图像到图像的翻译。这里,输入不是噪声向量,而是来自源域的条件图像,其由生成器转换到目标域。然而,他们的方法需要成对的训练数据。CycleGAN[38]和UNIT [22]学习仅使用使用循环一致性损失的未配对数据执行图像到图像的转换Gaugan [24]展示了基于空间自适应归一化的交互式语义图像GANs实现的卓越品质激发了几种用于人脸[10,39]和其他对象[8,23,36]的神经渲染应用程序的开发。3D可变形模型3D可变形模型(3DMM)通常用于表示面部[3,4]。在这里,人脸由身份几何、表情、皮肤反射和场景照明参数化表达式通常使用混合变形建模,而照明通常通过球面谐波参数建模[33]。这些模型是从人的3D扫描中学习的[5,21],或者最近从野外互联网镜头中学习的[31]。3DMM的参数性质允许导航和探索似然面部的空间,例如,在几何学、实验等等方面。因此,可以基于不同的参数配置来渲染合成图像然而,渲染的图像通常看起来是合成的,缺乏照片真实感。最近,神经渲染已被用于弥合合成计算机图形渲染和相应的真实版本之间的差距[19,34]。已经提出了几种方法来将人脸模型拟合到图像[7,11,13,20,25,26,28,31,32,33,35]。然而,我们的工作集中在基于学习的方法上,这些方法可以分为仅重建技术[20,25,26,28,33]和重建技术。构建加模型学习[31,32,35]。 MOFA [33]使用CNN将面部投影到3DMM空间中,然后使用可微分渲染器来合成重建的面部。该网络是在大量人脸图像的基础上以自我监督的方式进行训练的。Tran等人[35]使用感知损失来增强重建的渲染RingNet [26]和FML [31]施加多图像一致性损失以增强身份相似性。RingNet还在不同人的图片之间强制执行身份差异。有几种方法可以重建6144通过在大规模合成数据上训练3DMM的参数[20,25,28]。有关所有技术的更全面概述,请参阅[10,39]。3. 概述StyleGAN [18]可以被视为将潜在代码w∈Rl映射到人脸的真实肖像图像Iw=StyleGAN(w)∈R3×w ×h虽然生成的图像具有非常高的质量和高分辨率(w=h=1024),则对所生成的输出(诸如头部姿势、表情或照明)没有语义控制。StyleRig允许我们在语义和可解释的控制参数方面对StyleGAN生成的面部图像进行类似于钻机的控制(八)。在下文中,我们解释语义控制空间(Sec.4),训练数据(Sec.5)、网络架构(Sec.损失函数(Loss Function)(七).4. 语义装备参数我们的方法使用参数化的人脸模型来实现基于一组语义控制参数的StyleGAN生成的图像的显式Rig-like控制。 控制参数是p =(α,β, δ,γ,R,t)∈Rf的子集,它描述了面部形状α∈R80,皮肤反射率β∈R80,面部表情δ∈R64,场景照明γ∈R27 ,头部旋转R∈SO(3),平移t∈R3,其中p的维数为f=257。我们定义了面部形状α和皮肤反射率的控制空间β使用两个低维仿射模型,这些模型是通过基于200(100名男性,100名女性)人脸扫描的主成分分析(PCA)计算的[4]。该模型的输出由具有53k个顶点和每个顶点颜色信息的三角形网格表示。表达式δ的控制空间由一个附加的仿射模型给出,该模型捕获了表达式依赖的顶点位移。我们通过将PCA应用于一组已转移到形状和反射率模型的拓扑结构的blendshapes [2,6]形状、外观和表情的仿射模型覆盖了原始数据集中99%以上的方差照明γ基于每个颜色通道的三个球谐带建模,导致额外的27个参数。空间,它是Style- GAN中映射网络的输出,因为它已经被证明是更无纠缠的[1,18]。这里,在不同的分辨率下使用大小为512的18个潜在向量每个训练样本是通过组合多达5个单独采样的潜在向量生成的,类似于Karras等人的混合正则化器。[18 ]第10段。这使得我们的网络能够在不同的分辨率下独立地推理潜在向量给定这些(w,Iw)对,我们的方法可以以自监督的方式进行训练,而不需要任何额外的图像数据或手动注释。6. 网络架构给定对应于图像Iw的潜在代码w ∈ Rl,以及语义控制参数的向量p ∈ Rf,我们想要学习输出修改的潜在代码w∈=RigNet(w,p)的函数。修改后的潜在代码应该映射到到 获 得 控 制 参 数 p 的 修 改 后 的 面 图 像 Iw_n=StyleGAN(w_n)。 一个例子是改变图像中的面部的旋转使得其匹配给定的目标旋转,同时保持面部身份,表情和场景照明(见第二节)。8例)。我们为不同的控制模式训练单独的RigNet网络,即,姿势、表情和照明。RigNet基于线性两层感知器(MLP)实现我们提出了一种基于双向循环一致性损失和可区分人脸重建(DFR)网络的RigNet自监督训练。图2显示了我们架构的概述我们的网络结合了多个组件,以完成特定的任务。微分人脸重建一个关键组成部分是一个预先训练的微分人脸重建(DFR)网络。 该参数回归量是将潜在代码w映射到语义控制参数pw=F(w)的向量的函数F:Rl → Rf。在实践中,我们使用三层MLP对F进行建模,在每个中间阶段之后进行ELU激活。diate层,并以自我监督的方式对其进行训练这需要一个可微分的渲染层R:Rf→R3×w ×h,它将面部参数向量p作为输入,将其转换为3D网格并生成面部1的合成渲染Sw=R(pw)。然后我们使用重新渲染损失来训练FLrender(Iw,p)=Lphoto(Iw,p)+λlandLland(Iw,p)。 (1)第一项是密集的光度对准损失:¨。 ΣΣ¨25.训练语料库Lphoto(Iw,p)=?M(Iw− Rp)2.除了参数化的人脸模型,我们的方法需要一组人脸图像Iw及其相应的潜码w作为训练数据。 为此,我们采样N = 200k潜在代码w∈Rl,并生成相应的真实感在这里,M是一个二进制掩码,其中渲染面部网格的所有像素都设置为1,而M是逐元素乘法。我们还使用稀疏地标损失¨ ¨2Lland(Iw,p)=<$LIw −LM<$2,人脸图像Iw=StyleGAN(w)使用预训练的Style-GAN网络。 我们使用l=18×512维潜1我们使用基于点的网格顶点渲染。6145W图2:StyleRig基于学习的rigger网络(RigNet)对StyleGAN生成的面部图像进行类似于rigg的控制。为此,我们采用了一种基于可微分人脸重建(DFR)和神经人脸渲染器(StyleGAN)的自监督训练方法DFR和StyleGAN网络是预训练的,它们的权重是固定的,只有RigNet是可训练的。我们定义的一致性和编辑损失的图像域使用可微渲染。图3:可微分人脸重建。可视化的是(图像,重建)对。然而,网络只获得与图像对应的潜在向量作为输入。66×2,其中LIE∈R是图像Iw上的66个自动计算的界标[27],并且LM是渲染的重建面部上的对应界标位置。的在训练之前手动标注网格上的界标顶点λland是用于平衡损失项的固定权重。此外,我们还对人脸模型的参数进行了统计正则化,就像MoFA中所做的那样[33 ]第33段。训练后,F的权重是固定的。图3给出了DFR重建的一些结果RigNet编码器编码器将特征向量w作为输入,并将其线性转换为大小为18×32的低维向量l。大小为512的w的每个子向量wi被独立地变换为大小为32的子向量li,对于所有i ∈ {0,. - 是的- 是的 ,17}。RigNet Decoder解码器将l和输入控制参数p转换为输出w。类似于en-对于所有i∈ {0,. . .,17}。 最终输出计算如下:w=d+w。7. 自我监督训练我们的目标是训练RigNet,以便我们可以将参数的子集注入到给定的潜在代码w中。例如,我们可能想注入一个新的头部姿势,同时保持从w合成的原始图像中的面部身份,表情和照明。我们使用以下损失函数进行训练:Ltotal=Lrec+Ledit+Lconsist 。(二)它由重建损失Lrec、编辑损失Ledit和一致性损失Lconsist组成。由于我们没有所需修改的基础事实(仅限我们的训练语料库每个人包含一个图像),我们采用基于周期一致性编辑和一致性损失的自我监督我们基于AdaDelta [37]优化Ltotal,学习率的0。01.在下文中,我们提供详细信息。重建损失我们希望设计RigNet,使其在训练语料库中重现潜在代码。对于- mally,我们希望RigNet(w,F(w))=w。我们用以下的102-loss来执行这个:编码器,我们对每个L1使用独立的线性解码器。每个?2Layer首先将L1和P连接起来,并将其变换为D1,Lrec=<$RigNet(w,F(w))− w<$2.6146图4:不同分辨率下潜在向量的变化。粗略矢量负责旋转(左),中等矢量负责表达式(中),中等和精细矢量负责照明(右)。该约束将学习到的映射锚定在潜在空间中的正确位置。如果没有这个约束,学习映射是欠约束的,这会导致图像质量下降(参见第2节)。(八)。由于F是预先训练的,并且没有更新,因此控制空间的语义被强制执行。给定两个潜在代码w和v以及对应的图像Iw和Iv,我们在训练期间将v的语义参数转移到w。我们首先使用可微人脸重建网络提取目标参数向量pv= F(v)。接下来,我们将pv的参数的子集(我们想要修改的参数) 注入到潜 在代 码 w 中以产 生新的潜 在代 码w=RigNet(w,pv),使得Iw=StyleGA N(wi )(理想地)对应于根据pv的参数的子集修改的图像Iw。例如,w可以保留w的面部身份、表情和场景照明,但应该执行pv中指定的头部旋转。由于我们没有这种修改的基础事实,即, 如果图像I是未知的,则我们基于周期一致的编辑丢失来实施监督。 编辑损失强制潜在代码w包含修改的参数。我们通过从潜在空间映射到参数空间p∈=F(w∈ )来实现这一点。回归的参数p应具有与pv的旋转相同。 我们可以直接在参数空间中,但这已被证明不是非常有效[33]。我们在实验中还观察到,最小化参数空间中的损失不会导致期望的结果,因为图像空间中不同参数的感知效果可能非常不同。相反,我们采用了类似于用于可微人脸重建的重渲染损失。我们取原始目标参数向量pv,并将其旋转参数替换为从pv回归的旋转,从而得到pedit。我们现在可以使用重新渲染损失将其与Iv进行1):L edit =L render(Iv,p edit)。我们在这里不使用任何正则化项。这样的损失函数确保p编辑的旋转分量与Iv对齐,这是期望的输出。从p_v替换的p_v的分量取决于我们想要改变的性质它可以是姿势、表情或照明参数。除了编辑损失之外,我们还强制执行不应被所执行的编辑操作更改的参数的一致性。回归的参数p_n应具有与p_w相同的未修改参数。 与上述类似,我们将此作为重新渲染损失的条件。 我们取原始参数向量pw,用从pw中回归的参数替换所有不应修改的参数,从而得到pconsis t。在修改旋转值的情况下,不应更改的参数是表情、照明以及身份参数(形状和皮肤反射率)。这导致损失函数:L consist =L render(Iw,p consist)。由于我们已经在训练期间采样了两个潜在代码w和v,因此我们以相反的顺序执行相同的操作,即,除了把pv注入w,我们也把pw注入v。为此,我们使用一个具有两个共享权重的塔的连体网络。这导致双向循环一致性损失。8. 结果在测试时,StyleRig允许控制StyleGAN生成图像的姿势、表情和照明参数。我们用三个应用程序证明了我们方法的有效性:样式混合(8.1)、交互式装备控制(8.2)和条件图像生成(8.3)。6147图5:StyleGAN生成的源图像和目标图像之间的混合。对于StyleGAN,源样本(行)的潜在向量被复制到目标向量(列)。StyleRig允许我们混合语义上有意义的参数,即,头部姿势、表情和场景照明。这些参数可以从源图像复制到目标图像。8.1. 风格混合Karras等人[18]显示不同尺度下的StyleGAN向量,对应于不同的风格。为了演示风格混合,将某些分辨率的潜在向量从源图像复制到目标图像,并生成新图像。如图5、粗略样式包含关于姿势以及身份的信息,中等样式包括关于表情、头发结构和照明的信息,而精细样式包括源的颜色方案。我们展示了一个类似的混合应用程序,但对语义参数的控制更加完整。为了生成具有目标身份的图像,我们将面部装备的源参数转移到目标潜像,从而产生具有不同头部姿势、表情和照明的图像。通过Karras等人的混合策略,这种类似钻机的控制是不可能的。其在混合结果中纠缠多个语义 维 度 。 在 图 4 中 , 我 们 分 析 了 StyleRig 如 何 转 换StyleGAN的潜在向量该图显示了StyleGAN潜在向量的平均变化和方差(变化以102距离测量),所有分辨率,计算超过2500个混合结果。如预期的,粗潜在码向量主要负责旋转。表达由粗和中级潜码控制。灯光方向主要由中等分辨率矢量控制。然而,精细潜向量在图像的全局颜色方案StyleRig不必指定哪些向量需要更改以及更改多少,而是以自我监督的方式恢复此映射如图5、我们还可以更好地保存场景上下文,如背景,发型和配饰。8.2. 交互式钻机控制由于3DMM的参数也可以独立控制,StyleRig允许对StyleGAN生成的图像进行明确的语义我们开发了一个用户界面,用户可以通过交互式地改变其姿态,表情和场景照明参数与人脸网格进行交互。这些更新的参数然后被输入RigNet以交互式帧速率(305fps)生成新图像。6148图6:训练数据中人脸模型参数的分布X轴从左到右示出了用于旋转、表情和照明的面部模型参数y轴示出了在20k个训练样本上计算的参数的均值和方差图 1显示了StyleGAN图像上各种控件的结果:姿势、表达式和照明编辑。该控制钻机进行编辑在一个顺利的互动方式。请参阅补充视频了解更多结果。分析StyleRig交互式编辑器允许我们轻松检查训练好的网络。我们观察到,虽然网络在大多数控制方面做得很好,但3D参数化人脸模型的一些也就是说,RigNet无法将所有参数控制模式都转换为StyleGAN生成的图像中的类似更改。例如,我们注意到面网格的平面内旋转被忽略。类似地,面部网格的许多表达不能很好地转换到结果生成的图像中。我们将这些问题归因于StyleGAN所训练的图像中的偏见。为了分析这些模式,我们查看了StyleGAN生成的训练数据中人脸模型参数的分布,见图。六、我们注意到,平面内旋转(围绕Z轴的旋转)几乎不存在于数据中事实上,大多数变化只是围绕着Y轴.这可能是因为StyleGAN是在Flickr-HQ数据集上训练的[18]。这样的数据集中的面部的大多数静态图像将不包括平面内旋转。相同的推理可以应用于表情,其中大多数生成的图像由中性或微笑/大笑的脸组成。这些表达式可以使用最多三个blendshapes来捕获尽管人脸装备包含64个向量,但由于训练数据分布的偏差,我们无法很好地控制它们。类似地,光照条件在数据集中也是有限的。我们注意到,与其他维度相比,全局颜色和方位角维度的变化更大。我们的方法提供了一个直观的交互式用户界面 , 使 我 们 不 仅 可 以 检 查 StyleRig , 还 可 以 检 查StyleGAN中存在的偏差。图7:对3D参数的显式控制允许我们把StyleGAN变成一个条件生成模型。8.3. 条件图像生成对预训练生成模型的显式和隐式控制使我们能够将其转化为条件生成模型。我们可以简单地将姿态、表情或照明输入固定到RigNet,以生成与指定参数相对应的图像,见图。7.第一次会议。这是将无条件生成模型转换为条件模型的直接方式,并且可以产生高分辨率的照片逼真的结果。它也非常高效,因为我们只需要不到24小时就可以训练StyleRig,而从头开始训练条件生成模型至少需要与StyleGAN一样多的时间,后者需要超过41天的时间来训练(这两个数字都是针对Nvidia Volta GPU的)。8.4. 与基线方法的比较在下文中,我们将我们的方法与几种基线方法进行比较。“Steering” the latent vector [16],我们设计了一个网络架构,试图根据参数的变化来引导StyleGAN特征向量。该网络架构不使用潜在向量w作为输入,因此不需要编码器。网络的输入是面部模型参数的增量,输出是潜在向量的增量在我们的设置中,这样的架构不会导致理想的结果,因为网络不能使面部的几何形状变形,见图11。8.因此,除了目标参数之外,潜在空间中的语义增量还应该以潜在向量为条件。不同的损失函数如等式中所解释的。 2,我们的损失函数由三项组成。对于第一个基线,我们关闭重建损失。这可能导致输出从StyleGAN潜码空间漂移的潜向量,从而产生非人脸图像。接下来,我们关闭一致性损失。该损失项强制所有面部模型参数的一致性,而不是被改变的如果没有这个术语,改变一个维度,例如照明,也会改变其他维度,例如头部姿势。我们的最终模型确保了所需的编辑6149图8:基线比较。我们的全面方法可获得最高质量的结果。身份和现场信息一致请注意,关闭编辑丢失并不是一个好的基线,因为它不会对生成器添加任何控制。8.5. 同步参数控制除了独立控制不同的参数外,我们还可以同时控制它们为此,我们训练RigNet,使其接收目标姿态,expres-sion和照明参数作为输入。对于每个(w,v)训练码向量对,我们采样三个训练样本。这里,三个参数(姿态、表情或照明)中的一个在每个样本中改变。然后,我们使用等式中定义的损失函数。每种样品2个。因此,RigNet学会独立编辑控制空间的每个维度,同时还能够使用相同的网络组合编辑。图9示出了混合结果,其中姿态、表情和照明参数从源图像转移到目标图像。9. 限制虽然我们已经证明了对StyleGAN生成的面部图像的高质量语义控制,但我们的方法仍然受到一些限制,这些限制可以在后续工作中解决。在分析部分,我们已经图9:RigNet还可以同时控制姿势、表情和这些参数从源图像转移到目标图像,同时保留目标图像中的身份。讨论了StyleRig无法充分利用参数化人脸模型的表达能力。这为StlyeGAN的内部工作提供了一个很好的洞察力,并允许我们反思它所学到的偏见。在未来,这可能会引导设计更好的生成模型的方法。我们的方法也受到所采用的可微人脸重建网络的质量的限制。目前,该模型不允许我们重建精细尺度的细节,因此我们不能显式地控制它们。最后,不存在试图保留场景中未被参数化面部模型解释的部分的显式约束,例如,背景或发型。因此,这些零件无法控制,并且在编辑参数时可能会发生更改。10. 结论我们已经提出了StyleRig,这是一种新颖的方法,可以在预训练和固定的Style-GAN网络上提供类似面部的控制。我们的网络以自我监督的方式进行训练,不需要任何额外的图像或人工注释。在测试时,我们的方法生成具有StyleGAN的照片写实主义的人脸图像,同时提供对一组语义控制参数的显式控制我们相信,计算机图形控制与深度生成模型的结合可以实现许多令人兴奋的编辑应用,为生成模型的内部工作提供见解,并将激发后续工作。鸣谢:我们感谢True-VisionSolutions Pty Ltd提供2D人脸跟踪器。这项工作得到了ERC Consolida- tor Grant 4DReply(770784),Max Planck Center for Visual Computing and Communications(MPC-VCC)和Technicolor的支持6150引用[1] Rameen Abdal , Yipeng Qin , and Peter Wonka. Im-age2StyleGAN:如何将图像嵌入到文体潜空间中?在2019年计算机视觉国际会议(ICCV)[2] 奥列格·亚历山大,麦克·罗杰斯,威廉·兰贝斯,马特·齐昂,还有保罗·德贝维克.数字艾米丽项目:逼真的面部建模和动画。ACM SIGGRAPH Courses,第12:1-12:15页,2009年[3] Volker Blanz , Curzio Basso , Tomaso Poggio , andThomas Vetter. 在图像和视频中恢复面部动画在计算机图形论坛,第641Wiley Online Library,2003.[4] Volker Blanz和Thomas Vetter。用于合成3D面的可变形模型在SIGGRAPH[5] James Booth、Anastasios Roussos、Allan Ponniah、DavidDunaway 和 Stefanos Zafeiriou 。 大 型 3D 变 形 模 型 。International Journal of Computer Vision(IJCV),126(2):233-254,Apr. 2018年。[6] 曹 晨 、 翁 彦 林 、 周 顺 、 童 一 英 、 周 坤 。Facewarehouse:用于视觉计算的3D面部表情数据库。IEEETransactionsonVisualizationandComputerGraphics(TVCG),20(3):413-425,Mar. 2014年[7] 曹晨、吴洪志、翁彦林、邵天嘉、周坤。基于图像的动态化身的实时面部动画ACM Transactions on Graphics(Proceedings of SIGGRAPH),35(4):126:1[8] Caroline Chan , Shiry Ginosar , Tinghui Zhou , andAlexei A Efros. 大家跳舞吧在2019年计算机视觉国际会议[9] Yu Deng,Jiaolong Yang,Sicheng Xu,Dong Chen,Yunde Jia,and Xin Tong.弱监督学习下的精确3D人脸重建:从单张图像到图像集。在CVPR研讨会,2019年。[10] 放大图片作者:William A.P. Smith,Ayush Tewari,Stefanie Wuhrer , Michael Zollhoefer , Thabo Beeler ,Florian Bernard , Timo Bolkart , Adam Kortylewski ,Sami Romdhani,Christian Theobalt,Volker Blanz,andThomas Vetter.3D变形人脸模型[11] 巴勃罗·加里多,迈克尔·佐尔·霍费尔,丹·卡萨斯,L eviVal gaerts,基兰·V阿拉纳西,帕特里克·佩雷斯和克里斯蒂安·西奥博尔特。从单目视频重建个性化的3D人脸模型。ACM Trans. on Graph.(SIGGRAPH会议记录),35(3):28:1 -15,2016年6月。[12] L. A. Gatys,A.S. Ecker和M.贝丝使用卷积神经网络的图像风格在CVPR中,第2414- 2423页[13] Kyle Genova、Forrester Cole、Aaron Maschinot、AaronSarna、Daniel Vlasic和William T Freeman。三维可变形模型回归的无监督训练在IEEE计算机视觉和模式识别会议论文集,第8377-8386页[14] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在Z. Ghahra-mani,M.威灵角Cortes,N. D. Lawrence和K. Q.Weinberger,编辑,神经信息处理系统进展,第2672-2680页2014年[15] Phillip Isola,Jun-Yan Zhu,Tinghui Zhou,and Alexei AEfros.使用条件对抗网络的图像到图像翻译。CVPR,2017年。[16] Ali Jahanian,Lucy Chai和Phillip Isola。关于生成式对抗网络的“引导能力”。arXiv预印本arXiv:1907.07171,2019。[17] Tero Karras , Timo Aila , Samuli Laine , and JaakkoLehtinen.GANs的逐步增长,以提高质量,稳定性和变化。在国际会议上学习表示(ICLR),2018年。[18] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构,用于生成对抗网络。CVPR,2019年。[19] H.作者声明:A. Tewari,W. Xu,J. Thies,N. 尼斯纳P. 佩雷斯角里查德,M。 Zoll hofer,C. 希奥博尔特深度视频 肖 像 。 ACM Trans. on Graph. ( SIGGRAPH 会 议 记录),2018年。[20] Hyeongw ooKim , MichaelZollhoüfer , AyushTewari ,JustusThies,Christian Richardt,and Christian Theobalt.反向- FaceNet:从单个图像进行深度单次反向面部渲染。在CVPR,2018年。[21] 放大图片作者:Michael J.布莱克、李昊和哈维尔·罗梅罗。FLAME:从4D扫描中学习面部形状和表情的模型。 ACM Trans. 关于Graph,36(6):194:1[22] Ming-Yu Liu,Thomas Breuel,and Jan Kautz.无监督图像到图像翻译网络。[23] Ricardo Martin-Brualla,Rohit Pandey,Shuoran Yang,Pavel Pidlypenskyi,Jonathan Taylor,Julien Valentin,Sameh Khamis,Philip Davidson,Anastasia Tkach,PeterLincoln,Adarsh Kowdle,Christoph Rhemann,Dan BGoldman,Cem Keskin,Steve Seitz,Shahram Izadi,and Sean Fanello.好看:通过实时神经重渲染增强性能捕获 。 ACM Trans. on Graph. ( SIGGRAPH-Asia 会 议 记录),37(6):255:1 -255:14,2018。[24] Taesung Park , Ming-Yu Liu , Ting-Chun Wang , Jun-Yan Zhu.具有空间自适应归一化的语义图像合成。在CVPR,2019年。[25] Elad Richardson 、 Matan Sela 、 Roy Or-El 和 RonKimmel。从单个图像学习详细的面部重建在CVPR,2017年。[26] Soubhik Sanyal , Timo Bolkart , Haiwen Feng , andMichael Black.学习在没有3D监督的情况下从图像中回归3D面部形状和表情。在CVPR中,第7763-7772页[27] Jason M. Saragih,Simon Lucey,and Jeffrey F.科恩基于正则化界标均值漂移的可变形模型拟合。91(2):200[28] Matan Sela Elad Richardson和Ron Kimmel基于图像平移的无约束人脸几何重建。InICCV,2017.[29] Ahmed Selim,Mohamed Elgharib,and Linda Doyle.使用卷积神经网络进行头像的绘画风格转移。第129:1-129:18页6151[30] Yujun Shen,Jinjin Gu,Xiaoou Tang,and Bolei Zhou.解释gans用于语义人脸编辑的潜在空间,2019。[31] Ayush Tewari , Florian Bernard , Pablo Garrido ,GauravBharaj , MohamedElgharib , Hans-PeterSeidel ,PatrickPe'rez , Michael Zollhoefer 和 Christian Theobalt 。FML:从视频中学习人脸模型。2019年。[32] AyushTewari,MichaelZollhofer,PabloGarrido,FlorianBernard,HyeongwooKim,PatrickPe'rez和ChristianTheobalt。250hz以上单目重建的自我监督多层次人脸模型学习在CVPR,2018年。[33] AyushTewari , MichaelZollhoüfer , Hyeongw ooKim ,PabloGarrido , Florian Bernard , Patrick Perez , andTheobalt Chris- tian.MoFA:用于无监督单目重建的基于模型的深度卷积人脸自动编码器在ICCV,第3735-3744页[34] JustusThies,MichaelZoll höfer,andMatthiasNießne r. 延迟神经渲染:使用神经纹理的图像合成ACMTransactions on Graphics(TOG),38(4):1 -12,2019。[35] 陈鸾,刘凤,刘小明。高保真非线性三维人脸形变模型的研究。在CVPR,2019年6月。[36] Ye Yu和William A.P. 史密斯InverseRenderNet:学习单幅图像逆渲染。在CVPR,2019年。[37] Matthew D. 泽 勒 Adadelta : An adaptive learning ratemethod,2012.[38] Jun-Yan Zhu , Taesung Park , Phillip Isola , Alexei AEfros.使用周期一致对抗网络的不成对图像到图像翻译。InICCV,2017.[39] M. Zollh oüfer,J. Thies,P. 加里多D. Bradl ey,T. 比尔河我是佩雷斯先生。 Stamminge
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++多态实现机制详解:虚函数与早期绑定
- Java多线程与异常处理详解
- 校园导游系统:无向图实现最短路径探索
- SQL2005彻底删除指南:避免重装失败
- GTD时间管理法:提升效率与组织生活的关键
- Python进制转换全攻略:从10进制到16进制
- 商丘物流业区位优势探究:发展战略与机遇
- C语言实训:简单计算器程序设计
- Oracle SQL命令大全:用户管理、权限操作与查询
- Struts2配置详解与示例
- C#编程规范与最佳实践
- C语言面试常见问题解析
- 超声波测距技术详解:电路与程序设计
- 反激开关电源设计:UC3844与TL431优化稳压
- Cisco路由器配置全攻略
- SQLServer 2005 CTE递归教程:创建员工层级结构
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功