没有合适的资源?快使用搜索试试~ 我知道了~
177100来自单幅图像的深度3D肖像0Sicheng Xu 1 * Jiaolong Yang 2 Dong Chen 2 Fang Wen 2 Yu Deng 3 Yunde Jia 1 Xin Tong 201 北京理工大学 2 微软亚洲研究院 3 清华大学0摘要0本文提出了一种基于学习的方法,用于从单幅肖像图像中恢复人头部的3D几何。我们的方法以无监督的方式进行学习,没有任何地面真实的3D数据。我们使用参数化的3D面部模型以及包括头发和耳朵在内的其他头部区域的深度图来表示头部几何。我们提出了一个两步几何学习方案,用于从野外面部图像中学习3D头部重建,其中我们首先使用自重建在单幅图像上学习面部形状,然后使用成对图像进行头发和耳朵几何的学习,以立体匹配的方式进行。第二步基于第一步的输出,不仅提高了准确性,还确保了整体头部几何的一致性。我们在3D和2D图像的姿态操作任务中评估了我们方法的准确性。我们根据恢复的几何形状改变姿态,并应用经过对抗学习训练的细化网络来改善重投影图像并将其转换为真实图像领域。广泛的评估和与之前方法的比较表明,我们的新方法能够产生高保真的3D头部几何和头部姿态操作结果。01. 引言0从2D图像中重建3D面部几何一直是计算机视觉中的一个长期存在的问题。获得完整的头部几何将在游戏和虚拟现实中实现更多应用,因为它不仅提供了一种新的3D内容创建方式,还提供了基于图像的3D头部旋转(即姿态操作)。最近,随着深度卷积神经网络(CNN)[47, 50, 22, 20,16]的巨大增长,单幅图像的3D面部重建取得了显著进展。然而,大多数现有技术仅限于面部区域的重建,而没有解决头发和耳朵等其他头部区域的问题。面部图像合成也在深度学习方面取得了快速进展。然而,很少有方法可以处理从单幅图像进行头部姿态操作,这是必要的。0* 本工作是S. Xu在MSRA实习期间完成的。0在头部区域和其他区域中实现头部几何的显式3D恢复一直是一个长期存在的计算机视觉问题。对于面部网格,我们使用3D可塑模型(3DMM)[4]建模,对于包括头发、耳朵和其他未被3DMM面部网格覆盖的区域,我们使用深度图来建模。3DMM面部表示便于形状操作,由于其参数化特性,而深度图提供了一种方便而强大的表示方法来建模复杂的头发几何。0本文研究了肖像图像头部区域(包括面部、头发和耳朵)的显式3D几何恢复。我们使用3D可塑模型(3DMM)[4]对头部进行建模,其中包括一个由3DMM构建的面部网格和一个用于头发、耳朵和其他未被3DMM面部网格覆盖的区域的深度图。3DMM面部表示便于形状操作,由于其参数化特性,而深度图提供了一种方便而强大的表示方法来建模复杂的头发几何。0学习单幅图像的3D头部几何重建是一项具有挑战性的任务。这里至少有两个挑战需要解决。首先,带有地面真实3D几何的肖像图像对于CNN训练来说太少,特别是对于3D扫描可能存在问题的头发。为了解决这个问题,我们提出了一种用于头部几何估计的无监督学习流程。对于面部部分,我们简单地遵循最近的3D面部重建方法[47, 20, 21,59],通过最小化渲染原始输入的差异来学习回归3DMM参数在图像语料库上。但是对于头发和耳朵,我们提出利用视角变化,并通过最小化外观重投影误差在从视频中提取的肖像图像对上进行训练。第二个挑战是如何确保一致的头部结构,因为它由两个独立的组件组成。我们提出了一个两步形状学习方案,其中我们使用恢复的面部几何作为深度网络的条件输入,并且设计的损失函数考虑了面部和头发几何之间的层次一致性。我们展示了我们的两步无监督形状学习方案导致了引人注目的3D头部重建结果。0我们的方法可以应用于肖像图像的头部姿态操作,其质量取决于3D重建的准确性,因此可以用于评估我们的方法。77110我们的方法可以应用于肖像图像的头部姿态操作,其质量取决于3D重建的准确性,因此可以用于评估我们的方法。具体而言,我们改变了3D重建头部的姿态,并将其投影到2D图像平面上以获得姿态操作结果。投影后的图像需要进一步处理。值得注意的是,姿态变化会导致需要补充的缺失区域。为此,我们使用真实的非配对数据和通过图像损坏生成的合成配对数据训练了一个改进网络,同时使用一个判别器网络进行对抗学习。我们的任务类似于图像修复中的图像修补。然而,我们发现在深度生成图像修补中,流行的输出形式方案(原始图像与网络生成的缺失区域合并)[57,37]会导致明显的伪影,效果较差。因此,我们选择重新生成整个图像。我们的贡献可以总结如下:0•我们提出了一种新颖的无监督头部几何学习流程,不使用任何真实的3D数据。所提出的两步学习方案产生了一致的面部-头发几何和引人注目的3D头部重建结果。0•我们提出了一种新颖的单图像头部姿态操作方法,无缝地结合了学习到的3D头部几何和深度图像合成。我们的方法完全基于CNN,无需任何优化或后处理。0•我们系统地比较了文献中不同的头部几何估计和肖像操作方法,使用2D/3D变形和GAN,并展示了我们的方法的卓越性能。02. 相关工作0面部和头发的3D重建。3D面部重建一直是一个长期存在的任务。最近,深度3D面部重建[47, 50, 22,20]引起了相当大的关注。我们的方法遵循无监督学习方案[47,20],该方案在没有真实3D数据的情况下训练网络。对于头发建模,传统方法使用基于方向图的优化,有时需要手动输入[10]或3D头发示例库[9]。Liang等人[32]和Hu等人[25]利用发型数据库进行自动头发重建。[60]中提出了一种深度3D头发重建方法,但重建的头发模型与输入图像不对齐,因此不能用于我们的目的。0基于CNN的肖像编辑和合成。面部图像的编辑和合成在视觉和图形界引起了相当大的关注,并且在深度学习技术的推动下得到了快速发展。大多数现有的基于CNN的方法致力于编辑外观属性,如肤色[12],面部表情[42, 45, 41,18],化妆[11, 31],年龄[58, 12, 52]和其他一些局部外观属性[41, 14,43]。很少有方法用于头部姿态操作。其中最相关的工作可能是从输入的面部图像中合成新视角(例如正面)的方法[28, 3,56]。然而,这些方法的目标不是肖像编辑,它们也不处理头发和背景。0基于CNN的肖像编辑和合成。面部图像的编辑和合成在视觉和图形界引起了相当大的关注,并且在深度学习技术的推动下得到了快速发展。大多数现有的基于CNN的方法致力于编辑外观属性,如肤色[12],面部表情[42, 45, 41, 18],化妆[11, 31],年龄[58, 12,52]和其他一些局部外观属性[41, 14,43]。很少有方法用于头部姿态操作。其中最相关的工作可能是从输入的面部图像中合成新视角(例如正面)的方法[28, 3,56]。然而,这些方法的目标不是肖像编辑,它们也不处理头发和背景。0基于2D变形的面部动画。已经提出了一些方法来使用2D变形来为面部图像添加动画[2, 18,53]。Averbuch-Elor等人[2]提出了一种通过使用锚点在驱动视频中传递2D面部变形来为图像添加动画的方法。应用了一个细化过程来添加细节和补充缺失区域。Geng等人[18]提出了类似的流程,使用GAN来优化变形后的图像。Wiles等人[53]提出了使用神经网络生成2D变形场的方法。这些2D变形方法在头部姿态变化时无法保留面部结构,因为缺乏来自3D几何的指导。03D引导的视角合成和面部动画。在不同领域中,如人脸识别[46, 62,23]和人脸对齐[61]中,已经使用了3D引导的面部图像正面化和侧面化。这些方法通常只关注面部区域,或者天真地处理头发和背景。最复杂的人脸旋转方法可能是由Zhu等人[61]提出的,该方法考虑了面部周围区域的几何形状。然而,他们根据启发式确定的区域和深度不足以实现逼真的合成,旋转结果往往与原始肖像明显不一致。此外,[61]中的背景被扭曲以避免填充空洞。已经提出了几种使用3D模型合成面部表情的方法[36,19],但它们不考虑头发几何形状,也不能操作头部姿势。0基于视频和RGBD的人脸再现。已经提出了几种使用视频或RGBD输入进行人脸再现的方法[48, 30,49]。Thies等人[48]利用3D人脸重建将源演员视频中的面部表情转移到目标演员视频中。Kim等人[30]在每个给定的视频上训练一个深度网络,以适应其中的肖像外观,从而可以获得高质量的生成结果。Thies等人[49]提出了一个RGBD再现系统。03. 概述和预处理。0我们方法的框架如图1所示。在图像预处理之后(将在下面描述),我们使用两个CNN进行两步3D重建,以估计3D头部姿势和形状。对于头部姿势操作,我们首先调整3D重建形状的姿势,并将其投影到图像平面上,然后应用一个细化的CNN来获得最终结果。-∥I − I′(α, β, δ, γ, p)∥2(2)lper = 1 − < f(I), f(I′) >∥f(I)∥ · ∥f(I′)∥(3)77120分割。03DMM系数。0(a) 3D H。0头部重建。0人脸重建。0耳朵深度估计。0(b) 头部姿势操作。03D操作。0图像细化。0边界。0ReconNet。0渲染。0DepthNet。0生成器。0操作。0和投影。03D头部重建。0图1:我们单张图像的3D头部重建和头部姿势操作方法的概述。0预处理。给定一张肖像图像,我们对检测到的脸部区域进行粗略对齐,使其居中并重新缩放(在3D人脸重建步骤后,图像将被重新对齐以准确地居中3D头部中心)。然后,我们运行[33]的最先进的人脸分割方法来分割出头部区域,表示为S,其中包括脸部、头发和耳朵区域。04. 单张图像的3D头部重建。0在这项工作中,我们使用透视相机模型和经验选择的焦距。头部姿势由旋转 R ∈ SO(3) 和平移 t ∈ R 3决定,并由参数化的 p ∈ R 7表示,其中旋转由四元数表示。现在我们介绍我们的方法,该方法重建了一个3DMM脸部以及其他头部区域的深度图。04.1. 人脸重建和姿势估计。0使用3DMM,脸形 F 和纹理 T 可以用仿射模型表示:0F = F(α, β) = ¯ F + B id α + B exp β T = T(δ) =¯ T + B t δ (1)0其中,¯ F 和 ¯ T 分别表示平均脸形和纹理;B id 、B exp和 B t分别表示身份、表情和纹理的PCA基;α、β和δ分别表示对应的系数向量。我们采用Basel Face Model [40]来表示 ¯F、B id、¯ T 和 B t,并使用[22]中从FaceWarehouse[7]构建的表情基 B exp。在选择基础子集之后,我们有 α∈ R 80,β ∈ R 64 和 δ ∈ R80。由于真实的3D人脸数据很少,我们采用最近的方法[47,20,16]来以无监督的方式使用大量的人脸图像进行重建学习。我们的方法是从[16]中适应的,该方法使用混合级别的监督进行训练。具体而言,要预测的未知量可以由向量(α, β, δ,p, γ) ∈ R 239表示,其中 γ ∈ R 9是场景光照的球谐系数向量。设 I是一张训练图像,I'是通过网络预测渲染的重建对应图像,我们通过最小化光度误差来进行优化:0l photo =照片0其中F表示我们在此考虑的渲染面部区域1,∥ ∙ ∥2表示r、g、b通道上的残差的ℓ2范数。我们还通过以下方式最小化渲染和真实面部之间的感知差异:0其中f(∙)表示用于提取身份特征的人脸识别网络,这里使用[55]中的模型。我们还应用了其他常用的损失函数,如2D面部关键点损失和系数正则化损失,更多细节请参考[16]。04.2. 头发和耳朵深度估计0我们的下一步是估计其他头部区域的深度图,定义为H = S- (Sf ×F),其中Sf表示由分割定义的面部区域。H包括头发和耳朵以及一小部分由投影的3DMM面部未覆盖的分割面部区域。由于缺乏地面真实深度数据,我们使用一组图像对在立体匹配设置中训练网络。请注意,我们仅在训练时使用图像对。网络在测试时始终运行在单个图像上。设I1,I2为同一主体的训练图像对(例如,来自视频的两帧),具有不同的头部姿势(R1,t1),(R2,t2)由我们的面部重建网络恢复。我们的目标是训练一个单一网络来预测它们的深度图d1和d2,采用孪生网络方案[13]。在训练之前,我们首先对H1和H2的常规像素网格运行简单的三角剖分,构建两个2D网格。给定深度图估计d1,可以通过逆投影构建3D网格H1。我们可以通过(R2R-1 1,-R2R-1 1t1 +t2)将H1转换到I2的相机系统,并将其投影到图像平面上以获得合成图像I'2。类似的过程可以用于从I2和d2生成I'1。整个过程是可微分的,我们使用它来训练我们的深度预测网络,使用以下损失函数。与立体匹配类似,我们首先强制执行颜色恒定性:0为简洁起见,在我们的损失函数中,我们省略了面积积分中的像素变量符号。我们还省略了归一化因子(例0N F 在公式2中,NF是区域F中的像素数)。H′2∥I′2(d1) − I2∥1 +�H′1∥I′1(d2) − I1∥1(4)H′2∥∇I′2(d1) −∇I2∥1+�H′1∥∇I′1(d2) −∇I1∥1 (5)H1|∆d1| +�H2|∆d2|(6)77130通过最小化亮度误差来约束0l color =颜色0其中H ′ 2 = H ′ 2(H1,d1)是由上述变换过程中的头部姿势和d1计算得到的从H1计算得到的扭曲区域;H ′ 1 = H ′ 1(H2,d2)的计算方式类似。我们还应用了一种对光照变化鲁棒的梯度差异损失,因此在立体和光流估计中被广泛采用[6,5,54]:0l grad =梯度0其中�表示梯度算子。为了施加空间平滑性先验,我们添加了二阶平滑性损失0l smooth =平滑度0其中∆表示拉普拉斯算子。0将面部深度作为条件和输出。我们不直接从输入图像I中估计头发和耳朵的深度,而是将重建的面部形状F投影到图像平面上,得到面部深度图df。我们将df作为额外的条件输入与I连接起来。注意,df为头发和耳朵的深度估计提供了有益的信息(例如头部姿势、相机距离)。此外,它还允许已知轮廓周围的面部深度轻松传播到未知深度的相邻区域。更重要的是,我们训练网络还使用df作为目标来预测面部区域的深度:0l face =0F 1 - S h 1 = F 1 |d 1 - d f 1| +0F 2 - S h 2 = F 2 |d 2 -d f 2| (7)0其中,S h表示由分割定义的头发区域。需要注意的是,通过学习lface来学习人脸深度不会给网络带来太多额外负担,因为df已经作为输入提供了。但是关键是,现在我们可以很容易地强制实施重建的3D人脸与其他区域的估计的3D几何之间的一致性,因为在这种情况下,我们计算整个头部区域S 1、S2上的平滑损失:0l smooth =0S 1 |∆d 1| +0S 2 |∆d 2| (8)0图2(第二和第三列)比较了有无人脸深度的结果。我们还在表1(第二和第三列)中展示了定量比较结果。可以观察到,使用人脸深度显著改善了头部几何一致性和重建精度。0层次顺序损失。头发通常会遮挡部分面部区域,导致出现两个深度层。为了确保头发和被遮挡的面部区域(即前者应该在后者前面)之间的正确相对位置,我们引入了一个层次顺序损失,定义如下:0无人脸深度输入与有人脸深度输入 + l layer图2:我们方法在不同设置下的3D头部重建结果。0S h 1 = F 1 max(0, d 1 - d f 1) +0l layer =0(9)该损失惩罚错误的层次顺序。如图2所示,使用l layer时,重建的形状更准确。0S h 2 = F 2 max(0, d 205.单图像头部姿势操作0网络结构。我们采用简单的编码器-解码器结构,使用ResNet-18[24]作为主干网络。我们丢弃了其全局平均池化和最后的全连接层,并添加了几个转置卷积层,将特征图上采样到完整分辨率。在64×64、32×32和16×16的分辨率上添加了跳跃连接。输入图像大小为256×256。网络结构的更多细节可以在补充材料中找到。05.1. 3D姿势操作和投影0给定从输入肖像图像重建的3D头部模型,我们修改其姿势并合成新的肖像图像,具体如下。05.2. 带有对抗学习的图像细化0要改变头部姿势,只需在给定目标姿势¯p或位移δp的情况下,对3DMM脸部F和头发-耳朵网格H应用3D中的刚性变换。姿势改变后,我们将3D模型投影到2D图像平面上,得到粗糙的合成结果。图3中显示了两个示例。0重新投影的图像存在一些问题。值得注意的是,由于姿势和表情的变化,可能会出现一些空洞,需要类似图像修复过程中的图像修复来填补缺失的背景和/或头部区域。此外,由于渲染不完美,重新投影过程可能还会引入某些伪影。InputMixing outputlcolorlcolor+ladvOursTo address these issues, we apply a deep network G toprocess these images. For stronger supervision, we lever-age both paired (i.e., images with ground truth label) andunpaired data (i.e., our coarse results) to train such a net-work. To obtain paired data, we take some real images withvarious head poses, and synthetically masked out some re-gions along the head segmentation boundaries. Let J be anunpaired coarse result, and (R, ˆR) be the paired data whereR denotes the corrupted image and ˆR its corresponding realimage, we apply the ℓ1 color loss viai77140图3:使用不同设置训练的图像细化网络的结果。0lcolor(G)=EJ � �0B ∥ G(J) − J ∥1 � + ER � � ∥ G(R) − ˆR ∥1 � (10)0其中B表示背景和J的扭曲头部区域。我们应用对抗学习来提高生成图像的逼真度。我们引入一个鉴别器D来区分G的输出和真实图像,并训练G来欺骗D。我们使用LS-GAN[35]框架,并且我们的G和D的对抗性损失函数可以写成以下形式:0ladv(G)= 102E J � (D(G(J))−1)2 � + 02ER � (D(G(R))−1)2 � , (11)0ladv(D)=102EJ � (D(G(J))−0)2 � + 102E R � (D(G(R))−0)2 �0+ ER � (D(ˆR)−1)2 � , (12)0分别。如图3所示,在对抗性损失的帮助下,我们的模型生成了更锐利的结果。然而,由于GAN训练的不稳定性,可能会引入一些不需要的伪影。为了消除这些伪影,我们进一步应用了深度特征损失,也称为感知损失[29],对成对数据进行处理,通过以下公式进行计算:0lfeat(G)= �01Ni ∥φi(G(R)) − φi(ˆR)∥1 (13)0其中φi是VGG-19网络[44]在ImageNet[15]上预训练的第i个激活层。我们在所有块中使用第一层。图3显示了我们最终的结果看起来非常逼真。它们锐利且无伪影。0与图像修复的差异。在我们的任务中,重投影的头部肖像虽然对人眼观察者来说非常逼真,但可能包含一些独特的特征,这些特征可以0表1:在Biwi数据集[17]的RGBD图像上评估的平均3D重建误差。0误差(mm)Zhu [61]我们没有d f我们0面部 5.05 4.31 3.880非面部 8.56 7.39 6.780鉴别器可以检测到生成的结果。我们尝试通过将G的部分输出和原始输入混合来生成精细的结果,这是深度图像修复中常见的一种表达方式[57],即J' = M ⊙ G(J) + (1−M) ⊙J,其中M是缺失区域的掩模。然而,结果始终比我们的完整图像输出策略差(见图3进行比较)。0网络结构。我们的G和D的网络结构来自[51]。输入和输出图像的大小为256×256。更多细节可以在补充材料中找到。06. 实验0实现细节。我们的方法使用Tensorflow[1]实现。2面部重建网络使用来自多个来源的180K个野外面部图像进行训练,例如CelebA[34]、300W-LP[61]和LFW[27]。为了训练头部深度网络,我们收集了316个主体的316个视频中的11K个图像对,其中包含人头部运动3。相对旋转角度主要在5到15度之间。训练在1个NVIDIA M40GPU卡上花费了15小时。为了训练图像细化网络,我们收集了37K个配对数据和30K个非配对数据,训练在4个M40GPU卡上花费了40小时。由于空间限制,更多的实现细节和结果在补充材料中展示。06.1. 结果0我们的方法的结果将如下呈现。请注意,这里的所有结果都来自我们的测试集,这些图像没有用于训练。03D头部重建。图4显示了我们单幅图像3D头部重建结果的一些典型样本。可以观察到,我们的重建网络可以在只有一张肖像图像的情况下产生高质量的面部和头发几何结构,尽管我们没有使用任何地面真实的3D数据进行训练。如图所示,各种发型都可以很好地处理。尽管面部区域和头发-耳部分具有不同的、不连续的表示(3DMM vs.深度图),并且是通过两个步骤进行重建的,但它们彼此之间和产生的头部模型都非常一致,视觉效果很好。为了定量评估和消融研究,我们使用了来自BiwiKinect头部姿势数据库[17]的RGBD图像。02代码和训练模型将公开发布。3我们假设头发在小时间窗口内经历刚性运动。77150图4:典型的单图像头部重建结果。我们的方法可以处理各种面部形状和发型,生成高质量的3D头部模型。请注意,我们的方法在没有任何真实3D数据的情况下进行训练。0其中包含20个具有不同发型的被试。我们使用深度图像作为地面真实几何形状计算我们方法的头部重建误差。误差是在3D中输出和地面真实形状之间的平均点距离计算的,经过3D对齐。结果呈现在表1中,显示了我们方法的良好3D重建精度。它还显示,如果不使用面部深度作为深度估计网络的输入,则准确性会降低,这证明了我们算法设计的有效性。0姿势操作。图5展示了我们方法的一些姿势操作结果。可以看到我们的方法可以生成具有新头部姿势的逼真图像。不仅面部身份得到很好的保留,而且头发形状在不同姿势下高度一致。背景不会因为姿势变化而被破坏。06.2与先前的艺术作品进行比较0与Zhu等人[61]进行比较。Zhu等人[61]提出了一种基于CNN的3D人脸重建和对齐方法。77160图5:典型的姿势操作结果。左列显示我们方法的输入图像,其他列显示我们合成的具有改变头部姿势的图像。0与Zhu等人[61],Chai等人[8]和Wiles等人[53]的方法进行比较。0单图像方法的方法。它还提供了一种基于3D人脸几何形状的基于变形的肖像旋转方法,最初用于训练数据生成。为了获得合理的头发和耳朵区域变形,它定义了一个面部周围区域,并根据面部深度启发式确定其深度。图6比较了面部0表2:输入和旋转人脸图像之间的平均感知相似度(深度特征余弦相似度)。0Chai等人[8]我们0余弦距离0.829 0.8560[61]和我们的旋转结果。可以看到[61]的结果可能会出现明显的畸变。相比之下,我们的方法可以生成不仅更真实而且更与输入图像一致的新视图。还要注意的是,[61]只是整个图像包括背景区域进行了变形。背景的改变对于肖像操作是不希望的,但在先前的2D/3D变形方法中经常出现[8, 62,61,2]。相比之下,我们的方法可以很好地保留背景。表1比较了[61]和我们方法在使用Biwi数据集[17]的图像时的3D重建误差。它显示我们的方法在面部和非面部区域的错误分别比[61]低23.17%和20.79%。0与Chai等人[8]进行比较。然后与Chai等人[8]进行比较,这是一种传统的基于优化的用于头发建模的方法。它还估计了面部。Failure cases.Our method may fail under several situa-tions, as illustrated in Fig. 9. For example, erroneous seg-mentation and obstructions may lead to apparent artifacts.Our head center is estimated in the face reconstruction step,and artifacts may appear for a few cases with inaccuratehead center estimates. Our current method can not handleextreme poses, which we leave as our further work.77170输入[2]我们[49]图7:与Averbuch-Elor等人[2]进行比较。[2]的输入图像和结果来自[49]。0与Nirkin等人的FSGAN方法[38]进行比较。图像来自[38]。0通过面部标记拟合来估计形状。我们运行[8]发布的程序,在重建之前需要一些用户提供的笔画,并在运行重建后提供输入图像的3D视图。如图6所示,[8]的方法也会导致一些畸变,而我们的结果更与输入面部一致。背景区域的差异也很明显。为了定量比较,我们考虑了一个面部识别设置,并计算了原始图像与变形图像之间的感知相似度。为了公平比较,我们使用[8]中显示的10个图像(图13)及其相应的结果。对于我们的方法,我们将原始面部旋转到与他们相同的姿势。我们使用VGG-Face[39]进行深度面部特征提取,表2显示了我们结果的更高的感知相似度。0与Averbuch-Elor等人的比较[2]。在图7中,我们与Averbuch-Elor等人的基于2D变形的人脸再现方法进行了定性比较,该方法通过参考人脸视频来驱动面部图像进行动画。可以看到,对于2D变形来说,姿势变化是有问题的,结果显示出明显的扭曲。我们的方法包含的扭曲要少得多,看起来更真实。作为参考,我们还在图7中展示了Thies等人的结果[49],该方法适用于RGBD图像,并在离线环境中构建目标演员的3D模型进行高质量的再现。0与X2Face[53]的比较。我们还与另一种基于2D变形的人脸操作方法X2Face[53]进行了比较,其中变形场由神经网络生成。如图6所示,[53]的结果存在明显的扭曲,并且无法处理缺失的区域,而我们的结果看起来更加自然。0图9:由于错误的分割(a)、遮挡(b)、不准确的旋转中心估计(c)和极端姿势(d)而导致的失败案例。0与FSGAN[38]的比较。最后,我们与最近的基于GAN的人脸交换和再现方法FSGAN[38]进行比较。如图8所示,[38]的结果往往过于平滑。我们认为,对于GAN来说,直接生成几何正确的细节仍然存在很大的障碍,因为头发的复杂几何形状。然而,[38]的结果的表情比我们的更生动,特别是第一个例子。我们未来的工作之一将是将细粒度的表情操作集成到我们的流程中。0运行时间。在NVIDIA M40GPU上进行测试,我们的人脸重建、深度估计和图像细化网络分别需要13毫秒、9.5毫秒和11毫秒来处理一张单独的图像。分割需要15毫秒。我们的方法可以轻松实现交互式肖像操作。07. 结论0我们提出了一种新颖的方法来进行单图像3D人像建模,这是一项具有挑战性的任务,现有方法无法很好地解决。我们提出了一种基于CNN的新型3D头部重建流程,可以在没有任何真实3D数据的情况下有效地学习3D头部几何。广泛的实验和比较共同证明了我们提出的方法在3D头部重建和单图像姿态操作方面的有效性。0致谢。本工作部分得到了中国国家自然科学基金委员会的支持,编号为61773062。77180参考文献0[1] Mart´ı Abadi等人. TensorFlow:在异构系统上进行大规模机器学习. https://www.tensor�ow.org/,2015年. 50[2] Hadar Averbuch-Elor, Daniel Cohen-Or, JohannesKopf和Michael F Cohen. 将肖像带到生活中. ACM Transactionson Graphics (TOG), 36(6):196, 2017年. 2 , 7 , 80[3] Jianmin Bao, Dong Chen, Fang Wen, Houqiang Li和GangHua. 迈向开放集合的身份保持人脸合成.在IEEE计算机视觉和模式识别会议(CVPR)上, 第6713-6722页,2018年. 1 , 20[4] Volker Blanz和Thomas Vetter. 用于合成3D人脸的可塑模型.在计算机图形学和交互技术年会(SIGGRAPH)上, 第187-194页,1999年. 10[5] Michael Bleyer, Christoph Rhemann和Carsten Rother.Patchmatch立体匹配与倾斜支持窗口.在英国计算机视觉会议(BMVC)上, 卷11, 第1-11页, 2011年. 40[6] Thomas Brox,Andr´es Bruhn,Nils Papenberg和JoachimWeickert。基于扭曲理论的高精度光流估计。在欧洲计算机视觉会议(ECCV)上,2004年,第25-36页。40[7]曹晨,翁燕林,周顺,童一颖和周坤。FaceWarehouse:用于视觉计算的3D面部表情数据库。IEEE可视化和计算机图形学交易,2014年,第20卷,第3期,第413-425页。30[8] 柴梦蕾,罗林杰,Kalyan Sunkavalli,Nathan Carr,SunilHadap和周坤。从单一肖像照片中获得高质量的头发建模。ACM图形交易(TOG),2015年,第34卷,第6期。7,80[9]柴梦蕾,邵天佳,吴宏志,翁燕林和周坤。Autohair:从单一图像完全自动的头发建模。ACM图形交易(TOG),2016年,第35卷,第4期。20[10]柴梦蕾,王绿地,翁燕林,金晓刚和周坤。图像和视频中的动态头发操作。ACM图形交易(TOG),2013年,第32卷,第4期。20[11] Huiwen Chang,Jingwan Lu,Fisher Yu和Adam Finkel-stein。PairedCycleGAN:非对称风格转移,用于应用和去除化妆。在IEEE计算机视觉和模式识别(CVPR)会议上,2018年,第40-48页。20[12] Yunjey Choi,Minje Choi,Munyoung Kim,Jung-WooHa,Sunghun Kim和JaegulChoo。StarGAN:用于多域图像到图像转换的统一生成对抗网络。在IEEE计算机视觉和模式识别(CVPR)会议上,2018年,第8789-8797页。20[13] Sumit Chopra,Raia Hadsell,YannLeCun等。学习相似度度量鉴别性,应用于人脸验证。在IEEE计算机视觉和模式识别(CVPR)会议上,2005年,第539-546页。30[14] Tali Dekel,Chuang Gan,Dilip Krishnan,CeLiu和William TFreeman。稀疏,智能轮廓来表示和编辑图像。在IEEE计算机视觉和模式识别(CVPR)会议上,2018年,第3511-3520页。20[15] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi和LiFei-Fei。ImageNet:一个大规模的分层图像数据库。在IEEE计算机视觉和模式识别(CVPR)会议上,2009年,第248-255页。50[16]邓宇,杨教龙,徐思成,陈东,贾云德和童欣。准确的3D人脸重建与弱监督学习:从单一图像到图像集。在IEEE计算机视觉和模式识别研讨会上,2019年,第1,3页。0[17] Gabriele Fanelli,Matthias Dantone,JuergenGall,Andrea Fossati和Luc VanGool。用于实时3D人脸分析的随机森林。国际计算机视觉杂志(IJCV),2013年。5,70[18]耿佳豪,邵天佳,郑友义,翁燕林和周坤。引导GANS进行单照片面部动画。ACM图形交易(TOG),2018年,第37卷,第6期。20[19] 郑林耐,曹晨和SergeyTulyakov。3D引导细粒度面部操作。在IEEE计算机视觉和模式识别(CVPR)会议上,2019年,第9821-9830页。20[20] Kyle Genova,Forrester Cole,Aaron Maschinot,AaronSarna,Daniel Vlasic和William TFreeman。无监督训练3D可变模型回归。在IEEE计算机视觉和模式识别(CVPR)会议上,2018年,第4362-4371页。1,2,30[21] Cl´ement Godard,Oisin Mac Aodha和Gabriel J Bros-tow。无监督的单目深度估计与左右一致性。在IEEE计算机视觉和模式识别(CVPR)会议上,2017年,第270-279页。10[22]郭宇东,张巨勇,蔡建飞,姜博毅,郑建民。基于CNN的实时密集人脸重建与逆向渲染照片真实人脸图像。IEEE模式分析与机器智能交易(TPAMI),2018年。1,2,30[23] Tal Hassner, Shai Harel, Eran Paz, and Roee Enbar.无约束图像中的有效人脸正面化.在IEEE计算机视觉和模式识别会议(CVPR)上,页码4295-4304,2015年。 20[24] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun.深度残差学习用于图像识别.在IEEE计算机视觉和模式识别会议(CVPR)上,页码770-778,2016年。 40[25] Liwen Hu, Shunsuke Saito, Lingyu Wei, Koki Nagano, Jae-woo Seo, Jens Fursund, Iman Sadeghi, Carrie Sun, Yen- ChunChen, and Hao Li. 单图像的化身数字化用于实时渲染.ACM图形学交易(TOG),36(6):195,2017年。 20[26] Yibo Hu, Xiang Wu, Bing Yu, Ran He, and Zhenan Sun.姿势引导的逼真人脸旋转.在IEEE计算机视觉和模式识别会议(CVPR)上,页码8398-8406,2018年。 10[27] Gary B. Huang, Manu Ramesh, Tamara Berg, and ErikLearned-Miller.野外标记人脸:用于研究非约束环境中的人脸识别的数据库.技术报告07-49,马萨诸塞大学,阿默斯特,2007年。 5[41] Tiziano Portenier, Qiyang Hu, Attila Szabo, Siavash Ar-jomand Bigdeli, Paolo Favaro, and Matthias Zwicker.77190[28] Rui Huang, Shu Zhang, Tianyu Li, and Ran He.超越人脸旋转:全局和局部感知GAN用于逼真和保持身份的正面视图合成.在IEEE国际计算机视觉会议(ICCV)上,页码2439-244
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功