AvatarMe：逼真可渲染的3D面部重建

102 浏览量更新于2023-10-24 收藏 4.1MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1AvatarMe：真实可渲染的3D面部重建Alexandros Lattas1，2Stylianos Moschoglou1，2Baris Gecer1，2Stylianos Ploumpis1，2 Vasileios Triantafyllou2Abhijeet Ghosh1Stefanos Zafeiriou1，21英国伦敦帝国理工学院2FaceSoft.io1{a.lattas，s.moschoglou，b.gecer，s.ploumpis，ghosh，s.zafeiriou}@ imperial.ac.uk2v. facesoft.io图1：从左到右：输入图像;预测反射率（漫反射、漫反射法线、镜面反射和镜面反射法线）;不同环境中的渲染重建，具有详细的反射;头部完成的渲染结果摘要Over the last years, with the advent of Generative Ad-versarial Networks (GANs), many face analysis tasks haveaccomplished astounding performance, with applicationsincluding, but not limited to, face generation and 3D facereconstruction from a single “in-the-wild” image.尽管如此，据我们所知，没有任何方法可以从“野外”图像中产生高分辨率的逼真的3D人脸，这可以归因于：(a) 缺乏可用于培训的数据，以及（b）缺乏可以成功应用于非常高分辨率数据的可靠方法在本文中，我们介绍了AvatarMe，第一种方法，能够重建逼真的三维人脸从一个单一的“在野外”的图像，增加了细节的水平。为了实现这一点，我们捕获了一个大的面部形状和反射率数据集，并建立在一个国家的最先进的三维纹理和形状重建方法，并成功地完善其结果，同时产生每像素的dif- fuse和镜面反射组件，所需的逼真渲染。正如我们在一系列定性和定量实验中所展示的那样，AvatarMe的表现远远优于现有技术，并从一张低分辨率图像中重建了真实的4 K x6 K分辨率的3D人脸，这是第一次跨越恐怖谷。1. 介绍三维人脸几何和纹理的重建是计算机视觉、图形学和机器学习交叉领域中最受欢迎和研究最多的领域之一。除了其无数的应用外，它还展示了扫描，学习和合成3D物体的最新发展的力量[3，44]。最近，主要由于深度学习的出现，在重建平滑的3D人脸几何形状方面取得了巨大的进展，甚至是从在任意记录条件下捕获的图像（也称为然而，即使几何形状可以被推断出一定程度的准确性，为了在任意虚拟环境中渲染重建的面部，需要比3D平滑几何形状更多的信息皮肤反射率以及高频法线。在本文中，我们提出了一个精心设计的管道重建高分辨率渲染准备的脸从图中展示了我们管道的结果。1.一、该领域的开创性工作是 3DMorphable Model（3DMM）拟合算法[3]。通过3DMM算法重建的面部纹理和形状总是位于由主成分分析（PCA）学习的线性基所跨越的空间中。线性基础，760761尽管该方法在再现人脸的基本特征方面效果显著，但在再现纹理和几何特征方面的高频细节时却失败了此外，PCA模型无法表示“在野外”捕获的面部纹理的复杂结构因此，3DMM拟合通常在“野外”图像上失败最近，3DMM拟合已经被扩展，使得其在鲁棒特征上使用PCA模型定向轮廓直方图（HoG）[8]，用于表示面部纹理[4]。该方法在从“野外”图像重建三维面部几何结构方面取得了显着的效果。然而，它不能准确地重建面部纹理。随着深度学习的出现，已经提出了许多使用编码器-解码器结构的回归方法来推断3D几何形状、反射率和照明[6，14，33，35，36，37，39，44]。一些方法表明，即使在CPU上实时重建形状和纹理也是可能的[44]。然而，由于各种因素，例如使用基本反射率模型（例如，朗伯反射模型）、在彩色网格上使用合成数据或网格卷积，这些方法[33，35，36，37，39，44]不能重建高度详细的纹理和形状，这些纹理和形状是可以渲染的。此外，在许多上述方法中，重建的纹理和形状丢失了原始图像的许多身份特征。可以说，第一个证明可以从单个“野外”图像重建高质量纹理和形状的通用方法GANFIT可以被描述为原始3DMM拟合策略的扩展，但具有以下差异：（a）代替PCA纹理模型，它使用在大规模高分辨率UV图上训练的生成对抗网络（GAN）[23]，以及（b）为了保留重建纹理和形状中的身份，它使用来自最先进的面部识别网络的特征[11]。然而，重建的纹理和形状不是渲染就绪的，这是由于（a）纹理包含烘焙照明，以及（b）不能重建高频法线或镜面反射。早期尝试从单个“野外”图像中推断真实感渲染就绪信息可以说，上述文件中展示的一些成果是高质量的。然而，这些方法并不普遍，因为：（a）它们直接操作和增强低质量和潜在遮挡的输入面部纹理，而不是重建它，结果，最终重建的质量总是取决于输入图像。(b)所采用的3D模型不是很有代表性，以及（c）非常少量的对象（例如，25[42]）可用于训练面部的高频细节。因此，虽然最接近我们的工作，这些方法侧重于eas-我们的工作目标是创建一个数字化身，而不是从“野外”图像中重建高质量的可渲染的面部在本文中，我们提出了第一个，据我们所知，从任意图像产生高质量的渲染准备人脸重建的方法。特别地，我们的方法建立在最近的重建方法（例如，GANFIT[14]）和与[6，42]相反，不将用于高频估计的算法应用于原始输入，其可能具有非常低的质量，而是应用于GAN生成的高质量纹理。使用光台，我们已经收集了具有超过200个子像素的反射率和几何形状的样本的大规模数据集，并且我们训练了可以执行（a）漫反射和镜面反射以及（b）漫反射和镜面法线的估计的我们证明，这是可能的，以产生渲染准备面对任意的脸（构成，闭塞等）。包括面部轮廓和面部素描，可以在任何环境下逼真地2. 相关工作2.1. 面部几何形状和反射率捕获Debevec等人[9]首先提出了采用特殊的光台设置来获取人脸的反射场，以用于基于照片真实感图像的重新照明应用。他们还利用获得的数据来估计一些视图相关的反射图进行渲染。Weyrich等人[41]采用LED球体和16个摄像机来密集地记录面部反射率，并从所获取的数据（包括每像素漫射和镜面反射率以及每区域镜面粗糙度参数）中计算出面部反射率的与视图无关的估计。这些最初的作品采用了面部反射率的密集捕获，这有点麻烦和不切实际。Ma等人[27]介绍了偏振球形梯度照明（使用LED球体），仅使用八张照片就可以有效获取面部的分离漫射和镜面反射以及照片测量法线，并展示了高质量的面部几何形状，包括皮肤细观结构以及所获取数据的逼真渲染。然而，由于他们在LED球体上采用了与视角相关的偏振模式，因此它仅限于正面随后，Ghosh etal.[15]通过采用两个正交球面偏振图案用于多视图面部获取的扩展偏振球面梯度照明。他们的方法允许从LED球体赤道周围的任何视点捕获分离的漫反射和镜面反射以及光度法向，并且可以被认为是高质量面部捕获方面的最先进技术。最近，Kampouris等人[22]演示了如何使用非偏振二元球面梯度照明，762图2：所提出的方法的概述。一个3DMM被适配到一个纹理被上采样8次，以合成合理的高频细节。然后，我们使用一个图像平移网络去光的纹理，并获得与高频细节的漫反射。然后，单独的网络从漫反射法线和3DMM形状法线推断出镜面反射法线、漫反射法线和镜面反射法线（在切线空间中）。网络在512×512块补丁上训练，推理在1536×1536块补丁上运行，带有滑动窗口。最后，我们将面部形状和一致推断的反射率转移到头部模型。脸部和头部都可以在任何环境中逼真地渲染使用颜色空间分析估计分离的漫射和镜面反射和光度法向。该方法具有不需要偏振的优点，因此与偏振球形梯度相比，需要一半数量的照片，并且能够实现完全与视图无关的反射分离，使得其对于高质量面部捕获更快且更鲁棒[24]。近年来，被动多视图面部捕获也取得了重大进展，从高质量的面部几何捕获[2]到甚至详细的面部外观估计[17]。然而，与主动照明技术相比，利用这种被动捕获方法所获取的数据的质量稍低在这项工作中，我们采用了两种最先进的基于主动照明的多视图面部捕获方法[15，24]来获取高质量的面部反射数据，以便构建我们的训练数据。2.2. 图像到图像翻译图像到图像转换指的是将输入图像转换到指定的目标域（例如，把素描变成图像，或者把白天变成夜景）。随着GAN的引入[16]，图像到图像的翻译显着改善[21，45]。最近，随着硬件能力的不断提高，图像到图像的转换也在高分辨率数据中成功尝试[40]。在这项工作中，我们利用pix2pixHD [40]的变体来执行诸如减光和以非常高的分辨率提取反射率图等任务。2.3. 面部几何形状估计多年来，在文献中已经引入了许多方法来解决从单个输入图像进行3D面部重建早期的方法需要统计3DMM的形状和外观，通常在PCA构建的低维空间中编码[3，4]。最近，许多方法都试图利用卷积神经网络（CNN）的力量来回归PCA模型的潜在参数[38，7]或使用UTI-3DMM来合成图像并使用CNN[18，31]来制定图像到图像的转换问题。2.4. 使用深度学习许多方法已经成功地从单个图像中获取材料的反射率，使用具有编码器-解码器架构的深度网络[12，25，26]。然而，它们仅在受限环境中探索2D曲面，通常假设单个点光源。人脸的早期应用[34，35]使用图像翻译网络从“野外”图像中推断面部反射最近的方法试图结合额外的面部法线和位移映射，从而产生具有高频细节的表示[6]。虽然这种方法在几何推断中展示了令人印象深刻的结果，但是它在具有苛刻照明和极端头部姿势的条件下往往失败，并且不产生可重新照明的结果。Saito等[32]提出了一种数据的深度学习方法763(a)输入使用具有部分面部覆盖的单个低分辨率面部图像的输入，对整个面部的高分辨率面部纹理图进行驱动推断，以进行真实感渲染。这已经扩展到面部细观结构的推断，给定漫射的纹理[20]，甚至除了纹理之外的完整面部反射和位移图，给定部分面部图像作为输入[42]。虽然与我们的工作最接近，但这些方法实现了数字化身的创建，而不是从在这项工作中，我们试图通过采用[14]中提出的迭代优化框架来该优化策略将深度人脸识别网络和GAN引入到传统的拟合方法中，以估计具有精细身份特征的高质量几何和纹理，然后可以用于产生高质量反射率图。3. 训练数据3.1. 地面实况采集(a) Diff. 白蛋白（b）规格白蛋白（c）差异也不是。(d)规格也不是。图3：使用[ 15 ]（顶部）和[ 22，24 ]（底部）获得的两个受试者切线空间中的镜面反射法线。我们采用[15]的最先进方法，使用具有168个灯（分为两个偏振组）和9个DSLR相机的偏振LED球体来捕获面部的高分辨率孔隙级反射率图。球体上的LED的一半是垂直偏振的（用于平行偏振），另一半是水平偏振的（用于交叉偏振），以交错的模式。使用LED球体，我们还可以采用来自非偏振LED的颜色空间分析[22]进行漫反射分离和[ 24 ]的多视图面部捕获方法来获取类似质量的未包裹纹理（图25）。（3）第三章。这种方法只需要捕获不到一半的数据（因此减少了捕获时间）和更简单的设置（没有偏振器），从而能够采集更大的数据集。3.2. 数据收集在这项工作中，我们在7种不同的条件下捕捉了200多个不同年龄和特征的个体的面孔。几何重建被注册到一个标准拓扑，如[5]中所示，其中展开的纹理为示于图3.第三章。我们将数据集命名为RealFaceDB。它是目前此类数据集中最大的一个，我们打算将其公开提供给科学界1。4. 方法(b) 差异白蛋白（c）规格白蛋白（d）差异或非（e）规格或非图4：使用[15]获取的主题的渲染补丁（[14]样），地面真值映射（顶行）和我们的网络作为输入的预测（底行）。为了实现人体皮肤的真实感渲染，我们分别对所需几何体的漫反射和镜面反射和法线因此，给定单个不受约束的面部图像作为输入，我们推断面部几何学以及 dif fusenormals （ ND ） 2 、 dif fusenormals（ ND ） 2 、specularnormals（ AS ）和specularnormals（NS）。参见图2，我们首先使用现有的3DMM算法[ 5 ]从低分辨率的单个图像重建3D人脸（具有纹理的基本几何形状）。然后，重建的纹理图，其中包含烘烤照明，是由一个超分辨率网络增强，其次是一个去光网络，以获得高分辨率的漫反射AD。最后，我们结合基本几何，从漫反射波AD中推断出其他三个分量（AS，ND，NS）以下各节将详细解释这些步骤。4.1. 初始几何和纹理估计我们的方法需要一个低分辨率的三维重建给定的人脸图像I。所以，我们先来看看，通过借用任何最先进的3D人脸重建方法（我们使用GANFIT[14] ），对具有 n 个顶点 S∈Rn×3 和纹理T∈R576×384×3除了使用深层身份特征外，GANFIT还使用GAN作为面部纹理的统计表示来合成逼真的纹理UV贴图我们如下重建输入图像I的初始基本形状和纹理1 关于数据集和其他材料，我们建议读者访问该项目https://github.com/lattas/avatarme2漫反射法线ND通常不用于商业渲染系统。通过推断ND，我们可以将反射建模为现有技术的镜面-漫射分离技术[15，24]。764DDDDR、DDD请读者参阅[14]以了解更多详情：T，S=G（I）（1）其中G：Rk×m×3→R576×384×3，Rn×3表示k×m×3[14]他们的训练，同时也有准确的地面真理的训练和正常。我们从所有视点计算每个主题的基于物理的渲染，使用预测的环境地图和预测的光源及其位置的随机变化，创建照明。GANFIT R的重建方法任意自动纹理贴图。我们把整个模拟过程大小的图像，以及固定拓扑上的n个顶点获得先决条件后，我们在程序上对其进行改进：从重建的几何S，我们获取形状法线N并增强面部纹理T分辨率，然后使用它们来估计分量由AD∈R6144×4096×3→AT∈R6144×4096×3，将漫反射转换为纹理的分布使用烘焙照明，如下所示：AT=<$（AD）<$E t ∈{T，T，.，T}t （3）D对于基于物理的渲染，例如漫射和光谱，12N曲面漫反射和法线。4.2. 超分辨率虽然GANFIT的纹理T∈R576×384×3[14]有相当好的质量，它低于标准杆-艺术家制作的可渲染的3D面孔。为了弥补这一点，我们采用了最先进的超分辨率网络RCAN[43]，以提高UV图的分辨率，4.3.2训练减光网络给定模拟照明，如第2节所述 4.3.1中，我们现在可以访问带有类似[14]的照明AT和相应的dif-fuse照明AD的RealFaceDB版本。我们将去光照问题描述为一个自适应问题，并训练一个图像到图像的翻译网络。为此，我们遵循两种不同于标准图像翻译方法的策略T∈R576×384×3到T∈R4608×3072×3，则为拓扑化和上采样到R6144×4096。具体来说，我们用获取的低分辨率纹理T的纹理块训练一个超分辨率网络（R：R48×48×3<$→R384×384×3）。在测试时，GANFITT的整个纹理通过以下方式升级：T=（T）（2）4.3. 用去光照法提取漫反射率首先，我们发现，皮肤表面是几何形状相关的，因此当向网络馈送3DMM的纹理和几何形状时，所得到的纹理在质量上得到改善。要做到这一点，我们只需将纹理AT通道归一化为[-1，1]，并将它们与对象空间中的网格深度DO连接起来，也在[-1，1]中。深度（D0）被定义为UV贴图中所获取和对齐的几何体的顶点的Z维度。我们把4D的10-3DMM产生纹理T[AT]排序ATATDGDB，DO]并预测结果3-它们是在具有烘焙照明的数据上训练的（即，他们所创造的，他们所复制的。GANFIT生成的纹理包含由强点光源产生的尖锐高光和阴影，以及烘焙环境照明，这禁止了照片级真实感渲染。为了缓解这个问题，我们首先对[ 14 ]中使用的数据集的照明条件进行建模，然后合成具有相同照明的UV映射，以便训练从具有背景照明的纹理到未照明的纹理的图像到图像转换网络。进一步详情于以下各节解释。4.3.1模拟烘焙照明首先，我们从GANFIT获取随机纹理和网格输出。使用角膜模型[28]，我们估计所使用的表观3点光源相对于主体的平均方向，以及纹理T的环境图。环境贴图对GANFIT因此，我们呈现了我们获得的200个受试者（第3节），就好像它们是来自通道间[ADR，ADG，ADB]。或者，我们还可以使用与对象空间（N/O）中的法线连接的纹理A/T作为输入。我们发现，只向网络提供纹理贴图会导致推理中的伪影。其次，对原始高分辨率数据进行分割为了增加数据样本的数量并避免过拟合，将数据分割成512×512像素的重叠块。为了从T中恢复现有的照明，我们训练具有补丁δ的图像到图像平移网络：AT ，DO<$→AD∈R512×512×3，然后通过以下方式提取扩散的散斑AD：AD=δ（T，DO）（4）4.4. 镜面反射率提取背景：从照明纹理T_i或推断的反射系数A预测整个镜面BRDF和每像素镜面粗糙度构成了不必要的挑战。如[15，22]所示，可以仅使用镜面反射A S的强度来真实地渲染对象，由于皮肤的折射率，镜面反射AS的强度在面部上是一致的。空间变化与面部皮、765肤结构（诸如皮肤毛孔、皱纹或毛发）相关，其充当反射遮挡，从而降低镜面反射强度。766DDDD方法学：原则上，镜面反射也可以从具有烘焙照明的纹理计算，因为纹理包括烘焙镜面反射。然而，我们经验性地发现，由于环境照明和遮挡，镜面反射分量是强烈偏置的从上一步计算出高质量的漫反射系数AD后，我们通过下式推断镜面反射系数AS：a similar patch-based image-to-image translation networkfrom the diffuse albedo (ψ : AD ›→ AS ∈ R512×512×3)trained on RealFaceDB:AS=AD（5）结果（图1A。4a，4d）显示了网络如何区分头发和皮肤之间的强度，同时学习空间NT到镜面法线NS。通过以下方式提取镜面反射法线：NS=ρ（Agray，NT）（6）4.6. 漫反射法线提取背景：漫反射法线与形状法线高度相关，因为漫反射均匀地散布在蒙皮上。疤痕和皱纹改变了扩散的分布和一些非皮肤特征，如头发，不表现出显着的扩散。方法论：与上一节类似，我们训练一个网σ：Agray，NO<$→ND∈R512×512×3来映射D从孔隙发生的高频变化灰色和排除镜面反射。4.5. 镜面反射法线提取背景：镜面法线表现出尖锐的表面细节，如细小的皱纹和皮肤毛孔，并且很难估计，因为一些高频细节的外观取决于纹理的照明条件和视点。以前的工作未能预测高频细节[6]，或者依赖于在两个单独的地图中分离中频和高频信息，因为生成器网络可能会将高频作为噪声丢弃[42]。相反，我们证明了在大型高分辨率训练数据集上使用具有特征匹配损失的图像到图像转换网络是可能的，这会产生更详细和准确的结果。方法学：类似于镜面反射的过程，我们更喜欢漫反射而不是重建的纹理图T_xue ，因为后者包括被网络错误地解释为面部特征的尖锐高光。此外，我们发现，即使漫反射是从镜面反射剥离，它包含面部皮肤结构，定义中频和高频的细节，如毛孔和皱纹。最后，由于面部特征类似地分布在颜色通道上，因此我们发现，代替dif fuse_rendo_A_D ，我们可以使用亮度变换的（在sRGB中）灰度dif fuse_rendo（A_gray）。同样，我们发现，当网络接收到详细的漫反射AD以及较低分辨率的几何信息（在这种情况下，形状法线）时，它成功地此外，由此产生的高频细节当使用切线空间（NT）中的法线时，由于大多数商业应用需要切线空间中的法线，因此其也用作更好的输出我们训练一个翻译网络ρ：Agray，NT <$→NS，灰度漫射图像AD对象空间中的形状法线与漫反射法线不相关ND. 不同的法线如下所示ND=σ（Agray，N0）（7）最后，推断出的法线可以用于通过细化其特征和添加合理的细节来增强重建的几何体。我们在切线空间中对镜面法线进行积分，并生成一个置换贴图，然后可以在细分的基础几何体上进行浮雕。5. 实验5.1. 实现细节5.1.1基于块的图像到图像翻译(a) 输入（b）重建。（c）S.R. （d）喜悦（e）最终图5：（b）基础重建，（c）超分辨率，（d）减光，（e）最终结果后的渲染。减光的任务，以及从给定的输入图像（UV）的漫反射和镜面反射分量的推断，可以制定为域适应问题。因此，为了执行上述任务，我们选择的模型是pix2pixHD [40]，它在高分辨率数据的图像到图像转换中显示出令人印象深刻的结果。然而，如前所述：（a）我们捕获的数据具有非常高的分辨率（超过4K），因此由于硬件限制，不能用于使用pix2pixHD的“原样”训练（注意，即使在32GBGPU上，我们也不能以原始格式适应这种高分辨率数据），（b）∈R512×512×3D为了映射灰度级的串联，pix2pixHD [40]只考虑纹理信息，弥漫性灰A形状法线相切信息和几何细节，以形状的形式，767D(a) 输入（b）差异白蛋白（c）规格白蛋白（d）标准（e）渲染图7：我们的算法在不同光照条件下的一致性。来自Digital Emily Project的输入图像[1]。输入。如前所述，这通过强调翻译输出中的细节而大大改善(a)输入（b）大教堂（c）日落（d）隧道图6：我们的方法的重建在添加了聚光灯的不同环境贴图[10]下重新照亮不能利用法线和深度来改进所生成的漫射和镜面反射分量的质量。为了克服上述缺点，我们：（a）将原始高分辨率数据分割成512×512大小的小块。更具体地说，使用一个步幅大小256，我们推导出部分重叠的补丁通过-通过每个原始UV水平和垂直，（b）对于每个转换任务，我们利用形状范数，将它们与相应的灰度纹理输入逐通道连接（例如，在将漫反射法线转换为镜面法线的情况下，我们将灰度漫反射法线与形状法线逐通道连接，从而将4D张量（[G，X，Y，Z]）馈送到网络。这增加了衍生输出中的细节级别，请注意，在推断过程中，补丁大小可以更大(e.g.1536×1536），因为网络是全卷积的。5.1.2训练设置为了训练RCAN[43]，我们使用默认的超参数。对于模型的其余翻译，我们使用前面描述的自定义翻译网络，该网络基于pix2pixHD [40]。更具体地说，我们在全局和局部生成器中分别使用9个和3个我们使用的学习率是0。0001，而亚当是0。β1和β0的值为5。999为β2。此外，我们没有使用VGG特征匹配损失，因为这会略微降低性能。最后，我们使用3和4通道张量作为输入，其包括形状法线N0或深度D0以及图像的RGBAD或灰度A灰度值5.2. 评价我们进行定量和定性比较，以及对国家的最先进的isons。对于定量比较，我们使用广泛使用的PSNR度量[19]，并在表1中报告结果。可以看出，我们的方法明显优于[6]和[42]。此外，使用最先进的人脸识别算法[11]，当使用我们的方法时，与输入图像相比，我们还找到了面部身份的最高匹配。将输入图像与具有重建几何形状和反射率的面部（包括眼睛）的渲染进行比较。为了进行定性比较，我们对“野外”图像进行3D重建如图如图8和图9所示，我们的方法在最终渲染中不产生任何伪影，并且成功地处理了极端姿势和遮挡，例如太阳镜。我们从高分辨率输入中以基于块的方式推断纹理图，这比[6，42]产生更高质量的细节，后者在高质量扫描上训练，但以较低的分辨率推断整个面部的地图这在图1中也是显而易见的。5，它显示了我们的重建后，我们的过程的每一步。此外，我们可以成功地从黑白图像中获取每个分量（图1）。9），甚至绘制肖像（图。（八）。此外，我们实验了不同的环境条件下，在输入图像和渲染。如图所示。7、无论原始输入图像上的照明如何，提取的法线、漫反射和镜面反射都是一致的最后图6示出了在不同环境下呈现的不同子图。我们可以真实地照亮每个场景中的每个主体，并准确地重建环境反射率，包括详细的镜面反射和次表面散射。除了面部网格之外，我们还能够基于通用头部模型（UHM）推断整个头部拓扑结构[29，30]。我们将我们的面部网格投影到一个子空间，回归头部的潜在参数，然后最终得到完整的头部模型与完整的纹理。图1、图2中可以看到一些定性的头部完井结果。768(a) 输入（b）特克斯。[6]（c）无。[6]美国(d)阿尔布[42] (e)S.A. [42]（f）我们的检察官（g）Ours S.A.（h）我们的S.N.图8：我们的方法预测的反射率图与最先进的方法的比较。[42]重建是由作者和[6]从他们的开源模型提供的最后一列被裁剪以更好地显示细节。当我们重建例如深色皮肤的对象。此外，重建的镜面反射和法线表现出一些高频孔隙细节的轻微模糊，这是由于所需数据与模板3DMM模型的微小对准误差最后，面部重建的准确性并不完全独立于输入照片的质量，光线充足、分辨率较高的照片会产生更准确的结果。(a)投入（b）[42]（c）[6]（d）我们的投入图9：在Grace Cathedral环境中渲染的“野外”图像重建主题的定性比较[42]作者提供的重建和[6]从他们的开源模型。算法[42][6]我们峰值信噪比（反照率）11.22514.37424.05峰值信噪比（正态）21.88917.32126.97[11]第十一话0.6320.6290.873表1：在来自“野外”图像的同一受试者的6次重建和使用[ 24 ]捕获的地面实况之间为单个受试者计算的平均PSNR我们将[6，42]结果转换为我们的UV拓扑，并仅计算2K×2K中心裁剪，因为它们仅生成面部的前部并手动添加眼睛[42]。5.3. 限制虽然我们的数据集包含相对大量的受试者，但它不包含来自某些种族的足够的子样本。因此，我们的方法目前6. 结论在本文中，我们提出了第一种方法，从任意的“在野外”图像产生高质量的渲染准备人脸重建我们建立在最近提出的3D人脸重建技术和训练图像转换网络，可以执行高质量的估计（a）漫射和镜面反射，（b）漫射和镜面法线。这是有可能与一个大的训练数据集的200张脸获得高品质的fa-cial捕捉技术。我们证明，这是可能的，以产生渲染准备的脸从任意人脸图像不同的姿态，遮挡等，包括黑白和手绘肖像。我们的结果在重建中表现出前所未有的细节和真实感水平，同时在输入照片中保留了主体的身份。确认AL 由 EPSRC 项目 DEFORM （ EP/S 010203/1 ）支持，SM由帝国理工学院FATA支持。AG感谢EPSRC早期职业奖学金（EP/N 006259/1）和SZ来自Google Fac-Ticket Fellowship和EPSRC Fellowship DEFORM（EP/S010203/1）的资助。769引用[1] Oleg Alexander、Mike Rogers、William Lambeth、Jen-Yuan Chiang 、 Wan-Chun Ma 、 Chuan-Chang Wang 和Paul De- bevec。数字艾米丽项目：实现逼真的数字演员。 IEEE Computer Graphics and Applications ， 30（4）：20-31，2010. 7[2] 塔博·比勒、贝恩德·比克尔、保罗·比尔兹利、鲍勃·萨姆纳和马库斯·格罗斯。高质量的面部几何形状的单镜头捕捉。ACM Transactions on Graphics（TOG），29（3）：40：1-40：9，2010. 3[3] Volker Blanz，Thomas Vetter，et al.三维人脸合成的可变形模型。在Siggraph，第99卷，第187-194页，1999中。第1、3条[4] James Booth 、 Epameinondas Antonakos 、 StylianosPloumpis 、 George Trigeorgis 、 Yannis Panagakis 和Stefanos Zafeiriou。3d脸变形模型“在野外”。2017年IEEE计算机视觉和模式识别会议（CVPR），第5464-5473页。IEEE，2017年。二、三[5] James Booth、Anastasios Roussos、Stefanos Zafeiriou、Allan Ponniah和David Dunaway。从10，000张面孔中学习的3D变形模型在IEEE计算机视觉和模式识别会议论文集，第5543- 5552页，2016年。4[6] Anpei Chen ， Zhang Chen ， Guli Zhang ， KennyMitchell，and Jingyi Yu.从单张图像合成照片般真实的面部细节在IEEE计算机视觉国际会议（ICCV），2019年10月。二三六七八[7] Forrester Cole、David Belanger、Dilip Krishnan、AaronSarna、Inbar Mosseri和William T Freeman。从面部身份特征合成归一化的面部。在IEEE计算机视觉和模式识别会议论文集，第3703-3712页，2017年。3[8] Navneet Dalal和Bill Triggs。用于人体检测的定向梯度的直方图。2005. 2[9] Paul Debevec 、 Tim Hawkins 、 Chris Tchou 、 Haarm-Pieter Duiker、Westley Sarokin和Mark Sagar。获取人脸的反射场。在第27届计算机图形和交互技术年会论文集，第145-156页。ACM Press/Addison-Wesley Publishing Co. 2000. 2[10] Paul Debevec 、 Tim Hawkins 、 Chris Tchou 、 Haarm-Pieter Duiker、Westley Sarokin和Mark Sagar。获取人脸的反射场。在第27届计算机图形和交互技术年会论文集，第145-156页。ACM Press/Addison-Wesley Publishing Co. 2000. 七、八[11] 邓健康，贾国，薛念南，Stefanos Zafeiriou。Arcface：用于深度人脸识别的附加角度余量损失。在IEEE计算机视觉和模式识别会议论文集，第4690- 4699页，2019年。二七八[12] Valentin Deschaintre 、 Miika Aittala 、 Fredo Durand 、George Drettakis和Adrien Bousseau。使用渲染感知深度网络的单图像 svbrdf 捕获。 ACM Transactions onGraphics（ToG），37（4）：1-15，2018。3[13] Baris Gecer ， Alexander Lattas ， Stylianos Ploumpis ，Jiankang Deng ， Athanasios Papaioannou ， StylianosMoschoglou，and Stefanos Zafeiriou.利用主干-分支生成对抗网络合成耦合三维人脸模型。arXiv预印本arXiv：1909.02215，2019。1[14] Baris Gecer ， Stylianos Ploumpis ， Irene Kotsia ， andStefanos Zafeiriou.Ganfit：用于高保真3D人脸重建的生成对抗网络拟合。在IEEE计算机视觉和模式识别会议集，第1155-1164页，2019年。一、二、四、五[15] AbhijeetGhosh，GrahamFyffe，BoromTunwattanapong ， Jay Busch ， Xueming Yu ， and PaulDebevec.使用偏振球面梯度照明的多视图人脸捕获。ACMTransactions on Graphics（TOG），第30卷，第129页。ACM，2011年。二三四五[16] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在神经信息处理系统的进展，第26723[17] PauloGotardo ， Je're'myRiviere ， DerekBradley ，AbhijeetGhosh和Thabo Beeler。实用的动态人脸外观建模与获取。ACM事务处理图表，37（6），2018年12月。3[18] 郭玉东，蔡建飞，姜博一，郑建民，等。基于cnn的真实感人脸图像实时稠密重构。IEEE transactions onpattern analysis and machine intelligence ， 41 （ 6 ）：12943[19] Alain Hore和Djemel Ziou图像质量指标：Psnr vs. 2010年第20届国际模式识别会议，第2366-2369页。IEEE，2010。7[20] Loc Huynh，Weikai Chen，Shunsuke Saito，Jun Xing，Koki Nagano，Andrew Jones，Paul Debevec，and HaoLi.使用深度神经网络的介观面部几何推断在IEEE计算机视觉和模式识别会议论文集，第8407-8416页二、四[21] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros.使用条件对抗网络的图像到图像翻译。在IEEE计算机视觉和模式识别会议论文集，第1125-1134页，2017年。3[22] 克里斯·坎普里斯，斯特凡诺斯·扎菲里乌，阿比吉特·戈什。使用二元球面梯度照明的漫反射分离。在EGSR（EI I）中，第1二、四、五[23] Tero Karras ， Timo Aila ， Samuli Laine ， and JaakkoLehtinen.为提高质量、稳定性和变异性而进行的干细胞生长。arXiv预印本arXiv：1710.10196，2017。2[24] Alexander Lattas，Mingqian Wang，Stefanos Zafeiriou，and Abhijeet Ghosh.使用二进制球面梯度照明的多视角人脸捕捉。 ACM SIGGRAPH 2019 海报，第 59 页。ACM，2019年。三、四、八[25] 小李、岳东、皮特·皮尔斯、心彤。使用自增强卷积神经网络从单张照片建模表面外观。ACM Transactions onGraphics（TOG），36（4）：1-11，2017。3770[26] 李正勤，Kalyan Sunkavalli，Manmohan Chan- draker.体量材料：用手机采集单个Svbrdf图像。在欧洲计算机视觉会议（ECCV）的会议中，第723[27] Wan-Chun Ma ， Tim Hawkins ， Pieter Peers ， Charles-Felix Chabert，Malte Weiss，and Paul Debevec.从偏振球面梯度照明中快速获取镜面反射和漫反射法线贴图。在关于渲染技术的第18届欧洲图形会议的会议录中，第183194.欧洲制图协会，2007年。2[28] 西野高和 Shree K Nayar 。重新点亮的眼睛 ACMTransactions on Graphics （ TOG ）， 23 （ 3 ）： 704-711，20

下载后可阅读完整内容，剩余1页未读，立即下载