FaceVerse：基于混合数据集的细粒度和可控3D人脸可塑模型

148 浏览量更新于2023-10-25 收藏 20.53MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

203330FaceVerse：基于混合数据集的细粒度和可控3D人脸可塑模型0Lizhen Wang 1，Zhiyuan Chen 2，Tao Yu 1，Chenguang Ma 2，Liang Li 2，Yebin Liu 10清华大学1，中国北京蚂蚁金服2，中国杭州0图1. 我们的混合数据集，FaceVerse的基础模型和详细模型，以及我们的单图像拟合结果。0摘要0我们提出了FaceVerse，一种细粒度的3D神经人脸模型，它是由包含60K个融合的RGB-D图像和2K个高保真度3D头部扫描模型的东亚人混合数据集构建而成。我们提出了一种新颖的由粗到细的结构，以更好地利用我们的混合数据集。在粗模块中，我们从大规模的RGB-D图像生成一个基础参数模型，能够预测不同性别、年龄等的精确粗糙的3D人脸模型。然后在细模块中，引入了一个使用高保真度扫描模型训练的条件StyleGAN架构，以丰富精细的面部几何和纹理细节。请注意，与以前的方法不同，我们的基础模块和详细模块都是可变的，这使得调整3D人脸模型的基本属性和面部细节成为可能。此外，我们提出了一个基于可微渲染的单图像拟合框架。丰富的实验证明了我们的方法优于现有方法。01. 引言03D人脸建模一直是计算机视觉和计算机图形学中的热门研究课题，它可以应用于电影、视频游戏、混合现实等各种应用领域。自3D可塑模型（3DMM）[4]在1999年提出以来，它一直是面部相关研究中最强大的工具之一。0自1999年提出以来，3DMM一直是面部相关研究中最强大的工具之一，因为它能够有效地控制面部形状、表情和纹理。然而，最近的研究对3DMM提出了更高的要求，包括准确性、照片般逼真的细节和可编辑性。一方面，3DMM的性能受到数据采集的困难的限制。另一方面，对于粗糙的面部模型来说，详细的面部几何和纹理仍然无法改变，这限制了对面部特征的详细调整。为了克服上述问题，我们提出了一个混合数据集，并设计了一个由粗到细的结构，以结合高泛化能力和保真度。此外，面部几何和纹理细节，如面部特征的微小变化，也可以是可变参数的。0在光谱的一端，现有的3D人脸数据集通常在规模或保真度方面存在限制。捕捉系统可以分为两类：稀疏或密集的相机阵列[6, 19, 26, 31, 43]和消费级深度传感器[8, 18, 30,45]。前一种系统需要精心的设置，数据收集过程非常耗时，这限制了捕获数据集的规模在几百个左右。后一种系统是现成的，数据采集时间较短，可以从大量身份中收集RGB-D数据。然而，捕获的RGB-D数据通常分辨率低、精度低。规模或保真度的不足限制了203340以往的研究在泛化性能或保真度方面的表现都不理想。因此，我们提出构建一个混合数据集。另一方面，以往的3DMM的表达式无法表示可变参数的面部细节。基于PCA的方法[6,18, 27, 30,45]可以有效地描述形状和表情的变化。多线性方法[8,31]提供了更大的参数空间，以涵盖更多相应数据集的信息。非线性方法[21,40]使用神经网络实现更好的灵活性。然而，以上所有方法都无法表示面部细节，如面部特征的详细形状。最近的方法[26,43]在3D细粒度面部模型重建方面表现出强大的能力，但仍然依赖于预训练的超分辨率或位移预测网络，这意味着面部细节不可变。总之，尚未提出具有可变面部细节的3DMM表示。为了克服上述限制，在本文中，我们提出了FaceVerse，它使用混合数据集实现了高泛化能力和保真度，并且可以生成可变参数的面部细节。首先，我们收集了一个由消费级深度传感器捕获的大规模数据集和一个由多摄像机系统捕获的高保真度数据集组成的东亚人混合数据集。其次，我们提出了一个由粗到细的结构来设计我们的参数模型。基础模型首先从大规模数据集构建，这保证了基础模型的强大泛化能力和基本保真度。然后，我们使用从基础模型展开的UV贴图作为输入，使用一种新颖的条件StyleGAN架构构建我们的详细模型，该模型可以在保留输入基础模型提供的基本面部属性的同时，通过输入附加的潜在代码和噪声生成可变的面部细节。与原始的StyleGAN [22,23]不同，我们的生成器利用从输入贴图编码的多尺度特征来约束输出贴图，并且我们使用额外的法线鉴别器进一步丰富几何细节。请注意，在两个阶段使用了两个条件StyleGAN网络：细节生成和表情细化。最后，我们提出了一个基于可微渲染的单图像拟合流程，也遵循由粗到细的思想。由于混合数据集、由粗到细的结构和新颖的条件StyleGAN架构的优势，所提出的FaceVerse在定性和定量上都表现出比以前的3DMM方法更好的性能。我们的贡献总结如下：0•我们构建了一个混合数据集，并提出了一个粗到细的方案，以更好地利用数据集：大规模的RGB-D数据集保证了我们基础模型的高泛化能力，高保真度的扫描数据集有助于丰富我们详细模型的几何和纹理细节。0•我们提出了一个带有法线判别器的条件StyleGAN架构，可以在保留基本面部属性的同时改变面部细节。0•所提出的FaceVerse为东亚人脸建模提供了强大的工具，我们已经发布了我们的预训练模型和详细数据集供公众研究使用1。02. 相关工作03D面部可变模型。3D面部可变模型（3DMM）自1999年Blanz等人首次提出以来，一直是计算机视觉中的一个长期研究课题。3DMM最初通过PCA算法被形式化为线性模型，可以表示3D面部模型的形状和纹理。随后的研究[2，5，8，26，28，30，43]使用更大的3D面部数据集改进了性能。此外，还提出了包括多线性和非线性模型在内的新表示方法[7，25，26，29，35，39，40，42]。最近的3D面部数据集在身份和表情方面显示出更高的多样性。LSFM[5]是从包含10,000个面部扫描的大型3D面部数据集构建的，并在面部形状拟合方面显示出更好的泛化能力。同时，还收集了具有丰富表情的3D面部数据集，将面部表情基础融入到3DMM中[2，8，28，42，43]。此外，随着像密集相机阵列这样的精细捕捉系统的发展，最近的3DMM方法[2，26，43]在3D面部建模方面展示出更高的准确性。除了在3D面部数据集方面的改进，还提出了新的建模机制以获得更好的性能和灵活性。Vlasic等人[42]首次提出了一个多线性模型，共同估计身份和表情的变化，Cao等人[8]和Yang等人[43]构建了综合的双线性模型，将面部网格分解为身份和表情两个维度。最近，还提出了非线性模型，以实现自适应和高级面部变形。Neumann等人[29]将捕捉到的面部网格序列分解为稀疏和局部的变形组件。随着神经网络的发展，生成对抗网络（GAN）也被用于构建非线性的3DMM[1，16，26，39]，其面部表示可以通过高级语义来控制。0基于3DMM的单目面部重建。基于3DMM的单目3D面部重建在面部对齐[14，17，48]和面部视图合成[15，47]等许多应用中起着重要作用。在3DMM的辅助下，3D面部重建任务01 https://github.com/LizhenWangT/FaceVerse203350可以简化为模型拟合问题。早期的方法[30，33，37]主要尝试使用面部标志点或其他面部特征回归3DMM的参数。然后，卷积神经网络被用来直接从输入的面部图像中预测参数[12，14，17，36，41，48]。最近，基于可微分渲染的自监督方法[10，11]被提出，并在从单个面部图像拟合3D面部模型方面表现出很好的性能。基于模型参数预测的上述方法在表示面部细节方面有限，因此提出了多层细化结构来重建详细的面部模型。最近的研究[9，13，20，32，34，38，43]首先通过模型参数预测生成粗糙的面部模型，然后通过调整渲染的深度或预测位移图来细化面部细节。Lin等人[2]通过调整反照率和法线图优化生成高保真度的模型。然而，这些研究中的详细面部特征仍然无法进行参数更改，这限制了3D面部模型中面部细节的调整。与最先进的3DMM和单目面部重建方法相比，我们的方法在以下几个方面具有优势：（a）我们的模型是基于混合数据集构建的，其中包含大规模的粗糙数据集和高保真的详细数据集；（b）我们提出了一个由基于PCA的模型和基于条件StyleGAN的非线性模型组成的粗到细模型；（c）我们基于可微分渲染的粗细模型拟合流程不仅可以从野外面部图像重建高保真度的3D面部模型，还可以生成可以通过我们的详细参数调整的面部细节。03. 混合数据集03.1. 粗糙数据集0我们选择结构光深度传感器从志愿者那里收集粗糙的3D人脸数据，这种传感器在1米以下的距离上表现比基于飞行时间的设备更好。与密集相机阵列相比，结构光深度传感器成本更低，更方便进行并行设置，可以从大量身份中收集RGB-D数据。在实践中，如图2.a所示，我们为每个志愿者收集约5个RGB-D帧，并通过ICP配准将这些帧融合成平滑的人脸点云。每个志愿者的整个采集过程只需要5到10秒钟。在几家数据采集公司的协助和并行捕获的帮助下，我们最终在数据清理后获得了6万个东亚人的纹理人脸点云。志愿者在采集过程中需要保持中性表情，以确保表情数据分布的一致性。0图2. 粗糙数据采集过程和我们粗糙数据集的年龄和性别分布。0为了生成一个拓扑统一的参数化模型，我们使用预设计的3D人脸模板网格来拟合点云。我们首先使用OpenSeeFace2从捕获的RGB图像中检测人脸关键点，并将其投影到融合的点云上。然后我们通过3D关键点将点云粗略地对齐到我们的模板网格。最后，我们使用非刚性ICP算法[24]将模板网格变形到对齐的点云上。年龄和性别的分布如图2.b所示。03.2. 详细数据集0我们的3D扫描模型采集相机系统由128台配备85mm镜头的数码单反相机组成，距离志愿者约2.5米，如图3所示。相机以16根柱子的圆柱形排列，每根柱子上有8台相机，类似于[44,46]中的高质量全身扫描系统。在数据采集过程中，会从不同的视角同步采集128张分辨率为6000×4000的图像。我们遵循FaceWarehouse[8]的数据采集过程，志愿者需要进行包括中性表情在内的21种特定表情。我们最终收集了2310个训练用的扫描模型（21种表情中的110个身份）和378个测试用的扫描模型（21种表情中的18个身份），已经公开发布供研究目的使用。在数据采集后，将3D扫描模型拟合到我们的拓扑统一模板上。首先，通过将2D关键点投影到3D扫描模型上，在刚性ICP对齐时标记3D关键点。我们使用从粗糙数据集（第4.1节）生成的基础模型来拟合具有相应3D关键点的扫描模型。然后，将拟合的模型在UV空间中上采样（从200×200到1024×1024），以供后续配准使用。最后，我们使用非刚性ICP[24]对拟合的模型进行详细变形。02 https://github.com/emilianavt/OpenSeeFace(2)203360图3.我们的数据采集相机系统，以及详细的3D扫描模型和相应的配准结果。04. FaceVerse模型0我们提出了一种从混合数据集中生成提出的FaceVerse模型的粗到精的方案：我们通过PCA从大规模的粗糙数据集构建基础模型，并通过我们的有条件StyleGAN网络从高保真的详细数据集构建详细模型。此外，我们还提出了基于可微渲染的单图像拟合框架。04.1. 基础模型生成0我们使用经典的数据降维算法PCA从大规模的粗糙数据集构建形状和纹理模型，这保证了高泛化能力和基本保真度。我们的基础模型保留了前100个形状主成分和前200个纹理主成分。需要注意的是，为了改善我们在粗糙的RGB-D帧中几乎看不到的脸颊上的性能，我们将从详细数据集中学习到的前20个形状主成分添加到基础形状模型中。因此，我们的基础模型可以用形状参数p shape = {s1, s2, ..., sm} ∈Rm和纹理参数p tex = {t1, t2, ..., tk} ∈ Rk来表示：0S base = S +0i = 1 s i α i T base = T +0i = 1 t i β i (1)0其中m = 120，k =200，S和T表示平均形状和纹理。形状和纹理的主成分由形状向量{α 1 , α 2 , ..., α m}和纹理向量{β 1 , β 2 , ..., βk}表示，其中α i ∈ R 3 n和β i ∈ R 3n（n表示顶点数）。由于粗糙面是在中性表情下捕获的，表情模型是使用PCA从详细数据集生成的。我们的表情基础模型使用了前64个主成分，可以表示为0通过表情参数p exp = {e 1 , e 2 , ..., e l} ∈ R l和表情向量{γ1 , γ 2 , ..., γ l}，其中l = 64且γ i ∈ R 3n，我们的基础模型可以表示为0M base = {S, T | S = S +0i = 1 s i α i+0i = 1 e iγ i,0T = T +0i = 1 t i βi0由于大规模粗糙数据集的帮助，我们的基础模型在定量上适应不同年龄和性别的面部具有很强的性能。然而，我们的基础模型无法保留面部几何和纹理细节，这些细节将由后续的详细模型生成。04.2. 详细模型生成0如图4所示，为了融入更多详细的面部几何和纹理，我们提出了一个神经表示的详细模型，它可以更好地利用详细数据集。首先，将基础模型展开到UV空间并上采样到1024×1024以便于后续处理。整个细化工作分为形状和纹理细化部分和表情细化部分。为了在保留基础模型提供的基本面部属性的同时更好地生成面部细节，我们提出了一个条件StyleGAN网络。如图5所示，我们采用StyleGAN的生成器、映射网络和噪声注入模块，并设计了一个额外的编码器来编码输入UV贴图的多尺度特征。多尺度特征作为条件输入添加到生成器中，有助于约束输入和输出UV贴图的相似性。此外，我们在条件StyleGAN中使用了两个判别器：一个判别器输入输入和输出UV贴图，有助于生成更多细节并约束输入和输出贴图的相似性；另一个普通判别器输入从输出几何计算得到的UV法线贴图，有助于生成更多几何细节并约束相邻点的合理邻域关系。输入的细节潜在编码z ∈ R512是从标准正态分布中采样得到的，将通过映射网络解缠为样式输入。同时，随机噪声被注入以丰富像胡须和眉毛这样的微小细节。在形状和纹理细化部分，我们使用条件StyleGAN G detail生成面部几何和纹理细节。首先，将中性表情下的输入基础模型M base展开为几何UV贴图S base和纹理UV贴图Tbase。注意，我们认为几何细节和纹理细节应该具有很强的相关性，因此将几何和纹理UV贴图连接成一个6通道输入Cdetail。由于几何和纹理通道的联合训练，输出(3)203370图4. FaceVerse模型生成流程。使用基础PCA模型，首先将基础模型M base展开为UV贴图。然后，细节生成器G detail通过额外的潜在编码zdetail和注入的噪声来丰富面部细节。最后，表情相关的几何变化将通过另一个表情细化生成器Gexp进行进一步优化，该生成器输入额外的潜在编码z exp和注入的噪声。0图5. 我们条件StyleGAN网络的架构。0几何形状和纹理相互影响，进一步促进了后续的详细几何形状拟合（第4.3节）。G detail的输入和输出UV贴图的12通道连接输入到鉴别器 D detail，3通道的法线贴图连接输入到法线鉴别器 Dn detail。如第5.3节所讨论的，输出的详细模型 M detail显示了细粒度的面部几何形状和纹理细节，可以通过 zdetail和注入的噪声进行控制。此外，输入基本模型提供的基本形状和纹理仍然保留。G detail的训练中使用的损失项可以表示为0L detail = λ s ∥ S base − S detail ∥2 +0λ t ∥ T base − T detail ∥ 2 + L GAN0其中 L GAN 表示StyleGAN提供的鉴别器 D detail 和 Dndetail的对抗性损失项和路径长度正则化项。请注意，我们的训练过程是不完全监督的，因此使用的训练数据不仅包含来自详细数据集的数据对，还包括从粗糙数据集生成的条件UV贴图，这进一步保证了我们的细节生成器 G detail的有效插值能力。在表情细化部分，类似微笑嘴巴的详细表情相关几何变化将由另一个条件StyleGAN网络 G exp进一步细化。给定中性表情下的详细几何UV贴图 S detail和由0UV偏移图 E base ，G exp将细化详细的几何形状，同时保留基本形状和表情。具体来说，6通道的条件输入 C exp 包括基本几何形状，即 Sdetail 和 E base 的总和，以及额外的表情偏移 E base，其中基本几何输入用于约束输入和输出几何形状的相似性，额外的表情输入提供面部表情的先验知识。G exp的输入和输出UV贴图的9通道连接输入到鉴别器 D exp，由法线贴图和表情偏移贴图构成的6通道UV贴图连接输入到法线鉴别器 Dn exp 。在训练 G exp后，3通道的输出几何形状 S refine可以表示更详细的表情变化，如第5.3节所讨论的，并且生成也受到潜在编码 z exp 和注入噪声的控制。G exp的训练过程利用了从我们的详细数据集生成的配对数据，训练损失项可以表示为0L exp = λ e ∥ S detail + E base − S refine ∥ 2 + L GAN (4)04.3. 粗到精的单图像拟合0我们进一步提出了一种单图像拟合流程，该流程采用基于可微分渲染的优化算法，如图6所示。拟合过程分为三个阶段：基本模型拟合、详细模型拟合和表情细化。在第一个基本模型拟合阶段，要优化的参数包括我们的基本模型的 pshape ，p tex ，p exp，以及额外的姿态和光照参数。姿态参数 p pose ∈ R 6控制三维平移和三维旋转，用欧拉角表示。我们使用球谐函数（SphericalHarmonics，SH）[3]的前三个波段来定义光照参数 plighting ∈ R 27 。我们的优化损失项可以表示为0L diff = L lms + L photo + L reg (5)0其中 L lms 表示检测到的2D面部特征点和从203380图6. 我们基于可微分渲染的单图像拟合流程。03D模型，L photo表示渲染图像与输入图像之间的均方损失，L reg 表示pshape 、p tex 和p exp的L2正则项。得到的形状、纹理和表情被展开成UV图用于后续阶段。0在详细模型拟合阶段，我们通过优化预训练的细节生成器Gdetail来恢复与身份相关的面部几何和纹理细节。在这个阶段和下一个阶段，前一阶段生成的表情偏移UV图、p pose 和plighting是固定的。在使用前一阶段生成的形状和纹理的UV图、我们的细节潜码z detail和注入的噪声作为输入后，首先进行随机采样，然后通过可微渲染和相似损失项进行优化，其中L reg被改为注入噪声的L2正则项。注意，通过G detail建立的几何和纹理之间的关联也可以生成详细的几何。潜码z detail主要控制中等粒度的面部细节生成，如面部特征的详细形状，而注入的噪声控制小粒度的面部细节，如雀斑。如图6所示，在优化后可以生成面部细节。0在表情细化阶段，通过优化预训练的表情细化生成器G exp，进一步细化与表情相关的几何变化。输入包括由基本模型拟合阶段生成的表情偏移UV图和由详细模型拟合阶段生成的输出详细几何，表情潜码z exp和注入的噪声也首先进行随机采样，然后通过可微渲染和与详细模型拟合阶段相同的损失项进行优化。经过最终优化，更详细的几何，如微笑的嘴巴，进一步得到改进，如图6所示。0图7. 由我们的粗到细拟合流程预测的高保真单张图像拟合结果。0图8.我们使用从左侧图像拟合得到的基本参数和从上方图像拟合得到的详细参数生成新的3D人脸模型，该模型保留了左侧面部的基本形状和上方图像的面部特征的详细形状。05. 实验05.1. 评估0我们首先评估了我们的粗到细的3D模型拟合框架在从单张人脸图像预测3D人脸模型方面的性能。如图7所示，基于FaceVerse，我们的方法在预测不同年龄、性别或肤色的各种输入东亚人脸图像的3D人脸模型方面表现出高泛化性和高保真性。一方面，基于大规模基础人脸数据集构建的基本模型在粗糙人脸拟合方面提供了更多先验知识，使得该方法对各种人脸图像更加稳健。另一方面，基于条件styleGAN的详细模型在面部几何和纹理细节生成方面显示出强大的能力。图7中的纹理细节和几何细节证明了即使是瞳孔和眉毛的面部细节也可以由我们的细节生成器描述。203390图9. 与单目3D人脸重建方法FaceScape、Hifi3DFace、DECAFace和3DDFAv2的比较。0此外，我们的方法可以通过参数调整面部特征的基本形状和详细形状。为了展示我们模型的可变性，我们对单张图像拟合结果进行了详细转移实验，如图8所示。使用从左列图像拟合得到的基本参数和从上行图像拟合得到的详细参数，我们的方法可以生成新的面部模型，该模型具有源脸部的基本形状和目标脸部的细节（例如更大的眼睛，更薄的嘴唇或更宽的鼻子）。其中一些图像来自FFHQ数据集。05.2. 与先前工作的比较0我们将我们的单目拟合结果与最先进的单目面部重建方法进行比较，包括也是针对东亚面部重建提出的FaceScape[43]和Hifi3DFace [2]，以及基于BFM [30]和FLAME[28]的DECA [13]和3DDFAv2[17]。如图9所示，由于大规模基础模型和基于GAN的详细生成器的好处，我们的方法在拟合面部粗糙形状和生成面部细节方面显示出更好的定性性能，与其他方法相比。我们还使用单个图像和从我们的测试集中采样的相应详细3D模型进行定量比较。如图10所示，不同方法生成的模型通过刚性ICP算法拟合到真实模型上。计算得到的MAE误差显示在模型下方，我们的方法显示出最佳的定量性能。为了进一步证明我们参数化基础模型的有效性，我们与FaceScape [43]和Hifi3DFace[2]提出的最先进的亚洲面部参数化模型以及BFM[30]进行了定量比较，使用来自我们的测试集的3D扫描，该测试集包含来自17个人的357个模型，模型长度固定为200mm。我们通过基于优化算法的参数化模型拟合3D扫描，该算法基于0图10.3D面部重建方法的定量比较。地面真实模型的长度固定为200mm。0图11. 在3D模型拟合中与3DMM方法的定量比较。0我们的基础模型 0.69 0.47 没有粗糙数据集的我们 1.081.265.3. Ablation Study203400方法 MAE 方差0Hifi3DFace [2] 1.08 1.38FaceScape [43] 1.74 2.60 BFM[30] 2.38 10.7805.3. 消融研究0通过ICP进行反向传播（该算法在我们的补充pdf文件中有详细解释）。请注意，我们的详细模型需要额外的纹理输入，因此我们只使用我们的基础模型进行公平比较。如图12所示，由于大规模数据集的好处，我们的基础模型在3D模型拟合方面显示出最佳的定量性能。可视化结果也在图11中呈现。0为了展示我们方法中使用的模块的有效性，我们比较了基础模型的拟合结果，由详细生成器Gdetail生成的详细结果，由表情细化生成器Gexp生成的细化结果以及在没有我们的正常鉴别器训练的情况下生成的详细模型的结果。如图13所示，给定基础形状和纹理，我们的详细生成器可以添加合理的细节，但仍然缺乏表情的描述能力。由表情引起的几何变化可以通过Gexp进一步细化，如图13中的蓝色矩形所示。此外，没有我们的正常鉴别器训练的详细模型显示出凌乱的几何结构，这证明了我们正常鉴别器的有效性。此外，我们在补充材料中展示了注入噪声和潜在编码对我们详细模型影响的消融研究。请观看我们的补充视频以获取更多结果。为了进一步证明将粗糙数据集引入到我们的基础模型中的优越性，我们生成了一个仅使用我们的详细数据集的基础模型，该数据集包含50个形状主成分，并使用与我们完整基础模型相同的表情主成分。3D拟合结果也在图11和图12中呈现（标记为“Ours w/o coarsedataset”）。定量结果证明，在引入我们的粗糙数据集后，拟合能力显著提高。06. 讨论和结论0局限性。一方面，我们的数据集只包含东亚人的面部，因此当适应其他地区的面部时，我们的性能会下降。另一方面，我们的详细模型仍然缺乏老年人的详细3D面部扫描。因此，如图14所示，我们的方法无法生成像浓密胡须这样的极端纹理，也无法生成老年人的深皱纹。0图13。我们的基础模型、细节生成器、表情细化生成器和没有正常鉴别器训练的模型的单目拟合结果。0图14。我们方法的局限性。提出的FaceVerse无法生成浓密的胡须和深皱纹。0详细模型仍然缺乏老年人的详细3D面部扫描。因此，如图14所示，我们的方法无法生成像浓密胡须这样的极端纹理，也无法生成老年人的深皱纹。0潜在的社会影响。我们的方法可以从单张图像中重建3D人脸。因此，在部署该技术之前，需要谨慎处理生成的人物的3D虚假模型。0结论。在本文中，我们提出了FaceVerse，这是一个细粒度和可变细节的3D面部可塑模型，基于混合数据集。我们收集了一个大规模的粗略数据集和一个高保真度的详细数据集，并提出了一个由粗到精的方案来构建我们的模型，这保证了我们模型的高泛化能力和高保真度。所提出的条件StyleGAN能够生成和控制面部几何和纹理细节，同时保留基础模型的基本面部属性。实验证明，与最先进的方法相比，我们的方法在3D面部模型拟合和单目面部重建方面具有优势。我们相信FaceVerse可以成为面部相关研究的强大工具，我们的流程将激发后续的3DMM和单目3D面部重建研究。0致谢。本工作得到蚂蚁集团通过蚂蚁研究计划的支持，并得到国家自然科学基金委员会的赞助，编号为62125107和62171255。[35] Ayush Tewari, Michael Zollh¨ofer, Pablo Garrido, FlorianBernard, Hyeongwoo Kim, Patrick P´erez, and Christian203410参考文献0[1] Timur Bagautdinov，Chenglei Wu，JasonSaragih，Pascal Fua和YaserSheikh。使用组合VAE建模面部几何。在CVPR，2018年。20[2] Linchao Bao，Xiangkai Lin，Yajing Chen，HaoxianZhang，Sheng Wang，Xuefei Zhe，Di Kang，HaozhiHuang，Xinwei Jiang，Jue Wang，Dong Yu和ZhengyouZhang。从RGB-D自拍照创建高保真度的3D数字人头。ACMTrans. Graph.，41(1)，2021年11月。2，3，7，80[3] R. Basri和D.W.Jacobs。Lambertian反射和线性子空间。TPAMI，2003年。50[4] Volker Blanz和ThomasVetter。用于合成3D面部的可塑模型。在第26届计算机图形学和交互技术年会上的论文集，1999年。1，20[5] James Booth，Anastasios Roussos，AllanPonniah，David Dunaway和StefanosZafeiriou。大规模3D可塑模型。IJCV，2018年。20[6] J. Booth，A. Roussos，S. Zafeiriou，A. Ponniahy和D.Dunaway。从1万张面部学习的3D可塑模型。在CVPR，2016年。1，20[7] Alan Brunton，Timo Bolkart和StefanieWuhrer。多线性小波：人脸的统计形状空间。在ECCV，2014年。20[8] Chen Cao，Yanlin Weng，Shun Zhou，Yiying Tong和KunZhou。Facewarehouse：用于视觉计算的3D面部表情数据库。TVCG，2014年。1，2，30[9]陈安培，陈张，张谷力，肯尼∙米切尔和俞静怡。单张图像的逼真面部细节合成。在ICCV，2019年。30[10] Yajing Chen，Fanzi Wu，Zeyu Wang，YibingSong，Yonggen Ling和LinchaoBao。自监督学习的详细3D面部重建。IEEE图像处理交易，29：8696-8705，2020年。30[11] Yu Deng, Jiaolong Yang, Sicheng Xu, Dong Chen, YundeJia, and Xin Tong. 弱监督学习的准确3D面部重建:从单张图像到图像集. 在 CVPRW , 2019. 30[12] Pengfei Dou, Shishir K Shah, and Ioannis A Kakadiaris.基于深度神经网络的端到端3D面部重建. 在 CVPR , 2017. 30[13] Yao Feng, Haiwen Feng, Michael J Black, and TimoBolkart. 从野外图像中学习可动画的详细3D面部模型. TOG , 2021. 3 , 70[14] Yao Feng, Fan Wu, Xiaohu Shao, Yanfeng Wang, and XiZhou. 使用位置映射回归网络进行联合3D面部重建和密集对齐. 在ECCV , 2018. 2 , 30[15] John Flynn, Ivan Neulander, James Philbin, and NoahSnavely. Deepstereo: 从世界图像中学习预测新视角. 在 CVPR ,2016. 20[16] Leonardo Galteri, Claudio Ferrari, Giuseppe Lisanti,Stefano Berretti, and Alberto Del Bimbo.通过渐进式生成对抗网络的深度3D可塑模型细化. ComputerVision and Image Under- standing , 185:31–42, 2019. 20[17] Jianzhu Guo, Xiangyu Zhu, Yang Yang, Fan Yang, ZhenLei, and Stan Z Li. 快速、准确和稳定的3D密集面部对齐. 在 ECCV, 2020. 2 , 3 , 70[18] Y. Guo, L. Cai, and J. Zhang. 从多样化来源学习面部形状.TIP , 2021. 1 , 20[19] D. Hang, W. Pears, N. aLYnd Smith, and C. Duncan.颅面形状和纹理变异的3D可塑模型. 在 ICCV , 2017. 10[20] Loc Huynh, Weikai Chen, Shunsuke Saito, Jun Xing, KokiNagano, Andrew Jones, Paul Debevec, and Hao Li.使用深度神经网络推断微观面部几何. 在 CVPR , 2018. 30[21] Zi-Hang Jiang, Qianyi Wu, Keyu Chen, and Juyong Zhang.用于3D面部形状的解缠表示学习. 在CVPR , 2019. 20[22] Tero Karras, Samuli Laine, and Timo Aila.用于生成对抗网络的基于样式的生成器架构. TPAMI , 2020. 20[23] Tero Karras, Samuli Laine, Miika Aittala, Janne Hellsten,Jaakko Lehtinen, and Timo Aila.分析和改进StyleGAN的图像质量. 在 CVPR , 2020. 20[24] Hao Li, Robert W. Sumner, and Mark Pauly.全局对应优化用于非刚性深度扫描的配准. 在 SGP , 2008. 30[25] Hao Li, Thibaut Weise, and Mark Pauly.基于示例的面部绑定. TOG , 2010. 20[26] R. Li, K. Bladin, Y. Zhao, C. Chinara, and H. Li.学习基于物理的面部属性的形成. 在 CVPR , 2020. 1 , 20[27] Tianye Li, Timo Bolkart, Michael J. Black, Hao Li, andJavier Romero. 从4D扫描中学习面部形状和表情模型. TOG ,2017. 20[28] Tianye Li, Timo Bolkart, Michael J Black, Hao Li, and JavierRomero. 从4D扫描中学习面部形状和表情模型. TOG , 2017. 2 ,70[29] Thomas Neumann, Kiran Varanasi, Stephan Wenger,Markus Wacker, Marcus Magnor, and Christian Theobalt.稀疏局部变形组件. TOG , 2013. 20[30] Pascal Paysan, Reinhard Knothe, Brian Amberg, SamiRomdhani, and Thomas Vetter.用于姿态和光照不变的面部识别的3D模型. 在IEEE国际高级视频和信号监控会议 , 2009. 1 , 2 , 3 , 7 , 80[31] P. J. Phillips, P. J. Flynn, T. Scruggs, K. W. Bowyer, C. Jin, K.Hoffman, J. Marques, J. Min, and W. Worek.人脸识别大挑战的概述. 在 ICCV , 2005. 1 , 20[32] Elad Richardson, Matan Sela, Roy Or-El, and Ron Kimmel.从单张图像学习详细的面部重建. 在 CVPR , 2017. 30[33] S. Romdhani and T. Vetter.使用像素强度、边缘、高光、纹理约束和先验估计3D形状和纹理.在CVPR上, 2005. 30[34] Matan Sela, Elad Richardson, and Ron Kimmel.使用图像到图像转换进行无限制的面部几何重建. 在ICCV上, 2017.3203420Theobalt.自监督的多层面模型学习，用于单目重建，超过250 Hz.在CVPR上, 2018. 20[36] Ayush Tewari, Michael Zollhofer, Hyeongwoo Kim, PabloGarrido, Florian Bernard, Patrick Perez, and ChristianTheobalt. Mofa:基于模型的深度卷积人脸自编码器用于无监督单目重建.在ICCVw上, 2017. 30[37] Justus Thies, Michael Zollhofer, Marc Stamminger, Chris-tian Theobalt, and Matthias Nießner. Face2face:实时人脸捕捉和重现RGB视频. 在CVPR上, 2016. 30[38] Anh Tuan Tran, Tal Hassner, Iacopo Masi, Eran Paz, Y. valNirkin, and G´erard G Medioni. 极端3D人脸重建: 穿透遮挡.在CVPR上, 2018. 30[39] Luan Tran, Feng Liu, and Xiaoming Liu.迈向高保真

下载后可阅读完整内容，剩余1页未读，立即下载