ImFace：一种隐式神经表示的非线性3D可塑面部模型

118 浏览量更新于2023-10-25 收藏 14.07MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

TemplateSigned Distance FieldFigure 1. ImFace encodes complex face variations by two explic-itly disentangled deformation ﬁelds with respect to a template face,resulting in a morphable implicit representation for 3D faces.203430ImFace：一种具有隐式神经表示的非线性3D可塑面部模型0Mingwu Zheng 1,2 , Hongyu Yang 3 , Di Huang 1,2* , Liming Chen 401 软件发展环境国家重点实验室，北京航空航天大学，中国 2计算机科学与工程学院，北京航空航天大学，中国 3人工智能研究所，北京航空航天大学，中国 4 LIRIS，里昂中央理工学院，法国0{ zhengmingwu,hongyuyang,dhuang } @buaa.edu.cn, liming.chen@ec-lyon.fr0摘要0精确的3D面部表示对于各种计算机视觉和图形应用非常有益。然而，由于数据离散化和模型线性性，目前的研究仍然难以捕捉到准确的身份和表情线索。本文提出了一种新颖的3D可塑面部模型，即ImFace，通过隐式神经表示学习非线性和连续的空间。它构建了两个明确分离的变形场，分别用于建模与身份和表情相关的复杂形状，并设计了一种改进的学习策略，将表情的嵌入扩展到允许更多样化的变化。我们进一步引入了神经混合场，通过自适应地混合一系列局部场来学习复杂的细节。除了ImFace，我们提出了一个有效的预处理流程，以解决隐式表示中对封闭输入的要求问题，使其首次能够与常见的面部表面一起使用。进行了大量实验来证明ImFace的优越性。01. 引言03D可塑面部模型（3DMMs）是一种声誉良好的统计模型，通过学习技术在具有密集对应关系的一组样本中的面部形状和纹理的先验分布上建立，旨在呈现高度多样化的逼真面部。由于可塑性表示在几何和外观分别可控的不同下游任务中是唯一的，3DMMs广泛应用于计算机视觉、计算机图形学、生物识别和医学成像等领域的许多面部分析应用[2, 8, 27,50]。在3DMMs中，最基本的问题在于如何生成潜在的可塑表示，在0* 通讯作者。0表情变形场身份变形场0在过去的二十年中，随着规模、多样性和质量的数据改进[10, 13, 31,58]，取得了显著的进展。这些方法最初是基于线性模型的[7, 39, 40]，后来扩展到基于多线性模型的[9, 12,55]，其中不同的模式分别编码。不幸的是，由于线性模型的相对有限的表示能力，这些方法在处理具有复杂变化（例如夸张表情）的情况时并不那么有竞争力。在深度学习的背景下，已经研究了许多使用2D图像[53, 54]或3D网格[5, 11,15, 17,46]输入的非线性模型，使用卷积神经网络或图神经网络。它们确实提供了性能的提升；然而，受到离散表示策略在输入数据上的分辨率限制，面部先验没有被充分捕捉到，导致形状细节的丢失。此外，所有当前的方法都依赖于点对点对应的预处理过程[1, 6, 25,34]，但是面部配准本身仍然具有挑战性。最近，关于隐式神经表示（INRs）的几项研究[16, 26, 32, 35,38]表明，通过学习连续的深度隐式函数可以精确地建模3D几何。它们将输入观察描述为低维形状嵌入，并估计带符号的203440距离函数（SDF）或查询点的占用值，以便通过等值线定义任意分辨率和拓扑的表面。由于连续参数化和一致表示，INR在形状重建[24, 56, 57, 61]和表面配准[21, 33,62]方面表现出优势，优于离散体素、点云和网格，并报告了良好的结果。这种优势提出了一种可以在统一网络中实现准确对应和细粒度建模的3DMM的替代方法。然而，与具有明显形状差异和有限非刚性变化的对象（如室内场景和人体）不同，所有的面部表面看起来非常相似，但包含了更复杂的变形，其中多个身份和丰富的表情深度交织在一起，使得当前的INR方法在面部建模方面存在问题，正如初步尝试所证明的[59]。另一个困难是隐式函数主要需要完全闭合的输入，这对于面部表面来说并不友好。本文提出了一种新颖的3D面部可变模型，即ImFace，通过学习INR，大幅提升了传统3DMM。为了捕捉非线性的面部几何变化，ImFace构建了独立的INR子网络，将形状变形明确地分解为身份和表情的两个变形场（如图1所示），并引入了改进的嵌入学习策略，扩展了表情的潜在空间，以允许更多样化的细节。通过这种方式，可以准确地建模个体间的差异和细粒度的变形，同时考虑到应用于相关任务时的灵活性。此外，受到线性混合蒙皮[30]的启发，提出了一种神经混合场（NeuralBlend-Field），将整个面部变形或几何分解为由一组局部隐式函数编码的语义有意义的区域，并通过一个轻量级模块自适应地混合它们，从而得到具有减少参数的更复杂的表示。此外，设计了一个新的预处理流程，绕过了现有基于SDF的INR模型中需要完全闭合面部数据的需求，并且适用于各种面部表面，即无论是硬件获取的还是人工合成的。总之，本研究的主要贡献包括：•我们提出了一种基于INR的新型3DMM，通过两个明确分解的变形场对复杂的面部形状变化进行编码，以一种细粒度和语义有意义的方式学习强大的表示。•我们提出了一种有效的预处理流程，为非闭合的3D面部定义了一个通用的SDF，使得INR首次能够与它们一起工作。•我们通过实验证明，ImFace在合成具有可信细节的高质量3D面部方面具有优势，在3D面部重建方面优于最先进的对应方法。02. 相关工作03D可变形面部模型。3DMM最初由Blanz和Vetter[7]提出作为一种通用的面部表示。通过利用非刚性迭代最近点算法（NICP）[4]将已知的模板网格注册到所有训练扫描中，并使用主成分分析（PCA）来构建先验面部分布。为了建模与身份相关的表情，3DMM进一步扩展为多线性模型[9, 12, 55]。此后，通过数据改进[10, 13, 31,58]取得了巨大的进展。FLAME[31]是一个表情控制模型，通过将下颌关节运动与线性表情混合形状相结合。它是从包括D3DFACS[20]在内的大型3D面部数据集中学习的，并且比以往任何时候都提供了更令人印象深刻的结果，但无法很好地捕捉非线性面部变形。深度网络的发展促进了更强大的非线性3DMM。许多模型是从2D图像中学习的[44, 53,54]，但由于输入图像的低分辨率，它们大多缺乏高保真度和细节。为了更好地利用3D面部扫描，Bagautdinov等人[5]将3D网格映射到2D空间，更多的研究[11, 15, 17,46]直接从网格中通过谱或螺旋卷积学习3DMM。这些神经网络建立在离散的3D表示上，因此在存在复杂变形的情况下性能受限。有关3DMM的更全面的报告，请参阅[22]。隐式神经表示。最近，隐式神经函数作为一种更有效和适合的3D几何表示出现了[16, 26, 32, 35, 38,49]，因为它们在不离散化的情况下连续地对形状进行建模。为了保留细节，进一步利用了由形状元素[23]、网格[28,42]或八叉树[51,52]划分的结构化局部特征。此外，为了很好地捕捉形状变化和对应关系，还特别学习了一个额外的隐式变形潜在空间[21,62]。然而，现有技术很难同时实现高视觉保真度和多样性，因此它们对于可变形面部建模的资格不太合格。此外，当前关于INR的研究主要集中在完全闭合的输入上，例如ShapeNet[60]中的输入，因此相应地提出了许多关于完全闭合的人头或人体的方法[3, 14, 19, 43, 45, 47, 48,59]。其中，H3D-Net[45]学习了一个用于2D重建的隐式头部形状空间，但它不是一个通用模型。i3DMM[59]是第一个为人类头部设计的隐式3D可变形模型。然而，它在表示面部区域方面严重受到质量低下的限制。为了克服完全闭合性的限制，[18]学习了一个无符号距离函数（UDF）来处理开放表面，但重建结果不够可信。..𝒑𝑟𝒑𝑟�E : (p, zexp, l) �→ p′ ∈ R3,(2)203450� ��0� � Tei-Nets � �0��(�) � ��0�0超网络超网络0加0� ′′ � ′ � ′′0Mini-Net0Mini-Net 0�0�0� 生成的关键点0查询点0权重条件0转换0(b) Mini-Nets0混合变形/SDF0ExpressionMini-Nets0(a) ImFace0模板关键点0(d) 融合网络0�0MLP0全局值×0局部值0混合场0ID&Exp0MLP0� � �0生成的关键点0(c) Landmark-Net0图2. ImFace概述。(a) 提出的网络由三个Mini-Nets块组成，将形状变形明确地分解为分别与表情和身份变形相关的Expression和IdentityMini-Nets块，以及学习模板面形状的Template Mini-Nets块。(b)Mini-Nets块是一个共享的架构，将整个面部特征分解为语义上有意义的部分，并通过一组局部场函数对其进行编码。它后面是一个融合网络，用于更全面的表示。(c) Landmark-Net用于对整个面部表面进行软分区。(d) FusionNetwork是一个轻量级模块，以查询点位置为条件，自适应地混合局部场函数，从而得到一个精细的神经混合场。03. 方法0我们利用INRs的优势来学习非线性的三维可塑面部模型。提出的ImFace将面部形状变形明确地分解为与身份和表情相关的两个分离变形场，并学习了一个深度SDF来表示模板形状。所有的场都与一系列局部隐式函数混合，以获得更详细的表示。03.1. 分解的INRs网络0INRs的基本思想是训练一个神经网络来拟合一个连续函数f，通过等值集隐式地表示表面。该函数可以以不同的格式定义，例如占据率[35]、SDF[38]或UDF[18]。我们利用一个深度SDF，它以表情和身份的潜在嵌入为条件，实现了全面的面部表示。它输出查询点的有符号距离s：0f: (p, z_exp, z_id) ∈ R3 × Rd_exp × Rd_id → s ∈ R，(1)0其中，p ∈ R3 是查询点在三维空间中的坐标，z_exp和z_id分别表示表情和身份的嵌入。我们的目标是学习一个神经网络来参数化f，使其满足真实的面部形状先验。0如图2所示，ImFace的网络由三个Mini-Nets块组成，明确地分解了面部形状变形的学习过程，确保可以准确地建模个体间的差异和细粒度的变形。特别是，前两个Mini-Nets块分别学习与表情和身份变化相关的分离变形场，而TemplateMini-Nets块学习模板面形状的有符号距离场。所有上述场都由共享的Mini-Nets架构实现，其中整个面部变形或几何进一步分解为一些语义上有意义的部分，并通过一组局部场函数进行编码，以便可以充分捕捉丰富的细节。在Mini-Nets块的末尾堆叠了一个轻量级模块，即FusionNetwork，它以查询点位置为条件，自适应地混合局部场。因此，实现了一个精细的神经混合场。ImFace的三个核心组件用于不同的目的，它们的结构略有变化。我们简要描述如下：Expression Mini-Nets (ExpNet)。由ExpNet E表示的是由表情引起的面部变形，它学习了每个面部扫描的观察到规范的变形：�I : (p′, zid, l′) �→ (p′′, δ) ∈ R3 × R,(3)�T : (p′′, l′′) �→ s0 ∈ R,(4)f(p) = T (Ip′′(E(p, zexp), zid)) + Iδ(E(p, zexp), zid).(5)�v = ψ(x) =k�n=1wn(x)ψn(x − ln),(6)eω = I + sin ∥ω∥∥ω∥ω∧ + 1 − cos ∥ω∥∥ω∥2(ω∧)2,(7)t =�I + 1 − cos ∥ω∥∥ω∥2ω∧ + ∥ω∥ − sin ∥ω∥∥ω∥3(ω∧)2�v,(8)203460其中 l ∈ R k × 3表示由Landmark-Net生成的观察到的人脸上的k个3D地标，η : ( z exp , z id ) �→ l引入以定位查询点p在神经混合场中。观察空间中的点p通过E变形为人特定的规范空间中的新点p'，该空间表示中性表情的脸。身份Mini-Nets（IDNet）。为了对个体之间的形状变形进行建模，IDNet I进一步将规范空间变形为所有脸共享的模板形状空间：0其中 l ′ ∈ R k × 3 表示由仅依赖于身份嵌入 η ′ : z id �→l ′ 的另一个Landmark-Net生成的规范脸上的k个地标，p ′′是模板空间中的变形点。为了应对预处理过程中可能产生的不存在对应关系，I 还预测了一个残差项 δ ∈ R，用于修正预测的SDF值 s 0 ，类似于[ 21]。模板Mini-Nets（TempNet）。TempNet T学习了共享模板脸的有符号距离场：0其中 l ′′ ∈ R k × 3表示模板脸上的k个地标，该脸是在整个训练集上平均的，s0 是未校正的SDF值。查询点的最终SDF值通过 s = s 0 +δ 计算，ImFace模型最终可以表示为：0所提出的ImFace通过细粒度且有意义的解耦变形场来学习面部变形，确保可以准确学习到更多样化和复杂的面部变形。我们详细介绍了主要模块的架构、学习策略、训练评估和数据预处理流程。03.2. 神经混合场0Mini-Nets块是三个子网络E、I和T共享的通用架构。它学习一个连续的场函数 ψ : x ∈ R 3 �→ v，以产生用于综合面部表示的神经混合场。特别地，为了克服单个网络的表达能力有限，我们将面部空间分解为一组语义上有意义的局部区域，并在混合之前分别学习 v（例如变形或有符号距离值）。这种设计受到了最近关于人体的INRs研究[ 41]的启发，该研究引入了线性混合蒙皮算法[ 30]，使网络能够从身体部位的单独变换中学习。为了更好地表示详细的面部表面，我们用 ψ n ( x − l n )替换了原始线性混合蒙皮算法中的常数变换项，并定义了神经混合场：0其中 l n 是描述第n个局部区域的参数，w n ( x )是第n个混合权重，ψ n ( x − l n )是相应的局部场。通过这种方式，混合是在一系列局部场上进行的，而不是计算一组固定位置的输出值v的加权平均，从而在处理复杂的局部特征时具有更强大的表示能力。具体来说，利用位于外眼角、嘴角和鼻尖的五个地标来描述局部区域 ( l n ∈ R 3 ) 5 n =1，并为每个区域分配一个带有正弦激活函数的小型MLP [ 49]来生成局部场，表示为 ψ n。为了捕捉高频局部变化，我们在坐标 x − l n上使用正弦位置编码 γ [ 36]。在Mini-Nets块的末尾，配备了一个轻量级的融合网络，该网络以输入 x的绝对坐标为条件，由一个具有softmax函数的3层MLP实现，用于预测混合权重 ( w n ∈ R + ) 5 n =1。变形公式。我们用一个SE(3)场 ( ω , v ) ∈ R 6来表示变形，其中 ω ∈ so (3)是表示螺旋轴和旋转角度的旋转向量。通过 e ω x + t计算变形后的坐标 x ′，其中旋转矩阵 e ω(Rodrigues'公式的指数映射形式) 的表示为：0并且平移 t 的公式如下：0其中 ω ∧ 表示 ω 的反对称矩阵。我们利用 SE(3)来描述面部形状变形，因为它在处理下颌旋转和姿态扰动方面具有优越能力，比常见的平移变形 x ′ = x + t更鲁棒。超网络。为了获得更紧凑和表达丰富的潜在空间，我们引入了一种元学习方法[49]。超网络 φ n由一个多层感知机实现，它预测了 ExpNet E 和 IDNet I的实例特定参数。它以潜在编码 z 作为输入，并为Mini-Net ψ n中的神经元生成参数，从而使得学习到的面部表示具有更高的多样性。03.3. 改进的表情嵌入学习0[38]提出的自动解码器框架已经被广泛应用于隐式神经表示学习中，以共同学习嵌入和网络参数。在之前的尝试中[59]，每种表情类型都由一个嵌入进行编码，以进行属性解缠。不幸的是，这样的嵌入只能表示表情的平均形状变形。𝑂signed distancecoordinate𝑂gradientcoordinate𝑂𝑝𝑝𝑂unsigned distancecoordinate𝑂gradientcoordinate𝑂𝑝𝑝𝑂signed distancecoordinate𝑂gradientcoordinate𝑂𝑝𝑝Lisdf = λ1�p∈Ωi|f(p) − ¯s| + λ2�p∈Ωi(1 − ⟨∇f(p), ¯n⟩), (10)kkarg minzexp,zid203470(c) 伪闭合面上的SDF 图3. (a) SDF 能够表示闭合形状。 (b) UDF 能够表示开放表面，但梯度在边界处不连续，使得神经网络难以拟合。 (c)所提出的方法生成伪闭合面，并将隐式函数限制在其上，使得隐式神经网络能够学习三维面部的几何表示。0类型，使得学习到的潜在空间无法捕捉到更多个体之间的多样变形细节。为了避免上述困境，我们通过将每个非中性脸部扫描视为独特的表情并为其生成特定的嵌入来改进学习策略。这样，潜在空间得到了显著扩展，使得 E能够表示更精细的细节。另一方面，存在一个潜在的失败模式，即身份属性再次纠缠到表情空间中，I崩溃成为一个身份映射。为了解决这个挑战，我们在当前训练样本为中性脸部时抑制 E，写为：E ( p nu , z exp , l ) ≡p nu , (9)0其中 p nu表示来自中性脸部的一个点。通过应用这种学习策略，I 和T 共同学习中性脸部的形状表示，而 E仅关注表情变形。此外，在训练过程中只需要中性标签，绕过了密集的表情标签。03.4. 损失函数0ImFace使用多个损失函数进行训练，以学习合理的面部形状表示和密集对应关系。重构损失。应用基本的 SDF结构损失来学习隐式场：0其中 ¯ s 和 ¯n 分别表示真实的 SDF 值和场梯度，Ω i是面部扫描 i 的采样空间，λ 表示权衡参数。Eikonal损失。为了在整个网络中获得合理的场，使用多个 Eikonal损失来强制空间梯度的 L-2 范数为单位：0Li eik = λ3 �0� |∥�f(p)∥−1| + |∥�T(I(p′))∥−1|�，（11）0其中Lieik使网络能够同时满足观察空间和规范空间中的Eikonal约束[26]，这也有助于在所有网络阶段上实现合理的面变形对应。嵌入损失。它通过零均值高斯先验对嵌入进行正则化：0同时，这也有助于在所有网络阶段上实现合理的面变形对应。嵌入损失。它通过零均值高斯先验对嵌入进行正则化：0Li emb = λ4 �∥zexp∥2 + ∥zid∥2�。（12）0地标生成损失。使用l1损失来学习Landmark-Nets η，η′：0Li lmk g = λ50n = 10� |ln−¯lin| + |l′n−¯l′n|�，（13）0其中¯li表示样本i上的k个标记的地标，¯l′表示对应中性面上的地标。地标一致性损失。我们利用这个损失来指导变形的地标位于地面真实中性和模板面上的相应位置，以获得更好的对应性能：0Li lmk c = λ60n = 10� |E（ln）−¯l′n| + |I（E（ln））−l′′n|�。（14）0残差约束。与[21]中一样，为了避免残差项δ学习过多的模板面信息并降低可变形模型，我们通过以下方式对δ进行惩罚：0Li res = λ70p ∈ Ωi |δ(p)|。（15）0总训练损失是在索引为i的所有面样本上计算的，最终形式为：0L = �0i（Li sdf + Li eik + Li emb + Li lmk g + Li lmk c + Lires）。（16）0在测试阶段，对于每个索引为j的3D面，我们最小化以下目标来获得其潜在嵌入和重建的3D面：0j（Ljsdf + Ljeik + Ljemb）。（17）203480GroundTruthFLAMEFaceScapeImFace0i3DMM（几何）0图4. 与i3DMM [59]，FLAME [31]和FaceScape[58]的重建比较。每列对应于一个带有非中性表情的人。经过视觉检查，ImFace捕捉到更丰富的形状变化，并具有更紧凑的潜在嵌入。03.5. 数据预处理0由于神经网络在拟合处处可微的函数方面表现出色，当前对隐式函数的研究通常要求输入是无缺口的。虽然像UDF这样的函数不要求无缺口，但是当穿过一个表面时是不可微的，并且在处理细节方面不太有竞争力（见图3的示意图）。我们提出了一个有效的预处理流程，它生成伪无缺口的面，并在上面定义了一个通用的SDF，以便几何和对应关系可以像在无缺口对象上一样精确地学习。伪无缺口面的生成。面通过使用标志点刚性对齐到正面，并且每个网格被归一化为10cm的单位。坐标原点设置在鼻尖后方4cm处，然后以半径为10cm的球体定义为采样区域，外部的网格三角形被裁剪掉。应用射线-三角形相交算法[37]来去除隐藏的表面，例如鼻腔和口腔，然后在x-y坐标上执行Delaunay三角剖分算法[29]以获得定向的伪无缺口网格。面部表面上的SDF计算。通过生成伪无缺口面，可以通过对其进行距离变换来计算SDF值。样本的符号仅由其到最近表面的距离向量与z轴正方向之间的角度决定。面部表面后面的坐标值被定义为负值。我们在每个面部表面上均匀采样250,000个点和15,000个点。0在球体中采样点，并计算其有符号距离和梯度向量。采样数据最终被形式化为ImFace训练的 { ( p , ¯n , ¯ s ) }三元组（查询点，梯度向量，有符号距离值）。04. 实验0我们对ImFace进行了广泛的主观和客观评估，并进行了消融研究来验证特别设计的模块。数据集。FaceScape[58]是一个大规模高质量的3D面部数据集，包含938个个体和20种表情。来自365个个体的数据是公开可用的，我们主要用它们进行实验。具体而言，从355个人中采样了5,323个面部扫描作为训练集，从剩下的10个人中采样了200个面部扫描作为测试集，这些人有20种表情。网络架构。所有Mini-Nets块 ψ n都被实现为具有3个隐藏层和32维隐藏特征的MLP，激活函数为正弦函数。Hyper Nets φ n是3层MLP，激活函数为ReLU，其中隐藏层维度为64。Landmark-Nets η 和 η ′有三个128维全连接层。更多网络细节请参考补充材料。实施细节。模型使用Adam进行端到端训练。我们以0.0001的初始学习率训练模型1500个epoch，在200个epoch后，每10个epoch衰减0.95倍。203490源面部0跨表情对应0跨身份对应0图5. 对应结果。最左边的面部被变形成多种表情（上排）和身份（下排）。0指标维度 Chamfer（毫米）† F-score@0.001 ¶0i3DMM [59] 256 1.635 42.26 FLAME [31] 400 0.97164.73 FaceScape [58] 352 0.929 67.09 ImFace 2560.625 91.110表1. 与最先进方法的定量比较（†越低越好；¶越高越好）。0训练阶段在4个NVIDIA RTX 3090GPU上以72个minibatch的大小进行，大约需要2天时间。在测试阶段，使用单个GPU优化200个样本大约需要4个小时。04.1. 重建0我们使用提出的ImFace模型通过优化方程（17）来拟合面部扫描，并将重建结果与FLAME [31]、FaceScape[58]和i3DMM[59]的几何模型进行比较，这些模型代表了最先进的技术。我们使用FLAME的官方代码来拟合测试集中的完整面部扫描，使用300个身份参数和100个表情参数。对于FaceScape，我们使用他们发布的由938个个体构建的双线性模型进行测试，其中身份和表情参数分别为300和52。请注意，我们的测试扫描包含在FaceScape的训练集中。此外，我们修改了其官方代码，以便拟合完整的扫描而不仅仅是用于改进结果的标志点。对于i3DMM，由于原始模型仅在58个个体上进行训练，因此我们在与ImFace相同的训练集上重新训练模型以进行公平比较。在i3DMM和ImFace中，身份和表情嵌入是128维的。定性评估。图4展示了不同模型实现的重建结果，每一列对应一个带有非中性表情的测试人员。结果还包括在训练过程中未见过的表情。0学习。i3DMM是第一个用于人类头部的深度隐式模型，但在相对复杂的情况下，它对复杂的变形和细节捕捉能力较差，导致重建的面部出现伪影。FLAME能够很好地呈现身份特征，但在处理非线性变形方面不太擅长，导致面部表情僵硬。FaceScape的表现更好，主要是因为高质量的训练扫描和测试面部包含在训练集中，但它仍然不能准确地呈现表情变形。相比之下，ImFace以更准确的身份和表情属性重建面部，并且能够通过更少的潜在参数保留细微且丰富的非线性面部肌肉变形，如皱眉和噘嘴。定量评估。为了进行公平比较，所有面部都按照第3.5节的描述进行处理，以去除眼球等内部结构，以便可以在所有模型的相同面部区域计算定量指标。具体而言，对称Chamfer距离和F-score被用作指标，F-score的阈值被设置为0.001作为严格标准。结果如表1所示。正如我们所看到的，ImFace在这两个指标下都远远超过了其他模型，这清楚地证明了其有效性。04.2. 对应关系0与通常需要精确的面部配准的现有方法相比，INRs模型可以自动学习对应关系.我们进一步设计了训练评估器来增强这一特性，这个评估旨在确认它.给定两个3D面部，我们使用ImFace来拟合它们，并将密集采样点变形到模板空间，以便通过最近邻搜索实现点对点的对应关系.图5展示了我们的方法生成的一些结果，我们在形状上手动涂上颜色图案以更好地检查质量.(a) w/o dist. (b) w/o blend (c) w/o extend. (d) ImFace(e) GTOurs w/o dist.0.77282.70Ours w/o blend0.76782.37Ours w/o extend.0.70586.98ImFace0.62591.11203500图6. 定性消融研究结果.0指标 Chamfer ( mm ) † F-score@0.001 ¶0表2. 定量消融研究结果.0总的来说，ImFace能够在各种表情和身份之间建立令人满意的对应关系.同时，可以看到在嘴角周围确实偶尔发生微小的内部纹理分散，这主要是因为在不同的表情下，面部形状在这些局部区域发生了剧烈变化，这也是非常难以处理的特殊情况.04.3. 消融研究0ImFace是建立在以下核心组件上的: 解耦形变场(dist.),神经混合场(blend), 和改进的表情嵌入学习(ex- tend.).我们通过实验证明了这些设计的优点. 关于解耦形变场.为了突出解耦形变学习过程，我们构建了一个基线网络，其中只包含一个形变场来学习面部形状的变形. 因此，z exp 和z id 被连接起来作为超网络的输入. 图6(a)提供了一个演示.尽管其他设计带来了一些细节，但在重建的面部上存在混乱，特别是对于具有大表情的面部.表2中的定量结果也表明了解耦形变学习的重要性.关于神经混合场. 我们用相同数量参数的普通MLP替换了E, I,T中的神经混合场，直接预测整个面部的全局形变或SDF值.如图6(b)所示，由于学习能力有限，出现了明显的模糊.0高频细节.表2中的定量结果确认了神经混合场在学习复杂表示方面的必要性. 关于改进的嵌入学习.这个策略被引入来学习更多样化和细粒度的面部变形.如图6(c)所示，当将表情嵌入的数量限制为与表情类别相同时，生成的表情趋向于平均.此外，对于夸张的表情，如嘴巴拉伸，对应的模型很难收敛到一个合理的状态.05. 讨论0局限性.尽管在3D面部形状表示方面取得了重大进展，我们主要关注面部几何建模，而面部纹理的考虑较少.的确，可以通过插入一个颜色场来实现基本的纹理模型，但还需要进一步探索基于INR的更全面的3DMM，以实现具有逼真漫反射和镜面反射反照率的面部外观. 社会影响.我们的模型旨在进行高质量的面部建模，与现有模型类似，它有潜力应用于2D重建和面部动画等下游场景，这可能导致不道德的行为，如侵犯隐私或身份欺诈.我们鼓励研究人员和开发者在将模型应用于现实世界之前考虑一些问题，例如如何防止个人面部数据被恶意访问.06. 结论0本文提出了一种新颖的非线性3D可变人脸模型，即ImFace，它通过与表情和身份相关的两个明确分离的变形场来学习复杂的面部形状变化，以及一种改进的嵌入学习策略，以允许更精细的表情。为了准确捕捉细节的面部变形和几何形状，它还提出了一种神经混合场。此外，还提出了一种有效的预处理流程，使INRs首次能够处理非完全密封的面部表面。实验证明，ImFace在这个问题上表现出色，并且优于最先进的对手。0致谢0这项工作得到了中国国家自然科学基金（No.62022011），北京市自然科学基金（No.4222049），软件开发环境国家重点实验室研究计划（SKLSDE-2021ZX-04）和中央高校基本科研业务费的部分支持。203510参考文献0[1] Victoria Fernández Abrevaya，Stefanie Wuhrer和EdmondBoyer. 用于动态3D人脸注册的时空建模. 在3DV，2018年. 10[2] Oswald Aldrian和William AP Smith.使用3D可变模型的人脸逆渲染. IEEETPAMI，35(5)：1080-1093，2012年. 10[3] Thiemo Alldieck，Hongyi Xu和Cristian Sminchisescu.imghum：3D人体形状和关节姿势的隐式生成模型.在ICCV，2021年. 20[4] Brian Amberg，Sami Romdhani和Thomas Vetter.用于表面配准的最佳步骤非刚性ICP算法. 在CVPR，2007年. 20[5] Timur Bagautdinov，Chenglei Wu，JasonSaragih，Pascal Fua和Yaser Sheikh.使用组合VAE建模面部几何. 在CVPR，2018年. 1, 20[6] Mehdi Bahri，Eimear O'Sullivan，Shunwang Gong，FengLiu，Xiaoming Liu，Michael M Bronstein和StefanosZafeiriou. Shape my face：通过面对面的平移注册3D人脸扫描.IJCV，129(9)：2680-2713，2021年. 10[7] Volker Blanz和Thomas Vetter. 用于合成3D人脸的可变模型.在SIGGRAPH，1999年. 1, 20[8] Volker Blanz和Thomas Vetter.基于拟合3D可变模型的人脸识别. IEEETPAMI，25(9)：1063-1074，2003年. 10[9] Timo Bolkart和Stefanie Wuhrer.用于3D人脸的群体多线性对应优化. 在ICCV，2015年. 1, 20[10] James Booth，Anastasios Roussos，AllanPonniah，David Dunaway和Stefanos Zafeiriou.大规模3D可变模型. IJCV，126(2)：233-254，2018年. 1, 20[11] Giorgos Bouritsas，Sergiy Bokhnyak，StylianosPloumpis，Michael Bronstein和Stefanos Zafeiriou.神经3D可变模型：用于3D形状表示学习和生成的螺旋卷积网络.在ICCV，2019年. 1, 20[12] Alan Brunton，Timo Bolkart和Stefanie Wuhrer.多线性小波：人脸的统计形状空间. 在ECCV，2014年. 1, 20[13] Chen Cao，Yanlin Weng，Shun Zhou，Yiying Tong和KunZhou. Facewarehouse：用于视觉计算的3D面部表情数据库. IEEETVCG，20(3)：413-425，2013年. 1, 20[14] Xu Chen，Yufeng Zheng，Michael J. Black，OtmarHilliges和Andreas Geiger.Snarf：用于非刚性神经隐式形状动画的可微分前向蒙皮.在ICCV，2021年. 20[15] Zhixiang Chen和Tae-Kyun Kim.学习深度3D可变模型的特征聚合. 在CVPR，2021年. 1, 20[16] Zhiqin Chen和Hao Zhang. 学习生成形状建模的隐式场.在CVPR，2019年. 1, 20[17] Shiyang Cheng，Michael M. Bronstein，YuxiangZhou，Irene Kotsia，Maja Pantic和Stefanos Zafeiriou.Meshgan：面部的非线性3D可变模型.CoRR，abs/1903.10384，2019年. 1, 20[18] Julian Chibane, Aymen Mir, and Gerard Pons-Moll.用于隐式函数学习的神经无符号距离场. 在NeurIPS, 2020. 2, 30[19] Enric Corona, Albert Pumarola, Guillem Alenya, GerardPons-Moll, and Francesc Moreno-Noguer. SMPlicit:针对穿着衣物的拓扑感知生成模型. 在CVPR, 2021. 20[20] Darren Cosker, Eva Krumhuber, and Adrian Hilton.一个FACS有效的3D动态动作单元数据库及其在3D动态可塑人脸建模中的应用. 在ICCV, 2011. 20[21] Yu Deng, Jiaolong Yang, and Xin Tong. 变形的隐式场:使用学习的密集对应建模3D形状. 在CVPR, 2021. 2, 4, 50[22] Bernhard Egger, William AP Smith, Ayush Tewari,Stefanie Wuhrer, Michael Zollhoefer, Thabo Beeler, FlorianBernard, Timo Bolkart, Adam Kortylewski, Sami Romdhani等.3D可塑人脸模型-过去、现在和未来. ACM TOG, 39(5):1–38,2020. 20[23] Kyle Genova, Forrester Cole, Avneesh Sud, Aaron Sarna,and Thomas Funkhouser. 用于3D形状的局部深度隐式函数.在CVPR, 2020. 20[24] Kyle Genova, Forrester Cole, Daniel Vlasic, Aaron Sarna,William T Freeman, and Thomas Funkhouser.使用结构化隐式函数学习形状模板. 在ICCV, 2019. 20[25] Syed Zulqarnain Gilani, Ajmal Mian, Faisal Shafait, andIan Reid. 密集的3D人脸对应.

下载后可阅读完整内容，剩余1页未读，立即下载