从单幅遮挡人脸图像生成多种三维重建

84 浏览量更新于2023-10-26 收藏 2.4MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1547∼∼从单幅遮挡人脸图像生成多种三维重建密歇根州立大学deyrahul,vishnu@msu.edu目标图像火焰[21]DECA [11] CFR-GAN [17] Occ 3DMM [8] Extreme 3D [42] Diverse 3DFace重建（我们的）图1. 通过Diverse3DFace与一个单一的解决方案的基线。摘要遮挡是无约束人脸图像中常见的现象。从这样的面部图像的单个图像3D重建经常由于遮挡的存在而遭受破坏。此外，虽然在被遮挡区域中多个3D重建是合理的，但是现有方法限于仅生成单个解决方案。为了解决这两个挑战，我们提出了Diverse3DFace，它是专门设计的，同时生成一个多样化的和现实的3D重建，从一个单一的闭塞的人脸图像集。它包括三个组成部分：一个整体+局部形状拟合过程，一个图形神经网络为基础的网格VAE，和一个确定点的过程为基础的多样性促进迭代优化过程。定量和定性比较的三维重建被遮挡的脸表明，Di-verse 3DFace可以估计的三维形状是一致的，在目标图像中的可见区域，同时表现出高，但现实的，在被遮挡的区域的多样性水平。在被面具、眼镜和其他随机物体遮挡的面部图像上，Diverse3DFace生成的3D形状分布在遮挡区域上的多样性比基线高50%。此外，我们最接近地面真相的样本比现有方法的奇异重建的MSE低40%。代码和数据可从以下网址获得： https://github.com/human-analysis/diverse 3dface1. 介绍近年来，基于单个图像的3D人脸重建有了显着改进[9，54]。这包括统计模型[3，21，26，27]以及基于神经网络的模型[11，12，33，38- 41，45，46 ]的进展然而，面部遮挡仍然是这项任务的重大挑战。在野外人脸图像通常带有几种形式的遮挡，除非明确处理，否则通常导致形状、表情、姿势等方面的错误3D重建。[8、9、42]。部分遮挡人脸的3D重建存在两个主要挑战。首先，3D重建模型需要选择性地使用来自可见区域的特征，而忽略来自被遮挡部分的特征。如果不这样做，无论是隐式还是显式，都将导致具有不正确姿势、表情或两者的不良3D其次，可能存在与图像中的可见部分一致但在被遮挡部分上不同的3D重建的分布。未能考虑所有这些模式限制了3D重建模型的实用性。应对这两个挑战是本文的主要目标。然而，现有的3D面部重建解决方案无法同时克服这两个挑战。从重建的角度来看，从单个图像重建3D面部的方法中的大部分将其自身限制为完全可见的面部图像。而且，即使是那些明确说明面部遮挡的方法[8，42]，也只能使用全局模型以整体的方式这样做，该全局模型隐含地使用来自遮挡区域的特征1548Gion也是。这种形式的基于全局模型的拟合可能会在3D重建的姿态和表达中引入错误（参见图1），特别是当面部的大部分从多样性的角度来看，现有的方法通过设计仅限于生成单个合理的3D重建。然而，在许多实际应用中，对于单个被遮挡的面部图像，期望能够生成在面部的可见部分上一致的多个重建，同时跨越被遮挡部分上的重建的多样但真实的集合（参见图1）。虽然已经在其他背景下探索了生成不同解决方案的概念，例如图像生成[10]，图像完成[51]，超分辨率[1]和轨迹预测[49]，但尚未针对被遮挡面部的单目3D面部重建进行探索。在本文中，我们提出了Diverse3DFace，它被设计为同时产生一个多样化的，但似乎合理的，从一个单一的遮挡人脸图像的3D重建集。Diverse 3DFace由三个模块组成：全局+局部形状拟合过程，基于图形神经网络的可变自动编码器（Mesh-VAE）和基于确定性点过程（DPP）的全局+局部形状拟合过程通过将可见区域上的形状拟合与被遮挡区域的形状拟合解耦来提供针对大遮挡的鲁棒性。Mesh-VAE能够在面部3D形状的不同变化因素上学习紧凑的潜在空间上的分布。而且，基于DPP的迭代优化过程使我们能够从Mesh-VAE的潜在空间中进行采样并对其进行优化，以生成跨越潜在空间的不同模式的各种重建。我们在本文中的具体贡献是：– 我们提出了Diverse3DFace，一个简单而有效的多样性促进3D人脸重建方法，生成多个合理的3D重建对应于一个单一的遮挡人脸图像。– 为了对遮挡的鲁棒性，我们提出了一种基于全局+局部PCA模型的形状拟合，该形状拟合将每个面部组件上的拟合与其他组件分开。这些模型是从FLAME [21]注册的3D网格数据集学习的。在推理过程中，在粗略的全局拟合之上添加对各种面部组件的局部扰动，以生成最终的详细拟合。– 我们在生成不同的面部3D重建的背景下采用了基于DPP [20]的多样性损失。我们在DPP内核中定义了质量和相似性术语，以最大限度地提高多样性，同时保留在逼真的3D头部形状空间– 我们进行了广泛的定性和定量实验，以显示所提出的方法在生成3D重建，是忠实于可见的脸，同时捕捉多个不同的模式上的闭塞部分的功效。关于Diverse3DFace最接近地面真实值的平均值比基线的唯一解决方案[11，21]在每个顶点的误差方面好30-50%。2. 相关工作单幅图像三维人脸重建：Blanz和Vetter[3]提出了第一个3DMM人脸模型。从那时起，这样的模型已经发展到包括复杂的姿势和3D面部的表达方式[13，26]。 Li等人 [21]提出的FLAME，它对整个人类头部进行建模，并允许对关节姿势进行非线性控制，以生成具有表达能力的头部实例。许多最近的方法采用神经网络来模拟形状和表达空间中的高阶复杂性[11，18，28，31，33，34，38一些方法采用了将非线性神经网络模型拟合到目标图像的混合方法，以生成详细的3D重建[12，48]。最近，图神经网络[7，19，24，43]的进步已经使用图卷积运算来直接学习网格表面上的非线性表示，同时对网格拓扑进行建模[4，29，52]。虽然这些进步显着提高了三维人脸重建方法的建模能力，他们仍然是有限的，当处理人脸图像中的遮挡。另一方面，一些方法被明确设计用于处理遮挡[8，17，42]。Tran等人。 [42]训练了一个神经网络来从一个蒙面的面部图像中回归一个强大的基础形状，随后在其上添加一个详细的凹凸图。并且，Egger等人 [8]同时优化了遮挡掩模和来自遮挡图像的模型参数。然而，这些方法依赖于全局模型来考虑整个面部，包括被遮挡的部分，这是次优的，因为需要使用强正则化来抵消来自这些部分的信息的此外，它们仅限于重建单个3D解，而不考虑可以解释遮挡区域的多个解。相比之下，我们解决了鲁棒性和缺乏独特性的双重问题，通过一个多阶段的方法，disentangles拟合的可见区域的多样性modeling上的闭塞的。多样性促进生成模型：多样性促进算法已被应用于计算机视觉的几个领域，其中结果的分布比单一解决方案更理想。基于条件[16，47]和正则化[5，14，36，37，53]的技术可用于克服模式崩溃并促进GAN中的多样性[15]。作为不适定问题，多样性促进算法在图像补齐和图像超分辨率方面也特别有用。Zheng等人。[51]提出了一种双管道C-VAE [35]，它在一条路径中保持地面实况保真度，同时允许另一条路径的多样性1549∈WP∈S ∈ E ∈S S EEP− PY∈⊆ Y⊆ YBahat等人 [1]通过仅在低分辨率空间中强制一致性来与关注纹理多样性的基于图像的方法相比，3D重建需要建模几何多样性。作为该领域最具开创性的著作之一， Kulesza 和 Taskar [20] 引入了确定性点过程（DPP）的框架，以建模机器学习任务中的多样性，如推理，采样，边缘化等。 Yuan等人 [49，50]采用DPP对多模态潜在向量进行采样，以进行各种人类轨迹预测。Elfeki等人。 [10]设计了一个基于DPP的目标来训练GAN和VAE，以模拟真实数据的多样性。在这项工作中，我们采用DPPs的思想，通过发现潜在的空间表示，最大限度地提高可信的多样性，同时保持忠实于可见部分的遮挡区域，以3. 背景3D人脸重建的统计模型：统计3D模型，如BFM [3，26]和FLAME [21]允许生成新的人脸实例。这些模型通常包括解释身份之间的几何变化的形状模型、解释由于不同面部表情而引起的变化的表情模型，以及另外分别解释姿势和外观变化的姿势模型和外观模型具体来说，火焰[21]将3D形状定义为：S（β，θ，θ）=W（T（β，θ，θ），J（β），θ，W），（1）其中，参数β、θ、分别表示形状、姿态和表情参数;JR3 K表示K个面部关节的位置，T（β、θ、）围绕该位置旋转，并最终通过混合权重进行平滑。未对准形状T（β，θ，θ）通过将形状、表情和姿态变化的贡献加在模板形状T′的顶部来获得：T（β，θ，θ）=T<$+BS（β;S）+BP（θ;P）+BE（θ;E）（2）形状和表情变化由线性混合形状BS（β;）=β和BE（β;）=β来模拟，其中R3N ×| β|R3N×|ψ|分别是使用PCA学习的正交形状和表达式基础，N是顶点数。位姿融合变形函数定义为BP（θi）=（R（θ）R（θ）），其中R（θ）由围绕K个关节的旋转矩阵组成，R3N×9K是描述由R激活的顶点相对于静止位姿的偏移的位姿融合变形。决定点过程：决定点过程（DPPs）起源于量子物理学，用于模拟费米子量子态之间的负相关[23]。DPP最早由Kulesza和Taskar [20]在机器学习中引入，作为一种概率模型，点与点之间的排斥一个基集上的点过程描述了它的所有2个Y子集的概率。当选择随机子集Y的概率由Y的元素所索引的子核矩阵LY的行列式给出时，点过程是行列式的，即，P（Y）=det（LY）。给定一个数据矩阵BRD×N，我们可以将核计算为Gram矩阵L=BT B。在这种情况下，子核矩阵det（LY）的行列式与B的元素所张成的体积有关。因此，从概念上讲，DPP将更高的概率分配给其元素趋于正交（di-）的子集。彼此之间，有着更大的距离。4. 方法如我们在实验中所示，由于多种原因，仅使用全局模型在单个阶段中重建不同的3D形状是次优的（第2节）。5.1）。首先，将全局模型拟合到几个可见的子区域需要在鲁棒性和局部保真度之间进行仔细的权衡其次，遮挡区域的多样化将无意中影响可见区域的拟合质量，反之亦然。鉴于这些观察，我们提出了一个三步的方法来生成不同的，但现实的3D重建从一个闭塞的人脸图像。在第1步中，我们使用解纠缠的全局+局部形状模型的集合来执行鲁棒的3D重建，对面部的可见部分进行重建。在步骤2中，我们采用VAE将部分拟合映射到潜在空间，从中可以绘制多个重建最后，在步骤3中，我们迭代地优化潜在嵌入，以促进被遮挡面部区域上的真实几何多样性，同时保持对可见区域的保真度。我们现在描述我们的完整算法及其不同组件。4.1. 全局+局部形状模型准确拟合面部可见部分的鲁棒局部3D重建现有的遮挡鲁棒3D重建方法通常采用全局模型来基于可见区域进行拟合或回归[8，42]。由于此类模型的全局性质，遮挡分割中的错误会影响3D重建的质量[30]，即使是可见部分（见图5）。通常，采用强正则化来减轻这种影响。然而，虽然较重的正则化导致对遮挡的更强鲁棒性，但它以次优拟合为代价这一观察结果，以及局部变形组件在计算机图形学中的成功应用[25，32]，促使我们采用全局+局部模型的集成作为有效的方法来生成鲁棒的3D重建w.r.t可见部分。请注意，在我们的解决方案的这个阶段，我们不关心所包含区域中的重建质量我们现在描述我们提出的1550E00||−||GPRΣ图2. 概述：作为输入，我们需要目标图像，遮挡掩模，面部标志，以及可选的面部掩模。我们使用HRNET模型[44]来获得标志位置及其置信度值，我们使用这些值来估计遮挡标签。给定这些输入，我们首先拟合我们提出的全局+局部融合变形模型，以获得算法1中概述的粗拟合和局部拟合，然后将其相加以获得最终拟合。我们将拟合的形状重新投影到可见遮罩上，以获得部分拟合，在遮挡区域上归零我们使用Mesh-VAE编码器网格将部分拟合映射到潜在空间上，并对N个潜在向量z进行采样。然后，我们迭代地优化z，全局+局部3D头部模型。我们的全局+局部形状模型基于FLAME形状残差Sres=Sgt−Scoarse，其中联系我们mesh topology [21].我们使用FLAME注册的D3DFACS [6]和CoMA [29]数据集来计算损失。Scoarse=T<$+βnSn+nEn（4）calPCA模型。[21 ]第21话：一个人的幸福n=1n=1特克斯面具对应于人体头部的14个部位。我们训练了对应于每个然后，我们使用区域残差计算区域形状和表情PCA模型（SRi，ERi）以解释局部变化。为此，我们MRi S是第i个re的顶点掩码。首先采用FLAME配准网格，并通过优化以下拟合损失来拟合完整的FLAME模型[21]Lfit=minSgtS（β，θ，θ），（3）β，θ，θ这里，S（β ，θ，θ）使用等式获得。（1）和（2）中所述的方法。然后，我们将地面实况和拟合的形状都解出通过消除由于姿态θ引起的变化，如[21]求出了Sgt和S（β，0，θ）。充分FLAME模型包括|β|= 300个形状，|ψ|= 100gion）。为了计算形状基，我们设置N S= 10和NE=100（移除所有表达式变化）;而对于表达式基，我们设置N E=10和N S=300（移除所有恒等变化）。全球+本地模式可以表示为，T（βG，βR，θ，βG，βR）=TG（βG，θ，βG）+TR（βR，βR），（5）其中T（βG，θ，βG）是由顶部NS形状和NE表达式全局基以及姿态融合形状（等式2）给出的粗略全局形状。（2））;T（βR，βR）表示局部变化，由下式给出，表达基础，以考虑完整的全球变化。基础（基于特征值），并丢弃其余的COM-z（t）上的多样性迭代我由此，我们保留了前N个形状和N表达1551Σ|ββ-Ri|||RRRiRiRiRiRin=1n=1S ETR（β，n）=<$βnSn+<$nEn<$（6）局部匹配的项目使用L多样的多样形状完成βG，θ，βGµΣ∼. .-是的E网z（t=0）D网格. .-是的拟合输出z（t=100）D网格.可视遮罩. .-是的z（t=Ncomp）D网格14年βR14..BARR2βR2AIR1βR1+。.+++局部细节粗糙形状面罩遮挡掩模68地标[44]第四十四话目标图像使用L拟合的全局+局部形状拟合1552Z不RTCD安东我.ΣphoM任FO1i、jmediani，j（disti，j）i、jS1CC1 23不||−||Cc4.2. 使用Mesh-VAE的形状完成我们使用全局+局部模型来拟合被遮挡人脸可见部分的鲁棒3D重建。但这并不能确保对被遮挡部分的鲁棒和一致的重建，因为局部PCA模型具有噪声（被遮挡）或没有数据来拟合。为了解决这个缺点，并使合理的3D重建的分布，而不是一个单一的解决方案，这是我们的主要目标之一，我们采用基于网格的VAE（称为网格VAE）作为我们的形状完成模型的生成。我们假设人的头部网格可以映射到一个连续的、正则化的低维潜空间上. 然后，给定部分3D网格Sm，Mesh-VAE学习网格补全的条件似然性Sc和相应的潜在嵌入z：p（Sc，z|Sm）= p（z|Sm）p（Sc|z，Sm），（7）4.3. DPP驱动的形状多样化即使Mesh-VAE可以采样多种形状，步骤1部分形状拟合：在这个阶段，我们首先将我们的全局+局部PCA模型拟合到人脸图像Im的可见部分上，以获得部分重建Sm。我们采用以下拟合损失：L拟合=λfL拟合+λfL拟合+λfL拟合（11）其中，Llf是界标损失，Lpho是光度损失，Lreg在模型参数上应用λ2正则化。我们使用现成的地标检测器HR-NET [44]来检测面部上的68个地标及其置信度值。我们将这些地标标记为置信度超过阈值τ（设置为0.2）的可见地标，并对这些点应用地标损失为了添加局部细节，我们在输入图像和渲染图像之间应用光度损失Iren=（Sm，B tex（γ i），c），其中Btex（γ i）是估计的纹理，c是估计的相机参数。我们使用面部掩模M f和遮挡掩模M o将光度损失限制到可见面部区域：从p（Sc）的完备化|z，Sm），实际上，生成的L=||（I − I）M（1−M）||（十二）模式[49]（参见第二节）5.1）。为了加强多样性，我们在形状完成上计算DPP，并开发多样性损失以优化其潜在嵌入。我们采用DPP内核L[20]的基于质量多样性的公式，其旨在平衡样本的质量及其多样性。具体地，对于集合中的元素i，j，其内核条目是giv en，通过Li，j=qiSi，jqj，其中qi表示元素i的质量，并且Si，j表示i和j之间的相似性。最大化这种核矩阵的行列式意味着最大化每个样本的质量，同时最小化不同样本之间的相似性。对于两个形状完备化Si和Sj，我们步骤2我们使用编码器将部分拟合Sm映射到潜在分布，我们从潜在分布中采样潜在嵌入z（μ，diag（σ2）），其中μ，σ= mesh（Sm）。步骤3多样性促进形状完成：在这阶段，我们执行多样性促进迭代形状完成例程，该例程迫使潜在嵌入向被遮挡区域的不同模式移动，同时保持对可见区域的忠实。在每次迭代时，我们使用解码器Sj=mesh（zj），j=1. M，并更新z以最小化分集损失：将相似性定义为C cL多样性=λ1LS+λ 2Lpho+λ 3Ldpp（13）S=失效−kdist，（8）这里L是形状一致性损失，定义为其中dist i，j=SiSj2是第i个和第j个形状完成之间的距离，k是缩放因子。为了确保完成的样本看起来真实，我们将样本的质量与其潜在嵌入zi位于先验N（0，I）的3σ内的概率联系起来：qi=exp（−max（0，z zi−3<$d）），（9）其中d是zi的维数。为了数值稳定性[49]，我们采用L的期望基数作为DPP损失：Ldpp=−trI−（L+I）−1（10）4.4. 推理给定被遮挡的面部图像Im，我们的目标是生成似然3D重建S1，.，的作案我们分三个步骤来完成，具体如下：来自VAE的样本不能保证涵盖所有1553C应用于可见顶点的Sj和Sm之间的范数Ldpp是DPP损失（等式12）（10））。损耗系数被设置为对于所有损耗分量具有相似的幅度。我们分别在算法1和算法2中概述了部分形状拟合和多样化的完整步骤。5. 实验评价数据集：我们使用来自CoMA [29]和D3 DFACS [6]数据集的FLAME [21]配准头部网格来训练Mesh-VAE，以及评估所提出的方法。请注意，除了Mesh-VAE之外，我们的方法不涉及训练任何其他模块。我们根据主题ID将两个数据集分为80：10：10 train：val：test拆分我们使用来自两个数据集的组合训练分割来训练Mesh-VAE模型在训练中，我们1554THP SE←H←不EDC← − ∇∈CNCj=1← − ∇COLpho←M||（Im−Iren，j）<$Mf<$（1−Mo）||1COMjv算法1在可见面部区域上的形状拟合输入：图像Im、遮挡掩模Mo、面部掩模Mf、全局模型、局部模型Ri、Ri，其中i=1到14，纹理模型，地标探测器参数：β、θ、θ、γ、c、βRi、θRi（i=1至14）超参数：τ = 0。1，niter，λf，λf，λf，η局部网格结构的不规则性，并被证明在重建任务上优于基于固定内核的GNN方法[4，7，19，24，29，43]。为了将Mesh-VAE训练为形状完成模型，我们使用覆盖25-40%顶点的随机连续掩模来然而，在实践中，直接训练网格VAE输出：部分拟合形状Sm1 2 3对于修复是非常具有挑战性的，特别是与大的去-从图像LI，Lconf（Im）中当Lconf> τ时，设置L有效1，否则0对于j= 1到niter，do使用等式2获得Sm（1）、（2）、（5）及（6）从形状中选择68个地标LS←Ml（S）获得渲染图像Iren← R（S，Btex（γ，T），c）大量的闭塞。我们采用课程学习[2]方法来克服这一挑战，并在培训过程中逐步引入较大的遮挡，即，我们从较容易的形状完成任务开始，并逐渐增加其难度。我们使用的是101-重建，L1-Laplacian和KL-发散损失F勒夫佛雷街←||（LS−LI）L值d||1←||（Im−Ire n）<$Mf<$（1−Mo）||1←所有参数的正则化损失训练网络。请注意，我们不使用FLAME [21]或我们的全局+局部模型来训练Mesh- VAE，而是使用地面真实网格来避免任何偏差L拟合=λfLf+λfLf+λfLf任何一种形状的模型。1个liter2pho3reg更新p p ηpL拟合pβ，θ，θ，γ，c，βRi，θRi（i=1至14）端算法2多样形状完成输入：Mesh-VAE编码器网格和解码器网格;来自算法1：Im，M o，Mf，LI，Lvalid，θ，γ，c，超参数：ncomp，λ1，λ2，λ3，η输出：M个形状完成{Sj=1：M}通过将S投影到Mo上，对顶点掩码Mv进行基线：为了评估Diverse 3DFace在多样性和遮挡鲁棒性方面的有效性，我们使用公开可用的实现或预训练模型（如适用）与FLAME [21]，DECA [11]，CFR-GAN[17] ， Occ 3DMM [8] 和 Extreme 3D [42] 由于获得FLAME和其他网格拓扑之间的密集对应关系的困难和不可靠性，我们仅对基于FLAME [21]拓扑的方法进行定量比较。在其他情况下，我们报告基于定性比较O获取潜在参数v在具有各种遮挡模式的面部图像上。µ，σ← E网格（Sm <$Mo）对M个潜在向量z1，...，zM（µ，σ2I）对于i=1到n，获得Sj← D网格（zj），j = 1. M对于j = 1.，获得Iren，j← R（Sj，Btex（γ，T），c）。MLS←||（S−Sm）（1−M）||1j=1本文的目标是生成多样化但真实的3D重建被遮挡的人脸图像。这样的方法应该具有三个期望的品质：1）重建的形状应该尽可能准确地适合可见区域，2）遮挡区域应该彼此不同，以及3）重建的形状中的至少一个应该与可见区域相匹配。形状应该与地面实况形状非常相似L dpp←Ldpp（Sj=1：M<$M v）使用等式（十）L多样性=λ1LS+λ 2Lpho+λ 3Ldpp更新zjzjηzjL分集，j=1至M端用在随机位置处的随机（连续）形状的遮挡掩模来增强网格。为了评估我们的方法，我们使用CoMA数据集[29]的测试分割，该数据集由从训练中排除的受试者组成。因此，我们对来自CelebA数据集的未注释图像进行定性评价[22]。对于这两个数据集，测试图像都是用诸如面具、眼镜和其他随机对象之类的遮挡物人工增强的。实现：我们将 Mesh-VAE 实现为基于 [52] 中提出的MeshConv 架构的完全卷积图神经网络（ GNN ）。MeshConv [52]使用空间变化的卷积核来解释LLL1555目前还没有关于不同3D重建的工作，因此，没有既定的衡量标准。因此，我们定义以下三个度量来评估上述质量：（1）最接近样本误差（CSE）：地面实况形状与最接近重建形状之间的每个顶点的最小2-误差（越小越好），（2）可见平均自距离（ASD-V）：3D完成与其最接近邻居之间的可见区域上的每个顶点的最小2-距离，在所有样本上平均（越小越好），以及（3）遮挡平均自距离（ASD-O）：遮挡区域上的ASD（越高越好）。这些指标受到为不同轨迹预测定义的指标的启发[49]。5.1. 定量结果选项卡. 1报告了使用不同方法的CoMA数据集[29]中人工遮挡测试图像的平均形状误差（MSE）方面的3D重建精度1556|目标图像 FLAME [21] DECA [11] CFR-GAN [17] Occ 3DMM [8] Extreme 3D [42]通过Diverse 3DFace重建（我们的）地面实况图3. CoMA数据集的定性评价[29]：通过基线vs. Diverse3DFace的各种重建（一个完整的形状，然后是六个部分放大的变化）。闭塞DECA [11]火焰[21]全球+本地（我们的）眼镜57.8347.8939.98面罩61.1830.3730.11随机70.3447.5638.27整体62.9141.2435.85表1. 3D重建精度的比较，以平均形状误差（MSE）×10−3评价。火焰[21]拓扑结构。在所有遮挡类型中，我们提出的全局+局部模型报告了最低的MSE值。FLAME（配件）[21]、DECA[11]并且我们的方法证明了特定于区域的模型拟合对于遮挡鲁棒性的必要性由于缺乏现有的多样性3D重建方法，我们制定了四个基线来评估Diverse3DFace的多样性性能：1）在可见部分上拟合FLAME加上在遮挡部分上的DPP损失（FLAME+DPP），2）将FLAME替换为(1)通过我们的全球+本地模式（全球+本地+DPP），3)拟合全局+局部模型，然后是形状com-实验结果证实了我们的假设，即明确考虑遮挡和优化多样性可以导致更准确（在可见区域上）和更几何多样性（在遮挡区域上）的3D重建。在不同的遮挡类型中，我们报告了面罩的最高ASD-O。这些结果与人脸在嘴巴和鼻子区域具有更高的可变性这一事实相一致，我们的方法能够学习和再现。5.2. 定性结果图3显示了人工遮挡CoMA [29]图像上3D重建的定性结果。所有的基线只能生成关于目标图像的单个3D重建。我们观察到，Diverse3DFace生成的重建与此相比，基于FLAME的拟合[21]和DECA [11]确实由Mesh-VAE根据学习到的分布p（Sc，z Sm）（全局+局部+VAE）进行填充，以及4）在Di-verse 3DFace中用FLAME[21]替换全局+局部模型（FLAME+VAE+DPP）。我们报道全-表中的定量指标。二、在所有闭塞类型中，与Diverse3DFace相比，FLAME+DPP和Global+Local+DPP报告了更高的CSE和ASD-V，以及更低的ASD-O。虽然全局+本地+VAE获得比Di-verse 3DFace更低的CSE，但是它这样做的代价是在 ASD-0 方面减少多样性。FLAME+VAE+DPP报告了更好的多样性度量，但以更高的CSE错误为代价。另一方面，Diverse 3DFace报告最低的ASD-V，最高的ASD-O和第二低的CSE，满足前面提到的三个期望的质量。这些观察--没有明确地处理遮挡并生成柔和和错误的形状。CFR-GAN [17]和Occ-3DMM [8]在多个实例中将姿势弄错。Extreme3D [42]可以更好地重建可见部分但在第二行却弄错了表情。在图4中，我们显示了来自CelebA [22]数据集的遮挡增强图像请注意，我们没有地面实况扫描这些图像。然而，视觉结果表明，作为整体模型的基线并没有明确地排除遮挡区域的特征，并且经常在这些图像上获得不正确的姿势同时，来自Diverse3DFace的反射在遮挡区域上看起来不同，但与面部的可见部分一致。1557GAN [17]闭塞类型CSE（↓）火焰+DPPASD-V（↓） ASD-O（↓）全球+本地+DPPCSE（↓） ASD-V（↓） ASD-O（↑）全球+本地+VAECSE（↓） ASD-V（↓） ASD-O（↑）火焰+VAE+DPPCSE（↓） ASD-V（↓） ASD-O（↑）全球+本地+VAE+DPP（我们的CSE（↓） ASD-V（↓）ASD-O个）（↑）眼镜41.263.833.2638.172.253.1132.881.011.3842.580.634.4336.300.614.50面罩28.143.074.5828.062.303.5725.950.891.7927.970.617.8827.580.857.89随机43.123.614.0638.852.593.5136.580.971.6143.000.785.4439.110.725.62整体36.813.614.0634.552.353.3931.180.951.5937.450.775.9233.710.736.05表2. 通过基线与Diverse 3DFace在CSE，ASD-V和ASD-O方面（以10−3的顺序）。[21]第十一届全国人大常委会第十一次会议Occ3DMM[8][42]第四十二话Diverse3DFace重建（我们的）图4. CelebA数据集的定性评价[22]：通过基线对比Diverse3DFace的各种重建图5.基于FLAME [21]的拟合（中间行）与我们的全局+局部拟合（最后一行）对被遮挡的面部图像（顶行）。FLAME与全局+局部PCA模型：除了表1中进行的定量比较外。1、定性比较了全局FLAME算法的遮挡鲁棒性[21]模型与我们的全球+本地模型。在图5中，我们显示了基于FLAME [21]的严重遮挡图像拟合的一些失败案例。请注意FLAME [21]安装输出上的严重变形，特别是嘴部周围。相比之下，我们的全球+本地模型的配件看起来更加忠实和详细，ble parts.这些观察结果进一步支持了我们的主张，即基于全局+局部模型的拟合比基于全局模型的拟合在被遮挡的人脸图像上表现得更好。6. 结论我们提出了Diverse3DFace，一种方法来重建不同的，但合理的3D重建对应于一个单一的遮挡人脸图像。我们的方法的动机是这样一个事实，即在存在遮挡的情况下，合理的3D重建的分布比单个唯一的解决方案更可取。我们提出了一个三步的解决方案，首先使用全局+局部PCA模型的集合拟合一个鲁棒的部分形状，将其映射到潜在空间，并迭代优化嵌入以促进被遮挡部分的多样性，同时保持对面部可见部分的保真度多个遮挡类型和数据集的实验评估据我们所知，这是第一种方法，生成一个单一的被遮挡的人脸图像的不同的3D重建的分布所提出的方法的一个局限性是它依赖于鲁棒性的全球+本地拟合在第一步进一步多样化的完成。虽然这种局部解缠拟合证明比全局模型拟合表现得更好，但在初始地标或面罩估计错误的情况下，它仍可能受到影响。1558引用[1] Yuval Bahat和Tomer Michaeli。可探索的超分辨率。在IEEE/CVF计算机视觉和模式识别会议论文集，第2716-2725页，2020年。二、三[2] YoshuaBengio ， Je´ ro meLouradour， RonanCollobert ，andJa-son Weston.课程学习。在2009年国际机器学习会议上。6[3] Volker Blanz和Thomas Vetter。三维人脸合成的可变形模型。在 Proceedings of the 26th annual conference onComputer graphics and interactive techniques，pages 187-194，1999中。一、二、三[4] GiorgosBouritsas ， SergiyBokhnyak ， StylianosPloumpis ， Michael Bronstein ， and Stefanos Zafeiriou.Neural 3D morphable models：用于3D形状表示学习和生成的螺旋卷积网络。在IEEE/CVF计算机视觉国际会议论文集，第7213-7222页，2019年。二、六[5] Tong Che ， Yanran Li ， Athul Paul Jacob ， YoshuaBengio，and Wenjie Li. 模式正则化生成对抗网络。arXiv预印本arXiv：1612.02136，2016。2[6] Darren Cosker Eva Krumhuber和Adrian Hilton有效的三维动态动作单元数据库及其在三维动态可变形人脸建模中的应用2011年国际计算机视觉会议，第2296-2303页。IEEE，2011年。四、五[7] MichaeülDefferrard，XavierBresson，andPierreVandergheynst.具有快速局部谱滤波的图上卷积神经网络。神经信息处理系统， 29 ： 3844-3852 ，2016。二、六[8] BernhardEgger ， SandroSchoénborn ， AndreasSchnei-der ， Adam Kortylewski ， Andreas Morel-Forster ，Clemens Blumer，and Thomas Vetter.基于遮挡感知的3d形变模型和光照先验的人脸图像分析。InternationalJournal of Computer Vision，126（12）：1269- 1287，2018。一二三六七八[9] Bernhard Egger ， William AP Smith ， Ayush Tewari ，Stefanie Wuhrer ， Michael Zollhoefer ， Thabo Beeler ，Florian Bernard ， Timo Bolkart ， Adam Kortylewski ，Sami Romdhani，et al. 3d morphable face models-past，present ， and future.ACM Transactions on Graphics（TOG），39（5）：1-38，2020。1[10] Mohamed Elfeki、Camille Couprie、Morgane Riviere和Mohamed Elhoseiny。GDPP：使用决定点过程学习不同的世代。在机器学习国际会议上，第1774-1783页。PMLR，2019年。二、三[11] Yao Feng，Haiwen Feng，Michael J Black，and TimoBolkart.从野外图片中学习可动画化的详细3d人脸模型。 ACM Transactions on Graphics （ TOG ）， 40（4）：1-13，2021。一二六七八[12] Baris Gecer ， Stylianos Ploumpis ， Irene Kotsia ， andStefanos Zafeiriou.Ganfit：用于高保真3D人脸重建的生成对抗网络拟合。在IEEE/CVF计算机视觉和模式识别会议（CVPR）上，2019年6月。一、二[13] ThomasGerig ， AndreasMorel-Forster ， ClemensBlumer，BernhardEgger，MarcelLuthi，SandroSchönborn，and1559托马斯·维特。可变形人脸模型-一个开放的框架。2018年第13届IEEE自动人脸手势识别国际会议（FG2018），第75IEEE，2018年。2[14] ArnabGhosh，VivekaKulharia，VinayP.Namboodiri，Philip H.S. Torr和Puneet K.多卡尼亚多智能体双向生成对抗网络。在IEEE计算机视觉和模式识别会议（CVPR）上，2018年6月。2[15] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在神经信息处理系统的进展，第26722[16] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and AlexeiA Efros.使用条件对抗网络的图像到图像翻译。在IEEE计算机视觉和模式识别会议论文集，第1125-1134页，2017年。2[17] 朱永俊李健熙洪正浩李成焕完整的面部恢复gan：从单视图图像中进行无监督的联合面部旋转和去遮挡。在WACV，2022年。一二六七八[18] Hyeong wooKim 、 Mi c

下载后可阅读完整内容，剩余1页未读，立即下载