基于条件估计的自监督三维人脸重建

165 浏览量更新于2023-10-13 收藏 2.19MB PDF 举报

三维人脸重建

自监督训练

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13289基于条件估计的自监督三维人脸重建文彦东1刘未央2，3比丘拉吉1丽塔辛格11卡内基梅隆大学2剑桥大学3MPIforIntelligentSystems，Tübingen摘要我们提出了一个条件估计（CEST）框架，通过视频的自监督训练从2D单视图图像中学习3D面部参数。CEST是基于合成分析的过程，其中3D面部参数（形状、反射率、视点和照度）是基于合成分析的过程。训练推理视点v形状S反射率R照明P（S，R，v，l |I）= P（S |I）P（R |I）P（v |I）P（I |I）叠加图像从面部图像中估计出2D面部图像（例如，2D面部图像），并且然后重新组合以重建2D面部图像。为了学习语义上有意义的3D面部参数，而无需显式访问其标签，CEST通过考虑其统计依赖性来耦合不同3D面部参数的估计。具体地，任何3D面部参数的估计不仅以给定图像为条件，而且以已经导出的面部参数为条件。此外，还利用视频帧间的反射对称性和一致性来提高人脸参数的解纠缠性。结合反射对称性和一致性的新策略，CEST可以有效地用野外视频剪辑进行训练定性和定量实验都证明了CEST的有效性。1. 介绍从单视图2D图像重建3D人脸一直是计算机视觉中的一个长期问题。常见的方法将3D面表示为其形状和其纹理的组合，所述3D面的形状由其表面上称为顶点的多个点的3D坐标表示，所述3D面的纹理由这些顶点处的红色、绿色和蓝色的反射率表示[4]。然后，问题变成学习2D图像与顶点及其反射率之间的回归模型。可以使用训练数据来学习回归本身，其中2D图像和对应的3D参数都是可用的。然而，这些数据是稀缺的，即使是可用的数据通常也只有形状信息[8，47，46];具有其他参数的数据通常是在受控环境中捕获的[22] 或者是合成的[33]，其不代表真实世界的图像。因此，人们对自监督学习方法非常感兴趣，该方法从自然的野外2D图像或视频中学习回归模型(a) 大多数现有的方法假设条件独立。P（S，R，v，l |I）= P（v |I）P（S |I，v）P（R |I，v，S）P（l |I，v，S，R）(b) 建议的CEST没有假设依赖性。图1：传统的3D人脸重建和我们的CEST框架。虚线将用于推断3D参数的模块与用于自我监督训练的模块分开。没有明确访问3D训练数据[39，41]。由于实际图像形成不仅取决于面部的形状和纹理，而且还取决于照明（入射光的强度和方向）以及诸如视点（包括面部的取向和相机的位置）等的其他因素，所以问题变得复杂。因此，学习的回归模型也必须考虑这些因素。为此，一般方法是其中形状、反射率、照度和视点参数都从2D图像提取的方法通过自我监督学习提取这些面部参数的回归模型：重新组合提取的面部参数以渲染原始2D图像，并且学习模型参数以使重建误差最小化。然而，该解决方案仍然是模糊的，因为2D图像可以从形状、纹理、照明和视点的不同组合获得。为了确保自我监督提供有意义的解开，重新组合面部参数以重建2D图像的方式是基于图像形成的实际物理学[39，41，33]。为了进一步减少潜在的模糊性，正则化是必要的。反射对称性已经被提出作为正则化子[42，38，45]，其中面部图像的反射率及其镜面反射。训练推理训练原始图像视点v形状S反射率R照明叠加图像原始图像照明反射率形状观点培训渲染器渲染器照明反射率形状观点13290假设它们是相同的。平滑度也被用来调整形状和反射率[41，38]。可以通过考虑同一张脸的多个图像之间的对应关系来获得额外的正则化[18，37]，特别是当它们在几乎相同的条件下获得时，例如来自视频的图像序列。[37]中的方法考虑了反射率一致性，其中假设视频剪辑中的所有图像帧的反射率相似。在所有这些现有工作中，目标参数，即形状、反射率、照明和视点参数都是单独估计的，而不考虑它们对彼此的直接影响，尽管它们是联合优化的。实际上，在推断时，它们假设例如反射率的估计在给定原始2D图像的情况下有条件地独立于估计的形状或视点。四个之间的耦合仅在（自我监督）训练期间考虑，其中它们必须全部组合以忠实地重建输入2D图像[11，14，29，42，37]。这示于图第1（a）段。实际上，2D图像是降维投影，并且因此是面部的完整三维结构的不完美表示，并且在其中压印的反射和照明的方面不依赖于对象的基本形状或捕获它们的视点。因此，捕获的2D图像表示视点、形状、反射率和照明之间的联合交互。因此，这四个因素中的任何一个的统计估计实际上在仅给定2D图像的情况下可能因此，将所有这些变量建模为有条件独立有效地表示失去了机会，因为通过单独预测它们，忽略了它们彼此施加的约束。基于优化的方法[17，18，35]试图通过迭代地估计彼此的形状和反射率来捕获依赖性。然而，这些方法需要视频中的图像序列的对应信息并且遭受昂贵的推断。在本文中，我们提出了一种新的基于学习的框架工作的基础上条件估计（CEST）。CEST明确地考虑了从单个2D图像导出时各种3D面部参数（形状、视点、反射率和照度）彼此之间本文采用的依赖关系的具体形式如图所示。第1段（b）分段。我们注意到CEST框架非常通用，允许我们考虑任何其他依赖结构。我们的论文是在实践中工作良好的许多潜在选择之一为此，我们提出了一个具体的，直观的，在CEST的解决方案，其中的观点，面部形状，面部反射率，光照预测顺序和条件。在在该上下文中，面部形状的预测以输入图像和导出的视点为条件;和/或其它信息。如前所述，通过将利用估计的3D面部参数获得的重新渲染的2D图像作为额外的正则化器，我们还采用反射对称约束[42，38，45]和反射一致性约束（跨短视频剪辑中的帧）[37]。这些以跨帧重构误差项的形式被包括，其数量随着一起考虑用于自监督的视频帧的数量而二次增加为了解决重建项数量急剧增加的问题，我们提出了一种随机优化策略来提高训练效率。我们介绍了消融研究，并与最先进的方法进行了比较[39，42，37]，以评价CEST。我们表明，CEST产生更好的反射率和结构化illu- mination，导致更逼真的渲染面部精细的面部细节，相比所有其他测试方法。它还在AFLW 2000 - 3D [49]和MICC [1]数据集上实现了比当前最先进的自监督和全监督方法更好的形状估计精度。总的来说，我们的贡献可以总结如下：• 我们提出了CEST，三维人脸重建的条件估计框架，明确考虑了三维人脸参数之间的统计依赖关系。• 我们提出了一个具体的设计分解的条件估计，其中的观点，形状，反射率，和照明派生顺序。• 我们提出了一种随机优化策略，有效地将反射对称性和一致性约束纳入CEST。随着视频帧数目的增加，CEST的计算复杂度线性增加，而不是二次增加。2. 相关工作基于自监督学习的单目3D人脸重建。最近发表的许多研究旨在以自我监督的方式从单个图像学习3D面部参数。在[29]中，作者提出了一种从粗到细的框架来改善重建的3D面部的细节。Ayush等人。 [39]提出了一种基于模型的深度卷积面自动编码器（MoFA），以使3DMM适应形状、反射率和照度。InverseFaceNet[20]在通过自监督自举生成的合成训练语料库上训练直接回归模型。SfSNet [33]在学习中结合标记的合成和未标记的真实世界图像，并产生准确的深度图，反射和阴影解缠。为了更好地表征面部细节，3DMM在[41，42]中被推广到非线性模型[48]使用3D面的网格卷积，引导-13291级联图解纹理T反射网络fr（I）照明网络功能（一）形状S照明UV包装UV解包∈∈|||||||||裁剪输入视频帧视点v反射率A反射率R的UV图专家设计的差异化渲染模块覆盖视频帧图2：所提出的CEST框架的总体培训管道。转向具有竞争力性能的轻量化型号。[34]结合了来自几何、像素和深度的多视图一致性作为约束。然而，这些方法通常不考虑跨视频中的帧的对应性。FML [37]是第一个在训练中包含视频线索的自监督框架。每个视频帧的形状和反射率通过对视频剪辑中的形状和反射率求平均来近似。然而，如果多帧图像的数量很大，则在平均表示上训练的模型可能无法很好地用于单个图像，这是由于平均图像和孤立图像之间的大间隙。相反，CEST使用来自单个图像的表示。更重要的是，它使用条件估计来预测面部参数，并且不假设条件顶点集合S=[S（1）;S（2）;…;S（K）]RK×3，其中K是顶点的数目，并且S（i）=[S（i，1），S（i，2），S（i，3）]表示笛卡尔坐标系中的xyz坐标。S的类型学对于不同的面是一致的反射率包括像素值R =[R（1）; R（2）;…;R（K）]RK×3.每行R（i）=[R（i，1），R（i，2），R（i，3）]包括像素值（即，RGB）。3.1. 框架概述从2D图像重建3D人脸的问题是在给定输入图像I的情况下获得形状S、反射率R、视点v和照明λ的估计。从统计学上讲，我们的目标是在给定输入图像的情况下估计这些变量的最可能值：它们之间的独立性，在前面提到的方法中采用的经常是不现实的假设。S，R，v，=argmaxS，R，v， P（S，R，v，|（1）基于优化的三维人脸重建。[18]建议通过迭代地更新视点、几何形状、照明和纹理来使模板模型适合照片集。[35]将面部模型拟合到检测到的3D地标，并细化纹理和几何细节。[11]学习具有参数形状先验的身份和表达变化的面子空间。[10]将3D人脸重建视为全局变分能量最小化问题，并估计视频帧的密集低秩3D形状。虽然这些方法可以被认为是条件估计，但它们专注于从视频中导出3D面部参数，并且与从单帧图像中导出它们的问题无关，这是我们的工作中解决的问题。对于CEST，视频剪辑被视为用于更好地学习模型的一致图像集合。3. CEST框架在这项工作中，我们采用了一个共同的做法，从三维摩尔-的挑战的这估计有两个方面：第一P（S，R，v，I）必须被建模，其次，argmaxS，R，v，P（S，R，v，I）必须计算。直接建模P（S，R，v，RNI）是一个具有挑战性的问题，必须分解这个问题。之前方法[41，39，48]通过假设形状，反射率，视点和照明都是有条件独立的来分解这个问题，给定图像，即P（S，R，v，I）=P（S I）P（R I）P（vI）P（I）。这导致简化的估计，其中每个变量可以独立估计，即S=argmaxSP （S|R=argmaxRP （RI）等。正如我们前面所讨论的，条件独立性假设是有问题的因为条件变量I是3D面部的较低维投影，其使四个变量纠缠在一起。在CEST中，我们明确地对条件依赖性进行建模，如图所示。第1段（b）分段。具体地，我们将联合概率分解为phable模型（3DMM）[4]，其将3D面部表示为形状和反射率的组合述形状包括P（S，R，v，|I）=P（v|I）P（S|I，v）P（R|I，v，S）P（|I，v，S，R）（二）重构损失裁剪图像形状网络fs（I）观点网络（一）13292||||RR→∈◦ ◦ ◦ →∈∈∈∈∈以这种方式耦合变量导致复杂性：即使如上所述，最大化关于S、R、v和的联合概率必须联合进行。输入图像(a)独立估计模型：P（R| I）R因为变量是耦合的。我们近似计算相反，基于上述顺序分解，使用以下顺序估计：v=argmaxP（vI）vR=argmaxP（RI，v，S）RS=argmaxP（SI，v）Sℓˆ=argmaxP(ℓI,vˆ,Sˆ,Rˆ)ℓ（三）图像空间UV空间第二个挑战是实际计算等式3中的arg max运算。我们不试图明确地对概率分布进行建模并使其最大化，而是将等式3中的估计量建模为参数函数：图3：生成照明纹理的UV贴图的图示。和表达的变化，尊重我。在CEST的训练和测试过程中，S和U是固定的。利用预测的α，可以使用等式5获得形状S。反射率。以前的方法通常预测重新-v=fv（I;θv）R=fr（I，v，S;θr）S=fs（I，v;θs）ℓˆ=fℓ(I,vˆ,Sˆ,Rˆ;θℓ)（四）预定义模型[39，38]中的反射系数、反射率的展开UV图[41，42，22，13]或图因此，学习估计3D面部参数的问题有效地减少到估计参数θv、θs、θr和θl的问题。使用常见的方法，我们制定了这些参数的学习过程，通过一个自动编码器。fv（）、fs（）、fr（）和f（）一起被视为自动编码器中的可学习编码器，其估计v、S、R和分别解码器是一个没有可学习参数的确定性可微渲染器（），它从编码器导出的值中重构原始输入I，如下所示：（S，R，v，v）. 的参数的en-编码器被学习以最小化I和I之间的误差。3.2. 面部参数推断观点。我们首先从给定图像预测视点参数，使用函数fv（I;θv）：这里v用于参数化弱透视变换[36]，包括3D空间旋转（SO（3）），平移（xyz坐标）和缩放因子。形状形状的预测取决于给定的图像I和预测的v。由于以不同视点捕获的相同面部应对应于相同的面部形状，因此在形状预测之前从图像I中排除尽可能利用预测的v，我们可以将图像与其在2D平面中的规范视图对齐，如图1B所示。2和附录A.1。裁剪的图像由I表示v.函数fs（Iv;θs）：IvαR228×1带构造可学习参数θs来预测形状系数α形状系数α由3D面部形状的统计模型定义：S=S¯+Uα，（5）其中SR3K×1是矢量化的S，S¯R3K×1是平均形状。UR3K×228是来自Basel Face Model（BFM）[27]和3DFFA [49]的PCA基，用于身份识别图10示出了直接从图像获得反射率[44，48]的表示的方法在CEST中，我们采用UV图表示反射率。然而，反射率的预测不仅取决于给定图像I，而且取决于预测的视点v和形状S。该过程如图所示。二、我们首先通过使用弱透视变换将世界坐标面部形状S与视点v进行投影来计算图像坐标面部形状QRK×2附录A.2中给出了转换的详细信息，因为它是一个标准公式，而不是本文的贡献。接下来，我们构造中间表示，即照明纹理T [36]的UV图，其通过基于预测的面部形状展开给定图像I而获得Q. 随后，通过反射率函数fr（T;θr）从被照射的纹理T预测反射率A的UV图。反射率R可以通过UV包裹从A计算T的基本思想如图所示。3 .第三章。对于每个T（x′，y′）（位置（x′，y′）处的像素值），我们在I中追踪其对应的位置（x，y）。照明纹理可以通过T（x′，y′）=I（x，y）简单地获得，其中如果x或y不是整数，则使用双线性插值来推断位置（x，y）处的I的像素值（x，y）的计算如下。首先，通过柱面展开将标准面形S¯映射到UV空间。我们基于3DMM提供的顶点连通性来确定包围网格上的点（x’，y’）的三角形。三角形由它的三个顶点Q′（i）、Q′（j）和Q′（k）表示。由于图像空间和UV空间中的面部形状的拓扑是相同的，所以这两个空间中的顶点具有一一对应性。我们可以容易地得到相应的顶点Q（i）、Q（j）和Q（k）。现在位置（x，y）可以通过x=k1Q（i，l）+k2Q（j，l）+k3Q（k，l）和y=k1Q（i，2）+k2Q（j，2）+k3Q（k，2）来计算，其中输入图像I，v，S（x，QjQKy）UV解缠fr包装TARQ（X’Qqj（b）条件估计模型：P（R| I，v，S），y13293我----我我LJ我JJ我我我 J我我我NNkpi=1j=1∥·∥1⊗Ni=1∥ −∥2是由重心坐标系中的Q′（i）、Q′（j）、Q′（k）和（x′，y′）计算的系数[6]。计算详情见附录A.3。对于不可见三角形（由自遮挡引起），我们简单地忽略它们。利用被照明的纹理T，反射率A的UV映射可以由函数fr（T; θr）产生，其中θr是可学习的参数。值得注意的是，fr的输入（T）和输出（A）在UV中是空间对齐的空间，所以学习过程可以大大方便。随后，通过包裹函数R=Ψ（A）[36]获得反射率R，其没有可学习的参数，如A.4所示。照明。根据先前的研究[14，42]，我们假设远距离平滑照明和纯Lambertian表面特性[2]。球谐函数（SH）[28]用于近似表面处的入射辐射我们使用3个SH频带，导致9个SH系数。辐射到各个方向。在这种情况下，CEST不会学习语义上分离的面部参数，但会导致I？的完美重建。为了避免这种情况，我们采用对称性和一致性的反射率约束。在视频剪辑中，面部反射率被假定为水平对称且一致。假设Ii和Ij是来自同一视频剪辑的两个面部图像。一种可能的解决方案是将正则化项Ri−R、Rj−R和RiRj添加到学习对象iv e，其中R和R分别为水平翻转的Ri和Rj。但很难调整损失权重以平衡重建和正则化项。相反，我们通过构建额外的重建项作为约束来采用替代解决方案[45]。用于重建Ii和Ij的学习目标可以写为Lph=E （Ii ，Si，Ri ，vi ，i，Mi ）+E （Ij，Sj，Rj，vj，j，Mj）照明函数定义为f（I，T，A;θ）：9× 1+E（Ii，Si，Rj，vi，i，Mi）+E（Ij，Sj，Ri，vj，j，Mj）+E（Ii，Si，R，vi，i，Mi）+E（Ij，Sj，R，vj，j，Mj）（七）（I，T，A）→∈R ，取给定的像，il-ij光照纹理贴图和UV贴图的反射率作为输入，并产生光照参数。到目前为止，3D人脸模型参数R、S、v和是预测，我们能够重组它们，并通过专家设计的渲染模块，即渲染图像。I=R（S，R，v，）.3.3. 自我监督学习函数fs、fr、f v和f分别由具有可学习参数θs、θr、θv和θ的卷积神经网络（CNN）建模。由于所有的学习模块和专家设计的渲染器是可区分的，因此所提出的框架是端到端可训练的。学习目标是最小化原始图像I和渲染图像I之间的差异。学习目标不包括非人脸区域中的像素点，如头发，太阳镜，围巾等。我们通过面部分割网络f seg来识别像素是否属于面部或非面部区域，该网络在CelebAMask-HQ数据集[23]上使用分割标签进行训练+E（Ii，Si，R，vi，i，Mi）+E（Ij，Sj，R，vj，j，Mj）随机优化可以看出，重构项的数量急剧增加. 从同一视频的n帧中，可以构造2n2个重建项。这是不可扩展的。为了解决这个问题，我们建议优化学习目标的随机方式。对于每个训练迭代，仅优化重建项的子集。具体地，视频帧I1、I2、…IN是从不同视频中随机采样的。帧按视频分组，标记为ξ= ξ1，ξ2，…ξN对于任何Ii，我们不是枚举所有可能的反射率并获得许多重建项，而是从同一视频中随机选择一些其他帧，表示为Ij（在ξj=ξi的条件下），并使用Rj和R来构建两个重建项。用于Ii的术语。在这种战略下，侦察的数量-结构项由O（n2）减少到O（n）.形式上，学习目标可以写为N在数据集中提供。训练后，f固定在L=1Σ. E（I，S，R，v，，M）CEST的培训和测试我们表示有效的将面部区域作为掩模M，因此如果M（i，j）=1，则在位置（x，y）处的像素被包括在重构中，并且如果M（i，j）=0，则排除在重构中。光度损失可以写为+E（Ii，Si，R，vi，i，Mi）Σ.为了稳定CEST的训练，我们通过Lkp=1ΣN<$Nkp<$Qi（kj）−qi（j）<$1，其中Lph= E（I，S，R，v，M）=MI−MI1=MI−MR（S，R，v，）1，（六）q（j）是图像上检测到的2D关键点的集合并且是与2D关键点相关联的顶点的索引我们还正则化形状系数的能量与哪里测量距离和表示所述Lrg=1ΣN2. 一个现成的地标检测-元素乘法然而，如果我们简单地优化ph，CEST将学习退化的解决方案，其中反射率A简单地从T复制像素值，并且产生各向同性辐射体，辐射相同的强度tor [7]用于为检测面产生Nkp=68个全部损失包括下列各项：L=Lph+λ1Lkp+λ2Lrg（9）其中λ1和λ2是超参数。segpHN i=1，ξj=ξi（八）ℓ113294×（一）（b）第（1）款（c）第（1）款（d）其他事项输入覆盖照亮纹理反射几何体照明输入叠加照亮纹理反射率几何体照明（e）图4：消融。(a)有两个约束的CEST。(b)具有两个约束的解耦CEST。(c)仅具有反射率一致性约束的CEST。(d)具有反射对称约束的CEST（视频帧的数量为1）。(e)CEST，对反射率没有约束。4. 实验我们通过消融实验定性和定量评估CEST，并与最先进的方法进行比较[39，19，37，9]。在消融实验中，我们将CEST与独立版本的CEST（IEST）进行比较，其中以解耦的方式估计面部参数，并且用不同的约束训练其他变体。定量结果包括预测的形状、反射率、光照、重建的面部等。我们还示出了通过用不同的照明来照明反射而获得的重新照亮的面。定量结果评估的质量的预测形状和渲染的脸。我们使用的度量分别是形状和渲染面部的归一化平均误差（NME）[16]和光度误差。NME被定义为通过外部3D两眼间距离归一化的预测点云和目标点云之间的平均每顶点欧几里得距离光度误差是原始图像和重建图像中的像素值之间的平均绝对误差4.1. 实验设置为了公平比较，我们分别用VoxCeleb 1 [26]和300W-LP [49]训练两个单独的CESTVox-Celeb 1是从互联网上收集的视频数据集。在不同的野外场景中捕获发言者的视频在训练中使用267个人的4，727个视频的子集，得到6，279，609个视频帧。基于使用[7]检测到的面部关键点，视频帧中的面部被裁剪为256 256300W-LP是一个合成图像数据集，包含122，450张具有密集界标的图像。由于我们专注于自监督学习，因此我们仅使用68个稀疏地标的稀疏集合作为训练的正规化训练网络架构见附录B.1。对于使用VoxCeleb1的训练，minibatch由来自32个剪辑的128个视频帧组成。对于每个视频剪辑，我们随机选择4个视频帧。训练以50K迭代完成。对于使用300 W-LP的训练，小批量由128个随机选择的图像组成，并且总迭代为20 K。对于这两个模型，我们都使用了亚当[21]学习率为0.001的优化器λ1和λ2是1乙腈-0.1除非另有说明。4.2. 消融实验消融研究的结果如图所示。4.第一章我们首先呈现原始图像和重建图像（覆盖图）以进行比较，然后是反射率、照明纹理、面部形状（几何形状）和标准视图中的照明更多消融见附录B.2。CEST和IEST。IEST是用与CEST相同的设置训练的，除了在训练和测试期间独立于图像估计面部参数。结果示于图分别见4（a）和（b）。我们可以看到，CEST产生逼真的叠加，解开反射和照明，和几何与个人特征和表达。与CEST相比，IEST实现了合理的结果，但反射率不如CEST的反射率详细，导致较差的覆盖和照明纹理。它验证了我们的假设，耦合估计可以更好地制定的问题和facilitated学习。反射对称性和一致性约束。我们训练了CEST的多个变体，只有对称性约束，只有一致性约束，没有这两个约束，并在图中显示了他们的结果4（c）、（d）和13295（一）（b）第（1）款（c）第（1）款（d）其他事项输入覆盖误差图反射几何照明50403020100（一）（b）第（1）款（c）第（1）款（d）其他事项输入覆盖误差图反射率几何照明50403020100图5：与MoFA的比较。(a)和（c）是CEST的结果。（b）和（d）是财政部的结果。图像来自CelebA数据集[25](e)分别表示。比较（a）和（c），我们观察到反射对称约束导致更好的反射和照明分离。这是因为水平翻转的视频帧可以向训练集提供更多的照明变化，使得CEST能够学习正确地对不同的照明进行建模。另一方面，如果不使用视频剪辑中的反射率一致性，则不能很好地执行反射率和光照的分解。一些照明在反射中保持在眼睛区域周围（参见图的右手侧）4（d））。最后，如果我们不对反射率使用任何约束，CEST会学习退化的解决方案（图10）。4（e）），其中反射率简单地从图像复制像素值，并且照明是各向同性辐射器，在所有方向上辐射相同强度的辐射此外，我们注意到，降级的解决方案也影响了学习的面部形状，其在图中具有较少的个人特征。第4段（e）。4.3. 定性结果在本节中，我们将CEST与具有定性结果的最相关的最更多定性结果见附录B.3。与MoFA比较[39]。MoFA是一个完全基于模型的框架。其表示能力受到线性3DMM模型的限制。此外，所有的面部参数从MoFA独立预测的原始图像。相反，我们使用无模型方法的反射率，整个推理过程是基于耦合估计。我们可视化的重叠，反射率，几何形状，照明，以及输入和渲染图像（重叠）之间的误差在图。五、如可以观察到的，来自MoFA的结果遭受子空间外反射率变化。与MoFA相比，我们获得了可比较的形状，但显着更好的反射率，照明，并通过捕捉更多的细节渲染的脸。与N3DMM比较[42]。N3DMM将3DMM模型推广到非线性空间，提高了人脸的绘制质量。然而，N3DMM还推断出13296（e）（f）第（1）款图6：与非线性3DMM的比较。(a)、（c）和（e）是CEST的结果。(b)（d）和（f）是N3DMM的结果。图像来自AFLW 2000 -3D数据集[49]反射率，并且使用太多的启发式约束，例如反射率恒定性、形状平滑性、监督预训练等。因此，他们的模型只能捕捉反射率的低频变化。例如图6（b）唇膏在反射率中缺失，并且反射率中的肤色对于不同的人几乎相同。这些限制导致更高的重建误差。相比之下，我们的结果产生了逼真的重建，具有更个性化的反射率和结构化照明，以及更低的重建误差（图1）。（六）。与FML比较[37]。FML在训练中适当地结合了视频线索，并且可以渲染逼真的面部。然而，其重建的反射率倾向于平均肤色。相比之下，CEST产生更准确的肤色（见图）。图7（a）、（c）和（e））通过在反射率的估计中结合学习的形状和视点来计算反射率。定性结果清楚地表明，我们的结果有更合理的解纠缠反射率和光照。它们还有助于更好地呈现面部的视觉质量值得注意的是，在眼睛和鼻子区域中存在与图1中的覆盖图相当大的差异7 .第一次会议。重新点亮由于CEST预测的反射率的脸，他们可以很容易地重新点燃不同的照明条件。图8示出了在规范视图中重新照亮的面。特别地，最后两个目标面处于强光下，这也考察了CEST的光照去除能力。重新点燃的结果再次验证了CEST能够估计良好分离的面部参数并捕获真实世界面部图像中的反射率和光照变化13297（一）（b）第（1）款输入覆盖误差图反射率几何照明50403020100（c）第（1）款（d）其他事项（e）（f）第（1）款图7：与FML的比较。(a)、（c）和（e）是CEST的结果。(b)（d）和（f）是FML的结果图像来自VoxCeleb1数据集中的视频帧[26](a) AFLW 2000 -3D数据集的CED曲线（b）MICC数据集图9：AFLW 2000 -3D和MICC数据集上的CED曲线。例如，（4，63）处的点意味着63%的图像具有小于4的NME。他们的评价。点对应由迭代最近点（ICP）算法[3]确定。我们计算了累积误差分布（CED）曲线，并将其与 AFLW 2000 -3D 上的当前流行方法（如 3DDFA[49]、DeFA [24]和PRN [9]）进行了比较。为[ 16 ]《易经》云：“君子之道，焉可诬也？有始有卒者，其惟圣人乎！”[17]结果见图9 .第九条。CEST实现3.37和3.14分别在AFLW 2000 -3D和MICC数据集上的NME更有趣的是，我们的方法比用于形状估计的全监督技术例如3DDFA（AFLW 2000 -3D为5.37，MICC为6.38）和PRN（AFLW 2000 -3D为3.96，MICC为3.76此外，我们的方法还可以估计面部反射率和光照，而3DDFA和PRN都不能。与MICC数据集上的N3DMM相比，CEST实现了略低的NME（3.14 vs.3.20）。值得注意的是，N3DMM使用密集地标进行监督预训练，而CEST仅使用68个稀疏地标。更多定量比较见附录B.5。5. 结论和未来工作我们提出了一个条件估计框架，称为CEST，从单视图图像的三维人脸重建。CEST解决了重建问题输入重新点亮图8：照明转移结果。更一般的公式，其不假设条件独立性。我们还提出了一个具体的分解为不同的3D的4.4. 定量结果我们首先对AFLW 2, 000 -3D数据集进行定量评估，其中包括2,000张具有较大姿态变化的无约束AFLW2000 -3D的地面实况由来自3DMM拟合的结果给出，其可能有些嘈杂。第二次评估是在MICC Florence 3DFace数据集上进行的，该数据集由来自53个受试者的高分辨率3D扫描组成。我们遵循[16]中的实践，使用提供的3D扫描渲染2，550个测试图像。使用-15度、20度或25度的俯仰和-20度的偏航以20个不同姿势渲染每个对象。-80、-40、0、40或80度。为了与以前的工作进行比较，NME是基于[16]中定义的一组19，618个顶点来计算的。13298面部参数与反射对称性和一致性约束一起，CEST可以用视频数据集有效地训练定性和定量的结果都证明了条件估计的有效性。CEST能够为单视图图像产生高质量和良好分离的面部参数。建议的CEST可以从许多方面进行改进。首先，通过探索视频中的时间信息，可以获得更准确和无歧义的面部参数。其次，形状估计的性能可以通过更先进的变形模型来提高，这也有利于其他面部参数的后续估计。此外，添加感知损失也可以是改善面部参数的视觉质量的有效方式。13299引用[1] Andrew D Bagdanov，Alberto Del Bimbo，Iacopo Masi.佛罗伦萨2D/3D混合人脸数据集。在Proceedings of the2011 joint ACM workshop on Human gesture and behaviorunderstanding，第79-80页2[2] Ronen Basri和David W Jacobs。朗伯反射率和线性子空间。IEEE模式分析与机器智能学报，25（2）：218-233，2003。5[3] Paul J Besl和Neil D McKay。三维形状配准方法。在SensorfusionIV ： controlparadigmsanddatastructures，第1611卷，第586国际光学与光子学会，1992年。8[4] Volker Blanz和Thomas Vetter。三维人脸合成的可变形模型。在 Proceedings of the 26th annual conference onComputer graphics and interactive techniques，pages 187-194，1999中。一、三、十一[5] James Booth 、 Epameinondas Antonakos 、 StylianosPloumpis 、 George Trigeorgis 、 Yannis Panagakis 和Stefanos Zafeiriou。3d脸变形模型“在野外”。2017年IEEE计算机视觉和模式识别会议（CVPR），第5464-5473页。IEEE，2017年。十三十四[6] 波提玛关于重心坐标系中三角形的面积。 CruxMathematicorum，8（8）：228-231，1982. 5[7] Adrian Bulat和Georgios Tzimiropoulos我们离解决二维和三维人脸对齐问题还有多远？(and 230，000个3D面部标志的数据集）。2017年计算机视觉国际会议。五、六[8] 曹晨、翁彦林、周顺、童一英、周坤。Facewarehouse：用于视觉计算的三维面部表情数据库。 IEEE Transactions on Visualization and ComputerGraphics，20（3）：413-425，2013. 1[9] Yao Feng，Fan Wu，Xiaohu Shao，Yafeng Wang，andXi Zhou. 结合位置映射回归网络的三维人脸重建与密集对齐在欧洲计算机视觉会议（ECCV）的会议中，第534六、八[10] Ravi Garg，Anastasios Roussos，and Lourdes Agapito.非刚性表面的密集变分重构。在Proceedings of the IEEEConference on Computer Vision and Pattern Recognition，第1272-1279页，2013年。3[11] PabloGarri do，Mi chaelZollho¨ fer，DanCasas，Le viVal-gaerts，KiranVaranasi，帕特里克·佩雷斯和克里斯蒂安·西奥伯特从单目视讯重建个人化三维人脸模型。ACM Transactions on Graphics（TOG），35（3）：1-15，2016。二、三[12] PabloGarrido ， MichaelZollh¨ fer ， ChengleiWu， DerekBradley，帕特里克·佩雷斯塔博·比尔和克里斯蒂安·西奥伯特基于单目视频的唇部三维重建。ACMTransactions on Graphics（TOG），35（6）：115[13] Baris Gecer ， Stylianos Ploumpis ， Irene Kotsia ， andStefanos Zafeiriou.Ganfit：用于高保真3D人脸重建的生成对抗网络拟合。在IEEE计算机视觉和模式识别会议集，第1155-1164页，2019年。4[14] Kyle Genova、Forrester Cole、Aaron Maschinot、AaronSarna、Daniel Vlasic和William T Freeman。三维可变形模型回归的无监督训练。在IEEE计算机视觉和模式识别会议的论文集，第8377-8386页，2018年。二、五[15] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。arXiv预印本arXiv：1502.03167，2015。12[16] Aaron S Jackson，Adrian Bulat，Vasileios Argyriou，andGeorgios Tzimiropoulos.通过直接体积cnn回归从单幅图像重建大姿态三维人脸。IEEE International Conferenceon Computer Vision，第1031-1039页，2017年。六、八[17] Ira Kemelmacher-Shlizerman和Ronen Basri。使用单个参考面部形状从单个图像进行 3D 面部重建。 IEEETransactionsonPatternAnalysisandMachineIntelligence，33（2）：394-405，2010. 2[18] Ira Kemelmacher-Shlizerman和Steven M Seitz。在野外进行面部重建。2011年国际计算机视觉会议，第1746-1753页。IEEE，2011年。二、三[19] Changil Kim、Hijung Valentina Shin、Tae-Hyun Oh 、Alexan- dre Kaspar 、 Mohamed Elgharib 和 WojciechMatusik。学习面孔和声音的联系。在亚洲计算机视觉会议上，第276-292页。Springer，2018. 6[20] Hyeong wooKim、Mic haelZoll höfer、AyushTewari、JustusThies、Christian Richardt和Christian Theobalt。逆面网：深度单眼逆面渲染。在IEEE计算机视觉和模式识别会议论文集，第4625-4634页，2018年2[21] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arX

下载后可阅读完整内容，剩余1页未读，立即下载