三维人脸建模中的物理引导隐式绘制方法

35 浏览量更新于2023-10-25 收藏 1.48MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

20353三维人脸建模中物理引导的非纠缠隐式绘制Zhenyu Zhang1，Yanhao Ge1，Ying Tai1，Weijian Cao1，Renwang Chen1，Kunlin Liu2，Hao Tang3，Xiaoming Huang1，Chengjie Wang1，ZhongZhifengXie4，Dongjin Huang4腾讯优图实验室，上海，中国1中国科学技术大学2瑞士苏黎世联邦理工学院CVL 3上海大学zhangjesse@foxmail.comlkl6949@mail.ustc.edu.cnhao.vision.ee.ethz.chhalege，yingtai，weijiancao，renwangchen，skyhuang，jasoncjwang@tencent.comdjhuang，zhifengxie@shu.edu.cn摘要提出了一种新的用于高逼真度3D人脸建模的物理引导分解隐式绘制（Physically-guided Disentangled ImplicitRendering，Physique）框架。动机来自两个观察：广泛使用的图形渲染器产生对照片真实感成像的过度近似，而神经渲染方法产生优越的外观，但高度纠缠于感知3D感知操作。因此，我们学习通过显式物理指导来解开隐式渲染，同时保证以下特性：（1）3D感知理解和（2）高真实度图像形成。对于前一个，Phyphon明确采用3D着色和光栅化模块来控制渲染器，从而将光线，面部形状和视点从神经推理中分离出来。具体来说，Phyphon提出了一种新的多图像着色策略来补偿单眼限制，以便神经渲染器可以访问 For the latter, PhyDIRlearns the face-collection implicit texture to avoid ill-posedintrinsic factorization, then leverages a series of consisten-cy losses to constrain the rendering robustness.使用解纠缠方法，我们使3D人脸建模受益于两种渲染策略。大量的基准测试表明，Phyphon在几何/纹理建模方面获得了优于现有显式/隐式方法的性能。1. 介绍随着数字人、游戏、手机等应用的发展，三维人脸重建越来越受到人们的关注。王成杰和黄东进是通讯作者中国科学院电磁空间信息重点实验室地形学开创性的努力是3DMM [6]，它提供可靠的面部先验。使用该参数模型，可以通过优化和拟合实现重建[47，48，79]。随着深度学习的发展，最近的方法[15，18，33，45，77]学习从输入图像回归3DMM参数。后续工作-还提出了对非线性建模[17，19，56，57，59，67，76]和多视图一致性[5，9，54，64，69]的贡献。除了基于3DMM的方法之外，最近的努力[50，65，75]试图在没有形状假设的情况下对3D面部进行建模。这些非参数方法具有潜在的能力，以提高建模质量超过3D-MM的限制。实际上，上述基于学习的方法需要可区分的渲染器，包括OpenDR [36]，神经网格渲染器[29]，SoftRas [34]和光线跟踪[32]用于无监督学习。这些渲染器在图形管道下执行图像形成，这是很好解释的。通过显式的3D操作，自然可以实现细粒度的3D控件。然而，这些图形渲染器在反射、照明或其他3D线索上产生手工制作的近似或不适定的分解。在图1-（a）中，我们观察到基于图形渲染器的方法[13，32，75]难以产生照片般逼真的纹理，这也限制了它们的几何重建。针对这些限制，另一种方法是采用StyleGAN [27，28]等神经渲染器来避免近似或不适定分解。现有方法[7，12，42，43，66]主要学习将3DMM系数嵌入StyleGAN通过这种方式，通过调整参数来隐式地实现3D控制。结合StyleGAN然而，在图1个-20354我们DFGPIRender（b）第（1）款VariTex偏航俯仰（c）-75° 0° +30°-30° +30°方法3D控件图像形成照片集基于图形渲染器[65]第五十七话：一个人的世界，一个人的世界[54]第64话：我是你的朋友显式形状|构成|光可解释3D图形流水线C×基于神经绘制[43]第十二届全国人大常委会第十五次会议审议通过了《中华人民共和国电信与信息服务业务经营许可证》隐式3DMM参数纠缠‘Black×3D感知生成[39]第七届中国国际纺织品展览会显式形状|构成解缠结3D运算+ 2D神经推理×显式解缠结（一）我们的D3DFRAlbedo MM + Redner表1.与选定的现有方法进行讨论从输入图像，这避免了不适定的内在因子化。然后，Phyphon采用面部阴影和光栅化从一个3D代理扭曲到2D空间的隐式纹理。因此，精细的3D控件，包括外观形状，视点和照明，被显式地建模。具体来说，Phyphon利用一种新颖的多图像着色模块来补偿单眼模糊性，使照明变化可以在无监督的情况下很好地访问。之后，神经外观渲染器获取图1. (a)与基于图形渲染器的方法的比较- s [75]，D3 DFR[13]和Albedo MM [52] +光线跟踪（redner）[32]。我们的方法模型详细的面部形状，照片逼真的纹理和照明效果。(b)与神经渲染方法DFG [12]和PIErender [43]的比较。我们的方法产生了更强大的3D控制和重新照明的结果。(c)3D感知生成方法的结果[7]。我们的方法很好地解决了现实世界的图像和照片般逼真的照明效果。(b) ，我们观察到它们不能保证3D操作期间的身份、外观形状、照明效果或纹理一致性。其原因是由于纠缠图像形成过程。StyleGAN被训练成一个没有3D物理建模的2D感知“黑盒子”。因此，即使使用高级3D表示，生成器本质上也需要猜测和模拟精确的3D操作，这是高度间接和复杂的。最近的3D感知生成方法[7，8，39，42]针对这个问题提出并实现了更好的3D控制。然而，在图在图1-（c）中，我们观察到这种方法不能解决真实世界的图像，也不能解决照明效果。在这些讨论的基础上，我们认为适当的渲染策略应该支持（1）明确和细粒度的3D控件，（2）高质量图像形成的无纠缠神经推理，以及（3）轻松逆渲染以从真实图像中建模人脸。在本页中-基于此，我们提出了一种新的基于物理引导的非纠缠隐式绘制框架。如图1 、通过将 3D 物理管道从神经推理中分离出来，Phyphon从输入的面部照片中实现了鲁棒的、照片般逼真的3D建模/编辑。 Phyphis的神经推理包含-它是一个纹理建模网络和一个2D感知的神经感知渲染器，而3D物理指导用显式3D管道连接这两个阶段。具体地说，纹理建模网络学习规范隐式纹理用于图像形成的投影2D纹理，受到一系列3D一致性损失的约束。通过这种方式，Phyphon确保了可解释的3D控制和照片般逼真的图像形成，而无需手工制作的规则。最后，我们demonstrate，与解开范式，Phyphum以及作为一个可靠的渲染器建模详细的面部形状。概括而言，我们的贡献如下：1) 提出了一种新的基于物理引导的非纠缠隐式渲染（Phyridium）框架，用于高逼真度的三维人脸建模.Phyphol很好地整合了图形/神经渲染器，并克服手工制作的图形规则或纠缠的神经图像形成。2) 凭借新颖的多图像光栅化、着色和纹理映射模块，Phyphon可保证对形状、视点和照明进行细粒度的3D控制，以及照片级逼真的成像。3) 通过一系列新颖的一致性损失，Phyphon保证了3D操作下的渲染鲁棒性。2. 相关作品在表1中，我们对现有的人脸建模方法进行了讨论。与基于图形渲染器的方法相比，Phyphon受益于照片真实感图像形成的神经推理。与基于神经渲染器的方法相比，Phyphon处理更明确和可解释的3D控件。最相关的工作是3D感知的生成模型。相比之下，我们的方法解决了真实世界的图像，多视图的一致性和光模型，这是至关重要的三维人脸形状恢复。3D人脸重建：3D人脸重建是一个长期存在的问题[16]，可以分为两个主流：也就是说，参数和非参数方法-S.参数化方法主要是从3D-MM [6]发展而来的。早期的工作试图通过优化找到合适的3DMM参数[47，48，79]，而最近的方法-重光照20355∈≈∈∈ ∈∈LL（I，I，σ）=− |Ω|ln2σ exp−、（二）σes [15，18，45，77，78]利用深度神经网络直接从输入图像回归参数。通过提出的可微分渲染器，在无监督学习[20，46，57]方面做出了努力，提高了非线性可行性[14，17，19，57，59，76]和多视图一致性[5，9，54，64，69]。最近的作品试图学习完整的3DMM基础[56]或隐函数[67]，这为该主题带来了新的可能性。对于非参数方法，最近的工作的一部分-s是通过数据驱动的监督训练开发的[3，24，60，71]。其他工作也从阴影恢复形状[72]发展而来，包括SFS-Net [50]和Unsup 3D [65]。最近，Zhang等人提出了非参数化方法[75] 来利用非参数化范例中的多图像一致性。Gan2Shape [40]和LiftedGAN [51]试图从2D GAN中提取知识进行3D重建。与上述方法不同的是，Phyphon从绘制过程的角度对三维人脸建模进行了贡献，成功地融合了图形学和神经绘制策略的优点。差分图形渲染器：可微分渲染对于逆向图形（如3D人脸建模）至关重要，这也是一个长期存在的问题[23，53]。最近的努力，如OpenDR [36]和神经网格渲染器[29]被提出作为通用管道，其中它们近似多三角形解决方案的主要可见性梯度。[26]利用OpenGL渲染器进行3D重建。SoftRas [34]提出了后向导数上的可微函数。Li等人提出了一种用于射线跟踪的边缘采样解决方案[32]。Cole等人。 [10]提出了一种支持不同表示的有效表面渲染方法。总之，这些方法产生近似或让步建模现实三维面。相比之下，Phyphon通过以下方式摆脱了局限3. 3D代理建筑实现神经网络作为人脸建模的渲染器并不简单，因为渲染过程是高度复杂的。所有现有的方法[7，12，42，43，55]都将3D先验编码到网络可访问的形式。根据这一观点，我们首先使用3D代理物理引导神经渲染器进行高质量的应用建模，然后利用学习的渲染器来改进几何重建。理论上，代理可以是任意的。在这里，我们选择Unsup3D [65]和Unsup3D [75]来获得3D代理，因为它们不需要监督和有限的先验，同时具有良好的效率，非线性和源代码。Unsup3D和P2P共享类似的框架和公式。总之，他们将面部图像I分解成包括深度图d的内在因子（d，a，ω，lR+，一个平行的图像aR3，方向灯lS2和一个视点ωR6，其中d，a和l都在正则空间中.每个因子由单独的网络预测，我们将其分别表示为Φd、Φa、Φω和Φl。然后，可以如下通过照明Λ和光栅化Λ使用这些因子来重建3DI=其中，通过可微分渲染器来实现[29]。它们还利用了一个弱对称的正则空间：<$I′=<$（Λ（a′，d′，l），d′，ω ），其中 a′ 和d′是a，d的压缩形式.学习鼓励我我，我。置信度映射σ，σ′R+由网络Φσ预测，以校准损失，如下所示：1Σ1√2|I−I|集成神经渲染，其面临较少的不适定因子分解或外观退化。用于面部重建的神经渲染：人脸建模的神经渲染方法主要依赖于GAN等生成模型[27，28]。一般的编码方法[2，44]引入样式向量来控制字体属性。通过使用3D嵌入，StyleRig [55]，DFG [12]和PIErender [43]隐式控制GAN对姿势，身份和照明的预测，但它们不能保证物理透视的鲁棒性。最近，基于NeRF [37]的方法被用于GAN以完成3D感知操作[8，39]，但它们无法建模高质量的几何形状。更多相关的作品[7，42]将显式3D形状与神经渲染器相结合。相比之下，Phyphon在以下方面具有优势：（1）处理真实世界的图像，而无需逐图像反转;（2）明确地对照明和阴影建模，这对于几何学习也是至关重要的，以及（3）利用多图像映射和一致性来更好地约束现实和3D鲁棒性。其中Ω是归一化因子。还计算了压缩版本（σI′，I，σ′）。我们按照Unsup3D和LAP训练3D网络工作Φd、Φω、Φ l，然后使用它们来提供三维代理作为神经修复的物理指导dering。具体情况介绍如下。4. 方法在这一节中，我们介绍了所提出的物理引导的解纠缠隐式渲染（Phyphon）方法。我们的目标是通过物理指导解开神经渲染过程，使3D人脸建模从显式/隐式策略中受益。概述如图所示。2，其中Phyphon包含隐式纹理建模（第二节）的组成。4.1），3D物理指导（第4.2）和受约束的图像渲染（第4.3）以实现照片级真实感纹理建模。在学习了纹理重建之后，我们介绍了如何使用Phy-Escape进行精细几何建模（第二节）。4.4）。ˆ20356神经推理3D工艺损失3D网络重建一致性损失等式（七）……神经外观渲染器…照片集纹理建模网络……恢复图像|--隐式纹理建模--||-3D物理指导-||-约束图像渲染----------------------------------------------------------------------------------------------------------------|秒（4.1）第（4.2）第（4.3）3D物理处理i=1i=1i=1i=1Ⓢi=1我我i=1i=1我i=1联系我们- -3D物理指导秒（4.2）着色隐式纹理光多图像着色扭曲隐式3D网络形状着色隐式纹理方程（3）质地栅格化网格视点采样翘曲形状方程（四）目标着色联合着色图2.所提出方法的概述3D控制与神经推理明确分离，使神经网络避免处理3D处理，专注于2D纹理生成。对于照片集{I}N对于同一个恒等式，我们首先使用纹理对网络Φb进行建模以获得ta r get/组合隐式结构{bi}N，bc。然后，我们应用子包括多个图像着色和光栅化模块经由图形流水线来warp{bi}N，bc。最后，将包装好的{bsteci}N、{bstecc}N到神经外观渲染器Φn中，以在受不同损失的制约。4.1. 隐式纹理建模大多数神经渲染方法无法处理光线线索。示于图2、首先对输入图像进行隐式纹理建模。我们的隐式纹理建模，而不是学习RGB纹理或反射，具有以下优势：（1）不需要不适定分解，（2）更多的线索，（3）适合神经渲染。类似于神经纹理[7，58]，对于具有实际上，由于阴影效果的形状，光线对于恢复面部细节至关重要[65，72]。因此，我们提出了一种新的算法，采用显式着色操作的高级神经功能，并在无监督的方式。多图像着色模块包括目标着色和联合着色。对于每个目标图像Ii，3D代理网络一个相同的身份，我们的纹理建模网络ii=1Φb预测工作人员提供了规范深度Di和光Li。然后我们得到由朗伯函数flam（di，li）得到的阴影映射Si。隐式测试比特数[h，w，c]（c >3）在正则空间中.请注意，隐式纹理建模与[7，58]不同：首先，我们有效地从I i预测bi，而无需逐图像优化。然后，我们的Φb可以模拟多图像一致性线索，这在第二节中介绍。四点二。在与一致的人脸学习[75]相比，我们的隐式纹理模型具有较少的RGB连接， S.4.2. 3D物理指导我们采用显式的3D引导来扭曲隐式纹理以形成图像。如第1，嵌入3DMM参数[12，43，55]或样式向量[2，44]的现有方法面临纠缠的图像形成过程，失去鲁棒性或细粒度3D控制。此外，在没有显式3D流水线的情况下，这些方法也难以从真实图像中合理地恢复3D面部形状、姿势或灯光。因此，我们提出了3D物理模块来指导神经渲染器。我们的3D物理指导包含多图像着色和光栅化模块。多图像着色模块：如表1中所讨论的，在目标着色中，我们直接通过 Si 应用着色线索bi，其模拟I i上的阴影条件。然而，仅使用目标着色不能实现合适的光控制。一个原因是隐式纹理不能直接显示RGB照明效果;另一个原因是神经渲染器倾向于过度拟合Ii，努力从单个B i感知I v照明变化，而看不到不同的照明线索。因此，我们提出了一个联合着色模块来弥补单一图像的局限性. 我们首先将BiN通过bc=fcon v（[b1，b2，.， bN]）（fconv是连续层），然后将每个li应用于b c。总着色模块为：bi=Si式中，Rbbi、Rbbc是Ii的阴影ta r get/组合隐式t-tures。照片集中的各种光线的阴影，bc作为此外，bc还增强了由常见面部形状产生的纹理一致性。光栅化模块：然后我们使用光栅化模式-20357我我我我×我LL我D G GD我我i=1联系我们形状Ωiirget图像Φb和Φl分别是我们的原型网络和轻型代理网络。最后，总损失为：Ltotal = Lre + u1Ladv+ u2Lshape + u3Ltex + u4Ll，（7）其中u1−4是加权常数。我们优化图3.建议的一致性损失，以限制渲染器规则来扭曲和投影着色的规范隐式纹理将a，b，c，b 利用3D prox-y网络提供的di，ωi，我们利用光栅化函数fR（由网格渲染器[29]实现）来获得由fR（di，ωi）进行的深度压缩。请注意，虽然f R是近似的，但bi，bc和神经推理的丰富线索很好地补偿了它。fRpro-显示了对样本Bbi、Bbc的3D网格变换，如下所示：在实践中，对于集合IiN，总共是N。通过这种方式，我们限制了渲染器在姿态变化下的鲁棒性，并抑制了目标图像上的过度拟合4.4.几何学习一旦Phyphon被训练好，我们就可以将其用作几何建模的可微分渲染器。与隐式方法[7，12，42，43，55]相比，Phyphon将3D操作与神经推理过程分开这样，照明，形状和观点的线索，这是至关重要的bsteci=fsam（ωbi;di，ωi），bstecc=fsam（ωbc;di，ωi），（4）对于几何学习，可以显式地反向传播到iiΦl，Φd，Φω。为了学习几何，我们使用一个新的wΦd与se v-其中fsam是采样函数。以这种方式，经变换的bsteci和bstecc在2D空间上与Ii对准。然后，我们应用一个融合模块将bsteci和bstecc进行融合，以增强上采样转换层和256256输出尺寸把委托书放好我们首先冻结神经推理网络Φb，Φn，只优化3D网络多图像线索由f_i=f_con_v（[b_steci，b_stecc]）。fconv是一个conv。ld ω层，和iΦ，Φ，Φ. 这个过程可以从头开始bi是最终融合的隐式解。4.3.受约束的图像绘制为了从包裹的隐式纹理重构Ii，我们提出了具有各种正则化的神经外观渲染器Φn。与神经绘制方法相比，我们的图像形成网络的输入已被转换到二维空间。因此，Φn仅需要执行空间对准的纹理恢复而无需猜测。3D操作。将接收到的图像定义为codei，我们使用re=（ii，Ii，σi）在Eqn. 2作为重建损失为了改善现实，我们还利用了一个对手-输入损失[4]Ladv= min maxE[ log（D（Ii）]+E[ log（1-或者从3D代理开始。在实践中，我们发现这两种设置之间只有微小的差异。然后，我们使用E-qn与几何网络联合微调Φb，Φn。7 .第一次会议。与3D代理和其他方法相比，我们的方法受益于神经纹理建模和多图像一致性。这些优点导致高逼真度的面部形状建模性能。5. 实验5.1. 设置数据集：我们主要在CelebA [35]和CASIA-WebFace[68]上训练我们的方法，然后在高水平上进行微调。G D（（Ii））]，其中是Φn，Φb，是判别式R。此外，在不同的姿势下，Φn应该鲁棒地重新覆盖具有一致形状、纹理和光的图像。将“Iω”定义为具有随机采样的渲染图像，姿态ω′，我们利用一系列的一致性损失来约束鲁棒性，如图所示。3 .第三章。旋转后的渲染图像“Iω”应包含相同的分辨率数据集CelebAMask-HQ [31]。在[75]之后，我们使用ID标签组织CelebA和CASIA-WebFace，并保留每个身份至少6张照片。这提供了600K的图像与16K的身份。我们选取12 K/2K/2K恒等式的图像作为训练集/验证集/测试集。对于CelebAMask-HQ，我们使用地面真实ID标签将其组织成24 K不同的标识，并随机选择面部形状作为我一. 为了鼓励这一点，我们提出了一个形状-将20 K/1 K/3 K标识作为训练集/验证集/测试集进行测试。评价使用3D代理的一致性损失，其被公式化为：L=1|（Φd（ωIω'）−Φd（I））|.（五）Φd是预测典型面部深度的3D代理网络。通过这种方式，我们约束渲染器以保持形状一致。类似地，我们鼓励“Iω”包含与Ii相同的在面部几何形状上，继 [3 ，65， 75]之后，我们对3DFAW [21，25，73，74]，BFM [41]和Photoface [70]数据集。3DFAW包含23K图像和66个3D关键点注释，我们使用与[65]相同的协议来执行测试。对于BFM数据集，我们使用[65]发布的相同生成数据来评估深度图。Photoface数据集包含453人的12 K图像，具有面部/正常图像对，我们遵循[3，50]的协议进行测试。形状一致性旋转质地一致性恢复图像光稠度Ta旋转图像等式（五）、（六）203581bω'b1升实施详情：我们保持3D网络Ltex=Ω|（Φ（Ii）−Φ（Ii））|，L1=Ω |（Φ（Ii）−Φ（Ii））|.（六）与Unsup3D具有相同架构的Φd、Φω、Φl[65]”[75]。对于神经推理网络Φb，Φn，我们20359我×我i=1L我--号方法侧面（×10−2）↓MAD（度）↓SSIM↑（一）我们的0.683 ±0. 10215.01±1。0687.95（二）我们的-Unsup 3D0.695 ±0.11086.8915.12±1。14（三）隐式纹理（c=3）作为RGB0.724 ±0. 14115.37±1。5477.67（四）无阴影0.793 ±0. 20216.03±1。7478.38（五）仅目标着色0.719 ±0. 18315.24±1。7280.56（六）仅关节着色0.725 ±0. 11815.40±1。3179.92（七）（九）无L形不含Ltex不含Ll0.728 ±0.1150.701 ±0.11215.81±1。8815.23±1。2683.2580.2885.41提供SW/O S（一）隐式纹理结果哈尔丁哈尔丁表2.不同基线和设置的比较使用U-net [49]，尺寸为256×256。这导致256×256bi，bc，di和Ii。理论上，larger模型（b）第（1）款我们的完整方法仅目标着色仅关节着色大小是可行的，但由于时间和内存成本，我们使用与[7，51，75]类似的设置。我们将深度代理上采样到256256，以匹配我们对光栅化的预测。与StyleGAN2 [ 28 ]相同的方法与[22]的对象一起使用。对于隐式测试bi，bc，我们设置它们的信道大小c = 32。我们进一步设u1= 0。五、u2，3，4=0. 3在Eqn。7 .第一次会议。在训练期间，照片集的大小NIN是随机选择的，丰满我们在CelebA和CASIA-W eb F ace上训练Φb，Φn40个epoch，然后将它们冻结以训练Φd，Φω，Φl20个epoch。最后，我们共同微调所有网络，图4.对多图像明暗处理模块的分析。(a)灯光建模如何改善细节。（b）两种明暗处理模块对计算结果的影响是有限的。在行（4-6）中，我们分析了着色操作的效果。首先，我们发现去除阴影操作提供了一个明显的几何精度降低。那么，仅仅使用目标着色或联合着色模块不能获得令人满意的结果。在第（7-9）行中，我们比较了不同正则化的效果。根据重新-结果发现，L形对几何形状的影响更大，CelebAMask-HQ 60个纪元。 Φσ保持更新，建筑，而LTex保证了纹理建模阶段我们使用Adam [30]作为优化器，并在V-100 GPU上将学习率设置为0.0001，批量大小为8。评价方案：在没有特殊说明的情况下，我们使用单图像结果与其他方法进行比较。在[3，65]之后，我们使用尺度不变深度误差（ SIDE ）和平均角度偏差（MAD）来评估。深度和正常。为了评估建模的纹理，我们计算原始高质量图像和渲染图像之间的Arc面编码表示的结构相似性指数（SSIM）[63]和余弦相似性[11]，表示为余弦-O。此外，我们用不同的灯光/姿势重新照明/旋转图像，并使用余弦相似性将它们与原始图像进行比较，分别表示为Cosine-L和Cosine-P。该范例可以分析图像形成方法是否在不同的光/姿态条件下鲁棒地保持同一性。更多详情请参见附件。5.2. 消融研究与基线的比较：我们首先在表2中分析了Phyxyline的不同设置。为了分析几何形状和纹理，我们分别在BFM数据集和CelebAMask-HQ数据集上微调和测试我们的模型。请注意，由于BFM数据集没有标识标签，我们只使用单个输入进行微调。在第（1）和（2）行中，我们观察到Phyphon作为代理具有介于Unsup3D [75]和Unsup3D[65]之间的稳健性能。在行（3）中，我们将隐式纹理bi和bc的通道数设置为3，这使其降级到RGB空间。这大大降低了纹理建模性能，因为表示能力性能L也限制了渲染稳定性。在行（10-11）中，我们发现，如果没有联合学习，几何建模性能不能显著优于代理。这表明联合学习确实使形状建模受益于神经渲染。Shading模块的分析：我们分析了我们的阴影模块是如何影响重建性能的。在图4-（a）中，我们比较了有或没有着色模块的模型，并强调了这两种设置之间的差异。我们观察到，着色过程增强了隐式纹理贴图上的“皱纹”效果。在最终的重建结果中，具有阴影模块的模型成功地完全恢复了皱纹，而没有阴影的模型未能预测这些细节。直观地说，由于细节通常是由几何的光照效果产生的，我们的着色模块能够相互改善面部形状和纹理的联合学习。在图4-（b）中，我们比较了不同的着色操作。在此比较中，我们将照片集合设置为4张图像。我们观察到，仅使用其中一个着色模块产生类似的重建结果，但不同的重新照明效果。仅目标阴影模型不能感知合适的光强度，显示出严重的过度曝光。相比之下，仅联合阴影模型预测合适的再发光效应。这种现象表明，仅目标着色模型倾向于过度拟合输入图像，因此无法模拟不可见灯光的效果。相反，当用不同的灯光进行着色时，仅联合着色模型适应于不可见的条件。然而，联合着色混合了照片集合的隐含纹理，从而丢失了目标20360i=10.950.910.870.830.790.75(c)Cosine-O SSIM1 2 3 4 56(a)N，照片集大小Cosine-O SSIM0.90.860.820.780.740.748121620242832(b) c、隐式纹理照片集N= 1N = 3N= 6（d）其他事项目标图像c= 4c = 8c = 16c = 32表3. 3DFAW keypoint depth evaluation of different methods.图5.研究了不同照片集尺寸N和隐式纹理通道数c的影响。(a)（b）：定量结果。(c)（d）：定性分析。无形状一致性损失无质地一致性损失无轻度稠度损失表4.Photoface数据集上的面部正常评估图6.一致性损失分析。如果没有损失，模型在旋转过程中会产生伪影和突变形象我们的完整方法成功地集成了两个着色模块的优点，提供一致的结果。多图像一致性分析：在图5中，我们分析了照片集{I}N和IM的影响，隐式t exturebi，bc.从我们的CelebAMask-HQ测试集获得定量的结果，图5-（a）表明，重建的精度随着输入图像的增加而增加。从N= 1到N=4，精度得到了明显的提高，之后性能稳定。在图5-（c）中，输入pho.to集合包含了mustache的一个共同特征。随着N的增加，模型纹理的胡子变得更清晰，更有意义。对于隐式纹理的通道数，5-（b）表明较大的c产生较好的纹理质量，这也随着图5中建模纹理的清晰度增加而得到证实。5-（d）。这些分析很好地证明了Phyphon解决了多图像的一致性，以提高性能。损失分析：在图6中，我们说明了不同一致性损失的结果。总之，缺少每种损失都会导致伪影和不一致的渲染性能。我们观察到，没有形状一致性损失，嘴的形状不能在旋转过程中保持。在没有纹理一致性损失的情况下，结果包含明显的纹理损坏和伪影。没有光一致性损失的模型不能预测与照明效果高度相关的细节，如皱纹或鼻孔t.相比之下，我们的完整方法预测稳定的结果上的一致性渲染。输入我们的Unsup3D DECA D3DFR图7.几何结构与Un-sup 3D [65]、DECA [75]、DECA [17]和D3 DFR [13]的定量比较。5.3. 与最新方法的几何评价：我们首先在3DFAW数据集上评估我们方法的模型几何。在[65，75]之后，我们使用2D关键点位置对我们的预测深度进行采样，并计算正面的深度相关性s-core [38]。为了进行公平的比较，我们使用我们的CelebA预训练模型，该模型与Unsup3D，D3DFR [13]和DECA [17]的设置保持一致。我们在表3中说明了结果，其中我们的方法明显优于AIGN，DepthNet，MOFA和基于 3DMM 的方法。对于代理方法 Unsup3D 和Unsup3D，我们的方法成功地优于它们。虽然推断时间稍长，但准确性的显著提高带来了令人满意的权衡。然后，我们在Photoface我们的完整方法方法深度校正↑时间（ms）地面实况66-[62]第六十二章：一个女人50.81-[38]第三十八话：58.68-MOFA [57]（基于3DMM）15.97-深度网[38]35.77-D3DFR [13]50.14-DECA [17]52.23-Unsup3D [65]54.640.6[75]第二十五话57.922.0我们的（Unsup 3d-proxy）58.261.7我们的（LAP代理）59.032.8疯狂↓<20◦↑<25◦↑<30◦↑极端[61]27.0 ±6。4百分之三十七点八百分之五十一点九47.6%SfSNet [50]25.5 ±9。3百分之四十三点六百分之五十七点五68.7%[18]第十八话24.8 ±6。843.1%百分之六十二点九74.1%[71]第71话24.3 ±5。742.2%百分之六十二点七百分之七十四点五D3DFR [13]23.5 ±6。146.1%百分之六十一点八百分之七十三点三[3]第三代（GT）22.8 ±6。549.0%百分之六十二点九74.1%20361我们的DFG PIRender VariTex图8.[12][13][14][15][16][17][18][ 19]我们在图中说明了定性结果。8.对于基于神经渲染的方法DFG [12]和PIErender [43]，我们观察到它们不能保证旋转期间精确的视点控制或外观现实。虽然3D感知生成方法[7]产生更好的3D操作，但它不能很好地解决重新生成的纹理一致性。表5.CelebAMask-HQ上渲染图像的质量数据集。在[3]之后，我们将预测的面部深度转换为法线映射，以便使用地面真实值计算MAD。结果如表4所示，其中“-ft”表示Photoface上的微调。我们观察到，我们的方法获得了竞争力的结果DECA在“无微调”的条件。注意，DECA使用3DMM作为可靠的形状假设，而我们的方法不需要这样的先验。对于微调条件，我们的方法获得了最好的性能。与Cross-Modal [3]方法相比，我们的方法获得了稍好的精度，但在训练阶段没有使用地面真实值。最后，我们在图中进行定性评价。7，我们的方法产生详细和逼真的面部形状。质地评价：我们在表5中对CelebAMask-HQ测试集进行定量评估。如评估协议中所介绍的，余弦-O是渲染图像与原始姿态上的目标图像之间的余弦相似度。余弦-L意味着我们添加不同的灯光来重新照亮渲染的图像，而余弦- P意味着我们以不同的偏航角和俯仰角旋转渲染的图像。为了使 DFG [12] 解决真实图像，我们使用StyleGAN反演算法[1]来优化相应的潜在代码。我们观察到，我们的方法获得最佳性能。虽然DFG和PIErender[43]产生了令人满意的重建结果，但由于旋转和重新照明，它们的精度明显降低。相比之下，我们的方法对这些3D操作是鲁棒的。然后所有图像。基于图形渲染器的方法[75]产生不真实的重新照明性能，而DFG不能正确控制照明效果。我们的方法在3D consideration上显示出显著优越的性能和真实性。此外，我们也在附录中展示了更多的结果，并对潜在的局限性6. 结论在本文中，我们提出了一个新的物理引导的分布式纠缠隐式绘制（ Phyphon ）框架的三维人脸重建。Physiology利用神经图像形成的有效性，并从该过程中解开明确的3D物理操作。为了避免不适定的内隐分解，Phyphon学习隐式纹理，这有助于整合照片收集的面部线索。为了将隐式纹理转换为2D空间，Phyphon然后在具有显式控件的神经特征上使用物理图形管道。提出了一种新颖的多图像明暗处理模块，克服了单图像的局限性，使光照效果更直观。Phytokine在纹理建模方面优于SOTA渲染方法，在3D人脸形状预测方面也达到了最好的精度。更广泛的影响：训练数据的统计可能会带来负面社会影响的偏见。此外，模型在保持输入同一性的同时，还可能产生不确定的内容.这些问题值得进一步研究时，建立在这项工作的3D人脸建模。我们圈DFG方法Cosine-O ↑余弦-L↑余弦-P↑SSIM↑Unsup3D [65]0.6220.5930.5680.514D3DFR [13]0.3980.3840.3800.335[75]第二十五话0.6920.6700.6310.623DFG [12]0.7300.3590.6230.751PIErender [43]0.7020.417-0.733我们的（Unsup 3D-proxy）0.7760.7680.7420.869我们的（LAP代理）0.7850.7730.7500.88020362引用[1] Rameen Abdal ， Yipeng Qin ， and Peter Wonka. Im-age2stylegan++：如何编辑嵌入的图像？在CVPR，第8296-8305页，2020年。8[2] Rameen Abdal，Peihao Zhu，Niloy J Mitra，and PeterWon-ka.风格流：使用条件连续归一化流对风格生成的图像进行属性条件化探索 ACM Transactions onGraphics（TOG），40（3）：1三、四[3] 维多利亚费尔恩南德斯Abrev aya ，AdnaneBoukhayma，Philip HS Torr，and Edmond Boyer. 跨模态深面法线与可停用跳过连接。在CVPR中，第4979-4989页三五六七八[4] M. Arjovsky，S. Chintala和L.博图Wasserstein ganarXiv预印本arXiv：1701.07875，2017。5[5] Ziqian Bai ， Zhaopeng Cui ， Jamal Ahmed Rahim ，Xiaoming Liu，and Ping Tan.深层面部非刚性多视图立体。在CVPR中，第5850第1、3条[6] Volker Blanz和Thomas Vetter。三维人脸合成的可变形模型。在Proceedings of the 26th annual conference onComputer

下载后可阅读完整内容，剩余1页未读，立即下载