跨模态深度图像估计及其应用

70 浏览量更新于2023-10-24 收藏 1.44MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

4979具有可停用跳跃连接的跨模态深面法线1991年，第一个在美国出生的婴儿出生，1992年出生，1993年出生，1994年出生。S. T或r3，EdmondBo yer11 Inria，大学Grenoble Alpes，CNRS，Grenoble INP，LJK，法国2因里亚大学Rennes，CNRS，IRISA，M2S，法国3英国牛津大学{victoria. fernana-abrevaya，adnane.boukhayma，edmond.boyer}@eng.ox.ac.uk inria.fr摘要我们提出了一种方法来估计表面正常的，从野生彩色图像的脸。虽然数据驱动的策略已经提出了单一的人脸图像，有限的可用地面实况数据使这个问题很难。为了缓解这个问题，我们提出了一种方法，可以利用所有可用的图像和正常数据，无论是否配对，由于一种新的跨模态学习架构。特别是，我们通过使用具有共享潜在空间的两个编码器-解码器网络，使用单一模态数据（彩色或正常）进行额外的训练。所提出的架构还使面部细节之间的图像和正常域，给定配对数据，通过跳过图像编码器和正常解码器之间的连接进行我们的方法的核心是一个新的模块，我们称之为可停用的跳过连接，它允许将自动编码和图像到正常的分支集成在同一个架构中，可以进行端到端的训练。这允许学习能够准确捕获正常信息的丰富潜在空间。我们与最先进的方法进行比较，并表明我们的方法可以实现显着的改进，定量和定性，与自然的人脸图像。1. 介绍人脸的3D重建是计算机视觉中的一个长期存在的问题，具有广泛的应用，包括生物识别、取证、动画、游戏和人体数字化。在许多这些应用中，考虑单目输入以限制采集约束，因此实现不受控制的环境以及有效的信息使用，例如，面部通信和娱乐。虽然显著* 作者贡献相同[2]这项工作是作者在牛津大学时完成的。图1：我们的模型从单个输入图像预测准确的法线，可用于增强粗略的几何（例如，PRN [15]）。科学界最近已经取得了进展，仅给定单个图像来恢复详细的3D人脸模型仍然是一个公开的问题。单目人脸重建本质上是一个病态问题，需要很强的先验知识。假设一个简单的着色模型，开创性的从着色恢复形状（SfS）方法[21，65]通过考虑局部像素强度变化来估计形状法线使用该策略可以恢复精细尺度的表面细节，但是对野外图像的应用受到假设的简化图像形成模型的限制后来，提出了一种更具全局性的策略，使用参数化的面部模型[7，60]。它们允许拟合仅由几个系数控制的模板面，从而导致改进的鲁棒性。虽然被广泛采用，但参数模型在表达性方面存在固有的限制，并且具有困难4980在恢复小的表面细节，作为其低维表示的结果最近，已经研究了利用大规模人脸图像数据集的深度学习方法，目的是更好地泛化。虽然这一类中的大多数工作都是经过训练来估计参数模型的系数[54，53，19，28，44]，但其他一些方法直接推断每像素深度[45]，UV位置图[15]或表面法线[58，46]。正如在以前的工作中所观察到的[48，66]，单独回归深度信息可能导致次优结果，特别是细节方面，因为单个图像的固有尺度模糊性可能使神经网络难以收敛。另一方面，法线的估计对于这样的网络似乎是更容易的任务，因为法线与像素强度强烈相关并且主要取决于局部信息，这一事实已经被SfS技术所利用。尽管如此，在这条线上只有少数方法被提出用于面部图像[47，46]，主要是由于有限的可用地面实况数据。我们在这里提出了一种方法，克服了这一限制，并可以利用所有可用的数据，我们的实验表明，该策略可以估计更准确和更尖锐的面部表面法线从单一的图像。在我们的实验中，所提出的方法恢复了与RGB图像中的面部区域相对应的准确法线，目的是增强现有的粗略重建[15我们将该问题转换为颜色到法线的图像转换，其原则上可以通过如[58]中那样将图像编码器EI与法线解码器DN组合来解决，并且包括EI和DN之间的跳过连接[42]，以便将细节从图像域转移到法线域。然而，训练这样的网络可能会很困难，除非有一个大型的图像/法线对数据集，理想情况下包含野生图像。在实践中，很少有这样的数据集是目前公开可用的，例如。[64]，而且是在受控条件下捕获的。为了提高generalization，我们建议增加一个正常的编码器EN和图像解码器DI，其中所有的编码器/解码器共享相同的潜在空间的架构。这种增强的架构通过自动编码的图像到图像和法线到法线分支对潜在空间提供了额外的约束，因此允许更广泛的训练数据集。为了保持EI和DN之间的跳跃连接的优点，同时避免EN和DN之间的绑定连接对体系结构的影响，我们引入了可停用的跳跃连接。这允许在训练期间根据数据类型打开和关闭跳过连接总之，这项工作贡献了（1）一个框架，利用跨模态学习来估计来自野外单个人脸图像的正常值;（2）介绍了可停用跳过连接的功能;以及（3）广泛的评估表明，我们的方法在Photoface [64]和Florence [3]数据集上的性能优于最先进的方法，Florence数据集上的角度误差改善高达近10%2. 相关工作我们将下面的讨论集中在考虑3D人脸重建或正常估计的方法上，给定单个RGB图像。使用参数化模型重建来自单个图像的3D重建是不适定的，因此许多方法使用参数化面部模型（例如blendshape [16，9，55]或统计模型，通常是3D变形模型（3DMM）[7]）重新排序为强先验。这些模型通常用于综合分析优化[41，22，13，8，18]，或者最近使用深度学习回归模型参数[39，40，54，59，19，15，28，52，44]，或者替代地使用3DMM训练数据回归其他面部信息，例如体积信息[25]、UV位置图[15]、法线图[58]、深度图[45]或完整图像分解[47，46，29]。该策略已被证明是鲁棒的，但是它受到参数表示的限制，提供有限的表达性并且不能恢复精细尺度细节。为了提高重建的质量，一些工作已经提出在参数模型[33，17，53]的顶部添加中等规模的校正，以训练局部皱纹回归[9]，或学习可以捕获更高频率细节的深度非线性3DMM [57，67]我们的方法还能够通过估计更准确的法线来增强人脸预测。从阴影中恢复形状的法线估计（SfS）[21，65]是一种经过充分研究的技术，旨在基于阴影线索从单个图像恢复详细的3D表面它使用图像辐照度方程估计表面法线，以及当这些未知时的照明SfS固有地受到假设的简化图像形成模型的限制，但是已经激发了建立在像素强度和法线之间的相关性上的许多作品，无论是显式的还是间接的。例如，一些关于面部的工作将SfS与数据驱动模型相结合，例如。[49，27，50]，这有助于避免一些限制，如不适定性和模棱两可，例如。[6]的文件。Shuet al. [47] Senguptaet al. [46]使用深度神经网络将野生面部图像分解为表面法线，阴影和阴影，假设朗伯反射率并使用受SfS启发的半监督学习方法。我们的工作遵循类似的方向，并从单个图像中估计正常信息，但与[47，46]不同的是，我们4981不依赖于图像形成模型，而是让网络从真实数据中学习这种变换。与我们的工作密切相关的是使用深度神经网络从图像中恢复表面法线的方法，例如。[61，14，63，32，5、37、66、38、12、48、2]。 Yoon等人[63]和Bansaletal. [4]专注于法线预测任务，以便重新覆盖详细的表面。Eigen和Fergus [14]使用多尺度方法同时回归深度、正常和语义分割。Zhang和Funkhouser [66]预测表面法线和遮挡边界，以便稍后优化深度完成;[38]对户外场景遵循类似的方向Trigeorgis等人[58]使用在合成数据上训练的监督方法来估计面部法线。我们的方法与上述方法不同，具有一种新的架构，可以实现跨模态学习，从而提高单目3D人脸法线估计的性能。已经提出了使用深度神经网络直接增强面部模型的几何增强方法。Richardson等人[40]使用两个网络，其中第一个估计粗略的形状，第二个使用Sfs启发的无监督损失函数从上一个分支中细化深度图Sela等人[45]结合离线细化步骤恢复深度和对应图[62，23]的工作通过使用非常准确的地面实况数据进行训练来估计高频细节，这需要仔细的采集过程和高质量的输入。Tran等人[56]估计每像素凹凸图，其中通过离线应用SfS方法获得地面实况数据[10]的工作学习估计几何代理和位移图，主要用于高分辨率图像（2048×2048）的细节。虽然他们提到了低分辨率图像的局限性，但我们展示了分辨率低至256 ×256的结果。3. 方法我们建议使用深度卷积编码器-解码器网络从单色图像中预测人脸法线。该目的的自然解决方案是将图像编码器E1与正常解码器DN组合，例如，[58]。然而，训练这样的架构需要成对的正常和彩色图像对应。虽然有一些公共数据集包含高质量的3D或正常的人脸地面实况信息，例如ICT- 3DRFE [51]或Photoface [64]，但它们是在受控条件下获得的，因此并没有真正覆盖图像的分布。另一方面，自然图像的大量大型数据集是公开可用的，例如CelebA [34]和AffectNet [35]，但没有相关的准确和详细的地面实况正常值。而其他作品已经接近这一点，图2：拟议方法概述。我们的交叉模态架构允许利用成对和未成对的图像/法线数据进行图像到法线的转换（红色），通过在训练期间进一步的图像到图像（绿色）和法线到法线（蓝色）正则化。可停用的跳过连接允许将细节从图像编码器EI传送到正常解码器DN，而不必将正常编码器EN链接到正常解码器DN。通过用合成的地面实况[58，46]来增强训练语料库，我们提出了一种基于交叉模态学习的方法，该方法可以利用所有可用的数据，即使是未配对的数据。3.1. 跨模态架构如图所示2.我们使用两个编码器/解码器网络，一个用于图像EI/DI，一个用于法线EN/DN，共享相同的潜在空间。该架构同时使用图像到图像、正常到正常和图像到正常监督进行训练，以获得丰富且鲁棒的潜在表示。为了这个目的，我们利用成对的图像的正常和颜色信息的脸，从[51，64]，除了单独的图像的颜色或正常信息，从例如。 CelebA-HQ [26]和 BJUT-3D[1]。为了提高整体性能，我们增加了这个架构与长跳过连接之间的EI和DN，因为它有利于图像和正常域之间的细节传输，因为它已被证明可以显着提高性能在几个图像翻译任务，例如。[24]第10段。在实践中，我们使用U-Net+ResNet [42，20]架构，结合了短和长跳过连接的优点。端到端地训练这样的架构会带来一个障碍：从E1到DN（E1→DN）的跳跃连接基于连接特征图，通过构造，使得在正常模态的编码器和解码器之间也具有跳跃连接，即，EN→DN。这在实践中是适得其反的：通过在同一模态内设置跳跃连接，实际上，普通自动编码器更容易将特征从其编码器的最早层传送到其解码器的最后层。4982DEFDEFEEIMEI可停用跳过连接被设计为使得在训练期间，可以选择性地激活或停用从编码器到解码器的vated. 与解码器设备相比。d带标准跳过连接，处理后的特征fFn−i−1我们的德-(a) 标准跳跃连接.编码器包括mΣDi额外通道（图中的浅蓝色）第3b段）。在正常到正常传递期间，跳过连接是而《易经》中的《易经》和《易经》的《易经》错误解码器对应。到预处理的渗透层特征例如，Fn−i= fn−i−1D. 在一个图像-正常通过时，跳过连接被激活：我们首先要-形成逐元素的最大池化betw。即使是第i层(b) 可停用跳过连接编码器Fi和最后mi渠道t h.e处理解码器的第（n-i-1）h层特征图3：不是连接编码器特性n−i−1D，如图所示。3b. 结果是堆叠的(red)和解码器功能（蓝色），与标准跳过CON，连接，我们融合了编码器功能与部分解码器功能（浅蓝色），以便能够在需要时停用此操作。通过跳过连接，从而在训练期间剥夺更深层的任何有意义的梯度。这不仅不能改善潜在的面部表示，而且还将改变用于图像到正常推理任务的正常解码器的系数出于这个原因，我们引入了如图所示的可停用跳过连接。3，并在SEC中详细说明。3.2.这使得我们能够通过仅在EI和DN之间设置长连接来端到端地训练框架，从而学习丰富的潜在空间，该空间从彩色和正常图像中编码面部特征，同时从所有可用数据中获利。与处理后的前一层FEA的剩余部分一起返回从而形成最终的第（n-i）个解码器层特征Fn-i。这样做允许将信息从编码器传送到解码器，而不会在传输操作不会发生，就像自动编码法线时一样。3.3. 培训我们使用监督和非监督数据来训练框架端到端，其中后者包括单独的图像和正常数据集。在训练过程中，跳过连接在执行正常到正常传递时被停用。对于有监督的情况和无监督的法线，损失函数是输出和地面真实值之间的余弦距离，在我们的实验中，这比L1/L2范数给出了更好的结果：3.2.可停用跳过连接L（N，N）=1−1NRM|N|N（i，j）·N（i，j） ˆ、（1）如前所述，跳过连接非常适合于这是我们的问题，因为它们允许在多个尺度上共享低级信息，同时仍然保留一般结构。在标准跳过连接的实现中，如[42，24]中所述，解码器在第（n-i）层具有特征Fn−i是处理后的前一层的级联（i，j）||N（i，j）||2||N（i，j）||2其中， N（i，j）和N（i，j）是在地面实况中的pixel（i，j）处的法线向量，并且输出关于pixel（i，j）的法线图像N和N（i，j），并且|N|是N中的像素数。F或Dn−i−1无监督图像数据，我们使用L2损失：我特征f（F_D）和层i处的编码器特征，F_E，其中n是层数的总数（见图1）。（见第3a段）。Limg（I，I）= ||I − I||二、（二）.设mΣ2i是第i个EI层。所提出的架构（图2）需要设置从图像编码器E1到正常解码器DN的连接，并且因此，每层fea.D的turesFn−i期望总是有一个额外的其中I是输出彩色图像，I是地面实况。在这两种情况下，损失仅应用于使用如第2节所述获得的掩模分割的面部区域。4.1.在实践中，由于我们只能执行训练迭代，.DNNi频道。为了在每个域上获得泛化，可以在训练期间对颜色和正常图像进行自动编码。然而，由于在解码器DN侧的训练期间期望级联，因此正常编码器EN的特征也必须被级联，这如所讨论的对我们的模型不利。对于一次一个输入模态，无论是一批输入图像还是法线，我们如下训练我们的模型：当用图像/法线地面实况对加载一批图像时，我们首先执行法线到法线迭代，然后是图像到法线加上图像到图像迭代，其中后一次迭代中的两个损失都以相等的FFFFF4983权重当只加载一批图像时，我们执行图像到图像的迭代。最后，仅使用一批normal，我们自然地单独进行normal-to-normal迭代。4. 评价我们在下面报告了用我们的方法在标准数据集上估计的法线的准确性[64，3]。我们与最先进的方法进行比较，正常估计和三维重建，并显示显着的改善，正常预测精度方面。这是由300-W [43]的野外图像的令人信服的重建所4和5.根据以前的工作[46，58]，我们使用输出和地面真实法线之间的平均角度误差以及面部区域内角度误差小于20°、25°和30°的像素百分比进行评估。为了进行定性比较，我们显示了输出和-mal map，以及通过使用法线映射[11]增强PRN [15]的输出获得的网格结果：我们将预测的法线逐像素地附加到PRN网格，从而呈现增强的几何阴影。4.1. 实现细节该框架在PyTorch中实现[36]，所有实验都在GTXTITAN Black上运行使用ADAM求解器对网络进行了40次训练[31]学习率为10-4我们使用ResNet-18 [20] ar-架构，并设置五个跳过连接，一个在输出初始层和其余层在四个残余块中的每一个的输出处训练过程中的每一个小批都由相同类型的数据组成，即：仅图像、仅法线或图像-法线对，因为这对我们的经验最有效。与之前的工作类似，输入图像是面部周围固定大小的作物。我们使用面部检测器[30]提取2D关键点，并通过在点的凸包周围找到边缘大小为l的最紧正方形来然后用大小为1的正方形补丁裁剪图像。2×l以与先前检测到的盒子相同的2D位置为中心，随后调整大小为256×256。该代码将公开提供。4.2. 数据集我们的训练集包含多个数据集：ICT- 3DRFE [51]和Photoface [64]提供图像/正常对，CelebA-HQ [26]仅包含2D图像，BJUT-3D [1]由高质量3D扫描组成。我们从ICT- 3DRFE中随机旋转345个3D模型，并使用提供的旋转器重新照亮它们，从而生成了8625个图像/法线对。我们对[−π/4，π/4]中的随机旋转轴和角度、z为正的随机照明方向以及[0，2]。对于Photoface，按照[58，46]中的设置，我们随机选择了353人的训练子集，得到9478个图像/正常对。我们还从CelebA-HQ生成了5000张高分辨率的面部图像，专门用于训练图像到图像分支。此外，我们从BJUT- 3D的500次扫描中绘制了3000张正常图像，以[−π/4，π/4]中的随机轴和角度旋转。我们只从这个数据集中渲染正常图像，因为没有提供原始扫描彩色图像。为了评估的目的，我们使用剩余的测试子集的Photoface，其中包括100名受试者没有看到在训练和1489图像/正常对。这个子集的挑战重建非常严重的照明控制，ditions. 在[15]的工作之后，我们通过从Florence数据集[3]的53个3D模型中渲染530个彩色和正常面部图像来创建额外的评估集，并以[−π/4，π/4]中的随机轴和角度旋转。这允许在完全不可见的数据集上进行评估最后，我们使用300-W的2D人脸图像数据集[43]来评估野外的定性性能请注意，对于训练和测试，我们将自己限制在高质量和细节的3D人脸数据集平均值±标准差<20时<25O<30分Pix2V [45]33.9±5.6百分之二十四点八百分之三十六点一47.6%极端[56]27.0±6.4百分之三十七点八百分之五十一点九64.5%3DMM [58]26.3±10.2百分之四点三56.1%百分之八十九点四3DDFA [68]26.0±7.240.6%百分之五十四点六66.4%SfSNet [46]25.5±9.3百分之四十三点六百分之五十七点五68.7%PRN [15]24.8±6.843.1%百分之五十七点四69.4%我们22.8±6.549.0%百分之六十二点九74.1%UberNet [32]29.1±11.5百分之三十点八百分之三十六点五55.2%NiW [58]22.0±6.3百分之三十六点六百分之五十九点八百分之七十九点六Marr Rev [4]28.3±10.1百分之三十一点八百分之三十六点五44.4%SfSNet-ft [46]12.8±5.483.7%百分之九十点八94.5%Ours-ft12.0±5.385.2%百分之九十二百分之九十五4984点六表1：Photoface数据集[64]上的定量比较，平均角度误差（度）和低于20°、25°和30°的误差百分比。-ft表示该方法在Photoface上进行了微调。4.3. 比较我们将我们的结果与显式重新覆盖表面法线的方法进行比较，无论是面部图像（ SfSNet [46] ， NiW[58]）还是一般场景（Marr Rev [4]，Uber [58]）。Net [32]）。我们还比较了3D人脸重建的最新方法，即[58]中使用的经典3DMM拟合方法、3DDFA [68]、[56]的基于凹凸图回归的方法以及[45]的组合回归+阴影恢复形状方法。定量结果可参见表1中的照片-4985(a)输入（b）我们的（c）SfSnet（d）PRN（e）Extreme（f）Pix2V（g）3DDFA图4：300-W数据集中法线的定性比较[43]。平均值±标准差<20时<25O<30分极端[56]19.2±2.2百分之六十四点七75.9%百分之八十三点三SfSNet [46]18.7±3.263.1%百分之七十七点二百分之八十六点七3DDFA [68]14.3±2.379.7%87.3%百分之九十一点八PRN [15]14.1±2.1679.9%88.2%92.9%我们11.3±1.589.3%94.6%96.9%表2：定量比较对佛罗伦萨为其他人对于Florence数据集，我们使用公开可用的实现。请注意，为了能够评估每像素法线精度，我们只能与输出与图像对齐的3D重建方法进行为了进行公平的比较，所有方法都提供了256×256的面部图像作为输入，如果需要，可以调整大小。该方法在20°、25°和30°范围内的平均角误差和百分比数据集[3]的平均角度误差（度）和低于20度，25度和30度的误差百分比。面和表2为佛罗伦萨数据集。我们分别在表1的上部和下部显示了我们的方法在（ Ours-ft ）和没有（Ours）对Photoface的训练分割进行微调的情况下的结果。SfSNet也是如此。[46]中报道了[46，58，45，4，32]方法在Photoface上的误差值，我们使用公开可用的实现[56，68，15]4986度，仅在误差低于30°时优于3DMM。正如作者在[58]中所指出的，由于模型的粗糙度和关键点监督，3DMM拟合在30°以下表现良好，但由于缺乏精度，其在更紧角度上的性能我们发现虽然[45，56]通常提供表面上详细的重构，但这些方法的实际法线缺乏由其数字所证明的准确性。我们的良好性能也通过在各种头部姿势和任意照明条件下对野外图像的定性比较得到证实，如图所示。4987(a)输入（b）Ours+PRN（c）SfSNet+PRN（d）PRN（e）Extreme（f）Pix2Vertex（g）3DDFA图5：300-W数据集中几何结构的定性比较[43]。图4和5.为了与网格结果进行比较（图5），我们为我们的方法和SfSNet [46]显示了使用PRN [ 15 ]获得的相同基础网格上的正常映射，我们分别将其称为Ours+PRN和Sf-SNet +PRN。我们从两个视图显示我们的网格，以说明输出不是针对特定视点优化的，这是SfS的一个与SfSNet相比，我们恢复了更精细的细节，显著增强了基础网格。与Extreme [56]相比，我们的方法不包括不必要的额外噪声。正如其他作者所观察到的，Pix2Vertex [45]无法处理困难的姿势或照明，有时甚至无法收敛。PRN和3DDFA都可以正确地重新覆盖面部的一般结构，尽管它们的目标不是像我们这样恢复表面细节。我们相信，我们改进的结果是由于这样一个事实，即我们不依赖于一个参数模型的训练数据生成，如在例如。[46]，以及通过两个en学习的强正则化潜在空间。编码器/解码器网络，除了跳过连接，可以传输必要的细节。4.4. 消融我们在这里评估的影响，建议的architec- tural组件。特别是，我们与图中所示的替代方案进行了比较。6：我们的模型没有跳过连接（图。图6b），没有正常编码器EN（图6c），以及没有正常编码器EN和图像解码器DI（图6d），即，基本的编码器-解码器架构。由于在后两种情况下不需要可停用的跳过连接，因此我们使用标准连接。我们在表7中给出了定量结果，在图7中给出了定性示例。8.我们的最终模型在定量和定性上都优于替代方案，这验证了所提出的跨模态架构设计，以及引入的可停用跳过连接的好处。例如，我们可以看到在几何形状的4988(a) Ours（b）w/oskipco.（c）不含EN （d）不含EN，DI图6：消融测试的架构：（a）我们提出的体系结构，（b）没有跳过连接，（c）没有正常编码器，以及（d）没有正常编码器和图像解码器。(a) [64]第六十四话平均值±标准差<20时<25O<30分w/o skip公司（图6b）12.6±1.4百分之八十五点八百分之九十二点六百分之九十五点八w/o EN（图6c）12.4±1.686.0%百分之九十二点六95.9%w/oEN，DI（图第六天）12.0±1.287.8%94.1%96.7%我们的（Fig. 第6a条）11.3±1.589.3% 94.6% 96.9%(b) 佛罗伦萨[3]图7：架构之间的定量比较：所提出的架构（Ours），没有跳过连接（ w/o skip co. ）、没有正常编码器（ w/oEN ）以及没有正常编码器和图像解码器（w/oEN，DI）。眼睑在图的第一行。8和第二行的阴影，我们的最终模型从每个阴影中获得最佳效果。的替代品。我们正确的全局形状估计与没有跳过连接的跨模态模型相当，尽管后者更平滑，并且明显缺乏细节。另外，我们可以看到，去除图像解码器 DI 和正常编码器 EN（即，具有跳跃连接的标准编码器-解码器）由于训练和评估之间的域间隙，对于野外图像给出差的结果这可以在第三和第四个示例中出现的伪影或第二个示例的不准确阴影中特别可视化。最后，我们的精细细节与具有跳过连接但没有正常编码器EN的模型的精细细节相当，正常编码器EN进而具有降低的准确表示形状的能力，因为它没有学习面部的几何方面的额外先验。4.5. 限制所提出的方法仍然具有局限性，其中一些局限性在图9中示出。这属于极端情况-(a) 投入（b）我们的投入（c）不包括能源和发展（d）不包括E N（e）不包括skipco.图8：架构之间的定性比较(b) 我们提出的体系结构，（c）没有正常的编码器和图像解码器，（d）没有正常的编码器，以及（e）没有跳过连接。代表训练数据的离群值，包括在非常严重的照明/阴影中的面部（图9a，9b），闭塞（图。9c，9d），非常低质量的图像（图。9e）和不寻常的面部纹理（图。9f）。(a)（b）（c）（d）（e）（f）图9：失败案例。5. 结论我们提出了一种新的基于深度学习的方法，用于在野外估计面部法线。我们的方法是集中在一个新的架构，结合了跨模态学习的鲁棒性和跳过连接的细节传输能力，使由于所提出的deactive- tivable跳过连接。通过在训练过程中利用图像和正常模态的配对和未配对数据，我们在角度估计误差方面获得了最先进的结果，并在野外具有挑战性的图像上获得了视觉上引人注目的我们工作的局限性之一是不能正确处理遮挡（因为它主要是一种局部方法）和重新覆盖更精细的细节，例如。孔隙级细节，这是将在未来工作中解决的方向。平均值±标准差<20时<25O<30分w/o skip公司（图6b）24.4±6.746.6%60.6%72.0%w/oEN，DI（图第六天）23.3±6.347.7%61.9%百分之七十三点三4989引用[1] bjut-3d大规模中国人脸数据库。三、五[2] ThiemoAlldieck ， GerardPons-Moll ， ChristianTheobalt，and Marcus Magnor. Tex2shape：从单个图像中获得详细的完整人体几何形状。在IEEE国际计算机视觉会议论文集，2019。3[3] Andrew D.Bagdanov ， Alberto Del Bimbo ， and IacopoMasi.佛罗伦萨2D/3D混合人脸数据集。ACM人类手势和行为理解，2011年。二五六八[4] Aayush Bansal、Bryan Russell和Abhinav Gupta。Marr再访：经由表面法线预测的2D-3D对准。在IEEE计算机视觉和模式识别会议论文集，2016。三五六[5] Jan Bednarik，Pascal Fua，and Mathieu Salzmann.学习从单一视图重建无纹理可变形表面。在2018年3D视觉国际会议上。3[6] Peter N Belhumeur ， David J Kriegman ， and Alan LYuille.浅浮雕的模糊性。国际计算机视觉杂志，1999年。2[7] Volker Blanz，Thomas Vetter，et al.三维人脸合成的可变形模型。ACM Siggraph，1999年。一、二[8] JamesBooth ， AnastasiosRupesos ， EvangelosVerveras，EpameinondasAntonakos，StylianosPloumpis，Yannis Panagakis，and Stefanos Zafeiriou.图像和视频中的野外人脸的3D重建。IEEE Transactionson Pattern Analysis and Machine Intelligence，2018。2[9] 陈操，德里克布拉德利，周坤，塔博比勒。实时高保真面部表现捕捉。ACM Transactions on Graphics，2015。2[10] Zhang Chen，Guli Zhang，Kenny Mitchell，Jingyi Yu，et al.从单张图像合成照片般真实的面部细节。在IEEE计算机视觉国际会议论文集，2019年。3[11] 乔纳森·科恩，马克·奥拉诺，迪内什·马诺查。保持外观的简化。计算机图形学与交互技术年会论文集，1998年。5[12] Dapeng Du，Limin Wang，Huiling Wang，Kai Zhao，and Gangshan Wu.用于rgb-d场景识别的翻译识别网络。在IEEE计算机视觉和模式识别会议论文集，2019。3[13] Bernhar dEgger ， SandroSchoénborn ， AndreasSchnei-der ， Adam Kortylewski ， Andreas Morel-Forster ，Clemens Blumer，and Thomas Vetter.基于遮挡感知的3d形变模型和光照先验的人脸图像分析。国际计算机视觉杂志，2018年。2[14] David Eigen和Rob Fergus。使用通用多尺度卷积架构预测深度、表面法线和语义标签在IEEE国际计算机视觉会议论文集，2015年。3[15] Yao Feng，Fan Wu，Xiaohu Shao，Yafeng Wang，andXi Zhou. 结合位置映射回归网络的三维人脸重建与密集对齐在欧盟会议上欧洲计算机视觉会议，2018年。一二五六7[16] Pablo Garrido ， Levi Valgaerts ， Chenglei Wu ， andChristian Theobalt.从单目视频重建详细的动态人脸几何。ACM Transactions on Graphics，2013。2[17] PabloGarri do，Mi chaelZollho¨ fer，DanCasas，Le viVal-gaerts，KiranVaranasi，帕特里克·佩雷斯和克里斯蒂安·西奥伯特从单目视讯重建个人化三维人脸模型。ACM Transactions on Graphics，2016。2[18] Baris Gecer ， Stylianos Ploumpis ， Irene Kotsia ， andStefanos Zafeiriou.Ganfit：用于高保真3D人脸重建的生成对抗网络拟合。在IEEE计算机视觉和模式识别会议集，2019年。2[19] Kyle Genova、Forrester Cole、Aaron Maschinot、AaronSarna、Daniel Vlasic和William T Freeman。三维可变形模型回归的无监督训练。在IEEE计算机视觉和模式识别会议上，2018年。2[20] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议上，2016年。三、五[21] Berthold KP Horn和Michael J Brooks。从阴影中恢复形状。1989. 一、二[22] Patrik Huber ， Guosheng Hu ， Rafael Tena ， PouriaMortaza- vian ， P Koppen ， William J Christmas ，Matthias Ratsch，and Josef Kittler.多分辨率三维可变形人脸模型及拟合框架。计算机视觉、成像和计算机图形理论与应用国际联合会议论文集，2016年。2[23] Loc Huynh，Weikai Chen，Shunsuke Saito，Jun Xing，Koki Nagano，Andrew Jones，Paul Debevec，and HaoLi.使用深度神经网络的介观面部几何推断在IEEE计算机视觉和模式识别会议论文集，2018。3[24] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros.使用条件对抗网络的图像到图像翻译。在IEEE计算机视觉和模式识别会议论文集，2017年。三、四[25] Aaron S Jackson，Adrian Bulat，Vasileios Argyriou，andGeorgios Tzimiropoulos.通过直接体积cnn回归从单幅图像重建大姿态三维人脸。IEEE International Conferenceon Computer Vision，2017。2[26] Tero Karras ， Timo Aila ， Samuli Laine ， and JaakkoLehtinen.为提高质量、稳定性和变异性而进行的干细胞生长。arXiv预印本arXiv：1710.10196，2017。三、五[27] Ira Kemelmacher-Shlizerman和Ronen Basri。使用单个参考面部形状从单个图像进行 3D 面部重建。 IEEETransactionsonPatternAnalysisandMachineIntelligence，2010. 2[28] Hyeongwoo Kim 、 Pablo Garrido 、 Ayush Tewari 、WeipengXu 、 JustusThies 、 MatthiasNiessner 、PatrickPe´rez、 Christian Richardt 、MichaelZoll h´ fe r和ChristianTheobalt。深度视频肖像。ACM Transactions onGraphics，2018。24990[29] Hyeong wooKim 、 Michae lZollhofer 、 AyushTewari 、JustusThies、Christian Richardt和Christian Theobalt。逆面网：深度单眼逆面渲染。在IEEE计算机视觉和模式识别会议上，2018年。2[30] 戴维斯E.王Dlib-ml：一个机器学习工具包。Journal ofMachine Learning Research，2009。5[31] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。5[32] Iasonas Kokkinos Ubernet：使用不同的数据集和有限的内存训练通用卷积神经网络，用于低，中，高层次的视觉。在IEEE计算机视觉和模式识别会议论文集，2017年。三五六[33] Hao Li，Jihun Yu，Yuting Ye，and Chris Bregler.实时面部动画与即时矫正。ACM Transactions on Graphics，2013。2[34] Ziwei Liu ， Ping Luo ， Xiaogang Wang ， and XiaoouTang.在野外深度学习人脸属性。IEEE Interna

下载后可阅读完整内容，剩余1页未读，立即下载