深度卷积网络进行“野外”人脸法线估计

18 浏览量更新于2023-10-15 收藏 13.66MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1 380使用完全卷积网络进行“野外”人脸法线估计0George Trigeorgis伦敦帝国学院0g.trigeorgis@imperial.ac.uk0Patrick Snape伦敦帝国学院0p.snape@imperial.ac.uk0Iasonas Kokkinos伦敦大学学院0i.kokkinos@cs.ucl.ac.uk0Stefanos Zafeiriou伦敦帝国学院0s.zafeiriou@imperial.ac.uk0摘要0在这项工作中，我们采用数据驱动的方法来解决从单个强度图像中估计表面法线的问题，特别关注人脸。我们引入了利用当前可用的人脸数据库进行数据集构建的新方法，并为估计“野外”人脸表面法线的任务定制了一个深度卷积神经网络。我们训练了一个完全卷积的网络，可以准确地从包含各种表情和面部姿势的图像中恢复面部法线。我们与最先进的基于光照的面部形状恢复和3D重建技术进行比较，并表明所提出的网络可以恢复更准确和逼真的法线。此外，与其他现有的面部特定表面恢复方法相比，由于我们网络的完全卷积性质，我们不需要解决显式对齐步骤。01. 引言0从单个图像中进行面部表面重建是一个引起广泛关注的问题，过去25年来一直如此。这部分是由于与人脸识别和面部表情分析相关的多种应用，以及由于人脸的物理结构具有可追踪性的可取性质。与一般情况的困难相比，3D面部形状的恢复非常成功。人脸具有一些对于形状恢复有利的特性：它们在配置上非常均匀（所有健康的人脸在大致相同的位置上有两只眼睛、一个鼻子和嘴巴），是凸面的，表现出近似兰伯特反射[54,17,61,43]，主要是从一个方向（正面）捕获的，可变形且大部分不会自遮挡。此外，存在大量公开可用的人脸图像。0人脸形状恢复对于娱乐、医学和心理学等许多领域都具有重要意义。研究的两个主要方向包括（a）光照法线恢复方法，也可以潜在地使用统计人脸先验[71,3,65,12,55,59,56]，或者（b）构建和拟合3D可塑模型（3DMM）[8,7,1]。0卷积网络法线面部形状0图1：我们的3D面部形状估计流程的描绘。使用多个面部法线图像训练一个完全卷积网络进行法线估计。使用估计的法线可以通过经典法线积分技术检索3D面部形状。03DMM由一组捕获和对齐的3D面部扫描学习得到的面部纹理和表面的线性统计模型。多年来，唯一可用的公开3DMM是巴塞尔模型[40]，该模型是从200个高加索人的中性表情构建的。现在，LSFM中提供了大规模的中性面部3DMM[8]，并且可以通过将中性面部的统计模型与混合形状相结合来构建表情3DMM[26,9]。然而，将3DMM拟合到单个图像中需要解决一个高维非线性优化问题，这不仅需要大量计算，而且需要近似最优的初始化。由于解决3DMM的原始优化问题的困难，最近的方法不尝试优化纹理一致性项，而只是将3DMM的面部表面部分拟合到一组2D面部标记[1,26]。SfS[24]是一种通过假设阴影（即图像中像素的强度）是作为光照函数生成的过程来恢复表面的方法。390表面几何及其与光的相互作用，光被表面反射/吸收并被成像设备捕获。这个函数通常由图像辐照方程建模：0I(x, y) ∝ R(sx(x, y), sy(x, y)), (1)0该方程说明了图像I(x,y)的测量亮度与表面上对应点的辐射R成比例，其中s x(x,y)、s y(x,y)是给定像素的表面单位法线。最常用的辐射函数是Lambertian函数，它将观察到的亮度描述为与入射光方向和表面法线之间的夹角的余弦成比例。明确地说，Lambertian函数将单个像素的观察强度描述为I = ρd n �s，其中ρd是反射率，n是给定像素的表面单位法线，s是一个位于无限远处的单个单位点光源。尽管这对于表面和环境内的光源之间的潜在复杂相互作用是一个相对简单的解释，但已经证明它可以描述人脸图像的照明的低频分量的高达90%[68]。然而，众所周知，仅仅通过阴影是无法消除形状的歧义的（例如，众所周知的浮雕歧义[6]），因此对于更结构化的对象（如人脸），通用的SfS方法（例如[3]）通常不是最佳选择。因此，已经利用面部表面法线的统计先验来限制通用的SfS方法以改善结果。例如，Worthington等人的通用方法[65]通过将恢复的表面法线线性投影到构建的面部法线基础上进行了扩展[55, 56,59]。类似地，Barron等人的工作[3]通过[35]引入了面部特定的先验。然而，这两种方法都需要预先构建的模型来限制它们的解。目前最先进的不需要模型的SfS方法[57,28]结合了非标定光度立体[4]和低秩张量分解的思想，以稳健地恢复形状和身份的组合模型。其他方法还探索了适应性3D模板与表面法线的拟合用于更合理的表面恢复[45, 46,30,29]。然而，这些方法中的大多数都需要显式的对齐步骤，以使面部模型与面部图像对应。尽管面部对齐领域取得了令人印象深刻的进展，但这仍然是一个具有挑战性的问题。此外，对于密集面部形状恢复所需的密集对齐通常通过高成本的操作（如光流[28,58]）来实现。3DMM和SfS都是生成方法。在本文中，我们采用了一种不同的方法来估计无约束图像中的面部法线。我们提出了一种基于判别性深度学习的方法，该方法受到了深度学习在目标检测、密集语义分割和场景法线估计等各种任务中的成功的启发[23, 2, 32,62]。我们利用在受控条件下和非受控条件下捕获的大规模面部数据库[8,47]来训练一个完全卷积的深度网络，将图像像素映射到法线。更准确地说，为了获得准确的面部法线的真实值，我们使用最近发布的大规模3D面部模型（LSFM）[8]合成了具有不同种族和特征的个体面部图像。为了检索主体的3D面部形状，我们使用标准方法[14]整合恢复的法线。我们使用适用于该任务的多个深度架构和损失函数进行实验。我们展示了所提出的网络在受控条件下估计面部法线方面的最先进性能，以及对非常具有挑战性的“野外”面部图像的令人印象深刻的重建。0我们的Marr重0IMM0图2：在图1的“野外”图像上，最先进的技术对面部表面法线进行估计的结果。从左到右：提出的方法，IMM：最先进的SfS技术[57]，以及通用的最先进网络[2]。0面部法线估计的任务。特别是，受到深度学习在目标检测、密集语义分割和场景法线估计等各种任务中的成功的启发[23, 2, 32,62]，我们提出利用在受控条件下和非受控条件下捕获的大规模面部数据库[8,47]来训练一个完全卷积的深度网络，将图像像素映射到法线。更准确地说，为了获得准确的面部法线的真实值，我们使用最近发布的大规模3D面部模型（LSFM）[8]合成了具有不同种族和特征的个体面部图像。为了检索主体的3D面部形状，我们使用标准方法[14]整合恢复的法线。我们使用适用于该任务的多个深度架构和损失函数进行实验。我们展示了所提出的网络在受控条件下估计面部法线方面的最先进性能，以及对非常具有挑战性的“野外”面部图像的令人印象深刻的重建。02.关于判别式表面法线估计的先前工作0判别式法线估计最近受到了增加的关注[2, 13, 62, 32, 44,15]。最早的方法之一是在[70]中提出的。训练图像使用多个无监督分割方法进行分割，然后提取了几个密集特征（例如，texton [38]，SIFT[37]等），并构建了结合上下文和基于分割的特征的判别性特征表示。地面真实法线通过将代表性法线的加权和应用于局部特征编码来近似。400基于提升的非活动回归器被训练用于这些系数。在测试阶段，通过分类器预测每个代表性法线的似然，并且输出法线通过代表性法线的加权和恢复。Richter和Roth[44]放宽了对外部训练数据的要求，而是使用合成训练数据。对象轮廓用于近似初始法线图，然后用于近似对象反射图以便为训练回归器重新照明合成训练数据。[62]中提出的一种最早利用深度卷积神经网络（DCNNs）估计法线的方法。[62]中的方法使用DCNNs结合来自局部和全局尺度的法线估计，结合了房间布局、边缘标签和消失点的线索。该方法通过应用Ladicky等人[70]的表面法线三角编码技术，将表面法线回归问题作为分类问题。特别地，使用k-means和De-launay三角剖分构建了一个码本。给定这个码本和三角剖分，法线可以被重写为其所在三角形的码字的加权组合。在训练时，对码字进行softmax分类器的训练。最近，[15]使用从多视图立体重建中重建的可靠表面法线作为DCNN的训练数据，然后从图像强度补丁中预测连续法线。这允许对象特定的训练，并且被证明可以改善特定视点的重建。[13]中首次直接回归到表面法线的方法，同时为三个任务训练了一个粗到细的多尺度DCNN：深度预测、表面法线估计和语义标记。第一层（粗糙级别）的卷积层通过在ImageNet[11]上进行对象分类任务的训练进行初始化。中间和精细级别的其余网络参数通过使用NYU深度[50,49]上的表面法线预测任务进行从头训练。用于表面估计的逐元素损失函数是地面真实值和估计表面法线之间的点积。[2]中提出了另一种基于回归的表面法线估计DCNN。与[13]类似，该方法利用了在ImageNet上进行大规模数据任务训练的DCNN学到的丰富特征表示。该架构结合了从VGG-16[52]中适应的全卷积架构和受超列表示启发的结构。网络使用地面真实值和估计表面法线之间的ℓ2范数进行优化。最近，[32]中提出了另一种用于表面估计的回归DCNN。这个DCNN是所谓的UberNet架构的一部分，该架构是为共同解决多个图像标记任务而提出的：如边界检测、显著性、语义分割、人体部位预测、表面法线恢复等。Ubernet的构建块是VGG-16[53]。对于表面法线估计，使用地面真实值和估计表面法线之间的ℓ1范数。所有上述用于表面法线估计的网络都是在显示各种室内场景的数据样本上进行训练的[49,50]，因此对于估计人脸的法线可能是次优的（请参见图2）。在本文中，我们探索了在面部数据库上训练的各种DCNN架构，用于面部表面法线估计任务。0用于共同解决多个图像标记任务的Ubernet的构建块是VGG-16[53]。对于表面法线估计，使用地面真实值和估计表面法线之间的ℓ1范数。所有上述用于表面法线估计的网络都是在显示各种室内场景的数据样本上进行训练的[49,50]，因此对于估计人脸的法线可能是次优的（请参见图2）。在本文中，我们探索了在面部数据库上训练的各种DCNN架构，用于面部表面法线估计任务。03.面部法线数据库0在过去的二十年中，计算机视觉界为不同应用收集了大量的面部图像。早期的尝试包括用于人脸识别的FERET数据库[42]和用于面部表情识别的Cohn-Kadade数据库[27]。有关面部数据库的调查，感兴趣的读者可以参考[19]。在本文中，我们对可以用于训练表面法线估计的数据库感兴趣。理想情况下，我们希望使用包含在非受限条件下捕获的纹理样本或尽可能接近“野外”纹理的数据库。不幸的是，即使使用现代3D捕捉设备，从“野外”图像中获取3D或2.5D表面信息仍然非常困难。为了缓解这个问题，我们提出了一种学习策略，将合成数据和真实数据混合用于训练所提出的网络。适用于训练我们的网络的数据库是那些提供3D表面扫描的数据库，以及在不同照明条件下捕获的数据库，可以使用光度立体法（PS）[64]恢复法线。目前，有许多提供3D面部扫描的数据库，包括FRGC [41]，BU-3D [67]，BU-4D[66]和BP4D-Spontaneous[72]。然而，它们总共不超过620个独特的身份。幸运的是，最近进行了一项努力，收集了一个大规模的人脸数据库，并构建了一个大规模的3D可变模型（3DMM）[8]。在本文中，我们使用这个数据库生成了大量的合成数据。包含在不同照明条件下捕获的样本的数据库包括YALE-B [16]，PIE[51]和MULTI-PIE[20]，以及最近收集的Photoface数据库[69]。Photoface数据库[69]是使用一个定制的四源PS设备收集的，旨在实现与人的最小交互的数据捕获。该设备放置在繁忙的工作场所的入口处，捕获了来自450多人的许多会话，显示了各种表情。每个会话包括3.1. Synthetic data generation from ICT-3DRFE410我们使用了四个不同的照明条件下的四个不同图像，可以使用PS[64]计算出表面法线。我们还使用了3D可重照面部表情数据库(ICT-3DRFE)[60]，该数据库包含23个主题和15种表情，共345张图像。ICT-3DRFE数据集是使用一个具有156个白色LED灯的球形光源舞台的人脸扫描系统获取的。由于每个个体的镜面和漫反射法线分离，该数据库可以用于合成在不同照明下的高质量面部样本。最后，为了结合“野外”面部纹理的统计数据，我们使用了300W数据的面部标记点[48]来拟合3DMM，遵循[26,73]。我们对拟合结果进行了目视检查，并保留了那些拟合被认为可接受的图像。在本节的其余部分，我们提供了有关数据准备的更多细节，并展示了这些数据的一些可视化结果，如图3所示。0我们使用ICT-3DRFE数据库生成了合成数据。ICT-3DRFE数据集是使用一个具有156个白色LED灯的球形光源舞台的高分辨率人脸扫描系统捕获的。这些灯光的强度可以单独控制，并用于以一系列受控的球形照明条件照亮脸部，以显示详细的形状和反射信息。LED灯上的线性偏振器滤光片和相机上的主动偏振器允许独立记录镜面和漫反射反射，从而产生了在新照明下进行逼真渲染所需的漫反射和镜面反射图。我们使用漫反射法线在不同的随机照明下重新照亮每个样本，如图4所示。03.2. 使用LSFM 3DMM生成合成数据0如上所述，在解决“野外”图像的法线估计问题时，最大的障碍是缺乏无约束场景中准确的地面真实法线。虽然有许多适用于使用光度立体（PS）进行法线恢复的数据库[64]，但这些光照条件非常不真实。此外，PS捕获设置的性质非常受限，因此这些数据库的身份和表情的多样性都很低。因此，我们使用渲染图像生成了大量的合成数据。具体而言，我们执行以下两个步骤：（1）使用形状和纹理的生成模型创建一个面部的3D实例；（2）给定这个形状和纹理实例，在随机选择的场景上以准伪真实的方式渲染它。解决（1）的方法是使用人类面部形状和纹理的三维统计模型，即3D可塑模型（3DMM）。通过对一组处于对应关系的人脸的3D扫描进行某种形式的降维，通常是主成分分析（PCA），可以构建一个3DMM。给定这个模型，可以通过合成模型的新实例 x从而生成无限多个真实法线。具体而言，选择来自正态分布 c I �N（0，I）的参数，并使用模型的均值形状 µ ∈ R 3 N 和权重W ∈ R 3 N × k，可以合成一个新实例 x ∈ R 3 N × p：0纹理，即3D可塑模型（3DMM）。通过对一组处于对应关系的人脸的3D扫描进行某种形式的降维，通常是主成分分析（PCA），可以构建一个3DMM。给定这个模型，可以通过合成模型的新实例 x从而生成无限多个真实法线。具体而言，选择来自正态分布c I � N（0，I）的参数，并使用模型的均值形状 µ ∈ R 3 N和权重 W ∈ R 3 N × k，可以合成一个新实例 x ∈ R 3 N× p：0x = µ + W I c（2）0Booth等人[8]提供了一个强大的3DMM，该模型由来自不同人口统计的9663个不同主体构成。尽管该数据集在身份变化方面非常多样，但由于所有主体都是在中性表情下捕获的，因此在面部表情方面缺乏多样性。为了解决这个问题，我们使用从FaceWarehouse数据库[9]创建的表情基础来创建表情和身份的双基模型，类似于[73]：x = µ + W I c I + WE c E。0图5进一步描述了我们用于生成该数据集的合成图像的过程。由于真实的3D面部结构是已知的，我们可以为每个合成图像获得高质量的地面真实法线。从新构建的网格中，我们可以通过该顶点所在三角形的两条边的向量叉积来检索顶点位置 v ∈ R 3 处的表面法线 n：0n = ( v u − v ) × ( v v − v )0∥ ( v u − v ) × ( v v − v ) ∥ 2，其中 v u 和 v v 是与 v在网格结构中正向水平和垂直方向上相邻的顶点。这些生成的样本的一个注意事项是，一个强大的回归器，如大型卷积网络，可以通过考虑合成样本之间的不连续性（例如面部和背景之间的不连续性）或不准确的光照来更容易地学习识别面部的姿态和形状。为了解决这个问题，我们将这些生成的图像与现有的大规模“野外”图像数据集进行对齐，以提供更真实的背景。每个面部图像都包含一组稀疏的注释 s 2 d∈ R 68 ×2。因此，我们以相同的方式手动注释3D网格，以提供一组68个对应的点 s 3 d ∈ R 68 × 3与2D图像。一旦建立了这种对应关系，我们可以通过使用透视n点（P-n-P）问题将3D形状与图像平面对齐：0s 2 d = KRs 3 d + t（3）420图3：从左到右：Photoface，ICT-3DRFE，3D可塑模型拟合，使用3D可塑模型合成的图像。下方是每个数据集的相关地面真实法线。0图4：使用漫反射法线对ICT-3DRFE数据集进行重新照明。左边是反射率纹理，右边是重新照明纹理的三个示例。0其中0K =0� fx 0 cx fy c0 0 10�0�0是包含焦距f ∈ R2和主点位置c ∈R2的内部相机参数矩阵。通过这种方式，我们生成了100,000个合成面部图像。03.3. 合成数据生成拟合3DMM0正如先前提到的，使用3DMM构建的数据可能不包含“野外”图像的所需面部纹理。为此，我们还使用可用的稀疏地标将3DMM拟合到“野外”图像，类似于[1, 26,73]。具体来说，为了将3DMM拟合到可用的图像，我们采用以下方法-0图5：1. 使用LSFM可变形模型生成的形状和纹理实例；2.使用FaceWarehouse表情基础添加表情；3.来自系列Breaking Bad的图像；4. 渲染的对齐模型。0以下优化问题0arg min c, R, t ∥ P(R(¯s + Uc) + t)) - s2d ∥2F, (4)0其中目标是在弱透视投影P下恢复可变形模型的旋转R，平移t和参数c。从只有平均3D形状¯s开始，我们交替优化姿态参数R，t，然后是形状模型参数c。不幸的是，如图3所示，拟合并没有准确捕捉到人物的身份。然而，这些拟合仍然可以用于规范化优化问题。它们确保法线正确捕捉到主体的姿态和表情。03.4. Photoface数据库的数据0我们使用的最后一个数据库是Photoface数据库[69]。在Photoface数据库中，每个ses-Lcosine = 1 −s.t. ∥f(I)∥22 = ∥n∗∥22 = 1,Lℓ1 =s.t. ∥f(I)∥22 = ∥n∗∥22 = 1430sion包含在不同照明下拍摄的四张图像。图3显示了Photoface的示例。为了从图像中估计法线，我们使用标准的4个源PS[64]。标准PS假设三个或更多灰度图像是兰伯特物体的，并构造以下矩阵方程：0I = ρ ⊙ NL (5)0其中I = [I1, I2, ...,IN]是包含所有图像的辐射值的P×N矩阵，P和N分别是像素和图像的数量。I的每一行对应于图像中的像素位置，每一列对应于不同的图像。反射率ρ ∈ RP与法线矩阵N ∈RP×3表示表面属性。照明矩阵L = [l1, ..., lN] ∈R3×F表示照明方向和强度，即矩阵L的第j列对应于第j个图像的照明方向乘以其强度。假设已知光源向量，我们可以解决Eq.5中的最小二乘系统，以获得每个像素的反射率和表面法线分量。通过变化光照方向，我们可以生成同一主体的合成示例。我们通过随机采样照明生成了3148个图像。04. 模型0与[34,36]一样，我们使用“完全卷积”网络提取越来越复杂的特征层次结构。由于法线估计任务可以从低级和高级特征中受益，我们使用跳跃层[21]将中间层激活作为输入，并对其执行简单的线性操作。特别地，我们从Resnet-50[23]网络的层conv1，block2/unit 4，block3/unit6，block4/unit3中汇集特征。在每个层中，我们学习从高维中间神经元激活空间到用于法线估计所需的三维输出空间的线性映射。我们使用批量归一化[25]处理这些中间层激活，以将其带入公共缩放。与[32]一样，我们通过在这些跳跃层中应用线性操作，通过学习的权重进行加性融合，以保持任务特定的内存和计算预算较低。我们适当地放置插值层，以确保来自不同跳跃层的结果具有相当的尺寸，同时，与[39,10]一样，我们使用扩张卷积来增加高级神经元的空间分辨率。最后，为了考虑图像中不同的人脸尺寸，我们使用我们提出的网络的3级金字塔，在2和3的尺度上将图像缩小一半，并且一个0通过使用2D平均池化操作，将输入图像的分辨率降低为原来的四分之一，类似于[32]。不同分辨率的输出通过额外的融合方案进行组合，得到最终的法线估计。对于表面法线回归问题，我们考虑了两种可能的目标函数。由于我们的评估标准是最小化网络预测f(I)与可用的地面真实法线n�之间的角度距离，最好使用相同的损失函数来训练我们的完全卷积网络。为了确保得到的预测是有效的单位法线向量，我们在此之后添加了进一步的ℓ2约束，得到以下结果，0i ∈M f ( I ) � i n � i0其中M是包含与可见面部区域对应的图像索引的掩码。除了余弦距离，我们还考虑了平滑的ℓ1损失[18]，该损失在密集估计任务（如表面法线检索、分割[32]和物体检测[18]）中被使用。ℓ1损失通常被认为是一种鲁棒的惩罚项，有助于避免过度平滑的密集重建[63]。为了加入平滑的ℓ1损失，我们再次为网络预测添加了ℓ2约束，0i ∈M 平滑 L 1 ( f ( I ) i −n � i )05. 实验0我们进行了两组实验。第一组是在Photoface数据库[69]上进行的定量实验，我们将校准的4源光度立体产生的法线视为地面真实值。为了进行此实验，我们从所有算法的训练集中保留了100个主体。由于缺乏“野外”法线数据库，我们的第二个实验纯粹是定性的，包括从Helen [33]和300W[47]数据库获取的图像。05.1. 实验设置0为了学习网络的权重，我们使用Adam[31]进行随机优化，使用默认超参数和每个小批量一个图像。我们使用初始学习率为0.001的多项式衰减规则，每10000次迭代将学习率降低10倍。为了初始化网络的权重，我们使用ImageNet预训练的Resnet-50模型，并使用从正态分布中随机抽取的随机权重初始化新层的权重。440IMM Marr Revisited0我们的0图6：Helen数据集中的示例面部法线估计和表面重建。05.2. 在Photoface上的实验0我们与一系列最先进的法线估计技术进行了比较。虽然我们关注的是从单个图像中估计表面法线的问题，但我们还为需要多个不同光照下的同一主体的图像作为输入的两种已建立的SfS技术提供了实验结果[28，57，4]。第一种是未知光照的光度立体（PS w/oLight），由[4]提出，我们使用了所有四个可用光照的图像来估计法线。第二种是应用了[28，57]的SfS方法（IMM）。[28，57]的方法从同一物体的一系列图像中重建面部法线。因此，它们已经应用于Photoface的所有可用数据来进行法线估计。我们应用了[57]中提出的[28]的鲁棒版本，尽管数据库中不包含遮挡，因此结果与[28]非常相似。我们还与用于第3.2节中合成数据生成的最先进的大规模3DMM的基于标志点的拟合进行了比较（该模型可以描述身份和表情的变化）。最后，关于最先进的通用网络，我们与公开可用的预训练网络[32，2]进行了比较。对于所有方法，我们计算了地面真实值和估计表面法线之间的角度误差。0结果总结在表1中。所提出的网络具有最佳性能，角度误差最低。值得注意的是，3DMM拟合的平均性能很好，因为它可以捕捉到一般的面部特征，但是像素误差低于20°的像素要少得多，因为3DMM缺乏捕捉面部表面高频细节的能力。值得注意的是，与[28]和基于标志点的3DMM估计相比，我们的方法不需要显式的对齐步骤。0表1：所有测试的表面法线估计方法的角度误差。我们展示了使用ℓ1损失训练的所提出网络的结果。0名称平均 ± 标准差 < 20° < 25° < 30°0无光照 PS 42.9 ± 15.2 1.1% 13.1% 35.8%0IMM [28, 57] 24.2 ± 5.4 23.5 64.6% 88.3%03DMM 26.3 ± 10.2 4.3% 56.05% 89.4%0Marr Rev. [2] 28.3 ± 10.1 31.8% 36.5% 44.4%0UberNet [32] 29.1 ± 11.5 30.8% 35.5% 55.2%0所提出的 22.0 ± 6.3 36.63% 59.8% 79.6%0损失平均 ± 标准差 < 20° < 25° < 30°0余弦损失 21.5 ± 6.9 29.9% 55.9% 81.5%0平滑 ℓ1 损失 22.0 ± 6.3 36.63% 59.8% 79.6%0表2：不同损失函数的角度误差。0架构平均 ± 标准差 < 20° < 25° < 30°0Resnet + 余弦距离 21.5 ± 6.9 29.9% 55.9% 81.5%0Pixelnet + 余弦距离 23.5 ± 6.3 35.17% 58.0% 78.2%0表3：不同架构的角度误差。0最后，我们进行了一系列实验，以评估任务的损失函数（即ℓ1与余弦距离）和网络架构（即Resnet与基于VGG[2]的PixelNet）的影响。实验结果总结在表2和表3中。可以看出两种损失之间的性能差异很小，但余弦距离稍微更好。此外，所提出的架构产生的结果比使用完全相同数据和相同损失函数训练的PixelNet更好。6. ConclusionsWe have presented the ﬁrst, to the best of our knowl-edge, discriminative methodology tailored to facial surfaceestimation “in-the-wild”.To this end, we capitalised onboth the available facial database, as well as on the powerof deep convolutional neural networks (DCNNs). We pro-posed methodologies for preparing training data for thetask. We show that the proposed DCNN outperforms boththe state-of-the-art facial surface normal estimation tech-niques, as well as the state-of-the-art pre-trained networksfor normal estimation.7. AcknowledgementsG. Trigeorgis was supported by EPSRC DTA award at Im-perial College London.The work of P. Snape was par-tially funded by an EPSRC DTA and by the EuropeanCommunity Horizon 2020 [H2020/2014-2020] under grantagreement no. 688520 (TeSLA). S. Zafeiriou was partiallyfunded by EPSRC Project EP/N007743/1 (FACER2VM).I. Kokkinos was supported by EU Horizon 2020 Project643666 I-Support. We thank the NVIDIA Corporation fordonating a Tesla K40 GPU used in this work.450图7：来自“野外”面部图像的具有挑战性的300W数据集的代表性表面重建结果。该网络在各种个体和表情上具有很好的泛化能力。左侧是来自300W数据集的原始图像。接下来是3D形状重建和从图像到形状的采样纹理。05.3. 在野外数据库上的实验0由于“野外”图像没有真实标准，我们只能展示定性的例子。对于这些实验，我们使用了300W面部标志定位挑战[47,48]提供的数据。我们比较的方法是在[57]中提出的鲁棒版本的Internet Mor- phable Model (IMM)[28]和基于标志点的大规模3DMM的拟合。IMM重建了一组图像，因此我们使用了3000个“野外”面部图像（重建过程需要大约20分钟）。图6显示了所提出的网络与IMM以及[2]中的表面法线估计网络的一些代表性重建案例。对于所有从法线重建的表面重建，我们使用了标准的Frankot-Chellappa方法[14]。0很明显，所提出的网络在非常具有挑战性的拍摄条件下提供了非常高质量的面部法线。附录材料中提供了与3DMM的视觉比较，因为虽然3DMM可以恢复姿态和表情，但无法捕捉细节。最后，图7显示了由所提出的网络重建的更多面部表面。References[1] O. Aldrian and W. A. Smith. A linear approach of 3d faceshape and texture recovery using a 3d morphable model. InBMVC, 2010. 1, 5[2] A. Bansal, B. Russell, and A. Gupta. Marr Revisited: 2D-3DAlignment Via Surface Normal Prediction. CVPR, 2016. 2,3, 7, 8[3] J. T. Barron and J. Malik.Shape, illumination, and re-ﬂectance from shading. T-PAMI, 37(8):1670–1687, 2015. 1,2[4] R. Basri, D. Jacobs, and I. Kemelmacher. Photometric stereowith general, unknown lighting. IJCV, 72(3):239–257, 2007.2, 7[5] R. Basri and D. W. Jacobs. Lambertian reﬂectance and linearsubspaces. T-PAMI, 25:218–233, Feb. 2003. 2[6] P. N. Belhumeur, D. J. Kriegman, and A. L. Yuille. The bas-relief ambiguity. In CVPR, pages 1060–1066. IEEE, 1997.2[7] V. Blanz and T. Vetter.A morphable model for the syn-thesis of 3d faces.In SIGGRAPH, pages 187–194. ACMPress/Addison-Wesley Publishing Co., 1999. 1[8] J. Booth, A. Roussos, S. Zafeiriou, A. Ponniah, and D. Dun-away. A 3d morphable model learnt from 10,000 faces. InCVPR, 2016. 1, 2, 3, 4[9] C. Cao, Y. Weng, S. Zhou, Y. Tong, and K. Zhou. Faceware-house: A 3d facial expression database for visual computing.T-VCG, 20(3):413–425, 2014. 1, 4[10] L. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L.Yuille. Deeplab: Semantic image segmentation with deepconvolutional nets, atrous convolution, and fully connectedcrfs. CoRR, abs/1606.00915, 2016. 6[11] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei. Imagenet: A large-scale hierarchical image database. InCVPR, pages 248–255. IEEE, 2009. 3[12] J.-D. Durou, M. Falcone, and M. Sagona. Numerical meth-ods for shape-from-shading: A new survey with benchmarks.CVIU, 109(1):22–43, 2008. 1[13] D. Eigen and R. Fergus. Predicting depth, surface normalsand semantic labels with a common multi-scale convolu-tional architecture. In ICCV, pages 2650–2658, 2015. 2,3[14] R. T. Frankot and R. Chellappa.A method for enforcingintegrability in shape from shading algorithms.T-PAMI,10(4):439–451, 1988. 2, 8[15] S. Galliani and K. Schindler.Just look at the image:viewpoint-speciﬁc surface normal prediction for improvedmulti-view reconstruction. In CVPR, 2016. 2, 3[16] A. Georghiades, P. Belhumeur, and D. Kriegman.Fromfew to many: Illumination cone models for face recognitionunder variable lighting and pose. T-PAMI, 23(6):643–660,2001. 3[17] A. S. Georghiades, P. N. Belhumeur, and D. Kriegman. Fromfew to many: Illumination cone models for face recognitionunder variable lighting and pose. T-PAMI, 23(6):643–660,2001. 1[18] R. Girshick. Fast R-CNN. In ICCV, pages 1440–1448, 2015.6[19] R. Gross. Face databases. In Handbook of face recognition,pages 301–327. Springer, 2005. 3[20] R. Gross, I.

下载后可阅读完整内容，剩余1页未读，立即下载