深度神经网络的端到端三维人脸重建方法

114 浏览量更新于2023-10-16 收藏 2.04MB PDF 举报

三维人脸重建

深度神经网络

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于深度神经网络的端到端三维人脸重建窦鹏飞，Shishir K. Shah和Ioannis A. Kakadiaris计算生物医学实验室休斯顿大学4800 Calhoun Road，Houston，TX 77004{pdou，sshah，ikakadia}@ central.uh.edu摘要从单幅二维人脸图像重建单目三维人脸形状具有广泛的应用前景，一直是一个活跃的研究领域受深度神经网络（DNN）成功的启发，我们提出了一种基于DNN的方法，用于从单个2D图像进行端到端3D FAce重建（UH-E2 FAR）。与最近的工作，重建和细化的3D人脸在一个迭代的方式使用RGB图像和初始的3D面部形状渲染不同，我们的DNN模型是端到端的，因此可以避免复杂的3D渲染过程。此外，我们在DNN架构中集成了两个组件，即多任务损失函数和融合卷积神经网络（CNN），以改善面部表情重建。利用多任务损失函数，将三维人脸重建分为中性三维人脸形状重建和表情三维人脸形状重建。中性3D面部形状是类特定的。因此，较高层特征是有用的。相比之下，富有表现力的3D面部形状更倾向于低层或中间层特征。利用fusion-CNN，来自不同中间层的特征被融合和变换，用于预测3D表达性面部形状。通过大量的实验，我们证明了我们的端到端的框架在提高三维人脸重建的准确性的优越性。1. 介绍三维信息作为视图视角的强先验不变量，已在不同的计算机视觉应用中被证明是有益的[29，9，11，17，18，15]。在这些应用中，3D数据已被广泛用于人脸识别研究，以解决面部图像中的姿势、表情和照明变化，从而产生了许多具有最先进性能的出版物[11，17，15，34，8，10，5，6]。在这些方法中，一个关键步骤是获取个性化的3D人脸模型，理想情况下，该模型可以用3D相机捕获系统然而，3D相机的高成本和有限的有效感测范围限制了其在实际中的应用。另一种方法是使用二维人脸图像重建三维人脸形状，这在计算机视觉和计算机图形学领域都有广泛的应用。如果不提供先验知识，从2D图像重建三维面部形状就其性质而言是非常具有挑战性的这主要是由于该问题的解空间较大，以及图像获取过程中深度信息的丢失。给定关于相机内部参数或相同对象的多视图图像的先验知识，可以应用包括多视图立体、光度立体或运动恢复结构的许多方法来重建3D面部。然而，在大多数场景中，摄像机内部参数是未知的，并且通常只有单个2D图像可用，这使得被称为单目3D面部形状再现（MFSR）的问题更加困难。在解决单目3D面部形状重建问题中采用的常见先验是子空间或可变形模型[3]，其利用一组基本形状来捕获人脸中的形状变化。通过使用变形模型，3D人脸可以被参数化为形状基础的权重向量。结果，解空间在数值上受到约束，因此可以通过常见的优化技术求解为了检索最佳模型参数，最好地重建输入2D图像的3D面部形状，Blanz和Vetter [3]提出以合成分析的方式最小化输入2D图像和3D面部渲染之间的差异。虽然已经取得了有趣的结果，这种方法不能处理复杂的光照条件，并遭受高计算成本。为了解决其局限性，Blanz etal. [2]提出通过面部特征点位置的线性回归来预测模型参数。虽然有效，这种方法放弃了图像中的大部分有用信息，并学习非常简单的回归函数。因此，重建通常是非常粗糙和敏感的。59085909图1：通过我们的方法重建的3D面部的示例：（L）从具有表情的面部图像重建的表达性3D面部和（R）从具有不同面部姿势的图像重建的中性3D面部。不准确的面部标志。尽管在过去的五年中，深度学习在不同的计算机视觉研究领域（如目标检测和识别、图像分割和图像字幕）中取得了快速增长和巨大成功，但使用深度学习进行单目3D面部形状重建的研究却利用数百万个参数，可以训练深度神经网络来近似非常复杂的非线性回归函数，这些函数将2D面部图像映射到最佳变形模型参数。在本文中，受最近三篇论文[33，11，25]的启发，我们提出了一种基于DNN的方法：端到端3D面部重建（UH-E2 FAR），其从单个2D图像重建3D面部形状。虽然共享相同的主要思想，我们的方法在几个方面不同于[33，11，25]首先，与[33，11，25]相比我们的方法不是使用[33，11，25我们的网络没有使用额外的数据，例如[33]中使用的几何图像或[25]中使用的初始3D面部渲染，而是仅将检测到面部感兴趣区域（ROI）的RGB图像通过框架中的这些简化，我们的方法简化了深度神经网络的训练，并使得可以使用可用的2D面部数据库作为额外的训练数据来初始化网络。其次，由于三维人脸形状由身份和表情两部分组成，我们将三维人脸重建问题分为两个子任务，即重建中性三维人脸形状和重建表情，并在我们的方法中引入多任务学习损失，训练不同的层分别预测身份和表情参数，这在不同的应用中已经被证明是有效的[30，23]。为了验证我们的简化和修改，我们使用不同的神经网络架构进行了广泛的实验，并将它们的性能与我们的进行了比较。本文的其余部分组织如下。第2节回顾相关工作。第3节描述了我们提出的方法的细节。第4节描述了实施细节，并提供了广泛的实验评估。最后，第五部分对全文进行了简要的总结和讨论.2. 相关工作Blanz 和 Vetter 等人 [3] 提出了一种 3D 变形模型（3DMM），用于从单个或多个面部图像建模3D人脸。以合成分析的方式优化模型参数，以逼近输入的2D面部图像。虽然取得了有趣的结果，这种方法遭受高的计算成本，并需要手动操作，以对齐的平均3D面部形状的2D面部图像在初始化。Blanz 等人 [2]对3DMM方法进行了扩展，以使用稀疏的面部特征点集进行模型参数估计。同样，Rara等人 [24]提出了2D面部标志和3DMM参数之间的回归模型，并采用主成分回归（PCR）进行模型参数估计。由于大的面部姿势变化可能会降低2D面部标志检测，Dou等人。 [7]提出了一种基于字典的3D面部形状表示，并采用稀疏编码来估计来自面部标志的模型参数。与基于PCA的模型相比，该方法对不准确的人脸特征点检测具有更好的类似地，Zhou等人。 [32]也采用了基于字典的模型，并提出了一种凸公式来从面部标志估计模型参数。与人脸特征点相比，人脸图像为三维人脸重建提供了更多的有用信息。Wang和Yang [28]提出通过流形学习和对齐来学习从2D图像到相应3D形状的映射。Song等人 [26]提出了一种耦合径向基函数网络（C-RBF）方法，用于学习成对的2D和3D训练数据之间的内在表示和相应的非线性映射函数类似地，Liang等人。 [16]结合了RBF网络和- 耦合字典模型，用于重建3D面部，以及5910d、e、d增强面部细节以用于面部表情合成。然而，这些方法不能处理非正面面部图像。Zhu等人 [35]提出了一种用于3DMM拟合的判别方法，该方法使用局部面部特征和一系列回归量来迭代地估计和更新3DMM参数。这项工作由Zhu等人扩展。 [33]通过使用深度神经网络来近似回归函数。另一个工作共享类似的想法是在[11]。[33，11]中的结果是鼓舞人心的，因为它们已经证明了深度神经网络在近似从2D面部外观到3DMM参数的复杂映射函数方面的有效性。然而，这两项工作都集中在2D人脸对齐，并没有实验评估，以分析他们的方法在3D人脸重建的性能。Richardson等人。 [25]还提出使用深度神经网络来学习回归函数，以从2D面部图像估计3DMM参数。与[33]类似，他们使用RGB图像和初始3D人脸的3D渲染作为网络的输入与[33]不同的是，[25]还输入初始3DMM参数以建立反馈回路，并迫使深度神经网络迭代更新3DMM参数。3. 方法类似于[33，11，25]，我们采用3D面部形状子空间模型，并将3D面部表示为一组形状和混合形状基础的线性组合：S=S<$+Ud·αd+Ue·αe，（1）式中S为目标三维面，S<$为平均面形，Ud是在中性3D面部扫描上训练的主成分，αd是身份参数向量，Ue是在表情和中性3D面部扫描之间的偏移上训练的主成分，αe是表情参数向量。给定一个2D面部图像，我们的目标是预测最佳的身份和表情参数，使重建的3D面部和地面真相之间的差异最小化。我们使用两个3D面部形状模型，即[20]提出的BFM模型和[12]提出的AFM模型。BFM模型由53，490个顶点和160，470个三角形面组成。它保留了精细的面部形状细节，因此非常适合3D人脸建模和合成[33]。AFM模型由7，597个顶点和14，912个三角形面组成。它是一个轻量级的3D面部形状模型，具有双射网格参数化，因此对于3D面部分析[12，27]和3D辅助的2D面部姿势归一化[13，8]非常有用。Pool1泳池2泳池3泳池4泳池5Conv_b1 Conv_b2Conv_b3Conv_b4Conv_b5Conv6Conv7Conv8输入图像Fusion CNNFC_e1FC_d1=+dd+eeFC_e2FC_d2FC_e3FC_d3重建的3D人脸eDConcatenate图2：描述了我们的深度神经网络模型的架构，用于从单个2D面部图像重建3D面部形状。3.1. 深度神经网络架构我们的深度神经网络的架构如图所示。二、它基于VGG-Face模型[19]，由13个卷积层和5个池化层组成。具体来说，我们添加了两个关键组件，一个子卷积神经网络（fusion-CNN），它融合了VGG-Face中间层的特征，用于回归表达参数，以及一个多任务学习损失函数，用于身份参数预测和表达参数预测。有了这两个组件，我们可以在一个DNN架构中训练三种类型的神经层第一类型的神经层包括第四池化层（Pool4）以下的神经层，其学习与低级面部结构（诸如边缘和角落）相对应的通用特征。这些层由两个任务共享第二种类型的神经层包括fusion-CNN中的三个卷积层和以下完全连接的层。这些层被迫学习特定于表情的特征。第三种类型的神经层包括第四池化层（Pool4）之上的神经层，其学习更适合于预测身份参数的类特定特征。网络的输入是一张经过裁剪并缩放为180×180像素的RGB图像。为了融合来自层Pool 4和层Pool 5的中间特征，我们将层Conv 6和层Conv 7的核大小和步幅设置为{5×5，2}，{1×1，1}分别。将要素连接后在Conv6和Conv7的基础上，我们增加了另一个1×1核卷积层Conv8来降低特征维数。的所有层（除了骨架中的那些层）的细节总结在表1中。3.2. 端到端培训我们的深度神经网络的输入是一个2D图像，其中面部ROI由面部检测器定位。在本页中-59112层Conv6Conv7Conv8E1足球俱乐部E2足球俱乐部E3足球俱乐部FC d1FC d2FC d3输入大小512×12 × 12512× 6× 61024×6 × 6512× 6× 6四千零九十六一千零二十四512× 6× 6四千零九十六一千零二十四输出大小512× 6× 6512× 6× 6512× 6× 6四千零九十六一千零二十四29四千零九十六一千零二十四199步幅，衬垫二，二1、01、0N/AN/AN/AN/AN/AN/A滤波器大小5 ×51 ×11 ×1N/AN/AN/AN/AN/AN/A表1：我们的深度神经网络架构中不同层的规格我们使用Dlib SDK1进行人脸检测。我们首先将检测到的面部边界框放大其原始大小的0.25倍，然后扩展较短的边缘以裁剪面部ROI的方形图像块，该方形图像块被缩放为180×180。深度神经网络的输出由恒等参数向量和表达式参数组成。称为矢量。它们用于使用等式（1）重建对应于输入2D图像的3D面部形状。1.一、培训数据：我们建议使用真实的2D图像和合成的2D图像来训练深度神经网络。真实2D图像用于初始化深度神经网络，合成2D图像用于微调。我们遵循与Richardson等人类似的过程。[25]生成合成面部图像以训练我们的深度神经网络。对于BFM 3D面部形状模型，我们使用[20]提供的形状基础和[33，4]提供的混合形状基础。对于AFM 3D面部形状模型，我们从FRGC 2 [21]和BU-3DFE [31]数据库中选择203个中性3D面部扫描，并使用[12]提出的拟合算法将其配准以建立形状基础。为了简单起见，我们没有为AFM模型构建blendshape基础总共，我们为BFM和AFM 3D面部形状模型创建了10，000个随机中性3D面部，对应于10，000个身份。对于每个3D人脸，我们合成了25个具有不同面部姿势、照明和面部表情的图像。更多详情见第2节。4.1.成本函数：我们选择训练成本作为预测的3D人脸和地面真实值之间的差异。为了测量这种差异，我们采用平方所有3D顶点的错误：Ec=<$Uc·α<$ c−Uc·αc<$2，（2）其中，c∈{e，d}，α∈ c表示预测参数向量，αc表示真实值。总损失计算为两种损失的加权和：E=λdEd+λeEe，（3）其中λd和λe是两个单独损失的权重。1http://dlib.net/59123.3. 讨论与[33，11，25]相比，我们的深度神经网络的一个主要区别是它是端到端的，只接受单个RGB图像作为输入。因此，我们的DNN模型的训练和在训练过程中，我们不需要像[33，25]那样执行迭代数据模拟，这是不平凡的。在部署过程中，我们不需要对初始或中间3D面部形状执行3D渲染，这是昂贵的，并且在某些情况下可能受到限制。使用单个RGB图像作为输入的另一个好处是，我们可以使用可用的2D人脸数据库来初始化我们的DNN模型，这有助于提高我们的方法对面部姿势和复杂光照条件的鲁棒性。另一个区别是，我们使用多任务学习损失和fusion-CNN来融合中间特征。因此，我们能够训练不同的层来分别预测身份和表达参数。中间特征携带对表达参数向量预测有用的重要判别信息。相比之下，高级特征是类特定的，并且对面部表情变化是鲁棒的，因此有利于预测身份参数向量。4. 实验在本节中，我们将评估我们的UH-E2 FAR算法，用于从单个图像进行3D人脸重建。我们将其与几种最先进的算法进行比较，即 RSNIEF[25] ， RSN 和 UH-2FCSL[7]。RSN算法是对RSNIEF的改进，通过去除反馈连接，仅使用2D图像而不使用3D合成渲染。我们还将我们的方法与UH-E2 FARMod算法进行了比较，UH-E2 FARMod算法是我们的UH-E2 FAR算法的一种修改，通过去除融合卷积神经网络（fusion-CNN）来证明我们的算法在重建表达性3D人脸方面的优势。4.1. 合成数据生成由于大规模3D-2D人脸数据库不可用，我们遵循与[25]类似的过程来创建合成训练数据。如第3.2，我们首先使用随机参数创建10，000个中性3D人脸及其相应的面部纹理。然后我们继续5913以通过改变表情参数来生成各种面部表情。我们已经观察到，使用随机表情参数将生成许多不合理的3D面部形状。因此，我们收集了[33]在多个2D人脸数据库上估计的一组非常大的表情参数，并对其进行随机采样。以这种方式，我们确保由采样表情参数生成的面部表情将是合理的。为了生成逼真的合成图像，在3D渲染过程中适当地控制相机参数和照明是至关重要的。我们使用透视相机模型，并将相机视场随机设置为在范围[15，35]。因此，照相机和物体之间的距离被设置为在1,900mm和500mm内。我们使用Phong反射模型[22]进行照明合成。为了发光参数，而不是我们-我们还收集了两个2D人脸数据库上估计的大量光泽参数，[20] 随机抽取样本对于环境、漫反射和镜面反射参数，我们使用范围[0.2，0.4]、[0.6，0.8]和[0.1，0.2]内的随机值。合成图像的面部姿态是随机生成的。偏航、俯仰和横滚旋转均匀分布在范围[-90°，90°]、[-30°，30°]和[-30°，30°]内。合成图像的背景也是随机生成的。被清除。在图1中描绘了对应于BFM和AFM 3D面部形状模型的所生成的合成图像的示例3 .第三章。图3：对应于所采用的两个3D面部形状模型的所生成的合成面部图像的示例：（T）BFM面部形状模型和（B）AFM面部形状模型。(a)(b)（c）第（1）款图4：来自实验中使用的三个公共数据库的2D图像示例：（a）FRGC2数据库，4.2. 评价数据库和衡量标准除了合成数据外，我们还在实验中使用了三个公开的3D人脸数据库，即FRGC 2数据库[21]，BU-3DFE数据库[31]和UHDB 31数据库[29]。对于FRGC2数据库，我们使用由466个受试者的4，007对2D和3D数据组成的验证分区。在不同的光照条件下拍摄2D面部图像。对于BU-3DFE数据库，我们使用了100名受试者的所有2，500对2D和3D数据。当受试者执行不同类型的面部表情时，捕获2D和3D数据。对于UHDB31数据库，我们使用了2，079个2D面部图像的子集以及相应的3D面部扫描。这些数据是在三种照明条件下捕获的，具有九个面部姿势。我们在图中展示了来自这三个数据库的2D数据的几个例子4.第一章在第一个实验中，这三个数据库都被用来评估和比较我们的方法与最先进的BFM三维人脸形状模型的性能。FRGC2数据库用于评估不同照明条件下不同方法BU-3DFE数据库用于评估他们在不同面部表情下的表现。UHDB31数据库用于评估它们在不同面部姿势下的性能在第二个实验中，FRGC 2和BU-3DFE数据库被用来建立AFM 3D面部形状模型的形状基础，而UHDB31数据库被用于评估。为了比较不同方法的性能，我们使用重建的3D人脸和使用迭代最近点（ICP）算法[1]进行刚性对齐和注册后的地面真实值之间的均方根误差来衡量3D人脸重建的准确性。4.3. 实现细节我们使用Caffe深度学习框架2来训练这四个DNN模型。预训练的VGG-Face模型被用作UH-E2 FAR和UH-E2 FARMod的初始化，然后在合成数据库上进行微调以用于3D人脸重建UH-E2 FAR的多任务损失权重根据经验设置为λd=1和λe=5。使用Adam求解器[14]，将小批量大小和初始学习率分别设置为32和0.0001。我们首先只对完全连接的层和fusion-CNN进行微调，进行40，000次迭代。然后，我们继续微调整个深度神经网络对于RSNIEF和RSN，我们在合成数据库上训练它们，从头开始进行3D人脸重建。使用Adam求解器[14]，初始学习率设置为0.001。学习率每40，000次迭代降低0.5倍。我们总共运行了120，000次迭代。(b) BU-3DFE数据库，和（c）UHDB 31数据库。2http://caffe.berkeleyvision.org/5914UH-E2FARRSNIEFRSNUH-2FCSLUHDB312.73±0.713.51±0.843.65±0.913.37±0.76FRGC23.71±3.053.91±2.514.50±3.093.81±2.30BU-3DfE4.52±1.114.00±1.074.23±1.09N/A表2：UHDB 31、FRGC 2和BU-3DFE数据库的定量比较：RMSE的平均值和标准差（mm）。图5：UHDB31数据库上3D面部形状重建RMSE的累积分布。(a)（b）（c）（d）图6：UHDB 31数据库上不同方法的重建误差热图：（a）UH-E2FAR，（b）RSNIEF，（c）RSN，和（d）UH-2FCSL。顶行说明了RMSE在脸上的空间分布，底行说明了我们的方法UH-E2 FAR和其他方法之间的RMSE差异（绿色表示我们的方法具有较小的RMSE，红色表示我们的方法具有较大的RMSE，颜色强度表示差异的大小）。4.4. 实验结果在第一个实验中，我们评估了我们的方法在UHDB31数据库中的多视图人脸图像上在所选的2，079张2D面部图像中，共有1，638张成功进行了面部和面部标志点检测用于重建3D面部。RMSE的累积分布如图所示。五、RMSE的平均值和标准差的定量结果如表2所示。四种方法在面部区域上的空间重建误差分布如图所示。6（T）和我们的方法UH-E2 FAR和其他三种方法之间的比较描绘在图6。6（B）。很明显，我们的方法提供了最好的性能。图7：FRGC2数据库上3D面部形状重建RMSE的累积分布。(a)（b）（c）（d）图8：FRGC 2数据库上不同方法的重建误差热图：（a）UH-E2FAR，（b）RSNIEF，（c）RSN，和（d）UH-2FCSL。顶行说明了RMSE在脸上的空间分布，底行说明了我们的方法UH-E2 FAR和其他方法之间的RMSE差异（绿色表示我们的方法具有较小的RMSE，红色表示我们的方法具有较大的RMSE，颜色强度表示差异的大小）。类似地，在FRGC2数据库上，4，007个具有成功的面部和面部标志检测的面部图像中的3，999个RMSE的累积分布如图所示。7.第一次会议。RMSE的平均值和标准差的定量结果如表2所示。相比5915与RSNIEF、RSN和UH-2FCSL算法相比，我们的算法在重建精度上有了很大的提高。四种方法在人脸区域上的空间重建误差分布如图所示 8（T）和我们的方法UH-E2 FAR和其他三种方法之间的比较描绘在图8。8（B）.与RSNIEF和UH-2FCSL相比，我们的方法表现出更好的性能，在关键的面部区域，包括嘴，鼻子和眼睛。图9：BU-3DFE数据库上3D面部形状重建RMSE的累积分布。(a)（b）（c）（d）图10：BU-3DFE数据库上不同方法的重建误差热图：（a）UH-E2FAR，（b）RSNIEF，（c）RSN和（d）UH-E2FARMod。顶行说明了RMSE在脸上的空间分布，底行说明了我们的方法UH-E2 FAR和其他方法之间的RMSE差异（绿色表示我们的方法具有较小的RMSE，红色表示我们的方法具有较大的RMSE，颜色强度表示差异的大小）。我们评估和比较我们的方法与RSNIEF和RSN在BU-3DFE数据库上重建表情三维人脸由于UH-2FCSL和DRSN不能重建有表情的3D人脸，因此我们将这两种方法排除在实验之外累积分布-RMSE的作用被描绘在图中。9.第九条。RMSE的平均值和标准差的定量结果如表2所示。与RSNIEF和RSN相比，我们的方法具有更大的RMSE。从面部区域上的空间反射误差分布，如图10（T）所示，我们观察到UH-E2 FAR的大部分RMSE误差分布在外部面部区域中。在内部面部区域，我们的方法表现出更低的RMSE相比，RSNIEF和可比的RMSE时，与RSN。我们还将我们的方法与UH-E2 FARMod进行了比较，以证明我们提出的融合CNN在重建表达性3D人脸方面的好处。与UH-E2 FARMod相比，UH-E2 FAR在关键面部区域（包括嘴、鼻子和眼睛）表现出更好(a)（b）（c）（d）（e）（f）图11：通过不同方法重建的中性3D面部的示例：（a）输入的2D图像。（b）第（1）款UH-E2FAR、（c）RSNIEF、（d）RSN、（e）UH-2FCSL和（f）UH-E2FARMod.通过不同方法从野外捕获的面部图像重建的中性3D面部如图所示。11个国家。与RSNIEF、RSN和UH-E2 FARMod相比，UH-E2 FAR具有更好的鲁棒性。用不同方法重建的富有表现力的3D人脸如图所示12个。注意，我们的方法的性能非常稳定，并且重构的表达比RSNIEF和RSN更合理，并且比UH-E2 FARMod更准确。在第二个实验中，我们将我们的方法集成到Kakadi-aris等人提出的2D人脸识别管道中。 [13]并与UH-2FCSL进行3D辅助人脸识别比较。我们使用AFM 3D面部形状模型并用250，000张合成图像训练我们的UH-E2 FAR模型我们使用UHDB31数据库中每个受试者的正面面部图像作为图库，并使用其他八个非正面图像作为探针。为了强调影响力59161.000.950.900.850.80地面实况3D UH-E2 FAR UH-2FCSL0.750708 0910 1213 14 15面部姿态图14：不同面部姿势的Rank-1识别率。(a)（b）（c）（d）（e）图12：通过不同方法重建的富有表现力的3D面部示例：（a）输入的2D图像。(b)UH-E2FAR、（c）RSNIEF、（d）RSN和（e）UH-E2FARMod。3D人脸重建对人脸识别性能的影响，我们在3D2D姿态估计过程中使用2D人脸图像上的手动注释特征点，并采用基于姿态归一化人脸纹理计算的图像梯度的简单除了UH-E2 FAR和UH-2FCSL，我们还使用地面真实3D面部数据作为一个基线来突出我们方法的性能。人脸识别精度的累积匹配特征曲线如图所示。十三岁与UH-2FCSL相比，我们基于DNN的方法UH-E2 FAR大大提高了人脸识别的准确性。从不同面部姿势的rank-1面部识别率的细粒度结果，如图所示。14，我们观察到，在一些面部姿态中，用我们重建的3D面部获得的秩1识别率非常接近于使用地面真实3D数据获得的秩1识别率。这表明了我们的方法的优越性能。图13：UHDB31数据库上人脸识别准确率的累积匹配特征曲线5. 结论在本文中，我们提出了UH-E2 FAR，一种基于深度神经网络的端到端与以前的工作相比，我们的方法带来了显着简化的框架，通过替换迭代模型参数更新方案与端到端的推断方案，并删除依赖于3D形状渲染或初始模型参数作为额外的DNN输入。我们还为我们的框架引入了两个关键组件，即融合CNN和多任务学习损失。利用这两个组件，我们将3D人脸重建分为两个子任务，即中性3D人脸形状重建和表达性3D人脸形状重建，并在单个DNN模型中为这两个特定任务训练不同类型的神经层。通过大量的实验，我们证明了框架的简化并没有损害3D人脸重建的性能。相反，可以使用来自可用2D人脸数据库的真实面部图像来初始化我们的DNN模型，这有助于提高我们的方法对面部姿势和复杂照明的鲁棒性。因此，我们的方法优于最先进的方法[25，7]，在重建准确性和鲁棒性方面有显著改善。确认本材料基于美国国土安全部，拨款编号2015-ST-061-BSH 001。这笔赠款授予边境，贸易和移民（BTI）研究所：一个由霍顿大学领导的国土安全部卓越中心，包括对“操作环境中的图像和视频人员识别：第一阶段”授予休斯顿大学。本文件中包含的观点和结论是作者的观点和结论，不应被解释为必然代表官方政策，无论是明示的还是暗示的，美国国土安全部。一阶认同率5917引用[1] P. Besl和N.麦凯一种用于3D形状的配准的方法。IEEETransactionsonPatternAnalysisandMachineIntelligence，14（2）：239-256，1992年2月。5[2] V. Blanz，A. Mehl，T. Vetter和H.- P. Seidel一种从稀疏数据稳健重建三维表面的统计方法。在proc 三维数据处理可视化和传输国际研讨会，第293 -300页，塞萨-洛尼基，希腊，9月。6-9 2004年一、二[3] 诉 Blanz 和 T. 维特用于合成 3D 面的可变形模型在Proc.26thAnnualConferenceonComputerGraphicsandInteractiveTechniques，第26届计算机图形和交互技术年会论文集，第187-194页，洛杉矶，加利福尼亚州，8月12日。1999年8月至13日。一、二[4] C. Cao，Y. Weng、黄毛菊S. Zhou，Y. Tong和K.舟面仓：用于视觉计算的三维面部表情数据库。 IEEETransactions on Visualization and Computer Graphics，20（3）：413-425，2014年3月。4[5] B. Chu，S. Romdhani和L.尘3D辅助人脸识别对表情和姿势变化具有鲁棒性。在 Proc. IEEE Conference onComputer Vision and Pattern Recognition，第1907-1914页，Columbus，OH，2014年6月23-28日中。1[6] C.丁角，澳-地Xu，和D.涛. 多任务姿态不变人脸识别。IEEE Transactions on Image Processing，24（3）：980-993，2015年3月。1[7] P. Dou，Y. Wu，S. K.沙阿和我。A.卡卡迪亚里斯基于双重耦合结构学习的单幅图像三维人脸形状鲁棒重建。在proc British Machine Vision Conference，第1-13页，Nottingham，UnitedKingdom，2014年9月1日至5日。二四八[8] 普杜湖 Zhang， Y. Wu，S. K.沙阿和我。A.卡卡迪亚里斯用于多视角人脸识别的姿态鲁棒人脸签名。在Proc.生物识别国际会议：理论，应用和系统，第1-8页，阿灵顿，弗吉尼亚州，9月。2015年8月至11日。第1、3条[9] L. Ge，H.Liang，J.Yuan和D.塔尔曼单个深度图像中的鲁棒3D手部姿势估计：从单视图CNN到多视图CNN。在Proc.IEEE计算机视觉和模式识别会议上，拉斯维加斯，NV，2016年6月26日至7月1日。1[10] T. Hassner，S. Harel、E. Paz和R.恩巴无约束图像中的有效人脸正面化。在Proc. IEEE Conference on ComputerVision and Pattern Recognition，第4295 -1[11] A. Jourabloo和X.刘某通过基于CNN的密集3D模型拟合进行大姿态人脸对齐。在 Proc. IEEE Conference onComputer Vision and Pattern Recognition，第4188-一、二、三、四[12] I. A. Kakadiaris、G. Passalis，G. Toderici，M. N. Mur-tuza，Y. Lu，N. Karampatziakis和T.西奥哈里斯存在面部表情时的三维面部识别：一种带注释的可变形模型方法。IEEE Transactions on Pattern Analysis and MachineIntelligence，29（4）：640-649，2007。三、四[13] I. A. Kakadiaris、G.托代里奇湾Evangelopoulos，G. Pas-salis，D. Chu，X. Zhao，S. K. Shah和T.西奥哈里斯基于姿态光照归一化的3D- 2D人脸识别计算机视觉和图像理解，154：137-151，2017。7[14] D. P. Kingma 和 J. BA. Adam ： A method for stochasticoptimization，December 2014. 5[15] Y.李湾，澳-地孙，T. Wu和Y.王.使用ConvNet和3D模型的端到端集成进行人脸检测。在proc 第14届欧洲计算机视觉会议，荷兰阿姆斯特堡，10月10日. 2016年11-16日。1[16] H.良河，巴西-地Liang，M.歌，还有X。他外耦合字典学习用于 3-D 面部表情的细节增强合成。 IEEETransactions on Cybernetics，46（4）：8902[17] I. Masi，S.Rawls，G.Medioni和P.纳塔拉扬。野外姿态感知人脸识别。在Proc.IEEE计算机视觉和模式识别会议上，拉斯维加斯，NV，2016年6月26日至7月1日。1[18] F.马萨湾C. Russell和M.奥布莉通过从真实视图到渲染视图的调整进行深度范例2D-3D检测。在Proc. IEEE计算机视觉和模式识别会议上，拉斯维加斯，NV，2016年6月26日至7月1日。1[19] O. M. Parkhi、黑腹拟步行虫A. Vedaldi和A.齐瑟曼。深度人脸识别。在 Proc. British Machine VisionConference，第1-12页，Swansea，UK，2015年9月7-10日。3[20] P. 佩桑河诺特湾Amberg，S.Romdhani和T.兽医。一种用于姿态和光照不变人脸识别的三维人脸模型在Proc.6thIEEEInternational Conference on Advanced Videoand Signal Based Surveillance，pages 296- 301，Genoa，Italy，Sep. 2009年2月至4日。三、四、五[21] P. 菲利普斯Scruggs，A. Flynn，K.鲍耶C. Schott和M.夏普FRVT 2006和ICE 2006大规模实验结果。IEEE Transactions on Pattern Analysis and MachineIntelligence，32（5）：831 四、五[22] B. 凤计算机生成图片的照明。Communications of the ACM，18（6）：311-317，1975. 5[23] R. Ranjan，V. M.帕特尔和R。切拉帕HyperFace：一个深度多任务学习框架，用于人脸检测、地标定位、姿势估计和性别识别。ArXiv电子印刷品，第1-13页，2016年5月。2[24] H. Rara，A. Farag和T.戴维斯使用少量特征点从未知姿态和光照的单幅图像中恢复基于模型的3D形状在Proc.InternationalJointConferenceonBiometrics，第1 - 7页，华盛顿特区，10月。2011年11月13日。2[25] E. 理查森M.Sela和R.基梅尔通过从合成数据中学习的3D人脸在Proc. International Conference on 3D Vision，第460-469页2016年10月25日至28日。二、三、四、八[26] M. Song，D. Tao，X.黄角Chen和J.布基于耦合RBF网络的单幅图像三维人脸重建。IEEE图像处理学报，21（5）：2887-2897，2012。2[27] V. Vijayan，K. Bowyer，P. Flynn，D. 黄湖，澳-地陈先生，M. Hansen，O. Ocegueda，S.沙阿和我。卡卡迪亚里斯双胞胎3D人脸识别挑战赛。在Proc. IEEE InternationalJoint Conference on Biometrics，第1-7页，Washington，5918DC，10月10日中，2011年11月13日。35919[28] X. Wang和R.杨通过非线性流形嵌入和对齐从单个面部图像学习 3D 形状。在 Proc. IEEE Conference onComputer Vision and Pattern Recognition，第414-421页2010年6月13日至18日。2[29] Y. Wu，S. K.沙阿和我。A.卡卡迪亚里斯渲染还是归一化？3D辅助姿态不变人脸识别的分析。在proc IEEE身份、安全和行为分析国际会议，第1-8页，仙台，日本，2016年2月29日至3月2日。一、五[30] X.徐和我。A.卡卡迪亚里斯使用全局和局部CNN特征的联合头部姿态估计和面部对齐框架。第12届IEEE自动人脸和手势识别会议，华盛顿特区，2017年5月30日至6月3日。2[31] L. 阴、X。Wei，Y.孙，J.Wang和M.罗萨托用于面部行为研究的 3D在 Proc. IEEE International Conference onAutomatic Face and Gesture Recognition，第211-216页，Southampton，UK，Apr. 2006年10月12日。四、五[32] X. Zhou，S.

下载后可阅读完整内容，剩余1页未读，立即下载