用深度神经网络重建稳健、判别的3D人脸形状

94 浏览量更新于2023-10-17 收藏 1.1MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1用非常深的神经网络回归鲁棒性和判别性3D变形联系我们二、三1´1Anh Tuan Tran、Tal Hassner、Iacopo Masi和Gerard Medioni1机器人与智能系统研究所，南加州大学，美国2美国加利福尼亚州南加州大学信息科学研究所3以色列开放大学，以色列摘要众所周知，面部的3D形状是有区别的。然而，尽管如此，它们很少用于面部识别，并且总是在受控的观看条件下。我们声称这是一个严重的症状，但往往被忽视的问题与现有的方法为单视图三维人脸重建：当“在野外”应用时，它们的3D估计要么是不稳定的，并且对于同一主题的不同照片而变化，要么它们是过度规则化的和通用的。作为回应，我们描述了一个强大的方法回归判别三维变形人脸模型（3DMM）。我们使用卷积神经网络（CNN）直接从输入照片中回归3DMM形状和纹理参数。我们克服了训练数据的不足，为此目的提供了一种方法，用于生成大量的标记的例子。我们的CNN产生的3D估计超过了MICC数据集的最新准确性。再加上3D-3D人脸匹配管道，我们使用3D人脸形状作为表示，而不是其他现代系统使用的不透明的深层特征向量，在LFW，YTF和IJB-A基准1. 介绍单视图3D人脸形状估计方法最初提出使用其3D形状进行识别[4，7，28]。这是有道理的，因为3D形状是有区别的事实上，以前的工作表明，当可用时，高分辨率3D面部扫描是优秀的面部表示，甚至可以用于区分同卵双胞胎的面部[9]。然而，奇怪的是，尽管它们被广泛使用，单视图人脸重建方法很少被现代人脸识别系统采用。例如，非常成功的3D可变形模型（3DMM）仅用于有限的受控观看条件下的识别[4，7，11，17，28]。据我们所知，图1：无约束、单视图、3D面部形状重建。(a)输入图像的同一主题与discrete-tive姿态和闭塞。（b-e）使用3D重建(b)单视图3DMM [33]，（c）基于流的方法[13](d)3DDFA [47]，（e）我们提出的方法。(b-c)为相同的对象呈现不同的3D形状，并且（d）看起来是通用的，而我们的方法（e）是鲁棒的，为不同的视图产生相似的有区别的3D形状。报告成功地使用单视图人脸形状估计这可能是如此的一个重要原因是这些方法在不受约束的观看条件下可能是不稳定的。我们稍后会定量地验证这一点，但它也可以参见图1，其中提出了3D形状估计从三个无约束的照片通过三种不同的方法（图。1（b-d））。很明显，虽然同一个主题出现在所有的照片中，但由同一种方法产生的形状要么非常不同（b，c），要么高度规则化和通用（d）。因此，毫不奇怪，这些形状是识别的差代表。这也解释了为什么最近有人提出在将面部渲染到新视图时仅使用粗糙、简单的3D形状近似作为代理，而不是作为面部表示[13，15，25，26，39]。与以前的工作相反，我们表明，鲁棒性和非-51635164事实上，犯罪的3D人脸形状可以从单个无约束的图像中估计出来（图1）。第1段（e）分段）。我们提出使用非常深的卷积神经网络（CNN）来直接从单个面部照片回归3DMM形状和纹理参数来估计3D面部形状。我们将标记训练数据的短缺确定为使用数据饥渴CNN的障碍。我们用一种新的方法来解决这个问题，该方法用于生成一个巨大的无约束人脸及其3DMM表示的标记训练集。再加上额外的技术创新，我们得到了一个方法，这是快速，稳健和准确。我们估计的形状的准确性在MICC数据集[1]上得到了验证，并且定量显示超过了其他3D重建方法的准确性。我们进一步表明，我们估计的形状是鲁棒的和有区别的，通过在野外标记的面部（ LFW ） [18]，YouTube面部（YTF）[42]和IJB-A [23]基准上呈现面部识别结果。据我们所知，这是第一次单图像3D人脸形状被成功地用于表示从现代，无约束的人脸识别基准的脸。最后，为了促进我们的结果的复制，我们公开发布我们的代码和模型。1.一、2. 相关工作多年来，人们进行了许多尝试来估计出现在单个视图中的面部的3D表面。在列出它们之前，重要的是提及使用图像集进行重建的最近的多图像方法（例如，[24、30、34、35、38]）。虽然这些方法产生精确的3D重建，他们需要从多个来源的许多图像，以产生一个单一的3D人脸形状，而我们重建的脸从单一的图像。用于单视图3D面部重建的方法可以大致分为以下类型。统计形状表示，例如广泛流行的3DMM [5，6，11，28，32，40，45]，使用许多对齐的3D面部形状来学习3D面部的分布，表示为高维子空间。这个子空间上的每个点都是一个参数向量，代表面部几何形状，有时也代表表情和纹理。通过在该子空间上搜索表示与输入图像中的人脸相似的人脸的点来这些方法并不试图产生有区别的面部几何特征，并且确实，如前所述，仅用于受控设置下的面部识别。[31]的最新方法也使用 CNN 来回归面部照片的3DMM参数。他们也认为缺乏训练数据是一个主要问题。与我们相反，他们建议通过从3DMM分布中采样来合成具有已知几何形状的1请访问www.openu.ac.il/home/hassner/projects/CNN3DMM获取更新。这种方法产生合成的照片，在训练大型网络时很容易导致过拟合问题[26]。因此，他们只能训练一个浅的残差网络（与我们的101层相比，有7层），并且它们的估计形状并没有比其他方法更鲁棒或更具鉴别力。场景假设方法。为了获得正确的重建，一些人对输入图像中的场景和观看条件做出强假设。例如，从阴影中恢复形状的方法[21]对光源、面部反射率等进行了假设。其他人则使用面部对称性[12]。他们和其他人所做的假设在实践中往往不成立，限制了这些方法在受控环境中的应用。基于示例的方法，从[14]和最近的[13，39]的工作开始，修改例如脸部形状的3D表面，将它们拟合到输入照片中出现的脸部。这些方法有利于鲁棒性的详细重建的观察条件。因此，它们仅用于面部识别，以从看不见的姿势合成新的视图。地标拟合方法。最后，一些重建技术将3D表面拟合到检测到的面部标志，而不是直接拟合到面部强度。这些包括为视频设计的方法（例如，[19，36]）和[20，47]的基于CNN的方法。这些更侧重于地标检测比3D形状估计，因此不试图产生详细的和有区别的面部几何形状。3. 使用CNN回归3DMM参数我们建议使用非常深的CNN从输入照片直接回归3DMM人脸形状参数从表面上看，CNN是这项任务的理想选择：毕竟，它们正在成功地应用于许多相关的计算机视觉任务。但是，尽管他们取得了成功，除了[31]，我们不知道使用CNN进行3DMM参数回归的已发表报告。我们认为这里没有使用CNN，因为这是一个回归问题，其中输入照片和输出3DMM形状参数都是高维的解决这些问题需要深度网络，而这些网络需要大量的训练数据。不幸的是，现有的具有地面真实3D形状的无约束人脸集对于该目的来说太小，并且获得大量的3D人脸扫描是劳动密集型的并且不切实际。因此，我们利用三个关键的观察结果。1. 如第2、可以通过使用同一人脸的多幅图像来2. 与地面真实3D人脸形状的有限可用性不同，每个主题包含多张照片的具有挑战性的人脸集肯定不会短缺。5165^ΣN′′^ ^您的位置：^3. 高效的深度网络可用于提取用于面部识别的鲁棒和有区别的面部表示的相关任务。从（1）中，我们有一种合理的方法来生成用于训练的3D人脸形状估计，作为地面真实形状的替代品：通过使用用于多视图3DMM估计的鲁棒方法。获得足够多的主题的多张照片是非常容易的（2）。这种丰富的示例进一步允许平衡任何重建误差与潜在的无限制受试者进行训练。最后，（3），用于面部识别的现有技术CNN可以针对这个问题进行微调。它应该已经针对不受约束的面部外观变化进行了调整，并经过训练，为同一张脸的不同图像产生相似的、有区别的输出。3.1. 生成训练数据为了生成训练数据，我们使用一种简单而有效的多图像3DMM估计方法，该方法松散地基于[30]最近提出的方法。我们在CASIA WebFace数据集[46]中的未处理的面部上运行它。这些多图像3DMM估计然后在训练我们的CNN 3DMM回归器时用作地面多幅图像3DMM重建是通过首先从500k幅单图像中估计3DMM参数来执行的。然后，将同一受试者的图像的3DMM估计值汇总为每个受试者的单个3DMM（约10k个受试者）。接下来描述该过程（也参见图1B）。2）的情况。在参考3DMM坐标系中，地标用于获得输入面部的姿态的初始估计。位姿由旋转的六个自由度r =[rα，rβ，rγ]和平移的六个自由度t =[tX，tY，tZ]表示，并且与[13]类似地估计。3DMM拟合然后通过优化形状，纹理，姿势，照明和颜色模型来进行[8]。我们发现CLNF偶尔会出现定位错误。为了引入更多的稳定性，我们的优化还使用了[33]的基于边的成本。有关此优化的更多详细信息，请参阅[8]和[33]。一旦优化收敛，我们将来自最后一次迭代的形状和纹理参数α和β作为我们对输入图像I的单个图像3DMM估计。重要的是，虽然这个过程是众所周知的计算昂贵，它是在我们的管道中应用，只有在预处理并且对每个训练图像执行一次。我们后来证明我们的CNN回归器要快得多。多图像3DMM拟合。尽管过去提出了许多多图像3D人脸形状估计方法，但我们发现以下简单的方法，受到[30]最近工作的启发，特别有效。具体地，我们将形状和纹理3DMM参数γi=[αi，βi]，i∈1. N跨属于同一受试者的所有N个单视图估计。通过N个3DMM向量的元素加权平均来执行池化，从而产生针对以下的单个3DMM估计：这个问题，γ^。也就是说，3DMM代表。我们的系统使用流行的巴塞尔人脸模型（BFM）[28]。它是一个公开可用的3DMM表示和最先进的方法之一，Nγ=wi·γi，i=1i=1，（2）i=1单视图3D面建模的ODS。通过解耦其形状和纹理来建模人脸，给出以下两个独立的生成模型。S=^s+WSα，T=^t+WTβ.（一）这里，向量s和t是平均面部形状和纹理，其在BaselFaces集合中的对齐面部3D扫描上计算，并且由3D点云的级联3D坐标和它们的纹理的级联RGB值表示。矩阵WS和WT是从相同的对准的面部扫描计算的主分量。最后，α和β分别是99维参数向量，分别表示形状和纹理。单图像3DMM拟合。将3DMM拟合到每个训练图像是使用[8]和[33]的两种标准方法的稍微修改版本来执行的。给定图像I，我们估计表示与I中的面部类似的面部的参数向量α和β（等式10）。① ①）。与以前的工作不同，我们通过应用CLNF [22]最先进的面部标志检测器开始处理。它提供K = 68 fa-社会地标pk∈R2，k∈1. K和置信度得分值w（我们稍后会用到）。其中，是由CLNF面部标志检测器提供的归一化的每图像置信度。请注意，与[30]不同，我们不使用基于法线距离的排名列表作为汇集3DMM参数的质量度量，而是采用这些权重的地标检测置信度度量。在该过程之后，每个CASIA受试者与单个合并的3DMM参数向量γ相关联。为了便于标记，因此，当表示池化特征时，我们将去掉帽子，假设所有训练集3DMM参数都是池化的。3.2. 学习回归池式3DMM按照SEC中描述的过程3.1，我们数据集中的每个我们现在使用这些数据来学习一个函数，理想情况下，该函数可以为同一主题的不同照片回归相同的3DMM特征向量。为此，我们使用最先进的CNN，经过人脸识别训练。我们使用非常深的ResNet架构[16]，具有101层，最近由[26]训练用于人脸识别。我们修改其最后一个全连接层以输出198维3DMM特征向量γ。然后网络5166ppMax2pMax2图2：我们的流程概述。（a）使用大量无约束的照片来为每个对象适配单个3DMM。（b）这通过首先将单个图像3DMM形状和纹理参数分别拟合到每个图像来完成然后，将同一受试者的所有3DMM估计值汇总在一起，以获得每例受试者的单个估计值。(c)这些汇总的估计值用于代替昂贵的地面真实人脸扫描，以训练非常深的CNN来直接回归3DMM参数使用合并的3DMM估计值作为目标值对CASIA图像进行微调;使用相同的目标3DMM形状将相同受试者的不同图像我们注意到，我们还尝试使用具有16层的VGG-Face CNN它的结果与ResNet架构获得的结果相似，但略低。不对称欧几里得损失。训练我们的网络需要在定义其损失函数时小心一些。通过构造，3DMM向量属于多变量高斯分布，其均值在原点上，表示平均面部（Sec.第3.1节）。因此，在训练过程中，使用标准欧几里得损失来最小化估计和目标3DMM向量之间的距离将有利于更接近原点的估计：这些将具有比那些更远的更接近它们的目标值的更高的概率。在实践中，我们发现用欧几里德损失训练的网络倾向于输出不太详细的人脸（图1）。（3）第三章。为了对抗这种偏向于平均脸型的倾向，我们引入了非对称欧几里得损失。它旨在通过将低估误差（3DMM目标侧更靠近原点的误差）与高估误差（其中估计比目标更远离定义如下：L（γ，γ）=λ1·||γ+−γ||2+λ2·||γ+−γ||第二条、第三条图3：损失函数的效果：（左）输入图像，(a)通用模型，（b）回归的形状和纹理与规则的α2损失和（c）我们提出的非对称α2损失。鼓励网络生成更详细，更逼真的3D人脸模型（图1）。（3）第三章。网络超参数。当量(3)使用随机梯度下降（SGD）求解，其小批量大小为144，动量设置为0.9，并在由权重衰减为0.0005的RISK2当执行反向传播时，我们更快地学习pool5之后的内积层（fc），将学习率设置为0。01，因为它是从头开始训练的回归问题。其他网络权重以低一个数量级的学习率当验证损失饱和时，我们将学习率降低一个数量级，直到验证损失停止下降。讨论：无渲染3DMM估计器。重要的是要注意，通过选择使用CNN来回归3DMM参数，我们获得了一个无渲染的函数。的在最后一天，X`underr-déréemistimatex即，直接从输入图像回归3DMM参数，而不需要呈现3DMM参数的优化过程。使用元素操作符：γ +。.+。面部并将其与照片进行比较，就像现有的3DMM估计方法一样（包括我们的生成=abs（γ）=sign（γ）·γ;γp =符号（γ）·γp，（4）.γmax= max（ γ+，γ+）。（五）训练数据在SEC。第3.1节）。通过使用CNN，我们我希望不仅能提高准确性，这里，γ 是目标池化3DMM 值，γp是输出，回归3DMM和λ1，2控制过度估计误差和欠估计误差之间的权衡当两者都等于1时，这减少到传统的欧几里得损失。在实践中，我们设置λ1=1，λ2=3，从而改变训练过程的行为，使其更快地逃离欠拟合，更快的3DMM估计速度。3.3. 基于参数的三维识别我们在 SEC 训练的 CNN 。 3.2 表示函数f ：I<$→γp，给出输入图像I的3DMM参数γp。我们稍后使用我们的3DMM估计在面部识别-5167测试基准，以测试它们的鲁棒性和区分性接下来，我们将描述用于该目的的方法，以评估两个面部形状和纹理的相似性，以确定它们是否代表相同的主题。3D-通过单个图像进行3D识别。我们使用由下式回归的3DMM参数进行人脸识别：方法3DRMSE RMSE log10×104Rel×104Sec.通用1.88±.52 3.48 ±.7628 ± 765 ± 16 -3DMM [33] 1.75±.42 3.64±.94 29± 8 68± 18 120基于流量[13] 1.83±.39 3.29±.70 27± 6 62± 14 13.3美国1.57±.333.18±.77 26±6 59±14.088通用+合并液1.88±.52 3.48±.76 28± 7 65± 16我们的网络：利用3DMM参数γp人脸3DMM [33]+池 1.60±.46 3.31±.98 27± 9 62± 20 120描述符。因为不同的基准测试通常表现出具体的外观偏见，我们应用主成分分析（PCA），从测试基准的训练分裂学习，以适应我们的估计参数向量的基准。然后使用这些向量的有符号的元素平方根来进一步提高表示能力[29]。最后，通过计算两张脸的余弦得分来评估它们的相似性s（γp1，γp2）γp1· γT3DDFA [47]+合并液 1.83±.58 3.45±.85 28± 7 65± 17.146[19]1.84±.32 3.73±.62 30± 5 68± 11.372[2]+池1.84±.58 3.45±.85 28± 6 65± 13 52.3US+池1.53±.293.14±.70 25±6 58±13.088表1：MICC数据集上的3D估计精度和每图像速度上面是单视图方法，下面是多帧方法。有关措施的详细情况见正文。真实世界中的3DRMSEmm. 表示用于生成第节中的训练数据的方法。3.1.值越低越好。s（γ1，γ2）=p2||·||γp2||γp2|| .（六）3D-多图像3D识别。在某些场景中，主题由一组图像表示，而不仅仅是一个。这是YTF基准[42]中的情况，其中使用视频，每个视频包含多个帧，并且在最近的IJB-A [23]中使用包含异构视觉数据（图像，视频和可能更多）的模板我们使用相同的管道为单个图像也为图像集。然而，在这里，不同图像或帧的3DMM参数首先使用等式（1）进行池化。（二）、不像SEC中应用的过程。3.1，这里的所有图像都具有相同的权重，因为我们在使用CNN进行3DMM拟合之前没有运行地标检测（见下文）。当将模板与视频和图像一起使用时，遵循[26]，我们首先单独汇集每个视频中的帧的3DMM估计，每个视频获得一个3DMM。然后，我们将这些3DMM与同一模板中的其他图像进行池化。面部对齐。已知面部标志检测和面部对准可提高识别准确度（例如，[43，15]）。事实上，[17]最近的相关工作是在使用其3DMM拟合方法在受控图像上进行识别然而，我们除了使用他们数据集中提供的边界框外，没有对齐面部我们发现我们的方法对不对齐是鲁棒的，因此节省了所需的运行时间。4. 实验结果我们测试我们提出的方法，比较其估计的3D形状的准确性，其速度和它的能力，以表示人脸识别与现有的方法。重要的是，我们不知道以前任何关于单视图3D人脸形状估计的工作，这些工作报告了与我们一样多的定量测试，包括使用的基准数量，与这些测试中使用的照片相比的基线方法数量和难度水平图4：表面误差的定性比较，可视化为热图，具有MICC面部视频上的真实世界mm误差从左到右，从上到下：来自输入的帧; 3D地面实况;通用人脸;基于流的方法的估计[13]，Huber等人。[19]，3DDFA [47]，Baset al.[2]、3DMM+池[33]、us+池。具体来说，我们使用视频和照片及其相应的扫描，MICC Flo- rence Faces数据集的地面真实3D形状来评估我们估计的3D形状的准确性[1]（第二节）。4.1）。为了测试我们的形状在从未控制的图像中估计时的辨别力和鲁棒性，我们使用LFW [18]，YTF [42]和新的IARPA JANUS Benchmark-A（IJB-A）[23]执行单图像和多图像人脸识别4.3）。Fi-最后，我们还提供了定性的结果，在第二节。4.4作为基线3D重建方法，我们使用标准3DMM拟合[33]，由我们实现，[13]的基于流的方法，[2]的基于边缘的方法，[19]的多4.1. 三维形状重建精度MICC数据集[1]包含53个受试者的具有挑战性的面部视频。这些视频涵盖了从受控到具有挑战性的不受约束的户外环境。对于这些视频中的每个对象，数据集还包含使用结构光扫描系统以高精度获取的地面实况3D模型。这可以比较我们的3D5168X−X/NvQ- -DQIQ.（D）/N1010使用地面真实形状进行脸部形状估计。这些视频用于单图像和多帧3D重建，将我们的方法与现有的替代方法进行比较。在这些测试中，使用Eq.（1），以鼻尖周围95mm的半径裁剪，并使用标准的刚性迭代最近点（ICP）与地面实况全局对齐方法[3，10]，分别得到X，X∈R3他们还被投射到正面视图，获得深度图DQ和DQ。然后用标准误差测量计算估计准确度[13，37]：• 3D均方根误差（3DRMSE）：∗2我• 均方根误差（RMSE）：∗2iQip日志10：|log（DQ）−log（D）|• 相对误差（Rel）：|DQ−D|/|D*|4.2. 3DMM回归速度选项卡. 1（最右列）还报告了各种方法预测3D脸部形状所需的平均每个图像运行时间（以秒为单位）。我们将我们的方法与迭代方法进行了比较，例如经典的3DMM实现[2，19，33]，[13]的基于流的方法以及最近的基于CNN的方法[47]。如前所述，我们的方法是免渲染的，没有优化循环来渲染估计的参数并将其与输入照片进行比较。不出所料，在0.088秒（111Hz），我们的CNN比大多数方法预测3DMM参数快几个数量级。我们测试过的ODS第二快的方法，差距很大，是[47]的3DDFA，预测需要0.146s（107Hz）在两个不同的系统上测量了温度。我们的所有基线都需要MS-Windows运行，并在Intel Core i7- 4820 K CPU@3.7GHz，16 GBRAM和NVIDIA GeForce GTX 770上进行了测试。我们的方法需要Linux，因此在Intel Xeon CPU@3.60GHz上进行了测试配备12 GB RAM和GeForce GTX 590。重要的是，Q Q用于测量运行时间的系统是这里，Nv是3D顶点的数量，Np是3D顶点的数量。在这些表示中的像素。在最正面的帧上进行单视图估计。对整个视频进行多帧重建。我们的多帧结果是通过合并来自不同帧的3DMM估计值产生的，使用等式(2)所有帧使用相同的权重。对于所有3DMM拟合基线[2，19，33，47]，我们发现估计形状，纹理和表达参数，但仅使用形状和纹理进行比较，得到了最佳结果。因此，我们在所有测试中都使用了这种方法。结果报告于表中。1.错误率是所有视频的平均值，并提供±标准差。我们的方法显然是最准确的。值得注意的是，它的单视图和多帧版本都优于用于产生训练集目标3DMM la的方法。贝尔（3DMM+池）。这可能是由于我们使用如此大的数据集来训练CNN以及它们对训练标签错误和噪声的已知鲁棒性[44]。我们的估计比最新的最先进的技术更准确。这包括3DDFA [47]，它通过使用CNN来拟合3DMM参数以处理大的姿态变化以及[19]和[2]。为了更好地理解这些数字，请注意，我们对标准3DMM拟合的改进与使用未修改的通用巴塞尔面部形状的改进相当[28]。图4提供了针对MICC数据集中的受试者的不同方法的表面误差（mm）与地面实况相比，我们的方法在视觉上产生更小的特别是鼻子和嘴周围的区域具有非常低的误差，而其他方法在这些区域中更敏感（例如3DDFA [47]）。两个.因此，我们的运行时可能会被夸大。4.3. 野外人脸识别接下来，我们考虑我们的3DMM估计的鲁棒性我们的目标是看看我们对同一个人的不同无约束照片的3DMM估计是否比其他主题更相似。一种有效的方法是在人脸识别基准上测试我们的3DMM估计。我们强调，我们的目标不是创造新的人脸识别记录。要做到这一点，就需要与专门为这一问题设计的最先进的系统竞争。我们提供相关（虽然不一定是最先进的）识别系统的性能尽管如此，我们下面的结果是我们所知道的最高的，是用有意义的特征（这里是形状和纹理参数）而不是不透明的表示获得的。我们的测试使用了第12节中描述的管道。3.3并报告用于验证的多个识别度量（在LFW和YTF中）和识别度量（在IJB-A中）。这些指标是验证准确性、100%-EER（等错误率）、曲线下面积（AUC）和在虚警率（TAR）的两个截止点处的召回率（真实接受率）。{10%，1%}）。为了识别，我们报告了CMC（累积匹配特征）中各个等级对于每种测试方法，我们还指出其使用估计的3D形状和/或纹理。最后，粗体值表示最佳评分3D重建方法。Labeled Faces in the Wild（LFW）[18]结果在Tab中提供。2（顶部）和图。5（左）。显然，由3DDFA [47]估计的形状仅稍微更稳健，5169LFW特征脸混合描述符DeepFace-集合ResFace 1013DMM（形状）3DMM（纹理）3DMM（形状+纹理）3DDFA（形状）我们（形状）我们我们（形状+纹理）YTFMBGS LBPDeepFace−合奏3DMM（形状）3DMM（纹理）3DMM（形状+纹理）3DDFA我们（形状）我们（纹理）我们（形状+纹理）ResFace1013DMM（形状）3DMM（纹理）3DMM（形状+纹理）3DDFA我们（形状）我们（纹理）我们（形状+纹理）识别率方法3D纹理准确度100%-EER AUC TAR-10% TAR-1%野外标签面孔EigenFaces [41]––256.2[43]第四十三话––66.6042.4[39]第三十九话––99.693.7[26]第二十六话–98.06±0.6098.00±0.73–99.594.2✓✕66.13±2.7965.70±2.8172.24±2.7535.90±3.7412.37±4.813DMM [33]✕✓74.93±1.1474.50±1.2182.94±1.1460.40±3.1528.73±7.17✓✓75.25±2.1274.73±2.5683.21±1.9359.4±4.6429.67±4.733DDFA [47]✓✕66.98±2.5667.13±1.9073.30±2.4936.76±6.2710.00±3.22✓✕90.53±1.3490.63±1.6196.6±0.7991.13±2.6258.20±12.14美国✕✓90.6±1.0790.70±1.1796.75±0.5991.23±2.4252.60±8.14✓✓92.35±1.2992.33±1.3397.71±0.6494.2±2.0065.57±6.93YouTubeFaces[42]第四十二话–76.4±1.874.782.660.535.8[39]第三十九话–91.4±1.191.496.39254✓✕73.26±2.5173.08±2.6580.41±2.6051.36±5.1124.04±4.56[33]第三十三话✕✓77.34±2.5476.96±2.6485.32±2.6363.16±5.0731.36±5.21✓✓79.56±2.0879.20±2.0787.35±1.9269.08±5.0034.56±6.893DDFA [47]+合并液✓✕68.10±2.9367.96±3.1274.95±3.0440.52±3.6512.2±2.67✓✕88.28±1.8488.32±2.1695.95±1.3886.60±3.9551.12±8.86US+游泳池✕✓87.56±2.5687.68±2.2594.44±1.3884.80±4.8940.92±8.26✓✓88.80±2.2188.84±2.4095.37±1.4387.92±4.1846.56±6.20表2：LFW和YTF面部验证。将我们的3DMM回归与其他方法进行比较，包括基线人脸识别方法。表示用于为CNN训练产生3DMM目标值的相同方法（第第3.1节）。1 1 1IJB−A验证100IJB−A标识0.80.80.8800.60.60.6600.40.200.40.200.4400.2200图5：人脸验证和识别结果。从左至右：LFW、YTF和IJB-A的验证ROC曲线以及IJB-A的识别CMC。比经典的特征脸[41]。使用[33]拟合3DMM做得更好，但落后于[43]的混合方法，这是LFW的首批结果之一，现在已有近十年的历史。这两个结果表明，这些方法估计的形状是不稳定的，在无约束的设置和/或过于通用。相比之下，我们估计的3DMM参数的识别性能与Facebook最近报道的那些相差不远，使用他们的多CNN方法在400万张图像上训练[39]。YouTube Faces（YTF）[42] YTF视频的准确性在Tab中报告。2（底部）和图。5（左中）。虽然该集合中的视频帧通常质量和分辨率较低，因此我们的方法执行得很好。它的表现优于Facebook CNN集成系统[39]，该系统明确设计用于人脸识别，AUC差距仅为1.1%。通过其他方法估计的3DMM形状和纹理，形式更糟，[33]只比MBGS人脸识别系统[42]做得稍微好一点，这是该基准测试中最古老的结果[47]远远落后。IARPA Janus基准A.（IJB-A）[23]最近发布的IJB-A旨在提供与其他人脸识别基准相比更高的挑战。在部分-ResFace1013DMM（形状）3DMM（纹理）3DMM（形状+纹理）3DDFA我们（形状）我们（纹理）我们（形状+纹理）真实接受率真实接受率真实接受率00.5100.5100.51024 6810错误接受率错误接受率错误接受率秩5170方法3DText.TAR-10%TAR-1% Rank-1 Rank-5 Rank-10 ResFace 101✓产品特点60.7±2.0 30.6±3.2 34.3±2.2 55.1±2.165.1±2.03DMM数字万用表+p.特征71.1± 1.8 39.5± 4.8 49.8± 2.5 69.5± 1.4 76.8±1.02019 - 05 -2510：00：003DDFA+ p.p.肠功能43.3± 2.5 12.5± 1.9 16.7± 1.9 38.3± 2.7 51.3±3.0✓产品特点86.0±1.7 55.9±5.5 72.3±1.4 88.0±1.491.8±1.1US+游泳池功能83.5±2.2 50.3± 5.8 70.9± 1.5 87.3± 1.1 91.5± 1.0✓✓87.0±1.5 60.0±5.6 76.2±1.8 89.7±1.092.9±1.0表3：IJB-A人脸验证和识别。将我们的3DMM回归与其他方法进行比较，包括基线人脸识别方法。表示用于为CNN训练生成3DMM目标值的相同方法。通常，它以接近轮廓的姿势呈现面部，在以前的面部集中几乎不存在。它还包含非常低分辨率的面孔，并且经常受到噪音的强烈影响我们评估了面部验证（1：1）和识别（1：N）方案，并在表中报告结果3和图5（中右，右）。在这里，性能也采用了与前两个基准测试相同的模式，3DDFA [47]估计的3D形状比其他方法表现得差得多。我们自己的方法表现得很好，尽管它被[26]的最近的人脸识别系统大大优于，该系统是为这个集合设计的4.4. 定性结果我们在图中提供了野外人脸的定性3D重建图6示出了渲染的3D形状和（当可用时）其估计的纹理。这些结果表明，我们的方法产生更多的视觉上合理的3D和纹理估计相比，由其他方法产生的。图6还示出了一些失败的情况，这里是由于原始3DMM表示中缺少面部毛发以及产生薄的、不现实的3D形状的极端平面外旋转欲了解更多结果，请参阅我们的项目网页。25. 结论我们发现，现有的方法估计三维人脸形状可能是敏感的变化观看条件，特别是在无约束的设置，或过于通用。因此，它们的估计形状不能很好地捕捉身份，尽管已知真实的3D面部形状具有高度区分性。相反，我们建议使用非常深的CNN架构直接从输入图像回归3DMM参数。我们提供了一个解决方案，以获得足够的标记数据来训练这个网络的问题我们表明我们的回归3D形状比其他方法更准确。我们进一步进行了大量的面部识别测试2 www.openu.ac.il/home/hassner/projects/CNN3DMM.网站上的链接。图6：定性结果。上图：相同主题的成对照片的重建，证明了我们方法的区分性和鲁棒性。中间：通过3DMM [33]，3DDFA [47]和我们的方法对来自LFW的静态图像和来自YTF的单帧获得的结果。Bot- tom：两个失败的例子。示出这些形状对于无约束的观看条件是鲁棒的此外，我们的结果是我们所知道的最高识别结果，使用可解释的表示而不是不透明的特征获得。致谢这项研究是基于部分由国家情报总监办公室（ODNI），情报高级研究项目活动（IARPA）通过IARPA 2014-14071600011支持的工作。本文所含的观点和结论是作者的观点和结论，不应被解释为必然代表ODNI、IARPA或美国的官方政策或认可（无论是明示还是暗示）。政府的美国政府被授权复制和分发重印为政府的目的，尽管有任何版权注释。5171引用[1] A. Bagdanov，A.D. 宾博，和我。马西Florence 2D/3D混合人脸数据集。ACM Multimedia Conf.讲习班，2011年。可通过以下网址获得：www.micc.unifi.it/masi/research/ffd。[2] A.巴斯，W. A.史密斯，T。Bolkart和S.乌勒将3D可变形模型拟合到边：硬对应和软对应的比较。arxiv预印本，abs/1602.01125，2016年。[3] Besl和N.麦凯一种三维形状配准方法。Trans.模式分析马赫内特尔，14（2）：239-256，1992.[4] V. Blanz，S. Romdhani和T.维特利用3d可变形模型进行不同姿态和光照下的在Int. Conf. on Automatic Face andGesture Recognition，第192-197页[5] V. Blanz，K. Scherbaum，T. Vetter和H. 赛德尔在图像中交换面孔。Comput. Graphics Forum，23（3），2004.[6] 诉Blanz和T.维特用于合成3D面的可变形模型ACMSIGGRAPH Conf. Comput. 图表学，1999年。[7] V. Blanz和T.维特基于拟合的人脸识别 3D变形模型。Trans.模式分析马赫内特尔，25（9）：1063[8] V. Blanz和T.维特基于拟合的人脸识别 3D变形模型。Trans.模式分析马赫内特尔，25（9）：1063[9] A. M.布朗斯坦M. M. Bronstein和R.基梅尔三维人脸识别。国际计算机Vision，64（1）：5 -30，2005.[10] Y. Chen和G.梅迪奥尼通过多幅距离图像配准的目标建模。图像和视觉计算，10（3）：145[11] B. Chu，S. Romdhani和L.尘3D辅助人脸识别对表情和姿势变化具有鲁棒性。在proc 确认补偿视觉模式识别，2014年。[12] R. Dovgard和R.巴斯里统计对称形状从阴影的三维结构恢复的脸。欧洲会议中Comput. Vision，第99-113页，2004年。[13] T.哈斯纳在3D中查看真实世界的面孔。在Proc. Int.Conf. Comput. Vision，第3607-3614页。IEEE，2013。可用网址：www.openu.ac.il/home/hassner/projects/poses。[14] T. Hassner和R.巴斯里从单个2D图像进行基于示例的3D重建。在Proc. Conf. Comput.视觉模式识别研讨会。IEEE，2006年。[15] T. Hassner，S. Harel、E. Paz和R.恩巴无约束图像中的有效人脸正面化。在程序会议中计算机。视觉模式识别，2015年。[16] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在proc Conf. Comput. 视觉模式识别，2016年6月。[17] G. Hu，F.扬角，澳-地H. Chan，W.邓，W。圣诞节，J。Kittler和N. M.罗伯森使用统一的3D变形模型进行人脸识别。在欧洲会议中Comput. Vision，第73-89页。施普林格，2016年。[18] G. B. Huang，M. Ramesh，T. Berg和E.学习米勒。标签的

下载后可阅读完整内容，剩余1页未读，立即下载