基于光场图像的三维人脸重建：一无模型方法

42 浏览量更新于2023-10-13 收藏 1.62MB PDF 举报

三维人脸重建

CNN模型

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

基于光场图像的三维人脸重建：一种无模型方法Mingtao Feng1，Syed Zulqarnain Gilani2，Yaonan Wang1，Ajmal Mian21湖南大学电气与信息工程学院，湖南{mintfeng，yaonan}@ hnu.edu.cn2计算机科学与软件工程，西澳大学，6009，澳大利亚{zulqarnain.gilani，ajmal.mian}@ uwa.edu.au抽象。从单个RGB图像重建3D面部几何形状最近引起了广泛的研究兴趣。然而，它仍然是一个不适定的问题，大多数方法依赖于先验模型，因此破坏了恢复的3D人脸的准确性。在本文中，我们利用从光场相机获得的对极平面图像（EPI），并学习CNN模型，该模型从相应的水平和垂直EPI恢复水平和垂直3D面部曲线。我们的3D人脸重建网络（FaceLFnet）包括一个密集连接的架构，可以从低分辨率的EPI中学习精确的3D面部曲线为了从头开始训练所提出的FaceLFnets，我们从3D面部扫描合成照片般逼真的光场图像。逐曲线3D人脸估计方法允许网络仅从80个身份的14 K图像中学习，其中仍然包括超过1100万个EPI/曲线。估计的面部曲线被合并到一个单一的点云，表面拟合得到最终的3D脸。我们的方法是无模型的，只需要少量的训练样本来学习FaceLFnet，并且可以在不同的姿势，表情和光照条件下从单个光场图像中以高精度重建3D人脸。BU- 3DFE和BU-4DFE数据集的比较表明，我们的方法减少了超过20%的重建误差相比，最近的国家的最新技术。1介绍三维人脸分析有可能解决混淆其二维对应物的挑战，例如照明、姿势和比例的变化[4]。这种模式在诸如面部识别[14，36，39，65]、综合征诊断[17，16，47，55]、性别分类[15]和面部动画[9，49]等应用上实现了最先进的性能因此，从RGB图像重建3D面部几何形状是研究界的一个重要兴趣然而，使用单个RGB图像来恢复3D人脸是一个不适定问题[31]，因为在投影过程中丢失了深度信息。事实上，许多不同的3D形状可以导致类似的2D投影。比例尺和浅浮雕的模糊性[6]是常见的例子。2M Feng，SZ Gilani，Y Wang，AMian大多数现有方法都采用了先验模型，如基础人脸模型（BFM）[43]和注释人脸模型（AFM）[12]，以生成具有地面真实的合成数据来训练CNN [11，40]模型并在测试时恢复模型参数。然而，基于模型的方法是固有的偏见和约束的空间的训练数据的先验模型。Fig. 1. 提出了从单个光场图像进行3D人脸重建的流水线。使用合成光场人脸图像，我们训练两个FaceLFnet用于在它们各自的水平和垂直EPI上回归3D面部曲线。使用相机参数将估计的深度图组合成单个点云，表面拟合到该点云以获得最终的3D面部。4D光场图像捕获每个像素处的RGB颜色强度以及入射光线的方向高分辨率全光相机[2，3]现在是商业上可用的。全光相机使用微透镜阵列来捕获以等间隔的矩形网格布置的许多子孔径图像。与使用主动光投影并因此限于室内使用的大多数3D扫描仪不同，全光相机是被动的，并且也可以在单次摄影曝光中在室外立即获取光场图像子孔径光场图像已经被利用来改善许多应用的性能，诸如显著性检测[32]、高光谱光场成像[57]、材料分类[53]、图像分割[62]和图像恢复[50，56]，并且特别是深度估计[26，48，34，52，46]。本文主要研究在各种姿态、表情和光照变化条件下，由光场图像重建三维人脸。注意，与立体不同，子孔径光场图像由同一相机通过单击来捕获。已经提出了各种方法来解决从单个RGB图像重建3D面部几何形状的不适定问题[31，40，11，51，44，29]。这些方法都使用一种或多种常用技术。例如，从阴影恢复形状（SfS）使用阴影变化来重建3D面部，但需要注意的是，该方法对照明和RGB图像纹理敏感，并且即使在接近理想的条件下，也会遭受浅浮雕模糊性[6]。3D可变形模型（3DMM）[11，40]将3D面部投影到低维子空间中。然而，这些模型局限于其训练数据的线性空间，并且不能很好地推广到所有的面部形状[13]。地标从光场图像的3D面部重建：无模型方法3基于的方法使用面部关键点来引导重建过程，但严重依赖于界标的准确定位。我们提出了一种无模型的方法（见图1）。1）使用卷积神经网络（CNN）直接从光场图像重建3D面部我们的技术不依赖于模型拟合或地标检测。训练CNN需要大量照片般逼真的标记数据。然而，没有公开可用的具有对应的地面真实3D面部模型的4D光场面部数据集。我们解决了这个问题，并提出了一种生成训练数据的方法。我们使用BU-3DFE [58]和BU-4DFE数据集[60]从其地面真实3D模型生成光场图像。图2示出了一些示例。我们随机改变光线强度和姿势，使我们的数据集更逼真。我们的数据集包括大约19K具有真实深度图3的照片逼真的光场图像。此外，我们表明，我们的方法需要更少的训练样本（面部身份），因为它利用重建三维面部曲线，而不是完整的脸一次。我们相信，我们的4D光场图像与相应的3D面部扫描的合成数据集可以应用于许多其他面部分析问题，如姿态估计，识别和对齐。配备了丰富的光场图像数据集，我们提出了一个密集连接的CNN架构（FaceLFnet），从对极平面图像（EPI）学习3D面部曲线。我们分别使用水平和垂直EPI训练两个网络，以提高深度估计的准确性。densenet架构是优选的，因为它可以准确地学习低分辨率EPI4中的细微斜率。FaceLFnets使用我们的合成光场人脸图像进行训练，其中地面真实深度数据可用。一旦从水平和垂直FaceLFnets独立获得面部曲线估计，我们将它们合并到一个基于相机参数的点云，然后使用表面拟合方法来恢复最终的3D人脸。我们工作的核心思想是无模型方法，其中解决方案不限于任何统计人脸空间。这可以通过利用对极平面图像中存在的形状信息来实现我们的贡献是：（1）用于从单个光场图像进行3D人脸重建的无模型方法。我们的方法不需要人脸对齐或地标检测，是强大的面部表情，姿态和照明变化。作为无模型，我们的方法还估计面部的外围区域，如头发和颈部。（2）不需要大量面部身份的训练技术利用EPI，我们证明了所提出的FaceLFnet可以只从少数几个身份（80）中学习，并且仍然优于最先进的方法26%。(3)一种用于生成光场面部图像数据集的数据合成技术，据我们所知，这是第一次。该数据集也将有助于解决其他人脸分析问题3我们使用深度图来表示视差图，因为它们与光场相机参数相关[22]。4EPI中较高的线斜率对应于较低的深度值。4M Feng，SZ Gilani，Y Wang，AMian2相关工作基于单幅图像的三维人脸重建技术近年来引起了人们的广泛关注。阴影恢复形状（SfS）一直是这项任务的流行方法[61，37，18]。例如，WenYi et al.[61]提出了一种对称SfS方法来获得光照归一化图像，并开发了一个人脸识别系统。Roy等人[37]提出了一种改进的SfS方法，结合RGB图像和粗糙深度图像来增强深度图，以创建更多的细节。Yudeog等人[18]使用全局和局部光模型估计的照明变化SfS的方法，然后应用与估计的照明模型，准确的形状重建。使用SfS的重建需要反射特性和照明条件的先验，并且遭受浅浮雕模糊性[6]。Blanz和Vetter [7]引入了3D可变形模型（3DMM），其将3D面部表示为通过PCA在100个男性和100个女性身份上获得的正交基向量的线性组合。James等[8]扩展了这一概念，并提出了一种与纹理模型相结合的统计模型，用于在野外人脸图像上拟合3DMM。3DMM也已在[38，5，42，30]中用于面部重建。这种方法的主要限制是3DMM不能对每个可能的面部进行建模。此外，它无法提取面部细节，如皱纹和褶皱，因为这些细节没有在线性子空间中编码。最近，进行了各种尝试以将3DMM与CNN集成以用于从单个图像进行面部几何Elad等人[40]采用用合成数据训练的迭代预测的几何形状，然后细化的实时形状从阴影的方法。Matan等人[41]扩展了工作[40]并引入了一个端到端的CNN框架，该框架使用CoarseNet恢复粗略的面部形状，然后使用FineNet来细化面部细节。这两个网络部分由一个新的层连接，该层从3D网格渲染深度图像。窦鹏飞等[11]提出了一种从单个RGB图像进行端到端3D人脸重建的方法。他们训练了具有多任务学习损失的融合CNN，以将3D面部重建简化为中性和表达性的3D面部参数估计。Jourabloo等人[29]提出了一种用于人脸对齐的3DMM拟合方法，该方法使用级联CNN来回归相机矩阵和3DMM参数。Tuan Tran等人[51]使用多图像3DMM估计作为地面实况，然后训练CNN从输入图像回归3DMM形状和纹理参数。Kemelmacher el at. [31]使用输入图像作为指导，以建立一个单一的参考模型，以对齐的人脸图像，然后细化的参考模型使用SfS方法。Tal等人。[19]使用3D中性面部作为参考模型来近似RGB图像以进行面部正面化。Matan等人[44]提出了一种转换网络，该转换网络从单个RGB图像中学习两个图（深度图像和对应图），用于与模板面部的非刚性配准。然后执行微调以重建面部细节。与基于SfS和模型拟合的人脸重建方法相比，我们从光场图像的EPI学习3D人脸曲线。我们的方法不需要人脸对齐，密集的对应或模型拟合步骤，是强大的面部姿势，表情和照明。据我们所知，现有的方法都不是无模型的，并在重建过程的某个阶段使用先前的人脸模型另一方面，我们的从光场图像的3D面部重建：无模型方法5方法完全无模型。类似地，我们不知道使用光场图像进行3D面部重建的任何现有技术。然而，文献指出了使用深度学习从光场图像进行形状重建的一些研究。Heber等[20]提出了一种用于从光场图像重建形状的方法，该方法应用CNN用于从EPI补丁进行像素级深度估计。虽然这种方法产生准确的场景深度，它使用一个精心设计的数据集包含剧烈的斜率变化的EPI。该方法不适合于非刚性面部几何重建，因为面部通常是平滑的并且其EPI仅包含细微的斜率变化。Heber等[21]提出了一种U形网络体系结构，该体系结构自动从EPI学习以重建其对应的视差图像。然而，训练网络需要所有光场子视图的视差图作为标签，这对于真实数据集是不现实的。我们的方法在三个方面有所不同。首先，我们使用一个完整的EPI作为输入，其相应的深度值作为标签，以克服在EPI中存在细微斜率变化的情况下深度估计不准确其次，我们分别使用水平EPI和垂直EPI来训练网络，以获得更准确的组合3D点云。最后，我们的方法不需要所有光场子视图的视差图。3面部光场图像数据集生成基于CNN的3D人脸重建成功的关键在于大规模训练数据集的可用性。然而，不存在提供RGB面部图像及其对应的高质量3D模型的可用的大规模数据集。类似地，训练光场面部重建网络需要具有对应的地面真实3D面部扫描的在过去的几年里，计算机视觉社区已经做出了相当大的努力来收集用于不同应用的光场图像[22，53，33，35，1]Lytro IllumTM相机捕获的唯一公共光场人脸数据集[45]由100个身份组成，每个人20个然而，该数据集的深度图是使用Lytro DesktopSoftwareTM生成的，并且具有低分辨率以及低深度精度。因此，该数据集不适合用于训练网络。在没有大规模的4D光场人脸数据集的情况下，我们建议使用地面真实3D模型生成光场人脸图像的数据集。为此，我们使用公共BU-3DFE [58]和BU-4DFE[60]数据库来生成光场人脸图像。前者用于训练和测试，而后者仅用于测试。BU-3DFE数据集包括来自100个身份的2，500个3D扫描（56%女性，44%男性），年龄范围从18岁到70岁，多个种族。每个受试者在一个中性和6个非自然表情中被扫描，每个表情具有四个强度水平。BU-4DFE数据集包含六种不同面部表情的101个身份（58个女性和43个男性）的3D视频序列我们选择每个表达序列的最具代表性的因此，我们的数据集包含606个3D扫描。这些模型包含形状细节，例如不仅基准区域的皱纹，而且头发，耳朵和颈部区域的皱纹，这对传统的3D人脸重建方法提出了挑战所有3D模型都有RGB纹理。6M Feng，SZ Gilani，Y Wang，AMian图二. 我们渲染的光场图像的中心视图示例。地面实况3D扫描与中心视图对齐。为了使数据集具有丰富的变化，所生成的光场图像使用随机背景，并且在种族、性别、年龄、姿势和照明方面广泛不同。为了生成逼真的合成光场人脸图像，在渲染过程中适当地控制光场相机参数、背景和照明是至关重要的。我们使用开源Blender5软件和Katrin Honauer等人提出的光场相机工具。[22]为此。我们将一个虚拟的光场摄像机放置在搅拌机与15×15微透镜，并设置其视野，以捕捉3D面部扫描。BU-3DFE和BU-4DFE数据库都提供了近距离的3D面部模型正面姿势我们在Blender中加载3D模型及其纹理，并在俯仰方向应用两个刚性旋转（±15◦），在偏航方向应用四个刚性旋转（±15◦和±30◦）。为了合成真实感的光场图像，我们采用随机选择的室内和室外图像作为背景。我们在场景中的不同位置放置两个灯，并随机改变它们的强度以实现照明变化。合成光场图像的角分辨率为15×15，空间分辨率为400×400。地面实况深度图与光场图像的中心视图对准我们的合成光场图像的示例如图2所示。我们在 Blender 中实现了一个Python 脚本 6，在 3.4 GHz 的机器上， 8GBRAM，自动生成光场面部图像。合成光场图像的过程总的来说，我们使用来自BU-3DFE数据集的80个身份来合成14，000个具有地面真实视差图的光场图像。将来自BU- 3DFE的剩余20个受试者和来自BU-4DFE数据集的所有101个受试者用作测试数据，以生成1，451个光场面部图像用于评估。4该方法所提出的用于从光场图像重建面部几何形状的方法的概述在图1中示出，并且细节如下。5http://www.blender.org6公开光场面部图像合成脚本。从光场图像的3D面部重建：无模型方法7图三. 对应于3D面曲线的EPI。(a)在同一行和列中的中心视图和子孔径图像之间获得水平和垂直EPI。(b)和(c)水平和垂直EPIs中深度曲线与直线斜率之间关系的可视化。图4.第一章 EPI及其相应的3D面曲线的示例。(a)水平EPI。（b）纵向环境绩效指标。4.1训练数据4D光场图像可以被参数化为L（u，v，x，y），其中（x，y）和（u，v）分别表示空间坐标和角坐标[54]。当我们固定v和y时，则L（u，v*，x，y*）定义了一个2D水平EPI。类似地，当我们保持u和x恒定时，2D垂直EPI可以表示为L（u，v，x，y）。如图3所示，2D EPI展示了光场图像的线性特性。的取向可以推断对应的3D空间点[54，28，59，20，21]的视差等式（1）示出了线的斜率与视差值之间的关系，其中f是光场相机参数，并且k是线的斜率Z=−f×k，（1）如图3（b）和（c）所示，EPI对应于来自地面实况的3D面部曲线。EPI中不同的线斜率指示不同的曲线形状。我们使用对应于BU-3DFE的80个身份的14，000个合成光场图像进行训练。我们总共提取了1120万个水平和垂直EPI作为训练样本。图4显示了一些示例EPI及其相应的曲线。使用EPI图像作为训练数据消除了对大量身份的需要。由于每个3D人脸曲线可以独立于其对应的EPI学习，因此我们能够8M Feng，SZ Gilani，Y Wang，AMian图五、我们提出的FaceLFnet用于从EPI学习3D人脸曲线。它包含4个密集块，然后是两个完全连接的层。两个相邻块之间的层被定义为过渡层，并通过卷积和池化来改变特征图大小[23]。从少量的3D面部扫描中生成大量的训练数据。请注意，我们不需要任何进一步的数据增强，例如图像反转或多个作物，因为我们的网络从完整的EPI中学习。4.2FaceLFnet架构在我们的情况下，每个EPI对应于如图3和图4所示的3D面部曲线。目标是使用深度学习从EPI预测完整的3D曲线。CNN可以从各个EPI学习像素的斜率信息，然而，逐像素预测非常具有挑战性。Heber等[20]将每个EPI分成用于3D场景估计的补丁。作者独立地估计了来自每个EPI贴片的深度值，因为它包含与贴片中心的单条线有关的信息。在我们的情况下，逐像素估计是不实际的，因为我们的网络必须学习一个完整EPI中的线之间的相互关系以估计完整的3D曲线。此外，在用于面部的光场图像的情况下，特别是在准平面面部区域中的一些EPI片没有线，并且因此不包含足够的深度信息，导致不准确的深度估计。因此，我们建议使用一个完整的EPI的深度预测，以利用相邻像素的相关性，并减轻由于逐像素预测的深度估计不准确的问题。每个输入EPI的尺寸为15×400×3（水平/垂直子孔径图像×水平/垂直图像像素×RGB通道）。第一维度中的这种低分辨率和前两个维度中的尺寸差异带来了挑战，当通过深度网络时，输入EPI的信息将在一个维度上比另一个维度上快速减少。为了减轻这个问题，高等人的成功启发。[23]，我们提出了一个光场面部网络，用于从EPI估计面部几何形状。我们的网络架构如图5所示。它基于由多个密集块和过渡层组成的DenseNet。我们使用四个密集块，并将softmax分类器更改为回归器。合格后通过第一个密集块，一个16通道卷积层，3×3使用内核大小。对于每个密集块，我们使用三个卷积层并设置增长率为12。我们还使用卷积，然后平均池作为两个相邻的密集块之间的过渡层。四个密集块的特征图尺寸分别为15×400、8×200、4×100和2×50网络配置的细节在表1中给出。水平和垂直FaceLFnet都是使用Caffe深度学习框架从头开始训练的[27]。初始学习率被设置为0.0003，其为0.0003。从光场图像的3D面部重建：无模型方法9在30000次和50000次迭代时，我们的网络只需要一个收敛时期。经过训练的网络的caffe模型将被公开。4.33D人脸重建我们的水平和垂直FaceLFnet的输出是3D面部曲线，它们共同构成3D面部。我们将人脸的所有水平和垂直曲线（在我们的情况下，每个曲线为400）组合起来，分别形成水平和垂直深度图。下一步是从两个深度图重建3D面部。重建面部的一种简单方法是取两个深度图的平均值然而，这种方法导致重建误差，因为每条曲线都是独立学习为了缓解这个问题，我们提出了一种技术，在2D表面上投影的深度图。首先，我们使用相机参数将深度图转换为3D点云。接下来，我们通过仅在x轴上将水平点云向左平移1mm来使其轻微抖动我们使用gridfit算法[10]同时将形式为z（x，y）的单个表面拟合到两个3D点云我们的方法确保了一个光滑的表面是适合的水平和垂直点云考虑到曲线之间的相关性，从而在一个光滑的重建3D脸。5实验结果据我们所知，在文献中没有合适的具有伴随的3D地面实况的因此，我们提出了对我们的方法进行3D面部重建的评估，该方法是根据BU-3DFE [58]的剩余20名受试者和BU-4DFE [60]数据集的所有101名我们将我们的主观结果与最近的最新算法[44]进行了比较，以进行定性评价。我们还提供了与VRN引导[25]和其他最先进方法[44，41，64，31，63，24]的定量比较。层输出大小FaceLFnet卷积15 ×4003×3转换，步幅1致密块115 ×400[3×3卷积，步长1]×3过渡层115 ×4003×3转换，步幅18 ×2002×2平均池，步幅2密集座28 ×200[3×3卷积，步长1]×3过渡层28 ×2003×3转换，步幅14 ×1002×2平均池，步幅2致密块34 ×100[3×3卷积，步长1]×3过渡层34 ×1003×3转换，步幅12 ×502×2平均池，步幅2致密块42 ×50[3×3卷积，步长1]×3回归层4004096全连接400全连接欧几里德损失表1. 我们提出的FaceLFnet架构。注意，密集块中的每个卷积层对应于序列BN-ReLU。四个区块的增长率为k= 12。10M Feng，SZ Gilani，Y Wang，AMian见图6。姿势不变性。每行中的第一列至第四列分别描绘了光场图像的输入中心视图、地面真实3D面部、通过我们提出的方法重建的3D面部以及彼此重叠的最后两个。两个数据集。请注意，VRN-Guided方法在其提出的VRN架构中包含面部标志，而我们遵循无标记策略。5.1定性评价对于定性评价，我们显示了从BU-3DFE [58]和BU-4DFE [60]数据库合成的光场图像的重建结果我们还使用Scanalyze软件显示了地面实况和相互重叠的预测3D人脸形状图6显示了在不同姿态下重建的3D人脸，以证明我们的方法对姿态变化具有鲁棒性。与用于从单个RGB图像进行3D面部重建的基于模型的算法不同[11，44]，我们的方法可以恢复整个头部的3D模型，包括诸如头发和颈部的外围区域，有时甚至是衣服的一部分。图6示出了我们在姿态不变性下的结果，而图7分别示出了我们在夸张表情和照明变化下的结果。请注意，我们的方法是强大的姿态，表情和照明的变化。我们使用Sela等人提供的代码。[44]用于重构的面部的定性比较。图8示出了使用我们的方法从光场图像重建的3D面部和使用由Sela等人提出的最近的最先进的方法[44]第44段。由于[44]仅估计面部区域，因此我们还裁剪了重建的面部以进行更好的视觉比较。如图所示，与[44]相比，我们的方法在全局几何结构中产生了视觉上更准确的重建。与基于微调的方法相比，我们的方法不能捕获细节，因为我们直接使用网络的输出，而不需要复杂的后处理步骤。我们提出的方法比[44]更好，因为首先，[44]依赖于面部检测器并基于检测到的坐标裁剪输入RGB图像，而我们的方法不需要任何面部检测或裁剪。其次，[44]从3DMM参数合成了他们的训练数据，因此从光场图像的3D面部重建：无模型方法11图7.第一次会议。（a）表达式不变性。如图所示，我们的方法可以处理夸张的表达。（b）对光照和肤色的不变性。我们的方法对光照变化是鲁棒的，并且在深色皮肤（第二行）的情况下也工作良好。每行（在（a）和（b）中）中的第一列至第四列分别描绘了光场图像的输入中心视图、地面真实3D面部、通过我们提出的方法重建的3D面部以及彼此重叠的最后两个它们的训练图像不具有颈部和头发区域等。当输入图像远离模型空间时，全局面部形状在一些关键面部区域（如嘴、鼻子和眼睛）处将不令人满意，如图8中可以看到的。最后，Sela et al. [44]使用非刚性配准将3DMM拟合到所提出的网络的粗略输出当模型和网络估计的粗略形状相差很大时，模型拟合过程使面部形状变形。5.2定量评价为了进行定量比较，我们对来自BU-3DFE [58]的20个受试者的3，500个光场图像和来自BU-4DFE数据集的101个受试者的1，400个光场图像进行了3D重建评估。为了测量姿态对重建精度的影响，我们使用来自BU-3DFE数据集的3，500个光场图像。每个姿势有500个光场图像我们使用估计的3D点云和地面实况重建之间的均方根误差（RMSE）图9中描绘了不同姿态的RMSE结果。我们的方法是强大的姿态变化的RMSE误差增加只有0。当姿态变化30度时为31mm为了测量面部表情对重建精度的影响，我们从BU-4DFE数据集中合成不同表情（愤怒、厌恶、恐惧、高兴、悲伤和惊讶）的正面图像，并测量重建误差。图1012M Feng，SZ Gilani，Y Wang，AMian见图8。定性结果。列包含（按顺序）中心视图图像、地面真实3D面部、通过我们的方法重建的3D面部和通过Sela等人重建的3D面部[44]第44段。见图9。BU-3DFE数据集上不同面部姿势的重建误差[58]。请注意，在极端姿态变化下，RMSE从2.62增加到2.93（仅增加0.31 mm）。结果表明，从我们的方法的三维人脸重建的均方根值是小的，即使在存在夸张的表情。我们将我们提出的方法的绝对深度误差与表2中的最新技术进行比较，这表明我们提出的3D重建优于所有现有方法。我们报告的深度误差评估的平均值，标准差，中位数和平均百分之九十的最大误差。请注意，为了与Sela et al.[44]我们报告了直接从他们的论文中获得的相同数据集的结果，而不是从我们实施他们的工作中计算重建误差。我们还使用BU-4DFE数据集[60]将我们的方法的结果与VRN-Guided [25]，3DDFE [63]和EOS [24]方法进行了我们使用Aarson [25]提出的归一化平均误差（NME）度量来报告与现有方法进行比较的结果。NME被定义为估计的和由外部3D interrocu归一化的地面实况重建之间的平均每顶点欧几里得距离从光场图像的3D面部重建：无模型方法13见图10。BU-4DFE数据集上不同面部表情的重建误差[60]。在极端表达变化下，RMSE从2.49增加到2.98（仅增加0.49mm）。Sad具有最高的误差，而surprise具有最低的误差，因为嘴唇周围的边缘更多，这有利于基于EPI的重建。误差（mm）是说SD中值90%最大Kemelmacher等人[三十一]3.894.142.947.34Zhu等人[64个]3.853.232.937.91Richardson等人[41个]3.612.992.726.82Matan等人[第四十四届]3.512.692.656.59我们2.782.041.735.30表2.BU-3DFE数据集的比较结果[58]。地面真实和预测的形状之间的绝对RMSE评估的平均值，标准差，中位数和平均百分之九十的最大误差的不同的方法。最大距离：1ΣnNME =xk−yknk=1d其中，n是每个面部网格的顶点总数，d是两眼间椎间盘。钱。xk和yk分别表示来自估计网格和地面实况网格的仅在面部区域上计算NME如表3所示，我们的方法优于现有技术。3DDFA[63] EOS[24] [25]第二十五话我们NME5.145.334.713.72表3.BU-4DFE数据集[60]上的重建误差（根据等式中定义的NME）（二）、ICP已用于将重建的面部与地面实况对齐，类似于[25]。我们还使用我们自己的模型实现将我们的结果与[20，21]进行了比较，因为他们没有公开他们的代码/训练模型。我们在合成数据上训练了模型图5.2显示了[20]模型的三个最佳面部重建。这些重建是非常嘈杂的高RMSE。[20]的平均重建误差14M Feng，SZ Gilani，Y Wang，AMian这10张图片是27张。23± 247毫米，而我们的是2。79± 2。6mm. [20]（和[21]）性能不佳的主要原因是模型被设计用于纹理和EPI斜率剧烈的场景的3D重建因此，这些方法[49，50]在重建3D面部时表现不佳。图11个国家。Heber等人三维人脸重建的定性和定量比较。[20个]6结论我们提出了一种无模型的方法，用于从单个光场图像恢复3D面部几何形状我们提出了FaceLFnet，这是一个密集连接的网络架构，它可以在对极平面图像上回归3D面部曲线。使用曲线的曲线重建方法，我们的方法只需要几个训练样本，但概括以及看不见的脸。我们提出了一种照片级真实感的光场图像合成方法，从相对较少的真实面部身份生成大规模的EPI数据集。我们的研究结果表明，从光场图像的三维人脸重建是更准确的，并允许使用一个无模型的方法，这是强大的姿态，面部表情，种族和照明的变化。我们的结论是，光场相机是一个更合适的选择，作为一个被动传感器的三维人脸重建，因为他们享有类似的优势，传统的RGB相机，因为他们是点和拍摄，便携式，成本低。对于需要更高精度和无模型方法的医疗应用，这些相机尤其是更好的选择。我们将公开我们的训练网络和数据集，这将成为第一个具有真实3D面部扫描的照片级光场人脸数据集。致谢本研究得到了国家自然科学基金（NO.61401046，61733004）和澳大利亚研究理事会（ARC）Discovery基金DP160101458的部分资助。我们非常感谢NVIDIA公司捐赠用于本研究的Titan Xp从光场图像的3D面部重建：无模型方法15引用1. （http：//lightfieldstanfordedu/）2. （https：//wwwlytrocom/）3. （https：//wwwraytrixcom/）4. Abate，A.F.，Nappi，M.，Riccio，D.，Sabatino，G.：2D和3D人脸识别：一个调查。Pattern Recognition Letters28（14），18855. Aldrian，O.，史密斯，W.A.：用3d可变形模型逆向绘制人脸IEEE trans-actions on pattern analysis and machine intelligence35（5），10806. Belhumeur，P.N.，Kriegman，D.J.，Yuille，A.L.：浅浮雕的模糊性。国际期刊nal of Computer Vision35（1），337. Blanz，V.，Vetter，T.：三维人脸合成的可变形模型In：Proceedings of第26届计算机图形学与交互技术年会。pp. 187-194.出版社：ACM Press/Addison-Wesley Publishing Co. （1999年）8. 布斯J Antonakos，E.，Ploumpis，S.，Trigeorgis，G.，Panagakis，Y. Zafeiriou，S.：3d脸变形模型IEEE计算机视觉与模式识别会议（CVPR）（2017年7月）9. Cao，C.，Weng，Y.，林，S.，Zhou，K.：用于实时面部动画的3d形状回归。ACMTransactions on Graphics（TOG）32（4），41（2013）10. D'Erico，J.：使用网格拟合曲面拟合。在：MA TLAB中央文件交换（2008）11. Dou，P.，Shah，S.K.，Kakadiaris，I.A.：基于深度神经网络的端到端三维人脸重建。IEEE计算机视觉与模式识别会议（CVPR）（2017年7月）12. Fang，T.，赵，X.，Ocegueda，O.Shah，S.K.，Kakadiaris，I.A.：3D/4D面部表情分析：一种先进的注释面部模型方法。Image and vision Computing30（10），73813. Gilani，S.Z.，Mian，A.，Eastwood，P.：深度、密集和精确的3D人脸对应，用于生成特定人群的可变形模型。模式识别69，23814. Gilani，S.Z.，Mian，A.，Shafait，F.，Reid，I.：密集的3D面对应。IEEE Transac-tions on Pattern Analysis and Machine Intelligence（TPAMI）40（7），158415. Gilani，S.Z.，Rooney，K.，Shafait，F.，Walters，M.，Mian，A.：几何面部性别评分：感知的客观性。PloS one9（6）（2014）16. Hammond，P.Forster-Gibson，C.Chudley，A.等：胃紊乱Molecular Psychiatry13（6），61417. Hammond，P.：三维人脸形状建模在畸形学中的应用在：疾病档案在童年第92（12）页（2007年）18. Han，Y.，Lee J.Y. So Kweon，I.：在未校准的自然光照下从单个rgb-d图像获得高质量形状。在：IEEE计算机视觉国际会议论文集。pp. 161719. Hassner，T.，Harel，S.，Paz，E.，Enbar，R.：无约束图像中的有效面部额化。IEEE计算机视觉和模式识别会议论文集pp. 429520. Heber，S.，Pock，T.：光场形状卷积网络IEEE计算机视觉和模式识别会议论文集pp.374621. Heber，S.，Yu，W.，Pock，T.：U形网络用于从光场获得形状在：BMVC（2016）22. Honauer，K.，Johannsen，O.，Kondermann，D.，Goldluecke，B.：4d光场深度估计的数据集和评估方法。亚洲计算机视觉会议。pp. 19-34. Springer（2016）23. Huang，G.，刘志，范德马滕湖，Weinberger，K.Q.：密集连接的卷积网络。IEEE计算机视觉与模式识别会议（CVPR）（2017年7月）16M Feng，SZ Gilani，Y Wang，AMian24. Huber，P.，Hu，G.，特纳河Mortazavian，P.，Koppen，P.圣诞节，W.J.Ratsch，M.，Kittler，J.：多分辨率三维可变形人脸模型及拟合框架。第11届计算机视觉、成像和计算机图形学理论与应用国际联合会议论文集（2016）25. Jackson，A.S. Bulat，A.，Argyriou，V. Tzimiropoulos，G.：通过直接体积cnn回归从单幅图像重建大姿态3d人脸。在：IEEE计算机视觉国际会议（ICCV）（2017年10月）26. Jeon，H.G.，帕克，J.，Choe，G.，帕克，J.，Bok，Y.，Tai Y.W. So Kweon，I.：来自小透镜光场相机的精确深度图估计IEEE计算机视觉和模式识别会议论文集pp.154727. Jia，Y.，Shelhamer，E.，Donahue，J.，Karayev，S.，朗J格尔希克河Guadarrama，S.，达雷尔，T.：Caffe：用于快速特征嵌入的卷积架构第22届ACM多媒体国际会议论文集pp. 675-678. ACM（2014）28. Johannsen，O.，Sulc，A.，Goldluecke，B.：稀疏光场编码揭示了场景结构。在：IEEE计算机视觉和模式识别会议论文集。pp. 326229. Jourabloo，A.，刘X：基于cnn的密集3d模型拟合的姿态不变人脸对齐。国际计算机视觉杂志2017年130. Kazemi，V.，Keskin，C.，Taylor，J. Kohli，P.，Izadi，S.：从单个深度图像进行实时人脸重建。在：3D视觉（3DV），2014年第二届国际会议上。第1卷，第100页。369-376. IEEE（2014）31. Kemelmacher-Shlizerman岛Basri，R.：使用单个参考面部形状从单个图像进行3D面部重建。IEEE Transactions on Pattern Analysis and Machine Intelligence33（2），39432. Li，N.，孙湾，英-地Yu，J.：用于显著性检测的加权稀疏编码框架。In：Pro-IEEE计算机视觉和模式识别会议的CEEDings。pp. 521633. Li，N.，是的，J.，Ji，Y.，Ling，H.Yu，J.：光场显著性检测在：IEEE计算机视觉和模式识别会议（CVPR）（2014年6月）34. 林，H.，陈春，Bing Kang，S.，Yu，J.：使用焦点堆叠对称性从光场恢复深度。在：IEEE计算机视觉国际会议论文集。pp. 345135. Marwah，K.，Wetzstein，G.，Bando，Y.Raskar，R.：使用过完备字典和优化投影的压缩光场摄影ACM Transactions on Graphics（TOG）32（4），46（2013）36. Mian，A.，Bennamoun，M.，Owens，R.：一种有效的多模态2d-3d混合方法自动人脸识别IEEE模式分析与机器智能29（11）（2007）37. 奥尔-艾尔河Rosman，G.，Wetzler，A.，Kimmel，R.，

下载后可阅读完整内容，剩余1页未读，立即下载