没有合适的资源?快使用搜索试试~ 我知道了~
基于位置映射回归网络的3D人脸重建和稠密对齐方法
基于位置映射回归网络的联合三维人脸重建和稠密对齐姚峰1[0000 - 0002 - 9481 - 9783]、吴凡2[0000 - 0003 - 1970 - 3470]、邵小虎3、4[0000 - 0003 - 1141 - 6020]、王延峰1[0000 - 0002 - 3196 - 2347]、西周1、2[0000 -0003 - 2917 - 0436]1上海交通大学合作媒体创新中心2云行科技3中国科学院CIGIT4中国科学院大学抽象。我们提出了一个简单的方法,同时重建的3D面部结构,并提供密集的对齐。为了实现这一点,我们设计了一个称为UV位置图的2D表示,它记录了UV空间中完整人脸的3D形状,然后训练一个简单的卷积神经网络从单个2D图像回归它我们还在训练过程中将权重掩码集成到损失函数中,以提高网络的性能。我们的方法不依赖于任何先前的人脸模型,并可以重建完整的面部几何形状以及语义意义。同时,我们的网络是非常轻量级的,处理一张图像只需要9.8ms,这比以前的作品要快得多。在多个具有挑战性的数据集上的实验表明,我们的方法在重建和对齐任务上都大大优于其他最先进的方法。代码可在https://github.com/YadiraF/PRNet上获得。关键词:三维人脸重建·密集人脸对齐1介绍三维人脸重建和人脸对齐是计算机视觉中两个基本的、高度相关的课题。近几十年来,这两个领域的研究相互促进。一开始,旨在检测特定2D基准点[66,64,38,46]的面部对准通常用作其他面部任务(例如面部识别[59])的先决条件然而,研究人员发现,2D对准在处理大姿态或遮挡问题时存在困难[65,30]。随着深度学习的发展,卷积神经网络(CNN)已经很好地解决了许多计算机视觉问题。因此,一些作品开始使用CNN来估计3D可变形模型(3DMM)系数[32,67,47,39,48,40]或3D模型扭曲函数[4,53]来从单个2D面部图像恢复对应的3D信息,这提供了密集面部图像和3D面部图像。2Y. Feng等人图1:我们的方法的定性结果。奇数行:对齐结果(仅绘制68个关键点以供显示)。偶数行:3D重建结果(重建的形状用头灯渲染以获得更好的视图)。对齐和3D人脸重建结果。然而,这些方法的性能受到限制,由于三维空间的人脸模型的基础或模板定义的限制包括透视投影或3D薄板样条(TPS)变换在内的所需操作也增加了整个过程的复杂性。最近,有两个端到端的作品[28][9]绕过了模型空间的限制[9]训练一个复杂的网络来回归68个面部标志与2D坐标从单个图像,但需要一个额外的网络来估计深度值。此外,该方法不提供密集对准。[28]开发了三维人脸的体积表示,并使用网络从二维图像中回归。然而,这种表示丢弃了点的语义意义,因此网络需要回归整个体积以便恢复仅是体积的一部分的表面形状。因此,这种表示限制了恢复形状的分辨率,并且需要复杂的网络来回归它。综上所述,基于模型的方法很好地保留了点的语义,但在模型空间中受到限制,最近的无模型方法不受限制,并达到最先进的性能,但放弃了语义,这促使我们找到一种新的方法来重建三维人脸对齐信息,在无模型的方式。在本文中,我们提出了一个端到端的方法,称为位置映射回归网络(PRN),共同预测密集对齐和重建三维人脸形状。我们的方法超越了所有其他以前的作品在多个数据集上的3D人脸同时,我们的方法是直接的,具有非常轻的权重模型,该模型在一次通过中提供结果联合三维人脸重建和密集对齐39.8ms. 所有这些都是通过精心设计的三维面部结构的二维表示和相应的损失函数来实现的具体来说,我们设计了一个UV位置图,这是一个2D图像记录的三维坐标的一个完整的面部点云,并在同一时间保持语义意义在每个UV的地方。然后,我们训练了一个简单的编码器-解码器网络,该网络具有更侧重于区分区域的图1示出了我们的方法对姿势、光照和遮挡是鲁棒的。综上所述,我们的主要贡献包括:– 第一次,我们解决了人脸对齐和三维人脸重建的问题,在一个端到端的方式没有低维的解决方案空间的限制。– 为了直接回归3D面部结构和密集对齐,我们开发了一种新的表示称为UV位置图,它记录了三维人脸的位置信息,并提供了密集的对应关系,每个点的语义UV空间。– 对于训练,我们提出了一个权重掩码,它为位置图上的每个点分配不同的权重,并计算加权损失。我们表明,这种设计有助于提高我们的网络的性能。– 最后,我们提供了一个轻量级的框架,运行在超过100FPS直接获得3D人脸重建和对齐结果从一个单一的2D人脸图像。– 在AFLW 2000 -3D和Florence数据集上的比较表明,我们的方法在3D人脸重建和密集人脸对齐这两个任务上比其他最先进的方法实现了超过25%的相对改进。2相关作品2.13D人脸重建自从Blanz和Vetter于1999年提出3DMM(3D Morphable Model)以来,基于3DMM的方法在完成单目3D人脸重建任务方面得到了广泛的应用。大多数早期方法是建立输入图像与3D模板之间的特殊点的对应关系,包括界标[37,68,56,27,10,29,19]和局部特征[26,49,19],然后求解非线性优化函数以回归3DMM系数。然而,这些方法严重依赖于界标或其他特征点检测器的准确性。因此,一些方法[22,63]首先使用CNN来学习输入图像与3D模板之间的密集对应,然后使用预测的密集约束来计算3DMM参数。最近的工作还探索使用CNN来直接预测3DMM参数。[32,67,47,39,48]使用级联CNN结构来回归准确的3DMM系数,这由于迭代而花费大量时间。[15,57,31,36]提出端到端CNN架构以直接估计3DMM形状参数。无监督的方法已经4Y. Feng等人最近也进行了研究,[55,3]可以在没有训练数据的帮助下回归3DMM系数,这在具有大姿态和强遮挡的面部中表现不佳然而,这些方法的主要缺陷是基于模型的,导致在模型空间中受到约束的有限的几何形状一些其他方法可以在没有3D形状基础的情况下重建3D面部,[24,33,20,53,51]可以通过扭曲参考3D模型的形状来产生3D结构[4]还通过经由深度网络学习3D薄板样条(TPS)扭曲函数来重建面部的3D形状,该深度网络将通用3D模型扭曲为受试者特定的3D形状。显然,这些方法重建的人脸几何结构也受到参考模型的限制,这意味着当模板改变时结构不同。最近,[28]提出通过体积CNN回归直接将图像像素映射到完整的3D面部结构该方法不再局限于模型空间,但需要复杂的网络结构和大量的时间来预测体素数据。与上述方法不同的是,我们的框架是无模型和轻量级的,可以实时运行,直接获得完整的三维人脸几何图形及其对应信息。2.2面部对准在计算机视觉领域,人脸对齐是一个长期存在的问题,也是一个备受关注的问题。一开始,存在许多2D面部对准方法,其旨在定位一组基准2D面部标志,诸如经典的主动外观模型(AMM)[43,52,58]和约束局部模型(CLM)[34,1]。然后,级联回归[14,60]和基于CNN的方法[38,46,9]主要用于在2D界标定位中实现最先进的性能然而,2D界标位置仅回归面部上的可见点,这仅限于在姿态较大时描述 面 部 形 状 最 近 的 工 作 然 后 研 究 3D 面 部 对 准 , 其 开 始 于 拟 合3DMM[44,67,18]或将3D面部模板[51,5]与2D面部图像配准显然,基于模型的三维重建方法可以很容易地完成三维人脸对齐的任务。实际上,[67,63,31]是通过3DMM拟合实现3D面部对齐的特别指定方法最近[8,9]使用深度网络直接预测热图以获得3D面部标志并实现最先进的性能。因此,由于稀疏面部对准任务通过上述方法高度完成,因此密集面部对准的任务开始发展。注意,密集面部对准意味着该方法应当提供两个面部图像之间以及2D面部图像与3D面部参考几何结构之间的对应关系。[40]使用多约束来训练CNN,该CNN估计3DMM参数,然后提供非常密集的3D对齐。[22,63]通过深度网络直接学习2D输入图像和3D模板之间的对应关系与以往的工作相比,我们的方法可以直接建立稠密对应的所有区域的位置图回归。在我们的方法中不需要中间参数,如3DMM系数和TPS翘曲参数,这意味着我们的网络可以运行得非常快。联合三维人脸重建和密集对齐53该方法本节描述了我们提出的方法的框架和细节。首先,我们介绍了我们的表示位置图的特点。然后,我们详细阐述了CNN的架构和损失函数,专门用于学习从无约束的RGB图像到其3D结构的映射。我们的方法的实现细节在最后一个小节中显示。3.13D面部表示我们的目标是从单个2D图像回归3D面部几何形状及其密集的对应信息因此,我们需要一个可以通过深度网络直接预测的适当表示一个简单且常用的想法是将3D面部中所有点的坐标连接为向量,并使用网络来预测它。然而,这种从3D空间到1D向量的投影丢弃了点之间的空间邻接信息,增加了训练深度神经网络的难度。空间上相邻的点可以在预测它们的位置时共享权重,这可以通过使用卷积层轻松实现,而作为1D向量的坐标需要一个完全连接的层来预测每个点,这些点具有更多的参数,这增加了网络大小并且难以训练。[16]提出了一个点集生成网络,直接预测三维物体的点云为矢量,从单个图像。然而,最大点数仅为1024,远远不足以表示准确的3D人脸。因此,基于模型的方法[67,15,40]回归了一些模型参数而不是点的坐标,这通常需要在训练中特别小心,例如使用马氏距离,并且不可避免地将估计的面部几何形状限制在它们的模型空间。[28]提出了三维二值体作为三维结构的表示,并使用体积回归网络(VRN)输出一个192×192× 200的体作为点云的离散化版本。通过使用这种表示,VRN可以用全卷积层来构建。然而,离散化限制了点云的分辨率,并且网络输出的大部分对应于非表面点,这是一个应用较少的非表面点。为了解决以前的工作中的问题,我们提出了UV位置图作为完整的3D面部结构与对齐信息的呈现。UV位置图或简称位置图,是记录UV空间中所有点的3D位置的2D图像在过去的几年中,作为从3D表面参数化的2D图像平面的UV空间或UV坐标已经被用作表达包括面部的纹理(纹理映射)[3,13,45,61]、2.5D几何(高度映射)[41,42]、3D几何(几何图像)[21,54]和3D面部网格之间的对应关系[7]的信息的方式。与以往的工作不同,我们使用UV空间存储3D人脸模型中点的3D位置与相应的2D人脸图像对齐。如图2所示,我们假设从3D模型到2D图像的投影是弱透视投影,并且在左手笛卡尔坐标系中定义3D面部位置。3D空间的原点与输入图像的左上方重叠,其中6Y. Feng等人正x轴指向图像的右侧,最小z位于原点。当投影到x-y平面时,地面实况3D面部形状与2D图像中的面部精确匹配。因此,位置图可以表示为Pos(ui,vi)=(xi,yi,zi),其中(ui,vi)表示面部表面中第i个点的UV坐标,并且(xi,yi,zi)表示面部结构的相应3D位置,其中(xi,yi)表示输入RGB图像中面部的相应2D位置,并且zi表示该点的深度注意,(ui,vi)和(xi,yi)表示面部的相同位置,因此可以保留对准信息。我们的位置映射可以很容易地理解为用x,y,z坐标替换纹理映射中的r,g,b图2:UV位置图的图示左:输入图像及其对应的对齐3D点云的3D图右:第一行是输入的2D图像、提取的UV纹理贴图和对应的UV位置贴图。第二行是UV位置贴图的x、y、z通道。因此,我们的位置图记录了一组密集的点从3D人脸与其语义意义,我们能够同时获得3D人脸结构和密集的对齐结果,通过使用CNN直接从无约束的2D图像回归位置图。由于这种方便,我们的方法中的网络架构可以大大简化。注意,位置图包含整个面部的信息,这使得它不同于其他2D表示,例如投影归一化坐标码(PNCC)[67,48],普通深度图像[53]或量化UV坐标[22],其仅保留输入图像中可见面部区域的信息。我们提出的位置图也推断出人脸的不可见部分,因此我们的方法可以预测一个完整的三维人脸。由于我们希望直接从2D图像回归3D完整结构,因此需要无约束的2D面部图像及其对应的3D形状用于端到端训练。300 W-LP [67]是一个大型数据集,包含超过60 K个具有拟合3DMM参数的无约束图像,适合形成我们的训练对。此外,该数据集的3DMM参数基于巴塞尔人脸模型(BFM)[6]。因此,为了充分利用这一数据集,联合三维人脸重建和密集对齐7我们进行对应于BFM的UV坐标具体来说,我们使用[3]中的参数化UV坐标,其使用保形拉普拉斯权重计算Tutte嵌入[17],然后将网格边界映射到正方形。由于BFM中的顶点数超过50K,我们选择256作为位置图的大小,这样得到的点云精度高,重采样误差可以忽略不计。3.2网络体系结构与损耗函数图3:PRN的架构。绿色矩形表示残差块,蓝色矩形表示转置卷积层。由于我们的网络将输入的RGB图像转换为位置图图像,我们采用了编码器-解码器结构来学习传递函数。我们网络的编码器部分从一个卷积层开始,然后是10个残差块[25],将256× 256× 3的输入图像减少到8× 8× 512的特征图,解码器部分包含17个转置卷积层,以生成预测的256× 256× 3位置图。我们对所有卷积层或转置卷积层使用内核大小4假定位置图包含完整的3D信息和密集的对准结果两者,则在计算或推断的过程中,我们不需要将k个最小化为k。我们的网络架构如图3所示。为了学习网络的参数,我们建立了一个损失函数以测量地面实况位置图与网络输出之间的差异。均方误差(MSE)是这种学习任务的常用损失然而,MSE平等地对待所有点,因此它不完全适合于学习位置图。由于人脸的中心区域比其他区域具有更多的区别特征,我们采用权重掩码来形成我们的损失函数。如图4所示,权重掩模是记录位置图上每个点的权重它具有与位置图相同的大小和像素到像素的对应关系根据我们的目标,我们将点分为四类,每一类在损失函数中都有自己的权重。68个人脸关键点的位置权重最高,保证了网络学习这些点的准确位置。颈部区域通常吸引较少的注意力,并且在不受约束的图像中经常被头发或衣服遮挡。由于学习颈部或衣服的3D形状超出了我们的兴趣,我们将颈部区域的点分配为0权重,以减少训练过程中的干扰。8Y. Feng等人图4:权重掩码的图示。从左至右:UV纹理图、UV位置图、具有分割信息的彩色纹理图(眼睛区域为蓝色、鼻子区域为红色、嘴巴区域为绿色、颈部区域为紫色)、最终权重遮罩。因此,我们将预测位置图表示为Pos(u,v),其中u,v表示每个像素坐标。给定地面实况位置图P_(u,v)和权重掩码W(u,v),我们的损失函数被定义为:Σ损失=Pos(u,v)−P~os(u,v)·W(u,v)(1)具体地,我们在我们的实验中使用以下权重比,子区域1(68个面部标志):亚区2(眼、鼻、口):子区域3(其他面部区域):亚区4(颈部)= 16:4:3:0。最终的权重掩码如图4所示。3.3培训详细信息如上所述,我们选择300 W-LP [67]来形成我们的训练集,因为它包含具有估计的3DMM系数的注释的不同角度的面部图像,从中可以轻松生成3D点云。具体来说,我们根据地面实况边界框裁剪图像,并将它们重新缩放为256×256。然后利用它们标注的3DMM参数生成相应的3D位置,并将它们渲染到UV空间中以获得地面真实位置图,我们训练的地图大小也是256× 256,这意味着要回归的点云精度超过45K。注意,尽管我们在从3DMM生成的位置处进行搜索,但是我们的工作的输出我们通过在2D图像平面中随机旋转和平移目标人脸来扰动训练集。具体而言,旋转是从-45度到45度的角度,平移变化是从输入大小的10%随机变化的,并且缩放是从0.9至1.2。与[28]一样,我们还通过缩放颜色通道来增强我们的训练数据为了处理有遮挡的图像,我们通过向原始图像中添加噪声纹理来合成遮挡,这与[50,63]的工作类似。通过上述所有增强操作,我们的训练数据涵盖了所有困难的情况。我们使用第3节中描述的网络来训练我们的模型。对于优化,我们使用Adam优化器,学习率从0.0001开始,每5个epoch后衰减一半批次大小设置为16。联合三维人脸重建和密集对齐94实验结果在这一部分中,我们评估了我们提出的方法的三维人脸对齐和三维人脸重建的任务上的性能。我们首先在4.1节中介绍我们的实验中使用的测试数据集。然后在4.2节和4.3节中,我们从定量和定性两个方面将我们的结果与其他方法进行了比较。我们将我们的存储器的运行情况与第4.4节中的其他存储器运行情况进行比较。最后,在第4.5节中进行消融研究,以评估权重掩模在我们的方法中的效果。4.1测试数据集为了评估我们在密集对齐和3D面部重建任务上的性能,在我们的实验中使用下面列出的多个测试数据集:AFLW 2000 -3D由[67]构建,用于评估具有挑战性的无约束图像上的3D人脸对齐。该数据库包含来自AFLW[35]的前2000张图像,并使用拟合的3DMM参数和68个3D地标扩展其注释我们使用这个数据库来评估我们的方法在人脸重建和人脸对齐任务上的性能。AFLW-LFPA是[32]构建的AFLW数据集的另一个扩展。通过根据姿态从AFLW中拾取图像,作者构建了包含1299张偏航角分布均衡的测试图像的数据集。此外,每幅图像都标注了13个额外的标志,作为AFLW中仅21个可见标志该数据库的3D人脸对齐的任务进行评估我们使用34个可见地标作为地面实况来衡量我们结果的准确性。Florence是一个3D人脸数据集,包含53个主题,其地面真实3D网格从结构光扫描系统中获取[2]。在实验中,每个受试者生成具有不同姿势的渲染,与[28]相同:间距为-15、20和25度,旋转间隔在-80和80之间。我们将我们的方法在面部重建上的性能与其他最新的最先进的方法VRN-Guided[28]和3DDFA[67]在该数据集上进行了比较。4.2三维面对齐评估面部对齐性能。我们采用归一化平均误差(NME)作为评价指标,边界框大小作为归一化因子。首先,我们在68个面部标志的稀疏集合上评估我们的方法,并将我们的结果与数据集AFLW2000 -3D上的3DDFA[67],DeFA[40]和3D-FAN[9]进行比较。如图5所示,当使用2D坐标计算每个距离时,我们的结果略微优于最先进的方法3D-FAN。 当考虑深度值时,我们的方法和3D-FAN之间的性能差异增加。注意,3D-FAN需要一个其他网络来预测地标的z坐标,而在我们的方法中可以直接获得深度10Y. Feng等人3DDFA:6.034DeFA:4.36513D-FAN:3.479PRN(我们的):3.2699图像数量(%)10068个点,具有2D坐标10068个点和3D坐标90 9080 8070 7060 6050 5040 4030 3020 2010 100012345678910通过边界框大小归一化的NME(%)0012345678910通过边界框大小归一化的NME(%)图5:AFLW 2000 -3D的累积误差分布(CED)曲线。使用2D(左)和3D(右)坐标对68个地标进行评估。这里使用来自AFLW 2000 -3D数据集的总共2000个图像。每种方法的平均NME%也显示在图例中。为了进一步研究我们的方法在姿势和数据集上的性能,我们还报告了AFLW 2000 - 3D数据集上具有小,中,大偏航角的NME以及AFLW2000 -3D和AFLW-LPFA数据集上的平均NME表1示出了结果,注意数值记录自他们发表的论文。根据工作[67],我们还从AFLW2000中随机选择了696个面来平衡分布。实验结果表明,该方法对姿态和数据集的变化具有较好的鲁棒性。尽管所有最先进的3D人脸对齐方法都在AFLW2000 -3D数据集上进行评估,但由于其注释管道是基于关于地标行进方法[68]。因此,我们在图6具有大于6.5%的NME,并且我们发现我们的结果在某些情况下比地面实况更准确。 我们还比较了我们的密集对齐重新-表1:AFLW 2000 -3D(68个标志)和AFLW-LFPA(34个可见标志)的性能比较。报告了具有不同偏航角的面的NME(%)。每个类别中的第一个最佳结果以粗体突出显示,越低越好。AFLW2000-3DAFLW-LFPA方法〇至3030至60 60至90 是说是说SDM[60]3.674.949.676.12-3DDFA [67]3.784.547.935.42-3DDFA + SDM[67]3.434.247.174.94-PAWF[32]----4.72Yu等人[63个]3.626.069.56--3DSTN[4]3.154.335.984.49-DeFA[40]---4.503.86PRN(我方)2.753.514.613.622.933DDFA:7.507DeFA:6.23433D-FAN:5.2382PRN(我们的):4.7006图像数量(%)联合三维人脸重建和密集对齐113DDFA:5.0667DeFA:4.44PRN(我们的):3.1774图像数量(%)图6:AFLW 2000 -3D数据集的例子表明,在某些情况下,我们的预测绿色:通过我们的方法预测的地标。[67]红:地面真理与其他方法(包括3DDFA[67]和DeFA[40])相比,在唯一的测试数据集AFLW 2000 -3D上的结果为了用相同的点集比较不同的方法,我们从所有方法提供的最大公共人脸区域中选择点如图7所示,我们的方法优于最好的方法,在2D和3D坐标上都有超过27%的大100具有二维坐标的所有点100具有三维坐标的90 9080 8070 7060 6050 5040 4030 3020 2010 100012345678910通过边界框大小归一化的NME(%)0012345678910通过边界框大小归一化的NME(%)图7:AFLW 2000 -3D上的CED曲线。使用2D(左)和3D(右)坐标对所有点执行评估。这里使用来自AFLW 2000 -3D数据集的总共2000个平均NME%显示在图例中4.33D人脸重建在这一部分中,我们在3D人脸重建任务上评估了我们的方法,并在AFLW 2000 -3D和Florence数据集上与3DDFA[67],DeFA[40]和VRN-Guided[28]进行了我们使用与评估密集对齐中相同的点集3DDFA:6.5579DeFA:6.0409PRN(我们的):4.4079图像数量(%)12Y. Feng等人3DDFA:5.3695DeFA:5.6454PRN(我们的):3.9625图像数量(%)并且改变度量以便与其它3D人脸重建评估方法保持一致我们首先使用迭代最近点(ICP)算法,以找到网络输出和地面实况点云之间的对应最近点,然后计算均方误差(MSE)归一化的外眼间距的3D坐标。结果如图8所示我们的方法大大超过了其他两种现有技术方法的性能。由于AFLW 2000 -3D数据集已标记100AFLW2000上的NME100佛罗伦萨NME90 9080 8070 7060 6050 5040 4030 3020 2010 100012345678910通过外眼间距标准化的NME(%)0012345678910通过外眼间距标准化的NME(%)图8:在野生AFLW 2000 - 3D数据集和Florence数据集上的3D重建性能(CED曲线)每种方法的平均NME%显示在图例中。在AFLW 2000 -3D上,超过45 K点用于评估。在佛罗伦萨,大约使用了19K点。利用3DMM拟合的结果,我们进一步评估了我们的方法在Florence数据集上的性能,其中地面真实三维点云是从结构光三维扫描系统获得的。在这里,我们使用[28]中的实验设置将我们的方法与3DDFA和VRN-Guided[28]进行比较。评估图像是来自Florence数据库的具有不同姿态的渲染图,我们从地面实况点云计算边界框,并使用裁剪的图像作为网络输入。虽然我们的方法比VRN输出更完整的人脸点云,但我们只选择了常见的人脸区域来比较性能,19K点用于评估。图8显示,与VRN-Guided相比,我们的方法在Florence数据集上实现了28.7%的相对高性能,这是一个显着的改进。为了更好地评估我们的方法在不同姿态下的重建性能,我们计算了不同偏航角范围的NME。如图9所示,所有方法在近正面视图中表现良好,然而,3DDFA和VRN-Guided在姿态变大时未能保持低误差,而我们的方法在所有姿态范围内保持相对稳定的性能。我们还在图9中说明了定性比较,我们恢复的点云覆盖了比VRN-Guided更大的区域,VRN-Guided忽略了侧面面部部分。此外,由于VRN分辨率的限制,我们的方法提供了更精细的面部细节,特别是在鼻子和嘴部区域。3DDFA:6.3833VRN -引导:5.2667PRN(我们的):3.7551图像数量(%)联合三维人脸重建和密集对齐130.120.110.10.090.080.070.060.050.040.03-80六十-40电话:+86-020 - 88888888传真:+86-020 - 88888888偏航旋转度图图9:左:具有不同偏航角的Florence数据集上的CED曲线右:与VRN-Guided的定性比较第一列是来自佛罗伦萨数据集和互联网的输入图像,第二列是我们的方法重建的人脸,第三列是来自VRN的结果我们 还提 供了BU-3DFE[62]的其 他定 量结果 以及 300 VW [11]和Multi-PIE[23]数据集的定性结果,请参阅补充材料了解完整详情。4.4运行时超越了所有其他国家的最先进的3D人脸对齐和重建方法的性能,我们的方法是令人惊讶的更轻的权重更快由于我们的网络使用基本的编码器-解码器结构,因此与VRN中的1.5GB相比,我们的模型大小仅为160 MB[28]。我们还比较了运行时间,表2显示了结果. 3DDFA和3DSTN的结果直接记录在其发表的论文中,其他结果通过运行其公开可用的源代码来记录。注意,我们测量从输入裁剪的面部图像直到恢复用于3D重建方法的3D几何形状(点云、网格或体素数据)或获得用于对准方法的3D界标的过程的运行时间。使用的硬件用于评估的是NVIDIA GeForce GTX1080 GPU和Intel(R)Xeon(R)CPU E5-2640 v4@2.40 GHz。具体来说,DeFA需要11.8ms(GPU)来预测表2:每个图像的运行时间(毫秒)3DDFA[67] DeFA[40] 3D风扇[9] 3DSTN[4] [28]第二十八话 PRN(我方)75.735.454.719.069.09.83DMM参 数和 另一 个23.6ms(CPU) 从预 测参 数生 成 网格 数据 ,3DFAN需要29.1ms(GPU)首先估计2D坐标和25.6ms(GPU)获得深度值,VRN-Guided检测68个2D地标3DDFA:6.3833VRN-引导:5.2667PRN(我们的):3.7551平均NME14Y. Feng等人重量比1:6.5975重量比2:5.1197重量比3:4.7006图像数量(%)该方法的计算速度为28.4ms(GPU),然后用40.6ms(GPU)对体素数据进行回归处理,一次处理时间为9.8ms(GPU)。4.5消融研究在本节中,我们进行了几个实验,以评估我们的权重掩码对训练的影响,并提供稀疏和密集对齐CED以评估不同的设置。具体地,我们实验了三种不同的重量比:(1)重量比1 = 1:1:1:1,(2)重量比2 = 1:1:1:0,(3)重量比3 = 16:4:3:0。我们可以看到,权重比1对应于不使用权重掩码时的情况,权重比2和3在损失函数的强调上略有不同。结果示于图10中。与其他两种设置相比,不使用权重掩码训练的网络性能最差。通过将权重添加到诸如68个面部标志或中央面部区域的特定区域,权重比3显示出相对于权重比2在68个点数据集上的相当大的改进10068个点和3D坐标100具有三维坐标的90 9080 8070 7060 6050 5040 4030 3020 2010 100012345678910通过边界框大小归一化的NME(%)0012345678910通过边界框大小归一化的NME(%)图图10:在具有68个标志点(左)和所有点(右)的AFLW 2000 -3D数据集上评估的权重掩模的效果5结论在本文中,我们提出了一种端到端的方法,很好地解决了三维人脸对齐和三维人脸重建的问题,同时。通过学习位置图,我们直接从单个图像中回归完整的3D结构以及定量和定性的结果表明,我们的方法是强大的姿势,照明和闭塞。三个测试数据集上的实验表明,我们的方法取得了显着的改善比别人。我们进一步表明,我们的方法比其他方法运行速度更快,适合实时使用。重量比1:5.4281重量比2:4.5346重量比3:4.4079图像数量(%)联合三维人脸重建和密集对齐15引用1. Asthana,A.,Zafeiriou,S.,郑,S.,潘蒂奇,M.:具有约束局部模型的鲁棒判别响应图拟合。In:Computer Vision and Pattern Recogn(CVPR),2013IEEEConFerenceon. pp. 3444- 3451。IEEE(2013)2. Bagdanov,A.D.,德尔宾博,A.,马西岛:佛罗伦萨2D/3D混合人脸数据集。在:2011年联合ACM研讨会人类手势和行为和erst和ndg的会议记录。pp. 79ACM(2011)3. Bas,A.,Huber,P.,史密斯,W.A.P.,Awais,M.,Kittler,J.:三维变形模型作为空间Transformer网络。在:ICCV 2017几何与深度学习研讨会(2017)4. Bhagavatula,C.Zhu,C.,Luu,K.,Savvides,M.:比实时面部对齐更快 :无 约 束 姿势 中 的 3D空 间 Transformer 网 络方 法 IEEE InternationalConference on Computer Vision(ICCV)卷2,p.2017年75. de Bittencourt Zavan,F.H.,Nascimento,A.C. e Silva,L.P.,贝隆手术室席尔瓦,L.:3D面对齐在野外:一种无地标的、基于鼻子的方法。In:European ConferenceonComputerVision. pp. 581 -589 02TheDog(2016)6. Blanz , V. , Vetter , T. : 三 维 人 脸 合 成 的 可 变 形 模 型 Internationalconnferenceoncomputtergraphicsandinteractivettechniquespp. 1877. 布斯J Zafeiriou,S.:人脸形变模型构造的最优uv空间。In:ImgePr ocessing(ICIP),2014IInterna t ionalConferenceon. pp. 4672-4676 IEEE(2014)8. Bulat,A.,Tzimiropoulos,G.:两阶段卷积部分热图回归用于第一次野外3d人脸对齐(3dfaw)挑战。在:欧洲会议上CommputerrVision. pp. 616-624 02TheDog(2016)9. Bulat,A.,Tzimiropoulos,G.:我们离解决2D和3D人脸对齐问题还有多远?(以及23万个3D面部标志的数据集)(2017)10. Cao,C.,Hou,Q.,Zhou,K.:用于实时面部跟踪和动画的位移动态表情回归。ACM(2014)11. 克吕索斯,G. G.,Antonakos,E.,Zafeiriou,S.,斯内普,P.:任意视频中 的 离 线 可 变 形 人 脸 跟 踪 。 In : Proceedings of the IEEE InternationalConference onComputerVisionWorkshops. pp. 112. Crisspell,D.,Bazik,M.:Pix2face:直接3D人脸模型估计(2017)13. Deng,J.,郑,S.,Xue,N.,Zhou,Y.,(1996年),中国科学院,Zafeiriou,S.:UV-gan:对抗面部uv图完成用于姿势不变人脸识别。arXiv预印本arXiv:1712.04695(2017)14. Doll'ar , P. , 我们听 着 PPerona , P. : Cascaddposeregression.In : C 〇mputerV is i sinandPater nRegition(CVPR),2010IEEEC〇nferenceon. pp.1078- 1085年IEEE(2010)15. Dou,P.,Shah,S.K.,Kakadiaris,I.A.:使用深度神经网络进行端到端3D人脸重建(2017)16. Fan,H.,Su,H.,Guibas,L.:一个用于三维物体重建的点集生成网络。246317. 漂浮物,M.S.:曲面三角形的参数化与光滑逼近。C〇mputerAi ddGeometricDesi g n14(3),23118. Gou,C.,吴,Y.,Wang,F.Y.,Ji,Q.:三维人脸轮廓的形状增强回归。 In : EuropeanConferenceonCom up uterVison 。 pp.604-615 02TheDog(2016)19. Grewe,C.M.,Zachow,S.:完全自动化和高度准确的密集对应功能。In:EuropeanConferenceonCom up uterVison。pp. 五五二568. Springer(2016)16Y. Feng等人20. 古湖Kanade,T.:单个图像中面部的3D对准。在:计算机视觉和模式识别,2006年IEEE计算机学会会议上。第1卷,第100页。1305- 1312。02TheDog(2006)21. 顾,X.,Gortler,S.J.,Hoppe,H.:几何图形图像。ACM Transactionson Graphics(TOG)21(3),35 522. 居尔河一、 Trigeorgis,G. Antonakos,E., Snape,P., Zafeiriou,S.,Kokkinos,I. :Densereg:完全卷积的密集形状回归。In:Proc. CVPR.第二卷(2017)23. 哈特利河齐瑟曼,A.:计算机视觉中的多视图几何。基贝内特斯30(9/10)、186524. 哈斯纳,T.:在3d中查看真实世界的面孔。在:IEEE国际会议上的C〇mputerrV i sision. pp. 36 0725. 他,K.,张,X.,Ren,S.,孙杰:用于图像识别的深度残差学习。Iη:C〇mputerVisisinandPater nRecognitin。pp. 77026. Huber,P.,Feng,Z.H.,圣诞节,W,Kittler,J.,Ratsch,M.:利用局部特征拟合三维可变形人脸模型。在:IEEE图像处理国际会议上。pp. 119527. Huber,P.,Hu,G.,特纳河Mortazavian,P.,Koppen,W.P.,圣诞节,W.J. Ratsch,M.,Kittler,J.:一种多分辨率三维人脸形变模型及其拟合框架。7928. Jackson,A.S. Bulat,A.,Argyriou,V. Tzimiropoulos,G.:通过直接体积cnn 回 归 从 单 幅 图 像 重 建 大 姿 态 三 维 人 脸 。 在 : 2017IEEEInternationalConferenceonComputerVision ( ICCV ) 。 pp.1031-1039IEEE(2017)29. 洛杉矶杰尼科恩,J.F.,Kanade,T.:实时从2d视频进行密集的3d人脸对齐 。 在
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功