没有合适的资源?快使用搜索试试~ 我知道了~
9408基于多种原始扫描数据的三维人脸建模密歇根州立大学计算机科学与工程系,密歇根州东兰辛,邮编48824{liufeng6,tranluan,liuxm}@ msu.edu摘要传统的三维人脸模型使用线性子空间从单个数据库的有限扫描中学习人脸的潜在从不同的3D数据库中构建大规模人脸模型的主要障碍为了解决这些问题,本文提出了一个创新的框架,共同学习一个非线性的人脸模型,从一组不同的原始三维扫描数据库,并建立密集的点到点之间的对应关系扫描。具体来说,通过将输入扫描视为无组织的点云,我们探索使用PointNet架构将点云转换为身份和表情特征表示,解码器网络从中恢复其3D人脸形状。此外,我们提出了一种弱监督学习方法,不需要对应标签的扫描。我们证明了我们提出的方法优越的密集对应和表示能力,其贡献的单图像三维人脸重建。1. 介绍鲁棒性和表现力的3D人脸建模对于计算机视觉问题是有价值的,例如. 三维重建[7,24,41,54]和人脸识 别 [42 , 43 , 58], 以 及 计 算 机 图 形 学 问 题 , 例如,,角色动画[15,31]。最先进的3D人脸表示大多采用线性变换[39,59,60],例如,三维可变形模型(3 DMM)或高阶张量推广[1,13,14,67],例如混合变形模型。然而,这些线性模型无法捕捉非线性变形,如高频细节和极端的表达。最近,随着深度学习的出现,已经有几次尝试使用深度神经网络进行非线性数据驱动的面部建模[4,32,51,65]。为了对3D脸部形状进行建模,需要大量的高质量3D广泛使用的基于3DMM的BFM2009[48]是从仅200个中性表情的受试者缺乏表达可能是一种...图1:(a)现有方法和(b)我们提出的方法的3D人脸建模之间的比较。稠密的点到点对应关系是现有三维人脸建模方法的先决条件。我们提出的基于CNN的方法直接从多个3D人脸数据库的原始扫描中学习人脸模型,并在所有扫描之间建立密集的点对点对应关系尽管扫描的分辨率和表达的多样性,我们的模型可以表达细节的精细程度用来自FaceWarehouse [14]或BD-3FE [70]的表达基进行补偿。经过十多年的发展,几乎所有现有的模型使用的训练对象都不到300个。如此小的训练集远远不足以描述人脸的全部变化。直到最近,Booth等人。 [11,12]通过对9,663名受试者的中性扫描建立了第一个大规模人脸模型(LSFM)不幸的是,只有得到的线性3DMM基地被释放,而不是原来的扫描,我们不能充分利用这个大数据库,探索不同的三维建模技术。事实上,有许多公开可用的3D人脸数据库,如图所示1.一、然而,这些数据库通常是单独使用的,而不是联合使用来创建大规模的人脸模型。主要障碍在于挑战9409估计原始扫描的密集点到点对应关系,这允许这些扫描被组织在相同的向量空间中,从而实现作为一个整体的分析。密集的点对点对应是3D人脸建模[22,26]中最基本的问题之一,其可以如[22]中所定义的:给定两个3D人脸S和S’,对应应该满足三个视角:i) S和S′具有相同的顶点数; iii)对应点位于相同的局部拓扑三角形上下文中。现有的密集对应方法[3,7,24,47]缺乏准确性,鲁棒性或自动化。此外,他们中很少有人在多个数据库上取得成功。除了数据规模之外,多个数据库的密集对应的挑战肯定会超过单个数据库:扫描的质量通常不可避免地被伪影破坏(例如:头发和眉毛)、缺失数据和离群值;面部形态由于像嘴巴张开和闭合的表情而显著变化;不同的数据库在分辨率上包含高可变性。为了解决这些挑战,我们提出了一种新的编码器-解码器,直接从多个不同的数据库的原始3D扫描学习人脸模型,以及建立它们之间的密集对应 我们的方法提供:i)基于PointNet的编码器,其学习3D面部的非线性身份和表情潜在表示;ii) 对应解码器,其能够为具有各种表达式和分辨率的扫描建立密集对应; iii)解码器可以插入到现有的基于图像的编码器中用于3D面部重建。具体来说,通过将原始扫描视为无组织的点云,我们探索了PointNet [50]的使用,用于将点云转换为身份和表情表示,解码器从中恢复其3D人脸形状。然而,由于缺乏地面实况密集对应,充分的监督往往不可用。因此,我们提出了一种弱监督的方法与合成和真实的3D扫描的混合物。 具有拓扑基础事实的合成数据有助于以监督的方式学习形状对应先验,这允许我们结合顺序不变的损失函数,例如。,倒角距离[21],用于真实数据的无监督训练。同时,表面法线损失保留了原始高频细节。 对于正则化,我们使用边长度损失以促使模板上的三角剖分拓扑和重构的点云相同。最后,拉普拉斯正则化损失提高了具有极端表情的嘴部区域的性能。上述策略允许网络从一大组原始3D扫描数据库中学习,而不需要对对应关系进行总之,这项工作的贡献包括:我们提出了一个新的编码器-解码器框架,首次直接从原始图像中联合学习人脸模型。表1:来自扫描的3D面部建模的比较。“经验。”是指是否学会表达潜在的空间,'Corr。是指训练时是否需要密集对应的扫描。方法数据集Lin./非L受试者数量Exp.Corr.BFM [48]BFM线性200没有是的GPMMs [45]BFM线性200是的是的LSFM [11,12]LSFM线性九千六百六十三没有是的[第19话]LYHM线性一千二百一十二没有是的Multil.模型[14]FWH线性150是的是的火焰[39]凯撒D3DFACS线性三千八百10是的是的VAE [4]专有农林20没有是的MeshAE [51]昏迷农林12没有是的Jiang等[32个]FWH农林150是的是的提出7个数据集农林一千五百五十二是的没有扫描多个3D人脸数据库,并在所有扫描之间建立密集的对应关系。⑶我们设计了一个弱监督学习方法和几个有效的损失函数的建议框架其可以利用来自合成数据的已知对应性并且以无监督的方式放松顶点对应性的倒角距离损失。我们证明了我们的非线性模型在保留3D扫描的高频细节方面的优越性,提供了紧凑的潜在表示,以及单图像三维人脸重建的应用。2. 相关工作三维人脸建模。传统的3DMM [7,8]通过PCA从有限的数据中建模几何变化。 Paysan等人 [48]构建BFM2009,这是一个公开可用的中性表情变形模型,它被扩展到情感面部形状[2]。Gerig等人。 [24,45]提出了高 斯 过 程 可 变 形 模 型 ( GPMM ) 并 发 布 了 新 的BFM2017。面部表情也可以用高阶概括来表示。Vlasic等人。 [67]使用基于多线性张量的模型来联合表示身份和表达变化。FaceWarehouse(FWH)[14]是一种流行的多线性3D人脸模型。最近的FLAME模型[39]还对头部旋转进行了建模。然而,所有这些工作都采用了线性空间,这是过度约束,可能无法很好地代表高频变形。深度模型已成功用于3D面部拟合,其从2D图像恢复3D形状[20,33然而,在这些作品中,线性模型是先验学习的,并在拟合过程中固定,不像我们的非线性模型是在训练过程中学习的。相比之下,应用CNN来学习更强大的3D人脸模型在很大程度上被忽视了。最近,Tran等人。 [63,64]学习回归3DMM表示以及基于解码器的模型。SfSNet [57]从2D图像而不是3D扫描中学习面部的形状,轮廓和照明分解。Bagautdinov等人[4]通过VAE直接从UV贴图学习非线性面部几何表示。Ranjan等人[51]第51话:一个人的幸福9410图2:我们的三维人脸建模方法概述。合成数据和真实数据的混合用于训练具有监督(绿色)和非监督(红色)损失的编码器-解码器网络。我们的网络可以用于三维密集对应和三维人脸重建。al mesh autocoder来学习形状和表达的非线性变化。请注意,[4,51]使用不超过20个受试者进行训练,并将3D数据编码为单个潜在向量。Jiang等[32]扩展[51]将3D面部分解为身份和表情部分。与我们的工作不同,这三种方法在训练中需要密集对应的3D扫描我们在Tab中总结了比较。1.一、三维面密集对应。作为一个基本的形状分析任务,对应关系已经在文献中得到了很好的研究。形状对应,也就是。配准、对准或简单地匹配[66],找到两个表面之间映射的粒度变化很大,从语义部分[28,53],组[17]到点[38]。在这个范围内,三维人脸的点到 点 对 应 是 最 具 挑 战 性 和 最 严 格 的 。 在 原 始 的3DMM[7]中,3D面部密集对应是用光流的正则化形式作为圆柱形图像配准任务来解决的 这仅在受试者具有相似种族和年龄的受限环境中有效。为了克服这一限制,Patel和Smith [47]使用薄板样条(TPS)[10]扭曲将扫描配准到模板中。或者,Amberget al. [3]提出了一种最优步长的非刚性迭代最近点配准算法. Booth等人 [11,12]在学习3DMM时定量比较这三种流行的密集对应技术。还提出了其他扩展[22,24,25,71]。许多算法[1,9,27]将密集对应视为3D到3D模型拟合问题。例如,在一个示例中,[9]提出了一种用于3D面部对应的多线性分组模型,以解耦身份和表情变化。Abre-vayaidee等人。 [1]提出了一种3D人脸自动编码器,具有基于CNN的深度图像编码器和多线性模型作为3D人脸拟合的解码器然而,这些方法需要具有初始对应关系的3D面部作为输入,并且需要具有初始对应关系的3D面部作为输入。在模型所表示的约束空间中考虑响应问题。虽然有见地和有用的,鸡和蛋的问题仍然没有解决[22]。总而言之,先前的工作分别解决了3D人脸建模和3D人脸密集对应的问题。然而,密集的对应关系是建模的先决条件。如果对应关系有误差,它们会累积并传播到三维建模中.因此,这两个问题是高度相关的,我们的框架首次同时处理它们。3. 该方法本节首先介绍了一种具有潜在表示的复合三维人脸形状模型。然后,我们提出了混合训练数据和我们的编码器-解码器网络。最后,我们提供了实现细节和面对重建推理。图2描述了我们的方法的概述3.1. 问题公式化在本文中,输出的三维人脸扫描表示为点云。每个密集对齐的3D面S∈Rn×3通过连接其n个顶点坐标表示为S= [x1, y1, z1;x2, y2, z2;· · ·;xn,yn,zn]。(一)我们假设三维人脸形状由身份和表情变形部分组成S=SId+∆SExp,(2)其中SId是身份形状,ΔSExp是表达差异。由于身份和表达空间是独立的,我们进一步假设这两个部分可以通过各自的潜在表示fId和fExp来描述。具体地说,如图在图2中,我们使用两个网络来解码形状分量SId和Δ SExp。9411表2:来自相关数据库的训练数据的总结。数据库受试者数量#Neu.样本数量#失效日期样本数量[70]第70话100100一千两千四百两千四百[69]第六十九话101>101一千零一十>606二千四百二十四博斯普鲁斯海峡[56]105299一千四百九十五两千六百零三两千六百零三FRGC [49]577三千三百零八六千六百一十六一千六百四十二一千六百四十二德克萨斯州-3D[30]116813一千六百二十六336336MICC [5]53103515−−BJUT-3D [6]500500五千−−真实数据一千五百五十二五二二四十七、二百六十二七千五百八十七九千四百零五合成数据一千五百一千五百一万五九千九千对应的潜在表征。形式上,给定a原始三维面集{Sraw}N ,我们学习编码器E:i i=1Sraw→fId , 估 计 身 份 和 表 情 形 状 参 数 fId∈RlId ,fExp∈RlExp的f Exp,身份形状解码器D Id:fId→SId,以及将形状参数解码为3D形状估计S Φ的表情形状解码器D Exp:fExp→SExp。最近在深度学习中对3D人脸形状进行编码的尝试包括点云、深度图[1]、基于UV图的网格[4]和网格表面[32,51]。点云是Kinect、iPhone的面部ID和结构光扫描仪使用的标准和流行的3D面部采集格式。因此,我们设计了一个深度编码器-解码器框架,直接将无组织的点集作为输入和输出密集对应的3D形状。在提供算法细节之前,我们首先介绍了用于弱监督学习的真实和合成训练3.2. 训练数据为了学习一个鲁棒的和高度可变的三维人脸模型,我们构建了七个公开可用的三维人脸模型的训练数据图3:八个三维人脸数据库中的每个数据库中的一个样本. 他们表现出各种各样的表情和决心。图4:预处理。(1)基于渲染图像的自动3D地标检测。(2)在标志点和预定义模板的引导下,3D扫描进行对齐和裁剪.在去除舌头上的点之后,合成示例包含53,215个对于合成示例,我们使用与模板相同的拓扑三角剖分来裁剪它们的面部区域,执行相同的归一化,并将具有地面真实对应的结果3D面部集表示为{Sgt}M,其顶点数也是n。我i =1具有各种身份、年龄、种族表达式和分辨率,列在选项卡中。二、然而,对于这些真实的扫描,在密集对应上没有相关的地面实况。最近,发布了一些3D数据库,例如4DFAB[16],Multi-Dim [40]和UHDB 3D [61,68]。虽然包括它们可能会增加训练数据的量,但它们不会提供七个数据库之外的新类型的我们没有使用Bosphorus数据库中的遮挡和姿态(自遮挡)数据,因为极端遮挡或缺失数据会破坏3D人脸的语义对应一致性。对于BU4DFE数据库,我们手动选择每个受试者一个中性和24个为了保持真实数据和合成数据之间的平衡,我们使用BFM2009合成了1,500个受试者的3D人脸,并使用3DDFA [73]表达模型为每个受试者生成6个随机表达。图3显示了八个数据库中每个数据库的一个示例扫描。预处理和数据扩充如图所示。4.首先从BFM平均形状中手工裁剪出一个由n=29,495个顶点和58,366个三角形组成的三维人脸拓扑模板。然后,我们将模板归一化为单位球体。原始9412我由于原始扫描是从不同距离采集的无论是定向还是传感器,它们的点云在姿态和尺度上都表现出巨大的变化。 因此,在将它们馈送到我们的网络之前,我们应用相似性变换,通过使用五个3D地标将原始扫描与模板对齐。在[11]之后,我们在相应的渲染图像上检测2D地标,从中我们通过反投影获得3D地标(图11)。4(1))。对齐后 最后我们随机采样n个点作为输入Sinput∈ Rn×3。如果顶点数小于n,我们应用插值[37]前一段时间在Tab。在图2中,我们通过重复随机采样若干次来执行中性扫描的数据增强,使得每个受试者具有10个中性训练扫描。注意,上述预处理也应用于合成数据,除了它们的3D界标由BFM提供结果,输入原始数据和合成数据两者的点排序是随机的。3.3. 损失函数这种编码器-解码器架构是端到端训练的。我们定义了三种类型的损失来约束相应的9413我我我我我.2(问)(问)n(问)¨.p∈S2对输出的形状和模板进行离散化处理,同时保留了原始的全局和局部信息。总损失为:L=Lvt+λ1L法线+λ2L边缘,(3)其中顶点损失Lvt是为了约束位置对于网格顶点,法线损失L法线是为了加强表面法线的一致性,而边长度损失是为了保留3D面的拓扑。这里,我们考虑两种训练场景:合成和真实数据。监督通常可用于具有地面实况的合成数据(监督情况),但是在没有对应标签的情况下获得真实扫描(无监督情况)。监督损失在监督情况下,给定形状Sgt(和S)和预定义的三角形拓扑,我们可以容易地计算相应的表面法线ngt(和n)和边长egt(和e)。因此,对于垂直x损失,我们可以使用L1loss Lvt(S,Sgt)=||Sgt−S||1 .一、我们通过余弦相似性距离Lnormal(n,ngt)=1(1−ngt·ni). 如果预测的法线具有类似的如果将方向作为基础事实,则点积ngt·ni将接近1,并且损失将很小,反之亦然。 第三项L_edge促使预测形状中的边缘长度与地面实况之间的比率接近1。在[28]之后,边缘长度损失被定义为:图5:(a)qi是p i的最近顶点x,q′是通过正常射线方案计算的。(b)预定义的嘴部区域。这种最接近顶点方案的缺点是对应物q i不一定是高曲率区域中对应的真实目标(图1B)。5(a))。因此,损失不能够在S原始中捕获高频细节。为了解决这个问题,如[46]中所建议的,我们考虑计算源自pi的法线与Sraw的最近交点的法线方法。如图5(a),则在尖锐区域中的法向射线将找到更好的对应物q′。在训练过程的早期阶段,我们使用计算效率更高的最接近的顶点方案。当损耗达到饱和时,我们切换到使用正常射线方案。对于许多表达扫描,一些舌点已被记录时,嘴是开放的,这是硬的.¨. 联系我们¨。-是的建立通信。为了解决这个问题,在顶部在Eqn的损失3、我们在口部区域中加入一个拉普拉斯算子边棱1Σ。 ij正则化损失Llap=LSmouth保持相对L(S,S)=.gtgt¨− 1。 、(4)2#E. ¨S(i,j)∈Ei -Sj ¨.相邻顶点之间的位置这里L是离散Laplace-Beltrami算子和S其中E是模板的固定边图。在模板和真实扫描之间的对应关系不可用的情况下,我们仍然优化重建,但将变形规则化为对应关系。对于重建,我们使用倒角距离作为Lvt(S,Sraw),输入扫描Sraw和预测的S嘴巴就是嘴巴区域顶点,如图1中预定义的5(b)。关于拉普拉斯正则化损失的详细信息,请参见[36]3.4. 实现细节编码器/解码器网络我们采用PointNet [50]架构作为基本编码器。如图二、编码器采用PointNet的1024-dim输出,并ΣLvt(S,Sraw)=min p−qΣ minp−q2,将两个并行全连接(FC)层附加到gener-吃的身份和表达的潜在表征。 我们设定p∈Sq∈Sraw2q∈Srawp∈S2(五)IId=IExp=512。译码器采用两层MLP网络,其输入输出端分别为其中p是预测形状中的顶点,q是输入扫描中的顶点。当minq∈Srawp−q2>或min p − q2>时,我们将q视为飞行顶点,误差将不计算在内。在这种无监督的情况下,我们进一步定义了表面法 线 上 的 损 失 来 表 征 高 频 特 性 , Lnormal ( n,nraw),其中q是p的最接近的顶点x,计算倒角距离时发现,nraw为实际扫描中观察到的法线对于边缘长度损失,L边缘被定义为与等式1相同。4.第一章细化在 的 无监督 案例,的 正常损耗L_n_r_m_l(n,n_r_a_w)总是可以找到S_r_a_w 中 的 最 近的顶点x_q。9414{l Id(l Exp),1024}(ReLU),{1024,n×3}。训练过程我们分三个阶段训练编码器-解码器网络。首先,我们用中性示例训练编码器和身份解码器。然后,我们固定的身份解码器和训练表达式解码器与表达式的例子。最后,进行端到端联合训练。在前两个阶段,我们只使用合成数据开始训练。当损失达到饱和时(通常在10个时期内),我们继续使用合成和真实数据的混合物进行另外10个时期的训练。我们通过Adam优化网络,初始学习率为0。0001学习率每5个epoch降低一半。我们9415i=1ˆ图6:反映损失组成部分贡献的定性结果。第一列是输入扫描。列2-4示出了具有不同损耗组合的重构形状。探索不同的批量大小,包括每批50%合成数据和50%真实数据等策略,并找到最佳批量大小为1。λ1和λ2控制正则化对Lvt的影响。两者都设置为1。6×10−4在我们的实验中。 我们设置=0。001和L圈图7:原始扫描(顶部)及其具有颜色编码的密集对应的重建(底部),对于一个BU 3 DFE受试者,在七种表达中:愤怒(AN)、厌恶(DI)、恐惧(FE)、高兴(HA)、中性(NE)、悲伤(SA)和惊讶(SU)。对应的估计形状的最近邻顶点。通常,由于最近邻搜索,该误差的值可能非常因此,它有时不能忠实地反映稠密对应的准确性。为了更好地评估对应准确性,现有的3D面部对应工作[22,24,55]采用语义地标误差。与预先标记的地标在模板面,很容易找到p个3D地标与是0。005。相同的指数对估计的形状。通过比较带手动注释{l*}p ,我们可以计算iΣi=1¨ ¨3.5. 单幅图像形状推断语义标志错误1péé我pi=1 ¨ li−l ¨。 请注意,如图2、我们的身份和表情形状解码器可以用于图像到形状的推理。具体来说,我们采用SOTA面部特征提取网络SphereFace [44]作为基本图像编码器。该网络由20个卷积层和FC层组成,并将FC层的512-dim输出作为人脸表示。我们附加另外两个平行的FC层,分别产生身份和表达的潜在表示。在这里,我们使用来自7个真实数据库的原始扫描来渲染图像作为我们的训练样本。利用学习到的地面真实身份和表达潜码,我们采用L1潜在损失来微调该图像编码器。由于编码器在面部特征提取和识别方面表现出色。潜在的损失有很强的监督,编码器微调100个epoch,批量大小为32。4. 实验结果实验结果表明,该方法具有较好的稠密对应精度、形状和表情的表达能力以及单幅图像的人脸重建能力。三维形状分析的理想评估指标是每个顶点的误差。然而,该度量不适用于评估真实扫描,这是由于缺乏密集的对应性地面实况。另一种度量是逐顶点拟合误差,其已广泛用于3D面部重建[43]和3D面对面拟合,例如,LSFM [11],GPMM [45].每个顶点拟合误差是测试形状的每个顶点与由于不一致和不精确的注释,该误差通常比每顶点拟合误差大得多。选项卡. 6比较了这三个评价指标。4.1. 消融研究我们定性地评估了每个损耗分量的功能参见图6、仅使用顶点损失严重损害了表面光滑性和局部细节;增加表面法线损失保留了高频细节。添加边长度项细化局部三角形拓扑。这些结果表明,在这项工作中提出的所有损耗分量有助于最终的性能。4.2. 密集对应精度我们首先报告的对应准确性上BU3DFE数据库.BU3DFE包含100名受试者中的每名受试者的一个中性和六个表情扫描,具有四个强度水平。遵循[55]和GPMM[24]中的相同设置,我们使用最高水平的所有中性扫描和表情扫描的所有p= 83个 具体地,将所估计的形状的界标与提供有BU3 DFE的手动注释的界标进行比较。我们比较了四个国家的最先进的密集对应方法,NICP[3] , Bolkart 等 人 。 [9] , Salazaretal.[55][56][57][58][59][其中,NICP已被广泛用于构建中性变形模型,如BFM2009和LSFM。为了公平的比较,我们重新实现了NICP与额外的地标约束,使它可以建立密集的对应表达9416表3:BU 3 DFE上语义标志误差(mm)的平均值和标准差的比较。面部区域NICP [3]Bolkart等[9]第一章Salaza等人[55个]GPMMs [24]提议(退出)拟议(in)相对杂质左眉7 .第一次会议。49±2。048. 71±3。32六、28±3。304.第一章69±4。64六、25±2。584.第一章18±1。6210个。百分之九右眉六、92±2。398. 62±3。02六、75±3。51五、35±4。694.第一章57±3。033 .第三章。97±1。70二十五百分之八左眼3 .第三章。18±0。763 .第三章。39±1。003 .第三章。25±1。843 .第三章。10±3。43二、00±1。321 .一、72±0。8444. 百分之五右眼3 .第三章。49±0。804.第一章33±1。163 .第三章。81±2。063 .第三章。33±3。53二、88±1。29二、16±0。82三十五百分之一鼻子五、36±1。39五、12±1。893 .第三章。96±2。223 .第三章。94±2。584.第一章33±1。243 .第三章。56±1。089 .第九条。占6%嘴五、44±1。50五、39±1。81五、69±4。453 .第三章。66±3。134.第一章45±2。024.第一章17±1。70-13百分之九下巴12个。40±6。1511个国家。69±6。397 .第一次会议。22±4。7311个国家。37±5。857 .第一次会议。47±3。01六、80±3。24五、百分之八左脸12个。49±5。51十五岁19±5。21十八岁48±8。5212个。52±6。0412个。10±4。069 .第九条。48±3。42二十四岁百分之一右脸十三岁04±5。80十三岁77±5。47十七岁36±9。1710个。76±5。34十三岁17±4。5410个。21±3。07五、百分之一Avg.7 .第一次会议。56±3。928. 49±4。298. 09±5。75六、52±3。86六、36±3。92五、14±3。0321岁百分之二表4:语义界标误差的比较(平均值+标准偏差)mm)。在[22]中定义了标志。地标克留索等人[18个国家]吉朗等人[74个国家]风扇等人[22日]提出ex(L)五、87±3。114.第一章50±2。97二、62±1。541 .一、79±1。01en(L)4.第一章31±2。443 .第三章。12±2。09二、53±1。661 .一、61±0。97n4.第一章20±2。073 .第三章。63±2。02二、43±1。36二、69±1。43ex(R)六、00±3。033 .第三章。74±2。79二、60±1。71二、00±0。95en(R)4.第一章29±2。03二、73±2。14二、49±1。651 .一、82±0。93PRN3 .第三章。35±2。00二、68±1。48二、11±1。17二、36±1。37Ch(L)五、47±3。45五、31±2。05二、93±2。14二、58±2。61Ch(R)五、64±3。584.第一章38±2。08二、84±2。17二、60±2。58LS4.第一章23±3。213 .第三章。31±2。65二、35±2。86二、75±2。77李五、46±3。294.第一章02±3。804.第一章35±3。934.第一章02±3。97Avg.4.第一章88±0。913 .第三章。74±0。83二、73±0。62二、42±0。70三维扫描。对于其他三种方法,我们报告的结果,从他们的论文。Salazar等人[55]和Bolkartet al. [9]是基于多线性模型的3D人脸拟合方法。GPMM [24]是最近的基于高斯过程配准的注意这四个基线确实需要标记的3D地标作为输入,而我们的方法不需要。为了进一步评估所提出的方法对于新扫描数据的泛化能力,我们进行两个系列的实验:(i)使用来自BU 3 DFE数据库的数据进行训练,表示为Proposed(in),以及(ii)使用BU 3 DFE数据库外部的数据进行训练,表示为Proposed(out)。如Tab.所示 3,建议的(中)设置显著减少误差至少21。2%w.r.t.最佳基线这些结果证明了所提出的方法在稠密对应中的优越性。Proposed(out)setting的误差略有增加,但仍低于基线。相对较高的语义界标错误归因于不精确的手动注释,特别是在语义歧义度轮廓上,即,、下巴、左脸和右脸。一些示例密集对应结果在图1中示出。7、补.我们进一步比较了语义标志错误与最近的SOTA对应方法[22],这是基于ICP的方法的扩展,在高分辨率FRGC v2.0数据库[49]上。我们还比较了两个三维地标定位作品[18,74]。按照[22]中的相同设置,我们计算了4,007次扫描的p= 10个标志的平均值和标准基线的结果来自他们的论文。如Tab.所示。4,我们的方法将SOTA [22]提高了11。4%,保留9417表5:3D扫描重建比较(每顶点误差,mm)。 lld表示潜在表示的维度。述盖4080160线性3DMM [48]1 .一、6691 .一、4501 .一、253非线性3DMM [64]1 .一、4401 .一、2271 .一、019提出1 .一、2581 .一、1070的情况。946图8:形状表示功效比较。我们的重建紧密匹配的人脸形状和更高的昏暗的潜在空间可以捕捉更多的局部细节。高分辨率3D模型的高频细节(见图七是补。).界标误差比BU3 DFE小得多,因为这里使用的注释比BU3DFE更 由于离线训练过程,我们的方法比现有的密集对应方法快两个数量级:0的情况。26秒(使用GPU时为2 ms)与五十七[3]的48对164。60年代的[22]。4.3. 表示能力身份形状我们比较了拟议的三维人脸模型的能力与线性和非线性的3DMM上的BFM。BFM数据库提供了10个测试面部扫描,这些测试面部扫描不包括在训练集中。由于这些扫描已经建立了密集的对应关系,我们使用每个顶点的错误进行评估。为了公平比较,我们训练了具有不同潜在空间大小的不同模型如Tab.所示。5、与线性或非线性模型相比,该模型具有更小的重建误差。此外,所提出的模型更加紧凑。它们可以实现与潜在空间大小加倍的线性和非线性模型相似的性能。图8显示了三个模型重建的视觉质量9418图9:表达表示功效比较。我们的结果比3DDFA更好地匹配表情变形。表6:两个数据库上的评价度量比较。度量BFMBU3DFE逐顶点拟合误差逐顶点误差语义界标误差0的情况。572毫米0的情况。946毫米1 .一、493毫米1 .一、065毫米−五、140毫米表情形状我们将所提出的3D人脸模型的表情表示能力与3DDFA表情模型[ 73 ]进行了比较,3DDFA表情模型[73]是一种源自FaceWarehouse [14]的29维模型。我们使用来自[29]的79-dim表达模型来随机生成每个BFM测试样本的具有高斯噪声的表达差异。这些数据被视为测试集。为了公平比较,我们训练具有相同表达潜在空间大小( IExp=29)的模型。我们的模型具有比3DDFA:1小得多的每顶点误差。424毫米vs. 2. 609毫米图9示出了四次扫描的重建的视觉质量BU3DFE和BFM上的形状表示表6将我们的模型的形状表现力与三个不同的度量进行比较。按照Tab中的设置。5,我们进一步计算BFM测试样本的每个顶点拟合误差和语义界标误差(p= 51)。 我们还在表3中提供了BU3DFE重建的逐顶点拟合误差。从Tab。6、与理想的逐点误差相比,语义界标误差较大,而逐点拟合误差较小。COMA上的形状表示我们进一步在大规模COMA数据库上评估我们的形状表示[51]。为了与FLAME [39]和Jiang等人进行公平比较。[32],我们遵循与[32]相同的设置,并将我们的隐向量大小设置为4用于身份和4用于表达。在Tab。7,我们的方法相比,SOTA方法表现出更好的形状 虽然MeshAE [51]实现了较小的误差(1. 160毫米),比较我们的与它是不公平的,因为它有编码3D面的优势整合成一个单一的载体而不分解成身份和表达。此外,它们的网格卷积需要密集对应的3D扫描作为输入.4.4. 单幅图像三维人脸重建在[59]中的相同设置下,我们将我们的单图像形状推断与先前的工作进行了定量比较。表7:与最新技术水平的比较(每顶点误差,mmCOMA数据库上的三维人脸建模方法。序列提出Jiang等[32个]火焰[39]光着牙齿1 .一、6091 .一、695二、002脸颊1 .一、5611 .一、706二、011眉1 .一、4001 .一、4751 .一、862high笑1 .一、5561 .一、7141 .一、960唇后1 .一、5321 .一、752二、047唇1 .一、5291 .一、7471 .一、983嘴朝下1 .一、3621 .一、655二、029口端1 .一、4421 .一、551二、028口中部1 .一、3831 .一、757二、043张着嘴1 .一、3811 .一、3931 .一、894口侧1 .一、5021 .一、748二、090嘴角上扬1 .一、4261 .一、528二、067Avg.1 .一、4741 .一、6431 .一、615图10:FaceWarehouse数据库的样本上的单图像3D面部重建的定量评估。FaceWarehouse数据库的9个主题(180张目视和定量比较如图1B所示。10个。我们使用非线性3DMM [64],Tewari [59]和Garrido等人实现了同等的结果。[23],同时超过了所有其他基于CNN的回归方法[52,62]。5. 结论本文提出了一种创新的编码器-解码器,共同学习一个强大的和富有表现力的人脸模型,从一组不同的原始三维扫描数据库,并建立密集的对应关系之间的所有扫描。通过使用合成的和真实的3D扫描数据的混合物与一个有效的弱监督学习为基础的方法,我们的网络可以保存3D扫描的高频细节。综合实验结果表明,该方法能有效地建立点到点的稠密对应关系,在身份和表情方面具有更高的表现力,适用于三维人脸重建。致谢研究由陆军研究办公室赞助,并在授权编号W911 NF-18-1-0330下完成。本文件中包含的观点和结论是作者的观点和结论,不应被解释为代表陆军研究办公室或陆军研究中心的官方政策,无论是明示还是暗示。美国政府。美国政府有权为政府目的复制和分发重印9419本,尽管此处有任何版权标记。9420引用[1] 维多利亚·弗尔·纳兹·阿布雷·埃瓦亚、斯特·法尼·维尔和埃德蒙·博耶。用于3D人脸模型学习的多线性自动编码器。在WACV,2018。一、三、四[2] Brian Amberg,Reinhard Knothe,and Thomas Vetter.表情不变的三维人脸识别与变形模型。InFG,2008. 2[3] Brian Amberg,Sami Romdhani,and Thomas Vetter.用于表面配准的最优步长非刚性icp算法。CVPR,2007。二三六七[4] Timur Bagautdinov 、 Chenglei Wu 、 Jason Saragih 、Pascal Fua和Yaser Sheikh。使用合成VAE建模面部几何形状。在CVPR,2018年。一、二、三、四[5] Andrew D Bagdanov , Alberto Del Bimbo , IacopoMasi.Florence 2D/3D 混合人脸 数据集。在J-HGBU车间。ACM,2011年。4[6] 殷宝才、孙燕峰、王成章、葛云。BJUT-3D大规模三维人脸数据库和信息处理。计算机研究与发展杂志,6:020,2009。4[7] Volker Blanz和Thomas Vetter。用于合成3D面的可变形模型SIGGRAPH,1999年。一、二、三[8] Volker Blanz和Thomas Vetter。基于拟合三维变形模型的人脸识别TPAMI,25(9):1063-1074,2003. 2[9] Timo Bolkart和Stefanie Wuhrer3D面的分组在ICCV,2015年。三六七[10] 弗雷德湖布克斯坦主要经纱:薄板样条与变形分解。TPAMI,11(6):5673[11] James Booth 、 Anastasios Roussos 、 Allan Ponniah 、David Dunaway 和 Stefanos Zafeiriou 。 大 型 3D 变 形 模型。IJCV,126(2-4):233-254,2018. 一二三四六[12] James Booth、Anastasios Roussos、Stefanos Zafeiriou、Allan Ponniah和David Dunaway。从10,000张面孔中学习的3D变形模型在CVPR,2016年。一、二、三[13] Alan Brunton,Timo Bolkart,and Stefanie Wuhrer.多线性小波:人脸的统计形状空间。2014年,在ECCV。1[14] 曹 晨 、 翁 彦 林 、 周 顺 、 童 一 英 、 周 坤 。Facewarehouse:用于视觉计算的3D面部表情数据库。TVCG,20(3):413-425,2014年。一、二、八[15] 曹晨、吴洪志、翁彦林、邵天嘉、周坤。基于图像的动态化身的实时面部动画。TOG,35(4):126:1-126:12,2016. 1[16] Shi
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功