没有合适的资源?快使用搜索试试~ 我知道了~
超过2500FPS的非线性3DMM:联合纹理形状卷积网格解码器
1超过2500FPS的密集3D人脸解码:联合纹理形状卷积网格解码器周宇翔*1邓建康*1,3Irene Kotsia2 Stefanos Zafeiriou1,31伦敦帝国理工学院2米德尔塞克斯大学3Facesoft{yuxiang.zhou10,j.deng16,s.zafeiriou}@ imperial.ac.uk,i. mdx.ac.uk摘要3D可变形模型(3DMM)是使用一组线性基和更具体的主成分分析(PCA)来表示面部纹理和形状变化3DMM被用作统计先验,通过求解非线性最小二乘优化问题从图像重建3D人脸。最近,3DMM被用作用于训练非线性映射的生成模型(即,通过深度卷积神经网络(DCNN)从图像到模型的参数然而,所有上述方法都使用完全连接的层或参数展开UV空间上的2D卷积在本文中,我们提出了第一个,据我们所知,非线性3DMMs通过学习联合纹理和形状自动编码器使用直接网格卷积。我们演示了如何使用这些自动编码器来训练非常轻量级的模型,这些模型以超过2500 FPS的速度在野外执行彩色1. 介绍20年前,布兰斯和维特展示了一项引人注目的成就[2].他们表明,从单个图像重建3D面部几何形状是可能的这是可能的,通过解决一个非线性优化问题,其解决方案空间是由一个线性统计模型的3D面部形状和纹理,所谓的3D变形模型(3DMM)的限制。基于3DMM的方法仍然是3D面部重建的最新技术,即使是从野外捕获的图像[6,4,5]。在过去的两年中,大量的研究工作都是关于如何利用深度卷积神经网络(DCNN)的强大功能第一个这样的方法是训练从图像到参数的回归DCNN,*平等捐款。图1.一个典型的非线性3DMM [38]是一个DCNN训练,当给定一个或多个2D图像时,分别恢复形状和纹理。我们提出了一种非线性3DMM,通过几何卷积网络来联合建模形状和纹理。我们的彩色网格解码器可以在紧凑的模型尺寸下运行超过2500 FPS,因此与PCA模型相比,速度更快,参数更小3DMM [36]或使用3DMM来合成图像并制定图像到图像转换问题,以便使用DCNN [31]估计深度。最近,更复杂的基于DCNN的方法使用自监督技术[17,37,38]进行训练,并使用可微分图像形成架构和可微分渲染器[17]。最新的方法,如[37,38]和[34]使用自我监督,在纹理和形状方面超越了标准的3DMM。特别是,[34]使用了3DMM模型以及可以捕获3DMM空间之外的信息的附加网络结构(称为校正),以表示形状和纹理。 [37,38]中的方法试图学习非线性空间(即,解码器,称为非线性3DMM)的形状和纹理直接从数据。然而,为了避免训练性能差,这些方法使用3DMMs拟合用于模型预训练。10971098Σ在所有上述方法中,以解码器形式的线性或非线性的3DMM被建模为具有完全连接的节点[36],或者特别是在纹理空间中,具有展开UV空间上的2D卷积[37,38]。在本文中,我们采取了一个完全不同的方向。也就是说,受几何深度学习(GDL)研究的启发,这是一个试图将DCNN推广到非欧几里德域(如图/流形/网格)的领域[33,12,21,7,27],我们首次尝试开发一种非线性3DMM,通过使用网格卷积来描述形状和纹理。除了使用网格卷积更直观地定义非线性3DMM之外,它们的主要优点是它们由具有非常少量参数的网络定义,因此可以具有非常小的计算复杂度。总之,我们的论文的贡献如下:• 我们演示了如何找到密集或稀疏对应的最新技术(例如,densereg [18],地标定位方法[40])可以很容易地扩展通过网格卷积解码器估计3D面部几何信息。• 我们提出了第一个,据我们所知,非线性三维数字万用表使用网格卷积。拟议该方法直接在网格域上解码形状和纹理,具有紧凑的模型大小(17MB)和惊人的效率(CPU上超过2500 FPS这种解码器与最近提出的解码器不同之处在于[27]其仅解码3D形状信息。• 我们提出了一种编码器-解码器结构,该结构直接从野外2D面部图像中重建纹理和形状。由于效率高,提出的彩色网格解码器(CMD),我们的方法可以估计超过300FPS的3D形状(对于整个系统)。2. 相关工作在下文中,我们简要地涉及文献中的相关主题,例如线性和非线性3DMM表示。线性3D变形模型。在过去的二十年里,用于表示和生成3D人脸的方法是主成分分析(PCA)。PCA用于建立 统 计 3D 形 状 模 型 ( 即 , 3D Mor- phable Models(3DMMs))在许多作品中[2,3,29]。最近,PCA被用于构建3D面部[6]和头部[11]的大规模统计模型。这是非常conve-纹理的变化。然而,这在描述野外条件下捕获的图像中的纹理变化性方面是相当有限的。非线性3D变形模型。在过去的一年中,首次尝试学习非线性3DMM [37,38,34]。这些3DMM可以被视为使用DCNN的解码器,与图像编码器耦合特别是,该方法[34]使用自监督来学习具有全连接层的新解码器,该全连接层将线性3DMM与可以重建任意图像的新结构相结合。类似地,方法[37,38]在UV贴图上使用全连接层或2D卷积来解码形状和纹理。所有上述方法使用全连接层或展开空间上的2D卷积来定义非线性3DMM解码器。然而,这些方法导致具有大量参数的深度网络,并且不利用3D面部结构的局部几何形状因此,解码器,使用卷积直接在非欧几里德面部网格域应该建立。非欧几里德域的深度学习领域,也被称为几何深度学习[7],最近得到了一些普及。第一批工作包括[23]提出了所谓的MeshVAE,它使用[39]和CoMA [27]中的卷积运算符训练变分自动编码器(VAE),该卷积运算符使用具有频谱Chebyshev滤波器的类似架构[12]和额外的空间池来生成3D面部网格。作者证明,CoMA可以表示更好的面部表情比PCA在一个非常小的维度只有八个维度的潜在空间。在本文中,我们提出了第一个自动编码器,直接使用网格卷积联合纹理和形状表示。这就提出了一种高效的彩色网格解码器,可用于野外数据的三维3. 该方法3.1. 彩色网格自动编码器网格卷积。我们定义了一种基于无向连通图G =(V,E)的网格自动编码器,其中V ∈ Rn×6是一个包含节点形状的n个顶点的集合(例如:x,y,z)和纹理(例如,r,g,b)信息,E ∈ {0,1}n× n是一个对顶点间连接状态进行编码的邻接矩阵。根据[12,26],非正规化图拉普拉斯算子被定义为L=D− E ∈Rn×n,其中D∈Rn×n是用于表示和生成面以解耦面的组件,对角矩阵,其中Dii=jEij和归一化的def-社会身份的变化来自于表达的变化。因此,引入了统计混合形状模型,仅表示使用PCA的表达变化[22,9]。原始的3DMM [2]使用PCA模型来描述初始化是L=I n−D−1/2ED−1/2,其中I n是单位矩阵。拉普拉斯算子L可以通过傅立叶基U =[u0,. . . ,un−1]∈ Rn× n使得L = U ΛUT其中Λ =diag([λ0,. . .,λn−1])∈Rn× n. 图形1099图2.所提出方法的训练程序。对于受控数据,我们采用自动编码器损失。对于野外数据,我们利用自监督重建损失。这两个模型都使用共享的彩色网格解码器进行端到端的联合训练。我们的脸表示x∈ Rn×6的傅里叶变换则被定义为x∈Rn=UTx,其逆变换为x=Ux∈Rn。在一个图上的卷积运算可以被去-通过使用递归切比雪夫多项式[12,26]用核gθ公式滤波器gθ可以被参数化为K阶的截断切比雪夫多项式展开,KΣ−1gθ(Λ)=θkTk(Λ),(1)k=0其中θ∈RK是切比雪夫系数的向量,Tk (Λ )∈Rn×n是在缩放拉普拉斯算子Λ=2Λ/λmax−In处估计的k阶切比雪夫ev 多项式。 Tk可以通过T k(x)=2xT k−1(x)−Tk−2(x)递归计算,其中T0=1且T1= x。光谱卷积可以定义为:Fin对于上采样,在下采样步骤期间直接保留的顶点经历卷积变换。使用记录的重心坐标将在下采样期间丢弃的顶点上采样网格,通过稀疏矩阵乘法Vu=QuVd有效地预测了TicesVu。3.2. 彩色网格解码器在野外野外非线性3DMM拟合以无监督/自监督方式设计。由于我们能够用彩色网格自动编码器构造联合形状纹理基,因此该问题可以被视为基与重建3D面部的最佳系数之间的乘法。从神经网络的角度来看,这可以被视为图像编码器EI(I;θI),其被训练以回归到3D形状和纹理,记为fSA。如图2,使用2D卷积网络对野外图像进行编码,然后使用yj=i=1gθi,j(L)xi,(2)网格解码器D(fSA;θD),其权重在网格自动编码器中的解码器[10]之间共享。但其中x∈Rn×Fin是输入,y∈Rn×Fout是输出。整个滤波运算y=g θ(L)x是非常有效的,仅需O(K| E|)操作。网格下采样和上采样。我们遵循[26]采用二进制变换矩阵Qd∈ {0,1}n×m来执行具有m个顶点的网格的下采样,使用另一变换矩阵进行上采样Qu∈Rm×n.通过迭代收缩顶点对来计算Qd联合形状纹理解码器的输出是单位球体内与线性3DMM [4]类似,需要相机模型将3D网格从以对象为中心的笛卡尔坐标投影到相同笛卡尔坐标中的图像平面中。投影模型在这项工作中,我们采用针孔相机模型,它利用了透视变换模型。投影操作的参数可以用公式表示如下:在最小化二次误差的约束下[15]。在下采样期间,我们存储重心坐标c =[p x,py,pz,ox,oy,oz,u不x,uy,uz,f],(3)使得上采样步骤可以添加具有相同重心位置信息的新顶点其中p、o、u分别表示笛卡尔坐标中摄像机位置、取向和右上方向。 f是控制透视投影的视场(FOV)。1100第我们还将照明参数与摄像机参数连接在一起,作为将由图像编码器预测的渲染参数假设三个点光源和恒定的环境光,总共有12个照明参数。为了简化,我们将渲染参数m =[cT,lT]T表示为大小为22的向量,投影模型为函数φI=P(D(fSA);m):R3 N→ R2 N。可微分渲染器。为了使网络端到端可训练,我们引入了一个可微分渲染器[17]来将输出网格D(fSA)投影到图像平面上。l1范数是按像素计算的损失函数。的渲染器(也称为光栅化器)为图像平面上的每个像素生成重心渲染过程涉及Phong着色[25]和根据重心坐标进行插值。此外,相机和照明参数计算在同一框架中。整个流水线能够被端到端地训练,其中损失梯度通过可微分渲染器反向传播。损失我们已经制定了一个损失函数,联合应用于受控的彩色网格自动编码器和野生彩色网格解码器,从而实现监督和自我监督的端到端训练。现将其表述为-低:姿态面部数据,其通过[40]的剖析方法CelebA数据集[24]是一个大规模的面部属性数据集,具有超过200k的名人图像,其中涵盖了大的姿势变化和背景杂波。每个训练图像被裁剪为具有随机扰动的索引68个面部标志的边界框,以模拟粗糙的面部检测器。我们对AFLW 2000 -3D [40],300 VW [30]和CelebA测 试 集 [24] 进 行 了 广 泛 的 定 性 实 验 。 我 们 还 与FaceWarehouse [8]和Florence [1]上的先前工作进行了定量比较,其中精确的3D网格可用于评估。FaceWare-house是一个由Kinect RGBD摄像头收集的3D面部表情数据库。150名候选人年龄从7岁到80岁不等,来自不同族裔。Florence是一个3D人脸数据集,包含53个主题,其地面真实3D网格从结构光扫描系统中获取。4.2.实现细节网络架构。我们的架构包括四个子模块,如图所示2,命名为图像编码器[37,38],彩色网格编码器[26],共享彩色网格arg minθEM,θEI,θD,mLrec + λLrender.(四)[26]和可微分渲染模块[17]。图像编码器部分将形状为112×112的输入图像其中,目标函数:Σ112×3,然后是10个卷积层。它将输入图像的维数降为7×7×256,Lrec=+||2||2我Σ||1(5)||1(5)我一个完全连接的层,它构造了一个256×1维的嵌入空间每个卷积层后面都是一个批处理规范化层和一个ReLU激活层。所有卷积层的内核大小为3,并且对于任何下采样卷积层,步长为2有色的形状和纹理重建。彩色网格自动编码器,其中l2和l1范数分别应用于形状S和纹理A。术语:ΣL=|| P(D(E(I ;θ);θ); m)−I||(六)网格解码器采用大小为256×1的嵌入,并解码为大小为28431×6的彩色网格(3个形状和3个纹理通道)。编码器/解码器由4个geo-[26]每一个人都是一个人,都是一个人。渲染我I iEIDi1由减少/增加4倍的顶点数量每个图卷积-表示在野生图像时,适用于面具,只有可见的面部像素。我们使用λ=0。01,逐渐增加到1。0在训练期间。4. 实验结果4.1. 数据集我们使用受控数据(3DMD [13])和野生数据(300W-LP [40]和CelebA [24])来训练我们的方法。3DMD数据集[13]包含约21k原始扫描的3,564个具有表达变异的唯一身份。300 W-LP数据集[40]由大约60k大的在图像层之后是与图像编码器中的ReLU激活函数类似的ReLU激活函数。培训详情。(1)受控彩色网格自动编码器和(2)野生彩色网格解码器都是端到端联合训练的,尽管每个都使用不同的数据源。这两个模型都是用Adam优化器训练的,初始学习率为1 e-4。学习率衰减应用于每个时期的0.98的速率我们训练模型200个epoch。我们用随机翻转,随机旋转,随机从136×136的输入缩放和随机裁剪到112×112的大小。1101i=1SA4.3. 彩色网格自动编码器的烧蚀研究重建能力。我们比较了线性和非线性3DMM在表示具有不同嵌入维度的真实世界3D扫描方面的能力,以强调我们的彩色网格解码器的紧凑性。在这里,我们使用来自3DMD数据集的10%的3D人脸扫描作为测试集。3D扫描彩色网格解码器线性64 128 256 178表达式嵌入照明嵌入尺寸形状纹理PCAfS/A =640的情况。03130的情况。0196PCAfS/A =1280的情况。02800的情况。0169PCAfS/A =1850的情况。02370的情况。0146fS=640的情况。0304-fS=1280的情况。0261-fS=2560的情况。0199-fSA=640的情况。02860的情况。0325fSA=1280的情况。02200的情况。0271fSA=2560的情况。01330的情况。0228表1. 3D扫描面部重建比较(形状的NME和纹理的11通道误差)。如图1顶部所示。3、比较了线性模型和非线性模型重建结果的视觉质量。为了量化形状建模的结果,我们使用归一化平均误差(NME),其是地面实况形状与通过眼间距离归一化的重建形状之间的平均每顶点误差。对于纹理建模的评价,我们采用逐像素平均绝对误差(MAE)之间的地面实况和重建的纹理。如Tab.所示。1,我们的非线性形状模型具有比线性模型小得多的形状重建误差此外,联合非线性模型显着降低重建误差,甚至进一步表明,结合纹理信息有助于约束顶点的变形。对于纹理重建的比较,由于在我们的模型中插值了顶点之间缺失的纹理信息,因此预期纹理的重建误差略高,而线性模型具有完整的纹理信息。属性嵌入。为了更好地理解嵌入到我们的彩色网格解码器中的不同人脸,我们研究了语义属性嵌入。对于给定属性,例如,微笑,我们将面部数据(形状和纹理)(1)具有该属性(i)n进入我们的彩色网眼,编码器以获得嵌入参数{f,ni=1,其中表示属性在低维嵌入空间把平均值-SA的参数 作为训练的彩色网格解码器的输入}1102SA胡须嵌入我们可以重建平均形状和纹理致敬 基于主成分分析,嵌入参数{fini=1,我们可以方便地使用图3.形状和纹理表示,然后由建议的彩色网格解码器产生的express- sion,照明和胡须嵌入一个变量(主成分)来改变属性。图3示出了具有从潜在空间采样的纹理的一些3D形状。在这里,我们可以观察到,我们的非线性彩色网格解码器的能力在建模表情、照明甚至具有紧密嵌入维度(fSA=256)的胡须方面}1103方法3DDFA[40]N3DMM [38]PRNet [14]CMDNME5.424.123.623.98表2.AFLW 2000 -3D数据集上的面部对齐结果(%)性能报告为边界框大小归一化平均误差[40]。图4. AFLW 2000 -3D数据集上的人脸对齐结果。该方法可以处理极端姿态、表情、遮挡和光照。4.4. 应用于野外的彩色网格解码器4.4.1三维面对齐由于我们的方法可以同时对形状和纹理建模,我们将其应用于野外的3D变形拟合,并测试了稀疏3D人脸对齐任务的性能。我们比较了我们的模型与最新的国家的最先进的方法,例如。AFLW 2000 -3D [40]数据集上的3DDFA [40]、N-3DMM [37]和PR- Net [14]。通过归一化平均误差(NME)评估准确度,即通过三个姿势子集上的边界框大小归一化的地标误差的平均值[40]。3DDFA [40]是CNN的级联,它迭代地重新计算,如果给出了与我们的形状配置对应的地标,则会产生结果。4.4.23D人脸重建我们首先将我们的方法与五种最新的3D人脸重建方法进行定性比较:(1)以监督方式学习的3DMM拟合网络(Sela et al. [31]),(2)3DMM拟合网络以一种名为 MoFA 的 非 监 督 方 式 学 习 ( Tewariet al.[35] ) ,(3)称为VRN的直接体积CNN回归方法(Jacksonetal.[19]),(4)一种直接的UV位置图回归方法,称为PRNet(Fenget al.[14]),(5)以弱监督方式学习的非 线 性 3DMM 拟 合 网 络 , 称 为 N-3DMM ( Tranetal.[38])。由于PRNet和N-3DMM都在UV位置图上使用2D卷积网络来学习形状模型,因此我们将PRNet和N-3DMM视为最接近我们方法的基线。与Selaet al. [31 ]第30段。他们的基本图像到图像网络是在线性模型生成的合成数据上训练的。由于合成图像和真实图像之间的域差距,对于野外测试,网络输出在某些遮挡区域上往往不稳定(图10)。5),这会导致后续步骤的失败。相比之下,我们的彩色mash解码器是在真实世界的无约束数据集上以端到端的自监督方式进行训练的,因此我们的模型在处理野外数据时具有鲁棒性。变化.此外,Selaet al. [31]需要一个缓慢的离线非刚性配准步骤(±180s),以从预测的深度图获得无孔重建。尽管如此,所提出的彩色网格解码器可以运行得非常快。此外,我们的方法是复杂的-Alberto Selaet al.[31]使用从阴影恢复形状(SFS)[20]来优化在多个步骤中细化其估计。N-3DMM [38]利用2D深度卷积神经网络来构建一个非线性的3DMM上的UV位置和纹理地图,并适合无约束的2D在野外的人脸图像在弱监督的方式。相比之下,我们的方法采用彩色网格解码器来构建非线性3DMM。我们的模型不仅具有更好的性能,而且具有更紧凑的模型大小和更有效的运行时间。PRNet [38]采用编码器-解码器神经网络直接回归UV位置图。由于网络的复杂性,我们的方法的性能略差于PRNet在图4中,我们给出了一些示例性对准结果,其展示了在极端姿势、夸张表情、严重遮挡和可变照明下成功的稀疏3D面部对准结果。我们还看到,密集形状(顶点)预测在野外也非常稳健,这意味着对于任何类型的面部地标配置,我们的方法都能够给出准确的定位。我们的拟合结果可以得到更好的细节结果。与MoFA比较[35]。Tewari等人提出的单目三维人脸重建方法MoFA。[35],采用无监督的方式学习野外3DMM拟合。然而,它们的重构空间仍然局限于线性基.因此,他们的重建suf- fer从不自然的表面变形时,处理非常具有挑战性的纹理,即。胡须,如图所示。六、相比之下,我们的方法采用非线性彩色网格解码器,共同重建形状和纹理。因此,我们的方法可以实现高质量的重建结果,即使在毛茸茸的纹理。与VRN比较[19]。我们还比较了我们的方法与杰克逊等人提出的直接体积回归方法。[19 ]第10段。VRN通过一个具有跳跃连接的编码器-解码器网络直接回归一个3D形状卷。沙漏结构),以避免明确使用线性3DMM先验。这种策略可能有助于网络探索比线性模型更大的解决方案空间。怎么-1104输入Sela [31] PRNet [14] N-3DMM [38] CMD图5. 3D重建结果与Sela等人的结果进行比较。[31 ]第30段。我们估计的深度,对应图和形状的方法提出的Sela等人。[31],并且我们发现遮挡会在其输出地图中导致严重问题。输入MoFA [35] PRNet [14] N-3DMM [38] CMD图6. 300VW数据集[32](第一行)和CelebA数据集[24](第二行)样本的3D面部重建结果与MoFA [35]进行比较。MoFA重建的形状在处理具有挑战性的纹理时会出现不自然的表面变形。胡子相比之下,我们的非线性彩色网格解码器对这些变化更鲁棒。输入[19]第14话第14话图8.三维人脸重建的定量评价。与Garrido等人相比,我们实现了相当的性能。[16]和N-3DMM [38]。图7. 3D重建结果与CelebA数据集[24]上的VRN [19]相比。体积形状表示导致不平滑的3D形状,并且失去重建形状之间的对应性。PRNet中使用的UV位置图表示[14] 和N-3DMM [38]具有与我们的方法相当的性能,但计算复杂度要高得多,模型大小也要大得多。但是,这种方法丢弃了曲面网格之间的对应关系,并且回归目标的尺寸非常大。图7示出了VRN和我们的方法之间的3D面部反射的视觉比较。一般来说,VRN可以鲁棒地处理野外纹理变化。然而,由于体积形状表示,表面是不平滑的,并且不保留细节。相反,我们的该方法直接对顶点的形状和纹理进行建模,模型规模更小,输出结果更平滑。除了与最先进的3D人脸重建方法进行定性比较外,我们还对FaceWarehouse数据集[8]和Florence数据集[1]进行了定量比较,以显示所提出的彩色网格解码器的优越性FaceWarehouse。根据[35,38]中的相同设置,我们还将我们的方法与FaceWarehouse数据集[8]中9个主题的先前工作进行了定量比较。视觉和定量比较如图所示8.我 们 取 得 了 与 Garrido 等 人 相 当 的 结 果 。 [16] 和 N-3DMM [38],同时超过所有其他回归方法[36,28,35]。如图右侧所示8、我们1105可以很容易地从它们的彩色顶点推断出这三个样本的表达。(a) CED曲线(b)姿势特异性NME图9.佛罗伦萨数据集上的3D人脸重建结果[1]。每种方法的标准化平均误差显示在图例中。佛罗伦萨在[19,14]中的相同设置之后,我们还将我们的方法与最先进的方法(例如,[19]和PRNet [14])在佛罗伦萨数据集[1]上。从地面实况点云计算人脸边界框,并将人脸图像裁剪并用作网络输入。每个主题都以不同的姿势呈现,如[19,14]:俯仰旋转-15、20和25,原始旋转在-80和80之间。我们只选择了常见的人脸区域来比较性能。为了评估,我们首先使用迭代最近点(ICP)算法,以找到我们的模型输出和地面实况点云之间对应的最近点,然后计算由3D坐标的眼间距离归一化的均方误差图9(a)表明我们的方法获得了与PRNet相当的结果为了更好地评估我们的方法在不同姿态下的重建如图图9(b)所示,所有方法在近正面视图下均获得了良好的性能。然而,3DDFA和VRN不能保持低误差随着偏航角的增加。我们的方法的性能是相对稳定的姿态变化下,与PRNet的性能下的剖面视图。4.5. 运行时间和模型大小比较在选项卡中。3、比较了多种三维重建方法的运行时间和模型大小。由于一些方法不是公开的[31,35,38],我们只提供了一个近似估计。Sela等人[31]、VRN [19]和PRNet [14]都使用具有类似运行时间的编码器-解码器网络。然而,Selaet al. [31]需要昂贵的非刚性配准步骤以及细化模块。我们的方法与N-3DMM [38]和MoFA [35]的编码器运行时间相当。然而,N- 3DMM [38]需要通过两个CNN分别对形状和纹理进行解码。[35]第三十五话直接使用表3.各种3D人脸重建方法的运行时间和模型大小比较。我们的彩色网格解码器可以运行在0。367毫秒的CPU与紧凑的模型大小为17 MB。线性基,解码步骤是1周围的单个乘法。28K点为5ms。相比之下,所提出的彩色网格解码器只需要一个有 效 的 网 格 卷 积 网 络 。 在 CPU ( Intel i9-7900X@3.30GHz)上,我们的方法可以在0.367 ms(2500FPS),这甚至比使用线性形状的底座更快。我们的非线性彩色网格解码器的模型大小( 17M ) 几 乎 是 MoFA 中 采 用 的 线 性 形 状 基 础(120MB)的七分之一。最重要的是,我们的非线性网格解码器的容量远远高于线性基地,在上述实验中证明。5. 结论提出了一种新的基于网格卷积的非线性3DMM方法。我们的方法直接在网格域上解码形状和纹理,具有紧凑的模型大小(17MB)和非常低的计算复杂度(CPU上超过2500 FPS)。基于网格解码器,我们提出了一个图像编码器加彩色网格解码器结构,直接从一个在野外的2D人脸图像重建的纹理和形状。大量的定性可视化和定量重建结果证实了该方法的有效性。6. 确认Stefanos Zafeiriou 感 谢 来 自 EPSRC FellowshipDEFORM(EP/S 010203/1)和Google Face Fellowship的支持。邓健康感谢朋友们的真知灼见(例如:SarahParisot、Yao Feng、Luan Tran和Grigorios Chrysos),帝国总统博士奖学金的财政支持引用[1] Andrew D Bagdanov,Alberto Del Bimbo,Iacopo Masi.佛罗伦萨2D/3D混合人脸数据集。ACM研讨会时间大小方法E DEDSela等人[三十一]10ms1 .一、2GVRN [19]10ms1 .一、5GPRNet [14]10ms153米美国外交部[35]4ms1. 5ms100米120米N-3DMM [38]二、7毫秒5.5ms76M76 M1106关于人类手势和行为理解,2011年。 四七8[2] Volker Blanz和Thomas Vetter。三维人脸合成的可变形模型SIGGRAPH,1999年。一、二[3] Volker Blanz和Thomas Vetter。基于三维形变模型拟合的人脸识别TPAMI,2003年。2[4] James Booth 、 Epameinondas Antonakos 、 StylianosPloumpis 、 George Trigeorgis 、 Yannis Panagakis 和Stefanos Zafeiriou。3d脸变形模型在野外。在CVPR,2017年。第1、3条[5] James Booth 、 Anastasios Roussos 、 Allan Ponniah 、David Dunaway和Stefanos Zafeiriou。大规模三维变形模型。IJCV,2018年。1[6] James Booth、Anastasios Roussos、Stefanos Zafeiriou、Allan Ponniah和David Dunaway。从10,000张面孔中学习的3D变形模型在CVPR,2016年。一、二[7] Michael M Bronstein,Joan Bruna,Yann LeCun,ArthurSzlam,and Pierre Vandergheynst.几何深度学习:超越欧几里得数据。SPM,2017年。2[8] 曹 晨 、 翁 彦 林 、 周 顺 、 童 一 英 、 周 坤 。Facewarehouse:用于视觉计算的三维面部表情数据库。TVCG,2014. 四、七[9] Shiyang Cheng,Irene Kotsia,Maja Pantic,and StefanosZafeiriou. 4dfab:用于生物识别应用的大规模4D面部表情数据库。在CVPR,2018年。2[10] Grigorios G Chrysos , Jean Kossaifi , and StefanosZafeiriou.鲁棒的条件生成对抗网络。ICLR,2019。3[11] 戴航,尼克·皮尔斯,威廉·史密斯,克里斯蒂安·邓肯.颅面形状和纹理变化的三维可变形模型InICCV,2017.2[12] 我 的 朋 友 德 夫 费 拉 尔 , XavierBresson 和PierreVandergheynst。具有快速局部谱滤波的图上卷积神经网络。InNeuriPS,2016. 二、三[13] Jiankang Deng,Shiyang Cheng,Niannan Xue,YuxiangZhou,and Stefanos Zafeiriou. UV-gan:对抗面部uv图完成用于姿势不变人脸识别。在CVPR,2018年。4[14] Yao Feng,Fan Wu,Xiaohu Shao,Yafeng Wang,andXi Zhou. 结合位置映射回归网络的三维人脸重建与密集对齐在ECCV,2018。六七八[15] 迈克尔·加兰和保罗·S·赫克伯特。使用二次误差度量的曲面1997年,CGIT。3[16] 巴勃罗·加里多,Mi chaelZollh oüfer,丹·卡萨斯,LeviVal-gaerts,KiranVaranasi,帕特里克·佩雷斯和克里斯蒂安·西奥伯特从单目视讯重建个人化三维人脸模型。TOG,2016. 7[17] Kyle Genova、Forrester Cole、Aaron Maschinot、AaronSarna、Daniel Vlasic和William T Freeman。三维变形模型回归的无监督训练在CVPR,2018年。1、4[18] 里扎·阿尔普·古勒、吉奥·奇·特里吉奥·吉斯、埃帕梅农达斯·安东·阿科斯、帕特里克·斯内普、斯特凡诺斯·扎菲里乌和亚索纳斯·科基。Densereg:完全卷积的密集形状回归。在CVPR,2017年。2[19] Aaron S Jackson,Adrian Bulat,Vasileios Argyriou,andGeorgios Tzimiropoulos.大姿态三维人脸重建1107通过直接体积CNN回归从单个图像。在ICCV,2017年。六七八[20] Ira Kemelmacher-Shlizerman和Ronen Basri。使用单个参考面部形状从单个图像进行3D面部重建。TPAMI,2011年。6[21] Thomas N Kipf和Max Welling使用图卷积网络的半监督分类。在ICLR,2017。2[22] Tianye Li,Timo Bolkart,Michael J Black,Hao Li,and Javier Romero.从4d扫描中学习面部形状和表情的模型。TOG,2017年。2[23] 或 者 Litany , Alex Bronstein , Michael Bronstein 和Ameesh Makadia。可变形形状完成与图形卷积自动编码器。在CVPR,2018年。2[24] Ziwei Liu,Ping Luo,Xiaogang Wang,and XiaoouTang.在野外深度学习人脸属性。 在ICCV,2015年。四、七[25] 裴祥峰计算机生成图片的照明。ACM通讯,1975年。4[26] Anurag Ranjan,Timo Bolkart和Michael J Black。卷积网格自动编码器的三维人脸表示。在ECCV,2018。二、三、四[27] Anurag Ranjan,Timo Bolkart,Soubhik Sanyal,andMichael J Black.使用卷积网格自动编码器生成3d人脸。在ECCV,2018。2[28] Elad Richardson 、 Matan Sela 、 Roy Or-El 和 RonKimmel。从单个图像学习详细的面部重建在CVPR,2017年。7[29] Sami Romdhani和Thomas Vetter 3d变形模型的高效、鲁棒和精确拟合。载于ICCV,2003年。2[30] Christos Sagonas 、 Georgios Tzimiropoulos 、 StefanosZafeiriou和Maja Pantic。一种半自动的人脸标志标注方法。2013年CVPR研讨会。4[31] Matan Sela Elad Richardson和Ron Kimmel使用图像到图像转换的无限制面部几何结构重建InICCV,2017.一、六、七、八[32] Jie Shen , Stefanos Zafeiriou , Grigoris G Chrysos ,Jean Kossaifi , Georgios Tzimiropoulos , and MajaPantic.第一个面部标志跟踪在野外的挑战:基准和结果。在ICCV研讨会,2015年。7[33] David I Shuman,Sunil K Narang,Pascal Frossard,Anto- nio Ortega,and Pierre Vandergheynst.图形信号处理的新兴领域:将高维数据分析扩展到网络和其他不规则域。SPM,2013年。2[34] AyushTewari,MichaelZollhofer,PabloGarrido,FlorianBernard , HyeongwooKim , PatrickPe'rez ,andChristianTheobalt.250hz以上单目重建的自我监督多层次人脸模型学习在CVPR,2018年。一、二[35] AyushTewari , MichaelZollhofer , Hyeongw ooKim ,PabloGarrido , FlorianBernard , PatrickPe'rez 和ChristianTheobalt。Mofa:基于模型的深度卷积人脸自动编码器,用于无监督单目重建。InICCV,2017.六七八1108[36] AnhTuanTran,TalHassner,IacopoMasi和Ge'rardMedioni。使用深度神经网络回归稳健且有区别的3d可变形模型。在CVPR,2017年。一、二、七[37] Luan Tran和Xiaoming Liu。非线性三维人脸变形模型。在CVPR,2018年。一、二、四、六[38] Luan Tran和Xiaoming Liu。从野外图像中学习三维人脸变形模型。TPAMI,2019。 一、二、四、六、七、八[39] NitikaVerma,EdmondBoyer,andJakobVerbeek.Feastnet:用于3D形状分析的特征引导图卷积。在CVPR,2018年。2[40] Xiangyu Zhu,Zhen Lei,Xiaoming Liu,Hailin Shi,and Stan Z Li.跨大姿势的面部对齐:3D解决方案。在CVPR,2016年。二、四、六
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 深入理解23种设计模式
- 制作与调试:声控开关电路详解
- 腾讯2008年软件开发笔试题解析
- WebService开发指南:从入门到精通
- 栈数据结构实现的密码设置算法
- 提升逻辑与英语能力:揭秘IBM笔试核心词汇及题型
- SOPC技术探索:理论与实践
- 计算图中节点介数中心性的函数
- 电子元器件详解:电阻、电容、电感与传感器
- MIT经典:统计自然语言处理基础
- CMD命令大全详解与实用指南
- 数据结构复习重点:逻辑结构与存储结构
- ACM算法必读书籍推荐:权威指南与实战解析
- Ubuntu命令行与终端:从Shell到rxvt-unicode
- 深入理解VC_MFC编程:窗口、类、消息处理与绘图
- AT89S52单片机实现的温湿度智能检测与控制系统
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功