没有合适的资源?快使用搜索试试~ 我知道了~
5850深层面部非刚性多视图立体白子谦1崔兆鹏2贾马尔·艾哈迈德·拉希姆1刘晓明3谭平1西蒙·弗雷泽大学2ETH苏黎世3密歇根州立大学@sfu.ca,zhpcui@gmail.com,liuxm@cse.msu.edu摘要提出了一种基于多视角图像的不同表情的三维人脸重建方法。我们制定这个问题的角度来看,非刚性多视点立体(NRMVS)。与以前的基于学习的方法,这往往是直接回归的人脸形状,我们的方法优化的三维人脸形状,通过显式地强制多视图外观一致性,这是已知的是有效的恢复形状细节,根据传统的多视图立体方法。此外,通过基于多视图一致性的优化来估计人脸形状,我们的方法可能对未知数据具有更好的然而,这种优化是具有挑战性的,因为每个输入图像具有不同的表达。我们用CNN网络来简化它,CNN网络根据输入图像和初步优化结果来学习正则化非刚性3D人脸。大量的实验表明,我们的方法在各种数据集上都达到了最先进的性能,并且可以很好地推广到野外数据。1. 介绍基于图像的三维人脸重建技术在人脸识别、娱乐、医学分析等领域有着广泛的应用,已成为计算机视觉和图形学领域的研究热点。多视角方法已经成为高端人脸重建产品的典型选择之一。利用在良好校准的多视图系统(如相机阵列)下捕获的图像,可以使用包含多视图几何约束的算法恢复忠实的3D几何形状[5,10]。然而,这类方法严重依赖于同步的多视图数据,由于庞大的设备设置或静态面部假设,获取同步的多视图数据可能是昂贵的,或者有时甚至是不可能的。This drawback severely lim- its the possible applicationrealms,especiallyindailyen-tertainmentandcommunication.为了处理这种限制,非刚性多视图方法,即,提出了一种利用多视点几何约束重构可变形物体的非刚性运动输入优化图 1 : 我 们 提 出 了 深 度 面 部 非 刚 性 多 视 图 立 体(DFNRMVS),通过多视图优化从动态面部的多个图像中恢复高质量的3D模型。从左到右分别是输入图像、初始3D模型和三级优化后的3D模型。我们的DFNRMVS可以逐步改进3D模型.受试者例如,表情变化的面孔。然而,该类别中的大多数作品仅处理稀疏特征点[15,31,65]。 最近,密集的方法已经提出[22,33,34],但通常包含复杂的几何建模,很少利用数据驱动的先验。随着深度学习的最新进展,提出了许多面部重建方法,以纯粹从训练数据(即图像到参数或图像到几何形状的映射)直接学习图像到参数或图像到几何形状的映射。回归),这使得他们的模型数据饥渴因此,他们通常求助于合成数据[42]、预先计算的3DMM拟合[56,64]或自监督学习[25,49],这会损害泛化或重建精度。在本文中,我们介绍了深度面部非刚性多视图立体(DFNRMVS),这是第一个端到端的可训练网络学习面部非刚性多视图立体重建。这首先是为了--5851将 动 态 面 部 重 建 任 务 模 拟 为 非 刚 性 多 视 图 立 体(NRMVS)优化,其通过显式地强制多视图外观一致性来优化3D面部形状。然后,将深度学习组件注入到该优化管道中,以利用数据驱动的先验来减轻问题的难度。与以往的NRSfM以及基于学习的人脸重建方法不同,我们的模型在网络中显式地学习参数优化过程。它不仅减少了网络的负担,导致更好的重建,但也增加了我们的模型的泛化能力,因为优化带来了多视图几何的主要知识。因此,我们的模型可以在有限但信息丰富的3D扫描上进行训练,以提高性能,同时很好地推广到不同的3D扫描数据集,甚至是野外图像。为了更好地正则化不适定的非刚性设置以及处理3DMM的有限表示能力,我们还提出学习自适应人脸模型,该模型根据输入图像和预处理生成可加形状基最优化的结果。与通用人脸模型相比,这些额外的信息有助于逐个定制解决方案空间,使其更适合优化以产生更好的重建。我们的DFN-RMVS在各种数据集上实现了最先进的性能,对野外数据具有良好的泛化能力。该代码可在https://github.com/zqbai-jeremy/DFNRMVS上获得。2. 相关工作基于几何的方法。基于几何的方法基于多视图立体(MVS)[20]和光度立体[59]重建3D人脸模型。Beeler等人[5]提出了一种立体系统,在标准光源下使用七个摄像机捕获3D人脸几何形状。Bradley等[10]提出了一种使用摄像机阵列的面部捕获方法,该方法能够以每秒30帧的速度重建高分辨率的时变面部网格。这些纯被动方法通常在无纹理区域中具有较差的重建质量,因为立体方法严重依赖于特征匹配。许多方法[26,30,44]也使用光度立体[59]进行面部重建。给定不同光照条件下拍摄的图像,首先估计曲面法线,然后通过法线积分恢复三维网格。这些方法通常遭受凸/凹模糊性。已经提出了AP方法[21,27]以利用两个世界的最佳效果,其中MVS恢复基本形状,而摄影立体声恢复精细细节。所有提到的方法的一个主要缺点是,它们要求图像是同步的或者对象在数据捕获期间是静态的,这限制了适用的场景。为了解决这个问题, 非刚性结构运动模型(NRSfM)提出了对具有非刚性变形的物体(如具有不同表情的人脸)进行重建的方法。Bregler等人[11]提出用低秩线性子空间表示非刚性三维形状。Dai等人[15]证明了NRSfM的不适定性可以仅通过低秩假设解决,并将其推广到时域[3,19]。最近,基于子空间联合[2,65],稀疏先验[31]和深度学习[32]的方法也取得了然而,这组方法主要关注稀疏点。最近,密集NRSfM成为可能的变分方法[22]和格拉斯曼流形[33,34]。然而,这些方法很少利用深度学习捕获的数据驱动先验的强大能力。与所有以前的密集非刚性方法不同,我们的方法将深度学习技术注入到recruitment管道中,通过从信息丰富的地面实况中学习到的先验知识来减轻问题的难度。学习方法。利用数据驱动的人脸几何先验知识,从图像中重建人脸。三维变形模型(3DMM)[7]是一个经典的例子,它被广泛用于参数化人脸的形状。给定输入图像,通常通过合成分析优化来估计适合输入的最佳3个DMM参数[6,43,52]。由于优化依赖于初始化,这些方法在实践中不是很稳健。此外,这些方法受到3DMM的表示能力的限制。因此,最近已经发布了广泛的面部数据库来处理复杂的表情[8,28,35,58,62]。 More recent works take a step further to alsorecover medium- and fine-scale details via corrective basis[9, 24] and Shape-from-Shading [23].然而,它们的模型通常是计算昂贵的,由于大量的参数进行优化。随着深度学习技术的发展,人们提出了许多单目人脸重建方法。各种网络被设计为回归面部模型或3D几何形状的参数,并从合成数据[25,42,47],预先计算的3DMM拟合[17,56],RGB图像[16,50,51,54,55]和标识标签[45]。为了更灵活地处理复杂的面部几何形状,方法[13,53,57]回归几何残差以恢复精细尺度细节。然而,这些方法主要集中在单视图重建。直到最近,才提出了基于多个图像的方法[49,60]。与先前基于学习的多视图方法不同,其中重建通常被公式化为回归,我们的方法通过端到端的可训练优化在学习框架内显式地结合了多视图几何约束。因此,我们的模型是几何和学习方面的一种新融合,利用了两个世界的最佳效果:基于几何的方法的质量和推广以及基于学习的方法的鲁棒性。5852i=1图2:我们的方法的总体,包括(1)非刚性多视图立体(NRMVS)优化(第2节)。第3.1节3.2);(2)自适应人脸模型(第二节)(3)多级重建方案(第3.3节)。(4)训练损失(Sect.)3.5)。3. 提出了将一个三维点v∈R3映射到像平面上的方法,给定多个面部图像,我们的目标是设计一个深度神经网络来生成详细的3D面部模型,(v)=ΣΣs0 00s0Rv+ t。(一)明确利用多视图外观一致性,网络。如图2、我们的框架主要由三个模块组成:特征提取、自适应人脸模型生成和非刚性多视图立体优化。我们将首先介绍非刚性多视图立体优化(第二节)。3.1),并解释这种优化如何通过可学习的目标和求解器与深度学习集成(第3.1节)。3.2)。然后我们将介绍自适应人脸模型生成(Sec.3.3)。最后,我们提出了我们的多级重建方案(第二节)。3.4)和训练损失(第3.4节)。3.5)。3.1. 非刚性多视图立体给定捕获同一个人但在不同表情和视图下的一组M个面部图像{Ii}M,每个图像的3D面部几何形状Vi和6DoF刚性头部姿态Pi的估计可以通过最小化外观一致性误差和界标拟合误差。参数化。对于头部姿态p,我们在弱透视相机下用p =(s,R,t)来参数化类似于线性3 DMM [7],我们将人脸形状参数化为V =f(x),其中生成函数f(x)将低维参数向量x ∈RK映射到包括所有N个顶点的3D坐标的向量,V ∈R3N。因此,非刚性多视点立体的参数优化可以表示为X =(s,R,t,x)。目标函数我们的非刚性多视图立体优化的目标函数如下,E=λaEa+λlEl,(2)其中Ea是跨视图的外观一致性误差,并且El是面部标志对准误差。λa和λl平衡了两个目标的重要性对于外观一致性Ea,一个简单的选择是使用图像强度差作为一致性度量。对于每个视图i,我们通过等式2将当前重建(Vi,pi)投影到图像Ii上(1),并且经由双线性插值对强度进行采样因此,每个顶点将具有强度值I(vi)。然后,对于每对视图(i,j),其中i=j,我们计算对应的强度差响应顶点并在所有顶点和视图上平均总而言之,模型假设,其中s是比例因子,R∈SO(3)是旋转矩阵,t∈R2是上的二维平移Ea=北纬2度1分<$I(vk)−I(vk)<$2,(3)图像平面。因此,投影R3→R2映射-M(M−1)DRN38 +输入图像2艘FPN多层次特征映射共享0级重建1级重建3级重建地标构建级别1自适应NRMVS人脸优化模型建立自适应人脸模型2级NRMVS优化…建立自适应人脸模型3级NRMVS优化培训损失…………5853i/=jNij2k=1…………………5854i=1i=1F =F图3:第2节中描述的NRMVS优化的一次迭代概述。第3.1节和第3.2.其中vk(vk)表示视图i(视图j)的第k个其中,F(vi)是从特征图Fi采样的每顶点特征向量,替换从原始图像Ii采样的每顶点图像强度I(vi)。步长预测。传统上,梯度下降的步长α被大量调整以确保良好的性能。相反,我们使用如图所示的MLPFmlp。3,学习预测给定目标的绝对残差的α在顶点和视图之间求平均值。端到端可学习。网络Ffpn(图2中)和Fmlp(图3中)的参数都可以在端到端训练期间更新。原则上,Ffpn学习提取适合于优化的特征图(即,更平滑和凸),而Fmlp学习预测加速收敛的更好的步长(即,较大步伐具有更大数量级的目标的尺寸),减少了优化的难度。I j我们还考虑了顶点可见性,[50]如在界标对准El方面,我们采用与Tewari等人类似的目标。[49,50],其考虑了面部轮廓上的滑动着陆标记鉴于68德-3.3.自适应人脸模型为了更好地利用现有的3DMM,同时不受其表示能力的限制,我们提出了一种自适应人脸模型,它包含两个线性子空间x=tected landmarks{uk}68在每个图像Ii上,(xbfm,xadap)。最终的面部形状V表示为,i k=1shell方法[12],目标如下:V =f(x)= V + Bbfmxbfm+ Badapxadap,(7)E =101Σ68uk−其中V∈R3N是平均形状,B∈R3N×KbfmLMi=1uk68i i2k=1BFM是巴塞尔人脸模型(BFM)的PCA基础[40],是所有面的公共点,Badap∈R3N×Kadap是其中vi 表示对应于第k用于视图(或图像)的界标i.优化求解器。由于可微性,可以通过基于梯度的求解器来最小化目标E。为了简单起见,我们选择一阶优化解算器(即,梯度下降)。重建参数可以迭代地更新,自适应的基础是建立从输入图像和初步重建。 Thecoefficient xbfm ∈ RKbfm, termed as the BFM parameter,is constant across different views, while xadap ∈ RKadap,termed as the adaptive pa- rameter, varies acrossviews.由于自适应基Badap是根据初始(或中间)姿态{pi}M建立的,和几何形状X← X +α<$X E(X),(5){Vi}M ,它有望捕捉到的方面,其中初步-其中α是步长。3.2. 可学习的目标和求解器二元重构不能解释输入。实现为了实现这一目标,需要在NRMVS优化之前构建,如图所示。二、对于每个视图i,首先从直接求解所提出的NRMVS优化i′(第二节)3.1)由于高度非凸的强度空间而可能是极其困难的灵感来自最近的作品刚性图像Ii经由图3B中所示的单独的FPN [36] Ffpn来处理。2如下所述三维重建[48,61]和运动估计[38],我们从两个方面注入深度学习来缓解′ ′我fpn(i).(八)总的来说,我们有M个特征图{F′}M,即, 左culty:(1)更鲁棒的目标;(2)更灵活的求解器。外观目标。 我们更换原始图像{Ii}M其中提取了特征图{Fi}Mi i=1图中的最大列4.第一章然后,我们可以获得自适应基础Badap通过馈送这些特征图和初步,i=1i=1二元重构({V},{p})M在基础净值中-通过特征金字塔网络(FPN)[36]Ffpn显示在图2中,当计算外观一致性Ea时。因此,目标(3)变为:我我i=1工作F基础如图所示。4、.ΣMM特征图当前重建…优化目标…地标…转型MLP参数变量参数自适应人脸模型步长+更新的参数M5855北纬2 度1分Badap=F基础{Fi}i=1,({Vi},{p<$i})i=1.(九)Ea=<$F(vk)−F(vk)<$2,(6)更具体地说,我们映射这些特征映射{F′}MM(M−1)Ni/=jk=1ij2i i=1进入UV纹理空间根据初步的3D5856FPN22ADAPJ我我i=1图4:自适应基生成的流水线(Sec. 3.3)。脸型我们还将每个初步反射转换为UV空间作为位置图[17](即,记录UV空间中所有顶点的3D位置的2D图像得到的M个特征映射分别经过M个Siamese分支,然后沿视图维度进行最大池化,并解码为自适应基的UV纹理表示。最终的自适应基Badap可以通过stan生成初始BFM参数设置为零。每个视图的初始初步重建是通过回归姿势转换的BFM [40]的平均面部。对于后面的级别,初步重建是前一级别的输出。3.5.培训损失给定地面真实网格与重建网格的相应顶点,我们的网络,即,2艘FPN标准纹理映射。请参阅我们的补充质询Ffpn和F′用于步长预测的MLPFmlp,以及有关自适应基础网络F基础的更多详细信息,人脸模型生成3.4.多级重建为了更好地恢复三维人脸形状的细节,我们采用了多层次的方案。具体地,我们将重建过程分成3个顺序级别l=1、2、3,每个顺序级别求解NRMVS优化并输出所有视图({Vl},{Pl})M的重建。在每个级别,人脸模型更新为以监督的方式训练基网络F基标准的损失。 对于每个顶点,我们计算在深度对准和密集对准之后的所有迭代、所有视图和所有级别的地面实况和重建网格(具有姿态)之间的点对点L2距离(即,每个顶点2个损失)。对于深度对齐,我们计算预测和地面实况之间的平均深度差异,并在计算损失之前将此差异添加到地面实况。对于密集对齐,我们使用面网格顶点的对应性来严格(按比例)将预测与地面实况对齐。这两个顶点损失读作ΣVl =fl(xl)= V + Bbfmxbfm +Σlj=1杰达普adap,Lv dep=Lv den=Vgt−V2,(11)ΣVgt-V den(十二)(十)其中形状基Bbfm对于所有级别是固定的,并且自适应基B1从级别到级别更新持续时间直观地说,密集对准损失Lvden仅测量几何误差,而深度对准损失Lvdep也考虑姿态。我们还考虑了对每顶点法线的监督在每个级别l处进行NRMVS优化,仅头部姿势{pi}M,BFM参数xbfm,以及当前电平adap-通过测量余弦相似性损失,i=1L M将优化有效参数{xadap,i}i=1。 姿势和BFM参数初始化的输出从L范数=(1 −cos(ngt,nalign))。(十三)的水平,自适应参数初始化为零以下刘等。[37],也增加了边缘损失,一开始 在一开始(即,0级),ini-.1Σ。1 9 9 5年.-是的通过预先训练的神经网络回归初始头部姿势L=.ij.边缘.GT………BXΣ5857GT-1。,(14)(详情请参阅补充资料)。的#E(i,j)∈E. 第五节 -Vj 。特征图UV特征位置基网络地图地图ResBlocksunwrap初步重建+康卡特最大池纹理映射ResBlocksUV自适应基础自适应基础康卡特+unwrapResBlocks共享5858FPN其中E是模板的预定义边缘图。使用L范数和L边缘的动机是提高表面平滑度,同时保留高频细节[37]。最后,地标损失L与等式2类似。(4)包括。总的来说,总的训练损失如下,L=λ1Lv dep+λ2Lv den+λ3Lnorm+λ4Ledge+λ5Lland,(十五)其中λ1,2,3,4,5是调整不同损失权重的超参数3.6. 优化和训练在这里,我们进一步澄清NRMVS优化和训练过程之间的关系。NRMVS优化属于我们模型的前向传递。它可以被类比为可微模块,其接受旧的重建参数并计算更新以迭代地输出新的重建然后,在每个迭代的输出上计算训练损失,其梯度将通过整个NRMVS优化后向以更新可学习权重(即,的Ffpn和F′的权在图2中,Fmlp在图3中,以及图中的F基4).4. 实验4.1. 实验装置训练数据。我们采用Stirling/ESRC三维人脸数据库[1]来训练我们的模型。该数据集包含100多个受试者的高质量3D扫描大多数受试者有8种不同表情的3D扫描对于每次扫描,使用从±45个偏航角拍摄的2个RGB图像作为纹理。 我们使用纹理化的3D扫描来渲染图像训练更具体地说,我们选择了85,20,35个非重叠的主题作为训练,验证,测试分裂。为了生成训练样本,需要两个随机表达式首先选择相同的主题。然后,我们使用球谐函数(SH)[41]为每个表情绘制一个图像,具有不同的姿势和相同的全局照明。结果,生成了大约8K个训练样本为了获得地面真实密度对应,我们运行非刚性ICP [4]以将BFM [40]的平均形状配准到每个3D扫描,并将结果用作地面真实密度对应。请注意,即使在有限数量的样本上进行训练,我们的模型仍然可以推广到其他3D扫描数据集以及野外图像。实施.我们的模型是用Py- torch实现的[39]。 对于优化,目标权重为λ a=0。25,且λ l=0。025我们使用3个级别的优化,特征图分辨率分别为32×32,64×64和128×128在每个级别中,计算参数更新的3次迭代在训练中,加权为λ1= 1,λ2= 1,λ3= 100,λ4= 0。01,以及图5:与Feng等人[17]、Chen等人[18]的定性比较。 [13]和Tewari et al. [49]。对于双视图方法,两个连续行的图像一起输入。读者可以放大并注意细节,例如(1)面部轮廓对齐(第2行和第4行),(2)具有大表情变化的输入(第5行和第6行),以及(3)中等规模的细节,例如大皱纹(第2行)、微笑线(第6行)、半睁的眼睛(第4行)和眼睛周围的几何形状(第1行和第3行和第7行)。λ5= 0。1.一、 Adam [29]优化器用于学习率为2的训练。0× 10−5。 批量大小设置为2。基线方法。我们选择以下方法作为定性和定量评价的基准。Tewari等人。 [49]是一种基于回归的方法,也可以处理非刚性多视图人脸重建,这是与我们最相关的方法。因此,我们将其视为定性和定量评价的重要基线对几种单视图重建方法进行了比较。Feng等人 [17]直接以位置图的形式回归人脸几何。Tewari等人 [50]在3DMM的基础上学习校正基础,并回归基础参数。这两个基线表示不受3DMM子空间限制的单视图方法。Deng等人 [16]作为最先进的3 DMM拟合方法的基线。我们还包括陈等人。 [13]在比较中,因为它提出了一个有趣的优化组合-单一视图两个视图输入[49]第49话:我的世界我们5859Ours Denget al. [16个]平均值(mm)1.441.47STD(mm)0.380.40表1:BU3DFE [62]数据集的几何误差[关键词:两个输入图像具有相同的(S)或不同的表情(D)]两个视图单一视图我们的(S)我们的(D)本港的最高气温(S)[49]第49话:我的世界Deng等人 [16个]Tewari等人[50个]平均值(mm)标准(mm)1.110.291 .一、140.291 .一、120的情况。331 .一、740的情况。451 .一、380的情况。371 .一、780的情况。49表2:博斯普鲁斯海峡数据库的几何误差[46]。输入是具有不同表情的2基于深度学习捕获的地标拟合和情感先验,同时还可以合成面部细节。4.2. 定性评价我们对VoxCeleb2 [14]进行了定性比较,这是一个从YouTube收集的野生面部视频数据集我们使用了与Tewari等人 [49]在他们的网站上加载的相同的图像集。对于Tewari等人。 [49],我们直接使用他们上传的结果进行比较。对于其他基线,我们使用它们的公共实现来生成结果.可视化如图所示。五、与Tewari等人的比较[49]。由于对多视图外观一致性进行了显式优化,因此我们的结果更好地与人脸对齐。注意:[49]训练了大量的野外数据,这些数据应该更好地推广到测试的野外面孔。然而,即使我们在训练过程中使用有限的3D扫描和渲染图像,我们的模型仍然在这些野外人脸上实现了相当甚至更好的泛化此外,由于我们的模型是在高质量的3D扫描上训练的,因此它能够捕获中等水平的细节,而[49]只能提供粗略的重建。与单视图方法的比较。 我们也与单视图重建[17]和[13]一致。我们的方法在多视图几何的帮助下给出了比[17]更好的结果我们的方法也比[13]中的情感驱动代理估计更好。虽然[13]中的广告细节合成可以产生局部吸引人的结果(例如,前额上的皱纹),它不能校正来自代理估计的不忠实几何。4.3. 定量评价BU3DFE [62]和Bosphorus [46]数据集用于定量评估我们的方法。 [49]和[50]的作者善意地提供了他们的重建网格。对于其他基线,重建是通过其公共实现获得的。然后,我们以一致的方式计算所有重建的几何误差。BU3DFE的评价[62]。BU3DFE数据集[62]包括100名中性面部受试者的3D扫描 24表情BU3DFE中的每次扫描都与2 从±45°偏航角拍摄的RGB图像公司现采用国际图6:我们在BU3DFE[62](前两行)和博斯普鲁斯海峡[46](后两行)。我们的方法可以捕获不同的表达变化。Tewari等人 [49]提供的测试分割,以使用相同受试者的2视图图像评估我们的方法,无论是在相同的表达下还是在不同的表达下。为了计算几何误差,我们首先使用BU3DFE [62]给出的8个标志将重建与地面实况对齐。然后,执行ICP[63]以进一步将重建与地面实况对齐。最后,我们根据与[18]类似的策略基于地标裁剪地面实况,并计算从地面实况到重建的点到平面距离。我们的结果如表1所示,并与最先进的方法进行了比较。我们还展示了定性的例子,我们的结果在图。六、我们基于学习的优化优于基于回归的方法[49]。 请注意,他们的模型是以自我监督的方式使用野外视频进行训练的,以便更好地泛化,这可能会影响几何精度。目前还不清楚他们的方法是否可以在有限的3D扫描下训练而不损害泛化能力。相比之下,我们的模型可以利用3D扫描获得更好的几何精度,而不会影响泛化.我们的方法也优于最先进的单视图方法[16,50],因为我们通过基于学习的优化利用了额外的多视图提示。博斯普鲁斯海峡的评价[46]。博斯普鲁斯海峡数据库包含105名受试者,每个人都有正面视角下的表情人脸图像和各种姿势下的中性人脸图像。对于每个主题,我们选择所有带有情感标签的图像(仅提供正面视图),包括表情5860表3:使用ESRC人脸数据库[1]进行多视图评估的渲染图像上的几何误差。快乐,惊讶,恐惧,悲伤,愤怒和厌恶;然后我们选择-30偏航角下的中性人脸图像,形成2视图图像对。请注意,对于某些科目,只有一个子集的上述表达式是可用的.总共,我们收集了453个样本的2视图图像。我们使用上述协议来计算几何然而,给出了一组不同的5个地标,输入我们的AdapB我们的GeneB图7:自适应基础(AdapB)和通用基础(GeneB)之间的定性比较。表4:BU3DFE上的几何误差和运行时间[62]多层次方案评价数据集。使用RTX2080Ti进行测试。数据库进行比对中性面孔的错误因为它们被多次测量,所以相应地被向下加权。结果示于表2中。我们的方法实现了略好的性能比邓等人。[16]误差的平均值和标准差。请注意,Bospho- rus [46]和BU3DFE [62]之间的内容差异导致了非平凡的域间隙,这可能会影响我们的方法与表1中我们的(D)相比的性能增益。4.4. 消融研究不止两种观点。我们评估视图的数量如何影响我们的方法。对于此评估,我们使用ESRC人脸数据库的测试分割[1],其中有35个主题来渲染测试图像。为了生成测试样本,我们从一个主题中随机选择4个表情,并使用任意全局照明和不同姿势渲染4张图像。在这里,我们将图像与增加偏航角进行排序,以获得更好的插图。类属基的结果不太稳定。图中的定性比较。7表明,通用基础往往会给出更多的噪声重建。请注意,在训练通用基础模型时应用了额外的平滑损失,这在一定程度上降低了几何误差的STD并减轻了输出上的噪声模式。自适应基能够从图像的空间信息和初步重建中获得顶点之间的关系,而通用基则独立地处理每个顶点。该属性使得自适应基能够产生鲁棒且平滑的结果。多层次方案。我们还调查了多层次计划的有效性。表4显示了BU3DFE的定量结果[62]。几何误差及其标准差(STD)随着水平的过滤当测试2视图情况时,使用第1和第4对于3视图情况,分别使用(第1、第2、第4)和(第1、第3、第4)图像对于4视图情况,使用所有图像我们只测量第1和第4幅图像的误差,以便进行公平的比较。在使用超过2个视图进行测试之前,我们进一步对训练分割进行相应的微调,以更好地适应不同数量的视图。如表3所示,通过在训练和测试期间引入更多视图,我们的方法在几何误差的平均值和标准差方面都实现了更好的性能,这证明了多视图信息的有效性。自适应与 通用基础。 为了证明自适应基础的好处,我们设计了一个基线,其中我们用通用的基础代替自适应基础,通用的基础对于不同的主题是通用的,并且在优化过程中是固定的。基本上,我们移除图中的基网络F基。4并设置UV纹理表示的基础上(也显示在图。4)作为网络参数,它通过相同的纹理映射导出通用基础定量结果在表1中显示为我们的NoAdap(S)。虽然通用基的平均误差与自适应基的平均误差相当,但其误差的标准差(STD)较大,表明进行优化。请注意,即使我们的水平1重建优于表1中的所有基线。图中的最后三列1是典型的定性例子,表明较高的水平可以更好地捕捉个性化的细节,即,眉毛之间的皱纹5. 结论提出了一种新的非刚性多视点立体优化框架,解决了不同表情的多视点图像的三维人脸重建问题我们的方法将传统的多视图几何(在照片/特征一致性方面)引入到流行的基于CNN的人脸重建中。通过强制多视图几何约束来解决三维重建问题,可以有效地捕捉形状细节,并提高对未知数据的泛化能力。实验表明,我们的方法达到了最先进的性能,并很好地推广到野外图像,这证明了传统的基于多视图几何的优化与现代CNN相结合的有效性。虽然我们的NRMVS仍然是特定于面部的,但它是具有非刚性运动的密集多视图立体的第一个公式,因此,可以潜在地应用于其他非刚性重建问题。2个视图3个视图4个视图平均值(mm)1 .一、041 .一、031.021级2级3级平均值(mm)1 .一、291 .一、181.11标准(mm)0的情况。320的情况。300.295861引用[1] Stirling/ESRC 3D人脸数据库。六、八[2] Antonio Agudo和Francesc Moreno-Noguer。尘埃:用于单目多目标3d重建的时空子空间的双重联合。计算机视觉和模式识别(CVPR),第6262-6270页,2017年。2[3] 伊贾兹·阿赫特,亚瑟·谢赫,和索海布·汗.为非刚性结构的正交约束辩护。在Proc. of Computer Vision andPattern Recognition ( CVPR ) , 第 1534-1541 页 中 。IEEE,2009年。2[4] Brian Amberg,Sami Romdhani,and Thomas Vetter.用于表面配准的最优步长非刚性icp算法计算机视觉和模式识别(CVPR),第1-8页IEEE,2007年。6[5] Thabo Beeler , Bernd Bickel , Paul Beardsley , BobSumner,and Markus Gross.高质量的面部几何形状的单镜头捕捉在ACM Trans.on Graphics(TOG),第29卷,第40页中。ACM,2010年。一、二[6] Volker Blanz和Thomas Vetter。基于三维形变模型拟合的人脸识别。 IEEE Trans. on Pat.燕鸥分析和机器智能(PAMI),25(9):1063- 1074,2003年。2[7] Volker Blanz,Thomas Vetter,et al.三维人脸合成的可变形模型。在Proc. of ACM SIGGRAPH,vol.99,pages187二、三[8] James Booth 、 Anastasios Roussos 、 Allan Ponniah 、David Dunaway和Stefanos Zafeiriou。大规模三维变形模型。International Journal of Computer Vision(IJCV),126(2-4):233-254,2018。2[9] Sofien Bouaziz,Yanang Wang,and Mark Pauly.实时面部 动 画 的 在 线 建 模 。 ACM Trans. on Graphics(TOG),32(4):40,2013. 2[10] Derek Bradley,Wolfgang Heidrich,Tiberiu Popa,andAlla Sheffer.高分辨率被动面部表演捕捉。在ACM Trans.图形学(TOG),第29卷,第41页。ACM,2010年。一、二[11] C Bregler,A Hertzmann和H Biermann。从图像流中恢复非刚性三维形状 在proc 计算机视觉和模式识别(CVPR),第2卷,第690- 696页。IEEE,2000年。2[12] Adrian Bulat和Georgios Tzimiropoulos我们离解决二维和三维人脸对齐问题还有多远?(and 230,000个3D面部标志的数据集 在proc ,第1021- 1030页,2017年。4[13] Anpei Chen , Zhang Chen , Guli Zhang , KennyMitchell,and Jingyi Yu.从单张图像合成照片般真实的面部细节在IEEE计算机视觉国际会议(ICCV),2019年10月。二六七[14] Joon Son Chung , Arsha Nagrani , Andrew Zisserman.Voxceleb2:深度说话人识别。Proc. Interspeech 2018,第1086-1090页,2018年。7[15] 戴玉超,李红东,何明义。非刚性结构运动分解的一种简单的无先验方法。International Journal of ComputerVision(IJCV),107(2):101-122,2014. 一、二[16] Yu Deng,Jiaolong Yang,Sicheng Xu,Dong Chen,Yunde Jia,and Xin Tong.基于弱监督学习的精确3D人脸重建:从单张图像到图像集。在IEEE计算机视觉和模式识别研讨会会议论文集,第0-0页二、六、七、八[17] Yao Feng,Fan Wu,Xiaohu Shao,Yafeng Wang,andXi Zhou. 结合位置映射回归网络的三维人脸重建与密集对齐 在proc 欧洲计算机视觉会议(ECCV),第534-551页,2018年。二五六七[18] 冯振华,Patrik Huber,Josef Kittler,Peter Han- cock,Xiao-Jun Wu,Qijun Zhao,Paul Koppen,and MatthiasRätsch. 野外2dface图像的致密3d重建评价在2018年第13届IEEE国际自动人脸手势识别会议(FG 2018)上,第780-786页IEEE,2018年。7[19] 卡特琳娜·弗拉基亚达基,玛尔塔·萨拉斯,巴勃罗·阿贝莱斯,和吉坦德拉·马利克.基于分组的低秩轨迹补全与三维重建。在Proc. of Advances in Neu-ral InformationProcessing Systems(NeurIPS),第552[20] 古川康孝和让·庞塞。精确、密集和强大的多视图立体视觉。 IEEE Trans. 模式分析和机器智能(PAMI),32(8):1362 -1376,2009。2[21] Graham Fyffe,Paul Graham,Borom Tunwattanapong,Ab-hijeet Ghosh,and Paul Debevec.几乎即时捕捉高分辨率面部几何形状和反射率。计算机图形论坛,第35卷,第353-363页。Wiley Online Library,2016. 2[22] Ravi Garg,Anastasios Roussos,and Lourdes Agapito.非刚性表面的密集变分重构。在Proc. of Computer Visionand Pattern Recognition(CVPR),第1272-1279页,2013中。一、二[23] 帕布罗·加里多,李维·瓦尔加托,吴成磊,克里斯-蒂安·西奥博尔特.从单目视频重建详细的动态人脸几何。Proc. of ACM SIGGRAPH,32(6):158-1,2013. 2[24] PabloGarri do,Mi chaelZollho¨ fer,DanCasas,Le viVal-gaerts,KiranVaranasi,帕特里克·佩雷斯和克里斯蒂安·西奥伯特从单目视讯重建个人化三维人脸模型。ACM Trans. on Graphics(TOG),35(3):28,2016.2[25] Kyle Genova、Forrester Cole、Aaron Maschinot、AaronSarna、Daniel Vlasic和William T Freeman。三维可变形模型 回归 的无 监督 训练 。计算 机视 觉和 模式 识别(CVPR),第8377-8386页,2018年一、二[26] Athinodoros S Georghiades。从少量照片恢复三维形状和反射率。在第14届欧洲图形学研讨会的论文集中,第230-240页欧
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功