没有合适的资源?快使用搜索试试~ 我知道了~
203640RigNeRF:完全可控的神经3D肖像0ShahRukh Athar* StonyBrook大学sathar@cs.stonybrook.edu0Zexiang XuAdobe研究部门zexu@adobe.com0Kalyan SunkavalliAdobe研究部门sunkaval@adobe.com0Eli ShechtmanAdobe研究部门elishe@adobe.com0Zhixin ShuAdobe研究部门zshu@adobe.com0(a)姿势控制(b)表情控制(c)新视角合成(d)基于视频的新视角合成0图1.我们的方法RigNeRF使用3DMM引导的可变形神经辐射场实现了对人像的头部姿势和面部表情的完全控制。通过训练一个短肖像视频,RigNeRF可以以任意的(a)头部姿势和(b)面部表情重新动画主体。它还允许对3D场景的可控视角(c)。自然地,RigNeRF可以用于将驱动视频序列中的面部动画忠实地转移到3D肖像上(d)。0摘要0体积神经渲染方法,如神经辐射场(NeRFs),已经实现了逼真的新视角合成。然而,在标准形式下,NeRFs不支持在场景中编辑对象,如人头。在这项工作中,我们提出了RigNeRF,一个超越新视角合成的系统,可以从单个肖像视频中学习到头部姿势和面部表情的完全控制。我们使用由3D可变形人脸模型(3DMM)引导的变形场来建模头部姿势和面部表情的变化。3DMM有效地作为RigNeRF的先验,学习仅预测与3DMM变形的残差,并允许我们渲染输入序列中不存在的新(刚性)姿势和(非刚性)表情。仅使用智能手机拍摄的主体短视频进行训练,我们展示了我们的方法在肖像场景的自由视角合成方面的有效性,同时明确了头部姿势和0表情控制。01. 引言0计算机图形学和计算机视觉界一直以来都在研究逼真的人像编辑。在拍摄后能够控制肖像的某些属性,如3D视角、光照、头部姿势,甚至面部表情,是非常有价值的。它在增强现实/虚拟现实应用中具有巨大潜力,其中3D沉浸式体验非常有价值。然而,这是一项具有挑战性的任务:在自然场景中建模和渲染逼真的人像,并完全控制3D视角、面部表情和头部姿势,尽管长期以来一直存在兴趣,并且最近的研究也有所增加。3D可变形人脸模型(3DMMs)[4]是最早尝试实现完全可控的3D人像表达的方法之一。0* 在Adobe研究部门实习期间完成的工作。203650头部模型。3DMM使用基于PCA的线性子空间来独立地控制面部形状、面部表情和外貌。可以使用标准的基于图形的渲染技术(如光栅化或光线追踪)在任何视角下渲染所需属性的面部模型。然而,直接渲染只模拟面部区域的3DMM[4]对于逼真的应用来说并不理想,因为它缺少人头的重要元素,如头发、皮肤细节和眼镜等配饰。因此,由于其对面部属性(如形状、纹理和表情)进行了自然解耦,3DMM更适合作为中间3D表示[21, 47,48],使其成为控制面部合成的吸引人的表示形式。另一方面,最近在神经渲染和新视角合成[3, 6, 13, 14, 28, 29, 32, 33,35, 39, 50, 52,53]方面取得了令人印象深刻的复杂场景和物体的基于图像的渲染。尽管如此,现有的工作无法同时生成给定自然场景和其中的对象(包括人脸及其各种属性)的高质量新视角。在这项工作中,我们希望引入一个系统来建模一个完全可控的肖像场景:具有相机视角控制、头部姿势控制以及面部表情控制。通过变形模块,可以在NeRFs中实现对头部姿势和面部表情的控制,就像[35, 36,39]中所做的那样。然而,由于这些变形是在潜在空间中学习的,它们不能被明确地控制。通过使用3DMM头部姿势和面部表情空间对变形场进行参数化,可以通过变形方式自然地增加对头部姿势和面部表情的控制。然而,如图7所示,这种变形场的天真实现会导致重新动画时出现伪影,因为刚性丢失和面部表情建模不正确。为了解决这些问题,我们引入了RigNeRF,一种利用3DMM生成粗糙变形场的方法,然后通过MLP预测的校正残差对其进行细化,以考虑非刚性动力学、头发和配饰。除了给我们提供可控的变形场外,3DMM还作为归纳偏差,使我们的网络能够推广到输入视频中未观察到的新的头部姿势和表情。我们的模型设计用于在移动设备上拍摄的短视频上进行训练。一旦训练完成,RigNeRF允许对头部姿势、面部表情和相机视角进行明确的控制。我们的结果捕捉到了场景的丰富细节,以及头发、胡须、牙齿和配饰等人头的细节。使用我们的方法重新动画的视频在面部表情和头部姿势方面保持了与驱动可变形模型和原始捕捉场景和人头的高保真度。总之,本文的贡献如下:1)我们提出了一种完全可控的神经辐射场,能够完全控制人头,并同时模拟0完整的3D场景。2)我们通过实验证明了动态神经辐射场重新激活时刚性的丧失。3)我们引入了变形先验,以确保在重新激活过程中人头的刚性,从而显著提高其质量。02. 相关工作0RigNeRF是一种对3D肖像场景的头部姿势、面部表情和新颖视角合成进行全面控制的方法。它与神经渲染、新颖视角合成、3D人脸建模和可控人脸生成的最新工作密切相关。0神经场景表示和新颖视角合成。RigNeRF与神经渲染和新颖视角合成的最新工作相关[3,6,13,14,25,28,29,31-36,39,40,45,49-53]。神经辐射场(NeRF)使用多层感知器(MLP)F来学习场景的体积表示。对于每个3D点和从该点观察的方向,F预测其颜色和体积密度。对于给定的相机姿态,首先使用分层体积采样[33]在整个场景中密集地评估F,然后使用体积渲染来渲染最终图像。通过最小化像素的预测颜色与其真实值之间的误差来训练F。虽然NeRF能够为新颖视角合成生成逼真的图像,但它只适用于静态场景,无法表示场景动态。我们的方法专门设计用于动态肖像视频合成,不仅模拟了人脸的动态,还允许对面部动画进行特定控制。0动态神经场景表示。虽然NeRF[33]是为静态场景设计的,但有几个工作尝试将其扩展到模拟动态对象或场景。有一系列的工作[27,28,39,50]通过提供时间组件作为输入,并通过使用场景流[28,50]或使用规范帧[39]施加时间约束来扩展NeRF以模拟动态场景。类似地,Nerfies[35]也通过映射到规范帧来处理动态场景,但它假设运动很小。在[36]中,作者在[35]的基础上构建,并使用环境维度来模拟变形场的拓扑变化。这些方法中的变形场是以学习到的潜在代码为条件的,没有特定的物理或语义含义,因此无法以直观的方式进行控制。与[35,36]类似,RigNeRF通过映射到规范帧来模拟肖像视频,但还能够对头部姿势和面部表情进行全参数化控制。0可控的人脸生成。生成对抗网络(GANs)的最新突破[15,17-20,55]203660已经实现了高质量的图像生成和操作。它们还启发了大量关于人脸图像操作和编辑的工作[2,7-9,24,38,42,43,46,47]。然而,这些工作大多是基于图像的,缺乏明确的3D表示。因此,要实现高质量的视角合成和对肖像的3D控制,如大幅度的姿势变化或极端的面部表情,是具有挑战性的。另一方面,一些工作[1,10,22,23]利用3D可塑模型作为中间的3D人脸表示来重新激活人脸图像/视频。虽然能够以极大的细节模拟头部姿势,但由于3DMM中的分离表示,它们通常无法进行新颖视角合成,因为它们只关注人脸区域,而忽略了场景的几何或外观。类似地,NerFACE[13]使用神经辐射场来建模4D人脸头像,并允许对头部进行姿势/表情控制。然而,它们假设背景是静态的,相机是固定的,因此无法对人或场景进行视角合成。相比之下,我们的方法RigNeRF在能够合成3D肖像场景的新视角的同时,还能够对捕捉到的人的头部姿势和面部表情进行全面控制。0混合表示。体积和隐式表示的逼真性鼓励了将它们与经典表示相结合的工作,以改善重建[5]或对前景进行控制[12,30,37]。在[30]中,作者学习了一个变形场以及纹理映射来重新激活人体。类似地,[37]学习了一个3D蒙皮场,以根据目标姿势准确变形点。[30]和[37]都没有对整个3D场景进行建模。相比之下,RigNeRF对整个3D场景进行建模,并完全控制头部姿态、面部表情和视角。03. RigNeRF0在本节中,我们描述了我们的方法RigNeRF,它实现了3D肖像场景的新视图合成和头部姿态以及面部表情的任意控制。使用具有每点变形的神经辐射场(NeRF)[33]来控制主体的头部姿态和面部表情。变形场将每帧的射线变形到一个规范空间,由3DMM在正面头部姿态和中性表情下定义,颜色在此处进行采样。为了模拟由头部姿态(刚性变形)和面部表情(非刚性变形)引起的变形,并正确变形头发和眼镜等面部细节,变形场被定义为3DMM变形场和由变形MLP预测的残余变形的总和。03.1. 可变形神经辐射场0神经辐射场(NeRF)被定义为一个连续函数F:(γγγm(x),γγγn(d))→(c(x,d),σ(x)),给定场景中一个点的位置x和它被观察的方向d,输出颜色c=(r,g,b)和密度σ。F通常表示为一个多层感知机(MLP),γγγm:R3→R3+6m是位置编码[33],定义为γγγm(x)=(x,...,sin(2kx),cos(2kx),...),其中m是频带的总数,k∈{0,...,m−1}。通过体积渲染计算相机射线通过的像素的期望颜色。F的参数被训练以使期望颜色与真实值之间的L2距离最小化。如上所述,NeRF被设计用于静态场景,并且无法对场景中的对象进行控制。为了建模动态场景,NeRF通过额外学习一个变形场来将场景的每个3D点映射到一个规范空间,在该空间进行体积渲染[35,36,39]。变形场也由一个MLPDi:x→xcan表示,其中Di被定义为D(x,ωi)=xcan,ωi是每帧的潜在变形代码。除了变形代码ωi,还使用每帧外观代码[35,36,39]ϕi,因此第i帧的最终辐射场如下所示:0(c(x,d),σ(x))=F(γγγ(D(x,ωi)),γγγ(d),ϕi)(1)0除了F的参数之外,每个ωi和ϕi也通过随机梯度下降进行优化。虽然前述的修改能够生成动态视频的新视图[35,39]并处理场景中物体的微小运动[35],但它们估计的变形是以可以是任意的学习变形代码为条件的。相反,我们寻求直观的变形控制,明确地将面部外观与相机视点、头部姿态和表情分离和控制。03.2. 3DMM引导的变形场0RigNeRF实现了动态肖像场景的新视图合成和头部姿态以及面部表情的任意控制。对于每一帧i,我们首先使用DECA[11]和地标拟合[16]提取其头部姿态和表情参数{βi,exp,βi,pose}。接下来,我们通过每个像素p发射射线,并将射线上的每个点x变形到规范空间中的一个位置xcan =(x',y',z'),计算其颜色。参数化这个规范空间及其与之偏离的任何变化的一种自然方式是使用3DMMs[4,26]。因此,RigNeRF的规范空间被定义为头部具有零头部姿态和中性面部表情的空间。不幸的是,3DMM仅对头部上的一部分点准确定义——3DMM拟合通常不完美,并且它们不模拟头发、眼镜等——并且是FRGBσϕdDFωDβexpβpose3DMMDef( ̂x, βexp, βpose) = ̂xFLAME(0,0) − ̂xFLAME(βexp,βpose)̂x̂x̂xx3DMMDef(x, βexp, βpose) =3DMMDef( ̂x, βexp, βpose)exp (DistToMesh(x, y, z))DistToMesh(x)3DMMDef(x, βexp, βpose) = 3DMMDef(ˆx,βexp,βpose)exp(DistToMesh(x))(2)+ D(γγγa(x),γγγb(3DMMDef(x, βi,exp, βi,pose)), ωi)(4)203670( x ′ , y ′ , z ′ ) ( x , y , z )0( x M , y M , z M ) = ( x ,y , z ) +03DMMDef (( x , y , z ), β exp , βpo0exp ( DistToMesh ( x , y , z ))0( x M , y M ,z M )0规范空间03DMM变形场0图2. RigNeRF概述。RigNeRF是一个可变形的NeRF架构,由两个可学习的MLP组成:变形MLP D 和颜色MLPF。给定一张图像,我们通过每个像素发射射线。对于每条射线,我们根据3DMM引导的变形场对其上的每个点进行变形。该变形场是3DMM变形场(参见第3.2节)和变形MLP D 预测的残差的和。接下来,变形后的点作为颜色MLP F 的输入,该输入还包括姿势和表情参数 { β exp, β pose }、视线方向 d 和外观嵌入 ϕ,以预测颜色和密度。像素的最终颜色通过体素渲染计算。0对于3D空间中的其余点,规范空间中的变形 MLP D i : x →x仍然是必要的。然而,正如第4.3节所述,直接预测到规范空间的变形会导致重新动画过程中出现伪影。这些伪影是由于D无法正确地1)保持头部的刚性和2)正确地建模面部表情所导致的。0规0FLAME ( 0 , 0)0关节网格 FLAME ( βexp , β pose )0光栅化网格0变形(3DMMDef)0图3. 3DMM变形场。空间中任意点 x的3DMM变形场等于其在网格上最近邻点 ˆ x 的变形,乘以 x 和 ˆ x之间距离的指数的倒数。0为了解决这个问题,并确保RigNeRF能够处理由于头部姿势变化而引起的刚性变形和由于面部表情变化而引起的非刚性变形,我们使用了使用3DMM导出的变形场先验。对于表情和头部姿势参数 { β exp , β pose },任意点 x = ( x, y, z )的3DMM变形场的值为:0其中,3DMMDef ( x ) 是3DMM变形场的值,ˆ x = (ˆ x, ˆy, ˆ z ) 是网格上与 ( x, y, z ) 最近的点,DistToMesh = || x- ˆ x || 是 x 和 ˆ x 之间的距离。网格上任意点ˆ x的3DMM变形由其在规范空间中的位置(即网格具有零头部姿势和中性面部表情时)与其当前关节位置之间的差异给出,如下所示:03DMMDef (ˆ x , β exp , β pose ) = ˆ x FLAME ( 0 , 0 ) - ˆ xFLAME ( β exp ,β pose ) (3)0其中,ˆ x FLAME ( 0 , 0 ) 是 x 在规范空间中的位置,ˆ xFLAME ( β exp ,β pose ) 是其在头部姿势和面部表情参数 {β exp , β pose }下的位置。RigNeRF变形场可以定义为3DMM变形场和由D 预测的残差的和,如下所示0ˆ D ( x ) = 3DMMDef ( x , β i,exp , β i,pose )0xcan = x + ˆD(x)0其中,ˆD(x)是RigNeRF变形场在x处的值,{γγγa,γγγb}是x和3DMMDef(x,...)的位置嵌入,ωi是当前帧的变形嵌入。我们使用ωi来模拟不能由头部姿势和表情变化解释的变形。实验上,我们发现直接将D条件化为表情和姿势参数{βi,exp,βi,pose}会导致过拟合和泛化能力差。这可能是由于代码的高维度(59)使其容易过拟合。相反,我们将D条件化为3DMM。203680点x的变形3DMMDef(x,βi,exp,βi,pose)。由于3DMMDef(x,βi,exp,βi,pose)∈R3,它本身相对较低维度,并且可以通过调整其位置嵌入γγγb的频率数量将其推入更高维度。我们发现在3DMM变形3DMMDef(x,βi,exp,βi,pose)中使用b =2个频率效果最好。在图4中,我们展示了D的输出和RigNeRF变形场ˆD的渲染,如方程(4)所述。在图4(c)中,我们可以看到D在两个头部姿势下都生成了准确的眼镜周围变形,而3DMM变形无法实现。在图4(d)中,我们可以看到ˆD仅集中在头部上,这是应该的。0(a)渲染(b)深度(c)0图4.可视化RigNeRF中学习到的深度和变形。这里我们展示了深度,变形MLPD的输出的幅度以及ˆD的幅度,即3DMM变形和D的和。在(b)中,我们可以看到尽管头部姿势发生了很大变化,深度仍然保持一致。接下来,在(c)中,我们可以看到D在两个姿势下都生成了围绕眼镜的变形,以便可以随着头部准确地变形。最后,在最后一列中,我们可以看到ˆD仅集中在头部上。03.3. 3DMM条件化外观0为了准确地建模基于表情和头部姿势的纹理,例如牙齿,我们将F条件化为表情和头部姿势参数以及从变形MLPD(γγγa(x),...)的倒数第二层提取的特征。我们发现使用这些特征作为输入可以提高渲染的整体质量,请参阅补充材料了解详情。因此,一旦点x根据方程(4)被变形到其在规范空间中的位置xcan,其颜色计算如下:0c(x,d),σ(x)= F(γγγc(xcan),γγγd(d),ϕi,DF,i(xcan),βi,exp,βi,pose)0(5)其中,d是视线方向,γγγc,γγγd是xcan和d上的位置嵌入,DF,i(xcan)是变形MLPD(γγγa(x),...)的倒数第二层的特征。然后,使用体渲染和RigNeRF的参数计算p的像素颜色,这些参数是相对于p的真实颜色最小化的。完整的架构如图2所示。04. 结果0在本部分中,我们展示了使用RigNeRF进行头部姿势控制、面部表情控制和新颖视角合成的结果。对于每个场景,模型是在使用消费级智能手机拍摄的短视频肖像上进行训练的。0基准方法。据我们所知,RigNeRF是第一种能够动态控制头部姿势、面部表情并能够合成全景场景的新颖视角的方法。因此,目前没有现有的方法进行苹果对苹果的比较。我们定性和定量地将我们的方法与执行密切相关任务的其他三种方法进行比较:(1)HyperNeRF[36]:一种使用NeRF进行动态肖像场景新颖视角合成的最先进方法,没有任何控制;(2)NerFACE[12]:一种使用NeRF进行面部动态控制的最先进方法,没有建模相机视点和整个场景;(3)第一阶段运动模型(FOMM)[44]:一种通用的图像复活流程。在生成复活视频时,RigNeRF、HyperNeRF [36]和NerFACE[12]需要一个外观编码进行渲染;我们在这里使用第一帧的外观编码。类似地,RigNeRF和Nerfies[35]需要一个变形编码,我们使用第一帧的变形编码。复活的完整视频可以在补充材料中找到。我们强烈建议读者参考这些视频来评估结果的质量。0训练数据捕获和训练细节。本文中的所有实验的训练和验证数据均使用iPhone XR或iPhone12进行捕获。在捕获的前半部分,我们要求被试在摄像机围绕其周围移动时表演各种表情和语音,同时尽量保持头部静止。在后半部分,摄像机固定在头部水平位置,要求被试在表演各种表情时旋转头部。使用COLMAP[41]计算相机参数。使用DECA[11]计算视频中每帧的表情和形状参数,并使用[16]预测的地标和COLMAP[41]给出的相机参数进行标准地标拟合优化。所有训练视频的长度在40-70秒之间(约1200-2100帧)。由于计算限制,视频被降采样,并以256x256分辨率训练模型。我们使用粗到精和顶点变形正则化[35]来训练变形网络D(x, ωi)。请在补充材料中找到每个实验的详细信息。04.1. 测试数据评估0我们在捕获的视频的保留图像上评估RigNeRF、HyperNeRF [36]、NerFACE [12]和FOMM [44]。203690(a) 固定视角,变化的表情和姿势 (b) 变化的表情,姿势和视角0源图像0图像RigNeRFHyperNeRFNerFACE0图5.使用新的面部表情、头部姿势和相机视角参数进行再动画的定性比较。在这里,我们使用源图像中的面部表情和头部姿势重新激活RigNeRF、HyperNeRF [36]和NerFACE [12](顶行)。我们观察到,虽然HyperNeRF[36]能够生成逼真的肖像图像,但无法控制结果中的头部姿势或面部表情。另一方面,NerFACE[12]试图渲染正确的姿势和表情,但无法生成合理的面部区域。由于NerFACE[12]缺乏明确的变形模块,它无法对由于头部姿势和面部表情变化而产生的变形进行建模。相比之下,我们的方法RigNeRF能够有效地控制头部姿势、面部表情和相机视角,生成高质量的面部外观。0主体1 主体2 主体3 主体40模型 PSNR ↑ LPIPS ↓ FaceMSE ↓ PSNR ↑ LPIPS ↓ FaceMSE ↓ PSNR ↑ LPIPS ↓ FaceMSE ↓ PSNR ↑ LPIPS ↓ FaceMSE ↓0RigNeRF(我们的方法) 29.55 0.136 9.6e-5 29.36 0.102 1e-4 28.39 0.109 8e-5 27.0 0.092 2.3e-4 HyperNeRF [36] 24.58 0.22 8.14e-4 22.55 0.1546 9.48e-4 19.29 0.262.74e-3 21.19 0.182 1.58e-3 NerFACE [13] 24.2 0.217 7.84e-4 24.57 0.174 6.7e-4 28.00 0.1292 1.2e-4 28.47 0.134 2.7e-4 FOMM [44] 11.45 0.432 7.65e-3 12.7 0.5826.31e-3 10.17 0.601 1.7e-2 11.17 0.529 6.8e-30表1. 主体1、2、3和4在测试数据上的定量结果。我们的结果在大多数指标上优于HyperNeRF [36]、NerFACE [12]和FOMM [44]。0序列。我们使用这些图像的相机视角、姿势和表情参数。由于RigNeRF和HyperNeRF [36]使用每帧变形ωi,我们不能使用第一帧(我们默认用于再动画的帧)与地面实况图像进行直接比较,因为它可能具有与规范空间不同的变形。因此,我们首先通过最小化以下渲染误差来优化给定验证图像的变形代码ω v :0ω v = min ω || C p ( ω ; x , d , θ, ϕ 0 , β i,exp , β0其中,C p ( ω ; x , d , θ, ϕ 0)是使用方程(5)和体素渲染生成的像素p处的预测颜色,ϕ 0是第一帧的外观代码,θ是F中的参数,如方程(5)所定义,CGT p是地面实况像素0值。请注意,我们仅优化ω,辐射场的所有其他参数保持固定。我们对方程(6)进行200个时期的优化,我们观察到这足以找到损失平台。优化完成后,我们报告最终的MSE、PSNR、LPIPS和Face MSE,即仅在面部区域计算的MSE。我们在NerFACE[12]上没有进行这样的优化,因为它没有变形模块,而在FOMM[44]上也没有进行这样的优化,因为它是一种基于图像的方法。0如表1所示,我们的方法在保留的测试图像上优于HyperNeRF [36]、NerFACE [12]和FOMM[44]。RigNeRF、HyperNeRF [36]和NerFACE[12]是在具有不断变化的头部姿势和面部表情的动态肖像视频上进行训练的,HyperNeRF[36]缺乏头部姿势和面部表情控制能力,无法生成保留测试集中所见的头部姿势和面部表情。NerFACE [12]由于缺乏变形模块,无法仅通过将姿势和表情参数连接为NeRFMLP的输入来模拟头部姿势变化的动态性。因此,NerFACE[12]在面部区域产生了明显的伪影(见图5(a)和图5(b)的第三行)。FOMM[44]作为一种基于图像的方法,无法模拟新视角。FOMM[44]的定性结果可以在补充材料中找到。与其他方法相比,由于使用了3DMM引导的变形模块,RigNeRF能够以高保真度模拟头部姿势、面部表情和完整的3D肖像场景,从而提供具有清晰细节的更好重建结果。In this section we show results of reanimating a por-trait video using both RigNeRF, HyperNeRF [36] and Ner-203700(a) 基于图像的重新激活0(b) 新视角合成 (c) 基于3DMM的3D肖像控制0图6.RigNeRF的应用。RigNeRF允许对3D肖像场景的头部姿势、面部表情和视角进行完全控制。这使得应用如(a)基于图像的重新激活,(b)新视角合成和(c)基于3DMM的3D肖像控制成为可能。在(a)的顶部行,我们展示了从中提取姿势和表情参数的“驱动序列”的图像;在(a)的底部行,我们合成了与驱动姿势和表情非常接近的逼真肖像帧的结果。我们在(b)中展示了一组视角合成结果,其中我们固定头部姿势和面部表情,以不同的相机位置渲染结果,展示了具有戏剧性视角变化的高质量结果。在(c)中,我们展示了使用显式的3DMM参数控制肖像外观的应用。在每一行中,(c)的第1列和(c)的第2列具有相同的姿势但不同的表情;(c)的第2列和(c)的第3列具有不同的姿势但相同的表情。插图显示了输入的3DMM姿势和表情,这两者在相应的结果中都得到了忠实地渲染。请在补充文档和视频中查找更多结果。0在本节中,我们展示了使用RigNeRF、HyperNeRF[36]和NerFACE [12]重新激活肖像视频的结果。04.2. 使用姿势和表情控制进行重新激活0使用表情和头部姿势参数作为驱动参数的FACE[12]。使用DECA [11]+Landmark fitting[16]从驱动视频中提取每帧的表情和头部姿势参数,并将其作为输入传递给RigNeRF中的方程(4)和方程(5)。由于HyperNeRF[36]不接受头部姿势或表情参数作为输入,因此其前向传递保持不变。首先,在图5(a)中,我们展示了在保持视角不变的情况下使用驱动视频改变头部姿势和表情的结果。可以看到,RigNeRF以高保真度捕捉到了驱动视频的头部姿势和面部表情,而不会影响整个3D场景的重建。相比之下,我们可以看到HyperNeRF[36]由于缺乏控制能力而无法改变面部表情或头部姿势,而NerFACE[12]在改变头部姿势时在脸部产生了明显的伪影。在图5(b)中,我们展示了在改变头部姿势和面部表情的同时进行新视角合成的结果。同样,我们可以看到RigNeRF以准确的头部姿势和面部表情重新激活了主体。(7)203710来源0图像RigNeRFHyperNeRF+E/P0图7.RigNeRF和HyperNeRF+E/P之间的定性比较。在这里,我们展示了使用源图像重新激活时RigNeRF和HyperNeRF+E/P之间的定性比较。我们可以看到,由于无法正确建模变形,HyperNeRF+E/P在重现过程中产生了许多伪影。相比之下,RigNeRF以高度逼真的方式生成了与头部姿势和面部表情都高度相似的重现结果。0面部表情,并且能够在不牺牲背景3D场景重建的情况下,无论观察方向如何改变。再次强调,由于前面提到的原因,HyperNeRF无法改变头部姿势和面部表情,而NerFACE[12]在重现过程中会产生明显的伪影。在图6中,我们展示了RigNeRF的更多定性结果。我们使用RigNeRF的三种不同应用来展示其灵活性和对肖像场景的完全可控性。在图6-(a)中,我们展示了基于图像的动画的其他结果。结果帧(图6-(a)-底部)与驱动帧(图6-(a)-顶部)中显示的头部姿势和面部表情非常相似。在图6-(b)中,我们展示了在固定(任意的)面部表情和头部姿势的情况下变化相机视角的结果。我们展示了在剧烈视角变化下的稳健视角合成性能。在图6-(c)中,我们展示了RigNeRF可以接受用户指定的3DMM参数作为输入,生成高质量的肖像图像:每个帧都忠实地再现了插图中提供的一组3DMM参数所显示的面部和表情。04.3. 与HyperNeRF+E/P的比较0在本节中,我们与添加了姿势和表情控制的HyperNeRF[36]进行比较,我们将其命名为HyperNeRF+E/P。该模型的前向传递如下所示0x can = D(γγγa(x), βi,exp, βi,pose, ωi)0w = H(γγγl(x), ωi)0c(x, d), σ(x) = F(γγγc(x can), γγγd(d), ϕi, w, βi,exp, βi,pose)0其中,H是环境MLP,w是环境坐标[36]。在表2中,我们展示了RigNeRF和HyperNeRF+E/P之间的定量比较。我们可以看到,RigN-0主题1 主题20模型 PSNR↑ LPIPS↓ FaceMSE↓ PSNR↑ LPIPS↓ FaceMSE↓0RigNeRF(我们的方法) 29.55 0.136 9.6e-5 29.36 0.102 1e-4 HyperNeRF+Exp 31.3 0.1611.3e-4 30 0.116 1.9e-40表2.RigNeRF和Hyper-NeRF+E/P之间的定量比较。我们可以看到,与HyperNeRF+E/P相比,RigNeRF生成的面部重建质量更好,与真实值之间的感知距离更小。0RigNeRF能够生成更好的面部重建结果,并且生成的图像与真实值之间的感知距离(由LPIPS[54]测量)更近,相比之下,HyperNeRF+E/P生成的图像质量较差。在图7中,我们展示了当两种方法使用源图像进行重现时的定性比较,其中头部姿势和表情与训练集明显不同。可以看到,虽然HyperNeRF+E/P能够转动头部,但无法进行刚性变形(见图7的第3行第2列和第3行第4列)。此外,它也无法准确建模面部表情,并在面部区域产生伪影。这进一步证明了我们的3DMM引导0我们的方法有一定的局限性。首先,它是特定于主题的,并为每个场景训练一个单独的模型。由于需要捕捉足够的表情和头部姿势变化进行训练,我们的方法目前需要训练序列的时间范围为40-70秒。此外,像所有其他基于NeRF的方法一样,相机注册的质量会影响结果的质量。作为一种允许逼真面部重现的方法,如果被滥用,RigNeRF可能会产生潜在的负面社会影响。我们在补充材料中进一步讨论了这个问题。总之,我们提出了RigNeRF,这是一个用于完全可控的人像的体积神经渲染模型。一旦训练完成,它允许对头部姿势、面部表情和观察方向进行完全控制。为了确保对新的头部姿势和面部表情的泛化,我们使用了3DMM引导的变形场。这个变形场使我们能够有效地建模和控制由头部姿势变化引起的刚性变形和面部表情变化引起的非刚性变形。通过使用一个短的肖像视频进行训练,RigNeRF可以实现包括基于图像的面部重现、肖像新视角合成和基于3DMM的3D肖像控制在内的应用。06. 致谢0我们要感谢匿名的CVPR审稿人花时间审查并提出改进意见。ShahRukh Athar受到Adobe的赠款,PartnerUniversity Fund4DVision项目和SUNY2020基础设施交通安全中心的支持。203720参考文献0[1] ShahRukh Athar,Albert Pumarola,FrancescMoreno-Noguer和DimitrisSamaras。Facedet3d:面部表情与3D几何细节预测。arXiv预印本arXiv:2012.07999,2020年。30[2] S Athar,Z Shu和DSamaras。用于面部表情编辑的自监督变形建模。2020年。30[3] Mojtaba Bemana,Karol Myszkowski,Hans-PeterSeidel和TobiasRitschel。X-fields:隐式神经视图,光和时间图像插值。2020年。20[4] Volker Blanz,ThomasVetter等。用于合成3D面部的可变模型。1999年。1,2,30[5] Aggelina Chatziagapi,ShahRukh Athar,FrancescMoreno-Noguer和DimitrisSamaras。Sider:用于面部几何细节恢复的单图像神经优化。arXiv预印本arXiv:2108.05465,2021年。30[6] Julian Chibane,Aayush Bansal,Verica Lazova和GerardPons-Moll。立体辐射场(srf):学习稀疏视图的视图合成。在CVPR,2021年。20[7] Yunjey Choi,Minje Choi,Munyoung Kim,Jung-WooHa,Sunghun Kim和JaegulChoo。Stargan:多域图像到图像翻译的统一生成对抗网络。在CVPR,2018年。30[8] Yunjey Choi,Youngjung Uh,Jaejun Yoo和Jung-WooHa。Stargan v2:多样化的多域图像合成。在CVPR,2020年。30[9] Yu Deng,Jiaolong Yang,Dong Chen,Fang Wen和XinTong。通过3D模仿-对比学习进行解缠和可控的人脸图像生成。在IEEE /CVF计算机视觉和模式识别会议论文集中,页5154-5163,2020年。30[10] M. Doukas,Mohammad Rami Koujan,V.Sharmanska,A. Roussos和S. Zafeiriou。Head2head++:深度面部属性重定向。IEEE生物识别,行为和身份科学交易,3:31-43,2021年。30[11] Yao Feng,Haiwen Feng,Michael J. Black和TimoBolkart。从野外图像中学习可动画详细的3D面部模型。卷40,2021年。3,5,70[12] Guy Gafni,Justus Thies,Michael Zollh ¨ ofer和MatthiasNießner。用于单目4D面部化身重建的动态神经辐射场。在CVPR,2021年6月。3,5,6,7,80[13] Guy Gafni,Justus Thies,Michael Zollh ¨ ofer和MatthiasNießner。用于单目4D面部化身重建的动态神经辐射场,2020年。2,3,60[14] Chen Gao,Yichang Shih,Wei-Sheng Lai,Chia-Kai Liang和Jia-BinHuang。来自单个图像的肖像神经辐射场。arXiv预印本arXiv:2012.05903,2020年。20[15] Ian Goodfellow,Jean Pouget-Abadie,MehdiMirza,Bing Xu,David Warde-Farley,Sherjil Ozair,AaronCourville和YoshuaBengio。生成对抗网络。在NeurIPS,2014年。20[16] Jianzhu Guo,Xiangyu Zhu,Yang Yang,FanYang,Zhen Lei和Stan ZLi。面部3D密集对齐的快速,准确和稳定。在欧洲计算机视觉会议(ECCV)论文集中,2020年。3,5,70[17] Phillip Isola,Jun-Yan Zhu,Tinghui Zhou和Alexei AEfros。带条件对抗网络的图像到图像翻译。在CVPR,2017年。20[18] Tero Karras,Samuli Laine和TimoAila。基于风格的生成对抗网络生成器架构。在CVPR,2019年。20[19] Tero Karras,Samuli Laine和TimoAila。基于风格的生成对抗网络生成器架构。在CVPR,2019年。20[20] Tero Karras, Samuli Laine, Miika Aittala, Janne Hellsten,Jaakko Lehtinen, and Timo Aila.分析和改进StyleGAN的图像质量。在CVPR 2020中。20[21] H. Kim,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功