没有合适的资源?快使用搜索试试~ 我知道了~
13545I M Avatar:Implicit Morphable Head Avatars郑玉凤1,3VictoriaFer na'ndezAbr ev aya2MarcelC. Bühler1XuChen1,3Michael J.黑色2奥特马尔Hilliges11ETHZürich2马克斯·普朗克智能系统研究所,图宾根3马克斯普朗克ETH学习系统摘要传统的3D可变形人脸模型(3DMM)提供了对表情的细粒度控制,但不能容易地捕捉几何和外观细节。神经体积表示接近照片写实主义,但很难动画,并没有推广到看不见的ex-animals。为了解决这个问题,我们提出了IMavatar(ImplicitM orphableavatar),一种从单目视频中学习隐式头部头像的新方法。受传统3DMM提供的细粒度控制机制的启发,我们通过学习的混合变形和蒙皮场来表示与表情和姿势相关的变形。这些属性是姿态独立的,并且可以用于在给定新颖的表达式和姿态参数的情况下变形规范的几何和纹理场。我们采用射线推进和迭代求根来定位每个像素的典型表面相交一个关键的贡献是我们新的分析梯度公式,使端到端的培训的IMavatars从视频。我们表明,定量和定性,我们的方法改善了几何尝试,并涵盖了更完整的表达空间相比,国家的最先进的方法。代码和数据可以在https://ait.ethz.ch/projects/2022/IMavatar/上找到。1. 介绍用于在不引人注目和容易获得的设置(即,从单眼视频)在VR/AR游戏和远程呈现中有许多应用。这种应用需要真实地呈现变形的面部几何形状和精确、详细的面部外观,以及准确地重建整个头部和头发区域。基于变形网格模型[2,28,38]的传统方法[14,16,18,19,43,45,47,49]然而,这种基于网格的方法受到固有分辨率的影响-图1.神通。 我们从RGB视频中学习个人化身,由规范的形状,纹理和变形场表示。隐式变形公式允许泛化到训练分布之外的看不见的表情和姿势。内存权衡,并且不能处理由头发、眼镜和其他附件引起的拓扑变化。最近的方法基于神经辐射场[32]来学习个性化的化身[17,36,37]并产生高质量的图像,特别是如果生成的表情接近训练数据。构建具有隐式场的可动画化面部化身的关键挑战是变形的建模以前的工作要么通过在表达式[17]上调节隐式表示,要么通过单独的基于位移的扭曲场[36,37]来实现这一点。这种欠约束的公式限制了泛化能力,需要大量的训练姿势。在本文中,我们提出了隐式M形化身,(IMavatar),一种个性化学习的新方法,13546从monocular视频的可推广和3D一致的面部化身,见图。1.一、该方法结合了3DMMs提供的细粒度表达控制与分辨率无关隐式曲面提供的高保真几何和纹理细节,利用了两种方法的优点。IMavatars通过三个连续的隐式字段进行建模,由多层感知器(MLP)进行参数化,表示几何形状,纹理以及姿势和表情相关的变形。受FLAME [28]的启发,我们通过学习表达式blendshapes,线性混合蒙皮权重和规范空间中的姿势校正来表示变形然后使用混合变形和权重将规范点扭曲到给定表达式和姿势条件的变形位置。形状和变形的这种姿势和表情不变公式化改进了对不可见姿势和表情的概括,从而产生提供细粒度和可解释控制的隐式面部化身的模型为了从具有动态变形面部的单眼视频中学习,需要从像素到规范表面上的3D位置的映射。为此,我们使用类似于IDR [60]的射线行进器来增强SNARF [9]的寻根算法,从而为每个像素生成规范表面对应然后,每个图像位置的颜色预测由规范纹理网络给出,该网络制定了我们的主要监督来源:每像素图像重建物镜。为了获得规范点的梯度,我们观察到表面射线相交的位置由具有两个约束的几何形状和变形网络隐含地定义:1.规范点必须位于表面上,并且2.其变形位置必须在行进射线上。Given these equality constraints, wederive an analytic gradient for the iteratively locatedsurface intersection via implicit differentiation, whichallowsend-to-endtrainingofthegeometryanddeformation networks from videos.我们比较我们的方法与几个硬基线和国家的最先进的(SOTA)的方法,使用图像相似性和表达指标。为了评估所生成的几何形状,根据不同的表情和姿势,我们构建了一个合成数据集,包含10个主题。我们定量地表明,我们的方法产生更准确的几何形状和gener-alizes更好地看不见的姿势和表情。当应用于真实视频序列时,IMavatar比最新技术(SOTA)更准确地重建目标姿态和表情,并且定性地实现了更准确的几何形状和更好的姿态和表情外推能力总而言之,我们贡献:• 基于3D变形的隐式头部化身模型,具有详细的几何形状和外观,通过不同的表情和姿势,• 一种可区分的渲染方法,可以从视频中进行端到端学习,• 用于评估的合成视频数据集。2. 相关工作3D人脸模型和头像重建。从单目输入估计3D形状是一个不适定的问题,传统上通过使用基于数据的统计先验来解决。Blanz和Vetter [2]的开创性工作使用主成分分析(PCA)在低维线性子空间上对面部外观和几何形 状 进 行 建 模 , 称 为 3D Morphable Model(3DMM)。扩展包括形状和表达的多线性模型[5,56]、全头部PCA模型[12,28,39]、深度非线性模型[42,54]以及具有线性混合蒙皮(LBS)和校正混合形状的全关节头模型[28]。3DMM及其变体已广泛用于基于优化的方法[19,43,46,52]和基于深度学习的方法[14这些方法可以获得面部区域的总体准确估计,但通常缺乏细节,不能对整个头部进行建模,并且不能正确地表示眼睛、牙齿、头发和配饰。一项相关的研究从单眼输入中估计了个性化的装备,即。头部的3D表示以及一组可用于动画的控件。传统上,这已经通过恢复通过变形转移[6,18,21,22,48]或深度神经网络[1,8,59]获得的个性化融合变形基础集来解决。为了表示详细的几何形状,一些方法还重建了一层中级或精细级别的校正层,这些校正层可以与底层粗网格一起变形[16,18,22,59]。在这里,我们提出了一个新的ap-proach,可以恢复一个更高的保真度面部钻机比以前的工作,并控制的表情blendshapes以及下巴,颈部和眼睛的姿态参数。神经人脸模型最近神经隐式形状表示的成功[10,26,30,33,35,60]导致了在该范例内构建3D面部模型的几种方法。Yenamandra等人[61]提出了一种隐式可变形模型,该模型可对形状、表情、外观和发型进行组合。Ramon等人[41]通过在大量原始3D扫描上预训练有符号距离场,从一些输入图像中估计完整的头部这些作品展示了一种改进的能力,以代表整个头部和躯干以及详细的几何形状,但估计的形状不能动画。相比之下,我们的隐式表面表示可以通过3DMM参数进行控制。神经体积表示,如NeRF [33]也已在人脸的背景下进行了探索[7,17,57]。这些表示可以对头发等细结构进行编码,并且可以在13547CD图2. 方法概述。 给定像素位置,我们的方法在变形空间中执行射线行进。对于每个变形点xi,我们进行对应搜索以找到对应的规范点xi。我们新颖的隐式变形利用了Dc正则混合形状和蒙皮权重字段E、W和P,以将正则点xi变形到其变形位置xi,给出表达式并提出条件。在找到最近的规范表面相交xc,我们的新的分析梯度公式允许有效的计算梯度的几何和变形领域。最后,我们通过查询规范纹理网络来预测RGB值。我们使用图像重建损失和掩模损失,并可选地监督预测的融合形状和蒙皮权重。交互作用Wang等人[57]提出了一种将离散的低分辨率体素与神经辐射场相结合的局部组合模型。他们的方法需要复杂的多视图视频系统进行训练。与我们最接近的工作是NerFACE [17],它通过对3DMM的表达参数进行调节,从单个单目视频中恢复可动画的虽然NerFACE在新视图和插值表达式上实现了良好的图像质量,但它很难外推到看不见的表达式,并且几何图形的质量太嘈杂,无法在3D设置中使用。(六)。隐式变形场。用隐式神经场对动态对象建模是一个活跃的研究课题,目前主要有三种方法。第一种方法是在每一帧上设置一个潜码,例如时间戳[58]、学习的潜在向量[36,57]或来自预先计算的参数模型的向量[13,17,31,44]。第二种可能的补充方法是使用“向后”变形场。这是一个额外的神经网络,它将变形空间中的观测值映射到规范空间中的观测值,然后对隐式函数进行评估[34,36,36,40,44,53,55]。变形场被建模为速度场[34]、平移场[40,53]、刚性变换[36]或蒙皮权重场[23,31,44]。虽然它们已经表现出令人印象深刻的能力,即使在没有地面实况监督的情况下也能学习对应关系,但向后公式化使它们依赖于姿势,因此需要大数据集来学习。ing,当变形离训练集太远时,显示出降低的泛化能力为了解决这个问题,最近提出了前向变形场[9]。这些算法学习一个连续的前向蒙皮权重域,并使用迭代求根找到相应的规范点。为了提高训练时表达式范围之外的泛化能力,我们将前向蒙皮的思想扩展到面部变形问题,并提出了一个新的解析梯度公式,允许直接从视频中学习变形场。3. 方法我们提出了IMavatar,一个隐式的变形头部化身,配备隐式表面细粒度的表达控制,利用变形为基础的变形领域。在本节中,我们首先回顾FLAME人脸模型的变形公式[28],然后是正则几何、变形和纹理场的表示。然后,我们引入对应搜索来找到图像像素的规范点,并导出端到端训练的分析梯度。3.1. 概述:FLAME人脸变形模型FLAME面部模型[28]通过形状、姿势和表情组件参数化面部由于我们专注于个人面部化身,我们特别表示姿势和表情相关的形状变化。13548W··PE·W EPCF∈FDW ∈E ∈P ∈E PW≡∪简化的FLAME网格模型表示为:M(θ,θ)=LBS(TP(θ,θ),J(θ),θ,W),(1)其中θ和θ表示姿态和表情参数,LBS()和J()分别定义标准蒙皮函数和联合回归量。表示用于平滑混合的每顶点蒙皮权重,并且TP表示添加表达式和姿势校正之后的规范顶点,表示为:正常条件下的纹理。我们利用纹理MLPcσc将规范空间中的每个位置映射到RGB颜色值。为了解释不均匀的光照效果,我们还将纹理网络附加在变形形状的正常方向上。对于隐式曲面,法线方向可以计算为占据场的归一化梯度w.r.t.3D位置。在我们的例子中,变形形状的梯度由下式给出:fσ(xc)<$fσ(xc)<$xcfσ(xc). wσ(xc)TP(θ,θ)=T<$+BE(θ;E)+BP(θ;P),(2)其中T是个性化的规范模板。BP(·)和Fxd=fxc=xdFxcDxc.(六)BE()利用修正的Blendshape基,在给定的动画条件θ和θ的情况下,计算出加性的姿态和表情偏移量。我们的方法扩展了离散,,并在顶点上定义为由MLP表示的连续场,使得有可能变形连续规范表示。3.2. IMavatarIMavatar由三个神经隐式字段表示,定义了人的规范几何形状,变形基础和纹理,如图所示。二、有关网络架构的详细信息,请参见Mat.几何 我们使用MLP来表示正则几何,该MLP预测每个正则3D点的占用值。 我们还将几何网络fσ附加在每帧可学习的潜在代码 l 上Rnl ,类似于 NerFace[17],并利用位置编码[33]来鼓励规范几何中的高频细节fσ(x,l):R3×Rnl→ occ.(三)变形。遵循FLAME [28],我们的变形网络dσd预测正 则 空 间 中 每 个 点 的 加 法 表 达 式 混 合 变 形 向 量Rne×3 、 姿 势 校 正 ivesRnj×9×3 和 线 性 混 合 蒙 皮 权 重Rnj,其中n e和nj表示表达式参数和骨骼变换dσ(x):R3→ E,P,W.(四)由于嘴部区域中的外观不能纯粹通过由于非遮挡而引起的扭曲来建模[36],因此我们的最终预测颜色c是从规范位置计算的xc,变形形状的法线方向nd,以及颌位姿和表情参数θ和θcσ(xc,nd,θ,θ):R3× R3 × R3× R50→c.(七)3.3. 可微渲染为了从具有扩展和姿势的视频中优化规范网络,我们首先引入非刚性射线行进来找到每条射线的规范表面点,并引入分析梯度,从而实现几何和变形网络的端到端训练。非刚性射线行进。 Given a camera location ro and a raydirection rd in the deformed space, we follow IDR [60]and perform ray marching in the deformed space.为了确定采样点xd的占用值,我们遵循SNARF [9]并利用迭代求根来定位规范对应xc并查询其占用值。因此,我们可以迭代地为每条射线定位最近的正则曲面交点。梯度离心为了避免通过迭代过程的反向传播,我们推导出典型表面点xc的位置的分析梯度,利用xc必须满足表面和射线约束:在一个轻微的符号滥用,我们重用,和从火焰-请注意,这些表示连续的隐式字段从这里开始。对于每个规范点xc,变换位置xd:=wσd(xc)为:xd=LBS(xc+BP(θ;P)+BE(θ;E),J(θ),θ,W),(5)其中J是来自FLAME的联合回归量。这定义了从规范点xc到变形位置xd的正向映射。本文详细讨论了从变形空间到正则空间的逆映射的计算三点三fσf(xc)<$0. 第五条,(八)(wσd(xc)−ro)×rd<$0,(9)其中,0.5被定义为表面的水平设置为了方便起见,我们将等式约束改写为FσF(xc)0,它隐式地定义了规范曲面相交,第十条c.几何和形变网络的可学习参数为σF= σfσd。我们利用隐式微分来获得xcw.r.t.的梯度参数-13549⊂LD·DDRGB|P|p∈P在p1CFL|P|p∈P在eppppMpσfLΣP PPE PWE PW几何体和变形网络的参数:dFσF(xc)= 0dσF<$FσF(xc)<$FσF(xc)<$xc优惠+=0(十)σFxcσFxc⇔= −(<$FσF(xc))−1<$FσF(xc)。σFxcσF我们还监督非表面射线与掩模损失(方程。在这种情况下,等式约束被定义为wσ(xc)<$x<$,其中x<$是射线上具有最小占用值,通过射线采样定位。3.4. 培养目标RGB损失监督渲染的像素颜色:L=1C−c(十)(11)其中P表示训练像素的集合,并且P中的P表示已经找到射线交叉点的前景像素。Cp和cσc(xc)表示像素p的地面实况和预测RGB值。 解析梯度公式使RGB不仅可以优化纹理,还可以优化几何和变形网络。掩模损失监督非表面射线P∈P\P的占用值,其中:=1CE(O,f(x)),(12)|P|p∈P\P in其中CE()是在地面实况Op和预测占用值fσ(xσ)之间计算的交叉熵损失。掩模损失也优化了变形网-中性中等强缩放RGB图3. 合成数据的定性结果。随着表达式强度从左到右增加,基线方法要么塌陷为中性表达式(D-Net,B-Morph),要么生成无效几何体(C-Net,Fwd-Skin)。相比之下,我们的方法即使是最极端的表达式也能很好地处理。4. 实验本节从几何精度和表达式泛化方面对所提出的方法的优点进行了经验我们对两种合成物进行了实验,FC工作由于分析梯度。可选的FLAME损失通过使用最近的FLAME顶点的相应值来监督变形网络,从而利用FLAME [28]中关于表情和姿势变形的L=1<$(λ<$EGT− E<$具有已知几何形状和真实视频序列的模拟数据。4.1. 数据集合成数据集。我们进行控制实验的合成数据集上渲染构成和纹理FLAME网格。对于训练集,我们渲染一个视频,它代表了语音序列的语义我们采用FLAME表达式+λpβGT − P p<$2+λw<$WGT − Wp<$2),(13)其中p、p和p表示变形网络的预测值,GT、GT和GT表示由 最 近 的 FLAME 顶 点 定 义 的 伪 地 面 实 况 。 设λe=λp= 1000,λw= 0。1、我们的实验我们最后的训练损失是L=LRGB+λMLM+λFLLFL,(14)其中λM= 2且λFL= 1。GTFwd皮肤C-Net我们B-Morph D-NetCσc213550VOCA语音数据集的参数[11]和头部从真实视频中拟合的姿势。我们建立了测试集,从COMA中提取的更强的表达[42]。我们的合成数据集由10个具有不同面部形状和外观的受试者组成,每个受试者平均有5,368帧用于训练,1876帧用于测试为了测试,我们每隔10帧进行二次采样。我们发布合成数据集用于研究目的。真实视频数据集。 我们评估从一个单一的固定摄像机的真实视频。我们计算前景蒙版,13551MODNet [25] 并 使 用 DECA [16] 估 计 初 始 FLAME 参数,这些参数通过拟合到2D面部关键点[4]来细化。请看Sup。Mat.的双曲余切值。真实的视频数据集由4个主题组成,每个主题大约有4,000帧用于训练,1,000帧用于测试训练视频主要涵盖语音视频中的中性表情,而测试视频包括看不见的困难表情,如下巴张开,大笑等。我们每隔10帧进行二次采样以进行测试。4.2. 消融基线本文解决了构建动画化身的关键困难:捕获关于标准形状的每帧变形。我们将我们的方法与C-Net2019年12月31日星期一D-net19.62 0.9481 0.05881B-Morph4.94112.1500.03293 24.950.03340Fwd皮肤2.8258.1300.01920 27.300.02812我们2.5585.9010.01807 28.750.01581表1. 合成实验的定量结果。与基线相比,我们的方法实现了更一致的表面法线,更好的图像质量和更准确的表达。通过用以下替代方案替换我们的变形模块,来改进通常使用的先前方法:姿势和表情条件网络(C-Net)。C- Net的灵感来自NerFACE [17],但它是为隐式曲面设计的。它首先对变形后的形状进行刚性变换,通过头部姿态逆变换将整个上半身带入规范空间;然后,它通过对姿态和表情参数进行调节来对其他变形进行建模。位移翘曲(D-Net)。 D-Net使用具有姿势和表情参数的变形网络作为输入,并预测变形点的位移向量,将其扭曲到规范空间。预测的位移与FLAME监督,类似于Eq。十三岁向后变形(B-Morph)。B-Morph利用FLAME的变形公式并预测表达式混合形状,姿势校正向量和LBS权重。然而,变形网络以变形位置以及姿势和表情参数为条件,并执行向后变形。相比之下,我们的变形网络仅将标准点作为输入,这是姿势和表情独立的,从而实现更好的泛化[9]。该基线的学习混合变形和权重由FLAME伪GT监督。前向皮肤+表情调节(前向皮肤)。该基线改编自SNARF [9],最初是为人体化身提出的。在这里,变形网络仅对LBS权重进行建模,而表达式和姿势相关的校正是通过对几何和纹理网络进行调节来处理的。IMavatar unsupervised ( Ours- ) . 此 基 线 消 除 了FLAME伪GT监督,仅从图像和遮罩(仅用于exp.真实数据)。4.3. 度量这项工作的目标是从视频中获得一个可动画的3D头部,因此我们评估了几何精度图4. 表达外推。基线方法的性能急剧恶化的表达式变得更加极端(更高的规范)。几何误差表示表面法线的角度误差(越小越好,见第二节)。4.3)。(only可用于合成数据集)、图像质量和表达保真度。图像质量通过曼哈顿距离(L1)、SSIM、PSNR和LPIPS [63]指标测量,遵循NerFACE [17]中的实践。为了衡量合成数据的几何一致性,我们报告了生成的法线贴图和地面实况之间的平均角度法线误差,在表中表示为法线1.一、由于我们专注于建模变形相关的几何形状和纹理,正常的一致性和图像相似性度量的脸内部区域。对于合成和真实数据,我们通过计算生成的和(伪)GT面部关键点之间的距离来我们使用[4]估计预测图像的面部关键点,并且从构成的FLAME网格获得(伪)GT关键点。4.4. 合成数据集我们为10个合成身份训练了IMavatar和基线方法,并使用COMA数据集的渲染对12个序列测量了几何、表达和图像重建错误。我们在所有指标上的表现都远远超过了所有基准(Tab. 1)。外推法虽然其他方法仅限于插值,我们的方法是能够外推以外看到的表情和姿态。图4、绘制了不同强度表达式的几何误差图大多数方法对于温和表达式(小表达 式 范 数 ) 表 现 良 好 。 For stronger expressions,however, their errors increase signifi- cantly.相比之下,我们的方法即使对于强表达式(大范数)也只会稍微增加参见Sup。Mat. 对于下颌姿势的类似图。图3显示了中性、中等和强表达式的可视示例。方法表达式↓正常值↓L1 ↓PSNR ↑SSIM ↑LPIPS↓13552∼C-Net22.23 0.9524D-net3.7690.0613021.770.03227B-Morph2.7860.0498023.500.02231Fwd皮肤3.0880.0545622.920.02781NERFACE [17]2.9940.0456423.580.9596 0.02156我们的-2.8430.0491823.680.02155我们2.5480.0487823.910.02085图5. 表情和姿势控制超出了培训范围。我们显示了内插和外推结果以及训练分布的直方图,其中蓝色条对应于5个可视化样本。我们的方法推广到训练分布之外的表达和姿势条件4.5. 真实视频序列为了评估真实数据的性能,我们比较了所有基线和NerFACE [17]。与Varitex [3]、Zhakarov等人的其他比较[62]和HyperNeRF [37]可以在Sup中找到Mat. 图6显示,所有方法都可以生成逼真和正确姿势的图像,以便于表达(第1行和第2行)。对于简单的表达式,我们的,我们的和向后变形(B-Morph)实现了最准确的几何体,因为它们利用了FLAME面部模型的变形公式。FLAME引导的变形字段允许使用来自所有帧的信息对单个规范表示进行联合优化相比之下,C-Net、Fwd-Skin和NerFACE [17]通过隐式字段上的直接条件对表达式这些方法约束太少,无法处理从单目视频中提取几何形状的不适定问题。另一方面,D-Net确实对帧之间的对应关系进行了建模。然而,由于表达式和姿态变形的复杂性,基于位移的变形网络不能准确地表示翘曲场,这导致质量降低。检查图6从上到下,揭示了基线的性能随着越来越强的姿势和表情而下降。对于最后两行,我们显示了强外推,其中只有我们的方法可以生成忠实反映表情和姿势条件的合理输出。这一发现也得到了Tab的支持。二、表2. 真实视频的定量结果。我们比较了我们的方法与SOTA和基线上的测试序列与未知的表情和姿势。我们的方法更准确地重建表达式,同时在图像质量方面保持一致当对具有新颖表情和姿势的测试视频进行评估时,我们的方法实现了更低的面部关键点误差,表明表情的重建更准确我们的-实现了与完整模型相似的图像和几何质量,但在表情变形方面没有那么准确。我们在Sup中显示。Mat. FLAME损失可以通过更多的训练数据来替代,而不会损失准确性。图5演示了通过内插和外推示例表达式(FLAME[28]中的第一个表达式组件),分别加上下颌(俯仰)和颈部(偏航)姿势来控制表达式和姿势。对于每个参数,我们用对应于5个样本的5条垂直线显示生成的图像和训练数据分布。这表明我们的方法推广到远远超出训练分布的表情和姿势。更多的插值和外推的例子可以在Sup中找到。Mat.5. 结论我们提出IMavatar,一个隐式的可变形的头部头像,通过表情和姿势参数以类似的方式控制3DMMs,但能够模拟多样化和详细的发型和面部外观。我们的方法-从RGB视频端到端学习-展示了准确的变形几何形状,并外推到训练分布之外的强表达式。虽然我们的方法有助于构建可控制的隐式面部化身,但仍然存在一些挑战。首先,表面表示实现了详细的面部几何形状,但它们不能对由头发产生的精细遮挡进行建模。未来的工作可以通过将体积表示[33]与动画表面相结合来解决这个问题。第二,迭代的非刚性光线行进使IMavatar训练缓慢(2GPU天)。使用网格射线交叉部分进行初始化可以加速该过程,如在并发工作中所做的那样[24]。第三,我们的方法依赖于精确的面部跟踪,并且我们的性能随着噪声3DMM参数而退化Mat.)。在训练过程中完善姿势和表情是一个很有前途的未来方向。最后,嘴内部区域中的外观可以是方法表达式↓L1 ↓PSNR ↑SSIM ↑LPIPS↓钳脖子Exp13553表达式和位姿外推−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−→[17]第17话我爱你[17]第17话我爱你图6.真实数据的定性比较。 与基线不同,Ours生成完整的图像和精确的几何图形,即使在训练数据之外外推表达式。这些例子从上到下变得更具挑战性。不切实际(图中的最后两个例子)。(六)。我们建议对该系统进行Mat.我们讨论了潜在的负面社会影响,鉴于虚假信息和深度伪造的。Mat.鸣谢:我们感谢[ 20 ]的作者分享他们的评估数据集。Yufeng Zheng和Xu Chen得到了Max Planck ETH Center的支持,学习系统。该项目获得了欧洲研究委员会(ERC)根据欧盟地平线2020研究和创新计划资助协议(编号717054) 的资 助。MJB已 收到 来自 Adobe、Intel 、Nvidia、Meta/Facebook和Amazon的研究基金。MJB在Amazon、Datagen Technologies和Meshcapade GmbH拥有财务权益。MJB13554引用[1] 白子谦,崔兆鹏,刘晓明,谭平。通过网络内优化实现可操纵的3d人脸重建在IEEE/CVF计算机视觉和模式识别会议论文集,第6216-6225页,2021年。2[2] Volker Blanz和Thomas Vetter。三维人脸合成的可变形模 型 。 在 Proceedings of the 26th annual conference onComputer graphics and interactive techniques,pages 187-194,1999中。一、二[3] 马 塞 尔 ·C Buehler , Abhimitra Meka , Gengyan Li ,Thabo Beeler,and Otmar Hilliges. Varietex:变分神经面部 纹 理 。 IEEE/CVF计 算 机 视 觉 国 际 会 议 论 文 集 ,2021。7[4] Adrian Bulat和Georgios Tzimiropoulos我们离解决二维和三维人脸对齐问题还有多远?(and 230,000个3D面部标志的数据集)。2017年计算机视觉国际会议。6[5] 曹 晨 、 翁 彦 林 、 周 顺 、 童 一 英 、 周 坤 。Facewarehouse:用于视觉计算的三维面部表情数据库 。 IEEE Transactions on Visualization and ComputerGraphics,20(3):413-425,2013. 2[6] 曹晨、吴洪志、翁彦林、邵天嘉、周坤。基于图像的动态化身的实时面部动画ACM Transactions on Graphics,35(4),2016.2[7] Eric R Chan,Marco Monteiro,Petr Kellnhofer,JiajunWu,and Gordon Wetzstein. pi-gan:周期性隐式生成对抗网络用于3D感知图像合成。在IEEE/CVF计算机视觉和模式识别会议的论文集,第5799-5809页,2021年。2[8] Bindita Chaudhuri,Noranart Vesdapunt,Linda Shapiro和Baoyuan Wang。个性化的人脸建模,用于改进人脸重建和运动重定向。欧洲计算机视觉会议,第142-160页。Springer,2020年。2[9] 陈旭,郑玉峰,Michael J. Black,Otmar Hilliges,andAndreas Geiger. SNARF:用于动画非刚性神经隐式形状的可区分向前蒙皮。 在Proc. International Conferenceon Computer Vision(ICCV),第11594-11604页,10月20日,2021. 二三四六[10] 陈志勤和张浩。学习生成式形状建模的隐式字段。在IEEE/CVF计算机视觉和模式识别会议论文集,第5939-5948页2[11] Daniel Cudeiro , Timo Bolkart , Cassidy Laidlaw ,Anurag Ranjan,and Michael Black.捕捉、学习和合成3D 说 话 风 格 。 IEEE Conf. 计 算 机 视 觉 和 模 式 识 别(CVPR),第10101- 10111页,2019年。5[12] 戴航,尼克·皮尔斯,威廉·史密斯,克里斯蒂安·邓肯.颅面形状和纹理的统计建模。国际计算机视觉杂志,128(2):547-571,2020。2[13] Boyang Deng , John P Lewis , Timothy Jeruzalski ,GerardPons-Moll , GeoffreyHinton , MohammadNorouzi,and Andrea Tagliasacchi.美国宇航局神经关节形状近似。在计算机视觉-ECCV 2020中:第十六届欧洲会议,格拉斯哥,英国,2020年8月23日至28日,会议记录,第VII部分,第16页,第612-628页。Springer,2020年。3[14] Yu Deng,Jiaolong Yang,Sicheng Xu,Dong Chen,Yunde Jia,and Xin Tong.通过弱监督学习实现精确的3D人脸重建:从单个图像到图像集。在IEEE计算机视觉和模式识别工作坊,2019年。一、二[15] Abdallah Dib , Cedric Thebault , Junghyun Ahn ,Philippe- Henri Gosselin,Christian Theobalt,and LouisChevallier.使用自监督学习和光线跟踪实现具有丰富反射率的高保真单目人脸重建。2021年国际计算机视觉会议(ICCV)。2[16] 放大图片作者:Yao Feng,Haiwen Feng,Michael J.布莱克和蒂莫·博尔卡特。从野外图像中学习可动画化的详 细 3D 人 脸 模 型 。 ACM Transactions on Graphics(ToG),Proc. SIGGRAPH,40(4):88:1-88:13,Aug. 2021. 一、二、六[17] GuyGafni、JustusThies、MichaelZollhoüfer 和MatthiasNießner。用于单目4d面部化身重建的动态神经辐 射 场 。 在 IEEE/CVF计 算 机 视 觉 和 模 式 识 别 会 议(CVPR)的会议记录中,第8649-8658页一二三四六七八[18] 帕布罗·加尔我做,我chaelZollh oüfer,丹·卡萨斯,LeviVal-gabalan,基兰·瓦拉纳西,帕特里克·佩雷斯,克里斯蒂安·西奥博尔特。从单目视讯重建个人化三维人脸模型。ACM事务处理图表(图为SIG-GRAPH 2016),35(3):28:1-28:15,2016。一、二[19] Baris Gecer , Stylianos Ploumpis , Irene Kotsia , andStefanos Zafeiriou.Ganfit:用于高保真3D人脸重建的生成对抗网络拟合。在IEEE/CVF计算机视觉和模式识别会议论文集,第1155-1164页,2019年。一、二[20] Philip-William Grassal,Malte Prinzler,Titus Leistner,Carsten Rother,Matthias Nießner,and Justus Thies.来自单眼RGB视频的神经头化身。CoRR,abs/2112.01554,2021。8[21] 胡立文,齐藤俊辅,魏玲玉,长野幸树,徐在宇,严思福,萨迪吉,孙嘉莉,陈燕春,李浩.从单个图像进行化身数字化 以进行实时渲染。ACM Transactions onGraph-ics(ToG),36(6):1-14,2017。2[22] Alexandru Eugen Ichim , Sofien Bouaziz , and MarkPauly.从手持视频输入创建动态3d化身。ACM Transactions on Graphics(ToG),34(4):12[23] Timothy Jeruzalski,David IW Levin,Alec Jacobson,Paul Lalonde , Mohammad Norouzi , and AndreaTagliasacchi. Nilbs:神经逆线性混合蒙皮。arXiv预印本arXiv:2004.05980,2020。3[24] Boyi Jiang,Yang Hong,Hujun Bao,and Juyong Zhang.选择- frecon:自我重建您的数字化身从monocular视频。CoRR,abs/2201.12792,2022。7[25] Zhanghan Ke,Kaican Li,Yurou Zhou,Qiuhua Wu,Xiangyu Mao,Qiong Yan,and Rynson W.H.刘绿屏对于实时人像抠图真的有必要ArXiv,abs/2011.11961,135552020。613556[26] Petr Kellnhofer , Lars C Jebe , Andrew Jones , RyanSpicer,Kari Pulli,and Gordon Wetzstein.神经光成像。在IEEE/CVF计算机视觉和模式识别会议论文集,第4287-4297页,2021年。2[27] Alexandros Lattas、Stylianos Moschoglou、Baris Gecer、Stylianos Ploumpis 、 Vasileios Triantafyllou 、 AbhijeetGhosh和Stefanos Zafeiriou。Avatarme:真实可渲染的3D面部重建在IEEE/CVF计算机视觉和模式识别会议(CVPR)上,2020年6月。2[28] 李天野、蒂莫·博尔卡特、迈克尔。J.布莱克、郝莉、哈维尔·罗梅罗。从4D扫描中学习面部形状和表情的模型。美国计算机学会图形学报,(Proc. SIGGRAPHAsia),36(6):194:1 -194:17,2017年。一、二、三、四、五、七[29] Yue Li,Liqian Ma,Haoqiang Fan,and Kenny Mitchell.从单幅图像中重建细节保留的三维人脸。第15届ACMSIGGRAPH欧洲视觉媒体制作会议集,第1- 9页,2018年2[30] Lars Mescheder,Michael Oechsle,Michael Niemeyer,Se- bastian Nowozin , and Andreas Geig
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功