学习视频和图像中完整3D可变形人脸模型的方法

44 浏览量更新于2024-01-22 收藏 1.95MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3361从图像和视频中学习完整的3D可变形人脸模型马利卡君B R Ayush Tewari Hans-Peter Seidel Mohamed Elgharib Christian Theobalt马克斯普朗克信息学研究所萨尔信息学校区图1.我们提出了一种从视频和图像中学习完整的3D可变形人脸模型的方法。我们在右边展示了学习模型的可视化。通过线性缩放各个模型的各个分量来获得所指示的箭头的每个方向上的面。身份几何学捕捉了脸型（第二列）、嘴唇（左上到右下）和下巴（右上到左下）的变化，而表情捕捉了由于张嘴（第二行）、微笑（第二列）和眼球运动（右上到左下反照率/反射率涵盖了各种肤色（第二列），眼睛颜色（右上到左下）和性别特定特征，如面部毛发和化妆（第二行）。摘要大多数3D人脸重建方法依赖于3D变形模型，该模型将面部变形空间分解为身份和表情几何以及皮肤反射。这些模型通常是从有限数量的3D扫描中学习的，因此不能很好地概括不同的身份和表达。我们提出了第一种方法来学习完整的三维模型的面部身份和表情的几何形状，反射，只是从图像和视频。这些数据的几乎无休止的收集，结合我们的基于自我监督学习的方法，允许学习面部模型，这些模型可以概括现有方法的范围。我们的网络设计和损失函数确保了一个解开的参数化，不仅身份和身份，但也是第一次，表达的基础。我们的方法还允许在测试时进行我们表明，我们的学习模型更好地推广，并导致更高质量的基于图像的重建比现有的方法。我们表明，学习的模型也可以个性化的视频，更好地捕捉的几何形状和几何图形。1. 介绍单目三维人脸重建是指从单目图像中恢复人脸的稠密三维几何形状和皮肤反射率。它在几个领域中有应用，例如VR/AR、娱乐、医学和人机交互[65，16]。我们关注的是野外图像，它可以包括许多不同身份的面孔，具有不同的表情和姿势，在不受约束的环境中，具有广泛不同的照明。这个问题已经得到了很好的研究，其中很多成功可以归功于3D变形模型的出现[5]。这些模型将人脸的变形空间定义为独立的非纠缠模型，如人脸身份、表情和反射。它们在文献中被广泛用于限制重建的搜索空间[65，16]。然而，这些模型通常是从有限数量的3D扫描中学习的，这限制了它们对扫描空间之外的子模型和表达式的泛化能力。最近的努力提出了从互联网图像或视频中学习具有更好概括性的人脸模型[55，56，58，59，60]。然而，从野外数据中学习是非常具有挑战性的，需要用于处理强烈的固有模糊性和用于确保重建的不同分量之间的解缠的3362一些方法处理一个稍微简单的问题，即在野外图像上对3D数据预训练的初始变形模型进行细化[56，59，61，60，58]。我们的目标是在不使用任何预训练模型的情况下学习人脸模型。最接近我们的方法是Tewari等人。[55]，它只学习面部身份几何模型和来自野外视频的反射率然而，他们仍然使用预训练的表达式模型来帮助解开几何中的身份和表达式变化。我们提出了第一种方法，学习完整的人脸模型的身份几何，面部表情和表情只是从在野外的视频。我们从一个模板面网格开始，没有使用任何关于面变形的先验知识，而不是平滑度。这也使我们成为第一个从2D数据中学习面部表情模型的方法我们通过几项技术贡献来实现这一目标。我们设计了一种神经网络架构，该架构与专门定制的自监督损失函数相结合，能够（1）学习面部身份，表情和皮肤反射模型，以及（2）以最先进的精度从单目图像联合3D重建面部。我们使用一个连体网络架构，它可以在训练过程中处理多帧视频，使一致的身份重建以及每帧的表达式和场景参数。我们使用可微渲染器来渲染网络重建的合成图像。为了将重建与输入进行比较，我们使用了一种新的基于外观和面部分割损失的组合，该组合允许学习面部几何形状和外观，以及详细的嘴部和唇部运动的高质量表达基础。我们的新的嘴唇分割一致性损失对齐嘴唇区域在3D与2D分割。我们的损失对噪声离群值是鲁棒的，导致比所使用的地面真实更好的唇部分割我们还引入了一个解纠缠损失，它可以确保当输入图像包含中性人脸时，重建网格的表情分量很小我们表明，这些创新的组合是至关重要的学习一个完整的脸模型与适当的组件disentanglement从在野外的图像。我们的单眼重建优于最先进的基于图像的人脸重建方法。总之，我们做出了以下贡献：1）第一种学习变形人脸模型的所有组件-身份，表情和表情基础的方法，在野外2D数据上训练，2）第一种以自我监督的方式学习人脸3D表情模型的方法，3）嘴唇分割一致性损失，以执行准确的嘴部建模和重建，4）通过利用中性图像数据集来执行身份和表情几何的解开2. 相关工作2.1. 人脸建模面通常被建模为几个组件的组合。3D参数身份[5，3]和混合形状[40，31，54]模型用于表示身份（几何形状和反射率）和面部表情。这将活动外观模型[13]从2D推广到3D空间。PCA通常用于从3D扫描数据集中独立学习不同的模型[5，3，34，7]。多线性人脸模型通过使用基于张量的表示来扩展这一概念，以更好地对身份和表情组件之间的关系进行建模[14，6，17]。最近的努力集中在从大规模3D数据中学习模型[8，34，30，33]。基于物理的人脸模型[24，53]也已被提出，然而它们的复杂性使得它们难以用于实时渲染或有效重建。动画艺术家还可以手动创建面部钻机，定制设计的控制参数。他们经常使用blendshapes，设计的基本表达式的线性组合，以控制面部表情[31]。2.2. 人脸重建基于图像的重建方法[65]从图像和视频中估计面部反射率和几何形状。3DMM [5，3]通常用作此任务的先验。方法的输入类型不同，例如单帧[44]、多帧[55]或非结构化照片采集[45]。目前的方法可以分为1）基于优化和2）基于学习。基于优化的技术依赖于个性化模型[10，18，19，63，23]或一般参数先验[1，9，32，52，48，48]来估计3D几何形状，通常与纹理和照明相结合，来自2D视频或图像。基于学习的方法通过学习图像到参数或图像到几何结构映射[38，43，57，56，49，62，26]从单个图像回归3D重建大多数方法需要地面真实面几何[62，28]，在合成数据上训练[42，43，49，26]，或两者的混合[37，27，61]。Tewari等人[57]提出了一种可区分的基于渲染的损失，允许从2D图像进行自我监督训练。其他方法已经提出使用面部识别网络和感知损失进行更高质量的重建[21，15]。在训练期间使用多个人的图像已被证明在具有挑战性的条件下有效地进行高质量重建[46，51]。虽然这些技术是快速的，并产生良好的效果，rebellic- tions是有限的预先定义的3DMM空间。2.3. 关节建模与重建最近用于单目人脸重建的基于学习的方法[56，60，59，7，50，55]允许通过从以下模型学习来捕获3DMM空间之外的变化：3363图2.我们的方法联合学习身份，表达和隐式模型以及这些模型的输入相关参数。该网络以siamese方式训练，使用可微分渲染器来计算自监督损失。野外二维数据大多数方法要么使用现有的3DMM [60，58，36]初始化学习模型，要么学习除了固定的3DMM之外的校正空间[56，11]。从头开始学习可变形模型是一个相对较少研究的问题。Tewari等人[55]以自我监督的方式从社区视频中学习身份（形状和反射）模型学习从中性反射率和粗变形图开始，这些图在训练期间被细化。然而，它依赖于学习的表达模型。我们的方法是第一个学习所有3. 方法我们提出了第一种学习可变形人脸模型的方法，该方法从未标记的社区视频中共同学习以下所有三个维度-身份几何，表情和反射率，而无需使用预定义的3DMM开始。我们的变形模型的起点是一个网格，它定义了反射的拓扑结构，以及我们网络的初始几何形状和反射率值。我们设计了一个多帧连体网络，在训练时处理视频。训练是自我监督的，没有任何3D监督。我们使用一个dif- ferentiable渲染器来定义图像空间中的损失函数除了损失函数之外，我们的网络设计还可以实现人脸模型子空间的我们的网络还联合学习预测模型的参数，从而在测试时实现3D重建，即使是单目图像。3.1. 模型表示我们学习线性人脸模型，类似于许多现有的人脸模型[5，56，55]。（堆叠）网格顶点位置和反射率表示为V和R，|V|为|R|为3N，其中N是顶点数。我们用网Tewariet al. [56]其中N=60，000个顶点。几何模型由于身份和表情而导致的3D面部变形可以使用线性几何模型来表示。V（Mid，Mexp，α，δ）=V<$+Midα+Mexpδ.（一）这里，Mid∈R3N×mi和Mexp∈R3N×me是可学习的线性恒等式和表达式模型. 我们用[4]中的平均面作为V′。α∈Rmi 和δ∈Rme 是对应模型的标识和表达参数。我们使用低维嵌入变形图来表示线性模型Mid和Mexp，Mid= UMgid，Mexp= UMgexp。（二）这里，Mgid∈R3G×mi和Mgexp∈R3G×me是定义在G=521个节点的低维图上的线性模型.固定的上采样矩阵U∈R3N×3G将变形图耦合到全脸网格，并且在训练之前预先计算。在图空间中学习形状模型减少了模型中可学习参数的数量，并且使得更容易在重建上制定平滑度约束。反射模型我们采用漫反射面的线性模型。R（MR，β）=R<$+MRβ（3）这里，MR∈R3N×mr是可学习的反射率模型，β∈Rmr是估计参数.我们使用[4]中的平均面反射率作为R′。在几何学上，我们学习全网格分辨率上的逐顶点反射模型。这使我们能够在重建中保留面部的照片级真实感细节。3.2. 图像形成给定具有位置V和反射率值R的面部网格，我们还需要外部相机参数以便渲染合成图像。刚性面部姿势是3364表示为φ（v）=Rv+t，其中t包括3个平移参数，旋转R∈SO（3）用3个欧拉角表示。我们使用透视相机模型，Vi（Mid，Mexp，α i，δ i）和R（MR，β）通过将可学习模型应用于预测参数来计算，如等式2中所解释的。1和3.计算机重建投影函数π：R3→−R2. 任何点然后使用可微分渲染器来渲染，v∈R3，相应的投影p（v）∈R2定义为p（v）= π（φ（v））.为了定义颜色，我们需要对场景照明进行建模-民族我们假设一个朗伯表面，并使用球谐（SH）系数γ来表示照明[41]。具有反射率r和位置v的点的颜色c可以计算为：B2得到合成图像Si∈ R240X240X3。我们在几何模型和表达模型之间强制正交性，使得MidMexp= 0。这是通过在前向传递中动态构造Mid来完成的，方法是将其自身投影到Mexp的正交补上[55]。请参见图 2为架构的可视化。3.4. 数据集Σc= r·γbb=1·Hb（n）（4）2我们使用两个数据集来训练我们的方法：VoxCeleb[12]和VoxtioNet[2]。VoxCeleb由超过14万个视频组成，涵盖了从YouTube上抓取的6000个不同的身份。Hb：R3→−R是SH基函数，γ∈RB是我们对每个视频剪辑采样N f = 4帧用于训练。这SH系数，n是点v和B=3处的法线。我们实现了一个可区分的光栅化器来从3D面网格渲染2D图像。对于每个像素，我们首先计算3D人脸点，投影到像素中。我们使用z缓冲算法来选择可见三角形。像素颜色是通过重心坐标在顶点颜色之间进行线性插值来计算的.我们以数据并行的方式将渲染器实现为自定义TensorFlow层。该实现还允许梯度通过渲染步骤反向传播。在任何像素位置计算的梯度可以根据重心坐标分布在相关三角形的顶点虽然这样的实现不能通过可见性检查来验证，但它在实践中工作得很好。3.3. 网络架构我们的网络由连体塔组成，这些连体塔将视频Fi的不同帧作为输入，N f−1}，其中N f是帧数。一个人身份的Nf帧的每个这样的集合被称为多帧图像。连体塔的输出是面部参数它们是独立的每帧，即表达式（δi）、照度（γi）和刚性姿态（φi）。我们制定了多框架约束的身份组成部分的模型。通过设计，对于同一形状（α）和反射率（β）参数，网络仅为每个多帧输入产生一个输出这是通过一个多帧池的功能，从暹罗塔，其次是一个小的网络。因此，网络产生每帧参数，pi=（α，β，δi，γi，φi）除了面部参数，我们还学习了表情（Mexp）、身份形状（Mid）和反射率（MR）的人脸模型。这些模型被实现为可学习网络的权重。更具体地，面网格的位置和反射率，表示为给了我们各种各样的头部姿势，表情和照明每个身份。我们所有的图像都是围绕脸部裁剪的，我们丢弃包含少于200像素的图像。我们将裁剪调整为240x240像素。QuestionNet是一个大规模的野外人脸图像数据集，涵盖了各种各样的表情，自动标注了动作单位（AU）强度。我们通过选择没有活动AU的图像来使用7,000张中性面孔图像的我们使用这些中性图像来加强身份和表达几何组件之间的模型解纠缠3.5.1）。3.5. 损失函数我们进行自我监督训练，而不使用任何3D监督。设x为网络中的可学习变量，其包括神经网络中的所有可训练权重以及可学习面部模型Mid、Mexp和MR。所有估计的参数pi都可以使用这些可学习变量进行参数化。我们的损失函数包括：L（x）= Lland（x）+λseg· Lseg（x）+λpho·Lpho（x）+λper·Lper（x）+λsmo·Lsmo（x）+λdis·Ldis（x），（5）最后两项是正则化项，前四项是数据项。我们使用固定的λ·值来衡量损失。地标一致性对于每个帧Fi，我们自动注释66个稀疏2D关键点[47]li∈R2，i∈{0.. 65}。我们将这些二维地标与稀疏的这片土地上的重建，标记.Nf−165Llandd（x）=||lk−p（vk（x））||二、（六）3365i=0k =03366一一一一一一一一图3.对于给定的图像[a]，我们获得分割掩码[b]，其边界[c]和[c]的距离变换（DT）图像[d]一个门槛。这有助于使用噪声分割标签进行训练。光度一致性我们评估重建和输入之间的密集光度一致性。对于每个像素，我们最小化输入图像Fi和渲染图像Si（x）之间的色差。Nf−1我们采用分割损失，试图移动顶点在投影网格轮廓（黄色）上，到DT中的较低能量此外，边界中的每个像素（红色）吸引LPho（x）=i=0时||Mi（Fi -Si（x））||二、（八）网格轮廓上最近的顶点。这里，vk（x）∈R3表示第k个地标顶点的位置，p（vk（x））是它的二维投影（Sec.3.2）。虽然大多数面部标志可以手动注释，模板网格、面部轮廓不是固定的，因此必须动态计算（详见补充）。分割的一致性估计的关键点是模糊的内唇区域，由于滚动唇CON，Mi是使用渲染器计算的掩码，并且m是逐元素乘法运算符。感知损失我们还采用了密集的感知损失来帮助我们的网络学习更高质量的模型，包括高频反射细节。特别是，我们使用在ImageNet [25]上预训练的VGG网络来获取输入帧和输出合成帧的中间特征。然后我们最小化这些特征之间的余弦距离。旅游. 此外，稀疏关键点预处理的准确性Nf−14言语不足以学习表达方式，Lper（x）=1−l i（9）埃尔。我们在自动分割掩模预测的指导下，对嘴唇区域使用密集轮廓损失[29]。唇缘i=0时l=零||·||fl（F i）||fl(Fi)||分割轮廓被转换成距离变换图像Db，其中a∈ {upper，lower}，b∈{outer，inner}对应于外部和内部con.两片嘴唇。我们还计算了两者的轮廓由预测重建投影的嘴唇，其中集合Cb（x）的每个元素存储轮廓上的2D像素位置。对于给定的距离变换图像和预测网格的相应轮廓，损失函数使网格轮廓和分割之间的距离最小化其中fl（·）表示第l个中间层的输出对于输入x和·，·>表示内积。几何平滑为了确保最终几何的平滑，我们在图形级别使用平滑损失设Gi（x）∈RNg×3（其中Ng=521个节点）表示框架Fi在图层次上的几何重构我们采用一个102的损失，以限制相邻节点的变形之间的差异心理状态轮廓，见图。3.第三章。Lsmo（x）=Nf−1 ΣΣ||第二条第十款||2,(10)Nf−1。Σi=0g∈Gi（x）n∈N（g）Lseg（x）=i=0<$（a，b）<$（x，y）∈Cb（x）ΣDb（x，y）+Σ其中N（g）是节点g的邻域。3.5.1模型解纠缠{（x，y）|（x，y）=0}||2||2.（七）我们的目标是学习面部几何，表情和反射的变形模型。在没有初始3DMM的情况下解开这些变形具有挑战性。这里，第一项最小化从网格轮廓中的每个像素到图像轮廓的距离第二项是对称项，它使图像轮廓中的每个像素到最近网格轮廓之间的距离最小化。closest（Cb（x），（x，y））是一个函数，它给出Cb（x）中最接近像素的位置到（x，y）。我们使用我们的差分渲染器来计算滚动的内部轮廓在网格上。外部轮廓被计算为一些手动标注的顶点在模板网格上的投影。在实践中，我们忽略图像和网格轮廓之间距离较大的3367我们使用网络设计选择和损失函数的组合来实现这些模型的同时学习。连体网络：我们的连体网络设计确保我们重建的身份组件在批次的所有帧中保持一致。这样的网络体系结构，使我们能够解开照明从反射，除了帮助解开的表达式从身份几何。解缠损失：我们的方法仍然会导致一些故障模式。例如，M_id可以坍缩为零矩阵，并且所有的几何变形，包括由于3368图4.我们的方法重建所有面部组件具有高保真度和良好的解缠。图5.与Tewari等人相比，我们的方法产生了更好的几何形状，包括详细的嘴部形状。[56][55]《礼记》。我们的渲染也更详细，更好地从照明组件中解脱出来。所有方法的结果都以几何、重建和完全重建的顺序可视化。可以通过表达模型学习到同一性，而不会受到任何损失函数的惩罚。为了防止这种故障模式，我们设计了一个损失函数来解开这些组件。如第3.4，我们的数据集的一个子集包括具有中性表情的面部图像。对于这些图像，我们采用损失函数，最大限度地减少变形，由于表达式。Nf−1Ldis（x）=||δi（x）||二、（十一）i=0时由于我们没有这些图像的视频，我们只是简单地复制相同的图像作为输入到暹罗塔。最后，我们的培训策略进一步帮助解开。详情请参阅补充资料。3.6. 个性化模型虽然我们描述的表情模型是通用的，描述了任何身份的变形，但我们也可以在测试时通过在视频上微调来个性化模型。我们还可以更新身份几何和反射模型，以获得更高质量的重建。微调的损失函数与训练损失相同。网络的其余部分保持固定，使得参数估计不受影响。我们表明，这导致高质量的重建，而不改变模型的语义。4. 结果我们在Ten- sorflow中实现我们的方法，并通过三个阶段对其进行训练：1）姿势预训练2)认同预训练; 3）联合训练。我们实证地发现，这种课程学习有助于稳定的训练和身份与表达模型的分离。姿势预训练：我们首先只训练僵硬的头部姿势。所有其他参数都保持固定到其初始值。真正的价值身份预训练：接下来，我们为身份模型进行训练。此步骤仅在具有中性表达式的dataset数据上进行训练。我们强制表达式参数为零，强制所有变形由恒等模型引起。组合训练：最后，我们用（5）中解释的损失函数训练完整的模型。与第一阶段类似，我们在整个模型学习过程中继续在平均网格上施加地标损失项。这有助于避免几何模型学习头部姿势。我们的训练数据现在由从QuestionNet和VoxCeleb以1：3的比例采样的小批次组成我们训练了650k次迭代，批量大小为1。这导致在TitanV上的训练时间为117小时我们使用80个基向量的身份几何和EQUIDO，和64的表达。4.1. 定性评价图1显示了学习模型的不同模式。我们的方法解开身份几何，表情和表情的各种面部成分。身份模型正确地捕捉了各种面部形状，嘴巴和眼睛结构。表情模型捕捉由嘴和眼睛产生的各种变形，而反射率捕捉不同的肤色和性别特定的特征，如面部毛发和化妆。图4显示了我们重建的几个图像的所有组件。我们的方法可以处理不同的种族，性别和场景条件，并产生高质量的repriction- tion，无论是在几何形状和反射率。比较：图5 - 8将我们的方法与几种最先进的面部重建技术进行了比较。Tran等人[60，58]学习用于身份和表达式的组合几何模型，而我们学习单独的模型（图6）。与其他基于3DMM的方法一样，RingNet [46]估计预训练的人脸模型[35]的参数，特别是在嘴部区域（图1）中的空间外变化。8）。重建MoFA [57]和3369图6. Tranet al. [60，58]不从表达式中解开恒等几何。相比之下，我们的方法估计和解开所有的面部组件。它还可以产生更准确的嘴型。[O]指的是我们的方法图7.与我们的方法相比，MoFA [57]和GANFIT [20]产生的嘴型不太准确。GANFIT重建通常会包括伪影，尤其是眼睛周围。图8.与RingNet [46]相比，我们的方法更好地捕捉了嘴部形状和眼睛它还可以估计面部的外观。图9.微调（FT）使我们能够更好地捕捉人的个性化几何形状和反射率。GANFIT [20]也受到预训练的3DMM模型的限制虽然GANFIT生成详细的纹理，但它通常会包含伪影。Tewari等人[56]在图像数据集上细化预训练的3DMM模型。我们可以更好地解开反射和照明组件（图。5）。FML [55]受到预训练的表达模型的约束，因此产生较低质量的形状重建（图5和10）。此外，与FML相比，我们的反射率估计更即使我们从没有任何变形先验的模板网格开始，我们也可以产生高质量的结果，比现有技术更好。我们的方法可以产生比用于生成训练数据的方法更好的嘴唇分割[29]。例这是由于我们的分割损失函数，Lseg，我们选择性地忽略不可靠的分割估计。因此，我们的最终模型只从精确的训练集中的分段。我们还提供了对知觉损失的消融研究，这有助于照片写实主义的补充和最后的叠加。4.2. 定量评价几何误差：为了评估我们的3D重建的几何精度，我们计算地面真实几何和使用不同技术估计的几何之间的每个顶点均方根误差。GT和重建的网格首先对齐，使得它们具有相同的比例、平移和方向。我们使用BU3DFE数据集[64]进行评估，其中使用3D扫描获得地面真实几何形状。GT和重建网格之间的对应使用非刚性配准预先计算。选项卡. 1报告了324张图像的结果。我们的方法优于MoFA [57]、Tewari等人的方法。[56][55]《礼记》。请注意，Tab.1从图像和视频中学习完整的分割误差：为了具体评估唇部重建的质量，我们在唇部区域的重建和输入图像之间使用Intersection overUnion由于我们的方法从野外数据中学习表情模型，因此它可以更好地推广到不同的唇形并优于FML [55]（见表1）。2）的情况。更多>> Tab2示出了去除分割一致性项（等式2）。3.5)导致质量较低的结果。解纠缠错误：我们的主要目标之一是获得一个解纠缠表示的脸。为了评估重建的表达和身份几何之间的解纠缠，我们设计了一个度量标准，该度量标准测量具有中性面孔的图像的平均表达变形。我们在1864张中性面孔上测试我们的方法3370我们外务省 FML[第56话]粗[56]是说1.753.221.781.831.81SD0.440.770.450.390.47表1.BU-3DFE数据集上的几何重建误差（mm）我们的技术优于MoFA [57]，Tewari等人的粗糙和精细模型。[56][55]《礼记》无L段关于LSegFMLUL IoU0.490.540.51LL IoU0.520.600.58表2.上唇（UL）和下唇（LL）的地面实况和预测掩码之间的联合交集（IoU）。我们的分割一致性术语产生更好的IoU，并导致比FML明显更好的性能[55]。无L显示关于LDISFML外务省AE4.00650.01162.03290.4056表3.我们的身份解纠缠项导致身份几何较少泄漏到表达式组件中。它的性能优于FML [55]和MoFA [57]。AE是指平均表情变形。使用相同的战略中描述的节。三点四选项卡. 3报告了不同方法的表情变形的平均长度。我们的方法比FML[55]和MoFA [57]实现了更好这个结果也显示了我们解纠缠损失的重要性。验证指标：为了进一步评估解纠缠，我们使用LFW数据集[22]，其中包括相同和不同身份的人脸图像对。我们render- der的身份组成部分的重建与预测的姿态和照明参数。面嵌入计算为VGG-Face的conv 5 3输出的平均池化版本[39]。我们首先计算嵌入空间中具有相同身份的图像对的渲染之间的余弦相似度同样，计算不同标识的渲染对之间的余弦相似性分布。然后，将验证度量计算为这两个分布之间的地球移动器距离（EMD）。我们的方法实现了EMD为0。15，相比0。09为FML 一更大的距离意味着更好地表示不同的身份之间的联系，因为更好的解开。4.3. 个性化模型我们通过在视频上微调来显示个性化模型的结果我们使用2000帧视频的一部分进行微调，并在左侧的帧中显示质量改进。图9示出了个性化模型可以表示人特定的嘴部发音，并且还可以提高反射率的质量我们也图10.与FML相比，我们的个性化模型捕获了更高质量的嘴部几何形状，其中只有身份模型可以个性化。我们在第4列中显示了网格的内部轮廓在第5列中显示了真实内部轮廓和放大图像。图11.我们可以在个性化的模型之间转换表情。表达式参数在这里从输入传递到引用.个性化模型保持语义，这导致正确的表达转移。注意这些表达的个人特性。[R]是指完全重构，而[G]是几何分量。与FML [55]进行比较，微调其身份成分。注意，FML的训练策略不允许学习表达模型。因此，我们获得更高质量的重建，见图。10我们通过展示图11中的表达转移结果来证明个性化模型不会改变语义。在这里，我们采用输入图像的估计表情参数和不同参考图像的估计身份参数，以使用参考身份的个性化模型来重定向结果保留了输入表达式，这表明个性化后表达式模型的语义得到了保留。5. 结论我们提出了第一种学习完整人脸模型的方法，包括从野外图像和视频中学习身份，反射率和表达模型。我们的方法还学习从单目图像的学习模型我们引入了新的训练损失，以加强identity几何和表达式之间的解纠缠，并更好地捕捉详细的嘴型。我们的方法优于现有的方法，无论是在基于图像的重建的质量，以及不同的模型组件之间的解纠缠。我们希望我们的工作将启发进一步的研究从二维数据建立三维模型。鸣谢：这项工作得到了 ERC Consolidator Grant 4DReply（770784）的支持。我们也感谢InterDigital的支持。3371引用[1] AntonioAgudo ， LourdesAg apito ， Be gonpastaCalv o ，andJ. M. M.蒙蒂尔良好的振动：一个模态分析方法为顺序非刚性结构的运动。在IEEE计算机视觉和图案识别会议，第1558-1565页[2] C. F.贝尼特斯基罗斯河Srinivasan 和A. M.马丁内斯Apritionet：一个精确的，实时的算法，用于自动注释野外的一百万个面部表情。在CVPR中，第5562-5570页[3] Volker Blanz ， Curzio Basso ， Tomaso Poggio ， andThomas Vetter. 在图像和视频中重新激活面部计算机图形论坛，第641-650页[4] Volker Blanz，Kristina Scherbaum，Thomas Vetter，andHans-Peter Seidel.在图像中交换面孔。在电脑上。Graph.Forum，第669-676页，2004年。[5] 沃尔克·布兰斯和托马斯·维特。用于合成3D面的可变形模型在SIGGRAPH[6] 蒂莫·博尔卡特和斯蒂芬妮·维勒。一个鲁棒的三维人脸多线性模型学习框架。见CVPR，第4911-4919页。IEEE计算机协会，2016年。[7] James Booth ， Epameinondas Antonakos ， StylianosPloumpis ， George Trigeorgis ， Yannis Panagakis ， andStefanos Zafeiriou. 3d 脸部变形模型 “ 在野外 ” 。在CVPR，2017年。[8] James Booth ， Anastasios Pastasos ， Allan Ponniah ，David Dunaway，and Stefanos Zafeiriou.大型3D变形模型。国际计算机视觉杂志，126（2）：233[9] Sofien Bouaziz，Yangang Wang，and Mark Pauly.实时面部动画的在线建模。ACM Transactions on Graphics，32（4）：40：1[10] 曹晨、吴宏志、翁彦林、邵天嘉、周坤。基于图像的动态化身的实时面部动画ACM Transactions on Graphics（Proceedings of SIGGRAPH），35（4）：126：1[11] Bindita Chaudhuri，Noranart Vesdapunt，Linda Shapiro和Baoyuan Wang。个性化的人脸建模，用于改进人脸重建和运动重定向。在IEEE欧洲计算机视觉会议（ECCV），2020年。[12] J. S. Chung，A.Nagrani和A.塞瑟曼Voxceleb2：深度说话人识别。在INTERSPEECH，2018年。[13] 蒂莫西·F. Cootes，Gareth J. Edwards，and Christopher J.Taylor.活跃的外观模型。IEEE Transactions on PatternAnalysis and Machine Intelligence，23（6）：681-685，2001。[14] 放大图片作者：Kevin Dale，Kalyan Sunkavalli，MicahK. Johnson ， Daniel Vlasic ， Wojciech Matusik ， andHanspeter Pfister.视频换脸ACM Transactions on Graphics（SIGGRAPH Asia），30（6）：130：1[15] 邓宇，杨娇龙，徐思成，陈东，贾云德，佟欣。基于弱监督学习的精确3D人脸重建：从单张图像到图像集。在CVPR研讨会，2019年。[16] 放大图片作者：William A. P. Smith，Ayush Tewari，Ste- fanie Wuhrer，Michael Zollhoefer，Thabo Beeler，FlorianBernard ， Timo Bolkart ， Adam Kortylewski ， SamiRomdhani ， Christian Theobalt ， Volker Blanz ， andThomas Vetter.3D变形人脸模型[17] V. Fer na'ndezAbr evaya，S. Wuhre r和E. 博耶河用于三维人脸模型学习的多线自动编码器。计算机视觉应用（WACV），2018年IEEE冬季会议，2018年。[18] Graham Fyffe ， Andrew Jones ， Oleg Alexander ，Ryosuke Ichikari，and Paul Debevec.通过视频性能捕获驱动高分辨率面部扫描。ACM 事务处理图表，34（1）：8：1[19] Pablo Garrido ， Levi Valgaillo ， Chenglei Wu ， andChristian Theobalt.从单目视频重建详细的动态人脸几何。在ACM Trans. Graph. （Proceedings of SIGGRAPHAsia 2013），第32卷，第158：1-158：10页，2013年。[20] Baris Gecer ， Stylianos Ploumpis ， Irene Kotsia ， andStefanos Zafeiriou.Ganfit：用于高保真3D人脸重建的生成对抗网络拟合。在CVPR，2019年。[21] Kyle Genova、Forrester Cole、Aaron Maschinot、AaronSarna、Daniel Vlasic和William T.弗里曼三维变形模型回归的无监督训练。在CVPR，2018年6月。[22] 加里湾，澳-地Huang，Manu Ramesh，Tamara Berg，and Erik Learned-Miller. 在野外贴上标签的脸：数据库用于研究无约束环境中的人脸识别。技术报告07-49，马萨诸塞大学，阿默斯特，2007年10月。[23] 亚历山德鲁·欧根·伊希姆，索菲安·布阿齐兹，马克·保利。从手持视频输入创建动态3d化身。ACM事务处理图表，34（4）：45：1[24] Ale xandru-EugenIchim ， PetrKadlec ek ， Ladisla vKavan，and Mark Pauly.Phace：基于物理的人脸建模和动画。ACM Transactions on Graphics，36（4）：153：1[25] 贾斯汀·约翰逊亚历山大·阿拉希和李飞飞。实时风格转换和超分辨率的感知损失。欧洲计算机视觉会议（ECCV），第694-711页[26] Hyeong wooKim、Mi chaelZoll höfer、AyushTewari、JustusThies 、 Christian Richardt 和 Christian Theobalt 。Inverse-FaceNet ： DeepSingle-ShotInverseFaceRendering From a Single Image.在CVPR，2018年。[27] 马丁·克劳迪尼，史蒂文·麦克唐纳，德里克·布拉德利，塔博·比勒，肯尼·米切尔。实时多视图面部捕捉与合成训练。Comput. Graph.论坛，2017年。[28] Samuli Laine，Tero Karras，Timo Aila，Antti Herva，Shun-suke Saito ， Ronald Yu ， Hao Li ， and JaakkoLehtinen.使用深度卷积神经网络进行生产级面部表现捕捉在SCA中，第10：1-10：10页。ACM，2017年。[29] Cheng-Han Lee，Ziwei Liu，Lingyun Wu，and Ping Luo.Maskgan：Towards Different and Interactive Facial ImageManipulation. arXiv预印本arXiv：1907.11922，2019。[30] 李健熙和李成焕用于高保真3d人脸重建的不确定性感知网格解码器在3372IEEE/CVF计算机视觉和模式识别会议（CVPR），2020年6月。[31] J. P. Lewis ， Ken Anjyo ， Taehyun Rhee ， MengjieZhang，Fred Pighin，and Zhigang Deng.混合形状人脸模型的理论与实践。在Sylvain Lefebvre和Michela Spag-nuolo，编辑，Eurographics，2014年。[32] Hao Li，Jihun Yu，Yuting Ye，and Chris Bregler.实时面部动画与即时矫正。ACM事务处理图表，32（4）：42：1[33] R. Li ，K.Bladin，Y.Zhao，C.奇纳拉岛Ingraham，P.湘、X. Ren，P. Prasad，B. Kishore，J. Xing，and H.李学习基于物理的面部属性的形成。在Proc. CVPR，2020中。[34] Tianye Li，Timo Bolkart，Michael

下载后可阅读完整内容，剩余1页未读，立即下载