野外视频数据的深度网络的多帧自监督训练及人脸三维重建

128 浏览量更新于2023-10-18 收藏 2.12MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10812FML：从视频Ayush Tewari1 Florian Bernard1 Pablo Garrido2 Gaurav Bharaj2 MohamedElgharib1Hans-PeterSeidel1PatrickPe' rez3MichaelZollh oüfer4ChristianTheobalt11MPI Informatics，萨尔信息学校区2彩色3Valeo.ai4斯坦福大学图1.我们提出了基于野外视频数据的深度网络的多帧自监督训练，用于联合学习人脸模型和3D人脸重建。我们的方法成功地解开面部形状，外观，表情和场景照明。摘要基于单目图像的人脸三维重建是计算机视觉领域的一个长期难题。由于图像数据是3D面部的2D投影，因此所产生的深度不确定性使得问题不适定。大多数现有的方法依赖于数据驱动的先验，这些先验是从有限的3D人脸扫描中构建的相比之下，我们提出了基于多帧视频的深度网络自监督训练，（i）学习在形状和外观上的人脸身份模型，(ii)共同学习重建3D人脸。我们的人脸模型是只使用从互联网上收集的野生视频剪辑语料库来学习的这种几乎无穷无尽的训练数据源可以学习高度通用的3D人脸模型。为了实现这一点，我们提出了一种新的多帧一致性损失，确保一致的形状和外观跨多帧的主题的脸，从而最大限度地在测试时，我们可以使用任意数量的帧，以便我们可以执行单目以及多帧重建。1. 介绍从视觉数据中重建人脸在视觉和图形学中有着广泛的应用，包括人脸跟踪、情感识别以及多媒体中的交互式图像/视频编辑任务。面部图像和视频无处不在，因为智能设备以及消费者和专业相机提供了其连续且几乎无穷无尽的来源。当在不受控制的场景位置、照明或侵入性设备（例如，以自我为中心的相机或演员上的标记），人们谈到“野外”图像。通常，野外数据分辨率低，有噪声，或包含运动和焦点模糊，使得重建问题比在受控设置中困难得多。从野外单目2D图像和视频数据[71]进行3D人脸重建，处理面部形状识别（中性几何）、皮肤外观（或面部表情）和表情，以及估计场景照明和摄像机参数。这些属性中的一些，例如。反照率和照明在单目图像中不容易分离。此外，由于面部毛发、太阳镜和头部大旋转导致的场景照明差、深度模糊和遮挡使3D人脸重建复杂化。为了解决困难的单目3D人脸重建问题，大多数现有方法依赖于强先验模型的可用性，这些模型用作其他不适定问题的正则化器[6，20，68]。虽然这样的方法实现了令人印象深刻的面部形状和反照率重建，但由于所使用的面部模型，它们引入了固有的偏差。例如，Blanz等人的3D可变形模型（3DMM）。[6]基于对高加索演员的一组非常小的3D激光扫描，从而将性别化限制在一般的现实世界身份和种族。随着基于CNN的深度学习的兴起，已经提出了各种技术，除了3D重建之外，还可以从单目图像中进行人脸模型学习[63，62，59，55]。然而，这些方法严重依赖于预先存在的3DMM来解决单目重建设置的固有深度模糊性。另一种工作，其中3DMM样的面部模型不是所需的，是基于照片收集[30，37，57]。然而，这些方法需要一个非常大的数字（例如.≈100），因此它们对训练语料库提出了很高的要求。在本文中，我们介绍了一种使用从野外互联网视频中抓取的剪辑来学习全面的人脸识别模型的方法[19]。这个面部识别模型10813包括两个组成部分：一个组件来表示面部身份的几何形状（模表达式），并且另一个组件来表示根据反照率的面部外观。因为我们对训练数据只有很弱的要求（参见秒3.1），我们的方法可以使用虚拟无限数量的社区数据，从而获得具有更好泛化能力的模型;用激光扫描一个类似的大群体来建立模型几乎是不可能的。与大多数以前的方法不同，我们不需要预先存在的形状标识和反照率模型作为初始化，而是从头开始学习它们的变化因此，我们的方法适用于没有现有模型可用的情况，或者如果难以从3D扫描创建这样的模型（例如，婴儿的脸从技术的角度来看，我们的主要贡献之一是一种新颖的多帧一致性损失，它确保了同一主题的帧之间的人脸身份和人脸重建是通过这种方式，我们可以避免在许多单目方法中存在的深度模糊性，并获得更准确和鲁棒的面部几何和面部轮廓模型。此外，通过在我们学习的面部身份模型和现有的融合变形表情模型之间施加正交性，我们的方法自动地将面部表情从基于身份的几何变化中分离出来，而不需要求助于大量的手工制作的先验。总之，我们的方法基于以下技术贡献：1. 一种深度神经网络，它从包含每个主体的多个图像的无约束图像的大数据集中学习面部形状和外观空间，e.G.多视图序列或甚至单目视频。2. 通过投影到blendshapes的零空间上实现多帧一致性损失的显式blendshape和身份分离3. 基于连体网络的新型多帧身份一致性丢失[67]，具有处理单目和多帧重建的能力。2. 相关工作关于3D模型学习的文献相当广泛，我们主要回顾从扫描仪数据、单目视频数据、照片集和单个2D图像重建3D人脸模型的方法。[71]中给出了基于模型的人脸重建的最新技术概述变形模型从高质量扫描：3DMM表示低维子空间中的变形，通常由扫描仪数据构建[7，8，36]。传统3DMM模型几何结构/外观变化从有限的数据通过PCA [7，6，26]。最近，已经从大规模数据集获得了更丰富的PCA模型[13，44]。多线性模型通过捕获一组相互正交的变化模式（例如，全局和局部变形）通过张量分解，Sition [68，9，10].然而，非结构化的子空间，甚至张量泛化是无法从有限的数据建模局部变形。在这方面，Neumann et al.[41] Bernard et al.[5]设计直接从网格数据计算稀疏局部变形分量的方法。 Luthi等[38]提出了所谓的高斯过程变形模型（GPMM），它是用任意非线性内核建模的，以处理强非线性形状变形。Ranjan等人[46]使用具有快速频谱卷积内核的深度网格自动编码器学习非线性模型。Garrido等人[25]训练径向基函数网络以从多视图数据学习校正3D嘴唇模型。在正交方向上，Li et al.[36]学习将线性形状空间与关节运动和语义融合形状相结合的混合模型。所有这些方法主要是对形状变形进行建模，并且受限于扫描仪数据的可用性。参数模型从单目数据类型：在这里，我们区分了个性化的、校正的和可变形的模型学习。通过首先以从粗到细的方式细化参数模型（例如，如在[49]中），然后学习从粗略语义变形到更精细的非语义细节层的映射[28，24]。相关模型表示空间外变形（例如，在形状或外观上），其未被下面的参数模型建模。示例是在视频序列上自定义的自适应线性模型[15，27]或从训练语料库中学习的非线性模型[48，59]。已经提出了许多用于野外3DMM学习的工作[53，63，4，12]。这样的解决方案通过利用弱监督的编码器-解码器架构将面部分解成其固有组件。Tran等人。[63]采用两个独立的卷积解码器来学习一个非线性模型，该模型将形状与外观分离。 Similarly ，Sengupta et al.[53]提出残差块，以产生表面法线和法线特征的完全分离。也存在通过利用图像集合来学习刚性[65]或铰接对象[29]的3DMM的方法。这些方法直接从图像中预测3DMM的实例[29]或使用额外的线索（例如，分段和阴影）以拟合和细化3DMM [65]。单眼3D重建：基于优化的重建算法依赖于个性化模型[18，21，23，69]或参数先验[2，15，35，24，54]从2D视频中估计3D几何形状。基于学习的方法通过学习图像到参数或图像到几何结构的映射来从单个图像回归3D面部几何结构[42，48，60，59，52，64，32]。这些方法需要地面真实人脸几何[64，34]，从中生成合成训练图像的变形模型[47，48，52，32]，或两者的混合[39，33]。最近，Tewari et al.[60]在完全无人监督的情况下，10814基于逆向渲染的损失。然而，颜色和形状的变化在于一个参数脸先验的子空间。只有最近的单眼人脸识别方法[59，63，62，12]允许在从野外数据训练时进行空间外模型泛化。通过照片采集进行3D重建：面部重建也可以通过将模板模型拟合到照片集来实现。在[31]中，平均形状和外观模型是从个人特定的照片重建的。集合通过低秩矩阵分解。Suwajanakorn等人[57]使用此模型来跟踪来自无约束视频的详细面部运动Kemelmacher-Shlizerman [30]从大量的人的照片集合中学习3DMM，这些照片集合被分组为一组固定的语义标签。另外，Liang et al.[37]利用多视图个人特定的照片集合来重建完整的头部。在不同的研究路线中，Thies et al.[61]将粗略参数模型拟合到用户选择的视图以恢复个性化的脸部形状和面部轮廓。Roth等人。[49]通过使用由粗到细的光度立体配方将现有的变形模型个性化到图像集合。请注意，这些方法中的大多数并不学习一般的面部模型，例如。- 形状基础，其跨越整个人群的面部形状的范围，但相反，它们获得单个人特定的3D面部实例。此外，这些方法需要精心策划的照片集。基于多帧图像的训练集，即，从视频剪辑中采样的同一个人的多个图像，参见第3.1节。网络共同学习外观和形状识别模型（第3.2节）。它还估计刚性头部姿势、照明和表情参数的每帧参数，以及在所有帧之间共享的形状和外观标识参数。我们基于一个可微渲染器训练网络，该渲染器包含一个逐顶点外观模型和一个基于图的形状变形模型（第3.3节）。为此，我们提出了一组训练损失，这些损失考虑了几何平滑度，照片一致性，稀疏特征对齐和外观稀疏性，请参见第3.4节。测试：在测试时，我们的网络从同一个人的任意数量的人脸图像因此，相同的经训练的网络可用于单目和双目。多帧人脸重建3.1. 数据集我们使用VoxCeleb2多帧视频数据集训练我们的方法[19]。该数据集包含从Youtube上抓取的6000多位名人的 14 万多我们对总共 N = 404k 个多帧图像F1，. . . ，FN从这个数据集。第n个多帧图像F_f={F[f]}M相反，我们建立了一个3DMM表示，生成-1.1.1.1.1.1.1.1.1.1包括M = 4个帧F[1]，. . . ，F[M]的相同-在多个面孔身份之间进行均衡，对训练数据的假设。多帧3D重建：多帧重建技术利用时间信息或多个视图来更好地估计3D几何形状。Shi等人[54]将多线性模型全局拟合到多个关键帧处的3D地标，并通过插值来加强中间帧的时间一致性在[24]中，通过对参数面部模型的每帧估计进行平均来获得特定于人的面部形状。Ichim等人[28]采用多视图束调整方法来重建面部形状并使用特定于演员的序列来细化表情。Piotraschke等人[43]使用正常距离函数组合来自许多图像的3DMM的逐区域Garg等人[22]提出了一种无模型方法，该方法在运动框架的非刚性结构中全局优化密集3D几何形状。除了面孔，Tul- sian et al.[66]训练CNN以使用多视图射线一致性来预测单视图3D3. 人脸模型学习我们新颖的人脸模型学习方法解决了两个任务：它联合学习（i）参数化的面部几何形状和外观模型，以及（i i）面部形状、表情、姿态、刚性姿态和入射照明参数的估计器。我们的方法的概述如图所示。二、训练：我们的网络是在一个自我监督的从同一个视频片段中提取的儿子，以避免不必要的变化，例如，由于老化或附件。同一个人可以在数据集中出现多次为了获得这些图像，我们执行几个连续的步骤。首先，基于自动检测到的面部标志[50，51]裁剪面部区域。然后，我们丢弃裁剪区域小于阈值的图像（即，200像素）并且具有低地标检测置信度，如亲-由地标跟踪器[50，51]显示。其余的裁剪被重新缩放为240×240像素。当对F中的M帧进行采样时，我们基于由地标跟踪器获得的头部取向来确保头部姿势的足够多样性我们将多帧数据集F1，. . . ..3.2. 基于图的人脸表示我们提出了一个多层次的人脸表示，是基于粗糙的形状变形图和高分辨率的表面网格，其中每个顶点有一个颜色值，编码的面部外观。这种表示使我们的方法能够基于多帧一致性来学习几何形状和外观的面部模型。在下文中，我们将详细解释组件。可学习的基于图的身份模型：不是在高分辨率网格V上学习身份模型，|= 60 k个顶点，我们通过考虑|=60 k vertices, wesimplify this task by considering基于变形10815GGG图2.管道概述。给定多帧输入，显示一个人在不同的面部表情，头部姿势和照明，我们的方法首先估计这些参数每帧。此外，它还共同获得控制面部形状和外观的共享身份参数，同时学习基于图形的几何形状和每个顶点的外观模型。我们使用可微分网格变形层结合可微分人脸渲染器来实现基于模型的人脸自动编码器。图[56]。我们通过对网格进行下采样来获得我们的（粗略）变形图G，|G|=521个节点，见图3.第三章。网络现在学习G上的变形，然后通过线性混合蒙皮将其传递到网格V。向量g∈R3| G|的|G| 3D图形的堆叠节点位置被定义为g=g<$+Θsα ，（1）其中g<$∈R3|G|表示平均图节点位置。我们通过采样一个稍微张开嘴的面网（以避免连接上唇和下唇）来获得g'。可学习矩阵Θs∈R3的列|G| ×g表示g维（g=500）图变形子空间，α∈Rg表示图变形参数.顶点位置v∈R3| V|然后给出编码形状标识的高分辨率网格V的v（Θs，α）=v<$+SΘsα 。（二）这里，v<$∈R3|V|固定到3DMM[7]中定义的中性平均面形状。蒙皮矩阵S ∈R3|V|×3|G|基于平均形状v′和平均图节点g′获得。总之，我们的身份模型是由一个去-考虑形状标识以及面部表情的高分辨率网格的顶点位置由下式给出：v（Θs，α，δ）=v<$+S·OCL（Θs）α+Bδ，（3）其中B ∈ R3| V| ×b是固定Blendshape基，δ ∈ Rb是b=80个融合变形参数的向量，OCL是接下来解释分离形状和表情：我们通过在我们学习的形状标识基础和固定的blendshape基础之间施加正交性来确保形状标识与面部表情的分离。为此，我们首先代表Blendshape基B ∈R3| V| 通过求解图域Blendshape基BG∈R3，|G| ×bG在最小二乘意义下。这里，bG= 80是固定的。然后，我们正交化BG的列。我们提出了正交补充层（OCL）来确保我们学习的OCL（Θs）满足正交约束BTOCL（Θs）=0。我们的层是根据Θs在BG的正交补B上的投影来定义的，即，OCL（Θs）= projB（Θs）= Θs-projBG（Θs）（4）= Θs− BG（BTBG）−1BTΘs。（五）形成图G，其中变形参数α为G G在学习变形的同时通过网络回归子空间基Θs我们通过利用多帧一致性来正则化这个不适定的学习问题。Blendshape表达式模型：为了捕获面部表情，我们使用线性混合形状模型，该模型结合了[3]和[16]中的面部表情模型。该模型是固定的，即不是学的。因此，表达式变形直接应用于高分辨率网格。的10816G性质BTOCL（Θs）= 0可以很容易地验证。可学习的逐顶点外观模型：面部外观被编码在3|V| n维向量r（β）=<$r+Θaβ（6）所有的|V|每个顶点的颜色表示为RGB三元组。平均fappearance<$r∈R3|V|和10817=1ℓ所有面部共有身份Θs和外观模型（Θa，θr）在流之间共享。回归参数：我们根据多帧图像以自我监督的方式训练我们的网络{F}N.F或每个帧F[f]，图3.中性面形状和外观（左）以及面网格的粗略变形图（右）。出现基Θa∈R3| V| ×| β|是可学习的，而面部外观参数β是回归的。请注意，我们将平均外观r初始化为恒定的肤色，并直接在高分辨率网格V上定义反射率。3.3. 微分成像为了实现端到端的自我监督训练，我们采用了一种可微分图像形成模型，该模型将3D模型空间坐标v∈R3映射到2D屏幕空间坐标u∈R2。映射实现为u =φ（Φ（v）），其中Φ和φ分别表示刚性头部姿势和相机投影我们还采用了不同的-实体照明模型，其将照明参数γ以及每顶点外观ri和法线ni变换为着色的每顶点颜色ci（ri，ni，γ）。我们在下面解释这两个模型相机型号：我们假设w.l.o.g.相机空间对应于世界空间。我们通过刚性映射Φ（v）= Rv + t来建模头部姿态，该刚性映射由全局旋转R∈SO（3）和平移t∈R3定义。在将顶点从模型空间v映射到相机空间之后，v=Φ（v），全透视相机模型Φ：R3→R2将点v投影到屏幕空间u=（v）∈R2中。照明型号：在远距离平滑照明和纯朗伯曲面性质的假设下，我们采用球谐函数（SH）[45]来表示顶点v i处的入射辐射，法线为ni，外观为iB2ci（ri，ni，γ）= ri·γb·Hb（ni）.（七）b=1照明参数γ∈R27堆叠B2=每个颜色通道9每个γb∈R3控制光照w.r.t.红色、绿色和蓝色通道。3.4. 多帧一致性人脸模型学习我们提出了一种新的网络一致的多帧人脸模型学习。它由M个连体塔组成，同时处理不同流中多帧图像的M帧，见图。二、每个塔由估计帧特定参数和识别特征图的编码器组成。注意，联合学习的几何对于多帧图像F，我们将帧特定的参数由连体塔回归的参数（参见参数Esti-在图2中的矢量p[f]=（R[f]，t[f]，γ[f]，δ[f]）中，其参数化刚性姿态、照明和表情。用于多帧图像F的帧无关的个人特定身份参数P=（α，β）从以下被汇集：所有的人。我们使用p=（p≠ 1，p[1]，. . . ，p[M]）来表示所有回归的框架独立和框架特定的参数F。每帧参数估计网络：我们使用卷积网络来提取低级特征。然后，我们应用一系列卷积、ReLU和全连接层来回归每帧参数p[f]。有关进一步详情，我们参阅补充文件。多帧身份估计网络：如第3.1节所述，我们的多帧输入的每一帧在不同的头部姿势和表情下表现出相同的面部身份。我们利用这些信息，并使用一个单一的身份估计网络（见图1）。 2）对所有M个帧施加公共身份参数p（形状α，外观β）的估计。通过这种方式，我们通过设计对p的硬约束进行建模。更准确地说，在通过Siamese网络获得的帧特定的低级特征中，我们应用两个额外的卷积层来提取中级特征。通过平均池化将所得到的M个中级特征图融合成单个多帧特征图。请注意，平均池操作允许我们处理可变数量的输入。因此，我们可以在测试时执行单目或多视图反射，如第2节所示4.第一章然后将该池化特征映射馈送到基于卷积层、ReLU和全连接层的身份参数估计网络有关详细信息，请参阅补充说明。3.5. 损失函数令x=（p，Θ）表示回归参数p以及可调网络权重Θ=（Θs，Θa，<$r）。注意，x在训练中完全学习，而网络在测试时只推断p.这里，p由网络的可训练权重参数化。为了测量小批量梯度下降期间的重建质量，我们采用以下损失函数：L（x）=λpho·Lpho（x）+λlan·Llan（x）+（8）λsmo·Lsmo（x）+λspa·Lspa（x）+λble·Lble（x），（9）其基于两个数据项（8）和三个正则项（9）。我们凭经验找到了权重λ，10818我..[f]2我Σ在所有实验中保持固定，详情参见补充文件。多帧光度一致性：我们的方法的关键贡献之一是实施由共享身份参数p_i组成的多帧。这可以被认为是在训练期间对每个多帧输入求解基于模型的非刚性运动恢复结构（NSfM）。我们通过相对于帧F[f]施加以下照片度量一致性损失来做到这一点：ΣMΣ|V|......你好。..L（x）=.. F[f]（u（p[f]，p））−c（p[f]，p）.. 2 .phoi i2f=1i =1在这里，我们滥用符号，使用ui表示第i个顶点到屏幕空间的投影，ci是其渲染颜色，Vi是所有可见顶点的集合在向前传球时从后面剔除请注意，标识相关参数p_p在F中的所有帧之间共享。这使得能够更好地解开照明和外观，因为仅照明和头部姿势被允许在帧之间改变。多帧标志一致性：为了更好地约束的问题，我们还采用了稀疏的2D地标对齐约束。这是基于一套66自动-在每一个中，检测到的2D特征点s[f]∈R2[50，51]图4.我们的方法通过从野外数据中学习最佳模型来产生面部几何形状、反射率和照明的高质量单眼重建。这使我们能够重建面部毛发和化妆。为了约束潜在的内在分解问题，我们采用了[40，11]中的局部逐顶点空间反射稀疏先验，定义如下我[f]Σ|V|Σ....框架F[f]。每个特征点s都具有置信度L（x）=W··r（p）−r（p）..p.（十一）我c[f]，所以我们用损失spaij i j2i=1j∈NiΣML（x）=Σ66[f]..[f]c·s-u..（p），p）...边缘权重wij根据色度对相邻顶点的相似性进行LANi isi2f=1i =1Σwij=expΣ-η·||hi（pol d）−hj（pol d）||2.这里，us∈R2是第i个网格fea的2D位置。屏幕空间中的真实点。我们使用滑动对应，给你是ci的色度P老表示参数类似于[59]。注意，网格界标的位置取决于预测的每帧参数p[f]和共享标识参数p[f]两者。图形级别上的几何体平滑度：我们采用线性化的膜能[14]来定义一阶在最后一次向前传球中预测我们固定η = 80，p =0的情况。九是训练。表达式正则化：为了防止过度拟合并能够更好地学习恒等基，我们正则化表达式参数δ的大小：位移ti（p）的几何平滑度先验=变形图节点的gi（p）−g<$iLbleΣM|δ[f]|.（x）=f=1u=1[f]uσδu2.（十二）Σ|G| Σ....L（x）=.. t（p）−t（p）.. 2、（10）这里，δ[f]是帧f的第u个表达式参数，smoij2i=1j∈Niuσδu是计算其中Ni是与第i个节点具有共同蒙皮顶点的节点的集合。注意，该图参数化几何标识，即，它仅取决于共享身份参数Pk。该项强制参数化形状的平滑变形，并导致更高质量的重建结果。外观稀疏度：在我们学习的人脸模型中，皮肤外观是基于每个顶点的参数化的。为了毛皮-主成分分析（PCA）。4. 结果我们给出了从单目图像重建几何、反射率和场景照明的定性结果.4.第一章由于我们的模型是在大量多视图图像上训练的，因此它可以很好地推广到不同的种族，即使存在面部毛发和化妆。我们δ10819图5.单眼与多帧重建为了清楚起见，所有结果都以正面姿势和中性表情显示。多视图重建提高了一致性和质量，特别是在其中一个图像中被遮挡的区域中。图6.与Tewari et al.[59 ]第59段。基于多帧的训练改进了照明估计。我们的方法也优于Tewari等人的方法。在大的姿势下。在TensorFlow中实现和训练我们的网络[1]。我们预先训练表达模型，然后端到端地训练整个网络。在收敛之后，使用较大的反射率学习率对网络进行微调。我们经验性地发现，这种训练策略提高了面部毛发、化妆和眼睑的捕捉，从而提高了模型的泛化能力我们的方法也可以应用于多帧重建在测试时间。图5示出了当与单眼情况相比时，同时馈送两个图像改善了所获得的 3D 重建请注意，由于我们的新型正交互补层（OCL），我们可以成功地分离身份和反射率。对于以下部分中显示的实验，我们在M=4个多帧图像上训练我们的网络，并且在测试时仅使用一个输入图像，除非另有说明。我们的网络需要大约30个小时来训练。Titan XP上的推理仅需5.2 ms更多细节、结果和实验也可以在补充文档和视频1中找到。1http://gvv.mpi-inf.mpg.de/projects/FML19图7.比较[48，52，60]。这些方法受到（合成）训练语料库和/或底层3D人脸模型的约束。我们的最佳学习模型产生更准确的结果，因为它是从大量真实图像中学习的。图8.与Tran et al.[62]，我们估计更好的几何和独立的反射照明。注意，Tran et al.不会使反射和阴影分离。图9.与Booth et al.[12]包含阴影，我们的方法估计反射率模型。4.1. 与单眼方法的比较依赖于现有人脸模型[60]或在训练期间合成生成的数据[52，48]的最先进的单眼重建方法因此，他们不能处理面部毛发，化妆，和未建模的表情，见图。7 .第一次会议。由于我们在野外视频上训练模型10820表1.BU-3DFE数据集上的几何重建错误[70]。我们的方法产生了比目前最先进的更高质量的结果。Tewari等人的方法。[60]并没有推广到该数据集中包含的±45度头部姿势。我们[59]第五十九话[59]第五十九话[60个]火车M = 1M = 2M = 4M = 2M = 4测试M = 1M = 1M = 1M = 2M = 2是说SD1.92毫米0.48 mm1.82毫米0.45 mm1.76 mm0.44毫米1.80 mm0.46 mm1.74毫米0.43 mm1.83 mm0.39 mm1.81毫米0.47毫米3.22毫米0.77 mm表2. FaceWarehouse上的几何错误[17]。我们的方法与[59]和[58]竞争，并优于[60]和[32]。请注意，与这些方法相比，我们的方法在训练过程中不需要预先计算的人脸模型，而是从头开始学习。它接近[24]的离线高质量方法，同时速度快了几个数量级，并且不需要特征检测。我们别人学习学习优化混合[59]第五十九话[59]第五十九话[60个][32个][24日][58个]是说SD1.90毫米0.40 mm1.84毫米0.38 mm2.03毫米0.52 mm2.19 mm0.54 mm2.11毫米0.46 mm1.59毫米0.30 mm1.87毫米0.42 mm时间5.2毫秒4 ms4 ms4 ms4 ms120 S110 Ms我们可以捕捉这些变化，从而在这种具有挑战性的情况下更好地概括我们还比较了[59，62]的基于细化的方法Tran等人[62]（参见图8）基于野外数据对3DMM[7我们的方法在不需要3DMM的情况下产生更好的几何形状，与[62]相反，它还将照明与照明分开。Tewari等人的方法。[59]（见图6）需要一个3DMM [7]作为输入，只学习形状和反射率校正。由于它们从单眼数据中学习，因此它们的校正容易产生伪影，特别是当存在遮挡或极端头部姿势相比之下，我们的方法基于多视图监督从头开始学习一个完整的模型，从而提高了鲁棒性和重建质量。我们还比较了[12]，它只学习一个纹理模型，见图。9.第九条。相比之下，我们的方法一种将照明和照明分开的模型。此外，他们的方法需要一个3DMM [7]作为初始化，而我们从一个单一的恒定颜色的网格开始，从头开始学习所有的变化模式（几何形状和反射率）。4.2. 定量结果我们还在BU-3DFE数据集的一个子集上定量评估了我们的重建[70]，见表1。1.一、该数据集包含执行各种表达的多个人的图像和相应的地面真实几何。它包括两种不同的观点。我们评估了多帧训练的重要性，在单眼重建的情况下，使用基于预先计算的密集对应图的每顶点均方根误差与单目输入数据相比，在训练过程中使用多视图监督实现了最低的误差。多视图监督可以更好地解决深度模糊，从而学习更准确的模型。此外，多视图监督还导致反射率和阴影的更好的解纠缠。我们还评估了多帧输入在测试时的优势当两个图像对应于一个形状给定，我们始终获得更好的结果。此外，我们的估计值优于[59]的最新方法。由于[59]在训练过程中仅使用单眼图像来优化现有的3DMM，因此无法解决深度模糊好。因此，与BU-3DFE的± 45度姿态上的粗糙模型相比，它没有改善性能[70]。与以前的工作类似，我们也评估了180个网格上的单眼重建，[17]第十七话，看你。二、我们的性能类似于基于3DMM的最先进技术。请注意，我们没有使用预先计算的3DMM，而是在训练过程中从头开始学习模型，这与本比较中的所有其他方法不同。在这个测试中，我们采用了一个从亚洲平均脸开始学习的模型，因为FaceWarehouse主要包含亚洲人。我们的方法是不可知论的意思面对选择，从而允许我们这种自由。5. 结论讨论我们提出了一种用于人脸模型和三维人脸重构网络的联合多帧学习的自监督方法。我们的模型是从头开始学习的基础上，在野生视频剪辑的大型语料库没有可用的地面真相。虽然我们已经通过从野外数据中学习证明了令人满意的结果，但这些数据通常具有低分辨率、噪声或模糊，这对可实现的质量施加了限制。尽管如此，我们的方法已经匹配或优于最先进的基于学习的人脸重建。我们希望这将启发后续的工作和学习三维人脸重建的多视角监督将得到更多的关注。鸣谢：我们感谢True-VisionSolutions Pty Ltd提供2D人脸跟踪器，以及[12，48，52，62]的作者进行比较。我们还要感谢FranziskaMüller提供的视频。这项工作得到了 ERC Consolidator Grant4DReply（770784），Max Planck Center for Visual Computing andCommunications（MPC-VCC）和Technicolor的支持。10821引用[1] M. Abadi、A.Agarwal，P.Barham，E.Brevdo，Z.陈先生，C. 西特罗湾S. Corrado，A.Davis，J.Dean，M.Devin，S.盖-马瓦特岛。Goodfellow，A.Harp，G.Irving，M.Isard，Y.贾，R. 约瑟夫·奥维茨湖Kaiser，M.Kudlur，J.L evenber g，D.伙计，R. Monga、S.穆尔，D.默里角奥拉山舒斯特J. Shlens，B.施泰纳岛 Sutskever，K.塔尔瓦尔山口塔克V. Vanhouc k e，V. Vasud ev an，F. Vi eg as，O. Vi nyals，P. 等等，M。Wattenberg，M.Wicke，Y.Yu和X.郑张量-流量：异构系统上的大规模机器学习，2015年。软件可从tensorflow.org获得。7[2] A. 阿古多湖阿加皮托湾Calvo和J.M. M. 蒙蒂尔良好的振动：非刚性结构运动模态分析方法.在2014年IEEE计算机视觉和模式识别会议的会议，CVPRIEEE计算机学会，2014年。2[3] O. Alexander，M. 罗杰斯，W。 Lambeth，M. 蒋任宏与P. 德贝维克数字艾米丽项目：真实的面部建模和动画。 ACM SIGGRAPH Courses ，pages 12 ：1-12 ：15.ACM，2009年。4[4] A. Bas和W.A. P. 史密斯统计Transformer网络：通过自我监督学习形状和外观模型。arXiv：1804.02541，2018。2[5] F. Bernard，P.Gemmar，F.Hertel，J.Goncalves和J.唐伯格。使用基于图的结构化矩阵分解的局部支持的线性形状变形模型。在CVPR，2016年。2[6] V.Blanz、C. Basso，T. Poggio和T.维特在图像和视频中恢复面部动画。在计算机图形论坛，第641-650页。Wiley Online Library，2003. 一、二[7] V. Blanz和T.维特一种用于三维人脸合成的变形模型。在 Proc. SIGGRAPH ，第 187-194 页中。 ACM 出版社/Addison-Wesley出版公司1999. 二四八[8] F. Bogo，J. Romero，M. Loper和M. J.布莱克。Faust：3D网格配准的数据集和评估。在CVPRIEEE计算机学会，2014年。2[9] T. Bolkart和S.乌勒三维人脸的分组多线性对应优化。在ICCV，第3604- 3612页。IEEE计算机学会，2015年。2[10] T. Bolkart和S.乌勒一个鲁棒的三维人脸多线性模型学习框架见CVPR，第4911IEEE计算机学会，2016年。2[11] N. Bonneel，K.Sunkavalli，J.Tompkin，D.孙习巴黎和H.菲斯特交互式内置视频编辑。ACM Transactions onGraphics（Proceedings of SIGGRAPH Asia 2014），33（6），2014. 6[12] J. Booth ， E.Antonakos ， S.Ploumpis ， G.Trigeorgis ，Y.Pana- gakis和S. Zafeiriou. 3d脸变形模型“在野外”。在IEEE计算机视觉和模式识别会议（CVPR），2017年7月。二三七八[13] J. Booth，A. Roussos，S. Zafeiriou，A. Ponniah和D. 快走开。从10，000张面孔中学习的3D变形模型。在CVPR，2016年。2[14] M. Botsch和O.索金关于线性变分曲面变形方法。 IEEETransactions on Visualization and Computer Graphics，14（1）：213-230，Jan. 2008. 610822[15] S. Bouaziz，Y. Wang和M. Pauly.实时面部动画的在线建模。ACM事务处理图表，32（4）：40：1- 40：10，2013. 2[16] C. Cao ， Y.Weng 、黄毛菊 S.Zhou ， Y.Tong 和 K. 舟Faceware- house：一个用于视觉计算的三维面部表情数据库。IEEE TVCG，20（3）：413-425，2014年。4[17] C. Cao ， Y.Weng 、黄毛菊 S.Zhou ， Y.Tong 和 K. 舟Faceware- house：一个用于视觉计算的三维面部表情数据库IEEETransactions on Visualization and ComputerGraphics，20（3）：413-425，Mar. 2014. 8[18] C. Cao，H. Wu，Y. Weng，T. Shao和K.舟基于图像的动态化身的实时面部动画。ACM事务处理图表，35（4）：126：1-126：12，2016. 2[19] J. S. Chung，A.Nagrani和A.齐瑟曼。Voxceleb2：深度说话人识别。在INTERSPEECH，2018年。第1、3条[20] P. Ekman和E.L. 罗森伯格脸揭示了什么：使用facialAction Coding System（FACS）。牛津大学出版社，美国，1997年。1[21] G. Fyffe，A.琼斯岛亚历山大河Ichikari和P.德贝维克。驱动高分辨率的面部扫描与视频每一个摄像头捕捉。ACM事务处理图表，34（1）：8：1-8：14，2014. 2[22] R. Garg，A. Alpensos和L.阿加皮托从单目视频的非刚性表面的密集变分重建。在2013年IEEE计算机视觉和模式识别会议上，美国俄勒冈州波特兰，2013年6月23-28日，第1272-1279页。IEEE计算机学会，2013年。3[23] 加里多湖瓦尔加伊角Wu和C.希奥博尔特从单目视频重建详细的动态面部几何形状。在ACM事务图中。（Proceedings of SIGGRAPH Asia 2013），第32卷，第158：1-158：10页，2013年11月。2[24] P. 加里多湾Zollh oüfer，D.卡萨斯湖Valg aerts，K.瓦拉纳西，P. P e'rez和C. 希奥博尔特从单目视频重建个性化ACMTransactions on Graphics，35（3）：28：1-15，2016年6月。二、三、八[25] P. 加里多湾 Zollh oüfer，C. Wu，D. Bradley，P. 佩雷斯T. Beeler和C. 希奥博尔特从单眼视频中矫正嘴唇的三维重建。ACM事务处理图表，35（6）

下载后可阅读完整内容，剩余1页未读，立即下载