高保真人脸模型的自监督自适应方法

122 浏览量更新于2023-10-19 收藏 2.67MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4601用于单目视觉跟踪的高保真人脸模型自监督自适应尹载申<$白鸟高明秀一柳贤秀朴<$†明尼苏达大学FacebookReality Labs{jsyoon，hspark}@umn.edu {tshiratori，shouou-i.yu}@ fb.com图1：我们的方法的高保真3D面部性能跟踪结果，该方法通过我们提出的自监督域适应方法自动将在受控实验室环境中捕获的高质量面部模型[12]（左）适应于野外图像（右）。请注意，我们能够从手机质量的视频恢复的细节.摘要数据采集和人脸建模技术的改进使我们能够创建高保真逼真的人脸模型。然而，驱动这些真实的人脸模型需要特殊的输入数据，例如。3D网格和展开纹理。此外，这些面部模型期望在受控实验室环境下获得干净的输入数据，这与在野外收集的数据非常不同。所有这些限制使得在商品相机的跟踪中使用高保真模型具有挑战性在本文中，我们提出了一个自我监督的域适应方法，使动画的高保真人脸模型从商品相机。我们的方法首先通过训练一个新的网络来规避对特殊输入数据的要求，该网络可以直接从单个2D图像驱动人脸模型然后，我们克服了实验室和不受控制的环境之间的域不匹配，通过执行基于“连续帧纹理一致性”的自监督域自适应，实验表明，我们能够驱动一个高保真的人脸模型来执行复杂的面部运动从手机摄像头，而不需要任何标记的数据从新的域。1. 介绍高保真人脸模型可以构建逼真的化身，这在交流想法，思想和情感方面发挥着关键作用。由于数据驱动方法的兴起，可以使用活动外观模型（AAM）[6，5] 、 3D 变形模型（ 3DMM ） [1] 或深度外观模型（DAM）[12]创建高度逼真和详细的面部这些数据驱动的方法共同对面部几何形状和外观进行建模，从而使模型能够学习两者之间的相关性并合成高质量的面部图像。特别地，最近提出的DAM可以通过利用深度神经网络的高容量来建模和生成具有孔隙级细节的逼真动画和视图相关纹理不幸的是，障碍存在时，将这些高质量的模型应用到单目在野外图像，由于模态失配和域失配。模态不匹配是指高保真人脸建模和跟踪需要专门的输入数据，（例如。DAM需要跟踪的3D网格和展开的纹理），这在消费级移动捕获设备上是不容易访问的域不匹配是指野外图像的视觉统计数据与用于构建高保真人脸模型的受控实验室环境的视觉统计数据有很大不同。在野生图像包括变量-4602复杂的背景杂乱、低分辨率和复杂的环境照明。这种域间隙破坏了由数据驱动模型学习的外观和几何形状之间的相关性，并且模型可能不再在新的域中良好地工作。这两个挑战的存在极大地阻碍了高保真人脸模型的广泛应用。在本文中，我们提出了一种方法来执行高保真人脸跟踪单目在野外图像的基础上DAMs人脸模型从实验室控制的图像。我们的方法桥接了受控实验室域和野外域，使得我们可以在野外视频摄像机序列上使用DAM人脸模型执行高保真人脸跟踪。为了解决模态不匹配问题，我们训练了I2ZNet，这是一种深度神经网络，它将单目图像作为输入，并直接回归到DAM的中间表示，从而避免了DAM中需要的3D网格和展开纹理。由于I2ZNet依赖于在实验室环境中捕获的数据，并且无法处理域不匹配，因此我们提出了一种自监督域自适应技术，该技术可以使I2ZNet适应新的环境，而不需要来自新域的任何标记数据我们的方法利用了连续帧之间人脸的纹理（外观）应该一致的假设，并引入了这种监督来源，以适应I2ZNet的域，从而使最终跟踪结果在目标域图像上的连续帧上保持一致的纹理，如图1所示。由此产生的人脸跟踪器在几何精度、时间稳定性和视觉可扩展性方面优于最先进的人脸跟踪方法。这种方法的关键优势在于，我们不对野外图像的场景或照明进行此外，我们的方法计算纹理的所有可见部分的consideration，从而提供比基于每个顶点的方法更多的监督和有用的梯度[19，7]。最后，我们强调，连续帧纹理一致性假设是不简单的正则化，以避免过拟合。这种配置提供了额外的监督来源，使我们的模型能够适应新的环境，并实现准确性和稳定性的显著提高。总之，本文的贡献如下：1. I2ZNet是一种深度神经网络，可以直接从单个图像预测DAM的中间表示。2. 一种基于连续帧纹理一致性的自监督域自适应人脸跟踪方法。来自目标域的图像不需要标记数据。3. 对使用商用相机捕获的野外视频进行高保真3D人脸跟踪。2. 相关工作人类进化到解码，理解和传达来自面部运动的非语言信息，可以容易地检测到细微的非自然眨眼、对称性和相互响应。因此，面部运动的逼真渲染是实现远程呈现技术的关键[12]。本文主要研究单目摄像机的高逼真度人脸建模和三维人脸重建之间的交叉点，并在此作简要介绍。3D人脸建模人脸具有潜在的空间结构模式，其中低维嵌入可以有效且复杂地表示不同的面部配置、形状和纹理。主动形状模型（ASM）[6]已经显示出强大的表达能力和灵活性，通过杠杆老化一组面部标志来描述各种面部配置。然而，稀疏地标依赖性的性质限制了从根本上受地标局部化限制的重建AAM [5]通过利用形状和纹理的光度测量来解决限制，从而实现引人注目的面部跟踪。通过基于光流结合线性子空间中的形状和纹理先验来计算密集对应，将各个面部组合成单个3DMM [1]。来自不同人群的大规模面部扫描（超过10，000人）可以对面部的准确分布进行建模[3，2]。在多相机系统和深度神经网络的帮助下，可以使用预测高质量几何形状和纹理的DAM [12]来克服线性模型的局限性。它的潜在表示是通过一个条件变分自动编码器[11]学习的，该编码器从不同的视角编码依赖于视图的外观。我们的方法消除了多摄像头的DAMs的要求，适应-ING网络从单目摄像头的视频。单视图人脸重建3D人脸建模的紧凑表示的主要好处是它允许从单视图图像估计人脸形状、外观和照明参数。例如，3DMM的潜在表示可以通过联合优化像素强度、边缘和照明（通过球谐函数近似）来恢复[16]。重新覆盖的3DMM可以使用照片集合[17]或基于深度的相机[4]进一步细化以适应目标面部。[20]利用专家设计的渲染层，其对面部形状、表情和照明进行建模，并利用逆渲染来估计一组紧凑的参数，其渲染最适合输入的面部。这通常是一种简化，不能模拟所有情况。相比之下，我们的方法没有对场景的照明做任何显式的解释，从而对不同的环境实现了更大的灵活性。4603˜错误：模态失配和域失配。当现有面部模型要求输入数据以面部为中心的表示（诸如具有预定义拓扑中的展开纹理的3D网格）来表示时，这种表示不符合以图像为中心的表示，从而阻止我们使用这些人脸模型。当野外图像的视觉统计与用于构建模型的场景的视觉统计不同时，发生域失配。在下面的部分中，我们首先介绍了I2ZNet的模态不匹配，然后描述了如何适应I2ZNet在一个自我监督的方式域不匹配。：功能串联压缩机损失1.1. 处理模态不匹配包括DAM在内的许多面部模型都可以被视为图2：I2ZNet架构的图示I2ZNet分别使用预训练的VGGNet [18]和HourglassNet [13]从输入图像I中提取域不变的感知特征和面部图像特征。然后，组合的多个深度级特征通过完全连接的层回归到预训练的DAM（D）[12]的潜在代码z和头部姿势H。I2ZNet使用针对z和H定义的损失（即Lz和LH）以及等式中的视图一致性损失进行训练。（四）、其他方法包括[9，26]，其使用级联CNN，其基于面部标志以迭代方式将3DMM与2D面部密集对齐。3D面的几何形状以从粗到细的方式回归[15]，并且不对称损失强制网络回归身份一致的3D面[21]。[19]利用联合学习的几何学和反射率校正来拟合野生面部。[8]训练的UV回归图，与3DMM联合对齐，直接重建3D人脸。解决领域不匹配一个关键的挑战是训练数据和测试数据的分布之间经常存在巨大的差距。为此，[14，21]利用合成数据来提高3D人脸重建性能。这里的一个挑战是生成代表测试分布的合成数据[7]利用域不变运动线索来执行用于面部地标跟踪的无监督域自适应。虽然他们的方法在稀疏地标上进行了测试，并受益于有限的监督来源，但我们的方法执行纹理的密集逐像素匹配，为域适应提供更多监督3. 方法当将现有的人脸模型，如AAM和DAM应用于单目视频记录时，我们面临两个挑战，编码器和解码器框架。编码器EX采用输入X =（G，T ），其分别对应于几何结构和展开的纹理。G∈RG×3表示G个顶点的3D位置，这些顶点形成3D网格，脸上注意，刚性头部运动已经从顶点位置中删除，即。G仅代表面部的局部变形展开纹理T∈RT×T×3是一个二维图像，它表示UV空间中G上不同位置的外观EX的输出是中间码z.解码器D然后取z并计算重构输出X=D（z）=D（EX（X））。编码器和解码器是通过最小化大量训练样本的X和X的差值来学习的。挑战在于X=（G，T），即，3D几何形状和展开的纹理在单色图像I中不容易获得。因此，我们学习了一个单独的深度编码器，称为I2ZNet（图像到z网络）：（z，H）←EI（I），它将单目图像I作为输入，并直接输出z和刚性头部姿势H。 I2ZNet首次提取使用预训练的VGGNet [18]和HourglassNet [13]的域独立双流特征，分别提供感知信息和面部标志。将多个深度级双流特征与跳跃连接相结合，并分别进行回归。使用几个全连通层[23]，将中间表示z∈R128和头部姿态H∈R6该架构允许直接预测页面-参数（z，H），同时基于来自深层的类别级语义信息和来自浅层的局部z可以被给予现有解码器D以解码3D网格和纹理，而H允许将解码的3D网格重新投影到2D图像上。图2说明了I2ZNet的总体架构，更多细节在补充手稿中描述。EI是以多视图图像序列的有监督方式训练的。LVGGNet不D沙漏网L界标重投影FCFC4604��−1T−1EIDT−1��−1帧��− 1框架框架��−1��−1L CFTCL 交通部TEIDT沙漏网L FLRCK 2DK2我我˜˜2DHKtvtvGT2=λ用于训练DAM的EX和D的序列学习EX和D的副产品是每个时间的潜在代码zgt和头部姿势Hgt作为DAM训练的结果，我们在每个时间t获取与相机视图{v}一样多的{Iv，zgt，Hgt}的元组作为EI的训练数据。列车EI的总损失定义为：我 =λzLz+λHLH+λviewLview，（1）其中Lz和LH分别是z和H的损失，Lview是视图一致性损失。λz、λH和λview分别是Lz、LH和Lview的权重Lz是z的直接监督项，定义为：L=zt−zt<$2，（2）zIvv，tGT2其中zI是从I经由EI回归的DAM潜在代码。受[19，10]的启发，我们将LH公式化为通过EIw.r.t.预测的3D地标的重投影误差。用于头部姿态预测的2D地面实况界标Kgt∈RK×2L=1HKk（G）−K，（3）k，v，t图3：我们的自监督域适配器概述-过程。给定两个连续帧（It-1，It），我们其中K是界标的数量，k=[1 0 0; 0 1 0]是一个弱透视投影矩阵，HI是头部运行EI，然后运行D，以获取几何（Gt−1，Gt）、纹理（Tt−1，Tt）和头部姿势（Ht−1，Ht）。那我，t−1通过I2ZNet从I回归姿势GI是顶点的集合G和H用于计算观察到的纹理（T，不Kk（·）计算来自G1的第k个地标的3D位置。因为训练图像数据是用同步相机捕获的，所以我们想要确保回归的z对于来自同时捕获的不同视图的图像是因此，我们引入视图一致性损失L视图，定义为T）。这些使我们能够计算LCFTC和LMOTC。对于帧t，我们运行沙漏面部地标检测器以获得2D地标位置Kt，然后将其用于计算LFLRC。这些损失可以将梯度反向传播回E1以执行自监督域自适应。其中λCFTC、λMOTC和λFLRC对应于权重L视图= Σ¨zIt−zIt¨.（四）每一个损失的期限。 LCFTC是我们的主要贡献。它适配使得从预测的几何结构计算的纹理是v w2v，w，t我们在每次训练迭代中随机选择两个视图1.2. 处理域不匹配为了处理域不匹配，我们以自监督的方式使用一组未标记的图像使I2ZNet适应新的域所提出的域自适应的概述如图3所示。给定单目视频，我们通过最小化域自适应损失L_DA来细化编码器E_I（等式2）。（5）），其由（1）连续帧纹理一致性LCFTC、（2）模型到观察纹理一致性LMOTC和（3）面部标志重投影一致性LFLRC组成：时间相干LMOTC通过逐像素匹配使DAM生成的纹理与观察到的纹理的颜色一致LFLRC通过最小化3D模型界标与检测到的面部界标的重投影误差来锚定跟踪的3D面部。1.2.1连续帧纹理一致性受许多光流算法中采用的亮度恒定性假设的启发，我们可以合理地假设，只有当两帧的展开纹理几乎相同时，两个连续帧的3D人脸跟踪才是当然，如果我们在连续帧中看到展开纹理的大变化，很可能是由于不准确的3D几何预测。我们做的是-不DACFTC不CFTC +λMOTC不交通部+λFLRC不FLRC 、（五）设想环境照明和外观脸部在连续的展开纹理（−1，�� −1，−1）��2LLLL4605��−1应用头部pose��−1T−1��00框架−1��−1��帧t��−1T−T−1��应用头部摆姿势T0��⊙��−10˜˜2D¨W˜2EID野外影像预测纹理T颜色校正渲染化身预测几何结构+头部姿势C（T）图5：测试阶段的拟定方法。变化因此，我们将额外的网络T←C（T）转换预测纹理的颜色图4：如何计算LCFTC的说明。帧，这在大多数情况下都能满足。否则，我们不对新场景的照明环境做出任何假设，这使得我们的方法比现有方法更通用，例如，用球谐函数近似照明[19]。与当前观察到的纹理一致。C（T）也是学习的，由于训练数据有限，我们学习一个1乘1卷积滤波器，它可以被视为颜色校正矩阵，并校正两个纹理之间的白平衡。模型到观测纹理一致性（MOTC）被公式化为连续帧纹理一致性损失L是：2t1？t.~t.t2t1？tt−1CFTCtLMOTC=Wt？Wt？T−CT--（八）LCFTC=Wt，t−1？（W）（其中W∈RT×T是置信矩阵，T）的情况下，F（六）是一个tex-3.2.3面部标志重投影一致性这种损失强制3D网格上与界标位置相对应的稀疏顶点集保持一致通过用HI将GI投影到I上而获得的结果，并且是逐元素乘法。我们使用从相机中心到每个纹素的光线入射角作为降低纹理失真影响的置信度2D地标预测。给定K个面部标志，面部标志重投影一致性（FLRC）损失被公式化为：是由掠射角引起的小于阈值的元素t1k，t不k té在Wt中的旧值Wt−1设为0。 Wt，t−1是Wt<$Wt−1中的非零元素。图4显示示例LFLRC=K<$K2D−HI K（GI）<$K、（9）置信矩阵和纹理以及计算L CFTC。通过将从z解码的每个纹素的3D位置投影到观察图像I来获得T。Tij=I（HIX（GI，i，j）），（7）其中（i，j）是纹理坐标。与计算逐顶点纹理损失的现有方法不同[19，7]，LCFTC考虑了所有可见的纹素，提供了比基于逐顶点的方法更丰富的监督和梯度上述步骤都是可区分的，因此整个模型可以以端到端的方式更新3.2.2模型-观测纹理一致性这种损失迫使预测的纹理T匹配在图像T中观察到的纹理。虽然这类似于[ 19 ]中使用的光度损失，但我们技术中的挑战是上述域不匹配：主要由于照明条件，T可能与T显著不同其中Kk，t是第k个检测到的2D界标的位置1.3. 测试阶段图5描绘了我们的网络的测试阶段期间所需的步骤，这只是通过自适应EI和估计的颜色校正函数C的前馈传递。注意，不再需要T和界标检测。因此，除了额外的颜色校正之外，网络的时序仍然与原始网络完全相同，这本身就是简单而快速的。4. 实验为了证明我们提出的自监督域自适应方法对高保真3D人脸跟踪的有效性，我们进行了定量和定性分析。虽然定性分析相对简单，但用于评估跟踪结果的准确性和稳定性的定量分析需要高分辨率2T −T4606Gt+1ttt−1<$G<$−G我i=1我我20 40 60 80 100 120140帧具有地面实况3D网格的野外视频数据集，不幸的是，难以收集，因为扫描高质量3D面部扫描通常需要处于具有受控设置的特殊实验室环境中因此，最近的3D人脸跟踪方法（如[19，20]）的定量分析仅限于静态图像数据集[4]或在受控环境中拍摄的视频序列[22]。因此，鉴于上述限制，我们收集了一个新的数据集，并设计了两个指标，用于定量评估3D人脸跟踪性能。评估指标：我们采用两个指标，准确性和时间稳定性，在表1中分别表示为“重投影”和“时间”为了准确性，由于我们没有野外数据的地面真实3D网格，我们利用平均2D地标重投影误差作为预测3D几何形状准确性的代理。首先，将对应于2D地标的3D点投影到2D中，然后计算重新投影的点与地面真实2D点之间的欧几里得距离。对于时间稳定性，我们提出了一个平滑度度量，表1：对野生数据集的评价。“Ours w/o受试者1受试者2主题3主题4平均时间1.51971.29511.82061.35591.4978HPEN重投影8.80755.547513.382310.46889.5515时间1.55031.45001.86081.51391.59383DDFA重投影14.117110.256821.507718.164716.011时间1.55511.37011.57001.49731.4981PRNet重投影8.48677.252214.0529.65869.8624我们时间1.41061.24761.83221.41691.4768不含DA重投影6.21717.491410.92259.59538.5566我们时间1.36241.32741.65831.1321.3700带LFLRC重投影5.75586.98210.12587.52307.5960时间1.12991.04981.29341.09151.1412我们重投影5.56896.72819.60157.13687.258843格-格2+G−G1i i2i i2Gt+1t− 1、（10）1其中Gt对应于顶点i在时间的3D位置t.该度量假设3D网格的顶点应该在三个帧的过程中沿直线移动，因此不稳定或抖动的预测将导致更高（更差）的分数。最低（最佳）指标得分为1。数据集收集和注释：我们在野外记录了四种不同身份的1920×1080分辨率面部表现数据。录音环境-包括室内、室外、平面背景和各种光照条件下的杂乱为4个身份中的每一个注释150帧面部表现数据。对于每个帧，我们在人的面部上注释之所以选择这些点，是因为我们的域自适应方法已经针对面部标志再现一致性进行了优化，因此我们的评估指标应该使用一组单独的标志进行评估。因此，我们专注于注释显著的个性化地标，例如人脸上的粉刺或痣通过这种方式，我们的注释使我们能够在没有通用面部标志的区域中测量跟踪性能，并提供更准确的跟踪性能测量。实现细节：首先从在一个多视图图像中捕获的所有四个身份创建DAM [12图6：受试者4的时间稳定性图。请注意，稳定性分数越小，结果越稳定。我们的I2ZNet针对每个身份进行了新的训练。我们提出的自我监督的主适应方法，然后应用到视频的四个身份在不同的照明和背景环境。对于DAM，展开的纹理分辨率为T=1024，几何体具有G=7306个顶点。我们使用随机梯度下降（SGD）来训练I2ZNet。面部被裁剪并调整为256×256图像，给我。在自监督域自适应期间，相关参数设置为λCFTC=100，λMOTC=100，λFLRC=1。4.1. In the wild数据集我们将我们的方法与三个最先进的基线进行比较：HPEN [25]：基于标志的3DMM拟合，3DDFA [24]：基于标志和密集对应的3DMM拟合，PRNet [8]：基于直接深度回归图的3DMM拟合。除3DDFA（100×100）外，系统输入图像大小为256×256。我们还添加了我们的方法，没有域自适应（我们的w/o DA），只有面部标志重投影一致性（我们的w/LFLRC）。如表1所示，所提出的局部适应一致地提高了我们的模型没有域适应所有4个子，HPEN我们3DDF不含PRNet我们时间稳定性24607输入HPEN 3DFA PRNet我们的不含DA我们图8：野外视频的3D人脸跟踪可视化。对于每个输入图像，我们在右下角显示覆盖在面部顶部的预测几何形状，以及预测颜色校正的面部。我们的方法正确地预测了这个人图7：与基线方法的定性比较。对象。在稳定性方面，所提出的域自适应方法使我们的模型相对提高了22%。特别地，我们能够实现受试者2的1.05稳定性评分，其接近最低可能的稳定性评分（1.0）。这证明了我们所提出的方法的有效性。对于其他基线，我们的模型在没有主适应的情况下在几何学方面已经优于它们。这可能是因为我们的模型是用许多对（I，H，z）训练数据进行预训练的，而基线是开箱即用的。但另一方面，包括我们的w/o DA在内的所有基线在稳定性方面表现相似（在 1.45-1.60 之间），但我们的域自适应方法能够将其提高到1.14，这清楚地表明了我们方法的有效性。图6可视化了单个序列的所有不同方法的时间稳定性度量。我们的方法具有一贯更好的（即，小）的稳定性得分比所有其他方法的几乎所有的帧，并证明了不仅有效性，而且在野生序列的可靠性和鲁棒性，我们的方法。图7显示了与基线的定性比较。总体而言，我们的面部跟踪结果最接近输入面部配置，特别是眼睛和嘴巴。例如，在第二行中，基线错误地预测人关门了我们还可以清楚地看到我们的颜色校正方法的有效性图8显示了我们在野外的人脸跟踪结果的可视化。我们的方法是能够跟踪复杂的运动，在许多不同的背景，头部姿势和照明条件下，很难近似球谐函数，如硬阴影。我们的方法也能够适应当前场景的白平衡。注意，对于大多数情况，也跟踪注视方向。4.2. 消融研究为了更深入地了解我们的模型，我们进行了以下烧蚀实验。4.2.1I2ZNet结构评估为了验证回归网络上每个组件的性能增益，我们将I2ZNet与三个基线网络进行比较：VGG +Skip+Key表示I2ZNet，它使用VGGNet，多级功能（跳过连接）和HourglassNet的地标。VGG+跳过：标志引导被删除。VGG：进一步删除多级特征（跳过连接），仅使用深度特征进行回归。VGG Scratch与VGG具有相同的结构，但它是从头开始训练的。对于使用VGG的其他设置，使用预训练的VGG-16特征，并且4608纹理几何时间表2：I2ZNet上的消融测试。报告所有受试者的平均分数VGG ScratchVGGVGG+跳过VGG+跳过+键几何1.0111.4810.4110.315纹理0.0160.0270.0070.004时间2.1433.1381.4991.446VGG Scratch VGG VGG+跳过 VGG+跳过+键1.13110.01642.35401.50780.02162.73940.49130.00711.64420.29050.00441.57820.15<0二点五<150 75 100 125 150 175 200 225输入分辨率图10：各种输入分辨率下性能退化的消融研究根据使用相对重投影误差度量的分辨率的性能降级。通过将来自不同分辨率图像的估计几何结构的2D重投影顶点位置与黄金标准几何结构的2D重投影顶点位置进行比较来计算相对重投影误差，使用最高图像分辨率256×256时获得的几何形状。图10显示了结果。直到175×175，我们实现的平均误差小于4像素误差，但每-图9：使用代表性受试者在I2ZNet上进行的消融测试顶点误差与受试者1的相关平均评分一起可视化。网络的VGG部分在训练期间不更新模型在看不见的测试数据集上进行测试，其中顶点密集地面实况可用。采用三种度量来评估性能：（1）通过预测的3D顶点与地面实况3D顶点之间的欧几里德距离来计算几何的准确性，（2）通过预测的纹理与地面实况纹理之间的像素强度差来计算纹理的准确性10个。关于四个测试受试者的平均分数报告在表2中，并且代表性的受试者结果在图9中可视化。我们观察到，多级特征（VGG+Skip）显著提高了VGG的性能，而添加关键点（VGG+Skip+Key）进一步提高了性能。VGG似乎缺乏仅用未更新的预训练深度特征直接回归潜在参数的能力。更多的消融研究（例如，在补充手稿中描述了I2ZNet上的视图一致性和对合成视觉扰动的鲁棒性测试。4.2.2图像分辨率裁剪图像的分辨率对人脸跟踪的准确性起着关键作用。在这个实验中，我们量化了分辨率越小，分辨率越低。4.3. 限制所提出的方法有两个主要局限性。第一个限制是，我们的方法假设要跟踪的人已经存在特定于人的DAM，因为我们的方法将DAM作为输入。第二个限制是我们的MOTC颜色校正无法处理复杂的照明和镜面反射。例如，在图8的第一行第一图像中，面部的一部分由于太阳而更亮，但是由于我们仅具有用于颜色校正的全局颜色校正矩阵，因此太阳5. 结论我们提出了一种深度神经网络，它可以从单个图像及其自监督域自适应方法预测高保真3D人脸模型的中间表示和头部姿态，从而实现了野外单目视频的高质量面部性能跟踪。我们的域自适应方法利用了两个连续帧上的人脸纹理不应该发生剧烈变化的实验结果表明，该方法不仅提高了人脸跟踪的精度，而且提高了跟踪的稳定性。1.5<0161282564重投影误差4609引用[1] Volker Blanz和Thomas Vetter。用于合成3D面的可变形在proc ACM SIG-GRAPH，第187-194页，1999年。一、二[2] James Booth，Epameinondas Antonakos，StylianosPloumpis ， GeorgeTrigeorgis ， andYannisPanagakis and Stefanos Zafeiriou. 3D面部变形模型“在野外”。在Proc. CVPR，2017中。2[3] JamesBooth 、 AnastasiosRoussos 、 AllanPonniah、David Dunaway和Stefanos Zafeiriou。大型3D变形模型。IJCV，126（2-4）：233-254，2018. 2[4] 曹晨、翁彦林、周顺、童一英、周坤。FaceWarehouse：一个用于视觉计算的三维人脸表情数据库。IEEE TVCG，20（3）：413-425，2014年。二、六[5] Timothy F Cootes，Gareth J Edwards，and Christo-pher J Taylor. 活动外观模型。 IEEE TPAMI ，（6）：681-685，2001. 一、二[6] Timothy F Cootes，Christopher J Taylor，David HCooper，and Jim Graham.主动形状模型的训练与应用。CVIU，61（1）：38-59，1995. 一、二[7] Xuanyi Dong ， Shouou-I Yu ， Xinshuo Weng ，Shih-En Wei，Yi Yang，and Yaser Sheikh.注册监督：一种提高面部标志检测器精度的无监督方法在proc CVPR，2018年。二三五[8] Yao Feng ， Fan Wu ， Xiaohu Shao ， YafengWang，and Xi Zhou.结合位置映射回归网络进行三维人脸重建和密集在procECCV，2018年。三、六[9] László A Jeni，Jeffrey F Cohn，and Takeo Kanade.从2D视频进行密集的3D人脸对齐，以供实时使用。图像视觉计算。，58（C）：13-24，2017. 3[10] 作者：Michael J.作者：David W.贾-科布斯和吉坦德拉·马利克。人体形态和姿势的端到端恢复。在Proc. CVPR，2018中。4[11] 迪德里克山口金玛和麦克斯·威林自动编码变分贝叶斯。InProc. ICLR，2014. 2[12] 斯蒂芬·隆巴迪托马斯·西蒙杰森·萨拉吉和亚瑟·谢赫深层外观模型的脸rendering。ACM TOG，37（4），2018年。一、二、三、六[13] Alejandro Newell，Kaiyu Yang，and Jia Deng.用于人体姿态估计的堆叠沙漏网络。在Proc. ECCV，2016中。3[14] Elad Richardson Matan Sela和Ron Kimmel通过从合成数据中学习进行三维人脸重建在Proc.3DV，2016中。3[15] Elad Richardson 、 Matan Sela 、 Roy Or-El 和 RonKimmel。从单个图像学习详细的面部重建。在Proc. CVPR，2017中。3[16] Sami Romdhani和Thomas Vetter使用像素强度、边缘、镜面高光、纹理约束和先验估计3D形状和纹理在procCVPR，2005年。2[17] Joseph Roth，Yiying Tong，and Xiaoming Liu.无约束照片集的自适应三维人脸重建。在Proc.CVPR，2016中。2[18] Karen Simonyan和Andrew Zisserman用于大规模图像识别的深度卷积网络InProc. ICLR，2015. 3[19] AyushTewari 、 MichaelZollhöfer 、 PabloGarrido 、 Flo- rian Bernard 、 Hyeongwoo Kim 、Patrick Pérez和Christian Theobalt。自监督多级人脸模型学习，用于250 Hz以上的单眼重建。在Proc. CVPR，2018中。二三四五六[20] Ayush Tewari ， Michael Zollhöfer ， HyeongwooKim ， Pablo Garrido ， Florian Bernard ， PatrickPérez，and Christian Theobalt. MoFA：用于无监督单目重建的基于模型的深度卷积人脸自动编码器InProc. ICCV，2017. 二、六[21] Anh Tuan Tran，Tal Hassner，Iacopo Masi，andGérard Medioni.使用深度神经网络回归鲁棒和有区别的3D变形模型在Proc. CVPR，2017中。3[22] Levi Valgailles ， Chenglei Wu ， Andrés Bruhn ，Hans- Peter Seidel，and Christian Theobalt.轻便的双目面部表演捕捉 uncontrolled 照明下。 ACMTOG，31（6）：187-1，2012. 6[23] Jae Shin Yoon、Francois Rameau、Junsik Kim、Seokju Lee、Seunghak Shin和In So Kweon。使用卷积神经网络的视频对象分割像素级匹配。InProc. ICCV，2017. 3[24] Xiangyu Zhu ， Zhen Lei ， Xiaoming Liu ， HailinShi，and Stan Z.李跨大姿势的面部对齐：3D解决方案。在Proc. CVPR，2016中。6[25] Xiangyu Zhu，Zhen Lei，Junjie Yan，Dong Yi，and Stan Z.李用于野外人脸识别的高保真姿势和表情归一化在procCVPR，2015年。6[26] Xiangyu Zhu，Xiaoming Liu，Zhen Lei，and StanZ.李全姿态范围内的面部对齐：3D全方位解决方4610案。IEEE TPAMI，2019。3

下载后可阅读完整内容，剩余1页未读，立即下载