无监督学习从图像到3D人脸形状和表情的方法——RingNet

73 浏览量更新于2023-10-19 收藏 1.19MB PDF 举报

图像回归

无监督学习

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7763学习从图像回归3D人脸形状和表情而无需3D监督Soubhik Sanyal Timo Bolkart冯海文Michael J.黑色感知系统部马克斯·普朗克智能系统{soubhik.sanyal，timo.bolkart，haiwen.feng，black}@ tuebingen.mpg.de图1：没有3D监督，RingNet学习从单个图像的像素到FLAME模型的3D面部参数的映射[21]。上图：图像来自CelebA数据集[22]。下：估计的形状，姿势和表情。摘要从单个图像估计3D人脸形状必须对照明、头部姿势、表情、面部毛发、化妆和遮挡的变化具有鲁棒性。鲁棒性需要大量的野外图像训练集，这些图像缺乏真实的3D形状。培养一个没有任何2D到3D监督的网络，我们提出了RingNet，它可以从单个图像中学习计算3D人脸形状。我们的关键观察是，无论表情、姿势、照明等如何，个体RingNet利用一个人的多个它使用了一种新颖的损失，鼓励脸的形状是相似的，当身份是相同的和不同的人。我们通过使用FLAME模型表示人脸来实现表情的不变性。训练完成后，我们的方法将获取单个图像并输出FLAME的参数，这些参数可以很容易地进行动画处理。此外，我们创建了一个新的面部数据库“不太野外”（NoW）与3D头部扫描和高分辨率图像的主题在各种条件下。我们评估了公开的方法，发现RingNet比使用3D监督的方法更准确。数据集、模型和结果可在 www.example.com 上获得http://ringnet.is.tuebingen.mpg.de。1. 介绍我们的目标是从一个人的单个图像中估计3D头部和面部形状。与以前的方法相比，我们感兴趣的不仅仅是面部周围的一个紧密裁剪的区域。相反，我们估计完整的3D面部，头部和颈部。这种表示对于VR/AR、虚拟眼镜试穿、动画、生物识别等应用是必要的。此外，我们寻求一种表示，捕捉3D面部表情，因素面部形状的表达，并可以休息和动画。虽然在计算机视觉文献中已经提出了许多方法来解决面部形状估计的问题[40]，但没有以前的方法解决我们的所有目标。具体来说，我们训练了一个神经网络，它直接从图像像素回归到3D人脸模型的参数。在这里，我们使用FLAME [21]，因为它比其他模型更精确，捕捉各种形状，对整个头部和颈部建模，可以轻松地制作动画，并且可以免费获得。然而，训练一个网络来解决这个问题是具有挑战性的，因为几乎没有3D头部/面部的配对数据以及人的自然图像。对于成像条件、姿势、面部毛发、相机噪声、照明等的鲁棒性，我们希望从大量的野外图像中进行训练。根据定义，这样的图像缺乏受控的地面实况3D数据。这是计算机视觉中的一个普遍问题77642D训练数据很容易，但当成对的3D训练数据非常有限且难以获取时，学习从2D回归3D是困难的如果没有地面实况3D，有几个选项，但每个都有问题。合成训练数据通常无法捕捉真实世界的复杂性。人们可以将3D模型拟合到2D图像特征，但是这种映射是模糊的，因此是不准确的。由于模糊性，仅使用观察到的2D和投影的3D之间的损失来训练神经网络[17]）。为了解决缺乏训练数据的问题，我们提出了一种新的方法，该方法在没有任何监督的2D到3D训练数据的情况下学习从像素到3D形状的映射。为此，我们仅使用OpenPose自动提取的2D面部特征来学习映射[29]。为了使这成为可能，我们的关键观察是，同一个人的多个图像对3D面部形状提供了强约束，因为形状保持不变，尽管其他事情可能会发生变化，例如姿势，照明和表情。FLAME因素构成和形状，允许我们的模型学习什么是恒定的（形状），并分解出什么变化（姿势和表情）。虽然人脸形状对于图像中的个体来说是恒定的，但我们需要定义一种训练方法，让神经网络利用这种形状恒定性。为此，我们引入了RingNet。RingNet拍摄一个人的多张图像，并强制要求所有图像对之间的形状应该相似，同时最大限度地减少观察到的特征和投影的3D特征之间的2D误差。虽然这鼓励网络以类似的方式对形状进行编码，但我们发现这还不够。我们还将属于不同随机人的脸添加到“环”中，并强制环中所有其他图像之间的潜在空间中的距离大于同一人之间的距离。类似的想法已经被用于流形学习（例如，三重丢失）[37]和面部识别[26]，但是，据我们所知，我们的方法还没有被预先用于学习从2D到3D几何的映射。我们发现，从三重态到更大的环，对学习精确的几何形状至关重要。当我们使用一个人的多个图像进行训练时，请注意，在运行时，我们只需要一个图像。有了这个公式，我们能够训练一个网络，直接从图像像素回归FLAME因为我们用“野外”图像训练它，所以网络在各种条件下都是鲁棒的，如图所示。1.一、然而，该方法更通用，并且可以应用于其他2D到3D学习问题。评估3D人脸估计方法的准确性仍然是一个挑战，尽管已经公布了许多方法，但在广泛的成像条件，姿势，照明和遮挡下，没有严格的3D准确性比较。为了解决这个问题，我们收集了一个图2：NoW数据集包括在不同条件下拍摄的各种图像（顶部）和高分辨率3D头部扫描（底部）。深蓝色区域是我们考虑的面部挑战部分。一个名为NoW（Not quite in the Wild）的新数据集，具有高分辨率的地面真实扫描和在一系列条件下拍摄的100个主题的高质量图像（图1）。2）的情况。NoW比以前的数据集更复杂，我们用它来评估所有最近的方法与公开可用的implementations。具体来说，我们与[34]，[35]和[9]进行比较，这些都是用3D监督训练的尽管没有任何2D到3D的监督，我们的RingNet方法可以恢复更准确的3D人脸形状。我们还评估了具有挑战性的野生人脸图像的方法定性。本文的主要贡献在于：（1）从单幅人脸图像重建出完整的人脸、头颈部。(2)RingNet -一个（3）提出了一种新的形状一致性损失算法，用于从二维输入中学习三维几何。(4)NoW(5)最后，我们将模型、训练代码和新数据集免费用于研究目的，以鼓励定量比较[25]。2. 相关工作有几种方法可以解决从图像中估计3D人脸的问题。一种方法估计深度图、法线等;也就是说，这些方法产生与像素相关但专门用于面部的对象形状另一种方法估计可以被动画化的3D形状模型。我们专注于后一类的方法。在最近的一篇研究论文中，Zoll hoferetal. [40]描述了单眼面部重建的现有技术，并提供了该领域的一组前瞻性挑战注意，监督、弱监督和无监督方法之间的界限是模糊的。大多数方法都使用某种形式的3D形状模型，这些模型是预先从扫描中学习的;我们在这里不称之为监督这里，术语监督意味着使用成对的2D到3D数据;这可能来自真实数据或合成数据。如果3D模型首先被优化以适应2D图像特征，那么我们7765假设这使用2D到3D监控。如果使用2D图像特征，但在训练网络时没有3D数据，则这通常是弱监督的，并且相对于2D到3D任务是无监督的。定量评价：方法之间的定量比较受到缺乏具有复杂图像和高质量地面实况的常见数据集的限制。最近，Feng et al.[10]组织了一个单一的图像到3D面部重建的挑战，他们提供了地面真实扫描的主题。我们的NoW基准是对这种方法的补充，因为它的重点是极端视角，面部表情和部分遮挡。最佳化：大多数现有方法需要紧密裁剪的输入图像和/或仅重建现有形状先验适合的面部的紧密裁剪区域。当前大多数形状模型都是原始Blanz和Vetter 3D变形模型（3DMM）的派生模型[3]。虽然这个模型有很多变化和改进，如[13]，但我们使用FLAME[21]这是因为形状空间和表情空间都是从比其他方法更多的扫描中训练出来的只有FLAME包括形状空间中的颈部区域，并对头部旋转时颈部的姿势相关变形进行建模。紧密裁剪的面部区域使得头部旋转的估计模糊不清。直到最近，这一直是占主导地位的范例[2，30，11]。例如，Kemelmacher-Shlizerman和Seitz [18]使用多图像着色来从图像集合中重建，从而允许视点和形状的变化。Thies等人[33]在单目视频序列上实现准确的结果。虽然这些方法可以实现高真实感的良好结果，但它们在计算上是昂贵的。学习3D监督：深度学习方法正在迅速取代基于优化的方法[35，39，19，16]。例如，Sela et al.[27]使用合成数据集来生成图像到深度映射和像素到顶点映射，它们被组合以生成面部网格。Tran等人。[34]直接用密集网络回归人脸模型的3DMM参数。他们的主要想法是使用同一对象的多个图像然后，他们对拟合的网格进行加权平均，将其用作训练网络的基础事实。Feng等人[9]从图像回归到UV位置图，该UV位置图记录了3D人脸的位置信息，并提供了与UV空间上每个点的语义含义的密集所有上述方法都使用某种形式的3D监督，如合成渲染， 3DMM的基于优化的拟合，或3DMM生成UV图或体积表示。基于拟合的方法都不能为真实世界的人脸图像产生真实的地面实况，而合成生成的人脸可能无法很好地推广到真实世界[31]。依赖于拟合3DMM的方法使用2D-3D对应关系来创建伪地面实况的图像总是受到3DMM的表现力和拟合过程的准确性的限制学习弱3D监督：森古普塔等人[28]学习通过使用合成渲染图像和真实图像的混合来模拟朗伯渲染过程。他们的工作与紧密裁剪的脸，不生成一个可以动画化的模型。Genova等人[12]提出了一种使用可重构渲染过程的端到端学习方法。他们还使用合成数据及其相应的3D参数训练编码器Tran和Liu[36]通过使用解析可微渲染层和3D数据的弱监督方式来学习非线性3DMM模型。没有3D监督的学习：MoFA [32]估计3DMM的参数，并使用光度损失和可选的2D特征损失进行端到端训练。它实际上是原始Blanz和Vetter模型的神经网络版本，因为它对形状，皮肤反射率和照明进行建模，以产生与输入匹配的逼真图像这样做的好处是，该方法比优化方法快得多[31]。MoFA估计脸部的裁剪很紧凑，并产生了很好的外观效果，但对极端的表情有麻烦。他们只使用FaceWarehouse模型作为“地面实况”对真实图像进行定量评估;这不是真实3D面部形状的精确表示。在没有任何2D到3D监督的情况下学习的方法都明确地对图像形成过程进行建模（如Blanz和Vetter）并制定光度损失，并且通常还将2D面部特征检测与已知的3D模型相对应。光度损失的问题在于图像形成的模型总是近似的（例如，Lambertian）。理想情况下，人们希望网络不仅能学习脸部形状，还能学习真实世界图像的复杂性以及它们与形状的关系。为此，我们的RingNet方法仅使用2D面部特征，而不使用光度术语。尽管如此（或因为如此），该方法能够学习从像素直接到3D面部形状的映射。这是已发表的方法中监督最少的。3. 该方法我们的方法的目标是估计三维头部和面部形状从一个单一的人脸图像I。给定一幅图像，我们假设人脸被检测到，被松散地裁剪，并且近似居中。在训练过程中，我们的方法利用2D地标和身份标签作为输入。在推理过程中，它只使用图像像素;不使用2D标志和标识标签。关键思想：关键思想可以概括为：1）人的面部形状保持不变，即使面部的图像在观看时可能变化，7766SEi=1512 512312ResNet50火焰100503.1. 火焰模型FLAME使用线性变换来描述依赖于身份和表情的形状变化，并使用标准线性混合蒙皮（LBS）来对K=4个关节周围的颈部、下颌和眼球旋转进行建模。参数化方式形状系数，β→ E ∈R|→β|，姿态θ→∈R3K+3，且e表示<$i→∈R|ψ→|，FLAME返回N=5023ve r-图3：RingNet在训练期间拍摄同一个人（受试者A）的多个图像和不同人（受试者B）的图像，并强制相同受试者之间的形状一致性和不同受试者之间的形状不一致性。将来自预测的3D网格的计算的3D地标投影到2D域中，以使用地面实况2D地标计算损失。在推理过程中，RingNet将单个图像作为输入，并预测相应的3D网格。图像取自[6]。该图是用于说明目的的简化版本。图4：输出图像的3D网格的Ring元素角度、照明条件、分辨率、遮挡、表情或其他因素。2)每个人都有独特的脸型（不考虑同卵双胞胎）。我们通过引入形状一致性损失来利用这个想法RingNet（图3）是基于多个编码器-解码器的体系结构，在编码器之间具有权重共享，以及对形状变量的形状约束。环中的每个编码器是特征提取器网络和回归器网络的组合。对形状变量施加形状约束我们使用FLAME [21]作为解码器，从语义上有意义的嵌入中重建3D人脸，并在嵌入空间内获得解耦，成为语义上有意义的参数（即，形状、表情和姿势参数）。我们在下面更详细地介绍FLAME解码器、RingNet架构和损失。tices FLAME模型身份依赖形状变化B （ β→;S ）： R|→β|→R3N ，正确的混合变形 BP（ θ→;P ）： R3K+3→R3N ，以及表达混合变形 B（θ→;E ）：R|ψ→|→R3N作为学习基S，E和P的线性变换。给定“零姿态”中的模板T∈R3N，身份，姿态和表达式混合变形，被建模为从T的顶点偏移。每个位姿向量θ→∈R3K+3包含（K+1）个轴角表示的旋转向量;即一个向量，每个关节的扭矩加上全局旋转。然后，混合蒙皮函数W（T，J，θ→，W）围绕关节J∈R3K旋转顶点，并通过混合权重W ∈ RK×N进行线性平滑。更正式地，FLAME被给出为M（β→，θ→，θ→）=W（TP（β→，θ→，θ→），J（β→），θ→，W），（1）与TP（β→，θ→，θ→）=T+BS（β→;S）+BP（θ→;P）+BE（θ→;E）。（二）接头被定义为β的函数，因为不同的面形状需要不同的接头位置。我们使用等式1来解码我们的嵌入空间，以生成完整头部和面部的3D网格。3.2. RingNet人脸识别的最新进展（例如，[38]）和面部标志检测（例如，[4，29]）已经导致具有身份标签和2D面部标志的大型图像数据集为了训练，我们假设2D面部图像Ii、对应的身份标签ci和地标ki的语料库。形状一致性假设可以形式化为β→i=β→j，一个对象的面形应该在多个图像上保持相同），并且β→iβ→j，βcii=cj（即，不同对象的面形应该是不同的）。RingNet引入了一个环形的ar-并行地联合优化任意数量的输入图像的形状一致性的架构。有关形状一致性的详细信息，请参见第3节。如图3所示，RingNet被划分为R个环元素ei=R，其中每个ei由编码器和解码器网络组成（参见图4）。编码器跨ei共享权重，解码器权重在训练期间保持固定。ing. 编码器是特征提取器网络ffeat和回归网络freg的组合。给定一个图像Ii，ffeat输出一个高维向量，受试者2D地标2D地标受试者受试者受试者B3D网格3D网格3D网格3D网格2D地标2D地标7767壮举，我enc，ij=1然后由 freg编码成语义上有意义的向量（即， fenc（Ii）=fre g（ffeat（Ii）。这个矢量可以被压缩为相机、姿势、形状和因此，我们在端到端训练RingNet时最小化以下损失，LS=表达式参数，即，F（I）=[cam，θ→，β→，θ→]，ΣnbR−1¨2¨ ¨2欧洲新闻理事会我我我¨→ →¨¨→ →¨其中θ→，β→，β→火焰参数。max（0，<$β ij−βik<$$>−<$βij−βiR<$+η）（5）2 2我我我i=1j，k=1为了简单起见，我们省略I 在下面和使用fenc（Ii）=fenc，i和ffeat（Ii）=ffeat，i。保留网络在迭代误差反馈回路中迭代回归fenc，i[17，7]，而不是直接从ffeat，i回归fenc，i。在每个迭代步骤中，进度ive从其被归一化为，LSC=1nb×R ×LS（6）进行先前的估计以达到当前的估计。形式上，回归网络采用简明的-其中nb是环中每个元素的批量大小。[ft]不enc，i]作为输入，并给出δft作为输出。3.4. 2D特征丢失然后我们更新当前的估计，最后我们计算了地面实况之间的L1fenc，it+1=f enc，it+δf enc，it.（三）在培训过程中提供的地标和预测地标请注意，我们不直接预测2D地标，而是预测具有已知拓扑结构的3D网格，该迭代网络执行多重回归迭代，整个RingNet训练的每次迭代的次数初始估计值设置为→0。回归网络的输出然后被馈送到可微分FLAME解码器网络，其输出3D头部网格。环元素的数量R是我们网络的超参数，它决定了在β→上并行处理的图像的数量。RingNet允许并行使用相同主题的图像和不同主题的图像的任何组合。然而，不失一般性，我们将相同身份的人脸图像馈送到{ej}j=R−1，将不同身份的人脸图像馈送到eR。因此，对于每个输入的训练批次，每个切片由同一个人的R-1个图像和另一个人的一个图像组成（见图1）。（3）第三章。3.3.形状一致性损失为了简单起见，让我们称具有相同身份标签的两个主体为“匹配对”，而具有不同身份标签的两个主体为“不匹配对”。我们工作的一个关键目标是建立一个强大的端到端可训练网络，可以从同一主题的图像中生成相同的形状，并为不同主题生成不同的形状。换句话说，我们想让我们的形状生成器区分-这些标志被检索。给定FLAME模板网格，我们为每个OpenPose [29]关键点定义网格表面中相应的3D点。请注意，这是我们提供连接2D和3D的监督的唯一地方。这只做一次。虽然嘴、鼻子、眼睛和眉毛关键点具有固定的对应3D点（称为静态3D界标），但是轮廓特征的位置随着头部姿势而改变（称为动态3D界标）。类似于[5，31]，我们将轮廓标志建模Mat.）。为了自动计算这个动态轮廓，我们将FLAME模板左右旋转-20至40度，渲染带有纹理的网格，运行OpenPose来预测2D地标，并将这些2D点投影到3D表面。所得到的轨迹在面部的左侧和右侧之间对称地转移。在训练过程中，RingNet输出3D网格，计算这些网格的静态和动态3D地标，并使用编码器输出中预测的相机参数将其投影到图像平面因此，我们计算了投影地标之间的以下L1损失和地面实况2D地标ki。主动的我们通过要求匹配对在形状空间中的距离小于一个余量η来强制执行这一点，Lproj=wi×（kpi -ki）1（七）不匹配对的距离。距离计算在面部形状参数的空间，其对应于中性姿势中的顶点的欧几里德空间。在RingNet结构中，ej和ek产生β→j和β→k，其中，wi是由2D界标预测器提供的每个地面实况界标的置信度得分如果置信度大于0，则将其设置为1。41，否则为0训练RingNet端到端的总损失Ltot为当jk和j，k R时，它们是匹配的对。模拟¨ ¨2¨ ¨2类似地，ej和eR产生β→j和β→R，它们是不匹配的L=λ L +λ L+λ¨β→¨+λ¨ψ→¨当jR.我们的形状恒定项是totSCSCprojprojβ→¨¨2ψ→¨¨2（八，f7768）¨¨β→¨2-β→<$¨ ¨¨→ →¨其中λ是每个损失项的权重，伊吉克2 +η≤<$βj−βR<$2（四）两项正则化形状和表达式系数。27769由于BS（β→;S）和BE（β→;E）是以方差平方为尺度的，因此β→和β→的L2范数表示正交形状和表达式空间中的马氏3.5. 实现细节特征提取器网络使用预训练的ResNet-50 [15]架构，也在训练期间进行了优化。特征提取器网络输出2048维向量。作为回归网络的输入回归网络由两个具有ReLu激活和dropout的维度为512的全连接层组成，随后是具有159维输出的最终线性全连接层。对于这个159维的输出向量，我们将相机、姿势、形状和表情参数结合起来前三个元素表示比例和2D图像翻译。以下6个元素是全局旋转和钳口旋转，每个元素都以轴角表示。FLAME的颈部和眼球旋转没有回归，因为面部标志不对颈部施加任何约束。接下来的100个元素是形状参数，后面是FLAME的50个表达式参数可区分的FLAME层在训练期间保持固定。我们以 1 e-4 的恒定学习率训练 RingNet 10 个epoch，并使用Adam [20]进行优化。不同的模型参数为R=6，λSC=1，λproj= 60，λβ→=1e−4，λβ→=1e−4，η=0。五、RingNet架构-该架构在Tensorflow [1]中实现，并将公开提供。我们使用VGG2 Face数据库[6]作为我们的训练数据集，该数据集由人脸图像及其相应的标签组成我们在数据库上运行OpenPose [29]，并在脸上计算68个标志点。OpenPose在很多情况下都失败了。在清理失败的案例之后，我们有大约800K的图像及其相应的标签和面部标志用于我们的训练语料库。我们还考虑了[4]提供的约3000个极端姿势图像和因为对于这些极端图像，我们没有任何标签，所以我们用随机裁剪和缩放来复制每个图像，以考虑匹配对。4. 基准数据集和评估指标本节介绍了我们的NoW基准，用于从单个单目图像进行3D人脸重建的任务。该基准测试的目标是引入一个标准的评估指标，以衡量3D人脸重建方法在视角、光照和常见遮挡变化下的准确性和鲁棒性数据集：该数据集包含100名受试者的2054张2D图像，使用iPhone X拍摄，以及每个受试者的单独3D头部扫描这个头部扫描可以作为地面-评价的真相选择受试者以包含年龄、BMI和性别的变化（55名女性，45名男性）。我们将捕获的数据分为四个挑战：中性（620张图像）、表情（675张图像）、闭塞（528张图片）和自拍（231张图片）。中性、表情和遮挡包含所有受试者在多个视图（从正面视图到侧面视图）中的中性、表情和部分遮挡面部图像。表情包括不同的面部表情，如快乐，悲伤，惊讶，厌恶和恐惧. 遮挡包含具有不同遮挡的图像，例如眼镜、太阳镜、胡须、帽子或兜帽。对于自拍类别，参与者被要求用iPhone自拍，而不对所表演的面部表情施加这些图像是在室内和室外拍摄的，以提供自然光和人造光的变化所有类别的挑战是重建一个中立的3D人脸给定一个单目图像。请注意，面部表情存在于几个图像中，这需要方法来解开身份和表情，以评估预测身份的质量。捕获设置：对于每个受试者，我们用主动立体声系统（3dMD LLC，Atlanta）捕获中性表情的原始头部扫描。多摄像机系统由六个灰度立体摄像机对、六个彩色摄像机、五个散斑投影仪和六个白色LED面板组成。重建的3D几何结构包含每个对象的约120K个顶点。每个受试者在扫描期间戴上发帽，以避免面部或颈部区域由于头发而产生的遮挡和扫描仪噪声。数据处理：大多数现有的3D人脸重建方法需要对人脸进行定位。为了减轻这个预处理步骤的影响，我们为每个图像提供了一个覆盖面部的边界框。为了获得所有图像的边界框，我们首先在所有图像上运行人脸检测器[38]，然后预测每个检测到的人脸的关键点[4]。我们手动选择失败案例的2D标志。然后，我们将界标的边界框向每一侧扩展5%（底部），10%（左侧和右侧），并向顶部扩展30%，对于面部挑战，我们遵循类似于[10]的处理方案。对于每次扫描，选择面部中心，并且通过移除指定半径之外的所有内容来裁剪扫描。所选半径是否受试者特异性计算为0。7×（外眼距离+鼻区）（见图2）。评价指标：给定单个单目图像，挑战包括重建3D人脸。由于预测的网格出现在不同的局部坐标系中，因此使用预测和扫描之间的一组对应的界标将重建的3D网格与扫描严格对齐我们还基于地面实况扫描与使用地标对准作为初始化的重建网格之间的扫描到网格距离（其是每个扫描顶点与网格表面中的最近点之间的绝对距离）来执行刚性对准。误差7770然后，对于每个图像，将其计算为地面实况扫描和重建网格之间的扫描到网格距离。然后报告不同的误差，包括所有距离的累积误差图、中值距离、平均距离和标准差。如何参与：为了参与挑战，我们提供了一个网站[25]来下载测试图像，并上传重建结果和每次配准的选定标志。然后，错误度量将自动计算并返回。请注意，我们不提供地面实况扫描，以防止对测试数据进行微调。5. 实验我们对RingNet进行了定性和定量评估，并将我们的结果与公开可用的方法进行了比较，即： PRNet（ECCV 2018 [9]），Extreme3D（CVPR 2018[35]）和3DMM-CNN（CVPR 2017 [34]）。定量评价：我们比较了[10]和我们的NoW数据集上的方法。Feng等人的基准：Feng等人。[10]描述了一个基准数据集，用于评估来自单个图像的3D人脸重建。他们提供了一个测试数据集，其中包含面部图像及其对应于Stirling/ESRC 3D面部数据库子集的3D地面真实面部扫描。测试数据集包含2000张2D中性人脸图像，包括656张高质量（HQ）和1344张低质量（LQ）图像。高质量图像是在受控场景中拍摄的，低质量图像是从视频帧中提取的。数据集中于中性面孔，而我们的数据在表情、咬合和光照方面具有更高的多样性，如第4节所述。回想一下，我们比较的方法（PRNet，Ex-treme3D，3DMM-CNN）使用3D监督进行训练，而我们的方法没有。PRNet [9]需要一个非常紧密裁剪的面部区域来提供良好的结果，而在基准数据库中提供松散裁剪的输入图像时，效果很差（参见Sup. Mat.）。我们没有尝试为PRNet裁剪图像，而是在给定的图像上运行它，并注意它何时成功：它输出918个低分辨率测试图像和509个高质量图像的网格。为了能够与PR-Net进行比较，我们只在PRNet成功的1427张图像上运行所有其他方法。我们使用[10]中的方法计算误差，该方法计算从地面实况扫描点到估计网格表面的距离。图5（左和中）分别示出了针对低质量和高质量图像的不同方法的累积误差曲线; RingNet优于其他方法。表1报告了平均值、标准差和中位误差。现在面临挑战：对于这个挑战，我们使用像[ 10 ]这样的裁剪扫描来评估不同的方法。我们首先执行一个刚性对齐的预测网格的扫描方法中值（毫米）是说（毫米）STD（毫米）LQHQLQHQLQHQPRNet [9]1.791.602.382.062.191.79[35]第三十五话2.402.373.493.586.156.753DMM-CNN [34]1.881.852.322.291.891.88我们1.631.582.082.021.791.69表1：Feng等人的统计数据[10]基准方法中值（毫米）是说（毫米）STD（毫米）PRNet [9]1.511.991.903DMM-CNN [34]1.832.332.05[21]第二十一话1.241.571.34我们1.231.551.32表2：NoW数据集面临挑战的统计数据。R中位数（mm）平均值（mm）标准（mm）31.251.681.5141.241.671.5051.201.631.4861.191.631.48表3：不同数量的环元件R的影响。我们在消融研究中描述的验证集对于所有比较的方法。然后，我们计算预测网格和扫描之间的扫描到网格距离[10]，如上所图5（右）示出了不同方法的累积误差曲线; RingNet又一次超越了其他人。我们在表2中提供了平均值、中位数和标准分割误差。定性结果：在这里，我们展示了从CelebA [ 22 ]和MultiPIE数据集[ 14 ]上的单个面部图像估计3D面部/头部网格的定性结果。图1显示了RingNet的一些结果，说明了它对表情、性别、头部姿势、头发、遮挡等的鲁棒性。我们在图6和图7中展示了我们的方法在不同条件下的鲁棒性，如照明，姿势和遮挡。附录中提供了定性比较。Mat.消融研究：在这里，我们通过比较表3中R的不同值，为在RingNet中选择使用环形架构提供了一些动机。我们在包含10名受试者（6名受试者来自[8]，4名来自[21]）的2D图像和3D扫描的验证集上对这些进行了评估。对于每个受试者，我们选择一个中性扫描和两到四个扫描仪图像，重建图像的3D网格，并测量刚性对齐后的扫描到网格重建误差。当使用具有更多元素的环结构时，误差比仅使用单个三重态损失时减小为了在时间和误差之间进行权衡，我们在实验中选择R=67771图5：累积误差曲线。从左到右：[ 10 ]的LQ数据。 [10]的HQ数据。数据集面临挑战。图6：RingNet对不同照明条件的鲁棒性。来自MultiPIE数据集的图像[14]。图7：RingNet对遮挡、姿势变化和光照的鲁棒性。来自NoW数据集的图像。6. 结论我们已经解决了学习从单个2D图像估计3D、关节连接和可变形形状的挑战性问题，而没有配对的3D训练数据。我们已经将RingNet模型应用于人脸，但公式是通用的。关键思想是利用成对损失的环，该环鼓励解决方案对于同一个人的图像共享相同的形状，并且当它们不同时共享不同的形状。我们利用FLAME人脸模型从形状中提取人脸姿势和表情，这样RingNet就可以约束形状，同时让其他参数变化。我们的方法需要一个数据集，其中一些人出现多次，以及2D面部特征，这可以通过现有的方法来估计。我们仅提供标准2D面部特征与三维火焰模型的顶点。与以前的方法不同，我们没有将3DMM优化为2D特征，也没有使用合成数据。竞争的方法通常利用光度损失，使用近似的生成模型的面部反射率，反射率和阴影。RingNet不需要这个来学习图像像素和3D形状之间的关系此外，我们的公式捕捉整个头部及其姿势。最后，我们创建了一个新的公共数据集，具有准确的地面真实三维头部形状和在各种条件下拍摄的高质量图像。令人惊讶的是，RingNet优于使用3D超级视觉的方法这为未来的研究开辟了许多方向，例如使用[24]扩展RingNet。这里我们关注的是一个没有3D监督的案例，但我们可以放松这一点，并在可用时使用监督我们期望少量的监督将提高准确性，而野外图像的大数据集提供对照明，遮挡等的鲁棒性。我们的2D特征检测器不包括耳朵，尽管这些是非常独特的特征。添加2D耳朵检测将进一步改善3D头部姿势和形状。虽然我们的模型仅限于颈部，但我们计划将模型扩展到全身[23]。看看RingNet是否可以扩展到仅使用2D关节从图像重建3D身体姿势和形状，这将是很有趣的。这可能超越目前的方法，如HMR[17]，以了解身体形状。虽然RingNet学习到现有的面部3D模型的映射，但我们可以放松这一点，并在低维形状空间上进行优化，使我们能够从示例中为此，结合阴影提示[32，28]将有助于限制问题。鸣谢：我们感谢T。Alexiadis在构建NoW数据集时， J 。 Tesch 的渲染结果， D 。 Lleshaj forannotations，A.奥斯曼补充视频。披露：迈克尔·J·布莱克收到了来自英特尔、英伟达、Adobe、Facebook和亚马逊的研究基金。他是亚马逊的兼职员工，在亚马逊和Meshcapade GmbH拥有经济利益。他的研究完全在MPI进行，并由MPI资助。7772引用[1] M. 阿巴迪山口Barham，J.Chen，Z.Chen，中国山核桃A.Davis，J.迪恩M. Devin，S.盖马瓦特湾Irving，M. Isard等人张量流：一个大规模机器学习系统。在OSDI，第16卷，第265-283页，2016中。6[2] A. 巴斯，W.A. Smith，T.Bolkart和S.乌勒将3D可变形模型拟合到边：硬对应和软对应的比较。在ACCV，第377-391页，2016年。3[3] 诉 Blanz 和 T. 维特用于合成 3D 面的可变形模型在Proceedings of the 26th annual conference on Computergraphics and interactive techniques ， pages 187- 194 ，1999中。3[4] A. Bulat和G.齐米罗普洛斯我们离解决2D和3D人脸对齐问题还有多远？(and 230，000个3D面部标志的数据集）。InICCV，2017. 四、六[5] C. 曹湾，加-地Hou和K.舟用于实时面部跟踪和动画的位移动态ACM事务处理图表，33（4）：43：1-43：10，July 2014. 5[6] Q.曹湖，加-地沈，W。Xie，O. M. Parkhi和A.齐瑟曼。Vggface2：一个用于识别跨姿势和年龄的人脸的数据集。在自动人脸和手势识别国际会议上，2018年。四、六[7] J. Carreira，P. Agrawal，K. Fragkiadaki和J.马利克基于迭代误差反馈的人体姿态估计CVPR，第4733-4742页，2016年5[8] H. Dai，北-地Pears，W. A. P. Smith和C.邓肯颅面形状和纹理变化的三维可变形模型2017年10月在IEEE计算机视觉国际会议（ICCV）上发表。7[9] Y. Feng，F. Wu，X.邵，Y. Wang和X.舟联合三维人脸重建和密集对齐与位置映射回归网络。在ECCV，2018。二、三、七[10] Z. H. Feng ，中国假单胞菌 P.Huber ， J.Kittler ，P.Hancock，X.J. 吴先生，Q. Zhao和M. Rtsch。从野外的2D人脸图像评估密集的3D重建在FG中，第780三六七八[11] P. 加里多湾Zollhfer，D.卡萨斯湖瓦尔加伊特湾瓦拉纳西P. Prez和C.希奥博尔特从单目视频重建个性化3D人脸。ACM Transactions on Graphics，35（3），2016。3[12] K.热那亚湾Cole，A. Maschinot，A. Sarna，D.弗拉西奇，W. T.弗里曼。3D变形模型回归的无监督训练。在CVPR中，第8377-8386页，2018年。3[13] T. Gerig，A. Morel-Forster角布鲁默湾Egger，M. 卢蒂S. Schnborn和T.维特可变形人脸模型-一个开放的框架。在FG中，第75-82页，2018年。3[14] R.格罗斯岛Matthews，J. Cohn，T. Kanade和S.贝克多派Image and Vision Computing，28（5）：807-813，2010.七、八[15] K.他，X。Zhang，S. Ren和J. Sun.深度剩余网络中的身份映射。在ECCV，第630-645页，2016年。6[16] A. S. Jackson，A.布拉特河谷Argyriou和G.齐米罗普洛斯通过直接体积cnn回归从单个图像重建大姿态3D人脸。InICCV，2017. 3[17] A. Kanazawa，M.J. Black，D.W. Jacobs和J.马利克端到端恢复人体形状和姿势。在CVPR，2018年。二、五、八7773[18] I. Kemelmacher-Shlizerman和S. M.塞茨在野外进行面部重建。在ICCV，第1746-1753页，2011年。3[19] H. 金，M。Zollhfer，A.Tewari，J.蒂斯角Richardt和C.希奥博尔特Inversefacenet：深度单眼逆人脸渲染。在CVPR中，第4625-46342页，2018年。3[20] D. Kinga和J.B. Adam. 随机优化的一种方法在国际学习代表会议（ICLR），第5卷，2015年。6[21] T. Li，T.Bolkart，M.J. Black，H.Li和J.罗梅罗从4D扫描中学习面部形状和表情的模型ACM Transactions onGraphics，36（6）：194，2017。一二三四七[22] Z. Liu，P. Luo，X. Wang和X.唐在野外深度学习人脸属性。在国际计算机视觉会议（ICCV），2015年12月。1、7[23] G.帕夫拉科斯河谷Choutas，N. Ghorbani，T.博尔卡特A. A. A. Osman，D. Tzionas和M. J.布莱克。富有表现力的身体捕获：从单个图像获得3D手、脸和身体。在IEEE Proceeding Conf.计算机视觉和

下载后可阅读完整内容，剩余1页未读，立即下载