从单幅图像中重建人脸的详细几何结构

71 浏览量更新于2023-10-15 收藏 2.4MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1259从单幅图像Elad Richardson1 Matan Sela1 Roy Or-El2 Ron Kimmel11以色列理工学院计算机科学系2华盛顿大学计算机科学与工程系{eladrich，matansel，ron}@royorel@cs.washington.edu cs.technion.ac.il图1：拟议网络的结果。重建的几何图形显示在相应的输入图像旁边。摘要从给定的图像重建人脸的详细几何结构重建任务是具有挑战性的，因为人脸在考虑表情，姿势，纹理和内在几何形状时变化很大虽然许多方法通过使用额外的数据来重建单个对象的面部来解决这种复杂性，但是从单个图像中提取面部表面仍然是一个困难的问题。因此，基于单图像的方法通常只能提供面部几何形状的粗略估计相比之下，我们建议利用卷积神经网络的能力，从单个图像中生成高度详细的人脸重建为此，我们引入了一个端到端的CNN框架，它以粗到细的方式导出形状所提出的架构由两个主要模块组成，一个是恢复粗糙面部几何形状的网络（CoarseNet），其次是细化该几何形状的面部特征的 CNN（FineNet）。所提出的网络由一个新的层连接，该层在3D中呈现给定网格的深度与对象识别和检测问题不同，没有合适的数据集用于训练CNN来执行面部几何重建。因此，我们的训练方案从基于合成图像的监督阶段开始，然后是仅使用无约束面部图像的无监督阶段。定性和定量的评价测试表明，所提出的模型的准确性和鲁棒性。1. 介绍面孔，以其复杂性和大量的自由度，使我们能够通过表情，模仿和手势来交流和表达自己。面部肌肉使我们能够表达我们的情感和感觉，而面部几何特征则决定了一个人的身份。然而，这些品质的灵活性使得从平面图像恢复面部几何形状成为一个挑战。此外，由于面部在图像上的投影还取决于其纹理和材料属性、照明条件和观看方向，因此会出现额外的模糊性各种方法通过使用额外的数据来减轻这种不确定性，例如同一主题的大型照片集合[36，35，21，28，33]，连续视频帧[44，40，5，11]或粗略的深度图[44，18]。在很多情况下，我们只能看到一张面部图像。在这种设置中，常见的方案可以分为3D变形模型（3DMM）技术[3，4]，基于模板的方法[20，15]和数据驱动的方法[26，41，34]。在这里，我们提出了一个端到端的神经网络，用于从单个图像重建3D中的详细面部表面。我们的方法的核心是将重建问题分为两个阶段，每个阶段都由一个专用的神经网络架构解决。首先，我们介绍了CoarseNet，这是一个用于直接从图像中恢复粗糙面部几何和面部姿态的网络。为了训练CoarseNet，合成生成具有匹配面部几何形状和姿势的面部图像的合成数据集使用3DMM[3]对粗糙的面部几何形状进行建模，这提供了一种紧凑的表示，可以使用所提出的网络进行恢复然而，在这方面，1260这种表示只能捕获粗略的几何重构。接下来，为了捕捉细节，我们引入了FineNet，这是一种在深度图上操作的网络，因此不受变形模型表示的约束。FineNet接收原始输入图像旁边的粗略深度图，并应用类似于细化的为了训练FineNet，我们使用一组未标记的面部图像，其中引入了专用的最后，为了连接 CoarseNet3DMM输出和FineNet深度图输入，我们引入了一个新的层，该层从CoarseNet获取3DMM表示和姿态参数，并产生可以馈送到FineNet的深度图。该层支持反向传播到3DMM表示，允许两个网络的联合训练，可能会细化CoarseNet的权重。在这里使用端到端网络是令人兴奋的，因为它将面部重建问题与CNN解决的快速扩展的应用联系起来，这可能使我们能够在CNN架构的新进展之后进一步改进我们的结果。此外，它允许快速重建，而不需要外部初始化或后处理算法。最近在[34]中证明了使用CNN重建面部几何形状的潜力。然而，他们的网络只能产生粗略的几何形状，并且必须给定一个对齐的模板模型作为初始化。这些限制迫使他们的解决方案依赖于外部算法的姿态对齐和细节细化。所提出的方法的主要贡献包括：• 一种端到端的基于网络的解决方案，用于从单个图像重建面部表面，能够产生详细的几何结构。• 一个新的渲染层，允许从渲染的深度图到3DMM模型的反向传播。• 一个用于数据细化的网络，使用专用的损失标准，由公理化的从阴影恢复形状的目标驱动。• 一种训练方案，通过仅利用合成数据和未标记的面部图像来绕过对手动标记数据的需要2. 相关工作人脸自动重建是计算机视觉和计算机图形学研究领域的一个热点。可用的解决方案在它们对输入数据、先验和它们使用的技术的假设上是不同的。当处理来自单个图像的几何恢复时，该问题是不适定的。不过，存在用于处理从一个图像进行几何重建这些解决方案大致可分为以下几类：3DMM方法。在[3]中，Vetter和Blantz介绍了3D变形模型（3DMM），这是一种用于表示人脸的主其中一个广告-使用3DMM的优点在于，解空间被约束为仅表示可能的解，从而简化了问题。虽然原始论文假设手动初始化，但最近的努力提出了自动重建过程[4，48]。尽管如此，如[33]所述，当仅使用一个图像时，自动初始化管道通常不会产生相同质量的重建。此外，3DMM解决方案不能提取精细细节，因为它们没有被主成分覆盖基于模板的方法另一种方法是通过使模板变形以匹配输入图像来解决该问题。一个值得注意的文件是，Kemelmacher- Shlizerman和巴斯里[20]。在那里，参考模型是与面部图像对齐，并且应用阴影恢复匹配图像。类似地，Hassner [15]提出使用SIFT流[24]联合最大化输入图像和模板面部之间的外观和深度相似性。虽然这些方法在恢复精细面部特征方面做得更好，但是它们捕获全局面部结构的能力受到所提供的模板初始化的限制。数据驱动方法。一种不同的方法来解决这个问题，使用某种形式的回归来连接输入图像和重建表示之间。一些方法应用来自集合的回归模型稀疏地标[1，10，25]，而其他人则对从图像中导出的特征应用回归[22，7]。[26]应用了一个联合优化过程，将稀疏的地标与面部几何形状联系起来最近，有人提出了一种网络，可以直接从图像中重建几何形状[34]，而不使用稀疏信息或显式特征。这篇论文展示了使用网络进行面部重建的潜力。尽管如此，它仍然需要外部程序进行精细细节提取以及对面部位置、大小和姿势的在某种意义上，所提出的解决方案结合了所有这些不同的程序。具体而言，3DMM用于定义基于模板的细化步骤的输入，其中使用数据驱动模型学习两个部分。3. 粗几何重建在我们的框架中的第一步是从给定的图像中提取粗糙的我们的解决方案受到最近两项努力的启发，[34]这两项努力提出了使用合成数据训练面部重建网络1261和[47]使用网络解决了面部对齐问题。虽然这些方法关注不同的问题，但它们都使用了利用3D变形模型的迭代框架。所提出的方法将这两个概念集成到一个整体的路线和几何recruitc- tion解决方案。3.1. 解决方案空间为了使用CNN解决重建问题，需要解决方案空间的表示。为了对面部几何形状进行建模，我们使用3D变形模型[3]，其中使用额外的混合变形基础来对表情进行建模，如[8]中所建议的。这导致以下线性表示S= µS+ Aidαid+ Aexpαexp。（一）其中，µS是平均3D面，Aid是主成分基，Aexp是混合变形基，αid和αexp是相应的系数向量。从博斯普鲁斯数据集[37]收集id和Aexp，如[34]中所述，其中身份使用200个系数建模，表达式使用84个系数。为了将三维模型投影到像平面上，我们称之为平行弱透视投影。(a)（b）（c）（d）（e）（f）图2：反馈表示。（a，d）是掩码输入图像，（b，e）是网络输出的相应PNC3.2.1反馈表示定义网络先前输出的反馈通道是至关重要的，因为它会影响我们迭代框架的整体性能。粗略地说，我们希望反馈通道能够正确地表示粗糙面部几何形状的当前状态。在实践中，不同类型的反馈渠道会强调当前状态的不同特征。例如，在[47]中引入了投影归一化坐标码（PNCC）。该特征图是通过以下方式计算的：首先将平均面归一化，并用平均模型上对应顶点的x、y和z坐标绘制当前顶点的RGB通道，参见图2b和2e。接下来，我们建议使用法线贴图作为附加的Σ ΣΣpx=pyf000f 0ΣPx[R|t]PyPz1，（2）通道，其中每个顶点与其法线坐标相关联这些正常值然后被渲染为RGB值。法线贴图的目的是表示粗糙几何结构的更多局部特征，这不是PNCC所强调的。建议的解决方案使用两种饲料-其中，P、P分别是图像平面和世界坐标系中的像素位置，f是焦距，并且[R|t]是相机的外部矩阵。因此，面部对齐仅使用6个参数来建模：3个欧拉角、2D平移矢量和比例。姿态参数被归一化，使得零向量将对应于集中的面向前的面部。总的来说，我们有290个几何和姿势参数的表示。我们将这个表示记为r。3.2. CoarseNet培训框架由于认识到单通道系统的功率是有限的，使得迭代网络的应用越来越普遍。虽然一些方法[39，23]使用级联网络来改进其结果，但已表明单个网络也可以经过训练以迭代地校正其预测。这是通过向网络添加反馈通道来完成的，这些反馈通道将网络的先前输出表示为一组特征图。然后训练网络，以基于原始输入和反馈通道两者来改进其预测。这一想法首先由Carreira等人在[6]中提出。背部，创造更丰富的形状表示。这些表示的示例如图2所示。3.2.2获取数据为了训练所提出的框架，需要大量的3D人脸数据集。然而，由于为一大群人获取准确的3D扫描的复杂性，目前没有这样的数据集。请注意，与可以针对现有的未标记图像集手动收集的不同注释（例如地标位置）不同，3D几何形状必须与光度数据联合捕获。一种可能的解决方案是将现有的重建方法应用于2D图像，并将这些重建用作标签。然而，这样的方法会将重建质量限制到我们使用的重建方法的质量。在这里，我们选择遵循[34]中提出的思路，通过绘制几何和姿态的随机表示rgt来创建合成数据集，然后使用随机纹理，照明和反射率进行渲染。该过程提供了2D图像的数据集，对于该数据集，姿态和对应的几何结构由DNC已知1262图3：端到端网络，由CoarseNet、FineNet和渲染层组成第然后，通过绘制另一组参数rt来模拟迭代细化过程，所述另一组参数rt在rgt和随机的一组参数rrnd之间采样。rt=β·rgt+（1−β）·rrnd，0≤β≤1，（3）表示解的当前估计，并且用于生成PNCC和法线图。然后训练网络以根据当前的rt预测地面实况rgt表示。注意，与[34]不同，我们的表示r不仅捕获几何形状，还捕获姿态。因此，rgt和rrnd的位置和方向也可以变化。3.3. CoarseNet的体系结构和规范CoarseNet基于ResNet架构[17]，详见图3。请注意，输入层包括反馈通道，并且使用灰度图像。建议的架构中的最后一个元素是培训标准。由于我们的表示由几何和姿势参数组成，因此我们选择为表示的每个部分应用不同的对于几何形状，我们应用[34]中建议的几何均方误差（GMSE），反馈渠道。应用掩蔽是为了提高我们从合成数据到真实世界图像的泛化能力，因为我们的合成数据对于头部区域更虽然在第一次迭代中掩模是不准确的，但它是逐渐完善的。然后迭代地应用网络，产生更新的几何结构rt，其用于创建新的反馈输入。重复此过程直到收敛，如图4所示。4. 从粗到精的方法对于许多任务，例如面部正面化[48，16]，重建粗略的几何结构就足够了。然而，重建精细几何结构（如皱纹）可能对其他应用有用，参见[5，38]。很明显，在可变形模型领域工作时，我们无法捕捉到这样的细节。为了解决这个问题，我们将问题转移到无约束的图像平面，将几何图形表示为深度图。然后，所提出的FineNet的作用将是基于原始图像修改给定的粗略深度图，以捕获精细细节。4.1. 渲染层¨ΣΣL（α，α）=？Aid|AEXPαˆ−ΣΣA id |A经验¨2第二章（4）为了连接CoarseNet和FineNet，我们提出了一个新的渲染层。图层接收几何体和姿势其中，α是从网络接收的几何形状，α是已知几何形状。GMSE背后的想法是考虑不同的系数如何影响生成的几何体。对于姿态参数，我们发现在6个参数上的简单MSE损失是足够的。我们权衡两个损失标准，以便我们得到两者近似相同的初始误差3.4.使用CoarseNet我们给CoarseNet输入一张200×200的人脸图像。可以使用标准面部检测器（例如Viola-Jones检测器[42]）自动获取此类图像。初始参数向量r0设置为零，对应于居中的平均面µS。此外，输入图像总是根据图4：通过迭代的进展。对于每次迭代，从上到下显示以下内容：裁剪的输入图像，PNCC和法线贴图。2x2上卷积2x2最大池化(b)FineNet(a)CoarseNet呈现层1x1卷积层450→50→50→10→1X23x3卷积层256输出映射3x3卷积层256输出映射3x3卷积层256输出映射3x3卷积层128个输出映射3x3卷积层128输出maps3x3卷积层64输出映射3x3卷积层64输出映射........完全连接x3290→29013x13空间平均3x3卷积层290个输出地图残留块x2256个输出映射，2步残留块x2128个输出映射，2步残留块x264个输出映射，2步残留块x232个输出映射7x7卷积层32个输出映射，2步输入渲染层12633DMM表示三角网格深度图图5：梯度流。来自FineNet的元素首先传播到深度贴图，然后从每个像素传播到匹配的顶点。三角形网格上的梯度然后被传播回可变形模型表示。表示向量作为输入，并输出对应姿势中的几何形状的200×200深度图。这分两步完成，首先根据几何参数计算3D网格并将其定位在图像平面上方在CoarseNet中，我们需要使用基于像素的框架来恢复细节。最近，几个值得注意的基于像素的CNN架构[12，27，14]被用于各种细粒度任务，如语义和实例分割[27，14]，光流[9]和人体姿势估计[43]。使用这些架构[2，45]重建表面法线的首次成功尝试激发了我们的FineNet架构。所提出的框架在其输出（深度图与深度图）方面与这两个网络不同。法线映射）和训练机制（无监督vs. 监督）。FineNet基于[14]中建议的超列架构。这种架构背后的主要思想是生成一个包含结构和语义数据的每像素特征图这是通过沿着网络的路径连接来自几个卷积层的输出响应来由于池化层，内部层的输出贴图大小与输入图像的大小不匹配，因此，将它们插值回pxpypzf000f 0R0 0 1A id |A经验Σtxα+ty。0（五）原始大小，以创建密集的每像素特征量然后，该体积通过几个1×1卷积层进行处理，以创建最终的预测。我们选择VGG-Face[31]作为超列网络的基础，因为它在域上进行了微调然后使用z缓冲区渲染器渲染3D网格其中每个像素与来自网格的单个三角形面相关联。为了处理潜在的遮挡，当单个像素位于多个三角形中时，选择最接近图像平面的一个。每个像素的值是通过使用重心坐标z=λ0z0+λ1z1+λ2z2，（6）其中zi是相应三角形中第i个顶点的z值，λi是对应的坐标。在反向传播过程中，梯度从每个像素传递到匹配顶点，由相应的坐标加权，dEdEdzdE==λ，（7）的面孔。对于插值，我们采用与[14]略有不同的方案。我们使用级联2-strided2×2上卷积层来上采样特征图，而不是使用双线性插值将每个特征图直接上采样到原始大小这样做是为了提高特征的质量，因为插值现在也是与识别问题相比，面部特征的细化是一个相对局部的问题。因此，我们在第三个池化层之前截断VGG-Face网络，并形成200×200×450的超柱特征体积。然后通过一组用作线性回归器的1×1卷积层请注意，这个完全卷积的框架允许我们使用任何大小的输入图像。图3描述了FineNet架构。dzidzdzidzi其中E是损失标准。注意，我们假设重心坐标是固定的。或者，可以导出关于xi和yi的坐标。请注意，没有梯度传播到隐藏顶点，因为它们不会出现在输出深度图中在[49]中应用了类似的方法。最后，通过相对于αk取方程5的derivative，将梯度从每个顶点传播回几何基础。梯度转移如图5所示。4.2. FineNet框架皱纹和酒窝等精细的面部特征很难用3DMM低维空间表示，这主要是由于它们的高度多样性。因此，与4.3. FineNet无监督准则为了训练FineNet，需要某种形式的损失函数。一种可能的解决方案是在网络输出和高质量地面实况深度图之间简单地使用MSE标准这将允许网络隐式地学习如何从单个图像重建详细的面部不幸的是，如第3.2.2节所述，目前无法获得详细面部几何形状及其相应2D图像的大型数据此外，不能使用可变形模型来生成用于该任务的合成数据集，因为不存在捕获精细面部细节的多样性的已知模型。相反，我们提出了一个无监督的学习过程中的损失标准是由一个公理模型。为了实现这一目标，我们需要找到一个........12642¨¨将输出深度图与2D图像相关联的度量。为此，我们求助于从阴影（SfS）的形状。SfS[20，46，13，30，29]中的最新结果表明，当给定初始粗糙表面时，可以在各种照明条件和多个表面遮挡下准确地恢复细微的几何这是通过优化将几何图形与输入图像联系起来的目标函数来在我们的例子中，初始表面由CoarseNet生成，其深度图表示与输入图像一起被馈送到FineNet。然后，我们制定一个图6：光照和光照恢复。图像被呈现在恢复的马鲁多旁边，用恢复的灯光渲染。系数，也可以很容易地恢复为基于SfS目标函数的无监督损失准则∗¨.→∗ →Σ¨2¨的作用，将问题从在线优化问题转化为回归问题。αT=argmin<$（µT+ATαT）αTl，Y（z0）-I¨2 . （十二）4.3.1从SfS目标到无监督损失我们的无监督损失标准是按照[30，29]的精神制定的。我们的损失函数的核心是一个图像形成项，它描述了网络的输出深度图和输入图像之间的联系。这个术语驱动网络学习精细细节恢复，并且是如等式11所示，这是一个可以直接求解的超定线性基于所得到的反射系数和照明系数，我们可以计算Esh及其相对于z的梯度。图6中显示了几个接收到的样本。为了使解正则化，在FineNet的准则中加入了保真度和光滑度项.Ef=z罚款为¨¨Esh=？？.Σ→l，Y→（z）¨2-I¨2 .（八）Esm= 13岁以下儿童其中，ε是离散拉普拉斯算子。这些术语这里，z是重建的深度m_ap，I是输入，其中，ρ为球谐象，→l为一阶球谐系数。Y（z）表示匹配球谐基，Y（z）=（1，nx（z），ny（z），nz（z）），（9）其中（nx（z），ny（z），nz（z））是表示为深度的函数的法线e请注意，虽然I是FineNet的输入，但场景光照→l和光照贴图ρ是未知的。一般来说，需要恢复照明和照明是SfS问题中的模糊性的一部分。然而，在这里我们可以利用这样一个事实，即我们不解决一般的SfS问题，而是一个约束于人脸的问题。这是通过将可能的伪影的空间限制到低维3DMM纹理子空间来完成的。保证解决方案是平滑的，不会偏离CoarseNet的预测。最终的每像素损失函数定义为：L（z_∞，z_0，I）=λshEsh（z_∞，I）+λfEf（z_∞，z_0）+λsmEsm（z_∞）.（十四）其中λs决定了两项之间的平衡，设为λsh= 1，λf=5e−3，λsm= 1。然后计算L相对于z的梯度，并用于反向传播。4.3.2无监督损失-讨论无监督准则的使用具有一些理想的特点。首先，它消除了对注释数据集的需要。其次，它确保网络不受性能限制ρT=µT+AT αT（十）任何算法或数据集的质量。这是因为损失函数完全是非线性的。其中µT是平均表面纹理，AT是主成分基，αT是相应的系数向量。在我们的实现中，使用了10个现在，如[20]所示，可以通过假设平均面部亮度ρ=µT，使用粗略深度图z0，正确恢复全局照明，如下所示取决于输入，与监督学习SfS方案（如[45]和[2]）相反，其中数据分别由光度立体或原始Kinect扫描生成。此外，与传统的SfS算法不同，仅作为损失函数的一部分计算光照系数和光照系数的事实意味着，在测试时，网络可以直接从输入产生准确的结果→l¨¨=argm（单位：磅）→l.Σ→l，Y→（z0）¨2-我.. .（十一）2强度和深度输入，而不显式地计算亮度和照明信息。虽然可以训练CoarseNet来生成照明和照明参数，请注意，这是一个超定线性问题，可以很容易地解决使用最小二乘法。考虑到照明设备1265我们选择不把它们包括在管道中，原因有两个。首先，照明和照明只需要1266图7：标准流程。来自两个损失标准的结果被传播回CoarseNet。在训练阶段，在测试期间没有使用。其次，（11）和（12）都是超定系统，可以用最小二乘法有效地求解，因此，使用CNN来完成这项任务是多余的。4.4. 端到端网络培训最后，为了训练FineNet，我们使用在两个网络之间这样，就创建了一个端到端网络然后，我们使用来自VGG人脸数据集的图像[31]，并通过框架传播它们。向前传球可以分为三个主要步骤。首先，每个这样的图像通过CoarseNet传播四次迭代，创建粗略的几何表示。然后，渲染层将3DMM表示变换为深度图。最后，深度图与原始输入图像一起通过FineNet传播，从而产生密集更新的深度图。然后用4.3节中提出的准则梯度通过网络反向传播，使我们能够训练FineNet并微调CoarseNet。请注意，CoarseNet已经被训练的事实对于成功的训练至关重要。这是因为无监督损失函数依赖于粗初始化，而粗初始化在没有合成数据的情况下无法实现。为了防止CoarseNet偏离原始粗解太多，在CoarseNet的输出中添加了一个保真度 cri 。该标准是当前CoarseNet解决方案与原始解决方案之间的MSE。然后，来自FineNet和保真度损失的分量被加权并通过CoarseNet，对其进行微调，如图7所示。5. 实验为了评估所提出的框架，我们进行了几个实验，以测试其在3D人脸数据集和野生输入的准确性。定性和定量的评价被用来证明所提出的解决方案的强度。将我们的方法与[20]的基于模板的方法、作为[48]的一部分介绍的基于3DMM的方法以及[34]的数据驱动方法进行比较。注意，与我们的方法不同，上述所有方法都需要对齐信息。我们使用[19]的最新对齐方法为这些算法提供输入。为了进行定性分析，我们展示了400×400张野外人脸图像的结果。如图10所示，与[48，34]相反，我们的方法暴露了精细的面部细节，并且比[20]对表情和不同姿势更鲁棒。此外，我们将我们的报告与最先进的方法进行了比较，用于从多个图像重建[36]。结果如图8所示，可以看出，我们的方法能够仅从单个图像产生相当高质量的几何形状最后，图9显示了我们的方法对不同姿势的鲁棒性，而图1显示了更多的重建结果。为了对我们的结果进行定量分析，我们使用了人脸识别大挑战数据集V2 [32]。这个数据集由大约2000张彩色面部图像组成，每个像素都与地面真实深度每种方法都提供了一个估计的深度图像和一个代表有效像素的二进制掩码。为了公平判断的目的如表1所示，我们的方法在测试的方法中产生最低的深度误差最后，如4.2节所述，全卷积FineNet可以接收不同大小的输入。这种尺寸不变性是我们的细节提取网络的重要属性，因为它允许网络在高质量输入图像可用时提取更多细节图11显示，尽管我们的网络只在200×200 的图像上训练，但它可以优雅地扩展到400×400的输入。6. 讨论所提出的框架将训练过程分为两个阶段，首先是使用合成数据训练CoarseNet。虽然使用人工数据可以让我们为了收集训练所需的大量数据，它在概括方面确实存在一些局限性-（a）（b）（c）（d）（e）图8：（a）和（c）是两个输入图像，（b）和（d）是它们通过所提出的方法的3D重建。（e）是同一主题的重建，基于100个不同的用[36]中提出的方法恢复图像。图9：方法耐用性。我们的方法显示出一些鲁棒性极端的方向，甚至在近90矩形。FineNetCoarseNetSfS准则保真度标准1267[20][34][48][49]第一届中国国际航空航天博览会图10：定性结果。从两个不同的角度，输入图像的不同方法的重建结果一起请注意，与其他方法不同，所提出的方法对姿势和表情变化具有鲁棒性，同时仍然捕获微妙的面部细节。方法Ave.深度误差[公厘]90%深度误差[公厘]我们3.226.69[20个]3.337.02[34个]4.118.70[48个]3.467.36（a）（b）（c）（d）图11：输入缩放。（a）是输入图像，（b）是来自CoarseNet的粗略深度图。在（c）中，FineNet的输出为200×200输入，而在（d）中，使用400×400输入第例如，我们发现，当对不属于训练数据的独特面部特征进行测试时，我们的网络可能会失败，例如胡子，化妆和眼镜，正如补充材料中所示。培训的第二阶段是无监督的端到端培训计划。虽然我们发现这一步成功地训练了 FineNet ，但它只稍微调整了CoarseNet。我们认为这是因为FineNet的损失函数对高频更敏感，而3DMM模型主要捕捉粗糙的面部几何形状。尽管如此，看看是否可以进一步推动端到端训练的想法，以显着影响CoarseNet，甚至可能消除其对合成数据的依赖，这将是有趣的表1：定量比较。深度估计误差的不同方法。7. 结论我们提出了一个端到端的方法，详细的人脸重建从一个单一的图像。该方法由两个主要模块组成，一个用于恢复面部几何形状的粗略估计的网络，前者是用合成图像训练的，而后者是用端到端的无监督训练方案中的真实面部图像训练的为了连接这两个网络，引入了可区分的渲染层。正如我们的比较表明，所提出的框架优于最近的国家的最先进的方法。致谢导致这些结果的研究得到了欧洲共同体1268引用[1] O. Aldrian和W. A.史密斯一种使用三维变形模型的三维人脸形状和纹理恢复的线性方法。英国机器视觉会议论文集，第75-1页，2010年[2] A.班萨尔湾Russell和A.古普塔。Marr再访：通过表面法线预测进行2D- 3D对齐。在IEEE计算机视觉和模式识别会议（CVPR）中，第5965-5974页[3] 诉Blanz和T.维特用于合成3D面的可变形模型在第26届计算机图形和交互技术年会的会议记录中，第187页194. ACM 出版社/Addison-Wesley 出版公司一九九九年。[4] P. Breuer，K.-I. 金，W。金茨尔湾Scholkopf和V.布兰兹从单个图像或视频自动进行3D人脸重建。自动人脸&识别，2008年。FG'08。第八届IEEE国际会议，第1-8页。IEEE，2008年。[5] C. Cao，中国粘蝇D.Bradley，K.Zhou和T.比勒实时高保真面部表情捕捉。 ACM Transactions on Graphics（TOG），34（4）：46，2015.[6] J. Carreira，P. Agrawal，K. Fragkiadaki和J.马利克基于迭代误差反馈的人体姿态估计。在IEEE计算机视觉和模式识别会议中，2016年6月。[7] M. Castel a'n和J。范·霍雷贝克。使用偏最小二乘法从强度进行3D面形在计算机视觉和模式识别研讨会，2008年。CVPRW'08。IEEE计算机学会会议，第1-8页。IEEE，2008年。[8] B. Chu，S. Romdhani和L.尘3D辅助面部识别对表情和姿势变化鲁棒。2014年IEEE计算机视觉和模式识别会议，第1907-1914页。IEEE，2014。[9] A. 多索维茨基山口Fischer、E.Ilg，P.豪塞尔角哈齐尔巴斯Golkov，P. van der Smagt，D. Cremers和T.布洛克斯Flownet：使用卷积网络学习光流在IEEE计算机视觉国际会议（ICCV），第2758-2766页[10] P. Dou，Y. Wu，S. K.沙阿和我。A.卡卡迪亚里斯通过双重耦合结构学习从单个图像进行鲁棒的英国机器视觉会议论文集，第1-13页，2014年[11] P. 加里多湾Zoll hofér，D.卡萨斯湖Valg aerts，K.瓦拉纳西，P. P e'rez和C. 希奥博尔特从单目视频重建个性化ACMTransactions on Graphics（TOG），35（3）：28，2016.[12] I. 古德费罗 J. 波吉特-阿巴迪 M. 米尔扎 B. 许、D. 沃德-法利，S。奥扎尔A.Courville和Y.本吉奥。生成对抗网络。神经信息处理系统进展，第2672-2680页，2014年[13] Y. 汉<英>来华传教士。Y. 李，我。所以奎恩。在未经校准的自然光照下，从单个RGB-D图像获得高质量的形状在IEEE计算机视觉国际会议论文集，第1617-1624页[14] B. 哈里哈兰山口阿尔韦阿埃斯河Girshick和J. 马利克Hyper-columns for object segmentation and fine-第IEEE计算机视觉和模式识别会议论文集，第447-456页，2015年[15] T.哈斯纳在3d中查看真实世界的面孔。在IEEE计算机视觉国际会议论文集，第3607-3614页[16] T. Hassner，S. Harel、E. Paz和R.恩巴无约束图像中的有效人脸正面化在2015年IEEE计算机视觉和模式识别会议论文集，第4295-4304页中[17] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议上，2016年6月。[18] 诉卡泽米角，澳-地Keskin，J.Taylor，P.Kohli和S.伊扎迪从单个深度图像实时重建人脸。2014年第二届3D视觉国际会议，第1卷，第369IEEE，2014。[19] V. Kazemi和J.苏利文用回归树的集合进行一毫秒人脸对齐。在IEEE计算机视觉和模式识别会议（CVPR）中，2014年6月[20] I. Kemelmacher-Shlizerman和R.巴斯里使用单个参考面部形状从单个图像进行3D面部重建。IEEE Transactionson Pattern Analysis and Machine Intelligence，33（2）：394[21] I. Kemelmacher-Shlizerman和S. M.塞茨在野外进行面部重建。2011年国际计算机视觉会议，第1746-1753页。IEEE，2011年。[22] Z. 莱伊角拜河，巴西-地他和S。Z. 李基于张量空间cca映射的单张图像人脸形状恢复计算机视觉和模式识别， 2008 年。 CVPR 2008 。 IEEE 会议，第 1-7 页。IEEE，2008年。[23] H. Li，Z. Lin，X. Shen，J. Brandt，and G.华一种用于人脸检测的卷积神经网络级联在Proceedings of the IEEEConference on Computer Vision and Pattern Recognition中，第5325-5334页[24] C. Liu，J. Yuen，A. Torralba，J. Sivic和W. T.弗里曼。筛流：不同场景之间的密集对应。欧洲计算机视觉会议，第28-42页。Springer，2008.[25] F. Liu，L.Zeng，J.Li和Q.赵从单个任意视图图像基于级联回归arXiv预印本arXiv：1509.06161，2015年。[26] F. Liu，L.曾角，澳-地赵，和X。刘某联合人脸对齐和3D人脸重建。欧洲计算机视觉会议，荷兰阿姆斯特丹，2016年10月[27] J.朗，E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。在IEEE计算机视觉和模式识别会议论文集（Proceedings of the IEEEConference on Computer Visionand PatternRecognition），第3431-3440页[28] F. 马宁切达角你好，M. R. Os wald和M. Pollefeys. 使用高度图形状模型和快速正则化在移动设备上进行人脸重建。在3D视觉（3DV），2016年国际会议上，第489-498页。IEEE，2016.[29] R.奥尔埃尔河Hershkovitz，A.韦茨勒湾Rosman，A. M.Bruckstein和R.基梅尔实时深度细化1269对于镜面反射对象。在IEEE计算机视觉和模式识别会议（CVPR）中，第4378-4386页[30] R. Or-El，G. Rosman，A.韦茨勒河Kimmel和A. M.布鲁克斯坦RGBD融合：实时高精度深度恢复。在IEEE计算机视觉和模式识别会议论文集，第5407-5416页[31] O. M. Parkhi、黑腹拟步行虫A. Vedaldi和A.齐瑟曼。深度人脸识别。在英国机器视觉会议上，第41.1[32] P. J. 菲利普斯山口 J. Flynn ， T. 斯克鲁格斯湾 W.Bowyer，J.张，K.作者声明：J. Min和W.沃雷克人脸识别大挑战概述。2005年IEEE，2005年。[33] M. Piotraschke和V.布兰兹使用质量测量从多个图像自动进行3D面部在IEEE计算机视觉和模式识别会议的Proceedings，第3418-3427页[34] E. 理查森M.Sela和R.基梅尔通过从合成数据中学习的3D人脸在3D视觉（3DV），2016年国际会议上，第460-469页。IEEE，2016.[35] J. Roth，Y. Tong和X.刘某无约束三维人脸重建。在Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition，第2606-2615页[36] J. Roth，Y. Tong和X.刘某自适应3D人脸rebraction-tion从不受约束的照片集。CVPR，2016年。[37] A.是的， N 。Aly uz ， H.Dibekl i o gsoul ， O.Celiktutan，B. 格伯克湾 Sanku r和L. 阿卡伦博斯普鲁斯海峡数据库的三维人脸分析。在欧洲生物识别和身份管理研讨会上，第47-56页。Springer，2008.[38] M. Sela，Y. Aflalo和R.基梅尔曲面的计算漫画化。计算机视觉和图像理解，141：1[39] Y. 太阳，X.Wang和X.唐用于面部点检测的深度卷积在Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition，第3476-3483页[40] S.苏瓦贾纳孔岛Kemelmacher-Shlizerman和S. M.塞茨完整的移动人脸重建。在欧洲计算机视觉会议上，第796Springer，2014.[41] S. Tulyakov和N. Sebe从单个图像回归3D面部形状。2015年IEEE国际计算机视觉会议（ICCV），第3748-3755页。IEEE，2015年。[42] P. Viola和M.琼斯使用简单特征的增强级联快速目标检测计算机视觉和模式识别，2001年。CVPR 2001年。2001年IEEE计算机学会会议论文集，第1卷，第I-10页。511. IEEE，2001年。[43] S.- E. Wei，V.Ramakrishna，T.Kanade和Y.酋长卷积姿态机器。在IEEE计算机视觉和模

下载后可阅读完整内容，剩余1页未读，立即下载