基于端到端保形域转移的半监督单目人脸重建方法

69 浏览量更新于2023-10-12 收藏 1.11MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9398基于端到端保形域转移的景潭朴陈钱洪生李香港中文大学-商汤科技联合实验室商汤科技研究1155116308@link.cuhk.edu.hkqianchen@sensetime.comhsli@ee.cuhk.edu.hk摘要单目人脸重建是计算机视觉中的一个具有挑战性的任务，其目的是从单个RGB人脸图像恢复三维人脸几何形状。最近，深度学习方法在单目人脸重建方面取得了很大的进步。然而，为了使这些方法达到最佳性能，最重要的是具有地面真实3D人脸几何形状的大规模训练图像，这通常是人类难以注释的。为了解决这个问题，我们提出了一种半监督单目重建方法，该方法联合优化了形状保持的域转移CycleGAN和形状估计网络。该框架使用具有地面真实形状的3D渲染图像和没有任何额外注释的野外人脸图像进行半监督训练。CycleGAN网络将所有真实图像转换为渲染风格，并在整个框架中进行端到端训练。这是与现有的基于CycleGAN的学习方法相比的关键区别，后者只是使用CycleGAN作为单独的训练样本生成器。新的地标一致性损失和边缘感知的形状估计损失提出了我们的两个网络，共同解决具有挑战性的人脸重建问题。在公共人脸识别数据集上的实验证明了我们的整体方法以及各个组件的有效性。1. 介绍从单目图像重建三维人脸的目的是从二维人脸图像恢复三维人脸的几何形状。这是一个重要的研究课题，因为人脸在视觉感知和图像生成中起着关键作用。然而，它仍然是一个具有挑战性的问题，远未得到解决。由于卷积神经网络（CNN）的最新进展，2D面部标志可以由人类准确标记并由计算机稳健估计，与此不同，人类面部的地面真实3D几何形状只能通过传统优化生成半监督式端到端培训图1.提出了半监督单目人脸重建方法的总体框架。基于方法，如高斯过程[4]和参数化样条[11]。三维人脸几何的拟合过程中包含着大量的不确定性。因此，我们不能像其他计算机视觉任务那样容易地收集大量的监督训练数据，并且重建精度因此受到有限的训练数据量的限制。对于在受控环境中拍摄的人脸图像，使用基于优化的方法来获得其真实的3D人脸几何形状作为训练数据并不困难。然而，这些方法，即使有人工干预，也不能保证在野外获得面部图像的精确地面真实几何形状用这种拟合不佳的地面真实几何进行训练会导致重建精度恶化。已经提出了几种方法来解决在野外图像中缺乏丰富的地面真实人脸几何的问题。[18]提出了仅在具有精确的地面真实的合成人脸图像上训练人脸重建模型Tewari等人[23]提出了一种具有光度损失的半监督学习方法来监督野外图像的反射。但它很可能过拟合到特定的数据集，并没有表现出很好的泛化能力，输入图像标志一致性丢失渲染样式面部边缘感知损失形状保持域转移生成形状估计估测形状9399pable受最近关于生成对抗网络（Cy- cleGAN）的风格转移和域自适应研究的启发[26]，我们提出了一种新的半监督深度神经网络，用于从单眼图像进行3D人脸重建（见图10）。①的人。我们的网络使用具有地面真实几何的合成人脸图像和没有额外信息的野外人脸图像进行训练。在我们的框架中集成了一个形状保持的域转移周期一致的生成式广告网络网络，以桥接来自两个图像域的训练数据。不像现有的方法[21，8，24]，只使用CycleGAN在单独的预处理阶段生成训练样本，我们提出的生成网络有三个新的区别。(1)我们采用生成式网络将所有真实图像映射到渲染域进行人脸重建，而不是将合成图像映射到真实图像以创建假训练样本。一方面，我们认为，在渲染域中的图像具有准确的地面真理，这是不受翻译的阻碍。另一方面，生成具有真实背景、头发或胡须的真实图像然而，从真实图像中删除它们相对容易。(2)我们的生成网络不是用作单独的样本生成器，而是在人脸重建网络中集成和端到端训练真实到合成生成器不仅需要生成渲染风格的生动图像，而且还需要生成易于后续人脸形状估计以恢复人脸几何形状的图像。我们的生成网络和人脸形状估计网络的共同适用对于实现高重建精度至关重要。为了有效地训练准确人脸重建的整体框架，我们还提出了新的损失函数。对于生成式网络，我们观察到仅使用主判别器实际上可能会扭曲人脸图像，这阻碍了最终的准确性。因此，我们提出了一个地标一致性损失，以规范的图像transla- tion过程中保持人脸形状，这是令人满意的域翻译的重要。为了用野外图像训练人脸形状估计网络，我们提出了一种新的边缘感知损失来监督重建野外人脸形状的学习。文章的主要贡献可以概括为三个方面。(1)我们提出了一种新的半监督人脸重建网络与形状保持域转移生成网络，以更好地弥合合成和现实图像域之间的差距。生成网络不再仅仅是训练样本生成器，而是与人脸重建网络共同训练，以支持精确的人脸重建。（2）为了有效地在两个域之间平移图像，应该尽可能地保持面部的形状信息我们支持-提出界标一致性损失作为用于训练生成模型的附加监督，这提供了更多的约束以在面部翻译期间保留形状信息(3)对于野外图像上的人脸重建，除了基于人脸顶点和人脸法线的损失函数外，我们提出了一种新的与输入图像上人脸边缘相关的损失函数。提出的损失提供了更好的监督，以训练具有更大视角和极端表情的人脸。2. 发布作品2.1. 单目三维人脸重建Blanz和Vetter [4]通过将人脸先验模型建模为高斯过程，提出了三维变形模型（3DMM）来描述人脸的形状。还提出了更精确的模型，以使用混合器形状[7]或骨架[17]来模拟更复杂的面部变形。这些模型可以模拟人脸如何变形为光滑表面。给定一组这样的参数，可以获得生动的渲染图像。然而，从单目图像恢复3DMM参数的逆过程是相当具有挑战性的。除了基于地标的优化方法[3]和基于渲染和光栅化的差分方法[15]之外，最近已经研究了基于深度学习的方法[27]来恢复面部3DMM参数。Cao等人[6]提出了一种级联框架，该框架迭代地细化恢复的人脸模型参数以处理野外的人脸图像。然而，他们对中间结果的控制较少。Jackson等人[13]提出了用体积卷积重建大变形人脸的方法。然而，它引入了体积卷积的较重计算。Feng等人[10]提出了通过预测2D UV位置图来重新覆盖面部几何形状，该2D UV位置图记录了UV空间中完整面部的3D形状。它是快速的，结果在准确的重建形状与小的网络结构。然而，它很难处理从极端视角拍摄的面部。Sela等人[20]利用基于优化的重建方法，使恢复的3D几何形状更加稳定。该方法首先恢复图像中二维位置与三维网格上UV坐标的对应关系，然后进行ICP配准，得到最终的形状。虽然该方法在不同视角的人脸图像上表现出鲁棒性，但其网络不是端到端可训练的，并且需要大量的优化计算。其他方法探索了额外的信息来帮助学习，包括光度损失[23]，合成图像的预训练[18]，来自视频的多帧监督[22]。这些方法被训练来预测面部纹理或颜色图，以及3D面部形状，以帮助面部重建。然而，他们仍然有困难，9400在野外处理复杂的背景和面部图像的照明。2.2. 用于跨域训练的生成网络对于图像翻译，基于GAN的方法已经显示出巨大的潜力。CycleGAN [26]提出了一种跨域图像到图像翻译网络，它不需要一对一的训练。它被许多方法[21]用于通过生成域转移图像作为具有地面真实标签的新训练样本来解决域自适应问题。然而，这些方法只是使用CycleGAN作为单独的训练样本生成器，并且没有监督或约束来确保CycleGAN传输的图像可以被后续分类器或回归器正确识别。相比之下，我们提出的生成网络是用整体框架进行端到端训练的，以保证它服务于最终的重建目标。基于补丁的鉴别器[12]有助于更专注于区分局部纹理而不是全局图像风格，以更好地监督图像到图像生成网络。3. 该方法我们提出的半监督人脸重建方法的框架由一个域转移生成网络和一个三维形状估计网络组成。该方法利用具有地面真实几何形状的3D渲染合成图像和没有任何注释的野外人脸图像来训练用于野外人脸的鲁棒且准确的人脸重建网络域转移生成网络被建模为CycleGAN，以将所有真实的人脸图像转换为渲染风格，这是与现有方法的关键区别，现有方法主要利用Cy-cleGAN来生成跨不同域的训练样本。最重要的是，我们的生成网络可以与后续的3D形状估计网络以端到端的方式进行训练，以确保其主要目标是转换图像以优化面部重建。3D形状估计网络学习利用3D渲染图像的地面真实几何形状和具有新颖的面部边缘感知损失函数的真实面部图像3.1. 用于训练数据生成的人脸渲染由于我们的方法是半监督的，我们首先从地面真实的3D人脸几何形状生成3D渲染图像，作为带有注释的合成训练数据。为了生成合适的训练数据，渲染图像的生成需要满足两个要求。一方面，重要的是，合成图像具有具有足够形状变化的地面真实几何，避免网络过度拟合到某些特定的面部几何形状。另一方面，我们应该确保合成图像的风格是一致的，使得面部形状估计网络在处理图像风格上需要最小的努力，并且可以专注于估计面部几何形状。我们使用一个多维人脸生成模型，贝塞尔人脸模型[4]，它可以精确地表达大多数的脸，在世界坐标系中创建具有人脸顶点和人脸纹理的3D人脸形状。面部形状由一系列形状、表情和纹理参数控制，其中形状参数控制如何线性组合预定义的面部基础以生成面部形状。一旦我们获得了一个合成人脸形状的3D几何和纹理信息，我们就随机旋转人脸来模拟不同的头部姿势。3个旋转参数，偏航角、俯仰角和横滚角，分别从区间[-90，90]，[-60，60]，[-10，10]中由于真实的脸可能不会被表示为一个完全线性组合的预定义的脸形状的基础，为了合成更逼真的脸变形，我们添加轻微的自由变形的一些生成的网格。将“自由形式变形”应用于鼻子和下巴，以将轻微更改应用于面部形状。边界网格是手动指定的。然后，在对称平面内将鼻尖和下巴尖附近的网格顶点移动一段距离，该距离遵循高斯分布，标准偏差等于网格长度的0.001。对于生成2D图像的面部渲染，我们采用Phong模型[5]并将3D形状投影到2D成像平面上。我们使用平行光从一个方向均匀采样从正面半球的脸。环境，漫反射，镜面反射组件随机采样，从高斯分布与白光平均值和标准偏差为0。01. 渲染图像的背景被设置为黑色，因为我们期望域转移生成网络（将被引入）能够正确地去除真实人脸图像中的杂乱背景。在[10]之后，我们将地面真实几何体生成为2D UV位置图，其记录UV空间中的3D人脸形状。具体来说，我们使用参数化的UV坐标作为估计的保角映射[9]，然后将网格边界映射到正方形。采用UV贴图的好处包括与体积箱相比节省存储空间，与随机排序顶点列表相比保持相邻顶点之间的邻近关系，以及支持更灵活的变形兼容性，并以预定义的面部参数表示。一个示例渲染图像，其地面真实UV贴图和正常贴图可以在图中看到。二、9401(a) 渲染图像（b）GT形状（c）GT UV贴图(d) GT法线映射(e)真实图像（f）权重图敌对的目标，LGAN（F，DS，R，S）=Espdata（s）[logDS（s）]（1）+Erpdata（r）[log（1−DS（F（r））]，LGAN（G，DR，S，R）=Erpdata（r）[logDR（r）]+ Espdata（s）[log（1 −DR（G（s））]，其中F和G被优化以生成图像F（s）和G（r），其可以欺骗两个域鉴别器DS和DR以执行跨合成域和现实域的图像到图像的转换。循环一致性损失被应用于正则化两个图像生成器F和G，使得能够在执行两次域转移之后重建相同的图像，Lcyc（F，G）=Espdata（s）[<$F（G（s））−s<$1]（2）图2.（a）如第3.1节所述的3D渲染图像（b）第（1）款渲染图像的地面实况几何体（c）地面─+Erp数据（r） [G（F（r））−r<$1]。真实UV贴图，它在UV空间中对（b）中的3D人脸形状进行编码，贴图中的每个条目记录一个顶点（d）（b）的地面实况法线图(e) 对应于（a）的真实图像。(f)L2损失下UV估计的权重图3.2. 形状保持区域转移人脸图像生成我们框架中的域转移生成网络旨在将所有真实的人脸图像转换为具有与3D渲染的人脸图像相同的图像风格。随后，后续的面部形状估计网络将处理合成图像以估计面部3D几何形状。所提出的域转移生成网络与现有生成方法的关键区别在于，它不仅仅是一个单独的跨域训练样本生成器。相反，我们的域转移生成网络在我们的整体框架中进行端到端训练，以通过反向传播优化面部重建目标。因为通常没有成对的地面实况图像用于监督域转移。采用CycleGAN [26]作为我们的骨干，在现实图像域和渲染图像域之间来回转换图像。令R和S分别表示真实图像和合成图像的域两个图像发生器，F：R→S，将真实图像转换到合成域，G：S→R，将合成图像转换到真实域，被联合训练用于学习。域转移。此外，我们采用了两个基于块的对抗鉴别器DS和DR[12]，其中前一个旨在区分输出图像中的每个块是否来自合成域，后一个区分现实域样本。为合成域中的图像s_p_data（s），以及现实域中的图像r_p_data（r），我们有以下上述损失函数类似于经典CycleGAN模型中的损失函数，除了基于块的判别器而不是整个图像的判别器。然而，我们观察到，只有上述损失，CycleGAN模型不能保证满意的域转移结果。结果通常显示出不期望的伪影，更重要的是，大的变形，这将阻碍后续的人脸形状估计过程。为了更好地规则化图像生成并保持面部在域转移之后，面几何形状应当保持相同。然而，由于我们还不能获得3D形状，我们放松了对域转移的面部图像的约束，以具有与其原点相同的2D面部标志。在实践中，我们利用预先训练的和固定权重的面部地标估计器网络M来估计2D地标，其直接回归地标坐标并且可以允许误差反向传播。因此，我们引入了一个新的地标一致性损失的跨域人脸图像生成，Lldn（F，G）=Erpdata（r）[<$M（r）−M（F（r））<$2]（3）+Espdata（s）[M（s）−M（G（s））2]，其中，M（·）输出2Df=界标坐标。注意，尽管地标估计网络M的权重是固定的，但是它允许误差被反向传播。通过。因此，可以进一步反向传播误差以更新图像生成器F和G的参数。我们提出的域转移人脸图像生成的总体目标是9402L（F，G，DS，DR）=LGAN（F，DS，R，S） ⑷+ LGAN（G，DR，S，R）+λcycLcyc（F，G）+λldcLldc（F，G），94032其中λcyc和λldc平衡了周期一致性损失和我们新提出的里程碑一致性从地面实况面部表面获得的法线映射，Σ损失随着新的地标一致性损失，我们观察到转移Lnorm（E）=Esp数据（s） Σ（六）图像. 对于以渲染样式生成的图像，clut-也可以自动地去除噪声图像背景和面部附件，参见图1A和1B中的形状保持域转移实例。4和6。i、jΣi、j| <+|+Σ| |3.3. 具有边缘感知损失的人脸重建给定一个野生的人脸图像r，我们在上面的小节中的域转移生成网络F（r）能够将其转换为具有3D渲染图像的样式。然后，渲染图像s和域转移图像F（r）都可以由我们的人脸形状估计网络E处理，而不考虑它们的图像风格。形状UV贴图的估计。对于具有与其相关联的地面实况3D形状的3D渲染图像s，网络将图像作为输入，并且可以容易地训练以最小化具有加权L2损失的预测UV图，其中，E（s）是渲染图像s的估计形状，N（s）gt是在第3.1节中构造的地面实况法向图，并且<，>代表每个位置处的形状变化向量和法向向量之间的点积（其应该接近于零）。无监督人脸形状重建与边缘感知损失。然而，对于域转移的野外图像F（r），不存在与输入图像相关联的地面实况几何或现有的无监督人脸重建方法大多利用了光度损失来监督形状估计过程。这些方法首先估计人脸形状，然后将其重新投影回图像平面，以最小化原始图像与原始图像之间的差异。Luv（E）=E%s存储数据（% s）Σ埃夫i、ji、jE（s）i、j-Egt（s）i、j2002年，（五）面部像素值和重新投影的像素值。然而，计算这样的损失需要同时估计形状和纹理，因此可能导致模糊的形状。例如，具有纹理的平面形状可以产生与具有翘曲纹理的稍微弯曲的形状类似的结果。因此，我们提出了一个小说其中，E（s）代表网络预测的UV图，在输入s中，Egt（s）表示在第3.1节中生成的s的地面实况面部几何UV图，w是面部区域加权图，并且i，j表示在UV和权重图中的所有条目上迭代。采用面部区域加权图的动机是基于以下观察：面部模型上的并非所有顶点在控制表面的变形中起相同的作用。尖锐边缘上的顶点（如脸部轮廓、眼睑、鼻梁和嘴唇）影响更大。因此，手动设计的面部区域加权映射表示UV映射正方形上每个顶点的重要性。给定UV坐标中的重要面部标志，首先创建边缘以连接重要标志。所有UV坐标参见图1中的一个示例面权重图。3.第三章。正规平滑正则化。我们还希望增强估计的面部形状的平滑度，并防止沿估计的面部表面的突然曲率变化。沿着UV贴图的x和y维度估计的形状变化应该垂直于- 边缘感知损失函数，其集中于惩罚来自重构的面部形状的重新投影的面部边缘的误差。关键假设是，将估计的面部形状投影到图像平面应导致与来自原始输入图像的面部标志位置相同的面部标志位置。为了从输入图像中提取2D面部特征点，采用相同的固定权重面部特征点估计网络M。划分脸颊、眼睛、鼻子和嘴巴的标志由边缘连接（见图1）。3（a））。对于5个面部部分中的每一个，距离在边缘图上执行变换以获得距离图{T1，T2，···，T5}（参见图1B）。3（b-g））。它在界标边缘上具有零，并且距离值随着远离边缘偏离而增加在重建的3D形状上，我们首先从估计的形状UV图中定位相同的脸颊、眼睛、鼻子和嘴巴边缘点。然而，有时当从侧视图捕获面部图像时，其脸颊、鼻子和嘴的边缘点位置可能由于自遮挡而改变。为了定位与来自2D图像的那些边缘点相对应的这样的剩余面部边缘点，我们将3D边缘点识别为在原始边缘点位置附近并且具有大致垂直的法向量的那些边缘点。9404在观看方向上更大。这样的3D点被表示为{（x1，y1，z1），···，（xK，yK，zK）}。通过使用模拟-9405L（E）=x，ykk(a)边缘映射(b)颊距(c)左眼距离5份地图地图(e)右眼距离（f）鼻子距离（g）嘴巴距离map map图3. 2D人脸边缘及其距离图，用于计算边缘感知损失。(a)5个重要的面部边缘。(b)脸颊边缘的距离图。(c)左眼边缘距离图。(d)右眼边缘距离图。(f)鼻缘距离图。(g)口边距离图。较热的颜色表示较大的距离值。通过使用正交投影相机模型来移除它们的z坐标，它们被投影到图像平面中，如：我们定义以下边缘感知损失函数，解码器给定输入面部图像，通过估计网络来估计形状UV图图像预处理和增强。对于每个输入图像，我们首先识别其面部标志。面区域被裁剪和旋转，以具有统一的旋转和角和256×256尺寸。在训练过程中，在面部归一化之后，我们用[-10，10]中的随机2D旋转、来自正态分布N（0，82）的随机x和y平移来增强面部图像。这是为了在可能存在不准确地标位置面部正常化。培训计划。我们分两个阶段训练所提出的网络。在第一阶段，具有生成器F和G的域转移生成网络以及形状估计网络E被独立地预训练以获得良好的权重初始化。生成网络是用未成对渲染的真实人脸图像进行其中损失Lgen和λcyc= 0。1，λldn= 1。形状估计网络仅用3D渲染图像及其具有损失L形状和λ范数= 0的地面真实面几何形状进行预训练。1，λedge= 0。1.一、在第二阶段，我们框架中的两个网络使用ADAM优化器进行端到端训练，同时使用渲染图像和真实图像，以联合优化两个网络进行面部重建，1Σ5边ΣΣTm，（7）L=Lgen+λshapeLshape，（9）5m=1 |Ωm| m=1（xk，yk）∈mxk，yk其中λ形状=0。5和其他权重保持不变其中，Txm是针对第m个面部部分的2D重新投影的边缘点集，Txk，yk表示距离图T中的（xk，yk）处的距离值。直观地，如果3D重新投影的面部边缘点与从输入图像中提取的那些界标边缘很好地对准，则重新投影的面部边缘点处的距离值将被第一阶段。该网络使用16个图像（每个域8个），学习率设置为0的情况。0002.4. 实验边缘点Tm应该是零。我们测试我们的算法在公共人脸重建因此，形状估计目标可以被公式化为L形=Luv+λ范数L范数+λ边缘L边缘，（8）其中λ范数和λ边缘加权L范数和λ边缘的贡献，L边缘。3.4. 网络架构和培训计划网络结构。对于我们的图像生成器F和G，我们使用类似U-Net的网络[19]，它由8个conv-BN-ReLU块作为编码器和8个concat-ReLU-Deconv块作为解码器组成对于基于块的鉴别器DS和DR，它们有5个conv-BU-ReLU块来将输入图像下采样为8×8特征图。然后使用1×1卷积层进行基于块的二进制分类。对于形状重建网络E，我们按照[10]设计其结构，其由作为编码器的5个2-残差块和作为编码器的5个deconv-BN-ReLU组成。数据集，包括AFLW [14]， AFLW-LFPA [27]，Flo-rence [1]，以评估所提出的半监督人脸重建方法的性能这并不是说在训练我们的神经网络时没有使用来自评估数据集的地面真实人脸几何。我们只使用了100，000张基于贝塞尔人脸模型的渲染图像[4]（如第3.1节中所介绍的）具有地面实况几何信息，并且训练来自用于训练我们的模型的评估数据集的没有地面实况的图像因此，我们的半监督实验设置比现有方法更具挑战性，这些方法大多在相同的数据集上进行训练和测试。4.1. 数据集和评估指标AFLW 2, 000 -3D[14]包含来自AFLW数据集的前2,000张图像，每张图像都有68个用于面部重建评估的3D标志。由于其地面实况3DMM参数是从基于优化的9406n n方法列车组0-3030-6060-90是说3DDFA [27]300 W（带AFLW）3.784.547.935.42[27]第二十七话300 W（带AFLW）3.434.247.174.94Yu等人[25日]300W+合成3.626.069.56-3D动画[2]300WLP3.154.335.984.49PRN [10]300WLP2.753.514.613.62表1.在AFLW 2000 -3D数据集上通过比较方法获得68个具有不同偏航角的地标的2D NME（%）。方法，拟合的地面实况形状可能不准确。因此，我们测量所估计的3D脸部形状的2D重新投影的脸部界标和用于评估的地面实况3D界标之间的归一化平均误差（NME），即，NME2d=1ΣNNn=1l2d−l2dn n，（10）box width其中，L2d和L2d是重新预测的估计和地面-n ntruth 3D面部标志分别，N是面部标志，并且AFLW-LFPA是从AFLW数据集构建的另一个数据集[16]，其中包含4，000多个具有地面真实人脸几何的训练图像和1，299个测试图像。图像. 3D面顶点的归一化平均误差（NME）可以计算为图像DT Ours 3DDFA PRN图4.通过我们提出的方法在AFLW-LFPA数据集上使用域转移（DT）生成，3DDFA [27]和PRN[10]的请放大查看详情。使用跨域数据实现精确面部重建性能的强大能力，而无需在目标域中使用对于最极端的姿态（偏航角=[60°，90°]），我们的算法每-NME3d=1ΣNNn=1v3d−v3d 、（11）D最好的，因为有大量的人。具有大偏航角的定向面部图像。其中，v=3d和v=3d是预测和地面的顶点4.3. AFLW激光焦平面探测器性能评价n n真实网格，d是3D眼间距离。Florence[1]是一个包含53个主题的3D人脸数据集，其地面真实3D网格是从结构光扫描系统获取的。在我们的实验中，每个受试者20度和25度，旋转间隔在−80度，80分。4.2.对AFLW在表中。首先，我们给出了几种人脸重建算法在AFLW-LFPA数据集上的实验结果。我们在测试集上评估它们的平均NME2d以进行比较。Yu等人和3D地标[2]是仅预测3D地标的方法3DDFA和3DDFA+SDM [27]是使用单个CNN回归 3DMM面部参数PRN [10]也采用2DCNN来估计人脸UV图，但以完全监督的方式进行训练。我们所提出的方法是能够实现第二小最NME2d。这表明我们提出的框架在AFLW-LFPA上，与所有其他方法相比，以完全监督的方式进行训练，我们提出的方法仅使用来自渲染的3D图像和没有任何注释的图像的地面真实几何进行训练。平均NME 3d曲线与测试图像百分比的关系如图所示。第五条（a）款。我们的方法实现了最小的平均NME 3d= 3。703在图4中，我们展示了我们提出的方法的域转移图像和重建面网格的示例。我们的图像生成器能够消除配件（如太阳镜），并生成一致的图像风格的图像，准确的人脸重建。4.4. 佛罗伦萨评价在佛罗伦萨数据集上，一些示例重建的面网格如图所示。6、采用不同的人脸识别算法。我们提出的保形域转移生成器可以成功地从人的脸上去除胡子，同时保持他的脸形状。他们的NME三维曲线w.r.t.测试图像的百分比如图所示。5（b）。与AFLW-LFPA数据集类似，所有比较的方法，PRN [10]，3DDFA [27]，VRN-9407图5.平均NME3d与（a）通过不同比较方法在AFLW-LFPA数据集上，（b）通过不同比较方法在Florence数据集上，（c）通过不同基线方法在AFLW-LFPA数据集上的测试图像百分比。图像DT我们的3DDFA PRNet图6.使用域转移（DT）生成所提出的方法的示例重建结果，并在Florence数据集上比较了方法3DDFA [27]，PRN [10]。请放大查看详情。Guided [13]使用佛罗伦萨数据集的地面真实几何进行训练。尽管我们没有使用任何佛罗伦萨数据集的地面真实几何。我们的方法仍然可以达到与完全监督方法相当的平均NME3d4.5. 消融研究为了评估我们框架中不同组件的有效性，我们通过改变或删除框架中的某个组件来进行消融研究。他们的结果报告在Fig. 第5（c）段。测试我们网络的有效性。我们提出了三种可供选择的解决方案。1)使用具有随机背景而不是黑色背景的渲染图像（作为我们的方法），并直接用这样的合成图像训练形状估计网络（在表5（c）中表示为“合成+背景”）。其较差的性能表明，简单地在大规模的合成数据上训练不能获得良好的性能。域间隙（特别是面部边缘和毛发上的伪影）将影响回归精度。2）转移渲染图像的图像风格，并利用域转移图像的地面实况网格进行训练（表示为它的表现略差于拟议的方法，指出地面真值的准确性和训练数据的增加仍然不能处理重建任务中的一些3)分别训练我们的结果表明，与我们的端到端训练方法相比，从复杂的真实图像到简化的合成图像的转换不容易学习。我们还测试了去除Lldf或边缘损失L边缘. 这两种方法显示恶化的准确性相比，与我们的最终模型，它证明了两个损失的有效性。5. 结论本文提出了一种联合优化形状保持域转移生成网络和形状重建网络的方法，实现半监督人脸重建。与现有的方法不同，所提出的域转移生成器统一所有输入图像具有相同的风格渲染图像。提出了一种新的地标一致性损失，以保持在翻译过程中的原始人脸形状。图像生成网络可以与后续估计网络进行端到端训练，以实现最佳重建精度。这样的框架可以仅用来自合成数据的地面真实几何来训练，并且因此可以极大地减轻用于面部重建的大规模训练数据的需要大量的实验表明，我们提出的人脸重建方法的有效性。6. 确认这项工作得到商汤科技集团有限公司的部分支持，部分由香港研究资助局的通用研究基金资助，资助额为：香港中文大学 14202217 、香港中文大学14203118、香港中文大学14205615、香港中文大学14207814，香港中文大学 14213616，香港中文大学14208417，香港中文大学14239816，部分由中大直接拨款。9408引用[1] Andrew D Bagdanov，Alberto Del Bimbo，Iacopo Masi.佛罗伦萨2D/3D混合人脸数据集。在2011年ACM关于人类姿势和行为理解的联合研讨会会议录中，第79-80页ACM，2011年。[2] Chandrasekhar Bhagavatula ， Chenchen Zhu ， KhoaLuu，and Marios Savvides.比实时面部对齐更快：无约束位姿的三维空间Transformer网络方法。在IEEE计算机视觉国际会议集，第3980-3989页[3] Volker Blanz ， Curzio Basso ， Tomaso Poggio ， andThomas Vetter. 在图像和视频中恢复面部动画在计算机图形论坛，第22卷，第641-650页Wiley Online Library，2003.[4] Volker Blanz和Thomas Vetter。三维人脸合成的可变形模型。第26届计算机图形和交互技术年会集，第187-194页。ACM出版社/Addison-Wesley出版公司一九九九年。[5] 詹姆斯·F·布林计算机合成图像的光反射模型。在ACMSIGGRAPH计算机图形学中，第11卷，第192-198页。ACM，1977年。[6] 陈操、启明侯、昆州。位移动态表情回归实时面部跟踪和动画。ACM图形交易（TOG），33（4）：43，2014。[7] 曹晨、翁彦林、周顺、童一英、周坤。Facewarehouse：用于视觉计算的三维面部表情数据库。 IEEE Transactions on Visualization and ComputerGraphics，20（3）：413[8] Weijian Deng ， Liang Zheng ， Qixiang Ye ， GuoliangKang，Yi Yang，and Jiabin Jiao.具有保留的自相似性和域不相似性的图像-图像域自适应用于人重新识别。在IEEE计算机视觉和模式识别集，第994[9] 马蒂厄·德斯布伦马克·迈耶和皮埃尔·阿列兹表面网格的内在参数化。计算机图形学论坛，第21卷，第209WileyOnline Library，2002.[10] Yao Feng，Fan Wu，Xiaohu Shao，Yafeng Wang，andXi Zhou. 结合位置映射回归网络的三维人脸重建与密集对齐欧洲计算机视觉会议，2018。[11] Hui Guo，Jiayan Jiang，and Liming Zhang.利用薄板样条建立三维可变形人脸模型进行人脸重建。生物识别个人认证进展，第258-267页。Springer，2004.[12] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros.使用条件对抗网络的图像到图像翻译。arXiv预印本，2017年。[13] Aaron S Jackson，Adrian Bulat，Vasileios Argyriou，andGeorgios Tzimiropoulos.通过直接体积cnn回归从单幅图像重建大姿态三维人脸。IEEE International Conferenceon Computer Vision，第1031-1039页，2017年[14] Amin Jourabloo和Xiaoming Liu。基于cnn的密集3d模型拟合的大姿态人脸对齐在IEEE计算机视觉和模式识别会议论文集，第4188-4196页[15] Hiroharu Kato、Yoshitaka Ushiku和Tatsuya Harada。神经三维网格渲染。在IEEE计算机视觉和模式识别会议论文集，第3907- 3916页[16] Martin Koestinger，Paul Wohlhart，Peter M Roth，andHorst Bischof.野生动物的面部标志：用于面部标志定位的大规模真实世界数据库。2011年IEEE计算机视觉研讨会国际会议（ICCV研讨会），第2144IEEE，2011年。[17] Tianye Li，Timo Bolkart，Michael J Black，Hao Li，and Javier Romero.从4d扫描中学习面部形状和表情的模型ACM Transactions on Graphics（TOG），36（6）：194，2017。[18] Elad Richardson Matan Sela和Ron Kimmel通过从合成数据学习的3D人脸重建在2016年第四届3D视觉国际会议（3DV）上，第460- 469469. IEEE，2016.[19] Olaf Ronneberger，Philipp Fischer，and Thomas Brox. U-net：用于生物医学图像分割的卷积网络。医学图像计算和计算机辅助干预国际会议，第234-241页。施普林格，2015年。[20] Matan Sela Elad Richardson和Ron Kimmel使用图像到图像转换的无限制面部几何结构重建在计算机视觉（ICCV），2017年IEEE国际会议上，第1585-1594页IEEE，2017年。[21] Ashish Shrivastava，Tomas Pfister，Oncel Tuzel，JoshuaSusskind，Wenda Wang，and Russell Webb. 通过对抗训练从模拟和无监督图像中在IEEE计算机视觉和模式识别会议论文集，第2107-2116页，2017年。[22] AyushTewari ， MichaelZollhofer， PabloGarrido ， FlorianBernard，HyeongwooKim，PatrickPe'rez，andChristianTheobalt.250hz以上单目重建的自我监督多层次人脸模型学习。在IEEE计算机视觉和模式识别会议论文集，第2549-2559页，2018年[23] AyushTewari ， MichaelZollhofer ， Hyeongw ooKim ，PabloGarrido，FlorianBernard，PatrickPe'rez和ChristianTheobalt。Mofa：基于模型的深度卷积人脸自动编码器，用于无监督单目重建。在IEEE国际计算机视觉会议（ICCV），第2卷，第5页，2017年。[24] Longhui Wei，Shiliang Zhang，Wen Gao，and Qi Tian.人员转移甘桥梁域差距的人重新识别.在IEEE计算机视觉和模式识别会议论文集，第79-88页，2018年。[25] Ronald Yu ， Shunsuke Saito ， Haoxiang Li ， DuyguCeylan，and Hao Li.在未处理的图像中学习密集的面部对应在IEEE计算机视觉国际会议论文集，第4723-4732页9409[26] Jun-Yan Zhu ， Taesung Park ， Phillip Isola ， Alexei AEfros.使用循环一致对抗网络的不成对图像到图像翻译。arXiv预印本，2017年。[27] Xiangyu Zhu，Zhen Lei，Xiaoming Liu，Hailin Shi，and Stan Z Li.跨大姿势的面部对齐：3D解决方案。在IEEE计算机视觉和模式识别会议论文集，第146-155页

下载后可阅读完整内容，剩余1页未读，立即下载