内图像去纠缠的端到端生成对抗网络

138 浏览量更新于2023-10-15 收藏 936KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1具有内在图像去纠缠的Zhixin Shu1 Ersin Yumer2 Sunil Hadap2 Kalyan Sunkavalli2 Eli Shechtman2 Dimitris Samaras1，31StonyBrookUni versity2 AdobeResearch3CentraleSupe′ lec，Uni versite′PZu-Saclay1{zhshu，samaras}@ cs.stonybrook.edu2{yumer，hadap，sunkaval，elishe}@ adobe.com摘要传统的人脸编辑方法通常需要一个接一个地应用许多复杂的和任务特定的算法-这是一个繁琐、脆弱和计算密集的过程。在本文中，我们提出了一个端到端的生成对抗网络，它提供了一个特定于面部的内在面部属性的解纠缠表示，包括形状（即，法线）、渐变、照明和Alpha蒙版。我们表明，该网络可以通过将网络内基于物理的图像形成模块和适当的损失函数在“野外”图像上进行训练我们解开潜在的representation允许语义相关的编辑，其中一个方面的面部外观可以操纵，同时保持- ING正交属性固定，我们证明了它的使用，一些面部编辑应用程序。1. 介绍在野外理解和操纵人脸图像这包括重新照亮肖像[34]的技术，编辑或夸大表情[36]，甚至是驱动fa-cial性能[31]。这些方法中的许多方法都是从显式重建面部属性（如几何形状、纹理和照明）开始，然后编辑这些属性以编辑图像。然而，重建这些属性是一个具有挑战性的，往往是不适定的任务;先前的技术通过假设更丰富的数据（例如，RGBD视频流）或关于重构的强先验，其适于它们寻求解决的特定编辑任务（例如，低维几何[6]）。因此，这些技术往往既昂贵，又不能很好地推广到野外图像中存在的面部身份和外观的巨大变化在这项工作中，我们的目标是学习一个紧凑的，有意义的流形的面部外观，并使面部编辑沿着这个流形上的路径行走。令人瞩目的是，(a) 输入(b)重建（c）阴影（d）法线（e）阴影(f)重拾（g）微笑（h）胡须（i）眼镜（j）老年人图1。给定一张人脸图像（a），我们的网络用网络内学习的颜色（c）、正常（d）和着色（e）重建使用该网络，我们可以通过光照（f），表情（g），外观（h），眼镜（i）和时间（j）来操纵人脸。可变形的面部模型[6]（其中面部几何形状和纹理使用低维线性流形来表示）的数量表明这对于面部外观是可能的。然而，我们希望处理更广泛的操作，包括视点、照明、表情甚至更高级别的属性（如面部毛发和年龄）的变化-这些此外，我们希望在不需要昂贵的数据捕获的情况下学习这个模型[7]。为此，我们以深度学习的成功为基础- ing-特别是无监督的自动编码器网络-从大量数据中学习“好”的表示[4]。简单地将这些方法应用于我们的问题会导致没有意义的表示，使随后的编辑具有挑战性。然而，我们有面部外观的（近似）模型，这些模型是根据面部的内在属性，如几何形状（表面法线）、材质属性（漫反射）和照明。我们利用这一点，通过设计网络来显式地推断这些属性，并引入一个网络内的前向渲染模型，从它们重建图像。仅仅将这些因素引入网络是不够的;由于逆绘制问题的不适定性质，所学习的内在属性可以是任意的。我们通过对这些内在属性中的每一个施加先验来引导网络;这些包括几何形状上的可变形模型驱动先验，55415542基于Retinex的[20]先验知识，以及基于低频球谐函数的照明模型[25，3]的解释。通过将这些约束与对图像重建的对抗监督以及对推断出的面部内在属性的弱监督相结合，我们的网络能够学习面部表情的非纠缠表示。由于我们使用的是自然图像，因此人脸会出现在任意背景的前面，而人脸的物理约束并不适用。因此，我们还引入了一个哑光层来分离前景（即，面部）从图像背景。这使我们能够在专门为人脸设计的网络中提供最佳的重建路径，而不会扭曲背景重建。我们的网络自然地暴露了每个内在属性的低维流形嵌入，这反过来又可以从单个输入图像进行直接和数据驱动的语义编辑。具体来说，我们展示了直接照明编辑与显式球谐光- ING内置到网络中，以及潜在的空间流形遍历语义上有意义的表达编辑，如微笑，和结构上更全局的编辑，如老化。我们表明，通过约束不影响目标编辑的物理属性，与其他基于学习的人脸编辑方法相比，我们可以实现更逼真的结果我们的主要贡献是：（1）介绍了一个端到端的生成网络，该网络是专门为野外人脸图像的理解和编辑而设计的;（2）我们将图像形成和着色过程编码为网络层，使得能够在潜在空间中解开基于物理的渲染元素（诸如形状、照明和阴影）;（3）我们引入了统计损失函数（例如对应于颜色一致性理论[20]的分批白色阴影（BWS）），以改善解开潜在表示。2. 相关工作人脸图像处理。人脸建模与编辑是视觉和图形学领域的一个重要研究课题。Blanz和Vetter[6]表明，面部几何形状和纹理可以通过低维变形面部模型来近似。该模型及其变体已用于各种任务，包括重新照明[34，8]、面部属性编辑[7]、表情编辑[5，22]、创作面部表现[32，31]和老化[16]。另一类技术使用粗略的几何估计来驱动基于图像的编辑任务[36，28，14]。这些作品中的每一个都开发了专门为其应用而设计的技术，并且通常不能推广到其他任务。相反，我们的工作旨在学习一个通用的流形的面部外观，可以支持所有这些任务。内在分解。巴罗和塔南鲍姆[2]提出了将图像分解为表面法线、表面阴影等物理本质分量的概念。Barron和Mallik [1]扩展了这种分解，假设使用低频照明的朗伯渲染模型，并利用了几何、光照和照明方面的广泛知识。该渲染模型也已用于面部重新照明[34]和基于阴影的形状重建[15]。我们在工作中使用类似的渲染模型，但通过训练具有弱监督的深度网络来学习面部特定的外观模型。神经逆渲染。生成网络架构已被证明是有效的图像处理。Kulkarni等[18]利用变分自动编码器（VAE）[17]来合成输入图像的新变化，其中对象姿势和照明条件被改变。Yang等人。[37]展示了给定图像中对象的新颖视图合成，其中视图特定属性利用递归网络在潜在空间中解开。相反，Tatarchenko et al.[30]使用自动编码器风格的网络进行相同的任务，其中变换通过二次输入流进行编码，并与潜在空间中的输入图像混合。最近，Yan et al.[35]使用VAE变体和分层表示来生成具有特定语义属性的图像。我们采用了他们的背景前景disentang- gling计划，通过在网络的matte层。人脸表征学习人脸表征学习通常使用针对识别或标记任务训练的标准卷积神经网络来执行[29，24，27]。这种方法通常需要大量的数据，因为网络被视为黑匣子。使用归一化和增强[29，12，13]来综合提升数据集已被证明是有用的。最近，Masi et al.[23]使用与我们的方法类似的可变形模型进行面部拟合，但使用生成的3D面部来生成更多数据用于传统的识别网络训练。即使这样的学习表示是强大的，特别是在识别方面，它们也不是直接用于面部编辑的。最近，Gardner et al.[10]通过标准识别网络演示了人脸编辑。由于网络没有自然的生成路径，他们使用两步优化过程（一步在潜在空间，一步在低级特征空间）来重建编辑后的图像。这一点，再加上它们使用全局潜在空间的事实，导致了意外的更改和工件。另一方面，我们的生成式自动编码器风格网络允许物理上有意义的潜在空间解开，从而解决了两个问题：我们将语义编辑约束到其相应的潜在表示，并且我们的解码器在单个前向传递中生成编辑结果。我们将面部生成过程制定为端到端-5543诶诶图2. 网络架构。可互换模块（灰色背景-虚线边界）突出了我们提出的两种架构之间的差异：（a）显式法向（Ne）映射和显式非线性（Ae）映射的直接建模。(b)隐式坐标系（UV）、隐式（Ai）和法线（Ni）建模，以帮助进一步解开面部前景。端网络，其中面通过其形状、光照和照明的显式网络内表示进行物理接地。图2显示了整个网络结构。我们首先介绍前景阴影层和图像形成层（第二节）。2.1），其次是两个替代的网络中的脸表示（图。2（a）-（b）和Sec. 2.2）与网络内图像形成兼容。最后，我们介绍了在网络抠图（第二节。2.3），其进一步解开了野外人脸图像的前景和背景的学习过程2.1. 基于物理的网络内人脸绘制从图形的角度来看，我们假设给定的面部图像Ifg是渲染过程的结果，其中输入是一个旋转映射Ae、一个法线映射Ne和照明/光照L：Ifg=frendering（Ae，Ne，L）（1）我们假设朗伯反射率，并采用Retinex理论[20]来分离反射率（即，反射率）从几何形状和照明：Ifg=f成像（Ae，Se）=Ae<$Se（2）其中，x表示图像空间中的每元素乘积运算，并且Se表示由下式渲染的着色图：形成过程：隐变量Z Ae、正态变量Z Ne和照明变量Z L。我们表明，这是一个单一的潜在变量，编码的所有图像形成因素的综合效果的每个潜变量都允许我们访问特定的流形，在那里可以执行语义相关的编辑，同时保持不相关的潜变量固定。例如，可以通过仅遍历由ZL给出的照明流形或仅改变照明流形（例如，为了长胡子）通过遍历ZAe。在无约束条件下，从几何（Ne）和照明（L）计算阴影是不平凡的，并且可能导致fshading（·，·）在它所表示的空间的相当大的区域中是不连续的函数因此，我们进一步假设遥远的照明，L，这是代表。[25]第二十五话朗伯着色函数fshading（·，·）具有解析形式并且是可微的。根据先前的工作[25，3，34，1]，照明L由9维球谐系数向量表示。对于给定像素i，其中法线ni=[nx，n y，n z]n，着色呈现为：Si=S（n，L）= [n; 1]K[n; 1]（4）哪里E和L：Se=fshading（Ne，L）（3）c1L9c1L5c1L8c2L4c1L5−c1L9c1L6c2L2K=如果等式2和3是可区分的，它们可以实现为自动编码器网络中的网络层（图2）。第2（a）段）。这使我们能够用解缠的LA来表示图像-1L8C1L6C3L7C2L3Cc2L4c2L2c2L3c4L1−c5L7cl = 0。429043c 2 = 0. 511664（五）为图像中具有物理意义的因素提供帐篷变量c3 = 0。743125c4 = 0。886227c5 = 0。2477085544XSi我们提供了偏导数的公式，地面与磨砂层类似的工作，∂Si ∂SiSial. [35]第35段。遮罩层计算∂ne,∂ne和e在补充材料中。我们-y zL j使用这两个差分渲染模块进行着色，f图像形成，我们现在可以实现网络内的渲染模块，如图2所示。2.2. 网络内人脸表示显式表示。在前一节中介绍的公式需要在图像坐标系中定义图像形成和这可以通过面部属性的显式逐像素表示来实现：N e，A e。图2（a）描述了模块，其中显式法线和隐式法线由其潜变量ZN，ZA表示。注意前景脸到背景上：Io=M<$Ifg+（1−M）<$Ibg（6）抠图层还使我们能够利用有效的跳过层，其中解码器堆栈中的解池层可以使用来自输入图像的对应编码器堆栈的池化开关（图2中从输入编码器到背景和掩码解码器的灰色链接）。编码器和解码器之间的跳过连接允许背景的细节在更大程度上被保留。这样的跳过连接绕过瓶颈Z，因此在连接期间仅允许部分信息流通过Z。e e训练。光照L独立于面部表示;我们使用球谐系数来表示它，即，ZL=L直接由着色层使用，其前向过程由等式n给出。4.第一章隐式表示。尽管显式表示有助于解开某些属性，并将编辑更直观地与潜在变量流形（即，重新照明），在某些情况下可能不令人满意。例如，姿势和表达式编辑可能会更改图像空间中的显式每像素法线以及每像素法线。因此，我们引入了一个隐式表示，其中的参数化是在面对的坐标系，而不是图像坐标系。这将允许我们进一步约束姿势和表情对形状的变化（即，正常）空间。为了解决这个问题，我们引入了一个替代的网络架构，其中图中模块中描述的显式表示。2（a）被替换为图。第2段（b）分段。在此，UV表示每像素面部空间UV坐标，Ni和Ai表示面部UV坐标系中的法线和法线映射，并且ZUV、ZNi和ZAi表示面部UV坐标系中的法线和法线映射。相应的潜在变量。这类似到计算机图形学中的标准UV映射过程。面部特征在这个空间中对齐（眼睛对应眼睛，嘴巴对应嘴巴等），因此，网络必须学习更小的变化空间，从而导致更清晰、更准确的重建。请注意，即使网络在测试时只使用显式隐变量，我们也为所有隐变量提供了辅助解码器堆栈，以鼓励在训练期间解开这些变量。实施和培训细节将在第3.2.2.3. 网络背景遮片为了进一步鼓励基于物理的表示法，法线和照明集中在面部区域，我们从前面解开背景，对于前景人脸区域，我们选择3. 执行3.1. 网络架构卷积编码器堆栈（图2）是由32个33 ×3、64个33 ×3和64个33 ×3滤波器组的三个卷积组成的每个卷积之后是最大池化和ReLU非线性。我们在每个池化层之后填充滤波器响应，以便卷积堆栈的最终输出是一组大小为64×8 ×8的滤波器响应，输入图像3×64×64。ZIi是128×1的隐变量向量，其完全连接到下游的最后一个编码器堆栈，以及背景Zbg、掩模Zm、光ZL和前景表示的各个潜变量。对于明确的前景表示，它直接连接到 ZNe 和 ZAe （图10）。（2）（a）（a）（b）（a）（b）（c）（a）（b）（a）（b）（c）（a）（b）（a）（b）（c）（a）（b）（a）（b）（c）（a）（b）（c）（a）（a）（b）（c）（a）（b）（c）（a）（a）（b）（c）（a）（b）（c）（a）（a）（b）（c）（a）（b）（c）（a）（a）（它连接到ZUV，ZNi和ZAi（图1）。第2段（b）分段）。所有单独的潜在表示都是128 × 1矢量，除了Z L，Z L直接表示光L，因此是27 × 1矢量（三个9 ×1级联矢量表示RGB分量的球谐函数）。用于对每像素（显式或隐式）值进行上采样的所有解码器堆栈与编码器堆栈严格对称。如第2.3中，用于掩码和背景的解码器栈具有到对应层处的输入编码器栈的跳过连接。隐式法线Ni和隐式法线Ai在解码器中共享权重，因为我们仅监督隐式法线。3.2. 培训我们使用“野外”人脸图像进行训练。因此，我们只能访问图像本身（由I表示），并且没有任何照明的地面实况数据5545UV我Rnormal正常map地图，or the arbitrary正常map地图.因此，主要损失函数是关于在输出Io处的图像Ii的重建：Eo=Erecon+λ advE adv（7）其中Erecon=||I i−I o||二、Eadv由对抗性损失给出，其中同时训练判别网络以区分生成的和真实的IM。年龄[11]。具体来说，我们使用基于能量的方法[38]来合并对抗性损失。在这种方法中，自动编码器被用作鉴别网络，D。生成网络的对抗性损失定义为：Eadv= D（I′），其中I′是判别器输入I o的重构，因此D（. ）是L2重建损失的CFDD。我们训练D以最小化[38]提出的完全无监督的训练只使用输出图像上的反射和对抗性损失，通常会导致语义上无意义的潜在表示。网络架构本身不能防止退化的解决方案，例如，当A e捕获阴影和阴影信息而S e保持恒定时。由于每个渲染元素都有特定的物理意义，对于隐式坐标系（UV）变量（图2-（b）），我们提供L2监督UV和Ni：E=||UV− UV||二（十二）EN=||Ni−Ni||2（ 13）UV和Ni是从上述的变形模型中获得的，其中，3D拟合存在。我们利用Morphable模型S的平均形状来构造正则坐标映射（UV）和表面法线映射（Ni），并通过这种对应将其传播到有关该计算的更多详细信息，请参见我们的补充文档。由于照明大小的模糊性，因此阴影的强度（等式2）。2）、有必要对阴影幅值进行约束，以防止网络产生任意的亮/暗阴影。此外，由于照明在各个颜色Lr、Lg和Lb中被分离，因此我们结合约束以防止阴影在一个颜色通道中相对于其他颜色通道太强为了处理这些不确定性，我们在 Se 上引入批量白色阴影（BWS）约束：作为网络中的中间层，我们1Σ1 Σ1 Σ通过中间损耗引入额外约束si（j）=si（j）=si（j）=c （14）指导培训的职能。首先，我们介绍了N，一个MRi、jMGi、jMbi、j法线贴图Ne，以在训练过程中保持法线贴图接近合理的面法线。我们通过使用3D Morphable Model [6]将粗糙的面部几何形状拟合到训练集中的每个图像来估计N。然后，我们将以下目标引入到N e：其中si（j）表示Se的第一（红色）通道中的第i个示例的第j个像素。sg和sb表示第二个，第三个通道的阴影分别。m是训练批次中的像素数。在所有实验中，c= 0。75.由于通过可变形模型获得的N_n具有仅在面部表面上的感兴趣区域，我们将其用作E重组-N 为||Ne-N ||第二（8）条我们计算所有前景损失的掩码。此外，该感兴趣区域还用作掩模类似于N的情况，我们提供了一个L2重建损失w。R.TL，在照明参数ZL上：在训练时间用于学习哑光掩模的伪地面实况：Erecon-L 为||ZL-L||二（九）EM=||M−M||2（15）其中M表示可变形模型遮罩。其中，L是根据N和输入图像计算的，最小二乘优化和常数最小二乘优化[33，34]。此外，根据Retinex理论[20]，其假设Xudo是分段常数并且着色是平滑的，我们在Xudo的梯度上引入L1平滑损失，A：E平滑-A=||Ae||（十）其中，x是空间图像梯度运算。此外，由于假设阴影平滑变化，因此我们在阴影的梯度上引入L2平滑损失，Se：55464. 实验我们使用CelebA[21]数据集来训练网络。对于数据集中的每个图像，我们检测地标[26]，并将3DMorphable Model [6，36]拟合到面部区域，以粗略估计渲染元素（N，L）。这些估计数被用来确定上一节详述的各种损失。该数据随后仅用于如前所述的网络训练。4.1. 基线比较为了比较，我们训练一个自动编码器B作为基线. B的编码器和解码器与EN相同EsmoothS 为||S e||第二章（十一）在我们的架构中的编码器和解码器的PRANDO。使5547输入基线我们的侦察我们的朋友我们的阴影我们正常3DMM(1)（2）（3）（4）（5）（6）（7）（8）（9）（10）图3.前馈重建和法线，阴影，反投影估计。与基线自动编码器（第2行）相比，我们的重构（第3行）不仅保留了背景（1，2，4）的细节，而且由于分层表示和网络内渲染过程，对复杂姿态（3，4），照明（5）和身份（9，10）此外，我们的网络包含对前景（人脸）的法线（第4行）、阴影/光照（第5行）和阴影（第6行）进行显式编码的组件，这有助于理解和操作人脸图像。在最后一行中，我们展示了来自3D Morphable Model的正常估计。我们可以很容易地看到，使用我们的网络，生成的形状保留了原始图像的更多身份信息，并且不会落入基于PCA的变形模型的子空间中，该模型被用作弱监督训练。所有结果都是由为显式表示而设计的网络产生的。比较公平，B的瓶颈层被设置为265（= 128+ 128+ 9）维，这是我们架构中瓶颈层（大小128）的两倍多，从而为基线产生稍微更多的容量。尽管我们的架构有一个更窄的瓶颈，但dis-潜在因素的纠缠和基于物理的绘制层的存在，导致对复杂背景、姿态、照明、遮挡等更鲁棒（图（3）第三章。更重要的是，给定一个输入的人脸图像，我们的网络提供了一个显式的访问估计的阴影，阴影和正常的地图（图。（3）脸。值得注意的是，在图的最后一行。3，我们将从我们的网络中推断的法线与使用我们部署用于指导训练过程的3D变形模型从输入图像中估计的法线进行比较。数据构建了MOR-phable模型只包含16个标识;这个小的恒等变化子空间导致法线经常是真实脸部形状的不准确近似（图7中的行7）。（3）第三章。通过使用这些估计作为弱监督，结合基于外观的渲染损失，我们的网络能够生成法线贴图（图6中的第6行）。3）扩展到可变形模型子空间之外，更好地拟合输入人脸的形状，并表现出更多的身份信息。请参阅我们的补充材料以获得更多的比较。4.2. 基于流形变换的面编辑我们的网络能够操纵语义面部属性（例如，表情、面部毛发、年龄、化妆和眼镜）。5548（a）（b）（c）（d）（e）图4。微笑编辑通过遍历我们的代表（显式的非正式和正常）与。基线自动编码器表示。我们的网络提供了输入图像（a）的更好的重建（d），并捕获了与微笑（e）相关的几何形状和外观变化基线网络导致重建效果(b) 和编辑（c）。对于给定的属性，例如，对于微笑的表情，我们将正数据{xp}（微笑的脸）和负数据{xn}（具有其他表情的脸）都输入到我们的网络中，以生成两组Z代码{zp}和{zn}。这些集合表示数据的相应经验分布在低维Z-空间上。给定不微笑的输入面部图像I源，我们试图通过将其Z代码Z源朝向分布{z}p移动以获得变换后的代码Ztransm来使其微笑。然后，我们用我们的解码器重建了Z变换对应的图像模型为了计算每个属性的分布，我们使用适当的属性标签（例如，微笑vs其他表情）。我们使用Gardner等人提出的流形遍历方法。[10]独立于每个适当的变量。遍历的范围由正则化参数λ参数化（详见[10]）。(a) 投入（b）重建（c）基线(d)ZUV（e）ZUV，ZNi （f）ZUV，ZNi，ZAi图5.通过隐式因子遍历进行微笑编辑。我们的隐式表示通过UV流形（d）以及UV和隐式法线（e）的遍历直接捕获微笑。另一方面，遍历隐式卷积会导致明显的外观伪影（f）。对于这个实验，我们在所有流形上使用相同的正则化（λ(a) 输入（b）重建（c）（d）（e）图6。通过瓶颈流形上的渐进遍历进行微笑编辑（ZUV 和ZNi）。从（c）到（e），λ为0。07，0。05，0.03 分别当潜在的表征靠近在微笑模式下，会出现更强的微笑特征，如扬起的脸颊和洁白的牙齿。请注意，我们还能够捕捉到眼睛的细微变化，这些变化通常与微笑有关。在图4中，我们将使用我们的网络的结果与基线自动编码器进行了比较。我们遍历了面部和正常变量，以产生编辑，使面部微笑，并能够捕捉表情和牙齿外观的变化，同时保留图像的其他方面。相比之下，遍历基线潜在空间的结果要差得多-除了不能正确地重建输入的姿势和身份之外在图5中，我们展示了隐式表示的效用。虽然嘴唇/嘴和牙齿可能映射到图像空间的同一区域，但它们实际上在面部UV空间中是分开的。这允许隐式变量学习更有针对性和更准确的表示，因此仅遍历ZUV就可以生成笑脸。将其与沿ZNi的遍历相结合，夸大了微笑。相比之下，我们不期望微笑与隐式空间相关，并且沿着ZAi遍历导致具有不正确的正面姿势的较差结果。在图6中，我们展示了更多的微笑结果，并证明放松遍历正则化参数λ会逐渐导致更强的微笑表情。我们还通过流形遍历处理老化的编辑任务。对于这个实验，我们使用PubFig[19]中的图像和标签构建潜在5549LL(a) 目标（b）源（c）S源（d）转移（e）S转移图8。照明转移使用我们的模型。我们将两个源图像（b）的照明转移到给定的目标（a）（顶部：图像;底部：估计法线），通过使用源的照明生成目标的阴影（e），并应用于原始目标图像。(a) 输入（b）重建（c）（d）（e）图7. 老化通过遍历上的非线性和正常的流形。从（c）到（e），λ为0。07，0。05，0。03分别当潜在表征向高级模式移动时，更强的老化特征（例如面部形状和纹理的变化）出现，同时保留外观的其他方面，例如姿势、照明和眼镜。对应于最高级和最低级图像的数据集。我们认为老化与形状和结构都有关系，如图所示7，遍历这些流形导致令人信服的年龄进展。请注意，所有这些编辑都是在完全相同的网络上执行的，这表明我们的网络架构足够通用，可以表示人脸外观的多样性，并且能够解开潜在因素以支持特定的编辑任务。请参阅我们的补充材料，了解更多结果和比较。局限性。我们现在的面具不包括头发。这导致对某些编辑的控制较少，例如老化，这是固有的影响，以及头发。然而，如果还包括头发的掩模，可以生成[9]。4.3. 重光照在我们的网络中，正交光分解的直接应用是，它允许我们通过ZL操纵输入面的照明，同时保持其他潜在变量固定。我们可以通过用其他Z源（例如，使用另一个面的照明变量）替换其Z目标来直接虽然我们的网络被训练来重建输入，但由于其有限的容量（特别是由于瓶颈层维度），重建不会再现输入所有的细节。然而，对于照明我们通过我们的网络传递源图像和目标图像，以估计它们的我们使用目标阴影S目标与方程。2来计算给定源光L_source，我们用目标法线N_target（等式2）在该光下渲染目标的阴影。（3）获得转移的明暗度S转移。最后，使用等式2，用A目标和S转移渲染照明转移图像。2. 这一点在图中得到了证明。8，其中我们能够成功地将来自具有不同身份、性别和姿势的两个光源的照明转移到目标，同时保留其所有细节。我们提出了更多的重新照明的结果，以及定量测试的照明（即。球谐系数）预测。5. 结论我们提出了一个基于物理渲染的解纠缠网络，专门为人脸设计。这样的解缠使得能够进行真实的面部编辑，因为它允许在操纵时进行琐碎的约束。我们是第一个尝试在网络中渲染具有真实任意背景的野生面孔的人。与传统自动编码器方法的比较显示了最终编辑的显着改进，并且与传统方法相比，我们的中间输出（如面部归一化）显示出更好的身份保留6. 确认这项工作始于Zhixin Shu在Adobe Research实习时。这项工作得到了 Adobe ， NSF IIS-1161876 ， StonyBrook SensorCAT和合作伙伴大学基金4DVision项目的支持。5550引用[1] J. T. Barron和J.马利克形状、照明和阴影的反射。IEEEtransactionsonpatternanalysisandmachineintelligence，37（8）：1670[2] H. G. Barrow和J. M.特南鲍姆从图像中恢复固有场景特征。技术报告157，人工智能中心，SRI国际，333Ravenswood Ave.，门洛帕克，加利福尼亚州94025，1978年4月。[3] R. Basri和D. W.雅各布斯朗伯反射率和线性子空间。IEEE模式分析与机器智能学报，25（2）：218[4] Y. Bengio，A. Courville和P。文森特表征学习：回顾与新的视角。 IEEE Transactions on Pattern Analysis andMachine Intelligence，35（8）：1798[5] V.Blanz、C. Basso，T. Poggio和T.维特在图像和视频中重新激活面部。计算机图形学论坛，2003年。[6] 诉Blanz和T.维特三维人脸合成的可变形模型在第26届计算机图形和交互技术年会的会议记录中，第187194. ACM 出版社/Addison-Wesley 出版公司一九九九年。[7] C. Cao ， Y.Weng 、黄毛菊 S.Zhou ， Y.Tong 和 K. 舟Faceware- house：一个用于视觉计算的三维面部表情数据库 IEEE Transactions on Visualization and ComputerGraphics，20（3）：413-425，Mar. 2014年[8] M. 柴湖，加-地Luo，K.Sunkavalli，N.Carr，S.Hadap，以及K.舟高品质的头发造型从一个单一的肖像照片。ACM事务处理图表，34（6）：204：1-204：10，Oct. 2015年。[9] M.柴氏T. Shao，H. Wu，Y. Weng和K.舟自动头发：从单个图像进行全自动头发建模。ACM Transactions onGraphics（TOG），35（4）：116，2016.[10] J. R.加德纳M. J. Kusner，Y.作者：Li，P. Q. Weinberger和J. E.霍普克罗夫特深度流形遍历：使用卷积特征更改标签。arXiv预印本arXiv：1511.06421，2015。[11] I. 古德费罗 J. 波吉特-阿巴迪 M. 米尔扎 B. 许、D. 沃德-法利，S。奥扎尔A.Courville和Y.本吉奥。生成对抗网络。神经信息处理系统进展，第2672-2680页，2014年[12] T.哈斯纳在3d中查看真实世界的面孔。在IEEE计算机视觉国际会议论文集，第3607-3614页[13] T. Hassner，S. Harel、E. Paz和R.恩巴无约束图像中的有效人脸正面化在2015年IEEE计算机视觉和模式识别会议论文集，第4295-4304页中[14] I.克梅尔马赫-施利泽曼变形肖像。ACM Transactions onGraphics（TOG），35（4）：94，2016.[15] I. Kemelmacher-Shlizerman和S. M.塞茨在野外进行面部重建。2011年国际计算机视觉会议，第1746-1753页。IEEE，2011年。[16] I. Kemelmacher-Shlizerman，S. Suwajanakorn和S. M.塞茨照明感知年龄进展。2014年IEEE计算机视觉和模式识别会议，第3334-3341页。IEEE，2014。[17] D. P.Kingma和M.威林自动编码变分贝叶斯。arXiv预印本arXiv：1312.6114，2013。[18] T. D. Kulkarni、W.F. Whitney，P.Kohli和J.特南鲍姆深度卷积逆图形网络。In C. 科尔特斯N. D. Lawrence，D. D.李，M。Sugiyama和R. Garnett，编辑，神经信息处理系统进展 28 ，第 2539-2547页Curran Associates，Inc. 2015年。[19] N.库马尔A. C. Berg，P. N. Belhumeur和S. K.纳亚尔用于人脸验证的属性和明喻分类器。2009年IEEE第12届计算机视觉国际会议，第365-372页。IEEE，2009年。[20] E. H.兰德和J. J。麦肯亮度和视网膜理论。JOSA，61（1）：1[21] Z. Liu，P.Luo，X.Wang和X.唐深度学习在野外面临挑战在IEEE计算机视觉国际会议论文集，第3730-3738页[22] Z. Liu，Y. Shan和Z.张某表达性表情映射与比率图像。第28届计算机图形和交互技术年会集，第271-276页。ACM，2001年。[23] I. Masi，A. T. anTran，T. Hassne r，J. T. Leksut，以及G.梅迪奥尼我们真的需要收集数百万张人脸来进行有效的人脸识别吗？欧洲计算机视觉会议（ECCV），2016年10月。[24] O. M. Parkhi、黑腹拟步行虫A. Vedaldi和A.齐瑟曼。深度人脸识别。在英国机器视觉会议，第1卷，第6页，2015年。[25] R. Ramamoorthi和P.汉拉汉关于辐射率和辐照度之间的关系：从凸朗伯物体的图像确定照明。JOSA A，18（10）：2448[26] J. 萨拉吉主回归分析。在计算机视觉和模式识别（CVPR），2011 IEEE会议上，第2881-2888页IEEE，2011年。[27] F. Schroff，D. Kalenichenko和J.菲尔宾Facenet：用于人脸识别和聚类的统一嵌入。在IEEE计算机视觉和模式识别会议的Proceedings，第815-823页[28] Z. Shu、E. Shechtman，D. Samaras和S.哈达普大开眼界：在野外编辑眼睛。ACM事务处理图表，36（1）：1：1-1：13，Sept. 2016年。[29] Y.泰格曼，M。杨，M. Ranzato和L.狼Deepface：缩小与人脸验证中人类水平性能的差距在IEEE计算机视觉和模式识别会议论文集，第1701-1708页[30] M. Tatarchenko，A.Dosovitskiy和T.布洛克斯利用卷积网络从单个图像中建立多视图欧洲计算机视觉会议，第322-337页。施普林格，2016年。[31] J. Thies，M. Zollh oüfer，M. S t amminge r，C. Theobalt和M.尼斯纳Face2face：实时人脸捕捉和rgb视频的在proc计算机视觉和模式识别（CVPR），IEEE，2016。[32] D. 弗拉希奇M. Brand，H. Pfiste r和J. 我的天多线性模型的空间转移ACM事务处理图表，24（3）：4265551[33] Y. Wang， Z. Liu，G.华，智-地温，Z. Zhang和D.萨玛-拉斯。在苛刻的光照条件下从单个图像重新照明面部第1-8页[34] Y.王湖，加-地Zhang，Z. Liu，G.华，智-地温，Z.Zhang和D.萨马拉斯任意未知光照条件下的单幅图像人脸重光照。IEEE Transactions on Pattern Analysis andMachine Intelligence，31（11）：1968[35] X. Yan，J. Yang，K. Sohn和H.李你属性2image：从视觉属性生成条件图像。CoRR，abs/1512.00570，2015年。[36] F. 小杨， J. 小王， E. 谢赫特曼 L. Bourdev和D. Metaxas用于3d感知的面部组件传递的表达流。在ACM图形学报（TOG），第30卷，第60页中。ACM，2011年。[37] J. Yang，S. E.里德，M.- H. Yang和H.李你用于三维视图合成的递归变换弱监督解缠。神经信息处理系统的进展，第1099-1107页，2015年[38] J. Zhao，M.Mathieu和Y.乐存。基于能量的生成对抗网络。CoRR，abs/1609.03126，2016。

下载后可阅读完整内容，剩余1页未读，立即下载