分离式训练的显式可控GAN：控制生成图像属性的框架及应用

74 浏览量更新于2023-10-13 收藏 2.23MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

14083GAN控制：显式可控GANAlonShoshan Nada vBhonk er IgorKviatko vsk yGe´ rardMedioni亚马逊{alonshos，nadavb，kviat，medioni} @ amazon.com图1：我们提出了一个框架，以一种分离的方式训练GAN，允许对生成属性进行显式控制。我们的方法是适用于不同的控制在各个领域。第一行（从左到右）展示了我们对人脸表情、年龄和光照的控制。第二排（从左到右）展示了我们对艺术风格，年龄和绘画姿势的控制。第三行展示了我们对狗的面部姿势控制。摘要我们提出了一个训练GAN的框架，对生成的面部图像进行显式控制我们能够通过设置精确的属性，如年龄，姿势，表情等来控制生成的图像。大多数用于操纵GAN生成的图像的方法通过利用在标准GAN训练之后隐式地获得的潜在空间解纠缠特性来实现部分控制。这种方法能够改变某些属性的相对强度，但不显式地设置它们的值。最近提出的用于对人脸进行显式控制的方法利用可变形3D人脸模型（3DMM）来允许GAN中的细粒度控制能力。与这些方法不同，我们的控制不限于3DMM参数，并且可以扩展到人脸以外的领域。使用对比学习，我们得到了一个显式解纠缠的潜在空间的GANs。这种解纠缠被用来训练控制编码器，将人类可解释的输入映射到合适的潜在向量，从而允许显式控制。在人脸领域，我们展示了对身份，年龄，姿势，表情，头发颜色和照明的控制。我们还展示了我们的框架在绘画肖像和狗图像类领域的控制能力。第我们证明，我们的方法实现了国家的最先进的性能，定性和定量。1. 介绍生成可控的真实感图像具有跨越各种领域的应用，诸如电影摄影、图形设计、视频游戏、医学成像、虚拟通信和ML研究。特别是在面部方面，取得了令人印象深刻的突破。例如，在电影工业中，计算机生成的角色正在取代现场演员的镜头。关于受控面部生成的早期工作主要依赖于3D面部钻机建模[32，43]，由3D可变形面部模型参数控制，例如3DMM [9，19]。虽然易于控制，但这种方法往往具有低的照片真实感。依赖于3D面部扫描技术的其他方法可以提供高度逼真的图像，但是成本很高并且可变性有限。最近使用生成对抗网络（GANs）[21]进行的高分辨率图像合成工作已经证明了生成具有新颖身份的逼真面部的能力，与真实人类的面部无法区分[27，29，30]。然而，这些方法本身缺乏-14084可解释性和对生成过程的控制，与3D图形替代品相比。这些结果启发了社区探索从两个世界中受益的方法-Deng等[15]，Kowalskiet al.[31]和Tewariet al.[50]引入对GAN生成的面部的显式控制除了精确的控制和完美的地面实况等明显的好处外，对这种3D人脸模型的依赖也带来了新的挑战。例如，需要克服合成到真实域间隙[31，15]。最后，所有这些方法的表达能力都受到它们所依赖的模型的能力的限制。特别是，如果3D建模框架不支持，则不可能控制人类年龄。如果建模框架不支持这些资产，那么将相同的框架应用于不同但相似的领域（例如绘画或动物面部）也是不可能的。所有这些都阻碍了为显式可控的GAN创建简单、通用和可扩展的解决方案。在这项工作中，我们提出了一种统一的方法来训练GAN生成高质量，可控的图像。特别地，我们在面部肖像照片、绘画肖像和狗的领域中展示了我们的方法（参见图11）。①的人。我们不再使用高度详细的3D人脸模型[15，31，50]，而是支持由一组预训练模型提供的监督信号，每个模型控制不同的特征。我们表明，我们的方法显着简化了生成框架，不影响图像质量或控制精度，并允许我们控制面部外观的附加方面，这不能通过图形管道进行建模。我们通过结合几个概念来实现这一点。我们将GAN的潜在空间构造为子空间的组合，每个子空间对应于一个特定的属性。在训练过程中，我们强制由相同的潜在子向量生成的图像具有类似的属性，正如一些现成的模型所预测的那样。相应地，由不同潜在子向量生成的图像被强制具有不同的预测属性。结果，实现了潜在子空间之间的解纠缠。最后，为了允许人类可解释的控制，对于每个属性，我们训练编码器，将值从其可行范围转换到其对应的子潜在空间。作为一个附加的应用，我们提出了一种新的图像投影方法，适合于解开潜在空间。我们总结我们的贡献如下：1. 我们提出了一种新的最先进的方法来训练显式可控的高分辨率GAN。2. 我们的方法可扩展到3D建模和渲染框架所使其适用于其它领域。3. 我们提出了一个解开投影方法，使，ables真正的图像编辑。2. 相关工作生成对抗网络[21]为图像生成和合成领域引入了新的可能性。目前，最先进的GAN [10，27，29，30]可以产生与真实图像无法区分的高分辨率图像接下来，我们将概述控制GAN生成输出的不同方法。对图像生成的相对控制：一种广泛研究的控制GAN生成图像的方法是利用其潜在空间的固有解纠缠特性[26，53，22，44，7]。H¨rko¨ nen等[22]在潜在空间中使用主成分分析（PCA）来识别对应于图像属性方向。Shen等人[44]使用现成的二进制分类器来找到潜在空间中的分离边界，其中边界的每一侧对应于相反的语义属性（例如，年轻人对老年人）。遍历更接近或更远离边界的潜在向量转化为增加或减小对应的属性强度。虽然简单，但这些方法可能表现出缠结，即，更改一个属性会影响其他属性。在[18，45]中，通过在训练期间解开GAN的潜在空间来减轻上述情况虽然上述方法允许对生成的相对控制（例如，或以左为右，或以右为右，不以左为右。显式控制（例如，生成一张40岁的脸，旋转30◦向左）。对图像生成的显式控制：条件GAN [33，36，34，10]已被广泛用于通过引入类标签推理损失项来控制生成。所有这些工作都支持条件的一个单一的离散（分类）变量，并不适合连续变量，广泛讨论了丁等。[17 ]第10段。此外，上述工作都没有解决一次控制多个属性最近，提出了三种新颖的方法来允许对从头面部图像生成进行细粒度显式控制：[50]、DiscoFaceGAN [15]（DFG）和CONFIG [31]。这些方法提出了将3D人脸渲染模型的控制转换为GAN生成过程的解决方案StyleRig和DFG都使用3DMM [9]参数作为生成框架中的这将两种方法限制为仅对表情、姿势和照明提供控制CONFIG使用自定义3D图像渲染流水线来生成带注释的合成数据集。该数据集稍后用于获取与合成地面实况匹配的控件，从而允许CONFIG添加诸如发型和凝视之类的控件14085k=1i=1k=1--我Σ ΣZW{Z}{W}N培训ID姿势年龄输出批次真/假同异G不同不同图2：显式可控GAN：在第1阶段，我们构建每个批次，以便对于每个属性，有一对潜向量共享相应的子向量zk。除了对抗性损失之外，批次中的每个图像都以对比的方式逐个属性地与所有其他图像进行比较，同时考虑它是否具有相同或不同的子向量。在阶段2中，训练编码器以将可解释的参数映射到合适的潜在向量。推断：通过将Ek的输入设置为所需的值来实现对属性k生成这样的数据集是困难的，需要专业的手工制作的3D资产。我们强调，这些方法仅适用于人脸领域，并且仅适用于由3D人脸模型参数化的控件。与上述方法相比，我们的方法不依赖于3D人脸渲染框架。相反，它依赖于我们估计这些属性的能力。图像编辑：这些方法不是重新生成图像，而是接收图像作为输入，并通过使用图像到图像转换技术[58，52，39，37，11，12，25]，通过合并预处理，训练模型来监督GAN我们的工作重点是可控的从头图像生成，但也允许通过投影到潜空间编辑真实图像。3. 该方法在本节中，我们将介绍我们用于训练显式可控GAN的框架我们的方法简单而有效，由两个阶段组成（见图1）。2）：• 通过对比学习解开纠缠：训练具有显式解纠缠特性的GAN。结果，潜在空间被划分成子空间，每个子空间编码不同的图像属性。• 可解释的显式控件：对于每个属性，训练MLP编码器以将控制参数值映射到对应的潜在子空间。这允许对每个属性进行显式控制。3.1. 通过对比学习该方法建立在StyleGAN2 [30]架构之上。最初，我们划分两个潜在空间，并且到N+1个单独的子空间，kN+1，以及kN+1，其中N是控制属性的数量。每个子空间与一个属性（例如，ID 、年龄等）除了最后一个。类似于Denget al.[15]最后一个子空间对其余不可控制的图像属性我们修改了StyleGAN2 架构，使每个控件都有自己的8 层MLP 。我们记为 z= （ z1z2...zN+1 ）和 w=（w1w2. . . wN+1）两个潜在空间中的子向量的级联然后将组合的潜在向量w馈送到生成器中。接下来，我们将描述如何在培训期间实施解缠。令i=G（zi）表示从潜在向量z i生成的图像，并且令B=ziNB表示大小为N B的潜在向量批次。我们定义我们的因式分解-对比损失为：Lc=lk（zi，zi，j），（1）zi，zj∈Bk=1i/=j其中Lk是属性k的对比损失分量。我们培训#$s&#$s&编码器被训练以将可解释参数k映射到k。联系我们a（&%$推理��id~��(20°、10°、0°）40FC堆联系我们%$发生器对抗性损失FC堆栈ID姿势年龄ID丢失姿态损失年龄损失发生器140861C我我·我我我我我我→··WZ∈∈ −联系我们l（z，z）=∈C+K我J：yk→wk，-KKK我 JKi、j我JKi、j我Jzi=zjzi=zjR1、. . . ，N+1，r =i=1述盖我我i=1 k=1我i=1为了训练控制编码器，我们随机抽样将每属性对比损失定义为，1max(dk(Ii,Ij)−τ+,0),zk=zk3.2. 可解释显式控制我们提出了一个简单的程序，允许显式控制KIjKmax（τ−-d（I，I），0），否则其中yK是人类可以理解的其中zk表示zi的第k个子向量，dk ±是贡品（例如，年龄= 20岁，姿势=（20○，5○，2○）等）。给定训练解纠缠GAN，我们训练N个编码器{Ek}N，属性k的距离函数，τk是与相同和不同子向量相关联的每属性阈值，Ck±是根据k=1每个属性一个（参见图2中的培训阶段22）的情况。然后，在推理时，我们可以使用任何COM来合成图像。子向量{wk}N+1的组合，其中wk是相同和不同损耗分量的数量，即，明确使用k=1或从zk然后C+=Σ1{zk=zk}和C-=Σ1{zk/=zk}。共享一个子向量帐篷向量，即，对于每个属性，k∈ {1，. . .，N}，我们创建一对潜在向量，Ns个潜在向量{zi}Ns介导潜在载体，将它们映射到N.然后，对于每个at-，其中k k和r r对于∈{}{wi}syk =K. 例如，让我们假设生成器具有亲-引入一批大小为Nb> 2的图像，其中图像0和1共享相同的zID（参见图2中具有蓝色帧的图像对）。对比损失的ID分量将i到预测属性值iQ k（M k（G（zi），其中Q k（M k（z i））等效于应用属性预测子。因此，我们获得N个不同的数据集{{wk，yk}Ns}N，其中对于每个中间惩罚I和I的ID之间的差异存在预测的对应属性以及它们之间01从它产生的图像。然后我们训练N个编码器，每个编码器将0其他损失成分（年龄、姿势等）将对0和该批中的任何其他图像之间的相似性进行惩罚。以相同的方式构造批次中所有其他图像的损失。为了能够控制所生成的图像的特定属性，我们假设我们被给予对可微分函数Mk的访问：RDk，将图像映射到Dk维空间。我们假设具有相似属性值的投影图像彼此接近，并且具有不同属性值的图像彼此远离这样的要求由大多数神经网络满足，所述神经网络用分类或回归损失训练一一我们将两个图像i和j之间的kdk（Ii，Ij）=dist（Mk（Ii），Mk（Ij）），（3）其中dist（i）是距离度量，例如，L1、L2、余弦-距离等。例如，为了捕获ID属性，使用面部识别模型MID来从所生成的图像中提取嵌入向量。然后，使用余弦距离计算嵌入向量之间的距离。在第4节中，我们证明了作为使用这种架构和批量采样协议进行训练的结果，我们在GAN的潜在空间中实现了解纠缠。虽然这种解纠缠允许独立于其他属性地将随机采样值分配给每个单独的属性，但是需要额外的工作来使这种控制变得明确和人类可解释，例如，生成具有特定用户定义年龄的人脸图像。对应的数据集。在我们的实验中，我们表明，尽管它的简单性，我们的编码方案不妥协的控制精度相比，其他方法。4. 实验在这一节中，我们提出的实验领域的面孔和绘画，展示了所提出的方法的灵活性。补充资料中提供了犬图像的其他实验。我们定量比较我们的方法，最近发表的方法。4.1. 面生成实现细节：我们使用FFHQ数据集[29]下采样到512x512分辨率。潜在空间被划分为以下子空间：ID、姿势、表情、年龄、光照、头发颜色和接下来，我们列出用于计算每个属性的距离度量dk的模型Mk对于ID，头部姿势，表情，照明，年龄和头发颜色，我们使用ArcFace [14]，Ruiz等人。[42]、ESR [48]、R-Net的γ输出[16]、Dex [41]、PSPNet分割的头发的平均颜色[55]（补充材料中的其他详细信息）。在第二阶段（第3.2节），我们训练了五个编码器（E pose，E exp，E age，E illum，E hair），每个编码器由4层MLP组成。控制编码器的输入定义如下：y年龄[15，75]岁(yo)，y姿势[ 90◦，90◦]3由欧拉和-gles θ=Pitch，Yaw，Roll，y illumIR27由近似场景照明的γ球谐（SH ）系数[40]表示，y expIR64由3DMM [9]模型的β表达系数表示，y hair∈[0，255]3由平均RGB值表示。（二）的具体属性。我们训练映射EK（参见图1中的推论）。2）的情况。我们构造每个训练批次以包含la-zjtribute，k，wemapz杨永14087↓我↑我↓↑↓10.750.50.25045岁以上微笑的嘴张开面向摄像头摄像头上方左侧照明。忽略K，A和B的属性相同吗？简体中文控制我们DFGCONFIGFFHQ姿势[◦]年龄[yo]失效日期伊拉姆发色二、29±1。31二、02±1。383 .第三章。68±0。70的情况。32±0。130的情况。13±0。183 .第三章。92±2。1N/A4.第一章07 ±0.70的情况。29±0。1N/A六、9±4。7不适用不适用a 不适用a 不适用a23岁8±14。6十六岁95±12。94.第一章45 ±0。90的情况。62±0。20.34 ±0. 25表3：控制精度：输入控件与结果图像属性之间的平均距离比较。最后一列显示FFHQ数据集中随机样本之间的平均距离。图3：解开用户研究：蓝色和绿色条显示用户是否同意给定属性是aCONFIG使用不同的控件用于表情照明和头发颜色。在图像中存在或缺少（+，），（-，）方面。黄色条衡量用户是否同意保持其它属性表1：不同方法对FFHQ的FID评分：第二行显示数据集分辨率。注意，FID分数不能在列之间进行比较，因为每种方法对FFHQ数据集使用不同的预处理（例如图像尺寸、对准、裁剪）。我们DFGCONFIG综合比较百分之六十七百分之二十二百分之十一合成vs. 房百分之四十七百分之二十七百分之十六表2：照相现实主义用户研究：（第一行）用户被要求从三个合成图像（Ours、DFG、CONFIG）中投票选出最逼真的图像。（第二行）用户被显示成对的图像照片写实主义：表1显示了Disco-FaceGAN [15]，CONFIG [31]（图像分辨率256 x256）和我们的方法（图像分辨率512 x512）的FID [24]分数该表还显示了相应基线GAN的FID：StyleGAN [29]、HoloGAN [35]和StyleGAN2 [30]。我们的FID分数是在不使用截断技巧的情况下计算的[10，29]。对于DFG和CONFIG，FID评分取自相应的论文。类似于其他作品，我们观察到FID的恶化时，引入控制。然而，由于不同的图像分辨率和数据预处理步骤，这些数字不能直接比较。为了在所有三种方法之间进行清晰的图像质量比较，我们进行了两次照片写实ID我们我们的+年龄DFGCONFIG一样↓不一样↑0的情况。68±0。191 .一、9±0。240的情况。75±0。21 .一、9±0。240的情况。83±0。31 .一、73±0。241 .一、07 ±0. 291 .一、63 ±0。25GAN版本我们512x512DFG [15]256x256配置[31]256x256香草3.325.4933.41控制5.7212.939.7614088我表4：同一性保留：第一行示出了具有相同z ID的所生成的图像之间的平均嵌入距离（在我们的s+age中，za ge也改变）。第二行示出了随机生成的图像之间的平均嵌入距离。为了比较，10K FFHQ图像之间的平均嵌入距离为1。89± 0。21岁用户研究，使用Amazon Mechanical Turk。在第一个实验中，用户被展示了1K个三元组的合成图像，每种方法随机排列一个。用户被要求投票选出三张照片中最真实的一张。每个三联体由三名参与者评估。在第二项研究中，用户被展示了999对图像。每对包含来自FFHQ数据集的一个真实图像和由三种方法之一生成的图像。对于每种方法，由三个不同的用户评估333个图像对。该实验中的所有合成图像都使用Ψ = 0的截断技巧生成。7（我们和DFG使用属性保留截断技巧[15]），所有图像的大小都调整为256x256分辨率。从表2可以明显看出，我们的方法实现了最高的光真实性。令人惊讶的是，当与FFHQ相比时，我们的方法达到了47%的近乎完美的结果，即用户几乎无法区分我们的图像和FFHQ的照片。我们注意到，图像质量的差异可能取决于所使用的基本模型（HoloGAN、StyleGAN、StyleGAN2）。显式对照分析：为了验证我们确实对模型的输出进行了显式控制，我们进行了控制精度比较。从FFHQ中随机选择10K图像，并预测其属性以产生出现在真实图像中的可行属性池对于池中的每个属性，我们生成相应的图像。然后，我们预测属性14089我+-我y+我我我我我年龄= 15岁30岁45岁60岁75岁偏航=30度15◦0◦−15◦−30◦间距=20◦10◦0◦−10◦−20◦图4：控制年龄和姿势：行1-2示出了使用E年龄的生成结果。行3-4示出了使用E姿态的生成结果。从生成的图像yk中获取值，并测量两者之间的欧氏距离补充材料中提供了更多细节表3显示了两种方法之间控制精密度的比较。结果表明，我们可以实现显式控制的属性是可比的或优于其他方法。ID保存分析：我们使用ArcFace [14]提取生成图像的嵌入向量，以将身份保留与其他方法进行比较。这通过生成共享ID属性并且具有不同姿态、照明和表情属性的10K图像对来完成。我们选择修改它们，因为它们对所有三种方法都是通用的。为了证明我们的方法即使在不同年龄也能保持ID的能力，我们报告了Ours+age的结果，其中使用不同的z年龄向量生成一对中的每个图像表4中的结果表明，我们的方法实现了最高的同一性保留。解缠用户研究：我们进行了一项与CONFIG [31]中报告的用户研究相似的用户研究。对于每个属性k，我们生成一对图像。+的属性被设置为yk（例如，微笑的脸）并且对-的评价被设置为语义上相反的值（例如，悲伤的脸）。然后要求用户评估k在+和中-按5级标准。此外，对于每一对图像，用户被要求评估除了k之外的所有其他属性被保留到什么程度。总共有50名用户评估了1300对图像。图3清楚地示出了所生成的图像的属性被感知为解缠的。伊拉姆1照明。2照明。3照明。4照明。5Exp. 1实验2实验3实验4实验5颜色1颜色2颜色3颜色4颜色5图5：控制照明、表情和毛发颜色：行1-2示出使用E照明的生成结果。行3-4示出了使用Eexp.行5-6示出了使用E头发的生成结果。每一列都具有与控件输入匹配的相同属性定性评估：接下来，我们通过控制编码器Ek示出生成的图像的编辑结果。图图4示出了使用E age和E pose对面部的年龄和姿势的显式控制。有趣的是，随着年龄的增长，模特们倾向于戴眼镜和穿更正式的衣服。另外两个突出的特征是头发变灰和皱纹的增加图5显示了使用E illum和E exp对照明和表达的控制。4.2. 绘画世代实施详情：我们使用MetFaces [28]，1，336张图像下采样到512x512分辨率。除了传统的StyleGAN2和我们的显式解纠缠训练方案之外，我们还使用Karras等人的非泄漏增强方法。[28]用有限的数据训练GANs我们使用与我们的面部生成方案中相同的MK模型，并进行以下修改：（1）去除照明和头发颜色控制，（2）添加用于图像样式的控制。风格相似距离d风格14090年龄= 15岁30岁45岁60岁75岁偏航=30度15◦0◦−15◦−30◦Exp. 1实验2实验3实验4实验5我们E2eE2E-10xNoDis控制精度↓姿势[◦]年龄[yo]失效日期伊拉姆头发C。二、29±1。31二、02±1。383 .第三章。68±0。70的情况。32±0。130的情况。13±0。1810个。35 ±7。8十四岁63 ±8。44.第一章41±0。80的情况。62±0。210的情况。33±0。244.第一章36 ±0。82十四岁38 ±8。54.第一章36±0。80的情况。61±0。210的情况。24±0。18五、44±3。47 .第一次会议。11±6。1二、94±0。60的情况。32±0。140的情况。15±0。14ID保存一样↓不一样↑0的情况。68±0。191 .一、9±0。240的情况。82±0。31 .一、78 ±0。230的情况。97±0。351 .一、79 ±0。251 .一、16 ±0。341 .一、7 ±0。26FID↓FID五、72六、489 .第九条。13 .第三章。32表5：消融研究：比较我们的方法与培训端到端（单阶段）和与使用非解缠的StyleGAN2。图6：绘画控制：使用生成结果E年龄、E姿势和E表情。初始控制+微笑+年龄=65岁+棕色头发+右侧照明。+偏航=0◦俯仰= 0◦风格1风格2风格3风格4风格5ID 1 ID 2 ID 3 ID 4 ID 5图7：绘画的艺术风格：我们可以改变z风格的潜在产生不同风格的相同的肖像。的计算类似于Gatys等人为风格转移引入的风格损失。[20]其中M风格是在ImageNet [13]上预训练的VGG16 [47照片写实主义：FID评分为28分。58和26。6分别用于我们的对照模型和基线模型定性评价：图6示出了我们使用E age、E pose和Eexp对年龄、姿势和表情的控制。请注意，此任务的表达式控制相当有限。我们怀疑这是由于数据集中的表达式种类较少。对这些属性的控制表明，控制网络不一定需要在GAN正在训练的相同域上训练，并且一些域间隙是可容忍的。图7示出了我们的方法还可以解开艺术风格，允许在不影响其余属性的情况下改变风格4.3. 消融研究在本节中，我们将探讨我们的框架的两种替代方法。（1）在单个训练阶段中训练GAN端到端在每次迭代中，模型的输入是控制属性值（yk），而不是潜在向量。我们我们NoDiszNoDiszzzz14091WW图8：我们的与NoDis：在第1行（NoDis）和第2行（我们的）中，从左到右，每列更改一个控件。ID输入不变。在行3（NoDis）中，每列具有不同的ID输入和相同的控制输入。使用预先训练的模型（与我们的两阶段方法中的模型相同）来惩罚针对每个生成的图像预测的属性值与输入控件之间的不一致（属性匹配损失）。为了与我们的方法进行公平的比较，我们避免了将ID嵌入映射到图像的更困难的任务，通过保持第二节中的ID对比项。第3.1条我们使用两种配置的匹配损失系数，其中对于第一个模型（E2 E）的系数是10倍的幅度小于第二个（E2 E-10 x）。(2)我们不是在第一阶段训练一个分离的GAN，而是为一个预先训练好的StyleGAN2（NoDis）训练属性编码器。由于StyleGAN2补充资料中提供了备选方案1和2的进一步实施细节在表5中，我们使用控制精度、ID保存和14092WWWFID指标。正如预期的那样，E2 E-10 x模型比E2 E模型实现了更好的控制精度，但代价是降低了真实感（FID分数）和ID保留。尽管如此，在频谱的两端，结果不如我们的两阶段模型所取得的。我们在补充资料中提出了定性比较。表5指示NoDis不保留ID。这是由图1的第一行支持的。8.在图的第三行。图8示出了针对不同的ID向量生成的图像，但是具有相同的控件集。感知ID的轻微变化表明，给定一组控制，纠缠限制了可能的ID。此外，对于NoDis，除了表达式之外，控制精度较差。我们假设，为了达到期望的控制，模型部分地这对于面几何体发生变化的表情最为突出因此，在有限的ID保存的情况下，“更4.4. 真实图像我们利用模型的显式控制来进行真实图像编辑。为此，我们使用潜在空间优化，灰找到一个潜在的向量，对应于输入图像，年龄。通过简单地遵循StyleGAN2（附录D）中描述的投影方法，重建图像在视觉上看起来与输入图像不同。在[5]中提出的对这种现象的补救是将图像投影到扩展的潜在空间w+，使得每个分辨率水平具有其自己的潜在向量。我们发现这种方法确实是有用的准确重建。然而，当我们修改不同的子向量时，我们观察到图像质量的强烈恶化和其他未修改属性的变化在没有对可行解空间的明确约束的情况下，出现两个不同的问题：（1）部分子向量最终编码语义上不同于它们所打算的信息的信息，例如，姿态潜在向量可以编码ID或表达式的一些信息，以及（2）重构的潜在向量可以不位于语义上有意义的流形中。Zhu等人报道了类似的现象。[56]。作为对上述的缓解，我们引入两个改变。首先，我们只扩展ID和其他子空间，而不是扩展整个其次，我们限制剩余的子向量驻留在近似的线性子空间，其相应的流形。我们使用以下方法实现这一点：我们对10K个随机采样的子向量w的每个潜在子空间执行PCA，其中选择分量的数量以保持50%的方差。在优化过程中，我们将潜在子向量投影到截断的PCA空间，并将它们重新投影回相应的空间。一旦我们找到对应的潜在向量，我们就可以通过使用Ek修改属性k潜在子向量来编辑图像。我们投入[1]预计偏航= 30◦ 偏航= 25◦ 偏航=−25◦间距= 0◦间距=−15◦间距= 15◦输入[2]投影右前左输入[3]预计年龄= 15岁45岁70哟输入[4]预计Exp. 1Exp. 2Exp. 3图9：未缠绕投影：最左边的两列分别指的是输入和投影图像。其余列展示姿势、照明、年龄和表情的编辑结果。提供补充材料拟定变更的消融研究。在图9中，我们示出了真实图像、它们的投影以及编辑它们的属性的结果。虽然投影的图像没有实现完美的重建，但保留了潜在空间的解纠缠，从而允许在不影响其他属性的情况下对期望属性进行明确控制在图的第二行。我们可以看到，GAN可以准确地对面部曲率和皮肤褶皱上的阴影进行建模，以及对光源在人的眼睛中的反射进行建模。这意味着GAN学习面部的潜在3D表示。5. 结论我们提出了一种新的框架，用于以一种非纠缠的方式训练GAN，该框架允许对生成属性进行显式控制。对于各种属性，该属性的预测器足以实现对它的显式控制。我们的方法将显式可控GAN的适用性扩展到人脸以外的其他领域。GAN是由一个真正的图像投影方法，项目图像到一个解开的潜在空间，保持显式控制的补充。我们相信这项工作为提高控制通用GAN生成的能力开辟了一条道路更多详细信息可以在alonshoshan10.github.io/gan_control/上找到。14093--引用[1] 原始图像位于http://www.flickr.com/photos/quakecon/3923570806，并在http://www.creativecommons.org/licenses/by/2.0下获得许可。8[2] 原始图像位于http://www.flickr.com/photos/dereknolan/5309847731，并在http://www.creativecommons.org/licenses/by/2.0下获得许可。8[3] 原始图像位于http://www.flickr.com/photos/67548743@N02/6854926480，并在http://www.creativecommons.org/licenses/by/2.0下获得许可。8[4] 原始图像位于http://www.flickr.com/photos/ugacquisitions/6005899336 ，并在以下许可下获得许可：http://www.creativecommons。org/licenses/by-nc/2.0。8[5] Rameen Abdal，Yipeng Qin，and Peter Wonka. 如何将图片嵌入到StyleGAN的桌面空间？在IEEE/CVF计算机视觉国际会议（ICCV）的会议记录中，2019年10月。8[6] Rameen Abdal 、 Peihao Zhu 、 Niloy Mitra 和 PeterWonka。Styleflow：使用条件连续归一化流对stylegan生成的图像进行属性条件化探索，2020年。3[7] Guha Balakrishnan ， Yuanjun Xiong ， Wei Xia ， andPietro Perona.人脸分析算法中的偏差因果基准2020. 2[8] Jianmin Bao，Dong Chen，Fang Wen，Houqiang Li，and Gang Hua.面向开集身份保持的人脸合成。在2018年IEEE计算机视觉和模式识别会议，CVPR 2018，美国犹他州盐湖城，2018年6日，第6713-6722页。IEEE计算机学会，2018年。3[9] Volker Blanz和Thomas Vetter。一种用于合成三维人脸的可变形模型。在 Proceedings of the 26th AnnualConferenceonComputerGraphicsandInteractiveTechniques，pages 187-194，1999中。一、二、四[10] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模GAN训练。在学习代表国际会议上，2019年。二、五[11] Yunjey Choi，Minje Choi，Munyoung Kim，Jung-WooHa，Sunghun Kim，and Jaegul Choo. StarGAN：用于多域图像到图像翻译的统一生成对抗网络。在IEEE计算机视觉和模式识别CVPR集，2018年。3[12] Yunjey Choi，Youngjung Uh，Jaejun Yoo，Jung-WooHa. StarGAN v2：多领域的多样化图像合成。在IEEE计算机视觉和模式识别CVPR会议论文集，2020年。3[13] J. Deng，W.东河，巴西-地索赫尔湖J. Li，K. Li和L.飞飞。ImageNet：一个大规模的分层图像数据库。在IEEE/CVF计算机视觉和模式识别会议（CVPR），2009年。7[14] 邓健康，贾国，薛念南，Stefanos Zafeiriou。ArcFace：深度的附加角裕度损失人脸识别在IEEE计算机视觉和模式识别会议论文集，第4690- 4699页，2019年。四、六[15] 邓宇，杨蛟龙，陈冬，方文，童欣。通过3D模仿对比学习的解纠缠和可控的人脸图像在IEEE计算机视觉和模式识别，2020年。二三五[16] Yu Deng，Jiaolong Yang，Sicheng Xu，Dong Chen，Yunde Jia，and Xin Tong.弱监督学习的精确3D人脸重建：从单个图像到图像集。在IEEE计算机视觉和模式识别研讨会，2019年。4[17] Xin Ding ， Yongwei Wang ， Zuheng Xu ， William JWelch，andZ. 简 · 王 Cc gan ： Continuous Conditional GenerativeAdversarial Networks for Image Generation。2021年，在国际学术会议上发表。2[18] Chris Donahue、Zachary C Lipton、Akshay Balsubramani和Julian McAuley。生成对抗网络的潜在空间的语义分解。在ICLR，2018年。2[19] Bernhard Egger ， William AP Smith ， Ayush Tewari ，Stefanie Wuhrer ， Michael Zollhoefer ， Thabo Beeler ，Florian Bernard ， Timo Bolkart ， Adam Kortylewski ，Sami Romdhani，et al.3D变形人脸模型-过去，现在和未来。 ACM Transactions on Graphics （ TOG ）， 39（5）：1-38，2020。1[20] Leon A Gatys，Alexander S Ecker，and Matthias Bethge.卷积神经网络在图像风格转换中的应用在CVPR，2016年。7[21] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成对抗网络。神经信息处理系统进展，第2672-2680页，2014年一、二[22] ErikH¨ rko¨ nen ， AaronHertzmann ， Jaakk oLehtinen ，andSylvain Paris.Ganspace：发现可解释的GAN控件。arXiv预印本arXiv：2004.02546，2020。2[23] Zhenliang He，Wangmeng Zuo，Meina Kan，ShiguangShan，and Xilin Chen.Attgan：通过只更改您想要的内容来编辑面部属性。 IEEE 传输图像处理。， 28（11）：5464-5478，2019. 3[24] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的Gans收敛到局部纳什均衡。在NIPS，2017年。5[25] Xun Huang ， Ming-Yu Liu ， Serge Belongie ， and JanKautz. 多模态无监督图像到图像翻译。在 ECCV ，2018。3[26] Ali Jahanian，Lucy Chai和Phillip Isola。关于生成对抗网络的在2020年国际学习代表会议上。2[27] Tero Karras ， Timo Aila ， Samuli Laine ， and JaakkoLehtinen.GANs的渐进式增长改善了质量、稳定性和变化。arXiv预印本arXiv：1710.10196，2017。一、二[28] Tero Karras ， Miika Aittala ， Janne Hellsten ， SamuliLaine，Jaakko Lehtinen，and Timo Aila.用有限的数据训练生成对抗网络。arXiv预印本arXiv：2006.06676，2020。614094------[29] Tero Karras Samuli Laine和Timo Aila 一种基于风格的生成对抗网络生成器架构。在IEEE计算机视觉和模式识别CVPR会议论文集，第440

下载后可阅读完整内容，剩余1页未读，立即下载