Image2StyleGAN：灵活的图像编辑框架

18 浏览量更新于2023-10-23 收藏 4.26MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1Image2StyleGAN++：如何编辑嵌入的图像？RameenAbdalKAUSTrameen. kaust.edu.sa卡迪夫大学qiny16@cardiff.ac.ukPeter WonkaKAUSTpwonka@gmail.com(a)（b）（c）（d）图1：（a）和（b）：输入图像;（c）：单纯地复制（a）的左半部分和（b）的右半部分而产生的“两面”;（d）：由我们的Image 2StyleGAN ++框架生成的“双面”。摘要我们提出了Image2StyleGAN++，一个灵活的图像编辑框架，具有许多应用。我们的框架以三种方式扩展了最近的Image2StyleGAN [1]。首先，我们引入噪声优化作为W+潜在空间嵌入的补充。我们的噪声优化可以恢复图像中的高频特征，从而显着提高重建图像的质量，例如。PSNR从20 dB提高到45 dB。其次，我们扩展了全局W+潜在空间嵌入，使本地嵌入。第三，我们将嵌入与激活张量操作结合起来，对图像进行高质量的局部编辑和这样的编辑激发了各种高质量图像编辑应用，例如，图像重建、图像修补、图像交叉、局部风格转移、使用涂鸦图像编辑和属性级特征转移。编辑图像的示例显示在整个纸张上，以供目视检查。1. 介绍最近的GAN [19，6]证明可以生成非常高质量的合成图像。这推动了对嵌入算法的研究，将给定的照片嵌入到GAN潜在空间中。这种嵌入-丁算法可用于分析GAN的局限性[5]，进行图像修复[8，39，38，36]，局部图像编辑[40，17]，全局图像变换，如图像变形和表达转移[1]，以及少数镜头视频生成[35，34]。在本文中，我们提出扩展一个非常新的嵌入算法，Image2StyleGAN [1]。特别地，我们想在三个方面改进以前的算法。首先，我们注意到，通过将噪声空间优化纳入嵌入框架，可以进一步提高嵌入质量。这里的关键见解是，稳定的噪声空间优化只能在优化与W+空间顺序进行而不是联合进行的情况下进行。其次，我们希望提高嵌入算法的能力，以增加对嵌入的局部改进局部控制的一种方法是在嵌入算法中包含未定义内容的掩码。嵌入算法的目标应该是为掩码之外的所有内容找到一个合理的嵌入同样，我们希望提供近似嵌入的选项，其中指定的像素颜色只是嵌入的指导。通过这种方式，我们的目标是实现可以由用户涂鸦控制的高质量嵌入。在论文的第三个技术部分，我们研究了嵌入算法和DI的结合82968297激活映射的矩形操作（在我们的论文中称为激活张量）。我们的主要贡献是：1. 我们提出了噪声空间优化来恢复图像中的高频特征，这些特征不能通过GAN的其他潜在空间优化来重现。得到的图像是非常忠实的重建高达45分贝相比，约20分贝（PSNR）的先前最好的结果。2. 我们提出了一种扩展的嵌入算法到StyleGAN的W+空间，允许局部修改，如缺失区域和局部近似嵌入。3. 我们研究了嵌入和激活张量操作的组合，以执行高质量的本地编辑以及图像上的全局语义编辑。4. 我们将我们的新框架应用于多个图像编辑和操作应用程序。结果表明，该方法可以成功地用于开发一个先进的图像编辑软件。2. 相关工作生成对抗网络（GAN）[14，29]是最流行的生成模型之一，已成功应用于许多计算机视觉应用，e.G.对象检测[23]、纹理合成[22，37，31]、图像到图像转换[16，42，28，25]和视频生成[33，32，35，34]。支持这些应用的是GAN在架构[19，6，28，16]，损失函数设计[26，2]和正则化[27，15]方面的大规模改进。从好的方面来看，这些改进显著提高了合成图像的质量到目前为止，两个最高质量的GAN是StyleGAN [19]和BigGAN [6]。在它们之间，StyleGAN对于无条件的图像合成任务产生了优异的效果，特别是在人脸图像上; BigGAN为连续图像合成任务（例如，ImageNet [9]）。虽然在黑暗的一面，这些改进使得GAN的训练越来越昂贵，现在它几乎是因此，建立在预先训练的生成器上的方法最近开始引起人们的注意。在下文中，我们将讨论两个这样的方法的先前工作：将图像嵌入GAN潜在空间以及GAN激活张量的操纵。潜在空间嵌入。将图像嵌入到潜在空间中是机器学习和计算机视觉中的一个长期主题一般来说，嵌入可以通过两种方式实现：i）使输入图像通过编码器神经网络（例如，变分自动编码器[21]）; ii）优化随机初始潜码以匹配输入图像[41，7]。其中，第一种方法长期占据主导地位虽然它有一个固有的问题，即在训练数据集之外进行泛化，但它产生的结果质量比朴素的潜在代码优化方法更高[41，7]。最近，Abdalet al.[1]通过在增强的W+潜在空间而不是初始Z潜在空间中优化潜在代码，获得了优异的嵌入结果。他们的方法为各种图像编辑应用程序提出了一个新的方向，并使第二种方法再次有趣。激活张量操纵。在固定神经网络权值的情况下，通过操纵生成器的激活张量，可以充分利用生成器的表达能力。根据这一观察，Bau [4]et al.通过定位和操纵激活张量中的相关神经元，研究了GAN可以和不能生成什么[4，5]。基于对生成器如何“绘制”对象的理解，他们进一步设计了一个语义图像编辑系统，可以添加，删除或更改输入图像中对象的外观[ 3 ]。同时，F ruühstuücketal. [11]研究了图像混合中激活张量操作的潜力。观察到可以通过在发生器的早期层裁剪和组合激活张量来消除边界伪影，他们提出了一种算法，通过组合在较低分辨率上训练的GAN的输出来创建数十亿像素的大规模纹理图。3. 概述我们的论文结构如下。首先，我们描述了Image2StyleGAN [1]嵌入算法的扩展版本（参见Sec.4）.我们提出了两个新的修改：1）为了实现本地编辑，我们将各种空间掩码集成到优化框架中。空间掩模能够嵌入具有缺失值的不完整图像除了空间掩码，我们还研究了限制嵌入到一组选定图层中的图层掩码。StyleGAN [19]的早期层对内容进行编码，后期层控制图像的风格。通过将嵌入限制在层的子集中，我们可以更好地控制提取给定图像的哪些属性2)为了进一步提高嵌入质量，我们优化控制加性噪声映射的附加变量组n。这些噪声图对高频细节进行编码，并使嵌入具有非常高的重建质量。其次，我们探索了直接操纵激活张量的多个操作（见第二节）。（五）。我们主要探索82982(a)（b）（c）（d）（e）图2：联合优化。(a)目标图像;（b）：通过使用感知和逐像素MSE损失联合优化w和n来嵌入的图像;（c）：通过仅使用逐像素MSE损失联合优化w和n来嵌入的图像;（d）：具有n重采样的前一列的结果;（e）：通过使用针对w的感知和逐像素MSE损失以及针对n的逐像素MSE损失联合优化w和n来嵌入图像。(a)（b）（c）（d）图3：交替优化。(a)目标图像;（b）：通过仅优化w嵌入的图像;（c）：从前一列获取w，随后仅优化n;（d）：从前一列获取结果，仅优化w。空间复制、通道复制和平均，通过组合多个三个包埋步骤和直接操作步骤。作为构建有趣应用程序的垫脚石，我们将在第二节中介绍。由扩展优化算法的特定设置组成的6个最后，在第7我们概述了Image2StyleGAN++支持的多个应用程序：改进的图像重建、图像交叉、图像修补、使用涂鸦的局部编辑、局部样式转移和属性级特征转移。(they也可以是相同的图像），以及多达三个空间掩模（Ms、Mm和Mp）算法1是本文中4.1. 目标函数我们的目标函数由三种不同类型的损失项组成，即。[12][13][14][15][16][17][ 18][19]L= λs Lstyle（Ms，G（ w，n），y）+ λmse1μM（G（w，n）−x）4. 一种扩展的嵌入算法Nm2λ（一）我们将嵌入算法实现为梯度-+mse2（1−MN m）<$（G（w，n）−y）<$2基于优化的迭代更新图像，一些初始的潜在代码执行嵌入+λpLpercept（Mp，G（w，n），x）使用两组变量分成两个空间;语义上有意义的W+空间和编码高频细节的噪声空间Ns我们优化的相应变量组是w∈W+和n∈Ns。嵌入算法的输入是目标RGB图像x和y其中Ms、Mm、Mp表示空间掩码，M表示Hadamard乘积，G是StyleGAN生成器，n是噪声空间变量，w是W+空间变量，Lstyle表示ImageNet预训练VGG-16网络的“cov v 3 3”层8299的风格丢失8300′LLL图4：第一列：原始图像;第二列：嵌入W+空间的图像（PSNR 19至22 dB）;第三列：嵌入W+和噪声空间的图像（PSNR 39至45 dB）。感知损失定义在Image2StyleGAN [1]中。在这里，我们使用VGG-16的层请注意，地图因此，第二种方法是只使用像素MSE损失（见图1）。第2段（c）分段）。虽然重建几乎是完美的，表示（w，n）是不适合的图像编辑任务。在图2（d）中，我们通过重新定义噪声变量n来表明太多的图像信息存储在噪声层中。我们希望得到另一个非常好的，但有点嘈杂的嵌入。相反，我们得到了一个非常低质量的嵌入。此外，我们联合优化的变量和使用的感知和像素的MSE损失的w变量和像素的MSE损失的噪声变量的结果。图图2（e）示出了重构图像不具有高感知质量。PSNR分数降低到33.3 dB。我们还在其他图像上测试了根据我们的结果，我们不建议使用联合优化。第二种策略是变量w和n的交替优化。在图3中，我们显示了在保持n固定的情况下优化w，然后在保持w固定的情况下优化n通过这种方式，大部分信息都被编码在w中，这导致了语义上有意义的嵌入。执行优化w的另一次迭代（图3（d））揭示了对图像的平滑效果，并且PSNR从39.5dB降低到20dB。后续的噪声空间优化不会提高图像的PSNR。因此，重复的交替优化不会进一步提高图像的质量。总之，我们建议使用交替优化，但每组变量只优化一次。首先优化w，然后优化n。算法一：StyleGAN中语义和空间组件的嵌入输入：图像x，y∈Rn×m×3;掩码Ms，Mm，Mp;预训练生成器G（·，·）;基于梯度的优化器F′。输出：嵌入的代码（w，n）′ ′计算VGG网络的四层的实际损耗因此，需要对Mp进行下采样，以在损失函数的计算中匹配相应VGG-16层的分辨率。4.2. 优化策略变量w∈W+和n∈Ns的优化不是一个简单的任务。由于只有w∈W+编码语义上有意义的信息，我们需要确保，尽可能多的信息被编码在W中，并且仅高频细节被编码在噪声空间中。第一种可能的方法是两组变量w和n的联合优化。图图2（b）示出了使用感知和逐像素MSE损失的我们可以观察到许多细节丢失，并被高频图像伪影所取代。这是因为1初始化（）代码（w，n）=（w，n）;2 而不收敛3损失←L（x，y，Ms，Mm，Mp）;4（w，n）←（w，n）−ηF（n，w，n）;5端5. 激活张量操作由于StyleGAN的渐进式架构，人们可以在网络的不同层执行有意义的张量操作[11，4]。我们考虑以下编辑操作：空间复制、平均和信道复制。我们将激活张量AI定义为用嵌入图像I的变量（w，n）初始化的网络中第l层的输出。它们被储存为10-感知损失与优化噪声不相容SorsAI ∈RWl×Hl×Cl. 给定两个这样的张量AI和8301L1第二章（三）21升2升Adam [20]，学习率为0.01，或梯度下降，学习率为0.8，具体取决于应用。亚当的一些常见设置是：β1=0。9，β2= 0。999，且n = 1e−8。节中7、除非另有说明，否则我们使用亚当掩蔽噪声优化（Mkn）：此功能op-使n∈Ns最小化。，保持w恒定。噪声空间Ns的尺寸 R4×4，. - 是的- 是的，R1024×1024.总共有18个噪声贴图，每个分辨率两个。我们在损失函数（L）Eq. 1：λ s= 0，λMSE1 = 10−5，λmse=10−5，λ p=0。我们表示图5：第一列和第二列：输入图像;第三个col-umn：通过从第一图像中自然复制左半部分并从第二图像中自然复制右半部分而生成的图像功能为：Mkn（ M，wini，nini，x，y）=第四列：图像由我们的扩展嵌入式生成-Ding算法第三和第四图像（第二行）之间的差异在补充说明中突出显示。arg minλmse2μMnNmλMSE1（G（w，n）−x）2材料.BI，复制替换高维像素∈R1×1×Cl在AI中通过从BI复制。平均形成线性组合-N<$（1−Mm）<$（G（w，n）−y）<$2对于这种优化，我们使用Adam，学习率为5，β1=0。9，β2=0。999，且n=1e−8。注意到学习率非常高。二进制λAl+（1−λ）Bl。逐行复制创建一个新的张量通过复制选定的通道从AI和Il掩蔽样式传输（Mst）：此功能优化来自B1的剩余信道。在我们的测试中我们发现温泉-分块复制的效果比平均和通道好一点，明智的复制w以实现由样式图像y定义的给定目标样式。我们在损失函数（ L ）等式中设置以下参数： 1 ： λs=5×10−7，λ mse=0，λ mse=0，λ p=0。我们表示6. 常用的构建块我们确定了四个基本的构建块，用于在第2节中描述的多个应用程序。7 .第一次会议。虽然损失函数的项可以由空间函数为：Mst（ Ms，wini，nini，y）=arg minλs Lstyle（Ms，G（w，n），y）W（四）masks（Ms，Mm，Mp），我们还使用二进制掩码wm和nm来指示在优化过程期间应该优化变量的什么子集例如，我们可以将wm设置为仅更新与第一个k层。一般来说，wm和nm包含1表示应该更新的变量，0表示应该保持不变的变量。除了列出的参数外，所有构建块需要初始变量值w_ini和n_ini。对于所有实验，我们使用32GB Nvidia V100 GPU。屏蔽W+优化（Wl）：该函数优化w∈W+，保持n不变。我们在损失函数（L ）等式中使用1：λs=0，其中w是整个W+空间。对于这种优化，我们使用Adam，学习率为0.01，β1= 0。9，β2= 0。999，且n= 1e−8。掩蔽激活张量操作（Iatt）：此函数描述激活张量操作。这里，我们将生成器G（w，n，t）表示为W+空间变量w、噪声空间变量n和输入张量t的函数。该操作表示为：Iatt（ M1，M2，w，nini，l）=G（w，n，M<$（AI1）+（1−M）<$（BI2））（5）λMSE= 10−5，λmse=0，λ p=10−5。我们表示I1I21 2功能为：其中A l B 1 和B2是对应于层1处的图像I1和I2的激活，M1和M2是对应于层1处的图像I1和I2的激活。Wl（ Mp，Mm，wm，wini，nini，x）=28302arg minλp Lept（Mp，G（w，n），x）+WM（二）使用最近邻插值进行下采样以匹配激活张量的Hl×WlλMSE127. 应用N<$Mm<$（G（w，n）−x）<$2其中wm是W+空间的掩码。我们要么用在下文中，我们描述了由我们的框架启用的各种应用程序。8303∗算法2：改进的图像重建输入：图像Im∈Rn×m×3输出：嵌入的代码（wout，nout）1 （i，i）;2wout=Wl（1，1，1，wini，nini，Im）;3nout=Mkn（1，wout，nini，Im，0）;图7：使用不同的初始化wini进行修复。算法3：图像交叉输入：图像I1，I2∈Rn×m×3;掩码M模糊输出：嵌入的代码（wout，nout）1（w，n）←initialize（）;2 w_out= W_l（M_blur，M_blur，l，w，n_ini，l_l）+Wl（1−M模糊，1−M模糊，1，wn，nini，I2）;3 n_out=Mk_n（M_blur，w_out，n_ini，I_1，I_2）;图6：第一列：原始图像;第二列：有缺陷的图像;第三列：通过部分卷积修复的图像[24];第四列：使用我们的方法修复图像。7.1. 改进的图像重建如图4.通过对变量w∈W+和n∈Ns进行优化，可以实现任意图像的嵌入。这里我们描述这个嵌入的细节（见Alg.2）。第一、7.2. 图像交叉我们将图像交叉操作定义为从源图像y复制部分到目标图像x并混合边界。作为初始化，我们嵌入目标图像x以获得W+代码w。然后，我们利用模糊的掩模M blur执行掩模W+优化（W 1），以嵌入对最终图像有贡献的x和y中的区域。模糊掩模通过将二进制掩模与适当大小的高斯滤波器卷积来获得然后，我们进行噪声优化。详情见Alg.3 .第三章。其他符号与第7.1节所述相同。图5和图1示出了示例结果。我们推断，图像的重建质量是相当高的。对于实验，我们在函数masked中使用1000次迭代我们初始化：wini 是一个平均脸潜在代码[19]或随机W+优化和1000次迭代Mk n。从U[-1，1]采样的代码取决于em-寝具图像是面部或非面部，并且对nini进行采样从标准正态分布N（0，I）[19]。其次，我们应用掩蔽W+优化（W1），而不使用空间掩码或掩蔽变量。这意味着所有掩码都设置为1。Im是我们试图重建的目标图像第三，我们进行掩蔽噪声优化（MKN），再次与利用面具。重建的图像具有很高的保真度。PNSR评分范围为39至45 dB，可深入了解StyleGAN中噪声空间的表现力7.3. 图像修复算法4：图像修复输入：图像Idef∈Rn×m×3;掩码M，M模糊+输出：嵌入的代码（wout，nout）1 （i，i）;2wout=Wl（1−M，1−M，wm，wini，nini，Idef）;3n输出=Mkn（1−Mblur+，wout，nini，Idef，G（wout））;是. 与W+空间不同，噪波空间用于spa-高频特征的初步重建。我们用五千W1的3000次迭代和Mkn的3000次迭代，以得到44至45dB的额外的迭代并没有改善我们测试中的结果。为了执行语义上有意义的inpainting，我们嵌入到W+空间的早期层中以预测丢失的内容，并在后期层中主∗8304要8305∗图8：列&14：基础图像;第25栏：潦草的图像&;第36列&：本地编辑的结果。保持颜色一致性。我们将图像x定义为一个缺陷图像（Idef）。此外，我们使用掩码wm，其中值为1，对应于W+的第9层（1到9）、第17层和第18层。作为初始化，我们将wini设置为平均面部潜在代码[19]。我们认为M是描述缺陷区域的掩模。使用这些参数，我们执行掩码W+优化W 1。然后，我们使用Mblur+执行掩蔽噪声优化Mkn，M blur +是用于混合的略大的模糊掩模ing. 这里λmse2 取为10−4。其他符号是与第7.1节所述相同。 Alg. 4显示细节的算法。我们执行200个步骤的梯度下降优化掩蔽W+优化W1和1000次迭代的掩蔽噪声优化Mkn。图图6示出了示例性的修补结果。结果与当前最先进的部分卷积[24]相当。部分卷积方法经常遭受定期文物（见图。6（第三栏））。我们的方法中不存在这些伪影。图7我们展示了不同的inpainting解决方案，为同一图像实现了使用不同的-图9：第一列：基本图像;第二列：掩码区域;第三列：样式图像;第四列：局部样式传输结果。算法5：使用Scribble输入的局部编辑：image I scr∈Rn×m×3; masks M blur输出：嵌入代码（w out，n out）1（w，n）←initialize（）;∗w的ent初始化ini ，这是对平均面2w_out=W_l（1，1，w_m，w，n_ini，I_scr）+λ<$w<$−wout<$2;从均匀分布独立采样的潜在代码U[-0。四，零。4]中。初始化主要影响在优化期间不改变的层10至16多-不能用现有技术水平的方法来计算多个修补解决方案。7.4. 使用Scribbles进行另一个应用程序正在执行由用户涂鸦引导的语义本地编辑。我们发现简单的涂鸦3nout=Mkn（Mblur，wout，nini，Iscr，G（wout））;通过嵌入到W +的前4到6层中，将其转换为照片般逼真的编辑（见图1）。（八）。这使我们能够在不训练网络的情况下进行本地编辑。我们将图像x定义为涂鸦图像（I scr）。在这里，我们也使用掩码w m，其中值为1，对应于W+空间的前4，5或6层。作为初始化，我们将wini设置为w8306LL∗获得代码w。然后，我们使用模糊掩模M blur来应用掩模W+优化Wl以及掩模样式转移Mst。最后，我们执行掩蔽噪声优化Mkn以输出最终图像。Alg. 6显示了算法的细节应用结果如图所示。9 .第九条。我们执行1000个步骤来获得W1和Mst，然后执行Mkn的1000次迭代。7.6. 属性级特征传递我们将我们的工作扩展到另一个应用程序中使用的十元运算的图像嵌入在W+空间。在这个应用程序中，我们在StyleGAN的第4我们将两个图像I1和I2的潜码（w，n）馈送给生成器，并将第四层的输出存储为中间激活张量AI1和BI2。L l图10：第一列：基本图像;第二列：致敬形象;第三列：掩模区域;第四列：通过属性级特征转移生成的图像。算法6：本地风格转移输入：图像I1，I2∈Rn×m×3;掩模M模糊掩码Ms指定从AI1复制哪些值以及从BI2复制哪些值。该运算可以表示为Iatt（ Ms， Ms，w，nini，4）。图10、我们展示了操作该应用的设计参数是什么样式代码用于其余图层。在所示示例中，选择第一图像以提供样式。注意，在图2的第2栏中。10，尽管两个面部和物体的不同对准，图像被很好地混合。我们还显示了LSUN汽车和LSUN卧室数据集的混合结果。因此，与全局编辑（如图像变形，样式转换和表达式转换[1]）不同，这里可以独立编辑图像的不同部分，并且编辑是本地化的。此外，与其他编辑一起，我们在补充材料中示出视频，该视频进一步示出了其他语义编辑（例如，可以通过线性变换对这样的图像执行掩蔽图像变形输出：嵌入的代码（w∗出来，nout）一次一个图像W+代码的内插。1（w，n）←initialize（）;2w_out=W_l（M_blur，M_blur，l，w，n_ini，l_l）+Mst（1−Mblur，w_i，n_ini，I_2）;3n_out=Mk_n（M_blur，w_out，n_ini，I_1，G（w_out））;这是没有涂写的图像的W+我们使用这些参数执行掩码W+优化然后，我们使用M 模糊执行掩蔽噪声优化Mkn。其他符号与第7.1节所述相同。Alg. 5显示了算法的细节我们使用Adam执行1000次迭代，其中掩蔽W+优化W1的学习率为0.1，然后执行掩蔽噪声优化Mkn的1000步，以输出最终图像。7.5. 本地风格转移局部样式转换[13]修改输入图像x中的区域以将其转换为由样式参考图像定义的样式。首先，我们将图像嵌入W+空间，8. 结论我们提出了Image2StyleGAN++，一个强大的图像编辑框架，建立在最近的Image2StyleGAN。我们的框架由三个关键见解驱动：首先，StyleGAN算法采用叠加噪声图来捕捉图像的高频特征，提高了重建图像的质量;第二，通过在嵌入算法中包括掩模，使得能够进行局部编辑，这极大地增加了所提出的框架的能力;第三，通过将嵌入与激活张量管理相结合，可以创建各种应用。从本文中提出的高质量结果，可以得出结论，我们的Image2StyleGAN++是一个很有前途的框架，通用的图像编辑。对于未来的工作，除了静态图像，我们的目标是扩展我们的框架来处理和编辑视频。致谢这项工作得到了 KAUST 赞助研究办公室（OSR）的支持，OSR-CRG2018-3730。8307引用[1] R. Abdal，Y. Qin和P. Wonka。Image2stylegan：如何将图像嵌入到潜空间中？在IEEE计算机视觉国际会议论文集，第4432-4441页一、二、四、八[2] M. Arjovsky，S.Chintala和L.博图Wasserstein生成对抗网络。第34届国际机器学习会议论文集，第70卷，第214-223页，2017年。2[3] D.鲍，H. Strobelt，W. Peebles，J. Wulff，B. Zhou，J.Zhu，and A.托拉尔巴语义照片处理与生成图像优先。ACM Transactions on Graphics （ Proceedings of ACMSIGGRAPH），38（4），2019。2[4] D. Bau，J.-Y. Zhu，H.斯特罗贝尔特湾Zhou，J.B. 特南鲍姆W. T. Freeman和A.托拉尔巴Gan dissection：Visualizingand understanding generative adversarial networks.在2019年国际学习代表会议（ICLR）的开幕式上。二、四[5] D. Bau，J.-Y. Zhu，J.Wulff，W.Peebles，H.斯特罗贝尔特湾Zhou和A.托拉尔巴看看一个帮派不能创造什么。在2019年国际计算机视觉会议（ICCV）的开幕式上一、二[6] A. Brock，J. Donahue，and K.西蒙尼扬用于高保真自然图像合成的大规模GAN训练。2019年国际学习代表会议。一、二[7] A. Creswell和A. A.巴拉斯反生成对抗网络的生成器。IEEE Transactions on Neu- ral Networks and LearningSystems，2018。2[8] 联合 Demir和G. 乌纳尔基于补丁的图像修补生成对抗网络。arXiv预印本arXiv：1803.07422，2018。1[9] J. 邓，W。东河，巴西-地索赫尔湖J. Li，K.Li和L.飞飞ImageNet：一个大规模的分层图像数据库。2009年CVPR09中。2[10] A. Dosovitskiy和T.布洛克斯基于深度网络生成具有视觉相似性度量的图像神经信息处理系统的进展，第658-666页，2016年。3[11] A. 弗鲁斯特乌克岛。 Alhashim和P. 旺卡直到我死。ACMTransactions on Graphics，38（4）：1-11，2019年7月。二、四[12] L. A. Gatys，A. S. Ecker和M.贝丝使用卷积神经网络进行图像风格转换。在IEEE计算机视觉和模式识别会议论文集，第2414-2423页，2016年。3[13] L. A. Gatys，A. S. Ecker，M. Bethge，A. Hertzmann和E.谢克特曼神经风格迁移中知觉因素的控制。2017年IEEE计算机视觉和模式识别会议（CVPR），2017年7月。8[14] I. 古德费罗 J. 波吉特-阿巴迪 M. 米尔扎 B. 许、D. 沃德-法利，S。奥扎尔A.Courville和Y.本吉奥。生成对抗网络。在神经信息处理系统的进展，2014年。2[15] I. Gulrajani， F. 艾哈迈德， M 。阿尔约夫斯基河谷Dumoulin，以及A. C.考维尔改进的瓦瑟斯坦甘斯训练。神经信息处理系统的进展，第5767-5777页，2017年。2[16] P. Isola，J.Y. Zhu，T.Zhou和A.A. 埃夫罗斯使用条件对抗网络的图像到图像翻译。CVPR，2017年。2[17] Y.乔和J·帕克。Sc-fegan：具有用户草图和颜色的面部编辑生成对抗网络。在IEEE计算机视觉国际会议（ICCV）上，2019年10月。1[18] J. Johnson，A. Alahi和L.飞飞实时风格转换和超分辨率的感知损失。2016年欧洲计算机视觉会议。3[19] T. Karras ， S. Laine 和 T. 艾拉A style-based generatorarchitecture for generative adversarial networks. arXiv预印本arXiv：1812.04948，2018。一、二、六、七[20] D. P. Kingma和J. BA. Adam：随机最佳化的方法。2014.5[21] D. P.Kingma和M.威林自动编码变分贝叶斯。arXiv预印本arXiv：1312.6114，2013。2[22] C. Li和M.魔杖利用马尔可夫生成对抗网络进行预计算实时纹理InComputer Vision-ECCV 2016 - 14th EuropeanConference ， Am-2016 ， The Netherlands ， October 11-14，2016，Proceedings，Part III，2016. 2[23] J. Li，X.Liang，Y.Wei，T.徐，J.Feng和S.燕. 用于小物体检测的感知生成对抗网络。在IEEE计算机视觉和模式识别会议（CVPR），2017年7月。2[24] G. Liu，F. A. Reda，K. J. Shih，T.- C. Wang，中国山核桃A. 涛和B. 卡坦扎罗基于部分卷积的不规则孔洞图像修复计算机科学讲义，第89-105页，2018年。六、七[25] M.- Y. Liu，X.Huang，黄背天蛾A.Mallya，T.Karras，T.Aila，J.Lehti-nen，J.考茨少量镜头不适当的图像到图像的翻译。在arxiv，2019年。2[26] X. 茅角，澳-地Li，H.谢河，巴西-地Y. Lau，Z.Wang和S.P. 斯摩利最小二乘生成对抗网络。2017年IEEE计算机视觉国际会议（ICCV），2017年10月。2[27] T. 宫城，T.卡塔奥卡，M。Koyama和Y.吉田生成对抗网络的谱归一化。在2018年国际学习代表会议上。2[28] T. 帕克，M.-Y. 刘德铭C. Wang和J. -Y. 竹语义图像合成与空间自适应规范化。在IEEE计算机视觉和模式识别会议上，2019年。2[29] A.拉德福德湖，澳-地Metz和S.钦塔拉使用深度卷积生成对抗网络进行无监督表示学习arXiv预印本arXiv：1511.06434，2015。2[30] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。2014. 3[31] R. Slossberg湾Shamai，和R.基梅尔高品质的面部表面和纹理合成通过生成对抗网络。欧洲计算机视觉会议，第498-513页。Springer，2018. 2[32] S. Tulyakov，M. Y. Liu，X. Yang和J.考茨Moco-gan：分解运动和视频生成的内容.在IEEE计算机视觉和模式识别会议（CVPR），2018年6月。28308[33] C. Vondrick，H. Pirsiavash和A.托拉尔巴生成具有场景动态的视频。在神经信息处理系统的进展29。2016. 2[34] T.- C. 王兆国Y. Liu，中国粘蝇A. Tao，G. Liu，J. Kautz，和B.卡坦扎罗少镜头视频到视频合成。 arXiv预印本arXiv：1910.12713，2019。一、二[35] T.- C.王兆国Y.刘杰- Y. Zhu，G. Liu，中国粘蝇A.Tao，J. Kautz和B.卡坦扎罗视频到视频合成。神经信息处理系统进展（NeurIPS），2018。一、二[36] R. Webster，J.拉宾湖Simon和F.朱丽通过潜在恢复检测深度生成网络的过拟合2019. 1[37] W. Xian，P.Sangkloy，V.Agrawal、A.Raj，J.Lu，C.芳，F. Yu和J.海斯Texturegan：用纹理块控制深层图像合成在IEEE计算机视觉和模式识别会议上，2018年6月。2[38] J. Yu，Z. Lin，J. Yang，X. Shen，X. Lu和T.煌基于门控卷积的自由形式图像修复。2018. 1[39] J. Yu，Z.Lin，J.Yang，X.Shen，X.Lu和T.S. 煌具有上下文注意的生成图像修复。在IEEE计算机视觉和模式识别会议上，第5505-5514页，2018年。1[40] J. - Y. Zhu ，P. K r¨ henb ¨ hl，E. Shechtman 和A. A.埃夫罗斯自然图像流形上的生成式视觉操作。欧洲计算机视觉会议（ECCV），2016年。1[41] J. - Y. Zhu ，P. K r¨ henb ¨ hl，E. Shechtman 和A. A.埃夫罗斯自然图像的生成式视觉操作. 计算机科学讲义，第597-613页，2016年。2[42] J. - Y. Zhu，T.帕克山口Isola和A.A. 埃夫罗斯使用循环一致对抗网络的不成对计算机视觉（ICCV），2017年IEEE国际会议，2017年。2

下载后可阅读完整内容，剩余1页未读，立即下载