多代码GAN先验优化的图像处理任务

146 浏览量更新于2023-10-23 收藏 1.89MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3012基于多码GAN先验的顾津津1、2、沈玉军1、周波磊11香港中文大学2香港中文大学深圳分校jinjingu@link.cuhk.edu.cn，{sy116，bzhou}@ ie.cuhk.edu.hk(a)图像重建（b）图像着色（c）图像超分辨率(d)图像去噪（e）图像修复（f）语义操作图1：多代码GAN先验使用固定PGGAN [23]模型的重建促进了许多图像处理应用摘要尽管生成对抗网络（GAN）在图像合成方面取得了成功，但将训练好的GAN模型应用于真实图像处理仍然具有挑战性。以前的方法通常通过反向传播或通过学习附加编码器将目标图像反转回潜在空间。然而，这两种方法的重建都很不理想。在这项工作中，我们提出了一种新的方法，称为mGANprior，在各种图像处理任务之前将经过良好训练的GAN有效地结合起来。特别地，我们使用多个潜在代码在生成器的某个中间层生成多个特征映射，然后用自适应通道重要性将它们这种潜在空间的过度参数化显著提高了图像重建质量，优于现有的竞争对手。由此产生的高保真图像重建使训练的GAN模型能够在许多现实世界的应用中发挥作用，例如图像着色，超分辨率，图像修复和语义操作。我们进一步分析了GAN模型所学习的逐层表示的属性，并阐明了每层能够表示哪些知识。11代码可在此链接。1. 介绍最近，生成对抗网络（GAN）[16]通过提高合成质量[23，8，24]和稳定训练过程[1，7，17]来改进图像生成生成高质量图像的能力使得GAN适用于许多图像处理任务，例如语义面部编辑[27，36]，超分辨率[28，42]，图像到图像转换[53，11，31]等。然而，大多数基于GAN的方法需要特殊的网络结构设计[27，53]或损失函数[36，28]，一个特定的任务，限制了他们的概括能力。另一方面，大型GAN模型，如StyleGAN[24]和BigGAN [8]，可以在经过数百万张不同图像的训练后合成照片般逼真的它们的神经表示被示出包含所观察到的数据的各种语义水平[21，15，35，44]。在真正的图像处理之前，用较小的努力重用这些模型可能会导致更广泛的应用，但仍然很少探索。实现这一目标的主要挑战是，标准GAN模型最初设计用于从随机噪声中合成图像，因此无法拍摄真实图像进行任何后处理。通常的做法是将给定的图像反转回潜码，使得它可以由生成器重建。以这种方式，反3013转码可以是3014用于进一步加工。为了逆转生成过程，现有的方法分为两种类型。一种是通过反向传播最小化重建误差来直接优化潜在代码[30，12，32]。另一种是训练一个额外的编码器来学习从图像空间到潜在空间的映射[34，52，6，5]。然而，这两种方法所实现的重建都很不理想，特别是当给定的图像具有高分辨率时。因此，具有低质量的重建图像不能用于图像处理任务。从原理上讲，使用单个潜码不可能恢复任意真实图像的每个细节，否则，我们将拥有无与伦比的图像压缩方法。换句话说，由于其有限的维度，潜在代码的表现力是有限的。因此，为了忠实地恢复目标图像，我们建议采用多个潜在的代码，并组成其相应的特征映射在一些中间层的发生器。利用多个潜在代码允许生成器使用在深度生成表示中学习的所有可能的组成知识来恢复目标图像。实验结果表明，该方法能显著提高图像重建质量。更重要的是，能够更好地重建输入图像，我们的方法通过使用预先训练的GAN模型作为先验而无需重新训练或修改，促进了各种真实图像处理应用，如图所示。1.一、我们将我们的贡献总结如下：• 我们提出mGANprior，简称多码GAN先验，作为一种有效的GAN反演方法，通过使用多个潜在码和自适应信道重要性。该方法忠实地重建给定的真实图像，超越了现有的方法。• 我们将建议的mGANprior应用于一系列真实的-在图像彩色化、超分辨率、图像修复、语义处理等方面的应用，展示了其在实际图像处理中的潜力。• 我们进一步分析了Dif的内部表征在GAN生成器中的不同层，通过分别从每层的反转的潜在代码组成特征。2. 相关工作GAN反演。GAN反转的任务目标是用预训练的GAN模型将给定图像反转回潜在代码。作为将GANs应用于现实世界应用的重要一步，它最近引起为了反转GAN中的固定生成器，现有方法要么基于梯度下降优化潜在代码[30，12，32]，要么学习额外的编码器以将图像空间投影回潜在空间[34，52，6，5]。 Bau等人 [3]建议使用编码器提供更好的初始化优化。还有一些模型在训练阶段考虑了可逆性[14，13，26]。然而，上述方法都只考虑使用单个隐码来恢复输入图像，重建质量很不理想，特别是当测试图像与训练数据存在巨大的域间隙时。这是因为输入图像可能不位于生成器的合成空间中相比之下，我们建议增加潜在代码的数量，这显着提高反演质量，无论目标图像是域内还是域外。使用GANs进行图像处理。GAN由于其强大的合成逼真图像的能力而被广泛应用于真实图像处理。这些应用包括图像去噪[9，25]，图像修复[45，47]，超分辨率[28，42]，图像彩色化[38，20]，风格混合[19，10]、语义图像处理[41，29]等。然而，当前基于GAN的模型通常是针对具有专门架构[19，41]或损失函数[28，10]的特定任务而设计的，并使用配对数据进行训练通过将一个图像作为输入，另一个作为监督[45，20]。因此，我们的方法可以重用经过良好训练的GAN模型中包含的知识，并进一步使单个GAN模型在所有上述任务之前，无需重新训练或修改。值得注意的是，我们的方法可以实现与现有的基于GAN的方法相似甚至更好的结果，这些方法专门针对特定任务进行训练。Deep Model Prior. 通常，深度卷积模型的令人印象深刻的性能可以归因于其从大规模数据中捕获统计信息的能力。这样的先验可以反向用于图像生成和图像重建[40，39，2]。Upchurch等人。 [40]从深度卷积特征开始，反转了一个判别模型，以实现语义图像变换。Ulyanov等人。 [39]用U-Net结构重建了目标图像，表明该结构在任何学习之前，生成器网络足以捕获低级图像统计 Athar等人[2]为各种图像恢复任务学习了通用图像先验。一些工作在理论上探索了深度生成模型提供的先验知识[32，18]，但在实际图像处理之前使用GAN的结果仍然不令人满意。最近的一项工作[3]在语义照片操作之前应用了生成图像，但它只能编辑输入图像的一些部分区域，但无法应用于其他任务，如彩色化或超分辨率。这是因为它只将GAN模型反转到一些中间特征空间，而不是最早的隐藏空间。相比之下，我们的方法颠倒了整个生成过程，即。，从图像空间到初始潜在空间，支持更灵活的图像处理任务。3015n=1nn=12⊙12=G（1（`）12F（`）11（`）2nMSE+感知损失F（`）22NXNn=1 F（`）αnxinv反演结果目标图像F（`）NNN图2：使用多个潜在码{zn}n=1的GAN反演的流水线。这些潜码的生成特征被合成在一些中间层（即，，第n层），由自适应信道重要性得分{αn}N加权. 都是潜伏的码和对应的信道重要性分数被联合优化以恢复目标图像。3. 多码GAN先验GAN的一个训练有素的生成器G（·）可以通过从潜在空间Z中采样代码来合成高质量的图像。给定目标图像x，GAN反演任务旨在通过找到中间特征图。更具体地，生成器G（·）被划分为两个子网络，即：，G（）（·）和G（）（·）。这里，k是执行特征合成的中间层的索引。通过这样的分离，对于任何zn，我们可以提取相应的空间特征足够的代码来恢复x。它可以表示为F（）（）zn1n）用于进一步组合。z= arg minL（G（z）， x），（1）z∈Z自适应通道重要性。回想一下，我们希望每个zn都能恢复其中L（·，·）表示目标函数。然而，由于这种高度非凸的自然性，在最优化问题中，以前的方法不能通过优化单个潜码来理想地重建任意图像。为此，我们建议使用多个潜在代码，并组成其相应的中间特征映射与自适应通道的重要性，如图所示。二、3.1. 多潜码GAN反演单个潜码的表现力可能不足以恢复某个图像的所有细节。然后，目标图像 Bau等人 [4]不同的单位（即：GAN中的生成器的通道（通道）负责生成不同的视觉概念，如对象和纹理。基于这一观察，我们为每个zn引入自适应信道重要性αn，以帮助它们与不同的语义对齐。这里，αn∈RC是一个C维向量，C是G（·）的第n层通道数. 我们期望α n的每一个条目代表特征图的相应通道有多重要F（？）利用这样的合成，可以利用以下来生成重建图像：ΣN如何使用N个潜在代码{zn}N，其中2）A（F（α）n）、（2）可以帮助重建目标图像的一些子区域？在下文中，我们介绍如何利用多个潜在码进行GAN反演。n=1其中，λ表示按通道的乘法，{F（n）<$αn}i，j，c={F（n）}i，j，c × {αn}c.（三）特征组合。引入n n后的一个关键困难如何将它们整合到基因中定量过程一个直接的解决方案是融合由每个zn从图像空间X生成的图像。然而，X不是自然的线性空间，使得线性组合合成图像不能保证产生有意义的图像，更不用说详细地恢复输入。最近的一项工作[5]指出，将生成模型从图像空间反转到一些中间特征空间比反转到潜在空间要容易得多。因此，委员会认为，}GG}}n3016n=1n=1这里，i和j指示空间位置，而c代表信道索引。优化目标在引入特征组合技术以及引入自适应信道重要性以整合多个潜在码之后，总共有2N因此，我们重新公式化Eq。（1）作为{z}N，{α}N=arg minL（xinv，x）.（四）我们建议通过组合它们的潜在代码来组合潜在代码，n n=1n n=1{zn}N，{αn}N30172为了提高重建质量，我们通过利用低级和高级信息来定义特别地，我们使用逐像素重建误差以及从两个图像2中提取的感知特征[22]之间的l1距离。因此，目标函数如下：L（x1，x2）= ||x1− x2||2个以上||φ（x1），φ（x2）||第1条，第（5）项PGGAN CelebA-HQ PGGAN教会PGGAN卧室其中Φ（·）表示感知特征提取器。我们使用梯度下降算法来找到最佳的潜码以及相应的信道重要性分数。3.2. 多码GAN先验图像处理在反演之后，我们将重建结果作为多代码GAN应用于各种图像处理任务之前。每个任务都需要一个图像作为参考，这是用于处理的输入图像。例如，图像着色任务处理灰度图像，图像修复任务恢复具有缺失孔的图像。给定一个输入，我们应用所提出的多码GAN反演方法来重建它，然后对重建图像进行后处理以逼近输入。当近似足够接近输入时，我们假设后处理之前的重建是我们想要的。在这里，为了使mGANprior适应特定任务，我们修改Eq.（5）基于后处理功能：• 对于图像着色任务，以灰度图像Igray作为输入，我们期望反演结果具有与Igray相同的灰度通道，Lcolor=L（gray（xinv），Igray），（6）其中，gray（·）表示获取图像的灰度通道的操作。• 对于图像超分辨率任务，以低分辨率图像ILR作为输入，我们对反演结果进行下采样以近似ILR，其中其中down（·）代表下采样操作。• 对于图像修复任务，使用完整的图像Iori和指示已知像素的二进制掩码m，我们只重建未损坏的部分，并让GAN模型自动填充缺失的像素，图3：不同GAN反演方法的定性比较，包括（a）优化单个潜在代码[32]，（b）学习编码器[52]，（c）使用编码器作为优化的初始化[5]，以及（d）我们提出的mGANprior。4. 实验我们对最先进的GAN模型进行了广泛的实验，即。， PGGAN [23] 和 StyleGAN [24] ，以验证mGANprior的有效性。这些模型在各种数据集上进行训练，包括CelebA-HQ [23]和FFHQ [24]用于面部以及LSUN [46]用于场景。4.1. 与其他反演方法的比较在GAN反演方面有很多尝试，L输入 =L（xinvm，Iori ◦ （m）、（8）文学在本节中，我们将我们的多代码反演方法与以下基线方法进行比较：其中◦表示元素级乘积。2在这个实验中，我们使用预训练的VGG-16模型[37]作为特征提取器，并使用层conv 43（a）优化如等式（1）中的单个潜在码z;（1）[32]，（b）学习编码器以反转生成器[52]，以及（c）通过使用编码器的输出作为进一步优化的初始化来组合（a）和（b）[5]。(c)编码器+优化(d)我们(a)优化(b)编码器目标图像3018nn表1：不同GAN反演方法的定量比较：包括（a）优化单个潜在代码[32]，（b）学习编码器[52]，（c）使用编码器作为优化的初始化[5]，以及（d）我们提出的mGANprior。↑表示越高越好，↓表示越低越好。卧室教堂脸方法PSNR↑LPIPS↓PSNR↑LPIPS↓PSNR↑LPIPS↓（一）17.190.589717.15 0.533919.170.5797（b）第（1）款11.590.62470.596111.180.6992（c）第（1）款18.340.520117.81 0.478920.330.5321（d）其他事项25.130.157822.76 0.179923.590.4432为了定量评价反演结果，我们引入峰值信噪比（PSNR）来衡量10.950.90.850.80.750.70.65图4：使用的潜在代码的数量和特征组合位置对反演性能原始输入与像素级重建结果之间的相似性，以及已知与人类感知一致的LPIPS度量[49我们对分别在LSUN卧室（室内场景），LSUN教堂（室外场景）和CelebA-HQ（人脸）上训练的三个PGGAN [23]模型进行比较。对于每个模型，我们反转300个真实图像进行测试。选项卡. 1和图3分别进行了定量和定性比较。从Tab。1，我们可以说，目标图像z #1：塔IoU=0.21反演z #7：树IoU=0.21分割z #9：建筑IoU=0.40z #14：道路IoU=0.33z #17：树IoU=0.22mGANprior从像素级（PSNR）和感知级（LPIPS）两个方面我们还观察到在图。3.现有的方法不能恢复目标图像的细节，这是由于单个潜码的有限表示能力。相比之下，我们的方法实现了更令人满意的重建与大多数细节，受益于多个潜在的代码。我们甚至用西方数据训练的模型恢复了东方面孔（ CelebA-HQ[23]）。4.2. 倒置码如第3.该方法实现了具有N个潜在码和N个重要性因子的高保真GAN反演。以PGGAN为例，如果我们选择第6层（即，具有512个通道）作为N=10的合成层，要优化的参数的数量为10×（512+ 512），是原始潜空间的20倍维数。在本节中，我们对反转码进行详细分析。代码数量。显然，在优化空间的维数和反演质量之间存在折衷。为了更好地分析这种权衡，我们评估我们的方法，通过改变潜在代码的数量进行优化。图4表明使用的潜在代码越多，我们能够获得的重建效果越好。然而，这并不意味着通过增加潜在码的数量可以无限地提高性能。从图4，我们可以看到，在数量达到20之后，通过涉及更多的潜在码没有显著的改善。不同的组成层。在哪个图层上执行要素合成也会影响图5：每个潜在代码的角色的可视化。顶行分别是目标图像、反演结果和对应的分割掩码。在底行上是用特定语义标签注释的几个潜在代码。mGANprior的建议因此，我们在PGGAN的各个层上组成潜在代码（即，，从第1到第8），并比较反演质量，如图所示4.第一章通常，较高组成的层可以导致更好的反转效果。然而，如[4]中所揭示的，更高层包含诸如边缘和颜色的局部像素模式的信息，在更高层组合特征很难重用GAN学习的语义知识。这将在第二节中进行更多讨论。4.4每个潜在代码的作用。我们采用多个潜在的代码，期望他们中的每一个负责反转一个特定的区域，因此彼此互补。在这一部分中，我们可视化的角色，不同的潜在代码在反演过程中发挥。正如[4]所指出的，对于GAN模型中的特定层，不同的单元（通道）控制不同的语义概念。回想一下，mGANprior使用自适应通道重要性来帮助确定特定z应该关注哪种语义。因此，对于每个zn，我们将α n中大于0.2的元素设为0，得到α′。然后，我们使用αn和α′计算重建之间的差异映射。在分割模型[51]的帮助下，我们还可以获得各种视觉概念的分割图最后，我们基于相应的差异图和所有候选分割图之间的交集（IoU）度量来注释每个潜在代码。图5显示分割结果2个潜在代码5个潜在代码10个潜在代码20个潜在代码30个潜在代码相关性3019灰度图像（a）优化特征图（b）DIP（c）Zhang et al.（d）我们的地面实况图6：不同着色方法的定性比较，包括（a）通过优化特征图进行反演[3]，（b）DIP [39]，(c)Zhang等人 [48]，以及（d）我们的mGANprior。表2：关于卧室和教堂图像的着色任务的定量评估结果。AuC是指ab颜色空间上的累积误差分布的曲线下面积[48]。↑表示分数越高越好。方法卧室AuC（%）↑教会AuC（%）↑LR图像(a)烫(b)RCAN灰度输入88.0285.50(a)优化特征映射[3]85.4186.10(b)中文（简体）84.3383.31(c)Zhang等人 [48个]88.5589.13(d)我们90.0289.43(c)ESRGAN(d)我们地面实况和一些选定的潜在代码的IoU地图。事实证明，潜码被专门用于反转不同的有意义的图像区域来组成整个图像。这也是使用多个潜在代码优于使用单个代码的巨大优势4.3. 图像处理应用通过高保真图像重建，我们的多代码反演方法可以使用预先训练的GAN作为先验来促进许多图像处理任务。在本节中，我们将所提出的mGANprior应用于各种实际应用中，以证明其有效性，包括图像着色，图像超分辨率，图像修复和去噪，以及语义操作和风格混合。对于每个应用程序，GAN模型是固定的。图像着色。给定一个灰度图像作为输入，我们可以使用mGANprior对其进行着色，如第2节所述。3.2.我们将我们的反演方法与优化中间特征图进行了比较[3]。我们还与DIP [39]进行了比较，DIP使用判别模型作为先验，Zhang等人 [48]专门为着色任务设计。我们在为卧室和教堂合成训练的PGGAN模型上进行实验，并使用ab颜色空间上累积误差分布的曲线下面积作为评估指标，遵循[48]。选项卡. 2和图6显示定量和定性比较图7：不同超分辨率SR因子16 的方法竞争对手包括 DIP [39]， RCAN [50] 和ESRGAN [42]。分别事实证明，使用判别模型作为先验未能充分着色图像。这是因为判别模型专注于学习不适合低级别任务的高级表示。相反，使用生成模型作为先验导致更令人满意的彩色图像。我们还实现了与其主要目标是图像着色的模型相当的结果（图1）。（见第6段（c）和（d）分段）。这得益于GANs学到的丰富知识注意Zhang et al.[48]是针对一般图像着色提出的，而我们的方法只能应用于与给定GAN模型相对应的特定图像类别。在更多样化的数据集上训练的更大的GAN模型应该可以提高其泛化能力。图像超分辨率。我们还评估了我们的方法上的图像超分辨率（SR）的任务。我们在为人脸合成训练的PGGAN模型上进行实验，并将SR因子设置为16。如此大的因子对于SR任务是非常具有挑战性的。我们与DIP [39]进行比较，最先进的SR方法，RCAN [50]和ESRGAN [42]。除了PSNR和LPIPS之外，我们还引入了自然图像质量评估器（NIQE）[33]作为额外的度量。选项卡. 第三，定量比较。我们可以骗-3020损坏的图像（a）单个潜在代码（b）优化特征映射（c）DIP（d）我们的地面真相图8：不同修复方法的定性比较，包括（a）通过优化单个潜在代码的反转[30，32]，（b）通过优化特征映射的反转[3]，（c）DIP [39]和（d）我们的mGANprior。目标图像反转中性表达笑目标图像反转目标图像反演年轻年龄老目标图像反演图9：关于四个不同属性的真实面部操纵。在每个四元素元组中，从左到右是：输入面部、反转结果和操纵结果。包括我们的方法实现了与基于高级学习的竞争对手相当甚至更好的性能一个可视化的例子也显示在图。7，我们的方法用更多的细节重建人眼。与现有的基于学习的模型相比，如RCAN表3：具有SR因子16的不同超分辨率方法的定量比较。竞争对手包括DIP [39]，RCAN [50]和ESRGAN [42]。↑表示越高越好，↓表示越低越好。方法PSNR↑ LPIPS↓ NIQE↓在增强低分辨率（LR）图像之前使用。图像修复与去噪。我们进一步扩展我们的方法，图像恢复任务，如图像修复和图像去噪。我们首先通过随机剪切或添加噪声破坏图像内容，然后使用不同的算法来恢复它们。在PGGAN模型上进行实验，并与几种基线反演方法以及DIP [39]进行比较。PSNR和结构相似性（SSIM）[43]被用作评估指标。表4：不同修复方法的定量比较。我们做了测试，中央裁剪64×64框和随机裁剪80%的像素。↑表示分数越高越好。中心裁剪随机裁剪方法PSNR↑SSIM↑PSNR↑SSIM↑(a)单个潜在代码[30，32]10.370.167212.79 0.1783(b)优化特征映射[3]14.750.456318.72 0.2793(c)中文（简体）17.920.432718.02 0.2823(d)我们21.430.532022.11 0.5532性别男性构成权女性左和ESRGAN，我们的mGANprior对SR更灵活(a) 中文（简体）(b) RCAN [50]26.8728.820.42360.45794.665.70因子这表明自由训练的PGGAN模型(c)ESRGAN [42]25.260.38623.27已经自发地学到了丰富的知识，(d)我们26.930.35843.193021目标图像灰度图像损坏的图像层2层4层8地面实况我们的单个潜在代码（第2层）我们的（第4层）我们的（第8层）图10：使用不同GAN模型以及在不同层执行特征合成的反演结果的比较。每行代表一个PGGAN模型，一个特定的数据集作为先验，而每一列显示的结果，通过组成特征图在某一个层。选项卡. 4显示了定量比较，其中我们的方法在中心裁剪和随机裁剪的设置上都实现了最佳性能。图8包括一些恢复损坏的图像的示例。很明显，现有的反演方法和DIP都不能充分填充缺失的像素或完全去除添加的噪声。相比之下，我们的方法能够像之前一样使用经过良好训练的GAN，以有意义的填充内容令人信服地修复损坏的图像。语义操纵。除了前面提到的低层应用程序，我们还测试了我们的方法与一些高层次的任务，如语义操作和风格混合。正如先前的工作[21，15，35]所指出的，GAN已经在潜在空间内编码了一些可解释的语义。从这一点上，我们的反演方法提供了一种可行的方式来利用这些学习到的语义真实的图像操作。我们应用[35]中提出的基于潜在代码的操作图9显示了操作结果。我们看到mGANprior可以为语义操作提供足够丰富的信息。4.4. GANs中的知识表示如上所述，使用单个潜在代码的主要限制是其有限的表现力，特别是当测试图像呈现与训练数据的域间隙时。在这里，我们验证是否使用多个代码可以帮助缓解这个问题。特别是，我们尝试使用经过训练的GAN模型来合成人脸，教堂，会议室和卧室，以反转卧室图像。如图如图10所示，当使用单个潜在码时，重构图像仍然位于原始训练域（例如，倒置图11：使用不同组合层的mGANprior的着色和修复结果。第2、4、8层的AuC（越高越好）修复任务的PSNR（越高越好）相对于第2层、第4层和第8层分别为21.19db、22.11db、20.70db。绿色框中的图像表示最佳结果。与PGGAN CelebA-HQ模型看起来像一张脸，而不是一个卧室）。相反，无论GAN生成器使用什么数据进行训练，我们的方法都能够组成卧室图像。我们通过在不同层执行特征组合来进一步分析经过良好训练的GAN模型的逐层知识。图10表明使用的层越高，重建效果越好。这是因为重建侧重于恢复低级别的像素值，而GAN往往在底层表示抽象语义，而在顶层表示内容细节。我们还观察到，第4层对于卧室模型来说足以反转卧室图像，但其他三个模型需要第8层才能满足反转。原因是 bedroom 与 face 、 church 和conference room共享不同的语义，因此来自这些模型的高层知识（包含在底层）不能被重用。我们进一步通过将我们的方法应用于图像着色和图像修复任务来进行逐层分析11个国家。彩色化任务在第8层获得最佳结果，而修复任务在第4层获得最佳结果。这是因为着色更像是一个低级渲染任务，而修复需要GAN在用有意义的对象填充缺失的内容之前。这与图中的分析是一致的。10，这是来自GAN先验的低级知识可以在较高层重用，而高级知识在较低层重用。5. 结论我们提出了mGANprior，它采用多个潜在代码来用预训练的GAN模型重建真实图像。它使这些GAN模型在各种图像处理任务之前功能强大。鸣谢：这项工作部分由香港研究资助局的早期职业计划（ ECS ）资助，资助号为 24206219 ，部分由SenseTime合作资助。PGGAN PGGAN卧室会议室PGGAN教会PGGANCelebA-HQ3022引用[1] 马丁 ·阿乔对 ky ，苏米特 ·钦塔拉和 Le'onBottou 。Wasserstein gan arXiv预印本arXiv：1701.07875，2017。1[2] 沙鲁克·阿萨，叶夫根尼·伯纳耶夫，维克多·伦皮茨基。潜在卷积模型。2019年，在ICLR。2[3] David Bau，Hendrik Strobelt，William Peebles，JonasWulff，Bolei Zhou，Jun-Yan Zhu，and Antonio Torralba.具有生成图像先验的语义照片处理。在SIGGRAPH，2019年。二六七[4] David Bau ， Jun-Yan Zhu ， Hendrik Strobelt ， BoleiZhou， Joshua B.作者：William T. Freeman 和AntonioTorralba。肝解剖：可视化和理解生成对抗网络。2019年，在ICLR。三、五[5] David Bau 、 Jun-Yan Zhu 、 Jonas Wulff 、 WilliamPeebles 、 Hendrik Strobelt 、 Bolei Zhou 和 AntonioTorralba。大型发电机的反相层。在ICLR研讨会，2019年。二三四五[6] David Bau 、 Jun-Yan Zhu 、 Jonas Wulff 、 WilliamPeebles 、 Hendrik Strobelt 、 Bolei Zhou 和 AntonioTorralba。看看一个帮派不能创造什么。在ICCV，2019年。2[7] David Berthelot Thomas Schumm 和 Luke Metz 。 Be-gan：边界平衡生成对抗网络。arXiv预印本arXiv：1703.10717，2017. 1[8] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模gan训练2019年，在ICLR。1[9] 陈静雯，陈嘉伟，赵宏阳，杨明。基于生成对抗网络噪声建模的图像盲去噪。在CVPR，2018年。2[10] 陈新元，徐畅，杨小康，李松，陶大成。Gated-gan：用于多集合类型传输的对抗性门控网络。TIP，2018年。2[11] Yunjey Choi，Minje Choi，Munyoung Kim，Jung-WooHa，Sunghun Kim，and Jaegul Choo. Stargan：用于多域图像到图像翻译的统一生成对抗网络。在CVPR，2018年。1[12] Antonia Creswell和Anil Anthony Bharath。反生成对抗网络的生成器。TNNLS，2018年。2[13] Je f fDonahue，PhilippK raühenbuühl，和Tr ev或Darrell。对抗性特征学习。在ICLR，2017。2[14] Vincent Dumoulin 、 Ishmael Belghazi 、 Ben Poole 、Olivier Mastropietro 、 Alex Lamb 、 Martin Arjovsky 和Aaron Courville。逆向学习推理。在ICLR，2017。2[15] Lore Goetschalckx，Alex Andonian，Aude Oliva，andPhillip Isola.Ganalyze ： Toward visual definitions ofcognitive image properties.在ICCV，2019年。1、8[16] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。NeurIPS，2014。1[17] Ishaan Gulrajani 、 Faruk Ahmed 、 Martin Arjovsky 、Vincent Dumoulin和Aaron C Courville。改进的瓦瑟斯坦甘斯训练。NeurIPS，2017。13023[18] 保罗·汉德和弗拉迪斯拉夫·沃罗宁斯基通过经验风险强制执行深度生成先验的全球保证。 IEEETransactions on Information Theory，2019。2[19] 郝光远，于红星，郑伟世。Mix-gan：从不同领域学习概念以生成混合物。在IJCAI，2018。2[20] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and AlexeiA Efros.使用条件对抗网络的图像到图像翻译。在CVPR，2017年。2[21] Ali Jahanian，Lucy Chai和Phillip Isola。关于生成对抗网络的“可操纵性”。在ICLR，2020年。1、8[22] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失。在ECCV，2016年。4[23] Tero Karras ，Timo Aila ，Samuli Laine，and JaakkoLehtinen.为提高质量、稳定性和变异性而进行的干细胞生长。在ICLR，2018年。一、四、五[24] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构，用于生成对抗网络。在CVPR，2019年。1、4[25] Dong-Wook Kim Jae Ryun Chung和Seung-Won Jung。Grdn：分组残差稠密网络，用于真实图像去噪和基于gan的真实世界噪声建模。2019年CVPR研讨会。2[26] Durk P Kingma和Prafulla Dhariwal。Glow：具有可逆1x1卷积的生成流。NeurIPS，2018。2[27] Guillaume Lample、Neil Zeghidour、Nicolas Usunier、Antoine Bordes 、 Ludovic Denoyer 和 Marc 衰减器网络：通过滑动属性操作图像。NeurIPS，2017。1[28] Chris t ianLedig ， LucasTheis ， FerencHus za'r ，JoseCaballero ， AndrewCunningham ， AlejandroAcosta ， Andrew Aitken ， Alykhan Tejani ， JohannesTotz，Zehan Wang，et al.使用生成对抗网络的照片级真实感单幅图像超分辨率。在CVPR，2017年。一、二[29] Xiaodan Liang，Hao Zhang，Liang Lin，and Eric Xing.使用掩码对比gan的生成语义操作。在ECCV，2018。2[30] Zachary C Lipton和Subarna Tripathi。从生成对抗网络中精确恢复潜在向量在ICLR研讨会，2017年。二、七[31] Ming-Yu Liu ， Xun Huang ， Arun Mallya ， TeroKarras，Timo Aila，Jaakko Lehtinen，and Jan Kautz.很少拍摄的无监督图像到图像的转换。在ICCV，2019年。1[32] Fangchang Ma，Ulas Ayaz，and Sertac Karaman.部分测量卷积生成网络的可逆性。NeurIPS，2018。二四五七[33] Anish Mittal、Rajiv Soundararajan和Alan C Bovik。制作“全盲”图像质量分析仪。IEEE Signal ProcessingLetters，2012。6[34] Guim Perarnau ， Joost Van De Weijer ， BogdanRaducanu，andJoseMA'lv arez. 用于图像编辑的不可见条件gans在NeurIPS研讨会，2016年。2[35] Yujun Shen，Jinjin Gu，Xiaoou Tang，and Bolei Zhou.语义人脸编辑中gans潜在空间的解释。在CVPR，2020年。1、83024[36] Yujun Shen，Ping Luo，Junjie Yan，Xiaogang Wang，and Xiaoou Tang.Faceid-gan ：学习对称的三人游戏gan，用于保持身份的面部合成。在CVPR，2018年。1[37] Karen Simonyan和Andrew Zisserman用于大规模图像识别的非常深的卷积网络2015年，国际会议。4[38] 帕蒂奇·L·苏·阿雷兹、安吉尔·D·萨帕和鲍里斯·X·V·内蒂米拉。基于三重dcgan结构的红外图像彩色化。2017年CVPR研讨会。2[39] 德米特里·乌里扬诺夫，安德烈·维达尔迪，维克多·伦皮茨基。深度图像先验。在CVPR，2018年。二六七[40] Paul Upchurch 、 Jacob Gardner 、 Geoff Pleiss 、 RobertPless、Noah Snavely、Kavita Bala和Kilian Weinberger。针对图像内容变化的深度特征插值。在CVPR，2017年。2[41] Ting-Chun Wang，Ming-Yu Liu，Jun-Yan Zhu，AndrewTao，Jan Kautz，and Bryan Catanzaro.基于条件gans的高分辨率图像合成与语义处理。在CVPR，2018年。2[42] Xintao Wang，Ke Yu，Shixiang Wu，Jinjin Gu，YihaoLiu ， Chao Dong ， Yu Qiao ， and Chen Change Loy.Esrgan：增强的超分辨率生成对抗网络。在ECCV研讨会，2018。一、二、六、七[43] Zhou Wang，Alan C Bovik，Hamid R Sheikh，Eero PSimoncelli，等.图像质量评估：从错误可见性到结构相似性。TIP，2004年。7[44] Ceyuan Yang，Yujun Shen，and Bolei Zhou.语义层次出现在场景合成的深层生成表示中。arXiv预印本arXiv：1911.09267，2019。1[45] Raymond A Yeh ， Chen Chen ， Teck Yian Lim ，Alexander G Schwing ， Mark Hasegawa-Johnson ， an

下载后可阅读完整内容，剩余1页未读，立即下载