图像外扩：基于GAN反演实现多样化的图像扩展

171 浏览量更新于2023-10-25 收藏 30.41MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

ial networks. Our generator renders micro-patches condi-tioned on their joint latent code as well as their individualpositions in the image. To outpaint an image, we seek formultiple latent codes not only recovering available patchesbut also synthesizing diverse outpainting by patch-basedgeneration. This leads to richer structure and content inthe outpainted regions. Furthermore, our formulation al-lows for outpainting conditioned on the categorical input,thereby enabling ﬂexible user controls. Extensive experi-mental results demonstrate the proposed method performsfavorably against existing in- and outpainting methods, fea-turing higher visual quality and diversity.114310InOut：通过GAN反演实现多样化的图像外扩0Yen-Chi Cheng 1，Chieh Hubert Lin 2，Hsin-Ying Lee 3，Jian Ren 3，Sergey Tulyakov 3，Ming-Hsuan Yang 2，4，501 卡内基梅隆大学 2 加州大学默塞德分校 3 Snap公司 4 延世大学 5 谷歌研究0https://yccyenchicheng.github.io/InOut/0全景图生成0多样化的外扩分类操作0?0?0+ 塔 + 树 + 山0+ 塔 + 山 + 海0通过反演进行外扩0扩展5倍0从两侧扩展3倍0（1）输入0（3）外扩结果（生成的完整图像）0图像空间0?0潜在空间0最佳潜在代码（多模态）0（2）反演0?0?0图1.（左上）给定输入图像和经过训练的生成器，所提出的算法搜索可以生成包含输入图像的图像的潜在代码。我们可以自然地实现（右上）多样化的图像外扩，（右中）用于外扩区域的分类操作，以及（底部）生成具有丰富和复杂结构的全景图。0摘要0图像外扩寻求在输入图像的可用内容之外实现语义一致的扩展。与修复（在与邻近像素一致的方式下填充缺失像素）相比，外扩可以以更多样化的方式实现，因为该问题受到周围像素的约束较少。现有的图像外扩方法将问题作为条件图像到图像的转换任务，通常通过复制输入图像中可用的内容生成重复的结构和纹理。在这项工作中，我们从生成对抗的角度来解决这个问题。1143201. 简介0给定输入图像，我们可以轻松地想象相邻图像的样子。例如，给定一张山的图像，我们可以想象周围被森林或雪覆盖的景色，想象山脚下有一个湖泊，并可视化靠近海洋的悬崖。这种心理技能取决于我们的先前经验和对多样化风景的接触。换句话说，这是一个图像外扩任务。它可以实现各种内容创作应用，如使用外推区域进行图像编辑、全景图像生成和扩展的虚拟现实体验等。最近在图像修复方面的进展[20，23，33，34]并没有直接解决外扩问题，因为前者有更多的上下文要处理-缺失的像素有更多的可用周围像素，作为边界条件并为修复提供重要的指导。相比之下，外扩问题只能依赖于可用图像的上下文，边界附近的像素数量很少，作为边界条件。类似的类比是视频插值和视频预测，前者处理现有事件，而后者试图模拟多个未来。在文献中，图像外扩是从图像到图像的转换（I2I）的角度来解决的[27，31]。这些方法旨在学习从部分图像的域到完整外扩图像的确定性映射。这种表述在几个方面有限。首先，可用像素作为强大的上下文来源，从而促进了纹理和结构从输入到输出的泄漏，并导致外扩的重复性（如[27]中的全景结果所示）。其次，现有的基于I2I的方法是确定性的，而实际上每个图像可以有多种外扩方式。将现有的多模态I2I方法[13，17]应用于外扩问题是非常困难的。在这项工作中，我们通过反演生成对抗网络（GANs）[1，4，7，37]来解决外扩问题。我们首先扩展了基于StyleGAN2的[15]生成器，以以坐标条件的方式进行生成，并独立生成空间一致的微小补丁。每个微小补丁与图像中的其他微小补丁共享全局潜在代码，同时具有唯一的坐标标签。然后，可以将外扩问题形式化为找到可用输入微小补丁的最佳潜在代码，然后通过提供适当的坐标条件生成所需的区域。为了搜索潜在代码，我们提出了一种GAN反演过程，可以找到多个生成多样化外扩区域的潜在代码，从而解锁输出中的多样性。此外，我们提出了一种分类生成模式，以实现灵活的用户控制。图1显示了多模态和分类外扩的示例。0我们在Place365[36]数据集和我们收集的Flickr-Scenery数据集上对所提出的方法进行了定性和定量评估。我们使用Fr´echetInceptionDistance（FID）[12]进行评估，并进行用户研究以评估外描图像的逼真程度。由于所提出的方法可以实现多模态生成，我们使用学习的感知图像块相似度（LPIPS）度量[35]来衡量多样性。最后，我们展示了外描区域和全景生成中的分类生成场景。02. 相关工作0GAN反演。生成模型旨在对目标分布进行建模和采样。生成对抗网络（GAN）[11]在各种生成模型中表现出卓越的性能，可以生成高质量的样本。为了探索训练良好的GAN的可解释性，提出了GAN反演，以找到能够准确恢复给定图像的潜在编码。有两个主要的方法。基于编码器的方法[5, 9,24]采用额外的编码器来学习从图像域到潜在空间的映射。基于优化的方法[1, 2, 7, 19,21]使用基于梯度的优化方法，以重建损失作为目标函数，找到能够恢复输入图像的潜在编码。其他变体使用编码器来获得优化过程的初始化[4,38]，或通过合并可逆性来修改训练框架[8, 37]。0图像修复。从使用生成模型填充图像中的缺失像素的角度来看，修复问题在概念上与外描任务相关。现有的图像修复方法可以分为两类。第一类方法利用补丁相似性和扩散从已知区域获取基本信息[10,31]。这些方法通常在纹理上效果良好，但无法学习语义结构。另一类方法采用基于学习的方法来获得更好的语义理解[20, 23, 33,34]。大多数方法应用编码器-解码器模型，使用重建损失和对抗损失来确保填充内容平滑和逼真。图像外描更具挑战性，因为它需要创建新内容而不是填充部分区域，需要对场景有深入的理解。0图像外描。大多数图像外描方法[10, 16, 26,28]应用基于补丁的检索和匹配算法来预测可能的外推。最近，一些方法[27, 29,31]应用GAN模型，并将问题形式化为图像到图像的转换任务。然而，条件形式化在很大程度上依赖于给定的可用像素，并且往往会创建重复的纹理和ℒ!"#$%&ℒ'!#ℒ*'#w3w2w1ℒ!"#$%&ℒ*'#ℒ*+w1i,jw1,1w1,2w2,1w2,2y2,2y2,1y1,2y1,1w2i,jw3i,jy2,2y2,1y1,2y1,1FyFyFy114330D0通过反演进行外描0生成器训练0（a）非分类设置0坐标0� ()0连接0（b）分类设置0z w0F0z0冬季0D0连接0合成0真实，伪造0y0坐标0搜索最佳潜在编码0真实，伪造0连接0F z0坐标0合成0y 11，y 12原始类别y21，y 22新类别0坐标0潜在空间0w 1w 2w 30潜在空间0w 1w 2w 30F y0搜索最佳潜在代码0合成0合成0w 30w 20w 10图2.概述。生成器训练：所提出的生成器采用StyleGAN2作为骨干，并结合坐标条件，生成的微小补丁是根据其在图像中的位置进行条件生成的。通过反演进行外推：我们搜索能够恢复给定部分图像并在外推区域合成多样样本的潜在代码。除了无条件设置外，我们引入了一种分类设置变体，可以在每个外推微小补丁上实现灵活的分类操作。0结构。据我们所知，所提出的方法是从GAN反演的角度来解决图像外推任务的首次尝试。03.多样化的反演外推0概述。图像外推的目标是根据给定的输入图像向外合成未知区域。我们的流程包括两个阶段：生成器训练和通过反演进行外推。在第3.1节中，我们首先介绍了一个基于StyleGAN[14,15]和COCO-GAN[18]的生成器。它被训练为在输出图像中的联合潜在和补丁坐标上输出微小补丁。我们没有专门优化生成器来执行外推。在外推阶段（第3.2节），我们在训练的基于补丁的生成器的潜在空间中找到可用输入补丁的最佳潜在代码。然后通过组合所需的坐标和找到的最佳潜在代码生成新的补丁来执行外推。我们还提出了一种分类条件方案，以实现可控外推。最后，在第3.3节中介绍了一种简单的混合算法来进一步减轻伪影。03.1.坐标条件生成器0在这项工作中，我们处理两种不同的设置：(a)非分类生成，即从潜在代码合成图像；(b)分类生成，即使用分类标签作为附加的条件上下文，在后续的反演阶段中提供更多用户控制。0非分类生成。我们使用StyleGAN2[15]0作为我们的骨干架构。给定输入潜在空间Z中的潜在z，我们通过非线性映射网络F获得中间代码w∈W。与[30]类似，我们将w映射到高斯化空间V。通过带有负斜率为5的LeakyReLU（LRU）实现映射，即v = LRU5.0(w)。通过使用附加的高斯化空间，可以显著提高后续GAN反演阶段的外推质量。在第3.2节中讨论了采用高斯化空间的必要性。我们将图像外推问题定义为找到合成与输入图像重叠的潜在代码。在反演过程中，我们寻找整个图像的潜在代码，而只有部分图像可用。因此，生成器G不是生成完整图像，而是生成几个微小补丁{Ii,jmicro}i,j=1,...,n，这些补丁将连接在一起形成完整图像If。每个补丁都依赖于联合潜在代码和其坐标。对于n×n微小补丁生成设置，与{Ii,jmicro}i,j=1,...,n对应的坐标为{ci,j}i,j=1,...,n。我们设置c1,1= (-1,-1)，cn,n =(1,1)，其余（如果有）通过线性插值获得。输出图像If的生成如下：w = F(z)，v = LRU 5.0(w)0Ii,j micro = G(v, ci,j)，If = concat i,j=1,...,n(Ii,jmicro)。(1)0我们使用Wasserstein-GAN损失[3]训练生成器，其中包括真实全图像 I r 和生成的全图像 I f ：0L adv = E I r [ D ( I r ) ] - E z [ D ( I f ) ] 。 (2)0分类生成。为了在反演阶段实现细粒度的用户控制，我们提出了一种分类生成方案。minDmaxGLadv + minG,D Lcls .m�i=1m�j=i+1∥wi − wj∥1 .(7)m�i=1m�j=i+1(∥G(wi) − G(wj)∥1∥wi − wj∥1) .(8)arg min{wi}∈Wλmsemse + λperceptpercept+114340给定一个真实图像 I r，我们将其分成微补丁 { I i,j micro}。然后，我们使用现成的DeepLabV3[6]模型为每个微补丁获取分类标签 { y i,j}，并将多类二进制标签向量 y i,j 中的第 k 个元素设置为1，如果 I i,j micro 中的任何像素被识别为第 k类。为了将分类信息作为条件输入，我们将非线性映射网络F 分为 { F z , F y }。这里，F z的操作方式与非分类设置中的 F 相同，而 F y 则将 { y i,j }作为额外输入，并将该信息与 F z的输出融合。在分类设置下，新的 w i,j通过以下方式计算：0w inter = F z ( z ) ，w i,j = F y ( w inter , y i,j ) 。 (3)0接下来，类似于非分类设置，我们使用 v i,j = LRU 5 . 0 ( wi,j ) 对代码进行高斯化，生成微补丁 I i,j micro = G ( v , c i,j)，然后将 { I i,j micro } 连接成完整图像 I f。我们使用 D的最后中间特征来执行所有 I i,j micro 的多类分类 ai,j，以学习关于 y i,j 输入到 G 的适当条件分布。L cls =BCE( a i,j , y i,j )，其中 BCE是二元交叉熵损失函数。完整的训练目标是：03.2. 具有多样性损失的GAN反演0给定一个经过训练的坐标条件生成器G（如前一节所讨论的）和一个输入图像 R作为参考，我们通过将 R 与生成的微补丁 { O m }组合来生成一组可能的outpainted图像。为了简洁和符号清晰，我们假设 G 是用一个2×2的微补丁网格进行训练的，即{ R 1 , 1 micro , R 1 , 2 micro , R 2 , 1 micro , R 2 , 2micro }。此外，为了简化表示，我们假设 R在左侧，并由两个左侧的微补丁（即 R 1 , 1 micro 和 R 1 ,2 micro ）组成，而outpainted区域 { O m }在右侧，如图2的下半部分所示。请注意，在实践中，G不限于 2×2，R可以是任何分辨率，并且可以使用任意方向进行outpainting。与现有的反演方法类似，我们寻找恢复输入图像的最优潜变量 w。通过 R f = concat( G ( v , c 1 , 1 ) , G ( v , c 1 ,2 ))，我们得到：0L mse = ∥ R - R f ∥ 2 ，L percept = Percept( R, R f ) ， (5)0其中 v = LRU 5 . 0 ( w )，Percept是[35]中提出的感知距离。outpainting过程不仅要求重建部分正确（即 I 1 , 1 micro 和 I 1 , 2 micro），还要求outpainted部分（即 I 2 , 1 micro 和 I 2 , 2micro）真实和一致。注意，微补丁之间的连续性和一致性是通过联合潜变量来强制实施的。0以及坐标条件方案。在生成器训练过程中，潜变量是从高斯分布中采样得到的。因此，鼓励所寻求的潜变量 w属于训练数据的领域，并且可以被 G解释，而不是过度拟合给定的图像与域外潜变量。作为第一步，在第3.1节中，我们在 W之后添加了一个附加的高斯化空间 V，使用 LRU 5 . 0将复杂且任意形状的 W 简化。接下来，使用高斯化的V，我们可以轻松地推导出分布 p ( v ) 的均值 μ和协方差矩阵 Σ，其中 v ∈V。我们通过正则化其先验来鼓励恢复的 v 在训练分布中：0L 先验 = ( v − µ ) � Σ − 1 ( v − µ ) . (6)0为了实现多样的外扩，我们应用了两种不同的目标函数。假设我们的目标是生成m个不同的外扩结果，我们首先明确地惩罚反演的潜在代码及其两两之间的距离：0L 多样性 =−0然后，为了进一步鼓励模型在潜在空间中寻找不同的最终潜在代码，我们应用了一种模式寻求正则化[22]：0L 均匀性 =0我们的反演的完整目标是：0λ 先验 L 先验 + λ 多样性 L 多样性 + λ均匀性 L 均匀性 , (9)0其中超参数λ控制每个项的重要性。所提出的流程可以应用于基于优化、基于编码器或混合方法。请注意，这种反演范式对于非分类和分类设置是相同的，只是分类设置寻找winter而不是w。03.3. 补丁混合0如第3.2节所述，反演过程需要重建给定部分和预测外扩部分，在训练阶段强制实施连续性和一致性。然而，即使在先验损失L先验的帮助下，外扩有时也会在拼接补丁后产生微小的接缝。由于简单地合并补丁，外扩图像很可能包含伪影。因此，我们引入了一种图像混合方法来解决这个问题。除了参考图像R和外扩区域O之外，我们还生成位于R和A之间以及O和A之间的补丁。以R = I1,1微观，I1,2微观和O =I2,1微观，I2,2微观为例，附加区域A的坐标如下生成Place365Flickr-SceneryInOutBoundlessDeepFillv2NS-outpaint114350表1.定量比较。在Places365和Flickr-Scenery数据集上，我们的方法在FID和IS指标上优于相关的最新基准，同时衡量了视觉质量和多样性。0方法 FID � IS � FID � IS �0Boundless 35.02 6.15 61.98 6.98 NS-outpaint 50.684.70 61.16 4.76 DeepFillv2 56.14 5.69 62.47 5.38Image2StyleGAN++ 25.36 6.71 40.39 7.100InOut (我们的方法) 23.57 7.18 30.34 7.16 InOut-C(我们的方法) 29.24 7.69 33.17 7.150Image2StyleGAN++真实数据0图3.用户研究。我们进行用户研究来量化两种情况下的视觉质量：(a)与基准的比较，(b)与真实图像的比较。我们用白色条形图标记95%的置信区间。0表2. 消融研究。我们使用FID和LPIPS来展示每个组件的必要性，用于衡量质量和多样性。0# 输出 m=2 m=30方法 FID � 多样性 � FID � 多样性 �0InOut无L div , L ms 30.12 0.183 30.28 0.1760InOut无L ms 29.85 0.201 29.80 0.206 InOut无L div29.75 0.204 33.97 0.2010InOut无L先验 36.56 0.216 36.53 0.2200(0 , − 1) 和 (0 , 1)。然后我们在R和A之间以及O和A之间线性混合重叠区域。尽管这个后处理步骤很简单，但对于我们的目的来说提供了足够的质量。实际上，我们观察到生成器可以根据坐标插值准确地插值出风景的扩展轮廓的位置。04. 实验结果0数据集。我们在风景数据集上评估我们的方法，因为它们是最具代表性和自然的用例。0出画。我们在Places365[36]数据集和收集的Flickr-Scenery数据集上进行实验。关于具有结构化样本（例如建筑物）的图像的更多结果可以在补充材料中找到。与[27]类似，我们在Places365数据集的一个子集上评估我们的方法。我们从Places365数据集中选择了25个风景类别，其中包含62,500个样本的子集。为了进一步分析我们方法的泛化能力，我们通过从Flickr收集一个大规模的风景图像数据库来构建一个Flickr-Scenery数据集，其中包含54,710张图像。所有图像都被中心裁剪并调整为256×256像素。对于这两个数据集，我们将数据分为80％，10％，10％用于训练，验证和测试。所有定量和定性实验仅在测试集上进行评估。源代码，训练模型和Flickr-Scenery数据集将公开提供。0评估方法。我们使用最先进的图像出画方法（Boundless[27]和NS-outpaint [31]）以及图像修复方法（DeepFillv2[33, 34]和Image2stylegan++[2]）进行定量和定性实验。为了与Image2stylegan++进行公平比较，我们采用了基于优化的方法进行所有比较。我们在补充材料中比较和讨论了基于优化和编码器的方法。04.1. 定量评估0我们使用Fr´echet InceptionDistance（FID）[12]和InceptionScore（IS）[25]来评估结果的真实性和多样性。请注意，在定量评估中，我们不应用第3.3节中介绍的混合方案，因为我们的目标是在没有额外后处理的情况下展示所提出的流程的优势。如表1所示，所有提出的基于反演的方法在与基于I2I的方法的比较中表现出色。FID和IS的结果表明，与I2I基线方法相比，我们的InOut变体生成的图像分布与真实分布之间的相似性显著更高。此外，与Image2stylegan++[2]相比，结果表明坐标条件不仅使InOut-C具备了分类操作特性，还自然地提高了生成的多样性和质量。用户研究。我们进行用户研究，以明确地进行两种设置的成对定性比较：（a）我们的方法与每个基线方法的比较，以及（b）所有方法与真实样本的比较。对于每一轮比较，我们向用户展示从同一真实样本生成的两个出画结果的一对。图像可以来自我们的方法、基线方法或真实图像。然后，要求受试者从图像对中选择一个更真实和更受欢迎的样本。我们收集了80名志愿者的结果。每个志愿者进行了21轮比较。114360真实数据无限边界 NS-outpaint DeepFillv2 Image2stylegan++ 我们的0图4.与相关工作的比较。与其他相关方法的定性比较显示，所提出的方法更加稳定，合成了更丰富的上下文和更复杂的结构，并能够处理一些困难的复杂场景。（所有方法的输入区域用红色虚线标记。）0输入输出输入输出0图5. 多样的出画。我们展示了所提出的方法可以为给定的输入寻找各种解决方案，实现了高品质的多样化出画结果。0选择，导致 1,680 个数据点。0图3显示，受试者更喜欢我们模型生成的出画结果，而不是其他评估方法生成的结果。特别是与真实图像相比，我们观察到我们的方法与Boundless之间存在明显差距。这可能是因为我们的方法经常能够合成复杂的结构和新颖的对象（如图4和图6所示），与真实图像的多样性和细节相匹配，而Boundless倾向于创建过度平滑的结果，并带有雨滴状伪影。0+树+天空+山Extend 3 times from both sides114370+山+塔+树0输出输入0输入输出0+岩石+湖+沙0+岩石+瀑布+山0输入输出0图6.分类生成。我们通过为相同的真实图像输入的外扩区域分配不同的分类标签来展示分类操作的有效性。结果表明，所提出的方法可以平滑地添加新对象并校准景观以适应用户的不同分类控制。0扩展3倍，从两侧0扩展5倍0输入输出输出0图7.全景生成。我们通过递归外扩来合成全景图像。结果具有高质量和高结构复杂性，没有重复的模式。0先验损失Lprior对于确保视觉质量至关重要。正如我们在第3.2节中讨论的那样，Lprior将反转的潜在代码的最终状态规范化为位于高斯先验的密集区域内。因此，外扩区域内生成的内容保持逼真，而不是使用漂离训练分布的无约束潜在代码创建伪影。如图8所示，没有Lprior的反转结果要么在输入区域和外扩区域之间产生明显的接缝，要么将输入区域复制到外扩区域。我们评估了Lms和Ldiv的不同m值的效果。我们证明了多样性损失通过寻找独特的潜在代码在多样性得分上提供了显著的改进，而不会损害视觉质量。04.2.定性评估0在本节中，我们展示了所提出方法的视觉质量和多样性，并呈现了包括分类生成、全景生成和从不同形状和方向进行外扩的应用。请参考补充材料获取更多视觉结果。0在图4中，我们比较了所提出的InOut与基线方法的外扩结果的视觉质量。结果显示，InOut通常更加逼真、连贯、多样化，展示了更多新颖的结构/对象，同时引入的显著伪影较少。相比之下，Boundless[27]倾向于引入雨滴状伪影，DeepFillv2 [33,34]创建模糊的扩展，而NS-outpaint[31]和Image2stylegan++[2]经常生成强烈的伪影和明显的颜色差异。在图5中，我们展示了当m=3时的多样化外扩结果。结果显示，所提出的多样性损失使反转流程能够寻找不同的外扩解决方案。请注意，尽管外扩解决方案各不相同，但所有反转结果仍然具有视觉吸引力并与真实图像输入相匹配。图6显示了使用InOut-C变体实现的分类生成的结果。用户可以插入特定类别的对象或使用分类条件来操作外扩的景观结构。114380无 � !"#$"0有 � !"#$"0输入0无 � !"#$" 的情况下输入0无 � !"#$" 的情况下输入0图8. 在没有 �先验的情况下。反演将过度拟合到重构损失，导致潜在代码与训练分布极为相距甚远。外延区域导致明显的接缝（左侧）或输入图像的复制（中间和右侧）。0真实图像不同形状的输入0不规则多方向0输入我们的输入输入我们的输入输入我们的输入0图9.多方向和不规则边界的外延绘制。我们的流程本质上可以处理（顶部）不同的外延绘制方向和（底部）不规则的输入形状。0右侧两个微小补丁的输入。生成器能够自动完成背景，并将呈现的对象融入场景中。0全景生成。我们的框架通过递归地将之前的外延微小补丁作为新的反演目标来自然地支持全景生成。图7显示了通过向左和向右进行外延绘制从我们的方法生成的全景图。结果显示，递归外延区域包含高度多样的结构，没有重复的模式。0多方向和不规则边界的外延绘制。为了简洁起见，大多数呈现的结果是在左侧输入两个微小补丁的情况下生成的。然而，所提出的方法可以从不同的方向以不同的输入形状甚至任意输入形状进行外延绘制。在图9的顶部，从左到右，我们展示了从右侧、从顶部、给定三个微小补丁和给定一个微小补丁生成的外延绘制结果。在图9的底部，我们展示了给定不规则边界输入的外延绘制结果。0泛化能力。为了证明所提方法的泛化能力，我们展示了在LSUN Church[32]数据集上的结果。如图10所示，所提方法可以应用于具有结构和人工内容的图像，而不仅仅是风景图像。0输入不同的输出0图10.LSUN教堂的定性结果。所提方法可以处理具有结构对象的数据集。05. 结论0在这项工作中，我们从GAN反演的角度解决了图像外延任务。我们首先训练一个生成器，根据它们的位置合成微小补丁。基于训练好的生成器，我们提出了一个反演过程，寻找多个潜在代码，恢复可用区域并预测外延区域。所提出的框架可以生成多样的样本，并支持分类特定的外延绘制，实现更灵活的用户控制。定性和定量实验证明了所提框架在视觉质量和多样性方面的有效性。06. 致谢0这项工作部分得到了NSF CAREER Grant#1149783和Snap Inc.的赞助。114390参考文献0[1] Rameen Abdal, Yipeng Qin, and Peter Wonka.Image2stylegan: 如何将图像嵌入到stylegan潜在空间中?在ICCV, 2019. 20[2] Rameen Abdal, Yipeng Qin, and Peter Wonka.Image2stylegan++: 如何编辑嵌入的图像? 在CVPR, 2020. 2, 5,70[3] Martin Arjovsky, Soumith Chintala, and L´eon Bottou.Wasserstein gan. 在ICML, 2017. 30[4] David Bau, Hendrik Strobelt, William Peebles, Bolei Zhou,Jun-Yan Zhu, and Antonio Torralba.具有生成图像先验的语义照片操作. 在SIGGRAPH, 2019. 20[5] Andrew Brock，Theodore Lim，James M Ritchie和NickWeston。内省对抗网络的神经照片编辑。在ICLR，2017年。20[6] Liang-Chieh Chen，George Papandreou，FlorianSchroff和HartwigAdam。重新思考用于语义图像分割的空洞卷积。arXiv预印本arXiv:1706.05587，2017年。40[7] Antonia Creswell和Anil AnthonyBharath。反转生成对抗网络的生成器。TNNLS，2018年。20[8] Jeff Donahue，Philipp Kr¨ahenb¨uhl和TrevorDarrell。对抗特征学习。在2017年，2017年。20[9] Vincent Dumoulin，Ishmael Belghazi，BenPoole，Olivier Mastropietro，Alex Lamb，MartinArjovsky和AaronCourville。对抗学习的推理。在ICLR，2017年。20[10] Alexei A Efros和Thomas KLeung。非参数采样的纹理合成。在ICCV，1999年。20[11] Ian Goodfellow，Jean Pouget-Abadie，MehdiMirza，Bing Xu，David Warde-Farley，Sherjil Ozair，AaronCourville和Yoshua Bengio。生成对抗网络。在NIPS，2014年。20[12] Martin Heusel，Hubert Ramsauer，ThomasUnterthiner，Bernhard Nessler和SeppHochreiter。通过两个时间尺度更新规则训练的GAN收敛到局部纳什均衡。在NIPS，2017年。2，50[13] Xun Huang，Ming-Yu Liu，Serge Belongie和JanKautz。多模态无监督图像到图像的转换。在ECCV，2018年。20[14] Tero Karras，Samuli Laine和TimoAila。用于生成对抗网络的基于样式的生成器架构。在CVPR，2019年。30[15] Tero Karras，Samuli Laine，Miika Aittala，JanneHellsten，Jaakko Lehtinen和TimoAila。分析和改进StyleGAN的图像质量。在CVPR，2020年。2，3，60[16] Johannes Kopf，Wolf Kienzle，Steven Drucker和SingBing Kang。图像完成的质量预测。ACMTOG（SIGGRAPH会议论文集），2012年。20[17] Hsin-Ying Lee，Hung-Yu Tseng，Jia-BinHuang，Ma-neesh Kumar Singh和Ming-HsuanYang。通过解缠表示进行多样化的图像到图像转换。在ECCV，2018年。20[18] Chieh Hubert Lin，Chia-Che Chang，Yu-ShengChen，Da-Cheng Juan，Wei Wei和Hwann-TzongChen。Coco-gan：通过条件协调的部分生成。在IEEE国际计算机视觉会议论文集上，第4512-4521页，2019年。30[19] Zachary C Lipton和SubarnaTripathi。从生成对抗网络中精确恢复潜在向量。在ICLR研讨会上，2017年。20[20] Guilin Liu，Fitsum A Reda，Kevin J Shih，Ting-Chun Wang，AndrewTao和BryanCatanzaro。使用部分卷积进行不规则孔洞的图像修复。在ECCV，2018年。20[21] Fangchang Ma，Ulas Ayaz和SertacKaraman。从部分测量中反转卷积生成网络的可逆性。在NeurIPS，2018年。20[22] Qi Mao，Hsin-Ying Lee，Hung-Yu Tseng，Siwei Ma和Ming-HsuanYang。用于多样化图像合成的模式寻求生成对抗网络。在CVPR，2019年。40[23] Deepak Pathak，Philipp Krahenbuhl，JeffDonahue，Trevor Darrell和Alexei AEfros。上下文编码器：通过修复学习特征。在CVPR，2016年。20[24] Guim Perarnau, Joost Van De Weijer, BogdanRaducanu和Jose M ´Alvarez。可逆条件GAN用于图像编辑。在2016年NIPS研讨会上。20[25] Tim Salimans，Ian Goodfellow，WojciechZaremba，Vicki Cheung，Alec Radford和XiChen。改进的训练GAN的技术。在NIPS，2016年。50[26] Josef Sivic, Biliana Kaneva, Antonio Torralba, Shai Avidan,and William T Freeman.创建和探索一个大型逼真的虚拟空间。在2008年IEEE计算机学会计算机视觉和模式识别研讨会上，第1-8页。IEEE，2008年。20[27] Piotr Teterwak，Aaron Sarna，Dilip Krishnan，AaronMaschinot，David Belanger，Ce Liu和William TFreeman。无限：用于图像扩展的生成对抗网络。在ICCV，2019年。2，5，70[28] Miao Wang，Yu-Kun Lai，Yuan Liang，Ralph RMartin和Shi-MinHu。Biggerpicture：使用图匹配的数据驱动图像外推。ACMTOG（SIGGRAPH会议论文集），2014年。20[29] Yi Wang，Xin Tao，Xiaoyong Shen和JiayaJia。宽上下文语义图像外推。在 CVPR，2019年。20[30] Jonas Wulff和AntonioTorralba。使用高斯化潜在空间改进StyleGAN中的反演和生成多样性。arXiv预印本arXiv:2009.06529，2020年。3，40[31] Zongxin Yang，Jian Dong，Ping Liu，Yi Yang和ShuichengYan。通过外推进行非常长的自然风景图像预测。在ICCV，2019年。2，5，70[32] Fisher Yu，Ari Seff，Yinda Zhang，ShuranSong，Thomas Funkhouser和JianxiongXiao。Lsun：使用人类在循环中进行深度学习的大规模图像数据集的构建。arXiv预印本arXiv:1506.03365，2015年。80[33] Jiahui Yu，Zhe Lin，Jimei Yang，Xiaohui Shen，XinLu和Thomas S Huang。具有上下文注意力的生成图像修复。在CVPR，2018年。2，5，70[34] Jiahui Yu，Zhe Lin，Jimei Yang，Xiaohui Shen，XinLu和Thomas S Huang。带有门控卷积的自由形式图像修复。在ICCV，2019年。2，5，7114400[35] Richard Zhang，Phillip Isola，Alexei A Efros，EliShechtman和Oliver Wang。深度特征作为感知度量的不合理有效性。在CVPR，2018年。2，4，60[36] Bolei Zhou，Agata Lapedriza，Aditya Khosla，AudeOliva和AntonioTorralba。场景识别的1000万图像数据库。TPAMI，2017年。2，50[37] Jiapeng Zhu，Yujun Shen，Deli Zhao和BoleiZhou。用于真实图像编辑的域内GAN反演。在 ECCV，2020年。20[38] Jun-Yan Zhu, Philipp Kr¨ahenb¨uhl, Eli Shechtman, andAlexei A Efros. 在自然图像流形上进行生成性视觉操作。在ECCV，2016年。2

下载后可阅读完整内容，剩余1页未读，立即下载