基于预训练分类模型的深层特征空间生成多功能图像

20 浏览量更新于2023-10-20 收藏 15.87MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

174570用于图像生成的语义金字塔0Assaf Shocher � 1 , 2 Yossi Gandelsman � 1 Inbar Mosseri 1 Michal Yarom 1 Michal Irani 1 , 2 William T. Freeman 1 Tali Dekel101 Google研究 2 魏茨曼科学研究所0语义金字塔生成层次结构 (a)0(b) 从草图到照片 (d) 图像重新标记 (c) 语义图像合成0原始图像0原始图像生成图像0原始图像合成0图像0从不断增加的语义层次生成的图像0CONV1 CONV4 CONV5 FC7 FC80原始标签：火山0新标签：山雪0图1：我们引入了一种新的图像生成模型，该模型旨在利用预训练分类网络学习的深层特征的分层空间。我们的模型为各种图像生成和操作任务提供了一个统一的多功能框架，包括：(a)生成与参考图像在语义相似度上可控的图像，通过从分类模型的不同层重构图像获得；(b)从非自然参考图像（如线描）生成逼真的图像样本；(c)语义合成不同的图像；(d)通过强制执行新的、修改过的类别标签来控制图像的语义内容。0摘要0我们提出了一种新颖的基于GAN的模型，利用预训练分类模型学习的深层特征空间。受经典图像金字塔表示的启发，我们将我们的模型构建为语义生成金字塔——一种利用这些深层特征中封装的语义信息连续性的分层框架；这些信息从细节特征中包含的低层信息到深层特征中包含的高层语义信息。具体而言，给定从参考图像提取的一组特征，我们的模型生成多样的图像样本，每个样本在分类模型的每个语义层次上具有匹配的特征。我们证明了我们的模型在各种经典和新颖的图像生成任务中都表现出了多功能和灵活的框架。这些任务包括：生成与参考图像在语义相似度上可控的图像，以及语义控制修复和合成等不同的操作任务；所有这些任务都可以使用同一模型完成，无需进一步训练。0� 表示相等的贡献；第一作者在Google实习期间完成了这项工作。0卷积神经网络（CNN）用于视觉分类的训练已被证明可以学习到强大且有意义的特征空间，编码了从低层特征到高层语义内容的丰富信息[23]。这些特征已被广泛应用于许多聚类、感知损失[42]和不同的图像操作任务[35, 13, 21, 2]。01. 引言0101 项目网站：https://semantic-pyramid.github.io/7458020在特征空间中工作的过程通常包括以下几个阶段：将图像输入预训练的分类网络；提取不同层的特征响应，并根据具体应用进行可选的操作。然后，通过解决重构优化问题将操作后的特征反转回图像。然而，将深层特征反转为逼真的图像是具有挑战性的，特别是当特征来自深层时，深层特征与图像之间没有一对一的映射关系。迄今为止，这一问题主要通过对重构图像施加正则化先验来解决，但往往会导致模糊不真实的重构图像，并限制可使用的特征类型。0在本文中，为了克服上述限制，我们将特征反转的任务引入到生成对抗网络（GANs）的领域。GANs在建模自然图像分布方面取得了巨大的进展，并且现在能够生成令人印象深刻的逼真图像样本。然而，大多数现有的基于GAN的模型仅仅将生成条件限制在对象的类别信息上[29, 27, 40,7]。相反，我们提出了一种新颖的生成模型，利用了深度特征中包含的语义信息的连续性；这些信息从细粒度特征中包含的低级信息到深层特征中包含的高级语义信息。通过这样做，我们弥合了基于优化的特征反转方法和生成对抗学习之间的差距。0受经典图像金字塔表示的启发，我们构建了一个语义生成金字塔模型——一个基于GAN的分层框架，可以利用来自特征的不同语义层次的信息。具体而言，给定从参考图像中提取的一组特征，我们的模型可以生成多样的图像样本，每个样本在分类模型的每个语义层次上都具有匹配的特征。这使我们能够生成与参考图像逐渐、可控的语义相似性的图像（参见图1和图2）。0我们模型的分层性质提供了一个多功能、灵活的框架，可用于各种语义感知的图像生成和操作任务。与经典的图像金字塔表示类似，这是通过操作不同语义层次上的特征，并控制将特征馈送到我们模型的金字塔层级来实现的。我们在许多应用中演示了这种方法，包括语义控制的修复、来自不同图像的对象的语义合成以及从灰度、线条绘画或绘画中生成逼真图像。所有这些任务都是使用相同的统一框架完成的，无需进一步的优化或微调。02. 相关工作0深度特征反转。将深度特征反转回图像主要是在视觉识别网络的可解释性和理解的背景下进行研究的。Simonyan等人[31]将特征反转问题形式化为一个优化问题，目标是最小化图像通过预训练网络的映射和给定特征图之间的L2距离。他们应用反向传播来最小化这个目标，这是一个缓慢的过程，对初始化非常敏感。这个过程的一个重要观察是从各个深度的CNN层中重构图像的可行性；前几层几乎是完全可逆的，但是随着特征深度的增加，从特征中快速重构输入图像的能力迅速下降。从更深层次的特征中进行重构主要通过对重构图像施加不同的正则化先验来解决[24, 28,39]。然而，这些基于优化的方法只能重构出单一的平均图像。由于深度特征和图像之间没有一对一的映射，重构图像通常模糊且不真实。Dosovitskiy和Brox[9]提出了训练CNN来反转各种图像描述符的方法，其中包括深度特征。这种方法也会隐式地施加正则化；图像由CNN生成的事实形成了强大的自然图像先验[34,11]。然而，这种正则化也倾向于产生模糊不真实的图像，尤其是在反转更深层次的特征时。为了克服这个限制，[10]提出了一种基于GAN的特征反转模型，然而他们的模型仍然是确定性的，即仅从输入的特征集生成单一的可能图像。这经常导致视觉伪影，如扭曲的不真实的全局结构（请参见补充材料中的示例）。相反，我们的方法对匹配输入特征的图像分布进行建模，因此可以为给定的特征集生成更高质量、多样的图像样本。0用于图像操作的深度特征。反转深度特征已经超越了可解释性和理解领域，进入了图像操作领域。一种常见的方法是对语义特征进行一些操作，然后反转回像素，将操作投影到生成的输出图像上。这些操作包括纹理合成[12]、风格迁移[13]、特征插值，如将面部变老[35]，以及最近还有将SeamCarving[3]应用于语义特征[2]进行图像重定向。在所有这些工作中，输出图像都是通过[31]的迭代优化过程的某个变体进行重建的，该过程需要时间，并且对初始化非常敏感。已经提出了一些加速的解决方案，例如训练CNN来模拟优化过程的映射[21]。74590CONV4CONV5FC7FC80输入0随机样本0输入0随机样本0输入0随机样本0输入0随机样本0语义金字塔生成层级0图2：从不断增加的语义层级生成的随机图像样本。对于每个输入图像（顶行），我们展示了当我们的模型使用从不断增加的语义层级提取的深度特征时生成的随机图像样本（从上到下）。我们的模型生成了逼真的图像样本，其与原始图像的相似性由输入特征的层级控制——特征的层级越深，我们可以偏离原始图像的程度就越大。对于所有的生成层级，我们的模型保留了输入图像的语义内容，并产生了高质量的多样化图像样本。0生成对抗网络。在我们的工作中，我们利用了生成对抗网络（GANs）的最新进展[14]。使用GANs生成图像的质量取得了巨大的进步[30, 29, 27, 40,7]。我们的GAN基于Self-Attention GAN[40]进行了轻微的修改。与传统的GAN不同，我们使用条件GAN进行图像到图像的映射，类似于[19,36]。最近有一些令人印象深刻的工作通过解释神经元[5]或操纵潜在空间[20]来解释和控制GAN的结果。我们的方法不同之处在于使用了来自监督分类网络的语义特征。[18]利用分类特征图来提高经典生成任务的质量。他们首先分别训练一组GAN来生成不同层次的特征，然后将它们组合起来。我们对如何利用语义特征有不同的目标和设置。进一步的分析[6]显示了GAN无法生成的限制。我们引入了Repainting的应用，它允许重新生成图像的选定部分，从而保留图像中所需的部分。0保持不变。在一些实际应用中，这克服了[6]中提出的限制（如无法生成人类）。0经典的分层图像表示。我们从图像金字塔的经典图像处理方法中汲取灵感，特别是拉普拉斯金字塔[8,1]。该方法将图像分解为不同的频带，从而允许对图像进行频率感知的拼接和融合。重建快速且简单。我们的方法在语义上类似于这种方法。我们的目标是进行语义操作，并立即将其投影回图像像素。03. 方法0我们的目标是设计一个可以充分利用预训练分类网络学习到的特征空间的生成图像模型。具体来说，我们选择实现以下目标：01.利用不同语义层级的特征。给定一个输入图像，从中提取的深度特征C2CN......CN-1C1G2GNGN-1G1m1m2mN-1mNmif1f2fN-1fifNm1mm2mi-1 mi mi+1mN-1mN......74600图例：0- 固定块0（a）（b）生成器块（G i）目标识别模型（预训练）0语义金字塔生成器0输出0卷积0卷积0卷积0z噪声向量0G i 输出0ResNet块0G i 输入0- 可训练块0图3：语义金字塔图像流程。（a）生成器与预训练的分类模型完全镜像配合工作。分类模型的每个阶段在生成器中有一个对应的块。（b）单个生成器块的规范。首先，特征图与其输入掩码相乘。然后，掩码特征图经过卷积层，并将结果与相应的生成器块的结果相加。0选择的层0图4：应用空间变化的掩码。为了仅生成图像中所需的区域，特征图与掩码相乘。白色表示“通过”，黑色表示“阻塞”。在训练时，随机选择一个被阻塞的裁剪区域以及一个随机的“选择的层”。在推理时，用户可以设置任何形状的掩码，并根据所需的与原始输入的差异程度确定“选择的层”。0不同层具有层次结构 -从模型的较细层提取的特征包含低级图像信息，而更深层次的特征可以编码更高级的语义信息[38]。我们希望从这些特征的连续空间中受益。02.灵活性和用户可控性。我们希望通过在深层特征空间中进行编辑来支持各种操作任务。例如，结合来自不同图像或不同级别的特征。0然后模型必须提供这种用户可控性，并适应特征的各种操作。03.多样性。我们希望我们的模型能够学习与给定一组输入特征相匹配的可能图像空间，而不是生成单个图像样本。0接下来，我们将通过统一的基于GAN的架构和专门的训练方案来实现这些目标。03.1. 架构0我们的生成器与预训练的分类模型完全配合工作，我们假设分类模型是给定且固定的。在实践中，我们使用在Places365数据集上训练的VGG-16模型[32]。具体来说，给定输入图像x，我们将其输入到分类模型中，并通过获取模型不同层的激活图来提取一组特征图F={fl}。即fl =C�l(x)，其中C�l表示分类模型的第l层。然后将这些特征融合到我们的生成器中。我们的生成器的架构基于类条件GAN[40]，但我们修改了它以与分类模型具有镜像结构，如图3所示。具体来说，我们生成器中的每个残差块对应于分类模型中的一个阶段（一个阶段由2-3个卷积层+池化层组成）。这种结构形成了一个语义生成金字塔，在最粗糙的级别上，它以随机噪声向量z作为输入。在每个较高级别上，我们的模型可以选择性地接收从相应层提取的特征fl。74610CONV5输入的随机样本0绘画线描灰度图像0图5：从绘画、线描和灰度图像生成图像。即使输入特征来自于绘画或线描等不自然图像，或者来自于训练数据中稀缺的灰度图像，我们的模型仍然能够生成高质量、多样化的图像样本。在所有这些情况下，我们生成的图像样本传达了原始输入图像中不存在的逼真的图像属性，包括纹理、光照和颜色。0分类模型的层级。特征从分类模型流向我们的生成器，每个层级都由输入掩码ml控制。掩码可以传递整个特征图（全为1），屏蔽整个特征图（全为0），或者从中传递区域。总之，网络的输入包括：（1）一组深层特征F ={fl}，通过将输入图像x输入到分类模型并从不同层级提取激活图来计算；（2）一个噪声向量z，允许多样性和学习分布而不是一对一映射；（3）一组掩码M ={ml}，每个掩码对应一个输入特征fl；这些掩码允许我们控制、操作和利用不同语义层级的特征。0输入0随机样本掩码输入0图6：图像重新绘制。我们使用我们的模型为原始图像（第一行）上标记为红色的期望图像区域（第二行）生成新的随机样本；未被掩码区域的图像内容保持不变。我们的模型生成与原始图像的语义内容相匹配的多样化区域样本，并将它们与保持不变的未被掩码区域自然地混合在一起。0因此，生成器可以通过G(z, F,M)来表示。图3(b)描述了特征图如何融合到我们的生成器中。目标是将当前分类模型层和源自噪声向量的先前生成器块的信息结合起来。在每个层级上，特征图fl首先与其输入掩码ml相乘。然后，掩码特征图经过卷积层处理，并将结果与相应的生成器块的结果相加。在整个特征图都被掩码的情况下，不会添加到先前生成器块的结果中。掩码本身作为另一个通道连接，以使后续层能够感知和区分掩码区域和空白区域。与[40]一样，生成器由残差块[15]组成。我们在生成器和判别器中都使用了自注意力层。判别器与[40]相同。03.2. 训练过程0我们的目标是拥有一个统一的模型，可以从我们的语义金字塔的任何层级生成图像。换句话说，我们希望能够从输入特征的任何子集{fi} � F 生成多样化、高质量的图像样本。Ladv(G, D) =(2)Lrec =74620源目标输入结果0图7：语义图像合成。将一个对象或一些图像裁剪插入到另一个图像中，使得插入的对象可以根据周围环境进行调整，但仍然保持其语义解释。0我们通过以下训练方案实现这一目标。在每次训练迭代中，从数据集中随机选择一批输入图像，并将其输入到分类模型中计算其特征。在我们默认的训练步骤中，我们随机选择一个金字塔层级，并仅将该层级的特征输入到生成器中，同时屏蔽所有其他层级的特征。然而，我们还希望能够从混合的语义层级生成图像，保持图像的某些区域不变，同时修改其他区域。因此，我们还使用空间变化的掩码进行训练。在一些迭代中（由超参数概率定义），我们采用空间变化的掩码。图4描述了这种情况下的掩码过程。首先，随机裁剪图像。然后，对于一个随机选择的层级，掩码完全打开。对于其他靠近输入图像的层级，掩码打开，除了采样的裁剪区域。这种训练方法面向的是以不同方式编辑图像的不同空间区域的任务。03.3. 损失0我们同时训练金字塔架构中的所有层级，我们的训练损失由以下三项组成：min G max D L adv ( G, D ) + α L rec ( G) + β L div ( G ) (1)0第一项 L adv是对抗损失。也就是说，我们的生成器针对一个类别条件的判别器 D 进行训练，类似于[40]。我们采用这个优化问题的LSGAN [26] 变体。形式上，0E x � p data ( x ) [( D ( x ) − 1) 2 ]+0E z � p z ( z ) , F� p data ( F ) , M� p m ( M ) [ D ( G ( z, F , M )) 2 ]0其中，p z 是噪声实例的正态分布，p m是采样掩码的分布，如上所述。第二项 L rec是语义重构损失，鼓励输出图像保留用于生成它的特征信息。这类似于感知损失[21,42]。具体来说，当将生成的图像馈送回分类模型时，我们希望确保生成的特征与原始图像提取的特征尽可能接近。为了让模型能够从高层特征生成多样的图像样本，我们仅将此损失应用于用于生成的特征层级（未被掩码）。形式上，0l ∈ layers ∥ ( C � l ( x ) − C � l ( G ( z, F , M ))∙ m l ∥ 1 (3)0其中，C l 表示分类模型的第 l层。原始特征图和重构特征图一起进行归一化，以使比较不受全局颜色缩放的影响。此外，为了允许更多的几何多样性并不强制像素对像素的完全匹配，我们首先对原始特征图和重构特征图进行最大池化，使用 2 × 2的窗格。因此，我们实际上只比较每个窗格中最强的激活，允许位置上的轻微偏移（随着特征图越深，图像像素的偏移越大）。最后，L div是基于[25]的多样性损失。具体来说，每个批次被分为具有相同输入图像和掩码（但不同噪声向量）的实例对。应用正则化，使得两个生成结果之间的 L 1距离随着两个噪声向量之间的距离越大而越高。0L div = ∥ z 0∥ G ( z 1 , F , M ) − G ( z 2 , F , M ) ∥ 1 + �(4)03.4. 实现细节0我们使用 VGG-16[32]。生成器的输入是每个阶段末尾的特征（在池化层之后）。我们还使用全连接层 FC7 和 FC8。为了使 SA-GAN生成器与 VGG 分类器匹配，我们没有使用 FC6。我们在Places365 数据集[43]上训练了我们的模型。我们使用了Eq. 1 中指示的损失，其中 α = 0.1，β =0.1。缺失裁剪的训练概率设置为 0.3。我们使用Tensorflow 平台和 TFGAN 工具进行训练。我们在Dragonfish TPU 上使用了 4 × 4拓扑结构进行了大约两天的模型训练。我们采用了[7]中的一些方法，如类别嵌入和截断技巧。优化器采用 Adam优化器[22]，生成器和判别器的学习率均为10^-4。批量大小为 1024，潜在空间维度为128，与[40]相同。2.898.6711.0817.6419.5922.6729.3474630输入0新标签：雪山0原始标签：山谷0原始标签：高速公路0原始标签：山脉0输出0新标签：沙漠公路0新标签：火山0图8：图像重新标记。给定一个输入图像（顶行），通过分类网络估计其类别标签，我们通过将原始中层特征输入到我们的模型中，同时修改其类别标签，例如 Valley →Mountainsnowy（参见第4节），生成一个新的图像。通过这样做，我们可以改变图像的语义属性，同时保留其主要结构。04. 实验和应用0我们在从Places365[43]采集的各种自然图像和从网络下载的图像上对我们的模型进行了测试。图1和图2展示了我们从不断增加的语义层次生成的图像的几个定性结果。也就是说，对于每个金字塔层次，我们只将从该层次提取的特征输入到我们的生成器中。在图2中，我们为每个示例和每个语义层次展示了两个不同的随机图像样本，它们都是从相同的特征生成的，但具有不同的噪声实例。可以看出，生成图像的金字塔层次决定了它与参考图像的差异程度 -与参考图像的保真度随着金字塔层次的增加而降低，而不同图像样本之间的多样性增加。然而，对于所有的生成层次，原始图像的语义内容都得到了保留。更仔细地观察我们生成的图像可以揭示出与每个层次的特征图匹配的图像分布的细节。例如，可以明显看出CONV4层对轻微的光照和颜色变化不敏感，但保留了几何结构和纹理。全连接层对几何全局结构不敏感，但保留了纹理和局部结构（例如图2的最后一行） -道路的全局形状、岛屿的位置和城堡的建筑已经完全改变，但是小窗户、塔楼的存在仍然保留（尽管位置不同）。这与[17]的观察结果一致。0Conv1 Conv2 Conv3 Conv4 Conv5 FC7 FC80表1：每个语义层次的FID。在每一列中，我们报告了当我们的图像从不同的语义层次生成时估计的FID分数。正如预期的那样，层次越细，FID分数越低。04.1. 定量评估0我们使用了两个指标来评估我们生成的图像的质量：Fr´echet Inception Distance (FID)[16]和“真/假”用户研究。对于FID，我们从Places365[43]中随机抽取了6000张测试图像。我们通过将这些图像输入到分类模型中提取深度特征，然后分别从每个语义层次单独生成随机图像样本，即仅将从该层次提取的特征输入到我们的模型中。表1报告了我们从每个语义层次生成结果的FID分数。正如预期的那样，特征层次越细，FID分数越低。例如，当从CONV1特征生成图像时，生成图像的分布几乎与真实图像完全一致。随着特征层次的增加，我们生成的图像与原始图像的偏差越大，这在FID分数的持续增加中得到了体现。对于用户研究，我们使用了Amazon MechanicalTurk (AMT)，遵循[41,19]的协议。进行了以下两个测试：1.成对测试：将生成的图像与其对应的参考图像（即用于生成的特征从参考图像中提取）进行对比。要求工作者选择假的图像。2.非成对测试：将生成的图像与一些真实的不相关图像进行对比。要求工作者确定它是否是假的。0在每个试验中，图像呈现时间为1秒。每个测试由100个评价者进行，使用从Places365[43]随机抽取的75张图像；为了防止立即区分真实图像和假图像，我们在此测试中不包括带有人物的图像（通常，GANs[6]以及我们的模型在输入高语义层次的特征时，无法很好地合成人物）。表2报告了从每个语义层次生成的图像的混淆率（被愚弄的工作者的百分比）。完美的混淆率是50%。这意味着，例如，从CONV1生成的图像与真实图像几乎无法区分。同样，约有17%-18%的从FC8生成的图像看起来比显示的真实图像更真实。04.2. 语义金字塔图像操作0我们模型的金字塔结构提供了一个灵活的框架，可用于各种语义感知的74640Conv1 Conv2 Conv3 Conv4 Conv5 FC7 FC80成对的 49.6% 42.7% 22.2% 20.9% 16% 19.1% 18%0不成对的 51.1% 39.1% 27.6% 15.1% 13.3% 21.6% 17.2%0表2：AMT真/假用户研究：我们报告两种类型测试的混淆率（欺骗的伪装者的百分比）：（i）成对：生成的图像与其参考图像对比，以及（ii）不成对：生成的图像与某个真实无关的图像对比。我们报告了从不同金字塔层次生成的图像的结果。0图像生成和操作任务。与经典的图像金字塔表示类似[8,1]，可以通过操纵不同语义层次的特征，并控制将特征馈送到我们的模型的金字塔层次来完成。我们接下来描述如何将此方法应用于多个应用程序。请注意，我们使用相同的模型，该模型经过一次训练，然后在所有应用程序的推理模式下使用。0重新绘制。我们引入了一个新的应用程序，我们称之为重新绘制，在该应用程序中，可以重新生成图像区域，并具有与原始图像内容的可控语义相似性。与传统的修复不同，生成的区域中没有信息（例如，[4,37,33]），我们利用该区域的深度特征中可用的信息。换句话说，重新绘制允许我们根据其原始内容在特定区域重新采样图像内容。图6显示了一些重新绘制的结果。从中可以看出，我们的模型成功地用不同的生成区域样本替换了所需的区域，同时保留了周围的内容。这使得实际的图像操作成为可能，例如在不同的环境中生成相同的徒步者（图6从左起的第二列），或者在保持相同环境的情况下用各种其他房屋替换房屋（最右列）。这些结果展示了我们的网络在不同图像区域的不同层次上融合信息的能力。由于我们的网络的训练过程将来自同一图像的不同语义层次（分类器的不同层）的生成结合在一起，当图像的某个空间部分从更语义的特征图生成时，我们的生成器可以生成合理的图像。图4描述了如何在训练和推理中进行重新绘制。匹配我们想要重新绘制的语义级别的特征图被馈送到生成器。然后，我们从所有接近输入图像（语义较低）的特征图中遮罩出所需的重新绘制区域。0语义图像合成。为了重新绘制，引入的技术可以扩展并用于语义图像合成的挑战。即，在另一幅图像中植入一个对象或一些图像裁剪，使得植入的对象可以根据其周围环境进行变化，但仍然保持其语义解释。图7显示了这样的示例。请注意教堂如何变化0根据其周围环境改变结构和颜色。这些是语义上的变化，而不仅仅是匹配纹理和光照；在顶部的例子中，教堂不仅仅通过纹理匹配，而是被转化为更有可能在这样的环境中找到的寺庙。合成与重新绘制类似；唯一的区别是对于所选择的最语义层，我们在图像上使用了一个简单的粘贴对象。然后，我们从所有接近输入图像的特征图中遮罩出匹配区域。0从非自然参考图像生成。图50演示了使用不属于分布的参考图像的效果，即不是自然的RGB图像。由于生成器被训练为输出属于数据集分布的图像，我们得到了图像到图像的转换。我们演示了将绘画转换为逼真的照片，将线条图转换为图像和给灰度图上色。对于每种情况，我们生成了一组多样化的可能结果。与[19,36]不同，参考图像和输出之间没有像素的精确匹配。从CONV5特征中反转具有一定的空间自由度，并允许修改结构。例如，城市的最右侧上色将塔换成了两座塔。0重新标记。我们使用我们的语义金字塔演示了一个相当简单的应用；我们使用输入图像的CONV5特征，但手动更改输入到生成器的类标签。图8显示了这种操作的效果。我们基于[40]的GAN是类条件的。生成器中的条件是通过条件批量归一化层来实现的，如[40]中介绍的那样。这意味着在生成器中进行常规反转和重新标记之间的差异仅通过将激活归一化为不同的均值和方差来实现。05. 讨论和结论0本文提出了一种方法来弥合语义判别模型和生成模型之间的差距。我们展示了我们的语义生成金字塔如何用作各种图像生成和操作任务的统一和多功能框架。我们的框架还允许探索与特定语义特征图匹配的图像子空间。我们相信，将语义修改逼真地投影回像素是涉及图像操作或通过语义领域进行编辑的未来工作的关键。我们希望这项工作能够引导和推动在利用生成模型中的语义信息方面取得进一步的进展。74650参考文献0[1] E. H. Adelson, C. H. Anderson, J. R. Bergen, P. J. Burt, andJ. M. Ogden. 1984年，金字塔图像处理方法。RCAEngineer，29(6):33–41，1984年。 3 , 80[2] Moab Arar, Dov Danon, Daniel Cohen-Or, and ArielShamir. 通过深度特征重建进行图像调整，2019年。 20[3] Shai Avidan and Ariel Shamir.用于内容感知图像调整的缝隙雕刻。ACM Trans.Graph.，26(3):10，2007年。 20[4] Connelly Barnes, Eli Shechtman, Adam Finkelstein, andDan B Goldman.PatchMatch：一种用于结构图像编辑的随机对应算法。ACMTransactions on0[5] David Bau, Jun-Yan Zhu, Hendrik Strobelt, Bolei Zhou,Joshua B. Tenenbaum, William T. Freeman, and AntonioTorralba. Gan dissection:可视化和理解生成对抗网络。在国际学习表示（ICLR）会议论文集中，2019年。 30[6] David Bau, Jun-Yan Zhu, Jonas Wulff, William Peebles,Hendrik Strobelt, Bolei Zhou, and Antonio Torralba.看到GAN无法生成的内容。在国际计算机视觉会议（ICCV）论文集中，2019年。 3 , 70[7] Andrew Brock, Jeff Donahue, and Karen Simonyan.用于高保真度自然图像合成的大规模GAN训练。CoRR，abs/1809.11096，2018年。 2 , 3 , 60[8] Peter J. Burt and Edward H. Adelson.拉普拉斯金字塔作为紧凑图像编码。IEEE通信学报，31:532–540，1983年。 3 , 80[9] Alexey Dosovitskiy and Thomas Brox.使用卷积网络反转卷积网络。CoRR，abs/1506.02753，2015年。 20[10] Alexey Dosovitskiy and Thomas Brox.基于深度网络的感知相似度度量生成图像。在第30届国际神经信息处理系统会议论文集中，NIPS'16，美国，2016年，CurranAssociates Inc. 20[11] Yossi Gandelsman, Assaf Shocher, and Michal Irani.”double-dip”:通过耦合深度图像先验进行无监督图像分解，2019年。 20[12] Leon Gatys, Alexander S Ecker, and Matthias Bethge.使用卷积神经网络进行纹理合成。在C. Cortes，N. D.Lawrence，D. D. Lee，M. Sugiyama和R.Garnett（编辑）的《神经信息处理系统28》中，第262-270页。C0[13] Leon A. Gatys, Alexander S. Ecker, and Matthias Bethge.一种艺术风格的神经算法，2015年。 20[14] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, BingXu, David Warde-Farley, Sherjil Ozair, Aaron Courville, andYoshua Bengio. 生成对抗网络。在Z. Ghahramani，M.Welling，C. Cortes，N. D. Lawrence和K. Q.Weinberger编辑的《神经信息处理系统27》中，2672-2680页。Curran Associates，Inc.，2014年。30[15] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun.深度残差学习用于图像识别。arXiv预印本arXiv:1512.03385，2015年。50[16] Martin Heusel, Hubert Ramsauer, Thomas Unterthiner,Bernhard Nessler, and Sepp Hochreiter.通过两个时间尺度更新规则训练的生成对抗网络收敛到局部纳什均衡。第31届国际神经信息处理系统会议论文集，NIPS’17，6629-6640页，2017年。Curran Associates Inc.，70[17] Baker Nicholas和Lu Hongjing，ErlikhmanGennady，和Kellman Philip J.0[18] Xun Huang, Yixuan Li, Omid Poursaeed, John Hopcroft,and Serge Belongie. 堆叠的生成对抗网络。CVPR，2017年。30[19] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei AEfros.条件对抗网络的图像到图像翻译。IEEE计算机视觉与模式识别会议0[20] Ali Jahanian, Lucy Chai, and Phillip Isola.关于生成对抗网络的“可操纵性”。arXiv预印本arXiv:1907.071710[21] Justin Johnson, Alexandre Alahi, and Li Fei-Fei.实时风格转换和超分辨率的感知损失。计算机科学讲义，694-7110[22] Diederik P. Kingma and Jimmy Ba.Adam：一种随机优化方法。CoRR，abs/1412.6980，2014年。60[23] Alex Krizhevsky, Ilya Sutskever, and Geoffrey E. Hinton.使用深度卷积神经网络的ImageNet分类。ACM通信，60(6)：84-90，2017年。10[24] Aravindh Mahendran and Andrea Vedaldi.通过反转理解深度图像表示。2015年IEEE计算机视觉与模式识别会议（CVPR），2015年。20[25] Qi Mao, Hsin-Ying Lee, Hung-Yu Tseng, Siwei Ma, andMing-Hsuan Yang.用于多样化图像合成的模式寻找生成对抗网络。IEEE计算机视觉与0[26] Xudong Mao, Qing Li, Haoran Xie, Raymond Y. K. Lau,and Zhen Wang.最小二乘生成对抗网络。IEEE国际计算机视觉会议（ICCV），20170[27] Takeru Miyato, Toshiki Kataoka, Masanori Koyama, andYuichi Yoshida.生成对抗网络的谱归一化。国际学习表示会议，2018年。2，30[28] A. Nguyen, J. Yosinski, and J. Clune.多面特征可视化：揭示深度神经网络中每个神经元学习的不同类型特征。在可视化深度学习研讨会上，国际机器学习会议（ICML），2016年。20[29] Augustus Odena, Christopher Olah, and Jonathon Shlens.带辅助分类器的条件图像合成。第34届国际机器学习会议论文集，ICML’17，2642-2651页。JMLR.org，2017年。2，30[30] Alec Radford, Luke Metz, and Soumith Chintala.无监督表示学习与深度卷积生成对抗网络，2015年。30[31] Karen Simonyan, Andrea Vedaldi, and Andrew Zisserman.深入卷积网络：可视化图像分类模型和显著性图。CoRR，abs/1312.6034，2013年。274660[32] Karen Simonyan 和 Andrew Zisserman.用于大规模图像识别的非常深的卷积网络. In Inter- nationalConference on Learning Representations , 2015. 4 , 60[33] Piotr Teterwak, Aaron Sarna, Dilip Krishnan, AaronMaschinot, David Belanger, Ce Liu, 和 William T. Free- man.无边界: 生成对抗网络用于图像扩展. In The IEEE InternationalConference on Com- puter Vision (ICCV) , October 2019. 80[34] Dmitry Ulyanov, Andrea Vedaldi, 和 Victor Lempitsky.深度图像先验. arXiv:1711.10925 , 2017. 20[35] Paul Upchurch, Jacob Gardner, Geoff Pleiss, Robert Pless,Noah Snavely, Kavita Bala, 和 Kilian Weinberger.用于图像内容变化的深度特征插值. 2017 IEEE Conference onComputer Vision and Pattern Recognition (CVPR) , Jul 2017.0[36] Ting-Chun Wang, Ming-Yu Liu, Jun-Yan Zhu, AndrewTao, Jan Kautz, 和 Bryan Catanzaro.高分辨率图像合成和语义操作的条件生成对抗网络. In Proceedingsof the IEEE Conference on Computer Vision and Pattern0[37] Chao Yang, Xin Lu, Zhe Lin, Eli Shechtman, Oliver Wang,和 Hao Li. 使用多尺度神经补丁合成进行高分辨率图像修复, 2016.80[38

下载后可阅读完整内容，剩余1页未读，立即下载