基于SLI-pSp的风格迁移生成对抗网络

34 浏览量更新于2023-10-15 收藏 1.53MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4095SLI-pSp：在pSpAradhya Neeraj Mathuraradhyam@iiitd.ac.in阿尼什·马丹anish16223@iiitd.ac.inOjaswa SharmaIIITDojaswa@iiitd.ac.in摘要我们提出了SLI-pSp，一个通用的图像到图像（I2I）的翻译模型，编码的空间布局信息，以及在生成器中的风格，使用pSp作为基础架构。以前的方法，如pSp，通过利用StyleGAN作为各种I2I任务的生成器，已经显示出了有希望的结果，但它们似乎错过了耳环和帽子等面部图像中更精细或代表性不足的细节，并且由于其唯一的全局方法而在复杂的数据集上崩溃。为了解决这些缺点，我们提出了一种称为空间布局注入（SLI-pSp）的技术我们通过pSp的map2style网络在生成器中修改样式向量注入，而是通过在多个空间尺度上将SLI与StyleGAN生成器中的噪声层相结合来做到这一点。这种方法有助于保持图像生成的全局方面，以及增强输出中的空间我们在几个测试数据集和几个I2I任务上进行了实验，这些任务突出了我们的方法在生成图像的细节和整体视觉质量方面优于以前的方法的有效性。生成对抗网络（GANs）[9]已经彻底改变了生成建模领域。在最近的过去，已经提出了各种GAN架构，其生成具有优异的视觉保真度和照片逼真度的图像。将源域中的图像转换为目标域，同时保留核心内容并根据目标域调整风格，称为图像到图像（I2I）转换[13]。这种I2 I问题以各种形式存在[25]，并且在以下主题中提出了许多解决方案：语义图像合成[26，49，33，21，32]，风格转移[34，19]，图像inpaint-ing [48，28，30]、图像超分辨率[46，41]等。考虑语义图像合成的任务。一个基本的问题是了解我们如何将语义映射转换为现实的RGB图像，同时保留*这些作者对这项工作的贡献是相同的。标签映射pSp SLI-pSp（我们的）a）、b）、c）、图1.我们提出的SLI-pSp方法有助于解决pSp中图像生成过程中缺乏空间背景的问题。通过在解码器中注入空间布局信息，我们能够合成pSp的全局方法所错过的更精细和代表性不足的细节（如耳环，帽子和发型）即使在空间布局注入（SLI）之后，我们也保留了图像生成的全局属性，从而使我们的方法在I2I任务中工作输入语义许多以前的方法试图通过提出编码器-解码器架构来利用生成器中的语义布局信息[13，36]。这种方法的一个常见缺陷似乎是网络只接收一次语义信息（以输入的形式），因此很难通过解码器在整个生成过程中保持该信息。为了缓解这个问题，SPADE [26]提出了空间自适应归一化，通过空间自适应、可学习的仿射变换来帮助调节网络各层的激活。然而，这种方法在代表能力方面是有限的。我们通过在生成器中使用单独的样式矢量注入和空间布局注入来解决表示能力另一个关键的问题是如何很好地利用语义布局的架构。以前的方法，如Pix2Pix [13]和SPADE [26]，使用多尺度PatchGAN方法，该方法将标签映射和图像作为输入，并输出谓词（真实或虚假）作为4096×它的决定。CC-FPSE [21]和OASIS [32]还提出了鉴别器的变体，其性能优于以前的方法。然而，众所周知，基于GAN的架构由于学习问题的对抗性（最小-最大）性质而遭受训练不稳定性。虽然已经提出了许多改进[23，42]，但许多架构仍然需要大量调优才能正确训练。我们通过采用和扩展pSp [29]框架来解决这个问题，该框架允许使用预训练的StyleGAN生成器作为代理。使用中最流行的GAN架构之一是StyleGAN [17]，由于其高质量，最先进的图像生成功能。pSp [29]提出了一个使用StyleGAN作为生成器的I2I他们引入了一个基于特征金字塔的编码器，该编码器将输入图像嵌入到中间潜在空间（与Style GANpSp的主要优势包括由于没有编码器而导致的训练不稳定性更小，由于其编码器和中间潜在空间而注入StyleGAN生成器的更好的风格向量，然而，由于其全局方法，它无法在其生成的图像中表示更精细的细节（图1）。虽然样式通过其map2style网络传播因此，pSp在具有更复杂细节和更高输入图像方差的数据集上挣扎。以下是我们在这项工作中的主要贡献：1. 我们提出了一个简单的解决方案，称为空间布局注入（SLI），编码器中存在的空间布局信息，并将其传播到StyleGAN解码器。由于我们的目标是编码样式和结构，因此我们不替换map2style网络以具有空间瓶颈（空间大小>11），而是将多尺度编码器特征图与StyleGAN生成器中的噪声层相结合。2. 我们证明，我们的方法并没有取代全球的一致性与本地，而是增强空间的布局细节，同时保留全球方面的图像生成。(see图2）。3. 通过我们提出的方法，我们在各种各样的I2 I任务中实现了CelebA和CelebAMask- HQ等人脸数据的最先进结果。我们还证明了SLI-pSp在更复杂的自定义建筑图像数据集上的有效性4. 最后，我们建议，SLI可以被看作是一个概念，而不是一个特定的架构设计。我们表明，它是经得起修改，通过引入At-tentive SLI（ASLI-pSp），以实现更好的结果。根据存储器和成本要求，可以进行适当的修改1. 相关工作1.1. Gans生成对抗网络（GANs）[9]的工作原理是发电机模型和网络模型之间的最小-最大博弈，每个模型GAN已经为不同模式的各种生成建模任务铺平了道路，例如RGB图像，深度图，分割掩码等。当涉及到面部数据时，StyleGAN [17]被认为是最先进的。这是由于其独特的渐进式增长的结构，这有助于生成具有巨大视觉细节的高分辨率图像。它的映射网络有助于理清数据中的变化因素，合成块中的噪声层有助于输出中的随机变化虽然StyleGAN给出了令人印象深刻的结果，但仍然存在一些StyleGAN 2 [18]试图减轻的特征伪影。其中一个关键问题是由于AdaIN在生成的图像中引入的伪影StyleGAN 2-ADA [15]提出了一种自适应增强方案，该方案稳定并使Style-GAN 2训练在低数据状态下工作良好此外，Karras et al.[16]通过将网络中的所有信号解释为连续信号并导出小的架构更改来进一步改进StyleGAN2的FID，从而证明对StyleGAN2的改进。它们旨在使合成网络与连续信号等变，以确保更精细的细节和更粗糙的细节一起使用傅立叶特征进行变换Bartz等人[4]使用StyleGAN模型的噪声输入在固定的Style-GAN模型中传递内容和颜色信息。他们训练编码器来重建和执行去噪，而无需重新训练StyleGAN。然而，代替使用随机噪声，它们迫使模型仅依赖于潜在代码，并且仅训练负责预测随机噪声输入的层Abdal等人[1]提出了一种新的算法，将给定的图像嵌入到StyleGAN的潜空间中。它们显示了不同任务的结果，如变形，风格转移和表达转移，并提供了对StyleGAN潜在空间的见解。Park等人[27]提出交换自动编码器模型执行图像处理。他们的方法将图像编码成两个独立的组成部分，结构和纹理，然后将它们组合起来形成逼真的图像。交换自动编码器由编码器E和生成器G组成，它们形成潜像和代码之间的映射，将潜码划分为结构和纹理，并强制与其他图像交换。他们还使用了一个补丁学习器，它可以学习4097→→ →→W∈ Z图像补丁。他们的模型基于Im2StyleGAN [1]。根据先验条件调整GAN的能力导致了条件图像合成工作的指数增长，更普遍的是，图像到图像的转换方法在下一节中进一步讨论。1.2. 条件GANs图像到图像转换条件GAN通过将生成器调节到一些先验值，实现了更受控的图像生成。以前的工作已经证明了条件GAN跨各种模态的能力，例如3DGAN [38]，SegAN [40]，MedGAN [3]用于医学图像合成，文本到图像合成，例如 AttnGAN [39] ， Stack-GAN [43] ， StackGAN++[44]，ACGAN [24]，使用GlyphGAN [10]手写字体生成。图像到图像（I2I）翻译方法旨在学习图像从源域到目标域的映射。Isola等人[13]首先提出了I2I方法，用于在图像上调节网络，并进一步在目标函数中引入L1损失。他们展示了多个任务的结果，如图像标签，边缘图像，昼夜图像，地图航拍。王等的作品。[37]将该方法扩展到高分辨率图像生成和处理。具体到语义图像合成的任务，通常通过编码器映射将语义掩码提供给生成器[13，37，33]。然而，它因此，SPADE [26]方法使用空间自适应归一化层来调节生成器网络的激活在CC-FPSE [21]中，作者提出使用基于特征金字塔的鉴别器在多个尺度下工作，而不是传统的PatchGAN鉴别器。在OASIS [32]中，作者提出使用基于语义分割的图像分割来获得生成图像的更好mIoU分数。它们还摆脱了传统的编码器，而是通过在模型的每一层采样3D噪声张量来直接实现多模态合成。另一方面，pSp [29]提出用一个通用的架构来解决各种I2I任务，这与以前提到的方法不同。它使用一个中间样式空间来嵌入输入图像，并使用StyleGAN模型的预训练作为代理。它还使用了一个基于特征我们确定了pSp的全局方法的I2I任务的缺点这样的信息对于诸如语义图像合成、修补、超分辨率等任务是至关重要的。我们这样做，而不牺牲pSp的全局方法，这是由注入生成器中的样式向量提供的。Alaluf等人[2]提出了一种迭代精化的方法在基线pSp架构上进行升级。在每一个时间步，它们为网络提供当前输入和在前一个时间步获得的输出，而初始输出使用潜在平均值初始化。1.3. 自我注意方法Transformer架构最初是为NLP中的机器翻译任务[35]提出的，但近年来这些模型已经在计算机视觉领域取得了进展。ViT [8]凭借其在ImageNet等大规模数据集上的卓越性能取得了突破其他关键架构包括用于对象检测的DETR [5]、 VilBERT[22]用于视觉和语言任务，CCNet [12]用于语义分割。BoTNet [31]提出了一种混合模型，它同时使用卷积和自我注意力。这与其他模型（如DETR和CCNet）不同，因为它们在主干之外使用自我注意力，而不像BoTNet。我们使用BoTNet作为对简单SLI-pSp模型的修改请注意，这种修改仅仅是为了描述SLI如何被视为一个概念，并根据内存和成本要求在其实现中进行升级。我们没有对注意力模型进行定量研究来比较我们的技术的性能。2. 方法在本节中，我们介绍了SLI-pSp，这是一种引入从编码器到Style- GAN噪声层的空间布局注入的模型，从而在图像到图像转换任务中实现更好的性能。我们使用pSp框架作为基础架构，并利用编码器的多尺度特征在生成的图像中产生更好的局部一致性，同时保留全局属性。我们的经验表明，这种功能注入有助于更好地保留语义细节，同时也享受有趣的特性，如多模态合成，StyleGAN提供。2.1. 基线法我们首先简要回顾了StyleGAN和pSp框架的关键组件，它们构成了我们方法的主干StyleGAN[17]提出了一种新的基于样式的生成器架构，用于无条件图像生成。一个关键的想法是通过映射网络f将潜在向量z转换为中间潜在空间中的向量w。这有助于表示更加摆脱网络中变化因素的纠缠。然后，通过学习的仿射变换将w传播到合成网络，作为控制卷积操作之后的自适应实例归一化（AdaIN）的样式y最后，为了鼓励生成的图像中的随机变化，将显式单通道高斯噪声馈送到每个层合成网络。4098W×联系我们联系我们StyleGAN解码器SLI-pSp编码器特征图map2stylemap2style+R地图特征图map2style特征图map2styleAdainB噪声编码特征ConvAdainAdain噪声B'Conv上采样B'ConvAdainB一一一一SLI块SLI块SLI块Const具有特征映射注入的图2. SLI-pSp框架。我们使用特征金字塔网络提取特征图。这些特征通过map2style块传播并注入StyleGAN生成器。虽然这服务于图像生成的全局方面，但我们还通过空间布局注入（SLI）块传播这些这有助于为图像合成过程提供空间背景，这是各种I2I任务所需的。pSp[29]提出了一种基于特征金字塔网络的编码器框架，该框架将输入图像嵌入到扩展的潜在空间+中。中间样式表示提供了许多优点，例如重新采样样式向量的能力，从而为多模态合成提供支持。他们还提出了一种新的方法，使用预训练的StyleGAN生成器模型进行通用的图像到图像的翻译任务。样式向量被传递到与其尺度相对应的StyleGAN生成器。这种方法的一个关键优点是它不需要训练一个神经网络。2.2. 空间布局注入pSp的全局方法的一个缺点是，它似乎错过了面部图像中更精细或代表性不足的细节，如耳环或帽子。在进一步探索时，这种方法在其他具有更多变化和复杂性的数据集上尝试时失败了，例如Places2 [47]。这是由于在不传送输入空间布局信息的情况下不足以捕获场景中的大量高频信息和大量对象。pSp11，从而阻碍来自编码器的输入布局信息的传播。为了解决这个问题，我们提出了空间布局注入（SLI），它对空间布局信息进行编码，并将其传播到预训练的StyleGAN生成器。一种方式注入这样的信息可以通过修改MAP2样式网络来创建空间瓶颈并将样式和编码的空间布局传播到生成器。然而，如某些I2I任务所要求的，具有全局方法是有优点的因此，我们通过将编码器中的特征映射与生成器中的噪声层相结合，策略性地嵌入了编码器中的特征映射，而无需通过网络中的map2style由于StyleGAN的作者指出，单独注入的噪声允许局部随机变化，这使得它成为注入特征的合适此外，由于StyleGAN使用分层生成并在更高级别上合成更精细的细节，因此我们将特征注入限制在较低的尺度上，以确保更高的灵活性。假设编码器特征图为记作Ei，其中i16，32，64对应于特征图的空间尺度这些是使用在ResNet主干上的功能金字塔令StyleGAN生成器中的噪声层由N j表示，其中j4，8，16，.，1024表示空间大小。将组合的空间布局特征图和噪声添加到生成器，B′可以写为B′=concat（conv（Ei），Ni） i∈{16，32，64}，（1）WereConv表示卷积层，其将信道的数量从512减少到256，并且concat操作沿着信道维度级联，因为空间大小相同。代替使用单个信道噪声，该噪声然后被广播并被添加到对应的输出，4099L∼通过卷积，我们使用256通道噪声，然后将其与256通道SLI组合。这确保了通过map2样式网络的样式传播不受阻碍，同时场景布局信息也被注入到生成器中。这些特征图是多尺度的，因此可以选择特征图的尺度和SLI的另一个优点是它是输入模态不可知的，即输入可以是分割图、边缘图、模糊图像等。而不需要对体系结构进行任何改变。此外，这是在不损害风格GAN属性的情况下完成的，例如，如补充中所示的经由风格混合的多模态合成2.3. 变体-注意空间布局注入为了展示SLI概念的多功能性，我们采用了具有注意力的SLI的变体，即注意SLI（ASLI-pSp）。我们使用[31]中介绍的Bottleneck Transformers作为我们的注意力层。这种修改可以通过以下等式来B′=concat（botnet（conv（Ei）），Ni）i∈{16，32，64}，僵尸网络（Botnet））是瓶颈Transformer操作，它在编码器特征映射的输出通过conv层后接收这些输出。僵尸网络转换的特征图然后类似地与StyleGAN生成器中的噪声层连接。我们将在后面的章节中看到这样的修改如何提高像FID这样的分数。2.4. 损失函数我们使用类似的损失函数，因为它与我们提出的方法进行了公平的比较。我们还采用了一个加权组合的损失，被列为低。逐像素重建损失（或2损失）被定义为L2（x）=||x −SLIpSp（x）||2我们还使用LPIPS [45]损失，这有助于保持图像质量。这里，F（·）表示感知特征提取器。L LPIPS（x）= ||F（x）− F（SLIpSp（x））||2潜在向量正则化损失帮助编码器E在潜在空间中生成更接近平均潜在向量w的样式向量。Lreg=||E（x）−w||2对于面部图像，保持身份至关重要。因此，在处理面部图像时也采用ID损失。损失度量输入和输出图像之间的余弦相似性。LID（x）= 1 − <$R（x），R（SLIpSp（x））<$，其中R（.）是一个预训练的ArcFace网络[7]。因此最终损耗方程可以表示为L（x）=λL2 L2（x）+λLPIPSLLPIPS（x）+λregLreg（x）+λID LID（x）3. 实验装置我们在各种各样的任务和数据集上展示了我们的方法，以说明在I2I设置中结合样式和空间布局信息具体而言，我们选择以下任务：分割地图到脸（Seg2Face），超分辨率和边缘到RGB图像。我们使用[29]中提出的原始方法中的默认训练设置，并在NVIDIA Tesla V100 32GB GPU上训练最多500000步，批量大小为8。3.1. 数据集• CelebA-HQ[14]：它包含来自CelebA数据集的约30，000张高分辨率人脸图像。火车集由大约24，000张图像组成。它用于我们的超级分辨率任务。• CelebAMask-HQ[20]：它是CelebA-HQ数据集的衍生物，具有相同的训练测试分割，但带有分割掩码。图像的每个掩模都是手动注释的，并且数据集包含19个类，例如皮肤、鼻子、眼睛、嘴唇、头发等。我们将其用于Seg2Face任务。• AFHQ-Dog[6]：该数据集是大约5000张高质量狗图像（面部）的集合，其中大约500张图像形成了测试集。我们展示了这个数据集上的超级• Places 2-CustomBuildings：我们从Places 2数据集[47]中提取了一些建筑类别，用于StyleGAN生成器的预训练。这些包括建筑物正面、法院、人造住宅、办公楼、室外停车场和住宅区，总共约150，000张图像。我们从这些图像中选择约30，000个图像的子集作为训练集（3700个作为测试集），用于评估基线pSp以及我们的方法SLI-pSp和ASLI-pSp。选择自定义数据集来展示SLI在生成的图像中的有效性。我们将此数据集用于边缘RGB图像任务。3.2. 培训详细信息与pSp框架类似，我们使用ResNet-IR架构训练我们的网络。此外，对于每个上面提到的数据集，我们分别训练 StyleGAN ，并将其用作具有修改的 psp-Encoder的解码器，用于在条件设置中进一步训练。pSp-Encoder是从头开始训练的，而Style- GAN是进一步微调的。输入图像尺寸为256×2564100L针对不同数据集的所有任务。实验的学习率是0.0001与Ranger优化。使用的损失系数与pSp训练中相同，即λ LPIPS=0。8，λ L2=1. 0，λ reg=0。005。ID不用于任何任务，除了CelebA-Super Resolution使用λ ID= 1。0的情况。StyleGAN和pSp的训练时间与原始作品相似，我们使用原始配置。4. 结果和讨论为了评估SLI的有效性，我们将我们的方法与pSp和其他一些跨各种I2I任务的基线进行了比较。我们描述的实验，其结果和定量评估，以评估图像的多样性，质量和正确性。然后，我们讨论我们的方法与结果的关键差异。输入Pix2Pix黑桃CC-FPSEPSPSLI-pSpALSI-pSp图3.我们使用CelebAMask-HQ数据集显示Seg 2Face任务的结果，并将其与以前的一些作品进行比较。4.1. 人脸图像方法：在训练和推理过程中提供相应的分割图，生成人脸图像。在评估过程中，我们在更高级别的特征上进行风格混合，即我们将输入图像的潜在代码（分割掩码）与随机采样的潜在代码相结合。vector.我们根据各种基线评估我们的方法我们通过从分割图合成人脸图像来评估CelebAMask-HQ数据集上的SLI-pSp和ASLI-pSp生成的输出中最大的差异之一是SLI变体可以合成数据集中较小且未充分表示的对象，例如耳环，同时保持图像质量，如图1所示。除此之外，我们还观察到生成的图像与标签映射的更紧密对应这在不同发型的情况下尤其明显（见图1（b），（c）和图3）。我们通过使用每种方法生成的图像计算跨类的平均IoU分数来量化这种更紧密的对应关系表1.对测试集进行定量评估方法LPIPS损失↓FID↓mIoU↑PSP0.3553.900.61SLI-pSp0.3137.320.81ASLI-pSp0.3236.890.81此外，如图1（c）所示，pSp将cap类与头发混淆，并生成逼真但语义不正确的图像。在这种情况下，两种SLI变体都能够捕获正确的语义信息。请注意，我们的方法不仅在显示正确纹理的同时生成正确的帽子为了进行定量评估，我们采用了各种指标，如LPIPS，FID和mIoU。FID [11]被用作现实主义的代表，对质量和多样性都很敏感。SLI变体的性能显著优于pSp，差异大于16分。平均IoU分数是通过使用预先训练的分割网络评估由我们生成的图像合成的标签图与地面真实标签图来我们在这方面也优于pSp，并且它加强了我们关于SLI变体在数据中表示不足的对象方面更好的定性分析。4.2. 边缘到RGB图像我们探索我们的方法在另一个任务，它需要一个边缘图像作为输入，并生成一个 RGB 图像。在对StyleGAN可以相对较好地处理的人脸数据进行评估后，我们想在复杂数据集上对我们的方法进行压力测试。因此，我们从Places 2数据集中的各种类别中编译了建筑图像，称为Places 2- CustomBuildings。图像之间的差异很大，因为这些建筑物是在不同的照明条件、不同的姿势下捕获的，并且包括不同类型的结构，如教堂、摩天大楼、住宅等。然后，我们使用Canny边缘和一些后处理来减少噪声边缘，为数据集创建边缘图像。4101边缘Psp SLI-pSp GT图4. Places2数据集上的结果。由于特征注入，我们的方法生成了许多可靠的信息。表2. Places 2-CustomBuildings数据集上边缘到RGB图像任务的定量结果。方法LPIPS损失↓FID↓PSP0.48236.733SLI-pSp0.3223.71ASLI-pSp0.3128.71我们观察到，pSp我们将其归因于两个主要因素，a）图像合成过程中缺乏空间信息，以及b）边缘缺乏语义上下文。这可以通过pSp在该任务中获得的非常高的FID分数来验证。与面部数据不同，同一组边缘可以用于表示各种不同的场景分量，其中人们可以在视觉上区分创建不同面部结构（诸如鼻子、耳朵或嘴）的边缘，从而使问题高度不适定。另一方面，我们注意到SLI-pSp能够很好地捕捉空间布局我们在图4（c）中看到，与pSp不同，我们的方法如何能够捕获单个窗口设计，甚至建筑物中的雕刻（图4（d））。我们的业绩在数量上也远远超过pSp（表1）。2）的情况。虽然通过我们的方法生成的图像缺乏我们在面部图像上获得的视觉质量（主要是由于任务和数据的复杂性），但我们提出了SLI作为一个有待探索的更进一步，在生成过程中使用样式向量的想法，就像在pSp中所做的那样。4.3. 超分辨率方法：我们遵循pSp设置，从低分辨率对应物合成高我们使用双三次插值在各种尺度（x2，x4，x8，x16，x32）下采样高分辨率图像，并将其用作输入图像。我们展示了我们的方法在超分辨率任务上的性能。我们选择两个数据集：CelebA和AFHQ-狗，我们评估我们的方法的性能。在CelebA的情况下，我们注意到我们的方法在视觉上与pSp相当，但在保留下采样输入中存在的空间信息方面更好。SLI变体在保留低分辨率图像中存在的衣服的发型和配色方案方面尤其好通过观察图5（底部），我们注意到SLI变体可以很好地捕获pSp忽略的帽子等对象，并将其误表示为头发。类似地，我们还注意到发型在上采样图像中通过SLI变体而不是pSp保持一致。FID评分的大幅改善从数量上很好地支持了上述主张（表3）。LPIPS和L2损失在测试集上也显示出减少，从而表明使用SLI具有更好的性能。我们注意到我们的方法生成的图像的清晰度略有降低，这可以归因于SLI注入的局部信息的引入，并且肯定是未来工作中需要改进的地方。表3.CelebA上超分辨率任务的定量结果我们使用8倍和16倍下采样的数据进行评估SLI变体在各种指标上显示出实质性的改进。方法LPIPS损失↓L2损失↓FID↓pSp（8x）0.230.0631.35SLI-pSp（8x）0.120.0110.21ASLI-pSp（8x）0.100.019.90pSp（16倍）0.240.0632.53SLI-pSp（16倍）0.180.0218.33ASLI-pSp（16x）0.170.0218.01我们还评估了AFHQ-Dog数据集上的超分辨率任务，这与StyleGAN工作得很好的人类面部数据集相比是不同的。我们观察到pSp如何正确地错过上采样颜色，并且SLI-pSp在场景中生成更准确的颜色和照明方面做得更好我们还注意到在图6（第1行和第3行）中，SLI变体如何能够保留绿草的黄色部分。这可以被认为是我们的方法能够捕获的输入图像的风格（而不仅仅是结构）的代表我们确实注意到在我们的ASLI变体中有一点褪色，这将在未来的工作中进行研究。4102→总的来说，对于像超分辨率这样的任务，我们主张在生成过程中准确地编码空间特征的方法，因为在生成的“上采样”图像中具有准确的结构是必要的这在很大程度上是通过我们的SLI-pSp方法实现的。8x 16x 32xGT输入PSP我们输入PSP我们输入pSp Ours Ours+注意图5.超分辨率结果。我们观察到一个温和的权衡之间的保留语义和整体图像质量在这两种方法由于引入局部偏见输入pSp我们的GT+关注图6. AFHQ超分辨率的结果。第一行显示不正确颜色的结果，第二行和第三行显示不正确结构和颜色的结果。5. 结论、局限性和未来范围在这项工作中，我们已经确定了pSp，一个通用的图像到图像的翻译框架的缺点我们发现，由于pSp的全局方法，以及在图像生成过程中缺乏空间布局上下文，它无法合成数据集中更精细和更少表示的细节，并且无法在更复杂的数据设置中工作。我们提出了一个简单的修复称为空间布局注入（SLI），编码的空间布局信息从输入图像和传播到StyleGAN解码器。虽然有一定的问题设置的全局方法的优势，我们认为，这是不够的，我们需要在图像合成过程中的风格和空间信息因此， SLI-pSp 将多尺度编码器特征映射与StyleGAN生成器中的噪声层相结合，而无需修改样式传播组件。我们通过我们详细的实验表明，我们我们展示的结果和比较与pSp的各种任务，如分割地图，面对图像，边缘的RGB图像，和超分辨率。我们在各种数据集上评估这些任务，并定性和定量地显示SLI作为I2I过程中的一个概念的重要性。虽然SLI是通过一个简单的卷积运算完成的，但我们展示了如何通过引入ASLI-pSp来升级到不同的设计选择，这取决于计算预算。虽然我们在任务中实现了良好的性能，但在使用attention机制的超分辨率的情况下，存在锐度降低问题，并且在一些样本中观察到伪影，尽管在FID分数方面比pSp性能更好。这可能需要探测SLI块的各种配置更改，甚至修改编码器以获得更好的功能，从而注入生成器。我们假设，在超分辨率的情况下观察到的artifacts是由于强局部偏差没有紧密对应的输出。虽然我们在边缘构建任务中获得了更好的结果，其中边缘与输出具有更紧密的对应关系，但由于其不适定性和复杂性，还有很大的改进空间，因为生成的图像缺乏面部图像中的精细度。由于我们的重点是提高合成质量，我们离开反演为未来的研究。这可能是一个潜在的未来方向，其中生成器架构可能需要修改，或者可能需要一个可扩展性来帮助获得更好的视觉质量。我们希望我们探索的简单而重要的概念将鼓励视觉和图形社区进一步在这个方向上进行研究。4103引用[1] Rameen Abdal，Yipeng Qin，and Peter Wonka.图像-年龄2风格：如何将图像嵌入到潜空间中？在IEEE/CVF计算机视觉国际会议论文集，第4432-4441页[2] Yuval Alaluf ， Or Patashnik ， and Daniel Cohen-Or.Restyle：一个基于残差的stylegan编码器，通过迭代细化。IEEE/CVF计算机视觉国际会议论文集，第6711-6720页，2021年[3] Karim Armanious ， Chenming Jiang ， Marc Fischer ，ThomasKüstner，TobiasHepp，KonstantinNik olaou，SergiosGa- Gao，and Bin Yang.Medgan：使用GAN的医学图像翻译。计算机医学成像和图形，79：101684，2020。[4] Christian Bartz ， Joseph Bethge ， Haojin Yang ， andChristoph Meinel.一个模型来重建它们：将随机噪声应用于 Stylegan 的一种新方法。 arXiv 预印本 arXiv ：2010.11113，2020。[5] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测在European Conference on Computer Vision中，第213-229页Springer，2020年。[6] Yunjey Choi，Youngjung Uh，Jaejun Yoo，Jung-WooHa.Stargan v2：多领域的多样化图像合成。在IEEE/CVF计算机视觉和模式识别会议论文集，第8188-8197页[7] 邓健康，贾国，薛念南，Stefanos Zafeiriou。Arcface：用于深度人脸识别的附加角度余量损失。在IEEE/CVF计算机视觉和模式识别会议论文集，第4690-4699页[8] AlexeyDosovitskiy，LucasBeyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner ， Mostafa Dehghani ， Matthias Minderer ，Georg Heigold，Sylvain Gelly，et al.一张图片相当于16x16个单词：用于大规模图像识别的变换器. arXiv预印本arXiv：2010.11929，2020。[9] Ian J. Goodfellow、Jean Pouget-Abadie、Mehdi Mirza、Bing Xu 、 David Warde-Farley 、 Sherjil Ozair 、 AaronCourville和Yoshua Bengio。生成对抗网络，2014年。[10] Hideaki Hayashi，Kohtaro Abe，Seiichi Uchida. Gloss-gan：基于生成式广告网络的风格一致的字体生成基于知识的系统，186：104927，2019。[11] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。神经信息处理系统的进展，30，2017。[12] Zilong Huang，Xinggang Wang，Lichao Huang，ChangHuang，Yunchao Wei，and Wenyu Liu. Ccnet：Criss-cross attention for semantic segmentation.在IEEE/CVF计算机视觉国际会议论文集，第603-612页[13] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros.使用条件对抗网络的图像到图像翻译。在IEEE会议上计算机视觉和模式识别，第1125-1134页，2017年。[14] Tero Karras ， Timo Aila ， Samuli Laine ， and JaakkoLehtinen.为提高质量、稳定性和变异性而进行的干细胞生长。arXiv预印本arXiv：1710.10196，2017。[15] Tero Karras ， Miika Aittala ， Janne Hellsten ， SamuliLaine，Jaakko Lehtinen，and Timo Aila.用有限的数据训练生成式在Proc. NeurIPS，2020中。[16] 泰罗·卡拉斯、米卡·艾塔拉、萨穆利·莱恩、埃里克·哈克·奥嫩、简·赫尔斯滕、贾科·莱赫蒂宁和蒂莫·艾拉。无别名生成对抗网络。神经信息处理系统的进展，34，2021。[17] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构，用于生成对抗网络。在IEEE/CVF计算机视觉和模式识别会议论文集，第4401-4410页[18] Tero Karras ， Samuli Laine ， Miika Aittala ， JanneHellsten，Jaakko Lehtinen，and Timo Aila.分析和改进了扫描仪的图像质量。在IEEE/CVF计算机视觉和模式识别会议论文集，第8110-8119页[19] Taeksoo Kim、Moonsu Cha、Hyunsoo Kim、Jung KwonLee和Jiwon Kim。学习发现与生成对抗网络的跨域关系。国际机器学习，第1857PMLR，2017年。[20] Cheng-Han Lee，Ziwei Liu，Lingyun Wu，and Ping Luo.Maskgan ： Towards diverse and interactive facial imagemanipulation. 在IEEE计算机视觉和模式识别会议，2020年。[21] Xihui Liu，Guojun Yin，Jing Shao，Xiaogang Wang，and Hongsheng Li.学习预测用于语义图像合成的布局到图像条件卷积。 arXiv 预印本 arXiv ： 1910.06809 ，2019。[22] Jiasen Lu，Dhruv Batra，Devi Parikh，and Stefan Lee.Vilbert：针对视觉和语言任务的预训练任务不可知的视觉语言表示。arXiv预印本arXiv：1908.02265，2019。[23] Takeru Miyato，Toshiki Kataoka，Masanori Koyama，and Yuichi Yoshida.生成式对抗网络的谱归一化。arXiv预印本arXiv：1802.05957，2018。[24] Augustus Odena，Christopher Olah，and Jonathon Shlens.辅助分类器gans的条件图像合成国际机器学习会议，第2642- 2651页。PMLR，2017年。[25] Pang，Jianxin Lin，Tao Qin，and Zhibo Chen.图像到图像转换：方法和应用。 arXiv 预印本 arXiv ：2101.08629，2021。[26] Taesung Park ， Ming-Yu Liu ， Ting-

下载后可阅读完整内容，剩余1页未读，立即下载