风格保持调制的语义图像编辑方法设计及应用

157 浏览量更新于2023-12-01 收藏 3.1MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

+v：mala2255获取更多论文对象添加修改形状可控全景生成对象移除背景重绘可控修复可控外绘编辑结果语义引导原始图像基于风格保持调制的上下文一致语义图像罗五羊1，苏洋1，王红1，龙波1，张伟山21复旦大学2中国石油@ fudan.edu.cnhttps://github.com/WuyangLuo/SPMPGAN图1：所提出的方法的应用。我们的图像编辑系统能够灵活地应对各种各样的编辑要求。抽象的。语义图像编辑利用本地语义标签映射来在编辑区域中生成期望的内容。最近的一项工作借用SPADE块来实现语义图像编辑。然而，由于编辑区域与周围像素之间的风格差异，它不能产生令人满意的结果我们将此归因于SPADE仅使用独立于图像的局部语义布局但忽略已知像素中包含的为了解决这个问题，我们提出了一种风格保留的调制（SPM），它包括两个调制过程：第一个调制过程结合上下文风格和语义布局，然后生成两个融合的调制参数。第二调制采用融合参数来调制特征图。通过使用这两个调制，SPM可以注入给定的语义布局，同时保留图像特定的上下文风格。此外，我们设计了一个渐进式的架构，用于以粗到细的方式生成编辑后的内容该方法可以获得上下文一致的结果，并显着减轻生成的区域和已知像素之间的不愉快的边界。通讯作者arXiv：2207.06252v1 [cs.CV] 2022年7+v：mala2255获取更多论文2瓦。Luo等人关键词：语义图像编辑，风格保持调制1引言图像编辑的目的是在用户的控制下在特定区域生成所需的内容。由于其在社交媒体、图像和视频再创作、虚拟人-物交互等领域的广泛应用，该任务吸引了大量的研究热情。著名的商业软件Photoshop在这一领域取得了成功。然而，使用这样的软件需要许多专业技能和大量的手工劳动。大多数图像编辑方法分为几类。第一类是低层次的指导编辑方法[18，3，6，28]。它们引入了低层次的信息，如线条和颜色。这些方法可以处理编辑简单的轮廓或形状，但只能提供非常有限的编辑控制，并且不能操纵图像的高级语义。第二类是基于分类的方法[9，12]。它们利用辅助分类器来指导合成和编辑图像。这些方法只能控制离散属性，不能提供空间控制。第三类方法采用GAN反演技术[39，4，1，27]，该技术依赖于预先训练的GAN并剖析GAN它们需要一个强大的训练有素的StyleGAN ，这在许多情况下是不可能的，因为训练一个强大的StyleGAN[20，22]模型并不容易，特别是对于复杂的场景。此外，这样的方法缺乏灵活性，并且每个属性的编辑可能需要独立的训练。第四类方法[11，32]利用像素级语义标签映射，其定义编辑区域中像素的类标签以控制编辑内容。此任务也称为语义图像编辑。在这一工作线上，我们的方法可以为用户提供比其他三类方法更大的编辑灵活性。我们的方法包括以下编辑功能：（1）我们的方法可以应用于复杂的场景编辑。(2)用户可以通过对语义布局的操作，如修改对象的形状，添加或删除对象，灵活地编辑图像。(3)编辑区域可以在任意位置选择，甚至超出原始图像边界。图1展示了我们方法的多功能性语义图像编辑是一项重要的任务。它的挑战在于保持编辑区域和已知区域之间的上下文风格一致这里，“上下文”是指输入图像的未编辑区域，并且“样式”是诸如颜色/纹理的“上下文”的特征。先前的最先进的方法SEARCH[32]利用SPADE块[33]来构建其生成器。SPADE在条件图像合成中是非常条件图像合成学习从语义映射域到真实图像域的映射，根据给定的语义标签映射合成整个图像。因此，生成器可以合成简单的纹理以获得视觉上合理的结果。然而，由于已知像素和假像素共存的图像编辑任务，我们的任务变得更加困难，因为要求合成逼真的纹理和保持一致的上下文风格。除此之外，图像合成需要+v：mala2255获取更多论文使用SPM 3进行上下文一致的语义图像编辑图（2）SPM与SPADE的原理区别：（b）SPADE的结构(c)拟议战略规划和管理机制的结构全语义标签图，但语义图像编辑只能看到编辑区域的语义布局。因此，如果在编辑任务上直接采用SPADE，则在已知区域中将仅生成无意义的调制参数由于上述原因，以前的工作[32]为了解决现有作品的这种局限性，我们提出了一个风格保留的调制模块（SPM）。与SPADE只利用一次调制操作相比，SPM包括两个阶段的调制过程。受风格转移[14]的启发，它表明非规范化特征映射包含高级“风格”信息，我们使用非规范化特征映射通过“绕过规范”进行上下文保持。SPM和SPADE之间的主要区别如图2（a）所示，详细信息见3. 具体来说，我们首先从语义映射和一对调制参数从特征映射生成两个并行的调制参数对然后通过第一次调制操作将它们融合，生成两个上下文感知的调制参数。第二阶段调制使用上下文感知调制参数来调制特征图。SPM通过两阶段的模块化，可以有效地集成外部语义映射，同时保持特定于图像的上下文风格。SPM将特征映射到调制过程中，以保持上下文风格。对于图像编辑任务，输入在编辑区域中为空。通过扩大生成器的感受野，将已知区域的上下文信息逐渐传递到为了使编辑区域更有效地感知上下文风格，生成上下文感知的SPM调制参数，我们构建了一个由粗到细的结构，以渐进的方式将编辑过程分解为多个尺度。具体来说，我们采用多个生成器来接收不同尺度的输入输入图像的下采样版本被馈送到第一生成器中S调制参数产生第一级调制211双并行调制参数产生上下文感知参数生成（第一级调制）调制（第二阶段调制）O共享层222旁路范数调制参数产生S1F规范1共享层FO第二级调制(c)SPM(b)黑桃(a)SPM和SPADE的原理逐元素添加逐元素相乘OF输出F特征图OSS语义地图SPM和SPADE共享数据库层用于SPADE用于SPM3×3转换3×3转换3×3转换3×3转换3×3转换3×3转换规范3×3转换3×3转换3×3转换3×3转换3×3转换标准+v：mala2255获取更多论文4瓦。Luo等人以产生粗粒度结果，该粗粒度结果包含所编辑区域的粗粒度后续的生成器可以利用先前的结果，通过SPM有效地保留上下文风格并细化细节纹理。我们的贡献总结如下：我们提出了一个上下文风格保留的调制的语义图像编辑任务，它可以注入外部语义标签地图的布局，同时保留图像特定的上下文风格。实验表明，SPM对缓解不一致性效果显著。我们使用SPM构建渐进生成对抗网络，用于编辑区域的粗到细生成。在几个基准数据集上进行的大量定性和定量实验表明，我们的模型优于最先进的方法，特别是在上下文风格一致性的意义2相关作品2.1Image-to-Image Translation图像翻译试图学习从源域到目标域的映射，以实现以源域图像为条件的目标域中的新图像的合成图像转换可以应用于各种任务，例如图像合成[48，46，47]，图像编辑[11，3，18]，风格转换[7，14]，图像修复[34，45，44]，图像扩展[38，43]和图像超分辨率[24，25]。现有的作品利用不同的条件输入作为源域，如语义标签地图，场景布局，关键点和边缘地图。其中，最相关的子任务是语义图像合成，其目的是在输入语义标签地图的条件下生成照片般逼真的图像。语义图像合成已经取得了显着的进展，受益于生成对抗网络[8]。Pix2pix [17]是一项开创性的工作，介绍了一种基于条件生成对抗网络的通用图像翻译框架[30]。以下工作pix2pixHD[41]致力于生成高分辨率图像。SPADE[33]提出了一种空间自适应归一化，它从语义布局中学习变换参数，以调节归一化层中的激活。CLADE[37]提出了一种轻量级的类自适应规范化来提高SPADE的效率。语义图像合成在最近的工作中已经应用于不同的下游任务，例如语义图像编辑[32]，语义视图合成[13]，肖像编辑[53，26]。2.2语义图像编辑语义图像编辑是指用户提供语义标签图作为线索，对给定图像的局部区域进行像素级的编辑。语义概念是比颜色、边缘、关键点更直观和基本的图像特征···+v：mala2255获取更多论文使用SPM 5进行上下文一致的语义图像编辑和纹理。通过操纵语义标签映射，用户可以以多种方式轻松地编辑图像内容，包括重新绘制、添加、移除和外绘语义信息。与近年来得到广泛研究的语义图像合成不同，语义图像编辑由于具有挑战性而尚未得到充分发展。语义图像编辑要求编辑后的内容不仅具有较高的保真度，而且必须与剩余区域的风格保持一致。他[11]是这项任务的最早尝试。HIM首先学习生成给定对象边界框的语义标签图。然后，它学习从预测的标签映射生成编辑的图像。HIM可以处理对象的添加和删除。然而，HIM每次只能对一个前景目标进行操作。此外，HIM需要整个图像的完整语义标签图作为输入，这对用户来说是不方便SEARCH[32]只输入编辑区域的语义标签图，使图像编辑工具更加实用。为了提高输入图像的质量，SEARCH对生成器和消隐器进行了改进SEARCH使用SPADE构建虽然以前的方法可以合成合理的结果，他们忽略了编辑区域和已知区域之间的上下文的一致性。相反，我们的工作致力于减少这种不一致性。2.3调制技术调制也称为反规范化，它是注入外部控制信息的一种有效方法。与BN[16]， IN[40]和GN [42]等无条件归一化技术不同首先，使用无条件归一化层将特征图归一化为零均值和单位偏差。然后用从外部数据中学习的缩放和移位参数来调制归一化的特征图调制技术最初被应用于风格转移任务，如AdaIN [14]，后来被应用于各种视觉任务[21，15，35]。AdaIN只学习全局样式表示。为了处理具有空间维度的外部数据，[33]提出了用于语义图像合成的SPADESPADE在语义图像合成方面取得了令人瞩目的成功然而，以往的方法只考虑外部条件输入，忽略了内部上下文信息，这是一个致命的缺点语义图像编辑任务。本文提出了一种新的调制方案，可以聚合内部上下文风格和外部语义布局。实验结果表明，该方法能有效地保持上下文风格，提高语义图像编辑的一致性。3方法我们从下至上描述我们的方法首先分析了SPADE在图像语义编辑中的局限性然后介绍了如何建立一个基于SPM的渐进式体系结构。+v：mala2255获取更多论文∈−˜∈∈6瓦。Luo等人3.1重新思考SPADE在语义图像编辑中的应用SPADE是一种最先进的调制技术，在语义图像合成方面非常成功，如图2（b）所示。FiRN ×C×H×W是第i层的输入特征图。N是一个批次中的样品数量。C是通道数。H和W分别表示高度和宽度SPADE通过两个卷积层从给定的语义标签映射中学习两个调制参数，缩放参数γ和移位参数βS.首先，以通道方式归一化FiF<$i= Fiµiσi（1）其中，µiRN ×C×1× 1和σiRN ×C×1× 1是Fi的通道平均值和标准差。然后，我们执行调制操作：Fi=（1+γ）<$F<$i+β（2）以前的工作[32]应用SPADE进行语义图像编辑。然而，SPADE是不适合语义图像编辑以下两个原因：第一，SPADE只能从给定的外部语义标签映射生成图像无关的调制参数因此，如果两个编辑的图像被给予相同的语义标签映射，则SPADE将生成相同的调制参数。这是不合理的，因为SPADE忽略了特定于图像的样式。其次，对于语义图像编辑，生成器只能看到编辑区域的语义布局，其余已知区域的语义标签被设置为固定值。因此，SPADE无法在已知区域上学习有效参数。如果我们天真地将SPADE转移到语义图像编辑，上述两个限制将导致风格不一致和不愉快的边界。3.2风格保留调制为了解决上述问题，我们提出了一种用于风格保持的两阶段调制机制，如图2（c）所示。第一阶段的调整旨在整合语境风格和外部语义布局。调制的第二阶段是将融合的信息注入特征图。在第一种调制中，我们生成两种参数：四个语义调制参数和两个上下文调制参数。语义调制参数包括两组：（γs1，βs1）和（γs2，βs2）。上下文调制参数（γc，βc）从原始特征图生成，而不通过归一化层。先前的风格转移工作[14]揭示了图像的风格可以被归一化层洗掉。非规范化的特征图可以更好地保留上下文风格。因此，我们使用原始特征图来生成两个上下文调制参数。最后，我们执行第一次调制以生成融合调制参数γf和βf：γf=（1+γs2）<$γc+βs2（3）+v：mala2255获取更多论文⊙˜∈G1GTD1↑输入CI2G2GTD2↑本地语义标签图CI3G3SPM转换层GTD3发电机结构↑上采样C结合使用SPM 7进行上下文一致的语义图像编辑图3：渐进式架构的概述。βf=（1+γs1）<$βc+βs1（4）其中表示逐元素乘法。所有调制参数具有与特征图Fi相同的形状。在第二个调制中，我们使用融合的调制参数来调制归一化的特征图F′i。Fi=（1+γf）<$F<$i+βf（5）SPM通过两个阶段的调制过程，克服了SPADE的两个不足：第一，融合后的调制参数整合了外部语义布局，保留了内部语境风格。第二，融合的调制参数可以为已知区域生成有意义的调制参数。3.3渐进式编辑架构我们提出了一个渐进式架构的图像编辑的基础上 SPM ，称为SPMPGAN。我们的模型有三个输入：（1）输入图像IR256× 256× 3，它只包含已知的像素与掩蔽的编辑区域;（2）局部语义图S提供编辑区域的语义布局;和（3）相应的掩码映射M，其值为0的非编辑区域和1的编辑区域。我们的渐进式架构由生成器{G1，G2，G3}和鉴别器{D1，D2，D3}的金字塔组成，图像金字塔为I：{I1，I2，I3}，其中In是I的下采样版本，因子为23−n，M的掩码金字塔：{M1，M2，M3}，以及S的语义映射金字塔：{S1，S2，S3}。每个生成器Gn都用一个相关联的CRDDn来训练。学习如何生成-在编辑区域中创建逼真的新内容，并尝试欺骗相应的+v：mala2255获取更多论文⊙ ⊙−L×8瓦。Luo等人- 是的Dn试图区分编辑结果和真实图像。我们对所有生成器采用具有跳过连接的编码器-解码器架构[36]，如图3所示。每个生成器都在编码器和解码器中的上采样层。受y [45]的启发，鉴别器由具有5 × 5卷积核和频谱归一化的几个卷积层组成[31]。D1、D2和D3的层数分别为4、5和6。因此，每个D n具有输入I n大小的接收场，并捕获整个图像的特征。生成过程开始于粗尺度G1，然后依次经过G2和G3到达原始尺度。具体来说，将原始输入I下采样到64×64，得到G1的i输入：I G 1 = I 1，G 1的输出为 O 1。然后，将上采样的O1与作为G2的输入的I2 进行比较M2+I2（一）M2）。所有发生器和鉴别器都有独立的权重。3.4培训我们以端到端的方式训练渐进模型第n个生成器的训练目标由重建损失和对抗损失Ladv 组成。重建损失包括L1距离损失 L1和感知损失p[19]。我们采用铰链版本对抗损失[2，29]。总损失可以写为：L= L1+ 10。0Lp+Ladv（6）4实验4.1数据集ADE 20 K-房间ADE 20 K [51]拥有超过20，000张图像以及150个类别的详细语义标签。我们选择ADE20K的一个子集，包括卧室、酒店客房和起居室。这个子集称为ADE20K房间。我们调整所有图像的大小，使其长边不超过384，短边不小于256。我们在训练时将它们裁剪为256 256。该数据集有2246张用于训练的图像和255张用于测试的图像。ADE 20 K-landscape我们也从ADE 20 K中选择landscape子类，并使用相同的预处理方法。不同的是，这个数据集只有背景，没有前景对象。训练集和测试集分别包含1689幅图像和155幅图像。Cityscapes [5]数据集收集了50个德国城市的街景，其中包含33个语义类别。训练集和测试集分别有2975和500张图像，分辨率为2048×1024。我们将所有图像下采样为512× 256，并将其裁剪为256× 256块。+v：mala2255获取更多论文使用SPM 9进行上下文一致的语义图像编辑输入Pix2pixHD黑桃CLADECo-Mod他芝麻SPMPGAN（我们的）地面实况图4：与其他方法的视觉比较。4.2基线语义图像编辑方法。我们采用两个现有的作品[11，32]作为基线。HIM[11]介绍了一种两阶段的图像编辑方法它们首先从对象边界框预测语义布局。然后，它们根据预测的语义布局生成新内容。因为在我们的设置中，编辑区域的地面实况语义布局是已知的，所以我们直接将地面实况布局输入到HIM的第二阶段以获得结果。芝麻[32]与我们的工作有着相似的背景图像合成方法。我们的实验还包括几种图像生成方法进行比较。这些最近的工作[41，33，37，50]可以通过仅修改其生成器的输入直接转移到我们的任务值得一提的是，最近的一些作品不能简单地适应我们的任务。例如，SEAN[53]需要一个完整的分割图来计算它们的样式城市景观ADE20k-RoomADE20k-Landsacpe+v：mala2255获取更多论文×10瓦。Luo等人输入Pix2pixHD黑桃CLADECo-Mod他芝麻SPMPGAN（我们的）地面实况图5：添加和删除对象的视觉结果。代码. CoCosNetv2[52]需要一个完整的分割图来执行它们的主对齐。然而，我们的任务只能看到本地语义标签映射。4.3实现细节为了获得更灵活的模型，我们使用了五种类型的掩码进行训练：自由形式掩码，扩展掩码，外画掩码，实例掩码和类掩码。扩展掩码是输入的右半部分。对于外画蒙版，我们随机保留一个128 ×128的补丁作为已知区域。实例遮罩只包含单个前景目标，而类遮罩删除属于语义类的所有在训练过程中，每个掩码都是随机选择的，并在每次迭代时发送到网络我们使用Adam优化器[23]用于动量β 1 = 0的生成器和鉴别器。β2= 0。999. 生成器和鉴别器的学习率分别设置为0.0001和0.0004所有模型都在所有数据集上训练了500个epoch批量大小设置为最大值，以适应单个NVIDIA RTX 3090GPU的内存大小去除ADE20k-Room此外城市景观ADE20k-Room城市景观+v：mala2255获取更多论文使用SPM 11进行上下文一致的语义图像编辑表1：不同面罩类型的定量比较（↑：越高越好; ↓：越低越好）。输入w SPADE带SPADE-L SPMPGAN-Sw范数无程序SPMPGAN（完整模型）地面实况图6：消融研究的目视比较。4.4语义图像编辑我们比较我们的结果与国家的最先进的方法，使用自由形式的面具，扩展面具，并outpainting面具的三个基准。图4提供了一些直观的比较。Pix2pixHD[41]和HIM[11]仅使用语义标签映射作为输入层中的条件，并且它们经常生成伪影。SPADE[33]，CLADE[37]和SESTATE [32]可以合成合理的结构和逼真的纹理，但它们严重遭受风格不一致导致不愉快的边界。因为它们在注入语义标签图时只使用与图像无关的外部语义图，完全忽略了上下文信息。Co-Mod[50]也具有明显的纹理不一致性，因为它缺乏针对图像编辑任务的特定设计。该方法可以有效地结合上下文风格和语义布局，以产生真实感的纹理，同时保持上下文风格。表1还示出了定量比较结果。FID[10]已被广泛证明与人类视觉感知一致较低的FID值表明，掩码类型方法ADE20k-Ro omADE20k-LandsCape城市景观esFID↓LPIPS↓mIoU↑FID↓LPIPS↓mIoU↑FID↓LPIPS↓mIoU↑pix2pixHD23.720.10727.4933.900.12028.3015.280.09058.69黑桃27.650.12427.4741.920.13428.4115.830.09959.10进化枝30.770.12625.9146.590.13926.3917.060.10357.72自由形式Co-Mod27.370.11127.5232.350.12428.6015.880.09756.50他28.640.13328.0435.890.11628.4315.580.09358.99芝麻21.730.10127.5030.300.11628.2812.890.08258.88SPMPGAN18.830.09028.2223.110.10528.7311.900.08458.80pix2pixHD38.080.22327.3256.150.24228.1026.140.17658.55黑桃36.430.21127.6268.960.27728.4425.780.19459.01进化枝41.770.24225.6765.330.26726.3925.290.19558.09延伸Co-Mod38.610.23127.1353.960.24928.0929.270.18856.44他40.690.23927.6152.140.23428.4225.200.18058.91芝麻36.430.21127.6248.160.23228.3120.300.16859.08SPMPGAN32.610.19927.7345.100.21728.4819.460.16759.10pix2pixHD52.140.32327.4982.560.36028.3039.500.25358.72黑桃47.720.30527.4088.790.38928.3033.970.26859.07进化枝52.450.34625.4786.770.38824.4934.190.27657.49外涂Co-Mod51.450.32526.5479.770.36026.7050.290.26455.39他54.510.33728.1977.180.35228.5736.270.25258.99芝麻47.720.30527.4072.280.34428.1328.270.23758.75SPMPGAN41.520.28827.8563.320.32827.5627.630.23358.53+v：mala2255获取更多论文↓ ↓ ↑ ↓ ↓↑12瓦。Luo等人表2：Cityscapes和ADE 20 k-Room的添加和删除结果。操作方法ADE 20 k-Room CityscapesFIDLPIPSmIoU FID LPIPSMioupix2pixHD27.0911.770.030黑桃5.660.02727.1710.480.03158.66进化枝6.210.02827.1611.030.03157.55此外Co-Mod5.750.02627.2311.280.03156.40他9.800.04627.2211.410.03058.75芝麻5.500.02427.149.700.02758.56SPMPGAN5.140.02227.439.040.02658.68pix2pixHD4.520.01928.3215.010.03955.02黑桃3.960.01928.3515.480.04055.04进化枝4.120.01928.3416.180.04054.22去除Co-Mod4.030.01928.3315.050.04155.10他7.440.03528.3315.100.04055.11芝麻4.020.01828.3415.520.04155.08SPMPGAN3.680.01628.3514.630.03955.01结果具有更高的保真度。LPIPS[49]以成对的方式评估生成的图像与相应的地面真实值之间的相似性较低的LPIPS指示所生成的图像更接近地面实况。在语义合成任务[33]中采用mIoU来评估语义标签映射与生成结果之间的对齐我们的方法优于其他方法在大多数评价指标。4.5添加和删除对象我们的工作是能够通过修改语义标签映射添加或删除单个对象。目视检查结果见图5。对于对象添加，我们随机选择一个输入实例并提取边界框以生成其局部语义标签图。对于对象移除，我们删除一个实例，并使用附近的背景语义类填充它。表2中所示的定量结果表明，我们的方法在风格保持和保真度方面达到了最好的结果。4.6可控全景生成一个经过良好训练的模型可以递归地用来获得最大值。具体地说，我们采用滑动窗口的方式下一步的已知区域的前一步的生成区域因此，输入在每一步中向右图1显示了递归生成的结果。4.7消融研究风格保留变调我们研究SPM的风格保持的重要性。我们用SPADE块（“wSPADE“）替换所有SPM。视觉结果如图6所示。它+v：mala2255获取更多论文使用SPM 13进行上下文一致的语义图像编辑表3：不同面罩类型的消融研究掩模类型方法ADE 20 k-房间ADE 20 k-景观城市景观FID↓ LPIPS↓mIoU↑ FID↓ LPIPS↓ mIoU↑带SPADE23.270.09827.6034.710.11828.39十四点二十分0.091 58.80w标准20.510.09827.5829.870.11128.31十二点六四0.085 58.78自由形式无程序带SPADE-L二十点四十七24.11零点零九六0.098二十七点四二27.61二十五点八七34.680.1090.116二十八点四二28.43十三点零七分14.40零点八九0.09058.7358.79SPMPGAN-S 18.930.09028.24 23.210.10628.70 11.890.08458.82SPMPGAN18.830.09028.22 23.110.10528.73 11.900.08458.80w SPADE36.840.22027.5153.020.23928.9221.990.17358.88w范数32.760.20527.5648.430.22828.9220.500.17659.01延伸无程序带SPADE-L三十三点八七36.14零点二零五0.21827.44 45.9627.48 53.130.2220.240二十八点八六28.93二十一点21.86零点一七0.174五十九点零九分58.81SPMPGAN-S 31.920.20027.7445.170.21828.47 19.12 0.16759.12SPMPGAN32.610.19927.7345.100.21728.4819.460.16759.10w SPADE47.370.32128.38 71.520.35728.84 31.330.24458.95w范数42.310.30028.5266.520.33728.8227.740.23557.98外涂不含程序43.980.29728.0566.320.32927.3929.540.23858.53带SPADE-L47.160.31828.3970.330.35428.8331.430.24358.95SPMPGAN-S41.490.28927.8062.430.33027.63 27.39SPMPGAN41.520.28827.8563.320.32827.5627.630.233 58.53表4：用户研究结果。方法HIM SENDERS我们的偏好128 493 1479可以观察到，SPADE导致不愉快的边界。这是因为SPADE完全忽略了特定于图像的上下文样式，只使用lo-调用语义标签映射来调制特征映射。作为比较，SPM可以缓解不一致性。两阶段调变可以将语境风格和外部语义标签映射整合起来。此外，SPM还可以帮助生成器合成更真实的纹理细节。我们还研究了“绕过规范”对风格保持的影响。具体来说，对于SPM中γ c和β c的生成，我们用归一化特征图（“w范数“）替换原始特征图。实验结果表明，风格保持能力明显减弱。这证明了规范化操作会洗掉上下文风格。因此，我们在SPM中使用未经归一化的原始特征图。定量结果也见表3。渐进式架构我们进行了消融研究，以证明渐进式设计在合成高质量结果方面的有效性。我们只使用最后一级生成器作为基线（“w/oprog“）。图6（c）显示，如果没有渐进生成，模型将产生风格不一致和不现实的纹理。所有刻度的发生器输出如图7所示。可以看出，G1合成了全局结构，G2和G3产生了更清晰的细节。表3给出了定量结果，表明渐进式架构有助于性能改进。+v：mala2255获取更多论文14瓦。Luo等人表5：参数数量的比较w SPADE带SPADE-LSPMPGANSPMPGAN-SADE 20 k-房间63.4 M90.0 M1.184亿76.9百万城市景观57.8 M81.5百万1.127亿74个月输入G1输出G2输出G3输出输入 G1输出G2输出G3输出图7：所有发电机的输出4.8用户研究我们邀请了21名具有图像生成专业知识的志愿者来进行用户研究。对于每位志愿者，我们随机选择了100个HIM[11]， SEMPLE[32]的结果，并从具有不同掩码的测试集中提出了模型我们要求他们选择一个更好地保留编辑区域中上下文样式的图像如表4所示，与以前的方法相比，用户显然更喜欢所提出的方法的结果。4.9模型比例尺这项研究表明，我们的性能改善源于SPM的新颖设计，而不是增加参数。如表5所示，我们的模型遵循SPADE将共享层的输出通道数Ch设置为128。我们将所有SPM的Ch减少到64并且保持结构不变（“SPMGAN-S“）。我们没有观察到性能下降。此外，我们将更多的S PADE 块插入到 “w S PADE“中以获得新的基线“w S P ADE-L“。实验结果如表3所示，“w SP ADE-L“不能通过简单地增加网络规模和计算消耗来获得性能增益。“SPMGAN-S“的性能仍明显优于“W S P ADE-L“，但参数较少。5结论本文致力于解决语义编辑任务中的风格不一致问题。我们提出了一个风格保留的调制和渐进的体系结构，有效地注入语义标签地图的结构，同时保留上下文风格。SPM的关键在于有效地整合上下文信息和语义标签图。我们还证明了我们的方法的各种应用程序的能力国家电网公司（批准号：2000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000005500-202011091A-0-0-00）。+v：mala2255获取更多论文使用SPM 15进行上下文一致的语义图像编辑引用1. Alaluf ，Y.，Tov，O.，莫卡迪河加尔河，Bermano，A.H.：超风格：Stylegan在版本与超网络的真实图像编辑.arXiv预印本arXiv：2111.15666（2021）2. Brock，A.，Donahue，J.，Simonyan，K.：用于高保真自然图像合成的大规模gan训练。arXiv预印本arXiv：1809.11096（2018）3. Chen，S.Y.，Liu，F.L.，黎耀光，Rosin，P.L.，Li，C.，傅，H.，Gao，L.：Deepfacediting- ing：深度面生成和编辑与解开几何和外观控制。arXiv预印本arXiv：2105.08935（2021）4. Chong，M.J.，Lee，H.Y.，Forsyth，D.：所有行业的Stylegan：图像处理只有预先训练的stylegan。arXiv预印本arXiv：2111.01619（2021）5. Cordts，M.，Omran，M.，Ramos，S.，T.B.菲尔德，Enzweiler，M.，贝嫩森河弗兰克，美国，Roth，S.，Schiele，B.：用于语义城市场景理解的cityscapes数据集。在：IEEE计算机视觉和模式识别会议论文集。pp. 32136. Dong，H.，Liang，X.，张玉，张，X.，Shen，X.，Xie，Z.，吴，B.，Yin，J.：融合编辑和对抗分析学习。IEEE/CVF计算机视觉和模式识别会议论文集。pp. 81207. 洛杉矶的加蒂斯Ecker，A. S.，Bethge，M.：使用卷积神经网络进行图像风格转换。在：IEEE计算机视觉和模式识别会议论文集。pp. 24148. 古德费洛岛，Pouget-Abadie，J.，米尔扎，M.，Xu，B.，Warde-Farley，D.，奥扎尔，美国，Courville，A.，Bengio，Y.：生成对抗网。在：神经信息处理系统的进展。pp.第26729. 他，Z.，左，W.，Kan，M.，Shan，S.，Chen，X.：Attgan：面部属性编辑只改变你想要的IEEE transactions on image processing28（11），546410. Heusel，M.，Ramsauer，H.，Unterthiner，T.，Nessler，B.，Hochreiter，S.：用双时标更新规则训练的Gans收敛于局部nash均衡。在：神经信息处理系统的进展。pp. 662611. Hong，S.，Yan，X.，黄，T.，Lee，H.：通过结构化表示学习层次语义图像arXiv预印本arXiv：1808.07535（2018）12. Hou，X.，张，X.，梁汉，沈，L.，Lai，Z.，Wan，J.：Guidedstyle：属性知识引导的语义面编辑样式操作。神经网络145，20913. Huang，H.P.，曾惠英，Lee，H.Y.，Huang，J.B.：语义视图合成。欧洲计算机视觉会议。pp. 592-608.施普林格（2020）14. 黄，X.，Belongie，S.：任意风格的实时传输，具有自适应的实例规范化。在：IEEE计算机视觉国际会议论文集。pp. 150115. 黄，X.，Liu，M.Y.，Belongie，S.，Kautz，J.：多模态无监督图像到图像翻译。在：欧洲计算机视觉会议（ECCV）的会议记录。pp. 17216. Ioffe，S.，Szegedy，C.：批量归一化：通过减少内部协变量偏移来加速深度网络训练。上一篇：机器学习国际会议pp. 448-456. PMLR（2015）17. Isola，P.，Zhu，J.Y.，周，T.，Efros，A.A.：使用条件对抗网络进行图像到图像的翻译。在：IEEE计算机视觉和模式识别会议论文集。pp. 1125+v：mala2255获取更多论文16瓦。Luo等人18. 乔，Y.，Park，J.：Sc-fegan：使用用户的草图和颜色进行面部编辑生成对抗网络。IEEE/CVF计算机视觉国际会议论文集。pp. 174519. Johnson，J.，Alahi，A.，李菲菲：实时风格转换的感知损失和超分辨率。在：欧洲计算机视觉会议。pp. 694-711. Springer（2016）20. Karras，T.，Laine，S.，Aila，T.：一个基于风格的生成器架构，用于生成对抗网络。在：IEEE/CVF计算机视觉和模式识别会议论文集。pp. 440121. Karras，T.，Laine，S.，Aila，T.：一个基于风格的生成器架构，用于生成对抗网络。IEEE计算机视觉与模式识别会议论文集。pp. 440122. Karras，T.，Laine，S.，Aittala，M.， Hellsten，J.，Lehtinen，J.，Aila，T.：分析并改善摄影摄像机的图像质量。在：IEEE/CVF计算机视觉和模式识别会议论文集。pp. 811023. 金玛，D.P.，Ba，J.：Adam：一种随机优化方法ArXiv预印本arXiv：1412.6980（2014）24. Lai，W.S.，Huang，J.B.，Ahuja，N.，Yang，M.H.：深度拉普拉斯金字塔网络实现快速准确的超分辨率。在：IEEE计算机

下载后可阅读完整内容，剩余1页未读，立即下载