基于检索的空间自适应归一化的语义图像合成方法

101 浏览量更新于2023-10-25 收藏 16.69MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Yupeng Shi 1, Xiao Liu 1, Yuxiang Wei 2, Zhongqin Wu 1, Wangmeng Zuo2,3 (�)1Tomorrow Advancing Life,2Harbin Institute of Technology,3Peng Cheng Laboratory{csypshi, ender.liux, yuxiang.wei.cs}@gmail.comwuzhongqin@tal.comwmzuo@hit.edu.cn(a) SPADE(b) SEAN(c) OursWith the recent advance of deep generative networks,some recent studies [21,22,24,25,34] tackle semantic imagesynthesis using a spatially-adaptive normalization archi-tecture, achieving significant performance improvements.However, with the coarse-level guidance (e.g., semanticclass), these methods modulate the activations inside eachsemantic object in spatially uniform manner, regardless ofthe huge internal variation of the objects. This inevitablyleads to blurry results, especially for large semantic objectwith complex parts. We take two representative spatially-adaptive normalization architectures as examples in Fig. 1.SPADE [22] leverages the semantic layout as input andlearns the modulation parameters through several convo-112240检索式空间自适应归一化用于语义图像合成0图1. SPADE [22]、SEAN[34]和我们方法的合成结果。(a)在类级别引导下，SPADE产生模糊的合成结果。(b)在区域级别样式向量的指导下，SEAN生成更好的细节，但仍然倾向于产生空间均匀的合成结果。(c)受益于像素级细粒度引导，我们的RESAIL在生成具有清晰细节的视觉合理的图像方面是有效的。0摘要语义图像合成是一个具有许多实际应用的挑战性任务。尽管在具有空间自适应归一化的语义图像合成方面取得了显著进展，但现有方法通常在粗级别引导（例如，语义类别）下对特征激活进行归一化。然而，语义对象的不同部分（例如，汽车的车轮和车窗）在结构和纹理上有很大的差异，导致模糊的合成结果通常是不可避免的。在本文中，我们提出了一种新的归一化模块，称为基于检索的空间自适应归一化（RESAIL），用于将像素级细粒度引导引入归一化架构。具体而言，我们首先通过从训练集中找到与每个测试语义掩码最相似形状的相同语义类别的内容块来提出一种检索范式。然后，将检索到的补丁合成为基于检索的引导，RESAIL可以使用它对特征激活进行像素级细粒度调制，从而极大地减轻模糊的合成结果。此外，扭曲的真实图像也被用作基于检索的引导的替代品，用于特征归一化，进一步有益于模型训练和提高生成图像的视觉质量。在几个具有挑战性的数据集上的实验证明，我们的RESAIL在定量指标、视觉质量和主观评估方面表现优于现有技术。源代码可在https://github.com/Shi-Yupeng/RESAIL-For-SIS上获得。1. 引言0语义图像合成旨在从给定的语义地图生成逼真的图像。它是计算机视觉中一个重要的问题，可以应用于各种下游任务，如虚拟偶像、特效、机器人技术[13]和图像处理[9]。0最近深度生成网络的进展，一些最近的研究[21, 22, 24, 25,34]使用空间自适应归一化架构解决语义图像合成问题，取得了显著的性能改进。然而，这些方法使用粗级别引导（例如，语义类别）在每个语义对象内部以空间均匀的方式调制激活，而不考虑对象的巨大内部变化。这不可避免地导致模糊的结果，特别是对于具有复杂部分的大型语义对象。我们以图1中的两种典型的空间自适应归一化架构为例。SPADE [22]利用语义布局作为输入，并通过几个卷积学习调制参数。0人类有一种非凡的能力，可以通过过去的经验作为参考来产生新的创作。在他们的早年，孩子们可以通过参考代表性物体和背景的模板来绘画一幅包括花朵、天空和建筑物的图片。因此，从参考中生成图像是一种自然的方式，因为编辑参考并将它们拼接起来比从无中生出整个图像要容易得多。受到这种精神的启发，早期的研究已经对基于参考的图像合成进行了深入研究，其中适当的参考是从外部记忆中搜索得到的[4, 7, 11, 14,16]。然而，检索、编辑和拼接是以分离和手工方式进行的，这在某种程度上是次优的。SIMS[23]利用深度网络进一步提高了基于参考的合成结果的质量，但它只是将检索到的图像作为网络输入，对于合成复杂的现实场景有限制。112250分辨率较低的合成结果，生成高质量的对象部分受限，并导致模糊的合成结果（图1(a)）。SEAN[34]通过从选定区域提取样式代码来改进SPADE，实现了灵活的样式控制。然而，样式图是通过将样式代码广播到相应的语义区域生成的，这也更倾向于空间均匀的合成结果（图1(b)）。最近的大多数方法，例如CLADE [25]和OASIS[24]，本质上也是基于粗糙级别的引导。0在本文中，我们通过提出一种新颖的特征归一化方法REtrieval-based Spatially AdaptIve normaLization(RESAIL)来解决上述问题。我们的直觉有两个方面。一方面，输入语义地图的对象分割掩码不仅可以提供语义类别，还可以提供对象形状。另一方面，训练数据集包含了对象的丰富形状和纹理信息，这些信息无法完全被学习到的深度生成网络所捕捉到。考虑到这些直觉，给定一个对象分割掩码，我们提出了一种检索范式，用于从训练数据集中检索出与形状最相似的分割图像。然后，将检索到的分割图像组合成基于检索的引导，这在像素级别自然上是空间变体的。我们进一步提出了一种基于检索的空间自适应归一化，其中基于检索的引导和语义地图共同提供对特征激活的像素级细粒度调制。如图1(c)所示，受益于像素级细粒度引导，我们的RESAIL在生成具有清晰细节的视觉合理图像方面是有效的。与SIMS[23]相比，我们的方法利用基于检索的引导进行空间自适应归一化，更有效地合成逼真图像。与SPADE [22]和SEAN[22]相比，我们的RESAIL可以有效地利用像素级细粒度引导来改善合成结果。0当使用基于检索的引导进行特征归一化时，由于缺少与基于检索的引导相对应的真实图像，很难利用感知监督进行训练。相反，语义地图的真实图像可以自然地被视为基于检索的引导，而真实图像本身也可以用于促进感知监督。然而，真实图像与真实的基于检索的引导相差很大，将其用作引导不能使学习的模型在测试阶段生成更好的合成结果。相反，我们在真实图像上引入了一种数据扭曲机制，以模拟基于检索的引导的质量。在训练过程中，扭曲的真实图像也被用作基于检索的引导的替代品，使得利用感知监督来改善模型训练和视觉质量成为可能。在几个具有挑战性的数据集上的实验证明，我们的RESAIL相对于最先进的方法表现出优势。0本文的贡献总结如下：0•通过利用基于检索的引导作为像素级细粒度调制的检索合成模型，即Retrieval-based Spatially Adaptive Normalization(RESAIL)，提出了一种新颖的基于检索的合成模型，用于语义图像合成。0•在训练过程中，引入了对真实图像的数据扭曲机制，以促进模型训练并提高合成结果的视觉质量。0•大量实验证明了我们提出的方法在从给定的语义地图中合成逼真图像方面的有效性。02. 相关工作 2.1. 语义图像合成许多方法已经被提出来解决语义图像合成的问题。在这里，我们关注基于GAN的方法，并列出其他相关方法[3, 17,23]。Pix2pix[12]提出了一个用于图像到图像转换的通用框架，而Pix2pixHD[28]则改进了它以生成高分辨率图像。在这些方法中，语义地图仅被用作网络的输入。SPADE[22]利用语义地图来预测调制归一化层中的激活的转换参数。辅助引导（例如，样式图[34]或3D噪声图[24]）与语义地图结合，用于多样化合成和更容易的控制（归一化层的细节在第2.2节中进行了调查）。CC-FPSE [19]和SC-GAN[29]不是直接将语义地图注入到网络中，而是利用语义地图来预测外部参数（卷积核[19]或语义向量[29]），然后另一个网络使用这些参数来引导图像合成。在语义图像合成中，还探索了精心设计的网络。SPADE[22]采用了由几个残差块和上采样层组成的生成器和PatchGAN鉴别器。LGGAN[26]探索了局部上下文信息，并在生成器中引入了一个局部路径来合成细节。CC-PFSE [19]和SC-GAN[29]采用了两个生成器用于粗糙和精细图像合成。除了生成器，CC-FPSE[19]还提出了一个用于语义对齐图像合成的特征金字塔鉴别器。SESAME [21]和OSAIS[24]通过与语义相关的机制改进了PatchGAN鉴别器。此外，CollogeGAN [18]使用StyleGAN[15]作为生成器，以提高视觉质量，并使用类特定模型探索局部上下文。在这些方法中，CC-FPSE和SC-GAN首先合成粗糙图像，并使用它来引导细粒度图像合成。而我们的方法直接使用基于检索的引导来促进对激活的像素级细粒度调制。~112260EALeBlk0上采样0RESAIL0下采样: 加权求和0: 逐元素相加0: 逐元素相乘0: 3×3卷积0: 1×1卷积0: 批量归一化0βs γs βr r γ0(a) 基于检索的引导0(b) 生成器网络 (c) RESAIL ResBlk0合成0图像0床0镜像0实例0地板0墙0背景片段0语义图检索到段训0分解的掩码0卷积0语义图引导0↓0↓0↓0: AdaIN0语义图引导0M0: ReLU0图2. 我们方法的示意图。 (a)给定语义图M，我们首先根据M的每个语义区域从训练数据集中检索一组片段，并将它们组合成基于检索的引导Ir。它为语义图像合成提供了像素级细粒度的引导。(b) 我们生成器的架构。它以语义图和引导作为输入，并由几个RESAIL ResBlock和上采样层组成。(c) RESAILResBlock在(b)中使用的详细架构。它从语义图和引导中学习像素级细粒度的调制参数，用于调制归一化的激活。02.2. 条件归一化0条件归一化[6, 10, 22,34]在条件图像合成中得到了广泛研究。与早期的归一化技术不同，条件归一化层需要外部数据来学习仿射变换参数，然后用于调制归一化的激活。例如，条件实例归一化（CIN）[6]将实例归一化（IN）的γ和β参数从长度为C的向量修改为N×C的矩阵，并使用外部样式s来索引γ和β的行。AdaIN[10]学习了一个将给定样式向量映射到IN的γ和β参数的神经网络。CIN和AdaIN在空间坐标上均匀执行，这对于空间变化的合成任务（如语义图像合成）可能不利。相反，SPADE[22]提出在语义类别级别学习空间变化的仿射变换。SEAN[34]通过样式图扩展了SPADE，样式图由每个区域的样式向量组成，并在区域级别上从语义图和样式图中学习变换参数。OASIS[24]引入了一个与语义图连接的3D噪声来执行空间变量归一化，但是3D噪声对于合成的语义信息提供有限。0sis. CLADE[25]为每个语义类别学习了一个参数库，用于生成调制参数，但仍限于粗级引导。相比之下，我们的RESAIL模块利用检索结果为语义图像合成引入了像素级细粒度的引导。2.3. 基于检索的图像合成0在早期的研究中，许多基于检索的方法[4, 7,011, 14,16]已经被提出用于条件图像合成。例如，Hays等人[7]使用图像集合作为图像补全的检索数据库。在测试阶段，通过描述符匹配检索相似图像，并用于完成缺失的区域。Lalonde等人[16]从大型图像数据库中检索对象片段，然后将它们交互地合成到一张图像中。Chen等人[4]开发了一个系统，通过自由手绘的草图和相关的文本标签检索和合成图像。Isola和Liu[11]提出了一种通过合成分析的方法，根据给定的查询图像检索片段，并将这些片段组合成形成“场景拼贴”的图像。最近，SIMS[23]利用深度网络提高了合成结果的质量。然而，它只是将检索到的图像作为网络输入，未能利用条件图像合成方面的进展。(1)γ = αγγs + (1 − αγ) γr,β = αββs + (1 − αβ) βr,(2)RESAIL(h, M, Ir) = γc,y,xhn,c,y,x − µcσc+ βc,y,x ,(3)112270真实标准图像解0分辨率0形状0颜色0扭曲的扭曲的真实标准图像失真0图3.对真实标准图像I_gt进行数据失真的示意图。具体而言，首先根据语义地图将I_gt分解为多个片段。然后通过修改形状、颜色和分辨率分别扭曲每个片段。最后，将扭曲的片段组合成扭曲的真实标准图像˜I_gt。与此相反，我们的方法使用基于检索的引导进行空间自适应归一化，有助于合成逼真的图像。03. 提出的方法0给定语义地图M∈{0,1}H×W×C，语义图像合成旨在生成相应的图像ˆI∈RH×W×3。这里H、W和C分别表示语义地图的高度、宽度和类别数。在本节中，我们首先提出了一种检索范式，以生成基于检索的引导I_r（第3.1节）。我们还引入了扭曲的真实标准作为基于检索的引导的替代方案，并引入感知监督以促进模型训练（第3.2节）。在引导的基础上，我们提出了一种基于检索的空间自适应归一化（RESAIL）方法，对激活进行像素级细粒度调制（第3.3节）。最后，我们引入了几个损失项来训练模型生成逼真的图像（第3.4节）。3.1. 基于检索的引导0给定语义地图M，我们首先提出了一种检索范式，从训练数据集中获取基于检索的引导，该数据集包含像素级细粒度信息。如图2（a）所示，语义地图M可以分解为多个对象分割掩码M = {(M_s_i,y_c_i)}，其中M_s_i表示一个对象的裁剪二进制分割掩码，y_c_i是相应的类别。类似地，训练图像也可以根据语义地图分解为片段图像。我们将这些片段定义为检索单元。在训练或测试阶段，通过以下方式获得基于检索的引导：0I_r = Θ{Γ(D_tr, M_s_i, y_c_i) | (M_s_i, y_c_i)∈ M}0其中Γ(D_tr, M_s_i,y_c_i)表示在训练数据集D_tr上定义的检索函数。它找到一个具有类别y_c_i和与M_s_i最相似形状的片段图像。当训练数据集中没有匹配的片段图像时，我们用黑色图像替代。Θ(∙)函数将检索到的片段重新组合形成引导图像。请注意，在训练阶段，我们忽略与M对应的原始片段图像，并根据几何一致性得分[27]检索其他最兼容的片段图像。更多细节请参见补充材料。03.2. 扭曲的真实标准作为引导0检索式引导图像I_r缺乏配对的真实标准，因此在训练过程中无法利用感知监督。直观上，真实标准图像可以同时用作引导和真实标准，从而产生配对的训练数据。然而，真实标准图像与真实的检索式引导图像相差很大（例如，检索式引导图像通常会出现颜色、形状和分辨率失真，如图2（a）所示）。因此，在训练中直接使用真实标准作为引导对于学习适用于检索式引导的生成器几乎没有好处。相反，我们引入了一种对真实标准图像进行数据失真的机制，以模拟检索式引导的质量。如图3所示，首先将真实标准图像分解成一组单独的片段。然后，通过分别改变形状、颜色和分辨率来扭曲这些片段。最后，将扭曲的片段图像重新组合成扭曲的真实标准˜I_gt，这可以作为检索式引导的替代品。由于扭曲的真实标准具有真实的配对图像（即原始真实标准），我们可以在合成结果上引入感知监督，以促进模型训练并提高视觉质量。03.3. 网络架构0基于检索的空间自适应归一化。根据引导图像 I r (或 ˜ I gt )和语义地图 M，我们提出了一种基于检索的空间自适应归一化(RE-SAIL)，对特征激活进行像素级细粒度调制。具体而言，我们采用具有空间自适应调制的条件归一化架构。由于引导图像包含有关对象类别的像素级信息，我们首先使用它通过一个四层卷积网络学习细粒度调制参数 (即 γ r用于缩放和 β r用于偏置)。由于基于检索的引导图像中存在一些缺失的语义区域（没有匹配的分割图像或形状间隙），卷积层中使用 3× 3的卷积核来完成缺失区域的信息。此外，我们在中间两层中使用与语义地图结合的 AdaIN进一步丰富缺失区域的语义信息。详细结构如图 2 (c)所示。与 [ 22 , 34 ]类似，我们还从语义地图中学习粗调制参数 (即 γ s 和 β s)。两组参数加权求和得到最终的像素级细粒度调制参数，0其中，α γ 和 α β是可学习的权重参数，输入激活最终通过调制，GTSPADECC-FPSEOASISOurs(a) Qualitative comparison on Cityscapes.GTSPADECC-FPSEOASISOursSemantic Mapmparison on ADE20K (top two rows) and COCO-Stuff (bottom two rows).ˆI = G(M, Ir),ˆIgt = G(M, ˜Igt).(4)Lcls = −EM�cαc�i,jMi,j,c log S(ˆI)i,j,c,(5)112280GT SPADE CC-FPSE OASIS 我们的0(a) 在 Cityscapes 上进行定性比较。GT SPADE CC-FPSE OASIS 我们的语义地图0(b) 在 ADE20K（前两行）和 COCO-Stuff（后两行）上进行定性比较。0图 4. 我们的方法与竞争方法在 (a) Cityscapes、(b) ADE20K 和 COCO-Stuff数据集上的定性比较。我们的模型生成的图像具有更好的感知质量和更细致的细节。0其中，h 表示具有 N 个样本的输入激活，µ 和 σ表示激活的均值和标准差。 ( n ∈ N, c ∈ C, y ∈ H, x ∈ W) 表示调制激活值的位置。关于 RE-SAIL模块的更多细节，请参见补充材料。生成器的架构如图 2(b) 所示，它是基于 SPADE [ 22 ] 生成器构建的。与 [ 22 ]类似，我们采用了一个由多个 RESAIL 残差块 (RESAILResBlk) 和上采样层组成的生成器。语义地图 M 和引导图像(I r 或 ˜ I gt ) 被调整大小并馈送到每个 RESAIL模块以指导图像合成，03.4. 损失函数如上所述，我们首先引入感知损失 L vgg [ 28] 和特征匹配损失 L F M [ 28 ]，用于 I gt 和合成图像ˆ I gt之间的模型训练。为了鼓励生成器合成逼真的图像，我们还引入了对合成图像（ˆ I 和ˆ I gt ）的对抗损失 [ 21]。此外，为了强调每个语义区域的合成，我们在模型训练中加入了分割损失。具体来说，我们0引入一个预训练的分割网络 S来对生成的图像上的每个条目的类别进行分类，0其中，α c 表示类别平衡权重 [ 24 ]，S在训练数据集上进行了预训练。L cls 在ˆ I 和ˆ I gt上都被引入。最后，我们将所有上述损失组合起来得到总体学习目标，0L = λvggLvgg + λfmLfm + λadvLadv + λclsLcls，(6)0其中λ�表示不同损失的权衡参数。04. 实验04.1. 实验设置数据集。我们在四个常用数据集Cityscapes[5]，ADE20K [33]，ADE20K-outdoor和COCO-Stuff[1]上评估我们的模型。Cityscapes的训练集包含3,000张图像，包括35个语义类别，验证集包含500张图像。ADE20K数据集包含超过20,000张训练图像和2,000张验证图像，共有150个语义类别。ADE20K-outdoor数据集是ADE20K的一个子集。Global (the whole scene)Local (bed)Local (windowpane)Local (water)(c) SPADE+(e) SEAN+(f) Ours(b) SPADE(a) Semantic map112290全局（整个场景）局部（床）局部（窗户）局部（水）0图5.我们方法的多模态合成能力。每一列代表使用给定语义地图（顶行）合成的结果。在测试过程中，我们检索一组不同的引导图像，得到多样化的合成图像（即左2列）。我们还可以固定大多数语义区域，并更改某些对象的检索片段，以实现局部编辑结果（即右3列）。用于图像合成的基于检索的引导图像在红色矩形中给出。0(c) SPADE+0(e) SEAN+ (f) 我们的方法0(b) SPADE0(d) Pix2pixHD+0(a) 语义地图0图6.对RESAIL模块的消融研究。Model+表示将基于检索的引导引入模型（详见第4.4节和补充材料）。通过提出的RESAIL模块和基于检索的引导，我们的方法产生了更多逼真的细节（红色圈）。放大以获得更好的视图。0仅包含室外场景。COCO-Stuff包含118,000张训练图像和5,000张验证图像。0评估指标。采用像素准确率（AC）和平均交并比（mIOU），它们衡量合成图像与给定输入之间的一致性[3, 21,22]。它们都需要预训练的分割模型来计算分割准确性[2,30, 31]。我们还利用Frechet InceptionDistance（FID）[8]评估合成图像的质量。0实现细节。我们在四个Tesla v100GPU上训练我们的模型，并采用ADAM优化器，其中β1=0，β2=0.999，学习率分别设置为0.0001（生成器）和0.0004（判别器）。此外，我们0对生成器和判别器的每一层应用谱归一化[20]，并在RESAIL块中使用同步批归一化[32]。4.2.定性结果我们首先在Cityscapes、ADE20K和COCO-Stuff数据集上与最先进的方法[19, 22,24]进行定性比较，结果如图4所示。对于SPADE[22]和CC-FPSE[19]，可以观察到一些物体的合成结果退化，如汽车和床。虽然OASIS[24]引入了语义判别器来改善合成图像的视觉质量，但仍然存在无法避免的不真实细节和明显的伪影。相比之下，受益于检索IOU (↑)(b) distorted 𝐼�, w/o GT(a) original 𝐼�, w/o GT(e) original 𝐼�, distorted GT(d) original 𝐼�, original GT(c) w/o 𝐼�, distorted GT87.880.285.416.8112300表1. ADE20K [33]，ADE20K-outdoor，Cityscapes [5]和COCO-Stuff[1]的定量比较。对于AC和mIOU，数值越大越好；对于FID，数值越小越好。我们的方法在这四个数据集上取得了非常有竞争力的结果。0方法 ADE20K ADE20K-outdoor Cityscapes COCO-Stuff0CRN [3] 73.3 68.8 22.4 99.0 68.6 16.5 104.7 77.1 52.4 70.4 40.4 23.7 Pix2pixHD [28] 81.8 69.2 20.3 97.8 71.6 17.4 95.0 81.4 58.3 111.5 45.7 14.6SIMS [23] n/a n/a n/a 67.7 74.7 13.1 49.7 75.5 47.2 n/a n/a n/a SPADE [22] 33.9 79.9 38.5 63.3 82.9 30.8 71.8 81.9 62.3 22.6 67.9 37.4 CC-FPSE [19]31.7 82.9 43.7 n/a n/a n/a 54.3 82.3 65.5 19.2 70.7 41.6 SESAME [21] 31.9 85.5 49.0 n/a n/a n/a 54.2 82.5 66.0 n/a n/a n/a SC-GAN [29] 29.3 83.845.2 n/a n/a n/a 49.5 82.5 66.9 18.1 72.0 42.0 OASIS [24] 28.3 n/a 48.8 48.6 n/a 40.4 47.7 n/a 69.3 17.0 n/a 44.1 Ours 30.2 84.8 49.3 48.6 86.5 41.145.5 83.2 69.7 18.3 73.1 44.70图7.数据扭曲方法的消融研究。(a)(b)仅在训练中使用基于检索的引导Ir时，生成器无法合成红色矩形中标记的某些对象细节；(c)合成图像也缺乏细节，仅有扭曲的GT的引导。(d)同时使用Ir和原始GT作为引导，仍然可以观察到不一致的边缘和光照。(e)同时使用Ir0并且通过扭曲的GT˜Igt作为引导，我们的模型合成了具有细节的逼真图像。请放大以获得更好的视图。0基于引导，我们的模型生成了更逼真的图像，具有更好的细节，如边缘、纹理、颜色，并且减少了伪影。此外，我们分别为每个语义区域检索分割图像，这使得我们可以全局或局部地编辑合成图像。如图5所示，给定相同的语义图，我们可以通过更改整个图像的所有检索段来实现全局多样的合成结果（左两列）。此外，我们还可以固定大多数语义区域，并更改剩余对象的检索段来局部编辑结果（右三列）。更多的定性结果请参见补充材料。04.3. 定量结果我们进一步与其他方法[3, 19, 21-24, 28,29]在四个数据集上进行定量比较，表1列出了结果。从表中可以看出，我们的方法在Cityscapes[5]和ADE20K-outdoor数据集上表现优异，并且在ADE20K[33]和COCO-Stuff[1]数据集上也具有很强的竞争力，证明了我们方法的有效性。需要注意的是，SIMS[23]也使用了检索图像来引导语义图像合成，但是与我们的方法相比较差，部分原因是在空间自适应归一化中使用检索引导比使用其作为网络输入更加有效。用户研究。我们遵循之前的工作[21, 22, 29]，我们0表2.Cityscapes上的用户研究。数字表示志愿者更喜欢我们方法的结果，而不是其他竞争方法甚至是真实数据。0我们与SPADE、CC-FPSE、OASIS和GT进行比较0在Cityscapes数据集上进行用户研究。已告知参与者不会记录其身份。每个志愿者被给予一个语义图和两个相应的图像，其中一个是我们方法生成的，另一个是随机选择的竞争方法（例如SPADE [22]，CC-FPSE [19]，OASIS[24]或甚至是真实图像），并被要求投票选择视觉质量更好的图像。为了避免潜在偏见的影响，两个图像的顺序是随机的。共有200名志愿者回答了2,000个问题，表2列出了结果。志愿者强烈支持（超过80%）我们的结果，与竞争方法相比。与真实图像相比，我们的结果仍然有约17%的机会被认为是更好的，进一步表明我们的方法能够生成逼真的图像。04.4. 消融研究0我们在Cityscapes上进行了消融研究，以评估RESAIL模块和数据扭曲机制的效果。RESAIL模块的有效性。为了证明我们的RESAIL模块的有效性，我们与112310表3.RESAIL模块的消融研究。Model+表示将基于检索的引导作为给定模块的输入。通过提出的RESAIL模块和基于检索的引导，我们的方法在定量性能上取得了更好的表现。0变体引导注入 FID (↓) mIOU (↑) AC (↑)0SPADE无引导 58.7 62.2 81.9 Pix2pixHD+卷积层 47.8 66.7 81.9SPADE+ SPADE模块 53.4 68.6 82.8 SEAN+ SEAN模块 66.6 69.482.1 Ours RESAIL模块 45.5 69.7 83.20表4.数据扭曲机制对真实标签引导的影响。在所有变体中，同时使用Ir和扭曲的真实标签˜I gt作为引导可以获得更好的性能。0真实标签 FID (↓) mIOU (↑) AC (↑)0原始无扭曲 47.7 66.3 82.5 扭曲无原始 48.8 65.3 82.6无扭曲 49.0 64.9 82.1 原始原始 52.8 64.0 81.2 原始扭曲45.5 69.7 83.20有4个变体的方法，这些变体在是否使用基于检索的引导以及如何使用它方面有所不同：(i)SPADE表示原始的没有利用引导的SPADE模块。(ii)Pix2pixHD+表示将引导连接到pix2pixHD模型的卷积层中。(iii)SPADE+表示将引导作为输入传递给SPADE模块。(iv)SEAN+表示将引导作为输入传递给SEAN模块。(v)Ours表示将引导作为输入传递给RESAIL模块。有关每个变体架构的更多详细信息，请参见补充材料。为了公平比较，我们对所有变体使用相同的主干，并只更改归一化层。因此，对于Pix2pixHD+，我们使用解码器部分作为生成器。表3列出了各个变体之间的定量比较。从表中可以看出，直接将引导融入到SPADE或卷积层中可以提高性能，表明基于检索的引导对图像合成是有益的。至于SEAN，由于样式映射在GPU内存消耗方面较大，我们将样式向量的维度减小到128进行实验，这可能会导致潜在的性能下降，但不会影响公平比较。通过RESAIL模块，我们的方法实现了最佳性能，明确证明了我们的RESAIL模块的有效性。如图6所示，在没有像素级引导信息的情况下，SPADE和SEAN+生成模糊的细节。与Pix2pixHD+相比，我们的RESAIL生成了更具照片逼真度的结果，具有更精细的细节和一致的光照。结果表明，空间自适应归一化是比简单地将引导与卷积层特征连接起来更有效地利用基于检索的引导的方法。扭曲的真实标签的有效性。我们还进行了消融研究，评估了数据扭曲机制对真实标签(GT)图像的影响。具体而言，我们0考虑五个变体。(i) 只使用基于检索的引导Ir作为训练过程中的引导。(ii) 只使用扭曲的Ir作为训练过程中的引导。(iii)只使用扭曲的GT作为训练过程中的引导。(iv) Ir和原始GT都可以作为训练过程中的引导。(v)Ours：同时使用I r和扭曲的GT˜Igt作为训练过程中的引导。表4列出了Cityscapes上的定量结果。从表中可以看出，在基于检索的引导上执行数据扭曲对语义图像合成带来了很小的增益，甚至可能产生不利影响。这是因为基于检索的引导已经是扭曲的，进一步扭曲可能使其更不真实，对合成性能没有益处。此外，使用原始GT作为引导不能提高生成图像的质量，因为原始GT和基于检索的引导之间存在明显差距。通过对真实标签进行数据扭曲，我们可以减小它们之间的差距，从而有利于模型训练。图7显示了定性结果。可以看到，在训练过程中同时使用基于检索的引导和扭曲的真实标签作为引导，我们的方法产生了更多照片逼真的细节和一致的颜色。有关分割损失的其他消融研究请参见补充材料，以获取更多详细信息。05. 讨论在本文中，我们提出了一种新颖的特征归一化方法，称为基于检索的自适应空间归一化（RESAIL）。通过检索引导和扭曲的真实数据，模型可以在感知监督下进行训练，并生成多样且逼真的合成图像。实验结果表明，我们的方法在多个具有挑战性的数据集上在定性和定量方面都表现出色。影响。这项工作提出了一种用于语义图像合成的RESAIL模块。尽管我们尚未在人脸合成任务上进行实验，但它有潜力用于人脸合成和编辑。从这个角度来看，我们的工作可能会被用于触发潜在的负面社会影响的深度伪造技术。限制。尽管我们的方法合成了逼真的图像并超越了现有方法，但推理速度仍然是一个限制。我们方法中的检索操作耗时，无法进行实时推理。将来，我们将探索加速或避免检索过程的可行方法。0致谢本工作部分得到了中国国家重点研发计划（编号：2020AAA0104500）和国家自然科学基金（编号：U19A2073和62006064）的支持。112320参考文献0[1] Holger Caesar，Jasper Uijlings和Vittorio Ferrari。Coco-stuff：上下文中的物体和物品类别。在《计算机视觉和模式识别IEEE会议论文集》中，页码1209-1218，2018年。5，70[2] Liang-Chieh Chen，George Papandreou，IasonasKokkinos，Kevin Murphy和Alan LYuille。Deeplab：具有深度卷积网络，空洞卷积和全连接CRF的语义图像分割。《模式分析与机器智能IEEE交易》，40(4)：834-848，2017年。60[3] Qifeng Chen和VladlenKoltun。具有级联细化网络的摄影图像合成。在《计算机视觉IEEE国际会议论文集》中，页码1511-1520，2017年。2，6，70[4] Tao Chen，Ming-Ming Cheng，Ping Tan，Ariel Shamir和Shi-MinHu。Sketch2photo：互联网图像蒙太奇。《图形学ACM交易》，28(5)：1-10，2009年。1，30[5] Marius Cordts，Mohamed Omran，SebastianRamos，Timo Rehfeld，Markus Enzweiler，RodrigoBenenson，Uwe Franke，Stefan Roth和BerntSchiele。用于语义城市场景理解的Cityscapes数据集。在《计算机视觉和模式识别IEEE会议论文集》中，页码3213-3223，2016年。5，70[6] Vincent Dumoulin，Jonathon Shlens和Manjunath Kud-lur。艺术风格的学习表示。《arXiv预印本arXiv:1610.07629》，2016年。30[7] James Hays和Alexei AEfros。使用数百万张照片完成场景。《图形学ACM交易》，26(3)：4-es，2007年。1，30[8] Martin Heusel，Hubert Ramsauer，ThomasUnterthiner，Bernhard Nessler和SeppHochreiter。通过两个时间尺度更新规则训练的GAN收敛到局部纳什均衡。《神经信息处理系统进展》，30，2017年。60[9] Seunghoon Hong，Xinchen Yan，Thomas SHuang和HonglakLee。通过结构化表示学习分层语义图像处理。《神经信息处理系统进展》，31：2708-2718，2018年。10[10] Xun Huang和SergeBelongie。自适应实例归一化实时任意风格转换。在《计算机视觉国际会议》中，页码1501-1510，2017年。30[11] Phillip Isola和CeLiu。场景拼贴：自然图像的分析和合成。在《计算机视觉IEEE国际会议论文集》中，页码3048-3055，2013年。1，30[12] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，Alexei AEfros。具有条件对抗网络的图像到图像转换。《IEEE计算机视觉和模式识别会议论文集》，2017年，第1125-1134页0[13] Joel Janai，Fatma G¨uney

下载后可阅读完整内容，剩余1页未读，立即下载