语义形状自适应特征调制：用于语义图像合成的细节生成方法

141 浏览量更新于2023-10-25 收藏 14.33MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

112140语义形状自适应特征调制用于语义图像合成0吕正尧 1 , 李晓明 2 , 牛振兴 3 , 曹冰 4 , 左旺盟 2 , 5( � )01 明天推进生活 2 哈尔滨工业大学 3 阿里巴巴集团机器智能实验室 4 天津大学 5鹏城实验室0{ cszy98, hit.xmshr } @gmail.com wmzuo@hit.edu.cn0摘要0近年来，在语义图像合成方面取得了实质性的进展，但在合成具有丰富细节的照片逼真图像方面仍然具有挑战性。大多数先前的方法都专注于利用给定的语义地图，该地图仅捕捉图像的对象级别布局。显然，细粒度的部分级别语义布局将有助于对象细节的生成，并且可以从对象的形状中粗略推断出来。为了利用部分级布局，我们提出了一种形状感知的位置描述符（SPD），用于描述每个像素的位置特征，其中对象形状被明确地编码到SPD特征中。此外，我们提出了一种语义形状自适应特征调制（SAFM）块，用于将给定的语义地图和我们的位置特征相结合，生成自适应调制特征。大量实验证明了所提出的SPD和SAFM在生成具有丰富细节的对象方面的显著改进。此外，我们的方法在定量和定性评估方面表现优于SOTA方法。源代码和模型可在SAFM上获得。01. 引言0语义图像合成是一种有条件的图像生成任务，旨在生成具有给定语义地图的语义对齐和照片逼真的图像。与无条件图像生成相比，它在图像生成方面具有显著的灵活性，因为我们可以通过绘制或编辑输入的语义地图来灵活地控制生成的图像内容。语义图像合成已广泛应用于许多实际场景，例如内容创作和图像编辑[7, 28, 33,42]。最近，生成对抗网络（GAN）[10]被广泛采用来解决这个问题并取得了令人印象深刻的结果。大多数工作尝试对不同语义类别和视觉外观之间的映射进行建模。Park等人[28]提出使用从输入语义布局中学习到的空间自适应变换（SPADE）来调制生成器中的激活。0图1.给定的语义地图只提供了一个对象级别的布局，对于生成具有丰富细节的图像来说太粗糙了。部分级别的语义布局隐含在对象实例的形状/轮廓中。通过将对象形状编码到提出的SPD特征中，我们可以有效地利用这样的部分级布局来生成更好的图像细节。0CC-FPSE[21]随后通过从语义布局中预测空间变化的条件卷积核扩展了SPADE。最近，SC-GAN[36]利用学习到的语义向量来获得与语义风格化相关的空间变体和外观相关的卷积核和归一化参数。语义地图不仅具有语义标签，还具有空间布局。这样的空间布局可以用于规范语义图像合成。通常，一个对象实例由一些对象部分组成，来自同一对象部分的像素应具有相似的外观，而来自不同对象部分的像素则不应该。例如，一个对象“汽车”由“窗户”、“车轮”等组成。因此，“窗户”中的像素应该与“车轮”中的像素看起来不同。相反，来自“窗户”的两个像素应该相互相似。通过利用这样的空间布局，我们可以抑制伪影并生成连贯的图像细节。在先前的方法中，语义布局已被有效地利用来改善图像合成。然而，给定的语义地图仅捕捉图像的对象级别布局，描述了两个像素是否属于同一对象实例。这对于捕捉到图像的细节来说太粗糙了。112150对象实例的细粒度结构。如果我们能够微妙地利用部分级别的语义布局，将有助于生成图像的高频细节。显然，每个对象实例的形状/轮廓可以很容易地从对象级语义布局中识别出来。另一方面，给定一个对象的形状/轮廓（例如，一辆汽车），可以根据对象结构的先验知识粗略推断出其部分级别的布局（例如，“窗户”或“车轮”的位置），如图1所示。因此，对象的形状和其部分级别的布局之间存在着很强的联系，即对象的形状暗示了其部分级别的布局。因此，通过对其形状进行建模，可以隐含地实现对对象的部分级别布局的利用。在本文中，我们提出了一种形状感知位置描述符（SPD），用于描述每个像素的位置特征。我们的SPD描述了对象实例内的每个像素与其轮廓上的像素之间的相对关系（距离和角度），如图2（a）所示。因此，对象形状的信息已经编码到每个像素的SPD特征中。换句话说，对象的部分级别布局的线索已经隐含地编码到SPD特征中。接下来，我们设计了语义形状自适应特征调制（SAFM）块，将给定的语义地图和我们的SPD特征结合在一起，并自适应地调制输入特征。具体而言，我们的SAFM块首先有条件地生成语义特定的卷积核，然后对SPD特征进行语义特定的卷积。最后，SAFM块接受输入特征图，自适应地调制它们，并将它们转发到下一个块，如图2（b）所示。需要注意的是，我们的SPD受到形状上下文描述符[2]的启发，该描述符仅描述形状轮廓上的像素之间的关系，但我们的SPD描述了对象内部像素与轮廓上的像素之间的关系。我们的主要贡献可以总结如下：0•我们提出了一种形状感知位置描述符（SPD），用于描述像素的位置特征，可以利用和利用对象的部分级别布局。0•我们设计了一个语义形状自适应特征调制（SAFM）块，将语义地图和SPD特征结合起来产生自适应调制的特征图。0•实验结果表明，我们的方法在Cityscapes、COCO-stuff和ADE20K数据集上对抗SOTA方法表现良好，并且能够生成更具照片般逼真的结果和丰富的细节。02. 相关工作02.1. 语义图像合成0生成对抗网络（GANs）[10]在无条件图像生成相关任务上取得了令人印象深刻的结果[4,13, 14]。随后，通过引入0外部信息，如类别标签[22, 26, 27]、自然语言描述[17, 18,40]或语义地图[28,35]，提出了许多种类的条件GANs来改善图像生成的可控性。语义图像合成是一项以语义分割地图作为输入的任务，该地图提供了像素级别的类别标签。Pix2Pix [12]首次提出使用编码器-解码器生成器和PatchGAN鉴别器进行语义图像生成。Pix2PixHD [35]通过采用粗到细的生成器和多尺度鉴别器，在高分辨率空间生成生动的细节。特别地，Pix2PixHD引入了实例级边界图作为额外输入，以分离不同的实例以获得更锐利的边界。此外，利用全景感知卷积和上采样层[9]来区分遮挡的实例。0最近，大多数工作都集中在如何充分利用给定的语义布局上。SPADE [28]提出使用从语义布局中学习到的空间自适应变换来调节激活。CC-FPSE [21]学习根据给定的语义布局预测条件卷积核。此外，还使用了特征金字塔语义嵌入鉴别器，使生成器能够合成具有高质量细节的语义对齐图像。类似地，Ntavelis等人 [25]提出使用语义特征来指导鉴别器的得分的双流鉴别器。LGGAN [33]提出了一种局部类别特定和全局图像级生成对抗网络，分别学习全局外观分布和不同对象类别的生成。EdgeGAN [32]通过从语义布局生成边缘，为图像合成引入了详细的结构信息。最近，SCGAN [36]学习了语义向量来参数化空间条件卷积和归一化。此外，OASIS [31]使用基于分割的网络重新设计了鉴别器，以合成具有更高保真度的语义对齐图像。除了这些基于GAN的方法，CRN [7]采用级联细化网络进行语义图像合成。Qi等人 [29]提出了一种半参数方法，该方法检索兼容的片段并将它们组合起来以辅助语义图像合成。0大多数方法只利用对象级别的语义布局，这些布局对于捕捉对象实例的部分级别结构来说太粗糙了。尽管部分级别的布局是未知的，但可以从对象的形状中粗略推断出来。在我们的工作中，通过将对象的形状编码到我们的SPD描述符中，可以有效地利用这些部分级别的布局。02.2. 形状上下文描述符0形状上下文描述符最初由Belongie等人[2]提出，用于类别级别的形状匹配和对象识别。通过计算其他形状点的相对位置分布的直方图，可以获得富含全局形状点信息的局部描述符。之后，Thayananthan等人[34]提出了一种有效的动态规划方案，用于约束形状上下文匹配的图形连续性。Ling等人[20]采用内部距离而不是欧氏距离来衡量形状点之间的空间关系，可以更好地捕捉具有关节的复杂形状的结构。形状上下文描述符可以提供足够的信息，捕捉整个实例内的相对位置，超越了点本身。由于在减少类别匹配中的歧义方面具有鲁棒性和区分性，这些类型的描述符已被广泛应用于不同的对象识别问题[3,24]，但在语义图像合成任务中很少被利用。在这项工作中，我们将形状上下文描述符[2]扩展到表征对象实例内每个点的位置，明确利用和利用对象的形状。local descriptor that implies the global shape points canbe obtained for each point.After that, Thayananthan etal. [34] propose an efficient dynamic programming schemeto constrain the figural continuity of shape context match-ing. Instead of Euclidean distance, Ling et al. [20] adoptinner-distance to measure the spatial relation between shapepoints, which can better capture the structure of complexshapes with articulations.The shape context descriptor can bring sufficient infor-mation that captures the relative locations within the wholeinstance beyond the point itself. Due to the robustness anddiscrimination in reducing the ambiguity in class matching,these types of descriptors have been widely employed fordifferent object recognition problems [3,24], but are seldomexploited in semantic image synthesis tasks. In this work,we extend the shape context descriptor [2] to characterizethe position of each point inside an object instance, whereobject shapes are explicitly exploited and leveraged.112160图2. 我们提出的方法概述。（a）显示了车辆实例中某个点（用蓝色▲表示）的SPD特征的计算过程。在计算实例内的所有点之后，我们得到一个SPD图，如（a）（右）所示。（b）说明了我们的生成器网络的架构，其中SAFM主要由条件卷积构成。03. 方法0给定一个语义布局 S ∈ R H × W × C，其中 C是类别标签，我们的目标是合成逼真的照片图像0I s ∈ R H × W × 3，它与 S语义对齐。根据[35]，我们采用实例级别的分割图作为补充输入来获取每个实例区域。接下来，我们首先介绍形状感知位置描述符（SPD），其中利用和利用了对象的形状。然后，我们设计了语义-形状自适应特征调制（SAFM）块，将语义图和SPD特征组合起来，自适应调制输入特征图。03.1. 形状感知位置描述符0对象实例的形状暗示了其部分级别的布局，如图1所示。在我们的方法中，我们提出了形状感知位置描述符（SPD）来描述每个像素的位置特征，其中明确考虑了对象的形状。通过这种方式，可以有效地利用和利用对象部分级别布局的线索。为了平衡描述符的计算成本和鲁棒性，我们只使用对象实例的轮廓点集来描述其形状信息，而不是使用分割区域内的所有点。SPD的计算过程如图2（a）所示。Bi,j = (r, θ) ri−1 <= r < ri, θj−1 <= θ < θj .(1)Hi,j =p pP ′, pBi,j,(2)ˆvo =112170我们提出的SPD的计算过程。以语义图中的后视车为例，我们可以根据其分割图轻松获得其轮廓形状 T ∈ {0, 1} H ×W，其中轮廓上的点由标签1表示，其余点设置为0。此外，车辆的轮廓形状可以离散地表示为点集 P = {(x, y) | T(x, y)= 1}。对于实例内的任意点 o = (x o , y o)，我们通过以下步骤计算其位置描述符。首先，我们以点 o为极点构建一个极坐标空间。然后，我们将该坐标划分为 m× n 个区间 B，其中 m 是极径间隔数，n是极角间隔数（在本工作中，m = 12，n = 6）。每个区间B i,j 应满足以下条件：0为了使描述符对相对较远的点更敏感，我们在对数极坐标空间中使用均匀的bin。然后，相对于极点o，轮廓点集P中每个点的距离和角度分布可以表示为P' = {(ri, θi) | |P| i =1}。最后，我们计算落在每个binBi,j中的轮廓点集P'中的点的数量，表示为Hi,j：0其中|∙|表示量化操作。通过将所有m×n个bin中的轮廓点数目进行积分并展平，我们可以得到一个关于点o的向量vo∈Rm×n，它存储了轮廓点分布。通过归一化，可以得到点o的最终SPDˆvo：0|P'|. (3)0在计算每个实例内所有点的描述符之后，我们可以得到一个明确表示每个点详细位置的SPD图。关于SPD的讨论。例如，图3（a）中有三辆后视汽车，它们具有相似的形状轮廓但不同的空间位置和尺度。直观地说，同一对象部分上的对应点应具有一致的SPD特征。相反，来自不同对象部分的点应具有不同的SPD特征。以左轮上的点为例（用蓝色▲表示），两个点的SPD如图3（b）和（c）所示。另一个例子是汽车中心的点（用蓝色�表示），它们的SPD特征如图3（d）和（e）所示。我们可以观察到：（i）对于不同实例的相应位置，它们的SPD特征看起来相似（b与c，d与e）。（ii）对于同一实例的不同位置，它们的SPD特征之间存在明显的差异（c与d）。（iii）即使实例的绝对位置或尺度发生变化，我们仍然可以获得相似的SPD特征，这表明我们的SPD仅依赖于对象形状（d与e）。换句话说，对象形状是0图3.车辆实例的SPD特征可视化。图（a）中有三辆不同的后视汽车，形状相似。图（b-e）显示了（a）中蓝色▲和�点的描述符。图（f）展示了经过t-SNE压缩为1D的描述符。0鲁棒性和可区分性编码到我们的SPD特征中。0此外，我们还联合考虑了对象实例内所有像素的SPD特征。具体而言，我们使用t-SNE将每个像素的SPD特征压缩为一个标量，从而获得与对象实例内所有像素对应的紧凑2D地图，如（f）所示。我们可以看到，所有三辆汽车在紧凑的2D地图中共享相似的模式。更重要的是，对于每个实例，紧凑的2D地图可以很好地描述汽车的部分级布局。因此，我们声称我们的SPD特征可以隐含地利用对象的部分级布局。03.2. 语义-形状自适应特征调制0还需要注意的是，不同类别的对象实例可能具有相似的形状。例如，图4（a）中显示的绘画和洗衣机都是矩形的，它们的SPD特征模式非常相似（紧凑的2D地图），但它们的外观和结构是不同的，这会混淆图像合成。为了解决这个问题，我们设计了语义-形状自适应特征调制（SAFM）块（图2（b）），它将语义信息和我们的SPD特征相结合，相互补偿。例如，提出的SPD特征可以为语义布局提供关于点位置的更详细描述，而语义布局可以为SPD特征提供补充的语义信息。然后，SAFM为不同类别的不同位置产生语义-形状自适应调制参数，以微妙地引导语义图像合成。在SAFM块中，首先将语义布局和SPD特征缩放到相同的大小。然后，将语义布局输入两个卷积层，预测两组与空间位置的类别标签变化相关的语义自适应3×3卷积核。之后，通过深度卷积层，提取语义信息nKCHW(8)112180图4.（a）绘画和洗衣机实例的外观，（b）形状和（c）紧凑的2D地图。0图5.使用SAFM块前后绘画和洗衣机的SPD点分布（通过t-SNE映射）。0每个空间位置都融合到相应的SPD特征位置。最后，它产生了与融合特征相对应的语义形状自适应调制参数，用于特征调制。通过SAFM块，语义信息和空间位置信息可以集成在一起。图5显示了没有和有SAFM块的SPD特征的分布。请注意，浅绿色点代表洗衣机，橙色点代表绘画。可以看出，通过引入SAFM块，洗衣机和绘画点趋向于更好地分离，这表明SAFM块在将SPD特征和语义特征结合起来方面的有效性。3.3.学习目标0在我们的方法中，我们采用对抗性损失Ladv，特征匹配损失Lfm和感知损失Lperc来实现生成的高保真度和真实性。此外，建议使用预训练的分割模型的Lseg来约束语义对齐。对抗性损失。对抗性学习可以有效地使生成的图像保持在真实图像流形上，并且已广泛应用于许多图像生成任务[4，13，22]。在这项工作中，我们采用基于铰链的对抗性损失[19，23，39]，生成器G和鉴别器D的优化可以表示为：0LDad0-E(z, S)[min(0, -1 - D(G(z, S), S))], (4)0LGadv = -E(z, S)D(G(z, S), S), (5)0其中I是真实图像，S是相应的语义布局，z是输入生成器的噪声图。0特征匹配损失。根据[35]，我们采用特征匹配损失Lfm来增强训练过程的监督，该损失将合成图像的特征约束为在鉴别器D的不同特征空间中与真实图像接近。可以定义为：0Lfm =0i = 101/Ni ||Di(I, S) - Di(G(z, S), S)||1, (6)0其中Ni是特征Di(I,S)中的元素数量。感知损失。我们采用预训练的VGG19模型Φ[30]分别从真实图像I和生成的图像ˆI中提取特征。感知损失Lperc在多尺度特征空间中计算，并且可以表示为：0Lperc =0k = 1 ||Φk(ˆI) - Φk(I)||1, (7)0其中ϕk表示从VGG19模型Φ提取的第k个特征图。在我们的实现中，我们设置K =5。语义对齐损失。为了明确约束生成图像与给定语义布局之间的语义一致性，我们进一步引入语义对齐损失Lseg来优化学习过程：0Lseg = -0i = 1 wi0j = 10k = 1 Si,j,k [log Seg(I)i,j,k + logSeg(ˆI)i,j,k],0wi = H × W � Hj=1 � Wk=1 Si,j,k, (9)0其中Seg是预训练的分割模型[1]。总体学习目标可以总结为：0L = λadvLGadv + λfmLfm + λpercLperc + λsegLseg, (10)0其中λadv，λfm，λperc和λseg是权衡参数。04.实验0通过大量实验评估了我们提出的SPD特征和SAFM块的有效性。我们与竞争方法（包括CRN [7]，SIMS[29]，Pix2PixHD [35]，SPADE [28]，CC-FPSE[21]，OASIS [31]，LGGAN [33]和SC-GAN[36]）进行了定量和定性结果的比较。此外，还进行了消融实验，以探索我们的方法的每个组成部分对结果的贡献。04.1. 数据集和实验细节0数据集。我们的实验在三个具有挑战性的数据集上进行，即Cityscapes [8]、ADE20K [41]和COCO-Stuff[5]。Cityscapes数据集包含城市街道场景的图像，其中有3,000张用于训练和500张用于验证。ADE20K数据集有20,210张用于训练和2,000张用于验证，每张图像有150个语义类别，涵盖室内和室外场景。类似地，COCO-Stuff包含182个类别。112190Cityscapes ADE20K COCO-Stuff 方法 mIoU ↑ Acc ↑ FID ↓ mIoU ↑ Acc ↑ FID ↓ mIoU ↑ Acc ↑ FID ↓0CRN [7] 52.4 77.1 104.7 22.4 68.8 73.3 23.7 40.4 70.4 SIMS [29] 47.2 75.5 49.7 N/A N/A N/A N/A N/A N/Apix2pixHD [35] 58.3 81.4 95.0 20.3 69.2 81.8 14.6 45.7 111.5 SPADE [28] 62.3 81.9 71.8 38.5 79.9 33.9 37.467.9 22.6 CC-FPSE [21] 65.6 82.3 54.3 43.7 82.9 31.7 41.6 70.7 19.2 LGGAN [33] 68.4 83.0 57.7 41.6 81.8N/A N/A N/A N/A OASIS [31] 69.3 N/A 47.7 48.3 N/A 28.3 44.1 N/A 17.0 SC-GAN [36] 66.9 82.5 49.5 45.283.8 29.3 42.0 72.0 18.1 Ours 70.4 83.1 49.5 50.1 86.6 32.8 43.3 73.4 24.60表1. 在不同数据集上与竞争方法的定量比较。↑（↓）表示越高（越低）越好。0覆盖不同场景，并提供了118,000张图像用于训练和5,000张用于验证。ADE20K和COCO-Stuff中的真实图像及其对应的语义布局被调整大小和裁剪为256×256，而Cityscapes中的图像被处理为256×512。实验细节。我们采用SPADE[28]的生成器和SESAME[25]的鉴别器作为基线模型。与SPADE一样，我们的模型的所有卷积层都采用了谱归一化[23]。我们采用ADAM[15]优化器，β1=0，β2=0.999，学习率分别设置为1×10-4和4×10-4用于生成器和鉴别器。我们的模型在ADE20K和Cityscapes上训练了200个epoch，在COCO-Stuff上训练了100个epoch。权衡参数λadv、λfm、λperc和λseg分别设置为1、10、10和1。实验在一台配备了4个2080TiGPU的服务器上进行。评估指标。根据以前的语义合成工作[21, 28]，我们使用三个指标来定量评估性能，即Fr´echetInception Distance (FID)[11]，平均交并比(mIoU)和像素准确率(Acc)。在这些指标中，FID用于通过计算合成图像和真实图像之间的Wasserstein-2距离来评估合成图像的真实性。Acc和mIoU用于衡量合成图像与输入语义布局之间的语义标签差异。根据[28]，我们使用预训练的语义分割模型DRN-D-105[38]、UperUnet101 [37]和DeepLabV2[6]对Cityscapes、ADE20K和COCO-Stuff进行语义评估。此外，我们还展示了与其他竞争方法的视觉比较结果。最后，我们进行了用户研究，进一步评估了我们的方法的有效性。04.2. 定量和定性结果0可比的FID分数，这确保了生成结果与真实图像之间的分布一致性。我们的方法在语义分割性能方面表现最佳，这表明我们的方法的结果不仅与目标布局更一致，而且在外观上更接近真实，这两者都归功于SPD特征和SAFM块的引入。需要注意的是，OASIS在COCO-Stuff数据集上实现了几乎最佳的性能，但在Cityscapes和ADE20K数据集上表现不如我们的方法，我们分析认为COCO-Stuff数据集具有更多的无部分级语义的物品类别（91个物品类别覆盖了约66%的像素），这使得我们的SPD特征在定量结果中对物体实例的优势不明显。定性比较。图6给出了Cityscapes、ADE20K和COCO-Stuff数据集上的定性比较，从中我们可以观察到：（i）通过SPD，我们的方法可以生成更真实的细节（例如第3行的洗衣机），这得益于判别性和有效的空间位置特征化。（ii）从第4到第6行，我们的方法可以很好地处理具有不同形状的相同类别的实例，而其他方法无法生成合理的结果，这表明我们的SPD特征和SAFM块的有效性。（iii）在语义对齐的约束下，我们的方法在非结构化纹理方面也表现良好，有助于提高视觉质量，这可以从第1行看出。用户研究。根据[28]，我们进行了用户研究，进一步比较了我们的方法与SPADE、CC-FPSE、LGGAN和OASIS在Cityscapes和ADE20K数据集上的性能。对于每组实验，需要具有计算机视觉背景的参与者选择在语义对齐和外观上性能更好的图像。从表2可以看出，用户更倾向于选择我们的结果，特别是在Cityscapes上。多模态合成。根据SPADE[28]的方法，我们使用KL散度损失训练了一个额外的编码器，用于多模态合成或带有风格引导的图像，通过控制均值和方差向量来01参与者已被告知收集的数据仅用于学术目的，不会记录他们的身份。112200图6.在COCO-Stuff（第1-2行）、ADE20K（第3行）和Cityscapes（第4-6行）数据集上的视觉比较。0方法 Cityscapes ADE20K0我们 > SPADE 74.76% 63.32% 我们 > CC-FPSE63.20% 58.24% 我们 > LGGAN 68.48% 58.96%我们 > OASIS 65.24% 56.76%0表2.用户研究。数字表示相对于竞争方法，用户更喜欢我们的方法的百分比。0通过采样不同的随机噪声，我们的生成器还可以为给定的输入分割掩码合成具有多样性和逼真外观的图像，如图8所示。基于分割的鉴别器的结果。注意到分割鉴别器在OASIS中的成功，我们验证了SPD与鉴别器和OASIS的训练技巧的有效性。具体来说，我们使用SPD替换OASIS生成器中的3D噪声，从而改善了Cityscapes数据集的结果（FID：43.81，mIoU：71.8）。更多定性结果显示在补充材料中。04.3.消融研究0我们在Cityscapes数据集上进行消融研究，以评估我们的SPD特征和SAFM块的有效性，包括以下变体。(1) 基线0线：采用SPADE [28]生成器和SESAME[25]鉴别器作为基线模型。(2)基线+Lseg：在基线模型上添加语义对齐损失。(3)基线+SPD：将SPD特征与语义布局连接起来，并将它们馈送到SPADE块中生成空间自适应调制参数。(4)基线+SPD+SAFM：引入SAFM块到生成器中，以利用SPD特征而不是直接连接它们。(5)Ours-Full：将基线、Lseg、SPD特征和SAFM块结合在一起。定量结果和视觉比较分别显示在表3和图7中。0我们可以看到，(i)尽管Lseg同样促进了对象类别（如汽车、洗衣机类别）和物品类别（如天空、地球类别）的逼真纹理生成，但对象类别（mO）和物品类别（mS）的mIoU分别增加了2.9和3.7，这极大地提高了合成图像在mIoU和Acc指标上的性能（比基线高3.4和0.5），但它仍然无法促进生成器合成丰富的结构细节。直观上，其FID分数略有改善。(ii)通过引入SPD作为附加条件，生成器可以合成更丰富的细节，例如逼真的汽车窗户和灯光，从而大大提高了mIoU、Acc、112210图7. 不同变体的视觉比较。0图8.多模态合成的视觉结果。0和生成结果的FID分数（参见基线VS.基线+SPD）。从表3中可以看出，与基线模型相比，基线+SPD模型的对象类别的mIoU增加了3.3，FID从54.2降低到50.1，这表明我们提出的SPD的有效性。(iii)SAFM块使生成器能够更好地建模SPD特征和形状外观之间的映射，进一步提高了我们模型的性能，特别是在对象类别的mIoU上。(iv)通过结合SPD特征、SAFM块和Lseg，Ours-Full的性能达到了最佳性能，表明我们方法中每个组件在合成过程中的有效性。04.4.限制和影响0限制。由于每个对象类别的部分级语义布局是从数据中学习的，因此我们的性能受到限制。0方法 mIoU ↑ mS ↑ mO ↑ Acc ↑ FID ↓0基线 66.0 70.0 60.7 82.5 54.2 + L seg 69.4 73.7 63.6 83.053.2 +SPD 68.5 71.8 64.0 82.7 50.1 +SPD+SAFM 69.4 71.566.4 82.8 50.6 Ours-Full 70.4 74.2 65.3 83.1 49.50表3. Cityscapes上五个变体的定量比较。这里，mS（mO）表示Stuff（object）类别的mIoU。0该方法在很大程度上依赖于训练数据的数量。因此，罕见的对象类别或罕见的形状模式无法很好地建模。例如，非刚性人体有时具有不寻常的姿势和形状，很难从中推断出具有不足的训练样本的隐含部分级布局。然而，我们的方法可以显著提高常见对象类别和常见形状模式的图像合成质量。影响。本文提出了一种基于语义映射的语义图像合成方法，可以合成或编辑基于语义映射的图像。滥用语义图像合成模型可能会产生不良的社会影响，例如合成用于传播虚假新闻的图像。05. 结论0在本文中，对象实例的形状被明确地编码到所提出的SPD特征中。因此，可以利用对象的部分级布局来改善具有丰富细节的图像的生成。此外，通过条件卷积操作，提出了SAFM块来结合语义映射和SPD特征，可以自适应地调节输入特征。定量和定性结果证明了我们的方法在合成具有丰富和逼真细节的语义对齐图像方面的优越性能。致谢。本工作部分得到了中国国家重点研发计划（编号2020AAA0104500）和国家自然科学基金（NSFC）（编号U19A2073和62006064）的支持。[9] Aysegul Dundar, Karan Sapra, Guilin Liu, Andrew Tao, andBryan Catanzaro. Panoptic-based image synthesis. In Pro-ceedings of the IEEE/CVF Conference on Computer Visionand Pattern Recognition, pages 8070–8079, 2020. 2[10] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, BingXu, David Warde-Farley, Sherjil Ozair, Aaron Courville, andYoshua Bengio. Generative adversarial nets. Advances inneural information processing systems, 27, 2014. 1, 2[11] Martin Heusel, Hubert Ramsauer, Thomas Unterthiner,Bernhard Nessler, and Sepp Hochreiter. Gans trained by atwo time-scale update rule converge to a local nash equilib-rium. Advances in neural information processing systems,30, 2017. 6[12] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei AEfros. Image-to-image translation with conditional adver-sarial networks. In Proceedings of the IEEE conference oncomputer vision and pattern recognition, pages 1125–1134,2017. 2[13] Tero Karras, Samuli Laine, and Timo Aila. A style-basedgenerator architecture for generative adversarial networks.In Proceedings of the IEEE/CVF Conference on ComputerVision and Pattern Recognition, pages 4401–4410, 2019. 2,5[14] Tero Karras, Samuli Laine, Miika Aittala, Janne Hellsten,Jaakko Lehtinen, and Timo Aila.Analyzing and improv-ing the image quality of stylegan.In Proceedings of theIEEE/CVF Conference on Computer Vision and PatternRecognition, pages 8110–8119, 2020. 2[15] Diederik P Kingma and Jimmy Ba. Adam: A method forstochastic optimization.arXiv preprint arXiv:1412.6980,2014. 6[16] Diederik P Kingma and Max Welling. Auto-encoding varia-tional bayes. arXiv preprint arXiv:1312.6114, 2013. 6[17] Bowen Li, Xiaojuan Qi, Thomas Lukasiewicz, and Philip HSTorr. Controllable text-to-image generation. arXiv preprintarXiv:1909.07083, 2019. 2[18] Bowen Li, Xiaojuan Qi, Thomas Lukasiewicz, and Philip HSTorr. Manigan: Text-guided image manipulation. In Pro-ceedings of the IEEE/CVF Conference on Computer Visionand Pattern Recognition, pages 7880–7889, 2020. 2[19] Jae Hyun Lim and Jong Chul Ye. Geometric gan. arXivpreprint arXiv:1705.02894, 2017. 5[20] Haibin Ling and David W Jacobs. Shape classification usingthe inner-distance.IEEE transactions on pattern analysisand machine intelligence, 29(2):286–299, 2007. 3[21] Xihui Liu, Guojun Yin, Jing Shao, Xiaogang Wang, andHongsheng Li.Learning to predict layout-to-image con-ditional convolutions for semantic image synthesis. arXivpreprint arXiv:1910.06809, 2019. 1, 2, 5, 6[22] Mehdi Mirza and Simon Osindero. Conditional generativeadversarial nets. arXiv preprint arXiv:1411.1784, 2014. 2, 5[23] Takeru Miyato, Toshiki Kataoka, Masanori Koyama, andYuichi Yoshida. Spectral nor

下载后可阅读完整内容，剩余1页未读，立即下载