基于语义引导的局部类特定和全局图像级生成对抗网络

92 浏览量更新于2023-10-25 收藏 2.06MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7870用于语义引导场景生成的局部类特定和全局图像级生成对抗唐昊1徐丹2严燕3菲利普H. S. Torr2Nicu Sebe1，41特伦托大学2牛津大学3德克萨斯州立大学4华为爱尔兰研究院摘要在本文中，我们解决的任务语义引导的场景生成。一个被广泛观察到的公开挑战在全局图像级生成方法中，难以生成小对象和详细的局部纹理。为了解决这个问题，本文考虑在局部环境下学习场景生成，并相应地设计了一个以语义映射为指导的局部类生成网络，该网络分别构造和学习子生成器，集中于不同类的生成，能够提供更多的场景细节.为了学习更多的判别类特定的特征表示的本地生成，一个新的分类模块也提出了。结合全局图像级和局部类间生成的优点，设计了一种具有注意力融合模块和嵌入式双重结构的联合生成网络。在两个场景图像生成任务上的大量实验表明，该模型具有优越的生成性能。在这两项任务和具有挑战性的公共基准上，都取得了很大的成果。源代码和训练模型可在https://github.com/Ha0Tang/LGGAN上获得。1. 介绍语义引导的场景生成是一个热门的研究课题，涵盖了几个主流的研究方向，包括跨视图图像翻译[21，55，38，39，46，40]和语义图像合成[51，8，36，34]。[38]中提出的跨视图图像转换任务本质上是一个不适定问题，因为如果仅给出单个RGB图像作为输入，则生成中存在很大的模糊性。为了缓解这个问题，最近的作品，如SelectionGAN [46]，试图根据场景的图像和几个新的语义图来生成目标图像，如图所示。1（底部）。添加语义映射允许模型学习目标视图中的对应关系和转换。另一方面，语义图像合成任务旨在生成照片般逼真的图 1 ： Cityscapes 上的语义图像合成结果（上）和Dayton上的跨视图图像翻译结果（下）的示例，使用我们的LGGAN的不同设置。从语义映射[51，8，36，34]图像，如图所示。1（顶部）。最近，Park et al.[34]提出了一种用于在给定输入语义图的情况下合成照片般逼真的图像的空间自适应归一化。利用这些有用的语义信息，现有的场景生成方法在场景生成中取得了很好的效果.然而，人们仍然可以观察到不令人满意的观点，特别是在局部场景结构和细节以及小尺度对象的生成上，我们认为这首先，这两个任务上的现有方法大多基于全局图像级生成，其接受包含若干对象类的语义图，并且旨在通过使用相同的网络设计或使用共享的网络参数来生成所有不同类的外观在这种情况下，所有类都被网络平等对待。虽然不同的语义类具有不同的属性，但直观地针对不同语义类的特定网络学习将有利于复杂的多类生成。其次，我们观察到不同场景类的训练样本的数量是不平衡的。例如，对于代顿数据集[49]，汽车和公共汽车仅占所有数据集的不到2%。7871图2：所提出的LGGAN的概述，其中包含语义引导的生成器G和CMDs。G由参数共享编码器E、图像级全局生成器Gg、类级局部生成器Gl和权重映射生成器Gw组成。全局生成器和局部生成器通过来自权重图生成器的两个学习的权重图自动组合以重构目标图像。DS试图区分来自两个模态空间的所生成的图像，即，图像空间和语义空间。此外，学习一个更有区别的类别特定的特征表示，一个新的分类模块提出。所有这些组件都以端到端的方式进行培训，发电机和全球发电机可以相互受益。符号、和分别是元素乘法和通道Softmax表示逐元素加法，训练数据中的像素，这自然使得模型学习由具有较大数量训练样本的类主导第三，不同场景类中的对象大小是多样的。如图1的第一行所示1、道路、天空等较大尺度的对象类通常比电线杆、交通灯等较小尺度的对象类占据较大的图像面积。由于卷积网络通常在不同的卷积位置共享参数，因此较大规模的对象类将在学习期间占据优势，进一步增加了生成小规模对象类的难度。为了解决这些问题，一个简单的考虑将是建模的不同场景类的生成具体在本地上下文。通过这样做，每个类可以有自己的生成网络结构或参数，从而大大避免了有偏差的生成空间的学习。为了实现这一目标，在本文中，我们设计了一个新的类特定的生成网络。它由几个子生成器为不同的场景类与共享的编码特征图。利用输入语义图作为指导，以获得对应于每个类空间的特征图，然后使用这些特征图为不同的类区域产生单独的生成。由于全局生成和局部生成具有高度互补的特性，本文提出了一种局部类特定和全局图像级的生成对抗网络（LGGAN）来结合两者的优点。它主要包含三个网络分支（见图1）。2）。第一个分支是图像级全局生成器，它使用输入来学习全局外观分布，第二个分支是图像级全局生成器。第二个分支是所提出的类特定的本地生成器，其目的是使用语义引导的类特定的特征过滤来分别生成不同的对象类。最后，融合权重图生成分支学习两个像素级权重图，这两个像素级权重图用于将局部和全局子网络融合在它们的最终生成结果的加权组合中。所提出的LGGAN可以以端到端的方式进行联合训练，以使局部和全局生成在优化中彼此受益。总体而言，本文的贡献如下：• 我们探索了从局部上下文生成场景的方法，与现有的全局图像级生成方法相比，我们认为这有利于生成更丰富的场景一个新的本地类特定的生成结构已被设计用于此目的。它可以有效地处理小物体和场景细节的生成，这是基于全局的生成所遇到的共同困难• 我们提出了一种新的全局和局部生成式对抗网络设计，能够同时考虑全局和局部背景。为了稳定所提出的联合网络结构的优化，一个融合的权重图发生器和一个双鉴别器。此外，为了学习具有区别性的类特定特征表示，提出了一种新的分类模块。• 在Dayton [49]和CVUSA [52]数据集上进行的跨视图图像翻译实验以及在Cityscapes [11]和ADE 20K [59]数据集上进行的语义图像合成实验证明了所提出的LGGAN框架的有效性，并显示出明显更好的结果7872与最先进的方法相比。2. 相关工作生成对抗网络（GAN）[15]已广泛用于图像生成[23，56，7，24，17，13，42，29，41]。普通GAN具有两个重要组件，即，产生器和鉴别器。生成器的目标是从噪声向量生成照片级逼真的图像，而鉴别器则试图区分真实图像和生成的图像。为了合成用户特定的图像，已经提出了条件GAN（CGAN）[31]CGAN结合了普通GAN和外部信息，例如类标签[32，33，9]、文本描述[26，57，25]、对象关键点[37，45]、人体/手骨架[1，44，3，62]，条件图像[61，21]，语义-[2019 - 05 - 15][2019 - 05- 15][2019 - 05][2019 - 05 -15][2019 - 05][2019 - 05 - 15]图[56，30，43]。GAN中的全局和局部生成。在GAN中对全局和局部信息进行建模以生成更好的结果已用于各种生成任务[19，20，28，27，35，16]。例如，Huang et al.[19]通过同时感知全局结构和局部细节，提出了用于正面视图合成的TPGAN。Gu等人。[16]提出了MaskGAN，通过单独学习每个面部组件来进行面部编辑嘴和眼睛。然而，这些方法仅适用于面部相关的任务，如面部旋转或面部编辑，其中所有的域有很大的重叠和相似性。然而，我们提出了一个新的局部和全局的图像生成框架设计的一个更复杂的场景生成任务，局部上下文建模是基于语义引导的类特定的生成，这是没有探索的任何现有的作品。场景生成。场景生成任务是一个热门话题，因为每个图像都可以被解析成不同的语义对象，[6，2，48，14，4，5]。在本文中，我们主要讨论-两个场景生成任务，即，跨视图图像翻译[55，38，39，46]和语义图像合成[51、8、36、34]。大多数现有的跨视图图像翻译工作都是为了合成相同对象的新视图[12，60，47，10]。此外，几个作品处理图像翻译问题与dras- tically不同的意见，并产生一个新的场景从一个给定的不同的场景[55，38，39，46]。例如，Tang等人。[46]提出SelectionGAN使用语义映射和CGAN模型来解决跨视图图像翻译任务。另一方面，语义图像合成任务旨在从语义映射生成照片级真实感图像[51，8，36，34]。例如，Park等人提出了Gau- GAN [34]，它在这项任务上取得了最好的结果。在语义图的指导下，现有的两种任务的方法都取得了很好的效果.然而，我们仍然观察到，这些全局图像级生成方法产生的结果往往不令人满意。特别是在细节上。相比之下，我们提出的方法侧重于生成一个更现实的全球结构/布局和局部纹理细节。本地和全球发电分支都以端到端的方式联合学习，旨在利用彼此的相互改进的好处3. 拟议的LGGAN我们首先介绍拟议的局部类特定和全局图像级GAN（LGGAN）的细节。总体框架的说明如图所示。二、生成模块主要由三部分组成，语义引导的类特定生成器，其对局部上下文进行建模;图像级生成器，其对全局布局进行建模;以及权重映射生成器，其用于融合局部生成器和全局生成器。我们首先介绍了所使用的骨干结构，然后提出了建议的本地和全球生成网络的设计。3.1. 主干编码网络结构语义引导生成。在本文中，我们主要集中在两个任务，即，语义图像合成和跨视角图像翻译。对于前者，我们遵循Gau-GAN [34]，并使用语义映射Sg作为骨干编码器E的输入，如图3所示。二、对于后者，我们遵循SelectionGAN [46]并将输入图像Ia和新的语义映射Sg连接起来作为骨干编码器E的输入。通过这样做，语义映射充当先验以引导模型学习另一个域的生成。参数共享编码器。由于我们有三个不同的分支用于三个不同的生成器，编码器E将参数共享给所有三个分支以形成紧凑的骨干网络。来自所有三个分支的梯度一起有助于编码器的学习。我们相信，通过这种方式，编码器可以学习局部和全局信息以及它们之间的对应关系然后，来自输入Sg的编码的深度表示可以表示为E（Sg），如图2所示。二、3.2. LGGAN结构特定类别的本地生成网络。如图1和在引言中讨论的，不同类之间的训练数据不平衡和场景对象之间的大小差异的问题使得生成小对象类和场景细节极其困难。为了克服这一限制，我们提出了一种新的本地类特定的生成网络设计。它为每个语义类分别构造一个生成器，从而在很大程度上避免了联合优化中大对象类的干扰。每个子代分支都有独立的网络参数，并集中在一个特定的类，因此能够有效地产生类似的代。7873GiL=′gggi图3：由四个步骤组成的所提出的局部类特定生成器G1的概述，即，语义类掩码计算、类特定特征图过滤、基于分类的区别性特征学习和类特定生成。在每个类别特征表示处应用具有空类别过滤的交叉熵损失，以学习更具区分性的类别特定特征表示。语义掩码引导的像素级L1损失应用于类级的最后重建符号R1和R2。表示元素级乘法和通道级级联。不同类别的渲染质量，并产生更丰富的局部场景细节。本地发电网络G1的概述如下：第二个是对所有类特定输出执行卷积运算，如图所示。3、IL= Conv（Concat（II，II，· · ·，II）），⑷在图中示出。3.第三章。编码特征E（Sg）首先是g被馈送到两个连续的去卷积层中以增加G1g2gc空间尺寸随着通道数量减少了两倍。然后将缩放的特征图f′乘以每个类的语义掩码，即，Mi，以获得每一个的过滤的类特定特征图。掩模引导的特征过滤操作可以被写为：Fi=M i f′，i = 1，2，.，c、⑴其中c是语义类的数量然后，滤波后的特征图Fi被馈送到对应的第i类的若干卷积层中，并生成输出图像I1。为了更好地学习每个类，我们利用语义掩码引导的逐像素L1重建损失，其可以表示如下：Σc其中，Concat（·）和Conv（·）表示信道方式的con。连接和卷积操作。分类识别特征学习。我们观察到，过滤后的特征图Fi不能产生非常有区别的类特定的世代，导致类似的生成结果的一些类，特别是小规模的对象类。为了对不同的对象类有更多样的生成，我们提出了一种新的基于分类的特征学习模块来学习更具区分性的特定于类的特征表示，如图所示。3.第三章。该模块的一个输入样本是从不同的局部生成分支产生的一组特征图，即，{F1，.，Fc}。首先，将打包后的特征映射Fp∈Rc×n×h ×w（n，h，w分别为特征映射通道数、高度和宽度）送入语义引导的平均池化层，当地L1i=1EI，II[||I gM i− I l||1]中。（二）我得到一个维数为c×n×1×1的混合特征图。然后将池化特征图与完全一致连接，连接层来预测对象的分类概率。来自本地发电网络的最终输出IL可以场景的对象类FC层之后的输出为G可以通过两种方式获得第一个是表演一个Y∈ Rc×c，其中c是语义类的个数，对于所有类特定输出的元素相加：每个滤波后的特征图Fi（i=1，.，c），我们预测c×1C类概率的独热向量。I L= I lI l···I l.（三）由于某些对象类可能不存在于输入序列中，g g1g 2gc7874i=1G的gGGg ggmantic掩码样本中，来自对应于空类的局部分支的特征不应对分类损失有贡献。因此，我们通过将其与每个输入样本的空类指示符相乘来过滤最终的交叉熵损失。该指标是一个热矢量对Gg和Gl的输出进行操作。此外，发电机Gw、Gg和Gl在模型优化中相互影响和贡献。双重鉴别器。为了利用现有的领域知识，即，语义映射，我们扩展了单个域H={Hi}c其中Hi=1表示有效类，Hi=0表示[15]第十五章：一个女人void类。然后，交叉熵（CE）损失被定义为：如下所示：我们称之为语义引导的CMDs，示于图二、它采用输入语义映射Sg和生成的图像IC（或真实图像Ig）作为输入：ΣcLCE= −ΣcHm1{Y（i）=i}log（f（Fi）），（5）GL（G，D）=E[logD（S，I）]+m=1i=1CGANs Sg，IgΣSGGΣ（8）ES，IC log（1−Ds（Sg，IC）），其中1{·}是指示函数，即，如果Y（i）=i，则返回1，否则返回0。f（·）是分类函数，其在给定输入特征图Fi的情况下产生预测概率。Y是所有对象类的标签集。图像级全球生成网络。与本地生成分支类似，E（Sg）也被馈送到全局ggg其目的是保持场景布局并捕获局部感知信息。对于跨视图图像翻译任务，我们还提出了另一种图像引导的CRDi，它将条件图像Ia和最终生成的图像IC生成子网络Gg，用于全局图像级生成，如图所示。二、全局生成能够捕获目标图像的全局结构信息或布局因此，可以得到全局结果IG（或地面实况图像Ig）作为输入：LCGAN（G，Di）=EIa，Ig[logDi（Ia，Ig）]+ΣCΣ（九）G通过前馈计算：I G=G（E（S））。是-EI，IClog（1−D i（I a，Ig））.gg g除了所提出的Gg之外，许多现有的全局生成器也可以与所提出的局部生成器Gl-起使用，使得所提出的框架非常灵活。像素级融合权重图生成网络。为了更好地结合局部和全局生成子网络，我们进一步提出了一个像素级权重图生成器Gw，它的目的是预测像素级权重融合了全球第一代和本地第二代，锡翁岛湖在我们的实现中， Gw 由两个 Trans- poseConvolution→InstanceNorm→ReLU块和一个Convolution→InstanceNorm→ReLU块组成。这三个块的输出通道数分别为128、64和2。核大小为3×3，步长为2，除了最后一层的核大小为1×1，步长为1，用于密集预测。我们使用以下计算来预测双通道权重图WfWf= Softmax（Gw（E（Sg），（6）其中Softmax（·）表示用于归一化的逐通道softmax函数，即，相同像素位置处的权重值的和这样，我们就可以保证组合中的信息不会爆炸。Wf被切片以具有全局分支的权重图Wg和局部分支的权重图Wl。融合的最终生成结果计算如下：IC=IGWg+IL Wl，（7）其中，乘法是逐元素乘法运算。这样，直接从Gw预测的像素级权重7875在这种情况下，我们的双重鉴别器D的总损失为L_CGAN=L_CGAN （ G ， D_i ） +L_CGAN （ G ，D_s）。4. 实验所提出的LGGAN可以应用于不同的生成任务，例如交叉视图图像翻译[46]和语义图像合成[34]。在本节中，我们将介绍这两个任务的实验结果和分析。4.1. Cross View图像翻译数据集和评估指标。我们遵循[46]并在Dayton [49]和CVUSA数据集[52]上进行跨视图图像转换实验。与[38，46]类似，我们采用初始评分（IS），准确度（Acc.），用KL离散度评分（KL Divergence Score，KL）、结构相似度（SSIM）、峰值信噪比（PeakSignal-to-NoiseRatio ， PSNR ）和差异度（SharpingDifference，SD）对模型进行评价。最先进的比较。我们将我们的LGGAN与最近提出的几种最先进的方法进行比较，即，Zhai等人[55]，Pix2 pix [21]，X-SO [39]，X-Fork [38]和X-Seq [38].比较结果示于表1和表2中。我们可以观察到LGGAN在所有指标上始终优于竞争方法。为了研究LGGAN的有效性，我们使用语义图和RGB图像作为输入的方法进行了实验，包括Pix 2 pix++[21]，X-Fork++[38]，X-Seq++[38]和SelectionGAN [46]。我们使用它们的公共源代码实现了Pix 2 pix ++、X-Fork++和X-Seq++。结果示于表1和2中。我们观察到，LGGAN取得了明显优于7876表1：在a2g方向上对Dayton数据集的定量评估。对于除KL评分外的所有指标，越高越好。（1）对于所有、前1和前5设置，真实（地面实况）数据的初始分数分别为3.8319、2.5753和3.9222。准确度（%）初始评分方法SSIM PSNR SD KLTop-1 Top-5全部Top-1 Top-5[21]第二十一话6.809.1523.5527.002.85151.93422.90830.418017.629119.282138.26 ±1.88X-SO [39]27.5641.1557.9673.202.94592.09632.99800.477219.620319.29397.20 ±1.37X叉[38]30.0048.6861.5778.843.07202.24023.09320.496319.892819.45336.00 ±1.28X-Seq [38]30.1649.8562.5980.702.73842.13042.76740.503120.280319.52585.93 ±1.32[21]第二十一话32.0654.7063.1981.013.17092.12003.20010.487121.667518.85045.49 ±1.25X-Fork++ [38]34.6759.1466.3784.703.07372.15083.08930.498221.726018.94024.59 ±1.16X-Seq++[38]31.5851.6765.2182.483.17032.21853.24440.491221.765918.92654.94 ±1.18选择GAN [46]42.1168.1277.7492.893.06132.27073.13360.593823.887420.01742.74 ±0.86LGGAN（我们的） 48.1779.3581.1494.913.39942.34783.42610.545722.994919.61452.18±0.74表2：2g方向CVUSA数据集的定量评价对于除KL评分外的所有指标，越高越好。（1）对于所有、前1和前5设置，真实（地面实况）数据的初始分数分别为4.8741、3.2959和4.9943方法阿库拉克y（%）初始分数e*SSIMPSNRSDKLTop-1Top-5全部Top-1Top-5Zai等人[55个]13.9714.0342.0952.291.8434一点五一七1.86660.414717.488616.618427.43 ±1.63[21]第二十一话7.339.2525.8132.673.2771二二二一九3.43120.392317.657818.523959.81 ±2.12X-SO [39]0.290.216.149.081.75751.41451.77910.345117.620116.9919414.25 ±2.37X叉[38]20.5831.2450.5163.663.4432二点五四四七3.55670.435619.050918.670611.71 ±1.55X-Seq [38]15.9824.1442.9154.413.81512.67384.00770.423118.806718.437815.52 ±1.73[21]第二十一话26.4541.8757.2672.873.25922.41753.50780.461721.573918.90449.47 ±1.69X-Fork++[38]31.0349.6564.4781.163.3758二点五三七五3.57110.476921.650418.98567.18 ±1.56X-Seq++[38]34.6954.6167.1283.463.3919二点五四七四3.48580.474021.673318.99075.19 ±1.31选择GAN [46]41.5265.5174.3289.663.80742.71813.91970.532323.146619.61002.96 ±0.97LGGAN（我们的）44.7570.6878.7693.403.91802.83833.98780.523822.576619.74402.55±0.95Pix 2 pix ++、X-Fork++和X-Seq++，证实了所提出的LGGAN的优点。与SelectionGAN的直接比较也显示在表格中，提供了除像素级评估指标之外的大多数指标的更好结果，即，SSIM、PSNR和SD。SelectionGAN使用两阶段生成策略和注意力选择模块，在这三个指标上取得了比我们略好的结果然而，我们生成的结果比SelectionGAN更加照片般逼真，如图所示。4.第一章定性评价。显示了与领先方法SelectionGAN [46]相比的定性结果在图4中。我们观察到，由所提出的LGGAN生成的结果在视觉上优于SelectionGAN。具体来说，我们的方法比SelectionGAN生成更清晰的物体细节，如汽车，建筑物，道路，树木4.2. 语义图像合成数据集和评估指标。我们遵循[34]并在Cityscapes [11]和ADE 20K [59]数据集上进行了广泛的实验。我们使用平均交集对并集（mIoU）、像素精度（Acc）和Fre'chet起始距离（FID）[18]作为评估指标。最先进的比较。我们将所提出的LGGAN与几种领先的语义图像合成方法进行比较，即，[25]《易经》：“君子之道，焉可诬也？有始有卒者，其惟圣人乎！”，13.14冉子退朝。mIoU、Acc和FID指标的结果见表3（左）。我们发现，建议的LGGAN优于现有的竞争方法的mIoU和Acc指标的大幅度提高。对于FID，图4：在2g方向上对Day-ton（上两行）和CVUSA（下两行）进行定性比较。所提出的方法仅比城市景观上的SIMS差。然而，SIMS具有较差的分割性能。原因是SIMS通过从训练数据集中搜索和复制图像块来由于该方法使用了真实的图像块，因此生成的图像更加真实然而，这种方法总是倾向于复制7877图5：Cityscapes（上三行）和ADE 20K（下三行）的定性比较表3：（左）我们的方法在语义分割分数（mIoU和Acc）和FID方面显著优于当前领先的方法。（中）用户偏好研究。这些数字表示支持所提出的LGGAN结果的用户的百分比，而不是竞争方法。（右）在语义图像合成任务上对所提出的LGGAN的不同变体进行定量比较对于mIoU、Acc和AMT，越高越好。对于FID，越低越好。LGGANmIoU的设置↑FID↓[34]第三十四话62.381.971.838.579.933.9Ours vs. GauGAN [34]53.19 57.31LGGAN（我们的）68.483.057.741.681.831.6由于不能保证在数据集中有结果的查询而具有不匹配的补丁的对象。此外，我们遵循GauGAN的评估方案并提供AMT结果，如表3（中）所示我们观察到，用户喜欢我们的合成结果在两个数据集与其他竞争的方法，包括SIMS。定性评价。与主要方法GauGAN [34]相比的定性结果如图所示五、我们可以看到，所提出的LGGAN生成更好的结果，比GauGAN具有更少的视觉伪影。学习特征图的可视化。在图6中，我们在Cityscapes上随机显示了来自学习的类特定特征图（第30到第32和第50到第52）的一些通道，以查看它们是否清楚地突出显示了特定的语义类。我们显示了3个不同类的可视化结果，即，道路、植被和汽车。我们很容易观察到，方法城市景观mIoU ↑加计↑FID↓ADE20KmIoU ↑加计↑FID↓AMT↑城市景观ADE20KCRN [8]52.477.1104.722.468.873.3[8]第十八话67.3879.54SIMS [36]47.275.549.7N/AN/AN/A[51]第51话56.1685.69[51]第五十一话58.381.495.020.369.281.8[36]第三十六话54.84N/AS1：我们的全球62.371.8S2：S1 +本地（添加）64.666.1S3：S1 +局部（con.）65.865.6S4：S3 + Class Dis.损失S5：S4 +重量地图67.068.461.357.77878图6：3个不同类上学习的类特定特征图的可视化，即，道路、植被和汽车。图7：与Cityscapes上的GauGAN [34]相比，生成的语义地图的可视化每个局部子生成器都很好地学习了类级别的深度表示，进一步证实了我们的动机。生成的语义映射的可视化。我们遵循GauGAN [34]，并在生成的图像上应用预训练的分割网络来生成语义图，即，适用于Cityscapes的DRN-D-105 [54]和适用于ADE 20 K的UperNet 101 [53]。所提出的LGGAN、GauGAN和地面实况的生成的语义图如图所示。7.第一次会议。我们观察到，我们的LGGAN生成比GauGAN更好的语义图，特别是在局部纹理4.3. 消融研究我们对Cityscapes数据集进行了广泛的消融研究基线模型。拟议的LGGAN有5个基线（即，S1，S2，S3，S4，S5），如表3（右）所示：意味着只采用全局生成器。(ii)S2将全局生成器和所提出的局部生成器组合以产生最终结果，其中局部结果通过使用如在等式（1）中所提出的加法运算来产生。（三）、(iii)S3和S2之间的区别在于，S3使用卷积层来生成局部结果，如等式2所示。（四）、(iv)S4采用所提出的基于分类的判别特征学习模块。(v)S5是我们的完整模型，并采用了所提出的权重图融合策略。本地和全球的影响。的结果消融研究结果见表3（右）。当使用通过加法运算生成局部结果，局部和全局生成策略分别将mIoU和FID提高了2.3和5.7。当采用卷积运算来产生局部结果时，性能进一步提高，即，3.5 mIoU和FID指标上的增益分别为6.2和6.2。这两个结果都证实了提出了地方和全球生成框架。我们还提供了定性结果的本地和全球generation- tion图。1.一、我们观察到，我们的完整模型，即，全局+局部，比全局和局部方法产生更好的视觉效果，这进一步证实了我们的动机。基于分类的特征学习的效果。S4在mIoU和FID指标上分别以约1.2和4.3的增益显著优于S3。这意味着该模型确实学习了更具区分性的类特定特征表示，从而证实了我们的设计动机。权重贴图融合的效果。通过在S5中添加所提出的权重图融合方案，整体性能进一步提升，mIoU和FID度量分别提高了1.4和3.6。这意味着所提出的LGGAN确实从本地和全局生成分支中学习互补信息。在图1中，我们展示了生成的权重图的一些示例。5. 结论我们提出了局部类特定和全局图像级生成对抗网络（LGGAN）的语义引导场景生成。所提出的LGGAN包含三个生成分支，即，分别为全局图像级生成、局部类级生成和像素级融合权重图生成。设计了一种新的类特定局部生成网络，以减轻训练数据不均衡和场景对象大小差异对联合学习的影响。为了学习更多的类特定的判别特征表示，进一步提出了一种新的实验结果表明，所提出的方法的优越性，并显示新的国家的最先进的结果，跨视图图像翻译和语义图像合成任务。致谢。这项工作得到了意大利 - 中国合作项目TALENT：CN 19 GR 09的支持。7879引用[1] Badour AlBahar和Jia-Bin Huang。具有双向特征变换的引导式在ICCV，2019年。3[2] 奥伦·阿舒尔和里奥·沃尔夫。在交互式场景生成中指定对象属性在ICCV，2019年。3[3] Guha Balakrishnan，Amy Zhao，Adrian V Dalca，FredoDu- rand，and John Guttag.合成人类在看不见的姿势的图像。在CVPR，2018年。3[4] David Bau，Hendrik Strobelt，William Peebles，JonasWulff，Bolei Zhou，Jun-Yan Zhu，and Antonio Torralba.语义- tic照片处理与生成图像之前。ACM TOG，38（4）：59，2019。3[5] David Bau ， Jun-Yan Zhu ， Hendrik Strobelt ， BoleiZhou，Joshua B Tenenbaum，William T Freeman，andAntonio Torralba.肝解剖：可视化和理解生成对抗网络。2019年，在ICLR。3[6] David Bau 、 Jun-Yan Zhu 、 Jonas Wulff 、 WilliamPeebles 、 Hendrik Strobelt 、 Bolei Zhou 和 AntonioTorralba。看看帮派不能创造什么。在ICCV，2019年。3[7] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模gan训练2019年，在ICLR。3[8] Qifeng Chen和Vladlen Koltun。用级联细化网络进行摄影图像合成InICCV，2017.一、三、六、七[9] Yunjey Choi，Minje Choi，Munyoung Kim，Jung-WooHa，Sunghun Kim，and Jaegul Choo. Stargan：用于多域图像到图像翻译的统一生成对抗网络。在CVPR，2018年。3[10] Christopher B Choy ， Danfei Xu ， JunYoung Gwak ，Kevin Chen，and Silvio Savarese. 3d-r2 n2：用于单视图和多视图3D对象重建的统一方法。在ECCV，2016年。3[11] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在CVPR，2016年。二、六[12] Alexey Dosovitskiy 、Jost Tobias Springenberg 、MaximTatarchenko和Thomas Brox。学习用卷积网络生成IEEETPAMI，39（4）：692-705，2017。3[13] Lore Goetschalckx，Alex Andonian，Aude Oliva，andPhillip Isola.Ganalyze ： Toward visual definitions ofcognitive image properties.在ICCV，2019年。3[14] Xinyu Gong，Shiyu Chang，Yifan Jiang，and ZhangyangWang. Autogan：生成对抗网络的神经架构搜索。在CVPR，2019年。3[15] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。NeurIPS，2014。三、五[16] 顾书阳、包建民、浩阳、董晨、方文、卢远。面具指导的肖像编辑与条件甘斯。在CVPR，2019年。3[17] Ishaan Gulrajani 、 Faruk Ahmed 、 Martin Arjovsky 、Vincent Dumoulin和Aaron Courville。改进的瓦瑟斯坦甘斯训练。NeurIPS，2017。3[18] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。NeurIPS，2017。6[19] 睿煌、张舒、李天宇、冉河。超越面旋转：全局和局部感知甘为真实感和身份保持正面视图合成。InICCV，2017.3[20] Satoshi Iizuka，Edgar Simo-Serra，and Hiroshi Ishikawa.全局和局部一致的图像完成。ACM TOG，36（4）：107，2017。3[21] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros.使用条件对抗网络的图像到图像翻译。在CVPR，2017年。一二三五六[22] 贾斯汀·约翰逊，阿格里姆·古普塔，李飞飞。从场景图生成图像。在CVPR，2018年。3[23] Tero Karras ， Timo Aila ， Samuli Laine ， and JaakkoLehtinen.为提高质量、稳定性和变异性而进行的干细胞生长。在ICLR，2018年。3[24] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构，用于生成对抗网络。在CVPR，2019年。3[25] Bowen Li ， Xiaojuan Qi ， Thomas Lukasiewicz ， andPhilip Torr.可控的文本到图像生成。NeurIPS，2019。3[26] Bowen Li ， Xiaojuan Qi ， Thomas Lukasiewicz ， andPhilip HS Torr.Manigan ：文本引导的图像处理。在CVPR，2020年。3[27] Pepeei Li，Yibo Hu，Qi Li，Ran He，and Zhenan Sun.全球和局部一致的年龄生成对抗网络。InICPR，2018. 3[28] Chieh Hubert Lin，Chia-Che Chang，Yu-Sheng Chen，Da- Cheng Juan ， Wei Wei ， and Hwann-Tzong Chen.Coco-gan：通过条件协调按部分生成。在ICCV，2019年。3[29] Ming-Yu Liu，Xun Huang，Arun Mallya，Tero Karras，Timo Aila，Jaakko Lehtinen，and Jan Kautz.很少拍摄的无监督图像到图像的转换。在ICCV，2019年。3[30] Yous

下载后可阅读完整内容，剩余1页未读，立即下载