增强对象外观：生成复杂图像的新方法

190 浏览量更新于2024-01-22 收藏 1.12MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

15049增强对象外观何森1，2*，廖文通3*，杨颖4，杨永新1，2，宋益哲1，2，鲍多罗森哈恩3，陶翔1，21CVSSP，萨里大学，2iFlyTek-萨里人工智能联合研究中心3TNT，汉诺威莱布尼茨大学，4SUG，特温特大学摘要布局到图像（L2I）生成模型旨在以给定的布局为条件，在自然背景（素材）下生成包含多个对象（事物）的复杂图像。基于生成对抗网络（GAN）的最新进展，现有的L2I模型取得了很大进展。然而，仔细检查他们生成的图像揭示了两个主要的局限性：（1）对象到对象以及对象到填充物的关系经常被打破，（2）每个对象我们认为，这是由于缺乏上下文感知的对象和东西的特征编码，在他们的生成器，和位置敏感的外观表示在他们的歧视。为了解决这些限制，在这项工作中提出了两个新的模块。首先，在生成器中引入了上下文感知特征变换模块，以确保生成的对象或素材的特征编码知道场景中其他共存的对象/素材。其次，我们使用从生成的对象图像的特征图计算出的Gram矩阵来保留位置敏感信息，而不是将位置不敏感的图像特征馈送到网络，从而大大增强了对象的大量的实验表明，该方法实现了最先进的性能COCO-Thing- Stuff 和 Visual Genome 基准。代码可在：https://github.com/wtliao/layout2img获得。1. 介绍生成对抗网络（GAN）[11]的最新进展使得为单个对象生成照片般逼真的图像成为可能，例如，脸，汽车，猫[4，46，20，21]。然而，生成包含针对自然背景（素材）的不同类别的多个对象（事物）的复杂图像仍然是一个挑战[18，3，31，30]。这是由于大的外观变化*平等贡献图1.说明现有L2I模型的局限性以及我们的模型如何克服这些局限性。从左到右：地面实况布局，由最先进的LostGAN-v2 [39]生成的图像在中间和右边的列中，LostGAN-v2和我们的模型之间的生成质量存在关键差异的区域以虚线框突出显示更多详情见正文。对于不同类别的对象，以及对象与对象和对象与对象之间的复杂关系。生成的对象不仅需要本身是真实的，而且要与周围的对象和东西协调一致。在没有任何条件输入的情况下，模式崩溃[36，6]问题对于经过训练以生成如此复杂的自然场景的GAN来说可能是严重的。因此，已经引入了各种输入以提供对图像生成过程的一些约束。这些包括图像内容的文本描述[31]，表示对象及其关系的场景图[18]，以及提供像素级注释的语义图[30]。这项工作的重点是使用布局[48，38，40]的条件图像生成任务，该布局定义了一组具有指定大小，位置和类别的边界框（见图1）。布局本身是一种用户友好的输入格式，也可以用作碗弓L碗碗海人冲浪板树长颈鹿头长颈鹿脖子头草脖子15050其他任务的中间输入步骤，例如，场景图形和文本到图像生成[3，15]。自2019年的开创性工作[48]以来，最近的布局到图像（L2I）生成模型[49，40，39]取得了很大进展，这主要归功于GAN [30，20]的进步，因为它们是关键的构建块。从远处看，生成的图像看起来是真实的，并且符合输入布局（参见图1和图3中的更多内容）。然而，仔细观察就会发现两个主要的局限性。首先，对象之间的关系以及对象与材料之间的关系经常被打破。这一点从图中的食物例子中可以明显看出。1（上-中）使用最先进的LostGAN-v2 [39]，对象之间的遮挡区域生成得很差。第二，每个生成对象例如，图1中的冲浪示例（中间）和图1中的长颈鹿示例（机器人）表明，对象外观好像被毕加索触摸过-人们仍然可以识别冲浪的人或长颈鹿，但关键的身体部位显然放错了我们认为这些限制是由现有L2I模型中GAN生成器和鉴别器的两个主要设计缺陷造成的(1)生成器中缺乏上下文感知的建模：现有模型首先在每个布局边界框中生成对象/东西的特征，然后将生成的特征馈送到生成器中以生成图像。然而，每个对象/填充物的特征生成过程(2)在图像处理中缺乏位置敏感的外观表示：与任何GAN模型一样，现有的L2 I模型部署了一个经过训练的图像处理器，用于将生成的整个图像和单个对象/素材图像与真实图像区分开来。这种分类器本质上是一个CNN二元分类器，从CNN中提取的全局池化特征被馈送到真假分类器。因此，语义分析器只关心每个语义特征的存在/不存在和强度，而不是它们在生成的图像中出现的位置。因此，这种位置敏感的外观表示的缺乏导致了图1（中间）中的不适当的对象部分在本文中，我们提供了解决方案，以克服这两个限制。首先，为了解决缺乏上下文感知的建模问题，我们提出在L2I模型的生成器中引入上下文感知的特征转换模块。该模块在每个对象和素材通过自我注意检查了其与图像中共存的所有其他对象/素材的第二，我们使用从以下特征图计算的Gram矩阵，而不是将位置不敏感的全局合并对象图像特征馈送到SVM。生成的对象图像。特征图Gram矩阵捕获矢量化特征图上的特征间相关性，因此是位置敏感的。将其添加到图像处理器中的真假分类器的输入中，生成的图像保留每个对象类的形状和纹理特征，从而大大增强了对象外观（参见图1（右））。本文的主要贡献如下：（1）首次指出了现有L2I模型在生成复杂多目标图像时的两个主要局限性。(2)两个新的组件，即一个上下文感知的特征转换模块和位置敏感的对象外观表示被引入到解决这两个限制。(3)所提出的模块可以很容易地集成到任何现有的L2I代模块中，并大大提高它们。(4)对COCO-Thing-Stuff[25，5]和Visual Genome [22]数据集的广泛实验表明，使用我们的模型可以实现最先进的代码和训练模型将很快发布。2. 相关工作生成对抗网络生成对抗网络（GAN）[11]，在生成器和代理之间进行最小-最大游戏，是最近图像生成工作中使用然而，GAN的训练通常是不稳定的，并且已知容易出现模式崩溃问题。为了解决这个问题，开发了Wasserstein GAN [2]和Unrolled GAN [28]等技术。同时，噪声注入和权重均衡[1，34]被用于训练中，以减轻不收敛问题，从而进一步稳定训练。为了生成高保真度和分辨率的图像，还提出了像Progressive GAN[19]和BigGAN [4]这样的架构。条件图像生成条件图像生成，其基于给定条件（例如，类标签、句子描述、图像、语义掩码、草图和场景图）由于其在生成复杂自然图像中的潜力而被广泛研究[29，31，17，51，30，7，3，9]通常，有两种流行的架构用于条件图像生成。第一种是Pix 2 pix[17]和CycleGAN[51]中使用的编码器-解码器架构，其中编码器直接获取条件输入并将其嵌入到潜在空间。解码器然后将嵌入的表示转移第二种流行的架构是StyleGAN[20]和GauGAN[30]中使用的仅解码器架构，其中解码器从随机输入开始，然后逐步对其进行转换以产生所需的输出。在该架构中，条件输入用于在解码器中生成部分参数，例如，的15051i=1i=1归一化层[20，30，33]中的仿射变换参数或卷积核[26]中的权重参数。布局到图像生成虽然以前的工作[15]已经触及了布局到图像生成的概念在L2I中，它只是用作不同生成任务的中间步骤。第一个独立的解决方案出现在[48]。与文本和场景图等其他条件输入相比，布局是一种更灵活、更丰富的格式。因此，更多的研究通过引入更强大的发生器架构[38，39]或新设置[23，27]进行了跟进。Sun等. [38]提出了一种受StyleGAN[20]启发的新架构，该架构允许他们的模型以更好的质量生成更高分辨率的图像。Li等[23]引入了一个新的设置，用于生成高分辨率的街景。他们的模型根据给定的前景布局从数据库中检索背景。最近，Maet al. [27]引入了属性引导的布局生成，它在生成的对象上更具可控性。如前所述，所有这些现有模型都有两个局限性，即在它们的生成器中缺乏上下文感知建模，以及在它们的鉴别器中缺乏位置敏感的外观在这项工作中，这两个限制都被克服了，从而大大提高了L2I生成性能（见第2节）。5）。上下文建模上下文在许多区分场景分析任务中起着重要作用[41，16，8，45，44，13，43]。基于上下文的分析的主要思想是将场景中的每个对象实例与全局上下文联系起来，以便更好地理解它们之间的关系或交互。然而，语境在图像生成中却没有引起足够的重视一个例外是SAGAN [46]，其应用自我注意力来细化生成器中的特征图，以生成单个对象图像。在这项工作中，我们介绍了上下文建模布局图像生成，一个更复杂的图像生成任务，重点是对象间和对象到东西的关系建模。CNN可视化工作清楚地表明，特征通道，特别是CNN顶层的特征通道，捕获了语义上有意义的概念，如身体部位;这些特征通道在不同位置的激活表明了这些概念的位置[50]。然而，当涉及到对象识别[35]或GAN中的真假识别[11]时，这些特征图在被馈送到二进制分类层之前被全局汇集因此，位置敏感信息在很大程度上丢失了，重点是语义概念的存在/不存在，而不是在哪里。因此，我们建议使用在特征图上计算的Gram矩阵来补充现有鉴别器中使用的仅语义的外观表示，以便基于Gram矩阵的外观表示已经被用于风格/纹理表示的风格转换[10]中，这似乎表明它仅捕获特征分布，而不包含空间信息。然而，如[24]中所指出的，这是因为[10]中的条目均方距离的使用消除了特征图Gram矩阵中的位置在我们的模型中，我们将原始矩阵而不是均方距离传递给判别器分类器，因此保留了位置敏感性。3. 预赛3.1. 问题定义设L={（yi，bi）N}是具有N个边界框的布局，其中yi∈ C是边界框的类，bi=[xi，yi，wi，hi]是边界框在图像格（H × W ）中的位置和大小. 布局到图像（L2I）生成任务的目标是建立一个模型G，该模型G可以生成逼真的照片Ig∈ R3×H×W，给定布局L中的粗略信息。3.2. 先验模型在介绍我们在SEC中提出的方法之前。4、我们首先简要介绍了现有的L2I模型。在所有先前的模型中，第一步总是根据其类别为每个边界框生成特征表示：pi=φ0（[ei，ni]），（1）其中pi∈Rdl+dn是第i个特征的表示布局中的边界框，φ0是线性变换层，ei∈Rdl是yi的标签嵌入，ni∈Rdn是从零均值单位方差多元高斯分布然后将所生成的特征向量集{pi}N馈送到生成器G中以用于图像生成。根据生成器如何使用特征向量集来生成图像，现有模型可以分为以下两类。这些模型部署了一个编码器-解码器生成器[48，27]，它将特征向量集作为输入，然后将特征向量集转换为一系列特征图。每个特征图都是通过基于它们的边界框将对应的特征向量填充到图像网格中的区域中来生成的然后将生成的特征图馈送到编码器中，编码器将每个特征图分别嵌入到潜在空间中。这些嵌入的特征映射通过卷积LSTM网络合并为一个特征映射[37]。最后，解码器将组合特征转换为目标图像。在数学上，基于编码器-解码器的方法可以被公式化为：在对象图像生成中减少位置敏感性。等Ig= D（cLSTM（E（{F（p，bi）}N）），（2）i i=115052发生器我生成ℒ��∈鉴别器ℒ��外观歧视输入布局语境转换特征图，b1碗碗，bGram矩阵2ROIAlign，b3，b4ℒ��碗碗特征一代初始生成的特征向量上下文变换的特征向量ROI对齐的特征图Gram矩阵图2. 我们的方法的示意图，其中只有解码器生成器，如[38，49]中所示。特征生成模块根据每个边界框的类标签生成其原始表示，上下文感知特征变换模块将全局上下文集成到每个边界框的表示中。然后，将变换的边界框的表示和框坐标（b i）馈送到生成器中以用于图像生成。最后将生成的图像与真实图像进行比较，并给出了图像级和对象级语义损失（Lim和Lo）以及对象级Gram矩阵损失（La）的三种损失。其中F（·，·）是填充操作，E是编码r，cLSTM是卷积LSTM网络，D是解码器。仅使用解码器发生器的L2I型号这些模型[38，39，40]使用仅解码器生成器首先为每个边界框生成辅助掩码1，用于细粒度形状或结构预测：Mi=RS （ n （ pi ）， bi ），（3）其中n是一个小的卷积神经网络，n（pi）∈RH×W，RS（·，·）是一个调整大小操作符，其中，生成的掩模，并将其拟合到通过上/下采样的图像点阵然后解码器接收零均值单位方差多元随机噪声n0∈RC0×H0×W0作为输入，并通过在归一化层中调制仿射变换将其解码为目标图像：中国fl=BatchNorm（fl，l（piMli）），（4）i=1代架构[38，39，40]。类似地，它们可以容易地与采用编码器-解码器架构的那些集成[48，27]。4.1. 上下文感知特征生成让我们先来看看特征转换模块。很明显，先验模型独立地处理每个边界框（在特征生成阶段或仅解码器方法中的掩码生成阶段），不考虑场景中的其他对象和东西因此，生成的对象不会与场景中其他共存的对象和东西和谐地出现，并且经常看起来不合适（参见图1和图3）。为了克服这一限制，我们提出了一个上下文感知的转换模块，它通过允许每个特征通过自我注意交叉检查所有其他特征，将上下文信息集成到每个边界框的特征表示中[42]。具体地，每个边界框的上下文化表示被计算为：中国其中，fl和fl是在解码器中的第l层处的归一化之前和之后的特征图，fl是小的pc=wi，jpjWv，（5）j=1卷积块，以生成逐像素仿射变换，w=αexp（αi，j）、（六）地层参数，Mli是Mi的大小调整版本，i、jNk=1 exp（α（i、k）匹配相应的特征地图αi，j=（piWq）（pjWk）T，（7）外积，通过该外积，向量pi和矩阵Mlipro-生成3D张量。其中，Wq，WkWv∈R（dl+dn）×（dl+dn）是线性的4. 该方法我们提出的方法的主要架构如图2所示。本文提出的上下文感知特征变换模块和基于位置敏感Gram矩阵的对象外观表示分别集成到仅解码器L2I的1掩码不是严格的二进制掩码，因为它是使用sigmoid激活的层的输出。15053转换层。随着转型，背景-每个包围盒的tualized表示不仅具有其自身的信息，而且还具有布局中的全局上下文。因此，能够避免图1（顶部-中部）所示的不良遮挡区域注意，该模块可以用于基于编码器-解码器的方法中的特征图填充，以及仅解码器方法中的掩码生成和特征调制步骤。然后将上下文化的特征表示馈送到生成器中以用于图像生成（参见图11）。2）的情况。15054imim我imoOpR我一个p4.2. 位置敏感外观表示针对现有L2I模型中鉴别器缺乏位置敏感的外观表示的问题，提出了一种基于特征图Gram矩阵的外观表示在现有模型的描述中，nators，输入图像Iim首先由卷积神经网络fim ∈ RC ×HD × W D处理，并表示为fim∈RC×HD×WD：不同特征通道之间的相关性显然是位置敏感的：每个条目仅在对应的两个特征都存在并且在相同位置处被激活这样的损失，实在是太大了。反对两个传统的损失（Lim和Lo），只强调语义的存在。4.3. 培养目标f_im= f_D（I_im）。（八）然后，现有的L2I模型在判别器中应用两个损失来训练整个模型：图像级损失Lim最终模型将使用建议的外观进行损失，连同图像和对象级损失[48，38]：G_n=arg min maxL_a（G，D）+λimL_im（G，D）+λoL_o（G，D），根据f_im的全局池化特征，基于ROI池的对象级条件损失Lo（十三）[32]图像中每个对象的特征，与其相应的类信息连接。这些损失被设计为提高所生成的图像的真实性，其中λim和λo是损失重量超参数，并且Lim和Lo计算为：R图像中的物体但是，使用pooledLim（G，D）=EIr伊斯普河数据r）[log（D（Iim）]特征作为外观表示意味着+EgimGulpg数据（一g）[1 −log（D（Ig）]，（十四）是位置不敏感的，即，他们只关心压力每个学习的语义特征的存在/不存在和强度;更不用说相应的视觉概念的位置了。L（G，D）=Err数据+EOg（Or）[log（D（O |y）]（Og）[1 − log（D（Og|y）]，梨在图片中我在哪里我g数据是真实的和生成的图像，为了解决这个问题，我们建议引入一个广告-外观失真，这直接将生成的图像和真实图像之间的每个语义特征的空间不对准永久化。具体来说，我们使用im当然，Or图像.imOg是真实的和生成的对象特征映射在形式上，我们将图像中生成的对象的外观定义为：Ai=sisT/ds，（9）其中ds=C是特征图的通道维度，si∈RC×（HD×WD）是图像中第i个生成对象的空间维度矢量化特征表示计算为：其中RA（·，·）是ROI对齐算子[12]。为了简单起见，这里省略了向量化操作。新外观损失则定义为：R5. 实验数据集在我们的实验中使用了两个广泛使用的基准，COCO-Thing-Stuff[25 ， 5] 和 VisualGenome[22]COCO-Thing-Stuff包括[5]中的91个stuff类和[25]中的80个thing/object类的边界框注释。在[48，38]之后，我们的实验中只使用了具有3到8个边界框的图像。Visual Genome最初是为复杂场景理解而构建的。Visual Genome中的注释包含边界框、对象属性、关系、区域描述和分割。根据L2I生成的标准，我们在实验中只使用边界框注释，每个布局包含3到30个我们在两个数据集上遵循先前工作[48，38]中的分裂，L（G，D）=EArr数据+EAg（Ar）[log（D（A|y）]（Ag）[1 − log（D（Ag|y）]，（十一）训练和测试我们的模型。实现细节我们的模型是用数据其中Ar和Ag分别是真实图像和生成图像中的对象特征图的Gram矩阵，y是它们对应的类标签。更具体地，对于图像中的第i个对象，其外观损失被计算为：CQC火焰。为了展示我们提出的方法的普遍适用性，并且为了与先前的作品进行公平的比较，我们在我们的方法的两个实例中采用编码器-解码器和仅解码器生成器（分别称为Ours-ED和Ours-D）。编码器-解码器生成（一）im15055器1D（Ai|y）= Cj=1[Ai，j，E（yi）]WA、（十二）具有与[48]中使用的相同的架构，并且仅解码器生成器共享与[38]中使用的相同的架构。在[48，38]之后，生成图像的分辨率为其中E（yi）∈Rk是标签嵌入，WA∈R（C+K）×1是线性层r。这里的革兰氏矩阵编码器-解码器生成器为64×64，解码器专用的生成器学习率设置为15056表1. COCO-Thing-Stuff和Visual Genome的比较结果E-D表示基于编码器-解码器的生成器，D表示仅基于解码器的生成器。表示改进的仅解码器生成器。方法决议发生器成立分数↑FID ↓多样性分数↑CocoVGCocoVGCocoVG真实图像64 ×64-16.3 ±0.413.9 ±0.5----真实图像128 ×128-22.3 ±0.520.5 ±1.5----pix2pix [17]64 ×64E-D3.5 ±0.12.7 ±0.02121.97142.8600[第48话]64 ×64E-D9.1 ±0.18.1 ±0.138.1440.070.15 ±0.060.17 ±0.09Ours-ED64 ×64E-D10.27 ±0.258.53±0.1331.3233.910.390.09±0.4±0.09[3]第三章128 ×128E-D11.22 ±0.15-63.44-0.28 ±0.11-LostGAN-v1 [38]LostGAN-v2 [49]128 ×128128 ×128DD†13.8 ±0.414.21 ±0.411.1 ±0.610.71 ±0.7629.65 29.3624.76美元0.40 ±0.090.550.09±0.43 ±0.090.53 ±0.09OC-GAN [40]128 ×128D14.0 ±0.211.9 ±0.536.04 28.91--[27]第二十七话128 ×128E-D-8.5 ±0.1- 三十九点一二-0.15 ±0.09Ours-D128 ×128D15.62 ±0.0512.69 ±0.4522.3221.780.550.09±0.540.09±图3.将Ours-D与两个代表性基线Layout 2 im [49]和LostGAN-v2 [39]进行比较的定性结果在所有实验中，发电机和整流器均为1e−4我们训练模型200个epoch。损失重量超参数λim和λo分别设置为0.1和1。评估我们评估我们的模型自动和手动。在自动评估中，我们采用三个广泛使用的指标，即 Inception Score [36] ，Fre'chetInceptionDistance（FID）[14]和DiversityScore[47] 。 Inception Score 评估生成图像的质量。FID计算生成的图像和真实图像之间的统计距离。多样性分数比较生成的图像和来自相同布局的真实图像在之前的评估之后，云其他建筑山脊斯凯斯克雷河船博阿泰Coco人瓦尔瓦尔窗口treehVG长颈鹿脸ce其他不床林坡枕头枕头necnechea人人ti格拉斯EA长颈鹿e墙-br海fa草Ree希尔山Snky-布局Ours-DLayout2imLostGan-V2地面实况15057（a）（b）（c）（d）（e）（f）（g）（h）图4.定性烧蚀实验结果。具有明显的生成质量差异的区域使用红色虚线框突出显示以进行仔细检查。图5. 我们模型的优先级。高于黑色水平虚线的条表示AMT工作人员认为我们的模型优于比较基线。对于每个布局，我们在COCO-Thing-Stuff中生成五个图像，在Visual Genome中生成一个图像在手动评估中，我们对Amazon Mechanical Turk（AMT）进行了感知研究，以比较不同模型生成的图像质量10名参与者参加了评估。每个参与者都从测试数据集中获得了100个随机抽样的布局，以及来自不同模型的相应生成图像埃尔。所有参与者被要求根据图像的质量和配对布局的匹配程度投票选择他们喜欢的图像我们计算所有参与者对每个模型的偏好由于生成的图像在两个比较中，生成的图像具有相同的分辨率。主要结果我们将我们的方法与现有的L2I模型[48，38，39，40，27]，pix2pix模型[17]（其将从布局构建的输入特征图作为[48]中的实现）以及Grid2Im模型[3]（其将场景图作为输入）进行了比较。可以对表1中所示的定量结果进行以下观察。（1）我们的方法在所有基准测试上都优于所有比较方法，特别是对于Inception Score和FID。（2）最近的L2I方法采用仅解码器生成器。采用相同的架构，海电视电视人墙-其他花其他花瓶墙体混凝土墙-其他电视竞争环境墙体混凝土云树person人人人椅子架沙发笔记本办公室职员键盘墙体混凝土表床火车桥地面-其他pers冲浪板地毯路面雪莫斯对Ours-D+ Context+外观基线地面实况布局15058表2. COCO-Thing-Stuff数据集上的消融研究基线[38]上下文外观初始分数FIDC13.8 ±0.429.65CC14.97 ±0.2724.05CC15.28 ±0.2421.73CCC15.62 ±0.0522.32两个新的组成部分，我们的方法（Ours-D）达到了新的技术水平。图5示出了关于AMT的人类评估在所有40个评估集中，我们的模型赢得了32个集。对于更复杂的图像，在更高的分辨率下偏好率明显更高（即，128×128，VG数据集）。一些定性结果如图所示3 .第三章。从这些例子中可以看出，使用我们的方法生成的年龄更能感知上下文，即，不同的对象彼此和谐地共存，并与背景和谐地共存。重要的是，每个生成的对象具有更清晰的纹理，相对于对象边界框内的背景更清晰的形状边界，并且总体上比由explodL2I模型生成的对象具有更大的空间相干性。消融研究在这个实验中，我们采用LostGAN- v1 [38]作为我们的基线，并评估引入我们的上下文转换模块和位置敏感外观表示的效果。定量结果如表2所示。我们可以看到，我们的上下文感知特征转换模块和新的应用程序表示都显着提高了基线，当结合起来时，会进一步提高。一些定性结果如图4所示。很明显，用我们的外观表示训练的模型可以生成在形状和纹理方面都具有更好外观的对象（图4（b）中的TV和图4（a）（f）（g）中的人）。上下文变换也起着重要的作用：生成的遮挡区域变得更自然（图4（b）（f））;每个物体的姿势也与其周围的物体和背景更加协调，例如，冲浪者的身体姿势在图1中更物理上合理。4（a）;所以是人的头部姿势在图中的笔记本4（f）.我们的上下文转换模块如何工作在在仅解码器生成器中，使用每个边界框的表示来生成掩模，以预测每个边界框中的对象的细粒度形状或结构（等式2）。3）。如果特征表示中没有上下文信息，则生成的掩码将相互干扰。这可能导致不规则或不完整的物体形状，特别是在被遮挡的区域中，这将进一步影响在等式（1）中定义的特征调制。四、我们通过在布局中添加更多的边界框来研究这种效果，并可视化预测的掩码以及生成的图像。图6中的可视化结果清楚地表明，图6. 定性地举例说明了上下文变换在复杂场景生成中的作用。从左到右，每次，我们都会在之前的布局中添加一个边界框，通过使用我们的上下文变换（Ours-D）的模型和没有上下文变换的相同模型来可视化预测的掩码以及生成的图像。需要更多关注的区域在虚线框中突出显示。模块减少了在复杂场景中存在遮挡时的负面对象间外观干扰，从而为生成的对象产生更好的外观。6. 结论在这项工作中，我们提出了一个新的上下文特征转换模块和位置敏感的外观表示，以改善现有的布局到图像（L2I）生成模型。特别地，它们被设计为解决现有模型大量的实验证明了我们的方法的有效性，产生新的国家的最先进的两个基准。确认这项工作得到了德国联邦教育和研究部（BMBF）数字创新中心（ZDIN）在LeibnizKILa-bor项目（批准号01 DD 20003）下和德国研究共同体（DFG）在卓越凤凰D（EXC 2122）集群内的德国卓越战略下的支持长颈鹿不不dirdir污垢屁股gr草草污垢Fe伊拉G长颈鹿ere采特奋etreefenc围栏围栏Ours-D w\ocontextOurs-D生成图像生成图像预测掩模布局预测掩模15059引用[1] 马丁·阿乔对k y和Le'onBottou。这是训练生成对抗网络的原则性方法。在ICLR，2017年。2[2] 马丁·阿吉奥对凯，苏米特·钦塔拉和莱·安·博图。沃瑟斯坦根在ICML，2017年。2[3] 奥伦·阿舒尔和里奥·沃尔夫。交互式场景生成中的对象属性在CVPR，2019年。一、二、六、七[4] 安德鲁·布洛克，杰夫·唐纳休，凯伦·西蒙尼扬。用于高保真自然图像合成的大规模gan训练2019年，在ICLR。一、二[5] Holger Caesar Jasper Uijlings 和 Vittorio Ferrari Coco-stuff：上下文中的东西类.在CVPR，2018年。第二、五条[6] Tong Che ， Yanran Li ， Athul Paul Jacob ， YoonneBengio，and Wenjie Li.模式正则化生成对抗网络。在ICLR，2017年。1[7] Shu-Yu Chen，Wanchao Su，Lin Gao，Shihong Xia，and Hongbo Fu. Deepfacedrawing：从草图中深度生成人脸图像。TOG，39（4）：72-88，2020年。2[8] 陈哲，黄少立，陶大成。用于对象检测的上下文细化。在ECCV，2018年。3[9] Chengying Gao ， Qi Liu ， Qi Xu ， Limin Wang ，Jianzhuang Liu，and Changing Zou. Sketchycoco：从手绘场景草图生成图像。在CVPR，2020年。2[10] Leon A Gatys，Alexander S Ecker，and Matthias Bethge.艺术风格的神经算法。InNeurIPS，2015. 三，五[11] Ian Goodfellow ， Jean Pouget-Abadie ， Mehdi Mirza ，Bing Xu ， David Warde-Farley ， Sherjil Ozair ， AaronCourville ， and Yoonne Bengio. 生成性对抗网。InNeurIPS，2014. 一、二、三[12] 凯明赫，吉奥吉亚·吉奥萨里，彼得·多尔和罗斯·吉尔希克。面具R-CNN。在ICCV，2017年。5[13] Simao Herdade ， Armin Kappeler ， Kofi Boakye ， andJoao Soares.图片说明：将对象转换为文字。2019年在NeurIPS上发表。3[14] Martin Heusel，Hubert Ramsauer，Thomas Unterthiner，Bernhard Nessler，and Sepp Hochreiter.通过两个时间尺度更新规则训练的 Gans 收敛到局部纳什均衡。在NeurIPS，2017年。6[15] Seunhoon Hong，Dingdong Yang，Jongwook Choi，andHonglak Lee.推理语义布局的分层文本到图像合成。在CVPR，2018年。二、三[16] 韩虎、顾家元、张正、戴继峰、魏亦辰。用于对象检测的关系网络在CVPR，2018年。3[17] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros.使用条件对抗网络进行图像到图像的翻译。在CVPR，2017年。二、六、七[18] 贾斯汀·约翰逊，阿格里姆·古普塔，李飞飞。从场景图生成图像。在CVPR，2018年。1[19] Tero Karras ， Timo Aila ， Samuli Laine ， and JaakkoLehtinen.逐步增长的甘斯，以提高质量，稳定性和变化。2018年，在ICLR。2[20] Tero Karras Samuli Laine和Timo Aila一种用于生成对抗网络的基于风格的生成器体系结构在CVPR，2019年。一、二、三[21] 泰罗·卡拉斯、萨穆利·莱恩、米卡·艾塔拉、詹娜·赫尔斯滕、亚科·莱赫蒂宁和蒂莫·艾拉。stylegan图像质量的分析与改进。在CVPR，2020年。1[22] Ranjay Krishna ， Yuke Zhu ， Oliver Groth ， JustinJohnson，Kenji Hata，Joshua Kravitz，Stephanie Chen，Yannis Kalan-Kang，Li-Jia Li，David A Shamma，et al.Visual genome ： Connecting language and vision usingcrowdsourced dense imageannotations. IJCV ， 123（1）：32-73，2017。第二、五条[23] Yandong Li ， Yu Cheng ， Zhe Gan ， Licheng Yu ，Liqiang Wang，and Jingjing Liu. Bachgan：从显着对象布局合成高分辨率图像。在CVPR，2020年。3[24] 李阳浩，王乃彦，刘嘉颖，侯小迪去神秘化神经风格转移。InIJCAI，2017. 3[25] 林宗义，迈克尔·梅尔，塞尔日·贝隆吉，詹姆斯·海斯，彼得罗·佩罗纳，德瓦·拉马南，彼得·多尔·拉尔和C·L·劳伦斯·齐特尼克。Microsoft coco：上下文中的常见对象。在ECCV，2014年。第二、五条[26] 刘锡辉，尹国军，邵静，王晓刚，等。学习预测布局到图像的条件卷积语义图像合成。2019年在NeurIPS上发表。3[27] 柯玛、赵波和莱昂尼德·西加尔。从布局生成属性引导的图像。在BMVC，2020年。三、四、六、七[28] 卢克·梅兹，本·普尔，大卫·普法，还有雅莎·索迪克斯坦.展开的生成对抗网络。在ICLR，2017年。2[29] 迈赫迪·米尔扎和西蒙·奥辛德罗条件生成对抗网。arXiv预印本arXiv：1411.1784，2014年。2[30] Taesung Park ， Ming-Yu Liu ， Ting-Chun Wang ， Jun-Yan Zhu.具有空间自适应归一化的语义图像合成。在CVPR，2019年。一、二、三[31] Scott Reed ， Zeynep Akata ， Xinchen Yan ， LajanugenLo- geswaran，Bernt Schiele，and Honglak Lee.生成对抗性文本到图像合成。InICML，2016. 一、二[32] 任少卿，何开明，Ross Girshick，孙健。更快的r-cnn：用区域建议网络实现实时目标检测。InNeurIPS，2015.5[33] Elad Richardson、Yuval Alaluf、Or Patashnik、YotamNitzan、Yaniv Azar、Stav Shapiro和Daniel Cohen-Or。Encoding in style：一个用于图像到图像翻译的风格编码器。arXiv预印本arXiv：2008.00951，2020。3[34] Kevin Roth ， Aurelien Lucchi ， Sebastian Nowozin 和Thomas Hofmann。通过正则化稳定生成式对抗网络的训练。在NeurIPS，2017年。 2[35] Olga Russakovsky ， Jia Deng ， Hao Su ， JonathanKrause ， San- jeev Satheesh ， Sean Ma ， ZhihengHuang ， Andrej Karpathy ， Aditya Khosla ， MichaelBernstein，Alexander C.伯格和李飞飞。ImageNet大规模视觉识别挑战赛。IJCV ， 115 （ 3 ）： 211-252，2015。3[36] Tim Salimans 、 Ian Goodfellow 、 Wojciech Zaremba 、15060Vicki Cheung、Alec Radford和Xi Chen。训练甘斯的改进技术。InNeurIPS，2016. 第1、6条[37] Shiangxi Shi，Zhourong Chen，Hao Wang，Dit-YanYeung ， Wai-Kin Wong ，and Wang-chun Woo. 卷积lstm15061网络：降水临近预报的机器学习方法。InNeurIPS，2015. 3[38] 孙伟和吴天福。图像合成从可重新配置的布局和风格。在ICCV，2019年。一、三、四、五、六、七、八[39] 孙伟和吴天福学习布局和风格可重新配置甘斯可控图像合成。arXiv预印本arXiv：2003.11571，2020。一、二、三、四、六、七[40] Tristan Sylvain，Pengchuan Zhang，Yoonge Bengio，RDevon Hjelm，and Shikhar Sharma.从布局生成以对象为中心的图像。arXiv预印本arXiv：2003.07449，2020。一、二、四、六、七[41] Antonio Torralba ， Kevin P Murphy ， William TFreeman，Mark A Rubin，et al.基于上下文的视觉系统用于位置和对象识别。载于ICCV，200

下载后可阅读完整内容，剩余1页未读，立即下载