对象驱动的AttentiveGenerationAdversarialNewtorks（Obj-GAN）：一种复杂场景中文本到图像合成方法的研究

108 浏览量更新于2023-10-19 收藏 1.64MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于对抗训练的李文博1，2张鹏川2张磊3黄秋媛2 何晓东4吕思伟1高剑锋21University at Albany，SUNY2 Microsoft Research AI3 Microsoft4 JD AI Research{wli20，slyu}@ albany.edu，{彭湛，雷章，齐华，jfgao}@ microsoft.com，xiaodong. jd.com摘要在本文中，我们提出了对象驱动的Attentive GenerationAdversarial Newtorks（Obj-GAN），它允许复杂场景的以对象为中心的文本到图像合成在两步（布局-图像）生成过程之后，提出了一种新的对象驱动的注意图像生成器，通过关注文本描述中最相关的词和预先生成的语义布局来合成显著对象。此外，提出了一种新的基于Fast R-CNN的对象式鉴别器，以提供关于合成对象是否与文本描述和预生成布局匹配的丰富的对象式鉴别信号。所提出的Obj-GAN在大规模COCO基准测试的各种指标中显著优于先前的最先进水平，将Inception分数提高了27%，并将FID分数降低了11%。通过分析传统网格注意力和新的对象驱动注意力的机制和可视化的注意力层之间的一个彻底的比较，显示所提出的模型如何生成高质量的复杂场景的见解。1. 介绍从文本描述合成图像（称为文本到图像合成）是一项重要的机器学习任务，它需要处理自然语言描述中的模糊和不完整信息，并跨视觉和语言模态进行学习。基于生成对抗网络（GAN）[5]的方法最近在这项任务上取得了令人鼓舞的成果[23，22，32，33，29，16，9，12，34]。大多数基于GAN的方法仅以全局句子向量为条件来合成图像，这可能会错过单词级别的重要细粒度信息，并阻止高质量图像的生成。最近，AttnGAN [29]被提出，它将注意力机制[28，30，2，27]引入GAN框架，从而允许注意力驱动的多阶段†工作是在微软人工智能研究院实习时完成的* 表示贡献相等。图1：顶部：AttnGAN [29]及其网格注意力可视化。中间：我们在[9]中提出的两步（布局图像）生成的修改实现。下图：我们的Obj-GAN及其对象驱动的注意力可视化。中间代和底层使用相同的生成语义布局，唯一的区别是对象驱动的注意力。精细化的文本到图像生成。虽然具有真实纹理的图像已经在简单数据集上合成，例如鸟类[29，16]和花卉[33]，但大多数现有方法并没有专门对图像中的对象及其关系进行建模，因此在生成复杂场景（例如COCO数据集中的场景）时存在困难[15]。例如，从句子“几个穿着滑雪装备的人在雪中”生成图像背景中的岩石在图的顶行中。1、AttnGAN生成的图像中确实包含了零散的人和雪的纹理，但人的形状是扭曲的，图像的布局在语义上是没有意义的。[9]通过首先从文本构建语义布局，然后通过解卷积合成图像来解决这个问题。1217412175图像生成器然而，细粒度的单词/对象级信息仍然没有被显式地用于生成。因此，合成的图像不包含足够的细节，使它们看起来逼真（见图1的中间行）。①的人。在这项研究中，我们的目标是生成高品质的复杂图像，语义有意义的布局和现实的对象。为此，我们提出了一种新的对象驱动的意向生成对抗网络（Obj-GAN），有效地捕获和利用细粒度的文字/对象级信息的文本到图像的合成。Obj-GAN由一对对象驱动的注意图像生成器和对象智能搜索器以及一个新的对象驱动的注意机制组成。建议的图像生成器，tor作为输入的文本描述和预生成的语义布局和合成高分辨率图像VI-一个多阶段的粗到精的过程。在每个阶段，生成器通过关注与该边界框中的对象最相关的词来合成边界框内的图像区域，如图1的底行所示。1.一、更具体地说，使用一个新的对象驱动的注意力层，它使用类标签来查询句子中的单词，以形成单词上下文向量，如图所示。4，然后合成以类别标签和词上下文向量为条件的图像区域。逐对象的搜索器检查每个边界框，以确保生成的对象确实匹配预生成的语义布局。为了同时有效地计算所有边界框的区分损失，我们的逐对象搜索基于Fast R-CNN [4]，每个边界框都有二进制交叉熵损失。这项工作的贡献是三重的。（i）提出了一种基于对象驱动的注意生成网络（Obj-GAN），用于从文本抽取中合成复杂图像。具体而言，提出了两个新的组件，包括对象驱动的注意生成网络和对象明智的。（ii）对大规模COCO基准的综合评估表明，我们的Obj-GAN显著优于以前最先进的文本到图像合成方法。进行详细的消融研究以经验性地评估Obj-GAN中不同组分的作用。（iii）通过可视化Obj-GAN的注意力层进行彻底的分析，显示所提出的模型如何以高质量生成复杂场景的见解与以往的工作相比，我们的对象驱动的注意力是更健壮和可解释的，并显着提高了复杂场景中的2. 相关工作从文本描述生成照片级真实感图像虽然具有挑战性，但对于艺术生成和计算机辅助设计等许多现实世界的应用都很重要。为此课题已经进行了大量的研究通过不同的方法，如变分推断[17，6]，近似Langevin过程[24]，通过最大似然估计的条件PixelCNN [26，24]和条件生成对抗网络[23，22，32，33]。与其他方法相比，生成对抗网络（GAN）[5]在图像生成方面表现出更好的性能[21，3，25，13，11，10]。然而，基于EXPERTUGAN的文本到图像合成通常仅基于全局句子向量，这错过了单词级别的重要细粒度信息，因此缺乏生成高质量图像的能力。[29]在该任务中使用了传统的网格视觉注意机制，该机制通过关注文本描述中的相关单词来合成不同图像区域的细粒度细节。为了将语义布局明确编码到生成器中，[9]建议将生成过程分解为两个步骤，首先从文本构建语义布局（边界框和对象形状），然后根据布局和文本描述合成图像。[12]还提出了这样一个两步过程来从场景图生成图像，并且它们的过程可以端到端地训练在这项工作中，提出的Obj-GAN遵循两步生成过程，如[9]。然而，在这方面，[9]将文本编码为单个全局句子向量，这会丢失单词级的细粒度信息。此外，它使用图像级GAN损失进行搜索，这在提供用于生成显著对象的对象方面的辨别信号方面我们提出了一个新的对象驱动的注意力机制，提供细粒度的信息（文字描述和布局中的对象）为不同的组件，包括一个细心的se-q2 seq边界框生成器，一个细心的图像生成器和对象明智的搜索。注意机制是近年来视觉语言多模态智能任务的重要组成部分。传统的网格注意力机制已成功用于对图像captioning [28]、图像问答[30]、文本到图像生成[29]、无条件图像合成[31]和图像到图像翻译[16]、图像/文本检索[14]中的多级依赖关系进行建模。在2018年，[1]提出了一种自下而上的注意力机制，该机制能够在图像中的语义有意义的区域/对象上计算注意力，用于图像标题和视觉问答。受这些工作的启发，我们提出了Obj-GAN，它首次开发了一个对象驱动的注意力生成器和一个对象识别器，从而使GAN能够合成复杂场景的高质量图像。3. 对象驱动的关注GAN如示于图2，Obj-GAN执行文本到图像合成分为两个步骤：生成语义层，12176^^^^图2：Obj-GAN通过两个步骤完成文本到图像的合成：布局生成和图像生成。布局生成包含边界框生成器和形状生成器。图像生成使用对象驱动的关注图像生成器。out（类标签、边界框、显著对象的形状），然后生成图像。在图像生成步骤中，对象驱动的注意力生成器和逐对象搜索器被设计为使得能够在第一步骤中生成的语义布局上进行图像生成。Obj-GAN的输入是具有Ts标记的句子。使用预训练的bi-LSTM模型，我们对其单词进行编码，作为词向量e ∈ RD×Ts，整个句子作为全局句子向量e<$∈RD。我们提供了这个预训练的bi-LSTM模型的细节以及Obj-GAN其他模块的实现细节，见§？？.3.1. 语义布局生成在第一步中，Obj-GAN将句子作为输入并生成语义布局，这是一系列由边界框（带有类标签）和形状指定的对象如示于图在图2中，框生成器首先生成边界框的序列，然后形状生成器生成它们的形状。此部分类似于边界框生成器和形状生成器，我们把我们的实现细节放在§？？.箱式发电机。我们训练一个专注的 seq2seq模型[2]，请一并参阅图2、作为箱式发电机：B1：T：= [B1，B2，. . . ，B T]图G框（e）。（一）其中zt<$N（0，1）是随机噪声向量。由于生成的形状不仅需要与B1：T提供的位置和类别信息相匹配，而且还应该与其周围的上下文对齐，我们基于双向卷积LSTM构建G形状，如图所示。二、G形状的训练基于GAN框架[9]，其中感知损失也用于约束生成的形状并稳定训练。3.2. 图像生成3.2.1注意多级图像发生器如图3.所提出的注意多级生成网络有两个生成器（G0，G1）。基本生成器G0首先生成以全局句子向量和预生成的语义布局为条件的低分辨率图像x0然后，细化器G1通过关注最相关的词和预先生成的类别标签来细化不同区域中的细节，并生成更高分辨率的图像x1。具体地说，h0=F0（z，e'，Enc（M0），cob j，cla b），x0=G0（h0），h1=F1（cpat，h0+Enc（M1），cobj，clab），x1=G1（h1），其中（i）z是具有标准正态分布的随机向量，（ii）Enc（M0）（Enc（M1））是低分辨率形状M0（较高分辨率形状M1）的编码;（iii）cpat=Fgrid（e，h0）是来自这里，e是预训练的bi-LSTM词向量，Attnobj（l，b）是t传统的网格注意力，（iv）cobj=Fattn（e，eg，lg，M）不不boxb=（x，y，w，h）∈R4.在本文的其余部分，我们也将称为标签盒对Bt作为一个边界框时，没有混淆出现。由于大多数边界框都有注意seq2seq模型比[9]中使用的seq2seq模型形状生成器。给定边界框B1：T，形状生成器预测每个对象在其边界框中的形状，即，M^1：T=G形（B1：T，z1：T）.（二）是新对象的对象上下文向量驱动的注意力，以及clab=clab（lg，M）是来自类别标签的标签上下文向量。我们可以在生成过程中叠加更多的精化器，得到越来越高分辨率的图像。在本文中，我们有两个细化器（G1和G2），并最终生成图像的分辨率为256 ×256。通过注意力计算上下文向量。两种贴片方式上下文向量Cpat和对象式上下文向量Cobj是用于特定图像区域的注意力驱动的上下文向量，并对来自与该图像区域最相关的单词的信息进行编码。逐12177块上下文向量是12178不J不J不不不不图3：物体驱动的专注图像生成器。对于传统的网格注意力，我们使用图像区域特征hj，它是前一个隐藏层中的一列- erh∈RDpat×Npat，来查询预训练的bi-LSTM单词矢量e. 对于新的对象驱动的注意力，我们使用对象类标签 lg的GloVe嵌入，以查询句子中单词的GloVe嵌入，如图1B的下半部分所示4.第一章要素映射串联。分块上下文向量cpat可以直接与前一层中的图像特征向量h j级联。然而，上下文向量cobj不能，因为它们与图4：目标驱动的注意力。对于由CNN的均匀下采样/上采样结构确定的均匀划分的图像块，但是这些块在语义上没有意义。逐对象上下文向量用于由边界框指定的语义上有意义的图像区域，但是这些区域处于不同的尺度并且可能具有重叠。具体地说，的图像块上下文向量 Cpat（边界框而不是隐藏特征图中的像素我们建议将逐对象上下文向量cobj复制到存在第tMtcobj其中，R2是向量外积，如图所示图的右上部分。4.第一章1如果有多个包围盒覆盖同一个像素，我们必须决定应该在这个像素上使用哪个上下文向量。在本例中，我们简单地执行最大池化客观式上下文向量c（obj）是与片j（边界框Bt）相关的词向量的动态表示，其通过下式计算：在所有的边界框中：cobj= maxt：1≤t≤TM tcobj.（六）TsT scpat= βpate i，cobj= βobje i。（三）然后c_obj可以与特征图h连接，并且Ji=1j，i不i=1t我用于下一阶段生成的逐块上下文向量cpat这里，βpat（βobj）表示模型关注的权重标签上下文向量。类似地，我们将类j，i，t，i当生成补丁j时的第i个标签信息添加到整个隐藏特征图中，以获取并且通过以下公式专利标记上下文向量，即，专利exp（sj，i）帕特Tβj，i=ΔTs专利，sj，i=（hj）ei，（4）clab=maxM teg.（七）12179exp（sobj）t我不我1这个操作可以被看作是池化操作的逆操作k=1exp（sj，k）exp（sobj）t：1≤t≤T专利obj不实验室t我βobj=t我Tsk=1，sobj=（lg）Te g.（五）t，k最后，我们连接h，c得双曲余切值.和c并通过12180J^无条件的不不{h}文本通过一个上采样层和几个残差层级联张量网格注意力与对象驱动的注意力的用于计算上述分块上下文向量的过程是AttnGAN [29]中使用的trans-grid注意机制。注意，它的注意力权重βpat和上下文向量cpatj，i j仅当G0阶段中的隐藏特征hpat正确地捕获要在补丁j中绘制的内容时才有用。这基本上是假设在G阶段的生成已经捕获了一个粗略的草图（语义布局）.这种假设对于鸟类[29]等简单数据集有效，但对于COCO [15]等复杂数据集无效，其中生成的低分辨率图像x0通常没有有意义的布局。在这种情况下，网格注意力甚至是有害的，因为逐块上下文向量注意到错误的单词，从而生成与该错误单词相关联的纹理。这可能是AttnGAN生成的图像包含分散的真实纹理块但总体上在语义上没有意义的原因;例如参见图1。类似的现象也出现在《深梦》中[20].相反，在我们的对象驱动注意力中，注意力权重βobj和上下文向量cobj依赖于图5：对象式的ppix=Dpix（Enc（x，M）），（9）gt，it类标签lt的边界框，并独立于处于G0阶段的一代。因此，逐对象上下文向量总是有助于生成与预生成的语义布局一致的图像。一个-在这里，我们首先将图像x和形状M连接起来，信道维度，然后通过另一卷积特征提取器Enc提取分块特征概率ppix确定补丁是否与该设计的其他益处是上下文向量C_obj可以给定形状。我们的分片判别器Dpat专利文本也可以在第3.2.2节中使用。3.2.2鉴别器我们设计了逐块和逐对象的判别器来训练上述注意的多级生成器。给定来自由CNN的均匀下采样结构确定的均匀划分的图像块的块，块式插值器试图确定该块是否真实（无条件）以及该块是否真实（无条件）。Dpix类似于PatchGAN [11]，用于图像到图像的翻译任务。与AttnGAN [ 29 ]中的全局判别器相比，分块判别器不仅减小了模型大小，从而能够生成更高分辨率的图像，而且还提高了生成图像的质量;实验证据见表1。对象式鉴别器。给定图像x、对象B1：T的边界框以及它们的形状M，我们提出以下逐对象鉴别器：与句子描述一致或不一致（条件- al）。给定对象目标Ttt=1=FastRCNN（x，M，B1：T），在这其中，明智的反对派试图阻止-pobj，un = Dobj （hobj），pobj，con=Dobj（hobj，eg，cobj）.我的这个区域是否现实（无条件）tuncond.tttt不（十）以及该区域是否与句子de-有条件的（conditional）贴片鉴别器。给定一个图像-句子对x，e<$（e<$是句子向量），分块无条件和文本无条件可以写为在这里，我们首先连接图像x和形状M，并通过具有ROI对齐层[7]的快速R-CNN模型[4]为每个边界框提取区域特征向量hobj;参见图5（a）。然后，类似于分片判别器（8），无条件（条件）概率专利专利pobj，un（pobj，con）判断第t个对象是否ppat，un=D（Enc（x）），ppat，con=Dte xt（Enc（x），e<$），t tg无条件的（八）stic（与它的类标签et和它的文本上下文信息cobj）或不;见图。5（b）。这是手套其中Enc是提取t的卷积特征提取器，不objpatch-wise features，Duncond. （Dpat）确定补丁是否真实（与文本描述一致）。形状鉴别器以类似的方式，我们有我们的块式形状鉴别器嵌入类标号和c t是它的文本背景-定义在（3）中。所有的鉴别器都是通过传统的交叉熵损失[5]来训练的得双曲余切值.12181Pat，un联系我们^我JJ3.2.3图像发生器的损失函数发电机λ Σ不不表1：定量实验。标记为0、1和2的方法分别表示使用预测框和形状、地面实况框和预测形状以及地面实况框和形状的实验我们分别使用粗体、粗体和粗体来突出显示这三种设置下的最佳性能标有†的方法的结果是在LGAN（G）= −obj不 t=1logpobj，un一个小女孩。loxss+ logpobj，con“objc oond'obj." 我的小弟弟原始文件。↑（↓）表示越高（越低）越好。Npat1-对数p+λtxtlogpNpat帕特孔 +λpixlogpπ xπj=1“我的孩子。罗sxs文本条件损失s'hapecocococococo. 罗sxs这里，T是边界框的数量，Npat是数量。正则面片的BER，（λobj，λtxt，λpix）是对象式GAN丢失、补丁式文本条件丢失和贴片式形状条件损失，分别。我们尝试将我们的鉴别器与光谱归一化投影[18，19]相结合，但没有发现显著差异。性能改进。我们在§ 4.1中报告了频谱归一化版本的性能，并在§？？.结合深层多模态注意相似性模型（DAMSM）损失在[29]中介绍，我们最终的图像生成器LG=LGAN+λ DAMSML DAMSM（11）其中，λdamsm是待调整的超参数。这里，DAMSM损失是计算的单词级细粒度图像-文本匹配损失，这将在§？？.基于对保留的验证集的实验，我们将本节中的超参数设置为： λobj=0 。 1 ， λtxt=0 。 1 ， λpix=1 且λdamsm=100。一个共同的评价指标排名检索结果，以评估是否生成的图像是很好的条件下，给定的文本描述。更具体地说，给定一个预先训练好的图像到文本检索模型，我们使用生成的图像来查询它们对应的文本描述。首先，给定以句子s为条件的生成图像x，和99个随机抽样的句子{s′：1≤i≤99}，我们根据预先训练的图像到文本的排序对这100个句子进行检索模型如果地面真值语句s被排序，备注3.1. 块式和对象式的判别器都可以应用于生成中的不同阶段。按照[33，11]，我们对生成的每个阶段都应用了分片方式的递归，但只在最后阶段应用对象方式的递归。4. 实验数据集。我们使用COCO数据集[15]进行评估。它包含80个对象类，其中每个图像都与对象注释相关联（即，边界框和形状）和5个文本描述。我们使用2014年官方的训练（超过80K图像）和验证（超过40K图像）分别用于训练和测试阶段。评估指标。我们使用 Inception 评分 [25] 和Fre'chetinceptiondistance（FID）[8]评分作为定量评估指标。在我们的实验中，我们发现Inception分数可以饱和，甚至过拟合，而FID是一种更可靠的测量方法，并且更好地与人的质量评估相一致在[29]之后，我们也使用R-精度，不J方法初始↑FID↓R-prcn（%）↑目标GAN0二十七岁37±0。22二十五8586岁。20±2。98目标-GAN1二十七岁96±0。39∗二十四岁19∗88岁36± 2。82目标-GAN229岁89± 0。22∗∗20块75∗∗89岁。59±2。67P-AttnGAN w/Lyt0十八岁84±0。29五十九02六十五71±3。74P-AttnGAN w/Lyt119号。32±0。29五十四9668岁40± 3。79P-AttnGAN w/Lyt220块81± 0。16四十八47七十94± 3。70P-AttnGAN二十六岁31±0。4341岁5186岁。71±2。97Obj-GAN w/0SN二十六岁97±0。3129岁0786岁。84±2。82Obj-GAN w/1SN二十七岁41±0。17二十七岁2688岁70 ±2。65∗Obj-GAN w/2SN28岁75± 0。3223岁3789岁。97± 2。56∗∗Reed等人[23]7 .第一次会议。88± 0。07n/an/aStackGAN [32]†8. 45± 0。03n/an/a[29]第二十九话23岁79± 0。3228岁7682岁98± 3。1512182最高，我们认为这是一个成功的检索。对于测试数据集中的所有图像，我们执行一次检索任务，并最终将成功检索的百分比作为R精度分数。重要的是要指出，这些定量指标都不是完美的。在复杂的场景中，需要更好的度量来事实上，Inception评分在评估生成图像的语义布局R-precision s- core依赖于它使用的预先训练的图像到文本检索模型，并且只能捕获检索模型能够捕获的方面。我们使用的预训练模型在捕捉复杂场景中对象之间的关系方面仍然有限，因此我们的R精度分数也是如此。定量评价。我们在完整验证数据集的两个设置下计算这三个指标。定性评价。除了定量评估之外，我们还可视化了Obj-GAN的所有消融版本的输出和最先进的方法（即，[29]）的预训练模型是公开的。12183图6：总体定性比较。所有图像都是在不使用任何地面实况信息的情况下生成的4.1. 消融研究在本节中，我们首先评估对象驱动注意力的有效性。接下来，我们比较了对象驱动的注意机制和网格注意机制。然后，我们评估Obj-GAN的频谱归一化的影响。我们使用Fig.6和表1的上半部分，以呈现Obj-GAN的不同消融版本之间的比较请注意，所有消融版本都已经用批量16训练了60个历元。此外，我们使用表1的下半部分来显示Obj- GAN与以前方法的比较最后，我们在小说文本描述上验证了Obj-GAN对象驱动的注意力为了评估对象驱动的注意力机制的功效，我们通过禁用Obj-GAN中的对象驱动的注意力机制来从本质上讲，P-AttnGAN w/Lyt 可以被认为是 AttnGAN 的改进 shape（形状）），用于处理条件布局（缩写为“Lyt”）。此外，它也可以被认为是[9]的修改实现，其类似于它们的两步（布局图像）生成。请注意，P-AttnGAN w/Lyt和[9]之间有三个关键差异：（i）P-AttnGAN w/ Lyt具有多级图像生成器，可以逐渐增加生成的分辨率并细化生成的图像，而[9]具有单级图像生成器。(ii)在网格注意模块的帮助下，P-AttnGAN w/ Lyt能够利用细粒度的单词级信息，而[9]则以全局句子信息为条件。（三）第三个区别在于他们的损失函数：P-AttnGAN w/Lyt使用（11）中的DAMSM损失来惩罚生成的图像和输入文本描述之间的不匹配，而[9]使用感知损失来惩罚生成的图像和地面真实图像之间的不匹配如表1所示，P-AttnGAN w/ Lyt产生比[9]更高的Inception评分。我们在三种设置下比较Obj-GAN和P-AttnGAN w/Lyt，每种设置对应于一组条件布局输入，即，预测框形状、地面实况框预测框和地面实况框形状。&&&如表1所示，Obj-GAN consideration在所有三种指标上均优于P-AttnGAN w/ Lyt。在图7中，我们使用与条件输入相同的布局，并比较它们生成的图像的视觉质量一个有趣的现象显示在图。7是前景对象（例如，飞机和火车）和背景（例如，由Obj-GAN合成的纹理对象驱动的注意力对前景对象的有效性是容易理解的。使用对象驱动注意机制的背景纹理的好处可能是由于它隐含地提供区分前景的更强信号的事实。因此，当合成特定区域的纹理时，图像生成器可以具有更丰富的指导和更清晰的强调。网格注意力与对象驱动的注意力我们在这里比较了Obj-GAN和P-AttnGAN，以便比较对象驱动和网格注意力机制的效果S.在图8中，我们示出了每种方法的生成图像以及在图8上对齐的对应注意力图。12184图7：与P-AttnGAN w/ Lyt的定性比较。图8：与P-AttnGAN的定性比较。每种方法的注意力图都显示在生成的图像旁边。正确方向在网格注意力地图中，区域的亮度反映了该区域对地图上方单词的关注程度对于物体驱动的注意力图，每个注意力图上方的单词对象驱动注意力地图的突出显示区域是对象形状。如§3.2.1中所分析的，网格注意力权重的可靠性取决于前一层的IM的质量年龄区域特征这使得网格注意力有时不可靠，特别是对于复杂的场景。例如，图中的网格注意力权重。8是不可靠的，因为它们是分散的（例如，“人”的注意力地图）和不准确。然而，这对于对象驱动的注意力机制来说不是问题，因为其注意力权重直接从词的嵌入向量计算，s和类标签，并且独立于图像特征。此外，如图4、Equ。（6）对象驱动的注意上下文向量的影响区域受对象形状的约束，进一步增强了其语义意义。因此，实例驱动的注意力显著提高了生成图像的视觉质量，如图所示。8.此外，如果改进语义布局生成，性能可以进一步提高。在极端情况下，基于地面实况布局的Obj-GAN（Obj-GAN2）具有最佳视觉质量（图中最右列）8）和最佳定量评价（表1）。Obj-GAN w/ SN与目标我们在表1和图2中给出了鉴别器中六、我们观察到视觉质量没有明显改善，但定量指标略有下降。我们表明图9：为小说描述生成的图像。更多的结果和讨论在§？？.与以前的方法比较。为了将Obj- GAN与以前的方法进行比较，在消融研究中的GAN模型中，我们使用批量大小64训练Obj-GAN- SOTA10个以上的epoch。为了在FID上评估 AttnGAN，我们对官方发布的预训练模型进行了评估请注意，S-g2 Im [12]专注于从场景图生成图像，并对COCO的不同分割进行评估。然而，我们仍然包括Sg2Im的结果，以反映相关主题的更广泛背景。如表1所示，Obj-GAN-SOTA显著优于所有以前的方法。我们注意到，批量大小的增加确实提高了Inception分数和R精度，但没有提高FID。可能的解释是：在更大的批量大小下，（11）中的DAMSM损失（本质上是排序损失）起着更重要的作用，并且提高了初始和R精度，但是它并不关注于减少生成的图像和真实图像之间的FID。泛化能力。我们进一步调查Obj-GAN是否只是记住了COCO中的场景，或者它确实学习了-这是物体与周围环境的关系。为此，我们编写了几个描述，这些描述反映了现实世界中不太可能发生的新场景，例如，一辆双层巴士漂浮在湖面上，或者一只猫在抓飞盘。我们使用Obj-GAN来合成这些罕见场景的图像。结果表明，该方法是可行的。9进一步证明了Obj-GAN良好的泛化能力。5. 结论在本文中，我们提出了一个多级对象驱动的注意生成对抗网络（Obj-GANs），用于从文本描述中合成具有复杂场景的图像。在每个阶段都有一个新的对象驱动的注意力层，我们的生成器能够利用细粒度的单词/对象级别的信息来逐渐细化合成图像。我们还提出了基于Fast R-CNN的逐对象判别器，每个判别器都与生成器的条件输入配对，并为该条件提供逐对象判别信号。我们的Obj-GAN在大规模Chal-Challening COCO基准测试的各种指标上明显优于以前最先进的GAN模型大量的实验证明了Obj-GAN在复杂场景的文本到图像生成上的有效性和泛化能力。12185引用[1] P. Anderson，X.他，C.Buehler、D.Teney，M.约翰逊先生，S. Gould和L.张某自下而上和自上而下关注图像字幕和vqa。CVPR，2018年。[2] D.巴赫达瑙湾Cho和Y.本吉奥。通过联合学习对齐和翻译的神经机器翻译。arX- iv：1409.0473，2014年。[3] E. L. Denton，S. Chintala、A. Szlam和R.费格斯。使用对抗网络的拉普拉斯金字塔的深度生成图像模型2015年，在NIPS[4] R. B.娘娘腔。快速R-CNN。在ICCV，2015年。[5] I. J·古德费洛 J. Pouget-Abadie， M. 米尔扎 B. 许、D.沃德-法利，S。奥扎尔A. C. Courville和Y.本吉奥。生成性对抗网。在NIPS，2014。[6] K. 格雷戈尔岛 Danihelka，A. 格雷夫斯D. J.Rezeland，以及D.维尔斯特拉DRAW：用于图像生成的递归神经网络。ICML，2015。[7] K. 他，G. Gkioxari，P. Dol la'r和R. B. 娘娘腔。面罩R-CNN。InICCV，2017.[8] M. Heusel，H. Ramsauer，T.翁特希纳湾Nessler，G. K-Bauer和S. Hochreiter。通过两个时间尺度的更新规则训练的GAN收敛到纳什均衡。NIPS，2017年。[9] S. Hong，D. Yang，J. Choi，and H.李你推理语义布局的分层文本到图像合成。CVPR，2018年。[10] Q. 黄， P.Zhang ， L.O. Wu 和 L. 张某 captionbot 和drawingbot的涡轮NeurIPS，2018。[11] P. Isola，J.Y. Zhu，T.Zhou和A.A. 埃夫罗斯使用条件对抗网络的图像到图像翻译。在CVPR，2017年。[12] J. Johnson ， A.Gupta 和 L. 飞飞从场景图生成图像在CVPR，2018年。[13] C. 莱迪格湖Theis，F.Huszar，J.Caballero，A.艾特肯A.Te-jani，J.Totz，Z.Wang和W.石使用生成对抗网络的照片般逼真的单幅在CVPR，2017年。[14] K.李，X。Chen，G. Hua，H. Hu和X.他外用于图像-文本匹配的堆叠交叉注意。ECCV，2018年。[15] T.- Y. 林，M。迈尔，S。贝隆吉，J.Hays，P.Perona，D.Ra- manan ， P.Dollr ，和 C.L. 齐特尼克 Microsoftcoco：上下文中的公共对象。2014年，在ECCV[16] S. Ma，J. Fu，C. W. Chen和T.美. DA-GAN：深度注意力生成对抗网络的实例级图像翻译。在CVPR，2018年。[17] E. Mansimov，E.帕里索托湖J. Ba和R.萨拉赫季诺夫从字幕中生成具有注意力的图像。ICLR，2016年。[18] T.宫城，T.卡塔奥卡，M。Koyama和Y.吉田生成对抗网络的频谱归一化ICLR，2018年。[19] T. Miyato和M.小山具有投影判别器的cgans。ICLR，2018年。[20] A.莫尔德温采夫角Olah和M.泰卡深梦，2015，2017。[21] A.拉德福德湖，澳-地Metz和S.钦塔拉使用深度卷积生成对抗网络进行无监督表示学习ICLR，2016年。[22] S. Reed，Z.Akata、S.莫汉，S.滕卡湾schiele和H.李你学习在哪里画什么。在NIPS，2016年。[23] S. Reed，Z.Akata，X.延湖，澳-地洛格斯瓦兰湾schiele和H. 李你生成对抗文本到图像合成。在ICML，2016。[24] S. E. Reed，A. van den Oord，N. Kalchbrenner，S. G.Col- menarejo，Z. Wang，Y. Chen，中国粘蝇D. Belov和N. 德弗雷塔斯。并行多尺度自回归密度估计。ICML，2017。[25] T. 萨利曼斯岛 J. Goodfellow，W. 扎伦巴河谷张A. Radford和X.尘改进的gans训练技术。在NIPS，2016年。[26] A. van den Oord，N. Kalchbrenner，O.维尼亚尔斯湖埃斯佩霍尔特A. Graves和K. Kavukcuoglu条件图像生成与pixelcnn解码器。在NIPS，2016年。[27] A. 瓦斯瓦尼北沙泽尔，北Parmar，J.乌斯科赖特湖琼斯A. N.戈麦斯湖，澳-地凯泽和我。波洛苏欣注意力是你所需要的。NIPS，2017年。[28] K. 徐，J.巴河Kiros、K.Cho，A.C. 库维尔河萨拉胡特-迪诺夫河S. Zemel和Y.本吉奥。显示、出席和讲述：具有视觉注意的神经图像字幕生成。ICML，2015。[29] T. Xu，山核桃P.张，智-地Huang，H.Zhang，Z.甘，X.Huang和X.他外Attngan：使用注意生成对抗网络的细粒度文本到图像生成。CVPR，2018年。[30] Z. Yang，X. He，J. Gao，L. Deng和A.杰·斯莫拉。用于图像问答的堆叠注意力网络。在CVPR，2016年。[31] H.张岛Goodfellow，D. Metaxas和A. Odena自我注意生成对抗网络。arXiv预印本arXiv：1805.08318，2018。[32] H. Zhang，T. Xu，H. Li，S. Zhang，X. Wang，X. Huang和D. Metaxas Stackgan：使用堆叠生成对抗网络进行文本到照片级真实感图像合成。InICCV，2017.[33] H. Zhang，T. Xu，H. Li，S. Zhang，X. Wang，X. Huang和D. N. Metaxas Stackgan++：使用堆叠生成对抗网络的真实图像合成。TPAMI，2018年。[34] S. Zhang，H.董，W。Hu，Y. Guo，C. Wu，D.邂和F.吴通过视觉记忆创意对抗网络进行文本到图像合成。在PCM，2018年。[35] S. Zhang，H.董，W。Hu，Y. Guo，C. Wu，D.邂和F.吴通过视觉记忆创意对抗网络进行文本到图像合成。在PCM，2018年。

下载后可阅读完整内容，剩余1页未读，立即下载