基于语义增强的文本到图像合成模型

100 浏览量更新于2023-10-16 收藏 1.29MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

10501基于语义增强的对抗网络的文本到图像合成Hongchen Tan1人，Xiuping Liu1人，Xin Li2人，Yi Zhang1人，Baocai Yin1，3人大连理工大学1、路易斯安那州立大学2、鹏程实验室3{tanhongchenphd，dlutzy}@ mail.dlut.edu.cn，{xinli}@ cct.lsu.edu，{xpliu，ybc}@dlut.edu.cn摘要本文提出了一种新的模型，语义增强生成对抗网络（SEGAN），用于细粒度的文本到图像的生成。我们引入了两个模块，一个语义一致性模块（SCM）和一个注意力竞争模块（ACM），我们的SEGAN。SCM将图像级语义一致性引入生成对抗网络（GAN）的训练中，可以使生成的图像多样化，提高其结构一致性。设计了一个Siamese网络和两种类型的语义相似度来将合成图像和地面实况图像映射到潜在语义特征空间中的邻近点该算法构造自适应的注意力权重来区分关键词和不重要的词，提高了SEGAN算法的稳定性和准确性。广泛的实验表明，我们的SEGAN显着优于现有的国家的最先进的方法，在生成照片般逼真的图像。将发布所有源代码和模型进行比较研究。1. 介绍从文字描述合成照片图像有着巨大的应用，如照片编辑和计算机辅助设计。然而，它仍然是一个令人担忧的视力问题。最近，基于生成式广告网络（GAN）[6]，已经开发了许多有效的方法[28，42，9，44，40，16]，并取得了可喜的成果。由有限的文本语义生成的图像内容具有很大的任意性，这是阻碍合成具有良好分辨率的真实感图像的一个问题。大多数现有的文本到图像的合成方法的条件下的内容生成的训练只使用语义信息从文本数据。然而，从这些有限的单词中，生成器有时很难学习足够丰富的内容以形成逼真的图像。因此，生成的图像往往容易出现语义结构歧义和类别信息混淆。*表示相等的贡献†表示通讯作者图像合成器的训练通常在具有描述性文本和相应的地面实况图像的数据上进行。我们相信这些地面实况图像提供了非常有价值的内容语义，以帮助训练图像合成器。因此，我们的基本思想是使用文本语义和图像内容来训练图像合成器我们期望这样的合成器生成的图像将包含更多的结构化上下文信息，更生动。此外，许多现有的文本到图像合成器基于全局句子特征来创建内容，这可能会错过单词级别的重要细粒度信息并影响合成图像的质量最近，AttnGAN [40]结合了单词级和事件级注意力机制，以产生细粒度的图像生成。然而，在AttnGAN [40]的词级注意机制中，注意力会集中在句子中的每个词上。本文的第二个技术改进是生成自适应注意机制，使重要的词获得足够的注意力，而不重要的词可以被忽略。这可以提高SEGAN对细节的描述能力，进一步提高训练合成器的稳定性和准确性。基于上述观察，我们专门在我们的图像合成GAN中设计了两个新模块第一个模块是语义一致性模块（SCM），其中我们提出了一个连体网络（SiaNet）来将合成图像Ia’拉向其对应的地面实况图像Ia，并将Ia’的图像推离与不同文本描述相关联的另一个图像Ib。 SCM通过将合成图像及其对应的地面实况映射到潜在语义特征空间中输出流形上的邻近点来提高语义一致性。此外，我们观察到SCM的训练涉及简单和困难的样本。我们根据样本的难度进一步修正了SiaNet的对比损失，以解决这种不平衡。第二个模块是注意力竞争模块（ACM），它为关键词构造注意力权重，抑制不重要词的影响我们通过在ACM训练中的注意力正则化来实现这一点10502词特征ACM局部图像特征AGNZ~N（0，1）文本描述文本编码器F1HF2F3Fca1H2H3语句特征SCM图像编码器64×64×3128×128×3256×256×3D1D2D3Fattn2Fattn1G3SiaNet-3SiaNet-2SiaNet-1G2G1图1.建议SEGAN的架构 SEGAN由文本和图像编码器，[40]中的注意力生成网络（AGN）和两个新组件组成：ACM和SCM。ACM抑制视觉上不重要的词的词级注意力权重。SCM提高了合成图像与其对应的地面实况图像之间的语义一致性。本文的主要贡献如下：（i）我们提出了一种新的语义增强的生成对抗网络（SEGAN）用于文本到图像的生成。其有效性得到两个新组成部分的支持：语义一致性模块（SCM）和注意力竞争模块（ACM）。(ii)我们设计了一种新的滑动损失法来代替常用的对比损失法，使单片机能更好地平衡处理简单和困难的数据样本。(iii)我们在两个数据集上验证了我们提出的方法：[38]《孝经》云：“孝经者，孝也;孝经者，孝也。大量的实验表明，我们的算法明显优于现有的最先进的。2. 相关工作从文本描述生成真实感图像近年来，这方面的研究取得了重大进展。各种方法，如变分推断[7，24]，近似 Langevin 过程 [29] ，通过最大似然估计的条件PixelCNN [29，26]和条件生成对抗网络（GAN- s）[30，28，42，9]，已经开发出来解决这个问题。在所有这些方法中，基于GAN的算法产生了最先进的结果。语义一致性。最近基于GAN的文本到图像合成[28，42，9，44，40，16，10]仅使用输入文本的语义设计生成过程。如第一节所讨论的，这样的文本描述容易产生语义结构歧义和类信息混淆。另一方面，来自与给定文本匹配的真实地面图像的结构和空间信息可以提供丰富的有价值的额外信息，以更好地指导图像合成。在其他几个计算机视觉任务中，例如unsu-持久域人物重新识别[3，39，46]和图像到图像风格转移（CycleGAN）[15]，这种来自地面实况图像的指导已经被证明在增强合成图像的结构一致性方面是有效的。例如，CycleGAN [15]引入了语义一致性，以提高翻译图像的语义结构质量基于 CycleGAN [15] ，SPGAN [3]介绍了翻译图像与源数据集中对应图像之间的语义相似性，以更好地保留人员ID标签并产生跨域人员重新识别。受SPGAN [3]的启发，我们认为将图像级语义一致性引入文本到图像合成中也可以期望地丰富合成图像中的语义结构信息。视觉注意力机制。早期基于GAN的文本到图像合成算法，如[28，42，9，44]使用整句特征，有时会忽略单词级别的重要细粒度信息，并导致低质量的合成图像。最近，AttnGAN [40]引入了一种用于文本到图像合成的组合文本级和单词级视觉注意机制，通过关注文本描述中的相关单词，它增强了不同图像区域的细粒度细节的合成。基于 AttnGAN[40]，obj- GAN [18]提出了一种对象驱动的注意力机制，以进一步改进细节合成，并产生更精细的图像。然而，obj-GAN [18]要求训练图像包含每个感兴趣对象的边界框和形状信息。但是生成这样的标签并不简单：当处理大型图像数据集时，它是耗时且昂贵的。这限制了它在从更一般的文本描述合成图像时的可扩展性和可用性。AttnGAN [40]和obj-GAN [18]的局限性在于，它们的注意力权重是为句子中的每个单词定义的，即使是不重要的单词。这种不必要的关注10503exp（si，j）k=1可能会影响经过训练的生成模型的稳定性和质量（例如，参见图3）。直观地说，只关注关键字可以提高生成器训练的效率，在其他计算机视觉任务中，例如人员搜索[35]，人员重新识别[17，2]，对象跟踪-ing [11，45]和Image Captioning [41，22]，研究了视觉GLIA [1]通过组块提取名词短语，然后基于图像区域与人Re-ID的名词短语之间的隐式对应关系考虑局部关联。[34]在注意力机制中采用了多样性正则化项，以确保多个模型在视频人重新识别的任务中不会发现相同的身体部位。受[34]的启发，在[40]的词级细粒度注意模型的基础上，我们在注意机制中引入了注意正则化项，以提高关键词的语义注意质量，并试图抑制非关键词的注意权重。3. 语义增强的生成式对抗网络我们在图1中说明了我们的语义增强的生成对抗网络（SEGAN）架构的设计我们的SEGAN有四个主要组件：文本和图像编码器，注意力生成网络（AGN），语义一致性模块（SCM）和注意力竞争模块（ACM）。这两个编码器为ACM和AGN准备文本特征和图像特征ACM包括一个新的注意力正则化项和DAMSM词向量的维数，T是给定句子中不同单词的数量。图像编码器。在[18，40，14]之后，我们的图像编码器使用在ImageNet [31]上预训练的Inception-v3模型[36]。我们首先将输入图像重新缩放为299×299像素，然后将其馈送到编码器。然后，从Inception- V3模型的“ 混合 6 e“ 层中提取局部特征矩阵 f∈R768×289 （由768×17×17f的每一列是图像中的子区域的特征向量。局部特征向量的维数和图像的子区域数为768分别为289。同时，一个全局特征向量f<$∈R2048是从最后一个平均池化层中提取的关于Inception-V3 最后，我们将图像特征映射到通过增加一个感知器层，构造了文本特征的规范语义空间： v=Wf ， v<$=W<$f<$，其中 v∈RD×28 9 ，v<$∈RD，D是该语义空间的维数。3.2.注意力竞赛模块我们设计了一个新的机制，注意力竞争机制（ACM）在图1中，以帮助文本编码器识别视觉上重要的关键字。为了实现这一目标，我们设计了一个新的注意力正则化项，并重用DAMSM损失[40]来过滤掉不重要的单词。DAMSM [40]是衡量图像和文本描述之间的匹配程度，这使得生成的图像更好地依赖于文本描述。注意力正规化。首先定义一个图文相似度矩阵S=（si，j）=eTv∈RT×289，对句子中第i个词与图像中第j个子区域的点积相似度进行损失[40]，这有助于文本编码器提取视觉IM-这个S被归一化为S=（si，j）=exp（si，j）Σ得双曲正弦值.AGN的关键词在AGN中，文本编码器不k=1 exp（sk，j）由ACM预训练的语义向量提供了对视觉上重要的词进行编码的语义向量。SEGAN生成器然后根据这些关键字合成图像子区域在SCM中，使用多尺度SiaNets来为生成器产生语义一致性约束。在图像合成中，它们丰富了图像的语义结构信息和图像ID信息.3.1. 文本和图像编码器我们首先描述了文本和图像编码器的设计，为SEGAN的其他模块准备文本和图像功能。该设计遵循广泛采用的设计然后归一化为R=（ri，j）=1289exp（si，k）。其次，在AttnGAN [40]中，注意力集中在句子中的每个单词上。但是，不必要地强调非视觉词，如“is”、“the”和“has”，可能会对生成模型的稳定性和质量产生负面影响（例如，我们的观察是，只有专注于视觉关键字可以受益的效率，准确性和稳定性的生成器受最近文本嵌入网络[21，34]中使用的注意力正则化的启发，我们提出了一个新的注意力正则化项，通过寻找“适者生存”来构建单词的注意力权重具体来说，我们定义从最先进的文本到图像合成器[18，40，14]。文本编码器提取整个句子和句子中每个单词在[18，40，14]之后，ΣLc=（min（ri、ji、j，α））2，（1）我们使用双向长短期存储器[33]来构造该编码器。它需要一个句子（即，词序列）作为输入，并输出句子特征向量e<$∈RD和两个特征矩阵e∈RD×T，其中-第si列ei是第i个词的特征向量，D是其中下标在训练过程中，视觉上重要的词是那些注意力权重相对于cer的词。tain图像在Lc的情况下，跨模态相似性匹配损失LW和LS将推动10504我是我a我bj，ij，k我一一Ia真这只小鸟有深蓝色的冠、背和臀部，还有亮白色的腹部。鉴别器Di假发电机Gi我一个'……Ia或IbSiamese Network中文图2.SEGAN中的语义一致性模块（SCM）的体系结构视觉上重要的词的注意权重超过阈值α。他们的注意力权重将被保留。相比之下，视觉上不重要的单词是那些相对于所有图像子区域的注意力权重他们的注意力权重将减少并向0移动。因此，这些话将被压制。更多分析请参见补充材料中的A节RD×N. 首先，将词特征映射到与图像特征相同的潜在语义空间，即，e′= Ue，其中U∈RD<$ ×D对应于一个感知层r。 h（隐藏特征）的每一列是图像子区域的特征向量。然后，对于第j个子区域，其词向量的动态表示w.r.t. hj是最后，ACM中的组合损耗公式为：ΣTq=θe′，其中θexp（S′）=Σ.（四）L ACM = L DAMSM + λ1 L c.（二）Ji=1j，iij，i不k=1 exp（S′）通过在一个保持验证集上的实验，我们设置了这里S′=hTe′，θj，i表示模型的权重j，i j i超参数λ1= 2。3.3. 注意力生成网络[40]我们采用了注意力生成网络（AGN），[40]作为我们的基本生成器，由于它在生成逼真的图像方面具有良好的性能。因此，我们在本小节中重新讨论活动星系核。如图1所示，首先由ACM预训练的文本编码器为注意力生成网络（AGN）提供视觉上重要的关键字。然后，AG-N合成图像的不同子区域，跟随它们最相关的词。活动星系核有两个镜像生成器（ G1， G2，···，G），它们把隐藏态（h1，h2，···，h）作为输入，生成小到大尺度的镜像（I1，I2，···，I）：h1=F1（z，Fca（e<$））;当生成第j个子区域时分配给第i个的图像。通过ACM预训练文本编码器，θ中不重要词的注意力权重低于视觉重要词。然后，图像特征集h的文本视觉矩阵由Fattn（e，h）=（q1，q2，.，qN）∈RD×N，为下一级提供k个y-序信息。最后，图像特征h和对应的文本视觉特征被组合以在下一阶段生成图像。3.4. 语义一致性模块如第1节所述，我们希望在训练期间将合成图像的图像ID对比损失。给定合成图像Ia'，其对应的地面实况图像Ia，以及另一个随机hi=Fi（hi−1，Fattn（e，hi−1）），其中i = 1，2，···，;Ii=Gi（hi）。（三）我最好用另一句话来描述我的形象，假设他们的归一化的特征向量分别是（Ia）、（Ia′）和（Ib）如图2所示，我们使用Siamese Net-这里，z<$N（0，1）。Fca是一个条件增强模块[42]，它将句子特征e'转换为条件，发电机的特点。 Fca、Fattn、Fi和Gi工作（SiaNet）来推动正对，（Ia）和（Ia′），彼此靠近，并拉动负对，（Ia）和（Ib），彼此远离。这个SiaNet可以使用我Attn第八节对比损失在SEGAN的第i阶段都被建模为神经网络。Fi代表i阶段关键注意力模型注意力模型Fattn（e，h）具有两个输入：来自预训练文本编码器的单词特征e∈RD×T和来自先前隐藏层的图像特征h ∈Lconi=.d（I′，Ia））2（正对）max2（0，mi−d（<$（I′），<$（Ib）））（negative pair）（五）10505i=1i SLiL， L=1+d1+d我我v {，}我我其中mi>0是可分性边界，d（x，y）给出x和y之间的欧几里得距离。滑动损失。在SiaNet训练过程中，有些样本对很容易区分，但有些很难区分。在许多定义为LG= LG+λ2 LACM+ LSL， LD=ΣΩi=1LDi.（九）计算机视觉任务[23，19，4]，有效地平衡容易与硬样本相比，对训练质量很重要。在-这里，LG=ΣΩi=1GiSLΣΩηL在我们[19]在《古兰经》中，“凡所有相，皆是虚妄”。在传递损失函数中，我们进一步增加了两个调制因子，tors，（d）γ和（1 −d）γ，为正对和负对，目前，SEGAN有三级发电机（=3）。而λ2=100是为了平衡方程的这些项9. 在LSL中，η1=1，η2=5，η3=10。并通过1+d1+d分别，并称之为滑动损失（SL）：在一个保持验证集的实验中，我们设置了超-参数m1=1，m2=2，m3=3。n（d）γd2（正对）LSLi=πγ24. 实验结果D1+d）max（0，mi−d）（negativepair）（六）我们进行了大量的实验，以评估亲-这里γ≥0是可调滑动参数。当γ=0时，滑动损失变为对比损失。两调节因子（d）γ和（1-d）γ可以自适应-SEGAN介绍首先，我们讨论了每一种方法的有效性SEGAN中引入的新模块：ACM和SCM。然后，我们比较了我们的SEGAN与其他国家的最先进的GAN1+d1+d模型[28，30，25，42，9，13，44，43，13，40，14，18，27]。ly调整正负样本对的权重。以正样本为例，当γ> 0时，d越大，惩罚权重（d）γ越大，反之亦然。因此，设置γ>0减少了训练良好的样本对的相对损失，我们更关注硬样本对。随着γ的增大，调制因子的影响也增大我们发现γ = 1/2在我们的实验中效果最好。3.5. 生成性和判别性损失将上述模块组合在一起，在SEGAN的第i阶段，生成损失LGi和判别损失LDi被定义为：数据集。使用了两个广泛使用的数据集。CUB数据集[38]包含属于200个类别的11，788个鸟类图像，每个图像有10个视觉描述语句我们按照[28，42]中的相同管道对图像进行预处理和分割。COCO数据集[20]包含80k个训练图像和40k个测试图像，每个图像有5个文本注释。评价。我们使用 Inceptionscore[32] ， Fre'chetInceptionDistance（FID）[12]和[44，5]中的视觉语义相似度作为定量评价指标。合成大小的图像也进行了视觉比较，定性电子估值初始得分[32]是对生成图像的客观性和多样性的度量。国际金融调查局-L=−1E[logD（I）]−1E[logD（I，e<$）]，（七）将合成和真实世界之间的弗雷歇距离我的朋友i iiiPi i2iGiv2i Gi˛¸}无条件损失联系我们条件损失图像的基础上提取的特征，从预先训练的Inception-V3网络[36].低FID意味着低-无条件损失被训练成图像向真实的数据分布，以欺骗欺骗用户，并训练条件损失以生成与文本描述匹配的样本。训练CNOIDi以将输入分类为通过最小化交叉熵损失来生成的图像分布和真实世界的图像分布之间的距离。上述指标广泛用于评估标准GAN。但是，它们不能衡量合成图像与相应文本描述之间的语义一致性因此，与[44]相同，我们也使用视觉语义相似度作为我们的第三个评估满足-L=−1E[logD（I）]−1E[log（1−D（I）]+Ric. 我们使用[5]中的训练模型来评估语义D2Ii数据iv-1 E I P我i2 IPGi我非条件性损失[logD（I，e<$）]−1E<$[log（1−D（I<$，e<$）]，一致性，并选择Rank-1作为我们的评价分数。网络设置。我们在SEGAN的每个阶段使用具有滑动损失（S-L）或对比损失（CL）的SiaNets。是-2i数据iii2 IiPGii我条件损失（八）其中，Ii来自第i个尺度的真实图像分布p数据，并且Iii来自相同尺度的生成图像的分布pG。为了生成逼真的图像，生成网络和判别网络的最终目标函数是（1−10506因为AttnGAN和其他最先进的方法可以合成高分辨率图像。因此，本文讨论的所有合成图像都是256×256。我们的基线模型是AttnGAN [40]，因为它具有出色的性能。培训详情。在SEGAN中，拟议SEGAN的发电机和判别器损失遵循[40]由于其出色的性能。文本编码器和10507F用于视觉语义嵌入的视觉特征的初始模型由[40]预训练，并在端到端训练期间固定随机初始化发生器和振荡器的网络参数4.1. 消融研究表1.通过结合SEGAN的不同组成部分产生的初始分数。最终SEGAN=基线+AC+SL。方法幼崽Coco基线[40]4.31 ±0.0225.56 ±0.19基线+AC，α = 0。0054.61 ±0.0426.83 ±0.33基线+CL4.44 ±0.03-基线+SL，γ=1/24.58 ±0.0327.13 ±0.26SEGAN，γ= 1/2，α =0。0054.67 ±0.0427.86 ±0.31新模块的有效性。我们评估了两个新组件ACM和SCM的有效性，并将结果记录在表1中。(1)我们将具有对比损失（基线+ CL）的SiaNet- s引入基线模型，这导致3。Inception s提升0%表3. CUB数据上ACM超参数α的讨论方法初始分数基线[40]4.31 ±0.02基线+AC（α = 0. 001）4.41 ±0.03基线+AC（α = 0. 003）4.53 ±0.03基线+AC（α = 0. 005）4.61 ±0.02基线+AC（α = 0. 008）4.55 ±0.01基线+AC（α = 0. 05）4.51 ±0.02基线+AC（α = 0. 第五章）4.46 ±0.01基线+AC（α=1）4.25 ±0.01SCM模型为了找到合适的γ，我们通过实验来评估SCM 如表2所示，当γ ∈（0，1/2]时，基线+SL比基线+SL（γ = 0）具有更好的性能，基线+SL（γ=1/2）的Inception得分达到4。五十八岁明显优于γ=0。当γ太大时，per-k减小。随着γ越来越大，大多数样本对的平均值变得越来越低。如果我们不调整等式中LSL的权重9，一个很大的γ使得核心超过CUB测试数据集的基线。（2）更换滑动损失的对比损失（基线+SL）进一步导致6。3%和6. 在CUB和COCO测试数据集上，Inception评分分别提高了1%(3)如果我们将ACM引入基线（基线+ AC），我们得到7。0%和5。CUB和COCO数据集上的切口评分较基线改善0%。(4)当把ACM和SCM都加入基线时，我们得到SEGAN，它导致8。4%和9。在CUB和COCO测试数据集上，初始得分比基线提高0%这表明这两个组件都有助于SEGAN SEGAN的Inception分数是4.第一章67在CUB和27。COCO测试数据集上的86个表2. 对不同超参数γ的滑动损失（SL）的CUB测试数据的结果。方法初始分数基线[40]4.31 ±0.02基线+SL（γ=0）4.44 ±0.03基线+SL（γ=1/5）4.47 ±0.02基线+SL（γ=1/3）4.51 ±0.04基线+SL（γ=1/2）4.58 ±0.03基线+SL（γ=1）4.41 ±0.01基线+SL（γ=2）4.41 ±0.02语义一致性模块。首先讨论了滑动损失（SL）中参数γ对初始得分的影响，然后给出了SCM模块的一些结果。滑动损失（LS）中的超参数γ控制等式中的权重项的强度。6.当γ=0时，滑动损失退化为对比损失。对于简单的例子，设置γ>0可以减少相对损失，以难例为依据，有利于训练大多数样本对的权重远低于1，这不利于供应链管理模式的培养在综上所述，虽然基线+SL通常在Inception分数上优于基线模型，但我们发现γ = 1/2效果最好。可视化结果显示在图4的第二行（At- tnGAN+SCM）中。与AttnGAN（baseline）相比，AttnGAN+SCM合成的图像包含了更多的语义结构信息，更加真实。注意力竞赛模块。对于ACM，首先我们讨论了方程中超参数α的影响1，其S-竞选SEGAN。其次，我们证明了非关键词的注意力权重可以被ACM抑制我们记录了不同α值下的整体Inception评分。如表3所示，我们发现α = 0。005在我们的实验中效果最好其中α = 0。第005章，那一次，SEGAN评分为4分。61，远高于基线模型（4. 第31段）。当α=1时，注意力调节项（等式1）等价于Lc=<$R <$2，这意味着句子中所有词的注意权重应该被压制。在这种情况下，基线+ AC的Inception评分降至4。二十五图3在合成大小的图像上显示了注意力权重图对于其语义在描述文本描述中表达的子区域，注意力被分配给其最相关的词（图3中的亮区域AttnGAN关注所有的单词，包括不重要的单词。但这种注意可能会导致奇怪的合成子部分（左例）或混沌结构（右例）。相比之下，AttnGAN + ACM可以更好地专注于视觉上重要的单词，并合成更高质量的图像。可视化图4和图5显示了一些更定性的比较。中左五列中的说明10508图3.由AttnGAN（第一行）和AttnGAN + ACM（第二行）生成的单词级注意力权重图图4来自CUB测试数据集。AttnGAN合成的图像相比之下，SEGAN合成的图像包含更多的语义分类细节和结构化信息。除了使用基准中的测试句进行评价外，我们还合成了新的具有相同含义的描述句，以测试不同合成器的稳定性和概括性。图4中右边三列的蓝色句子我们可以看到，我们的SEGAN仍然合成逼真和准确的图像。图5中的描述来自CO-CO数据集。它们描述了更复杂的场景。所有最近的合成器都不能正确处理这个数据集。一些SEGAN生成的图像进行了说明。虽然它们离完美还很远，但它们包含了合理的子部分。综上所述，图4和图5进一步展示了SEGAN的泛化能力。补充材料的B部分给出了CUB和COCO数据集上的更多表4.由最先进的GAN模型和我们的SEGAN在CUB和COCO测试数据集上进行的初始得分。文本到图像方法的最佳分数AttnGAN+O.P.* ：在 COCO 数据集上，论文 [37]（ AttnGAN+Object Pathways ）中 AttnGAN 的初始得分为23.61 ± 0.21。我在打棒球一些船在水上建筑物一张木桌子，上面有一个小尖顶。一个生产的架子，保存文件并与h乌鸦面前的游戏还有一个人电脑旁边的几个盒子。水果和蔬菜表5. AttnGAN和Segan在FID。较低的FID意味着生成的图像分布与真实世界图像分布之间的距离更近。方法鸟CocoAttnGAN（基线）22.50434.398SEGAN（我们的）18.16732.276一碗花椰菜一群孩子狗在奔跑客厅里挤满了西红柿在滑雪板上排成一行。煮熟了嘴里叼着飞盘有很多家具。表6.视觉语义相似度评估（Rank-1）。一分数越高，表示生成的图像和条件文本之间的语义一致性越高。groundtruth分数显示在第一行。方法鸟CocoGroundTruth46.3%百分之二十一点二AttnGAN（基线）百分之二十七点九百分之七点一SEGAN（我们的）百分之三十点二百分之八点九图5. SEGAN生成的256×256使用COCO测试数据集的文本[20]。这是一只红色的鸟。关键词：红鸟非关键词：这是一这只鸟是红色的。关键词：红鸟非关键词：这是AttnGAN+ACMAttnGAN方法幼崽Coco参考[28]第二十八话2.88 ±0.047.88 ±0.07ICML 2016GAWWN [30]3.62 ±0.07-NIPS 2016PPGAN [25]-9.58 ±0.21CVPR 2017StackGAN [42]3.70 ±0.048.45 ±0.03ICCV 2017mvGAN [43]-9.94 ±0.12PCM 2018StackGAN-V2 [9]3.84 ±0.06-TPAMI 2018ISL-GAN [13]-11.46 ±0.09 CVPR 2018HDGAN [44]4.15 ±0.0511.86 ±0.18 CVPR 2018[第13话]-12.40 ±0.08 CVPR 2018[40]第四十话4.31 ±0.0225.56 ±0.19 CVPR 2018AttnGAN+O.P.*[37]第三十七届-24.76 ±0.43ICLR 2019[14]第十四话-23.74 ±0.36arXiv 2019[27]第二十七话4.56 ±0.0526.47 ±0.41 CVPR 2019Obj-GAN [18]-30.29 ±0.33CVPR 2019基线[40]+AC4.61 ±0.0426.83 ±0.33我们基线[40]+SL4.58 ±0.0327.13 ±0.26我们赛根4.67±0.0427.86 ±0.31我们10509这是一个很低的这是一个很低的这只鸟有翅膀这只鸟是黄色的这是一只蓝鸟这只鸟有蓝色的，它是一个很低的小鸟白色和一个非常是绿色的，与黑色在其喉咙发白翅膀和黄色鸟，它有红色有一个小小的喙短喙有一个红色的肚子头，并有一个非常乳房，腹部和肚子，这具有冠和白色短喙一个小的黑色尖喙黑色皇冠肚子图4. 256×256分辨率的图像由我们的SEGAN和AttnGAN [40]根据文本描述生成。左五列中的文本来自CUB [38]测试数据集。右三列的文本由我们编写，以测试生成器的稳定性和可4.2. 与最先进的GAN模型的比较我们将SEGAN与最先进的GAN模型在CUB和COCO测试数据集上进行文本到图像合成表4列出了所有Inception评分。我们的At- tnGAN达到4. 67，也就是8。在CUB测试数据集上比AttnGAN高4%。在COCO测试数据集上，SEGAN达到27. 86分，9分。比AttnGAN好0%。此外，将基线与每个模块相结合，基线+AC和基线+SL，也可以在Inception评分方面比大多数最先进的GAN模型有更好的性能。在表4中，obj-GAN [18]在Inception评分方面优于然而，它们需要额外的信息，包括感兴趣的对象这些附加信息虽然在COCO数据集中可用，但通常不适用于其他数据集，如CUB。因此，Obj- GAN无法在CUB数据集上生成图像。一般来说，在新的数据库中产生这样的信息来训练生成器是昂贵的。这限制了它在更一般的文本和图像数据集中的可扩展性和可用性。在表5中，我们比较了At-tnGAN和SEGAN之间关于CUB 和 MS-COCO 数据集上的 FID 的性能。我们的SEGAN在CUB数据集上将FID从22.504降低到18.167，在COCO数据集上从这表明SEGAN可以学习更好的数据分布。为了证明我们的SEGAN在合成图像和相应的文本描述之间的语义一致性的结果视觉语义相似性评估（文本到图像检索）如表6所示我们使用Rank-1分数来评估SEGAN和AttnGAN的性能地面实况图像-文本对的分数也被示出以供参考。在CUB数据集上，我们的SEGAN达到了Rank- 1 30。2%，明显优于AttnGAN 27。9%。在MS-COCO数据集上，我们的SEGAN达到了Rank-18。9%，也明显优于AttnGAN 7。百分之一。这些结果表明，SEGAN可以更好地捕捉视觉语义信息的文本数据在生成的图像。5. 结论我们提出了一种新的模型，语义增强的生成对抗网络（SEGAN），以解决从文本描述生成图像的问题。我们开发了两个新的组件SEGAN，注意力补偿模块（ACM）和语义一致性模块（SCM）。大量的视觉实验结果表明，SEGAN优于最近的国家的最先进的方法，在文本到图像的合成。未来，我们将探索在GAN模型中加入物体草图约束和样式约束，并对其进行探索，以进一步提高合成图像的质量。确认本工作得到了国家自然科学基金项目（ No.U1811463 ， No. 61728206 ， No. 61632006 号61562062）。这只鸟有绿色的翅膀和白色的腹部，上面有一个蓝色的短环赛根AttnGAN+SCM AttnGAN10510引用[1] Dapeng Chen ， Hongsheng Li ， Xihui Liu ， YantaoShen，Jing Shao，Zejian Yuan，and Xiaogang Wang.通过全局和局部图像-语言关联改进用于人重新识别的深度视觉表示。在ECCV，2018。[2] 梁王万里欧阳淳风宋、颜晃。面具引导的对比注意模型用于人的再识别。在CVPR，2018年。[3] Weijian Deng ， Zheng Liang ， Guoliang Kang ， YangYi，and ZhongJiao.图像-图像域自适应与保留自相似性和域不相似性的人重新识别。在CVPR，2018年。[4] Xingping Dong和Jianbing Shen。用于目标跟踪的连体网络中的三重态损失。在ECCV，2018。[5] 放大图片作者：David J. Fleet，Jamie Ryan Kiros，andSanja Fidler. Vse++：改进了视觉语义嵌入。在BMVC，2018年。[6] Ian J. Goodfellow，Jean Pouget-Abadie，Mehdi Mirza，Xu Bing ， David Warde-Farley ， Sherjil Ozair ， AaronCourville ， and Yoonne Bengio. 生成性对抗网。NeurIPS，2014。[7] Karol Gregor，Ivo Danihelka，Alex Graves，and DaanWier-stra. Draw：用于图像生成的递归神经网络ICML，2015。[8] R. Hadsell，S. Chopra和Y.勒昆通过学习不变映射来降低维数。CVPR，2006。[9] 张涵，徐涛，李洪生，张绍庭，王晓刚，黄晓磊，季米特里斯. stack-gan ++：使用堆叠生成式对抗网络进行真实图像合成IEEE Transactions on Pattern Analysis andMachine Intelligence，2018。[10] 董浩、思妙玉、吴超、郭一克、董浩、思妙玉、吴超、郭一克、董浩、思妙玉。通过对抗学习进行语义图像合成在CVPR，2017年。[11] 何安丰，罗冲，田新梅，曾文军。用于实时目标跟踪的双重连体网络。在CVPR，2018年。[12] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。NeurIPS，2017。[13] Seunhoon Hong，Dingdong Yang，Jongwook Choi，andHonglak Lee.推理语义布局的分层文本到图像合成。在CVPR，2018年。[14] Wanming Huang，Yida Xu，and Ian Oppermann. 使用区域短语注意力的真实图像生成。 Inhttp-s ：arxiv.org/abs/1902.05395，2019.[15] Phillip Isola，Jun Yan Zhu，Tinghui Zhou，and Alexei A.冰-冻。使用条件对抗网络的图像到图像翻译在CVPR，2017年。[16] 贾斯汀·约翰逊，阿格里姆·古普塔，李菲菲。从场景图生成图像。在CVPR，2018年。[17] 马赫迪 M. 放大图片创作者： Alfred J. Kamasak 和Mubarak Shah用于人员重新识别的人类语义解析。在CVPR，2018年。[18] Wenbo Li ， Pengchuan Zhang ， Lei Zhang ， QiuyuanHuang，Xiaodong He，Siwei Lyu，and Jianfeng Gao.通过对抗训练实现对象驱动的文本到图像合成。在CVPR，2019年。[19] Tsung Yi Lin ， Priya Goyal ， Ross Girshick ， KaimingHe，and Piotr Dollar.用于密集对象检测的焦点损失。IEEE Transactions on Pattern Analysis and MachineIntelligence，PP（99）：2999[20] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔和C.劳伦斯·齐尼克。

下载后可阅读完整内容，剩余1页未读，立即下载