没有合适的资源?快使用搜索试试~ 我知道了~
13960DAE-GAN:用于文本到图像合成的动态方面感知GAN阮淑兰1†、张勇2*、张昆3、范彦博2、唐凡4、刘琦1、陈恩红1*1中国科学技术大学计算机科学与技术学院2腾讯AI实验室、3合肥工业大学、4吉林大学slruan@mail.ustc.edu.cn,{zhangyong201303,zhang1028kun,fanyanbo0124,tfan.108} @ gmail.com,{qiliuql,cheneh} @ustc.edu.cn摘要文本到图像合成是指从给定的文本描述中生成图像,其关键目标是图像真实感和语义一致性。以往的方法通常使用句子嵌入生成初始图像,然后使用细粒度词嵌入来细化图像。尽管有显著的进步,红眼睛),指的是几个词,而不是一个词,描绘文本DM-GAN文本方面大干这只黑色的鸟中等大小,眼睛是红色这只黑色的鸟中等大小,眼睛是红色的。黑鸟红眼睛用于合成图像细节。如何更好地利用体视信息进行文本到图像的合成仍然是一个尚未解决的问题。为了解决这个问题,在本文中,我们提出了一个动态的方面awarE GAN(DAE-GAN),表示文本信息的综合,从多个粒度,包括句子级,单词级,方面级。此外,受人类学习行为的启发,我们开发了一种新的面向方面的动态再抽屉(ADR)的图像细化,其中参与的全球细化(AGR)模块和面向方面的局部细化(ALR)模块交替使用。 AGR利用字级嵌入来全局增强先前生成的图像,而ALR动态地采用方面级嵌入来细化图像细节从局部角度。最后,设计了相应的匹配损失函数,以保证文本与图像在不同层次上的语义一致性。在两个经过充分研究和公开可用的数据集(即,CUB-200和COCO)的实验结果证明了该方法的优越性和合理性。1. 介绍文本到图像合成需要代理根据给定的文本描述生成照片般逼真的图像。由于其在许多应用中的巨大潜力†在腾讯AI Lab实习期间完成的工作*通讯作者。图1. DM-GAN [45]和我们的DAE-GAN之间的比较。DM-GAN首先生成具有句子级信息的低分辨率图像,然后用单词级特征对其进行细化DAE-GAN从全局和局部角度细化图像,其中包含单词级别和方面信息。如艺术生成[41]和计算机辅助设计[2]等,但具有挑战性,近年来引起了广泛的研究关注。在过去的几年里,生成对抗网络(GANs)[5]已经被证明在这项任务中取得了巨大的成功[20]。大多数现有方法通过首先生成初始低分辨率图像并且然后将它们细化为高分辨率图像来在两阶段框架上做出努力[38,39,36]。在所有这些方法中,AttnGAN [36]的提出起着极其重要的作用。在初始阶段,句子级信息被用 来 产 生 低 分 辨 率 图 像 。 然 后 , 在 细 化 阶 段 ,AttnGAN利用词级特征,通过反复采用注意力机制来选 择 重 要 的 词 来 细 化 先 前 生 成 的 图 像 。 基 于 At-tnGAN,文本到图像合成已经向前推进了一大步[45,4,18]。在图1的顶部呈现了通过DM-GAN [45]的合成实例。虽然这些努力取得了显著的成效,但仍存在一些局限性。例如,大多数先前的方法仅采用句子级和词级特征,忽略了‘Aspect’ here refers to several13961×某物较大部分或特征。一个句子中经常包含多个方面术语,从不同的角度描述一个物体或场景,例如:、句子的语义理解高度依赖于内容和体[33]。工业界和学术界都已经认识到人称术语和句子之间关系的重要性[3,40,17]。事实上,文本中包含的方面信息可能有助于图像合成,特别是局部图像细节的细化。虽然体视信息的价值已经得到了证实,但是如何更好地利用体视信息进行文本到图像的合成仍然是一个很大的挑战。幸运的是,一些关于人类学习行为的有趣研究可以给我们一些启示。研究人员已经证明,人眼具有中央视觉和周边视觉[1,34,25]。中央视觉集中在一个人在当前时间需要什么,而周边视觉使用对周围环境的观察来支持中央视觉。通过中心视觉和周边视觉的动态运用,我们可以对文本和视觉内容进行深入的为此,在本文中,我们提出了一种新的动态方面感知GAN(DAE-GAN)的文本到图像的合成。具体来说,我们首先从多个粒度对文本信息进行综合编码,包括句子级、词级和方面级。然后,在两个阶段的生成,我们首先生成一个低分辨率的图像与句子级嵌入在初始阶段。接下来,在细化阶段,通过将方面级特征视为中心视觉,将单词级特征视为外围视觉,我们开发了一个AAVO感知的动态重新绘制器(ADR),其交替地应用Attended Global Refinement(AGR)模块和AAVO感知的Local Refinement(ALR)模块来进行图像细化。AGR利用字级嵌入丁全局增强先前生成的图像。ALR动态地利用方面级嵌入从局部角度细化图像细节。最后,为了对中间合成过程进行监督,设计了相应的匹配损失函数,以保证文本和图像的语义一致性。图1的底部示出了我们提出的方法的示例当给出的方面当处理“红眼”方面时我们的主要贡献总结如下:• 我们观察到的巨大潜力方面的信息,并将其应用到文本到图像的合成。• 我们提出了一种新的DAE-GAN,其中文本信息是从多个粒度,并开发了一个ADR,从本地和全球的角度来细化图像。• 大量的实验,包括定量和定性评价,表明了我们提出的方法的优越性和特别是,因果关系研究证明DAE-GAN是一种可解释的模型。2. 相关工作由于其巨大的应用潜力,文本到图像的合成虽然具有挑战性,但也引起了广泛的研究关注。早期的方法已经在该任务上取得了进展,这是由于深层生成模型的出现[14,6,15,30,21]。由于GAN的进步,最近的方法进一步提高了生成质量,并在文本到图像合成上显示出有希望的结果。Reed等人[20]首先开发了一种简单有效的GAN架构,可以实现引人注目的文本到图像合成。尽管如此,图像的大小只有六四六四为此,提出了StackGAN [38],以通过两个阶段生成更高分辨率的图像。他们最初勾勒出主要的形状和颜色,然后重新阅读文本,以产生照片般逼真的图像。与的目的,丢弃堆叠架构,陶等人。[29]提出DF-GAN直接合成图像而无需额外的网络。然而,这些作品只考虑了句子层面的特征,缺乏对文本的精细理解。因此,在生成的图像中经常丢失细粒度的细节。为了解决这个问题,大量的工作已经推动了文本到图像的合成向前迈进了一大步,利用词级的功能,在细化阶段,以提高图像的细节。其中,AttnGAN [36]发挥了重要作用。它利用注意机制在不同的步骤中反复选择重要的词进行图像细化,将文本到图像合成的研究推向了一个新的高度。Zhu等人[45]提出了DM-GAN,该DM-GAN替代了记忆网络的注意机制,以在细化阶段动态地挑选重要的单词。为了提高文本到图像合成中的语义一致性,Qiao et al.[18]通过将生成的图像的重新描述与给定的文本描述语义对齐,提出了MirroGAN。为了探索不同但相关的句子之间的语义相关性,RiFeGAN [4]利用了基于注意力的字幕匹配模型,从先验知识中选择和Yang等人[37]提出了MA-GAN,以减少其生成的具有相似字幕的图像之间的变化,并增强生成结果的可靠性。随着对各种应用的需求以及新数据集的出现,基于GAN的其他引人注目的文本到图像研究也得到了发展在[10,8,26,11,13962文本语义表示SFcasF0CAr10的句子特征初始图像I0T:那只黑色的鸟中等大小,有红色的眼睛。Z~N(0,1)初始图像生成文本编码器W单词特征特征提取黑色的鸟,红色的眼睛。方面一体特征··∈·{|−} ∈{|-}线性上采样3×3卷积图2.DAE-GAN的总体框架9],研究了多目标数据集的图像生成。例如,Huang等人[9]在对象网格区域和单词短语之间引入了一组额外的自然注意力。然而,每个对象的额外边界框信息必须作为标签被要求。为了解决与食谱的食物图像合成的问题,在[43,16,44]中做出了很大的努力。其他最近的工作也取得了令人印象深刻的结果,在人的形象合成[42,13]。在给定参考图像和文本的情况下,他们可以操纵一个人的视觉外观针对文本引导的多模态人脸生成和处理,Xia等人提出了TediGAN和人脸图像数据集[35 ]第35段。为了将文本和图像标记建模为单个数据流,Ramesh et al.[19]提出DALL E来训练Transformer [31]自回归。基于足够的数据和规模,DALL E取得了与其他领域特定模型可比的结果。然而,上述方法中的大多数仅考虑句子级和词级特征用于文本利用。他们忽略了句子中包含的体信息的巨大潜力,这对图像精炼非常有帮助(例如,图1中的示例)。为此,在本文中,我们认为,方面的信息应该得到更多的关注,并提出了一种新的文本到图像的合成方法,采用方面的局部区域细化的功能,以动态的方式。3. 动态方面感知GAN(DAE-GAN)如图2所示,我们提出的DAE-GAN实施例包括三个主要组件:1)文本语义表示:从多粒度提取文本语义表示,即,、句子层面、词层面以及体层面; 2)初始图像生成:生成具有句子级文本特征和随机噪声向量的低分辨率图像; 3)面向方面的动态重绘:从全局和局部两个角度动态地对初始图像进行细化,这也是本文的主要研究内容。3.1. 文本语义表示对文本语义的全面理解在文本到图像的合成中起着至关重要的作用。以往的方法主要从句子级和词级两个层次提取文本特征。然而,它们忽略了文本中包含的方面信息,这些方面信息指的是几个词,而不是描述某物的特定部分或特征的词,例如。,体级信息的粒度介于句子级和词级信息之间它可以帮助细化图像细节,应该得到更多的关注。如图2所示,我们表示来自多个粒度的文本特征,即、文档级、字级和方面级。我们使用长短期记忆(LSTM)网络来提取文本描述T的语义嵌入,其公式如下:s,W=LSTM(T),(1)其中,T=T,j,j=0,1,…l1由l个单词组成。W=W,j,j=0,1,…l1Rl×dw表示在每个时间步从LSTM的隐藏状态获得的单词级特征。这里,dw表示文本嵌入的维度。sRdw代表来自LSTM的最后隐藏状态的句子级语义特征我们进一步采用条件增强(CA)[38]来增强训练数据,并通过从独立的高斯分布中重新采样输入句子向量来避免具体来说,我们使用CA增强句子特征,其表示如下:sca=Fca(s),(2)其中Fca()代表CA函数,并且sca是具有CA的增强句子语义表示。如前所述,方面的信息是非常关键的细节生成的图像。但是,由于不同句子的侧重点和描写方式不同,因此,不同的句子在表达上也存在差异D0方面感知一......n1动态ALRALR重新抽屉I1D1InDn13963∼{|-}gW=(WU)α,j i,j∈∈∈G我很难为每个句子识别和提取适当的体信息。为此,我们采用句法结构来解决这个问题。具体来说,我们首先采用NLTK对每个句子进行词性标注。然后,我们手动设计不同的规则来提取不同数据集的方面信息。之后,我们可以获得方面信息aspii=0,1,…n1. 接下来,我们使用LSTM来整合这些信息并提取方面级特征,其公式如下:A=LSTM({asp,i|i=0,1,…n-1}),(3)其中,A表示用于文本描述的方面级特征表示,n是提取的方面的数量3.2. 初始图像生成按照通常的做法,我们首先在初始阶段生成如图2所示,我们利用增强的句子嵌入sca和随机噪声向量z来生成初始图像I0。zN(0,1)是从正态分布中采样的。在数学上,我们使用R0来表示初始阶段的相应图像特征:R0=F0(sca,z),(4)其中F0是初始生成阶段的图像生成器。如图2所示,它由一个完全连接的层和四个上采样层组成一参加全球细化i1体特征关注W单词特征F我Rg我Ri1面向方面局部求精Ai1体特征RiRg我我我(一)(b)第(1)款连接线性残差上采样扩大卷积加法元素方面图3. AGR和ALR的体系结构。具体来说,我们使用单词级的文本功能,以帮助细化过程中考虑到每个单词的贡献。目前的工作主要是通过采用前一步的图像特征来更新单词级特征,以选择具有注意力机制的重要单词[22]。不同的是,我们进一步整合图像特征和方面级特征,以更新和增强单词级特征,如图3(a)所示。该过程可以数学公式化如下:3.3. 面向方面的动态重绘器据我们所知,我们是第一个将包含在给定句子中的体信息引入到文本到图像合成中的。因此,如何整合方面Ri = F i(Ri−1,Wi),i =1,2,…,n个,l−1我(五)如何将信息转化到图像细化阶段是我们应该解决的主要挑战。受人类学习行为的启发,本文提出了一种新颖的面向方面的动态设计方法.j=0αi,j=softmax((WjU+Ai−1V)Ri−1),其中Rg∈Rdr×Ni表示富集的图像特征namic Re-drawer(ADR)使用consider-i优化图像d×N句子中的体信息我们特别具有图像特征的全局Ri−1∈ R ri−1 而在─倾向于词级特征。Ni是Rg的大小在设计了一个新的参与全局求精(AGR)模块采用细粒度的单词级特征进行全局细化-我第i步。 F(·,·)和一个新的方面感知局部细化(ALR)模块,利用方面级功能的本地增强- ment。通过以动态方式交替应用这两个组件,我们能够从全局和局部角度细化图像细节在下面的部分中,我们将以生成图像的第i细化操作为例来介绍AGR和ALR的技术细节。3.3.1参加全球细化为了合成照片般真实感和语义一致的图像,有必要进一步全局细化具有细粒度特征的图像。因此,AGR被开发用于基于初始图像的全局细化。Wi Rdr×Ni−1表示被关注的全局特征。αi,j代表注意权重分数。URdw×dr 和VRdw×dr是将词嵌入W和体嵌入A转换为视觉特征的底层公共语义空间的感知层。3.3.2面向方面局部求精在前一部分中,我们已经介绍了如何利用词级特征从全局角度来细化图像。然而,一些特定图像局部细节的增强尚未完成。如上所述,文本描述中包含的方面对于合成对应的局部图像表示图像特征Transformer。13964我Σ我我`⊗˛¸联系我们Σ续费为此,如图3(b)所示,ALR被开发为从具有方面级特征的局部视角来细化图像。从技术上讲,我们通过逐元素加法将方位特征Ai-1发电机网络的最终目标函数由上述三项组成:L G=L Gi+λ1L CA+ λ2L DAMSM。(十)我如下所示对于对抗式学习,每一个candidi被训练Ri= Rg+[Ai−1V] N i,i = 1,2,...,n,(6)以精确地识别输入图像是真的还是假的。其中运算AiNi串联=[A i; A i;…;A1]意指重复-最大化交叉熵损失。双方的对抗性损失鉴别器Di被定义为:Ai为Ni次。合成照片-最后介绍了一种3×3卷积fil1GTter将细化的图像特征Ri变换成图像IiLDi=−2[EIGTpGTlogDi(Ii)+EIipGilogDi(Ii)在ADR中的第i个细化操作处。总而言之,AGR和ALR交替应用。同时,方面级+EIGTp我无条件损失logDi(IGT,T)+EIplogDi(Ii,T)],在GT的每个细化步骤中动态添加要素ADR。ii Gi条件损失x(11)3.4. 目标函数为了生成逼真的图像,并保证文本描述与文本内容的语义一致性,本文提出了一种新的图像生成方法无条件损失负责区分-从真实图像合成图像和条件术语确定图像是否与输入语句匹配。IGT是从真实图像分布PGT中同时,我们精心设计了在我第i步。 最后的目标函数的判别-损失函数 在每个步骤期间,生成器G(例如、ADR)和鉴别器D以可替换的方式被训练从通常的做法开始,每个发电机在每个步骤的目标损失函数定义如下:1LGi=−2[EIipGilogDi ( Ii ) +EIipGilogDi ( Ii ,T)],natornetworks是L D=iL Di。4. 实验在本节中,我们将首先介绍实验设置。接下来,我们将在两个公开的平台上评估DAE-GAN第二次损失X`条件总损失x(7)可用且经过充分研究的数据集。然后,可视化研究以及因果关系分析将进行讨论,以显示其中第一个无条件损失项是从鉴别器在真实和虚假图像之间进行区分时得到的。第二项是使合成图像与输入句子匹配的条件损失。传统上,条件损失项由句子-图像和词-图像对组成。与以往的工作不同,我们在生成过程中引入了方面信息。为了确保生成的图像真正包含与相应方面匹配的局部细粒度细节,我们还在条件损失中包括一个方面图像匹配对,如下所示:D(I,T)=D(I,s)β1·D(I,W)β2·D(I,A)β3,(8)其中D(I,s)、D(I,W)和D(I,A)分别计算图像与句子、词和体之间的匹配度在[45,36]之后,我们进一步利用DAMSM损失[36]来计算图像和文本描述之间的匹配度,在数学上表示为LDAMSM。CA损失被定义为标准高斯分布与训练文本的高斯分布之间的Kullback-Leibler散度,即。、LCA=DKL(N(µ(s),(s))||N(0,I))。(九)13965DAE-GAN的有效性和可解释性4.1. 实验装置数据集。为了证明我们提出的方法的能力,我们在CUB- 200 [32]和COCO [12]数据集上进行了广泛的实验,遵循先前的文本-图像合成工作[36,45,18,38]。CUB-200数据集包含200个鸟类类别,8,855个训练图像和2,933个测试图像。CUB-200中的每个图像都有10个文本标题。对于COCO数据集,它由具有80k图像的训练集和具有40k图像的测试集组成COCO中的每个图像都有5个字幕评估指标。在[36,45]之后,为了更好地进行比较,我们在 初始 得 分( IS ) [24], Fre'chet 初始距离(FID)[7]和R精度[36]方面定量测量了DAE-GAN我们通过使用预训练的Inception-v3网络[27]来计算条件类分布和边缘类分布之间的KL-散度来获得IS。大的IS表示生成的图像对于所有类具有高多样性,并且它们中的每一个都可以被清楚地识别为特定的类而不是模糊的类。FID根据从输出的特征图计算合成图像和真实世界图像之间的Fre´chet距离。13966±±±×××±±表1.不同型号的初始得分(越高越好)型号CUB-200 COCO(1)GAN-INT-CLS [20]2.88±0.047.88±0.07(2)StackGAN [38] 3.70±0.04 8.45±0.03(3)AttnGAN [36]4.36±0.0325.89±0.47(4) MirroGAN [18]4.54±0.1726.47±0.41(5)Huang等人[9]-26.92 ±0.52(6) DM-GAN [45]4.75±0.0730.49±0.57(7)LostGAN [26]-13.8±0.4(8)MA-GAN [37] 4.76±0.09-(9) KT-GAN [28]4.85±0.0431.67±0.36表2.不同型号的FID评分(越低越好)型号CUB-200COCO(1)AttnGAN[36] 23.98 35.49(2)Huang等人[9]-34.52(3)[37] 21.66-(4)[45]16.09 32.64(5)KT-GAN [28] 17.32 30.73(6)[26]第二十六话(7)[29] 2016年12月29日(8)大元15.19 28.12表3.不同模型的R-精度(%)(越高越好)(10)DF-GAN [29]4.86±0.04-(11)RiFe-GAN [4]5.23±0.09-(12)DAE-GAN4.42±0.0435.08±1.16预先训练的Inception v3网络。较低的FID分数意味着所生成的图像分布与真实图像分布之间的距离更近,因此意味着模型能够合成照片级逼真的图像。R-精度用于评价合成图像与给定文本描述之间的语义一致性。同样,我们计算全局图像向量和100个候选全局句子向量之间的余弦距离,以度量图像-文本语义相似性。较低的R精度意味着更好的语义一致性补间合成的图像和给定的文本描述。实施详情。*对于体规则,每个(形容词,名词)对是描述对象或场景的体。对于包含布局和位置的COCO,如果一个介词位于表示相对空间关系的对之前,我们也将添加它。与[36,45]一致,我们 采 用 在 ImageNet [ 23 ] 上 预 训 练 的 Inception-v3[ 27 ]作为图像编码器,并使用预训练的LSTM [36]作为文本编码器。初始生成的低分辨率图像的大小(即,N0)被设置为64 64。在最后一步最终合成的高分辨率图像具有256 × 256的大小(N n)。在中间步骤期间,所有图像大小(Ni)被固定为128 × 128。经验上,我们设置dw=256和dr=64分别为文本和图像特征向量的维度。 对于其他相关的超参数,我们设置(β1,β2,β3)=(1,1,0. 2)的情况。对于CUB-200,我们设置(λ1,λ2,n)=(1,5,2),对于COCO,设置(λ1,λ2,n)=(1,50,3)。在训练过程中,我们使用Adam优化器,学习率为0。0002在8个NVIDIA Tesla V100 GPU 上并行训练网络,每个GPU上的批量大小为32DAE-GAN分别在CUB-200 和 COCO 上 训 练 了 600 个 epoch 和 120 个epoch4.2. 定量结果在CUB-200上的性能。我们比较我们的方法与国家的最先进的方法在CUB-200。总体结果总结于表1、2和3中。显然,我们提出的DAE-GAN实现了高度可比的性能,尤其是对于FID和R-* 网址:https://github.com/hiarsal/DAE-GAN型号CUB-200COCO(1)AttnGAN [36]67.824.4372.31 0.91(2)MirroGAN [18] 57.67 74.52(3)DM-GAN [45]72.310.91 88.56 0.28(4)Huang等人[9]-89.69 4.34(5)RiFeGAN [4] 23.8±1.5-(6)DAE-GAN85.45±0.5792.61±0.50分别测量照片真实性和语义一致性的精确度分数。具体而言,DAE-GAN首先从多个粒度学习全面的文本语义,即、句子层面、词层面以及体层面。这也是DAE-GAN能够相对于其他基线大幅提高FID和R精度分数的原因之一。此外,ADR,DAE-GAN的核心组件,被开发为通过以动态方式交替地应用AGR和ALR来细化图像,其中AGR从全局角度利用词级特征来增强图像,而ALR从局部角度利用方面级特征来细化图像。这是使我们的合成图像更具有照片般真实感并保持文本和图像之间语义一致性的另一个重要原因CUB-200是一个充满描述细节的数据集。因此,具有全面文本语义理解的模型例如,GAN-INT-CLS和StackGAN仅将句子级特征作为输入。在此基础上,At-tnGAN和DM-GAN采用词级特征来细化图像并实现更高的性能。RiFeGAN特别设计用于具有细粒度视觉细节的数据集,例如、CUB-200。它从多个字幕合成图像,这一方面由于更多的字幕细节而导致非常高的IS,另一方面导致低的R-精度分数。不同的是,我们的DAE-GAN可以仅从一个给定的字幕合成具有高FID和R精度分数的这在很大程度上是通过对文本信息的综合表示和利用来实现的,包括句子级、词级和方面级。在 COCO上 的表 现。 我们还 评估了我们 的方法COCO,有多个对象,复杂的布局和简单的细节。表1、2和3中报告了相对结果。我们还将观察结果列出如下:DAE-GAN在IS、FID和R精密度方面仍然达到了相对于基线方法的最佳定量性能。结果表明,DAE-GAN是13967一个华丽的标本有一个浅色的躯干和腹部,黑色的脖子,黑色的眉,黑色和白色条纹的第二。小鸟有一个明亮的蓝色的身体,白色的短喙,和灰色的尾巴。黄冠、黑白项、背上有黑白斑点的鸟。这种黑鸟有白色的腹部和长而窄的尖喙。多云的天空下满是野生动物的草地。一个蓝色的标志在前面的绿叶树木圣诞节装饰品和罗马数字时钟在一个建筑物。院子中间有一个钟。图4. AttnGAN [36],DM-GAN [45]和我们提出的DAE-GAN在CUB-200(左四个)和COCO(右四个)上的文本到图像合成的示例结果。也能够很好地合成语义一致的多对象和复杂布局的图像。DAE-GAN对条件文本描述的全面理解和新提出的精化范式ADR使DAE-GAN能够用动态提供的方面信息精化不同的对象。这也是DAE-GAN能够在不同数据集上很好地泛化的主要4.3. 定性结果为了评估生成图像的视觉质量,我们在AttnGAN[36],DM-GAN [45]和我们提出的DAE-GAN之间进行了一些主观比较。在CUB-200中,我们可以得到DAE-GAN产生更好的结果。例如,当合成一只鸟与详细的长窄法案(第4列),只有DAE-GAN实现这一目标。同样在第1列和第3列中,只有DAE-GAN合成照片级真实感和语义一致性图像。原因是DAE-GAN获得了全面的文本表示,特别是方面级特征。此外,ALR开发动态增强图像细节方面的信息。在COCO数据集中,我们还可以观察到DAE-GAN生成的图像更加生动逼真。以图4的第6列和第7列中的示例为例,AttnGAN和DM-GAN经常多次生成一个对象,并且空间分布也是混乱的[36,45],而DAE-GAN可以很好地解决这些问题。通过交替应用AGR和ALR,DAE-GAN不仅可以增强局部细节,还可以从全局角度优化图像这种机制允许DAE-GAN避免像其他方法一样陷入一些最重要的单词。表4. COCO上IS、FID和R的消融性能-精度(%)。型号IS FIDR-precision DAE-GAN(w/oAGR)2.93±0.03 149.792.34±0.26DAE-GAN(不含ALR)31.07±0.70 32.93 90.24±0.39DAE-GAN(AGR中不含asp) 34.70±0.64 28.60 92.28±0.46DAE-GAN35.08±1.16 28.12 92.61±0.504.4. 消融研究整体实验证明了我们提出的DAE-GAN的优越性。然而,哪一个组件对于性能改进真正重要仍然不清楚。因此,我们对COCO进行了消融研究,以验证每个部分在ADR中的有效性,包括AGR和ALR。相应的结果示于表4中。根据结果,当从DAE-GAN中分别移除AGR和ALR时,我们可以观察到不同程度的模型性能下降。回顾方面,由于ALR依赖于方面信息,我们进一步从AGR中删除方面模型的性能也下降。烧蚀研究表明,综合利用文本信息有助于图像合成。AGR和ALR可以很好地利用这些信息进行图像细化。4.5. 因果关系解释生成过程的可视化。为了评估模型的合理性和可解释性,我们研究了图5中的合成过程。 在左侧示例中,DAE-GAN最初生成低分辨率图像(即,我0)与整个句子。然后,基于I。,ADR进一步采用细粒度信息(即,字级和方面级特征)来细化图像。具体而言,在图像11中,ADR将注意力集中在关于“金属蓝黑色背”和“金属黑色背”的方面信息的改进上。DM-GAN大干AttnGAN13968××这只鸟有一个金属蓝黑色的背部和橙色的喉咙,其颜色延伸到法案。多云的天空下满是野生动物的草地。方面有金属光泽的蓝黑色后背橙色的喉咙一片草地与野生动物下方多云天空图像10:6464I1:128128I2:256 25610:6464I1:128128I2:128 128一3:256256图5.不同生成步骤的文本到图像合成可视化文本这种美丽的鸟是惊人的蓝色与混合蓝色和黑色的翅膀羽毛和浅蓝色的喙。我们可以发现鸟类的方面图像方面图像10:64 6410:64 64这只美丽的鸟I1:128 128这只美丽的鸟I1:128 128蓝黑色的翅羽I2:128 128浅蓝色的喙I2:128 128浅蓝色的喙一3:256256蓝黑色的翅羽一3:256256用蓝色和黑色绘制那么在I3中,很明显鸟喙颜色由I2的浅黑色变为浅蓝色。 在底部部分的示例中,ADR集中在I 2中的“浅蓝色喙”方面。与11进行视觉比较,鸟喙颜色从浅黑色变为浅蓝色。 然后在I3中,羽毛在蓝色和黑色中比I 2中的羽毛更生动。实验结果再次充分证实了这一点。方位信息对图像细化的重要性。同时,DAE-GAN可以充分利用方位信息,以动态的方式实现图像细化。此外,这些例子也表明,我们提出的DAE-GAN具有良好的解释。图6. DAE-GAN的因果研究。我们交换了最后两个方面信息的输入顺序,以探索在相关步骤中生成的图像将如何随着方面输入顺序的变化而相应地变化。将图像大小改进为128 128。最后在I2中,ADR聚焦于方面“橙色喉咙”的细化此外,我们可以观察到,在I1中,几乎鸟头是橙色的,而在I2中,只有喉咙被正确地绘制在或- ange中,图像看起来更生动。在右侧示例中,我们从三个方面展示了COCO中的可视化研究。我们可以观察到,在“草地”、“野生动物”和“多云的天空下”等方面的相应指导下,图像也得到了很好的生成方面顺序的影响。由于方面信息被放置在我们的模型中的一个重要的位置,它是动态地利用,以细化局部细节,我们很好奇方面输入的顺序是否会影响生成结果。因此,在图6中研究了示例情况。具体而言,给定的文本描述具有如图6所示的三个方面特征。我们交换了最后两个体特征的输入顺序,以探索在相关步骤生成的图像将如何随着体输入顺序的变化而同时,我们不会改变句子级特征和词级特征的输入。以看上半部分的例子,在提炼'蓝黑色翅膀'方面5. 结论在本文中,我们认为,方面的信息包含在文本中是非常有帮助的图像生成应该得到更多的关注然后,我们开发了一种新的DAE-GAN充分利用的方面信息的文本到图像的合成。具体来说,我们利用了多粒度的文本信息,包括句子级,词级和方面级。此外,本文还提出了一种新的生成范式ADR,用于细化初始图像,其中,提出了一种新的AGR,用于从全局角度细化图像,设计了一种新的ALR,用于从局部角度增强图像细节通过动态地使用这两个组件,我们提出的DAE-GAN能够利用方面的信息来细化所生成的图像的细节,这对于图像的真实感和语义一致性是至关重要的。大量的实验证明了我们提出的方法的优越性和合理性。在未来,我们将特别关注探索一种通过自监督对比学习来提高语义一致性的方法。确认本研究得到了国家自然科学基金项目(批准号:2000000000) 的 部分 资 助 。 61727809 、 61922073、62006066和U20A20229),以及模式识别国家重点实验室开放项目。13969引用[1] ThBrandt,Johannes Dichgans,and Ellen Koenig.中心视觉与周边视觉对自我中心和离心运动知觉的不同影响。实验脑研究,16(5):476-491,1973。2[2] Kevin Chen 、 Christopher B Choy 、 Manolis Savva 、Angel X Chang、Thomas Funkhouser和Silvio Savarese。Text2shape:通过学习关节嵌入从自然语言生成形状。在亚洲计算机视觉会议上,第100-116页。Springer,2018. 1[3] 庄辰和铁云乾。统一的基于方面的情感分析的关系感知协作学习。在计算语言学协会第58届年会的会议记录中,第3685-3694页,2020年。2[4] Jun Cheng,Fuxiang Wu,Yanling Tian,Lei Wang,andDapeng Tao. Rifegan:从先验知识生成文本到图像合成的丰富特征。在IEEE/CVF计算机视觉和模式识别会议论文集,第10911-10920页,2020年。一、二、六[5] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。 在神经信息处理系统的进展,第26721[6] Karol Gregor 、 Ivo Danihelka 、 Alex Graves 、 DaniloJimenez Rezende和Daan Wierstra。 抽签: 一 递归神经网络图像生成。arXiv预印本arXiv:1502.04623,2015。2[7] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。神经信息处理系统的进展,第6626-6637页,2017年5[8] Seunhoon Hong,Dingdong Yang,Jongwook Choi,andHonglak Lee.推理语义布局的分层文本到图像合成。在IEEE计算机视觉和模式识别会议论文集,第7986- 7994页,2018年。3[9] WanmingHuang , Richard Yi DaXu , andIanOppermann.使用区域短语注意的真实感图像生成。亚洲机器学习会议,第284PMLR,2019年。三、六[10] 贾斯汀·约翰逊,阿格里姆·古普塔,李飞飞。从场景图生成图像。在IEEE计算机视觉和模式识别会议论文集,第1219-1228页,2018年。3[11] Wenbo Li , Pengchuan Zhang , Lei Zhang , QiuyuanHuang,Xiaodong He,Siwei Lyu,and Jianfeng Gao.通过对抗训练实现对象驱动的文本到图像合成。在IEEE计算机视觉和模式识别会议论文集,第12174-12182页,2019年。3[12] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco:上下文中的公用对象。欧洲计算机视觉会议,第740-755页。Springer,2014. 5[13] 马丽倩、徐佳、孙倩茹、Bernt Schiele、Tinne Tuyte-laars和Luc Van Gool。姿势引导的人物图像生成。神经信息处理系统的进展,第406-416页,2017年。3[14] 埃尔曼·曼西莫夫,埃米利奥·帕里索托,吉米·雷巴,还有罗斯兰·萨拉胡迪诺夫.从字幕中生成具有注意力的图像。arXiv预印本arXiv:1511.02793,2015。2[15] Anh Nguyen , Jeff Clune , Yoshua Bengio , AlexeyDosovit- skiy,and Jason Yosinski. 即插&即用生成网络:潜空间中图像的条件迭代生成。在IEEE计算机视觉和模式识别会议论文集,第4467-4477页2[16] Dim P Papadopoulos , Youssef Tamaazousti , FerdaOfli,Ingmar Weber,and Antonio Torralba.如何制作披萨:学习一个基于组成层的氮化镓模型。在IEEE计算机视觉和模式识别会议的论文集,第8002-8011页,2019年。3[17] 彭海云、徐璐、冰立东、黄飞、陆伟、罗斯。了解什么,如何和为什么:基于方面的情感分析的近乎完整的在AAAI人工智能会议论文集,第34卷,第8600-8607页,2020年。2[18] Tingting Qiao,Jing Zhang,Duanqing Xu,and DachengTao.Mirrorgan:通过重新描述学习文本到图像生成。在IEEE计算机视觉和模式识别会议论文集,第1505-1514页,2019年。一、二、五、六[19] Aditya Ramesh 、 Mikhail Pavlov 、 Gabriel Goh 、 ScottGray、Chelsea Voss、Alec Radford、Mark Chen和IlyaSutskever 。 零 拍 摄 文 本 到 图 像 生 成 。 arXiv 预 印
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Ansys Comsol实现力磁耦合仿真及其在电磁无损检测中的应用
- 西门子数控系统调试与配置实战案例教程
- ELM多输出拟合预测模型:简易Matlab实现指南
- 一维光子晶体的Comsol能带拓扑分析研究
- Borland-5技术资料压缩包分享
- Borland 6 技术资料分享包
- UE5压缩包处理技巧与D文件介绍
- 机器学习笔记:深入探讨中心极限定理
- ProE使用技巧及文件管理方法分享
- 增量式百度图片爬虫程序修复版发布
- Emlog屏蔽用户IP黑名单插件:自定义跳转与评论限制
- 安装Prometheus 2.2.1所需镜像及配置指南
- WinRARChan主题包:个性化你的压缩软件
- Neo4j关系数据映射转换测试样例集
- 安装heapster-grafana-amd64-v5-0-4所需镜像介绍
- DVB-C语言深度解析TS流
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功