MirrorGAN：重新描述乔婷婷等人提出的T2II2T的文本到图像生成方法

182 浏览量更新于2023-10-19 收藏 1.24MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1一种有白色胸脯和蓝色翅膀的这只鸟是蓝中带白的，有一个尖喙MirrorGAN：通过重新描述乔婷婷1，3，张静2，3，*，徐端庆1，*，陶大成31浙江大学计算机科学与技术学院2杭州电子科技大学自动化学院3UBTECH Sydney AI Centre，School of Computer Science，FEIT，The University of Sydney，澳大利亚qiaott@zju.edu.cn，jing. uts.edu.au，xdq@zju.edu.cn，dacheng. sydney.edu.au摘要T2I I2T从给定的文本描述生成图像有两个目标：视觉真实性和语义一致性。尽管使用生成对抗网络在生成高质量和视觉逼真的图像方面取得了重大进展，但确保文本描述和视觉内容之间的语义一致性仍然非常具有挑战性。在本文中，我们通过提出一种新的全局-局部关注和语义保持的文本到图像到文本框架来解决这个问题，（一）×文本（b）第（1）款图像T2II2T（c）第（1）款文本里根。CARGAN利用了通过重新描述学习文本到图像生成的思想，并由三个模块组成：语义文本嵌入模块（STEM）、用于级联图像生成的全局-局部协作关注模块（ GLAM ）以及语义文本再生和对齐模块（ STREAM ）。 STEM 生成单词级和句子级嵌入。GLAM具有用于从粗略到精细尺度生成目标图像的cas-caded架构STREAM试图从生成的图像中重新生成文本描述，该图像在语义上与给定的文本描述一致。在两个公共基准数据集上的实验表明，镜像GAN优于其他代表性的最先进的方法。1. 介绍文本到图像（T2I）生成是指生成与给定文本描述匹配的视觉逼真图像1.这项工作是在乔婷婷是悉尼大学 FEIT 计算机科学学院UBTECH悉尼人工智能中心的访问学生时完成的2.* 通讯作者图1：（a）体现通过重新描述学习文本到图像生成的想法的镜像结构的图示。（b）-（c）分别由[35]和所提出的MSGAN生成的语义不一致和一致的图像/重新描述。第由于其在许多应用中的巨大潜力，但其具有挑战性的性质，T2I生成已成为自然语言处理和计算机视觉社区的一个活跃的研究领域。尽管在使用生成对抗网络（GAN）生成视觉逼真图像方面取得了重大进展，例如[39，42，35，13]，但确保生成图像与输入文本的语义对齐仍然具有挑战性。与基本图像生成问题相反，T2I生成以文本描述为条件，而不是仅从噪声开始。利用GANs [10]的强大功能，已经提出了不同的T2I方法来生成视觉逼真和文本相关的图像。例如，Reedet al.提出了通过为文本描述找到视觉上有区别的表示并使用该表示生成逼真的图像来解决文本到图像的合成问题[24]。Zhang等人提出了Stack- GAN在两个单独的阶段生成图像[39]。Hong等人我建议从输入文本中提取语义布局，然后将其转换为图像生成器，以引导1505这只鸟有灰色的身体和棕色的背这只鸟是蓝白相间的有一个尖喙一种有白色胸脯和蓝色翅膀的小鸟这只鸟是蓝白相间的有一个尖喙1506生产过程[13]。Zhang等人提出用分层嵌套的对抗对象训练T2I生成器[42]。这些方法都利用了一个分类器来区分所生成的图像和对应的文本对与地面实况图像和对应的文本对。然而，由于文本和图像之间的域间隙最近，注意力机制[35]被用来解决这个问题，它引导生成器在生成不同的图像区域时关注不同的单词。然而，单独使用单词级注意力并不能确保全局语义的一致性，由于文本和图像模态之间的多样性图1（b）显示了由[35]生成的示例。T2I生成可以被视为图像字幕（或图像到文本生成，I2T）的逆问题[34，29，16]，它生成给定图像的文本描述考虑到处理每个任务需要在两个域中建模和对齐底层语义，在统一的框架中对两个任务进行建模以利用底层双重规则是自然和合理的。如图1（a）和（c）所示，如果T2I生成的图像与给定的文本描述在语义上一致，则I2T对其的重新描述应与给定的文本描述具有完全相同的语义。换句话说，生成的图像应该像一面镜子，准确地反映了潜在的文本语义。受此启发，我们提出了一个新的文本到图像到文本的框架称为T2I生成，开发了通过重描述学习T2I生成的想法，称为GAN。GAN有三个模块：STEM、GLAM和STREAM。STEM生成单词级和短语级嵌入，然后由GLAM使用。GLAM是一种级联架构，从粗到细生成目标图像，利用局部单词注意力和全局句子注意力来逐步增强所生成图像的多样性和语义一致性STREAM尝试从生成的图像重新生成文本描述，该图像在语义上与给定的文本描述一致。为了端到端地训练模型，我们使用两个对抗性损失：视觉真实性对抗性损失和文本-图像配对语义一致性对抗性损失。此外，为了利用T2I和I2T的双重调节，我们进一步采用基于交叉熵（CE）的文本语义重建损失在两个公共基准数据集上进行的实验表明，该方法在视觉真实感和语义一致性方面优于其他代表性的最先进方法。这项工作的贡献可以概括如下：• 我们提出了一个新的统一框架，称为镜像-GAN用于将T2I和I2T一起建模，具体地通过体现通过重描述学习T2I生成的思想来针对T2I生成。• 我们提出了一个全局-局部协作注意力模型，该模型无缝地嵌入到级联生成器中，这些因素可以保持跨域语义的一致性，并使生成过程更加平滑。• 除了常用的GAN损失，我们还提出了一种基于CE的文本语义重建损失以监督生成器生成视觉上真实且语义上一致的图像。因此，我们在两个基准数据集上实现了新的最先进的性能。2. 相关工作与我们自己的想法类似的想法最近已经在CycleGAN和DualGAN中使用，它们一起处理两个域中的双向翻译[43，37，1，32]，sig-显著推进图像到图像翻译[14，28，15，38，23]。我们的CycleGAN部分受到CycleGAN的启发，但有两个主要区别：1）我们专门解决T2I问题，而不是图像到图像的转换。文本和图像之间的跨媒体域差距可能比具有不同属性的图像之间的差距大得多，例如，风格.此外，每个领域中存在的不同语义使得维护跨领域语义一致性变得更加困难。2）MirrorGAN体现了镜像结构而不是CycleGAN中使用的循环结构。CARGAN通过使用配对的文本-图像数据而不是从未配对的图像-图像数据进行训练来进行监督学习。此外，为了体现通过重描述学习T2I生成的思想，我们使用基于CE的重建损失来正则化重描述文本的语义一致性，这与CycleGAN中的L1循环一致性损失不同，它解决了视觉相似性。注意力模型在计算机视觉和自然语言处理中得到了广泛的应用，例如在目标检测[21，6，18，41]，图像/视频捕获[21，6，18，41]，提问[34，9，31]，视觉问答[2，33，36，22] 和神经机器翻译[19，8]。注意力可以在空间上在图像中建模，或者在时间上在语言中建模，甚至在视频或图像-文本相关任务中都可以建模。不同的注意力模型已经被提出用于图像字幕，以在编码和解码过程中增强嵌入的文本特征表示。最近，Xuet al.提出了一个注意力模型，以指导生成器在生成不同的图像子区域时关注不同的单词[35]。然而，由于文本和图像模态的多样性，仅使用词级注意力不能确保全局语义一致性，例如，每个图像在CUB中有10个字幕，在COCO中有5个字幕，但是，它们表达了相同的底层语义1507CA(a)语义文本嵌入模块(b) GLAM：级联图像生成器中的全局-局部协作注意模块(c) 语义文本再生和对齐模块词特征w...<开始>这只鸟结束>.........<开始>这肚子图2：用于文本到图像生成的建议的MSGAN的示意图。信息.特别是，对于多级生成器，使“语义平滑”生成是至关重要的。因此，在每个阶段中还应考虑全局事务级注意力，以便其逐步且平稳地驱动生成器朝向语义一致的目标。为此，我们提出了一个全球本地协作注意模块，利用本地单词的注意力和全球句子的注意力，并提高所生成的图像的多样性和语义一致性。3. 用于文本到图像生成的MSGAN如图2所示，MirrorGAN通过集成T2I和I2T两者来它利用了通过重描述学习T2I生成的思想生成图像后，MARGAN重新生成其描述，将其底层语义与给定的文本描述对齐。从技术上讲，MirrorGAN由三个模块组成：STEM、GLAM和STREAM。下面将介绍该模型的细节3.1. 语义文本嵌入模块首先，我们引入了语义文本嵌入模块，将给定的文本描述嵌入到局部词级特征和全局句子级特征中。如图2的最左边部分所示，递归神经网络（RNN）[4]用于从给定的文本描述T中提取语义嵌入，其包括词嵌入w和句子嵌入s。使用条件扩充法[39]扩充文本描述的常见做法。这产生了更多的图像-文本对，从而鼓励沿着调节文本人的小扰动的鲁棒性具体来说，我们使用Fca来表示条件增强函数，并获得增强的句子向量：sca=Fca（s），（2）其中s∈RD′，D′为增广后的维数。3.2. GLAM：级联图像生成器中的全局局部协作注意模块接下来，我们通过依次堆叠三个图像生成网络来构建多级级联生成器。我们采用[35]中描述的基本结构，因为它的优点是在生成逼真图像方面的性能。在数学上，我们使用{F0，F1，.，Fm-1}来表示m个视觉特征变换器，并且{G0，G1，.，Gm-1}表示m个图像生成器。视觉特征f i和生成的每个阶段中的图像Ii可以表示为：f0=F0（z，sca），f i= F i（f i−1，F atti（f i−1，w，s ca）），i ∈{1，2，. - 是的- 是的，m-1}，i= Gi（fi），i ∈ {0，1，2，. - 是的- 是的，m −1}，（3）其中fi∈RMi×Ni，Ii∈Rqi×qi，z<$N（0，1）表示随机噪声.FattI是提出的全局-局部协作注意模型，它包括两个组件，ponents属性w和属性，即， F atti（f i−1，w，s ca）=w，s=RNN（T），（1）.i−1Σi−1concatwi−1 ，Att s .Z ~ N（0，1）F0这只鸟有灰色的背和白色的肚子句子特征的caRNNattiw-一个Fifi-1attis-一个fiGiSoftmaxSoftmaxSoftmaxCNNWeWe...SoftmaxWeLSTM...LSTMLSTMLSTMAtt1508i−1其中T={T1|l=.0，. -是的-是的，L−1}，L表示句子长度，w=w l|l=0，. . .，L−1 ∈RD×L是每个词的隐藏状态w l的级联，s ∈ RD是最后一个隐藏状态，D是w l和s的维数。由于文本域的多样性，具有少量置换的文本因此，我们遵循首先，我们使用在[35]以生成关注的词上下文特征。它将词嵌入w和视觉特征f作为每个阶段的输入单词嵌入w首先由感知层Ui-1转换为视觉特征的底层公共语义空间Ui-1w。然后，它被乘以1509i−1i−1i−1i−1用视觉特征fi-1来获得注意力分数。最后，通过计算注意力分数和Ui-1w之间的内积来获得注意词上下文特征：其中x−1∈RMm−1是一个视觉特征，在开始时用作输入，以通知RNN有关图像内容。W e∈RMm−1×D表示一个词嵌入矩阵，它将词的特征映射到视觉特征空间。pt+1是词上的预测概率分布wi−1L-1。=l=0Ui−1wl Σ。.softmax不i−1.Ui−1wl ΣΣΣ不、（四）我们对STREAM进行了预训练，因为它帮助ORGAN实现了更稳定的训练过程并更快地收敛，而与ORGAN联合优化STREAM是不稳定的其中Ui−1∈RMi−1×D且Attw注意词语境特征∈RMi−1×Ni−1。的有完全相同的在时间和空间上都非常昂贵编码器-[29]中的解码器结构，然后保持它们的参数i−1维数为fi-1，它进一步用于生成第i个视觉特征fi通过与fi−1级联。然后，我们提出了一个分布式注意力模型，在发电过程中对发电机施加全局约束与单词级注意力模型类似，增强的句子向量sca首先由感知层Vi−1转换为视觉特征的底层公共语义空间，作为Vi−1sca。然后，将其与视觉特征fi−1逐元素相乘以获得注意力分数。最后，通过计算在训练其他模块时修复。3.4.目标函数按照惯例，我们首先采用两种对抗性损失：视觉真实性对抗性损失和文本-图像配对语义一致性对抗性损失，其定义如下。在每个训练阶段期间，生成器G和生成器D交替地被训练。特别地，第i级中的生成器Gi通过如下最小化损失来训练：注意力得分和Vi−1sca：LG=−1EIp[log（Di（Ii））]i2i I Ii（七）s−1EI[log（Di（Ii，s））]，Atti−1=（Vi−1sca）<$（softmax（fi−1<$（Vi−1sca），（五）其中，Vi表示逐元素乘法，2i Ii其中Ii是在第i级中从分布p第一个术语是视觉真实-RMi×D′ 在ts∈RMi−1×Ni−1。注意力ive上下文特征Att s进一步与f i-1和Att w级联，用于生成第i个视觉特征f i，如等式2中的第二等式所示。（三）、3.3.语义文本再生和对齐模块如上文所描述的，MARGAN包括语义文本再生和对齐模块（STREAM）以从所生成的图像重新生成文本描述，其在语义上与给定的文本描述对齐。我我ism对抗性损失，用于区分图像在视觉上是真实的还是虚假的，而第二项是文本-图像配对语义一致性对抗性损失，用于确定底层图像和句子语义是否一致。我们进一步提出了一个基于CE的文本语义重构损失，以对齐的STREAM和给定的文本描述的重新描述之间的底层语义从数学上讲，这种损失可以表示为：L−1第具体来说，我们采用广泛使用的基于编码器-解码器的图像字幕框架[16，29]作为基础，L流=−t=0logp t（T t）。（八）sic STREAM体系结构。请注意，还可以使用更高级的图像字幕模型，这可能会产生更好的结果。然而，在第一次尝试验证所提出的想法，我们只是利用基线在目前的工作。图像编码器是在ImageNet [5]上预训练的卷积神经网络（CNN）[11]，解码器是值得注意的是，在STREAM预训练期间也使用了Lstream当训练Gi时，来自L流的梯度通过STREAM反向传播到Gi，其网络重量保持固定。定义了生成器的最终目标函数如：mΣ−1a RNN [12].由最后一级生成器生成的图像Im-1被馈送到CNN编码器和RNN解码器中，LG=i=0时LGi+λL流，（9）如下所示：x−1=CNN（Im−1），x t= W e T t，t ∈ {0，. L− 1}，p t+1= RNN（x t），t ∈ {0，.L− 1}，（六）其中λ是处理对抗损失和文本语义重建损失的重要性的损失权重。交替地训练CIDDi，以通过区分输入为真实或虚假来避免被生成器愚弄。与发电机类似，目标AttF151011我iIGTi-我...该判别器由视觉真实性对抗损失和文本-图像配对语义一致性对抗损失组成在数学上，它可以定义为：错了较高的分数表示所生成的图像与输入文本之间的较高的视觉语义相似性。计算初始得分和R-精度LDi=−2EIGTpGTΣ。 .logDi简体中文我如[39，35]。我− 1 E I我我[log（1−Di（Ii））]2iIiΣ。 .ΣΣΣ（十）−2 EIGT plogD i IGT，s我4.1.3实现细节1E2i IiGT[log（1−Di（Ii，s））]，GRAN总共有三台发电机，GLAM是em-在最后两个发电机上使用，如等式10所示（三）、其中I i来自真实图像分布p IGT 在i阶段最后的目标函数是定义为：mΣ−1逐步生成64×64、128×128、256×256图像。随后[35]，一个预训练的双向LSTM[27]用于计算语义嵌入，4. 实验LD=i=0时LDi.（十一）文本说明。单词嵌入D的维数是256。句子长度L为18。视觉嵌入的维度Mi视觉特征的维度为Ni= qi× qi，其中qi为64，128，在本节中，我们提出了广泛的实验，评估所提出的模型。我们首先将 T2 I 方法 GAN-INT-CLS [24] ，GAWWN [25] ， StackGAN [39] ， StackGAN++[40] ，PPGN[20][35]第35话然后，我们提出了烧蚀研究的关键组成部分，包括GLAM和STREAM。4.1. 实验装置4.1.1数据集我们在两个常用的数据集上评估了我们的模型，CUB鸟类数据集[30]和MS COCO数据集[17]。CUB鸟类数据集包含8，855幅训练图像和2，933幅测试图像，分属200个类别，每幅鸟类图像有10个文本描述。COCO数据集包含82，783张训练图像和40，504张验证图像，每张图像有5个文本描述。两个数据集都使用与[39，35]中相同的管道进行预处理。4.1.2评估指标按照惯例[39，35]，初始分数[26]用于测量所生成图像的客观性和多样性。[39]提供的两个微调的初始模型被用来计算分数。然后，使用[35]中引入的R-精度来评估生成的图像与其相应的文本描述之间的视觉语义相似性。对于每个生成的图像，其地面真实文本描述和99个随机选择的不匹配的描述，从测试集被用来形成一个文本描述池。然后，我们计算了池中每个描述的图像特征和文本特征之间的余弦相似度，然后计算了三种不同设置下的平均准确度：top-1、top-2和top-3。落在前k个候选项中的地面实况条目被视为正确，否则，三级256个。增广维数句子嵌入D′被设置为100。重量损失λ的文本语义重建损失被设置为20。4.2. 主要结果在本节中，我们将与其他方法进行定性和定量的比较，以验证MSPGAN的有效性。首先，我们使用CUB和COCO数据集上的Inception Score和R精度分数将然后，我们将对RIGGAN和最先进的AttnGAN方法进行主观视觉比较我们还展示了一项人类研究的结果，该研究旨在测试输入文本与由WARGAN和AttnGAN生成的图像之间的真实性和视觉语义相似性[35]。4.2.1定量结果表 1 中显示了 USCGAN 和其他方法的初始评分CARGAN在CUB和COCO数据集上都获得了最高的Incep- tion分数。具体而言，与最先进的方法AttnGAN[35]相比，MirrorGAN将CUB上的Inception Score从4.36提高到4.56这些结果表明，ORGANGAN可以生成更多样化、质量更好的图像。AttnGAN [35]和Mirror- GAN在CUB和COCO数据集上的R精度评分列于表2中。在所有设置下，MIGR-GAN的表现始终优于AttnGAN[35]，这证明了所提出的文本到图像到文本框架和全局-局部协作注意模块的优越性，因为Mirror- GAN生成了语义与输入文本描述一致的高质量图像我1511输入一种黄色的鸟，有棕色和白色的翅膀，尖嘴这只鸟是蓝色和黑色的颜色，与一个尖锐的黑色喙一种红色腹部、小嘴和红色翅膀这只小蓝鸟的腹部是白色的一个穿红夹克的滑雪者从山比萨饼是干酪的，上面有意大利辣香肠。码头上的船只，以城市为背景棕色的马在绿色的田野（a）AttnGAN（b）全球导航卫星系统基线（c）阿富汗(d) 地面实况图3：由（a）AttnGAN [35]，（b）BIGGAN基线和（c）BIGGAN生成的图像示例，以CUB和COCO测试集的文本描述为条件，以及（d）相应的地面实况。表1：CUB和COCO数据集上最先进方法和ORGAN的初始得分。型号CUB COCOGAN-INT-CLS [24]2.88±0.04 7.88±0.07[25]第二十五话3.62± 0.07-StackGAN [39]3.70± 0.048.45± 0.03StackGAN++[40]3.82± 0.06-PPGN [20]-9.58± 0.21AttnGAN [35]4.36± 0.0325.89± 0.47联系我们4.56± 0.0526.47± 0.41表2：最先进AttnGAN[35]和CUB和COCO数据集上的ORGAN。数据集幼崽Cocotop-kk=1K=2k=3k=1K=2k=3AttnGAN [35]53.3154.1154.3672.1373.2176.53联系我们57.6758.5260.4274.5276.8780.214.2.2定性结果主观目视比较： AttnGAN [35] 、 BIGGAN 基线和BIGGAN之间的主观视觉比较见图3。BIGGAN基线是指在BIGGAN框架中对每个生成器仅使用单词级注意力的模型。可以看到，对于一些硬的例子，At- tnGAN生成的图像细节丢失，颜色与文本描述不一致（第3和第4列），形状看起来很奇怪（第2、第3、第5和第8另外，第五纵队的滑雪者失踪了与AttnGAN相比，Mirror- GAN Baseline获得了更好的效果，具有更多的细节例如，机翼在第1列和第2列中是生动的，这表明了ARM-GAN的优越性，并且它通过重描述利用了双重正则化，即，如果可以正确地重新描述，则应当生成语义上一致的图像。通过比较镜像GAN和GLAM-GAN基线，我们可以看到，GLAM有助于产生更细粒度的图像，具有更多的细节和更好的语义一致性。例如，第4列中的鸟的下腹部的颜色被校正为白色，并且恢复了穿着红色夹克的滑雪者第7栏的船只和城市背景以及第8栏绿茵场上的马匹乍一看很真实通常，CUB数据集中的内容不如COCO数据集中的内容多样化因此，在CUB上更容易生成视觉上逼真和语义上一致的结果。这些结果证实了GLAM的影响，它协同使用全局和局部注意力人类感知测试：为了比较由AttnGAN和AttnGAN生成的图像的视觉真实性和语义一致性，我们接下来在CUB测试数据集上执行人类感知测试。我们招募了100名不同专业背景的志愿者进行两项测试：图像真实性测试和语义一致性测试。图像真实性测试旨在比较使用不同方法生成的图像的真实性。参与者被连续呈现100组图像。每组有2个图像，以随机顺序排列，来自AttnGAN和AttnGAN1512图4：人类感知测试的结果。真实性测试的值越高，意味着图像越有说服力。语义一致性测试的值越高，意味着输入文本和生成的图像之间的语义越接近。表3：具有不同权重设置的Mirror- GAN的初始分数和R精度结果。评估指标初始分数R-精度打开（top-1）幼崽Coco幼崽Coco不含GA的ORGAN，λ=03.91±.0919.01±.4239.0950.69不含GA的ORGAN，λ=204.47±.0725.99±.4155.6773.28λ=54.01±.0621.85±.4332.0752.55X-GAN，λ=104.30±.0724.11±.3143.2163.40X-GAN，λ=204.54±.1726.47±.4157.6774.52给出相同的文本描述。参与者有无限的时间来选择更令人信服的图像。语义一致性测试旨在比较使用不同方法生成的图像的语义一致性。每组具有对应于地面实况图像的3个图像和来自At-tnGAN和At-tnGAN的随机排列的两个图像。参与者被要求选择语义上更符合地面事实的图像请注意，我们使用地面实况图像而不是文本描述，因为它更容易比较图像之间的语义。在参与者完成实验后，我们对两种方案中的每种方法进行了投票结果如图 4 所示可以看出，来自WALKGAN的图像比来自AttnGAN的图像更受欢迎在真实性方面，RIGGAN优于AttnGAN，在语义一致性方面，RIGGAN甚至更有效。这些结果表明，supere-priority的生成视觉上逼真的和语义一致的图像。4.3. 消融研究对AZGAN的消融研究组成部分：接下来，我们对所提出的模型及其变体进行了消融研究。为了验证STREAM和GLAM的有效性，我们进行了几个对比实验，不包括/包括这些组件在MARGAN中。结果列于表3中。首先，超参数λ很重要。λ越大，两个数据集上的初始得分和R精度越高在CUB数据集上，当λ从5增加到20时，初始分数从4.01增加到4.54，R精度从32.07%增加到57.67%。在COCO数据集上，初始分数从21.85增加到26.21，R-精度从52.55%增加到74.52%。我们将λ设置为20作为默认值。不带 STREAM （ λ=0 ）和全局注意力（ GA ）的ORGAN比StackGAN++ [40]和PPGN [20]取得了更好的结果。将STREAM集成到ORGAN中进一步显著提高了性能。CUB和COCO的初始得分分别从3.91增加到4.47和从19.01增加到25.99，R-精度也表现出相同的趋势。请注意，没有GA的AttnGAN已经超过了最先进的AttnGAN（表1），AttnGAN也使用了单词级别的注意力。这些结果表明，STREAM在帮助生成器实现更好的性能方面更有效。这归因于STREAM在生成的图像和输入文本之间引入了更严格的语义对齐具体来说，STREAM强制生成的图像被重新描述为输入文本顺序，这可能会防止可能的视觉文本概念不匹配。此外，RIGGAN与GLAM的集成进一步提高了InceptionScore和R-precision，以实现新的最先进的性能。这些结果表明，GLAM中的全局和局部注意协同帮助生成器通过告诉它关注哪里来生成视觉上真实且语义上一致的对级联生成器的视觉检查：为了更好地理解Mirror-GAN的级联生成过程，我们可视化了每个阶段的中间图像和注意力图（图5）。在第一阶段，生成具有原始形状和颜色但缺乏细节的低分辨率图像。在GLAM的指导下，在接下来的阶段中，ESTGAN通过专注于最相关和最重要的领域来生成图像。因此，所生成的图像的质量逐渐提高，例如，翅膀和王冠的颜色和细节每个阶段的前5名全局和局部注意力地图显示在图像下方可以看出：1）全局注意力在早期阶段更多地集中在全局上下文上，然后在后期阶段集中在特定区域周围的上下文上; 2）局部注意力通过引导生成器关注最相关的词来帮助生成器合成具有细粒度细节的图像;以及3）全局注意力与局部注意力是互补的，它们协作地贡献了图像的细节。逐步改进的一代。此外，我们还介绍了通过修改文本描述，由单个1513第二阶段6：早餐7：食物4：装载5：与3：五第11阶段：第7组：食物2：6人：早餐5：五人桌，装满早餐食品阶段23：白色9：黄色0：小5：灰色4：腹部阶段15：灰色1：鸟0：小9：黄色4：肚子一种白色腹部、灰色面颊、黄色冠羽和翅膀条纹的小鸟图5：CUB和COCO测试集上的注意力可视化。第一行显示由G0生成的输出64×64图像、由G1生成的输出128×128图像和由G2生成的输出256×256图像。接下来的几行显示了在阶段1和阶段2中产生的全局-局部注意力。更多示例请参考补充材料。这只鸟有一个黄色的这只鸟有一个黑色的冠和一个白色的腹部冠和一个白色的腹部这只鸟有黑色的头冠和红色的肚子这只鸟有蓝色的翅膀和红色的肚子通过对齐跨媒体语义学为T2I一代设计，我们相信它对最先进的CycleGAN的互补性可以被进一步利用，以增强用于联合建模跨媒体内容的模型能力。5. 结论图6：在最后一个阶段中，通过修改单个单词的文本描述和相应的前2个注意力地图，由Mogan生成的字（图6）。CARGAN在文本描述中捕捉到了微妙的语义差异。4.4. 局限与讨论虽然我们提出的GARGAN在生成视觉上逼真和语义上一致的图像方面表现出优越性，但在未来的研究中必须考虑到一些限制。首先，由于有限的计算资源，STREAM和其他GAN模块没有通过完整的端到端训练进行联合优化。其次，我们只使用STEM中的文本嵌入和STREAM中的图像字幕的基本方法，例如，通过使用最近提出的BERT模型[7]和最先进的图像字幕模型[2，3]，可以进一步改进。第三，虽然华为最初在本文中，我们提出了一种新的全局-局部属性和语义保持的文本到图像到文本的框架，称为T2 I生成的挑战性问题。BIGGAN成功地利用了通过重新描述学习文本到图像生成的想法。STEM生成单词级和单词级嵌入。GLAM具有用于从粗略到精细尺度生成目标图像的级联架构，利用局部单词注意力和全局句子注意力来逐步增强所生成图像的多样性和语义一致性STREAM通过从生成的图像重新生成文本描述（在语义上与给定的文本描述一致）来进一步监督生成器。我们表明，ARMIGAN在两个基准数据集上实现了新的最先进的性能。鸣谢：本工作得到了国家文物局科研院所石窟寺文物数字化保护与设备升级国家双一流项目、国家自然科学基金项目61806062和澳大利亚研究委员会项目FL-170100117、DP-180103424的部分支持。和IH- 180100002。1514引用[1] A. Almahairi，S. Rajeswar，A.索尔多尼山口巴赫曼，以及A. C.考维尔增强的循环根：从非配对数据学习多对多映射。在2018年国际机器学习会议（ICML）[2] P. Anderson，X.他，C.Buehler、D.Teney，M.约翰逊先生，S. Gould和L.张某自下而上和自上而下关注图像字幕和视觉问答。在IEEE计算机视觉和模式识别会议，2018年。[3] F.陈河，巴西-地Ji，X.太阳，Y. Wu和J. Su. Groupcap：基于组的图像字幕，具有结构化的相关性和多样性约束。在IEEE计算机视觉和模式识别会议（CVPR），2018年。[4] K. 乔湾，巴西-地 van Merrienboer，C. Gulcehre，F. 布加雷斯H. Schwenk和Y.本吉奥。使用rnn编码器-解码器学习短语表示用于统计机器翻译。在2014年自然语言处理经验方法会议（EMNLP）的会议记录中[5] J. Deng，W.东河，巴西-地索赫尔湖J. Li，K. Li和L.飞飞。Imagenet：一个大规模的分层图像数据库。在IEEE计算机视觉和模式识别会议（CVPR），2009年。[6] H. Deubel和W. X.施耐德扫视目标选择和物体识别：共同注意力机制的证据。视觉研究，1996年。[7] J. Devlin，M.- W. Chang，K. Lee和K.图坦诺娃Bert：为语言理解而进行的深度双向转换器的预训练。arXiv预印本arXiv：1810.04805，2018。[8] O.菲拉特湾Cho和Y.本吉奥。具有共享注意力机制的多路多语言神经机器翻译。北美计算语言学协会（NAACL），2016年。[9] L. Gao，Z.Guo，H.Zhang，X.Xu和H.T. 沈基于注意力的 lstm 和语义一致性的视频 IEEE Transactions onMultimedia，2017。[10] I. 古德费罗 J. 波吉特-阿巴迪 M. 米尔扎 B. 许、D. 沃德-法利，S。奥扎尔A.Courville和Y.本吉奥。生成对抗网络。神经信息处理系统进展（NIPS），2014年。[11] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在 IEEE计算机视觉和模式识别会议，2016。[12] S. Hochreiter和J.施密特胡博长短期记忆。神经计算，1997年。[13] S. Hong，D. Yang，J. Choi，and H.李你推理语义布局分层文本到图像合成。在IEEE计算机视觉和模式识别会议，2018年。[14] P. Isola，J. Zhu，T. Zhou和A. A.埃夫罗斯使用条件对抗网络的图像到图像翻译。IEEE计算机视觉与模式识别会议（CVPR），2017年。[15] J. Johnson，A. Alahi和L.飞飞实时风格转换和超分辨率的感知损失。欧洲计算机视觉会议（ECCV），2016。[16] A. Karpathy和L.飞飞用于生成图像描述的深度视觉语义对齐。在IEEE计算机视觉和模式识别会议（CVPR），2015年。[17] T.- Y. 林，M。迈尔，S。贝隆吉，J.Hays，P.Perona，D.Ra-manan ， P.Dolla'r 和 C.L. 齐特尼克Microsoftcoco：上下文中的通用对象。2014年欧洲计算机视觉会议（ECCV）[18] J. Liu，C.，中国植物志和，2003 - 12 - 13; Gao，L.和A.G.豪普特曼Decidenet：通过注意力引导检测和密度估计来计算不同密度的人群。在IEEE计算机视觉和模式识别会议（CVPR），2018。[19] M.- T. Luong，H. Pham和C. D.曼宁基于注意力的神经机器翻译的有效方法。自然语言处理经验方法会议（EMNLP），2015年。[20] A. 阮 J. Clune， Y. 本吉奥 A. dosovitskiy和J. Yosinski即插&即用生成网络：潜空间中图像的条件迭代生成。在 IEEE 计算机视觉和模式识别会议（CVPR），2017年。[21] A.奥利瓦A.托拉尔巴S. Castelhano和J. M.亨德-儿子。物体检测中视觉注意的自上而下控制。IEEEInternationalConference on Image Processing（ICIP），2003年。[22] T. J. Dong和D.徐视觉问答中的类人第三十二届AAAI人工智能会议，2018。[23] T.乔，W. Zhang，M. Zhang，Z. Ma和D.徐古画自然意象：一种新的涂装工艺解决方案。IEEE冬季会议计算机视觉应用（WACV），2019年。[24] S. Reed，Z.Akata，X.延湖，澳-地洛格斯瓦兰湾schiele和H. 李你生成对抗文本到图像合成。2016年国际机器学习会议（ICML）[25] S. E. Reed，Z.Akata、S.莫汉，S.滕卡湾schiele和H.李你学习在哪里画什么。神经信息处理系统进展（NIPS），2016年。[26] T. 萨利曼斯岛Goodfellow，W.扎伦巴河谷Cheung，A.Rad- ford和X.尘改进的gans训练技术神经信息处理系统进展（NIPS），2016年。[27] M. Schuster和K.K. 帕利瓦双向递归神经网络。IEEETransactions on Signal Processing，1997。[28] Y. Taigman、A. Polyak和L.狼无监督跨域图像生成。2017年国际学习表征会议（International Conference onLearning Representations，ICLR）[29] O. Vinyals，A. Toshev，S. Bengio和D.二汉展示和讲述：神经图像字幕生成器。在IEEE计算机视觉和模式识别会议（CVPR）上，2015年。[30] C. Wah，S.布兰森山口韦林德山口Perona和S.贝隆吉加州理工学院-ucsd鸟类-200-2011数据集。加州理工学院，2011年。[31] J. Wang，W.江湖，澳-地马，W。Liu和Y.徐用于密集视频字幕的上下文门控双向注意融合。在IEEE计算机视觉和模式识别会议（CVPR），2018年。1515[32] J. Wen，R. Liu，N.郑角Zheng，Z. Gong和J.元利用局部特征模式进行无监督域自适应。在2019年第33届AAAI人工智能会议[33] H. Xu和K.萨恩科提问、出席并回答：探索视觉问题回答的问题引导空间注意。欧洲计算机视觉会议（ECCV），2016。[34] K. Xu，J. Ba，R. Kiros、K. Cho，A.库维尔河萨拉胡迪诺夫河 Zemel 和 Y. 本吉奥。 Show ， attend and tell ：Neural image caption generation with vis

下载后可阅读完整内容，剩余1页未读，立即下载