文本到图像的丰富特征生成：RiFeGAN模型

28 浏览量更新于2023-10-25 收藏 2.6MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10911(a)真实图像(b)DM-GAN（c）第（1）款（d）其他事项RiFeGAN：从先验知识生成文本到图像的丰富特征程军1，2，吴福祥1，2，田艳玲3，王磊1，2，陶大鹏41中国科学院人机智能-协同系统重点实验室，中国科学院深圳先进技术研究院2香港中文大学，中国3日本早稻田大学研究生院信息、生产与系统研究科4云南大学信息科学与工程学院{jun.cheng，fx.wu1，lei.wang1}@ siat.ac.cn，tianyanling@fuji.waseda.jp，dptao@ynu.edu.cn摘要文本到图像的合成是一个具有挑战性的任务，它从文本序列生成逼真的图像，与相应的图像相比，文本序列通常包含有限的信息，因此是模糊和抽象的。有限的文本信息只能描述场景的一部分，这将使生成复杂，并隐含地补充其他细节，导致低质量的图像。为了解决这个问题，我们提出了一种新的富特征生成文本到图像的合成，称为RiFeGAN，以丰富给定的描述。为了提供额外的视觉细节并避免冲突，RiFeGAN利用基于注意力的字幕匹配模型从先验知识中选择和给定丰富的字幕，RiFeGAN使用自注意嵌入混合来有效地提取它们之间的特征，并进一步处理发散特征。然后，它利用多字幕注意力生成对抗网络从这些特征合成图像。在广泛使用的数据集上进行的实验表明，该模型可以有效地从丰富的字幕中生成图像，并显着提高了结果。1. 介绍从文本描述生成逼真的图像是近年来最活跃的研究领域之一[10，12，16，21，24，26，33，37]。由于自然语言是与人交互的最简单方式之一，文本到图像合成在许多领域中发挥着重要作用，例如字幕中的双重近年来，不少冰毒-1996年吴为通讯作者。图1.标题及其对应的图像：（a）是真实的图像;（b）由DM-GAN [37]生成，具有第一个字幕;(c) 由我们的模型合成，没有SAEM和所有标题;(d) 是由我们的模型合成的，带有所有标题。说明中的粗体字表示鸟的突出特征，说明只描述部分特征。ODS专注于改进生成对抗网络（GAN）[8]的生成器，如BigGAN [5]，以及训练方法，如Wasserstein GAN[2，9]，以合成高质量图像。然而，由于自然语言本身的模糊性、抽象性和信息量的有限因此，条件生成器需要补充这些细节，这将使生成器复杂且难以训练。如图1所示，每个说明只描述了一只鸟（a）的部分特征。可以同时利用来自同一图像的几个对应字幕（例如1）-10）的字幕）进行训练因此，与仅用具有有限信息的一个字幕合成的图像（b）相比，所生成的图像（d）更接近真实图像1) 这只鸟黄中带黑，有一个长而尖的喙。2) 鸟身黑色，腹部黄色，头冠和喙。3) 一种小鸟，头冠和喉部为黑色，翼筋和腹部为黄色。4) 一只鸟有黄色的下半部分和黑色的上半部分与黑色的黄色和白色.....5) 黄腹鸟，喉部黑色冠黑色，翅膀上有白色翼条。6) 这只鸟黄中带黑，有一个长喙。7) 这是一只黑色的鸟，腹部和尾羽是黄色的。8) 这只鸟黄中带黑，肚子是黄色的。9) 这只鸟的翅膀是黑色的，腹部是黄色的。10) 这只鸟有黄色的腹部和黑色的头和翅膀。10912此外，很难直接处理大量的字幕来合成图像。因此，由我们的模型生成的没有自我注意嵌入混合物（SAEM）的图像（c）比图像（d）更差。为了缓解信息有限的问题，有效地产生所需的视觉细节，额外的字幕，明确的补充，应检索，以丰富的描述。为了检索兼容的字幕，我们引入了一个基于注意力的字幕匹配模型，从训练数据集建立的先验知识中选择候选字幕。为了提高字幕语义的一致性，通过比较字幕的嵌入和给定字幕的嵌入，例如，给定图中的第一个标题1）。1，其他人可以检索作为补充，以提供额外的信息。更多的标题可以提供更多的视觉细节，但理解它们的语义含义将更加困难，因为即使理解一个长标题也不是一件小事。为了解决这个难题，我们将理解完整字幕的复杂任务转化为理解一个字幕并融合字幕的表示的相对简单的任务因此，我们通过使用注意力模型从每个字幕中提取特征，然后使用自注意嵌入混合物（SAEM）来融合这些嵌入。总之，这项工作有以下贡献：• 我们提出了一个新的框架，称为RiFeGAN，用于从先验知识中丰富给定的标题，通过训练数据集，解决了信息有限的问题，提高了合成图像的质量。• 本文提出了一种基于注意力文本匹配模型的字幕匹配方法，自动从先验知识中提取字幕。然后，利用多字幕注意GAN与SAEM提取丰富的特征来合成高质量的图像。因此，我们在广泛使用的数据集上显着提高了性能。2. 相关工作在本节中，我们回顾了文本匹配和文本到图像合成的最新工作文本匹配：Pang et al.[18]将文本匹配建模为图像识别。他们构建了一个表示单词之间相似性的匹配矩阵，并利用卷积神经网络来捕获匹配模式。Wanet al. [29]提出了一种深度架构，利用由双向长短期记忆（Bi-LSTM），k-Max池化和多层感知器生成的位置句子表示来匹配两个句子。Lee等人。 [14]提出了一种Stacked Cross Attention模型来对齐图像区域和单词，并计算图像-文本相似度。Yang等人。 [32]提出了一种快速而强大的RE2，具有多个对齐过程来匹配两个句子。大多数基于GANs的生成方法已经实现了在图像生成方面取得了很大的进展，从以下四个方面介绍：生成一个标题：Reed等人。[21]利用深度对称结构化联合嵌入策略来创建文本描述的视觉区分嵌入，并提出了一种有效的条件GAN来根据嵌入合成大小合理的图像。Zhang等人 [35]将复杂的生成问题转化为几个子问题，并利用以树状结构排列的多个生成器来渐进地合成图像此外，他们还引入了条件反射增强来稳定训练过程。Zhang等人。 [36]介绍了一种单流生成器架构，该架构应用分层嵌套对抗目标来正则化中级表示，以更好地适应联合鉴别器并生成高分辨率图像。用一个标题和理解生成：乔等人。[19]提出了一个LeicaGAN来学习和想象关于语义，纹理，颜色，形状和布局的各种对象的先验。 Qiao等人[20]引入Mir-rorGAN来连接双重任务，文本到图像合成和文本字幕，并约束重新生成的字幕与给定字幕对齐。专注地生成一个标题：徐et[30]提出了多阶段AttnGAN，通过关注不同的单词来合成场景的不同部分，标题在第一阶段，生成器使用句子嵌入来合成图像。在下一个阶段中，词上下文特征由注意模型计算并馈送到下一个生成器。基于AttnGANs，Zhu etal. . [37]提出了动态记忆生成对抗网络（DM-GAN），以解决在不同阶段严重依赖初始图像和不变文本表示的问题。使用多标题生成：夏尔马等人[24]通过添加一段描述场景的对话来扩展标题。然后利用Skip-thought [13]或递归神经网络（RNN）[1，23]来嵌入对话，并采用StackGAN [35]来生成图像。Joseph等人。 [11]提出了跨标题循环一致（C4Synth）模型来从多个标题合成它们受到CycleGAN的启发，构建了图像生成器、文本字幕和识别器。该模型采用噪声和第一个标题来生成图像，然后是一个滤波器来将其与真实图像进行分类，并使用一个标题器来生成应该与下一个真实标题相似的标题。接下来，模型通过用先前生成器的输出特征替换噪声来迭代地处理先前描述的剩余字幕因此，为了生成图像，生成器需要运行与字幕的数量一样多的次数与现有工程的区别：[24]第二十四话10913αi、j阿′不k=0不k=0描述：鸟的王冠是黄色，腹部白色，腹部有红色斑纹。标题匹配文本匹配融合融合对准精炼编码器编码器丰富的功能：1) 什么......2) 这只五彩缤纷的鸟......3) 这只鸟有一个.....4) 鸟的头是绿色的。5) 这只鸟有白色的...6) 小小的但是非常......7) 这只五彩缤纷的鸟……......关注GANF1F2F3G3知识库图2.型号结构：给定一个标题，通过利用文本匹配和细化模型，将从知识库中检索多个标题、丰富的特征。利用Skip-thought或RNN对不同的句子进行编码，计算嵌入，然后直接将嵌入送入StackGAN合成图像。我们的工作利用标题匹配来丰富描述以他们的成绩衡量，不S（t，ω）=1Σcompat iNTSRE2（t，ti，k）（1）并利用SAEM在注意力框架下从多字幕中提取特征。结果表明，我们的模型的有效性。C4Synth [11]需要运行多次来合成图像，并且模型需要字幕模型来生成字幕，这使得模型在训练中更加复杂。与它们不同的是，我们的工作直接利用具有丰富或多个字幕的字幕，使得完整的生成器对于每个图像只执行一次，并且不需要字幕模型来帮助训练。此外，我们的工作，首先，利用字幕k=0其中评分器SRE2（t1，t2）返回给定字幕t1和t2的匹配分数。评分器由几个编码器，对齐层，融合层，如图2的第二块所示。二、编码器堆叠具有相同填充的几个卷积网络来提取词的上下文嵌入，而不是递归网络。对齐层计算两个se的对齐表示序列{c1，i}和{c2，i}as，.′Σ′丰富以生成丰富的功能和可利用的SAEMc1，i=<$jαi，j·c2，j（二）多字幕更有效，并实现了显着的改善，2，i=′jj，i ·Cl，j证明其中α′是一个与点成比例的注意力权重3. 具有丰富特征的文本到图像的合成c1，i和c1，j的乘积。熔融层由进料-前向网络融合c′和c′，即. 然后，多-在图2中，给定一个标题，我们首先丰富它，而不是直接合成图像在字幕匹配中，由于在公共数据集中存在图像的多个字幕，类似于人类记忆，我们将每个图像及其训练部分的字幕视为知识库（记忆）中的一个项目。因此，丰富过程将从知识库中检索兼容项，并细化项的标题以返回最佳补充作为图的中间部分。2.然后，给定丰富的字幕，与SAEM的注意力GAN被引入到合成图像与字幕有效。3.1. 基于先验知识的字幕匹配给定一个标题，标题匹配需要返回其层前馈神经网络被用来返回它们的匹配得分。由于项ω i的标题{ti，k}N同时描述I i，因此它们彼此兼容。因此，我们通过选择标题来构造正样本（ti，ωi，c从项ωi中随机选择ti，并选择项的其余部分作为上下文ωi，c。由于不同类别的字幕可能相互冲突，我们通过选择字幕tr（i）来构造负样本（tr（i），ωi，c）ωr（i），其中r（i）i返回一个随机整数x to0，并且索引项的类别是不同的。因此，西米-与关注项目之间相对差异的Pairwise Ranking Loss相比，相容分数形成为逻辑回归，训练损失如下，1吨兼容的字幕，以提高它，这是艰巨的任务，Lcompat（）=−NTi=0σ（Scompat（ti，ωi，c））（三）NLP。为了简化这个问题，我们将这个问题视为一个信息检索问题，并从训练数据集中召回相关的因此，给定一个数据集，我们将其视为先验知识，知识库Ω i ={ωi}，其中每个项ωi由图像Ii及其帽组成。解{ti，k}N.给定标题t和项ωi，为了评估它们的兼容分数，我们利用RE2 [32]，一种用于通用文本匹配的快速强大的神经架构+σ（Scompat（tr（i），ωi，c））其中σ是sigmoid函数。给定字幕t，可以通过使用等式（1）来从字幕中检索K个最佳候选字幕，由k_K（t）表示1.为了进一步提高语义一致性和排除冲突字幕，我们通过选取N个测试字幕来细化字幕，其中N个测试字幕的嵌入在余弦相似度方面比其他字幕更接近t的嵌入CN10914我1我帽我α w，···，α（4）w]我词帽ImaxposwMHAi ii图3.基于SAEM的多字幕注意力GAN的处理流程：Fi是上采样模块; Gi和Di分别是生成器和子节点; Fattn是以hi和词嵌入为输入的注意力模块; SAEM和MultiCaps-DAMSM状态分别用于自注意力嵌入混合器和多字幕深度注意力多模态相似性模型。3.2. 多标题注意力GANs在文本到图像的合成中，给定一个标题，它的嵌入e是通过使用文本编码器创建的，并输入到条件GAN中以生成图像。AttnGAN [30]计算内部特征h1并合成图像。在下一阶段中，注意力模型F attn将单词特征和h1作为输入以获得每个字幕的注意力特征，随后是SAEM以计算总注意力特征wattnj。然后，将wj和h1合并为syn。可以有效地绘制具有不同11的不同子区域话因此，如图所示。 3. 我们用 SAEM 和 MultiCaps-DAMSM构建了attentional GAN，以支持多字幕，这将在下面的部分中详细阐述。F1是一个上采样模块，它由一个全连接层组成，后面是几个上采样模块，这些上采样模块由上采样层、3×3卷积层、批归一化层和门控线性层构成。F2和F3是上采样模块，由多个残差网络和一个上采样模块组成。模 Gi 将内部特征hi∈RNi×Nw×Nh通过使用3×3卷积层和tanh激活函数Di是一个构造的通过几个卷积层，批量归一化层和泄漏整流线性单元。 Fattn是一种注意力模式-通过F2和G2调整较大图像的大小。第三阶段是类似于第二阶段，除了MultiCaps-DAMSM将在训练中引入额外的约束。3.2.1. 自我注意嵌入混合物基于注意力的模型已成功应用于许多领域，如双重任务，字幕[7，15]。此外，Zhang et al. [34]在卷积GAN中引入自注意力机制，并在Inception得分方面实现显着改善[22]。因此，我们引入SAEM来融合字幕的嵌入。给定由Fi生成的隐藏状态hi，对于每个tj，其对应的嵌入计算如下，ULE，它采用单词特征w和内部特征hi作为如下的输入和计算，.cj =Fca（ftxt（tj））（六）wj=F attn（hi，ftxt （tj））Fattn（hi，w）=[ΣTk=11，kKΣTk=1N3，kKi i word其中N3=Nw·Nh; T是w的长度;注意力权重计算为，其中c∈RNc 是tj的整个嵌入;w<$j∈RNi×Ni×Nw是条件嵌入，其中每个el-注意力集中在不同的词上。因此为了αj，k =exp（sj，k）k（exp（sj，k））（五）提取字幕T的整个嵌入，我们利用自我注意模块[27]融合这些嵌入，如下所示：其中sj，k是hi，j和wk的点积;Fca是将文本嵌入投影到较低条件空间中以增强平滑性并促进鲁棒性的条件增强[35]。图3，给定一组字幕T={t}NT，我们利用低点，.c=fmax（fposw（LMHA（[c0，c1，···，cNT]）w=f（f（L（[w<$0，w<$1，···，w<$NT]）（7）jj=0文本编码器f txt和ftxt，这是双向长短期记忆（LSTM）[23]，提取tj的单词特征和句子特征。在第一阶段，F1将SAEM计算的总特征作为输入，其中fmax（x）返回一个张量，其元素在x的列上是最大的;fposw是位置前馈网络，LMHA（v）是多头atten。10915我四、一四、二四、三四、一1的话，他们相应的注意representations提取I。Lw，Ls和Ls处理简单-img联系我们图4.多字幕深度注意多模态相似性模型。层如下，不寻常的 f部分和f全提取子区域特征，通过使用基于Inception-v3模型[25]构建的图像编码器，然后分别使用1×1卷积层和多层感知器来实现全局特征3.2.3. 联合训练值函数由多个字幕合成的图像应该与这些字幕一致。因此，具有该约束的训练有利于生成。在多字幕的约束下，总值函数可以写为，LMHA（v）=V（D1，···，D K，G1，···，G K|T）=不H0（v）（八）ΣKi=1{ExTap数据（T）[logDi（x|T）]+（十二）LnlLdrop····M3+vExpG（T）[lo g（1−Di（x|T））]}+HNH（v）λ·ExλpG（T）[LDAMSM（x，T）].其中M3∈RNH·Ni×Ni是投影矩阵;L nl是层归一化。注意函数Hi（E）被定义为，Hk（v）=Latt（Mk·v，Mk·v，Mk·v）（9）其中，x∈PGi（T）是给定条件T时由基因算子G i合成的图像; λ是用于调整约束的超参数;K是级数，发电机。4. 实验其中MjJ四、二J四、三∈RNi×Ni是前-后矩阵，将输入嵌入分别注入问题空间、键空间、值空间。函数L att（Q，K，V）=softmax（β·Q·KT） ·V是缩放点积注意力[27]，其中β是抵消小梯度问题的尺度值。耳朵。3.2.2.多帽DAMSM如图4.我们考虑字幕T的同时性，并采用DAMSM[30]来指导生成器。因此，多电容DAMSM损失定义为，Σ4.1. 数据集我们在广泛使用的数据集上进行实验，Caltech-UCSD Birds-200-2011 （ CUB 200 ） [28] 和 Oxford-Flower-102（Oxford 102）[17]数据集。数据集中的每张根据作品[30，35]，我们使用相同的设置，并采用类零拍摄设置。尽管Inception评分存在明显的缺陷[3]，但我们采用微调的Inception模型1来衡量结果，因为它更喜欢有意义和多样化的图像。除了Inception评分之外，根据Xu et al. [30]，LDAMSM（I，T）=NTk=0 µk·LDAMSM（I，tk）（10）我们利用R-精度来衡量字幕-图像对齐。具体来说，给出一个地面实况说明其中μk是句子tk的权重，以指示其重要性当量10迫使生成的图像I适合整个描述T。LDAMSM（Q，D）是DAMSM的损失，随机选取99个不匹配的字幕，如果地面真实值与图像的余弦相似度高于其他字幕，则检索是相关的。 R-精度是指检索中相关度的比值LDAMSM（I，tk）=Lw（fimg（I），ftxt（tk））字幕由于文本到图像的合成利用了多个1部分词字幕明确或隐含，我们报告的平均值+Lw（fimg（I），ftxt（tk））2部分词（十一）图像x和其标题集T之间的R-精度。+Ls（fimg（I），ftxt（tk））1充分帽此外，我们还分析了图像与+Ls（fimg（I），ftxt（tk））2充分帽作为补充。其中Lw，Lw和Ls，Ls是单词和句子的损失4.2. 定量结果1 2 1 2函数[30]描述了图片和相应的说明文字给定一批图像-句子对，L w计算图像和字幕之间相似性的交叉熵损失;利用嵌入之间的余弦相似度计算图像I和字幕t之间的相似度CUB 200和Oxford 102的Inception分数如表11，其中基线系统取自AttnGAN [30]和DM-GAN [37]。我们用整个数据集作为知识库来评估模型以进行检索洛杉矶为第一标题第二个标题的损失图像完整功能图像部件特征+平均损失句子丢失文字丢失第i个标题的损失单词嵌入句子嵌入K、M、M109161https://github.com/hanzhanggit/StackGAN-v210917FFFFKB表1.CUB200和Oxford102数据集上的Inception分数F五、254.第一章84.第一章64.第一章44.第一章2a) 公司简介4.第一章64.第一章44.第一章243 .第三章。83 .第三章。6b) 牛津102表2.CUB200和Oxford102数据集的平均R精度公司简介牛津102AttnGAN0.198 ±0.0140.203±0.015DM-GAN0.215 ±0.0130.199±0.014我们的F0.182 ±0.0120.213 ±0.015我们的KB0.130 ±0.0120.163±0.014我们的SA 0.238±0.015 0.267±0.016我们的SA0.183±0.013 0.210 ±0.0142 4 6 8 10N个测试2 4 6 810N个测试KB地面实况0.225±0.015 0.215±0.014图5. Inception评分和N检验图。0的情况。50的情况。40的情况。30的情况。2a) 公司简介0的情况。50的情况。40的情况。30的情况。2b) 牛津1020的情况。10 2 4 6 8标题索引0的情况。10 2 4 6 8标题索引图8.合成的图像与标题：我们的F和我们的SA合成了语义上更一致的图像，图6. R精度和标题索引的示意图。通过使用原始字幕，我们的S比F好。4.第一章64.第一章44.第一章243 .第三章。83 .第三章。6a) 初始分数0 2 4 6 8 10重复计数0的情况。70的情况。650的情况。60的情况。550的情况。5b) R-精度CUB200上2个瓶盖，CUB200上1个瓶盖Oxford 200上的2个瓶盖Oxford 200上的0 2 4 6 8 10重复计数FCUB200 和 Oxford102 分别下跌 0.33 和 0.30 。图 5 、Inception评分呈上升趋势，字幕越多，评分越高此外，我们在 MS-COCO 上对我们的 SA 进行了评估，与AttnGAN相比，它大大提高了分数，从25.89提高到31.70。图在图6中，由于图像是通过使用字幕索引为0的第一字幕来生成的，因此图像与第0字幕之间的R精度高于其它字幕图7. Inception评分和受影响的通过重复次数。最佳匹配字幕，用下标“F”表示对于类零射击设置，我们用由相应数据集的训练部分构建的知识库（用下标“KB”表示）来评估它们此外，为了验证生成能力，我们使用任意N 个测试字幕来合成图像，用下标“RND”表示为了进行比较，我们通过将多个字幕连接成一个字幕并使用多字幕DAMSM和联合训练值函数进行训练，构建了没有SAEM的多字幕attentional GAN，OurF和OurKB在设置“F”时在“KB”设置中如果没有SAEM，除了地面真相此外，图像和其他字幕之间的R-精度高于无关选择，因为它们的模型是用图像和从其字幕中随机选择的字幕对训练的，并且会记忆其他相关字幕的视觉细节。此外，真实图像与其字幕之间的R精度约为0.22，小于指数为0的合成图像的R精度，这表明照片级真实感图像应该比字幕包含更多的视觉细节。我们的方法通过使用多字幕来显式地模拟这种关联过程，并且它们的R精度几乎高于我们的SA的真实图像的R精度，这表明合成图像包含比由字幕描绘的真实图像更多的相关视觉细节。对于我们的实验室，由于他们利用第0个原始字幕和回忆字幕（可能与其他原始字幕不相似）来合成图像。合成的图像将接近那些可能不同于我们的SAF我们的SAKBAttnGANDM-GANGroundTruth我们的FF我们的KB我们的SA我们的SAKB房DM-GAN房DM-GAN初始分数初始分数R-精度R-精度R-精度初始分数数据集AttnGANDM-GANC4合成器我们的F我们的KB我们的SA我们的SAKB公司简介4.36 ±0.034.75 ±0.074.07 ±0.134.90 ±0.074.79 ±0.045.23 ±0.094.85 ±0.08牛津1023.91 ±0.054.03 ±0.053.52 ±0.154.23 ±0.034.09 ±0.034.53 ±0.054.23 ±0.0510918FKBFF121) 中等大小的黑色鸟，身上有淡褐色的羽毛，上面有白色的斑点。2) 这只鸟有一个分裂的尾巴与蓝色的尾下覆羽-冠是深黑色。3) 一种浅棕色的鸟，腹部浅色，头、尾和颈背深。4) 胸部和腹部呈柠檬色的鸟，橙色的喉咙和黑色的头。5) 这只鸟有一个蓬松的棕褐色的腹部，一个红橙色的带在它的颈背上，一个分裂的黑色尾巴。6) 这只鸟有一个深黑色的脸和头，白色和浅橙色的胸部腹部和通风口，和一个红色的脸。7) 棕色和黑色的小鸟，翅膀下面是蓝色8) 这只鸟有蓝色的翅膀和白色的肚子。9) 这只鸟有一个黑色的皇冠，橙色的喉咙和浅橙色的腹部。10) 这只鸟有一个桃色的腹部和胸部与黑色条纹周围的喉咙，一个小喙。房DM-GAN1) 这种花是粉红色和红色的，花瓣是椭圆形的。2) 这朵花的花瓣是粉红色的，中间有红色的花梗。3) 这朵花有一个红色的，带刺的中心有橙色的点，被长的，浅紫色的花瓣包围。4) 这朵花有薄薄的紫色花瓣，中间是红色的雄蕊5) 这种花有多片紫色的花瓣，长而薄，呈椭圆形。6) 这种花的花瓣是粉红色的，雌蕊是红色的。7) 这朵浅紫色的花有许多细长稀疏的花瓣，围绕着一个红色的圆形雌蕊。8) 这种花是粉红色和红色的，花瓣是椭圆形的。9) 这种花有粉红色的花瓣和红色的雄蕊。10) 这种花有细长的紫色花瓣和红色和黑色的球形雌蕊。房DM-GAN1) 一种长着黑色翅膀和喙的灰色鸟2) 这只鸟全身都是黑色的，有黑色的眼睛和黑色的喙，是一只较小的鸟。3) 这只鸟是白色和棕色的颜色，有一个尖锐的喙和灰色的眼圈。4) 这只鸟有蓝绿色的身体黑色的头和尖尖的嘴。5) 这只鸟有黄色的尖喙和红色的眼睛。6) 这只中等大小的鸟有着天蓝色的翅膀和尾巴，漂亮的棕色头和肚子长而肥，形状奇特。7) 这只鸭子主要是黑色的但羽毛末端是白色的8) 这种鸟有一个中等大小的喙和黑色和黄色的羽毛。9) 这是一只棕色的鸟，有深棕色的翅膀和橙色的喙。这只小而肥的鸟有深浅不一的棕色图案，有一个短而粗的黑色喙。Reaa lDDM-GAGAGAN1) 这种花的花瓣是白色的，柱头很大2) 图中所示的花以紫色花瓣为主要特征。3) 所示的花具有带黄色雌蕊的浅紫色花瓣4) 这朵花是白色的，有一个大的卷曲的花瓣。5) 这种花有长的黄色花瓣，花瓣上有棕色的条纹，花瓣光滑，尖端尖。6) 这种花有白色和紫色的大花瓣和白色的小雄蕊。7) 这朵花有一个宽喇叭形，有一个受伤的嘴，靛蓝色的花瓣微微向后卷曲8) 这种花的特点是柔软的紫色和白色花瓣包围着一群紫色和绿色的花蕊，呈钟形。9) 这朵花的花瓣是白色的，上面有黑色的线条。10) 这朵花有许多层长而圆的橙色花瓣围绕着一个短的橙色雄蕊。真真的DDM-GAGAGAN{1}下一页{1，2}{1}下一页{1，2}(a) 1. 这只胖胖的小鸟有着蓝灰色的身体和一个带着黑色面具的褪色的红色脑袋。2. 这只鸟的翅膀是黑色的，腹部是褐色(b) 1. 这朵花的花瓣是亮粉色的，上面有黄色的亮点。2. 这种花是黄色的，有几百片细长的黄色花瓣。{1}下一页{1，2}中两个字幕的k-最佳突出词第二章：1. 身体：1.000，灰色：0.852，和：0.693，这：0.688，a：0.664，脂肪：0.461，小：0.385，褪色：0.369，鸟：0.332 2。a：1.000，has：0.968，black：0.858，bird：0.829，tan：0.763，1. 有：1.000，鸟：0.848，有：0.578，小：0.389，灰色：0.226，黑色：0.162，这个：0.151，a：0.113，脂肪：0.109 2.有：1.000，鸟：0.700，肚子：0.380，棕褐色：0.247，这个：：中两个字幕的k-最佳突出词{1，2}{1}下一页中两个字幕的k-最佳突出词第二章：1. 粉红色：1.000，黄色：0.495，高光：0.475，有：0.395，花：0.364，这个：0.358，花瓣：0.299，明亮：0.294 2.黄：1.000，花：0.966，黄：0.955，是：0.932，这：0.843，花瓣：0.591，1. 粉红色：1.000，明亮：0.709，具有：0.665，花：0.616，这：0.499，黄色：0.407，高光：0.352，具有：0.209 2.纤细：1.000，百：0.961，是：0.711，黄色：0.681，黄色：0.652，花：：中两个字幕的k-最佳突出词(c) 1. 这只鸟的翅膀是黑色的，腹部是褐色2. 这只鸟有黑色的翅膀和白色的腹部。(d) 1. 长而薄的黄色花瓣，边缘成脊状，形成两层，围绕着一簇短而明亮的黄色雄蕊。2. 这种花有大而圆的白色花瓣，花瓣内部是黄色的中两个字幕的k-最佳突出词第二章：1. 有：1.000，a：0.931，黑色：0.755，鸟：0.628，这个：0.526，棕褐色：0.526，和：0.526，有：0.516，翅膀：0.4532. 腹部：1.000，黑色：0.898，鸟：0.855，这个：0.818，有：0.790，a：0.773，白色：0.722，和：1.有：1.000，鸟：0.687，这个：0.291，肚子：0.227，棕褐色：0.215，黑色：0.114，a：0.059，are：0.050，那个：0.032 2. 有：1.000，鸟：0.687，白：0.370，这：0.317，肚子：：中两个字幕的k-最佳突出词中两个字幕的k-最佳突出词第二章：1. 长：1.000，黄：0.777，黄：0.744，薄：0.730，花瓣：0.390，有：0.315，脊：0.285，a：0.2702. 白色：1.000，大：0.663，黄色：0.644，花：0.556，该：0.547，已：0.488，clored：0.309，圆形：0.2741. 细：1.000，雄蕊：0.656，长：0.654，黄：0.393，花瓣：0.308，具：0.251，黄：0.224，a：0.191 2.花：1.000，的：0.773，有：0.675，内部：0.300，大：0.263，白色：0.234，黄色：：中两个字幕的k-最佳突出词图9.由两个标题合成的示例：黑色粗体字表示突出的视觉细节，而红色字表示字幕中冲突的视觉细节。黑盒中的单词是生成步骤的突出特征，具体地说，Fattn和Fattn。电话：+86-10 - 88888888传真：+86-10 - 88888888邮箱：info@hkm.com图10.标题递增的合成图像：标题中的粗体字表示突出特征，1-b表示图像是由第一个到第b个标题生成的。原始的，因为包括额外的兼容的细节。因此，图像和其他字幕的R精度将低于真实图像的R精度。在图7中，用两个字幕合成的图像的R精度（初始分数）将低于（高于）用一个字幕合成的图像的R精度。然而，R精度可以通过重复相应的标题来提高，以简单地强调它在SAEM中，如图所示。第7b段）。分数列于表中。2.我们的SA的平均得分高于其他人，具体来说，在CUB200和Oxford102上分别比基线增加了0.023和0.064对于我们的SA，得分高于Oxford102的基线。在CUB200上，由于鸟类的种类多于Oxford102上的花卉，回忆字幕与其他原始字幕的相关性可能低于花卉字幕，这将导致与基线相比得分较低4.3. 定性结果在图8中，结果表明，由OurF和OurSA生成的具有原始字幕的图像比由DM-GAN合成的图像在语义上更一致，并且OurSA比OurF更稳定，因为难以从非常长的文本序列中提取正确的视觉细节。在图9（a）中，我们的模型可以在第二个区域中合成特征10919胸腹提示.稍微结束d边。耳的雌蕊。你好Reall在tn GA NDM-GANAttnGANDM-GANFF描述：这只鸟有一个黑色的小嘴和灰色的胸部。给定描述：这朵花有一个圆形的棕色中心，向下变成锥形的紫色花瓣检索项0：1) 有小而尖的喙、白色的胸部和灰色的头冠的小鸟2) 灰色和白色相间的小鸟，小而尖的黑色喙，灰色的冠和颊，白色的胸和腹，棕色的尾羽3) 一种灰黑相间的鸟，黑喙灰胸。4) 这是一只灰色的小鸟，长着黑色的翅膀和尖尖的黑喙。5) 一种有深灰色翅膀和白色翼条的小鸟，6) 这只鸟有黑色和白色的翅膀，有一个红色的喙。7) 这只鸟有黑色的翅膀和白色的腹部8) 这只鸟有一张黑色的小嘴，灰色的胸部和腹部。9) 这只鸟是灰色和黑色的，有一个黑色的喙。10)这只鸟有灰色的翅膀和白色的肚子我会的。检索项0：1) 这朵花有紫色的花瓣，上面还有棕色的斑点2) 这朵花是粉红色和棕色的，花瓣在尖端是尖的3) 花瓣的尖端有粉红色和棕色4) 这种花的花瓣是粉红色的，花瓣尖是棕色5) 这种半重瓣的花有明亮的粉红色的眼泪状的花瓣是棕色的，6) 这种花有一层层向上翻的粉红色花瓣和绿色的花瓣尖。7) 这种花有大的粉红色花瓣，向上弯曲到绿色的顶端。8) 这种花的花瓣是粉红色的，顶端是绿色的。9) 一种有杯状和尖状的紫红色花瓣和浅棕色尖端的花10)这种花有粉红色的花瓣，顶部是棕色的，底部是绿色的叶子检索项1：1) 这是一只灰色的鸟，头上戴着一顶深灰色的帽子，有一个锋利的黑色喙。2) 一种头顶黑色，身体灰色的小鸟3) 一种灰色的鸟，腿和脚细长而黑，头冠黑色，喙短而下弯，尖而尖。4) 浅灰色的鸟有深灰色的冠，细长的跗骨，以及点缀着深灰色的初级飞羽。5) 这只鸟有灰色的腹部，黑色的翅膀和黑色的颈背。6) 这只鸟是灰色的，有着黑色的喙、头冠和翅膀，以及细长的腿。7) 这只鸟是灰色的，头冠深灰色，喙尖。8) 这只鸟有一张黑色的小嘴，灰色的背和胸。9) 这只鸟有一个黑色的小嘴，黑色的眼睛和灰色的冠。10)这只鸟是灰色和黑色的，有一个弯曲的黑色喙。检索项1：1) 这朵花是粉红色的，花瓣是椭圆形的，在顶部卷曲2) 这种花有长而薄的紫色花瓣，中间有黄色的花药3) 这朵花有一个棕色的中心，周围是紫色的长花瓣，4) 花瓣椭圆形，紫色，花药黄色5) 亮紫色的叶子围绕着暗橙色的叶子排列成圆形6) 这朵花有大约一打长而薄的花瓣，深紫色，一束短雄蕊和亮橙色的花药。7) 这种花有紫色的花芯和长而尖的紫色花瓣。8) 这种花的花瓣是紫色的，花蕊是黄色的。9) 这种花的花瓣是粉红色的，花梗是长而绿色的。10)这张照片上的花既有花瓣又有萼片。我.图11.通过使用回顾性注释合成的示例：给定一个标题，标题匹配将检索压缩的项目，并选择它们的标题，屏蔽为粗体，以合成大小的图像。第二个标题，同时保留第一个标题中的“灰色主体”和“黑色掩模”的特征。图9（b）-（d）显示了类似的结果，这表明我们的模型可以有效地从多字幕中提取特征并以增量方式合成此外，对于含有冲突特征的字幕，我们的模型会将这些冲突特征合并成一个中间特征。例如，在Fig.图9（c）中，“棕腹”和“白腹”的矛盾特征将被合并为“浅棕腹”，图9（b）中，花瓣内部为粉黄色;在图9（d）中，“黄色”的权重小于“白色”的权重，即白色：1.000 >黄色：0.744，因此“黄色花瓣”的特征不明显。因此，我们的模型可以处理冲突的功能，并结合到一些合理的中间表示。在图10中，我们通过逐渐添加更多的字幕来演示生成的图像，这表明我们的F和我们的SA生成的图像比基线更逼真，“以黑为主”。然而，在随机选择的字幕中可能存在许多冲突特征或一些视觉特征的不可见组合。因此，合成的图像将退化，并且可能比由一个字幕合成的图像更差，因为这些特征的大集合将不向生成器提供有用的信息，而是阻碍其提取正确的特征。图11，我们提出了丰富的例子与给定的给一个说明“这只鸟有一个小的黑色的法案和灰色的胸部。"，匹配将检索紧凑项，图1中的“检索项0”和“检索项1”。11、知识库中物品的特征包含“黑色小喙”和“灰色乳房”。最后一行的图像表明，我们的模型可以合成高质量的图像，比At-tnGAN具有更紧凑的视觉细节。对于花，“检索到的项目1”包括给定标题的特征，而“检索到的项目0”仅包含“粉色花瓣”，因此匹配选择项目1的结果表明，我们的模型也可以合成高质量的图像。4.4. 局限与讨论我们的模型合成图像的基础上丰富的多字幕，并提供更多的信息，以生成器，这解决了有限的信息的问题。实验表明，该算法能有效地提高图像的质量。此外，我们的模型通过一些交互式操作（如 NeuralPainter [4]和SeqAttnGAN [6]）支持增量生成，增加N测试然而，从多字幕合成的图像不是一个简单的任务。它需要在自然语言理解和图像合成方面更复杂的方法来提高FSA的表现进一步，如语义句em-使用更多的字幕。此外，还证明了我们的F可以生成比我们的F更相关的图像。例如在在左上角的例子中，当第8个标题被触摸时，我们的F合成了一个带有蓝色皇冠的图像然而，在第8个caption之前，因此，由连接的标题构建的长文本序列会使我们的F感到难以选择和保留突出的单词。我们的模型我们的SA可以通过单独考虑每个标题来将复杂的问题划分为更容易的子问题来减轻这些问题。在图的右边部分。10，我们进一步利用随机选取的帽子来合成

下载后可阅读完整内容，剩余1页未读，立即下载