DM-GAN：文本到图像合成中的动态记忆生成对抗网络

20 浏览量更新于2023-10-18 收藏 1.35MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

15802DM-GAN：用于文本到图像合成的朱敏峰1，3潘平波3陈伟1杨毅2，3†1浙江大学CAD CG国家重点实验室2百度研究3悉尼科技大学人工智能中心{朱敏峰@，陈伟@cad}zju.edu.cn{平波.潘@学生，杨毅@}uts.edu.au摘要这只小鸟有公园里的人过的浴室里有在本文中，我们专注于从文本描述生成逼真的图像。现有的方法首先生成具有粗糙形状和颜色的初始图像，然后将初始图像细化为高分辨率的图像。大多数现有的文本到图像合成方法有两个主要问题。(1)这些方法在很大程度上依赖于初始图像的质量。如果初始图像没有被很好地初始化，则随后的处理很难将图像细化到令人满意的质量。(2)每个词在描绘不同的图像内容时都有不同的重要性黄冠白腹。蓝冠白喉棕副冠。放风筝和散步。白瓷砖被擦干净了。然而，在前向图像细化过程中使用未改变的文本表示在本文中，我们提出了动态记忆生成对抗网络（DM-GAN）来生成高质量的图像。该方法引入动态记忆模块，在初始图像生成不充分的情况下，对模糊图像内容进行细化设计了一个存储器写门，根据初始图像内容选择重要的文本信息，使我们的方法能够准确地从文本描述中生成图像。我们还利用一个响应门，自适应地融合从存储器中读取的信息和图像特征。我们评估DM-GAN 模型的Caltech-UCSD Birds 200数据集和Microsoft Common Objects in Context数据集。实验结果表明，我们的DM-GAN模型表现良好，对国家的最先进的方法。1. 介绍在过去的几年里，生成对抗网络（GANs）[4]在图像和视频生成中的使用有了显着的增长。最近，GANs已经在*这项工作是在朱敏峰访问悉尼科技大学时完成的†其中一部分工作是杨易在参加百度研究院的专业体验项目时完成图1.通过我们的DM-GAN进行文本到图像合成的示例。广泛用于根据文本描述生成照片般逼真的图像（参见图1）。充分理解视觉内容和自然语言之间的关系是迈向人工智能的重要一步，例如，图像搜索和视频理解[33]。多阶段方法[28，30，31]首先生成低分辨率初始图像，然后将初始图像细化为高分辨率图像。虽然这些多阶段方法取得了显著的进展，但仍然存在两个问题。首先，生成结果严重依赖于初始图像的质量。如果初始图像生成得不好，则图像细化过程不能生成高质量的图像第二，输入句子中的每个单词具有描述图像内容的不同级别的信息。当前模型在不同的图像细化过程中利用相同的词表示，这使得细化过程无效。图像信息应该被考虑到，以确定每个词的重要性，以进行细化。在本文中，我们介绍了一种新的动态记忆生成对抗网络（DM-GAN）来解决上述问题。对于第一个问题，我们建议增加一个内存机制，以应付不良生成的初始图像。最近的工作[27]已经显示了记忆网络对知识源进行编码的能力。灵感来自真实图像合成图像15803在这项工作中，我们建议将键值存储器结构[13]添加到GAN框架中。初始图像的模糊图像特征被视为从存储器模块读取特征的查询存储器的读取用于细化初始图像。为了解决第二个问题，我们引入了一个存储器写门动态选择的话，是相关的生成的图像。这使得我们生成的图像很好地依赖于文本描述。因此，根据初始图像和文本信息，在每个图像细化过程中动态地此外，代替直接连接图像和存储器，响应门用于自适应地接收来自图像和存储器的信息。我们在Caltech-UCSD Birds 200（CUB）数据集和Microsoft Common Objects in Context（COCO）数据集上进行了实验来评估DM-GAN模型。生成图像的质量使用 InceptionScore （ IS ）、 Fre' chetInceptionDistance（FID）和R精度进行测量。实验表明，我们的DM-GAN模型优于以前的文本到图像合成方法，定性和定量。在CUB数据集上，我们的模型将IS从4.36提高到4.75，并将FID从23.98降低到16.09。在上述两个数据集上，R-精度分别提高了4.49%和3.09%。定性评估证明，我们的模型生成更多的照片真实感的图像。本文做出了以下主要贡献：• 我们提出了一种新的GAN模型，结合动态记忆组件，即使初始图像没有很好地生成，也可以生成高质量的图像。• 提出了一种根据初始图像选择相应字的存储器写门• 提出了一种自适应融合图像和存储器信息的响应门。• 实验结果表明，DM-GAN优于国家的最先进的方法。2. 相关工作2.1. 生成对抗网络。随着变分自编码器（VAE）[9]和GAN [4]最近的成功，已经提出了大量方法最近，基于文本描述生成图像在当今的研究界中获得了兴趣。单级。文本到图像的合成问题是由Reed等人分解的。[20]分成两个子问题：首先，学习联合嵌入以捕获自然语言和真实世界图像之间的关系;深度卷积生成对抗网络[19]被训练来合成一个引人注目的图像。Dong等人[3]采用成对排序损失[10]将图像和自然语言投影到联合嵌入空间中。由于先前的生成模型未能添加位置信息，Reedet al.提出了GAWWN[21]来编码定位约束。为了使生成的图像多样化，TAC-GAN [2]的分类器不仅将真实图像与合成图像区分开，而且还将合成图像分类为真实类。类似于TAC-GAN，PPGN[16]包括条件网络以合成以字幕为条件的图像。多阶段。StackGAN [30]和StackGAN++ [31]通过两个阶段生成逼真的高分辨率图像。Yuan等[29]采用对称蒸馏网络，以最小化真实图像和合成图像之间的多级差异。DA-GAN [12]将每个单词翻译成图像的子区域。我们的方法考虑了每个词和整个生成图像之间的相互作用。对全局句子向量的调节可能导致低质量图像，AttnGAN [28]通过利用注意力机制将图像细化输入句子中的每个单词具有描绘图像内容的不同级别的信息。然而，AttnGAN平等地对待所有单词，它采用atten- tion模块来使用相同的单词表示。我们提出的内存模块能够发现这种差异的图像生成，因为它动态地选择重要的词信息的基础上的初始图像内容。2.2. 记忆网络。最近，记忆网络[5，27]提供了一种新的架构，可以使用外显存储和注意力的概念更有效地从记忆中推理答案。存储器网络首先将信息写入外部存储器中，然后根据关联概率Weston等人[27]引入内存网络，通过逐个查找支持内存产生输出。端到端内存网络[23]是内存网络的连续形式，其中每个内存插槽根据内存和查询之间的内部产品进行加权。为了理解非结构化文档，键值记忆网络（KV-MemNN）[13]通过对键记忆和值记忆使用不同的编码来执行推理。密钥存储器用于在预测最终答案时推断对应值存储器的权重。受最近成功的记忆网络的启发，我们引入了DM-GAN，一种新的网络架构，通过键和值记忆之间的非平凡变换来生成高质量的图像。15804CA：条件反射增强FC：全连接层关键重量值图2.用于文本到图像合成的DM-GAN架构我们的DM-GAN模型首先生成初始图像，然后细化初始图像以生成高质量的图像。3. DM-GAN如图2所示，我们的DM-GAN模型的架构由两个阶段组成：初始图像生成和基于动态存储器的图像细化。在初始图像生成阶段，首先，输入的文本描述被文本编码器转换成一些内部表示（一个句子特征s和几个单词特征W）然后，深度常规生成器根据句子特征和随机噪声向量z预测具有粗略形状和较少细节的初始图像x0：x0，R0=G0（z，s），其中R0是图像特征。噪声向量从正态分布中采样。在基于动态记忆的图像细化阶段，将更细粒度的视觉内容添加到模糊初始图像以生成照片级真实感图像xi：xi，Ri=Gi（Ri-1，W），其中Ri-1是来自上一阶段的图像特征。细化阶段可以重复多次检索更多相关信息并生成具有更细粒度细节的高分辨率图像。基于动态内存的图像细化阶段由四个组件组成：内存写入、键寻址、值读取和响应（第3.1节）。存储器写入操作将文本信息存储到键值结构存储器中以供进一步检索。然后，采用键寻址和值读取操作来从存储器模块读取特征，以细化低质量图像的最后，采用响应操作控制图像特征的融合我们提出了一种记忆写入门，用于在记忆写入步骤中根据图像内容突出显示重要的单词信息（第3.2）。我们还利用响应门自适应地融合从存储器读取的信息和响应步骤中的图像特征（第3.3节）。3.1. 动态存储器我们从给定的输入单词表示W、图像x和图像特征Ri开始：W={w1，w2，.，w T}，wi∈ RNw，（1）Ri={r1，r2，.，r N}，ri∈ RNr，（2）其中T是单词的数量，Nw是单词特征的维度，N是图像像素的数量，并且图像像素特征是Nr维向量。我们的目的是学习一个模型，使用更有效的方法来细化图像，通过键和值存储器之间细化阶段包括以下四个步骤。记忆书写：编码先验知识是动态记忆的重要组成部分，它可以从文本中恢复高质量的图像。一种简单的写内存的方法是只考虑部分文本信息。mi=M（wi），mi∈RNm（3）其中M（·）表示将词特征嵌入到Nm维记忆特征空间中的1×1卷积运算键寻址：在这一步中，我们使用键存储器检索相关初始图像生成这只小鸟黄冠白腹。文本描述+μ（s）×z~N（0，1）sent featsσ（s）ε~N（0，1）CAimg featR0初始图像x0基于动态记忆的图像细化存储器写入价值阅读响应Mw（w）×V（m）O ×中文（简体）+m值权重K（mGrR新+×关键×img featRk图像xkimg featRk-1Memory Writing Gate关键字寻址响应门k= 1，2RW1-gwGWMr（R）文本编码器动态存储器RRO1-grGrFCUpBlockUpBlockUpBlockResBlockUpBlockResBlockUpBlock3 x 3 Conv3 x 3 ConvDiD015805的分类。我们计算每个内存槽的权重作为内存15806我我我Di2x数据ix数据Gii我我GixpGixpGi我时隙Mi和图像特征Rj：exp（φK（mi）Trj）3.3. 门控响应我们利用自适应门控机制，αi，j= ΣTl=1 exp（φK（ml）Trj）、（四）控制信息流和更新图像功能：gr=σ（W[oi，ri]+b），（九）其中，αi，j是第i个rnew=oigr+ri（1−gr），我我我存储器和第j个图像特征，φK（）是关键存储器访问过程，其将存储器特征映射到维度Nr中。φK（）被实现为1×1卷积。值读取：输出存储器表示被定义为值存储器ac的加权和。根据相似性概率：ΣT其中gr是信息融合的响应门，σ是S形函数，W和b是参数矩阵和偏置项。3.4. 目标函数发电机网络的目标函数定义为：oj=αi，jφV（mi），（5）i=1ΣL=L G +λ1LCA+λ2LDAMSM，（10）其中φV（）是将存储器特征映射到维度Nr的值存储器访问过程。φV（）被实现为1×1卷积。响应：接收到输出内存后，我们com-将当前图像和输出表示转换为vide一个新的图像功能。一种简单的方法是简单地连接图像特征和输出表示。通过以下步骤获得新的图像特征：r新= [o，r]，（6）我其中λ1和λ2分别是条件增益损失和DAMSM损失的相应权重。G0表示初始生成阶段的生成元。Gi表示图像细化阶段的第i次迭代对抗性损失：Gi的对抗性损失定义如下：L=−1[ElogD（x）+ElogD（x，s）]，（11）我我我我I2其中[·，·]表示级联操作。然后，我们能够利用上采样块和几个残差块[6]将新的图像特征放大到高分辨率，分辨率图像上采样块由最近邻上采样层和3×3卷积组成。最后，使用3×3卷积从新图像特征获得细化图像x。3.2. 门控存储器写入代替使用等式3仅考虑部分文本信息，存储器写入门允许DM-GAN模型选择相关单词以细化初始图像。存储器写入门gw将来自最后一级的图像特征Ri与字特征W组合以计算字的重要性：1ΣN其中第一项是使生成的图像尽可能真实的无条件损失，第二项是使图像与输入句子匹配的条件损失。可替代地，针对每个PDDi的对抗性损失被定义为：L=−1[ElogD（x）+Elog（1−D（x））联系我们无条件损失+Exp数据logDi（x，s）+ExpGlog（1−Di（x，s））]，`ix条件损失（十二）其中，无条件损失被设计为将所生成的图像与真实图像区分开，而有条件损失确定图像与输入句子是否匹配。条件反射增强损失：条件反射gw（R，wi）=σ（A<$wi+B<$N i=1ri），（7）增强（CA）技术[30]被提出来增强训练数据，并通过重新分配输入来其中σ是sigmoid函数，A是1 ×Nw矩阵，并且B是一个1×Nr矩阵。然后，结合图像特征和文字特征对存储槽mi∈RNm1ΣN句子向量来自独立的高斯分布。因此，CA损失被定义为训练数据的标准高斯分布和高斯分布之间的Kullback-Leibler发散。2019 - 05 - 25 01：02 01：0302：04 0302：05 03 02：0403 02：0405 02：0Ni=1ri）n（1−gw），（8）L CA=D KL（N（μ（s），μ（s））||N（0，I）），（1315807）其中Mw（·）和Mr（·）表示1x1卷积运算。Mw（·）和Mr（·）将图像和图像特征嵌入到同一个Nm维特征空间中。其中μ（s）和μ（s）是句子特征的均值和对角协方差μ（s）和μ（s）由完全连接的层计算。15808DAMSM损失：我们利用DAMSM损失[28]来衡量图像和文本之间的匹配程度。DAMSM损失使得生成的图像更好地以文本描述为条件。3.5.实现细节对于文本嵌入，我们采用了Xu等人的预训练双向LSTM文本编码器。[28]并在训练期间固定其每个字特征对应两个方向的隐藏状态。句子特征是通过连接两个方向的最后隐藏状态生成的。初始图像生成阶段首先合成具有64x64分辨率的图像。然后，基于动态分类的图像细化阶段将图像细化到128x128和256x256分辨率。由于GPU内存的限制，我们只使用动态内存模块重复了两次优化在低分辨率图像中引入动态存储器（即. 16x16，32x32）不能进一步提高性能。因为低分辨率图像生成不好，其特征更像是随机向量。对于所有卷积神经网络，我们在每次卷积后应用频谱归一化[15]，以避免不寻常的梯度，从而提高文本到图像的合成性能。默认情况下，我们设置NW= 256，NR= 64和Nm= 128分别为文本，图像和内存特征向量的维数我们为 CUB 数据集设置超参数λ1= 1 和λ2= 5，为COCO数据集设置超参数λ1= 1和λ2= 50所有网络都使用ADAM优化器[8]进行训练，批量大小为10，β1=0。5和β2= 0。999 学习率设定为0.0002。我们在CUB数据集上训练了600个epoch，在COCO数据集上训练了120个4. 实验在这一节中，我们定量和定性地评估DM-GAN模型。我们使用开源Python库PyTorch实现了DM-GAN模型[18]。数据集。为了证明我们提出的文本到图像合成方法的能力，我们在CUB [26]和COCO [11]数据集上进行了实验。CUB数据集包含200个鸟类类别11，788张图像，其中150个类别8，855张图像用于训练，其余50个类别2，933张图像用于测试。CUB数据集中的每个图像有十个字幕。COCO数据集包括具有80k图像的训练集和具有40k图像的测试集COCO数据集中的每个图像都有五个文本描述。评估指标。我们量化了 DM-GAN 在初始分数（IS），Fre' chetIncep-tionDistance（FID）和R精度方面每个模型生成30，000张图像，这些图像以来自未见过的测试集的文本描述为条件进行评估。IS [22]使用预先训练的Inception v3网络[24]计算条件类分布和边际类分布之间的KL-散度大IS意味着生成的模型为所有类输出高度多样性的图像，并且每个图像明显属于特定类。FID[7]基于从预训练的Inception v3网络中提取的特征计算合成图像和真实图像之间的Fre'chet距离较低的FID意味着生成的图像分布与真实世界图像分布之间的距离更近继Xuet al.[28]，我们使用R精度来评估生成的图像是否符合给定的文本描述。R精度通过在给定图像查询的情况下检索相关文本来测量。我们计算一个全局图像向量和100个候选句子向量之间的余弦距离。候选文本描述包括R个地面真值和100-R个随机选择的不匹配描述。对于每个查询，如果排名前R的检索描述中的r个结果是相关的，则R-精度是r/R。在实践中，我们计算R=1的R-精度。我们将生成的图像分为10倍检索，然后采取的平均值和标准偏差的结果得分。4.1. 文本到图像质量我们将我们的DM-GAN模型与CUB和COCO测试数据集上的最新模型进行了比较。在表1和表2中报告了试验结果。如表1所示，我们的DM-GAN模型在CUB数据集上实现了与AttnGAN相比，DM-GAN在CUB数据集上将IS从4.36提高到4.75（提高8.94%），在COCO数据集上将IS从25.89提高到30.49（提高17.77%）。实验结果表明，我们的DM-GAN模型生成的图像质量高于其他方法。表2 比较了AttnGAN和DM-GAN 之间关于CUB 和COCO数据集上的FID的性能。我们从正式的预训练模型中测量AttnGAN的FID。我们的DM-GAN将CUB数据集上的FID从23.98降低到16.09，COCO数据集上的35.49到32.64，这表明DM-GAN学习了更好的数据分布。如表2所示，DM-GAN在CUB数据集上将R精度提高了4.49%，在COCO数据集上提高了3.09%。更高的R精度表明DM-GAN生成的图像更好地依赖于给定的文本描述，这进一步证明了所采用的动态记忆的有效性。总之，实验结果表明，我们的DM-GAN是优于国家的最先进的模型。15809数据集GAN-INT-CLS [20][21]第二十一话StackGAN [30]PPGN [16][28]第二十八话DM-GAN幼崽2.88±0.043.62±0.073.70±0.04（-）4.36±0.034.75±0.07Coco7.88±0.07（-）8.45±0.039.58±0.2125.89±0.4730.49±0.57表1.GAN-INT-CLS [20]、GAWWN [21]、StackGAN [30]、PPGN [16]、AttnGAN [28]和在CUB和COCO数据集上的DM-GAN。最佳结果以粗体显示。数据集度量AttnGANDM-GAN架构IS↑FID↓R-Precision↑幼崽FID↓23.9816.09基线4.51±0.0423.3268.60±0.73R-精度↑67.82±4.4372.31±0.91+M4.57±0.0521.4170.66±0.69COCO FID↓ 35.4932.64R-精度↑85.47±3.6988.56±0.28表2. AttnGAN [28]和我们的DM-GAN在CUB和COCO数据集上的FID和R精度的性能。AttnGAN的FID是根据官方发布的重量计算的。对于FID，越低越好，对于R精度，越高越好。4.2. 视觉质量对于定性评估，图3显示了由我们的DM-GAN和最先进的模型生成的文本到图像合成示例。一般来说，我们的DM-GAN方法在大多数情况下生成具有更生动细节和更清晰背景的图像，与At- tnGAN [28]，GAN-INT-CLS [20]和StackGAN [30]相比，因为它采用了一种动态记忆模型，使用不同的加权单词信息来提高图像质量。我们的DM-GAN方法能够更好地理解文本描述的逻辑，并呈现更清晰的图像结构观察在图3（a）中的CUB数据集上生成的具有单个字符的样本，尽管DM-GAN和AttnGAN在准确捕获和呈现字符的特征方面都表现良好，但我们的DM-GAN模型更好地突出了图像的主要主题，即鸟，与其背景区分开来它表明，与动态记忆模块，我们的DM-GAN模型能够弥合视觉内容和自然语言之间的差距。在多主题图像生成方面，例如，图3（b）中的COCO数据集，当文本描述更复杂并且包含多于一个主题时，生成照片般逼真的图像更具挑战性。DM-GAN根据最重要的主题精确地捕获主要场景，并将其余描述内容逻辑地排列，从而改善了图像的全局结构。例如，DM-GAN是唯一成功的方法，在图3（b）中的列3中清楚地识别具有所需组件的浴室。视觉结果表明，我们的DM-GAN是更有效地捕捉重要的主题，使用一个重要的写作门动态选择重要的话。图4表明，我们的DM-GAN模型能够优化初始化不好的图像，并生成更多的照片。表3.不同架构的DM-GAN在CUB数据集上的性能。M、WG和RG分别表示动态逻辑、存储器写门和响应门逼真的高分辨率图像。因此，图像质量明显得到了很好的改善，具有清晰的背景和convincing细节。在大多数情况下，初始阶段生成具有粗糙形状和颜色的模糊图像，使得背景被微调为具有细粒度纹理的更真实的图像，而细化的图像将更好地适应输入文本并提供更照片般真实的高分辨率图像。在图4的第四列中，在鸟的身体上没有发现白色条纹图像分辨率为64×64。细化过程有助于从文本中编码“白色条纹”信息，基于文本描述和图像内容的手写和添加回丢失的特征。换句话说，我们的DM-GAN模型能够细化图像以匹配输入的文本描述。为了评估我们的DM-GAN模型的多样性，我们使用相同的文本描述和多个噪声向量生成多个图像图5显示了具有不同形状和背景的文本描述图像彼此相似但不相同，这意味着我们的DM-GAN生成具有高度多样性的图像4.3. 消融研究为了验证我们提出的组件的有效性，我们在CUB数据集上评估了DM-GAN架构及其体系结构之间的控制组件包括键值存储器（M）、写入门（WG）和响应门（RG）。我们定义了一个基线模型，从DM-GAN中删除了M，WG和RG。根据部分文本信息写入存储器响应操作简单地连接图像特征和存储器输出（等式6）。表3中报告了DM-GAN架构及其变体的性能我们的基线模型产生的性能略通过整合这些组件，+M+WG4.65±0.0520.8371.40±0.64+M+WG+RG4.75±0.0716.0972.31±0.9115810这只鸟有翅膀这只鸟有翅膀这是一只灰色的鸟这只鸟有一个短的这只鸟有一个这只特别的鸟这只鸟是青柠这只黄鸟是灰色的，是黑色的，带着棕色的翅膀棕色的比尔，白色白喉咙和一个有一个肚子，绿中带灰喙很细，有一个白色的肚子。有一个白色的肚子。还有一个橙色的小嘴眼睛，和一个中等棕色的皇冠。深黄色的喙，黄色和棕色。灰色的翅膀翅膀和长腿乌黑的眼睛和瘦弱的脚(a) CUB数据集一个男人在海浪中冲浪的侧影。房间有木地板和一个石头壁炉。白色瓷砖的浴室一个水果摊，有香蕉、木瓜和番荔枝.一个停在草地上的标志。一场火车事故，几节车厢掉进了河里。一把各种各样的蔬菜放在桌子上。一架飞机停在机场航站楼附近。(b) coco数据集图3.通过DM-GAN和AttnGAN进行文本到图像合成的示例结果（a）根据CUB测试集的文本生成鸟类图像(b)通过COCO测试集的文本调节生成图像。DM-GANStackGANAttnGANGAN-INT-CLSDM-GANStackGANAttnGANGAN-INT-CLS15811这只小鸟这只鸟有一只蓝色的这只鸟有一个红色的主要是黑色的鸟公园里的人浴室配有多个人一个时钟，是在黄色的皇冠和一个白色皇冠头部、喉咙和胸部，有白色条纹放风筝和走白色瓷砖一直是站在海边塔的一侧白肚皮喉咙和棕色的第二层。白肚皮的黄色中等大小的喙ing.打扫干净了在水边。图4.我们的DM-GAN模型的不同阶段的结果，包括初始图像，一个细化过程后的图像和两个细化过程后的图像。这只鸟有灰色的翅膀和白色的肚子。一群人站在海边的沙滩图5.使用相同的文本描述生成图像。ponents，我们的模型可以实现进一步的改进，证明了每个组件的有效性。此外，我们可视化AttnGAN [28]和我们的DM-GAN选择的最相关的单词。我们注意到，注意机制不能准确地选择相关的词时，初始图像没有很好地生成。我们提出了动态记忆模块来选择最相关的词的基础上的全球图像特征。如图图6（a）示出，尽管产生了具有不正确的红色胸部的鸟，但是动态存储器模块选择单词，即“白色”以校正图像。DM-GAN在两个步骤中选择并组合单词信息与图像特征（参见图1B）。6（b））。选通存储器写入步骤首先粗略地选择与图像相关的字并将它们写入存储器。然后，键寻址步骤进一步从存储器中读取更多的相关字。5. 结论在本文中，我们提出了一种新的架构称为DM-GAN的文本到图像的合成任务。我们采用一个动态存储器组件，用于优化初始生成的图像，一个存储器写入门，用于突出重要的(a) 这只鸟是红色的颜色与黑色和白色的胸部和黑色的眼睛。(b) 这只鸟是蓝中带白的，有一个很短的喙。图6. (a)注意模块和动态记忆模块选择的前5名相关词的比较。(b)通过记忆书写步骤和按键修饰步骤选出前5个相关单词文本信息和静止门融合图像和历史表示。在两个真实世界数据集上的实验结果表明，DM-GAN在定性和定量方面都优于现有技术。我们的DA- GAN优化初始图像错误的颜色和粗糙的形状.然而，最终的结果仍然严重依赖于初始图像中的多个主题的布局。在未来，我们将尝试设计一个更强大的模型来生成具有更好组织的初始图像。确认本研究得到了国家重点研究发展计划（ 2018YFB0904503 ）和国家自然科学基金（U1866602，61772456）的资助。256×25664×64128×128128×12864×64256×256128×128关注动态存储器1. 鸟2. 红色3. 黑色4. 和5. 这1. 鸟2. 白色3. 这4. 红色5. 乳腺存储器写入键定址1. 白色2. 短3. 鸟4. 非常5. 蓝色1. 白色2. 蓝色3. 喙4. 短5. 这15812引用[1] Jiezhang Cao ， Yong Guo ， Qingyao Wu ， ChunhuaShen，and Mingkui Tan.使用局部坐标编码的对抗学习。ICML，2018。[2] Ayushman Dash，John Cristian Borges Gamboa，SherazAhmed，Marcus Liwicki，and Muhammad Zeshan Afzal.Tac-gan-text条件辅助分类器生成式对抗网络。arXiv预印本arXiv：1703.06412，2017。[3] 董浩、司淼宇、吴超、郭一珂。通过对抗学习进行语义图像合成。在IEEE ICCV会议记录中，第5706-5714页[4] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成对抗网络。在NIPS，第2672-2680页[5] Caglar Gulcehre ， Sarath Mar ， Kyunghyun Cho ， andYoon-Bengio.具有连续和离散寻址方案的动态神经图灵机神经计算，30（4）：857[6] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习arXiv预印本arXiv：1512.03385，2015。[7] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。参见NIPS，第6626-6637页[8] D Kinga和J Ba Adam。随机优化的一种方法。载于ICLR，第5卷，2015年。[9] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。arXiv预印本arXiv：1312.6114，2013。[10] Ryan Kiros、Ruslan Salakhutdinov和Richard S.泽梅尔统一视觉语义嵌入与多模态神经语言模型。CoRR，abs/1411.2539，2014。[11] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。参见ECCV，第740-755页。Springer，2014.[12] Shuang Ma，Jianlong Fu，Chang Wen Chen，and TaoMei. Da-gan：深度注意力生成对抗网络的实例级图像翻译。在CVPR中，第5657- 5666页[13] Alexander Miller 、 Adam Fisch 、 Jesse Dodge 、 Amir-Hossein Karimi、Antoine Bordes和Jason Weston。用于直接读取文档的键值在ACL中，第1400-1409页[14] Mehdi Mirza 和 Simon Osindero 条件生成对抗网。CoRR，2014年。[15] Takeru Miyato，Toshiki Kataoka，Masanori Koyama，and Yuichi Yoshida.生成式对抗网络的谱归一化。在ICLR，2018年。[16] Anh Nguyen ， Jeff Clune ， Yoshua Bengio ， AlexeyDosovit- skiy ，and Jason Yosinski.即插 &即用生成网络：潜空间中图像的条件迭代生成。在CVPR中，第4467-4477页[17] Augustus Odena，Christopher Olah，and Jonathon Shlens.辅助分类器gans的条件图像合成。在ICML，第2642-2651页15813[18] Adam Paszke、Sam Gross、Soumith Chintala、GregoryChanan 、 Edward Yang 、 Zachary DeVito 、 ZemingLin、Alban Desmaison、Luca Antiga和Adam Lerer。pytorch中的自动微分。在NIPS-W，2017年。[19] 亚历克·雷德福卢克·梅斯和苏米特·钦塔拉深度卷积生成对抗网络的无监督表示学习。arXiv预印本arXiv：1511.06434，2015。[20] Scott Reed，Zeynep Akata，Xinchen Yan，LajanugenLo- geswaran，Bernt Schiele，and Honglak Lee.生成对抗性文本到图像合成。在ICML，第1060[21] Scott E Reed，Zeynep Akata，Santosh Mohan，SamuelTenka，Bernt Schiele，and Honglak Lee.学习在哪里画什么。在NIPS，第217-225页[22] Tim Salimans、Ian Goodfellow、Wojciech Zaremba、Vicki Cheung、Alec Radford和Xi Chen。改进的gans训练技术。在NIPS，第2234-2242页[23] Sainbayar Sukhbaatar，Arthur Szlam，Jason Weston，and Rob Fergus.端到端内存网络。在NIPS，第2440[24] Christian Szegedy、Vincent Vanhoucke、Sergey Ioffe、Jon Shlens和Zbigniew Wojna。重新思考计算机视觉的初始架构。在CVPR，第2818-2826页，2016年。[25] Eric Tzeng，Judy Hoffman，Kate Saenko，and TrevorDarrell.对抗性判别域自适应。在CVPR中，第7167-7176页[26] Catherine Wah、Steve Branson、Peter Welinder、PietroPerona和Serge Belongie。加州理工学院-ucsd鸟类-200-2011数据集。2011年。[27] 杰森·韦斯顿苏米特·乔普拉和安托万·博德斯记忆网络。2015年，国际会议[28] Tao Xu ， Pengchuan Zhang ， Quyuan Huang ， HanZhang ， Zhean ， Xiaeli Huang ， and Xiaodong He.Attngan：使用注意力生成对抗网络生成细粒度文本到图像。在CVPR，2018年。[29] 袁明宽和彭宇新。通过对称蒸馏网络进行文本到图像的合成。arXiv预印本arXiv：1808.06801，2018。[30] Han Zhang，Tao Xu，and Hongsheng Li. Stackgan：使用堆叠生成式对抗网络进行文本到照片级逼真图像合成。在IEEE ICCV中，第5908-5916页。IEEE，2017年。[31] H. Zhang ， T. Xu ， H. Li ， S. Zhang ， X. Wang ， X.Huang和D. N. Metaxas Stackgan++：使用堆叠生成对抗网络的真实图像合成。TPAMI，2018年。[32] Fengda Zhu，Linchao Zhu，and Yi Yang.三维室内导航的仿真-真实联合约束传递在CVPR，2019年。[33] Zhu Linchao，Zhongwen Xu，Yi Yang.用于视频中时间建模的双向多速率重建。在CVPR，2017年7月。

下载后可阅读完整内容，剩余1页未读，立即下载