文本到逼真图像生成的语义解析模型

95 浏览量更新于2023-10-19 收藏 1.52MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

43212327面向文本到图像生成尹国军1、 2、刘斌1、卢胜2、4、余能海1、王晓刚2、邵静31中国科学技术大学、中国科学院电磁空间信息重点实验室2香港中文大学-商汤科技联合3商汤科技研究院4北京航空航天大学gjyin@mail.ustc.edu.cn，lsheng@buaa.edu.cn，{flowice，ynh}@ ustc.edu.cn，xgwang@ee.cuhk.edu.hk，shaojing@sensetime.com摘要从文本描述合成真实感图像是一个具有挑战性的问题。以往的研究已经显示出显着的进步，视觉质量的生成图像。在本文中，我们考虑从输入的语义（一）（a-i）地面实况图像（a-ii）（a-iii）“这只黄鸟的头顶是黑色的，它有斑点的翅膀”“一只黄色的鸟有斑点的翅膀和黑色的王冠“文本描述，以帮助渲染照片般逼真的图像。然而，不同的语言表达方式在以下方面构成挑战：提取一致的语义，即使它们描述了相同的东西。为此，我们提出了一种新的照片般真实的文本到图像生成模型，隐式地解开语义，以满足高层次的语义一致性和低层次的语义多样性。具体来说，我们设计(1) 一种学习一致的高级语义的暹罗机制;（2）一种基于语义条件的批量规范化的视觉语义嵌入策略。（b）第（1）款“这只黄鸟的头顶是黑色的，它有斑点的翅膀”“一只黄色的鸟有斑点的翅膀和黑色的王冠“寻找不同的低层次语义。CUB和MS-COCO数据集上的大量实验和消融研究表明，该方法在计算上优于最先进的方法。1. 介绍生成对抗网络（GAN）[11，21，1，20]的快速发展带来了各种条件下自然图像生成的显着发展。与诸如随机噪声、标签映射或草图的条件相比，从语言描述（文本）生成图像是更自然但具有挑战性的方式，因为（1）语言描述是人类描述图像的自然且方便的媒介，但是（2）跨模态文本到图像生成仍然具有挑战性。现有的文本到图像生成工作[40，37，42，14，29]主要集中于通过堆叠的粗到细生成器结构[40，14]或注意力引导的吕生为通讯作者。对比损失GansGansSCBN文本编码器文本编码器SCBN（正文1）（正文1）（正文二）（正文二）43212328图1.鉴于（a-ii）中的描述，它们的图像由（a-iii）中的现有GAN生成。与（a-i）中的地面实况图像相比，这种整体主观文本可能由于缺乏共同和独特的语义而导致生成偏差（a-iii）在（b）中提出的SD-GAN通过连体结构提取语义公域，并通过语义条件批规范化保留语义差异细节。生成程序[37]。然而，这些方法忽略了一个重要的现象，即人类对同一幅图像的描述具有高度的主观性和多样性，这意味着天真地使用这些文本作为唯一的描述来生成图像往往会产生与地面真实图像相距甚远的不稳定的外观模式。例如，对于图1中的同一地面实况图像给出不同的描述（图1（a-ii））。1（a-i），图1中生成的图像。1（a-iii）由[37]目前各种外观模式，除了地面实况，甚至没有类似于同一种鸟。它表明，语言表达的丰富多样性对从不同的描述中提取一致的语义公域提出了挑战，43212329相同的图像。描述的变化可能导致偏离图像生成，即使它们描述具有非常相似的语义表达的同一只为了解决这个问题，在本文中，我们提出了一种新的照片级真实感的文本到图像生成方法，有效地利用语义在输入文本的生成过程中，命名为语义解开生成对抗网络（SD-GAN）。提出的SD-GAN从文本中提取语义共性，以保证图像生成的一致性，同时保留语义细节，以实现细粒度图像生成。受不同任务中使用的Siamese结构的优点[32，33，4，10，43]的启发，它可以找到一对序列之间的相似性，我们将我们的判别器视为图像比较器，以便保持生成的图像之间的语义一致性，只要它们的描述是全面的并且涉及相同的语义内容。具体来说，所提出的SD-GAN使用Siamese方案，其中一对文本作为输入，并使用图1所示的对比损失进行训练。第1段（b）分段。将类内对表示为具有不同描述的相同地面实况图像，而将类间对表示为具有不同描述的不同通过SD-GAN，具有相似语言语义的类内对应该生成一致的图像，这些图像在特征空间中具有较小的距离，而类间对必须承受更大的距离。由于我们在图像生成器之前没有文本到语义的嵌入结构，因此这种特殊的训练策略也迫使文本到图像生成器具有来自不同语言表达的语义公域的内在升华。在某种程度上，连体结构确实从文本中提取了语义共性，但同时忽略了这些描述的语义差异细节，即使来自同一个图像。为了保持文本的语义差异，详细的语言线索应该嵌入到视觉生成中。以前的作品试图通过将文本特征作为生成器的输入来指导视觉生成[40，41，37]。从另一个角度来看，我们重新制定了生成器内的批规范化层，在图中表示为语义条件批规范化（SCBN）。第1段（b）分段。所提出的SCBN使详细和细粒度的语言嵌入能够操纵生成网络中的视觉特征图。我们的贡献总结如下：1) 从文本中提取语义共享-提出的SD-GAN从语言定义中提取语义共享，基于此生成的据我们所知，这是第一次将暹罗机制引入跨模态生成。2) 从文本中保留语义差异以补充可能失去独特的语义特征，我们设计了一个增强的视觉语义嵌入方法，通过重新制定批量规范化层与实例语言线索。语言嵌入可以进一步指导细粒度图像生成的视觉模式合成。3) 提出的SD-GAN在CUB-200鸟类数据集[34]和MS-COCO数据集[22]上实现了最先进的性能，用于文本到图像的生成。2. 相关作品用于文本到图像的生成对抗网络（ GAN ）。Goodfellow等人[11]首先介绍了学习生成模型的对抗过程。生成式广告网络（ Generative Ad- versarialNetwork，GAN）通常由生成器和欺骗器组成，其中欺骗器尝试将生成的图像与真实分布区分开，并且生成器学习欺骗欺骗器。在以前的工作中提出了一组约束[28，16，26，9，36]来改善GAN的训练过程，例如，在[3]中，通过使用附加的潜在代码来学习可解释的表示。基于GAN的算法在图像生成方面表现出出色的性能[21，1，20，25，35，2，23]。里德等al.[30]首次表明，条件GAN能够从文本描述中合成合理的图像Zhang等人[40，41]堆叠了几个用于文本到图像合成的GAN，并使用不同的GAN生成不同大小的图像。他们的后续工作[42，37]也证明了堆叠结构对图像生成的有效性Xu等[37]开发了一种注意力机制，使GAN能够通过单词级条件输入生成细粒度图像。然而，他们所有的GAN都是以语言描述为条件的，没有在表达式变体下解开语义信息。在我们的工作中，我们专注于解开语义相关的概念，以保持生成的一致性，从复杂的和各种自然语言的描述，以及细节的文本到图像的生成。条件批处理标准化（CBN）。批量归一化（BN）被广泛用于通过相对于每个参数对激活进行归一化来改进神经网络训练。minibatch，已被证明可以通过减少整个网络的协变量移位来加速训练和提高泛化能力[17]。Dumoulin等人[6]提出了一个条件实例规范化层，它使用条件线索学习调制参数这些参数用于控制主网络的行为，用于图像风格化[15]，视觉推理[27]，视频分割[38]，问答[5]等任务。在我们的工作中，首先采用条件批量归一化进行视觉特征生成，语义条件批量归一化层增强了视觉语义嵌入，并在GAN生成器中实现了所提出的层，以实现高效的视觉特征生成。43212330~这只鸟有红色的翅膀和黄色的肚子黄腹红翅的鸟很漂亮图2.SD-GAN的架构鲁棒的语义相关的文本到图像的生成优化的对比度损失的基础上的连体结构语义条件批量规范化（SCBN）的引入，进一步保留了文本的独特语义差异，并嵌入调制到文本线索的视觉特征。基于语言条件的生成。3. 生成式对抗网络（SD-GAN）的我们提出了一种新的跨模态生成网络，称为语义解纠缠生成对抗网络（SD-GAN），用于文本到图像的生成，如图所示。2.它旨在从文本中提取语义公共点，以实现图像生成的一致性，同时保留&细粒度图像生成的语义细节：（1）由于Siamese结构，生成的图像不仅基于当前分支处的输入描述，而且还受到另一分支处的描述的影响。也就是说，连体结构从文本中提取出共同的语义，以处理由于表达差异而产生的代间偏差。(2) 为了生成细粒度的视觉模式，模型还需要保留输入文本的详细和多样的语义。我们通过提出的语义条件批量正常化（SCBN）来调节语言线索的神经激活，这将在第二节中介绍。3.2.3.1. 具有对比损失的Siamese结构尽管现有方法[40，37]在高分辨率图像生成方面取得了优异的性能，但语言表达变体的生成偏差仍然对文本语义图像生成构成了巨大挑战。为了解决这些问题，提出的SD-GAN采用Siamese结构来提取跨域生成的文本语义信息。采用对比度损失的方法，使同一幅地面实况图像的两种描述所产生的假图像之间的距离最小，而使不同地面实况图像之间的假图像之间的距离最大。在训练阶段，生成的图像受到来自两个分支的文本的影响。为了构建每个Siamese分支的主干架构，我们采用了大多数以前的作品中使用的顺序堆叠的生成器模块[40，37，14]。如图2、它由1）文本编码器E（橙色）用于从描述中提取文本特征，以及2）用于图像生成的分层生成对抗性搜索（绿色），其包含一堆生成器，即，G0，G1，G2，以及相应的对抗性判别器，即，D0，D1，D2.文本编码器。每个分支的输入是自然语言描述的句子。文本编码器E旨在从自然语言描述中学习特征表示，并且在[40，41，37]之后，我们采用双向长短期记忆（LSTM）[13]，从文本描述中提取语义向量。通常，在双向LSTM中，隐藏状态用于表示句子中单词的语义含义，而最后的隐藏状态被用作全局句子向量，即，w t表示tth词的特征向量，s'表示句子特征向量。分层生成对抗网络。受[40，37，14，41]的启发，我们采用从低分辨率到高分辨率的分层阶段来生成照片级逼真的图像。在给定来自文本编码器E的句子特征s'和从标准正态分布采样的噪声向量z的在初始阶段，如图所示第3（a）段。（The图中的SCBN层。3将在第二节中介绍。3.2.下一阶段使用前一阶段的输出以及句子特征s'来生成具有高分辨率的图像，如图所示3（b）款。在每个阶段，生成器后面都有一个识别器，它可以区分图像是真的还是假的。这些鉴别器D0、D1、D2对于提取视觉特征是独立的，并且不会共享参数。012��ҧ012~对比损失对比损失对比损失012012��ҧ语义条件批处理规范化文本编码器文本编码器语义条件批处理规范化43212331VSE��321（）SCBNSCBN~��ҧ（一）��ҧ（b）第（1）款SCBN（硫）（一）句子特点SCBN（b）第（1）款词特征带整形的FC加入上采样下采样残余图4.语义条件批处理规范化（SCBN），图3.提出的SD-GAN中的生成器：（a）G0，从语言到视觉的初始阶段的生成器;（b）G1/G2，基于前一阶段生成的视觉特征生成更高分辨率图像的第二/第三阶段的生成器。SCBN在每个上采样层的末端操作。对比损失。所提出的连体结构的目的是提高生成一致性，而不考虑在训练过程中输入描述的表达变体我们输入两个不同的文本数据到连体结构的两个分支。如果从两个分支生成的视觉特征是文本语义感知的，则生成的两个图像应该是相似的（即，小距离）。否则，两个生成的图像应该是不同的（即，远距离）。为此，我们采用对比损失从输入的描述对中提取对比损失在[12]中首次引入，损失函数公式为：（a）由一个隐藏层MLP组成的句子级线索，用于从句子特征向量中提取调制参数;以及（b）词级线索，其使用VSE模块来融合视觉特征和词特征。注意，图中仅以γc为例，β c的实现方式是类似的。其中α是超参数，以避免即使输入的两个描述来自同一图像也会产生太接近的假图像我们设置α=0。1在实验中3.2. 语义条件批处理规范化受现有作品中实例规范化的启发[15，5，38]，我们用来自自然语言描述的语言线索来调制条件批规范化，定义为语义条件批规范化（SCBN）。SCBN的目的是加强生成网络的特征图中的视觉语义嵌入。它使语言嵌入能够通过放大或缩小视觉特征图来操纵视觉特征图。Lc= 1N2Nn=1y·d2+（1−y）max（ε−d，0）2，（1）关闭、否定它们或关闭它们等。它复杂-在第二节中介绍的暹罗结构的部分3.1只专注于提取语义公域，但忽略了其中d=v1−v22是视觉距离文本中独特的语义差异Batch Norm -给定输入批次x∈RN×C×H×W，来自两个暹罗分支的特征向量v1和v2Y是标记输入的解压缩是否来自同一图像的标志，即，1表示相同，0表示不同。超参数N是特征向量的长度，在实验中，其值被设置为256。超参数ε用于平衡y= 0时的距离值，其值设置为1。0在实验中在对比损失的情况下，暹罗结构是最优的。通过最小化从相同图像的描述生成的图像之间的距离和最大化从不同图像的描述生成的图像之间由于输入噪声，即使输入描述完全相同，生成的图像在外观上也可能不同，例如，姿势、背景等。为了避免可视化中的折叠无意义模式（即，生成的图像在外观上太接近），它们的特征向量的距离不需要为“零”。因此，我们修改了Eq。1作为BN将每个单独特征通道的均值和标准差归一化为BN（x）=γ·x−µ（x）+β，（3）σ（x）其中，γ、β∈RC是从数据中学习的仿射参数，而μ（x）、σ（x）∈RC是在批处理和spa的维度上计算独立于每个特征通道。条件批量范数-除了学习一组仿射参数γ和β，Dumoulin等人。[6]提出了条件批量归一化（CBN）算法，利用条件线索学习调制参数γc和βcC. CBN模块是特征图上更一般的缩放和移位操作的特例。修改后的归一化函数被格式化为BN（x|c）=（γ + γ）·x − μ（x）+（β +β）。（四MLP43212332）cσ（x）cL=1碳二氮ΣNn=1ymax（d，α）2+（1−y）max（ε−d，0）2，（2）语义条件批量规范化-为了加强视觉类的视觉语义嵌入43252333t=1t=1jjttJ因此，我们在gener- ators中实现了所提出的SCBN层，如图所示。3.首先，我们回顾一下文本编码器（即，双向LSTM）以从输入描述中获得语言特征。把第t词的语言特征记为wt。最后一个隐藏状态被采用作为全局句子向量。因此，对SCBN的语言学提示可以从两个方面获得，词级和词级。(1) 句子级线索。为了嵌入句子特征，我们采用了一个单隐层的多层感知器（MLP），从输入描述的句子特征向量s '中分别提取调制参数γ c和β c，如图所示。第4（a）段。γc=fγ（s<$），βc=fβ（s<$），（5）其中fγ（·）和fβ（·）分别表示γ c和 β c的一个隐藏层MLP。然后，我们将fγ（s<$）和fβ（s<$）的维数扩展到与x相同的大小，以嵌入语言线索和视觉特征。4.第一章然后实例句子特征通过通道方式调节生成的视觉特征的神经激活(2) 字级提示。将W={w t}T∈RD×T表示为词特征的集合，其中w t是第t个词的特征，并且X ∈ RC×L表示为视觉特征，其中C是通道大小并且L=W×H。受[39 ， 8 ， 7 ， 37] 的启发，采用了视觉语义嵌入（VSE）模块为相互融合的文字特征和视觉特征，如图所示。第4（b）段。我们首先使用感知层（即，f（w t））来匹配文本特征和视觉特征的维度。然后，基于图像的每个子区域j的嵌入特征v j来为该图像的每个子区域j计算VSE向量vse j，该嵌入特征v j是与其视觉特征vj相关的词向量{w t}T的动态表示。TΣ−1vse=σ（v·f（w））f（w），（6）t=0其中，σ（v·f（wt））表示视觉特征图的第j个子区域vj的第t个词向量w t的视觉语义嵌入权重，类似于点积相似。交叉相关性σ（·）是实验中的softmax函数然后采用两个卷积1×1层计算字级调制参数γc和βc分别来自VSE矩阵。4. 实验4.1. 实验设置数据集。遵循先前的文本到图像方法[37，40，41]，我们的方法在CUB [34]和MS-COCO [22]数据集上进行评估。CUB数据集包含200种鸟类，它包括11788幅图像，每幅图像有10种语言在[37，40，41]中的设置之后，我们将CUB数据集分成类不相交的训练集和测试集，即，8855张图像用于训练，2933张图像用于测试。对CUB数据集中的所有图像进行预处理和裁剪，以确保鸟类的边界框具有大于0.75的对象-图像尺寸比。MS-COCO数据集更适合文本到图像的生成。它有一个包含80k图像的训练集和一个包含40k图像的验证集。每个图像有5种培训详情。除了在SEC中引入的对比损失之外。3.1，由于其出色的性能，拟议的SD-GAN的发电机和微波损耗遵循[37]中的那些用于视觉语义嵌入的视觉特征的文本编码器和初始模型由[37]预训练，并在端到端训练期间固定随机初始化发生器和振荡器的网络参数评估详情。评价生成模型的性能并不容易。根据文本到图像生成的现有技术[37，40，41，14，42，18]，我们应用数值评估方法“初始分数”[31]进行定量评估。在我们的实验中，我们直接使用[40]中提供的预训练的Inception模型来评估CUB和MS-COCO数据集的性能。虽然初始分数与人类对视觉质量的感知有很好的相关性[31]，但它不能判断生成的图像是否很好地依赖于文本描述。因此，作为补充，我们还设计了一个主观测试来评估发电性能.我们在CUB测试集中为每个类随机选择50个文本描述，在MS-COCO测试集中为每个类随机选择5000个文本描述。给定相同的描述，50个用户（不包括任何作者）被要求用不同的方法对结果进行排名。计算出最佳的平均比率来评价所比较的方法。4.2. 与现有技术我们将我们的结果与CUB和MS-COCO数据集上最先进的文本到图像方法进行了比较。我们提出的SD-GAN和其他COM的初始得分选项卡中列出了方法1.一、在CUB数据集上，我们的SD-GAN达到了初始分数4。67±。09，这明显优于先前的最佳方法，初始得分为4。36±。03.更令人印象深刻的是，我们的SD-GAN将MS-COCO数据集上报告的最佳初始得分从25提高到了25。89±。47比3569±。50块在数据集上的出色表现证明了该方法的有效性。我们提出的SD-GAN的有效性，这要归功于语义分解生成和视觉语义嵌入。主观测试的结果见表1。2.我们比较了提出的SD-GAN与以前的方法，即，[37]第40话：当用户被要求根据图像与输入文本的相关性对图像进行排名时，他们选择SD-GAN生成的图像作为43262334GT文本StackGAN AttnGAN SD-GAN GT文本StackGAN AttnGAN SD-GAN（一）（c）第（1）款“a petite“the“a herd ofsheep“a group ofsheep（b）第（1）款（d）其他事项“a white bird withwhite“this particularbird“a living room witha“the table insideof图5.所提出的SD-GAN与StackGAN [40]和AttnGAN [37]在CUB（顶部）和MS-COCO（底部）测试集上的定性示例比较对于每个示例，通过基于来自同一地面实况图像（GT）的两个随机选择的描述（文本）的方法来生成图像。方法幼崽MS-CocoAttnGAN [37]4.第一章36±。03二十五89±。47[37]第37话[37]第37话[37]第37话4.第一章47±。094.第一章48±。084.第一章62±。0929岁77±。5129岁42±。45三十五50±。56表1.所提出的方法对CUB和MS-COCO测试集的最粗体的结果是最高的，下划线的是第二高的。方法幼崽MS-CocoStackGAN [40]10个。百分之七十六、百分之五十三AttnGAN [37]20块百分之五十四十七岁百分之六十九SD-GAN68岁百分之七十六75. 百分之七十八表2.SD-GAN与StackGAN [40]和AttnGAN [37]相比的人类评价结果（人类排名第一的最好的大多数，赢得了约70%的介绍文本。这与表1中列出的初始评分的改善一致此外，定性结果示于图1中。五、对于每个示例，我们比较了来自相同地面实况图像的描述的生成由于缺乏词级细节，StackGAN无法预测对象和场景的重要语义结构虽然AttnGAN采用注意机制从文本中提取细节，但在语言表达变化的情况下很难生成相应的视觉概念，例如，图5（b）中白色鸟的灰色翅膀，图5（c）中草地上的绵羊，等等。与它们相比，提出的SD-GAN基于输入文本生成更具可识别性和语义意义的图像。可转移的连体结构和SCBN。此外，委员会认为，表3.结合模型的定量结果，在CUB和MS-COCO测试集上，将建议的Siamese 结构和SCBN与之前的最先进架构进行比较。我们通过将它们插入到现有的作品中来证明所提出的Siamese结构和SCBN对于图像生成的好处这里我们采用前面的方法，即，AttnGAN [37]，由于其出色的性能而成为骨干。我们比较了三种构型，AttnGAN +Siamese 、 AttnGAN + SCBN 和 AttnGAN + Siamese +SCBN在相同超参数下进行公平比较。如Tab.所示。3，在应用Siamese结构之后，At-tnGAN的性能在接收分数上有相当大的改进（即，At- tnGAN +暹罗）。结果再次表明了所提出的应用于AttnGAN的连体结构的优越性。具有 SCBN 的 AttnGAN （即， AttnGAN +SCBN）也实现了比AttnGAN更好的性能。注意，通过添加Siamese结构和SCBN（即，AttnGAN + Siamese +SCBN）超越了AttnGAN本身，并与我们提出的SD-GAN实现了4.3. 成分分析在本节中，为了评估所提出的SCBN和具有对比损失的连体结构的有效性，我们首先通过逐步去除每个单独的线索来定量评估SD-GAN及其变体，即，1)SD-GAN w/o SCBN（模型2），不含提出的SCBN的SD-GAN ， 2 ） SD-GAN w/o Siamese （模型 3 ），不含Siamese结构的SD-GAN，3）SD-GAN w/o SCBN&方法幼崽MS-Coco[29]第二十九话GAWWN [30]StackGAN [40]StackGAN++[41]PPGN [24]AttnGAN [37]HDGAN [42][19]第十九话[19]第十九话[14]第十四话[第18话]二、88±。043 .第三章。62±。073 .第三章。70±。044.第一章04±。05-4.第一章36±。034.第一章15±。053 .第三章。92±。044.第一章07±。137 .第一次会议。88±。07-8. 45±。03-9 .第九条。58±。21二十五89±。4711个国家。86±。18--11个国家。46±。09六、70±。0143262335GT文本基线“this bird haswhite“a colorful鸟有条纹+SCBN+Sia。+SCBN Sia.GT文本基线“the little red birdhas“this bird is红色的+SCBN+Sia。+SCBN Sia.（一）（c）第（1）款翅膀和灯光白肚皮“a couple of skierssliding途径““a group of youngmen《黑色的翅膀“the sailboats aredocked“several boats图6.SD-GAN在CUB（顶部）和MS-COCO（底部）测试集上的图像生成结果对于每个样本，通过基于每个地面实况图像（GT）的两个随机选择的描述（文本）的方法生成图像通过添加所提出的SCBN和Siamese结构（Sia.）一步一ID组件SiameseSCBNCUB MS-COCO1234√ √--√- -4.第一章67±。九点三十五分。69±。504.第一章51±。七点三十分。18±。474.第一章49±。0629. 79±。614.第一章11±。0423. 76±。40表4. SD-GAN的成分分析。Siamese表示采用Siamese结构，SCBN表示使用所提出的SCBN层。大胆的结果是最好的。Siamese（模型4），没有提出的SCBN和Siamese结构的SD-GAN，定量结果见表4。通过比较表1中的模型3（使用SCBN）和模型4（基线），4，所提出的SCBN可以帮助加强视觉语义嵌入，这显著提高了初始分数从4。十一比四。49人在CUB，23岁76比29MS-COCO79分当采用基于模型4的连体结构（模型2）时，初始得分可以达到4。51（对4。11）在CUB数据集上。通过将所提出的SCBN与Siamese结构相结合，模型1获得了显著的改进，并优于模型13通过提高初始得分从4。49比4 67个在CUB上，29个在CUB上。79比3569分在MS-COCO上。这种连体结构可以保持生成一致性，并处理由于输入表达式变化而引起的生成偏差。比较表明，所提出的SCBN和暹罗结构的文本到图像生成的优越性为了更好地理解所提出的模块的有效性，我们可视化了SD-GAN及其变体的生成结果。如图6、没有连体结构的基线和SCBN只是勾勒出物体的几何形状，缺乏精确的描述。通过添加建议的SCBN（+SCBN），模型通过在生成过程中嵌入更多的语言细节来学习纠正缺陷，例如。“蓝色的翅膀”在图。6（a），但生成的鸟类属于ap中的不同类别-由于表达方式的不同而引起的恐慌。模型为连体结构（+Sia.）可以从同一图像的不同描述生成相似的图像，但是可能丢失详细的语义信息，例如，图中的“黑翅膀”。第6（b）段。通过结合Siamese结构和SCBN（+SCBN Sia.），模型可以实现明显的显著改进。在具有挑战性的MS-COCO数据集上，我们有类似的观察结果。虽然生成还远远不够完善，但生成的图像仍然可以从文本语义中识别出来，如图的底部所示。6.这些观察表明，SD-GAN不仅保持了生成一致性，而且包含详细的语义。此外，为了评估所提出的SD-GAN的敏感性，我们只改变输入文本描述中的一个单词或短语。如图7.根据输入文本的变化来修改生成的图像，例如，鸟的颜色（黄色与蓝色）和图像场景（海滩与草地）。实验结果表明，SD-GAN保留了文本的语义细节，并能够捕捉文本描述的细微变化。另一方面，在所生成的图像的可视化中不存在塌陷的无意义对比损失。方程中的α值。(2)是值得研究的，因为它可以用来找到一个权衡之间的有效性提取语义公共和保留语义差异从描述相同的图像。我们验证了α值在0.010 05，0。1和0。2个SD-GAN。通过比较表1所列的结果，5，我们采用α为0。1，因为它在CUB和MS-COCO数据集上都具有最佳性能。此外，我们通过逐步消除对比损失，即，1)（D1，D2，D3）表示对比损失在图1所示的所有阶段都有实现。二、（b）第（1）款（d）其他事项43262336“a“a“a“a group of people are having a good time on the grass图7. SD-GAN在CUB（顶部）和MS-COCO（底部）测试集上捕捉文本描述的细微变化（红色下划线单词或短语）的能力的示例。方法CUB MS-COCOα0.010.050.10.24.第一章50±。八点三十二分。53±。774.第一章55±。1033. 18±。624.第一章67±。九点三十五分。69±。504.第一章49±。0731. 74±。91位置(D1、D2、D3）(D2、D3）（D3）4.第一章67±。九点三十五分。69±。504.第一章59±。1033. 13±。744.第一章56±。九点三十二分。88±。82表5.对比损失的消融研究。我们比较了具有不同超参数α值的SD-GAN变体，I.E. 0的情况。010 05，0。1，0。二、然后通过消除个体阶段的对比损失，对SD-GAN的变体进行比较.方法CUB MS-COCOSCBN -已发送SCBN -字4.第一章39±。0628.81± 0。534.第一章45±。0629.79± 0。61BN -发送BN -字4.第一章19±。0524.18±。564.第一章23±。0525.34±。79表6. SCBN的消融研究。SCBN-发送指示使用以词级线索为条件的SCBN层; SCBN-词指示使用以词级线索为条件的SCBN层; BN-发送指示使用BN层，然后按通道方式连接字级线索; BN-字指示使用BN层，然后按通道方式连接字级线索。2）（D2，D3）表示仅在最后两个阶段，3）（D3）表示仅在最后阶段。通过比较（D1，D2，D3）与表1中的（D2，D3）和（D3）5、在每一阶段（D1、D2、D3）实施对比损失的模型达到最佳性能。语义条件批处理规范化（ Semantic-Conditioned BatchNormalization，SCBN）为了评估所提出的SCBN层的益处，我们比较了SCBN层的变体我们进行的实验与结构的SD-GAN没有暹罗结构，由于较少的计算成本在训练过程中，43262337ing.如在第二节介绍。3.2、语言线索来自句子层面和词汇层面。首先，我们比较了该模型与SCBN层在句子级语言线索，即，SCBN -发送，并与字级线索，即，SCBN- Word. 通过比较表中列出的结果6，具有单词级线索的SCBN层优于具有句子级线索的SCBN层，即，4.第一章45对4 39个CUB数据集。词级特征提供了比粗句更多的细节水平特征和视觉语义嵌入定义在方程。(6)通过语言线索实现空间配置中的视觉调制。此外，我们用一般的BN层代替所提出的SCBN层。语言线索也通过在BN之后直接连接通道而嵌入具有句子级和单词级线索的BN层由BN-sent和BN表示- 字分别。通过比较Tab中SCBN - sent与BN - sent、SCBN - word与BN - word的结果，得出SCBN - sent与BN -sent、SCBN - word与BN - word的关系.结果表明，在实验条件下，两种SCBN层的性能均优于相应的BN层。毫无疑问，提出的SCBN是更有效和强大的嵌入语言线索到生成的视觉。5. 结论在本文中，我们提出了一个创新的文本到图像生成框架，命名为语义解开生成对抗网络（ SD-GAN）。SD-GAN采用Siamese结构，从语言描述中提取语义共有项，生成的图像在表达变体下保持生成一致性.此外，为了弥补Siamese机制可能丢失唯一语义特征的缺陷，我们设计了一种增强的视觉语义嵌入方法，通过使用实例语言线索重新制定批规范化层。大量的实验证明了所提出的SD-GAN在CUB数据集和具有挑战性的大规模MS-COCO数据集上的有效性和重要性。国家自然科学基金（批准号：20000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000 61371192）、中国科学院重点实验室基金（CXJJ-17S044 ）及中央大学基础研究基金（WK2100330002、WK3480000005）（部分由商汤科技集团有限公司赞助）、香港研究资助局资助的一般研究基金（编号：61371192）及香港大学研究资助局资助的一般研究基金（编号：61371192）。CUHK14213616、CUHK14206114、CUHK14205615、CUHK14203015、CUHK14239816 、 CUHK419412 、 CUHK14207-814、CUHK14208417、CUHK14202217），香港创新及科技支援计划（编号ITS/121/15 FX）。43262338引用[1] Konstantinos Bousmalis 、 Nathan Silberman 、 DavidDohan、Dumitru Erhan和Dilip Krishnan。无监督像素级域自适应生成对抗网络。在CVPR，2017年。[2] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模gan训练。arXiv预印本arXiv：1809.11096，2018。[3] Xi Chen，Yan Duan，Rein Houthooft，John Schulman，Ilya Sutskever，and Pieter Abbeel. Infogan：通过信息最大化生成对抗网络进行可解释的表示学习。在NIPS，2016年。[4] Dahjung Chung，Khalid Tahboub，and Edward J Delp.一种用于人员再识别的双流连体卷积神经网络InICCV，2017.[5] HarmDeVries，FlorianStrub，Je're'mieMary，HugoLarochelle，Olivier Pietquin和Aaron C Courville。通过语言调节早期视觉处理。在NIPS中，第6594-6604页[6] VincentDumoulin 、 JonathonShlens 和 ManjunathKudlur。对艺术风格的博学的表现。2017年。[7] Fartash Faghri，David J Fleet，Jamie Ryan Kiros和SanjaFidler。Vse++：用硬否定词改进视觉语义嵌入。在BMVC，2018年。[8] Andrea Frome ， Greg S Corrado ， Jon Shlens ， SamyBengio，Jeff Dean，Tomas Mikolov，et al. Devise：一个深度视觉语义嵌入模型。NIPS，第2121-2129页，2013年。[9] 浩戈、尹夏、徐晨、兰德尔·贝里、英武。Ficklogan：用历史模型训练gans。在ECCV，2018年9月。[10] Yixiao Ge，Zhuowan Li，Haiyu Zhao，Guojun Yin，Xiaogang Wang，and Hongsheng Li.Fd-gan：姿势引导的特征提取gan，用于稳健的人员重新识别。在NIPS，2018年。[11] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在NIPS，2014。[12] Raia Hadsell，Sumit Chopra，and Yann LeCun.通过学习一个不变映射来降低维数.见CVPR，第1735-1742页。IEEE，2006年。[13] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经计算，第1735-1780页[14] Seunhoon Hong，Dingdong Yang，Jongwook Choi，andHonglak Lee.推理语义布局的分层文本到图像合成。在CVPR，2018年。[15] Xun Huang和Serge J Belongie.实时任意样式传输，具有自适应实例规范化。InICCV，2017.[16] Xun Huang ， Yixuan Li ， Omid Poursaeed ， John EHopcroft，and Serge J Belongie.叠加生成对抗网络。在CVPR，2017年。[17

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

文本到逼真图像生成的语义解析模型

基于GAN的文本生成图像国内外研究现状案例

图像生成什么模型比较好

stable+diffusion图像生成

图像生成目前效果最好的模型

从2016年到现在关于文本生成图像的国内外研究现状

dfgan 有 damsm吗

AI大模型如何生成内容？ AI大模型在计算机视觉中的应用有哪些？ 如何选择适合的神经网络结构用于AI大模型？

详细解说GAN模型的基本原理，及它们用于图像生成的方式及进展

1、麦芒手机图片生成能力基于以下哪个大模型 单选题(4分) A.星辰大模型 C.安第斯大模型 B. Chat GPT D.蓝心大模型

卷积神经网络的图像生成

生成对抗网络是如何实现图像生成的

制作一个关于图像生成的PPT

图像生成和图像重建任务有什么不同

像大部分人体图像生成3d模型的纹理和衣服是怎么生成的

gan生成对抗网络模型

GAN在图像生成领域可以细化为哪些领域

使用文心大模型ernie-vilg生成图片

基于GAN的信号生成模型有哪些

请介绍以下工作：GAN、Diffusion、CLIP、Transformer、NERF、VALL-E、GPT系列

GAN可以用于文本生成对吗

最新资源

AI大模型如何生成内容？ AI大模型在计算机视觉中的应用有哪些？如何选择适合的神经网络结构用于AI大模型？

1、麦芒手机图片生成能力基于以下哪个大模型单选题(4分) A.星辰大模型 C.安第斯大模型 B. Chat GPT D.蓝心大模型