语义空间感知的文本到图像生成

189 浏览量更新于2023-10-25 收藏 1.28MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

118187基于语义空间感知GAN的文本到图像生成Wentong Liao1*，Kai Hu1*†，Michael Ying Yang2，Bodo Rosenhahn11TNT，德国汉诺威莱布尼茨大学，2SUG，荷兰特文特大学摘要文本到图像合成（T2I）旨在生成与文本描述语义一致的照片级真实感图像。现有的方法通常建立在条件生成对抗网络（GAN）上，并通过句子嵌入从噪声中初始化图像，然后通过细粒度单词嵌入迭代地细化特征。仔细检查他们生成的图像会发现一个主要的局限性：即使生成的图像整体上与描述相匹配，但某些事物的单个图像区域或部分通常无法识别或与句子中的单词不一致，例如。 “白色的王冠”为了解决这个问题，我们提出了一个新的框架语义空间感知GAN的合成大小的图像从输入文本。具体地说，我们提出了一个简单有效的语义空间感知块，(1) 学习以文本为条件的语义自适应变换，以有效地融合文本特征和图像特征，(2) 以弱监督的方式学习语义掩码，该方式取决于当前的文本-图像融合过程，以便在空间上引导变换。在具有挑战性的COCO和CUB鸟类数据集上的实验证明了我们的方法在视觉保真度和与输入文本描述的对齐方面优于最近的最先进方法。代码可在https://github.com/wtliao/text2image获得。1. 介绍生成对抗网络（GANs）[7，20，22，38，11，35，2，13]的巨大进步促进了在不同条件下合成照片级逼真图像的显著发展，例如布局[19，8]，文本[34，30]和场景图[12，1，5]。特别是，生成以文本描述为条件的图像（见图1）在计算机视觉和自然语言处理社区中引起了越来越多的关注，因为：（1）它弥合了这两个领域之间的差距，（2）语言描述*同等贡献[2]胡凯在TNT公司做硕士论文时对这项工作做出了贡献，他的导师是廖文通。输入文本GT生成的图像这是一只灰色的鸟，黑色的翅膀和白色的翼筋，浅黄色的翅膀和黄色的眉毛。一匹马在一片草地上，映衬着一座雾蒙蒙的山脉。图1：我们的方法生成的图像示例（第3列）以给定的文本描述为条件。文本是人类描述视觉场景最自然、最方便的媒介。尽管如此，T2I仍然是一项具有挑战性的任务，因为跨模态问题（文本到图像的转换）和保持生成的图像整体以及局部语义与给定文本一致的能力。最新的T2I方法通常是多级细化框架，其通过句子嵌入从噪声中生成初始图像，并在每个后续阶段中通过细粒度词嵌入细化细节[34，35，10，30，16，31]。在每一级中，分别有一对生成器和消隐器来合成更高分辨率的图像，并判断生成的图像是否足够真实这种方法在合成高分辨率图像方面被证明是有效的然而，多个生成器-训练器对导致更高的计算量和更不稳定的训练过程。此外，由较早的生成器生成的图像的质量决定了最终的输出。如果早期生成的图像质量不好，后期生成的图像质量就无法得到改善。为了解决这个问题，在[28]中引入了具有一个发生器-鉴别器对的单级发生器。在这项工作中，我们也遵循这种单阶段结构。另一方面，生成的图像应该是holis-118188在语义上与描述一致，在局部上与句子中的单词一致。为此，多阶段细化框架用于在生成过程的每个阶段融合文本和图像信息，以使生成的图像与相应的文本语义一致。AttGAN [30]在这项任务中发挥了作用。它使用句子嵌入从噪声中初始化一幅图像，并在每个阶段判断生成的图像与相应的文本是否这有助于生成的图像与描述整体一致。同时，在每个细化阶段，注意机制用于选择文本中的重要词以补充图像以这种方式，鼓励所生成的图像在语义上匹配文本中的单词。大多数最近的T2I方法遵循该框架[16，21，4，24，33]。尽管这些方法取得了显著的效果，但仍然存在一个重要但尚未解决的限制：由于文本信息的有限和抽象，在合成过程中没有很好地探索局部语义。通常，文本描述仅描述场景或对象的一部分（例如，“白色的王冠”），并且缺乏明确的空间信息。为了解决这个问题，以前的方法通常利用跨模态注意机制来关注图像子区域的单词级特征[30，16，33]。然而，随着图像尺寸的增大，计算成本迅速增加此外，自然语言描述是高级语义，而图像的子区域是相对低级的[3，32]。最后但也很重要的是，图像子区域仍然太粗糙，无法补充某些细节。因此，无法很好地探索高级文本语义来控制图像生成过程，特别是对于具有多个对象的复杂图像，例如COCO [18]数据集中的图像。一些方法[10，17，15]提出了对象驱动的T2I方法，其首先从文本描述预测对象边界框，然后推断相应的分割掩码。最后，使用PixelGAN [11]从分割掩模生成图像。然而，这些方法在实际中将T2I任务转换为分割到图像生成，并且完全丢失了对象的局部特征为了解决上述问题，我们提出了一种新的T2 I框架，称为语义空间感知生成对抗网络（SSA-GAN）（见图2）。首先，它只有一个生成器-迭代器对，并且以端到端的方式进行训练，因此与多阶段细化框架相比，它可以更有效和稳定地进行训练。第二，仅使用句子嵌入相比以前的方法，也使用世界级的功能，我们的方法需要较低的计算。最后也是重要的，我们的方法补充了像素级的局部细节，而不是在子区域级。因此，所生成的图像是更好地与文本中的词语在语义和局部上保持一致为了实现图像合成的逐像素控制，我们提出了一种新的语义空间感知（SSA）块（图3）。一方面，SSA块学习语义感知通道仿射参数，条件是学习的文本特征向量（句子嵌入）。另一方面，根据当前的文本-图像融合过程预测语义掩码（即，最后一个SSA块的输出）。语义掩模指示生成的图像仍然需要用像素级的文本信息增强的地方。这就是语义空间感知这个名称的由来。值得注意的是，掩码预测器是用弱监督训练的，因此不需要额外的掩码注释。在具有挑战性的基准COCO [18]和CUB bird数据集[29]上进行了综合实验定量和定性的实验结果表明，我们优于以前的方法的性能。综上所述，本文的主要贡献如下：• 我们提出了一个新的一阶段框架SSA-GAN图像合成文本。与流行的多阶段框架相比，单阶段框架计算量小，训练效率高，稳定性好。• 我们的方法在合成过程中只使用句子嵌入。与使用世界级期货的方法相比，我们的方法简单，计算量低。• 该算法引入一种新的SSA块，通过预测语义模板指导学习后的文本自适应仿射变换，实现文本和图像特征的有效深度融合。• 语义掩码预测器以弱监督的方式训练，使得不需要额外的注释，并且该块有可能应用于其他T2I数据集。2. 相关工作用于文本到图像合成的GANsT2I生成正在成为CV和NLP社区的热门话题生成对抗网络（GANs）[7]是这项任务中最流行的模型。Reed等人[23]第一个使用条件GAN（cGAN）从文本描述中合成合理为了提高生成图像的分辨率，在[34，35]中引入了StackGAN结构，其顺序堆叠多个生成器以便从粗到细生成图像。对于训练，每个生成器都有自己的对抗训练表。许多最近的作品遵循这种结构[30，37，16，39，24，33，4]，并取得了进展。为了克服叠层结构中的训练困难，118189×∈∈∈∈×××R22 从最后一个SSA块作为图2：我们的框架SSA-GAN的示意图它有一个发生器-鉴别器对。该生成器主要由7个SSA块组成，通过图像生成过程融合文本和图像特征，并保证文本和图像的灰色线指示仅用于训练的数据流。等人[28]提出了一种单级结构，其仅具有一个用于T2 I生成的生成器-鉴别器对。它们的生成器由一系列专门设计用于对图像特征进行上采样以生成高分辨率图像的UPBlocks组成我们的框架遵循这个一阶段的结构，以避免在堆叠结构的问题。文本-图像融合在早期的T2 I作品[23，34，35]中，通过天真地将文本向量（句子级）连接到采样的噪声和中间特征来将文本信息融合到图像特征AttnGAN [30]利用跨模态注意力在每个细化阶段重复选择文本中的重要单词用于图像子区域，以进行文本-图像融合以捕获更好的细节。此外，它引入了深度注意多模态相似性模型（DAMSM）来衡量图像-文本的相似性，在单词级和句子级计算一个细粒度的图像生成的损失。以这种方式，所生成的图像被迫与文本在语义上一致。Control-GAN [16]进一步将文本和图像信息与单词级空间和通道级注意力驱动生成器融合，该生成器生成对应于3. 方法我们的SSA-GAN的架构如图2所示。SSA-GAN有一个学习文本表示的文本编码器，一个有7个SSA块的生成器，用于加深文本-图像融合和提高分辨率，以及一个用于判断生成的图像是否与给定文本语义一致的过滤器SSA-GAN将文本描述和正态分布噪声矢量ZR100作为输入，并输出大小为256 256的RGB图像。我们详细说明模型的每个部分如下。3.1. 文本编码器我们采用了[30]提供的预训练文本编码器，该编码器已在许多现有作品[16，28，39]中使用。文本编码器是双向LSTM [26]，并通过最小化深度注意多模态相似性模型（DAMSM）损失[30]使用真实图像-文本对进行预训练。它将给定的文本描述编码为文本向量e<$R25 6和Word特征，长度为18eR256×18。e的第i列ei是第i个单词的特征向量3.2. 语义空间感知块SSA-GAN的核心是SSA块，如图1所示。3.第三章。它将编码后的文本特征向量e和图像在生成过程中最相关的词。朱等人[39]提出了使用内存网络的DM-GAN特征图F∈chi−1×hi×wi以自适应地选择重要词来迭代地细化Yin等[31]在SD-GAN中引入了字级条件批量归一化（CBN），以更好地对齐文本和图像。DF-GAN [28]在每个阶段从文本向量学习仿射变换参数。然后，多个堆叠仿射变换操作的图像特征映射的文本图像融合。在我们的工作中，语义感知的批量规范化是以文本向量为条件的，与基于词级CBN的方法和基于词级跨模态注意力的方法相比，这需要更少的计算。与现有方法相比，我们的仿射变换是由基于当前文本-图像融合过程预测的语义掩码在空间上引导的。输入，并输出图像特征图fiRchi×hi×wi其进一步与文本特征融合。wi、hi、chi是由第i个SSA块生成的图像特征图的宽度、高度和通道数。第一SSA块（无上采样）的输入图像特征图的形状为44512，这是通过使用全连接（FC）层将噪声向量z投影到视觉域然后对其进行整形来实现的。因此，在通过SSA块进行6次上采样之后，图像特征图具有256 × 256的分辨率。每个SSA块由上采样块、语义掩码预测器、具有残差连接的语义空间条件批量归一化块组成。上采样块用于通过双线性插值操作使图像特征映射的分辨率加倍。剩余连接用于空间复制鉴别器生成的图像一只灰色的小鸟，黑色原色黑ℒ��翅膀上有条纹，尖尖的黑喙。输入文本~X7256x256X6发生器语句特征SSACN文本编码器FC重塑4x4x512ConvtanhConvDownBlockConvConvi−1118190∈∈··保持图像特征的主要内容以防止文本无关部分被改变以及图像信息被文本信息淹没。更多的细节介绍如下。弱监督语义掩码预测器语义掩码预测器的结构如图所示。3，如灰色虚线框所突出显示。它将上采样的图像特征图作为输入，并预测语义掩码图miRhi×wi。其元素mi，（h，w）的值在[0，1]之间。每个值决定了在location（h，w）上应该操作多少后续仿射变换。基于当前生成的图像特征图来预测该语义掩模。因此，它直观地指示当前图像特征图的哪些部分仍然需要用文本信息来增强，使得细化的图像特征图在语义上与给定文本更加一致。语义掩码预测器是掩模预测器中间图像特征文本特征向量+/x元素级加法/乘法与整个网络联合训练，没有特定的损失函数来指导其学习过程，也没有额外的掩码注释。唯一的监督来自鉴别器给出的对抗性损失，这将在第2节中讨论。三点四分。因此，它是一个弱监督学习过程。在实验中，我们将展示在SSA块的不同阶段，语义掩码如何在空间上表示文本-图像融合。语义条件批量规范化我们首先简要回顾了标准BN和CBN。给定一个输入批次xRN× C × H × W，其中N是批次大小，BN首先将其归一化为每个特征通道的零均值和单位偏差：图3：SSA嵌段的结构学习文本感知的仿射参数，并从当前图像特征预测语义掩码，以便进行语义空间条件批量归一化。γc=Pγ（e<$）， βc=Pβ（e<$）（4）P γ（）和P β（）分别表示γ c和β c的MLP。在这里，实现了语义CBN。语义空间感知批量归一化来自最后一步的语义感知BN将在图像特征图空间上同等地工作。理想情况下，我们期望调制仅对特征图的文本相关部分起作用为此，预测的语义掩码为XNchw =xnchw−µc（x），σc（ x）添加到Eq。（3）作为空间条件：xnchw=mi，（h，w）（γc（e<$）xnchw+β c（e<$））.（五）1µc（x）=NHWn，h，wxnchw，（一）从公式中可以看出，mi，（h，w）不σc（ x）=1NHW n，h，w（xnchw−µc）2+n，只决定在哪里添加文本信息，但也去-在像素级别上，减少了需要在图像特征图上增强多少文本信息。其中，对于数值稳定性，k是一个很小的正常数。然后，操作逐通道仿射变换：xnchw=γcxnchw+βc，（2）调制参数γ和β是在文本信息的条件下学习的，并且预测的语义掩码控制仿射变换空间。其中γcβc是学习参数，基本上。因此，文本图像融合是语义空间感知的。一批中所有样本的空间位置相等。在测试期间，学习的γc和βc是固定的。除了使用从训练数据中学习的固定的γ和β集外，Dumoulinet al. [6]提出了学习调制参数γ和β自适应于仿射变换的给定条件的CBN。然后，Eq.乙状ConvXXReLUBNConv预测掩模X正+ +MLPMLPBN上采样.118191（2）可以重新表述为：xnchw=γ （ con ） xnchw+β （ con ）。（3）为了融合文本和图像特征，调制过程参数γ和β是从te xt向量e'中学习的：3.3. 鉴别器我们采用了[28]中提出的单向滤波器，因为它的有效性和简单性，如图2所示（紫色虚线框）。它将生成的图像和文本向量的特征连接起来，通过两个卷积层计算对抗损失。与匹配感知零中心梯度惩罚（MA-GP）[28]相关联，它指导生成器以更好的文本-图像语义118192D×·GGL一致性由于判别器不是本工作的贡献，我们将不在这里扩展其细节，请参阅本文以获取更多信息。为了进一步提高生成图像的质量和文本-图像一致性，并帮助训练文本编码器与生成器，我们将广泛应用的DAMSM [30]添加到我们的框架中。请注意，即使没有DAMSM，我们的方法也已经报告了最先进的性能（参见第2节中的表24）.3.4. 目标函数鉴别器目标与MA-GP损失相关的对抗损失用于训练我们的网络。Ladv=ExEXP数据[max（0，1−D（x，s））] 1+2ExpG[max（0，1+D（x，s））]评估指标我们遵循以前的工作，采用广泛使用的InceptionScore （ IS ） [25] ， Fre'chetInception Distance（FID）[9]和R-precision [30]来量化性能。对于IS分数，使用预先训练的Inception v3网络[27]来计算条件类分布（生成的图像）和边缘类分布（真实图像）之间的KL发散。大的IS表示生成的图像具有高质量，并且每个图像明显地属于特定类别。FID计算生成图像和真实图像的特征分布之间的Fre' chet距离特征由预先训练的Inception v3网络提取较低的FID意味着生成的图像更真实。使用R-精度来评价图像-文本的语义一致性。全局图像向量和100个候选的全局句子向量之间的余弦距离（一个地面真值，即，R=1，随机选择991+2Exp数据[max（0，1+D（x，s））]+ λMA Exp数据[（xD（x，s）<$2+sD（x，s）2）p]，（六）不匹配的描述）。生成的图像被认为是-如果它们的距离是最短的，则被视为与地面实况语义一致为了评估IS、FID分数和R精度，通过随机选择文本描述，从每个模型生成分辨率为256 256的其中s是given_text描述，而s_text 是不匹配的文本描述。 x是对应于s的实像，并且x是生成的图像。 D（）是由输入图像是否与输入句子匹配的判定g_i_en。变量λMA和p是MA-GP损失的超参数。发电机目标发电机的总损失由对抗性损失和DAMSM损失组成[30]：从测试数据集中提取。对于COCO数据集，以前的工作[28，36，17]报告说，IS度量完全无法评估合成图像。因此，我们不比较COCO数据集上的IS。FID更稳健，并在COCO数据集上手动对齐评价实现细节我们的模型在Pytorch中实现。批量大小设置为24，分布在4个Nvidia RTX 2080-Ti GPU上。亚当优化器[14]，β1=LG=LADV +λDALDAMSM（七）0的情况。0且β2= 0。9、在训练中使用。学习发电机和逆变器的速率为1e−4，Ladv=−ExpG[D（x，s）]，其中DAMSM是词级细粒度图像-文本匹配损失，λDA是DAMSM损失的权重4. 实验我们在COCO [18]和CUB bird [29]基准数据集上评估了我们的方法，并将其性能与最近最先进的GAN方法在 T2I 生成， StackGAN++ [35] ， AttnGAN [30] ，Control [30]上进行了比较。[16]，SD-GAN [31]，DM-GAN [39]，DF-GAN [28]，”[24]《明史》：一系列的消融研究是为了深入了解每个拟议的模块是如何工作的。CUB鸟类数据集[29]有8，855张训练图像（150个物种）和2，933张测试图像（50个物种）。每只鸟都有10个文字描述。COCO数据集[18]包含80k个训练图像和40k个测试图像。每个图像有5个文本描述。与CUB数据集相比，COCO中的图像显示出复杂的视觉场景，使得T2I生成任务更具挑战性。4e-4，分别。超参数p=6，λ MA= 2，λ DA=0。1已通过。该模型在CUB数据集上训练了600个epochs，在COCO数据集上训练了120个epochs4.1. 定量结果表1示出了SSA-GAN和用于T2 I的几个最近的最先进的GAN模型的定量结果。从表的第二列中我们可以看到，SSA-GAN报告了IS的显著改进（从4. 86比517）与最新的最先进的方法DF-GAN [28]相比。更高的IS意味着更高的质量和文本-图像语义一致性。我们的方法显着降低了FID分数从28。12到19COCO数据集上的37与最先进的性能相比。在CUB数据集上，我们的FID得分略低于StackGAN++[35]和DAE-GAN [24]（15.61对十五岁30和1519），但远低于其他最近的方法：19。24在DF-GAN [28]和16。09在DM- GAN中[39]。我们的R精度分数优于大多数以前的方法，但不如DAE-GAN。整体118193‡表1：不同最先进方法和我们的方法在CUB和COCO测试集上的IS、FID和R精密度评分的性能。结果取自作者自己的论文。请注意，DF-GAN [28]中报告的数字是DF-GAN [28]的更新结果。最佳结果以粗体显示。方法IS↑ FID↓ R-精密度↑CUB CUB COCO CUB COCOStackGAN++[35] 4.04±0.06 15.30 81.59--AttnGAN [30] 4.36±0.03 23.98 35.49 67.82±4.43 85.47±3.69ControlGAN [16] 4.58±0.09--69.33±3.2382.43±2.43SD-GAN [31] 4.67±0.09-DM-GAN [39] 4.75±0.07 16.09 32.64 72.31±0.91 88.56±0.28DF-GAN [28] 4.86±0.04 19.24 28.92[28] 2016年12月28日--[24] 2016年10月24 日2016年10月25日2016年10月26日2016年10月27日2016年10月28日我们的5.17±0.0815.6119.3775.9±0.92 90.6±0.71一只小鸟有一只小鸟有一只这只鸟有很长的一只小鸟，一个关闭了一条船一些奶牛是滑雪者走路一群大象橙色的法案和灰色明亮的红色眼睛，一个尖喙，黑比尔和一个在一个站在雪地上的人都走过皇冠和胸部灰色的嘴和白色的脖子宽翼展有绒毛的白色王冠、颈背、喉咙和胸部。阴天。在一个阳光明媚的日子。斜坡。一条河图4：我们的方法与DM-GAN [39]，DF-GAN [28]在CUB鸟类数据集（第1 - 4列）和COCO数据集（第5 - 8列）的测试集上的定性比较输入文本描述在第一行中给出，并且从不同方法生成的相应图像在同一列中示出最佳的彩色和放大视图。大量的定量评估结果表明，SSA-GAN能够生成具有更好的整体和局部语义一致性的高质量图像，无论是具有许多详细属性的图像还是具有多个对象的更复杂图像。与CUB数据集相比，COCO数据集更具挑战性，因为图像中总是有多个我们的超-实验结果表明，SSA-GAN能够高质量地合成大小复杂的图像。4.2. 定性结果我们定性地比较了从我们的方法和三个最近的国家的最先进的GAN模型T2I，即生成的图像。[39]对于CUB Bird数据集，如图1中的前4列所示4，我们的SSA-GAN生成的图像具有更生动的de-我们DF-GANDM-GANGT118194一个宏伟的标本，小鸟有一个鸟与这只黑鸟一片绿草如茵的田野前面有个蓝色的牌子圣诞庭院有一个有一个浅色的躯干和腹部，亮蓝色的身体，白色的短黄色的头冠，黑色的白色的底面和白色的颈背，和长，窄与野生动物在多云绿色的树木。装饰和罗马数字钟在中间。颈，黑眉，喙和灰色尖端黑白尖喙天空大楼里的时钟和黑白条纹的第二种。在尾部。背上的斑点图5：我们的方法和DAE之间的定性比较[24]。DAE图像取自他们的论文，为了公平起见，我们使用与他们相同的描述生成图像。最佳的彩色和放大视图。与给定的文本描述语义一致的尾部以及更清晰的背景。例如，在第1列中，给定文本然而，由DM-GAN生成的图像不反映“小”，而由DF-GAN生成的图像不具有“灰色冠和乳房”。在其他示例中可以观察到其他方法的更多限制。DF-GAN既不能在第二列中生成“红眼”，也不能在第二列中生成“黑账单”。第四列。DM-GAN在第2列和第3列中生成的鸟类不是自然的或照片般逼真的。定性结果表明，我们的SSA-GAN是更有效和更深入地融合文本和图像的特征，并具有较高的文本-图像的一致性。特别地，更好地生成的鸟的细节表明，SSA块的像素级文本-图像融合在捕获细节方面优于基于子区域的方法。对于图4中最后4列所示的COCO数据集，可以观察到SSA-GAN能够生成具有不同背景的多个对象的复杂图像。在第5列中，我们的图像比DM-GAN和DF-GAN生成的图像更真实。在第6列中，生成的奶牛中的每一个都可以被清楚地识别和分离，而奶牛被混合在一起由DF-GAN生成。第6 - 8列中的图像由DM-GAN合成得很差：对象无法识别，背景模糊。在第7列和第8列中，DF- GAN生成的“滑雪者”和“大象”在相应的图像中似乎不是自然的部分。这些在更复杂的COCO数据集上的定性示例表明，SSA-GAN也能够生成包含多个对象的复杂图像作为相应的背景。SSA-GAN生成的图像具有更好的整体语义一致性与给定的文本以及与文本中的重要词在局部语义上一致。我们在图5中比较了我们的方法和DAE [24]的定性结果。为了公平比较，我们使用与[24]中相同的标题生成图像，并与从他们的论文中拍摄的图像进行比较。我们可以看到，通过我们的方法生成的鸟与DAE的质量相当，但与给定的文本具有更好的局部语义一致性DAE在第2列中生成更好的映像。在复杂的场景中，我们的图像有更好的质量。在第5列中，我们的图像是自然的和视觉上可识别的，而DAE的图像是抽象的和混乱的。在第8列中，我们的方法生成作者证实了DAE在生成多个对象时存在困难.两种方法都无法在第7列生成图像，因为描述过于抽象。4.3. 消融研究在本小节中，我们通过对CUB数据集的测试集进行广泛的消融研究来验证SSA-GAN中每个组件的有效性[29]。SSA块和DAMSM首先，我们验证了拟议的SSA块和额外的DAMSM如何影响网络的性能。使用不同组分的结果在表2中给出。我们将DF-GAN视为表示为（ID0 ）的基线。用我们的 SSA 块替换 DF-GAN 中的UPBlock，IS和FID的性能都得到了改善（ID 1），这表明我们的SSA块能够更好地融合文本和图像特征。当DAMSM被添加到我们的网络（ID2）时，整体性能得到改善。这表明DAMSM有助于IM-我们Dae118195这种小鸟有一个短喙，浅灰色的胸部，深灰色和黑色的翼尖。图6：在不同SSA块中预测的语义掩码示例。从左到右：输入文本，生成的图像和7个预测的语义掩码（从浅到深）。最佳的彩色和放大视图。表2：评估SSA阻滞和DAMSM在我们的框架中对CUB测试集的影响的消融研究。表3：评估SSA-GAN中使用的不同数量的语义掩码如何影响性能请注意，这里没有对文本编码器进行微调ID组件IS↑ FID↓SSA DAMSM0--4.86± 0.04 19.24100 - 4.97±0.09 18.54参数阶段IS↑ FID↓2 4.98± 0.09 19.693 5.04± 0.07 18.402周5.07±0.0415.613微调5.17±0.0816.58#面具4 5.05± 0.0515.035 5.02± 0.07 17.646 4.97± 0.04 16.62证明文本图像一致性。然后，我们训练整个框架，以微调文本编码器（ID3）。我们的方法在IS中实现了进一步的改进，但在FID中的性能较差。其原因在于，微调文本编码器有助于文本-图像融合，并提高文本-图像的然而，当编码的文本特征变得更适应图像特征时，生成的图像的多样性也增加（更深地受到不同的文本解压缩的约束）。因此，FID性能降低，同时其测量真实图像与所产生图像之间的KL发散。值得注意的是，在不添加DAMSM的情况下，我们的方法（ID1）与最新的最先进的方法（ID0）相比实现了更好的性能。语义掩码预测的语义掩码为每个SSA块中的语义CBN提供空间信息。为了评估语义掩码如何影响文本-图像融合过程，我们从最后一个SSA块到第一个SSA块逐个添加掩码预测器，并观察性能如何变化。结果见表3。我们可以看到，通过将语义掩码增加到4，性能不断提高然而，当添加第5个和第6个语义掩码时，性能稍微差一些。当框架使用7个掩码时，它具有最高的IS分数和第二好的FID性能。这一现象表明，更多的语义掩模有助于文本-图像融合过程，并且生成的图像更真实，文本-图像一致（更高的IS分数）。同时，更深层次的文本-图像融合也使生成的图像更强地受到文本描述的控制。因此，生成的图像变得更加多样化，这导致更高的FID。请注意，我们使用7个语义面具的所有其余实验在这项工作中。为了获得更多的了解，图6显示了在不同阶段预测的语义掩码。我们可以看到，这是一个seman-75.07±0.0415.61当文本-图像融合变得更深时，tic masks变得更集中在鸟上。特别是在后两个阶段，主要注意的是对鸟的整体进行生成鸟，然后对鸟的具体局部进行细节的再细化。它直观地演示了基于当前生成的图像特征预测掩模，并深化了文本-图像融合过程。5. 结论本文提出了一种新的语义空间感知GAN（SSA-GAN）框架，用于T2 I生成。它有一个生成器-鉴别器对，并以端到端的方式训练。核心模块是语义空间感知（SSA）块，其通过基于当前生成的图像特征预测语义掩码并从编码的文本向量学习仿射参数来操作语义空间条件批量归一化。SSA模块通过图像生成过程深化了在实验结果和消融研究中，我们证明了我们的模型的有效性，并在T2I生成方面比以前的最先进方法有了显着改善。确认这项工作得到了德国联邦教育和研究部的支持，下的项目LeibnizKILabor（授予编号01DD20003 ），中心为数字Innova- tions（ ZDIN ）和 DeutscheForschungsgemein-schaft（DFG）根据德国的卓越战略在卓越集群PhoenixD（EXC 2122）。118196引用[1] 奥伦·阿舒尔和里奥·沃尔夫。在交互式场景生成中指定对象属性和关系在ICCV，第45611[2] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模gan训练。2019. 1[3] Long Chen，Hanwang Zhang，Jun Xiao，Ligen Nie，Jian Shao，Wei Liu，and Tat-Seng Chua. Sca-cnn：图像字幕卷积网络中的空间和通道注意力。在CVPR中，第5659-5667页，2017年。2[4] Jun Cheng，Fuxiang Wu，Yanling Tian，Lei Wang，andDapeng Tao. Rifegan：从先验知识生成文本到图像合成的丰富特征。在CVPR中，第10911-10920页，2020年。2[5] Yuren Cong，Wentong Liao，Hanno Ackermann，BodoRosenhahn，and Michael Ying Yang.用于动态场景图生成的时空在IEEE/CVF计算机视觉国际会议论文集，第16372-16382页，2021年。1[6] VincentDumoulin 、 JonathonShlens 和 ManjunathKudlur。对艺术风格的博学的表现。在ICLR，2017。4[7] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。NeurIPS，2014。一、二[8] Sen He，Wentong Liao，Michael Ying Yang，YongxinYang，Yi-Zhe Song，Bodo Rosenhahn，and Tao Xiang.具有增强对象外观的图像生成的上下文感知布局。在CVPR，2021年。1[9] Martin Heusel，Hubert Ramsauer，Thomas Unterthiner，BernhardNessle r，GunterKlambaue r，andSeppHochreiter. 两个时间尺度更新规则训练的甘斯收敛到纳什均衡。NeuIPS，第6626-6637页，2017年。5[10] Seunhoon Hong，Dingdong Yang，Jongwook Choi，andHonglak Lee.推理语义布局的分层文本到图像合成。在CVPR中，第7986-7994页，2018年。一、二[11] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros.使用条件对抗网络的图像到图像翻译。在CVPR中，第1125-1134页，2017年。一、二[12] 贾斯汀·约翰逊，阿格里姆·古普塔，李飞飞。从场景图生成图像。在CVPR中，第1219-1228页，2018年。1[13] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构，用于生成对抗网络。在CVPR，2019年。1[14] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。5[15] Jing Yu Koh，Jason Baldridge，Honglak Lee，and YinfeiYang.基于细粒度用户注意力的文本到图像生成。在WACV，第237-246页，2021中。2[16]Bowen Li，Xiaojuan Qi，Thomas Lukasiewicz和PhilipH. S. 乇可控的文本到图像生成。在NeurIPS，2019。一二三五六[17] Wenbo Li ， Pengchuan Zhang ， Lei Zhang ， QiuyuanHuang，Xiaodong He，Siwei Lyu，and Jianfeng Gao.通过对抗训练实现对象驱动的文本到图像合成。在CVPR中，第12174-12182页，2019年。二、五[18] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。Microsoft coco：上下文中的公共对象。在ECCV，第740-755页，2014中。二、五[19] Xihui Liu，Guojun Yin，Jing Shao，and Xiaogang Wang.学习预测语义图像合成的布局到图像条件卷积NeurIPS，2019。1[20] Mehdi Mirza和Simon Osindero条件生成对抗网。arXiv预印本arXiv：1411.1784，2014。1[21] Tingting Qiao，Jing Zhang，Duanqing Xu，and DachengTao.Mirrorgan：通过重新描述学习文本到图像生成。在CVPR中，第1505-1514页，2019年。2[22] 亚历克·雷德福卢克·梅斯和苏米特·钦塔拉使用深度卷积生成对抗网络进行无监督表示学习2016. 1[23] Scott Reed ， Zeynep Akata ， Xinchen Yan ， LajanugenLo- geswaran，Bernt Schiele，and Honglak Lee.生成对抗性文本到图像合成。在ICML，第1060二、三[24] Shulan Ruan，Yong Zhang，Kun Zhang，Yanbo Fan，Fan Tang，Qi Liu，and Enhong Chen. Dae-gan：用于文本到图像合成的动态方面感知gan。在ICCV，第13960-13969页，2021中。二五六七[25] Tim Salimans 、 Ian Goodfellow 、 Wojciech Zaremba 、Vicki Cheung、Alec Radford和Xi Chen。改进的gans训练技术。NeuIPS，第2234-2242页，2016年。5[26] Mike Schuster和Kuldip K Paliwal。双向递归神经网络。IEEE信号处理学报，45（11）：2673-2681，1997。3[27] Christian Szegedy、Vincent Vanhoucke、Sergey Ioffe、Jon Shlens和Zbigniew Wojna。重新思考计算机视觉的初始架构。在CVPR，第2818-2826页5[28] Ming Tao，Hao Tang，Songsong Wu，Nicu Sebe，FeiWu，and Xiao-Yuan Jing. Df-gan：用于文本到图像合成的深度融合生成对抗网络。 arXiv 预印本 arXiv ：2008.05865，2020。一、三、四、五、六[29] Catherine Wah、Steve Branson、Peter Welinder、PietroPerona和Serge Belongie。加州理工学院-ucsd鸟类-200-2011数据集。2011. 二、五、七[30] Tao Xu ， Pengchuan Zhang ， Quyuan Huang ， HanZhang ， Zhean ， Xiaeli Huang ， and Xiaodong He.Attngan：使用注意力生成对抗网络生成细粒度文本到

下载后可阅读完整内容，剩余1页未读，立即下载