文本到图像合成框架中的内容与风格学习

26 浏览量更新于2023-10-12 收藏 1.66MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7567̂̂多花位于顶部用于文本到图像合成老启诚12穆罕默德·哈瓦伊1艾哈迈德·佩萨兰加德13弗朗西斯·杜蒂尔1莉萨·迪乔里奥1托马斯·费文斯21Imagia Inc.2康考迪亚大学3达尔豪西大学{qi lao，fevens}@ encs.concodia.ca，{mohammad，ahmad.pgh，francis.dutil，lisa}@ imagia.com摘要从给定的文本描述合成图像涉及涉及两种类型的信息：内容，包括文本中明确描述的信息（例如，颜色、成分等），以及通常在文本中没有很好描述的风格（例如，位置、数量、尺寸等）。然而，在以前的作品中，它通常被视为仅从内容生成图像的过程，即，而不考虑学习有意义的风格表示。在本文中，我们的目标是学习两个变量，在潜在的空间，分别代表内容和风格。我们实现了这一点，通过增强当前的文本到图像的合成框架与双adversar- ial推理机制。通过大量的实验，我们表明，我们的模型以无监督的方式学习与图像中存在的某些有意义的信息相对应的样式表示，这些信息在文本中没有很好地在Oxford-102、CUB和COCO数据集上进行评估时，新框架还提高了合成图像a）、内容来源于文字描述这朵兰花的花瓣粉红色，有黄色的雄蕊。这朵兰花有白色的花瓣和花梗。这朵兰花的花瓣黄色，有深色的线条。（b）第（1）款黄色/橙色蓝色/紫色推断内容（c）风格来源位置大小数量推断样式（z）1. 介绍文本到图像合成的问题是在给定图像的文本描述以及图像和匹配描述的一般数据分布的情况下生成近年来，生成对抗网络（GAN）[9]声称自己可能是图像生成的最有效架构，以及它们的变体条件GAN [22]，其中生成器以包含所生成图像的某些所需属性的向量为条件文本到图像合成的一种常见方法是使用预训练的文本编码器从描述中生成文本嵌入该向量用作基于条件GAN的模型中的条件因子。用于文本到图像合成任务的第一个GAN模型[26]使用从正态分布中采样的噪声向量来捕获文本表示中遗漏的图像风格特征，图1：（a）控制所生成的图像的样式（以列表示），给出文本描述作为内容（以行表示）。列1-4示出了位置（例如，左、右和顶部）;列5-7和列8-10分别表示内容的大小和(b)通过我们的双对抗推理学习的内容和风格特征，由t-SNE可视化。推断的内容仅根据颜色（文本中描述的一个主导因素）进行聚类，而推断的风格显示出更分散的聚类模式，具有多个花朵和顶部花朵等局部聚类该模型生成各种给定文本描述的图像。StackGan [32]引入条件增强作为增强文本嵌入的一种方式，其中文本嵌入可以从表示文本嵌入空间的学习数据中采样因此，当前用于文本到图像合成的现有技术方法通常具有两个随机性来源：一个用于文本嵌入可变性，以及另一个（给定正态分布的噪声z）捕获图像可变性。推断z白色红色/粉红7568然而，有两个随机性来源只有在它们代表不同的变异因子时才有意义。问题是，我们对一些非正式发表的方法的实证研究表明，这两个来源可能重叠：由于文本嵌入的随机性，噪声向量z则对所生成的图像的可变性和质量没有有意义的贡献，并且可以是丢弃。补充材料中的图8和图9在本文中，我们的目标是学习一个潜在的空间，表示有意义的信息的文本到图像合成的背景下为此，我们引入了一种推理机制，鼓励潜在空间学习分布的数据。为了捕捉不同的变化因素，我们通过两个独立的随机变量构建潜在空间，表示内容（类似于以前的工作[26]，这主要包括颜色、构图等。另一方面，“z ”编码样式，我们将其定义为文本中没有很好描述的图像数据这通常将包括图像、背景等中这个新的框架使我们能够更好地表示两个文本和图像模态，在64×64分辨率下，在Oxford- 102 [23]、CUB [29]和COCO [20本文的主要目标是通过文本到图像合成的推理机制来学习风格和内容的这使我们不仅可以使用文本描述中描述的内容信息，而且可以在生成图像时使用所需的样式。为此，我们只关注低-分辨率图像（即，64×64）。在文献中，高分辨率图像通常通过迭代重成像产生。因此，我们认为这是一项不同的任务，与生成超分辨率图像更密切相关。据我们所知，这是第一次尝试明确分离文本到图像合成的风格和内容的学习。我们认为，捕捉这些微妙之处对于学习更丰富的数据表示非常重要。如图1所示，通过学习内容和样式的分解表示，我们可以生成尊重来自文本源的内容信息的图像，同时通过从样式源推断样式信息值得注意的是，虽然我们希望从图像模型中学习样式，但样式信息可能会连接到（或泄漏到）某些文本实例中。尽管如此，风格在模型中的整合最终取决于它在两种模式中的表现。例如，如果某些类型的样式信息通常存在于文本，那么根据我们的定义，这些信息类型都被认为是内容。然而，如果仅几个文本实例描述该信息，则其将不能完全表示文本之间的共享共性，并且因此将不能被捕获为内容，并且其是否可以被捕获为样式取决于其在图像模态中被表示得有多好。另一方面，我们还希望在我们未来的工作中使用所提出的方法探索文本以外的模态作为内容，如果我们选择两种模态都是图像，这可能会使我们更接近图像到图像的翻译[18]。本文的贡献是双重的：（i）我们是第一个学习两个变量，它们被解缠为con-在使用推理的文本到图像合成的上下文中的帐篷和风格;和（ii）通过结合推理，我们提高了最先进的图像质量，同时保持可比的变化性和视觉语义相似性时，评价牛津-102，CUB和COCO数据集。2. 相关工作文本到图像合成方法文本到图像合成已经由Reed等人实现。[26]其中使用基于条件GAN的模型从文本描述生成文本匹配图像Zhang等人[32]使用两阶段GAN首先在阶段I中生成低分辨率图像，然后在阶段II中将图像质量提高到高分辨率。通过使用分层嵌套的GAN（HDGAN），其在增加的分辨率水平上结合了多个损失函数，Zhanget al.[35]以端到端的方式进一步改进这项任务的最新技术水平已经进行了几次尝试来利用额外的可用信息，例如对象位置[27]，类别标签[5，2]，从单词特征中提取的注意力[30，24]和文本再生[24]。Hong等人 [12]提出了另一种方法，通过为图像生成器提供语义结构，该语义结构顺序地由框生成器和形状生成器构成;然而，他们方法将不适用于单对象图像合成。与以前的所有工作相比，我们的方法将推理机制纳入到当前的文本到图像合成框架中，通过这样做，我们明确地迫使模型同时学习内容和风格的单独表示。Reed等人[26]还研究了内容和风格信息的分离。补充材料中详细说明了两者之间的区别。对抗性推理方法各种论文已经探索了通过对抗性训练来学习表示值得注意的是BiGANs [6，7]，其中双向鉴别器作用于数据对（x，z）和生成的点。虽然这些模型假设单个随机变量z编码数据表示，但在这项工作中，我们将对抗性推理扩展到两个随机变量，7569CaGxXaDx，φ（ta）zε<$N（0，1）CAε<$N（0，1）CA嵌入φ（ta）xa，xb嵌入φ（ta）CaGxXaDx，φ （吨）一xa， xb循环一致图2：当前最先进的方法（左上）和我们提出的方法（右）的概述，用于低分辨率尺度下的文本到图像合成。默认情况下，当前最先进的方法采用条件增强（CA），其引入变量cp（c|除了作为图像生成器G x的输入的变量z N（0，1）之外，移除z（左下）不会影响模型性能（即，定量评价补充材料中的图9）。在我们的方法（右）中，我们结合了推理机制，其中Gz，c对z和c进行编码，并且CJD（x，z）/（x，c）区分关节对。F或C由cy组成，采样的z和c也用于重建x′。彼此分离。我们的模型也与[19]密切相关，其中作者将对抗性重建损失纳入BiGAN框架。结果表明，额外的损失项导致更好的重建和更稳定的训练。虽然Dumoulinet al. [7]示出了条件图像生成的结果，在他们的模型中，调节因子是离散的、完全观察到的并且不是通过推理模型推断的。在我们然而，从p（z）= N（0，1）和N t采样的噪声向量z作为调节因子，以生成图像xN=Gx（z，Nt）。然后，匹配感知鉴别器Dx，t被训练为不不仅可以判断真假图像，而且可以区分匹配和不匹配的图像-文本对。用于文本到图像（下标表示为t2i）框架的极大极小目标函数被给出为：最小最大Vt2i（Dx，Wnt，Gx）=G DE（xa，ta）pdata[logDx，t（xa，ta）]+关于InfoGAN而的匹配感知损失1 .一、E[log（1−D（x，x）））]+（第3.1节）也可以被看作是最大化两种模态之间的互信息（即，文本和图像），其近似方式2（xa，tb）双极数据Ezp（z），tap数据[log（1−Dx，ta tbx，t（Gx（z，ta），ta））]Σ、（1）不一样. InfoGAN [3]使用变分互信息最大化技术，而匹配感知损失使用匹配和失配对的概念。此外，InfoGAN集中了所有语义fea-潜在代码c上的tures，它包含内容和风格，而在这项工作中，我们只最大限度地提高相互信息，因为我们认为文本是我们的内容。3. 方法3.1. 预赛其中（xa，ta）是匹配对，并且（xa，tb）是错误对。配对为了增加文本数据，Zhanget al. [32]将生成器中的确定性文本嵌入替换为潜在变量c，该潜在变量c从学习的高斯分布p（c）中采样|其中，μ和μ是由神经网络参数化的μ t的函数。为了符号简单，我们表示p（c|t）作为p（c）。结果，目标函数（1）被更新为：最小最大Vt2i（Dx，Wnt，Gx）=我们从描述文本到图像合成开始让我们G DE（xa，ta）p数据 [logDx，t（xa，ta）]+是给定文本描述关联的文本嵌入图片x文本到图像合成的目标是生成各种视觉上合理的图像，这些图像是文本，1 .一、E2E（xa，tb）p数据[log（1−Dx，t（xa，tb））]+Σ[log（1 −Dmatched. Reed等人[26]首先提出了一个基于条件GAN的框架，其中生成器G x将zp（z），cp（c），tap数据x，t（Gx（z，c），ta））].（二嵌入φ（ta）xa，xbDx，φ（ta）ε<$N（0，1）CAcaGxXaz（xa，z）（xa，ca）&D（x，z）/（x，c）（xa，z）（xa，ca）CaX一Gz，cGXX阿z7570）7571除了保证语义一致性的匹配感知对丢失之外，Zhanget al.[35]提出了另一种类型的对抗性损失，其集中于图像保真度（即，图像丢失），进一步更新（2）为：最小最大Vt2i（Dx，Dx，Δt，Gx）=到后P（z，c| x），其在独立性假设下可以分解如下：q（z，c |x）= q（z|x）q（c |X），p（z，c| x）=p（z| x）p（c|X）。GExap数据D[logDx（xa）]+Ezp（z），cp（c）[log（1−Dx（Gx（z，c）]+E[logD（x，λ）]+该公式允许我们匹配q（z| x），其中p（z| x）q（c）|x）与p（c| x）分别。类似于先前（xa，ta）p数据x，ta ta工作[7，6]，我们通过匹配两对1 .一、E2（xa，tb）双极数据E[log（1−D[log（1−Dx，t（xa，tb））]+Σ联合分布：q（z，x）=p（z，x），zp（z），cp（c），tap数据x，t（Gx（z，c），ta））]、（三）q（c，x）= p（c，x）.其中Dx是区分从p个数据采样的图像和从由生成器参数化的分布采样的图像（即，p模型）。考虑两个域x∈X和z∈Z上的两个一般概率分布q（x）和p（z），其中q（x）表示经验数据分布，p（z）通常指定为简单随机分布，例如：，一个标准正规N（0，1）。对抗推理[6，7]旨在匹配两个联合分布q（x，z）= q（z| x）q（x）和p（x，z）=p（x| z）p（z），这又意味着q（z）|x）匹配p（z|X）。为了实现这一点，除了标准生成器Gx（z）：x=G x（z），z = p（z）之外，还在生成阶段引入编码器Gz（x）：z=Gz（x），x= q（x）。训练关节识别器以区分（x，z）和（x，z）之间的关节对。对抗性推理的极小极大对象ive最小值最大值V（D，Gx，Gz）=G DE x <$q（x），z<$$>q（z| x）[l〇 gD（x，z（）]+Exp（x|z），z<$p（z）[lo g（1−D（x<$，z））].（四）3.2. 对偶对抗推理如第3.1节所述，当前最先进的文本到图像合成方法可以被视为条件GAN的变体，其中条件是最初是在BAUCT本身[26]上，后来更新为从通过BAUCT[32，35，30，24]学习的分布中采样的潜在变量c然后生成器有两个潜在变量z和c：zp（z），cp（c）（图2左侧）。先验可以是高斯或非高斯分布，例如伯努利分布1。为了学习风格（z）和内容（c）的分解表示，并加强这两个变量之间的分离，我们将对偶对抗推理纳入当前文本到图像合成的框架中（右，图2）。在这个对偶推理过程中，我们感兴趣的是匹配条件q（z，c| x）1在本文中，我们对p（c）的高斯分布和伯努利分布进行了实验（更多细节见第4节）。7572然后，我们的对偶对抗推理的编码器对z和c进行编码：z，c=Gz，c（x），xq（x），而生成器将从其对应的先验分布中采样的z和c解码为图像：x=Gx（z，c），zp（z），cp（c）。为了与G x和Gz，c竞争，鉴别阶段还具有两个分量：鉴别器Dx，z被训练为鉴别从q（x，z）或p（x，z）采样的（x，z）对，并且鉴别器Dx，c用于鉴别从q（x，c）或p（x，c）采样的（x，c）对。给定上述设置，原始对抗性推理目标（4）被更新为：最小值最大值Vdual（Dx，z，Dx，c，Gx，Gz，c）=G DE x <$q（x），z<$，c<$$>q（z，c| x）[logDx，z（x，z）+logDx，c（x，c）]+Exp（x|z，c），zp（z），cp（c）[lo g（1−Dx，z（x，z））+lo g（1−Dx，c（x，c））].（五）3.3. 循环一致性在无监督学习中，循环一致性是指模型从其推断的潜在变量z重建原始图像x的能力。据报道，双向对抗推理模型通常具有再现忠实重建的困难，因为它们没有明确地包括目标函数中的任何重建损失[7，6，19]。循环一致性准则，如在许多以前的作品中所证明的，如CycleGAN[36] ， DualGAN [31] ， DiscoGAN [14] 和增强的CycleGAN [1]，强制执行强连接，通过约束模型（例如，编码器和解码器）与彼此Li等[19]表明，循环一致性目标的集成稳定了对抗性推理的学习考虑到上述情况，我们以与[19]类似的方式将循环一致性集成到我们的双对抗推理框架中。更具体地说，我们使用另一种判别法-torDx，x′来区分x和它的重建7573̂(a)（b）（c）生成的样本风格来源012345678推断内容（c）9在ferredstyle（z）图3：在MNIST-CB数据集上解开内容和样式（a）生成给定数字标识的样本作为内容c。每一列都使用从N（0，1）采样的相同样式z。（b）推断内容c和推断风格z的t-SNE可视化。（c）使用来自图像源的推断的内容c/（以行为单位）和推断的样式z/（以列为单位）重建的样本。x′=Gx（z，c），其中z，c=Gz，c（x），通过优化：min maxVcycle（Dx，x′，Gx，Gz，c）=G DEx<$q（x）[logDx，x′（x，x）]+E x q（x），（z，c）q（z，c| x）[lo g（1−Dx，x′（x，Gx（z≠，c≠）]. （六）我们随后在消融研究（第4.6节）中表明，使用l2损失进行循环一致性会导致生成图像模糊，这与之前的研究一致[17，31]。3.4. 全目标考虑到（3）、（5）、（6），我们的全部目标是：min maxVful（D，G）G D=Vt2i（Dx，Dx，Gt，Gx）+Vdual（Dx，z，Dx，c，Gx，Gz，c）+Vcycle（Dx，x′，Gx，Gz，c），（7）其中G和D是我们方法中所有生成器和判别器的集合：G={G x，G z，c}，D ={Dx，Dx，t，Dx，z，Dx，c，Dx，x′}.请注意，除了潜在变量c之外，我们方法中的编码z和c也是通过重新参数化技巧[16]从推断的后验分布中采样的，即， zq（z|x）和cq（c|X）。为了促进在潜在空间上的平滑采样，我们正则化后验分布q（z|x）和q（c| x）通过最小化KL diver来匹配它们各自的先验-gence. 我们对p（c）应用类似的正则化项，例如，λD KL（p（c）||N（0，1）），如之前的文本到图像合成工作中所做的那样[32，35]。我们的初步实验2表明，如果没有上述正则化，训练变得不稳定，并且梯度通常在一定数量的epoch后爆炸。2我们还尝试了最小化z和c之间的余弦相似性，但在接收分数和FID方面没有观察到ve改进的性能推断z内容源推断C75744. 实验4.1. 概念验证研究为了评估我们提出的双重对抗性推理对内容和风格的解开的有效性，我们首先在玩具数据集上验证我们提出的方法：MNIST-CB [8]，其中我们通过将数字身份视为文本内容，将数字生成问题公式化为文本到图像的合成问题。在这种设置中，数字字体和背景颜色表示通过对抗性推理以无监督方式学习的样式我们将交叉熵正则化项添加到内容推断目标，因为在这种情况下我们的内容是离散的（即，用于数字标识的独热向量）。如图3（a）所示，内容和风格在生成阶段被解开，其中生成器已经学会了在使用相同的z时将相同的样式分配给不同的数字标识。更重要的是，来自我们推断的内容和风格（c和z）的t-SNE可视化（图3（b））表明，我们的双重对抗性推理已经成功地将内容（数字标识）和样式（字体和背景颜色）信息。这在图3（c）中得到了进一步验证，其中我们展示了我们的模型4.2. 文本到图像设置一旦在玩具示例上得到验证，我们就转到原始的文本到图像合成任务。我们基于类似于HDGAN [35]的模型架构来评估我们的方法，HDGAN是当前最先进的文本到图像合成方法之一，使HDGAN成为我们的基线方法。体系结构设计与[35]中所述相同，我们只考虑64×64分辨率。三个定量指标用于评估我们的方法：Incep-[28]，Fre'chet起始距离（FID）[10]，7575方法初始分数FID牛津-102幼崽Coco牛津-102幼崽CocoGAN-INT-CLS [26]2.66 ±0.032.88 ±0.047.88 ±0.0779.5568.7960.62[27]第二十七话-3.10 ±0.03--53.51-StackGAN [32，33]2.73 ±0.033.02 ±0.038.35 ±0.1143.0235.1133.88HDGAN [35]-3.53 ±0.03----HDGAN平均值 *2.90 ±0.033.58±0.038.64 ±0.3740.02 ±0.5520.60 ±0.9629.13 ±3.76我们的意思是 *2.90±0.033.580.05±8.940.20±37.94 ±0.3918.41 ±1.0727.07 ±2.55* COCO数据集在五个不同时期（600、580、560、540、520）或三个不同时期（200、190、180）的三次实验中计算的平均值表1：在64×64分辨率量表下初始评分和FID的比较较高的初始分数和较低的FID意味着更好的性能。GT基线这朵兰花是粉红色和绿色的，花瓣是尖尖的。一种大鸟有白色的腹部，长长的跗骨和黑色的带蹼的脚。在比赛中，一个人拿着球棒打一个飞来的棒球图4：在Oxford-102（上）、CUB（中）和COCO（下）数据集上生成的图像示例。视觉语义相似性[35]。在我们的实验中已经注意到，其他人也报道了[21]，由于GAN模型训练的变化，基于一个单一的实验得出结论是不公平的，该实验达到了最佳结果;因此在我们的实验中，我们对每种方法进行三次独立的实验，并将平均值作为最终结果。更多的实施、数据集和评估细节可以在补充材料中找到。4.3. 定量结果为了全面了解我们的方法，基线方法及其变体（通过固定或移除噪声向量z）在整个训练过程中的表现，我们以20个历元间隔评估每个模型。图9（柔软材料）显示了起始评分（左轴）和FID（右轴）为牛津-102和CUB数据集。与图8（补充材料）中给出的定性结果一致，我们定量地表明，通过固定或删除z，基线模型保留了不受影响的表现，表明z没有控制，在基线模型中。然而，根据我们的建议，双对抗推理，模型性能在两个数据集的FID分数上都有显著提高（红色曲线，图9），表明所提出的方法能够产生更好质量的图像。表1总结了我们的方法的结果与基线方法和其他报告的结果，以前的国家的最先进的方法为64× 64分辨率任务的三个基准数据集：牛津-102，CUB和COCO。我们方法基于所有数据集上两个度量的平均得分实现最佳性能;在FID评分上，它在Oxford-102数据集上显示出5.2%的改善（从40.02到37.94），在CUB数据集上显示出10.6%的改善（从20.60到18.41）。此外，我们还获得了视觉语义相似性的可比结果（表3，补充材料）。4.4. 定性结果在这一小节中，我们提出了定性结果的文本到图像的生成和插值分析的基础上推断的内容（c）和推断的风格（z）。首先，我们直观地比较了从我们的方法生成的图像对基线。图4显示了每个数据集的一个示例，说明与基线方法相比，我们的方法能够生成质量更好的图像，这与我们在表1中的定量结果一致。我们在补充材料中提供了更多示例（第6.8节）。为了确保我们没有过度拟合，并调查我们是否已经学习了一个有代表性的潜在空间，我们看看潜在空间中的投影位置的插值。插值还使我们能够检查模型是否确实学会了以无监督的方式将风格与内容分开。为此，我们为训练好的推理模型提供了两个图像：源图像并对目标进行图像处理，提取其投影z_p和c_p进行插值分析。如图5所示，对应于从源到目标图像的c中的线性插值的重建图像，并且对于z中的z，与dis相同7576z源z靶c源c目标推断内容z源z靶c源c目标推断内容z源z靶c源c目标推断内容（一）源花数（b）第（1）款源花的姿势（c）第（1）款源鸟的大小（d）其他事项源背景目标目标目标目标图5：通过从源到目标的推断内容c和推断样式z的内插重建的图像的示例。所学习的样式信息包括：（a）数量、（b）姿态、（c）大小和（d）背景。样式来源样式来源内容来源于位置尺寸姿势数量位置尺寸姿势数量文字描述这朵兰花的花瓣是紫色的，花蕊是白色的。这朵兰花的花瓣是黄色的，非常薄。这种花有一个大的紫色花瓣与白色花药。这朵花是粉红色和黄色的，花瓣是皱的和斑点的。这朵花的花瓣是浅蓝色和紫色的。这朵兰花的花瓣是黄色的，有深色的线条。这朵兰花的花瓣厚而尖，呈鲜红色这朵兰花有白色的花瓣和花梗。推断z图6：通过使用文本描述（左）或图像（右）的内容源，在Oxford-102数据集上解开内容（行）和样式（列）。更多结果见补充材料（第6.9节）。在列中播放。由c表示的内容从左到右的平滑过渡和由z表示的风格从上到下的平滑过渡表明我们的模型代表了两个潜在空间，并且更有趣的是，我们发现了有希望的结果，表明z确实控制了一些有意义的样式信息，例如，、花朵的数目和姿态、鸟类的大小和背景（图5，补充资料中有更多例子材料）。4.5. 解纠缠约束尽管如图5所示的许多这样的示例证明了有希望的结果，但是我们注意到，当我们对内容和样式的受独立分量分析（ICA）将多变量信号分离成附加子分量[4]的理论的启发，我们使用伯努利分布进行内容表示以满足非高斯分布。约束这为我们提供了一个更好的内容和风格的分离。请注意，ICA的另一种方法最近也在[13]中进行了探索。如图6和图7所示，我们的模型通过组合来自不同来源的内容和样式信息来学习合成图像，同时保留它们各自的属性（例如，内容的颜色;以及风格的位置、姿势、数量注意，内容信息可以直接来自文本描述（左，图6和图7）或从图像源推断（右，图6和图7）。更多示例和讨论见补充材料（第6.9节）。希金斯等人[11] Zhanget al. [34]已经提出了用于解纠缠分析的定量度量，其涉及风格属性的分类或所生成的风格与真实风格之间的距离的比较然而，在我们的例子中，数据集不包含任何可用于评估捕获的样式的标记属性。作为z源z靶c源c目标推断内容图片来源推断z推断风格推断风格推断风格推断风格推断C7577内容来源于风格来源位置姿势背景（分支）内容来源于风格来源位置姿势背景（分支）文字说明推断z图像推断z这种有趣的鸟有红色的胸部和短喙的羽冠白色的腹部和喉咙，蓝色的冠和背部，黑色的主羽。这是一只明黄色的鸟，有着黑色的冠和灰色的嘴。这只鸟是红色的，侧面是白色的，喙是褐色的。这种鸟的翅膀是棕色的，腹部和头部是红色一种非常小的鸟，长着黄褐色的长嘴和蓝色的背。一种绿色和黄色的小鸟，有一个小嘴。图7：通过使用来自文本描述（左）或图像（右）的内容源，在CUB数据集上分解内容（行）和样式（列）。更多结果见补充材料（第6.9节）。因此，他们提出的指标将不适合我们的情况。一种可能的解决方案是人工创建一个新的数据集，该数据集在多个已知样式上具有相同的内容。我们把这个探索留给未来的工作。4.6. 消融研究在我们的方法中，我们有多个组件，每个组件都通过其相应的目标进行优化用于文本到图像合成的先前作品[26，32，35]使用鉴别器Dx，t来鉴别图像是否是x匹配它的文本嵌入xpt。然而，随着...对抗性推理的集成，其中新的判别器Dx，c被设计为匹配（x，c）和（x~，c）的联合分布，我们现在质疑是否仍然需要判别器Dx，t，给定c是从t学习的事实。为了回答这个问题，我们从我们的方法中删除了目标Vt2i（D，G），如表2所示，CUB数据集上的per-turbation显著下降，Inception score和FID，表明Dx，Inceptiont在我们的方法中通过对文本嵌入提供强有力的监督而不是冗余的类似地，我们通过从目标中移除V循环（D，G）来检查循环一致性损失在我们的方法中的作用。我们观察到初始得分和FID都略有下降（表2），这表明循环一致性可以进一步改善对抗性推理的学习，这与[19]一致。还值得一提的是，我们的方法在没有循环一致性的情况下仍然比CUB数据集上的基线方法获得了更好的FID分数（表1和表2），这另外支持了我们在当前文本到图像框架中集成推理机制的提议。我们还研究了模型的性能，使用l2损失的周期一致性，而不是对抗性损失。所导致的质量下降出乎意料地显著（表2）。图10（上图）方法初始分数FID我们3.58 ±0.0518.41 ±1.07我们没有Vt2i3.31 ± 0.0420.65 ±0.47无V循环3.53 ±0.0619.29 ±0.90V循环l2损失1.73 ±0.15149.8 ±16.4表2：CUB数据集上的消融研究请注意，Vdual最终变成基线。补充材料）示出了使用对抗损失生成的图像与使用L2损失生成的图像的比较，并且很明显，后者给出更模糊的图像。5. 结论在本文中，我们采用了一个双对抗推理过程，以便以无监督的方式学习内容和风格的解缠表示，这可以提高文本到图像的合成。值得注意的是，内容是通过文本嵌入以监督方式学习的然而，这种风格完全是以无监督的方式学习的。尽管任务的挑战，我们表现出可喜的成果解释什么已经学到的风格。与建议的推理机制，我们的方法实现了提高质量和可比的可变性，在牛津-102，CUB和COCO数据集上评估生成的图像。鸣谢这项工作得到了Mitacs项目IT11934的支持。作者感谢 Nicolas Chapados 的建设性意见，感谢 GabrielChartrand 、 Thomas Vincent 、 Andew Rupon 、 CecileLow-Kam和Tanya Nair的帮助和审查。推断C7578引用[1] Amjad Almahairi、Sai Rajeswar、Alessandro Sordoni、Philip Bachman和Aaron Courville。增强的循环根：从非配对数据学习多对多映射。在ICML，2018。4[2]Miriam Cha，Youngjune L Gown，and HT Kung.对抗性文本到图像合成中的语义相关性学习。在AAAI，2019年。2[3] Xi Chen，Yan Duan，Rein Houthooft，John Schulman，Ilya Sutskever，and Pieter Abbeel. Infogan：通过信息最大化生成对抗网络进行可解释的表示学习。在NIPS，2016年。3[4] 皮埃尔·科蒙独立成分分析是一种新的分析方法，cept？ Signal processing，36（3）：287-314，1994. 7[5] Ayushman Dash，John Cristian Borges Gamboa，SherazAhmed，Marcus Liwicki，and Muhammad Zeshan Afzal.Tac-gan-text条件辅助分类器生成式对抗网络。在arXiv预印本arXiv：1703.06412，2017。2[6] Je f fDonahue，PhilippK raühenbuühl，和Tr ev或Darrell。广告对抗性特征学习在ICLR，2017。二、四[7] Vincent Dumoulin 、 Ishmael Belghazi 、 Ben Poole 、Olivier Mastropietro 、 Alex Lamb 、 Martin Arjovsky 和Aaron Courville。逆向学习推理。在ICLR，2017。二、三、四[8] Abel Gonzalez-Garcia，Joost van de Weijer，and YoshuaBen-吉欧用于跨域分离的图像到图像转换。在NIPS，2018年。5[9] Ian Goodfellow ， Jean Pouget-Abadie ， Mehdi Mirza ，BingXu ， David Warde-Farley ， Sherjil Ozair ， AaronCourville，and Yoshua Bengio.生成性对抗网。在NIPS，2014。1[10] 马丁·赫塞尔休伯特·拉姆绍尔 Thomas Unterthiner，Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。在NIPS，2017年。五、十二[11] 伊琳娜·希金斯，洛伊克·马齐，阿卡·帕尔，克里斯托弗·伯吉斯Xavier Glorot、Matthew Botvinick、Shakir Mohamed和Alexander Lerchner。beta-vae：使用受约束的变分框架学习基本视觉概念。在ICLR，2017。7[12] Seunhoon Hong，Dingdong Yang，Jongwook Choi，and李弘乐推理语义布局的分层文本到图像合成。在CVPR，2018年。2[13] 伊利耶斯KhemakhemDiederikP金玛关于AapoHyvarinen. Variationalautoencodersandnonlinearica：Auniform framework.2019. 7[14] Taeksoo Kim，Moonsu Cha，Hyunsoo Kim，Jung KwonLee，还有金智元学习发现跨域关系与生成对抗网络。ICML，2017。4[15] Diederik P Kingma和Jimmy Ba。亚当：一种方法随机优化 2015年，国际会议。12[16] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。见ICLR，2014年。5[17] Anders Boesen Lindbo Larsen，Søren Kaae Sønderby，Hugo拉罗谢尔和奥勒·温瑟使用学习的相似性度量对像素之外的像素进行自动编码。InICML，2016. 5[18]李欣颖，曾鸿宇，黄家斌，马尼什Singh和Ming-Hsuan Yang。多样的图像到图像7579通过解纠缠表示的翻译在ECCV，2018。2[19] 李春元，刘浩，陈长友，濮宇晨，利群Chen，Ricardo Henao，and Lawrence Carin. Alice：为了理解联合分布匹配的对抗学习。在NIPS，2017年。三、四、八[20] 林宗毅，迈克尔·梅尔，塞尔日·贝隆吉，詹姆斯·海斯，皮埃特罗·裴罗那、德夫·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。2014年，在ECCV。2、12[21] 马里奥·卢西奇卡罗尔·库拉奇， Marcin Michalski，SylvainGelly和Olivier Bousquet。Gans是平等的吗？一项大规模的研究在NIPS，2018年。6[22] Mehdi Mirza和Simon Osindero 条件生成的对抗网在arXiv预印本arXiv：1411.1784，2014。1[23] Maria-Elena Nilsback和Andrew Zisserman。在大量类别上的自动花卉分类。载于ICVGIP，2008年。2、12[24] Tingting Qiao，Jing Zhang，Duanqing Xu，and DachengTao.Mirrorgan：通过重新描述学习文本到图像生成。在CVPR，2019年。二、四[25] Scott Reed、Zeynep Akata、Honglak Lee和BerntSchiele。学习细粒度视觉描述的深度表示在CVPR，2016年。12[26] Scott Reed，Zeynep Akata，Xinchen Yan，Lajanugen Lo-geswaran，Bernt Schiele，and Honglak Lee.生成对抗性文本到图像合成。InICML，2016. 一二三四六、八、十二、十三[27] Scott E Reed，Zeynep Akata，Santosh Mohan，SamuelTenka，Bernt Schiele，and Honglak Lee.学习在哪里画什么。在NIPS，2016年。二、六[28] Tim Salimans ， Ian Goodfellow ， Wojciech Zaremba ，VickiCheung，Alec Radford，and Xi Chen.改进的gans训练技术。在NIPS，2016年。五、十二[29] Peter Welinder，Steve Branson，Takeshi Mita，CatherineWah ， Florian Schroff ， Serge Belongie ， and PietroPerona.200.第200章大结局2010. 2、12[30] Tao Xu ， Pengchuan Zhang ， Quyuan Huang ， HanZhang ， Zhean ， Xiaeli Huang ， and Xiaodong He.Attngan：使用注意力生成对抗网络生成细粒度文本到图像。在CVPR，2018年。二、四[31] Zili Yi，Hao（Richard）Zhang，Ping Tan，and MinglunGong.Dualgan ：图像到图像翻译的无监督双重学习。InICCV，2017. 四、五[32] 张涵，徐涛，李洪生，张少庭，肖磊Huang ， Xiaogang Wang ， and Dimitris Metaxas.Stackgan：使用堆叠的生成对抗网络进行文本到照片般逼真的图像合成。InICCV，2017. 一二三四五六八12[33] 张涵，徐涛，李洪生，张少庭，王晓刚，黄晓磊，季米特里斯.堆

下载后可阅读完整内容，剩余1页未读，立即下载