无语言模型的训练与应用

48 浏览量更新于2023-10-25 收藏 1.45MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

17907面向文本到图像生成周宇凡1，张睿毅2，陈昌友1，李春元3，陈思敏2，俞彤2，顾久祥2，徐金辉1*，孙彤21纽约州立大学布法罗分校2Adobe Research3微软研究院，雷德蒙{yufanzho，changyou，jinhui}@ buffalo.edu{ruizhang，tensmeye，tyu，jigu，tsun}@ adobe.comchunyl@microsoft.com摘要训练文本到图像生成模型的主要挑战之一是需要大量高质量的图像-文本对。虽然图像样本通常很容易访问，但相关联的文本描述通常需要仔细的人工字幕，这特别耗时且成本高昂。在本文中，我们提出了第一项工作，在没有任何文本数据的情况下训练文本到图像生成模型。我们的方法利用了强大的预训练CLIP模型的良好对齐的多模态语义空间：通过从图像特征生成文本特征无缝地减轻了文本调节的要求。大量的实验表明了该方法的有效性。我们在标准的文本到图像生成任务中获得了最先进的结果。重要的是，所提出的无语言模型优于大多数使用完整图像-文本对训练的现有模型此外，我们的方法可以应用于微调预训练的模型，这节省了训练时间和训练文本到图像生成模型的成本。我们的预训练模型在MS-COCO数据集上的零拍摄文本到图像生成中获得了有竞争力的结果，但相对于最近提出的大型DALL-E模型，模型大小和训练数据大小仅为1%左右。1. 介绍从任意文本描述中自动合成真实感图像是人工合成的核心愿望之一。社会情报现有的大多数作品都达到了这个目标通过消耗大量高质量的图像-文本对[7，38，53，56，59]，然而，这通常需要精确的人工字幕和过滤的繁重工作量例如，MS-COCO [27]是文本到图像生成任务中最常用的数据集，需要超过70，000名工人*第一和第八作者的研究部分由NSF通过拨款IIS-1910492支持。收集和注释字幕的时间。即使对于Google ConceptualCaptions [41]这样的不太精心策划的数据集，它也由330万个图像-文本对组成，这些图像-文本对是在实践中，对于一个定制的领域，它是不可行的，收集这样大量的图像-文本对模型训练，由于人工字幕和过滤的成本很高。这一挑战使得零镜头文本到图像生成任务具有前所未有的重要性，其中没有特定于域的图像-文本对用于训练模型以在给定域中生成图像。最近，已经进行了一些尝试来解决零镜头文本到图像生成问题，通过在网络规模的图像-文本对上预训练巨型生成模型，如DALL-E [38]和CogView [7]。两者都是为零拍摄文本到图像生成而构建的自回归Transformer模型，因为它们可以在给定任意文本描述的情况下生成相应的图像，而无需在特定领域的数据集上进行训练。然而，为了确保良好的性能，这些模型需要巨大规模的数据收集，模型大小和模型训练。具体来说，DALL-E包含超过120亿个参数，在由2.5亿个图文对组成的数据集上进行训练; CogView是一个具有40亿个参数的模型，在3000万个图像-文本对上训练。因此，训练这些模型需要数百个GPU，这显著增加了碳足迹并降低了包容性：使得更多的研究者很难参与到这一课题的研究中来。因此，期望提供负担得起的解决方案，以通过降低对模型大小、数据收集和模型训练的要求，为有限的图像-文本对数据的设置构建文本到图像生成模型。在数据收集方面，在理想情况下，无语言设置可能是最低和最便宜的要求，其中仅提供图像数据。这一点很重要，因为考虑到在线提供的大量特定领域的图像数据集，仅收集图像数据比构建高质量的图像-文本对要17908图1.模型大小与COCO数据集零拍摄图像到文本生成的性能。LAFITE的模型尺寸要小得多，特别是在考虑可训练参数时（左图），但显示出更高的Inception评分（中图）和更低的FID（右图）。详情请参阅第4为此，我们提出了LAFITE1，这是一种基于预训练的CLIP模型[37]的生成对抗方法，可以显着降低成本障碍并构建高效的文本到图像生成模型具体而言，（i）利用CLIP在联合语义空间中的图像-文本特征对齐特性，构造伪图像-文本特征对;（ii）我们提出了一个文本到图像GAN（生成对抗网络）模型[11]，可以有效地利用伪图像-文本特征对。我们的主要贡献可概括如下：• 我们提出了LAFITE，一个多功能的系统，有效地工作在一个大范围的文本到图像生成设置，包括语言自由，零拍摄和完全监督学习。• 据我们所知，LAFITE是第一个为文本到图像生成任务提供无语言培训的工作。本文提出了两种新的构造伪图文特征对的方案，并针对新的背景进行了全面的研究。在几个数据集上使用不同的训练方案（从头开始训练和从预训练的生成模型进行微调• 在零拍摄文本到图像生成设置中，LAFITE在COCO基准上优于现有技术DALL-E和CogView，具有小于1%的可训练模型参数大小（具有冻结的CLIP模型权重）。请参见图1进行比较。• 在标准的完全监督设置中，LAFITE的性能大大优于几种最先进的（SoTA）方法。令人惊讶的是，即使是我们的语言自由模型也表现出优于大多数现有的使用完整图像-文本对训练的模型。2. 相关工作文本到图像生成现有的文本到图像生成模型可以分为两类：完全-1LA语言-用于生成Text-to-image生成的自由训练监督文本到图像生成[53，56，59]和零拍摄文本到图像生成[7，38]。完整图像-文本对设置中的SoTA仍然由GAN变体主导[53，56，59]。GANs [11]激发了图像合成的许多进步[18，20，23，28，32]。对于文本到图像合成，改进的模型性能通常受益于大型生成对抗图像模型[56]和预训练的文本编码器[30]。最近，在DALL-E [38]和CogView [7]中实现了出色基本思想是使用VQ-VAE [39，45]将图像编码为离散的潜在令牌，并预训练一个巨大的自回归变换器[46]，以基于成对的文本序列预测这些离散令牌。我们的LAFITE是第一个在零射击生成上实现SoTA的生成对抗方法。多模态特征学习学习视觉和语言的联合和对齐的特征空间一直是人工智能中长期存在的问题[42，50]。受BERT模型[6]的启发，给定预提取的视觉区域特征和文本编码器[21，24，26，31，43，57]，许多方法试图学习通用多模态融合层。这些工作旨在学习下游任务的通用多模态表示，如视觉问答[2，14]，图像标题[1，27]，视觉常识推理[55]。与上述作品不同，另一系列作品专注于从自然语言监督中学习视觉表示的方式，包括生成[5]和辨别[48，49，58]方法。后者学习对齐的视觉语义空间。这个想法最近在CLIP/ALIGN[16，37]中得到了扩展，为构建通用的图像-文本表示空间铺平了道路我们的LAFITE是建立在这个普遍的空间，是第一个杠杆年龄的多模态对齐属性的语言无关的文本到图像的生成。用于生成/操作的CLIP。多模态特征空间的思想也启发了最近一些关于生成模型的工作[9，10，33，35]。所有这些工作都与我们的工作有关，因为预训练CLIP模型的工具17909H∈H{|联系我们∈ H→卢塞恩岛∥H∥·N··⊙N和StyleGAN2被使用。我们的L AFITE在两个方面有所不同：动机和设想情况各不相同。现有的工作集中在潜在优化[10]，图像处理[35]，域自适应[9]，图像分割[33]。我们提出了第一个研究训练文本到图像生成模型，而无需配对字幕。（二）技术不同。虽然所有的工作都利用了图像-文本特征对齐属性，但我们的LAFITE是唯一一个在联合多模态空间中生成伪特征对的方法，现有的工作都没有考虑这种可能性。3. LAFITE：一个无障碍的典范在构建图像-文本对训练数据时避免人类字幕的一个自然想法是使用现成的图像字幕模型，该模型可以自动为收集的训练图像生成字幕。然而，这是特别具有挑战性的，因为缺乏通用的字幕模型，该模型可以（i）弥合文本和图像之间的模态差距以生成高质量的字幕;（ii）推广到具有大域间隙的不同图像域。在本文中，我们求助于解决一个更简单的问题：可以直接生成文本特征而不是文本描述，以避免使用图像字幕模型。在整个论文中，（x，t）表示图像-文本对，图2.所生成的伪文本特征向量h′（x）（蓝色虚线箭头）应与图像特征f img（x）（红色实线箭头），即，θ≤arccosc。匹配的图像-文本特征被最大化，而不匹配对的余弦相似性被最小化。这自然地为多模态特征提供了高维超球体2，其中成对的图像-文本应该彼此靠近，在它们的特征向量之间具有小角度这启发我们去探索生成伪文本特征h ′的潜力。（x）对于这个超球面上的给定图像x：（x）=h′Sim（h′，fimg（x））c，其中Sim表示余弦相似度，c >0是阈值。这个想法在图2中示出。在分析的基础上，我们考虑了两种方案来产生伪文本特征。为了生成伪文本特征h'，我们建议用自适应高斯噪声扰动图像特征fimg（x）x′是t的相应生成图像。G和D分别表示生成元和生成元.我们使用h′=h/h2，h=fimg（x）+fimg（x）2/2，（1）fimg和ftxt表示预先训练的文本编码器和图像编码器，其将文本描述和图像样本映射到联合多模态特征空间中。 h=ftxt（t）表示真实文本特征，z（0，）表示la-从标准高斯分布采样的帐篷噪声，用作发生器的一个输入。我们实现无语言训练的想法是通过利用预训练模型的图像-文本特征对齐来生成伪文本特征h'，其目的是近似h然后，将生成的特征馈送到文本到图像生成器中以合成相应的图像。不失一般性，我们将从输入数据到多模态特征空间的映射表示为两个集合中的翻译器T。如果仅提供图像x（即，语言自由集），我们考虑一个伪文本特征生成过程T：xh′;如果提供图像-文本对（x，t）（即，标准全监督设置），我们对地面实况文本进行编码，T：t→h。3.1. 伪文本特征生成为了实现这一目标，需要一个通用的多模态特征最近的视觉和语言模型如CLIP和ALIGN通过预训练实现了这一点使用对比学习对成百上千万的图像-文本对进行分析。之间的余弦相似度其中，f（0，I）是高斯噪声，f>0是表示扰动水平的固定超参数，2表示L2范数。加入的高斯噪声是自适应的，因为它被归一化到超球，然后由图像特征的范数重新缩放。我们可以证明，在自适应噪声的情况下，我们的LAFITEG可以以高概率生成（x），该概率取决于k，c和d。在附录中给出了形式定理及其证明。扩展LAFITEG以学习更多自适应噪声而不是使用香草高斯是很自然的。为此，我们建议训练一个推理模型，该模型将图像特征作为输入，并输出所需噪声分布的均值和方差具体地说，推理模型由两个神经网络r1（）和r2（）组成.使用重新参数化技巧[22]，伪文本特征的生成是：h′=h/h2，其中（2）h=fimg（x）+r1（fimg（x））+rexp（r2（fimg（x），其中，exp表示逐元素指数运算，并且exp表示逐元素乘法，exp（0，1）表示从标准高斯采样的噪声实际上2在我们的实现中，我们通过L2范数对CLIP提取的特征进行归一化17910··⟨⟩埃克塞特n·SnU我i=1我我我们分别构造了4层全连接（FC ）的 r1（）和 r2（），并通过最大化生成文本特征与真实文本特征之间的余弦相似度Sim（h′，h）来对它们进行有监督的训练讨论这两种方案各有优缺点。可训练扰动通常比固定扰动产生更好的性能。然而，固定扰动更容易使用，而不需要在具有注释的图像-文本对的附加数据集上训练推理模型。此外，可训练扰动的性能受到用于训练推理模型和生成模型的数据集之间的差距的影响，正如我们在实验中的消融研究中经验验证的那样。判别器在文本到图像任务中，判别器确保生成的图像满足两个标准：对人类感知具有照片般的真实感并且对文本条件具有保真度。为此，我们使用共享的FC主干对输入图像x进行编码，然后执行两个任务（每个任务都有一个特定于任务的FC层），如图4所示。（i）fd（x）将x投影到标量中，指示输入图像x的真或假的水平。这是所有GAN模型共享的共同任务;（ii）fs（x）将x嵌入到一个语义空间中，这个语义空间与CLIP的语义空间相似。我们计算内积h′，fs（x）以指示输入图像x与伪文本特征在语义上对齐/调节的程度。总之，鉴别器输出被定义为：部分。3.2. 网络架构D（x，h′）=fd（x）re`aldamnrdamnfaxke+h′，f（x）se`manticalignmxent、（四）我们建议将无条件的StyleGAN2适应于我们目标的条件生成模型请注意，尽管我们在无语言环境中讨论了我们的模型，但通过使用h（真实文本特征）而不是h′（伪文本特征），它可以直接推广到标准的文本到图像生成发电机它是在最近的作品[29，51]表明，StyleGAN2的StyleSpace是一个很好的分离的中间体，diate特征空间，其维度是高度独立的，直觉上，当图像x是真实的（具有大的fd（x）值）并且h′和fs（x）之间的语义相似度高时，D（x，h′）产生图像x的高值类似的想法已被利用[15，17，56]。与这些方法不同的是，我们的模型可以利用预先训练的多模态特征空间，这减轻了机器学习语义有意义的特征的困难。3.3. 培养目标对于小批量的n个图像{x}n ，h′是cor-悬着通过利用此属性，我们提出了一种简单而有效的方法来实现条件生成：将新的条件信息直接注入StyleSpace，如图3所示。具体来说，我们选择如下方式注入文本信息。（i）随机噪声向量z ∈ Z通过由FC层序列构成的映射网络变换到中间潜空间W中。W空间被认为是响应第i个IM的生成的伪文本特征年龄我们的模型是以对抗的方式训练的，有额外的对比损失，以确保GAN特征空间与预训练的CLIP保持一致。第一个是标准的条件GAN损失。发电机和发电机的损耗定义为，使用公式（4）中的logits，如下所示：LG=−logσ（D（x′，h′）），（ 5）更好地反映了知识分布的非纠缠性，第每个w∈ W被进一步变换为信道方式的我我i=1n n无条件风格代码s，使用不同的学习仿射生成器的每一层的转换的空间LD=−logσ（D（xi，hi′））−logg（1−σ（D（x′i，h′i）由这些样式参数跨越的空间通常称为StyleSpace或。（ii）对于来自CLIP的图像-文本联合语义空间的条件向量h′，使用针对每个生成器层的不同学习的2层FC网络将其转换为条件码c。（iii）在生成器的每一层，我们将其样式和条件代码连接起来以获得[s，c]，使用不同的学习公式将其进一步变换为信道方式的条件样式代码u。这些样式参数所跨越的空间作为条件其中σ（）表示Sigmoid函数。为了强制区分器提取的特征fs（x）在预训练的CLIP特征空间中语义对齐，我们考虑以下对比正则化器：该委员会：exp（Sim（fs（x），h′）/τ）（六）i=1j=1J我每个生成器层的仿射变换。我们称LConD=−τ原木exp（Sim（fs（x），h′）/τ），StyleSpace，或。总而言之，生成器G合成a假图像为：x′=G（h′，z）（3i=1i=1我17911L）其中Sim表示余弦相似度，τ是非负的超参数直觉上，ConD强制执行区分-输出与对应的文本特征h′i相似的图像特征fs（xi）。17912i=1i=1i=1j=1J我6：根据（1）或（2）生成h′i图3.将文本条件信息注入生成器的每一层的过程，其中FC表示全连接层。绿色模块在每个生成器层都有自己的可训练参数我们可以将原始的StyleGAN2构造其StyleSpace作为从z到s的过程。我们建议注入语义条件信息，并进一步建立我们的条件StyleSpace，其元素u将用于调制图像生成。该图说明了无语言设置，其中真实图像用于生成伪文本特征h';对于完全监督的文本到图像生成设置，真实文本用于提取文本特征h。有关详细信息，请参阅第3节中的翻译人员定义。(a)鉴别器输出（b）LConD（c）LConG图4.无语言环境下鉴别器输出和培训目标的图示。我们进一步利用预训练的CLIP模型来提高生成图像x′i的语义对应性算法1LAFITE的无障碍训练1：输入：图像数据集{xi}N，预训练en-和它的条件伪文本特征h′i。我们定义发电机的下列对比损耗codersi=1ftxt，fimg，超参数 τ>0超参数τas（6）：2：虽然不收敛做3：样本小批量{xi}n;nexp（Sim（fimg（xi），hi）/τ）（七）样本扰动噪声{i}i=1<$N（0，I）;第四章：LConG= −τ原木exp（Sim（fimg（x′），h′）/τ）.5：//伪文本特征生成使用上述对比正则化器，最终的训练发电机和发电机的损耗定义为：7：//G和D8：样本潜在噪声{zi}nint N（0，I）;L′D =LD +γL ConD（八）9：使用（3）合成具有G的伪图像x′i;10：使用（4）将真实/虚假图像馈送到D;L′G=LG+γLConD+λLConG（9）其中τ = 0。5，无语言设置时λ=γ=10，以及τ= 0。5，λ= 10，γ= 5，用于完全监督设置3。3.4. 培训详细信息我们在算法1中总结了LAFITE的无语言训练时间表。对于具有完整图像-文本对的设置，可以用地面实况文本特征h=ftxt（t）替换伪文本特征生成步骤。3附录中提供了有关超参数调优的详细信息n1791311：//用梯度下降法12：用（8）更新D;13：用（9）更新G;十四： end while训练前。为了证明我们模型的零触发任务转移能力，我们还考虑了一个在Google Conceptual Captions3 M（CC 3 M）数据集[41]上预训练的变体，该数据集由330万个图像-文本对组成。对于伪文本特征生成与可训练的每-17914×扰动，我们还在CC3M上训练了它的推理模型在预训练和下游数据集之间没有图像重叠，这确保了在迁移学习中将我们的方法与其他方法进行比较时的公平性对于人脸识别，我们在FFHQ数据集[19]上预训练了一个模型，该数据集包含70，000张图像。预训练的模型可以在不同数据集的无语言设置下使用LAFITE进行微调，这将在下一节中讨论。数据扩充。在实践中，我们还考虑图像数据增强以改进（1）中提取的图像特征fimg（x）。我们选择使用随机裁剪，避免使用像颜色变换这样的增强，因为它们可能会导致h′和x之间的不匹配。详情载于附录。4. 实验由于所提出的LAFITE是一个多功能的系统，我们在不同的设置下进行实验，包括提出的由于两种伪文本生成方案的不同，图5. MS-COCO验证集上的无语言文本到图像生成示例。图6.多模态条件下的图像生成（同时基于图像和文本）。在第3.1节中描述的结构中，我们将我们的系统表示为两个变体：分别作为LAFITEG的固定扰动和作为LAFITENN的可训练扰动。我们所有的实验都是在4个Nvidia TeslaV100 GPU上进行的，使用Pytorch [34]实现。除非另有说明，否则在我们的方法中使用CLIP-ViT/B-32。所有代码和预训练模型在验收后将公开提供。数据集。我们考虑了文献中常用的一组数据集[53，54，56，59]，包括MS-Coco [4]，幼崽 [47]， LN-COCO [36]多模式[52]第52话：我的世界所有图像都缩放到分辨率256256。这些数据集的统计总结见附录中的表7评估指标。在[7，38]之后，我们在MS-COCO数据集上报告了模糊的Fre'chetInceptionDistance（FID）[12]和InceptionScore（IS）[40]，这些数据是使用30，000个生成的图像与来自验证集的随机采样FID-k表示FID是在通过半径为k的高斯滤波器模糊所有图像之后计算的。4.1. 无冗余的文本到图像生成我们首先在所提出的无语言设置下研究LAFITE，在该设置中，在给定的域中仅提供图像，并且在训练期间没有配对的字幕。基于字幕的基线：作为基线，我们采用SoTA图像字幕模型VinVL [57]为图像生成一些相关字幕。注意，MS-COCO图像-文本对用于训练作者提供的型号IS ↑FID-0 ↓FID-1 ↓FID-2 ↓FID-4 ↓FID-8↓帽基十五岁83五十六36五十四9951岁8444. 81三十七28大号十六岁95四十七21四十二35三十七8531岁5923岁49LAFITEG二十七岁20十八岁04十七岁80十七岁68十六岁16十四岁52LAFITENN二十二岁23二十六岁56二十六岁48二十五8223岁9019号。27表1. MS-COCO数据集的无语言设置结果。‘Cap’ indicates atext-to-image generation baseline method based on VinVLVinVL图像字幕模型，因此MS-COCO组件由于该信息泄漏而不公平地偏向于基线。我们将此基线方法与使用相同网络架构和超参数设置以实现公平性的LAFITE进行主要结果见表1。我们的LAFITE的两个变体都显著优于基于字幕的基线方法。简单的LAFITEG在该数据集上表现最好，表明该方法的通用性。对于LAFITENN，请注意，CC 3 M用于训练推理模型，因此当我们在MS-COCO数据集上测试LAFITENN时，LAFITENN图5给出了生成的一些示例，从中我们可以看到，尽管在训练过程中没有使用文本数据，但我们的LAFITE导致了文本对齐的生成，验证了所提出方法的有效性。此外，我们实际上可以对图像执行生成条件：对于给定的图像，我们使用LAFITE生成图像条件伪文本特征向量。将这个伪文本特征向量传递给G，17915模型IS↑ FID-0↓ FID-1↓ FID-2↓ FID-4↓ FID-8↓ SOA-C↑SOA-I↑DALL-E十七岁90二十七岁5028岁00四十五5083岁50八十五00--CogView十八岁20二十七岁1019号。40十三岁9019号。4023岁60--LAFITE二十六岁02二十六岁94二十二岁97十八岁70十五岁72十四岁79三十七37五十四25表2.MS-COCO数据集上的零拍摄设置的结果，该模型使用CC 3 M数据集的图像-文本对进行预训练模型MS-CocoIS↑ FID↓ SOA-C↑SOA-I↑幼崽IS↑ FID↓LN-COCOIS↑ FID↓MM CelebA-HQIS↑ FID↓AttnGAN23岁61三十三岁。10二十五8839岁014.第一章3623岁9820块8051岁80-125.98Obj-GAN二十四岁09三十六52二十七岁1441岁24------DM-GAN三十二32二十七岁34三十三岁。44四十八034.第一章75十六岁09---131.05OP-GAN二十七岁88二十四岁70三十五8550块47------DF-GAN-21岁42--五、10十四岁81---137.60XMC-GAN三十459 .第九条。3350块94七十一33--28岁37十四岁12--LAFITE三十二348. 1261岁0974岁78 五、9710个。48二十六岁3211个国家。78二、9312个。54表3.CUB、LN-COCO和MM CelebA-HQ数据集上的标准文本到图像生成与给定图像相似的图像。因此，LAFITE能够在多模态条件下生成图像，即它可以以图像和文本模拟为条件。实施细节在附录中讨论。图6中提供了一些生成的示例，附录中提供了更多结果。4.2. Zero-Shot文本到图像生成Zero-shot是一种用于评估预训练的文本到图像生成模型的设置，而无需在任何下游数据上训练模型。MS-COCO数据集用于评估我们在CC 3 M上预训练的模型。主要结果见表2。与DALL-E [38]和CogView [7]相比，LAFITE在大多数情况下获得了更好的定量结果。我们还强调，我们的模型只有7500万个可训练参数，而DALL- E有超过120亿个参数。可以说，我们的预训练数据集CC 3 M比DALL-E中使用的预训练数据集小得多，DALL-E中包含2.5亿个图像-文本对。4.3. 标准文本到图像生成我们现在考虑标准的文本到图像生成任务，其中在训练期间提供所有地面实况图像-文本对。我们将LAFITE与一系列竞争系统进行了比较：AttnGAN [53]，Obj-GAN [25]，DM-GAN [59]，OP-GAN [13]，DF-GAN [44]和XMC。GAN [56]. FID和IS在不同数据集上评价的主要结果见表3 。我们还报告了 MS-COCO 上的语义对象准确性（SOA），遵循以前的工作[13，56]。竞争模式的结果-4尽管我们承认LAFITE是基于现成的识别模型CLIP，该模型是在4亿个图像-文本对上训练的MS-Coco幼崽LN-COCO MM CelebA-HQ方法IS ↑FID↓IS ↑FID ↓IS↑FID↓IS ↑FID↓17916LAFITEGLAFITENN二十七岁20十八岁04二十二岁23二十六岁56培训4.第一章32二十七岁534.第一章06四十六岁。32从头十八岁49三十八岁。95十八岁17三十六19二、78 32. 75二、89 50 34LAFITEGLAFITENN从预训练模型进行二十四岁8920块89二十六岁55十七岁44六、13三十五994.第一章36三十七9119号。32三十四9620块02三十三岁。763 .第三章。1015743 .第三章。1929. 42表4.不同数据集上两种无语言训练方案的比较。ELS直接引用自相应的论文。很明显，我们提出的模型始终优于所有其他方法，在标准的文本到图像生成中创建新的SoTA结果。4.4. 预训练模型无障碍模型微调。与现有作品相比，预训练的LAFITE模型的一个关键优势是它自然地实现了无语言模型的微调。结果见表4，其中LAFITEG和LAFITENN均在不同数据集上进行了研究。我们看到，预训练模型的微调通常优于从头开始的我们还注意到，预训练的LAFITE的性能在很大程度上取决于预训练和微调数据集中的域间隙例如，LAFITENN有时获得比LAFITEG更差的结果，特别是当微调数据集与CC3M不同时，即，CUB和MM CelebA-HQ。这表明用于生成文本特征的推理模型可能存在偏差，因为它可能过度拟合其训练数据集CC3M。经过预先培训的LAFITE也具有很高的培训效率。例如，在MS-COCO上使用LAFITE17917LAFITEGLLL模型 LConGLConDIS ↑FID↓SOA-C↑公司简介ROBERTa-Base罗伯塔-大号7681024十五岁95十四岁1129岁55三十五7711个国家。587 .第一次会议。72二十二岁89十六岁03(a) FID（↓）（b）IS（↑）图7. LAFITE和现有技术XMC-GAN的比较。X轴是完整MS-COCO数据集中图像-文本对的百分比XMC-GAN有超过1.66亿个可训练参数，而我们的LAFITE只有7500万个可训练参数。✓✓LAFITENN✓✓✓✓11个国家。05七十二038. 28十四岁4620块02三十67 二十六岁6041岁2619号。14三十三岁。88三十三岁。32四十九86二十二岁23二十六岁48三十六86五十四02表5. MS-COCO数据集上训练损失的消融，表示该组件在训练期间使用。数据集需要大约4天才能达到FID 18，而微调只需要3小时。这成为一个关键的优势，特别是当我们需要跨不同数据集的多个文本到图像生成模型时。半监督微调。预训练的LAFITE的适应是样本有效的。一个有趣的问题是，我们需要多大比例的图像-文本对才能在MS-COCO数据集上超越之前的SoTA XMC-GAN为了回答这个问题，我们进行了一个实验，其中只有一部分图像与地面真实文本相关联。我们的模型首先在无语言设置下使用所有图像进行预训练，然后使用不同百分比的图像-文本对进行微调。图7总结了主要结果。我们的方法优于XMC-GAN的IS和FID时，不到一半的总的图像-文本对。4.5. 消融研究培训目标的消融研究我们首先研究目标函数中每个组成部分的影响。通常采用标准发生器和无源损耗，我们通过逐个排除ConG和ConD进行消融。结果提供于表5中。对于LAFITE的两种变体，观察到模型性能可能显著下降。预训练文本/图像编码器的烧蚀为了证明使用多模态特征的重要性表6.在MS-COCO数据集上使用不同预训练模型的结果。在我们的LAFITE中对齐预训练模型，我们比较了CLIP模型和其他单模态模型。我们采用流行的RoBERTa[30]作为基线文本编码器，该编码器仅在大型文本语料库上进行训练。请注意，在没有联合特征空间的情况下执行无语言训练是不可行的。因此，本实验是基于完全监督的文本到图像生成设置。为了进行公平的比较，我们还报告了仅使用CLIP的文本编码器而丢弃图像编码器的结果。在此设置中，没有图像编码器，因此ConG项因此从目标函数中移除。结果见表6。正如预期的那样，即使不使用CLIP的图像编码器，仅使用CLIP文本编码器的模型仍然明显优于使用RoBERTa的模型。从结果中，我们可以得出以下结论：（i）CLIP的特征空间对于文本到图像生成是语义上有意义的，因此仅使用CLIP的文本编码器仍然导致比RoBERTa更好的结果;（ii）文本到图像生成结果可以通过使用特征对齐的联合特征空间（CLIP vs其他）来改善，并且可以通过更强的联合空间来进一步改善（CLIP-ViT/B-16优于CLIP-ViT/B-32，其中ViT/B-16和ViT/B-32是视觉转换器的不同设计[8]）。5. 结论我们已经提出了LAFITE，一种在训练中不使用特定领域的图像-文本对的情况下构建文本到图像生成系统的方法我们通过诉诸涉及从图像生成伪文本特征。在各种文本到图像生成任务中的出色表现证明了LAFITE的有效性，包括无语言，零拍摄和完全监督设置。特别是，LAFITE 在零发射设置中创建了新的SoTA，与DALL-E/CogView等最新进展相比，只有1%的可训练参数计数LAFITE在完全监督的环境中也我们相信，无语言训练是一个有前途的方向，使更广泛的应用领域的文本到图像生成，因为它显着降低了数据收集的负担一个有趣的未来方向是探索图像合成在野外，长尾和开放集的条件下提供的一代。模型特征尺寸IS ↑ FID↓ SOA-C↑ SOA-I↑十四岁7933. 03十七岁7829. 659 .第九条。64十六岁53十八岁40三十33✓✓二十二岁二十八二十一25二十七岁20十八岁0429岁09三十六84四十三77五十四1617918引用[1] Harsh Agrawal 、 Karan Desai 、 Yufei Wang 、 XinleiChen、Rishabh Jain、Mark Johnson、Dhruv Batra、DeviParikh、Ste- fan Lee和Peter Anderson。nocaps：小说对象字幕- ing在规模。在IEEE/CVF计算机视觉国际会议论文集，第8948-8957页，2019年。2[2] Stanislaw Antol ， Aishwarya Agrawal ， Jiasen Lu ，Margaret Mitchell，Dhruv Batra，C Lawrence Zitnick，and Devi Parikh.Vqa：可视化问答。在IEEE计算机视觉国际会议论文集，第2425- 2433页2[3] 赵英春随机向量的内积。Interna- tional Journal of Pureand Applied Mathematics, 56(2):217– 221, 2009. 12[4] KyunghyunCho，BartVanMerrieenboer，CaglarGulcehre ， Dzmitry Bahdanau ， Fethi Bougares ，Holger Schwenk，and Yoshua Bengio.使用rnn编码器-解码器学习短语表示用于统计机器翻译。在EMNLP，2014年。6[5] Karan Desai和Justin Johnson Virtex：从文本注释中学习视觉表示。在IEEE/CVF计算机视觉和模式识别会议论文集，第11162-11173页，2021年。2[6] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：为语言理解而进行的深度双向转换器的预训练。arXiv预印本arXiv：1810.04805，2018。2[7] Ming Ding ， Zhuoyi Yang ， Wenyi Hong ， WendiZheng，Chang Zhou，Da Yin，Junyang Lin，Xu Zou，Zhou Shao，Hongxia Yang，and Jie Tang. Cogview：通过transformers掌握文本到图像的生成，2021年。一、二、六、七[8] AlexeyDosovitskiy，LucasBeyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner ， Mostafa Dehghani ， Matthias Minderer ，Georg Heigold，Sylvain Gelly，et al.一张图片相当于16x16个单词：用于大规模图像识别的变换器. 在2020年的学习代表国际8[9] Rinon Gal ， Or Patashnik ， Haggai Maron ， GalChechik，and Daniel Cohen-Or. Stylegan-nada：图像生成器的剪辑引导的主适应。 arXiv 预印本 arXiv ：2108.00946，2021。二、三[10] Federico A Galatolo，Mario GCA Cimino，and GigliolaVaglini.通过剪辑引导的生成潜在空间搜索从字幕生成图像，反之亦然。arXiv预印本arXiv：2102.01645，2021。二、三[11] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。《神经信息处理系统进展》，2014年第27期。2[12] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。神经信息处理系统的进展，30，2017。6[13] Tobias Hinz，Stefan Heinrich，and Stefan Wermter.生成式文本到图像合成的语义对象精度IEEETransactionsonPatternAnalysisandMachineIntelligence，第1-1页，2020年。7[14] Drew A Hudson和Christopher D Manning Gqa：一个用于真实世界视觉推理和组合问题回答的新数据集。在IEEE/CVF计算机视觉和模式识别会议论文集，第6700-6709页，2019年。2[15] 郑钟宪和申镇宇通过对比增强训练具有更强增强的gans。2020年国际学习表征会议。4[16] Chao Jia，Yinfei Yang，Ye Xia，Yi-Ting Chen，ZaranaParekh ， Hieu Pham ， Quoc V Le ， Yunhsuan Sung ，Zhen Li，and Tom Duerig.通过噪声文本监督扩大视觉和视觉语言表征学习。arXiv预印本arXiv：2102.05918，2021。2[17] 姜敏国和朴载植Contragan：用于条件图像生成的对比学习。神经信息处理系统的进展，33：21357-

下载后可阅读完整内容，剩余1页未读，立即下载