L-Verse：图像文本双向生成

190 浏览量更新于2023-10-26 收藏 13.36MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

165260L-Verse：图像和文本之间的双向生成0Taehoon Kim * Gwangmo Song Sihaeng Lee Sangyun Kim Yewon SeoSoonyoung Lee Seung Hwan Kim Honglak Lee Kyunghoon Bae LG AI Research0摘要0远远超出了学习自然语言的长程交互，变压器正在成为许多视觉任务的事实标准，凭借其强大的能力和可扩展性。特别是在图像和文本之间的跨模态任务中，矢量量化变分自编码器（VQ-VAE）被广泛用于将原始RGB图像转化为特征向量序列。为了更好地利用图像和文本之间的相关性，我们提出了L-Verse，这是一种由特征增强的变分自编码器（AugVAE）和双向自回归变压器（BiART）组成的新型架构，用于图像到文本和文本到图像的生成。我们的AugVAE在ImageNet1K验证集上展示了最先进的重建性能，同时对野外未见图像具有鲁棒性。与其他模型不同，BiART可以区分图像（或文本）作为条件参考和生成目标。L-Verse可以直接用于图像到文本或文本到图像的生成，无需任何微调或额外的目标检测框架。在定量和定性实验中，L-Verse在MS-COCOCaptions上的图像到文本和文本到图像生成方面显示出令人印象深刻的结果。我们还评估了L-Verse架构在ConceptualCaptions上的可扩展性，并展示了在通用领域上进行双向视觉语言表示学习的初步结果。01. 引言0图像到文本和文本到图像的生成可以概括为学习图像和文本的跨模态表示的任务。最近的研究[7,10, 11, 32]在视觉语言任务上高度改进了每个目标任务的性能，特别是使用各种变压器架构[3, 4,9,45]。最初设计用于理解自然语言的点积多头注意机制[45]有效地学习了序列数据的长程交互。为了利用变压器架构[45]在视觉领域中的优势，输入图像被分解为一系列潜在特征向量的序列。为了将图像编码为一系列潜在特征向量，可以使用矢量量化变分自编码器（VQ-VAE）[44]从视觉码本中学习具有量化嵌入向量的离散潜在表示。VQ-VAE是一种简单而强大的表示学习方法，可以使图像序列化，并广泛用于具有自回归对的条件图像生成任务，如RNNs[33, 44]或变压器[10-12,32]。提高VQ-VAE的重建质量也是一个活跃的研究领域[12, 32,33]。将自回归变压器[3]与特征提取器（如VQ-VAEs或其他深度卷积神经网络（CNNs））结合起来，正在成为各种视觉语言任务的一种流行方法。然而，训练用于单向图像到文本[7]或文本到图像[10, 32]生成任务的模型仍然需要大量的数据。0*通讯作者：taehoon.kim@lgresearch.ai0一个河流上的日落景色，背后是一轮满月，空荡荡的星球上只有一位天文学家。0GT：一个年轻男孩在公园里扔飞盘。0L-Verse：一个年轻男孩在郁郁葱葱的公园里扔一个绿色的飞盘。0GT：一台笔记本电脑和一部手机放在桌子上。0L-Verse：一组电子设备和线缆放在桌子上。0GT：一个小浴室从一扇门上显示出来。0L-Verse：一个带有浴帘的浴室，旁边是一个马桶。0图1.L-Verse在零样本文本到图像生成（256×256像素）和图像到文本生成（MS-COCOCaptions）上的示例。L-Verse以双向方式训练，可以生成良好条件的合成图像和详细的描述，无需任何微调。0变压器[45]在视觉领域中的架构也远远超出了学习自然语言的长程交互，将输入图像分解为一系列潜在特征向量的序列。为了将图像编码为一系列潜在特征向量，可以使用矢量量化变分自编码器（VQ-VAE）[44]从视觉码本中学习具有量化嵌入向量的离散潜在表示。VQ-VAE是一种简单而强大的表示学习方法，可以使图像序列化，并广泛用于具有自回归对的条件图像生成任务，如RNNs[33, 44]或变压器[10-12,32]。改进VQ-VAE的重建质量也是一个活跃的研究领域[12,32,33]。将自回归变压器[3]与特征提取器（如VQ-VAEs或其他深度卷积神经网络（CNNs））结合起来，正在成为各种视觉语言任务的一种流行方法。然而，训练用于单向图像到文本[7]或文本到图像[10,32]生成任务的模型仍然需要大量的数据。165270或者一个额外的目标检测框架。我们假设通过学习图像和文本的双向跨模态表示，可以通过更好的数据效率来缓解这个问题。本文提出了一种名为L-Verse（潜在诗句）的方法，用于学习双向视觉-语言跨模态表示。L-Verse的关键思想是双重的：（i）用多样的特征增强视觉码本，（ii）使自回归变换器学习双向图像-文本生成。我们的新颖的跨层特征增强技术有效地增加了具有独特特征嵌入向量的视觉码本的多样性。此外，我们还向自回归变换器[ 3]添加了一个段落嵌入，以教导图像（或文本）作为给定条件或生成目标的差异。具体而言，我们在视觉-语言跨模态表示学习方面的贡献总结如下：0•我们引入了一个特征增强的变分自编码器（AugVAE），这是一个通过跨层特征增强训练的VQ-VAE。通过特征增强的视觉码本，AugVAE在域内ImageNet1K [ 8]验证集（图2）和域外图像数据集（图5）上展示了最先进的重建性能。0•我们提出了一种用于双向图像-文本生成的双向自回归变换器（BiART）。我们根据每个标记作为条件参考（[REF]）或生成目标（[GEN]）的角色，为每个标记索引两个不同的嵌入向量。通过这个段落嵌入，我们的BiART可以在不进行任何微调的情况下，既生成给定文本的相应图像，也生成给定图像的有意义的标题。0• L-Verse，包括AugVAE和BiART，在MS-COCOCaptions [ 24 ]Karpathy测试集上的大多数机器评估指标中优于先前提出的图像字幕模型。值得注意的是，L-Verse不需要任何目标检测框架，如Faster-RCNN [ 34 ]。0• L-Verse在MS-COCO Cap- tions [ 24]上展示了与其他生成模型相当的文本到图像生成结果。我们还通过在Conceptual Captions [ 39]上进行训练来评估L-Verse在零样本文本到图像生成方面的可扩展性。0第2节简要回顾了VQ-VAE和跨模态视觉-语言任务的先前工作。第3节解释了我们如何设计AugVAE和BiART来学习图像和文本之间的双向跨模态表示。第4节展示了图像重建、图像到文本生成和文本到图像生成的定量和定性结果。第5节总结了我们的论文，并对未来的工作进行了讨论和结论。02. 相关工作0在最近几年中，将变换器架构[ 3 , 4 , 9 , 45]应用于各种视觉-语言任务一直是一个活跃的研究领域。由于图像是RGB像素值的矩阵，因此应首先将其分解为一系列特征向量的序列。最近基于自回归变换器的生成模型[ 10 ,12 , 32 ]利用不同变体的VQ-VAE [ 44]对图像进行压缩和重建。在本节中，我们介绍了VQ-VAE及其变体的主要概念。我们还解释了如何将VQ-VAE或其他CNN架构与自回归变换器相结合，以解决图像到文本或文本到图像生成任务。02.1. 矢量量化变分自编码器0矢量量化变分自编码器VQ-VAE [ 44]由编码器E、解码器G和视觉码本Z组成，用于学习图像的离散表示。CNN编码器E将图像的连续表示ˆz分解为一系列离散向量zq，每个向量都从视觉码本Z中选择。CNN解码器G用于重建从Z中采样的任何zq。Razavi等人[ 33]将这种方法扩展到使用分层特征表示，并应用指数移动平均（EMA）权重更新到码本Z。为了更好地优化VQ-VAE的训练，Ramesh等人[ 32 ]使用了gumbel-softmax松弛[ 18 ,27 ]。Esser等人[ 12]进一步通过额外的CNN鉴别器改进了图像重建的质量，该鉴别器源自生成对抗网络（GAN）[ 13 ]。02.2. 图像到文本生成0由于点积多头注意力[45]最初是为语言任务设计的，变压器在生成与输入图像相对应的自然且详细的标题方面取得了新的最先进结果。以前的工作[7，23]利用使用FasterR-CNN[34]提取的区域特征为每个图像生成标题。虽然每个区域的视觉语义提高了质量，但忽略了检测目标类别之外的对象（MS-COCO检测[24]的80个类）。02.3. 文本到图像生成0生成对抗网络（GANs）[43，48，51，53]传统上用于文本条件图像生成任务。基于GAN的模型专注于找到特定数据域（如CUB-200 [47]或MS-COCO Captions[24]）的更好建模假设。Ramesh等人[32]首次在通用领域中训练了一个120亿参数的变压器[4]，用于文本到图像生成，训练数据集包含2.5亿个图像-文本对。Ding等人[10]提出了一个40亿参数的变压器CogView，具有稳定的训练技术和各种下游任务的微调策略。ln pθ,ψ(x, y) ≥Ez∼qϕ(z|x)(ln pθ(x|y, z)(1)165280输入图像0重建的图像0生成的图像0文本到图像（图像到文本）令牌0双向自回归变压器0图像令牌[SOI] 文本令牌[SOC]0分段嵌入（REF）分段嵌入（GEN）0共享EMA矢量量化器0f'=2 f'=4 f'=2 f'=20f=2 f=4 f=2 f=20一张长在宽阔乡村道路尽头的长凳。生成的标题0多云的天空和山脉。0输入文本0图2.提出的L-Verse框架。[SOC]：开始的标题（文本）令牌。[SOI]：开始的图像令牌。蓝色表示特征增强变分自编码器（AugVAE）。红色表示双向自回归变压器（BiART）。AugVAE编码器E将图像x编码为令牌z。分段嵌入将每个令牌标记为条件参考（REF）或生成目标（GEN）。BiART T可以从文本令牌y生成图像令牌T(y)，也可以从z生成文本令牌T(z)。AugVAE解码器G将z和T(y)解码为RGB图像。03. 方法03.1. 初步0Ramesh等人[32]提出了一种用自回归变压器[3]进行文本到图像生成的两阶段训练过程：0•阶段1：训练一个离散变分自编码器（dVAE）[32]，将每个256×256的RGB图像压缩为一个32×32的图像令牌网格，每个元素有8192（dZ）个可能的值。0•阶段2：将最多256个BPE编码的文本令牌与32×32=1024个图像令牌连接起来，并训练一个自回归变压器[3]来建模文本和图像令牌之间的联合分布。0该方法最大化了模型分布在图像x、标题y和令牌z上的联合似然的证据下界[20，36]。从因式分解pθ,ψ(x, y, z) = pθ(x| y, z) pψ(y, z)出发，得到下界为0− D KL ( qϕ(y, z | x), pψ(y, z)))0其中：0•qϕ表示由dVAE编码器从图像x生成的32×32编码令牌的分布。0• p θ 代表从dVAE解码器中重建图像ˆx的分布。0• pψ表示由变压器建模的文本和图像令牌的联合分布。0在阶段 1 中，dVAE (或其他 VQ-VAE 变体) 学习最小化 x和 ˆ x 之间的重构损失。在阶段 2中，自回归变换器优化两个负对数似然 (NLL) 损失：(i)对于标题 y 和 (ii) 对于编码图像标记 z。03.2. 提出的方法：L-Verse 框架0受 DALL-E[32]的启发，我们提出了两个主要改进来实现高保真度的图像重构和双向图像-文本生成：0• 我们通过跨级特征增强来提高视觉码本 Z的多样性。我们首先训练多级 (分层) VQ-VAE (图 2中的蓝色)，并在每个特征级别的向量量化器[33,44]中应用权重共享。然后，将分层 VQ-VAE微调为具有码本大小 N = 32 × 32 的 VQ-VAE。0• 我们使用段嵌入来指示每个标记是作为条件参考([REF]) 还是生成目标([GEN])。例如，对于文本到图像生成，每个文本标记添加 [REF]，每个图像标记添加 [GEN]。165290输入0AugVAE-ML0AugVAE-SL0图 3. 输入图像 (顶部)，多级 (分层) 特征增强变分自编码器(AugVAE-ML) 的重构图像(中部)，以及单级特征增强变分自编码器 (AugVAE-SL) 的重构图像(底部) 在Imagenet1K验证集上。每个图像的分辨率为 256 × 256像素。0下面的小节详细描述了 L-Verse的训练和采样过程。L-Verse框架的概述以及实际重构和生成示例如图 2 所示。03.3. 特征增强变分自编码器0Razavi等人[33]指出，增加潜在特征图的数量可以为重构添加额外的细节。然而，增加潜在图的数量也会增加总码本大小N，从 32 × 32 = 1024[44] 增加到 32 × 32 + 64 × 64 =5120[33]。为了在低成本下实现高质量的图像重构，我们选择使用单个 32 × 32 的潜在图，并对视觉码本 Z进行增强。从图 4的示例中可以看出，不同大小的补丁中可能出现相似的模式，既可以在同一图像中出现(蓝色)，也可以在不同图像之间出现(红色)。在向量量化 (VQ)[44]后，相似模式之间的距离变得更近，从不同潜在图中提取补丁并将它们存储在一个位置可以去除重复项，并填充具有唯一的 8192 (d Z) 种可能值的码本。我们对 VQ-VAE[44]的编码器-向量量化器-解码器架构进行优化，以实现跨级特征增强。0• 我们将编码器定义为 z = E(x, f, d out)，其中 x 是一个 n × n × d in 张量，f是一个下采样因子。E(f, d out) 将张量 x 下采样为一个 n0f × d out 张量 z。0图 4. 图像内 (蓝色) 和图像间 (红色)的跨级补丁相似性。我们的特征增强变分自编码器 (AugVAE)利用跨级补丁相似性来丰富特征码本。0• 我们将向量量化器定义为 z q = V Q (z, d Z)，其中 z是一个具有连续 d 大小向量的 n × n × d 张量。z q 是 z的量化版本，每个 d 大小特征向量有 d Z种可能的取值。我们使用指数移动平均 (EMA)向量量化器[33]。AugVAE中的所有向量量化器共享权重参数。0• 我们将解码器定义为 ˆ x = G(ˆ z, f, d out)，其中 ˆ z是一个 n × n × d in 张量，f 是一个上采样因子。G(f, dout) 将一个 n × n × d in 张量 ˆ z 上采样为一个 nf × nf× d out 张量 ˆ x。0分层AugVAE（AugVAE-ML）由一个E（4，256）和三个E（2，256），四个VQ（8192）（共享权重），以及三个G（2，256）和一个G（4，3）组成。如图2所示，蓝色的虚线和实线，E（4，256）首先将一个256×256×3的RGB图像降采样为一个64×64×256的潜在特征张量。每个E（2，256）将前一个张量降采样2倍。总共提取出四个潜在特征张量（64×64×256，32×32×256，16×16×256和8×8×256）。这四个张量使用一个VQ（8192）进行量化，每个潜在地图一个。在训练AugVAE-ML时，通过权重共享，每个码本都获得了8192个值的多样性。每个G（2，256）通过2倍上采样前一个张量（如果存在）和每个级别的ˆz的连接。G（4，3）通过最后一个潜在张量和量化向量重构原始输入。为了减小整体码本大小N，我们将AugVAE-ML微调为一个单层的AugVAE（AugVAE-SL），具有32×32的潜在地图。我们删除了16×16和8×8潜在地图的编码器和解码器，并用一个1×1卷积替换了每个解码器之前的连接，以将前一个潜在张量的最后一个通道扩展2倍。这种修改对AugVAE-ML的稳定微调过程非常有效。AugVAE的最终架构如图2所示，用蓝色的实线表示。如图3所示，AugVAE可以以高保真度压缩和重建图像。AugVAE架构和训练超参数的实现细节请参见附录A。1653003.4. 双向自回归变压器0通过遮蔽点积多头注意力，传统的自回归变压器[3]只能从左到右理解给定的序列。文本和图像之间的双向生成不需要变压器完全双向：学习如何区分图像→文本序列和文本→图像序列就足够了。我们只需告诉我们的双向自回归变压器（BiART）给定的文本（或图像）是一个条件参考（[REF]）还是一个生成目标（[GEN]）。我们为每个标记分配一个可学习的嵌入向量，用于每个段索引（[REF]）和（[GEN]），并将其添加到输入序列中。这个简单的想法使得BiART能够训练和采样双向图像-文本生成。对于训练，我们交替地以文本→图像或图像→文本的顺序馈送输入序列，每次迭代。在每次迭代中，BiART优化两个负对数似然（NLL）损失：（i）对于条件参考y索引为[REF]，（ii）对于生成目标x索引为[GEN]。当收敛时，BiART可以执行图像到文本（图2中的虚线红线）和文本到图像（图2中的实线红线）的生成，而无需进行任何微调。03.5. 训练细节0架构概述首先我们在ImageNet1K[8]上训练了一个拥有1亿参数的AugVAE-SL。从图3、5和表1的结果来看，我们的AugVAE-SL在域内和域外图像的重建结果都非常出色。我们使用在ImageNet1K上训练的AugVAE-SL作为L-Verse的编码器和解码器，并将编码的标记与相应的文本标记配对。L-Verse中的BiART是一个拥有5亿参数的GPT [3]变压器。而DALL-E [32]和CogView[10]使用了一个稀疏变压器[4]，并配备了自定义的注意力掩码，以实现快速训练和采样，我们使用了一个GPT风格[3]的全变压器来建模图像和文本之间的双向交叉模态表示。我们使用64个BPE编码的[38]文本标记，有49808种可能性，以及1024个编码的图像标记，有8192种可能性。更多细节请参见附录B。0混合精度训练为了节省计算成本和采样时间，BiART使用FP16（O2）混合精度训练，而不使用像PB-relaxation[10]或Sandwich-LayerNorm[10]这样的低效稳定方法。这些技术旨在消除前向传递中的溢出，但计算效率低下。我们使用FP32推断AugVAE，以防止由向量量化器引起的下溢。0Ding等人[10]指出，仅使用语言进行训练的精度问题不像文本到图像训练中那样显著。他们假设数据的异质性是一个原因。我们发现以双向方式训练变压器可以减轻图像和文本之间的异质性，并导致稳定的训练。在我们的小规模实验中，相比以前的图像到文本或文本到图像自回归变压器，BiART收敛更快并显示出更好的性能。这表明具有段落嵌入的双向训练方法不仅在应用层面上有用，而且可以成为发现不同数据领域之间的跨模态表示的新基础。03.6. 采样细节0图像采样类似于Ramesh等人[32]，我们使用预训练的对比模型CLIP[31]对从BiART中绘制的样本进行重新排序。CLIP根据图像和文本之间的匹配程度分配一个分数（clip-score）。对于文本到图像生成，我们从训练好的L-Verse模型中生成64个样本，并计算clip-score以选择Top1图像。我们使用不同的随机种子重复这个过程k次，总共采样k个图像。0文本采样我们的L-Verse自回归地生成一个令牌序列。要生成一个RGB图像，需要逐个生成1024个（32 ×32）个令牌。然而，文本的长度可能因其参考图像而异。因此，仅生成完整的64个令牌并不能始终保证采样文本的质量。在最坏的情况下，结果标题可能只是一个重复的相同句子和[PAD]令牌的序列。根据MS-COCO Captions[24]的统计数据，每个标题包含平均16个单词。我们首先为每个参考图像采样32个文本令牌，并通过句号（.）令牌将结果标题分割。我们只使用第一个分割来计算重新排序的clip-score。这个过程极大地节省了生成64个样本并选择Top1的计算时间。从表2中的机器评估指标来看，从32个令牌截断的标题在除了CIDEr[46]之外的所有指标上都达到了新的最佳水平，而这些指标仅在MS-COCOCaptions上进行训练。L-Verse还显示出与预训练的OSCAR[23]相当的性能，后者在650万个图像-文本对上进行了预训练。虽然完整的64个令牌标题在CIDEr得分为181.6，SPICE[1]得分为28.9，但我们发现得分之所以高，仅仅是因为每个标题有更多有意义的单词。在我们对完整和截断标题之间的内部组评估中，我们一致认为每个截断版本更加简明和准确。我们进一步通过与人工标注的真实标签进行人工评估，来研究L-Verse生成的标题的质量。CelebA-HQFFHQAFHQMS-COCOOpenImagesDALL-E [32]32 × 32819232.01VQGAN [12]16 × 1610247.94VQGAN [12]16 × 16163844.98AugVAE-SL32 × 3281923.28VQVAE-2 [33]64 × 64 & 32 × 32512∼ 10VQGAN [12]64 × 64 & 32 × 325121.45AugVAE-ML64 × 64 ∼ 8 × 881921.04165310验证集DALL-EVQGANAugVAE-SL0图5. 对不同VQVAE的重建性能进行定性评估，使用ImageNet1K训练的模型，没有进行任何微调。图像使用LANCZOS [ 6]滤波器调整大小为256 × 256。跨级特征增强使AugVAE-SL能够以高保真度表达领域外的未见图像。请放大以进行详细比较。0模型代码本大小 N d Z FID0表1. 在ImageNet1K验证集上的重建Fr´echet Inception Distance(FID)。dZ：代码本中唯一特征向量的数量。多级（分层）特征增强变分自编码器（AugVAE-ML）和单级特征增强变分自编码器（AugVAE-SL）在同类模型中实现了最低的FID。04. 实验0在本节中，我们通过定量和定性实验展示了提出的L-Verse在各个方面的性能。我们主要讨论ImageNet1K[8]上的重建性能，领域之外的未见过的图像，MS-COCOCaptions[24]上的图像到文本生成（图像字幕）结果，以及MS-COCOCaptions上的文本到图像生成结果。对于MS-COCO，我们在Karpathy分割上训练了L-Verse，以便与之前的方法进行公平评估。我们还包括了在Conceptual Captions[39]上训练的L-Verse的结果，以进一步讨论L-Verse架构的可扩展性。0零样本文本到图像生成。FID可能会因计算工具而变化。为了公平比较，我们使用torch-fidelity[29]计算重建FID，使用nlg-eval[40]计算表2中的字幕评估指标，使用DM-GAN代码[53]计算表3中的FID，该代码可在https://github.com/MinfengZhu/DM-GAN上找到。04.1. 图像重建0正如Esser等人[12]所述，VQ-VAE的重建Fr´echetInceptionDistance（FID）[16]为基于其训练的生成模型的可达到的FID提供了一个下界。从表1中ImageNet1K验证集的结果可以看出，我们的AugVAE-ML使用新的跨层特征增强训练，实现了1.04的FID，这意味着AugVAE-ML可以在几乎没有信息损失的情况下压缩和重建图像。图3中的重建示例也展示了AugVAE-ML的定性性能。从AugVAE-ML微调而来，我们的AugVAE-SL在其单层同行中也实现了新的最先进的3.28的FID。0在更困难的情况下，我们评估AugVAE-SL在重建领域之外的未见过的图像上的表现。从图5的示例中可以看出，AugVAE-SL在ImageNet1K上训练的结果在没有额外微调的情况下对所有验证输入图像的重建保真度令人印象深刻。从这个结果可以看出，我们相信我们的AugVAE-SL可以作为各种视觉任务的新的“imagenet-backbone”。有关图5中每个数据集更多示例的详细检查可以在附录C中找到。165320模型 B-4 M R C S0SCST [35] 34.2 26.7 55.7 114.0 - Up-Down [2] 36.327.7 56.9 120.1 21.4 RFNet [41] 36.5 27.7 57.3121.9 21.2 Up-Down+HIP [50] 38.2 28.4 58.3127.2 21.9 GCN-LSTM [28] 38.2 28.5 58.3 127.622.0 SGAE [49] 38.4 28.4 58.6 127.8 22.1 ORT [15]38.6 28.7 58.4 128.3 22.6 AOANet [17] 38.9 29.258.8 129.8 22.4 M 2 Transformer [7] 39.1 29.258.6 131.2 22.60L-verse 39.9 31.4 60.4 102.2 23.3 * L-verse 27.623.6 43.9 181.6 28.90† OSCAR B [23] 40.5 29.7 - 137.6 22.8 † OSCAR L[23] 41.7 30.6 - 140.0 24.50- B-4: BLEU-4 M: METEOR R: ROUGE C: CIDEr S: SPICE *生成的字幕未经截断。† 在650万个图像-文本对上预训练的模型。0表2. 在MS-COCO CaptionsKarpathy测试集上与最新技术的比较。我们主要与仅在MS-COCO上训练的模型结果进行比较。OSCAR的结果（需要额外微调）作为参考。04.2. 图像到文本生成0我们使用机器评估指标对L-Verse进行图像到文本生成（图像字幕）性能评估，与之前基于MS-COCO训练的最新技术进行比较，并通过人工评估与相应的参考字幕进行比较。0机器评估我们首先在表2中将我们的模型与在MS-COCO上训练的图像字幕模型进行比较。我们还包括了OSCAR[23]，它是从预训练模型和650万个图像-文本对进行微调的，以评估我们的模型在更大数据集上的可扩展性。通过第3.6节中提出的采样方法，L-Verse在BLEU-4、METEOR、ROUGE和SPICE方面超过了所有其他方法，而无需任何对象检测框架或其他额外信息。L-Verse还显示出与OSCAR相当的性能，表明在更大的图像-文本对集上预训练L-Verse是未来工作的一个有前途的方向。0没有标题截断的情况下，L-Verse在CIDEr和SPICE上获得了最高分。正如我们在第3.6节中所述，机器评估指标并不总是能够保证生成的标题的质量表现。我们进一步进行了类似于Li等人[22]的人工评估。我们直接将L-Verse生成的标题与人工标注的真实标题进行评估，这是L-Verse的理论上限。0GT：一只小黄鸟在一根小树枝上。0L-Verse：一只黄色的鸟坐在树枝上。0GT：穿着商务套装的男人在拍摄城市建筑的视频。0L-Verse：一个人走过城市并拍摄建筑物的照片。0GT：两个人在郁郁葱葱的绿地上玩飞盘游戏。0L-Verse：一个人在田野上扔飞盘。0图6.L-Verse生成的标题示例及其相应的真实标题。这些示例是从进行的人工评估结果中随机抽样的，得到了“两个标题都很好地描述了图像”的评价。0图7. 在MS-COCO Captions mini-valsplit上的人工评估结果。通过问题“哪个标题最好地描述了给定的图像？”，L-Verse生成的标题在总体上获得了30.4%的投票（Pred + Both）。0在图像到文本生成中。我们从MS-COCO 2014 mini-valsplit中随机抽样了500组图像、相应的真实标题（GT）和L-Verse生成的标题（Pred）用于评估。共有150个匿名参与者进行了评估。对于每个参与者，我们随机展示了50组图像、GT和Pred，并要求选择每组中最好的标题。为了应对平局的情况，我们还允许每个参与者选择“两个标题都很好地描述图像”。关于人工评估的更多细节，请参见附录D。图7中的结果显示，L-Verse能够生成给定图像的详细解释，在总体上获得了30.4%的投票（Pred +Both）。图6中的示例还表明，L-Verse没有错过每个图像的细节。L-Verse45.841.935.530.229.8*L-Verse-CC37.231.625.721.421.1165330模型 FID-0 FID-1 FID-2 FID-4 FID-80AttnGAN[48] 35.2 44.0 72.0 108.0 100.0DM-GAN[53] 26.0 39.0 73.0 119.0 112.3DF-GAN[43] 26.0 33.8 55.9 91.0 97.00† DALL-E[32] 27.5 28.0 45.5 83.5 85.0 †CogView[10] 27.1 19.4 13.9 19.4 23.60- FID-k：经过半径为k的高斯滤波器模糊的图像的FID。*L-Verse在Conceptual Captions上训练。†在超过3000万个图像-文本对上训练的模型。0表3. 在从MS-COCOCaptions验证集中随机抽样的30,000个标题子集上的FréchetInceptionDistance（FID）。我们主要与仅在MS-COCO上训练的模型进行比较。在表的底部，我们提供了来自DALL-E、Cogview和L-Verse-CC（这些模型是从更大的数据集中训练的）的结果作为参考。04.3. 文本到图像生成0根据Ramesh等人[32]和Ding等人[10]的研究，我们通过与之前的方法进行比较来评估L-Verse的文本到图像生成性能。我们在表3中计算了FID，并在验证图像和L-Verse生成样本上应用了不同半径的高斯滤波器。我们使用第3.6节中解释的图像采样过程。附录E中提供了来自MS-COCO的相应标题的生成样本。根据Ramesh等人[32]的说法，将transformer训练在VQ-VAE编码器的标记上会对模型造成不利影响，因为它会在低频域生成图像。在相同的MS-COCO训练集上训练，L-Verse在之前的方法中以较大的优势获得了最佳的FID，但模糊半径略有增加。随着模糊半径的增加，这种差距趋于增大。我们还将L-Verse-CC与DALL-E[32]和CogView[10]进行了比较。考虑到训练数据的规模，随着模糊半径的增加，L-Verse显示出与其他大规模transformer相当的文本到图像生成性能。有趣的是，L-Verse在模糊半径增加时显示出FID的减小，而其他模型显示出FID的增加。我们假设L-Verse关注参考文本中的对象，在高频细节丢失时显示出较低的FID。这一发现也与第4.2节中的图像到文本生成结果相一致。我们还在图8中提供了L-Verse的初始零样本文本到图像生成结果。在ConceptualCaptions[39]上训练，L-Verse生成了具有参考文本中对象的详细图像。我们相信，在使用足够的数据和规模进行训练时，L-Verse也能以零样本的方式生成逼真的图像。0一片河流和景色0夏天的山0一片河流和景色0冬天的山0海滩上的日出景色0河边的日落景色0带有圣诞树的壁炉0房子里0圣诞节的街道0雪0一间现代客厅，一件流行艺术风格的衬衫0时尚0一个站在上面的人0山0图8.零样本文本到图像生成的示例。结果来自于L-Verse-CC，该模型在ConceptualCaptions的300万个图像-文本对上进行了训练。每个图像的分辨率为256×256像素。05. 结论0本文介绍了L-Verse，一种图像和文本之间的双向生成框架。我们的增强特征变分自编码器（AugVAE）实现了新的重建FID的最新技术，并展示了它作为通用骨干编码器-解码器的潜力。我们还通过段嵌入实现了自回归变压器的双向训练。提出的双向自回归变压器（BiART）同时学习图像到文本和文本到图像的生成。实验结果表明，我们的L-Verse框架在图像到文本和文本到图像的生成中表现出了卓越的性能。0致谢0首先，我们要感谢Yountae Jung和LG AI Research AIPlatformSector为培训和评估提供的技术支持和计算资源。我们还要感谢Jinsu Yoo、Daechul Ahn、JanghyeonLee、Yeonsik Jo和LG AI Research VisionLab的其他成员对本文的有益讨论和反馈。最后，我们要感谢LG AIResearch的所有成员，没有他们，这项工作将无法完成。165340参考文献0[1] Peter Anderson, Basura Fernando, Mark Johnson, andStephen Gould. Spice:语义命题图像字幕评估。在欧洲计算机视觉会议论文集中，2016.50[2] Peter Anderson, Xiaodong He, Chris Buehler, DamienTeney, Mark Johnson, Stephen Gould, and Lei Zhang.底层和顶层注意力用于图像字幕和视觉问答。在IEEE/CVF计算机视觉与模式识别会议论文集中，2018. 70[3] Tom Brown, Benjamin Mann, Nick Ryder, MelanieSubbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakan-tan, Pranav Shyam, Girish Sastry, Amanda Askell, Sand- hiniAgarwal, Ariel Herbert-Voss, Gretchen Krueger, TomHenighan, Rewon Child, Aditya Ramesh, Daniel Ziegler,Jeffrey Wu, Clemens Winter, Chris Hesse, Mark Chen, EricSigler, Mateusz Litwin, Scott Gray, Benjamin Chess, JackClark, Christopher Berner, Sam McCandlish, Alec Radford,Ilya Sutskever, and Dario Amodei.语言模型是少样本学习器。在神经信息处理系统进展中，2020. 1,2, 3, 5, 120[4] Rewon Child, Scott Gray, Alec Radford, and IlyaSutskever. 用稀疏变压器生成长序列，2019. 1, 2, 50[5] Yunjey Choi, Youngjung Uh, Jaejun Yoo, and Jung-WooHa. Stargan v2:多领域的多样化图像合成。在IEEE/CVF计算机视觉与模式识别会议论文集中，2020. 120[6] M. A. Clark, Chulwoo Jung, and Christoph Lehner.多网格Lanczos. EPJ Web of Conferences, 175, 2018. 6, 120[7] Marcella Cornia, Matteo Stefanini, Lorenzo Baraldi, andRita Cucchiara.网格内存变压器用于图像字幕。在IEEE/CVF计算机视觉与模式识别会议论文集中，2020. 1, 2, 70[8] J. Deng，W. Dong，R. Socher，L.-J. Li，K. Li和L. Fei-Fei。ImageNet：一个大规模的分层图像数据库。在2009年IEEE/CVF计算机视觉与模式识别会议论文集中，2，5，6，12。0[9] Jacob Devlin，Ming-Wei Chang，K

下载后可阅读完整内容，剩余1页未读，立即下载