没有合适的资源?快使用搜索试试~ 我知道了~
DU-VLG:统一视觉和语言生成序列生成问题的双序列到序列预训练
+v:mala2277获取更多论文DU-VLG:通过双序列到序列预训练鲁阳黄国成牛佳晨刘新艳肖华武百度公司,中国北京{黄鲁阳,牛国成,刘佳晨,肖新艳,吴_华}@baidu.com摘要由于模型结构和预训练目标的限制,现有的视觉和语言生成模型不能通过双向生成来对图像和文本进行互操作。在本文中,我们提出了DU-VLG,一个框架,统一的视觉和语言生成序列生成问题。DU-VLG采用新颖的双重预训练任务进行训练:多模态去噪自动编码器任务和模态翻译任务。为了弥补图像理解和生成之间的差距,我们进一步设计了一个新的承诺损失。我们比较了图像字幕和文本到图像生成数据集的预训练目标。结果表明,DU-VLG产生更好的性能比单向生成目标训练的变体或没有承诺损失的变体。在图像字幕任务中,我们的模型比其他预先训练的系统具有更好的性能。在文本到图像生成数据集上,我们的模型比以前最先进的模型取得了更好或相当的结果。此外,人类法官进一步证实,我们的模型生成真实和相关的图像,以及忠实和翔实的字幕。1介绍视觉和语言任务的预训练模型最近取得了显着进展(Lu et al. ,2019; Su et al. ,2020; Chen等人,2020)。现有的预训练模型要么专注于文本到图像的合成,要么专注于图像到文本的生成(Rameshet al. ,2021; Cho等人,2021年)。这些模型通常使用在语义上对齐的图像-文本对进行预训练。然而,由于模型结构的局限性,现有的模型不能相互适应。此外,预训练目标被设计用于以图像为条件的文本生成或以文本为条件的图像生成,从而限制了模型的学习.图1:COCO数据集的一个例子。对于图像字幕,我们的系统生成信息标题,关键词以粗体突出显示。不正确的信息加下划线。对于文本到图像的生成,我们的系统合成与标题对齐的生动图像来自双向生成的更好的语义对齐(Xu et al. ,2021; Ding等人,2021年)。我们认为,图像到文本和文本到图像的生成似乎是双重任务,这都需要强大的视觉和文本表示在同一个语义空间对齐。图像和文字描述具有不同的信息量和信息密度。图像往往包含更多的信息,但具有严重的冗余,而文本描述是语义浓缩,但可能会忽略细节。单向生成范式可能会导致模型放大这一特性。带上菲格。1作为示例,单向模型可能无法捕获细节。受此观察的启发,我们建议利用双向生成目标来学习更好的图像和文本表示的泛化。为此,我们提出了DU-VLG,这是一个用于视觉和语言生成的DUal序列到序列预训练的框架。下投入:陈列架上的未成熟香蕉。地面实况DU-VLG!w/odualpre-training“文本到图像生成双重任务图像字幕地面真相:陈列架上的一堆未成熟的香蕉。DU-VLG:!架子上有几串青香蕉无双重预培训:“一串绿色的香蕉放在桌子上。arXiv:2203.09052v1 [cs.CV] 2022年3月+v:mala2277获取更多论文···在编码器-解码器Transformer框架中,我们的模型将文本和原始图像作为输入,并自回归地生成文本和图像具体地说,图像在编码器中被表示为连续的补丁特征,在解码器中被表示为离散的视觉令牌通过混合图像嵌入模式,DU-VLG能够在单个模型中统一视觉和语言为了利用图像-文本对的对偶性,我们进一步提出了两对对偶预训练任务:多模态去噪自动编码任务和模态翻译任务。对于多模态去噪自动编码器任务,我们的模型将带有一些图像块或随机掩蔽的单词的图像-文本对作为输入,并通过重建损坏的模态来学习图像-文本对齐。对于情态翻译任务,我们将图像字幕和文本到图像生成作为双重预训练任务,进一步增强了模型的语义对齐能力。与现有的多模态预训练模型不同,我们的模型通过双向生成目标来学习图像-文本对齐。此外,我们提出了一种新的承诺损失驱动模型,以获得更好的图像表示。具体地说,承诺损失被设计为将解码器中的视觉嵌入连接到编码器中的基于补丁的特征。与我们的模型设计相结合,承诺损失旨在将图像理解和生成统一在单个模型中,这允许更好地利用双向生成目标。我们进行各种视觉和语言生成任务的实验我们首先研究了双重预训练任务和承诺损失的影响。在图像字幕和文本到图像生成任务上,DU-VLG优于其变体,而没有承诺损失或仅学习单向生成目标的变体。对于图像字幕,我们在COCO数据集上实现了比现有预训练模型更好的BLEU-4和CIDER(Lin et al. ,2014)。对于文本到图像的生成,我们的模型在COCO和CUB数据集上都取得了比基于transformer和基 于 GAN 的 方 法 更 好 的 结 果 ( Welinder etal. ,2010年)。人类评委证实,我们的模型生成高质量的字幕和图像。重要的是,我们在一个具有挑战性的视觉和语言生成任务上测试我们的模型:视觉常识推理(Park et al. ,2020)。结果表明,我们的模型是能够处理chal-有效地执行多模态生成任务。DU-VLG的主要贡献如下:低点:我们将视觉和语言生成任务统一到一个模型DU-VLG 中 。 通 过 编 码 器 - 解 码 器Transformer,DU-VLG能够处理各种视觉和语言生成任务。DU-VLG是预训练与新颖的双重预训练任务,它利用图像-文本对的对偶性。DU-VLG在三个视觉和语言生成任务上比现有的最先进的方法产生更好或相当的结果。我们进一步提出了一个新的承诺损失,旨在弥合图像理解和代内之间的差距与我们提出的双重范式。实验结果表明,该算法的双重任务能力得到了进一步的增强。本文的其余部分组织如下。我们在§2中描述了我们的模型,并在§ 2中介绍了我们提出的预训练任务和承诺损失。第3节。培训详情见§4。在第5节中,我们讨论了实验结果。相关工作列于§6,最后得出结论。第7节。2模型在本节中,我们描述了我们提出的模型。总的来说,我们的模型设计主要受到两个观察的启发:(1)共享起相同作用的参数可以提高模型性能(Xia et al. ,2018年)和(2)图像理解和生成需要以不同的粒度表示图像特征(Cho et al. ,2020)。因此,我们使用具有编 码 器 - 解 码 器 结 构 的 标 准 Transformer(Vaswani et al. ,2017),如图所示。二、我们的模型将图像和文本作为输入,并将图像和文本生成视为序列生成问题。重要的是,我们建议在编码器和解码器中使用混合图像嵌入模式。2.1编码器在编码器中,图像和文本首先被传递到嵌入层,以获得文本嵌入x 文 本和图像嵌入x 图像。对于文本嵌入,我们遵循RoberTa并将输入标记为BPE(Liu et al. ,2020)。每个BPE标记表示为单词嵌入和位置嵌入的总和。与文本不同,图像被表示为连续语义空间中的像素。然而,使用像素作为图像标记会导致+v:mala2277获取更多论文原始图像Transformer编码器Transformer解码器贴片嵌入105187 164258最大值 不成熟的视频解码器Transformer解码器Transformer编码器离散×|V|×105187164258264223867856587字幕货架上未成熟的香蕉。行的 生香蕉视觉令牌105 187 164行的生香蕉图2:DU-VLG概述我们的模型能够将图像和文本作为输入,并循环生成图像和文本为了使图像输入适应基于变换器的模型,我们在编码器和解码器中使用混合图像相同的颜色表示图像和文本共享模型参数。在训练期间不使用视觉解码器权重。对称结构是为了从双重预训练任务中学习更好的表示而设计的。由于模型需要处理长序列,因此需要大量的计算成本。为了保持语义信息以及减少计算成本,我们将原始图像分割成网格的补丁。编码器的图像嵌入。在编码器中,图像输入被平坦化为一系列补丁,每个补丁表示p p像素的特征。为了获得补丁嵌入,我们将输入图像 传 递 给 经 过 训 练 的 Vision Transformer(ViT)(Doso-vitskiyet al. ,2021),并将最后一层x图像的隐藏状态作为图像块嵌入。然后,图像和文本嵌入被整合-并将其输入编码器自注意层。如果输入中缺少图 像 或 文 本 , 我 们 将 使 用 [IMAGEPAD] 或[TEXTPAD]标记作为占位符。2.2解码器在解码器中,我们使用两种嵌入:文本嵌入,它与编码器中的文本嵌入共享权重为了实现自回归生成,我们添加[BOI]和[EOI]标记来表示图像序列的开始和结束。用于解码器的离散视觉令牌。在解码器中,模型递归地生成一系列离散的视觉符号.在训练过程中,地面实况视觉令牌由矢量量化器获得可变自动编码器(VQ-VAE)(van denOord etal. ,2017年)。VQ-VAE包含两个模块,一个图像标记器和一个视觉解码器。图像标记器首先从原始图像中提取网格特征,并将其映射为离散的图像标记。视觉解码器从离散视觉标记重建原始图像标记器将每个p p像素表示为视觉标记,词汇大小为。因此,解码器视觉令牌的数量与编码器补丁令牌的数量相同。我们参考原始文件以了解更多细节。重要的是,在测试过程中,模型首先生成一系列图像标记,并与视觉解码器重建图像3双重预培训任务和预培训目标接下来,我们介绍我们的预训练方法。预训练语料库由数百万对齐的图像-文本对组成。为了有效地学习视觉和语言理解和生成,我们提出了双重预训练任务。双重预训练任务驱动模型基于给定上下文从图像或文本描述的重构中学习。我们提出了两对预训练任务:(1)多模态去噪自动编码器任务(§3.1)和(2)模态翻译任务(§3.2),如图所示。3.在§3.3中,我们用公式表示了一个连接图像理解和+v:mala2277获取更多论文L=−L=−Σ与文本填充不同,我们随机屏蔽了50%的标记,因为我们还包括图像作为视觉上下文。该模型经过训练以优化原始文本标记的负对数似然损失:Dae文本(V,W)∈Dlogp(x文本|x(二更)图3:我们提出的双重预训练任务的说明。该模型根据图像或文本的视觉和文本背景重建图像一代3.1多模态去噪自动编码器任务给 定 来自训练集D 的 图 像- 文 本 对 ( V ,W),我们首先获得由ViT层计算的图像块嵌入ximage,并获得文本嵌入xtext。 为了鼓励模型学习跨模态的上下文嵌入,我们提出了两个双重任务:1)文本驱动的图像inpaint-其中,x_text表示损坏的t_ext序列。3.2情态翻译任务除了去噪自动编码器任务外,我们还通过模态翻译任务进一步增强了模型模态转换任务驱动模型学习从一个模态到另一个模态的映射。给定一个图像-文本对,我们将情态翻译任务形成为两个双重任务:1)图像字幕和2)文本到图像合成。图像字幕。给定一幅图像作为输入,模型首先从ViT中产生图像块嵌入x图像,并使用编码器自关注编码图像特征。解码器被训练为基于图像特征生成文本。损失函数可以定义为:ing任务,其目的是重建原始图像和2)图像驱动的文本填充任务,Mt文本(V,W)∈Dlogp(x文本|(3)第一章:旨在重建原始文本。文 本 驱 动 的 图 像 修 复 。 给 定 图 像 块 嵌 入ximage,我们用相同数量的可训练[MASK]嵌入替换50%的图像块,产生掩码图像序列x_image 。 我们使 用 分 块 掩 蔽 算 法 ( Bao et al. ,2021)以随机选择补丁。同时,我们将输入图像馈送到图像标记器并产生视觉标记序列文本到图像合成。给定一个视觉描述作为输入,模型用编码器对输入进行编码,解码器递归地生成离散的视觉令牌y图像。在训练期间,由图像标记器计算地面实况视觉标记。损失函数可以定义为:y图像 .该模型被训练以重建IM。Mt图像 =−logp(y图像|x特克斯t)(4)年龄通过优化负对数似然损失地面实况视觉标记:(V,W)∈D3.3连接图像嵌入的编码器和解码器。Dae图像 =−(V,W)∈Dlogp(y图像|x(一)在编码器-解码器结构中,文本嵌入通常在编码器、解码器和令牌生成层之间共享(Pauluset al. ,2018)。图像驱动的文本填充。受文本填充的启发( Lewis et al. , 2020) ,我 们 从泊 松 分布(λ=3)中随机抽取多个文本跨度,并替换为单个[MASK]。这允许模型学习更好的语法和语义信息。对于图像嵌入,由于我们在编码器和解码器中使用混合嵌入模式,因此我们提出了一个承诺损失,自动编码器去噪任务货架上未成熟的文本驱动图像修复在[MASK]上的图像驱动未成熟的香蕉文本填充在展示架上情态翻译任务未成熟的香蕉的味道文本到图像在展示架上合成图像字幕货架上未成熟的香蕉。LL105187164258264223867856587105187164258264223867856587+v:mala2277获取更多论文Σ2DAE MT连接图像理解和生成过程中的培训。直观地,解码器视觉令牌嵌入y图像应提交到编码器中的对应补丁嵌入x图像因此,承诺损失使用平方损失来连接编码器和解码器:384. 在ViT之后,我们对所有实验使用p=16的补丁大小 对于VQ-VAE,我们采用现成的VQ-GAN(Esser et al. ,2021),其是VQ-VAE的变体 VQ-GAN将每个16×16像素映射为离散的视觉标记,词汇大小为|V|= 16384。对于基础和大模型,我们使用ViT-baseLcom=−(V)∈Dsg[ximage]−yimage和具有p=16的块大小的ViT-large来提取图像块嵌入。ViT权重在预训练期间被设置为冻结由于图像序列其中sg表示stopgradient算子,恒等式在前向计算中是零,但在后向计算中偏导数为零该commitment损失被应用到文本驱动的图像修复目标和文本到图像合成目标。在训练过程中,对于每个实例,我们从去噪自动编码器和模态转换中随机选择几个目标对于所有实验,我们将去噪自动编码器的概率设置为0.6因此,对于每个批次,预训练损失是三个损失的组合:Ltotal=L text+αL image(6)比文本序列长,我们设置α = 0。05和β=1。对于模型优化,我们利用亚当优化器与梯度裁剪1.0,批量大小相当于1024。4.2 对下游任务进行为了评估模型在视觉和语言生成任务中的能力,我们测试了三个下游任务:1)文本到图像生成,2)图像字幕和3)视觉常识推理。这里我们主要介绍评价指标。有关其他微调细节,请参阅附录。文本到图像生成。我们尝试了DAE MTL图像=L图像+L图像+βLcom(7)两个流行的文本到图像生成数据集:Ltext=Ltext+L文本(八)Caltech-UCSD Birds 200数据集(CUB)和上下文中的公共对象数据集(COCO)。其中α和β是控制图像损失和承诺损失的尺度的超参数。4实验装置4.1预训练预训练语料库。我们在四个现有的由图像-文本对组成的数据集上训练我们的模型我们的预训 练 数 据 集 包 括 1 ) 上 下 文 中 的 常 见 Ob-Observer(COCO)(Lin et al. ,2014),2)概念字幕(CC)(Sharma et al. ,2018),3)SBU标题照片(SBU)(Ordonez et al. ,2011)和4)视觉基因组(VG)(Krishna etal. ,2016)。对于Visual Genome数据集,由于标题是为图像区域收集的,因此我们将图像区域和标题成对使用。我们还过滤少于五个单词的标题。我们最终收集了大约500万个图像-文本对。实施细节。 我们报告了两种模型大小的结果:1)编码器和解码器的6层基本版本和2)编码器和解码器的12层大版本。对于每种模型尺寸,我们报告了两种不同输入图像分辨率的结果:224× 224和384× 224。CUB数据集包含200个鸟类类别和11,788张图像。每个图像有十个文本分解。我们遵循标准分割,使用150个类别的8,855张图像进行训练,其余50个类别的2,933张图像进行测试。COCO数据集包含82,784张用于训练的图像和40,505张用于测试的图像。每个图像有五个文本描述。我们在两个数据集上对预训练模型进行微调,学习率为 1 e-4 ,每次300个epoch。与Ramesh等人(2021)相似,我们使用细胞核采样策略(Holtzman等人,,2020)。在测试过程中,我们首先对每个标题16张图像进行采样,并使用CLIP模型对生成的图像进行重新排序(Radfordet al. ,2021年)。CLIP模型根据其与文本描述的相关性我们包括两个广泛使用的评估指标:1)初始评分(IS)(Salimans et al. ,2016)和2)Fréchet初始距离(FID)(Heuselet al. ,2017年)。IS得分计算条件类分布和边际类分布之间的KL-散度,通过以下方法获得+v:mala2277获取更多论文×−−↑ ↓↓预先训练的Inception v3模型(Szegedy et al. ,2016)。FID根据Incaption v3模型获得的特征计算地面实况图像和生成图像之间的Fréchet距离。较高的IS分数和较低的FID分数表示由模型合成的图像具有较好的质量。以前的工作(Li et al. ,2019 b)报告称,IS评分无法评估COCO数据集上的图像质量。因此,我们不报告COCO数据集上的IS评分为了公平起见,我们将模型输出调整为256 256并计算FID和IS分数。图像字幕。对于图像字幕,我们在COCO数据集上测试了我们的模型。我们报告了基于COCO数据集上的词重叠的四个度量:1)BLEU-4(Papineni et al. ,2002年),2)METEOR(Lavie和Agarwal,2007),3)CIDER(Vedantam et al. ,2015)和4)SPICE(John-sonet al. ,2020)。对于COCO数据集,我们遵循Karparthy分裂(Karpathy和Fei-Fei,2015),其中有113,287,5000和5000张图像用于训练,验证和测试。每个图像有5个人类书写的标题。在推理过程中,我们为每个图像生成一个标题,并对五个引用进行评估我们在COCO数据集上进行微调,学习率为3e-5。Vision Transformer层在微调期间是可训练的。 Li et al. (2020)中,我们添加由对象检测模型检测到的对象标签作为附加文本输入。我们发现对象标签提高CIDER和BLEU分数至少1分和0.3分。在测试过程中,我们使用波束搜索,波束大小为5。视觉常识推理。 除了图像字幕和文本到图像的生成,这只需要模型编码一个模态,我们进一步测试我们的模型在一个更具挑战性的数据集 , VisualCOMET ( 公 园 等 。 , 2020 ) 。VisualCOMET是一个视觉常识推理任务,它用图像和当前发生的事件来表示模型。这就要求模型能够推断出未来可能发生的事情、以前可能发生的事情以及人们VisualCOMET要求模型能够共同理解图像和文本,并产生合理的推理。与图像字幕类似,我们使用BLEU-2,METEOR和CIDER作为指标。5结果在本节中,我们首先比较第5.1节中提出的预培训目标。然后,我们对三个视觉进行自动评估,图像->文本COCO标题系统BLEU-4 CIDER METEOR SPICEDU-VLGB22438.8 124.8 29.2 22.0不含L图像36.9 118.8 28.4 20.5不含L文本不含Lcom38.4 123.1 28.8 21.7文本->图像CUB COCO系统IS FIDFIDDU-VLGB224 5.14 23.78 26.82不含L图像4.84 25.28 36.59不含L文本不含Lcom5.08 24.44 27.92表1:训练前任务和目标的消融研究每个数据集每个指标的最佳结果以粗体显示。DU-VLG B-224产生的分数显著高于近似随机化检验的其他比较(p<0. 05)。0005)。语言生成任务(§5.2),并进一步报告对字幕和合成图像质量的人工评估(§5.2)。最后,我 们 研 究 了 我 们 提 出 的 模 型 的 推 理 速 度(§5.3)。5.1比较培训前的目标比较。我们首先研究我们提出的双重预训练任务和承诺损失是否提高了生成质量。 我们对两个下游任务进行了微调:图像字幕和文本到图像的生成。我们报告我们的基本模型,输入图像分辨率为224 × 224(DU-VLG B-224)。我们将我们的基础模型与三种变体进行比较:1)在没有文本驱动的图像修补和文本到图像合成任务的情况下训练的模型(w/oLimage),2)在没有图像驱动的文本填充和图 像 字 幕 任 务 的情况下训练的模型( w/oLtext)和3)在没有承诺损失的情况下训练的模型(w/o Lcom)。结果如Tab中所示。1,我们的双预训练任务模型在图像字幕和文本到图像生成任务上表现最好。这证明了双重预训练任务的好处和承诺损失。对于图像字幕,与没有图像生成目标的变体相比,我们的双预训练任务模型显著提高了自动度量,这表明图像生成目标可以提高视觉理解。对于文本到图像的生成,我们的模型在CUB和COCO数据集上产生了比没有文本生成目标的变体更好的FID和IS分数。这表明,使用文本生成对象可以更好地指导语义解释+v:mala2277获取更多论文××××文本内容。此外,我们的模型在两个下游任务上的性能优 于 没 有 承 诺 损 失 这 进 一 步 说 明 ,commitment损失提高模型的性能,对图像的理解和生成。5.2自动评估比较。然后,我们将我们的模型与其他视觉和语言模型进行比较。对于图像字幕,我们包括最先进的视觉和语言预训练模型:(1)对象语 义 对 齐 预 训 练 ( OSCAR ) ( Li et al. ,2020),(2)统一模态理解和生成预训练(UNIMO)(Li et al. ,2021),(3)改善视觉和语言预训练的视觉表示(V IN VL)(Zhang et al. ,2021 b)和(4)端到端视觉和语言预训练(E2 E-VLP)(Xu et al. ,2021年)。对于OSCAR和VINVL,我们报告了他们的结果与交叉熵优化公平的比较。对于文本到图像的生成,我们包括四个基于Transformer的模型:(1)X-LXMERT,其具有2.28亿个参数并且在900万个图像-文本对上训练,(2)DALLE,其具有120亿个参数并且在2.5亿个文本-图像对上训练(Ramesh etal. ,2021),(3)C OGVIEW,其具有40亿个参数并且在3000万个数据上训练(Ding etal. ,2021年)和(4) NUWA具有8.7亿个参数,并且在文本-图像对和文本-视频对的混合物上进行训练(Wuet al. ,2021年)。我们进一步比较了我们的模型与三种基于生成对抗网络(GAN)的传统 方 法 : ( 1 ) DM-GAN ( Zhu et al. ,2019),(2)DF-GAN(Tao et al. ,2020)和(3)XMC-GAN(Zhang et al. ,2021a)。对于视觉常识推理,我们包括视觉语言Transformer ( V-LT RANS-FORMER ) ( Park etal. ,2020)作为基线,其将基于区域的视觉特 征 融合到 预 先 训 练 的 GPT-2 ( Radford etal. ,2019)。结果 对于图像字幕,我们的模型取得了更好的成绩比端到端的方法和两阶段的方法。在Tab。2、DU-VLG优于先前最先进的预训练模型VINVL,例如,提高BLEU-4和CIDER 1和3分以上。此外,对于文本到图像生成任务,我们的模型在CUB数据集上实现了最先进的IS和FID,如Tab.3、优于传统的基于GAN的方法。较图像->文本CoCo标题系统BLEU-4 CIDER METEOR SPICE奥斯卡B36.5 123.7 30.7 23.5海事组织BVINVLB 38.2 129.3 30.3 23.6E2E-VLP 36.2 117.3DU-VLGB−22438.8 124.8 29.2 22.0DU-VLGB−38440.0 133.030.223.8OSCARL 37.4 127.8 30.7 23.5UNIMOL 39.6 127.7 29.5 22.4VINVLL 38.5 130.8 30.4 23.4DU-VLGL−22439.2 128.1 29.8 22.8DU-VLGL−38440.1 135.8 30.8 23.9表2:图像字幕数据集的自动评估。我们报告了我们的模型和两种模型尺寸的比较:基本版本(B)和大版本(L)以及两种输入图像分辨率:224224和384 384.我们的基础和大型模型具有可比性与其他比较的参数数量。每个型号尺寸的最佳指标以粗体显示。基于转换器的方法,我们的模型在COCO数据集上产生值得注意的是,与DALLE,COGVIEW和NUWA相比,我们的模型具有更少的参数和更少的训练数据。这证明了我们提出的框架的有效性。此外,我们还研究了不同输入图像分辨率的影响.我们比较了两种不同分辨率的输入图像:224 224和384 384. 在Tab。2、Tab。3、我们发现,分辨率作为输入导致图像到文本和文本到图像生成任务的更好结果。这一观察说明了细粒度图像表示的重要性。然后,我们评估我们的模型在一个更复杂的视觉和语言任务,视觉常识推理。如Tab中所示 。 4 , 我 们 的 模 型 显 着 优 于 V-LTRANSFORMER,它是基于语言模型GPT-2微调。这表明我们的模型能够共同理解图像和文本输入,并生成信息推理。5.3人工评价我们进行人工评估来分析图像和文本的生成质量对于图像字幕和文本到图像的生成,我们从COCO测试集中选择了100个样本,并聘请了三个注释器来对字幕和图像进行评级。对于图像字幕,我们包括三个系统:(1)性能最好的+v:mala2277获取更多论文×××文本->图片CUB COCO系统IS↑FID↓ FID↓3.53.02.52.01.5文本到图像生成保真度相关性5.04.84.64.44.24.0图像字幕4.854.634.634.534.454.28信息含量信实表3:文本到图像生成数据集的自动评估。为了公平的比较,我们调整生成的图像到256 - 256像素,然后计算IS和FID分数。VisualCOMET系统BLEU-2 CIDER METEORDU-VLGL−384表4:视觉常识推理的自动评估与基线相比,我们的模型生成信息性推断。预训练模型VINVL(2)我们的模型,重新移动双预训练DU-VLG w/oL图像,(3)我们性能最好的型号DU-VLG对于文本-我们比较了三种模型:(1)基于transformer的模型,在大约900万数据X-LXMERT上进行了预训练;(2)我们的模型在没有文本生成 目标 的 情况 下 进行 了 训练; ( 3) DU-VLG。 对于我们的模型,我们使用输入图像分辨率为384× 384的大版本。对于图像字幕,要求人类法官从两个方面进行评分:信息性-字幕是否覆盖图像中的重要对象和忠实性-字幕是否正确地描述了图像。对于文本到图像的生成,我们考虑两个方面:保真度-图像是否真实和相关性-图像是否与标题匹配。所有方面均采用Likert量表进行评级,从1(差)到5(好)。结果 从图4、我们发现我们的DU-VLG模型在相关性、忠实性、不确定性和忠实性方面比去除双重预训练任务的模型获得了更好的成绩。这证实了我们的主张,即双向发电目标IM-X-LXMERTDU-VLG w/oLtextDU-VLGVINVLDU-VLG w/oLimageDU-VLG图四:在COCO数据集上的人类评价:DU-VLG在忠实性、相关性、信息性和可信性方面的得分显著高于其他系统(
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功