没有合适的资源?快使用搜索试试~ 我知道了~
18166CLIP-ViT,Swin,BEiT,.视觉编码器合并注意力/MA共注意多模混合BERT,ROBERTA,端到端视觉和语言转换者培训的实证研究杜自义1*,徐亦冲2,甘哲2,王建峰2,王硕航2,王丽娟2,朱晨光2,张鹏川2,陆远2,彭南云1,刘自成2,曾伟21加州大学洛杉矶分校2微软公司{zdou,violetpeng} @ cs.ucla.edu{yicxu,zhgan,jianfw,shuowa,lijuanw,chezhu,penzhan,luyuan,zliu,nzeng} @ microsoft.com摘要视觉和语言(VL)预训练已被证明是高度有效的各种VL下游任务。虽然最近的工作表明,完全基于transformer的VL模型可以比以前的基于区域特征的方法更有效,但它们在下游任务上的性能往往会显着下降。本文提出用球拍打网球的人文本编码器解码器(可选)培训前目标sked语言建模,图文匹配,Masked Image Modeling,...米METER是一个多模态的端到端的T transform ER框架,通过它我们研究了如何以端到端的方式设计和预训练一个完全基于transformer的VL模型。具体来说,我们沿着多个维度剖析模型设计:视觉编码器(例如,CLIP-ViT、Swin Transformer)、文本编码器(例如,RoBERTa,De-BERTa),多模态融合模块(例如,合并注意力对共同注意力),建筑设计(例如,仅编码器对编码器-解码器),以及预训练目标(例如,掩模图像建模)。我们进行全面的实验,并提供有关如何培 训 perfor- 可 重 复 使 用 的 VL Transformer 的 见 解 。METER仅使用4M图像进行预训练,在VQAv2测试标准集上实现了77.64%的准确率,超过了最先进的基于区域特征的模型1.04%,并超过了之前最好的完全基于transformer的模型1.6%。值得注意的是,当进一步扩大规模时,我们最好的VQA模型达到了80.54%的准确率。代码和预训练模型在https://github.com/zdou0830/METER上发布。1. 介绍视 觉 和 语 言 ( VL ) 任 务 , 如 视 觉 问 题 回 答(VQA)[1]和图像-文本检索[27,34],需要AI系统理解输入图像和文本内容。视觉和语言预训练(VLP)现在已经成为解决这些任务的实际做法[5,24,26,32,42,44]。具体地说,大量的图像-字幕对被馈送到一个模型中,该模型消耗图像和文本来预训练包含丰富内容的表示。*作者在微软实习时完成了工作。图1.拟议的METER框架概述。我们系统地研究了如何训练一个高性能的视觉和语言转换器Transformer,并从多个维度剖析了模型设计:视觉编码器,文本编码器,多模态融合模块,架构设计(仅编码器与编码器-解码器),以及预训练目标。多模态知识,并有助于下游任务。transformer [48]在自然语言处理中很普遍,最近表现出很好的性能在计算机视觉[10,30]。虽然几乎所有现有的VLP模型采用变换器用于其多模态融合模块,其中大多数[5,24,26,32,42,44]使用预先训练的对象检测器(例如,,更快的RCNN [38])在视觉方面从图像中提取区域这可能导致几个问题:首先,对象检测器并不完美,但通常在VLP期间保持冻结,这限制了VLP模型的容量;其次,提取区域特征很耗时[20]。另一方面,视觉变换器(ViTs)是计算机视觉中一个日益活跃的研究课题,在视觉特征提取方面显示出巨大的潜力。因此,一个自然的问题出现了:我们可以用ViTs作为图像编码器来训练一个完全基于transformer的VLP模型吗?最近尝试采用视觉变换器的作品[20,23,53]没有显示出令人满意的性能,并且通常表现不佳的最先进的基于区域特征的VLP模型(例如,,VinVL [57])。为了缩小性能差距,我们提出了METER,一个多模式的端到端TtransformER框架,通过它,我们彻底研究了如何设计和预训练一个完全的Transformer-18167模型[32]第三十二话LXMERT [44]VisualBERT [24][42]第四十二话UNITER [5]奥斯卡奖[26]VINVL [57][6][16]第十六话苏豪区[15][41]第四十一话SimVLM [51]MDETR [19]ViLT [20]视觉解析[53][35]第二十三话:一个人的世界[第17话]视觉编码器OD+Xformer文本编码器Xformer多模混合合作解码器✗ODEMB.合并-attn。✓✗CNNEMB.合并-attn。Xformer✓贴片EmbEMB.合并-attn。Xformer✗Xformer合作CNN/XformerCNNXformer没有一✗预培训目标MLM+ITM+MIMMLM+ITM+MIM+VQAMLM+ITMMLM+MIMMLM+ITM+MIM+WRAMLM+ITMMLM+ITM+VQA+接地+字幕MLM+ITMMLM+ITM+MIMMLM+ITM+VQA前缀LMOD+令牌预测+对比对齐MLM+ITMMLM+ITM+MIMMLM+ITM+ITC MLM+ITM国贸中心表1.代表性VLP模型的词汇表。OD:物镜检测器。Xformer:Transformer。Emb.:嵌入MLM/MIM:Masked Language/ImageModeling。ITM:图像-文本匹配。WRA:单词区域alginment。ITC:图像-文本对比学习。以端到端的方式实现基于VLP的模型。 具体而言,如图1所示,我们沿着多个维度剖析模型设计,包括视觉编码器( 例如,、CLIP-ViT[35]、Swin Transformer[30] ) 、 文 本 编 码 器 ( 例 如 , , RoBERTa [29] ,DeBERTa [13]),多模式融合模块(例如,,合并注意力与共同注意力),建筑设计(例如,仅编码器对编码器-解码器)和预训练目标(例如,Masked ImageModeling [2])。我们通过METER下的预训练模型对四个常用的图像标题数据集进行了调查:COCO[27],概念标题[40],SBU标题[33]和视觉基因组[21]。我们在视觉问题回答[1]、视觉推理[43]、图像-文本检索[27,34]和视觉蕴涵[52]任务上对它们进行测试。通过广泛的分析,我们总结了我们的发现如下:• 视觉Transformer(ViT)比语言Transformer在VLP中起着更重要的作用,并且在纯视觉或语言任务中的表现并不能很好地反映其在VL任务中的表现。• 包含交叉注意有利于多模态融合,这导致比单独使用自我注意更好的下游性能。• 在一个公平的比较设置下,编码器只有VLP模型比编码器解码器模型的VQA和零拍摄图像-文本检索任务的表现更好。• 在VLP中添加掩蔽的图像建模损失将不会提高我们环境中下游任务的性能。这些见解,结合后面章节中详细介绍的其他有用的提示和技巧,使我们能够训练一个强大的模型,在VQAv2测试标准集上实现77.64%的准确率,超过之前最好的基于区域特征的VinVL模型[57] 1.04%,并优于之前最好的基于ViT的模型(即,[23] 1.6%。值得注意的是,当进一步放大时,我们最好的METER模型在VQAv2测试标准集上的准确率达到80.54%2. Glossary of词汇表在本节中,我们提供了代表性VLP模型的概述,并根据它们如何编码图像将它们分为三类,如表1所示。基于OD的区域特征。以前的大多数工作使用预先训练的 对 象 检 测 器 ( OD ) 来 提 取 视 觉 特 征 。 其 中 ,ViLBERT [32]和LXMERT [44]使用共同注意力进行多模态融合,其中两个变换器独立应用于区域和文本特征,另一个变换器在稍后阶段融合两种模态的表示。另 一 方 面 , Visual- BERT [24] , VL-BERT [42] 和UNITER [5]使用合并的注意力融合模块,将区域和文本特征一起馈送到单个Transformer中。OSCAR [26]和VinVL [57]将额外的图像标记馈送到Transformer模型中,并展示了VL任务的最新性能然而,提取区域特征可能是耗时的,并且预训练的OD通常在预训练期间被冻结,这限制了VLP模型的容量。基于CNN的网格特征。为了解决上述两个问题,研究人员尝试了不同的方法来以端到端的方式预训练VL模型。其中,Pixel- BERT [16]和CLIP-ViL [41]提出将卷积神经网络(CNN)的网格特征和文本直接馈送到Transformer中SOHO [15]建议首先使用学习的视觉字典离散化网格特征,然后将离散化特征馈送到其交叉模态模块中。虽然直接使用网格特征可能是有效的,但不相容优化器通常用于CNN和transformer。例如,PixelBERT [16]和CLIP-ViL [41]18168前馈自我关怀QV视觉特征文本特征⟨···⟩对 于 Transformer 使 用 AdamW [31] , 对 于 CNN 使 用SGD。最近关于视觉转换器(ViTs)的工作也表明,CNN可以实现比ViT同行稍差的准确性/FLOP权衡[30],激励研究人员开发基于ViT的VLP模型。基于ViT的补丁功能。ViLT [20]直接将图像补丁特征和文本标记嵌入到预先训练的ViT模型中,并对图像模型进行微调Mx(a) 共同注意力模型。MxKV/LVV/LQL KV/LVV/L(b) 合并注意力模型。标题数据集。最近,视觉解析[53]和ALBEF [23]使用ViT作为图像编码器,并为基于ViT的VLP模型设计不同的预训练目标。然而,所有这些模型都落后于下游任务(如视觉问答)的最先进性能。在本文中,我们研究了如何以端到端的方式预训练基于ViT的模型,在保持快速推理速度的同时缩小性能差距。3. METER框架根据以前的工作,我们确定了几个重要的模块在VLP模型如图1。在本节中,我们首先介绍我们 的METER框架,然后介绍我们的默认设置,这为我们后面的分析铺平了道路概况. 给定文本句子l和图像v,VLP模型首先提取文本特征l=l,...,l,...图2. 两种类型的多模态融合模块的图示:(a)共同关注,和(b)合并的注意。嵌入,现有的作品要么直接将它们馈送到多模态融合模块[5,24],要么在融合之前馈送到几个文本特定层[32,44对于前者,融合模块通常用BERT初始化,因此文本编码和多模态融合的作用被纠缠并吸收在单个BERT模型中。在这里,我们的目标是解开这两个模块,并使用文本编码器发送到融合模块的功能之前。语言模型(LM)预训练在任务中表现出令人印象深刻的性能,并且已经提出了不同的预训练LM;然而,大多数VLP模型仍然只使用BERT进行初始化[5]。在 这项 工 作中 , 我 们研 究 了BERT [9], RoBERTA[29],ELEC- TRA [7],ALBERT [22]和DeBERTA [13]用于文本编码的使用。视觉特征1Ning。 此外,我们还尝试只使用简单v=v1,,vM通过文本编码器和视频编码器然后,文本和视觉特征被馈送到多模态融合模块中以产生跨模态表示,然后可选地在生成最终输出之前将其馈送到解码器3.1. 模型架构视觉编码器。在本文中,我们专注于补丁功能,并研究视觉编码器的视觉变换器(ViTs)[10]的使用。具体而言,在ViT中,首先将图像分割成块,然后将块馈送到Transformer模型中。近年来,ViT已成为一个热门的研究课题[2,10,30,45,45,46,56],并已被引入VLP [20,23,53]。然而,所有这些模型与最先进的基于区域特征的模型(例如,,VinVL [57])。此外,使用不同的预先训练的ViT,缺乏对哪些ViT最适合VLP的系统在这项工作中,我们将原始的ViT [10],DeiT [45],Distilled-DeiT [45],CaiT [46]、VOLO [56]、BEiT [2]、Swin Transformer[30]和CLIP-ViT [35],对视觉转换器的作用进行全面分析文本编码器。在BERT [9]和RoBERTa [29]之后,VLP模型[5,24,26,32,42,44]首先将输入句子分割成子词序列[39],然后在句子的开头和结尾插入两个特殊的标记以生成输入文本序列。在我们拿到文本词嵌入查找层初始化与BERT嵌入层中使用的许多以前的作品[5,57]。多模态融合。我们研究了两种类型的融合模块,即合并注意力和共同注意力[14],如图2所示。在合并的注意力模块中,文本和视觉特征简单地连接在一起,然后馈送到单个Transformer块中。另一方面,在共同注意模块中,文本和视觉特征被独立地馈送到不同的Transformer块中,并且诸如交叉注意的技术被用于实现跨模态交互。对于基于区域的VLP模型,如[3]所示,合并的注意力和共同注意力模型可以实现相当的性能。然而,合并的注意力模块是更参数有效的,因为相同的参数集合被用于两种模态。由于端到端的VLP模型越来越受欢迎,在这项工作中,我们重新审视了这两种类型的融合模块在我们的新环境中的影响。仅 编 码 器 与 编 码 器 - 解 码 器 。 许 多 VLP 模 型 ( 如VisualBERT [24])采用仅编码器架构,其中跨模态表示直接馈送到输出层以生成最终输出。另一方面,最近,VL-T5 [6]和SimVLM [51]提倡使用Transformer编码器-解码器架构,其中交叉模态表示首先被馈送到解码器中,然后被馈送到输出层。在他们的模型中前馈前馈交叉收件人QVKL VL交叉收件人QLKVVV自助自助QVKV公司简介KL VL视觉特征文本特征18169⟨···⟩k=1k=1{v}k=1k=1⟨⟩我h(vk)Tc(vk′)--【详细】网球编码器一个男人打了一个面具[面具]与球拍。(a) 仅编码器网球(b) 编解码器<联系我们用球拍打网球的人287批内底片图3.仅编码器和编码器-解码器的图示VLP的模型架构解码器同时处理编码器表示和先前生成的令牌,自动回归地产生输出。图3显示了在执行掩蔽语言建模任务时它们之间的区别对于编码器-解码器模型,当执行VQA等分类任务时,我们将文本输入馈送到其编码器中,并将分类令牌馈送到解码器中,然后解码器相应地生成输出类。3.2. 培训前目标现在,我们介绍如何预训练模型。具体地说,我们将首先简要回顾掩码语言建模和图像-文本匹配,它们已被广泛用于几乎每一个VLP模型。然后,我们将把重点转移到如何设计和探索有趣的掩码图像建模任务。掩蔽语言建模。 掩蔽语言建模(MLM)目标首先在纯语言预训练中引入[9,29]。在VLP中,带有图像的MLM也被证明是有用的。具体地说,给定一个图像-字幕对,我们随机屏蔽一些输入标记,并训练模型以重建原始标记,给定屏蔽标记lmask及其相应的视觉输入v。图文匹配。在图像-文本匹配中,模型被给予一批匹配或不匹配的图像-字幕对,并且模型需要识别哪些图像和字幕彼此对应。大多数VLP模型将图像-文本匹配视为二进制分类问题。具体地说,特殊令牌(例如,[CLS])被插入到输入句子的开头,它试图学习一个全局离散码图4. 使用批内阴性和离散代码的掩蔽贴片分类图示。区域特征形式上,给定一系列视觉特征v=v1,vM,其中v1通常是区域特征,我们随机屏蔽一些视觉特征,并且模型输出重构的视觉特征v,给定其余的视觉特征和未屏蔽的标记t,并且回归旨在最小化均方误差损失。研究人员[5,32,44]还尝试首先使用预训练的对象检测器为每个区域生成对象标签,该对象检测器可以包含高级语义信息,并且模型经过训练以预测掩蔽区域的对象标签而不是原始区域特征。值得注意的是,最近的最先进的模型(例如,,AL-BEF [23],VinVL [57])在VLP期间不应用MIM。此外,在ViLT [20]中,作者还证明了盲斑回归在其设置中没有帮助。这些结果使得MIM是否对VLP模型真正有效成为疑问为了进一步研究这一点,我们把蒙面图像建模作为一个蒙面补丁分类任务,并提出了两种方式来实现这个想法。1) 使用批内阴性的掩蔽贴片分类。通过模仿使用文本词汇表的MLM,我们首先提出让模型通过使用由批量否定词构造的动态构造词汇表来重构输入补丁。具体地说,在每个训练步骤中,我们都会对一批图像-标题对进行采样 vk,lkB,其中B是批量大小。我们将vkB中的所有补丁视为候选补丁,并且对于每个被屏蔽的补丁,我们屏蔽15%的输入补丁,并且模型需要在此候选集中选择表示原始补丁表示和我们的模型跨模态表示。然后我们给模型输入K Bk=1 作为{c(vk)}B且{h(vk)}B,分别,我们具有相等概率的匹配或不匹配的图像-字幕对v,l,并且分类器被添加到[CLS]令牌的顶部以预测二进制标签y,指示是否可以将第k个实例的位置i处的输出概率表示为:eh(vk)Tc(vk)我p(vk|[vk,mask; lk])=我.(一)我J遮罩图像建模。与MLM目标类似,研究人员在视觉方面尝试了掩蔽图像建模(MIM)。例如,许多以前的工作,如LXMERT [44]和UNITER [5],掩盖了一些输入区域,并且模型经过训练以回归原始区域。该模型经过训练以最大化其概率,类似于噪声对比估计[12,18]。2) 离散代码的掩蔽块分类。受BEiT [2]的启发,我们还提出了获得离散表示的方法。编码器解码器一个男人用球拍击打面具。网球...模型133 422 922235 234 287576 223 722所采样的图像-字幕对是匹配的。j,k′e18170××输入补丁的句子,然后训练模型以重建离散令牌。具体来说,我们首先使用DALL-E [37]中的VQ-VAE [47]模型将每个图像标记为一系列离散标记。我们调整每个图像的大小,使补丁的数量等于令牌的数量,因此每个补丁对应于一个离散的to- ken。然后,我们随机屏蔽15%的补丁,并像以前一样将屏蔽的图像补丁馈送到模型中,但现在模型被训练来预测离散令牌而不是屏蔽补丁。3.3. 我们的METER在METER下有许多不同的模型设计,我们在这部分详细介绍了我们的默认设置。模型架构。模型架构的默认设置如图2a所示。在底部,有一个预训练的视觉编码器和一个预训练的文本编 码 器 。 在 每 个 编 码 器 之 上 , 我 们 堆 叠 M= 6 个Transformer编码层,其中每个层由一个自注意块、一个交叉注意块和一个前馈网络块组成。除非另有说明,否则隐藏大小设置为768,顶层的头数设置为12注意,在视觉和语言分支之间没有解码器和参数共享。培训前目标。除非另有说明,否则我们只使用掩码语言建模(MLM)和图像-文本匹配(ITM)来预训练模型。对于MLM,我们屏蔽了15%的输入文本标记,并且模型尝试重构原始标记。对于ITM,我们以相等的概率向模型提供匹配或不匹配的图像-字幕对,并且模型需要识别输入是否匹配。预训练数据集。在之前的工作[5,20,23]之后,我们在 四 个 常 用 的 数 据 集 上 预 训 练 模 型 , 包 括 COCO[27],Conceptual Captions [40],SBU Captions [33]和Visual Genome [21]。这些数据集的统计数据见附录。组合的训练数据总共由大约4M图像组成。下游任务。对于消融和分析,我们主要关注VQAv2[1],可以说是VLP评价的最流行数据集。我们还测试了Flickr 30 k zero-shot图像-文本检索,以消除微调期间可能引入的任何混淆因素[14]。对于VQAv 2,我们遵循标准实践[5],使用训练和验证数据来训练模型,并在test-dev集上测试模型。对于Flickr30k,我们遵循标准分割。为了与最先进的技术进行比较,我们还评估了视觉推理(NLVR2 [43]),视觉要求(SNLI-VE [52])和图像-文本检索(COCO [27]和Flickr 30 k [34])任务的模型。对于检索任务,我们在零拍摄和微调设置中评估模型。文本编码VQAv2Acc.VEAcc.IRR@1TRR@1小队EMMNLIAcc.仅嵌入67.1374.8549.0668.20--Electra69.2276.5741.8058.3086.888.8夹69.3175.3754.9673.80--DeBERTa69.4076.7451.5067.7087.288.8伯特69.5676.2749.6066.6076.384.3罗伯塔69.6976.5349.8668.9084.687.6阿尔伯特69.9476.2052.2068.7086.487.9表2.没有VLP的不同文本编码器的比较。CLIP-ViT-224/32用作视觉编码器。所有的文本编码器是在基本模型的大小,除了阿尔伯特,这是xlarge。Emb-only:仅使用单词嵌入作为文本编码器。IR/TR:Flickr 30 k图像/文本检索。EM:完全匹配。SQuAD和MNLI的结果是从他们的相应文件复制。VL任务的所有结果都来自其test-dev/val集。视觉编码器VQAv2VEIRTRImageNetDis. DeiT B-384/1667.8476.1734.8452.1085.2BEiT B-224/1668.4575.2832.2459.8085.2DeiT B-384/1668.9275.9733.3850.9082.9ViT B-384/1669.0976.3540.3059.8083.97夹子B-224/3269.6976.5349.8668.90-VOLO 4-448/3271.4476.4240.9061.4086.8CaiT M-384/3271.5276.6238.9661.3086.1夹子B-224/1671.7577.5457.6476.90-Swin B-384/3272.3877.6552.3069.5086.4表3.无VLP的不同视觉编码器的比较。RoBERTa用作默认文本编码器。IR/TR:Flickr 30 k图像/文本检索; B:Base。ImageNet分类的结果复制自其相应的论文。VL任务的所有结果都来自其test-dev/val集。ViT-N/M中的N和M分别表示图像分辨率和补丁大小实施详情。我们使用AdamW [31]预训练我们的模型10万步。在预训练期间,底层和顶层的学习率分别设置为1 e-5和5e-5预热比率被设置为10%,并且在总训练步骤的10%之后,学习率线性衰减到0。我们使用center-crop来调整每个图像的大小为224 224或384 384,这取决于所采用的视觉变换器。4. 实验在本节中,我们将全面分析每个模块的设计。具体来说,(i)我们在4.1节中研究了视觉和语言编码器的影响,(ii)我们在第4.2节中对多模态融合设计进行分析,(iii)我们在第4.3节中比较仅编码器和编码器-解码器架构,以及(iv)我们在第4.4节中消除预训练目标。最后,我们在第4.5节中与最新技术水平进行了比较。4.1. 视觉和语言编码器4.1.1无VLP的由于预训练是耗时的,我们首先通过比较不同的文本和视觉环境来进行探索性研究18171表4.不同的视觉和文本编码器与VLP的比较。VQAv2的结果在测试开发集上。ZS-zero-shot.没有VLP的编码器以提高效率。具体来说,我们用特定的预先训练的视觉和文本编码器初始化底层,并随机初始化顶层。然后,我们直接微调模型的三个任务,包括VQAv 2,SNLI-VE,和Flickr 30 k检索。底层和顶层的学习率设置为1 e-5和1 e- 4,所有任务的训练周期数设置为10。我们选择CLIP-ViT-224/32 [35]和RoBERTa [29]作为默认编码器。这里,ViT-N/M中的N和M分别表示图像分辨率和补丁大小文本编码器的影响。如表2所示,不同文本编码器的模型性能之间没有显著差异。RoBERTa似乎在此设置中实现了最稳健的性能。此外,从仅Emb-only结果可以看出,有必要具有预训练的编码器,因为否则下游任务性能将降级。视觉编码器的影响。如表3所示,CLIP-ViT-224/16和Swin Transformer在此设置下均可实现不错的性能。值得注意的是,Swin Trans- former可以在没有任何VLP的情况下在测试开发集上实现72.38的VQA得分,这已经与预训练后的一些VLP模型结论如果我们在没有任何VLP的情况下直接对下游任务的模型进行微调,则RoBERTa和Swin Trans- former或CLIP-ViT表现最好。虽然DeBERTa和BEiT等模型在纯语言或视觉任务(如MNLI [49]或ImageNet分类[8])上可以实现比这两个模型更好的性能,但这并不一定表明它们更适合VL任务。4.1.2VLP结果现在,我们遵循3.3节中的默认设置,并使用VLP比较不同的视觉/文本编码器基于前面的结果,我们比较了文本端的Embed-only、BERT和RoBERTa,以及图像端 的 CLIP-ViT-224/32 、 CLIP-ViT-224/16 和 SwinTransformer。结果 如表4所示,在VLP之后,BERT和RoBERTa之间的差异似乎缩小了,但在底部使用预训练的文本编码器仍然很重要(仅嵌入与RoBERTa)。对于视觉编码器,表5. 对随机初始化和预训练的参数使用不同的学习率比使用相同的学习率更好。VQAv2的结果在测试开发集上。ZS-zero-shot.7776757473224 384 576决议图5. 在微调期间增加图像分辨率可以大大提高VQAv2测试开发集的性能。CLIP-ViT-224/16和Swin Transformer都能达到很好的性能。特别是,CLIP-ViT-224/16可以在测试开发/测试标准集上分别实现77.19/77.20的VQA评分,优于之前最先进的基于区域的VinVL [57]模型。有用的技巧。在实验中,我们发现了两个技巧,可以大大提高性能的基于ViT的VLP模型。首先,对于随机初始化的参数,最好使用比使用预训练模型初始化的参数更大的学习率,这在其他一些NLP任务中也很有用[28]。如表5所示,对模型的所有部分使用相同的学习率将导致性能下降,这可能是因为预先训练的参数已经包含了关于视觉和语言的一定量的知识,并且积极地对它们进行微调可能会导致这些有价值的信息的丢失。其次,与之前的几项工作类似[20,56],我们发现在微调期间增加图像分辨率可以大幅提高模型性能,特别是当图像分辨率与补丁大小的比率较低时。图5显示,将图像分辨率从224增加到576可以分别将CLIP-ViT-224/32和CLIP-ViT-224/16模型的VQA评分提高约3和1分4.2. 多模态融合模块现在,按照3.3节中的默认设置,我们对多模态融合进行研究。首先,我们设计了合并注意力和共同注意力模型,并研究了它们的性能。对于合并注意力模型(图2b),顶部Transformer由M个合并编码组成,CLIP-ViT-224/16CLIP-ViT-224/32文本编码视觉编码VQAv2Flickr-ZSIRTR仅嵌入CLIP-3273.9960.3274.10伯特CLIP-3274.9866.0878.10CLIP-1676.7074.5287.20CLIP-3274.6765.5076.60罗伯塔CLIP-1677.1976.6489.60Swin76.4371.6885.30VQAv 2测试-开发评分底部LR顶部LRVQAv2Flickr-ZSIRTR1e-51e-573.1648.8063.702e-52e-573.6653.14六 十七点二十3e-53e-573.7756.4870.905e-55e-573.5452.48六 十五 点九18172培训前目标VQAv2FlickrIR-ZSTR传销74.19--ITM72.6353.7471.00MLM+ITM74.9866.0878.10MLM+ITM + MIM(批内阴性)74.0162.1276.90表6. 在我们的实验中,共同注意力比合并注意力表现得更好。MLM+ITM + MIM(离散代码)74.2159.8076.30设置和添加解码器对我们的区分VL任务没有帮助。VQAv2的结果在测试开发集上。ZS-zero-shot.ing层,每层由一个自注意块和一个前馈网络块组成。为了帮助模型区分这两种模态,我们在将它们馈送到顶部Transformer之前向输入特征添加模态嵌入。对于共同注意力模型(图2a),我们将文本和视觉特征分别馈送到两个M个共同层变换器,并且每个顶部变换器编码层由一个自注意力块、一个交叉注意力块和一个前馈网络块组成与合并注意相比,共同注意允许视觉和语言模态的单独转换功能我们设置Mmerged= 12和Mco=6,使得两个模型的参数数量大致可以相互比较。结果表6报告了两种模型的下游性能。在我们的设置中,共同注意力模型比合并注意力模型表现得更好,这表明对于两种模式具有不同的参数集是很重要的。请注意,这与基于区域的VLP模型[3]中的发现相矛盾,可能是因为(i)基于区域的VLP模型的发现不能直接应用于基于ViT的VLP模型;(ii)大多数基于区域的VLP模型仅使用预训练的视觉编码器,并且也不包括预训练的文本编码器,因此两种模态之间的不一致性将不利于像共同注意力模型这样的视觉架构。4.3. 仅编码器与编解码器然后,我们比较了编码器和编码器解码器的架构。对于仅编码器模型,我们使用与第4.2节相同的共同注意力模型。对于编码器-解码器模型,我们将编码器和解码器的层数设置为3,并且每个解码层具有两个单独的交叉注意块,分别关注视觉和文本表示。根据[6],我们采用T5风格[36]语言建模目标,因为它适用于他们的模型。具体来说,我们将15%的输入文本屏蔽到-kens,并将连续的文本跨度替换为哨兵令牌,并训练解码器来重建被屏蔽的令牌。对于图像-文本匹配,我们为解码器提供一个特殊的类标记,它会生成一个二进制输出。结果如表6所示,仅编码器模型在我们的两个区分性任务上的表现优于编码器-解码器模型,这与[6]中的发现一致表7. 掩码语言建模(MLM)和图像-文本匹配(ITM)都可以提高模型的性能,但我们设计的掩码图像建模(MIM)目标导致下游任务的性能下降。VQAv2的结果在测试开发集上。ZS-zero-shot.然而,应当注意的是,编码器-解码器架构更灵活,因为它可以执行诸如图像字幕之类的任务,这些任务对于仅编码器的模型来说可能不是那么简单的。4.4. 关于培训前目标的在之前的所有实验中,我们使用不同的目标对模型进行了预训练,遵循第3.3节中的默认设置。现在,我们改变预先训练目标。结果如表7所示,掩蔽语言建模和图像-文本匹配都可以提高下游任务的性能。然而,我们的掩蔽图像建模目标都可能导致VQAv2和Flickr30k检索任务的性能下降。这进一步表明,基于区域的VLP模型中的结论可能不一定适用于基于视觉Transformer的模型。我们假设性能下降是由于不同目标之间的冲突,多任务优化[50,54]中的一些技术可以用来解决冲突,我们将其列为未来的方向之一。另一个可能的原因是图像块可能是有噪声的,因此对重建这些有噪声的块的监督可能是无信息的。4.5. 与现有技术的在本节中,我们评估我们的最佳表现模型(即,,RoBERT-base+SwinTransformer 和 RoBERT-base+CLIP-ViT-224/16 , 图 像 分 辨 率 分 别 设 置 为 384 和288),并与以前的工作进行比较。我们评估了视觉问题回答(VQAv 2)、视觉推理(NLVR2)、视觉蕴涵(SNLI-VE)、零镜头和微调设置下的Flickr 30 k检索任务以及微调设置下的COCO检索任务的模型。主要结果。如表8和表9所示,与使用少于1000万张图像 预 训 练 的 模 型 相 比 , 我 们 的 基 于 CLIP 的 模 型(METER-CLIP-ViTBASE)可以在所有下游任务上获得最好或第二好的分数。值得注意的是,我们的模型可以在VQAv2测试标准集上实现77.64%的VQA得分,仅使用4M图像进行预训练,融合解码器VQAv2Flickr-ZSIR TR合并注意✗74.0057.4673.10共同关注✓74.9874.7366.0848.9678.1071.6018173模型VQAv2NLVR2SNLI-VEFlickr-ZStest-dev测试标准dev测试dev测试IR@1IR@5IR@10TR@1TR@5TR@10使用>10M图像进行[23]第二十三话75.8476.0482.5583.1480.8080.9182.896.398.194.199.599.7[51]第51话77.8778.1481.7281.7784.2084.15------[51]第51话80.0380.3484.5385.1586.2186.32------使用10M图像进行UNITERLARGE [5]73.8274.0279.1279.9879.3979.3868.7489.2093.8683.6095.7097.70别墅大[11]74.6974.8779.7681.4780.1880.02------[25]第二十五话75.0675.27--81.1180.63------[57]第五十七话七十六点五二76.6082.6783.98--------[16]第十六话74.4574.5576.577.2------[41]第四十一话76.48七十六点七--80.6180.20------ViLT [57]71.26-75.7076.13--55.082.589.873.293.696.5视觉解析[53]74.0074.1777.6178.05--------[23]第二十三话74.5474.7080.2480.5080.1480.3076.8九十三点七九十六点七90.598.899.7仪表-Swin底座76.4376.4282.2382.4780.6180.4571.6891.8095.3085.3097.7099.20METER-CLIP-ViT底座77.6877.6482.3383.0580.8681.1979.6094.9697.2890.9098.30九十九点五表8. 与使用10M图像预训练的模型在视觉问题回答,视觉推理,视觉蕴涵以及零镜头图像检索(IR)和文本检索(TR)任务上的比较。最好的分数用粗体表示,第二好的分数用下划线表示。模型FlickrCocoIR@1IR@5IR@10TR@1TR@5TR@10IR@1IR@5IR@10TR@1TR@5TR@10使用>10M图像进行预训练使用10M图像进行表9. 与在微调设置中使用Flickr30k和COCO图像检索(IR)和文本检索(TR)任务的10M图像预训练的模型进行比较。最好的分数用粗体表示,第二好的分数用下划线表示。图像-标题对。我们使用CoSwin-Huge [55]作为我们的视觉支柱,使用Roberta-base作为我们的文本支柱。聚变模块的隐藏尺寸保持不变。如表10所示,我们的模型可以实现表10. 在METER框架下使用14M图像预训练一个巨大的模型可以在VQAv2上实现最先进的性能,超过之前使用1.8B图像训练的模型超过现有技术的基于区域特征的VinVL模型1.04%,并且优于先前最好的完全基于变换器的模型(即,ALBEF)1.6%。此外,虽然ALBEF具有专门设计的检索目标,但我们的模型在文本和图像检索任务上仍然优于ALBEF,进一步证明了METER的有效性。此外,如附录所示,我们可以保持基于ViT模型的快速推理速度。缩放模型。我们还调查,如果METER框架是可扩展的。为此,我们用更多的图像和更大的视觉骨干来预训练我们的模型。具体来说,我们使用COCO,CC
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功