大规模图像字幕的视觉语言预训练方法

78 浏览量更新于2023-10-25 收藏 1.26MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

17980面向图像字幕的视觉语言预训练方法Xiaowei Hu，Zhe Gan，Jianfeng Wang，ZhengyuanYang，Zicheng Liu，Yumao Lu，Lijuan Wang微软{xiaowei.hu，zhe.gan，jianfw，zhengyang，zliu，yumaolu，lijuanw}@microsoft.com摘要近年来，基于视觉语言预训练（VLP）的图像字幕任务的性能得到了显著提高。规模被认为是这一进步的重要因素。然而，大多数现有的工作仅集中于具有中等大小的预训练变压器（例如，12或24层）在大约400万个图像上。在本文中，我们提出了LEMON，一个大规模的图像captiONer，并提供了第一个实证研究的VLP的缩放行为的图像字幕。我们使用最先进的VinVL模型作为我们的参考模型，该模型由图像特征提取器和transformer模型组成，并对Transformer进行上下缩放，模型大小从1300万到6.75亿个参数。在数据方面，我们利用基于图像alt属性从web上自动采集的多达2亿个图像-文本对进行了138136134132130128126124模型尺寸（参数数）（代号为ALT 200M1）。广泛的分析有助于表征随着模型大小和预训练数据大小增加的性能趋势。我们还比较了不同的训练配方，特别是在大规模噪声数据上的训练因此，LEMON在几个主要的图像字幕基准上达到了新的技术水平，包括COCO Caption，nocaps和Conceptual Captions。我们还表明，LEMON可以生成具有长尾视觉概念的字幕时，在零拍摄的方式使用。1. 介绍图像字幕[1，5，35]的最新进展在很大程度上可以归因于视觉语言预训练（VLP）[26，30，37，40]，这是目前流行的视觉语言（VL）研究的训练范式。VLP [6]通常在总共包括几个或几千万个图像的组合图像-文本数据集上进行，例如，视觉基因组[20]，SBU[32]和概念帽[4，35]。虽然以前的研究[29，48，49]有一个-1 数据集发布于 https://github.com/xiaoweihu/ALT200M。图1. COCO上的图像字幕性能-每个数据集大小的缩放模型。X轴绘制了每个模型尺寸的参数数量（例如，微小的、小的、巨大的）。型号尺寸的定义详见表2。在小的预训练数据集规模下，增加模型大小并没有显著的好处。然而，当我们使用足够大的数据集时，我们看到更大的模型带来了强大的性能提升。尽管对预训练目标和模型架构的各种选择都不清楚，但仍不清楚预训练数据集将在多大程度上影响性能，以及它如何与不同的模型设置相关。随着VLP的发展，这个问题的回答变得越来越规模被认为是一个重要的组成部分，在实现卓越的性能 [17 ， 33 ， 43] 。最近的工作研究了训练Transformer模型的Pareto前沿，通常称为神经标度定律，在自然语言处理[2，18，41]和计算机视觉[12，47]领域，通过无监督或弱监督学习方法。这些研究已经观察到将模型大小增加到数十亿个参数的一致益处，3M12M40M100M200M在COCO（CIDEr）上评估的微调模型17981(a) 对COCO进行微调和评估（b）对COCO进行微调，对nocaps进行评估图2. 每种模型尺寸的数据放大中的图像字幕性能。x轴显示了预训练中使用的图像-文本对的数量。y轴分别显示了COCO“Karpathy”检验分割和nocaps验证集的评价评分（CIDEr）首先对模型进行预训练，然后在COCO字幕训练分割上进行微调注意，x轴以对数标度绘制TERS，给定十亿量级的预训练数据可用。最近，对比图像-文本预训练[17，33]也已扩展到4亿和18亿数据大小，用于图像表示学习和图像-文本检索。CLIP [33]和ALIGN [17]都采用两个单独的网络来分别对图像和文本进行编码以进行对齐，这非常适合图像-文本检索任务，但对于图像字幕的缩放特性知之甚少为了研究这种缩放趋势在字幕任务中的特征，我们首先构建了一个大规模的图像-文本数据集（简称为ALT 200 M），该数据集由基于图像的alt属性的Web上的多达2亿个图像-文本对组成然后，我们进行了广泛的实验，从数据和模型的角度来扩展VLP的图像字幕，并将我们的模型命名为 LEMON ， LargE-scaleiMage captiONer的缩写。模拟在数据扩展的过程中，我们创建了多个ALT 200M子集，范围从3到200万。方面模型，我们使用最先进的图像字幕模型VinVL [48]作为我们的参考模型，由图像特征提取器和Transformer模型组成。我们调整预训练任务，使其与字幕任务一致，然后用13个参数（即13个）缩放Transformer模型的宽度和深度。675（即，巨大的）百万。结合不同的模型和预训练数据大小，我们在图1和图2中总结了我们的结果，这些结果表征了线性对数缩放趋势。当我们有超过1000万的数据进行预训练时，更大的模型往往会受益更多然而，只有300万个数据，随着模型大小的增加，性能开始提前饱和。此外，我们还探讨了VLP的其他设计选择，模型架构和培训目标。我们的贡献总结如下。• 我们提出了用于图像字幕的VLP缩放规则。这不仅证明了从大规模噪声数据中学习的有效性，而且还揭示了如何通过增加模型和预训练数据大小来有效地提高性能，以避免饱和平台。• 我们在几个主要的基准测试中实现了图像标题的新的最先进的结果，包括COCO标题，nocaps和概念标题。2. 相关工作视觉语言预培训。自从ViL-BERT [30]和LXMERT [40]诞生以来，我们见证了视觉语言预训练方法的繁荣[6，7，13，22，26，37、45、46]。突出的例子包括UNITER [6]、VL-[29][沿着VLP的旅程，研究人员研究了不同的训练策略[11，31]，鲁棒性[25]，压缩，[10，10，42]，探测分析[3，27]，以及扩展视频文本建模[21，24，38，39，50]。最近，基于卷积网络和变换器的端到端VLP越来越流行，而不是使用对象检测器进行图像特征提取[14，15，19，23，44]。然而，作为实现超性能的另一个重要因素虽然大多数作品在不超过4M的图像上预训练基本/大尺寸的Transformer，但我们从微小的图像训练模型。到巨大的，高达200M的图像。[17]第三十三话：将对比预训练扩大到400 M和1.8 B图像，SimVLM [43]进一步使用1.8B图像进行前缀语言建模预训练。但是，CLIP和ALIGN17982×Unigram标题长度#unique#unique in 0. 1%尾部平均值±标准品P5%/50%/95%数据集#images（M）#cap./图像[5]第五话CC3M [35]CC12M [4]ALT200M（Ours）0的情况。1 53 .第三章。1112个。21203号4119，2641，18449，638 22，6771、 319、 284、193、 3682，067，401 1，167，30410个。44± 2。2014年10月24日10个。25± 4。2019年 5月9日十七岁17± 1276 6/ 13/ 43十三岁01± 8。2027年 2月11日，85表1. 现有的和我们收集的数据集的统计。CC3M和CC12M中的图像数量是在我们下载时针对有效RGB图像计算的。对一元组进行计数，并按出现次数从大到小进行排序，以形成每个数据集的分布曲线。我们的数据集具有更多的长尾概念，如0中包含的一元语法的数量所示。1%分布尾部。CLIP [33]和ALIGN [17]中使用的数据集不包括在内，因为我们不知道相应的统计数据。SimVLM专注于图像-文本检索，而SimVLM没有研究其缩放行为w.r.t.预训练数据大小。与它们相比，我们专注于图像字幕，通过改变数据和模型大小，提供了一个更全面的研究的缩放行为，并表明，通过使用200M的图像，我们可以优于SimVLM图像字幕。比例定律随着大规模预训练模型在语言和视觉领域的成功，发现这些模型的经验标度律的[18]提出，语言模型性能在许多数量级上按幂律缩放，数据集大小，模型大小和训练中使用的计算。[12]进一步研究了自回归生成建模的标度。除了模型大小，[41]还表明，模型形状对于从上游预训练到下游微调的有效转移也很重要。在视觉领域，[47]缩放了一系列在图像分类任务上评估的视觉Transformer模型。虽然缩放协议已被研究用于许多NLP和视觉任务，但我们是第一个研究VLP用于图像字幕的缩放行为，并将多模态Transformer预训练推向更大规模。在附录中，我们还提供了一个详细的相关工作，查看非基于预训练的图像字幕方法。3. 方法在本节中，我们在第3.1节中介绍了预训练数据集，在第3.2节中介绍了模型结构，在第3.3节中介绍了训练对象。3.1. 预训练数据集我们构建了一个数据收集管道来抓取来自互联网的图像和相关的alt属性，它通常提供图像内容的描述为了容易地扩大规模，我们遵循图像的自然分布而不重新平衡，并且仅应用最小的基于规则的过滤。我们保持图像的长边超过200像素，纵横比小于3。由于有些替代文本太长，我们用标点符号将它们分开，图3.我们的预训练数据集ALT 200M中前200个单词的单词云，不包括停止词，例如，a、the、of等。一个含有英文维基百科标题和正文的一元词词汇表我们删除出现少于5次的unigrams，得到大约2.5亿个唯一unigrams。如果在词汇表中找不到替换文本的任何一个单字，我们将其删除之后，我们统计所有剩余句子的频率，并过滤掉一些过于通用的样板句，例如。，库存图片，3D插图，矢量照片。为了隐私起见，我们使用命名实体识别模型spaCy 2来识别人名和地名，并分别用特殊的标记“PERSON”和“PERSON”来替换它们。最后，我们对所有收集的图像进行重复检查，以确保它们不与现有的测试集重叠，如COCO，nocaps和Conceptual Captions。最终的数据集名为ALT 200M，包含超过2亿张图像，每张图像对应一个替代文本。图3显示了200个最常见单词的单词云。如表1所示，与CC12M相比，ALT 200M多了近16张图像。词汇量几乎翻了一番。我们观察到，56%的一元文法的总和仅为0。1%的总发生率，其特征是罕见的unigrams的非常长的尾巴标题的平均长度为 13 。 01 ，比 COCO 字幕数据集（ 10.44）。我们还观察到，我们的数据集包含更多的短标题，只有2或3个uni-gram。这表明字幕的分布从预训练到微调的转变。如句点和感叹号，并选择最长的部分为了过滤掉一些罕见的或拼写错误的单词，2https://github.com/explosion/spaCy17983k=1k=1T=TJj=1，并且对于字幕，KL联系我们l=1微小625610244十三岁41 .一、1tiny121225610244十八岁11 .一、5小1238415366三十四3二、9小24243841536655. 64.第一章8基地12768307212111.79 .第九条。5base2424768307212196.7十六岁8大241024409616338328岁9巨大3212805120166754五十七7表2. 模型架构的详细信息。FLOP是通过在一次向前传递中将50个图像区域特征和35个文本标记作为输入来计算的。图像区域特征的维数为2054，通过线性层映射到Transformer宽度。除了CC 12 M之外，还有一些其他大规模的图像-文本数据集，例如WIT [36]，WenLan [16]，LAION-400M [34]以及CLIP [33]和ALIGN [17]中使用的数据集。关于这些问题的详细讨论见附录。3.2. 字幕的VLP模型我们使用[48]中预先训练的Faster R-CNN检测器在[29，48]之后，我们还添加检测到的对象标签作为输入。文本输入，包括标题和对象标签，由WordPiece标记，词汇量为30522to- kens。多层Transformer模型用于多模态融合，其由编码器层的堆叠组成，每个编码器层具有多头自注意（MSA）层，随后是前馈层。为了使文本生成与编码器层，我们使用序列到序列注意掩码[49]在每个自注意层的字幕模块。具体而言，输入包括图4. 培训目标比较。(Top)语言建模（LM），预测每个位置的下一个标记。(Bot-tom）掩蔽语言建模（MLM），以预测掩蔽位置处的掩蔽和/或可能污染的标记。两者都使用因果掩蔽进行模型训练。以一种自回归的方式回归。为了研究缩放趋势，我们用8种模型配置进行了实验，从3.3. 培养目标虽然双向掩蔽语言建模（MLM）已广泛用于语言和视觉语言预训练，但其双向性质使其对于文本生成而言并非最佳。与大多数在VL理解任务上进行评估的VLP作品相反在训练过程中，我们随机屏蔽了15%的标题标记，BER T[8]以形成“损坏的wkL，其中wk等于wk，或者用[MASK]标记或从词汇表中采样的另一个标记替换。火车-损失定义为：的图像嵌入V={vi}N，对象标记嵌入-dings{}Mi=1L（W，V，T）=ΔCE（w，R∈）（4）W={wk}L，其中N，M，L是图像K D=（−logp（w|V,T,{w˜}k））的情况下，Rvi ：=MSA（vi，VT），（1）沃贝克区域、标签和字幕标记。相应的输出为：k∈DK17984··l=1∪k=1--k：=MSA（w，V其中CE（，）是与softmax的交叉熵损失，D是掩码位置的子集损失用于恢复Rtj：=MSA（tj，VT），（2）RwkT{wl}k），（3）其中MSA（x，Y）是MSA层，x映射到查询，Y映射到键/值。表示矩阵的连接，并且Rvi的索引表示与vi对应的位置。输出表示被馈送到下一层，或用于最后的预测通过这种方式，在推理期间，模型可以从左侧直觉上可能被污染的标记的可能性符合具有噪声字幕的训练的场景。请注意，我们在预训练和微调中使用相同的损失。在推理期间，在步骤s，giv en先前预测到kensw∈ks-1，我们设ws为[MASK]，对于k s，wk=wk<。因此生成过程模拟恢复[MASK]令牌在每一步的最后。由于字幕令牌的表示不依赖于后续令牌，因此预测令牌的中间表示可以被保存以模型层宽度MLP头参数FLOPs17985型号预训练数据域内CIDER SPICE近域CIDER SPICE域外CIDER SPICE整体CIDER SPICE验证集1编码器-解码器[4]CC3M [35]81. 811个国家。6七十三。711个国家。1六十五310个。1七十三。211个国家。02CC12M [4]88岁312个。386岁。011个国家。891. 311个国家。287岁411个国家。83CC3M+CC12M92. 612个。588岁312个。194 511个国家。9九十212个。14[48]第四十八话N/A九十六。8十三岁5九十7十三岁187岁411个国家。6九十912个。85VinVL基础†五、65M合并1031十四岁2九十六。1十三岁888岁312个。1九十五5十三岁56VinVL大号†五、65M合并一百零六3十四岁5九十八0十四岁088岁812个。6九十七3十三岁8[43]第四十三话1 .一、8B一百一十三7-一百一十9-一百一十五二-一百一十二二-8柠檬基地N/A91. 4十三岁381. 412个。562. 610个。679岁。012个。39柠檬基地CC3M九十六。0十三岁891. 7十三岁288岁111个国家。891. 6十三岁010柠檬基地CC12M一百零四5十四岁6一百块7十四岁0九十六。712个。4一百块4十三岁811LEMON大号CC12M103 6十四岁4101 1十三岁8一百零二712个。6101 8十三岁612柠檬基地ALT200M一百零七7十四岁7一百零六2十四岁3一百零七9十三岁1一百零六8十四岁113LEMON大号ALT200M一百一十六9十五岁8一百一十三3十五岁1111. 3十四岁0一百一十三4十五岁014柠檬巨大ALT200M118. 0十五岁4一百一十六3十五岁1一百二十2十四岁5117 3十五岁0测试集15人类八十6十五岁084. 6十四岁791. 6十四岁2八十五3十四岁616SimVLM基地1 .一、8B------94 8十三岁117SimVLM大型1 .一、8B------一百零八5十四岁218SimVLM巨大的1 .一、8B1090十四岁6一百一十8十四岁61095十三岁9一百一十3十四岁51920LEMON大号柠檬巨大ALT200MALT200M111. 2一百一十二8十五岁6十五岁2一百一十二3一百一十五5十五岁2十五岁1一百零五0一百一十1十三岁6十三岁7一百一十9一百一十四3十五岁0十四岁917986∗†表3.nocaps验证和测试集的结果。我们所有的模型都只使用交叉熵损失进行训练，没有CIDER优化。VinVL模型没有预先训练，而是使用了SCST+CBS。我们通过对发布的检查点进行微调来重现VinVL结果，这些检查点是在包括5个检查点的组合数据集上进行预训练的。65 M图像，2. 5 M QA，4. 68米字幕和1. 67M伪标题。带“0”的数字是从nocaps排行榜中复制的避免重复计算，从而使生成高效。我们还尝试了其他的模型结构和训练目标，比如用语言建模预测下一个token，如图4所示，稍后将在4.3节中详细介绍。4. 实验在本节中，我们首先在第4.1节中介绍我们的实验设置，然后在第4.2节中详细介绍我们的结果，然后在第4.3节中进行全面分析。4.1. 设置数据集。为了衡量大规模预训练所带来的进展，我们的目标是评估模型描述各种（长尾）视觉概念的能力，这对野外字幕至关重要。为此，我们选择nocaps[1]作为评价基准，它是为评价对象字幕而开发的。该数据集由来自Open Images的15100张图像组成，涵盖了600多个对象类别，其中近400个是COCO[5]训练集中看不到的。根据图像是否包含新颖性在COCO训练集中看不见的对象，nocaps图像被分成三个域：在COCO中看不到域外的任何对象。这种差异提高了从外部资源学习以识别新对象的重要性，而不是依赖于干净且完全注释的字幕训练数据。由于不同方法的外部训练资源可能会有所不同，因此在表3中，我们仅将我们的模型与其他使用额外图像-标题对的模型进行比较，并将预训练数据集大小考虑在内。实作详细数据。为了研究缩放趋势，我们使用8种模型配置和5种预训练数据大小进行实验。我们从头开始训练所有的模型，如果没有其他指定。在预训练中，我们不包括COCO或Visual Genome数据，以排除绘制缩放趋势时可能对数据质量的影响，因为这些数据集是手动注释的，而不是Web收集的。为了创建不同大小的预训练数据集，我们在不同的数据尺度上从ALT200M中随机采样请注意，较大的数据集是较小数据集的超集。我们使用AdamW优化器与线性衰减的学习率。在预训练期间，批量大小为8192。的17987×××××⟨⟩模型预训练数据交叉熵优化B@4 M C SCIDER优化B@4 M C S编码器-解码器[4]CC12M--一百一十9-----VinVL碱五、65M合并三十八岁。2三十3一百二十九323岁6四十9三十9一百四十4二十五1VinVL大号三十八岁。5三十4一百三十823岁441岁031岁1一百四十9二十五2SimVLM基地39岁0三十二9134 8二十四岁0----SimVLM大型1.8B四十3三十三岁。4142. 6二十四岁7----SimVLM巨大四十6三十三岁。7一百四十三3二十五4----柠檬基地四十3三十2133 323岁341岁631岁0142. 7二十五1LEMON大号ALT200M四十6三十4一百三十五723岁5四十二331岁2一百四十四3二十五3柠檬巨大41岁5三十8一百三十九1二十四岁1四十二631岁4一百四十五5二十五5表4.COCO“Karpathy”检验的结果（单个模型）B@4：BLEU@4，M：METEOR，C：CIDER，S：SPICE.对于基本模型和大型模型，初始学习率设置为210−4，对于大型模型，初始学习率设置为1 10−4 模型被训练60个时期。图像区域、标签和字幕标记的最大长度分别为50、15和20在微调过程中，模型被训练了40个epoch，批量大小为512。初始学习率是1 10−5，110- 6和810- 7为基础，大，巨大的模-，分别。在推理过程中，具有波束搜索，并且波束大小是5。生成当预测到EOS代币或达到20个代币的最大长度时结束。更多培训详情见附录。4.2. 标题结果nocaps验证和测试集的结果见表3。通过对自动收集的替代文本进行大规模的预训练，LEMON取得了显著的改进，特别是对于域外图像。与仅在COCO上训练的基线（第8行）相比，在ALT 200M上进行预训练后（第12行），CIDEr评分提高了16。域内部分为3，45。3为域外部分。这证明了大规模的预训练提高了模型我们还展示了在CC3M和CC12M上预训练的模型的结果。与这些数据集上报告的最佳结果（第1、2行）相比，我们评估的CIDEr评分（第9、10行）增加了18。4和13。0，分别。这证明了当预训练数据集相同时，所提出的训练方案所带来的字幕结果的性能改进。在排行榜3测试集上，我们的大型和巨型模型（第19行，第20行）都超过了在1上预训练的顶级模型（第18行）。8 B图像-文本对，创造了114的新的最先进的。3在CIDER。我们还在其他图像字幕基准上达到了最先进的水平，包括COCO字幕和概念字幕，如表4和表5所示。3https://eval.ai/web/challenges/challenge-page/355/排行榜/1011模型B@4MCS无预培训[4]--一百块9-在CC12M上预先培训[4]--一百零五4-柠檬碱，不含PT10个。112个。1一百零四419号。0基于CC12M的LEMON10个。111个国家。9一百零八119号。817988表5. 概念字幕（CC3M）开发集的结果。所有的模型都在CC3M上进行了微调，只有交叉熵损失。我们比较了在有和没有预训练的开发集上报告的最佳结果。PT：预训练。大规模的预训练不仅有利于VL表示学习，而且使模型具有零次泛化能力。我们使用预先训练的模型直接生成字幕，而无需进一步微调。添加前缀图5中示出了一些示例。预训练的模型在识别各种长尾视觉概念方面表现出很强的能力。与仅在小干净集上训练的模型相比，它显示了许多细粒度类别的知识（例如，“金属乐器”对“大号”），这是从来自web的替代文本的大规模噪声监督中学习到的我们还注意到，我们的预训练模型在以零拍摄方式使用时往往会生成非常简短的描述，但在COCO上进行微调后，这种情况得到了缓解。我们认为，这是因为在我们的预训练数据集中，短替代文本的比例相对较大。4.3. 消融和分析标度律：数据和模型大小的影响。我们进行了全面的实验，以了解通过扩大预训练可以在下游任务中获得多少增益。图2显示了预训练中使用的图像数量与下游字幕任务中评估的CIDEr分数之间的关系。所有17989乙：一个女人把一把粉红色的雨伞举过头顶。外宾：一个穿着和服拿着紫色雨伞的女人张：艺妓的照片B：树枝F：一个黑色背景的恐龙头骨特写张：一张恐龙骨架一张画着红尾巴的猫的照片。女：一张虎鲸的黑白照片。张：一张虎鲸B：一个戴着帽子和草帽的人站在一个大金属仪器前。女：一个戴着绿帽子吹大号的男人。Z：一张巴伐利亚音乐家演奏大号的照片乙：收集木制工具在白色背景。福：博物馆里展出的一批剑。张：一幅古代刀剑的图画图5. nocaps验证集上生成的标题示例。B：基线模型仅在COCO标题上训练，而没有预训练。F：模型在ALT200M上进行预训练后，在COCO上进行微调Z：未经微调的预训练模型，其中我们在推理过程中添加前缀(a) 训练前准确性（b）在COCO上进行微调/评估（c）在COCO上进行微调，在nocaps上进行评估图6. 不同模型尺寸的样本效率比较。图（a）显示了预训练中的学习曲线，通过掩码令牌预测的交叉熵损失的准确性来图（b）和（c）分别显示了在COCO“Karpathy”测试集和nocaps验证集上评估的微调中间检查点的结果更大的模型可以在下游任务中持续获得更好的结果，而预训练时间要少得多，特别是对于域外数据。这些模型是从头开始预先训练的，然后在COCO上进行微调。虽然所有的模型都可以在使用更多数据进行预训练后得到改进，但对于较小的模型来说，这种改进显然不如较大的模型显著。在COCO上，“小”和“大”模型之间的差距此外，当评估nocaps时，域外集合中的间隙始终大于域内集合中的间隙。这意味着大型模型在将知识从预训练转移到下游任务方面的优势，特别是当微调数据过于有限而无法覆盖所有测试场景时。此外，我们观察到，随着可用数据量的增加，模型容量成为图1绘制了相对于模型参数的数量。当使用3M数据进行预训练时，“基本”尺寸似乎是足够的，并且使用更大的模型没有显著的益处。然而，随着超过40M的数据，较大的模型开始以显着的幅度超过较小的模型当数据量达到数亿时，如果观察到的从“基础”到“巨大”的趋势可以保持，则有希望训练更大的模型，最后，为了更好地了解数据质量，我们在CC12M和ALT 200M的12由于预训练数据源的唯一差异，模型产生相当相似的结果（0。1比0。COCO和nocaps的CIDEr）存在3处差异。这表明我们的数据质量与CC12M相当。观察到的性能改善应归因于培训前的规模。17990××Arch.物镜CocoCIDER SPICECC3MCIDER SPICEEnc-DecLM一百二十921岁894 9十八岁1s2s-MLM一百二十4二十二岁1九十九。9十八岁9编码器LM119 221岁5九十六。1十八岁0s2s-MLM119 921岁9一百零四419号。0表6. 消融具有不同架构的模型，并以不同的目标进行。结果报告在COCO标题所有模型都是从头开始训练的。s2 s-MLM指示如在第12节中描述的序列到序列MLM。三点三样品效率。我们检查了学习表征的改进以及预训练的进展。通过在预训练中看到的图像-文本配对样本的数量来定量测量进展，即，有效批量乘以训练步数。在图6中，我们在COCO Caption上报告了微调中间预训练检查点后的结果我们还评估了nocaps上的微调模型，表明在域转移下的泛化能力。我们在图中展示了两个模型，一个是“基本”尺寸，另一个是“巨大”尺寸。这两个模型都在ALT 200M上进行了预训练。我们观察到，在预训练中看到更多样本后，两个模型都在继续改进，但更大的模型学习得更快。为了在下游COCO字幕任务中实现类似的结果，基础模型必须在预训练中看到超过2到8倍的样本。当对nocaps域外图像进行评估时，该因子甚至更大。“基础”模型看到190亿个样本的结果仍然比“巨大”模型看到8亿个样本的结果略差。这证明了大型模型从大规模数据中学习的效率，以及泛化的鲁棒性进一步消融。我们比较了其他常见的模型结构和训练目标，如编码器-解码器Transformer模型和单向语言建模（LM）。实验是用表2中规定的“基本”尺寸的模型进行的对于编码器-解码器结构，我们使用6个编码器层（具有自注意），然后是6个解码器层（具有自注意之后的交叉注意），而其他模型的结构保持不变。培训目标如图4所示。对于每个实验设置，我们扫描超参数，例如，从40岁到20岁的训练前阶段200，微调时期从10到60，学习率从1 10−6到3 10−5。最佳超参数的结果报告。我们分别在COCO和CC3M上的4种不同设置下训练模型结果总结见表6。在COCO上，4种设置之间的差异很小（1。CIDEr）的相对变化为41%，最差图7.通过CC12M上的预培训和COCO上的微调比较不同的培训目标使用与预训练中使用的目标相同的目标，从中间检查点微调模型是119。2从编码器+LM，和最好的是120。9从编码器-解码器+LM。相比之下，在CC3M上，差异要大得多（9. CIDEr的相对变化<10%）。最糟糕的是94。9，而最好的是104。4从编码器+传销。由于CC3M是通过互联网收集的，并且包含更多的噪声，因此我们假设倾向于过拟合的模型在数据质量较低时容易出错，即使它在注释良好的数据下表现良好。此外，为了比较训练目标，我们首先在CC 12 M上使用s2 s-MLM或LM预训练模型，然后在COCO上微调中间检查点如图7所示，我们观察到，尽管使用LM训练的模型在开始时收敛得更快，但它很早就进入饱和状态，并且没有达到使用s2 s-MLM的模型那样高的分数我们还发现，LM训练对学习率非常敏感。鉴于上述结果，我们选择s2 s-MLM模型和编码器结构来扩展噪声预训练数据。5. 结论本文研究了用于图像字幕的VLP模型的尺度行为，并构建了我们自己的大规模数据集ALT 200 M。我们的实验表明，扩大预训练导致下游字幕任务的显着改善。我们的模型LEMON在多个基准上达到了新的最先进水平，包括COCO Caption，nocaps和ConceptualCaptions。LEMON还具有令人印象深刻的识别大范围长尾视觉对象的能力，即使是在零拍摄方式下。此外，我们对大型Transformer模型的研究表明，随着数量级更大的训练数据的可用性，模型容量往往是瓶颈。这是一个很有前途的方向，训练一个更大的模型，以更好地利用互联网上广泛传播的大量替代文本数据17991引用[1] Harsh Agrawal 、 Karan Desai 、 Yufei Wang 、 XinleiChen、Rishabh Jain、Mark Johnson、Dhruv Batra、DeviParikh、Ste- fan Lee和Peter Anderson。nocaps：小说对象字幕-ing在规模。在ICCV，2019年。一、五[2] Tom B Brown，Benjamin Mann，Nick Ryder，MelanieSub biah ， Jared Kaplan ， Prafulla Dhariwal ， ArvindNeelakantan ， Pranav Shyam ， Girish Sastry ， AmandaAskell，et al.在NeurIPS，2020年。1[3] Jize Cao，Zhe Gan，Yu Cheng，Licheng Yu，Yen-ChunChen，and Jingjing Liu.幕后：揭示预先训练的视觉和语言模型的秘密。在ECCV，2020年。2[4] Soravit Changpinyo、Piyush Sharma、Nan Ding和RaduSoricut。概念12米：推动网络规模的图像-文本预训练，以识别长尾视觉概念。在CVPR，2021年。一二三五六[5] XinleiChen ， Hao Fang ， Tsung-Yi Lin ， RamakrishnaVedan-tam ， SaurabhGupta ， PiotrDol la´r ， andCL awrenceZitnick. Microsoft coco captions：数据收集和评估服务器。arXiv预印本arXiv：1504.00325，2015。一、三、五[6] Yen-Chun Chen ， Linjie Li ， Licheng Yu ， Ahmed ElKholy ， Faisal Ahmed ， Zhe Gan ， Yu Cheng ， andJingjing Liu.Uniter ：通用图像 - 文本表示学习。在ECCV，2020年。一、二[7] Jaemin Cho，Jie Lei，Hao Tan，and Mohit Bansal.通过文本生成统一视觉和语言任务。在ICML，2021。2[8] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：用于语言理解的深度双向变换器的预训练。在NAACL，2019年。4[9] Zhiyuan Fang ， Jianfeng Wang ， Xiaowei Hu ， LijuanWang，Yezhou Yang，and Zicheng Liu.通过知识提取压缩视觉语言模型. ICCV，2021。2[10] Zhe Gan，Yen-Chun Chen，Linjie Li，Tianlong Chen，Yu Cheng，Shuohang Wang，and Jingjing Liu. 用视觉和语言玩彩票。arXiv预印本arXiv：2104.11832，2021。2[11] Zhe Gan，Yen-Chun Chen，Linjie Li，Chen Zhu，YuCheng，and Jingjing Liu.大规模对抗性训练用于视觉和语言表征学习。在NeurIPS，2020年。2[12] Tom Henighan，Jared Kaplan，Mor Katz，Mark Chen，Christopher Hesse，Jacob Jackson，Heewoo Jun，Tom BBrown ， Prafulla Dhariwal ， Scott Gray ， et al. Scalinglaws for autoregressive generative modeling. arXiv预印本arXiv：2010.14701，2020。第1、3条[13] Xiaowei Hu ，Xi Yin ，Kevin Lin ，Lijuan Wang ，LeiZhang，Jianfeng Gao，and Zicheng Liu. Vivo：通过视觉词汇预训练，在新颖对象字幕方面超越人类表现。在AAAI，2021年。2[14] Zhicheng Huang，Zhaoyang Zeng，Yupan Huang，BeiLiu ， Dongmei Fu ， and Jianlong Fu.Seeing out of thebox ： End-to-endpre-trainingforvision-languagerepresentation learning.在CVPR，2021年。2[15] Zhicheng Huang ， Zhaoyang Zeng ， Bei Liu ， DongmeiFu，and Jianlong Fu. Pixel-bert：将图像像素与17992作者： Deep Multimodal Transformers arXiv 预印本arXiv：2004.00849，2020。2[16] Yuqi Huo，Manli Zhang，Guangzhen Liu，Haoyu Lu，Yizhao Gao ， Guoxing Yang ， Jingyuan Wen ， HengZhang，Baogui Xu，Weihao Zheng，et al. Wenlan：Bridging vision and language by large-scale multi-modalpre-training.arXiv预印本arXiv：2103.06561，2021。4[17] Chao Jia ， Yinfei Yang ， Ye Xia ， Yi-Ting Chen ，Zarana Parekh ， Hieu Pham ， Quoc V Le ， YunhsuanSung，Zhen Li，and Tom Duerig.通过噪声文本监督扩展视觉和视觉语言在ICML，2021。一、二、三、四[18] Jared Kaplan、Sam McCandlish、Tom Henighan、TomB Brown 、 Benjamin Chess 、 Rewon Child 、 ScottGray、Alec Radford、J

下载后可阅读完整内容，剩余1页未读，立即下载