没有合适的资源?快使用搜索试试~ 我知道了~
656769717375770%20%40%60%80%100%67.468.170.075.866.01164850通过基于检索的多粒度对齐进行无监督的视觉与语言预训练0Mingyang Zhou 1 * Licheng Yu 3 * Amanpreet Singh 3 Mengjiao Wang 3 Zhou Yu 2 Ning Zhang 301 加利福尼亚大学戴维斯分校 2 哥伦比亚大学 3 MetaAI0minzhou@ucdavis.edu , zy2461@columbia.edu , { lichengyu, asg, mengjiaow, ningzhang } @fb.com0摘要0近年来,视觉与语言(V+L)预训练模型在各种多模态基准上取得了巨大的成功。然而,大多数现有模型需要在大量平行的图像-文本数据上进行预训练,与仅有图像或仅有文本数据相比,这种数据收集成本高昂。本文探索了无监督的视觉与语言预训练(UVLP),从非平行的图像和文本数据集中学习跨模态表示。我们发现两个关键因素可以实现良好的无监督V+L预训练,即联合的图像和文本输入以及整体的图像-文本对齐(即使对于非平行数据也是如此)。因此,我们提出了一种新颖的无监督V+L预训练课程,用于非平行的文本和图像。我们首先通过基于检索的方法构建一个弱对齐的图像-文本语料库,然后应用一组多粒度对齐的预训练任务,包括区域到标签、区域到短语和图像到句子的对齐,以弥合两种模态之间的差距。全面的消融研究表明,每个粒度对于学习更强的预训练模型都是有帮助的。我们将我们的预训练模型应用于一组V+L下游任务,包括VQA、NLVR2、VisualEntailment和Ref-COCO+。在无监督的设置下,我们的模型在所有这些任务中都取得了最先进的性能。01. 引言0视觉与语言预训练(VLP)模型[ 8 , 15 ,0近年来,学习联合跨模态表示的模型[ 16 , 18 , 23 , 24 , 27, 31 , 32 , 37 , 39 , 41 , 43]在各种视觉与语言任务的研究中取得了革命性的成果。然而,VLP模型的成功依赖于大规模对齐的图像-文本语料库的可用性。广泛使用的众包预训练数据集,如MS COCO [ 7 , 29]和Visual Genome [ 20 ],需要昂贵的人工标注。0* 两位作者贡献相同。0无监督0V+L预训练0原始对齐(img, txt)的比例0Meta大道0我们的uVisualBERT[26]联合MLM+MRM循环训练MLM/MRM无预训练0图1.从不同的预训练模型微调得到的VQA、NLVR2、VE和RefCOCO+的Meta平均分数。所有的预训练都是在Conceptual Captions(CC)上进行的,具有不同比例的平行数据,即固定数量的数据是原始对齐的,其余数据是随机洗牌的。0%表示无监督的V+L预训练情况。我们还将我们提出的方法的性能与U-VisualBERT [ 26]进行了对比。每个任务的准确率细分在补充文件中列出。0最近,像Conceptual Captions 3M [ 35 ]、CC12M [ 5]和SBU Captions [ 33]等网络爬取的图像-文本数据集大大减少了对大规模人工标注的需求,但仍需要进行繁重的后期清洗程序以获取对齐的图像-文本对。相比之下,语言语料库和图像收集可以从网络上轻松获取。获取大规模单模态数据的便利性使得视觉[ 3, 6 , 12 ]和语言[ 11 , 30]领域的自监督学习受益。这引发了一个问题:我们能否利用易于获取的大规模单模态数据来进行无监督的视觉+语言预训练,而不需要平行文本和图像(UVLP)?我们将UVLP定义如下:给定分别爬取的图像集合 I = { i 1 , i 2 , . . . , i n I }和文本语料库 T = { t 1 , t 2 , . . . , t n T},我们的目标是预训练一个多模态模型。2164860从这些分析中得到启发,我们提出了一种通过基于检索的多粒度对齐进行无监督视觉和语言预训练(µ-VLA)的方法,该方法使用我们的新颖的非平行数据的无监督V+L预训练课程。我们首先通过检索构建一个弱对齐的图像-文本数据集。给定一张图像,我们将其检测到的对象标签作为参考句子,并通过句子BERT从文本语料库中检索最接近的句子。0为了探索这两个问题,我们简单地使用ConceptualCaptions(CC)数据集[35]中的图像和标题作为独立收集的单模态语料库,并进行以下分析。首先,我们比较了两种数据输入策略下预训练模型的性能:一种是一次呈现一个图像或文本(轮流),另一种是呈现一对随机抽样的图像和文本的连接(0%对齐比例)。其次,我们通过控制原始对齐图像-文本数据的比例(从20%到100%)(剩余部分从每个模态中随机抽样)准备了五组ConceptualCaptions的图像-文本配对,这些配对具有不同级别的配对对齐。所有实验都使用单流transformer,并使用标准的预训练目标:语言输入的掩码语言建模(MLM)和视觉输入的掩码区域建模(MRM)。预训练后,我们将模型调整到一系列四个下游V+L任务中,包括VQA [2],NLVR2[38],Visual Entailment(VE)[42]和RefCOCO+[44]。性能以所有任务的元平均值作为精调后的度量。结果总结如图1所示。从图1可以清楚地看出,联合的MLM+MRM学习优于轮流的MLM/MRM。这些收益表明,即使输入不对齐,联合的图像和文本输入对于UVLP也是必要的。我们还观察到图像-文本配对的对齐程度与精调后模型的元平均值之间存在强正相关。这传达了一个看似直观但非常重要的信息,即图像-文本数据越对齐,预训练模型的性能越好。0U-VisualBERT[26]是第一个UVLP工作,作者在非平行的文本和图像数据上以轮流的方式训练了他们的模型,并简单地使用对象标签作为桥梁来弥合两种模态之间的差距。他们的研究表明,通过一次只呈现一种模态就可以学习到共享的多模态嵌入。然而,这引入了预训练和精调阶段之间的输入差异,因为每个下游V+L任务都需要两种模态(图像、文本)作为输入。在这项工作中,我们研究了(i)呈现非平行数据的联合图像-文本数据是否会改善学到的联合嵌入空间。此外,(ii)如果将联合图像-文本数据输入模型,它的潜在对齐如何影响跨模态表示学习?0嵌入[34]相似性。尽管构建的配对是有噪声的,但概念的弱对齐对于学习潜在的对齐是关键的。我们提出让模型逐渐学习多粒度的对齐,即区域到对象标签级别的对齐,区域到名词短语级别的对齐,以及图像到句子级别的对齐,以更有效地弥合两种模态之间的差距。我们展示了从弱对齐配对中学到的每个粒度如何对最终预训练模型的性能做出贡献。实验证明我们的方法在4个下游任务上实现了最先进的性能(见图1),相比[26]有明显的提升。针对实际应用,我们还验证了我们的方法在更现实的设置下的有效性,其中图像来自CC,标题来自BookCorpus(BC)[49]。在这个更困难的设置中也实现了类似的性能提升,显示了我们方法的鲁棒性。总结起来,我们的贡献有三个:(i)我们分析了什么导致了良好的无监督V+L预训练,并找到了两个关键因素:联合图像和文本输入,以及图像-文本配对之间的整体对齐。(ii)因此,我们提出了一种新颖的基于检索的预训练课程,它在弱对齐的图像-文本配对之间应用了多粒度对齐预训练任务,以弥合两种模态之间的差距。(iii)我们提供了全面的实验和分析,展示了我们的方法与SOTA有监督和无监督的V+L预训练方法相比的鲁棒性。02. 相关工作0视觉与语言预训练受到自然语言处理的成功启发[4,11],近来对于视觉和语言的预训练引起了广泛关注。例如,有不同的架构(例如,双流模型[17, 24, 31, 32, 39,43]与单流模型[8, 23, 25, 27,37]),特征(例如,区域[1]与网格[16]),骨干网络(例如,ConvNets[16]与Transformers[18])等。所有这些工作的目标都是利用大规模对齐的图像-文本语料库[17, 20,29, 33,35]进行预训练,以获得强大的多模态模型,然后将其适应于各种下游V+L任务,如VQA[2],NLVR2[38],视觉蕴含(VE)[42],指代表达理解[44]和图像-文本检索。为了实现这一目标,引入了各种预训练任务,包括最著名的掩码语言建模(MLM),掩码区域建模(MRM)和图像-文本匹配(ITM)。还探索了其他几种变体,例如预测对象标签[14,28],序列生成[41,47],单词-区域对齐[8]。在本文中,我们提出了学习单词与区域、短语与区域以及图像与句子之间的多粒度对齐,以更好地弥合视觉和语言之间的差距。[MASK][CLS]inan...[SEP]0/1man[CLS][MASK][MASK][SEP]...road[CLS]man[MASK]...[SEP]We use the well-known single-stream model architecturefor our experiments as [8,23,25,27,37]. As shown in Fig. 2,our main backbone is a single transformer, where we feedthe concatenation of visual embeddings of an image and thetokens of a caption as its input. Given an image i, we firstuse an off-the-shelf Faster R-CNN (VinVL [45]) to detectthe objects v = {v1, ..., vkv}. The visual embedding ofeach region is then encoded as the sum of its regional fea-ture, its location embedding1, and the modality embedding.For a given caption t, we denote its tokenized sequence ast = {t1, ..., tkt}. After multiple layers of self-attention,the two modalities are fused together and the output hiddenvectors can be used for various pre-training tasks.3164870人[CLS]在一个...[SEP]0Transformer0(c)图像-句子对齐0Transformer0公交车站公交车站0(b)区域-名词短语对齐0Transformer0(a)区域-对象标签对齐0人[CLS]站...[SEP]0Transformer0道路[CLS]人公交车...[SEP]0一个空的公交车站里的人0一个空的公交车站里的人0人0道路,人,公交车,建筑物0图2.我们方法的概述。在左侧,我们形成三种类型的图像-文本对作为输入数据,以在三个不同的粒度上学习跨模态对齐:区域-标签对齐,区域-短语对齐和图像-文本对齐。模型在每个粒度上进行迭代预训练,并共享模型参数。在右侧,我们展示了每个粒度的预训练目标的详细信息。0无监督的视觉与语言预训练无需并行数据,灵感来自于多语言上下文语言建模的研究[9, 10, 21, 22],U-VisualBERT[26]首次提出了无需并行数据的无监督视觉与语言预训练(UVLP)。U-VisualBERT[26]在仅文本和仅图像的语料库上进行了掩码预测,并引入了对象标签作为桥接两种模态的锚点。作者在执行MLM时将标签视为一个句子,其中标签提供了与图片中的区域的对齐,并隐式学习了标签-区域级别的对齐。然而,锚定标签与文本输入仍然存在很大的差异,缺乏句子的完整性和自然性。此外,我们的分析表明潜在的跨模态对齐在我们的研究中非常重要(见图1)。相比之下,我们的预训练涉及基于检索的弱对齐的V+L数据构建,并学习了更全面的多粒度跨模态对齐。与U-VisualBERT使用相同的数据相比,我们的方法在我们的实验中在所有下游任务中都取得了明显且一致的增益。03. 方法0在本节中,我们介绍了我们的µ-VLA无监督V+L预训练架构的两个核心组件,用于无需并行数据的构建:(1)从独立的视觉和语言中构建一个弱对齐的图像-文本语料库。0我们使用众所周知的单流模型架构进行实验,如[8, 23, 25, 27,37]所示。如图2所示,我们的主要骨干是一个单一的Transformer,其中我们将图像的视觉嵌入和标题的标记的串联作为其输入。给定一个图像i,我们首先使用现成的Faster R-CNN(VinVL[45])来检测对象v ={v1,...,vkv}。然后,将每个区域的视觉嵌入编码为其区域特征、位置嵌入1和模态嵌入的总和。对于给定的标题t,我们将其标记化序列表示为t ={t1,...,tkt}。经过多层自注意力后,两种模态被融合在一起,输出的隐藏向量可用于各种预训练任务。03.1. 模型概述0W.H]被投影到视觉嵌入空间中。(x1,y1),(x2,y2)是检测到的区域左上角和右下角点的坐标,W,H是图像的宽度和高度。LR-TMLM = −E(o,v)∼I log P(om|o\m, v),41648803.2. 弱对齐的图像-文本语料库0正如第1节的分析所示,我们观察到训练数据中图像-文本对齐程度与预训练模型的性能之间存在强烈的相关性。受到这一发现的启发,我们认为在输入源中初始化一些弱语义对齐在两种模态之间是重要的。具体而言,我们检索与给定Ii在语义上相似的k个句子。之前的工作[40]表明,视觉上有根据的标题涵盖了与特定视觉内容相关的词的很大比例,例如具体名词。因此,我们利用出现在图像中的对象与候选句子之间的语义关联作为衡量对齐程度的指标。具体而言,我们从上述检测到的v中获取对象标签o ={o1,...,oko},并将序列馈送到现成的句子BERT嵌入模型[34]中以获取查询嵌入eo。类似地,我们将每个候选句子馈送到相同的模型中,得到候选嵌入et。我们检索与最高余弦相似度得分的前K个候选项,形成给定图像i的初始弱对齐的图像-文本对。我们将检索到的标题表示为{tr(i)}Kr =1,将整体弱对齐的语料库表示为R。03.3. 预训练任务0在本小节中,我们介绍了一组预训练目标,旨在帮助模型捕捉不同级别的视觉和语言对齐。图2显示了我们模型及其预训练任务的概述。03.3.1 区域-标签对齐学习0我们首先提出将对象标签与图像区域对齐。如图2(a)所示,我们将从每个图像中检测到的对象标签与其源图像连接起来,形成输入对[o,v]馈送到模型中。我们将掩码索引表示为m ∈NM2。我们随机屏蔽对象标签和区域,并对预训练进行掩码语言建模(MLM)和掩码区域建模(MRM)。具体而言,对象标签的MLM定义为0其中目标是基于对其周围标签o \m和图像区域v的观察来预测被屏蔽的对象标签。在视觉方面,MRM包括掩码区域分类损失(MRC)和掩码区域特征回归损失(MRFR):0LR-T MRM = E(o, v)�I [fMRC(vm | v\m, o) + fMRFR(vm | v\m,o)]。0其中N是自然数,M是词汇表大小,m是被屏蔽索引的集合。0在这两者之间,MRC学习预测每个被屏蔽区域的对象语义类别c(vm)。我们将被屏蔽区域vm的最后隐藏输出输入到一个全连接层和softmax函数中,以预测分类概率gθ(vm)。目标是最小化fMRC(vm | v\m, o) = CE(c(vm),gθ(vm))的交叉熵。MRFR学习将每个被屏蔽区域vm的Transformer输出回归到其视觉特征。我们应用一个全连接层将其隐藏输出转换为与输入区域特征r(vm)相同维度的向量hθ(vm)。我们应用L2回归:fMRFR(vm | v\m, o) = ||hθ(vm)−r(vm)||^2。对于区域-标签对齐学习,我们的预训练目标函数为0L R-T = L R-T MLM + L R-TMRM03.3.2 区域-名词短语对齐学习0由于对象标签的词汇表大小较小,区域-标签对齐学习只能捕捉到有限数量的局部概念。为了增加概念的多样性,我们提出将从检索到的句子中的名词短语与相应的区域对齐。如图2(b)所示,给定一张图像i及其检索到的弱对齐标题tr(i),我们首先使用spacy[13]从标题中检测名词短语。注意,检测到的名词短语有时包含属性词,这进一步有益于这个预训练任务。我们通过计算短语与对象标签(与每个区域相关联)之间的word2vec相似度将名词短语链接到其最近的视觉区域。预训练仍然包括MLM和MRM,但使用不同的屏蔽策略和监督信号进行。具体而言,对于MRM和MLM,我们只屏蔽来自标题的链接名词短语或链接的对象区域。我们使屏蔽概率与链接相似度得分成比例。每次我们只屏蔽一个模态(短语或区域),以鼓励它通过其链接内容进行恢复。区域-名词短语MLM的目标函数为LR-P MLM = −E(v, tr)�R log P(trm | tr\m,v)。在视觉方面,我们建议在被屏蔽的区域上使用以短语为导向的区域到标记分类(p-MRTC):0LR-P MRM = E(v, tr)�R fp-MRTC(vm | v\m,tr),0其中我们直接将被屏蔽的区域分类为BERT词汇表中的链接名词短语(子词标记)。扩大词汇表对MRM有益[48]。我们提出的p-MRTC利用附加的名词短语来鼓励更多多样化的局部区域到语言的对齐。对于区域-名词短语对齐学习,我们的预训练目标函数为0LR-P = LR-P MLM + LR-P MRM51648903.3.3 图像-句子对齐学习0我们将图像-文本匹配(ITM)目标应用于先前的有监督V+L预训练研究[8,23],以学习跨模态的句子级对齐。如图2(c)所示,给定输入对[v,tr],特殊标记[CLS]的最终隐藏向量通过全连接层输出一个单一分数sθ(v,tr),预测给定的图像-文本输入是否是语义匹配对。我们使用标签y∈{0,1}来指示检索到的对是否匹配。ITM任务的训练目标是最小化二元交叉熵损失:LITM = CE(y, sθ(v,tr))。在语言方面,我们还应用标准的MLM来帮助模型学习将名词短语和对象标签以外的其他语言标记与视觉上下文对齐。然后,目标函数被制定为LI-S MLM = −E(v, tr)�R logP(trm | tr\m, v)。图像-句子级对齐预训练目标函数为0L I-S = L I-S MLM + L ITM03.4. 多粒度预训练课程0我们提出了一个多粒度课程,以迭代地在区域-标签、区域-名词短语和图像-句子级别上预训练模型。根据我们在第1节中的发现,从具有更高交叉模态对齐度的图像-文本对中学习对于无监督的V+L预训练模型的性能是有益的。因此,我们提出使用估计的图像-文本对齐分数来指导我们的多粒度预训练。具体而言,我们在第3.3.3节中定义了一个ITM头来学习图像-文本对齐。我们还使用它来预测匹配分数,作为调节每个检索式预训练任务的输入数据的权重。这使我们能够随着时间的推移更重视相对较为对齐的图像-文本对,以帮助我们的模型在多个粒度上学习更好的跨模态对齐。为了训练对齐模型的ITM分类器,我们使用我们检索到的语料库R作为正样本,并在前m个时期中使用随机洗牌的对作为负样本。这样可以使模型在图像-文本输入对的对齐上做出合理的估计。在m个时期之后,我们开始将对齐预测分数wITM纳入我们的训练目标中。总之,我们的多粒度预训练损失为0L =0L R-T + L R-P + L I-S if epoch < m L R-T +w ITM (L R-P + L I-S) if epoch ≥ m,0其中L R-T,L R-P和LI-S分别是区域-标签对齐预训练、区域-名词短语对齐预训练和图像-句子对齐预训练的损失函数。我们在最终实现中将m设置为1。04. 实验0在本节中,我们提供了详细的实验设置,以评估我们提出的µ-VLA与先前的监督和无监督VLP模型进行比较。更具体地说,我们介绍了我们的预训练数据集、基线和预训练设置。04.1. 预训练数据集0我们根据两种不同的设置准备了不对齐的数据:(1)我们分别使用来自概念字幕(CC)[35]的图像和文本,忽略对齐信息;(2)我们使用来自概念字幕(CC)[35]和BookCorpus(BC)[49]的图像和文本。设置(1)通过保持域和训练数据的质量一致,与先前的监督方法进行公平比较。在这种设置下,我们提出的模型称为µ-VLACC。设置(2)模拟了一个更现实的挑战,即我们拥有来自不同领域的大规模图像和文本数据,特别是文本来源与图像的标题不相似。在这种设置下,我们训练了µ-VLABC。如第3.2节所介绍的,对于每个图像,我们从文本语料库中检索5个与图像中检测到的对象在语义上相似的文本数据点(来自CC的标题或来自BC的句子)。这为我们的预训练模型创建了弱对齐的图像-文本对。04.2. 基线0我们将我们提出的µ-VLA与以下基线进行性能比较:从BERT初始化的Base ModelVisualBERT。它没有经过任何预训练,而是直接在下游任务上进行微调。监督预训练模型,包括仅在CC上训练的监督预训练VLP模型,包括VIL-BERT [31],VL-BERT[37]和UNITER [8]。我们还报告了在U-VisualBERT[26]中实现的监督VisualBERT的数字,该数字在CC和来自BC的额外250万个文本片段上进行训练。为了与我们提出的方法进行公平比较,我们还引入了对齐的视觉-语言预训练模型(AlignedVLP),该模型在CC和3M(图像,对象标签)对中预训练了来自CC的3M(图像,标题)对。无监督预训练模型U-VisualBERT是按照循环方式在单独的图像或文本语料库上预训练的,并使用检测到的对象标签作为锚点来捕捉跨模态对齐。为了进行公平比较,我们重新实现了这种方法,以使用VinVL对象特征[46]和BC进行预训练。04.3. 训练设置0我们的Transformer架构由12层Transformer块组成,每个块有768个隐藏单元6164900模型 VQA2 NLVR2 VE RefCOCO+ Meta-Ave Test-Dev Test-P Test Dev TestA TestB0ViLBERT [31] 70.6 - - 72.3 78.5 62.6 - VL-BERT [37] 71.2 - - 71.6 77.7 61.0 - UNITERCC [8] 71.2 - - 72.5 79.4 63.7 - VisualBERT [25, 26] 70.9 73.9 - 73.7 79.5 64.5 -Aligned VLP 72.5 75.9 78.7 82.1 86.6 75.0 77.30Base 70.1 51.2 73.2 69.4 74.8 60.3 65.9 U-VisualBERT [26] 71.8 53.2 76.8 78.2 83.669.9 70.0 µ-VLA CC 72.1 73.4 77.3 80.3 85.5 73.7 75.8 µ-VLA BC 71.2 67.1 77.1 79.785.0 72.7 73.80表1. 四个V+L下游任务的评估结果。我们使用未对齐数据(µ-VLA CC,µ-VLABC)训练的模型在性能上与使用对齐数据训练的有监督模型(Aligned VLP)相当。µ-VLA CC和µ-VLABC在几乎所有任务上都优于U-VisualBERT。0V+L对齐 VQA NLVR2 VE RefCOCO+ Meta-Ave Test-Dev Test-P Test Dev TestA TestB0µ-VLA CC(R-T)71.7 52.0 75.6 78.7 83.3 70.0 69.5 µ-VLA CC(R-N)71.4 69.4 76.5 77.481.5 68.7 73.7 µ-VLA CC(I-S)71.6 71.5 76.8 75.7 80.3 67.9 73.9 µ-VLA CC(R-T +R-N)71.9 72.4 76.4 79.3 84.5 71.7 75.0 µ-VLA CC(R-T + R-N + I-S)72.1 73.4 77.3 80.385.0 73.7 75.80表2. 跨模态对齐对三种粒度的影响:区域-标签对齐(R-T),区域-名词短语对齐(R-N)和图像-句子对齐(I-S)0和12个自注意力头。我们从BERTbase初始化模型,并在各自的预训练数据集上进行了20个时期的预训练,批量大小为480。图像的区域特征是从预训练的VinVL目标检测器[46]中获得的。我们使用Adam优化器[19]进行训练步骤的前10%的线性预热,并将峰值学习率设置为6e-5。预热后,线性衰减的学习率调度器逐渐降低剩余训练步骤的学习率。所有模型都在4个NVIDIA A100GPU上进行训练,每个GPU具有40GB的内存,使用MMF[36]。预训练需要3天时间。我们在四个下游任务上评估我们的预训练模型:视觉问答(VQA2.0)[1],用于视觉推理的自然语言[38](NLVR2),视觉蕴含[42](VE)和引用表达[44](RefCOCO+)。每个任务的详细训练设置可以在我们的补充材料中找到。04.4. 实验结果0我们首先将µ-VLA与在CC上预训练的各种有监督模型以及最先进的无监督V+L预训练方法U-VisualBERT进行比较,比较的对象是四个下游任务。除了报告每个单独任务的得分外,我们还计算了元平均得分,以反映在所有任务上的整体性能。结果0总结在表1中。0与Base相比,从表1中可以清楚地看出,µ-VLA CC和µ-VLABC在所有基准测试中都大幅优于Base模型。0与AlignedVLP相比,它的性能也优于现有的有监督模型如VilBERT[31],这可能是由于使用了更好的VinVL[45]的视觉区域特征。与使用相同架构和视觉特征训练的AlignedVLP相比,我们的模型只稍微差一些。这表明我们提出的预训练课程的有效性,它可以学习与有监督模型相当的跨视觉和语言的通用表示,而无需任何平行的图像-文本语料库。0与UVLP相比,我们的µ-VLA在性能上也比先前的UVLP方法U-VisualBERT表现更好。这一改进表明我们提出的跨模态对齐预训练课程有效地弥合了两种模态之间的差距。特别是,在NLVR2任务中,我们的模型的性能比U-VisualBERT提高了20%以上。由于NLVR2已知更受益于先前的有监督的V+L预训练研究中的图像-句子跨模态对齐,这一观察结果表明我们的模型能够在没有平行数据的情况下捕捉到实例级的跨模态对齐。69.570.571.572.573.574.50151069.974.073.073.87164910当µ-VLA在BC文本和CC图像上进行训练时,即µ-VLABC,除了VQA之外,它仍然实现了与U-VisualBERT相当或更好的性能。U-VisualBERT在VQA上对µ-VLABC的轻微优势可能是由于VQA文本与预训练的CC标题之间的相似风格。然而,这并没有掩盖µ-VLA整体更好的性能。这表明我们提出的方法比在从不同领域收集的单模态数据集上训练的U-VisualBERT更具鲁棒性,使其在实际环境中更有用。0检索的标题数量0元平均0图3.使用不同数量的检索候选句子进行非平行V+L预训练的元平均分数。04.4.1 多粒度对齐的消融研究0我们进行了消融研究,以验证无监督的V+L预训练中三种类型的视觉-语言对齐的有效性,即区域-标签对齐(R-T),区域-名词短语对齐(R-N)和图像-句子对齐(I-S)。我们首先评估每种单独类型的对齐,以衡量其对不同下游任务的有用性。然后,我们逐步将每种类型的对齐添加到UVLP中。对于这个消融研究,我们在CC图像和文本上预训练µ-VLA,并将结果总结在表2中。从表2中可以看出,将局部区域与对象标签(R-T)和名词短语(R-N)对齐对于RefCOCO+任务特别有帮助,该任务要求模型理解自然表达描述的特定对象。同时,将图像和句子在实例级别(I-S)进行对齐有助于NLVR2和VE。特别是在NLVR2上,捕捉全局视觉和语言对齐µ-VLACC(I-S)相对于仅学习区域和对象标签之间的局部对齐µ-VLACC(R-T)的模型获得了19.5%的增益。这个观察结果与之前的研究[8]一致,在引入捕捉图像-文本对中跨模态对齐的预训练目标后,模型在NLVR2上的性能得到提升。我们的结果表明,即使只有弱对齐的句子,我们仍然可以0有效地学习实例级别的跨模态对齐。将区域-标签和区域-名词短语对齐(R-T+R-N)用于UVLP,我们观察到这两种类型的基础和匹配互相补偿。µ-VLACC(R-T+R-N)相对于仅学习单一类型的局部区域-语言对齐(R-T,R-N)的模型显示出微小但一致的改进。在添加对象短语级别的对齐之后,我们可以进一步提高NLVR2和VE的性能,这给出了我们最好的模型µ-VLA CC(R-T + R-N+ I-S)。04.4.2 检索候选项数量的消融研究0我们进行了实验,以验证每个图像的检索候选文本数量对性能的影响。我们创建了三个预训练语料库的变体,其中每个候选文本的数量为1、5和10,基于每个候选文本与查询图像检测到的对象标签之间的相似性排名。候选文本是从CC中抽样的。我们仅使用预训练目标来捕捉句子-图像对齐(I-S)来预训练我们的µ-VLA模型。对于每个预训练语料库的变体,我们以相同的步数训练模型。我们计算三个结果预训练模型的元平均分数,并在图3中进行可视化。图3显示,对于一个图像检索多个候选文本极大地有益于预训练模型学习更好的视觉和语言之间的联合表示,在下游任务中表现更强。我们怀疑这是因为候选标题与语言嵌入空间中检测到的对象标签之间的接近并不总是意味着候选标题与图像之间有更好的对齐。在其他候选标题中可能会找到更好和更语义相似的图像标题候选。然而,当我们将候选标题的数量增加到10时,与在具有5个候选标题的语料库上进行预训练的模型相比,我们观察到整体性能略有下降。这表明,在V+L预训练中,拥有太多的候选标题来形成与查询图像的弱对齐对可能也会引入不必要的噪声。因此,在我们的实验中,我们将检索到的标题数量设置为5。04.4.3 可视化0为了了解检索到的句子的质量,我们在图4中展示了从CC和BC中检索到的一些文本示例。第一行展示了从CC中检索到的正例,我们观察到图像中的对象(如“年轻女子”、“沙发”和“长椅”)在检索到的句子中有很好的覆盖。类似地,我们的检索方法也可以检索到好的候选句子。8164920说明:短发女子在咳嗽。0对象:墙沙发长椅女人女孩裤子衬衫手臂腿头发袖子脸0检索自概念性字幕:01. 美丽的年轻女子坐在客厅的沙发上,看着摄像机。02. 年轻女子坐在沙发上,回头看。03. 一个戴头巾的女孩坐在沙发上,看着摄像机。0说明:这个客厅充满了活力和兴奋,明亮的橙色和蓝色的组合。0对象:房间墙壁枕头毯子桌子沙发咖啡桌垫子花瓶玩具图片0检索自图书语料库:01. 沙发前面有一块青蓝色的地毯,与沙发上的抱枕和餐桌和入口桌上的花瓶相匹配。02. 咖啡桌下有一块可爱的花纹地毯和沙发上的小靠垫。03. 沙发的一端还有一张小桌子。0图4. CC和BC中检索到的文本示例。检索到的句子中的覆盖的基于图像的名词短语在正例中用绿色条形高亮显示。0从BC中描述了许多图像中的视觉对象,如第2行所示。这个观察结果证明了根据它们在语言嵌入空间中与对象列表的接近程度来选择候选项的有效性。我们还比较了预训练的U-VisualBERT和µ-VLA在任务特定微调之前的文本到图像注意力,如[8,48]所示。如图5所示,我们将一个配对的对齐对输入模型,其标题为“女人坐在海滩上”,我们可视化了区域和标记之间的局部跨模态对齐。我们发现我们的完整模型µ-VLA可以更好地关注所描述的区域,表明通过提议的预训练方法学习到了更高质量的对齐。更多的可视化结果请参见补充文件。05. 结论0我们提出了一种无监督的视觉-语言预训练方法,通过基于检索的多粒度对齐来学习强大的视觉和语言联合表示,使用未对齐的文本和图像来源。我们介绍了我们提出方法的两个核心设计:(1)构建基于检索的弱对齐的图像-文本语料库。(2)多粒度预训练目标,使模型能够捕捉不同粒度级别上的跨模态对齐。我们的实验表明,我们的模型可以始终优于先前最先进的无监督预训练模型,并且可以达到与完全对齐的预训练模型类似的性能。限制:由于我们只考虑检测到的对象列表来检索候选句子,所以检索到的句子通常不会涵盖与地面真实字幕相比的其他基于视觉的信息。此外,检测到的对象标签通常是那些缺乏具体概念的常规概念。0(a) U-VisualBERT0(b) �-VLA0“女人” “坐着” “海滩”0图5.给定标题为“女人坐在海滩上”的配对对齐的文本到图像注意力。0多样性。我们的检索结果以及我们的预训练模型可能会受到这些限制的影响。我们希望通过学习视觉概念和句子之间的孪生网络来解决这个问题,以实现更好的检索,并利用更大的单模态数据集来增加未来研究中的多样性。0社会影响: 模型是在社区广泛使用的公共数据集上训练的.然而, 这些数据集已知存在偏见,这可能会影响我们模型的预测结果.我们不建议依赖这些模型做出现实世界的决策.9164930参考文献0[1] Peter Anderson, Xiaodong He, Chris Buehler, DamienTeney, Mark Johnson, Stephen Gould, and Lei Zhang.自底向上和自顶向下的注意力用于图像字幕和视觉问答. 在CVPR2018中. 2 , 60[2] Stanislaw Antol, Aishwarya Agrawal, Jiasen Lu, MargaretMitchell, Dhruv Batra, C Lawrence Zitnick, and Devi Parikh.Vqa: 视觉问答. 在ICCV 2015中. 20[3] Hangbo Bao, Li Dong, and Furu Wei. Beit:Bert图像转换器的预训练. arXiv预印本arXiv:2106.08254 , 2021.10[4] Tom B Brown, Benjamin Mann, Nick Ryder, Melanie Sub-biah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakan- tan,Pranav Shyam, Girish Sastry, Amanda Askell, 等.语言模型是少样本学习器. arXiv预印本arXiv:2005.14165 , 2020.20[5] Soravit Changpinyo, Piyush Sharma, Nan Ding, and RaduSoricut. Conceptual 12M:将网络规模的图像-文本预训练推向识别长尾视觉概念. 在CVPR2021中. 10[6] Ting Chen, Simon Kornblith, Mohammad Norouzi, andGe- offrey Hinton. 对比学习视觉表示的简单框架.预印本arXiv:2002.05709 , 2020. 10[7] Xinlei Chen, Hao Fang, Tsung-Yi Lin, Ramakrishna Vedan-tam, Saurabh Gupta, Piotr Doll´ar, and C Lawrence Zitnick.Microsoft coco字幕: 数据收集和评估服务器.arXiv
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功