没有合适的资源?快使用搜索试试~ 我知道了~
156710使用三元对比学习进行视觉-语言预训练0Jinyu Yang 1,Jiali Duan 2,Son Tran 2,Yi Xu 2,Sampath Chanda 2,Liqun Chen 2,Belinda Zeng 2,Trishul Chilimbi 2和JunzhouHuang 101 德克萨斯大学阿灵顿分校,2 亚马逊 jinyu.yang@mavs.uta.edu,jzhuang@uta.edu{duajiali,sontran,yxaamzn,csampat,liquchen,zengb,trishulc}@amazon.com0摘要0通过对比损失(例如,InfoNCE损失)进行图像-文本对齐,可以极大地改善视觉-语言表示学习。这种对齐策略的成功归因于其在最大化图像和其匹配文本之间的相互信息(MI)方面的能力。然而,仅仅执行跨模态对齐(CMA)忽略了每个模态内部的数据潜力,这可能导致表示降级。例如,虽然基于CMA的模型能够将图像-文本对映射到嵌入空间中的相邻位置,但它们无法确保来自同一模态的相似输入保持相邻。当预训练数据存在噪声时,这个问题可能会变得更加严重。在本文中,我们提出了三元对比学习(TCL)用于视觉-语言预训练,通过利用跨模态和内模态的自我监督。除了CMA,TCL引入了一个内模态对比目标,以在表示学习中提供补充的好处。为了利用图像和文本输入的局部和结构信息,TCL进一步最大化了图像/文本的局部区域和全局摘要之间的平均MI。据我们所知,我们是第一个考虑多模态表示学习中的局部结构信息的工作。实验评估表明,我们的方法在各种常见的下游视觉-语言任务(如图像-文本检索和视觉问答)上具有竞争力,并取得了最新的技术水平。01. 引言0自我监督是视觉和语言表示学习中的一个活跃的研究课题。已经提出了许多方法,在具有挑战性的任务上取得了令人印象深刻的性能[5, 7, 10, 17, 19,40]。一个典型的方法是以自我监督的方式在大量未标记的数据上预训练模型,然后对其进行下游微调。01 https://github.com/uta-smile/TCL 2 本工作是在JinyuYang在亚马逊实习期间完成的0兴趣的任务(例如,零样本学习和迁移学习)中的自我监督。在视觉中,可以使用示例进行自我监督[13],预测两个随机补丁之间的相对位置[11],或通过解决拼图[32]来进行自我监督。在语言中,掩码语言建模(MLM)被广泛用作自我监督的选择方法。0受到自我监督在单个模态中的成功启发,对自我监督的视觉-语言预训练(VLP)产生了浓厚的兴趣[4,14],这对于视觉问答(VQA)、图像-文本检索和视觉蕴含等多模态任务至关重要。这些任务严重依赖于通常通过建模视觉和语言特征之间的交互来获得的联合多模态嵌入。为了实现这一目标,过去几年中提出了各种VLP框架,通过利用大量的图像-文本对[8, 16, 27,28],其中的关键见解是将融合编码器应用于视觉和语言特征的连接以学习联合表示。尽管简单而有效,但这种策略存在一个问题,即视觉和语言特征位于不同的嵌入空间中,这使得特征融合非常具有挑战性。为了缓解这个问题,最新的最新技术[26]将学习过程分解为两个阶段:i)首先使用对比损失(即InfoNCE[33])对齐跨模态特征,将匹配的图像-文本对的嵌入拉近,将不匹配的对的嵌入推开;然后ii)将对齐的图像和文本表示应用于融合编码器以学习联合嵌入。具体而言,阶段1旨在通过InfoNCE损失最大化匹配的图像-文本对(I,T)之间的相互信息(MI),这是由于I和T代表同一语义的两个“视图”[46]。然而,阶段1的局限性在于:仅仅执行跨模态对齐(CMA)不能完全保证学习到的特征的表达能力,这对于联合多模态表示学习至关重要。主要原因是I和T无法完全描述彼此。例如,(图1A)中的文本只关注配对图像中的显著对象,而忽略其他详细和细粒度的信息。仅通过CMA捕捉到共现特征。156720这也可以从[23]中看出,CMA特征在图像-文本检索上的性能远远优于内模态检索(图像-图像和文本-文本)。此外,预训练数据集通常从网络上收集,本质上是嘈杂的。这导致学习退化的表示,其中跨模态特征无法捕捉到某些关键概念。随着Transformer在视觉和语言任务中越来越流行,现有的VLP方法采用Transformer架构来提取视觉和语言特征。具体来说,视觉Transformer(如ViT[12])和文本Transformer(如BERT[10])中的[CLS]标记被用来表示输入的全局信息。例如,ALBEF[26]最大化了视觉[CLS]和文本[CLS]之间的MI。然而,全局MI最大化未考虑输入中的局部和结构信息[1,20]。一个潜在的副作用是它鼓励编码器主要从某些不相关/嘈杂的图像块或文本标记中提取信息,这些图像块或文本标记主导了MI。在本文中,我们引入了一种名为三重对比学习(Triple ContrastiveLearning,简称TCL)的新型VLP框架。其核心思想是通过利用跨模态和内模态自监督来学习理想的表示,以便于融合编码器学习多模态交互。为了实现这一目标,TCL引入了三个对比模块:跨模态对齐(CMA)、内模态对比(IMC)和局部MI最大化(LMI),它们都依赖于MI最大化。具体来说,i)CMA通过最大化匹配的图像-文本对之间的全局MI,将嵌入匹配的图像-文本对拉在一起,将不匹配的对推开;ii)与CMA相辅相成,IMC通过最大化同一数据示例的不同增强视图之间的一致性,来最大化它们的全局MI;iii)LMI鼓励全局表示与输入的每个局部区域(如图像块和文本标记)之间具有高MI,旨在纠正全局MI最大化引入的副作用。这三个模块的组合使我们能够i)学习对于跨模态图像-文本对和内模态输入都有语义意义的表示;ii)通过提取在局部块/标记之间共享的相关特征,捕捉结构和局部信息。我们的主要贡献可以总结如下:0•我们利用跨模态和内模态自监督来提供互补的表示学习优势,有助于在融合编码器中建模更好的联合多模态特征;0•与其仅仅依赖全局信息进行多模态对比学习,我们提出利用图像和文本输入中的局部和结构信息,通过最大化局部MI来优化局部区域和全局摘要之间的关系;0全面的实证研究表明,TCL在广泛的视觉+语言基准测试中取得了新的最优结果,如图像-文本检索和VQA。具体而言,在零样本图像-文本检索任务中,我们的方法相对于ALIGN[23](在MSCOCO上的平均召回率为79.5% vs70.9%)取得了显著的改进。值得注意的是,ALIGN是在18亿个图像-文本对上进行预训练的,这大约是TCL(5M)的350倍。通过在一个包含1400万个图像-文本对的大规模数据集上预训练TCL,我们观察到了显著的性能提升,这意味着在更大的数据集上有进一步改进的潜力。为了研究TCL中每个组件的有效性,我们还进行了全面的消融研究,并进行了详细的分析。02. 相关工作0视觉-语言预训练(VLP)受到自监督学习在内模态任务中的成功启发,人们对于开发多模态任务(如视觉和语言)的预训练目标产生了浓厚的兴趣。例如,为了利用更广泛的文本监督来源,开创性的工作CLIP [39]预测哪些文本与哪些图像相匹配,从而得到一个与任务无关的模型,甚至与任务特定的监督模型相竞争。ALIGN[23]通过利用覆盖超过十亿个图像alt-text对的嘈杂数据集,进一步扩大了CLIP的规模。尽管取得了这些进展,CLIP和ALIGN主要设计用于基于视觉的下游任务,并忽略了预训练期间多模态之间的交互。为了适应视觉+语言任务(如VQA[18]和视觉推理),最近的研究提出了学习图像内容和自然语言的联合多模态表示。其中,OSCAR [28]、UNIMO[27]、VILLA [16]和UNITER[8]首先使用目标检测器(如Faster R-CNN[42])捕捉视觉特征,然后应用多层Transformer[45]对提取的视觉特征和文本特征的拼接进行联合嵌入学习。然而,这种策略存在一些限制,如i)使用目标检测器提取区域特征计算上的低效性和ii)预训练目标检测器中预定义的视觉词汇限制了视觉特征的质量。为了解决这个问题,SOHO[21]不依赖于基于区域的视觉特征,而是将整个图像作为输入,并通过视觉词典提取紧凑的图像特征,这比基于区域的方法具有10倍更快的推理时间。ViLT[24]完全舍弃了卷积视觉特征,采用视觉Transformer[12]对一系列固定大小且不重叠的图像块进行长程依赖建模。尽管这些方法取得了显著的性能,但它们在融合之前未进行图像-文本对齐,这使得学习不同模态之间的交互变得具有挑战性。为了解决这个问题,ALBEF[26]在模型融合之前应用对比损失来对齐图像和文本特征,从而使它们的联合建模变得更加容易。156730表示,这提供了最先进的性能。我们的方法与ALBEF有相似的精神,但存在以下明显差异:i)我们不仅进行跨模态对齐(CMA),还提出利用跨模态和内模态自监督来强制学习到的表示具有语义意义。其原理是仅进行跨模态对齐可能导致特征退化问题:虽然来自不同模态的特征被很好地分离,但来自同一模态的特征落在一个狭窄的锥体内并具有高相似性。ii)我们通过最大化局部区域和全局表示之间的互信息(MI)引入了局部对齐到跨模态场景。与ALBEF使用的全局对齐策略相比,最大化局部MI鼓励我们的模型学习跨图像补丁/文本标记共享的特征。此外,局部对齐防止了简单地捕捉噪声或不相关特征。CODIS[15]是一项并行工作,它采用教师-学生蒸馏范式来指导学习过程。与我们的方法不同,CODIS使用聚类表示进行特征对齐。0互信息最大化互信息(MI)旨在衡量随机变量之间的关系或确定共享信息的数量。MI广泛应用于无监督特征学习,其关键思想是最大化输入和输出之间的MI[30]。然而,对于高维随机变量,MI的估计非常困难且难以处理[35],尤其是对于深度神经网络。为此,MINE[2]利用双重优化提供了一个通用的MI估计器。另一种选择是InfoNCE[33],它是一种分类交叉熵损失,用于在一组负样本中识别正样本。InfoNCE被证明是MI的下界[33],因此最小化InfoNCE损失可以间接最大化MI。然而,现有研究仅仅最大化输入和输出之间的MI(即全局MI最大化),这被证明对于有意义的表示学习是不足够的[20]。DIM[20]通过引入局部MI来解决这个限制,即最大化图像输入的局部区域和编码器输出之间的平均MI。AMDIM[1]进一步扩展了DIM,最大化来自同一图像的独立增强的特征之间的MI。DIM和AMDIM都是在内模态任务中进行的。相反,我们引入了局部MI最大化来解决多模态问题,以改善跨模态表示学习。具体而言,我们鼓励全局表示与输入的每个局部区域(例如图像补丁和文本标记)之间的高MI。这使得表示更具可转移性,这在我们的实证研究中得到了证明。此外,我们的局部MI不是基于CNN网络,而是建立在transformer架构上。因此,transformer中的顺序补丁标记实际上使我们可以免费访问局部特征,而无需从中间层提取局部信息。0我们的实验表明,来自最后一层的补丁嵌入优于具有transformer骨干的中间层补丁。03. 方法0在本节中,我们首先描述了我们方法的模型架构(图1),然后是单模态表示学习。之后,我们详细介绍了提出的三重对比学习模块:跨模态对齐(CMA),内模态对比(IMC)和局部互信息最大化(LMI)。最后,我们简要介绍了两个预训练目标,即图像-文本匹配(ITM)和掩码语言建模(MLM)。03.1. 模型架构0我们方法的概述如图1所示,其中包含一个视觉编码器g(∙)用于从图像输入中学习视觉特征,一个文本编码器h(∙)用于从文本输入中学习语言特征,以及一个融合编码器用于学习多模态交互。所有这些编码器都采用基于transformer的架构[45],详细介绍在第4.3节中。对于每个编码器,我们维护一个配对的动量编码器,该编码器通过动量移动平均策略实现,遵循[19]中相同的设置。形式上,θˆg = mθˆg + (1 -m)θg,其中ˆg(∙)是动量视觉编码器,m∈[0,1]是动量系数。类似地,我们使用ˆh(∙)来表示动量文本编码器。单模态编码器g(∙)和h(∙)用于从给定输入中学习稳健的视觉和语言特征,然后应用对齐模块对学习到的特征进行跨模态和内模态表示的对齐。我们在以下各节详细介绍每个组件。03.2. 单模态表示学习0给定一个图像-文本对(I,T),对图像应用两个独立的增强操作,得到两个相关的“视图”,即I1和I2。根据[5,19],我们将同一图像的两个随机“视图”视为正样本对。每个增强后的图像被分割成固定大小的块,然后线性映射并嵌入位置信息[12]。类似于BERT[10],一个类标记[CLS]被添加到图像块之前,作为整个图像的表示。得到的I1的顺序嵌入最终被馈送到g(∙)中,以学习所需的视觉表示{vcls,v1,...,vM},其中M是图像块的总数。对于I2,我们使用ˆg(∙)来学习其表示{ˆvcls,ˆv1,...,ˆvM}。对于文本输入T,我们按照[10]的方法通过h(T)和ˆh(T+)获得{tcls,t1,...,tN}和{ˆtcls,ˆt1,...,ˆtN},其中N是文本标记的长度,T+ =T。为了建模图像和文本特征之间的交互,先前的VLP工作直接将融合编码器应用于{vcls,v1,...,vM}和{tcls,t1,...,tN}的连接,以学习联合多模态嵌入。然而,这种策略最明显的缺点是视觉和语言的Lnce(I1, T+, ˜T) = −Ep(I,T ) loge(sim(I1,T+)/τ)Ke(sim(I1, ˜Tk)/τ)Lnce(T, I2, ˜I) = −Ep(I,T )�loge(sim(T,I2)/τ)Kk=1 e(sim(T,˜Ik)/τ)�(2)Lcma = 12[Lnce(I1, T+, ˜T) + Lnce(T, I2, ˜I)](3)156740视觉编码器0融合编码器0ITM MLM0[CLS]视觉编码器(动量)[CLS]视觉编码器[CLS]文本编码器(动量)[CLS]文本编码器0图1.(A):我们框架的概述,包括一个视觉编码器,一个文本编码器和一个融合编码器。每个编码器都有一个通过基于动量的移动平均更新的配对动量编码器。对于图像输入,我们应用两个独立的数据增强操作符(a和b),这些操作符从相同的增强家族中进行采样。对齐模块包含三个对比目标(即CMA、IMC和LMI),用于跨模态和内模态表示学习(使融合编码器更容易学习联合多模态嵌入)。(B):利用跨模态和内模态监督的动机。原始图像(粉色)被增强为两个不同的视图(绿色)。对于仅CMA,中间图像只有一个正文本示例(绿色),并将其他文本(红色)视为负例。其嵌入(蓝色圆圈)将接近其正文本示例。通过结合IMC,它有两个正例(一个文本和一个图像)和两组负例(一个来自文本,一个来自图像),并倾向于学习更合理的嵌入(蓝色方块)。0特征位于不同的嵌入空间中,这对于融合编码器来学习它们的交互是具有挑战性的[26]。为了缓解这个限制,我们提出了一个对齐模块,应用于融合之前学到的视觉和语言特征。具体而言,我们的对齐模块包含三个对比学习目标,即CMA、IMC和LMI。我们在下面讨论每个目标,并展示它们在特征对齐中发挥互补作用,并有助于多模态特征融合。03.3. 跨模态对齐(CMA)0CMA的目标是将匹配的图像-文本对(从联合分布中采样)的嵌入拉近,同时将不匹配的对(从边缘分布的乘积中采样)的嵌入推开。换句话说,CMA旨在最大化匹配的图像和文本之间的互信息,这些图像和文本被假设为描述相同语义含义。例如,图1(A)中的文本描述了配对图像中的高级信息(例如,某些事件的发生或某些对象的存在)。由于直接最大化连续和高维变量的互信息是棘手的[2],我们改为最小化InfoNCE损失[33],该损失表示互信息的下界。形式上,图像到文本的InfoNCE损失定义如下:0(1)其中τ是温度超参数,˜T = {˜T1,...,˜TK}是一组与I1不匹配的负文本示例,sim(I 1,T +) = f v(v cls) T ˆ f t(ˆ tcls),其中f v(∙)和ˆf t(∙)是两个投影头,将表示映射到空间中0其中应用了InfoNCE损失。为了保持负文本样本˜T,根据[26],我们使用一个大队列来保存最近的K个投影表示ˆf t(ˆtcls)。类似地,文本到图像的损失定义为:0其中sim(T, I 2) = f t(t cls) T ˆ f v(ˆ v cls),f t(∙)和ˆfv(∙)是两个投影头。˜I ={˜I1,...,˜IK}是一个负图像示例队列,其中存储了最近的K个投影特征ˆf v(ˆvcls)。综上所述,我们定义CMA的损失为:0直观地说,通过最小化Lcma,我们鼓励视觉特征和语言特征在嵌入空间中良好对齐,从而简化特征融合。然而,CMA损失1忽略了每个模态内的自监督,因此无法保证学习特征的理想表达性。原因是:i)文本通常无法完全描述配对的图像。例如,尽管图1(A)中的文本捕捉了图像中大部分显著对象,但它忽略了每个对象的详细特征,例如男人的衣服。因此,简单地将图像-文本嵌入拉在一起会导致表示降级(图1B);ii)用于预训练的图像-文本对本质上是有噪声的,这使问题i)变得更糟。为了缓解这些限制,我们01 ALBEF [26]通过设置I 1 = I 2应用了特殊情况的L cmaLimc = 12[Lnce(T, T+, ˜T) + Lnce(I1, I2, ˜I)](4)� 1M156750进一步提出通过引入模态内对比(IMC)目标来利用模态内自监督。03.4. 模态内对比(IMC)0与CMA不同,IMC试图学习同一模态内正负样本之间的语义差异。对于视觉模态,我们将同一图像I的两个随机“视图”(I 1,I 2)视为正对。根据[5, 19],我们通过使用对比损失Lnce(I 1,I 2,˜I)来最大化(I 1,I2)之间的一致性。类似于方程2,我们定义sim(I 1,I 2) = fv(v cls) T ˆ f v(ˆ vcls)。对于文本输入,我们遵循[17],以对比目标预测文本本身。这是通过将标准的dropout作为文本的最小数据增强,并为相同的正对应用独立采样的dropout掩码来实现的,即T+ =T。与[17]不同,该方法使用了相同的负文本队列˜T,而不是使用批内负样本。对比目标可以通过L nce(T, T +,˜T)来描述,其中sim(T, T +) = f t(t cls) T ˆ f t(ˆ tcls)。总体而言,我们最小化以下目标以保证合理的模态内表示学习。0具体而言,我们的模型被鼓励学习保持模态内语义相关正对之间的对齐的表示。最重要的是,L imc强制整个图像和文本的表示空间的均匀性,使嵌入均匀分布[47]。因此,CMA和IMC在表示学习中起到互补的作用:i)CMA将匹配的图像-文本对映射到嵌入空间中,ii)IMC最大化了不同增强视图之间的一致性。将它们结合起来可以提高学习表示的质量(图1B),并进一步促进融合编码器中的联合多模态学习。IMC的一个局限性是它仅对视觉编码器和文本编码器的[CLS]标记执行对比目标,其中假设[CLS]标记表示输入的全局信息。换句话说,IMC最大化了不同增强视图之间的全局互信息。然而,全局互信息最大化的缺点在于:i)它忽略了输入中的局部和结构信息[1,20];ii)某些不相关的局部区域可能主导互信息,导致模型偏向于学习不相关的特征。例如,噪声补丁可以表示比重复出现的语义有意义的补丁更多的“数量”[20]。为了解决这个问题,我们将局部互信息最大化引入多模态表示学习,如下所述。03.5. 局部互信息最大化(LMI)0局部互信息最大化的目标是鼓励全局表示与输入的每个局部区域(例如图像块和文本标记)之间具有高互信息。我们不再将[CLS]标记对(例如(I1, I2)的(vcls,ˆvcls))视为正对,而是将一个增强版本的[CLS]标记与另一个独立增强版本的输入中的图像块嵌入配对。为了方便起见,我们以视觉输入(I1,I2)为例。具体而言,我们将{ˆvi}Mi=1视为vcls的正例,而同一批次中其他图像的图像块嵌入用于构建负例。类似地,我们将{ˆtj}Nj=1视为tcls的正例,而批次内其他文本的文本标记为负例。我们通过最小化以下损失来最大化全局和局部区域之间的平均互信息:0Llmi = 10i =1 Lnce(I1, Ii2, ˜Il) +10j =1 Lnce(T, Tj+, ˜Tl)�0(5)其中sim(I1, Ii2) = fv(vcls)Tˆfv(ˆvi),sim(T, Tj+) =ft(tcls)Tˆft(ˆtj),˜Il和˜Tl分别是批次内负图像和文本块嵌入。因此,最小化Llmi使得我们的模型能够对所有块共享的数据进行编码,而不是对某些主导MI的块进行编码。另一个角度是,局部MI最大化鼓励模型从全局表示中预测局部表示,这迫使模型也捕捉到细粒度信息,并进而有益于联合表示学习。03.6. 图像-文本匹配(ITM)0为了融合视觉和语言表示,我们采用了在先前的VLP研究中广泛使用的ITM。给定一个图像-文本对,ITM预测它们是否匹配(正例)或不匹配(负例),可以看作是一个二分类问题。根据[26],融合编码器以{vcls, v1, ..., vM}和{tcls, t1, ...,tN}作为输入。我们使用融合编码器的[CLS]标记作为输入图像-文本对的联合表示,然后将其输入到全连接层中预测匹配概率ϕ(I,T)。我们假设从预训练数据集中采样的每个图像-文本对(I,T)都是正例(标签为1),并通过批次采样[26]构建负例(标签为0)。ITM损失定义如下:0Litm = Ep(I,T)H(ϕ(I,T), y(I,T)) (6)0其中H(;)是交叉熵,y(I,T)表示标签。03.7. 掩码语言建模(MLM)0我们采用BERT[10]中的MLM,旨在预测被屏蔽的文本标记Tmsk的真实标签。具体而言,我们以概率为p随机屏蔽文本标记。COCOVGSBUCCCC12M156760# 图像 113K 100K 859K 2.92M 10.97M # 文本 567K 769K 859K2.92M 10.97M0表1. 预训练数据集的统计信息。0对于15%的文本标记,我们将其80%的时间替换为特殊的[MASK]标记,10%的时间替换为随机单词,剩下的10%的时间保持不变[10]。与BERT不同,我们的MLM是基于Tmsk的周围文本标记和图像表示的。MLM损失定义如下:0Lmlm = Ep(I,Tmsk)H(Φ(I, Tmsk), yTmsk) (7)0其中,Φ(I,Tmsk)是Tmsk的预测概率,yTmsk是真实值。我们模型的整体训练目标是:0L = Lcma + Limc + Llmi + Litm + Lmlm (8)04. 实验04.1. 预训练数据集0根据先前的实验方案[8, 26],我们在我们的研究中使用COCO[29]、Visual Genome (VG) [25]、Conceptual Captions (CC)[43]和SBU Captions[34]作为预训练数据集,共涵盖了4.0M个唯一图像和5.1M个图像-文本对。我们在研究中将这个数据集称为4M数据集。为了证明我们的方法可以应用于大规模数据集,我们进一步使用CC12M[3]。结合4M数据集,我们因此获得了包含14.97M个唯一图像和16M个图像-文本对的大规模预训练数据(表1)。04.2. 下游任务0图像-文本检索包括两个任务:(1)以图像为查询,以文本为目标(TR);(2)以文本为查询,以图像为目标(IR)。通过遵循微调和零样本设置,对预训练模型在Flickr30K[37]和COCO[29]上进行评估。对于微调设置,预训练模型在训练数据上进行微调,并在验证/测试数据上进行评估。对于零样本设置,预训练模型直接在测试数据上进行评估。特别地,在Flickr30K上进行零样本检索时,我们遵循[26]的方法评估在COCO上进行微调的模型。0视觉问答(VQA)[18]旨在预测给定图像和问题(以文本格式)的答案,这需要理解视觉、语言和常识知识来回答。我们按照[26]中的相同设置将这个任务视为生成问题。具体而言,通过微调答案解码器来从3192个候选项中生成答案。0视觉蕴涵(SNLI-VE)[48]预测给定图像在语义上是否蕴含给定文本,这是一个三类别分类问题。具体而言,任何给定的图像-文本对之间的类别或关系可以是蕴含、中性或矛盾。与VQA相比,这个任务需要细粒度的推理能力。0视觉推理(NLVR2)[44]确定自然语言标题是否与一对照片相关。我们在包含107,292个人工编写的英语句子与网络照片配对的NLVR2数据集上评估我们的模型。由于这个任务以文本和两个图像作为输入,我们按照[26]的方法对我们的模型进行扩展。04.3. 实现细节0我们的所有实验都在8个NVIDIA A100GPU上使用PyTorch框架[36]进行。我们的视觉编码器采用ViT-B/16,具有12层和85.8M个参数。文本编码器和融合编码器都采用6层Transformer实现。它们分别由BERTbase的前6层和后6层(共123.7M个参数)进行初始化。我们设置K = 65536和m =0.995。在预训练阶段,模型在批量大小为512的情况下进行30个epoch的训练。我们使用带有0.02权重衰减的小批量AdamW优化器[31]。学习率初始化为1e-5,并在训练迭代次数达到2000次后逐渐增加到1e-4。然后,按照余弦衰减策略将其降低到1e-5。对于数据增强,从随机调整大小的图像中裁剪出256×256像素的区域,然后进行随机颜色抖动、随机灰度转换、随机高斯模糊、随机水平翻转和RandAugment[9]。在微调阶段,图像分辨率增加到384×384,并根据图像块的数量插值位置编码。04.4. 图像-文本检索评估0为了评估学习表示的泛化能力,常见的做法是将训练好的模型进行零样本迁移到下游任务。我们按照标准评估协议,在Flickr30K和COCO数据集上进行零样本图像-文本检索任务的基准测试。如表2所示,我们的方法在性能上表现最好,远远超过现有的最先进方法。与直接使用变压器编码器来建模单词和图像块嵌入之间交互的ViLT[24]相比,我们在COCO上提高了9.5%(平均)的性能,在Flickr30K上提高了12.2%(平均)的性能,揭示了在融合之前进行跨模态对齐的必要性。ALBEF[26]与我们的工作密切相关,它首先对齐图像和文本嵌入,然后使用融合编码器学习联合表示。此外,ALBEF与我们的方法共享相同的预训练数据集,因此可以进行比较。然而,ALBEF忽略了内部模态的监督,因此学习特征的表达能力受到限制。156770方法 #图像0MSCOCO(5K)Flickr30K(1K)0文本检索 图像检索 文本检索 图像检索0R@1 R@5 R@10 R@1 R@5 R@10 R@1 R@5 R@10 R@1 R@5 R@100ImageBERT [38] 6M 44.0 71.2 80.4 32.3 59.0 70.2 70.7 90.2 94.0 54.3 79.6 87.5 UNITER [8] 4M 64.1 87.7 93.3 48.8 76.7 85.8 80.795.7 98.0 66.2 88.4 92.9 ViLT [24] 4M 56.5 82.6 89.6 40.4 70.0 81.1 73.2 93.6 96.5 55.0 82.5 89.8 CLIP [39] 400M 58.4 81.5 88.137.8 62.4 72.2 88.0 98.7 99.4 68.7 90.6 95.2 ALBEF [26] 4M 68.7 89.5 94.7 50.1 76.4 84.5 90.5 98.8 99.7 76.8 93.7 96.7 我们的方法4M 71.4 90.8 95.4 53.5 79.0 87.1 93.0 99.1 99.6 79.6 95.1 97.40ALIGN [23] 1.2B 58.6 83.0 89.7 45.6 69.8 78.6 88.6 98.7 99.7 75.7 93.8 96.80表2. 在Flickr30K和COCO数据集上进行零样本图像-文本检索的性能比较。为了完整起见,我们还提供了ALIGN[26]的结果,该方法使用了1.8B个图像-文本对(1.2B个唯一图像)进行预训练。对于文本检索(TR)和图像检索(IR),我们报告R@1、R@5和R@10的平均值。0方法 #图像0MSCOCO(5K)Flickr30K(1K)0文本检索 图像检索 文本检索 图像检索0R@1 R@5 R@10 R@1 R@5 R@10 R@1 R@5 R@10 R@1 R@5 R@100ImageBERT [38] 6M 66.4 89.8 94.4 50.5 78.7 87.1 87.0 97.6 99.2 73.1 92.6 96.0 UNITER [8] 4M 65.7 88.6 93.8 52.9 79.9 88.0 87.398.0 99.2 75.6 94.1 96.8 VILLA [16] 4M � � � � � � 87.9 97.5 98.8 76.3 94.2 96.8 OSCAR [28] 4M 70.0 91.1 95.5 54.0 80.8 88.5 � � � � � � ViLT[24] 4M 61.5 86.3 92.7 42.7 72.9 83.1 83.5 96.7 98.6 64.4 88.7 93.8 UNIMO [27] 4M � � � � � � 89.7 98.4 99.1 74.7 93.47 96.1 SOHO [21]200K 66.4 88.2 93.8 50.6 78.0 86.7 86.5 98.1 99.3 72.5 92.7 96.1 ALBEF [26] 4M 73.1 91.4 96.0 56.8 81.5 89.2 94.3 99.4 99.8 82.896.7 98.4 我们的方法 4M 75.6 92.8 96.7 59.0 83.2 89.9 94.9 99.5 99.8 84.0 96.7 98.50ALIGN [23] 1.2B 77.0 93.5 96.9 59.9 83.3 89.8 95.3 99.8 100.0 84.9 97.4 98.60表3. 在Flickr30K和COCO数据集上进行微调的图像-文本检索性能比较。为了完整起见,我们还提供了ALIGN[26]的结果,该方法使用了1.8B个图像-文本对(1.2B个唯一图像)进行预训练。0方法 #图像 VQA NLVR 2 SNLI-VE0test-dev test-std dev test-P val test0OSCAR [28] 4M 73.16 73.44 78.07 78.36 � � UNITER [8] 4M 72.70 72.9177.18 77.85 78.59 78.28 ViLT [24] 4M 71.26 � 75.7 76.13 � � UNIMO [27]4M 73.29 74.02 � � 80.0 79.1 VILLA [16] 4M 73.59 73.67 78.39 79.3079.47 79.03 ALBEF [26] 4M 74.54 74.70 80.24 80.50 80.14 80.30我们的方法 4M 74.90 74.92 80.54 81.33 80.51 80.290VinVL [49] 6M 75.95 76.12 82.05 83.08 � �0表4. 视觉+语言任务的性能比较。0与ALBEF相比,我们的方法通过明确利用全局和局部视角的模态内信息,在MSCOCO(5K)数据集上带来了+2.7%的TR/R@1提升和+3.4%的IR/R@1提升。有关模态内表示分析的详细信息请参见补充材料。值得一提的是,我们的方法在COCO上的平均值为79.5% vs70.9%,在Flickr30K上的平均值为94.0% vs92.2%,相比之下,ALIGN的预训练图像-文本对数量约为我们模型的360倍。这一观察结果表明我们的方法更具数据效率,主要是因为0考虑到模态内监督的影响,我们的方法学习到的表示比现有基线更通用和可迁移。对于微调实验,我们在中等规模的COCO数据集上取得了新的基准结果,如表3所示。我们在TR/R@1和IR/R@1上分别超过了ALBEF [26]2.5%和2.2%的绝对值,表明我们的模型可以进一步从全监督训练中受益。在小规模的Flickr30K数据集上,我们也与先前的基线方法相比具有竞争力。唯一的例外是ALIGN[23],在COCO和Flickr30K上的平均值(89.69% vs89.21%)超过了我们的方法,但代价是巨大的计算资源。这对于预算有限的场景/研究人员来说尤其是一个问题。我们相信我们的方法也可以从更大的预训练数据集中获得很大的好处,这在第4.6节中有证据。04.5. VQA、VE和NLVR 20表4显示了在需要图像+文本作为输入的VQA、VE和NLVR2上的性能比较。换句话说,为了在这些任务中取得成功,模型应具备学习联合多模态嵌入的能力。在六个标准中的五个中,我们取得了最先进的结果,这表明明确考虑跨模态对齐和内模态监督对特征的贡献。71.5 52.9 92.4 79.1 75.7 58.6 94.6 83.3156780模块0零样本微调0MSCOCO Flickr30K MSCOCO Flickr30K0TR IR TR IR TR IR TR IR0CMA+ITM+MLM 68.7 50.1 90.5 76.8 73.1 56.8 94.3 82.8+IMC(无增强) 71.1 52.2 92.0 78.6 75.0 58.6 94.5 82.9 +IMC 71.453.3 92.1 78.9 75.6 58.8 95.1 83.1 +IMC+LMI(我们的方法)71.453.5 93.0 79.6 75.6 59.0 94.9 84.00表5.对图像-文本检索任务中每个组件的消融研究。报告了R@1。对于CMA+ITM+MLM,我们使用了ALBEF [26]的结果。0池化 中间层0零样本微调0MSCOCO Flickr30K MSCOCO Flickr30K TR IRTR IR TR IR TR IR0� 71.4 52.9 91.5 77.9 75.7 58.6 94.4 82.3 � � 71.8 53.2 93.2 79.2 75.658.7 94.8 82.8 � 71.4 53.5 93.0 79.6 75.6 59.0 94.9 84.00表6.对图像-文本检索中图像块池化和中间层局部特征的消融研究。报告了R@1。0VinVL[49]优于我们的方法的主要原因是它的预训练语料库包含了视觉问答数据集,包括GQA [22]、VQA [18]和VG-QAs。04.6. 消融研究0为了了解新提出的模块(即IMC和LMI)在改善多模态表示学习中的有效性,我们在图像-文本检索任务上进行了消融研究,如表5所示。由于ALBEF[26]是通过使用损失函数CMA+ITM+MLM实现的,因此我们将ALBEF的结果作为基准。我们研究了两种IMC的选择,即i)IMC(无增强):只对输入图像应用随机裁剪、随机水平翻转和RandomAugment,并按照ALBEF的方法设置I1=I2;ii)IMC:I1和I2是输入图像的两个增强视图,采用更强的数据增强,如第4.3节所讨论。这两种策略都可以大幅提高性能,而更强的数据增强效果更好,这与以前的研究一致[5,6]。通过加入LMI,性能进一步提高,表明局部化和结构化信息在表示学习中的重要性。在预训练阶段,每个图像被分成256个大小为16×16的块。为了排除小图像块可能不包含足够信
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索AVL树算法:以Faculdade Senac Porto Alegre实践为例
- 小学语文教学新工具:创新黑板设计解析
- Minecraft服务器管理新插件ServerForms发布
- MATLAB基因网络模型代码实现及开源分享
- 全方位技术项目源码合集:***报名系统
- Phalcon框架实战案例分析
- MATLAB与Python结合实现短期电力负荷预测的DAT300项目解析
- 市场营销教学专用查询装置设计方案
- 随身WiFi高通210 MS8909设备的Root引导文件破解攻略
- 实现服务器端级联:modella与leveldb适配器的应用
- Oracle Linux安装必备依赖包清单与步骤
- Shyer项目:寻找喜欢的聊天伙伴
- MEAN堆栈入门项目: postings-app
- 在线WPS办公功能全接触及应用示例
- 新型带储订盒订书机设计文档
- VB多媒体教学演示系统源代码及技术项目资源大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功