没有合适的资源?快使用搜索试试~ 我知道了~
𝜃!𝜃!𝜃"𝜃"151840ViSTA:用于跨模态检索的视觉和场景文本聚合0程孟君2* 孙一鹏1*† 王龙超1 朱雄伟10姚坤1 陈杰2 宋国立3 韩俊宇1 刘景拓1 丁尔瑞1 王京东10计算机视觉技术部(VIS),百度公司10北京大学电子与计算机工程学院,2号彭城实验室30{sunyipeng, wanglongchao, zhuxiongwei, yaokun01, hanjunyu, liujingtuo}@baidu.com0mjcheng@stu.pku.edu.cn,{chenj, songgl}@pcl.ac.cn,{dingerrui, wangjingdong}@baidu.com0摘要0视觉外观被认为是理解图像进行跨模态检索最重要的线索,而图像中出现的场景文本有时可以提供有价值的信息来理解视觉语义。大多数现有的跨模态检索方法忽略了场景文本信息的使用,直接添加这些信息可能会导致在无场景文本的情况下性能下降。为了解决这个问题,我们提出了一个完整的Transformer架构,将这些跨模态检索场景统一到一个ViSTA(Vi sion and S cene T ext Aggregation)框架中。具体而言,ViSTA利用Transformer块直接编码图像块并融合场景文本嵌入,以学习用于跨模态检索的聚合视觉表示。为了解决场景文本的模态缺失问题,我们提出了一种基于融合标记的Transformer聚合方法,仅通过融合标记交换必要的场景文本信息,并集中于每个模态中最重要的特征。为了进一步加强视觉模态,我们开发了双对比学习损失,将图像-文本对和融合-文本对嵌入到一个共同的跨模态空间中。与现有方法相比,ViSTA能够将相关的场景文本语义与视觉外观进行聚合,从而在无场景文本和有场景文本的情况下改善结果。实验结果表明,ViSTA在有场景文本的检索任务的Recall@1上至少比其他方法提高了8.4%。与最先进的无场景文本检索方法相比,ViSTA在Flicker30K和MSCOCO上可以在推理阶段运行至少三倍更快,从而验证了该框架的有效性。0* 相等贡献。本工作是在程孟君在百度公司担任研究实习生期间完成的。†通讯作者。0查询:“一个人手里拿着一个糖果热狗。”0场景文本缺失0场景文本嵌入0视觉嵌入0图像0图像0� ! ≈ � " � " < � !0(a)传统的跨模态检索(b)视觉和场景文本聚合0图1.给定一个文本查询,对于(a)传统的跨模态检索来说,两个图像在视觉语义上是相似的。通过考虑视觉外观和场景文本信息,例如“gummyhotdog”,在一个框架中(b)提出的ViSTA方法能够区分图像I1和I2之间的语义差异(θ2 <θ1),并且也可以适应传统的无场景文本的情况。01. 引言0作为最重要的多模态理解任务之一,跨模态检索由于其宝贵的应用,如新闻搜索和产品检索,受到了广泛关注。跨模态文本到图像检索[10, 11,22]旨在基于查询的文本内容和图像的视觉外观之间的相关性返回最相关的候选项。通过更好的视觉表示和详细的图像-文本对齐[3, 22, 25,28],这种检索任务的性能得到了很大的改进。近年来,继BERT[7]在自然语言建模方面的成功之后,采用了基于Transformer的单编码器架构[5, 15, 16, 20, 23, 26, 29, 36, 44, 47,49]来融合图像和文本,并且图像-文本预训练用于微调成为建模视觉语言任务的主流范式,显著提升了251850然而,这些具有图像和文本之间深度交互的方法在大规模跨模态检索任务中速度慢得多,因此不切实际。作为双编码器架构,CLIP [37]、ALIGN [18]和WenLan[17]通过分别编码图像和文本来利用跨模态对比预训练,这使得图像和文本特征可以在离线设置中计算,以有效地计算大规模图像-文本对之间的相似性。尽管百万级图像-文本对的对比预训练[37]极大地提高了跨模态检索任务的性能,但仍然难以学习特定的细粒度视觉概念,例如图像中的场景文本语义[37]。最近,提出了一种新的跨模态检索任务[31],可以在图像中使用场景文本及其视觉外观。具体而言,该任务中的图像与相应的场景文本特征配对,有助于确定查询的文本内容与图像的视觉外观加上场景文本之间的相似性。由于利用了额外的场景文本特征,该模型可以提高跨模态检索的准确性,而不仅仅利用视觉外观。然而,在实际的图像语料库中,只有一小部分图像包含场景文本实例。为了解决场景文本缺失的问题,专门为场景文本感知检索任务设计的模型可能无法在没有场景文本实例的图像之间生成可靠的相似性,并且无法适应传统的场景文本自由检索任务。0为了解决这个问题,我们提出了一种有效的ViSTA(Vi sionand S cene T ext Aggregation)框架来处理场景文本感知和场景文本自由的跨模态检索任务。具体而言,ViSTA利用一个完整的变压器设计来直接编码图像补丁并融合场景文本嵌入以学习聚合的视觉表示。为了使每种模态专注于其最重要的特征,我们提出了一种基于令牌的聚合方法,通过融合令牌仅共享必要的场景文本信息。为了解决场景文本缺失的问题,我们进一步开发了双对比监督方法来增强视觉模态,并将图像-文本对和融合-文本对嵌入到一个共同的跨模态空间中。与现有的融合方法相比,ViSTA能够将相关的场景文本语义与视觉外观进行聚合,从而在场景文本自由和场景文本感知的情况下改善结果。0本文的贡献有三个方面。1)我们提出了一个完整的变压器架构,可以有效地聚合视觉和场景文本,适用于场景文本感知和场景文本自由的检索场景。2)我们提出了基于融合令牌的变压器聚合设计,以在视觉和场景文本特征之间交换相关信息,并使用双对比损失来增强视觉模态。0增强视觉特征。3)所提出的跨模态检索框架在场景文本感知检索任务上明显优于现有方法,并在场景文本自由检索基准上取得比现有方法更好的性能。据我们所知,这是第一次使用视觉和场景文本聚合变压器来解决场景文本自由和场景文本感知的跨模态检索任务。02. 相关工作0跨模态检索旨在在给定文本或图像查询的情况下返回相关的图像或文本描述。大多数方法学习一个联合的跨模态嵌入空间,以产生语义相关的图像和文本对的更接近的表示[10,11,33]。自从深度学习时代以来,用于跨模态检索的视觉表示一直在不断改进,从基于网格的CNN(卷积神经网络)[10]到预训练的目标检测器[22,25]。与此同时,还开发了更精细的图像-文本对齐方法,例如注意力机制、迭代匹配和基于图的图像特征和文本嵌入之间的关系推理[3,8,22,25,28]。这些方法大多依赖于从在VisualGenome(VG)数据集上预训练的Faster-RCNN检测器提取的RoI(感兴趣区域)特征,这限制了对域外视觉概念的性能。相比之下,ViSTA直接将图像补丁作为输入,并建立在最近的对比图像-文本预训练范式之上,通过端到端训练以更快的推理速度实现更好的性能。视觉语言预训练已成为多模态理解的主流范式,可以显著提升各种视觉和语言任务的性能,例如跨模态检索和视觉问答(VQA)等。这些方法大多使用基于transformer的架构,可以分为单编码器和双编码器预训练。单编码器架构[5,15,16,20,23,26,29,36,41,42,44,47,49]用于将图像和文本与多模态transformer进行融合,以进行交互,在各种下游任务中具有高准确性。为了加快推理阶段的速度并适应更多的视觉类别,利用基于网格的图像特征[15,16]和新提出的基于补丁的图像嵌入方法[20,24,44]进行端到端训练,直接将图像像素或补丁和文本嵌入作为输入。然而,这些方法的计算成本仍然巨大,对于大规模的跨模态检索任务来说是不切实际的。相反,双编码器架构[17,18,37]将图像和文本分别编码,使得可以在线性时间复杂度内计算图像-文本对的相似性。尽管百万级图像-文本对的对比预训练[37]极大地提高了跨模态检索任务的性能,但仍然难以有效地学习特定的细粒度视觉概念,例如图像中的场景文本语义[37]。最近,提出了一种新的跨模态检索任务[31],可以在图像中使用场景文本及其视觉外观。具体而言,该任务中的图像与相应的场景文本特征配对,有助于确定查询的文本内容与图像的视觉外观加上场景文本之间的相似性。由于利用了额外的场景文本特征,该模型可以提高跨模态检索的准确性,而不仅仅利用视觉外观。然而,在实际的图像语料库中,只有一小部分图像包含场景文本实例。为了解决场景文本缺失的问题,我们进一步开发了双对比监督方法来增强视觉模态,并将图像-文本对和融合-文本对嵌入到一个共同的跨模态空间中。与现有的融合方法相比,ViSTA能够将相关的场景文本语义与视觉外观进行聚合,从而在场景文本自由和场景文本感知的情况下改善结果。[IMG][FUS][FUS][CLS][CLS]123456123456[CLS]𝑚! 𝑝"𝑚! 𝑝#𝑚! 𝑝$𝑚! 𝑝%𝑚! 𝑝&𝑚! 𝑝'𝑚" 𝑝"𝑏"𝑚" 𝑝#𝑏#𝑚$ 𝑝"𝑚$ 𝑝#𝑚$ 𝑝$𝑚! 𝑝! ∗𝑚# 𝑝! ∗𝑚" 𝑝!𝑏!∗𝑚$ 𝑝! ∗[IMG]b(”𝑥!!, 𝑦!!, 𝑥"!, 𝑦"!” ”𝑥!", 𝑦!", 𝑥"", 𝑦""”351860扁平化补丁的线性投影0OCR0视觉编码器0“ATM” “RMAN”0文本Transformer0“一个年轻人咬着一个热狗…”0输入文本描述0融合-文本对比损失0输入图像0文本嵌入0场景文本编码器 视觉编码器0场景文本编码器0视觉和场景文本聚合0图像-文本对比损失0视觉和场景文本编码器 文本编码器0图像嵌入 融合嵌入 场景文本嵌入0模态类型嵌入 !�!位置!嵌入!�!!场景文本实例的2D位置嵌入!�!图像令牌0共享0场景文本嵌入0文本嵌入 额外可学习的嵌入0添加0图2.提出的视觉和场景文本聚合(ViSTA)跨模态检索框架。通过基于融合令牌的视觉场景文本聚合层,ViSTA通过双编码器Transformer架构学习一个共同的跨模态空间,分别通过图像-文本对和融合-文本对之间的双对比损失进行监督。0训练[37],学习特定的细粒度视觉概念,例如从图像中学习场景文本语义仍然困难且效果不佳[37]。相比之下,ViSTA将视觉和场景文本结合到一个基于Transformer的双编码器架构中,将图像补丁、场景文本和文本查询作为统一的跨模态检索输入。视觉和语言中的场景文本受到了广泛关注,作为先前应用的扩展,例如基于文本的图像标题[39,45]和文本-VQA[2,40,45,48,50]。所有这些方法都利用OCR(光学字符识别)结果来形成场景文本嵌入[2,12,40,45],遵循具有RoI区域特征的典型单流Transformer[29]的架构。用于场景文本检索任务的其他工作[12][43]旨在返回包含查询词的图像,并且基于CNN的融合方法[1]将场景文本和视觉外观集成在一起,以提高特定场景下的细粒度图像分类性能。最近,StacMR[31]引入了场景文本感知的跨模态检索(StacMR),将场景文本作为附加模态,利用GCN(图卷积网络)获取图像和场景文本的上下文表示进行最终融合。与所有这些方法不同,ViSTA利用全Transformer块对图像补丁和场景文本进行编码,并进行中层融合,可以适应场景文本感知和场景文本自由的情况。03. 方法0我们提出的ViSTA框架的整体架构是一个双编码器架构,如图所示0在图2中,这使得大规模跨模态检索变得实用。为了实现更好的检索准确性,我们采用了全Transformer设计,通过单模态编码器分别对图像、场景文本和文本查询进行编码,然后将它们进行进一步聚合并计算跨模态对比损失。整个模型包括视觉、场景文本和文本编码器都可以进行端到端的训练,这允许通过跨模态预训练[16][15][20][44]来提高泛化能力。为了将视觉特征与相关的场景文本语义融合起来,我们提出了一种基于融合令牌的聚合方法,仅通过融合令牌在这两种模态之间共享相关信息。因此,该令牌可以在每个Transformer层中看到所有信息,并可用于融合文本对比学习。由于场景文本实例在图像中并不经常出现,并且在某些情况下,场景文本与图像之间的相关性在视觉语义上可能较弱。因此,为了增强视觉表示而不是过度拟合嘈杂的场景文本特征,我们还在最后一层利用图像令牌进行有效的图像-文本对比学习。通过这样的设计,ViSTA可以有效地适应场景文本感知和场景文本自由的检索场景。0问题定义。给定一组图像和文本对,视觉和场景文本编码器旨在对图像I进行编码,并识别出出现在该图像中的场景文本。场景文本实例包含一组N o个由OCR模型检测到的单词和位置,表示为O = {o word j, obbox j} N o j =1。如果图像中没有检测到场景文本,则O可以为空集合�。在场景文本感知的文本到图像检索任务中,模型需要生成一个文本查询q和每个图像I之间的相似度得分S(q,I),该得分基于查询的文本内容和图像的视觉特征V以及场景文本特征O的相关性。+Yl ← MHSA(LN([Vl; Fl])) + [Vl; Fl][Vl+1; VFUS] ← MLP(LN(Yl)) + Yl,(4)Yl ← MHSA(LN([Sl; Fl])) + [Sl; Fl][Sl+1; SFUS] ← MLP(LN(Yl)) + Yl,(5)451870检索任务[31]要求模型根据查询的文本内容和图像的视觉特征V以及场景文本特征O的相关性,生成文本查询q和每个图像I之间的相似度得分S(q,I)。在场景文本自由的文本到图像检索任务中,与传统的文本到图像检索相同,图像中不出现场景文本实例。因此,这些图像仅根据视觉外观与文本查询内容之间的相关性进行排序。03.1. 视觉和场景文本编码器0继视觉transformer[9]的成功之后,视觉编码器直接将图像补丁作为输入。通过将图像切割成多个补丁,形成一个简单的线性投影,然后将其输入transformer。对每个补丁标记添加位置嵌入以编码位置信息。此外,还插入了设计的特殊标记[IMG]的嵌入。视觉编码器建立在一堆L v个标准transformer层上。用Vl表示第l个视觉transformer层的输入序列。第l层的输出序列作为下一层的输入序列,计算如下0Y l ← MHSA(LN(V l)) + V l V l+1 ←MLP(LN(Y l)) + Y l, (1)0其中MHSA(∙)表示多头自注意力层,MLP(∙)表示多层感知层,LN(∙)表示层归一化。第一个transformer块的输入V 1只是补丁序列P。最后一个视觉变换层的输出V Lv作为视觉特征V = {v j} N v j = 1。具体而言,V L v中的第j个项目对应于v j,即v j = V Lv[:, j]。与视觉编码器类似,场景文本编码器是一堆Ls个标准transformer层。输入场景文本嵌入主要是通过Google API[13]从OCR结果获得,并以标记形式编码。这些OCR结果的输入标记与模态类型Stype相结合。0以及位置嵌入S token id为0S init = Embedding(o word) + S type + S token id. (2)0根据Text-VQA [14]中的先前方法,使用BERT[7]编码的场景文本嵌入可以进一步与OCR标记的4维位置信息结合,使用归一化的边界框坐标o bbox0可以表示为0S 0 = BERT(S init) + F linear(o bbox), (3)0其中Flinear将归一化的坐标线性投影到与编码的场景文本标记大小相同的二维位置嵌入中。0视觉transformer层 场景文本transformer层0图像标记0融合标记0场景文本标记0+ 逐元素求和0图3.视觉场景文本聚合层。两种模态之间共享的融合标记交换相关信息,以学习场景文本聚合的视觉表示。03.2. 视觉和场景文本聚合0由于图像中出现的场景文本可能提供有价值的信息,而大多数情况下图像不包含任何场景文本信息,因此场景文本与视觉外观之间的语义相关性因情况而异,相关性可能较弱。因此,将这两种不同的模态聚合成统一的视觉表示以进行有效的跨模态检索是具有挑战性的。为了处理场景文本感知和场景文本自由的跨模态检索任务,视觉塔需要学习图像模态的相应最终特征进行匹配。因此,在训练阶段,我们使用不同的标记,即图像标记或融合标记,根据OCR识别结果是否为空来获取最终特征。在场景文本自由的情况下,我们的视觉塔退化为一个纯视觉编码器模型,如第3.1节中所示,并将图像标记[IMG]的特征作为最终特征输出。在场景文本感知的情况下,我们使用场景文本编码器学习场景文本的语义特征。如图2所示,我们的视觉塔只需添加Lf层的视觉和场景文本聚合层,以在图像模态中进行中层融合,并从额外的融合标记[FUS]输出融合特征作为最终特征。如图3的详细结构所示,视觉场景文本聚合层由两个编码器的视觉变换层和场景文本变换层组成。为了交换视觉和场景文本的相关信息,这两个层添加了一个新的标记,即共享的特殊融合标记[FUS]。我们用V l和Sl表示聚合阶段中第l个视觉编码器和场景文本编码器的输入图像标记和场景文本标记。第l个视觉和场景文本聚合的输入融合标记表示为Fl。聚合阶段中的视觉变换层的工作流程如公式1所示,进行了更新。0其中 V FUS是与融合标记相对应的输出图像特征。聚合阶段中场景文本Transformer层的工作流程相同,如F0 = Finit + Ftype + Ftoken id,(6)Ltotal = αLitc + (1 − α)Lftc,(7)(9)(11)551880表1. 用于评估跨模态检索任务的数据集划分。注意,�表示MSCOCO训练集中排除了CTC-5K测试样本。0任务 预训练 微调 测试0场景文本感知 VG Flickr30K + TC + CTC 训练集 CTC-1K, 5K0传统的场景文本自由 SBU + GCC + VG + MSCOCO � Flickr30K 训练集0MSCOCO � 训练集 MSCOCO-5K 测试集0表2. 不同规模的模型设置。0模型 视觉编码器 场景文本编码器 输入尺寸0ViSTA-S 12 层,6个头 BERT-mini 224 × 224 ViSTA-B 12层,12个头 BERT-Base 384 × 384 ViSTA-L 12层,24个头 BERT-Base 384 × 3840其中 S FUS是与融合标记相对应的输出场景文本特征。下一层的输入融合特征通过它们的逐元素求和计算得到,如图3所示,定义为 F l +1 = V FUS + S FUS。通过这种方式,视觉特征 V和场景文本特征 S分别通过独立的Transformer层进行学习。特殊的融合标记[FUS]在两个编码器中起到桥梁的作用,因为它在两个编码器中共享。由于视觉和场景文本聚合层,图像特征和场景文本特征的学习受到彼此的影响,间接的融合标记起到了作用。类似的视频分类的瓶颈注意力结构[34]通过对两种模态的预测进行平均来融合视频补丁和声音。ViSTA不是两次更新共享标记,而是直接在聚合过程中添加来自视觉和场景文本Transformer层的预测融合标记,形成融合标记。为了进一步考虑场景文本缺失问题,我们提出了额外的图像-文本对比损失,以增强视觉表示和融合-文本对比损失。因此,图像-文本对和融合-文本对都包含了视觉外观的信息,并且仅共享场景文本中的相关部分信息,旨在有利于场景文本感知的跨模态学习。融合特征嵌入。我们将融合标记视为另一种模态,因此在随机初始化的[FUS]标记嵌入中添加了不同的模态类型嵌入,可以计算为0其中 F 0 是视觉和场景文本聚合层的第一个输入融合特征。03.3. 跨模态对比学习0传统的场景文本自由和场景文本感知的图像-文本检索是两个不同的任务,分别需要仅使用视觉特征和融合的视觉-语义特征,0它们与[IMG]和[FUS]标记的输出特征相对应。最终特征被构建成图像-文本对或融合-文本对与文本查询一起。我们引入了双重对比学习损失,将图像-文本对和融合-文本对嵌入到一个共同的跨模态空间中。总损失为0其中 L itc 和 L ftc分别是图像-文本对比损失和融合-文本对比损失。注意,α是这些损失之间的权衡参数,默认设置为0.9。对于一个批次的N个图像和文本对,融合-文本对比损失旨在最大化N个匹配对之间的相似性,并最小化最后N2-N个不正确对之间的相似性,表示为0L ftc = 02 ( L f 2 t + L t 2 f ) . (8)0融合文本对比学习旨在最小化融合的标记和文本[CLS]之间的对称损失,如下所示:0L f 2 t = -10N0i = 1 log exp( f � i t i /σ ) �N j = 1 exp( f � i t j /σ )0L t 2 f = -10N0i = 1 log exp( t � i f i /σ ) � Nj = 1 exp( t � i f j /σ ) ,0其中,f i 和 t j分别是第i对中融合特征的归一化嵌入和第j对中文本的嵌入。温度参数σ是一个可训练的变量,其初始值默认设置为0.07 [18]。与L ftc 相同,图像-文本对比损失定义为:0L itc = 02 ( L i 2 t + L t 2 i ) , (10)0其中0L i 2 t = -10N0i = 1 log exp( v � i t i /σ ) �N j = 1 exp( v � i t j /σ )0L t 2 i = -10N0i = 1 log exp( t � i v i /σ ) �N j = 1 exp( t � i v j /σ ) .0请注意,v i是第i个图像的归一化嵌入。在训练阶段,如果提取的OCR结果为None,则不会将L ftc 损失添加到总损失中。651890表3. 与最先进的场景文本感知方法在CTC上的比较。0模型0CTC-1K CTC-5K0图像到文本 文本到图像 图像到文本 文本到图像0R@1 R@5 R@10 R@1 R@5 R@10 R@1 R@5 R@10 R@1 R@5 R@100SCAN [22] 36.3 63.7 75.2 26.6 53.6 65.3 22.8 45.6 54.3 12.3 28.6 39.9 VSRN [25] 38.2 67.4 79.1 26.6 54.2 66.223.7 47.6 59.1 14.9 34.7 45.5 STARNet [31] 44.1 74.8 82.7 31.5 60.8 72.4 26.4 51.1 63.9 17.1 37.4 48.30ViSTA-S 52.5 77.9 87.2 36.7 66.2 77.8 31.8 56.6 67.8 20.0 42.9 54.40表4. 在Flickr30K和MSCOCO上与其他方法的零样本检索进行比较。0模型时间(毫秒)0Flickr30k (1K) MS-COCO (5K)0图像到文本 文本到图像 图像到文本 文本到图像0R@1 R@5 R@10 R@1 R@5 R@10 R@1 R@5 R@10 R@1 R@5 R@100ViL-BERT [29] ˜900 31.9 61.1 72.8 - - - - - - - - - Unicoder-VL [23] ˜925 64.3 85.8 92.3 48.4 76.0 85.2 - - - - - -ImageBERT [36] ˜900 70.7 90.2 94.0 54.3 79.6 87.5 44.0 71.2 80.4 32.3 59.0 70.2 UNITER-B [5] ˜900 80.7 95.7 98.066.2 88.4 92.9 - - - - - - ViLT-B [20] ˜15 73.2 93.6 96.5 55.0 82.5 89.8 56.5 82.6 89.6 40.4 70.0 81.10ViSTA-B ˜17 75.3 93.8 97.5 59.5 84.3 90.3 60.7 85.8 92.3 44.8 72.8 82.5 ViSTA-L ˜40 79.2 95.4 98.1 67.0 88.793.1 63.9 87.1 93.0 47.4 75.0 84.004. 实验0我们在两个下游跨模态检索基准上进行实验证明了所提方法的有效性。场景文本感知的跨模态检索任务在COCO-TextCaptioned(CTC)[31]数据集上进行评估,传统的跨模态检索实验在Flickr30K [46]和MSCOCO[19]基准上进行,包括图像到文本和文本到图像检索任务,如表3和表5所示。我们还分析了所提ViSTA结构的有效性,并在消融研究中展示了一些案例。0数据集。所有不同任务的预训练、微调和测试设置都在表1中报告。场景文本感知的跨模态检索任务的设置遵循[31]。在传统的场景文本无关的跨模态检索任务中,使用了四个公开可用的数据集,包括MicrosoftCOCO(MSCOCO)[27]、VisualGenome(VG)[21]、SBUCaptions(SBU)[35]和Google ConceptualCaptions(GCC)[38]数据集进行预训练。由于CTC数据集也是从MSCOCO构建的,CTC-5K测试集中的所有图像都包含在MSCOCO训练集中。因此,为了评估CTC数据集,我们从MSCOCO数据集中删除了重复的图像,并将其表示为MSCOCO�。对于评估指标,所有这些实验都以在前N个返回中包含匹配对的百分比来评估,即R@1、R@5和R@10。0实现细节。为了公平比较,我们实现了几个不同规模的模型版本,如Tab.2所示。对于所有实验,我们使用AdamW优化器,基本学习率为1e-4,并进行随机水平翻转和随机增强[ 16]。我们在40个NVIDIA Tesla上进行80个时期的预训练0在8个Tesla V100GPU上预训练ViSTA-B和ViSTA-L,然后在另外8个Tesla V100GPU上微调10个时期。对于场景文本自由的跨模态检索任务,我们在组合数据集SBU、CC、VG和MSCOCO�上预训练ViSTA-B和ViSTA-L,以便与先前的方法进行公平比较。注意,CTC训练集中的图像都包含在MSCOCO的训练集中。04.1.场景文本感知跨模态检索0为了公平比较场景文本感知检索,我们分别在CTC-1K和CTC-5K测试集上评估模型,严格遵循先前的训练和测试拆分[31 ]。如Tab.3所示,我们的ViSTA-S模型在CTC-1k上的场景文本感知图像-文本检索任务的R@1上有了很大的提升。与使用GCN获取场景文本表示进行融合的STARNet [ 31]相比,我们使用BERT进行了改进。视觉编码器上的自注意力运算符学习图像中的长程依赖关系,并帮助我们的ViSTA模型学习补丁之间的关系。视觉和场景文本聚合层学习视觉和场景文本模态的联合分布并改进表示空间。04.2.场景文本自由跨模态检索0对于传统的图像-文本检索,我们在MS-COCO和Flickr30K [46 ]的Karpathy &Fei-Fei拆分上测量了零射击和微调性能,并与Tab. 4和Tab.5中的最先进方法进行了比较。所有设置与预训练阶段相同。在Flickr30K上进行微调时,我们使用COCO-5K上的微调权重作为初始权重。根据双塔和补丁投影运算符的高效框架,我们的模型与ViLT [ 20]具有相当的速度和更好的性能,如Tab.5所示。我们的大规模模型ViSTA-L的结果优于最先进的结果R@1R@5R@10R@1R@5R@10R@1R@5R@10R@1R@5R@10SCAN [22]-67.490.395.848.677.785.250.482.290.038.669.380.4VSRN [25]-71.390.696.054.781.888.253.081.189.440.570.681.1IMRAM [3]-74.193.096.653.979.487.253.783.291.039.769.179.8GSMN [28]-76.494.397.357.482.389.0------SGRAF [8]-77.894.197.458.583.088.857.8-91.641.9-81.3Vil-BERT [29]˜92058.284.991.5---------Unicoder-VL [23]˜92586.296.399.071.591.295.262.387.192.848.476.785.9UNITER-B [5]˜90085.997.198.872.592.496.164.487.493.150.378.587.2ERNIE-ViL-B [47]˜92086.797.899.074.492.795.9------VSEinfty [4]88.498.399.574.293.796.866.489.3-51.679.3-PCME [6]-------44.273.883.631.962.174.5Miech et al [32]----72.191.595.2------12-in-1 [30]----67.989.694.2------Pixel-BERT-X [16]˜16087.098.999.571.592.195.863.687.593.650.177.686.2SOHO [15]-86.598.199.372.592.796.166.488.293.850.678.086.7H Xue et al. [44]-87.098.499.573.593.196.4------Pixel-BERT-R [16]˜6075.794.797.153.480.488.559.885.591.641.169.780.5ViLT-B [20]˜1583.596.798.664.488.793.861.586.392.742.772.983.1ViSTA-B˜1784.897.499.068.991.195.163.987.893.647.875.884.5ViSTA-L˜4089.598.499.675.894.296.968.990.195.452.679.687.6CTC-1KR@1 R@5 R@10 R@1 R@5 R@10CTC-1KR@1R@5R@10R@1R@5R@10Lf = 148.274.385.035.664.876.8Lf = 252.277.086.335.464.876.2Lf = 452.577.987.236.766.277.8CTC-1KR@1R@5R@10R@1R@5R@10LftcLitcCTC-1KR@1R@5R@10R@1R@5R@10✓46.671.382.430.358.771.4✓✓52.577.987.236.766.277.8751900表5.与最先进方法在微调Flicker30K和MSCOCO基准上的比较。0模型时间(毫秒)0Flickr30K(1K)MS-COCO(5K)0图像到文本 文本到图像 图像到文本 文本到图像0在低速度下,我们的模型不受这些数据集中场景文本模态缺失的影响,并且在下游任务中仍然表现出色,这是由于基于融合令牌的视觉和场景文本聚合。04.3. 消融实验0为了验证所提出的视觉和场景文本聚合层对视觉塔的有效性,我们在CTC数据集上进行了消融实验。我们使用BERT-mini固定文本塔,并实现了不同视觉塔的视觉。如表6所示,仅使用GCN或BERT-mini编码的场景文本信息对于跨模态检索是不足够的。与STARNet[31]中的架构相比,将视觉变换器(如ViT-S)引入跨模态检索可以获得更好的性能,这是由于改进的视觉表示。与仅使用视觉模态的结果相比,具有场景文本嵌入的ViSTA可以显著提高CTC-1K中R@1的性能,提高了5.5% /2.1%。这是由于有效的视觉和场景文本聚合。0表6. 模态聚合的影响消融研究。0模型 视觉 场景文本0图像到文本 文本到图像0GCN � 10.8 20.2 25.4 4.4 11.3 15.6 BERT-mini � 24.3 35.4 40.8 9.6 17.822.6 RoI + GCN [31] � � 44.1 74.8 82.7 31.5 60.8 72.4 ViT-S + GCN � � 47.274.2 84.2 33.2 63.6 75.4 ViSTA-S � 47.0 73.8 84.3 34.6 63.4 75.3ViSTA-S � � 52.5 77.9 87.2 36.7 66.2 77.80我们还进行了几个实验证明了所提出的视觉和场景文本融合层的有效性。0表7. 融合层数量的消融研究。0融合层数量0图像到文本 文本到图像0表8. 不同融合策略的影响消融研究。0融合策略0图像到文本 文本到图像0全局注意力 48.4 75.5 86.5 34.7 64.3 76.2 交叉注意力 50.574.4 84.1 31.1 59.8 72.9 融合令牌 52.5 77.9 87.2 36.7 66.277.8 晚期融合 49.2 73.4 85.8 34.9 65.0 76.70表9. 损失函数的影响消融研究。0图像到文本 文本到图像0所提出的架构的有效性验证。表7显示,随着融合层数量的增加,模型可以提高结果。表8显示了所提出的基于融合令牌的方法、多模态变换器与全局注意力[41]和交叉注意力[29]以及晚期融合策略之间的结果进行比较。如表9所示,我们提出的双对比学习比单一融合的对比损失更好。对于场景文本感知场景,两个单独的对比损失有助于在场景文本缺失时保持有效的跨模态特征。1) A man eating a Nathans chili cheese dog in front of an ATM. �2) A man eats a hot dog at a fast food place. �3) The guy is eating a doughnut at a doughnut shop. �1) The guy is eating a doughnut at a doughnut shop. �2) A man eats a hot dog at a fast food place. �3) A young man biting a hot dog sitting at a table at a fast food court. �1) A STA LUCIA bus is driving down the road. �2) A bus sits in the parking lot outside of Piccadilly Gardens. �3) A charter bus with two stories heading to some where. �1) A bus pull into a small parking lot space. �2) A charter bus with two stories heading to some where.�3) A bus sits in the parking lot outside of Piccadilly Gardens. �1) The arriving passengers on the Ethiopian airliner are deplaning on the runway. �2) A China Airlines airliner is parked at an airport near another jet. �3) A large continental jet sitting on a tarmac at an airport. �1) Commercial Lufthansa air plane parked at an airport. �2) The arriving passengers on t
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索AVL树算法:以Faculdade Senac Porto Alegre实践为例
- 小学语文教学新工具:创新黑板设计解析
- Minecraft服务器管理新插件ServerForms发布
- MATLAB基因网络模型代码实现及开源分享
- 全方位技术项目源码合集:***报名系统
- Phalcon框架实战案例分析
- MATLAB与Python结合实现短期电力负荷预测的DAT300项目解析
- 市场营销教学专用查询装置设计方案
- 随身WiFi高通210 MS8909设备的Root引导文件破解攻略
- 实现服务器端级联:modella与leveldb适配器的应用
- Oracle Linux安装必备依赖包清单与步骤
- Shyer项目:寻找喜欢的聊天伙伴
- MEAN堆栈入门项目: postings-app
- 在线WPS办公功能全接触及应用示例
- 新型带储订盒订书机设计文档
- VB多媒体教学演示系统源代码及技术项目资源大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功