COTS:高效双流视觉语言预训练模型在跨模态检索中的应用

120 浏览量更新于2023-10-25 收藏 1.21MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

15692×××COTS：面向跨模态检索的卢浩宇1、2南一飞1霍宇琪1高一钊1卢志武1、2、* 文继荣1、21中国人民大学高陵学院人工智能学院北京2大数据管理与分析方法{lhy1998，feinanyi，bnhony，gaoyizhao，luzhiwu，jrwen} @ ruc.edu.cn摘要大规模的单流预训练在图文检索中表现出惊人的性能。遗憾的是，它面临着低的推理效率，由于沉重的注意层。最近，具有高推理效率的双流方法如CLIP和ALIGN也显示出有希望的性能，然而，它们仅考虑两个流之间的实例级为了克服这些局限性，我们提出了一个新的协同工作的两个流视觉语言预训练模型称为COTS的图像-文本检索，通过加强跨模态的互动。除了通过动量对比学习进行实例级对齐之外，我们还在COTS中利用了两个额外级别的跨模态交互：（1）标记级交互-在不使用交叉流网络模块的情况下设计了掩蔽视觉语言建模（MVLM）学习目标，其中在视觉编码器上施加可变自动编码器以生成每个图像的视觉标记。(2)任务级交互-在文本到图像和图像到文本检索任务之间设计在公平的比较设置下，我们的COTS在所有双流方法中实现了最高的性能，并且具有可比的性能（但推理速度快10，800）。最新的单流方法。重要的是，我们的COTS也适用于文本到视频检索，在广泛使用的MSR-VTT数据集上产生新的最先进的技术。1. 介绍预训练然后微调范式在自然语言处理（NLP）领域取得了巨大成功，其中模型首先用大规模数据（例如，BERT [10]，RoBERTA [30]和GPT3 [5]），然后对每个下游任务进行微调。最近，这一做法--*通讯作者。TICE还在视觉语言（VL）领域显示了其有效性[9，17图像-文本检索、视频-文本检索和视觉问题回答）已经通过视觉语言预训练（VLP）得到显著改进。VLP模型通常将巨大的图像-文本对作为输入，并且旨在学习具有单模态和跨模态预训练目标的联合图像-文本表示，例如掩码标记预测和图像-文本匹配。现有的VLP模型可分为两组：单流模型和双流模型。单流VLP模型（参见图1（a））通常利用跨模态融合模块（例如，Transformer [43]层）来对图像区域和文本单词之间的细粒度交互进行建模。尽管这些模型实现了有希望的性能，但它们具有两个局限性：（1）在推理过程中，需要将所有可能的查询-候选对输入到融合模块中以计算相似度得分，导致巨大的计算成本。(2)为了获得有意义的图像区域，单流模型通常采用对象检测器，这在计算和数据注释方面都是昂贵的。例如，对于Faster R-CNN [39]，从800 1，333图像中提取对象区域大约需要900 ms，而ViT-base [11]只需要15 ms（即，60更快）。相比之下，双流VLP模型[22，44]应用分离的图像和文本编码器，并在最终嵌入级别上匹配图像-文本对。虽然双流模型（见图1（b）-（c））比单流模型更有效，但由于缺乏更紧密的图像-文本交互，它们只能实现次优结果。因此，一些作品[42，46]（见图1（b））重新考虑对象检测器，最近的作品（例如，CLIP [37]，ALIGN [18]和WenLan [17]）采用从互联网上抓取的超大预训练数据。然而，他们仍然无法对两种模式之间的细粒度交互进行建模。针对单流VLP模型效率低下和双流VLP模型缺乏更紧密的视觉语言交互的问题，提出了一种新的协同双流视觉语言预训练模型COTS15693×模态交互模态交互模态交互图像文本图像文本图像文本图像文本（（（（图1.四种视觉语言预训练（VLP）模型。（a）单流模式（例如，[28]和VinVL [52]）。(b)具有对象检测器的双流模型（例如，LigntingDot [42]）。(c)具有实例级交互的双流模型（例如，[37]和对齐[18]）。(d)COTS：我们的具有多级交互的双流模型。还报告了每个模块的推理时间和时间复杂度，更多细节可以在第4.2节中找到。对于跨模态检索，它保留了实时推理速度的优势，并且还增强了两种模态之间的交互（参见图1（d））。具体而言，我们在COTS中考虑了三个层次的跨模态交互：（1）实例级交互-通过动量对比学习[ 15 ]设计最终嵌入级的图像-文本匹配学习目标（通常由双流VLP模型采用），其中我们保持两个样本队列（每个模态一个）以具有大尺寸的负样本。(2)令牌级交互-一种为此，我们首先对每个输入图像-文本对的图像和文本进行标记化，其中可变自动编码器[21]被施加在视觉编码器上（例如，ViT [11]）生成视觉令牌，BERT [10]用于文本编码器。然后，我们执行掩蔽视觉令牌预测的基础上，未掩蔽的视觉知识和每个图像的配对文本的特征(3)任务级交互-通过最小化两个检索任务的概率分布之间的Kullback-Leibler（KL）分歧，在文本到图像和图像到文本检索任务之间设计了一种对于每一个图像-文本对，利用动量对比学习中所选文本与其未配对图像在负图像队列中的相似性，得到文本到图像检索任务的概率分布，并以类似的方式得到另一个分布。随着预训练数据的规模变大（例如，从互联网上抓取的数千万甚至数十亿的图像-文本对），不可能执行人工标注，因此在大规模数据中不可避免地存在噪声噪声数据，如不匹配的图像-文本对和无意义的统计数据会对预处理产生负面影响。训练在本文中，我们提出了一个自适应动量滤波器（AMF）模块，我们的COTS，它可以充分利用动量机制，我们的对比学习为基础的训练算法。具体地说，我们首先计算所有的图像-文本对的相似性得分从动态维护的图像和文本队列，以获得一个额外的队列。此外，我们将此队列的相似性分数建模为正态分布，并过滤掉噪声数据的分布均值和方差。我们的贡献总结如下：（1）提出了一种新的COTSVLP模型，在保持双流模型效率优势的同时，提高了双流模型的性能。除了典型的实例级对齐之外，我们还利用了两个额外的跨模式交互级别来实现这一点：用于标记级交互的掩蔽视觉语言建模（MVLM）学习目标和用于任务级交互的KL对齐学习目标。(2) 为了减轻大规模预训练数据中噪声的负面影响，我们提出了自适应动量滤波器（AMF）模块。AMF在我们的实例级对齐中充分利用了动量机制，并在预训练期间自适应地过滤了噪声图像-文本对(3) 在公平的比较设置下，我们的COTS在所有双流方法中实现了最高的性能，并且与最新的单流方法相比，性能更好（但推理速度快10，800）重要的是，我们的COTS也适用于文本到视频检索，在广泛使用的MSR-VTT数据集上产生新的最先进的技术。2. 相关工作视觉语言预训练。目前，VLP采用单流模型或双流模型。单流模型[9，14，16，28，31，52]包含跨模态融合模块（例如，Transformer [43]层）与模型更接近时间复杂度O（N2）对象检测器~885ms O（N）时间复杂度O（N2）伯特~15ms O（N）模态交互Transformer ~ 15 ms（O（N2））对象检测器~885ms O（N）文本嵌入~0.4ms O（N）ViT或CNN BERT~15ms O（N）~15ms O（N）时间复杂度O（N2）模态交互ViT或CNN BERT~15ms O（N）~15ms O（N）15694×图像区域和文本单词之间的相互作用。尽管单流模型通常实现优异的性能，但是它们在现实世界场景中具有若干限制：（1）在推理过程中进行跨模态检索时，需要将所有可能的查询-候选对输入到融合模块中计算相似度，计算量巨大。(2)为了获得有意义的图像区域，单流模型通常采用对象检测器，这在计算和数据注释方面都是昂贵的相比之下，双流模型将两种模态投影到联合嵌入空间中，并在最终嵌入级别上对齐它们。早期的双流模型[44，48]只能达到次优性能，因为它们没有考虑细粒度的跨模态交互。最近的CLIP[37]，ALIGN [18]和WenLan [17]）选择通过利用超大的Web数据来提高其性能。然而，它们未能对两种模态之间的细粒度虽然最新的双流模型LightingDot [42]考虑了令牌级交互，但它仍然依赖于对象检测器，因此计算量很大在这项工作中，我们的COTS集成了单流和双流模型的优点，仍然利用双流架构，但加强了跨模态交互的建模。面具视觉建模VLP [9，28]上的许多先前的工作采用基于对象标签的掩蔽视觉建模以实现更好的性能。他们通常部署一种自下而上的注意力机制[2]，首先使用Faster R-CNN [39]提取对象标签，然后使用其他未掩蔽的标签和文本标记预测掩蔽的标签。虽然可以实现更高的性能，但它们通常面临两个问题：（1）提取对象标签需要大量的检测器，这在计算上是昂贵的。例如，Faster R-CNN检测器需要900 ms才能从图像中提取细粒度区域信息(2)这些VLP模型不是端到端训练的，这可能无法处理未知对象。最新的工作[19]表明，简单地预测掩码原始图像像素很难提高性能。与这些工作不同，我们的COTS采用变分自动编码器[21]作为图像标记器，将原始图像标记为离散图像标记，用于掩蔽视觉建模，灵感来自视觉Transformer BEIT[4]。标记器以端到端的无监督训练风格进行预训练重要的是，与直接预测原始像素相比，我们选择预测掩蔽图像到kens更有意义，因为每个图像令牌包含特定的高级视觉信息。总体而言，通过将掩蔽视觉建模与掩蔽语言建模相结合，我们设计了一种新的掩蔽视觉语言建模（MVLM）目标，以实现更紧密的令牌级交互。3. 方法3.1. 框架概述我们的COTS模型VLP的目标是学习两个独立的编码器，可以嵌入到同一个语义空间的图像和文本样本有效的跨模态检索。如图2所示，图像和文本由视觉Transformer和语言Transformer进行编码。然后，我们设计了三个层次的跨模式的互动作为我们的COTS的预培训目标。具体而言，实例级交互通过动量跨模态对比学习来对齐配对图像和文本的全局特征，这受到单模态MoCo的启发[15]。To model closer interactions thaninstance- level alignment, we propose to devise a maskedvision- language modeling (MVLM) loss to enhancetoken-level interaction. MVLM有两个部分：跨模态掩蔽视觉建模（ CMVM ）和跨模态掩蔽语言建模（CMLM）。对于每幅图像，CMVM的目标是基于未掩蔽的图像块标记及其配对文本的全局特征来CMLM在语言方面也是如此。此外，我们认为在我们的COTS，其目的是对齐文本到图像和图像到文本检索任务的概率分布的任务级的交互此外，为了应对大规模预训练数据中的噪声，我们提出了自适应动量滤波器（AMF）模块，该模块无缝地集成到预训练过程中。我们选择在COTS中采用双流体系结构有两个主要优点：（1）实时推理速度-单独的图像和文本编码器允许我们预先计算候选者的特征以用于跨模态检索任务，并且仅需要为每个查询-候选者对计算简单的点积。(2)可应用于文本到视频检索-更多详情见第4.3节。3.2. 培养目标3.2.1令牌级交互我们设计了一个掩蔽的视觉语言建模（MVLM）损失，以增强我们的COTS中的令牌级交互，它可以进一步分为两个部分：跨模态掩蔽视觉建模（CMVM）和跨模态掩蔽语言建模（CMLM）。为了改进使用重对象检测器预测掩蔽图像区域标签的实践[9，28]，我们引入了基于BEIT [4]启发对于每幅图像，CMVM的目标是用未掩蔽的图像块和成对的文本来预测掩蔽图像令牌的标签。15695f动量对比损失概率分布KL对齐损失对齐22f,图像令牌VBert - Transformer编码器Vision- Transformer编码器图像标记器电话：+86-10 - 88888888传真：+86-10 - 88888888线性嵌入[面具]f234567789123456345234CMVM头f单词特征f图像特征,字记号,图像令牌Fi=1×Vvvi、jJ j=1J JD{}መ��AVG“长颈鹿”,Bert - Transformer编码器语言- Transformer编码器电话：+86-10 - 88888888传真：+86-10 - 88888888单词嵌入“A” “与”[面具]图2.一个示意图所提出的跨模态检索的COTS形式上，让=（vi，li）N表示训练数据集，其中（vi，li）是第i个图像-文本对。对于每个原始图像v i，我们首先利用预训练的离散变分自动编码器（dVAE）[38]作为图像标记器，以获得24 ×24离散图像标记序列3.2.2实例级交互为了对两种模态的实例级交互进行建模（即，全局特征对齐），我们采用一种受单模态MoCo启发的跨模态动量对比学习（MCL）算法[15]，Tv={tv∈ Vv}576，其中tv是图像的第j个i i，jj=1i、j提供了一种动态维护负的机制vi和v是离散图像标记的词汇表。同时，原始图像被分成24个24块，这些块被送入视觉Transformer [11]以获得它们的嵌入。然后，我们根据每个掩码标记的标签来基于掩码标记嵌入（其已经与未掩码标记嵌入融合）和成对文本的全局嵌入的总和。因此，CMVM损失可以公式化为：用于对比学习的动态样本队列。由于我们的MCL中使用的两个队列（每个模态一个）成功地将队列大小与小批量大小完全解耦，因此负样本的大小（对于对比学习至关重要）可能远远大于小批量大小。具体地说，让fv（参数θv）和fl（参数θl）分别表示图像和文本编码器。我们采用了两个额外的动量编码器fv（其中LCMVM = −E（vi，li）D log P（ti，j|不i、j，1i），（1）分别针对视觉和语言模态的参数θv）和fl（具有参数θl）的参数其中，tv表示目标/掩蔽图像令牌，并且动量编码器通过以下方式更新：tv=Tv\{tv}表示未掩蔽的图像令牌。i、ji i，j与CMVM类似，对于每一段文本，CMLM的目标是基于未屏蔽的单词和配对图像来预测每个屏蔽单词标记的标签θv=m·θv+（1−m）·θv，（4）θl=m·θl+（1−m）·θl，（5）L lLCMLM=−E（vi，li）DlogP（ti，j|ti，|j，vi），（2）其中，t1 表示目标/掩码文本单词令牌，并且其中CMLM头FF15696我我 i=1BQj j=1\B{}D| B|m是动量超参数。此外，我们保持两个队列Qv={q<$v}Nq和i、jtlQl={q<$l}Nq，其中q<$v/q<$l表示动量fea。i、j标记级跨模态交互于是被定义为：L令牌=L CMVM + L CMLM。（三）真向量，Nq表示队列大小。样品在每个小批量=（v，l）Nb（N=N）被馈送到当前动量编码器中以获得它们的mo。指的是未戴面具的人我们的全部损失15697ΣQJJ···{·|∈ Q∈ QB−∈BBB我Nb（v，l）∈B我我我我我我我JJ两个特征向量的相似性用点度量Q 进行动量对比学习。由于成对的IM-我我uct. 这样，我们获得了额外的相似性队列Q、（9）我我p（fv，fl）=i i，（12）Σ我我∈ QQ这些特征向量在损失计算之后被推送到相应的队列中。同时，将每个队列中最早出现的Nb个动量特征向量弹出. 给定数据批中的每个图像，通过考虑-然后，我们的任务级跨模态交互的学习目标被公式化为最小化 DI2 T 和 DI2 I 之间的对称 Kullback-Leibler（KL）发散：将其配对文本作为阳性样本，ql作为否定词，我们定义了图文对比1L任务=中国（KL（DI2 T|| DT2 I）+KL（DT2 I|| D12 T））。（十四）我我损耗为（τ是温度超参数）：vl3.3.自适应动量滤波器LI2T1=−Nlogpos（fi，τ）pos（fv，Ql，τ）+n∈ g（fv，Ql，τ）、（6）Large-scale web-crawled data inevitably contain noises,（vi，li）∈Bi i i其中，fv=f v（vi），fl=fl（li），并且pos（fv，ql，τ）=exp（fv·ql/τ），（7）neg（fv，ql，τ）=qexp（fv·ql/τ）.（八）q<$l∈Ql这可能会给预训练带来负面影响。因此，基于我们的COTS中采用的动量机制，我们提出了一个自适应动量滤波器（AMF）模块来自适应地过滤噪声图像-文本对。正如在实例级交互中介绍的那样，我们COTS动态地维护两个样本队列v和L产品在这里。类似地，给定数据批中的每个文本，我们将文本到图像的对比度损失定义为：年龄和文本被推入或弹出相应的队列v和qll（j=1，2，.，N q）也是成对的。然后，我们可以通过点prod计算每对（qv，ql）的相似性得分。1ΣNbpos（fl，fv，τ）j j spos（fl，fv，τ）+ neg（fl，Qv，τ）vLvvLL NQ（vi，li）∈Bi i i其中，fl=f l（li），并且fv=fv（vi）。实例级跨模态交互的总损失Linst=LI2T + LT2I。（十）3.2.3任务级交互从Eq可以看出。（6）对于小批量中的每个图像vi，图像到文本对比目标实际上是最大化匹配其配对文本li与Ql中的不匹配样本进行比较（文本也是如此）。qj qjqj，qjj= 1，这也是动态的与两个样本队列一起维护。注意，相似性队列s可以被视为在当前训练迭代处的相似性分数分布我们首先计算其平均值μ和标准偏差σ作为相似性得分分布的估计。然后，我们基于μ和σ获得阈值sAMF（例如，sAMF=µ2σ）。最后，在计算损失之前，我们使用这个阈值来过滤当前数据批次：Bi={（vi，li）|<$fv·<$fl>sAMF，（vi，li）∈B}.（十五）我我侧）。也就是说，仅实例级要素对齐关心图像到文本/文本到图像检索任务的整个概率分布中的一个特定概率的最大化，并且不能捕获两个模态之间的更高级别的交互。为了填补文献中的空白，我们提出将两个跨模态检索任务的概率分布对齐作为我们的任务级交互。具体地，对于每个图像-文本对（vi，li），我们将图像到文本任务的概率分布定义为：DI2T=[p（fv，q），p（fv，q），···，p（fv，q）]，（11）在这项工作中，随着相似性队列的变化，AMF在不同的训练迭代中发生变化具体地，当在我们的完整COTS中采用AMF时，我们在每次迭代中使用AMF而不是用于损失计算，但是我们仍然在损失计算之后将B中的所有样本推送到Qv和Ql4. 实验4.1. 数据集和设置预训练数据集。我们使用两个图像-文本数据集哪里i i i1i Nq用于预训练我们的COTS：（1）CC4M包含400万个Δexp（fv·Δfl/τ）图片和530万个字幕，[29]第一次世界大战期间，苏联解体后我我f∈{ exp（fv·f/τ）BLT2I=−日志=15698我 JJ我我我 1我 NQFlickr30K [36]。（2）CC14M由CC4M和且p（fv，q<$l）（q<$l∈Ql，j=1，2，···，Nq）可计算为CC12M [6]（现在大约有200万个URL无效），包含1400万张图片和1530万个字幕，以同样的方式迟到。同样，我们得到概率将文本到图像任务分配为：DT2 I=[p（fl，qv），p（fl，qv），···，p（fl，qv）]。（十三）说话。注意，CC14M比CC4M噪音大得多。下游数据集。我们在三个广泛使用的基准数据集上对COTS15699×∞型号PT对Flickr30K（1K）MSCOCO（5K）I2T检索T2I检索I2T检索T2I检索R@1 R@5 R@10 R@1 R@5 R@10 R@1 R@5 R@10R@1 R@5 R@10[45]第四十五话冻结时间[3] 5.5M-61.0 87.5 92.7-LightningDOT [42] 9.5M 83.9 97.2 98.6 69.9 91.1 95.2 60.1 85.1 91.8 45.8 74.6 83.8COOKIE [45] 5.9M 84.7 96.9 98.3 68.3 91.1 95.2 61.7 86.7 92.3 46.6 75.2 84.1COTS（我方）5.3M 88.2 98.5 99.7 75.2 93.6 96.5 66.9 88.8 94.0 50.5 77.6 86.1COTS（我方）15.3M 90.6 98.7 99.7 76.5 93.9 96.6 69.0 90.4 94.9 52.4 79.0 86.9COTS†（我方）15.3 M91.7 99.0 99.9 78.3 94.9 97.2 70.6 91.0 95.3 53.7 80.2 87.8表1.在Flickr 30 K（1 K）测试集和MSCOCO（5 K）测试集上进行图像-文本检索的比较结果。符号：# PT Pairs-†两个模型的结果。·使用940M标记图像进行视觉编码器预训练的模型。(1)MSCOCO[29]是一个包含123，287张图像的大型图像 - 文本数据集在 [19] 中，我们采用 MSCOCO 的Karpathy分裂：5,000张图片用于测试，另外5,000张用于验证，其余113,287张用于训练。(2)Flickr30K[36]总共包含31，000张图片和158，915个字幕。每幅图像通常带有5个标题。按照[12]中的分割(3)为了展示我们的COTS的普遍适用性，我们还在视频-文本数据集MSR-VTT[47]上进行了实验，该数据集具有10 K YouTube视频和200 K字幕。与[49]一样，我们报告了1KA和7K分裂下的结果。文本和图像编码器。在我们的COTS中，我们遵循[42]并采用基于BERT [10]的模型作为我们的文本编码器，它总共包含12个Transformer层，其中有768个隐藏单元和12个头。此外，为了提高计算效率，我们使用ViT-B/16 [11]作为图像编码器，输入图像分辨率为384384。总的来说，在我们的COTS中只考虑基本的文本和图像编码器评估指标。本文采用跨模态检索中广泛使用的R@k（k=1，5，10）作为性能评价指标，它是在前k个检索结果中找到的匹配样本的比例。在[3]之后，我们还报告了视频文本检索的中位数排名（MR）。实施详情。对于我们的掩蔽视觉语言建模（MVLM），我们随机掩蔽40%的图像块遵循[4]并以15%的概率屏蔽文本中的单词标记我们采用Adam [20]优化器，权重衰减为0.02。由于计算约束，我们选择超参数：动量超参数m=0。99，温度τ=0。05，队列大小N Q在MSCOCO上进行预训练、微调和在Flickr 30K上进行微调的成本分别为12，800、6，400和1，200。我们将前5个epoch的初始学习率设置为5e-5，并在其余epoch中线性衰减学习率。更多的实现细节可以在supp中找到。材料4.2. 图文检索与艺术水平的比较。我们在两个广泛使用的图像-文本数据集上将我们的COTS与最先进的方法进行比较：Flickr 30 K和MSCOCO。如表1所示，在公平比较设置下（不包括-ing VSE引擎 [8]和COOKIE引擎 [45]利用9.4亿标记图像进行视觉编码器预训练），我们的COTS在所有评估指标上都远远优于所有双流模型。具体而言，与最新的双流模型COOKIE [45]相比，我们的COTS实现了5.2%的更高结果（66.9% vs. MSCOCO上的I2T R@1为3.9%（50.5% vs. 46.6%），T2I R@1为3.9%（50.5% vs.MSCOCO，但预训练数据较少（5.3M vs.5.9M）。此外，当利用更大的预训练数据集和模型集成技术时，我们的COTS†进一步提高了性能。具体来说，在不使用额外对象检测器的情况下，我们的COTS†在Flickr30K上实现了新的最先进技术单流：[31]第三十一话3.1M---58.284.991.5------Pixel-BERT-R50[1]5.6M75.794.797.153.480.488.559.885.591.641.169.780.5Pixel-BERT-X152[1]5.6M87.098.999.571.592.195.863.687.593.650.177.686.2[26]第二十六话3.8M86.296.399.071.591.295.262.387.192.848.476.785.9UNITER-基地[9]9.6M85.997.198.872.592.496.164.487.493.150.378.587.2[50]第五十话3.8M86.797.899.074.492.795.9------别墅基地[14]9.6M86.697.999.274.792.995.8------[28]第二十八话6.5M------70.091.195.554.080.888.5ViLT [19]9.9M83.596.798.664.488.793.861.586.392.742.772.983.1[52]第五十二话8.9M------74.692.696.358.183.290.1双流：[8]第八届全国人大代表-5.9百88.789.098.998.999.899.776.175.694.594.697.197.268.171.690.290.995.295.452.754.580.281.088.388.215700L××↓LLLL LLL L LLL LLL L LLL图片数量图3.在MSCOCO（5K）测试集上比较不同方法（VinVL[52]，COOKIE [45]，VSE [8]）I2T检索T2I检索R@1 R@5 R@10 R@1R@5 R@10ViLT [19]56.582.689.640.470.081.1[第37话]58.481.588.137.862.472.2[第18话]58.683.087.945.669.878.6COTS（不带FT）60.484.791.743.871.681.3表2. MSCOCO（5 K）测试集上图像-文本检索的比较结果（未进行微调）。FTw.r.t.单流和双流方法。在MSCOCO上，我们的COTS†也实现了比大多数单流方法更高的性能，与VinVL [52]相比，结果相当，但在推理过程中速度快10，800（参见推理效率分析）。推理效率分析在实际应用场景中，推理速度是检索方法的重要评价在图3中，我们将我们的COTS与最新的最新技术在MSCOCO（5K）测试集上的推理时间进行了所有方法都在单个Tesla V100 GPU上进行了评估与单流VinVL [52]相比，我们的COTS在整个MSCOCOC（5K）测试集上快了10，800。当测试集N的大小增加时，这个巨大的差距甚至会变得更大，因为单流模型的检索时间复杂度为O（N2），而双流模型的检索时间复杂度接近O（N）尽管VSE和COOKIE也是两个流模型，但我们的COTS仍然比它们快得多，这表明我们的COTS由于其完全令牌化的基于Transformer的架构而具有极高的效率。没有微调的比较检索结果根据ViLT [19]，我们在表2中报告了未对MSCOCO进行微调的比较检索结果。我们可以观察到：（1）我们的COTS优于最新的单流方法ViLT [19]。(2)我们的COTS还击败了最新的双流方法CLIP [37]和ALIGN [18]，尽管它是用更少的数据进行预训练的。消融研究结果。在表3中，我们分析了COTS中不同预训练目标和自适应动量滤波器（AMF）模块我们从CC12 M中随机抽取20万个图像-文本对作为预训练数据集（称为CC 200 K）。零炮检回I2T检索T2I检索R@1 R@5 R@10R@1 R@5 R@10L仪器24.048.360.016.837.549.6Linst+ LCMLM24.549.361.116.537.849.9Linst+ Ltoken25.649.961.917.138.350.4Linst+Ltoken+Ltask26.450.562.917.538.550.6inst（w/ AMF）24.749.661.316.638.350.0我们的全套COTS27.151.162.917.939.251.1表3.我们的COTS消融研究在小型CC200K数据集上进行了预训练。在MSCOCO（5 K）测试集上报告了零拍摄图像-文本检索结果。模型7K分割：PT对数量R@1R@5R@10MR↓[51]第五十一话-10.231.243.213.0[33]第三十三话>100M14.940.252.89.0[53]第五十三话>100M16.342.856.910.0[27]第二十七话>100M16.843.457.7-[第23话]>100M14.7-52.8-噪声估计[1]>100M17.441.653.68.0[32]第三十二话>100M21.249.663.16.0[25]第二十五话5.6M22.046.859.96.0[49]第四十九话>100M24.852.164.55.0COTS（我们的）5.3M29.057.067.73.0COTS（我们的）15.3M32.160.870.23.01KA拆分：[40]第四十话>100M27.155.666.64.0[13]第十三话>100M26.657.169.64.0[49]第四十九话>100M28.457.871.24.0[35]第三十五话>100M30.158.569.33.0时间的冻结[3]5.5M31.059.570.53.0COTS（我们的）5.3M33.161.372.83.0COTS（我们的）15.3M36.863.873.22.0表4.在两个分割下，与MSR-VTT上文本到视频检索的最新技术水平进行比较：7 K和1 KA的分裂。符号：表示结果越低越好;表示额外的模态（例如，运动和音频）。在MSCOCO（5K）测试集上报告结果。我们从实例级交互损失inst（没有AMF）开始，然后依次添加其他损失。从表3中我们可以看出：（1）CMLM和CMVM都带来了性能上的改进（参见inst+CMLM与instst，和inst+token对inst+CMLM），表明token级跨模态交互有利于学习对齐的多模态表示空间。(2)当添加任务级交互时（请参见inst+代币+任务与inst+token），性能得到进一步提升，这清楚地验证了我们的多级跨模式交互的有效性。(3)我们的AMF模块可以很好地与实例级或多级交互（参见 inst（w/ AMF）vs.inst，以及我们的完整COTS与inst+token+ task）。(4)将所有目标与AMF模块相结合（即，我们的完整COTS）导致最佳结果，表明每个目标/模块都是互补的。单流推理时间/秒双流推理时间/秒模型方法15701“A“Two（一）“小提琴”“乐队”“手机”（b）第（1）款“guys”“Two“（c）第（1）款“孩子”“女孩”“男孩”（d）其他事项“五”“舞者”“跳”（e）“女人在推婴儿车”图4.使用GAE [7]在响应单个单词的图像/视频帧上可视化我们的COTS的注意力地图。(a)- （d）形象注意图，不同的词。(e)视频帧注意力地图w.r.t.“婴儿车”这个词4.3. 视频文本检索我们进一步比较我们的COTS与国家的最先进的方法上的视频文本检索任务。为了直接部署我们的COTS，我们不考虑使用复杂的方法或额外的模块来建模视频的时间信息相反，我们简单地使用平均帧嵌入作为视频表示，然后通过与文本嵌入的点积计算相似性我们在表4中报告了MSR-VTT数据集上的文本到视频检索结果。请注意，只有文本到视频检索被认为是在最新的工作[3]。由此可以看出：（1）即使不对视频的时间信息进行建模，我们的COTS也明显优于现有技术，这证明了我们的COTS的普遍适用性和巨大潜力。(2)我们的COTS比使用额外模式的方法（例如，运动和音频）或在超大视频数据上预先训练的那些（例如，HowTo 100 M数据集[33]拥有超过1亿个视频-文本对），这表明预先训练好的视觉-语言模型可能是视频-文本检索的关键。4.4. 可视化结果图4显示了我们的COTS在图像/视频帧上响应单个单词的可视化注意力地图。从图4（a）-（b）图4（c）显示了我们的COTS如何确定性别信息。Given theword “children”, COTS focuses on the faces.在识别“女孩”时15702衣服（和“男孩”这个词一样）。有趣的是，我们的COTS还可以捕获抽象概念（COTS对“五”和“舞者”都关注五个舞者当谈到“跳”的时候，它集中在脚图4（e）显示了注意力地图w.r.t.“stroller”5. 结论在本文中，我们研究了如何提高双流视觉语言预训练（VLP）的性能，同时仍然保持其高效率的图像-文本检索的优势。具体来说，我们提出了一种新的COllaborative两流VLP模型称为COTS利用三个层次的跨模态的相互作用，在图像-文本检索。也就是说，我们认为令牌级的交互与标记化的图像和文本，实例级的交互通过跨模态动量对比学习，任务级的交互通过调整两个任务分布掩蔽视觉语言建模。大量的实验验证了COTS在图文检索中的有效性和高效性。它也被证明具有普遍的适用性，因为它实现了新的国家的最先进的视频文本检索没有任何修改。鸣谢本工作得到国家自然科学基金（61976220和61832017 ）、北京市杰出青年科学家计划（BJJWZYJH012019100020098）和BAAI大规模前期培训计划468的部分资助。15703引用[1] 埃拉德·阿姆拉尼，拉米·本·阿里，丹尼尔·罗特曼，和亚历克斯·布朗斯坦.用于自监督多模态学习的使用密度估计的噪声估计。在AAAI，第66447[2] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在CVPR中，第6077-6086页，2018年。3[3] 马克斯·贝恩、阿尔沙· 纳格拉尼、古尔·瓦罗尔和安德烈·齐塞·拉曼。《时间冻结》：用于端到端检索的联合视频和图像编码器。见ICCV，第1728-1738页，2021年。六七八[4] 包航波，李东，魏福如。BEiT：BERT图像转换器的预训练。arXiv预印本arXiv：2106.08254，2021。三、六[5] Tom B Brown，Benjamin Mann，Nick Ryder，MelanieSub- biah ， Jared Kaplan ， Prafulla Dhariwal ， ArvindNeelakantan ， Pranav Shyam ， Girish Sastry ， AmandaAskell ， et al. 语言模型是很少机会的学习者。在NeurIPS，第1877-1901页，2020年。1[6] Soravit Changpinyo、Piyush Sharma、Nan Ding和RaduSoricut。概念12 M：推动网络规模的图像-文本预训练，以识别长尾视觉概念。在CVPR中，第3558-3568页5[7] 希拉·切佛希尔·古尔和里奥·沃尔夫通用注意力-解释双模态和编码器-解码器转换器的模型可解释性。在ICCV，第397-406页，2021年。8[8] 陈嘉诚，胡鹤翔，吴昊，姜宇宁，王长虎。学习视觉语义嵌入的最佳池化策略。在CVPR中，第15789-15798页，2021年。六、七[9] Yen-Chun Chen ， Linjie Li ， Licheng Yu ， Ahmed ElKholy ， Faisal Ahmed ， Zhe Gan ， Yu Cheng ， andJingjingLiu.UNITER：Un

下载后可阅读完整内容，剩余1页未读，立即下载