COTS：双流视觉语言预训练提升跨模态检索效率与性能

163 浏览量更新于2024-06-20 收藏 1.21MB PDF 举报

COTS: 高效双流视觉语言预训练模型在跨模态检索中的应用本文主要探讨了在大规模单流预训练在图文检索中展现出强大性能的同时，面临的推理效率较低的问题，尤其是在处理复杂的注意力机制时。针对这一局限，研究者们近期开始关注具有更高推理效率的双流方法，如CLIP和ALIGN。这些模型侧重于实例级的交互，但未能充分利用跨模态的深层次联系。作者团队提出了一种新的协同工作的双流视觉语言预训练模型——COTS，专为图像-文本检索设计。COTS通过增强跨模态互动，超越了单流模型的限制。其关键创新包括： 1. 标记级交互：COTS引入了掩蔽视觉语言建模（MVLM）的目标，即使在没有交叉流网络模块的情况下，也能实现跨模态的交互。通过在视觉编码器上应用可变自动编码器，模型能够为每个图像生成独特的视觉标记，进一步强化了语义理解和表示。 2. 任务级交互：模型设计了在文本到图像和图像到文本检索任务间的双向交互，使得COTS在公平的比较环境中表现出卓越的性能。不仅在实例级上与双流方法竞争，而且在速度上比最新的单流方法快10,800倍。 COTS的成功体现在多方面：它不仅在双流方法中占据领先地位，还展示了在文本到视频检索任务上的先进性，特别是在MSR-VTT数据集上。这证明了该模型在处理多种模态任务上的通用性和有效性。预训练和微调范式在视觉语言领域的应用不断深化，COTS作为其中的佼佼者，代表了当前研究的前沿水平。总结来说，COTS是通过创新的多级交互机制，结合双流架构的优势，有效解决了单流模型在推理效率上的问题，从而在跨模态检索任务中取得了显著的进步。其在文本到视频检索上的出色表现，预示着未来在多模态智能领域的广泛应用潜力。

15694

图像区域和文本单词之间的相互作用。尽管单流模型

通常实现优异的性能，但是它们在现实世界场景中具

有若干限制：（1）在推理过程中进行跨模态检索时，

需要将所有可能的查询-候选对输入到融合模块中计算

相似度，计算量巨大。(2)为了获得有意义的图像区

域，单流模型通常采用对象检测器，这在计算和数据

注释方面都是昂贵的相比之下，双流模型将两种模态

投影到联合嵌入空间中，并在最终嵌入级别上对齐它

们。早期的双流模型[44，48]只能达到次优性能，因

为它们没有考虑细粒度的跨模态交互。最近的CLIP

[37]，ALIGN [18]和WenLan [17]）选择通过利用超大

的Web数据来提高其性能。然而，它们未能对两种模

态之间的细粒度虽然最新的双流模型LightingDot [42]

考虑了令牌级交互，但它仍然依赖于对象检测器，因

此计算量很大在这项工作中，我们的COTS集成了单流

和双流模型的优点，仍然利用双流架构，但加强了跨

模态交互的建模。

面具视觉建模VLP [9，28]上的许多先前的工作采用基

于对象标签的掩蔽视觉建模以实现更好的性能。他们

通常部署一种自下而上的注意力机制[2]，首先使用

Faster R-CNN [39]提取对象标签，然后使用其他未掩

蔽的标签和文本标记预测掩蔽的标签。虽然可以实现

更高的性能，但它们通常面临两个问题：（1）提取对

象标签需要大量的检测器，这在计算上是昂贵的。例

如，Faster R-CNN检测器需要900 ms才能从图像中提

取细粒度区域信息(2)这些VLP模型不是端到端训练

的，这可能无法处理未知对象。最新的工作 [19]表

明，简单地预测掩码原始图像像素很难提高性能。与

这些工作不同，我们的COTS采用变分自动编码器[21]

作为图像标记器，将原始图像标记为离散图像标记，

用于掩蔽视觉建模，灵感来自视觉Transformer BEIT

[4]。标记器以端到端的无监督训练风格进行预训练重

要的是，与直接预测原始像素相比，我们选择预测掩

蔽图像到kens更有意义，因为每个图像令牌包含特定

的高级视觉信息。总体而言，通过将掩蔽视觉建模与

掩蔽语言建模相结合，我们设计了一种新的掩蔽视觉

语言建模（MVLM）目标，以实现更紧密的令牌级交

互。

方法

3.1.

框架概述

我们的COTS模型VLP的目标是学习两个独立的编

码器，可以嵌入到同一个语义空间的图像和文本样本

有效的跨模态检索。如图2所示，图像和文本由视觉

Transformer和语言Transformer进行编码。然后，我们

设计了三个层次的跨模式的互动作为我们的COTS的预

培训目标。具体而言，实例级交互通过动量跨模态对

比学习来对齐配对图像和文本的全局特征，这受到单

模态MoCo的启发[15]。To model closer interactions than

instance- level alignment, we propose to devise a masked

vision- language modeling (MVLM) loss to enhance

token-level interaction. MVLM有两个部分：跨模态掩蔽

视觉建模（ CMVM ）和跨模态掩蔽语言建模

（CMLM）。对于每幅图像，CMVM的目标是基于未

掩蔽的图像块标记及其配对文本的全局特征来CMLM

在语言方面也是如此。此外，我们认为在我们的

COTS，其目的是对齐文本到图像和图像到文本检索任

务的概率分布的任务级的交互此外，为了应对大规模

预训练数据中的噪声，我们提出了自适应动量滤波器

（AMF）模块，该模块无缝地集成到预训练过程中。

我们选择在COTS中采用双流体系结构有两个主要

优点：（1）实时推理速度-单独的图像和文本编码器

允许我们预先计算候选者的特征以用于跨模态检索任

务，并且仅需要为每个查询-候选者对计算简单的点

积。(2)可应用于文本到视频检索-更多详情见第4.3

节。

3.2.

培养目标

3.2.1

令牌级交互

我们设计了一个掩蔽的视觉语言建模（MVLM）损

失，以增强我们的COTS中的令牌级交互，它可以进一

步分为两个部分：跨模态掩蔽视觉建模（CMVM）和

跨模态掩蔽语言建模（CMLM）。为了改进使用重对

象检测器预测掩蔽图像区域标签的实践[9，28]，我们

引入了基于BEIT [4]启发对于每幅图像，CMVM的目

标是用未掩蔽的图像块和成对的文本来预测掩蔽图像

令牌的标签。

剩余14页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

COTS：双流视觉语言预训练提升跨模态检索效率与性能

图像文本检索+图像预训练

URECA_COTS:COTS（基于上下文的操作转换空间）自动图表生成器

COTS技术在远程技术支持系统中的应用

Microchip推出64Mb并行SuperFlash:registered:闪存，丰富旗下应用于航天系统的COTS耐辐射产品阵容

MeshApp：一种架构，可将应用程序从基于SCA的无线电转移到COTS智能设备

Wi-Count：使用COTS WiFi设备进行计数

空间信息处理系统：SEL保护电路在COTS技术中的应用

COTS组件在测控一体化系统集成中的应用

COTS构件信用度量与测试决策模型：优化风险与降低成本

SynQor Mil-COTS高效同步整流模块电源：MCOTS-C-270H-28-FP

最新资源