COTS:双流视觉语言预训练提升跨模态检索效率与性能

0 下载量 163 浏览量 更新于2024-06-20 收藏 1.21MB PDF 举报
COTS: 高效双流视觉语言预训练模型在跨模态检索中的应用 本文主要探讨了在大规模单流预训练在图文检索中展现出强大性能的同时,面临的推理效率较低的问题,尤其是在处理复杂的注意力机制时。针对这一局限,研究者们近期开始关注具有更高推理效率的双流方法,如CLIP和ALIGN。这些模型侧重于实例级的交互,但未能充分利用跨模态的深层次联系。 作者团队提出了一种新的协同工作的双流视觉语言预训练模型——COTS,专为图像-文本检索设计。COTS通过增强跨模态互动,超越了单流模型的限制。其关键创新包括: 1. 标记级交互:COTS引入了掩蔽视觉语言建模(MVLM)的目标,即使在没有交叉流网络模块的情况下,也能实现跨模态的交互。通过在视觉编码器上应用可变自动编码器,模型能够为每个图像生成独特的视觉标记,进一步强化了语义理解和表示。 2. 任务级交互:模型设计了在文本到图像和图像到文本检索任务间的双向交互,使得COTS在公平的比较环境中表现出卓越的性能。不仅在实例级上与双流方法竞争,而且在速度上比最新的单流方法快10,800倍。 COTS的成功体现在多方面:它不仅在双流方法中占据领先地位,还展示了在文本到视频检索任务上的先进性,特别是在MSR-VTT数据集上。这证明了该模型在处理多种模态任务上的通用性和有效性。预训练和微调范式在视觉语言领域的应用不断深化,COTS作为其中的佼佼者,代表了当前研究的前沿水平。 总结来说,COTS是通过创新的多级交互机制,结合双流架构的优势,有效解决了单流模型在推理效率上的问题,从而在跨模态检索任务中取得了显著的进步。其在文本到视频检索上的出色表现,预示着未来在多模态智能领域的广泛应用潜力。