堆叠交叉注意：提升图像文本匹配的可解释性和性能

151 浏览量更新于2024-06-20 收藏 1.56MB PDF 举报

本文主要探讨了图像文本匹配问题中的堆叠交叉注意力机制，这是一种创新的方法，旨在解决中央图像与文本描述之间的跨模态检索任务，即在给定图像中有视觉描述的句子搜索，以及从图像中找出相关描述的过程。传统的图像文本匹配方法存在两个主要局限：一是简单地聚合所有可能的区域和单词对的相似性，忽视了不同词语或区域的重要性差异；二是采用多步注意过程，虽然能捕捉一些语义对齐，但缺乏清晰的可解释性。堆叠交叉注意（SCAN, Stacked Cross-Attention Network）正是为了解决这些问题而提出的。它利用上下文信息，同时考虑图像区域和句子中的词汇，以推断两者之间的潜在语义对应关系。这种方法能够更好地理解和捕捉视觉和语言之间的细微交互，从而提高匹配的准确性。在实验部分，作者在MS-COCO和Flickr30K数据集上展示了堆叠交叉注意的优越性能。在Flickr30K数据集上，相对于当前最先进的方法，堆叠交叉注意在图像查询文本检索方面提高了22.1%的Recall@1，而在文本查询图像检索方面提升了18.2%。在MS-COCO上，通过5K测试集评估，堆叠交叉注意在句子检索和图像检索上分别提升了17.8%和16.6%的Recall@1。堆叠交叉注意的核心优势在于其层次化的注意力机制，允许模型逐步聚焦于更重要的区域和词汇，增强了模型的解释性和性能。这种技术对于多模态学习，尤其是视觉语义嵌入和跨模态检索领域的研究具有重要意义，因为它不仅提高了匹配精度，还提供了更好的可理解性，有助于用户理解模型如何进行决策。本文的贡献在于提出了一种有效的堆叠交叉注意力机制，为图像文本匹配任务带来了显著的性能提升和更高的可解释性，这对于推动多模态智能系统的发展具有积极的推动作用。感兴趣的读者可以在提供的GitHub链接<https://github.com/kuanghuei/SCAN>上获取代码和进一步的细节。

李光辉，陈曦，华刚，胡厚东，何晓东

传统的基于注意力的方法注意力机制

集中

在关于特定于任务的上

下文的数据的某些方面（

例如，在上下文中的注意力）。

找东

西）。在计算机视觉中，视觉注意力的目的是专注于

特定的

图像

或子区域[1，40，41，26]。类似地，用于自然语言处理的注意力

方法自适应地选择和聚合信息片段以推断结果[42，35，3，25，

28]。最近，基于注意力的模型已经被提出用于

图像-文本匹配问

题。 Huang

等人

[16]开发了一种上下文调节

注意方案，以选择性地注

意出现在图像和句子中的一对实例。类似地，Nam

et al.

[31]提出

了双注意网络，通过多个步骤捕获视觉和语言之间的细粒度相互作

用。然而，这些模型采用具有预定义步骤数量的多步推理来查看一

个语义匹配（

例如，图像中

的对象和句子中的短语），而不管语义

匹配的数量

对于不同的图像和句子描述而改变。相比之下，我们

提出

的模型发现所有潜在的对齐，因此是更可解释的。

使用堆叠交叉注意

在本节中，我们将介绍堆叠交叉注意力网络（SCAN）。我们的目标

是将单词和图像区域映射到一个公共的嵌入空间，以推断整个图像和

完整句子之间的相似性我们从自下而上的注意力开始检测图像区域并

将其编码为特征。此外，我们将句子中的单词以及句子上下文映射到

特征。然后，我们应用堆叠交叉注意力，通过对齐图像区域和单词特

征来推断图像-句子相似度我们首先在第节中介绍堆叠交叉注意

3.1

以及第3.2节中学习对齐的目标。然后，我们在3.3节和3.4节分别详细

介绍图像和句子表示。

3.1

堆叠交叉注意

堆叠交叉注意期望两个输入：图像特征集合

{

，…

}

，

∈R

，

使得

每个图像特征编码图像中的区域 ; 一组单词特征

{

，

…e

}

，

∈

，其中每个词特征编码句子中的一个词。输出是相

似性分数，其测量图像-句子对的相似性。简而言之，堆叠交叉注意力不

同地关注图像区域和词语，使用两者作为彼此的上下文，同时推断相似

性。我们在下面定义了两种叠加交叉注意力的互补公式：图像

文本

和

文

本

图像

。

图像-文本堆叠交叉

注意。

这个公式如图2所示，包含两个注意阶段。

首先，它针对每个图像区域关注句子中的单词。在第二阶段中，它将

每个图像区域与对应的关注句子向量进行比较，以便确定图像区域相

对于句子的重要性。具体地，给定具有

个

检测到的区域的图像

和具

有n个检测到的区域的句子

。

剩余15页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

堆叠交叉注意：提升图像文本匹配的可解释性和性能

SCAN:PyTorch“用于图像-文本匹配的堆叠式交叉注意”的源代码（ECCV 2018）

图像匹配算法研究

如何在图像文本匹配任务中实现堆叠交叉注意力机制以提升模型的可解释性和性能？

在图像文本匹配任务中，如何设计一个堆叠交叉注意力机制以提升模型的可解释性和性能？

【图像分类必学7大技巧】：彻底理解技术要点与模型选择

LSTM 模型在情感分析中的实战应用

物体识别中的迁移学习实践：如何高效复用模型知识

【深度学习应用案例】：卷积网络在数据挖掘中的惊人效果

【迁移学习在物体识别中的深度应用】：成为专家的10大策略与案例分析

lamp-cloud 基于jdk21、jdk17、jdk8 + SpringCloud + SpringBoot 开发的微服务中后台快速开发平台，专注于多租户(SaaS架构)解决方案

最新资源