没有合适的资源?快使用搜索试试~ 我知道了~
{qi.zhang,zhaoxiang.zhang}@ia.ac.cn, {zlei,szli}@nlpr.ia.ac.cn(a)(b)35360面向图像-文本检索的上下文感知注意力网络0张琦 1 , 2 雷振 1 , 2 � 张兆翔 1 , 2 李斌 301 中国科学院自动化研究所,国家人工智能研究中心,北京,中国 2中国科学院大学,人工智能学院,北京,中国 3西湖大学,人工智能研究与创新中心,杭州,中国。0摘要0作为典型的跨模态问题,图像-文本双向检索在每个图像-文本对的联合嵌入学习和相似度度量方面依赖很大。由于先前的工作很少同时探索模态之间的语义对应关系和单一模态中的语义相关性,因此它仍然具有挑战性。在这项工作中,我们提出了一种统一的上下文感知注意力网络(CAAN),通过聚合全局上下文,有选择地关注关键的局部片段(区域和单词)。具体而言,它同时利用全局的跨模态对齐和单一模态的内部相关性,发现潜在的语义关系。考虑到图像和句子在检索过程中的相互作用,单一模态的相关性是从区域-单词对齐的二阶注意力中导出的,而不是直观地比较原始特征之间的距离。我们的方法在两个通用的图像-文本检索数据集Flickr30K和MS-COCO上取得了相当有竞争力的结果。01. 引言0将视觉与语言关联起来并探索它们之间的关系在过去几十年中引起了极大的兴趣。许多任务已经有效地结合了这两种模态并取得了重大进展,例如视觉问答(VQA)[1, 2, 33,25],图像字幕生成[1, 9]和使用自然语言进行人物搜索[22,23]。图像-文本双向检索[40,44]是跨模态研究领域中最受欢迎的分支之一。它旨在根据描述检索图像或根据图像查询找到句子。由于这两种模态之间存在较大差异,主要挑战在于如何学习联合嵌入并准确地度量图像-文本相似度。在描述目标图像时,人们倾向于制作...0� 通讯作者。0一堆不同的水果放在篮子和桌子上。0菠萝、香蕉和橙子放在靠近冰沙的箱子里。0图1.不同上下文的自适应检索过程示意图。一张图像带有两个不同的句子注释。在(a)中,绿色高亮显示的区域对应于左侧句子中的“水果”。然而,在(b)中,它们分别对应于右侧句子中的“菠萝”、“香蕉”和“橙子”,分别用蓝色、黄色和红色高亮显示。0频繁引用显著对象并描述其属性和动作。根据观察,一些方法[15, 16,33]将图像中的区域和句子中的单词映射到潜在空间,并探索它们之间的对齐。尽管验证了探索区域-单词对应关系的有效性,但它们忽略了每个局部片段的不同重要性。最近,基于注意力的方法[19, 20, 26,41]已经开始区分对待特定的区域和单词,并在图像-文本检索任务中展现了非常有希望的结果。SCAN[19]是一个典型的方法,它根据来自另一种模态的片段来决定片段的重要性,旨在发现完整的区域-单词对齐。然而,它忽略了单一模态中片段之间的语义相关性(共同或独特的属性、类别、场景等)。此外,一些方法[20,26]已经提出要么使用预训练的神经场景图生成器学习视觉关系特征,要么根据模态内关系消除不相关的片段,从某种程度上缓解了上述问题。35370然而,大多数先前的基于注意力的方法[19, 20, 26,41]忽视了一个事实,即一个词或区域在不同的全局上下文中可能具有不同的语义。具体而言,全局上下文指的是两种模态之间的相互作用和对齐(模态间上下文)以及单一模态中的语义摘要和相关性(模态内上下文)。如图1所示,人们有时会根据图1(a)中对象之间的关系自动总结高级语义概念(如水果),有时会在图1(b)中单独描述每个对象(如菠萝、香蕉、橙子)。因此,同时考虑模态内和模态间上下文,并根据各种上下文执行图像-文本双向检索是有益的。为了解决上述问题,我们首先提出了一种统一的上下文感知注意网络(CAAN),根据全局上下文有选择地关注局部片段。它将图像-文本检索建模为一个注意过程,将模态间注意力与发现单词-区域对之间所有可能的对齐相结合,并将模态内注意力与学习单一模态中片段的语义相关性相结合。通过利用上下文感知注意力,我们的模型可以同时执行图像辅助的文本注意力和文本辅助的视觉注意力。因此,分配给片段的注意力分数汇集了上下文信息。我们进一步提出了基于语义的注意力(SA)来探索潜在的模态内相关性,而不是直观地使用基于特征的相似性。我们的基于语义的注意力被形式化为区域-单词对齐的二阶注意力,明确考虑了模态之间的交互,并有效利用区域-单词关系推断单一模态中的语义相关性。它意识到当前的输入对,并且图像-文本对的全面上下文可以直接影响检索过程中彼此响应的计算。因此,它根据给定的上下文实现了实际的自适应匹配。总之,我们的工作的主要贡献如下:0•我们提出了一种统一的上下文感知注意网络,根据给定的上下文从全局的角度自适应地选择信息片段,包括单一模态中的语义相关性和区域与单词之间的可能对齐。0•我们提出了基于语义的注意力,以捕捉潜在的模态内相关性。它是区域-单词对齐的可解释的二阶注意力。0•我们在两个基准数据集Flickr30K [46]和MS-COCO[24]上评估了我们提出的模型,并取得了相当有竞争力的结果。02.相关工作0大多数现有的图像-文本检索方法要么将整个图像和完整的句子嵌入到共享空间中,要么考虑局部片段之间的潜在对应关系。一些最近的方法进一步采用注意机制,以便关注最重要的局部片段。02.1.图像-文本检索0全局嵌入方法。一种常见的解决方案是学习图像和句子的联合嵌入。De-ViSE[10]通过线性映射首次尝试统一图像特征和skip-gram词特征。Wang等人[39]将双向排序约束与邻域结构保持约束相结合在单一模态中。Li等人[22]使用身份级注释和两阶段框架来学习更好的特征表示。最近的研究集中在目标函数的设计上。Zheng等人[47]通过提出的实例损失学习了双路径卷积图像-文本嵌入。尽管这些方法已经取得了一定的成功,但由于对图像和句子之间细粒度相互作用的缺乏详细理解,图像-文本检索仍然具有挑战性。基于局部片段的方法。与上述方法不同,许多工作致力于解决在局部片段之上进行图像-文本检索的问题。DVSA[16]首次采用R-CNN检测显著对象,并推断句子中的单词与图像区域之间的潜在对齐。Ma等人[30]提出了学习图像和由不同层次的单词组成的片段之间的关系。sm-LSTM[13]尝试联合预测图像和句子的实例感知显著图,并在几个时间步内使用它们的相似性。HM-LSTM[33]利用句子和短语之间以及整个图像和图像区域之间的层次关系来共同建立它们的表示。Huang等人[14]提出了一种语义增强的图像和句子匹配模型,该模型学习语义概念并以正确的语义顺序组织它们。在本文中,我们采用相同的基于局部片段的策略,以更细的层次考虑图像和文本的内容,而不是使用粗略的概述。02.2. 注意机制0注意机制近年来在各种应用中越来越受欢迎,并被应用于图像分类[31, 38]、图像字幕生成[29, 43]和问题回答[36, 42,45]等领域。由于其强大的能力,许多基于注意力的方法已经在图像-文本检索任务中提出。DAN[32]引入了双重注意力网络,通过多个步骤来关注图像中的特定区域和文本中的单词。SCAN [19]使用KS ! "#$ %&'()*, )+-./0)* = .1(., /-)+ = /2(., /-�35380自底向上的注意力0双向GRU0模态内注意力0模态间注意力0模态内注意力0模态间注意力0逐元素求和 逐元素乘积 � 矩阵乘法0一只猫蹲在桌子上,旁边有一盏灯。0一只猫蹲在桌子上,旁边有一盏灯。0图2.我们提出的上下文感知注意力网络(CAAN)的流程。它由三个模块组成,(a)提取和编码图像中的区域和句子中的单词,(b)具有对动态全局上下文的自适应的上下文感知注意力,(c)使用双向排序损失进行最终表示的联合优化。0堆叠交叉注意力一次执行图像到文本的注意力或文本到图像的注意力。CAMP[41]提出了跨模态自适应消息传递来关注片段。考虑到区域之间的视觉关系,最近的方法[20]采用了跨模态注意力,并使用预训练的神经场景图生成器学习视觉关系特征。除了上述方法外,还有一些最新的方法将流行的BERT[5]架构扩展到联合学习视觉和文本表示。这些方法[21, 4,28]要么使用单流模型将文本和视觉数据融合为输入,要么使用双流模型分别处理每个模态,然后融合它们。由于BERT的自注意力模块的好处,它们已经达到了最先进的性能。03. 方法0在本节中,我们将介绍我们提出的上下文感知注意力网络(CAAN)的概述。如图2所示,给定一对图像-文本,我们首先将图像中的区域和句子中的单词嵌入到共享空间中。具体而言,我们利用自底向上的注意力[1]生成图像区域及其表示。同时,我们将句子中的单词与上下文一起编码。在关联模块中,我们对局部片段的提取特征进行上下文感知注意力网络,捕捉区域-单词对之间的语义对齐以及单一模态中片段之间的语义相关性。最后,模型进行训练0通过图像-文本匹配损失进行训练。接下来,我们将从以下几个方面介绍我们提出的方法的细节:1)视觉表示,2)文本表示,3)用于全局上下文聚合的上下文感知注意力网络,4)用于优化图像-文本检索的目标函数。03.1. 视觉表示0给定一张图像,我们观察到人们倾向于频繁引用显著对象并描述它们的动作和属性等。我们不是从像素级图像中提取全局CNN特征,而是专注于局部区域,并利用自底向上的注意力[1]的优势。根据[1, 19, 20],我们使用Faster R-CNN[34]模型与ResNet-101[12]模型在两个阶段中检测图像中的对象和其他显著区域,该模型在Visual Genome[18]上进行了预训练。在第一阶段,模型使用贪婪的非最大抑制和IoU阈值选择排名靠前的候选框。在第二阶段,提取这些边界框的特征在均值池化卷积层之后得到。这些特征用于预测实例和属性类别,以及细化边界框。对于每个区域 i,x i 表示具有2048维的原始均值池化卷积特征。最终特征v i 通过将 x i 线性映射为一个D维向量得到,如下所示:0vi = Wxxi + bi. (1)�g(V, U) = tanh(HuU T Q3 + HvuV T Q4),(10)g(V, U) = softmax(W ug(V, U)),(11)Huvij =[Hij]+��nk=1 [Hkj]2+,(12)Hvuij =[Hij]+��mk=1 [Hik]2+,(13)35390因此,目标图像v可以表示为具有最高类别检测置信度得分的选定ROI的特征集。03.2. 文本表示0为了发现区域-单词对应关系,句子中的单词被映射到与图像区域相同的D维空间中。我们不是单独处理每个单词,而是考虑同时编码单词及其上下文。给定句子中m个输入单词的独热编码W={w1,...,wm},我们首先通过单词嵌入层将它们嵌入到300维向量中,其中We是一个端到端学习的参数矩阵,表示为xi=We*wi。然后我们将向量输入到一个双向GRU[3, 35]中,它可以表示为:0−→hi = −−−→GRU(xi, −→hi−1), i∈[1, m], (2)0←−hi = ←−−−GRU(xi, ←−−hi+1), i∈[1, m], (3)0其中−→hi和←−hi分别表示来自前向和后向方向的隐藏状态。最终的单词嵌入ui是双向隐藏状态的平均值,它收集以单词wi为中心的上下文:0ui = −→hi + ←−hi02, i∈[1, m]. (4)03.3. 上下文感知注意力03.3.1 表达式0注意机制旨在关注与相应任务最相关的信息,而不是平等地使用所有可用信息。我们首先提供了一个针对跨模态检索问题设计的注意机制的一般表达式。对于图像v和文本u,它们的特征图被表示为V=[v1,...,vn]和U=[u1,...,um],分别。我们将图像-文本检索的注意力过程定义为:0ˆv = Vf(V, U) =0n ×0i=1 [f(V, U)]i vi, (5)0ˆu = Ug(V, U) =0m0j=1 [g(V, U)]j uj, (6)0其中f(∙)和g(∙)是用于计算每个局部片段vi和uj的分数的注意力函数。最终的图像和文本特征ˆv和ˆu被计算为局部片段的加权和。根据[?,29],我们计算目标图像和文本的区域-单词对之间的相似性。相似性矩阵H可以表示为:0H = tanh(VTKU), (7)0其中K∈Rd×d是权重矩阵。Attentive Pooling Networks[6]基于以下假设进行列和行的最大池化,即每个片段的重要性由其与另一模态片段的最大相似性表示。当f(V,U)在H上进行行最大池化操作后,它是所提出的注意力过程的另一种替代版本的softmax计算。此外,我们不仅计算相似性矩阵,还将其用作预测注意力图的特征。具体而言,一个片段的重要性得分由所有相关片段决定,考虑到单一模态内的模态内相关性和所有区域-单词对之间的模态间对齐。基于这个考虑,区域的归一化注意力函数f(V,U)可以表示如下:0f(V, U) = tanh(HvVTQ1 + HuvUTQ2), (8)0f(V, U) = softmax(Wv * f(V, U)), (9)0其中Wv∈Rz是一个投影向量。Q1,Q2∈Rd×z0是用于进行逐维度融合的参数矩阵。Hv∈Rn×n是捕捉区域内模态之间相关性的注意力矩阵。Huv∈Rn×m是用于对单词到区域进行重新加权的注意力矩阵。同样,对于单词的归一化注意力函数g(V, U)可以写成如下形式:0其中 Q 3 , Q 4 ∈ R d × z 和 W u ∈ R z是学习得到的权重。设计的注意力函数 f ( V, U ) 和 g ( V, U)根据全局上下文选择性地关注那些信息丰富的片段,应用了模态间注意力和内部模态注意力。03.3.2 交互模态注意力:H uv,H vu0矩阵 H 计算局部区域-词对的相似度。根据[15, 19,20]的方法,我们将相似度阈值设为零,并对其进行归一化,以获得对齐分数。词-区域注意力 H uv 的计算如下:0其中 [ x ] + ≡ max (0 , x ) 。词-区域注意力矩阵 H uv中的每个元素 H uv i,j 表示两个局部片段区域 v i 和词 u j之间的相对对应关系。类似地,区域-词注意力 H vu的计算如下:0H uv 和 H vu都通过对齐区域和词语来推断图像和句子之间的细粒度相互作用。 ! "Hv = V T M1V,(14)Hu = U T M2U,(15)Hv =T,(16)Hu =,(17)35400按列归一化0按行归一化0图3. 详细说明了基于语义的内部模态注意力过程。内部模态亲和矩阵 H v 和 H u0分别用于捕捉区域-区域和词-词之间的潜在关系。它们通过充分利用模态间的对齐来计算。03.3.3 内部模态注意力:H v,H u0接下来,我们将讨论 H v 和 H u的两个版本,它们从两个不同的角度对内部模态相关性进行建模。基于特征的注意力(FA)。衡量内部模态相关性的一种自然选择是计算特征相似度。也就是说,内部模态注意力矩阵 H v 和 H u0可以定义为:0其中 M 1 , M 2 ∈ R d × d 是学习得到的权重参数。当它们等于单位矩阵时,H v中的元素0其中 H u 和 H v分别表示单模态中局部片段之间的点积相似度。学习矩阵及其转置的矩阵乘积是另一种选择,它将 U投影到一个新的空间。它不仅允许计算得到的内部模态注意力矩阵表示归一化特征之间的余弦相似度,还保留了模型的容量。然而,它忽略了一个事实,即单模态中的语义摘要(内部模态上下文)对于不同的查询是不同的。因此,应该以交互方式进行单模态中片段之间的语义相关性挖掘。基于语义的注意力(SA)。考虑到检索过程中两个模态之间的交互和信息传递,我们提出了基于语义的注意力来探索基于区域-词关系的内部模态相关性。在我们的工作中,我们使用可解释的二阶0基于模态间对齐的注意力。SA的详细过程如图3所示。内部模态注意力矩阵 H v 和 H u 定义为:0归一化( H uv1 ∙ ) 归一化(H uv 2 ∙ ) ...归一化( H uvn ∙ )0归一化( H uv1 ∙ ) 归一化(H uv 2 ∙ ) ...归一化( H uvn ∙ )0归一化( H vu1 ∙ ) 归一化(H vu 2 ∙ ) ...归一化( H vum ∙ )0�0�0�0�0norm(Hvu1∙)norm(Hvu2∙)...norm(Hvu m∙)0�0����0T0其中norm(∙)表示对输入向量进行l2归一化操作。作为互模态注意力矩阵Huv的第i行,Huvi∙被认为是与给定vi相关的所有单词的词-区域亲和分布或响应向量。它衡量了vi与整个单词特征集{u1,...,um}之间的距离。因此,每个元素Hv ij是两个区域-单词响应向量Huvi∙和Huvj∙的余弦相似度。互模态注意力矩阵Hv计算任意两个亲和分布之间的配对关系。互模态摘要和相关性与检索过程中的全局上下文相关,它们隐含地包含了统计和语义信息,即共存、依赖和隶属关系。当两个区域vi和vj对同一句子有相似的响应时,它们被视为高相关的一对。因此,SA在分配与区域vj相关的注意力分数的过程中更加关注区域vi。它全面考虑了两个响应的相似性,从而建模了两种模态之间相似性片段的移动之间的关系。总之,自适应的互模态注意力过程是由全局语义信息驱动的。它要求在给定上下文的基础上对语义进行区分,而不是原始的无上下文特征。03.4. 目标函数0基于hinge的双向排序损失[8, 16,19]是图像-文本检索中最流行的目标函数,可以表示为:0L(ˆv,ˆu0ˆv-,ˆu- { max0+ max[0,m-S(ˆv,ˆu)+S(ˆv-,ˆu)]},(18)0其中m是一个边界约束,(ˆv,ˆu-)和(ˆv-,ˆu)是负对。S(∙)是一个匹配函数,在我们的实验中被定义为内积。目标函数试图将正的图像-文本对拉近̸̸35410方法 MS-COCO 5折1K测试图像 Flickr30K 1K测试图像 句子检索 图像检索 句子检索 图像检索 R@1 R@5 R@10 R@1R@5 R@10 R@1 R@5 R@10 R@1 R@5 R@100(R-CNN,AlexNet)DVSA [16] 38.4 69.9 80.5 27.4 60.2 74.8 22.2 48.2 61.4 15.2 37.7 50.50(VGG)VQA-A [25] 50.5 80.1 89.7 37.0 70.9 82.9 33.9 62.5 74.5 24.9 52.6 64.8 sm-LSTM [13] 53.2 83.1 91.5 40.775.8 87.4 42.5 71.9 81.5 30.2 60.4 72.3 2WayNet [7] 55.8 75.2 - 39.7 63.3 - 49.8 67.5 - 36.0 55.6 -0(ResNet)RRF-Net [27] 56.4 85.3 91.5 43.9 78.1 88.6 47.6 77.4 87.1 35.4 68.3 79.9 VSE++ [8] 64.6 90.0 95.7 52.084.3 92.0 52.9 80.5 87.2 39.6 70.1 79.5 DAN [32] - - - - - - 55.0 81.8 89.0 39.4 69.2 79.1 DPC [47] 65.6 89.8 95.547.1 79.9 90.0 55.6 81.9 89.5 39.1 69.2 80.9 GXN [11] 68.5 - 97.9 56.6 - 94.5 56.8 - 89.6 41.5 - 80. SCO [14] 69.992.9 97.5 56.7 87.5 94.8 55.5 82.0 89.3 41.1 70.5 81.10(Faster-RCNN,ResNet)SCAN-single [19] 70.9 94.5 97.8 56.4 87.0 94.8 67.9 89.0 94.4 43.9 74.2 82.8 R-SCAN[20] 70.3 94.5 98.1 57.6 87.3 93.7 66.3 90.6 96.0 51.4 77.8 84.9 CAMP [41] 72.3 94.8 98.3 58.5 87.9 95.0 68.1 89.795.2 51.5 77.1 85.3 BFAN-single [26] 73.7 94.9 - 58.3 87.5 - 64.5 89.7 - 48.8 77.3 - CAAN (ours) 75.5 95.4 98.561.3 89.7 95.2 70.1 91.6 97.2 52.8 79.0 87.90表1. 在MS-COCO 5折1K测试集和Flickr30K 1K测试集上的跨模态检索结果。最佳性能用粗体表示。' - ':未提供结果。0并将负样本推开。尽管在跨模态任务中广泛使用,但由于随机三元组采样过程导致的高冗余性和收敛速度慢而受到困扰。为了提高计算效率,通常采用具有最难负样本的双向排序损失。它侧重于最难的样本,即最接近正样本的负样本。给定一个正样本(ˆv,ˆu),最难的负样本可以表示为vh =arg max p ≠ ˆv S(p,ˆu)和uh = arg max k ≠ ˆuS(ˆv,k)。因此,具有最难负样本的双向排序损失可以表示为:0L hard (ˆ v, ˆ u ) = max [0 , m − S (ˆ v, ˆ u ) + S (ˆ v, ˆ u − h )]0+ max [0 , m − S (ˆ v, ˆ u ) + S (ˆ v h , ˆ u )] .(19)04. 实验04.1. 数据集和评估指标0数据集。我们在Flickr30K [46]和MS-COCO[24]数据集上评估我们的模型。Flickr30K包含31,000张图像,每个图像关联着五个句子。我们采用[8,16]中的相同协议将数据集分为1,000个测试图像,1,000个验证图像和29,000个训练图像。MS-COCO包含123,287张图像,每张图像都有五个描述。在[16]中,MS-COCO被分为82,783个训练图像,5,000个验证图像和5,000个测试图像。我们遵循[8,19]使用其他30,504个图像作为训练集的一部分,这些图像最初在验证集中,但在划分中被排除。评估指标。我们使用R@K和mR来评估我们的模型。R@K是前K个列表中正确匹配的百分比。实验中采用了R@1、R@5和R@10。mR是R@K (K=1,5,10)的平均值。0图像作为训练集的一部分,这些图像最初在验证集中,但在划分中被排除。实验在5K和1K测试图像上进行,1K测试图像的结果是在完整的5K测试图像上进行5折平均得到的。评估指标。我们使用R@K和mR来评估我们的模型。R@K是前K个列表中正确匹配的百分比。实验中采用了R@1、R@5和R@10。mR是R@K (K=1,5,10)的平均值。04.2. 实现细节0采用Adam优化器[17]进行优化。在MS-COCO中,我们将初始学习率设置为0.0005,前10个epoch,并在接下来的10个epoch中将其减小10倍。在Flickr30K中,前15个epoch的学习率为0.0002,接下来的15个epoch中减小到0.00002。根据在验证集上的召回率之和选择最佳模型。04.3. 定量结果04.3.1 与非BERT方法的比较0我们将我们的模型与MS-COCO和Flickr30K数据集上的一些最新非BERT方法进行比较。如表1所示,CAAN在性能上大幅优于其他方法。为了公平比较,我们只报告了SCAN[19]和BFAN [26]的单模型结果。35420MS-COCO 5K测试图像 方法 句子检索 图像检索 R@1 R@5 R@10R@1 R@5 R@100(R-CNN, AlexNet) DVSA [16] 16.5 39.2 52.0 10.7 29.6 42.20(VGG) VQA-A [25] 23.5 50.7 63.6 16.7 40.5 53.80(ResNet) VSE++ [8] 41.3 69.2 81.2 30.3 59.1 72.4 GXN [11] 42.0 -84.7 31.7 - 74.6 SCO [14] 42.8 72.3 83.0 33.1 62.9 75.50(Faster-RCNN, ResNet) PVSE [37] 45.2 74.3 84.5 32.4 63.0 75.0SCAN-single [19] 46.4 77.4 87.2 34.4 63.7 75.7 R-SCAN [20] 45.477.9 87.9 36.2 65.6 76.7 CAMP [41] 50.1 82.1 89.7 39.0 68.9 80.2CAAN (我们的方法) 52.5 83.3 90.9 41.2 70.3 82.90表2. 在MS-COCO完整的5K测试集上进行跨模态检索结果的比较。0在两个数据集上进行,而不是使用集成版本。在1K测试集上,CAAN在图像和文本作为查询时分别给出了R@10=98.5和95.2。它在图像检索方面的R@1为61.3,相对于当前非BERT方法(如BFAN-single[26])提高了3%。在Flickr30K数据集上,CAAN在句子和图像检索方面的R@1分别为70.1和52.8。MS-COCO5K测试集上的结果总结在表2中。CAAN在所有指标上明显优于当前的非BERT方法,这验证了我们提出的方法的有效性。正如第3.3节所示,我们引入的注意力过程在单模态中探索了区域-词对齐和语义相关性。与其他非BERT方法相比的性能提升证明了在自适应检索过程中考虑特定上下文的优势。0句子检索 图像检索 R@1 R@10 mR R@1R@10 mR0ViLBERT † [28] - - - 45.5 85.0 69.1 UNITER † [4] - - 83.3 - - 73.9ViLBERT ‡ [28] - - - 58.2 91.5 78.2 Unicoder-VL † [21] 73.0 94.185.4 57.8 88.9 76.3 CAAN (我们的方法) 70.1 97.2 86.3 52.8 87.973.2 UNITER ‡ [4] - - 92.2 - - 83.1 Unicoder-VL ‡ [21] 86.2 99.093.8 71.5 94.9 85.80表3.在Flickr30k数据集上与基于BERT的方法的比较。CAAN(我们的方法)是基线模型,使用在Visual Genome上预训练的FasterR-CNN,没有对语言模型进行预训练。†表示使用预训练的视觉特征和语言模型(BERT)初始化的方法,只使用文本数据。‡表示使用额外的领域外(视觉-语言)数据进行预训练的方法。04.3.2 与基于BERT的方法的比较0我们还与其他基于BERT的方法进行了比较,这些方法在Flickr30K和MS-COCO数据集上实现了最先进的性能。如表3所示,即使没有引入和微调预训练的语言模型,我们的方法与基于BERT的方法具有相当可比的结果。此外,与基于BERT的方法相比,我们的方法更快速、更小巧。以ViLBERT为例,计算文本-图像对之间的相似度大约需要0.5秒,而我们的方法只需要约45微秒,使用1个GTX1080Ti。ViLBERT的参数为275M,而我们的方法只有11M。考虑到实际场景的速度和模型大小要求,我们的方法更加方便和实用。0图像查询 句子查询 R@1 R@10R@1 R@100baseline 58.1 90.0 42.0 79.7 baseline+IA 60.692.4 45.2 81.5 baseline+FA 62.3 93.2 46.6 83.0baseline+SA 64.5 93.8 48.8 83.4baseline+IA+FA 62.6 93.0 45.0 82.9 CAAN 70.197.2 52.8 87.90表4. 在Flickr30K测试集上的消融研究结果。04.4. 注意力机制的消融研究0在本节中,我们进行了消融研究,以量化我们提出的注意力机制的影响,包括内模态和跨模态注意力。我们首先提供了基线模型,使用自底向上的注意力[1],在表4中标记为“baseline”。它将所有局部特征的平均值作为最终表示。我们可以看到,与在表1中展示的提取全局特征的方法相比,它取得了相当有竞争力的结果。这表明相比于使用整体图像或完整句子的粗略概述,集中关注局部片段是合理的。具有跨模态注意力的基线模型。我们在基线模型中实现了跨模态注意力,标记为“baseline+IA”。它在图像和文本作为查询时分别达到了R@1=60.6和45.2。与“baseline”相比,CAAN展示了考虑区域-词对之间的完全对齐的有效性。具有内模态注意力的基线模型。表4说明了执行内模态注意力的影响。“baseline+FA”和“baseline+SA”仅使用单一模态中的片段关系。它们之间的区别在于测量片段相关性的方式。尽管“baseline+FA”引入了额外的参数M1和M2来拟合数据,“baseline+SA”仍然取得了更好的结果,这显示了通过推断语义相关性的优越性。35430一张白色沙发,一张棕色桌子上有一瓶和一杯。0黑色包袋放在一张白色沙发上,位于一个起居室中。0一个靠近草地的长凳,附近有一辆停着的汽车。0展示了一个夜晚的公园,中间有一张空的长凳。0(a) 跨模态对齐0a0三只狗在田野上一起玩耍。0一个男孩和一个女孩站在湖边,夕阳下。0baseline+IA+FA CAAN0(b) 内模态相关性0图4.在MS-COCO和Flickr30K数据集上,对每个图像区域与句子查询的注意力权重进行可视化。左侧子图(a)展示了使用不同句子进行文本到图像检索的定性示例。右侧子图(b)比较了“baseline+IA+FA”和我们的CAAN,显示了不同对象共享的相似语义如何影响注意力过程。以交互方式考虑跨模态对齐和内模态相关性是有益的。(最佳观看效果为彩色)0自适应地测量响应向量的距离,而不是原始特征。基线模型同时具有模态间和模态内注意力。我们进一步将模态间和模态内注意力集成到基线模型中。结果在表4中标记为“基线+IA+FA”和“CAAN”。与“基线+FA”相比,“基线+IA+FA”甚至有稍差的结果。这表明,如果没有仔细设计,结合模态间对齐和模态内相关性可能会损害性能。而“CAAN”优于“基线+IA+FA”和“基线+SA”,表明它是一种更好的解决方案,可以考虑全局上下文,并以交互方式进行语义相关性挖掘。05. 可视化0为了更好地理解我们提出的模型的有效性,我们在图4中可视化了文本到图像检索过程中的注意力分配。对于图4(a)中的定性示例,我们可以观察到不同的图像-文本对分配了不同的区域的注意力权重。如图4(a)的第一行所示,在左侧子图中,“瓶子”区域获得更多的注意力,而在右侧子图中,“袋子”区域是焦点。这表明我们的模型根据全局上下文推断模态间对齐。对于图4(b)中的定性示例,我们与“基线+FA+IA”进行了比较。如图4(b)的第二行所示,“0与模型“基线+IA+FA”相比,提出的CAAN对“男孩”赋予了更多的注意力权重。值得注意的是,具有相似语义的不同对象会影响匹配过程。06. 结论0在本文中,我们提出了一种统一的上下文感知注意力网络(CAAN),将图像-文本检索建模为一种注意力过程,以有选择地关注最具信息量的局部片段。通过结合模态内和模态间的注意力,我们的模型聚合了单词-区域对齐(模态间上下文)和单一模态中片段之间的语义相关性(模态内上下文)的上下文信息。此外,我们进行了基于语义的注意力来建模模态内的相关性,这是区域-单词对齐的可解释的二阶注意力。该模型通过在Flickr30K和MS-COCO数据集上取得了相当有竞争力的结果来证明其有效性。07. 致谢0本工作部分得到中国国家自然科学基金项目#61872367、#61876178、#61806196、#61806203、#61976229的支持。[1] Peter Anderson, Xiaodong He, Chris Buehler, DamienTeney, Mark Johnson, Stephen Gould, and Lei Zhang.Bottom-up and top-down attention for image captioning andvisual question answering. In CVPR, 2018.[2] Stanislaw Antol, Aishwarya Agrawal, Jiasen Lu, MargaretMitchell, Dhruv Batra, C. Lawrence Zitnick, and DeviParikh. VQA: visual question answering. In ICCV, 2015.[3] Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio.Neural machine translation by jointly learning to align andtranslate. In ICLR, 2015.[4] Yen-Chun Chen, Linjie Li, Licheng Yu, Ahmed El Kholy,Faisal Ahmed, Zhe Gan, Yu Cheng, and Jingjing Liu.UNITER: learning universal image-text representations.arXiv preprint arXiv:1909.11740, 2019.[5] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and KristinaToutanova. BERT: pre-training of deep bidirectional trans-formers for language understanding. In NAACL-HLT, 2019.[6] C´ıcero Nogueira dos Santos, Ming Tan, Bing Xiang, andBowen Zhou. Attentive pooling networks. arXiv preprintarXiv:1602.03609, 2016.[7] Aviv Eisenschtat and Lior Wolf. Linking image and text with2-way nets. In CVPR, 2017.[8] Fartash Faghri, David J. Fleet, Jamie Ryan Kiros, and SanjaFidler.VSE++:improved visual-semantic embeddings.arXiv preprint arXiv:1707.05612, 2017.[9] Hao Fang, Saurabh Gupta, Forrest N. Iandola, Rupesh Ku-mar Srivastava, Li Deng, Piotr Doll´ar, Jianfeng Gao, Xi-aodong He, Margaret Mitchell, John C. Platt, C. LawrenceZitnick, and Geoffrey Zweig. From captions to visual con-cepts and back. In CVPR, 2015.[10] Andrea Frome, Gregory S. Corrado, Jonathon Shlens, SamyBengio, Jeffrey Dean
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索AVL树算法:以Faculdade Senac Porto Alegre实践为例
- 小学语文教学新工具:创新黑板设计解析
- Minecraft服务器管理新插件ServerForms发布
- MATLAB基因网络模型代码实现及开源分享
- 全方位技术项目源码合集:***报名系统
- Phalcon框架实战案例分析
- MATLAB与Python结合实现短期电力负荷预测的DAT300项目解析
- 市场营销教学专用查询装置设计方案
- 随身WiFi高通210 MS8909设备的Root引导文件破解攻略
- 实现服务器端级联:modella与leveldb适配器的应用
- Oracle Linux安装必备依赖包清单与步骤
- Shyer项目:寻找喜欢的聊天伙伴
- MEAN堆栈入门项目: postings-app
- 在线WPS办公功能全接触及应用示例
- 新型带储订盒订书机设计文档
- VB多媒体教学演示系统源代码及技术项目资源大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功