跨模态注意力引导擦除改善指代表达基础

16 浏览量更新于2023-10-20 收藏 13.98MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

19500通过跨模态注意力引导擦除来改进指代表达基础0刘希辉 1 王子豪 2 邵静 2 王晓刚 1 李洪升 101 香港中文大学 2 商汤研究0{ xihuiliu, xgwang, hsli } @ee.cuhk.edu.hk { wangzihao, shaojing } @sensetime.com0摘要0指代表达基础的目标是在图像中使用指代表达来定位特定的对象或人物，其中的关键挑战是理解和对齐来自视觉和文本领域的各种类型的信息，例如视觉属性、位置和与周围区域的交互。尽管注意力机制已成功应用于跨模态对齐，但以前的注意力模型只关注两种模态中最显著的特征，忽视了图像和指代表达之间可能存在多个全面的文本-视觉对应关系的事实。为了解决这个问题，我们设计了一种新颖的跨模态注意力引导擦除方法，通过在线丢弃文本或视觉领域中最显著的信息来生成困难的训练样本，并驱使模型发现互补的文本-视觉对应关系。大量实验证明了我们提出的方法的有效性，在三个指代表达基础数据集上取得了最先进的性能。01. 引言0指代表达基础[13, 39,22]的目标是在图像中定位由自然语言描述所指的对象或人物。尽管在视觉和语言之间建立了很多联系[5, 32, 25, 37,6, 2,18]，但指代表达基础仍然具有挑战性，因为它需要对复杂的语义和各种类型的视觉信息（例如对象、属性和区域之间的关系）进行全面的理解。指代表达基础自然地被形式化为一个对象检索任务，我们从一组区域提议中检索最匹配指代表达的区域。通常，在嵌入空间中将短语和图像区域简单地关联起来是困难的，因为特征是从每个模态（即视觉和语言）分别提取的。以前的方法[38, 10]0一个戴着0右脚踩在足球上。0黑色眼镜0右脚踩在足球上0一个戴着0黑色<未足球上。0黑色0未知0右脚踩在0足球0查询句擦除0最显著的对应关系0缺失的对应关系0恢复的对应关系0图1.以我们的跨模态注意力引导擦除为例的查询句擦除。第一行显示原始的查询-区域对，第二行显示擦除查询后的对应关系。0提出了处理不同类型信息表达的模块化网络。另一方面，注意力机制的研究探索了挖掘两种模态的关键线索[38, 4,43]。通过集中注意力于两种模态中最重要的方面，具有注意力机制的模型能够更好地学习单词/短语和视觉区域之间的对应关系，从而有助于视觉和语言之间的对齐。然而，深度神经网络的一个普遍问题是它倾向于仅捕捉最具有区分性的信息以满足训练约束，忽视其他丰富的互补信息[42,34]。当考虑到指代表达基础的注意力模型时，这个问题变得更加严重。通过关注指代表达和图像，注意力模型倾向于捕捉两种模态之间最显著的对齐，而忽视其他可能的跨模态对应关系。指代表达通常从多个角度描述一个对象，例如视觉属性、动作和与上下文对象的交互，这些不能仅通过集中注意力于最重要的短语-区域对来完全探索。例如，人们将图1中的图像描述为“一个戴着黑色眼镜，右脚踩在足球上的男孩”。我们观察到19510模型最关注“眼镜”这个词，而忽略了“足球”。因此，只要能识别出“眼镜”，模型就能获得高匹配分数，但无法学习与“足球”相关的视觉特征。我们认为这样的限制导致了两个问题：(1)它阻止了模型充分利用训练对之间的潜在对应关系。(2)以这种方式训练的模型可能过度依赖特定的词或视觉概念，并且可能对频繁观察到的证据存在偏见。虽然一些关于循环或堆叠注意力的工作[43,4]在多个步骤中执行多次注意力以关注多个线索，但它们在每个步骤上没有直接监督注意力权重，因此无法保证模型学习到互补的对齐而不总是关注相似的信息。0受到先前的工作[29,34]的启发，他们擦除发现的区域以寻找互补的对象区域，我们设计了一种创新的跨模态擦除方案，以充分发现文本和视觉语义之间的全面潜在对应关系。我们的跨模态擦除方法通过擦除具有高注意力权重的最主要的视觉或文本信息来在线生成困难的训练样本，以驱动模型寻找除最主要信息之外的互补证据。我们的方法利用擦除的图像与原始查询，或擦除的查询与原始图像形成困难的训练对，不增加推理复杂性。此外，我们考虑了图像和指称表达之间的交互，并使用自身模态和其他模态的信息作为选择最主要信息进行擦除的线索。具体而言，我们利用了三种类型的擦除：(1)基于图像的查询句子擦除，我们使用视觉信息作为线索来获取词级别的注意力权重，并用“未知”标记替换具有高注意力权重的词。(2)基于句子的主体区域擦除，根据视觉特征和查询信息得出对主体区域的空间注意力，我们擦除具有最高注意力权重的空间特征。(3)基于句子的上下文对象擦除，在上下文对象上基于句子感知的对象级别注意力权重擦除一个主要的上下文区域。注意(2)和(3)是两种互补的用于句子感知的视觉擦除的方法。通过擦除操作在线生成的训练样本，模型无法访问最主要的信息，被迫进一步发现先前被忽视的互补的文本-视觉对应关系。0总之，我们在文本和视觉领域引入了一种新颖的跨模态注意力引导擦除方法，以鼓励模型发现指称表达基础的全面潜在文本-视觉对齐。据我们所知，这是0第一个考虑在文本和视觉领域中进行擦除以学习更好的跨模态对应关系的工作。为了验证我们提出的方法的有效性，我们在三个指称表达数据集上进行了实验，并取得了最先进的性能。02. 相关工作0指称表达的基础。指称表达的基础，也被称为指称表达理解，通常被制定为一个对象检索任务[11, 26]。[39, 23,41]在图像中探索了上下文信息，[31]提出了多跳特征线性调制的多步推理。胡等人[10]提出了组合模块化网络，由定位模块和关系模块组成，用于识别主体、对象及其关系。余等人[38]构建了MattNet，将跨模态推理分解为主体、位置和关系模块，并利用基于语言的注意力和视觉注意力来关注相关组件。[28, 22, 21, 40,17]将指称表达生成和基础视为逆向任务，通过使用一个任务作为训练另一个任务的指导，或者同时训练两个任务来实现。我们的工作是基于MattNet的，并鼓励模型通过跨模态擦除来探索互补的跨模态对齐。跨模态注意力。注意机制使模型能够选择有信息量的特征，在先前的工作中已被证明是有效的[35, 20, 3, 1, 36, 25, 14, 24, 16,19]。在指称表达的基础上，邓等人[4]提出了A-ATT，用于循环累积图像、查询和对象的注意力。庄等人[43]提出了并行注意力网络，通过循环注意力对全局视觉内容和对象候选进行处理。为了防止注意力模型过度集中在最主要的对应关系上，我们提出了基于注意力的擦除，即在线生成困难的训练样本，以发现互补的跨模态对齐。视觉域中的对抗擦除。先前的工作已经探索了擦除图像区域用于目标检测[33]、人物重新识别[12]、弱监督检测[29,9]和语义分割[34]。王等人[33]提出了训练一个对抗网络，用于生成具有遮挡和变形的训练样本，以训练鲁棒的检测器。魏等人[34]和张等人[42]提出了用于弱监督检测和分割的对抗擦除，通过擦除当前挖掘的区域来驱动网络发现新的和互补的区域。与先前只在视觉域中进行擦除的工作不同，我们在图像和句子中进一步进行了跨模态擦除。更重要的是，我们的方法只在训练阶段通过擦除来创建新的训练样本，不增加推理复杂性。wsubjwlocwreli19520语言注意力网络0模块级别的注意力权重0棕色马由女孩骑在中间。0主题模块0位置模块0棕色马由女孩骑在中间0棕色马由女孩骑在中间。0棕色马由女孩骑在中间。关系模块0匹配得分0图2.我们主干模型的示意图。语言注意力网络接受图像和句子作为输入，并为每个模块输出模块级别的注意力权重和单词级别的注意力权重。三个视觉模块分别计算主题、位置和关系的匹配得分。最终得分是三个匹配得分的加权平均。03. 跨模态注意力引导的擦除0我们的跨模态注意力引导的擦除方法根据注意力权重作为重要性指标，擦除最显著的信息，生成困难的训练样本，从而推动模型发现除最显著信息之外的互补证据。该方法独立于主干架构，可以应用于任何基于注意力的结构，而不引入额外的模型参数或推理复杂性。在我们的实验中，我们采用了Mat- tNet[38]的模块化设计作为我们的主干，因为它能够处理指代表达式中的不同类型的信息。03.1. 问题定义和背景0我们将指代表达式的基准问题定义为一个检索问题：给定图像I、查询句子Q和从图像中提取的一组区域提议R ={Ri}，我们的目标是计算每个区域提议Ri与查询Q之间的匹配得分，并选择具有最高匹配得分的提议作为目标对象。对于每个区域提议Ri，它的区域视觉特征与上下文对象特征一起表示为Oi。在MattNet[38]中，有一个语言注意力网络和三个视觉模块，即主题模块、位置模块和关系模块。语言注意力网络将查询Q作为输入，并输出注意力权重{w subj, w loc, wrel}和每个模块的查询嵌入[q subj, q loc, qrel]。每个模块通过查询嵌入和视觉或位置特征之间的点积计算匹配得分。三个模块的得分根据模块级别的注意力权重{w subj, w loc, wrel}进行融合。对于正候选对象和查询对(Oi, Qi)和负对(Oi,Qj)，0对于(O j, Q i)，在训练过程中最小化排名损失：L rank= �0i ([m - s(Oi, Qi) + s(Oi, Qj)] +0+ [ m - s(O i, Q i) + s(O j, Q i)] + ), (1)其中s(x,y)表示x和y之间的匹配得分，[x]+ = max(x,0)，m是排名损失的边界。我们采用MattNet[38]的模块化结构，并对每个模块的设计进行了一些改变，将在第3.3到3.5节中进行说明。我们的主干结构如图2所示。03.2. 注意力引导的擦除概述0通过在文本和视觉领域进行跨模态擦除，生成具有挑战性的训练样本，我们旨在发现互补的文本-视觉对齐。 (1)对于查询句子擦除，我们用“未知”标记替换查询中的关键词，并将被擦除的指代表达式表示为Q *。 (2)对于视觉擦除，我们首先根据模块注意力权重选择要擦除的视觉模块。具体而言，我们根据模块级别的注意力权重分布选择一个模块M s � Multinomial(3, [w subj, w loc, wrel])，并对所选模块的输入进行擦除。对于处理候选对象的主题模块，我们对特征图进行主题区域擦除。对于编码多个上下文区域的位置和关系模块，我们应用上下文对象擦除以丢弃上下文对象的特征。通过主题区域擦除或上下文对象擦除的擦除特征表示为O*。给定被擦除的查询句子或视觉特征，我们在损失函数中用被擦除的样本替换原始样本。具体而言，我们要求被擦除的视觉特征与其对应的查询比非对应的查询更匹配，并要求被擦除的查询与其对应的视觉特征比非对应的更匹配，使用以下擦除损失函数：L erase = �0+ [ m − s ( O i , Q � i ) + s ( O j , Q � i )] + ) . (2)其中第一项强制擦除的视觉特征与原始查询之间的匹配，第二项强制擦除的查询与原始视觉特征之间的匹配。我们在每个小批量中使用原始和擦除的配对，整体损失定义为 L = Lerase + L rank . (3)0接下来，我们将讨论如何分别执行三种类型的跨模态注意力引导擦除。03.3. 基于图像的查询句子擦除0人们倾向于从多个角度描述目标对象，但模型只关注最主要的。e0 = CNN(I0),ht = LSTM(et, ht−1).(4)wm =exp(f TmhT )�i∈Ω exp(f Ti hT ), m ∈ Ω,(5)αmt =exp(gTmht)�Ti=1 exp(gTmhi),qm =T�t=1αmt et,(6)αt =�m∈Ωwmαmt ,(7)j=1αsjvj,(9)19530棕色马由女孩骑在中间。棕色马由女孩骑在中间。0棕色马由女孩骑在中。0单词级别的注意力权重擦除的句子0图3. 基于图像的查询句子擦除。0单词，并忽略其他可能与视觉信息具有丰富对齐的单词。因此，我们引入了擦除的查询来训练模型，禁止模型只关注最主要的单词，从而驱使它学习互补的文本-视觉对应关系。0基于图像的模块级别和单词级别的注意力。给定查询句子和图像，我们的第一个目标是生成三个模块{ w subj , w loc ,w rel } 的注意力权重，以及三组单词级别的注意力权重{ αsubj t } T t =1 , { α loc t } T t =1 , { α rel t } T t =1，其中 T是句子中的单词数。通常，理解一个指代表达式不仅需要文本信息，还需要图像内容作为线索。受到这个直觉的启发，我们设计了一个基于图像的语言注意力网络来估计模块级别和单词级别的注意力权重。具体来说，我们使用卷积神经网络将整个图像 I 0 编码为特征向量 e 0，然后将图像特征向量和单词嵌入{ e t } T t =1输入到长短期记忆网络（LSTM）中。0我们根据LSTM的隐藏状态计算模块级别和单词级别的注意力权重，并相应地为每个模块推导查询嵌入。0其中 f m 和 g m 是模型参数，Ω = { subj , loc , rel }代表三个模块，w m 表示模型级别的注意力权重。α m t表示单词 t 和模块 m 的注意力权重，q m 是模块 m的查询嵌入。我们的方法利用视觉线索来推导模块级别和单词级别的注意力权重，这是与之前的工作[38,10]的关键区别，之前的工作只有自注意力。0注意力引导的查询擦除。为了通过擦除最重要的单词来生成训练样本，以鼓励模型寻找其他证据，我们首先根据模块级别和单词级别的注意力权重计算每个单词的整体重要性，0主题区域注意力0棕色马由女孩骑在0中间。0主题的空间注意力擦除的主题0图4. 句子感知的主题区域擦除。0其中{ α t } T t=1表示每个单词的图像感知整体注意力权重，作为单词重要性的指示器。我们根据整体单词级别的重要性分布来选择要擦除的单词， W s � Multinomial ( T, [ α 1 , ..., α T ])。接下来，我们考虑以何种方式消除该单词的影响。最直接的方法是直接从查询句子中删除它，但这样会破坏句子的语法结构。例如，如果我们直接从句子“The gray of�ce chairsitting behind a computerscreen”中删除单词“chair”，整体语义意义将被扭曲，模型可能难以理解。为了消除擦除单词的影响，同时保留句子结构，我们用一个“unknown”标记替换目标单词，如图3所示。这样，我们得到了擦除的查询 Q �，它丢弃了擦除单词的语义含义，但对于模型理解剩余单词没有困难。擦除的查询 Q � i 和其原始的正负图像特征 O i 和O j 形成新的训练样本对 ( O i , Q � i ) 和 ( O j , Q � i )，我们通过擦除查询句子的排序损失来强制擦除查询句子与原始视觉特征之间的文本-视觉对齐（Eq.(2)中的第二项）。03.4. 句子感知的主体区域擦除0主体模块以候选区域的特征图作为输入，并输出一个特征向量。我们通过擦除最显著的空间特征来创建新的训练样本，以驱使模型发现互补的对齐。0句子感知的空间注意力。我们遵循之前在跨模态视觉注意力上的工作[38, 36,4]。对于具有空间特征{vj}Jj=1的候选区域，其中J是特征图中的空间位置数量，我们将每个位置的视觉特征与查询嵌入qsubj连接起来计算空间注意力，0s j = ws2 tanh(Ws1[vj, qsubj] + bs1) + bs2, (8)0α s j = exp( s j ) / ∑ J i =1 exp(s i ) , ˜v subj =0J ∑0其中Ws1，ws2，bs1，bs2是模型参数，sj是未归一化的注意力，αj是归一化的空间注意力权重，˜vsubj是聚合的主体特征。基于注意力的主体区域擦除。通过传统的空间注意力，模型倾向于关注只有最具有区分性的区域，而忽略其他不太显著的区域。19540上下文对象注意力0棕色马由中间的女孩骑着。0对象级别注意力权重被擦除的对象0图5. 用于位置模块的句子感知的对象擦除。0仅关注最具有区分性的区域，而忽略其他不太显著的区域。这种情况会阻止模型在训练过程中充分利用全面的文本-视觉对应关系。因此，我们擦除被分配更大注意力权重的显著特征，生成新的训练数据，以驱使模型探索其他空间信息并学习互补的对齐。在特征图中，空间上相邻的特征是相关的。因此，如果我们只擦除来自不同位置的特征，擦除特征的信息可能无法完全删除，因为附近的像素也可能包含相似的信息。因此，我们提出从输入特征图中擦除一个大小为k×k（在我们的实验中k=3）的连续区域。通过这种方式，模型被迫在其他地方寻找其他证据。特别地，我们通过k×k的滑动窗口计算特征图中所有可能区域的累积注意力权重，并遮盖具有最高累积注意力权重的区域（见图4进行说明）。被擦除的主体特征与原始上下文对象特征一起表示为Oi。类似于查询句子擦除，Oi与原始查询句子配对形成正训练样本（Oi，Qi）和负训练样本（Oi，Qj），并且视觉擦除的排序损失（Eq.(2)中的第一项）应用于生成的训练样本对。03.5. 句子感知的上下文对象擦除。0在指代表达基础上，从上下文对象（即目标对象周围的对象）中获取支持信息对于查找非常重要。例如，表达式“一个戴蓝色衬衫的女人拿着一把雨伞”需要理解上下文区域“戴蓝色衬衫的女人”及其相对位置。句子感知的上下文对象注意力。有时候句子中会提到多个上下文区域，例如“两个红沙发旁边的白沙发”。因此，我们将位置和关系模块结合到一个统一的结构中，使用句子感知的注意力，考虑多个上下文对象，并关注最重要的对象。对于一组上下文区域特征{cmk}Kk=1，其中m∈{loc,rel}，每个cmk表示上下文区域提议的位置或关系特征。我们基于cmk和查询嵌入qm的连接来计算对象级别的注意力权重，并计算聚合的01 上下文区域选择和位置和关系特征提取的详细信息将在第4.1节中描述。0上下文对象注意力0棕色马由女孩骑在上面0中间。0对象级注意力权重擦除的对象0图6. 关系模块的句子感知对象擦除。0特征作为所有对象特征的加权和，s k = w m 2 tanh ( Wm 1 [ c m k , q m ] + b m 1 ) + b m 2 , (10)0a m k = exp( s k ) / K i =1exp( s i ) , ˜c m =0k =1 a m k c m k ,(11)0其中 W m 1 ， w m 2 ， b m 1 ， b m 2 是模型参数，s k是未归一化的分数，α m k是归一化的对象级注意力权重，˜c m是聚合的模块特征。我们的位置和关系模块的统一注意力结构与MattNet[38]不同。在MattNet中，位置模块不识别上下文区域的不同贡献，关系模块假设只有一个上下文对象有助于识别主体。相比之下，我们的模型能够处理多个上下文对象并关注重要的对象，这在我们的实验中表现出优越性。0基于注意力的上下文对象擦除。有时模型可能通过某个上下文对象的证据找到目标区域，因此不需要关注其他信息。因此，我们利用基于注意力的上下文对象擦除来丢弃一个显著的上下文对象，并使用擦除的上下文对象来形成训练样本，以鼓励模型寻找主体或其他支持区域。对于位置和关系模块，我们通过句子感知的上下文对象注意力获得了所有考虑对象的对象级注意力权重{ α m k } K k=1。我们根据注意力权重C s � Multinomial ( K, [ α 1 , ...,α K ])采样一个上下文对象，并通过用零替换其特征来丢弃Cs（见图5和图6进行说明）。擦除的上下文对象与原始主体特征一起表示为O �i，它与原始查询句子配对形成正训练样本（O � i，Qi）和负训练样本（O � i，Qj），并且视觉擦除的排序损失（Eq.(2)中的第一项）应用于生成的训练样本对。擦除的样本将驱使模型寻找其他上下文区域或主体视觉特征，并发现互补的文本-视觉对齐。03.6. 理论分析0基于反向传播的视角。我们推导了注意力模型的梯度，并揭示了它强调最显著特征的梯度，同时抑制不重要特征的梯度。这样的结论验证了我们提出的注意力引导擦除的必要性。i=1 j=1αiβjf ⊤i gj∂s∂αi=j=1βjf ⊤i gj,∂s∂fi=∂s∂βj=i=1αif ⊤i gj,∂s∂gj=ROI pooling as the whole image feature (used in Sec. 3.3).For each candidate object proposal, the 7 × 7 feature mapsare extracted and fed into subject module (Sec. 3.4). Forthe location module, we encode the location features as therelative location offsets and relative areas to the candidateobject δlij =� [∆xtl]ijwi, [∆ytl]ijhi, [∆xbr]ijwi, [∆ybr]ijhi, wjhjwihi�,as well as the position and relative area of the candidateobject itself, i.e., li =� xtlW , ytlH , xbrW ,�.Atten-tion and erasing for location module in Sec. 3.5 is per-formed over the location features of up-to-ﬁve surround-ing same-category objects plus the candidate object it-self.For relationship module, we use the concatenationof the average-pooled visual feature from the region pro-posal and relative position offsets and relative areas δlij =19550考虑具有特征 { f i } m i =1 和注意力权重 { α i } m i =1的视觉模态，以及具有特征 { g j } n j =1 和注意力权重 { β j} n j =1 的文本模态。聚合特征分别为 ˜ f = � m i =1 α i f i和 ˜g = � n j =1 β j g j。我们计算跨模态相似性，0s = ˜ f � ˜g 0i =1 α i f i �0j =1 β j g j=0m0n0(12) 关于 α i ， f i ， β j 和 g j 的梯度为0n0j =1 α i β j g j , (13)0m0i =1 αiβjfi. (14)0假设s是相应候选区域和查询句子之间的匹配分数，并在反向传播过程中接收正梯度。如果fi和gj彼此接近且fi � gj >0，则注意权重αi和βj将接收正梯度并增加。相反，如果fi �gj <0，则αi和βj都会被调整。因此，注意机制会自动学习特征的重要性，而无需直接监督。另一方面，如果一个词-区域对接收到高注意力αi和βj，则相对于fi和gj的梯度将被放大，将fi和gj大幅拉近。而如果αi和βj很小，则梯度将被抑制，只会轻微地将fi和gj拉近。因此，模型只会为最佳对齐特征学习大的注意力和良好的对齐，并且对于具有低注意力权重的其他跨模态对齐更新效率低。受到这一分析的启发，我们的方法擦除了最佳对齐特征，迫使模型给予互补的跨模态对齐高注意力权重，并有效地更新这些特征。0正则化视角。我们的擦除机制也可以看作是一种正则化。与dropout [30]和dropblock[7]的主要区别在于，我们选择性地擦除特征，而不是随机丢弃特征。我们擦除显著信息，同时通过从注意力权重定义的分布中进行采样引入随机性。在第4.5节中，证明了基于注意力的擦除策略比随机擦除更有效。04. 实验 4.1. 实现细节0视觉特征表示。我们遵循MattNet[38]的主题、位置和关系模块的特征表示。我们使用ResNet-101 [8]作为主干的faster R-CNN[27]来提取图像特征、主题特征和上下文对象特征。具体而言，我们将整个图像输入fasterR-CNN，并在提取图像特征之前获得特征图。0H，w∙h0wihi�用于表示上下文对象的关系特征。第3.3节中的关系模块上的注意力和擦除是在最多五个周围对象上执行的。训练策略。fasterR-CNN在COCO训练集上进行训练，排除了来自RefCOCO、RefCOCO+和RefCOCOg的验证和测试集样本，并且在训练基于地面模型时提取图像和提议特征时是固定的。模型使用Adam优化器[15]进行两个阶段的训练。我们首先通过仅使用原始训练样本进行预训练，使用排序损失L =Lrank获得合理的注意力模型以进行擦除。然后，我们执行在线擦除，并使用损失函数L = Lrank +Lerase训练模型，其中包括原始样本和在线生成的擦除样本。4.2. 数据集和评估指标0我们在三个指代表达数据集上进行实验：RefCOCO（UNCRefExp）[39]，RefCOCO+ [39]和RefCOCOg（GoogleRefExp）[22]。对于RefCOCOg，我们遵循[23]中的数据分割，以避免不同分割之间的上下文信息重叠。我们采用两种评估设置。在第一种设置（称为真实设置）中，候选区域是真实边界框，如果最佳匹配区域与真实边界框相同，则认为是正确的。在第二种设置（称为检测提议设置）中，模型从对象检测模型提取的区域提议中选择最佳匹配区域，如果预测区域与真实边界框的交并比（IOU）大于0.5，则认为是正确的。由于我们的工作重点是文本-视觉对应和跨模态信息的理解，而不是检测性能，我们在两种设置下报告结果，并在第一种设置下进行分析和消融研究。04.3.结果定量结果。我们展示了与先前工作在测试设置下的指代表达基准方法的比较结果。Figure 7. Qualitative results.Red bounding box denotes thegrounding results of the CM-Att model, and green bounding boxdenotes grounding results of the CM-Att-Erase model.19560RefCOCO RefCOCO+ RefCOCOg0val testA testB val testA testB val � val test0MMI [22] 真实区域 - 71.72 71.09 - 58.42 51.23 62.14 - - NegBag [23] 真实区域 76.90 75.60 78.00 - - - - - 68.40visdif+MMI [39] 真实区域 - 73.98 76.59 - 59.17 55.62 64.02 - - Luo et al. [21] 真实区域 - 74.04 73.43 - 60.2655.03 65.36 - - CMN [10] 真实区域 - - - - - 69.30 - - Speaker/visdif [39] 真实区域 76.18 74.39 77.30 58.94 61.2956.24 59.40 - - S-L-R [40] 真实区域 79.56 78.95 80.22 62.26 64.60 59.62 72.63 71.65 71.92 VC [41] 真实区域 -78.98 82.39 - 62.56 62.90 73.98 - - Attr [17] 真实区域 - 78.05 78.07 - 61.47 57.22 69.83 - - Accu-Att [4] 真实区域81.27 81.17 80.01 65.56 68.76 60.63 73.18 - - PLAN [43] 真实区域 81.67 80.81 81.32 64.18 66.31 61.46 69.47 - -Multi-hop Film [31] 真实区域 84.9 87.4 83.1 73.8 78.7 65.8 71.5 - - MattNet [38] 真实区域 85.65 85.26 84.5771.01 75.13 66.17 - 78.10 78.120CM-Att 真实区域 86.23 86.57 85.36 72.36 74.64 67.07 - 78.68 78.58 CM-Att-Erase 真实区域 87.47 88.1286.32 73.74 77.58 68.85 - 80.23 80.370S-L-R [40] 检测提议 69.48 73.71 64.96 55.71 60.74 48.80 - 60.21 59.63 Luo [21] 检测提议 - 67.94 55.18 -57.05 43.33 49.07 - - PLAN [43] 检测提议 - 75.31 65.52 - 61.34 50.86 58.03 - - MattNet [38] 检测提议 76.4080.43 69.28 64.93 70.26 56.00 - 66.67 67.010CM-Att 检测提议 76.76 82.16 70.32 66.42 72.58 57.23 - 67.32 67.55 CM-Att-Erase 检测提议 78.35 83.1471.32 68.09 73.65 58.03 - 67.99 68.670表1.在真实区域和检测模型的区域提议上与最先进的指代表达基准方法的比较。对于RefCOCO和RefCOCO+，testA用于指代人物，testB用于指代物体。0真实区域设置和检测提议设置在表1中的比较。CM-Att表示我们的模型，该模型使用仅原始训练样本进行训练的跨模态注意力。CM-Att-Erase表示我们的模型，该模型使用跨模态注意力引导的擦除生成的原始样本和擦除样本进行训练。结果显示，跨模态注意力模型已经是一个强大的基准，使用擦除样本进行训练可以进一步提升性能。我们的CM-Att-Erase模型优于先前的方法，而不增加推理复杂性。这验证了通过跨模态擦除，模型能够学习到更好的文本-视觉对应关系，并更好地处理全面的基准信息。定性结果。图7显示了我们的CM-Att-Erase模型与CM-Att模型的定性结果。结果显示，我们的CM-Att-Erase模型更擅长处理来自两个领域的复杂信息，特别是在需要考虑多个线索以便对指代表达进行基准的情况下。以第一行的第二张图片为例，我们的擦除模型不仅理解与“深蓝色花盆”相关的视觉特征，还理解与上下文对象“里面的粉色花朵”的关系，而没有进行擦除的模型在这些情况下表现不佳。04.4. 注意力可视化和擦除0我们在图8中可视化了注意力权重和擦除过程。结果显示，在第一张图片中，主体模块对应的区域给出了较高的注意力权重，该区域对应的是0一个睁着眼睛看着镜头的婴儿。0一个刚刚用球棒击中棒球的棒球运动员。0一辆黑色汽车在一辆摩托车后面。0一个深蓝色的花盆里面有粉色的花。0一个穿着粉色皇冠上衣的女孩和一只小猫。0一个浅棕色的带有白色胃部的泰迪熊。0“黑白连衣裙”。然而，在擦除该区域后，主题模块关注该女孩的动作，鼓励模型学习“打网球”与其对应的视觉特征之间的对应关系。第二行显示了查询句子擦除的示例。通过擦除单词“眼镜”以获得新的擦除查询作为训练样本，模型被驱使在图像中寻找其他信息，并成功识别出“黑色手机”与图像中相应上下文对象之间的对齐关系。19570打0一个穿0黑0穿白色衬衫的女孩0黑色和0g0连衣裙0网球0玩0黑色0太阳镜0黑色手机0黑色0手机0黑色0UNK0图像和候选区域原始主题注意力0查询句子注意力0擦除后的主题注意力0图像和候选区域原始句子注意力0主题和上下文对象的注意力0擦除后的句子注意力0图8.擦除前后的注意力权重可视化。第一行显示了主题区域擦除的示例，第二行显示了查询句子擦除的示例。0val test0CM-Att-Erase（我们提出的方法） 80.23 80.370擦除方法0随机擦除 79.08 79.050使用对抗网络擦除 79.31 79.230跨模态擦除的效果0自我擦除 79.27 79.220仅文本擦除 79.21 79.550仅视觉擦除 79.05 79.370迭代擦除 80.13 79.970推理过程中的擦除 79.25 79.560多步骤的注意力 79.31 78.490表2. 在RefCOCOg数据集上的消融研究结果。04.5. 消融研究0擦除方法。之前的研究利用了不同的擦除方法。除了我们提出的基于注意力的擦除方法，最直接的方法是随机擦除单词或图像区域，而不考虑它们的重要性[29]。另一种选择是训练一个对抗网络来选择最具信息量的单词或区域进行擦除，这在[33]中使用。我们将我们的基于注意力的擦除方法与这些方法进行比较，表2中的结果表明，基于注意力的擦除效果更好。由于注意力权重已经是特征重要性的良好指标，利用注意力作为擦除的指导更加高效，而且与应用单独的对抗擦除网络相比，基于注意力的擦除方法在模型复杂性上的成本很小。跨模态擦除的效果。我们将我们的跨模态擦除方法与基于自我注意力权重的擦除进行比较，其中我们仅利用同一模态内的信息生成注意力权重并进行基于注意力的擦除。我们还进行了仅视觉擦除或仅句子擦除的实验。表2中的实验结果证明了视觉擦除和查询的必要性。0句子擦除互补性，而且验证了我们的跨模态注意力引导擦除优于不考虑来自其他模态的信息的自注意力引导擦除。迭代擦除。一个可能的扩展是像[34]那样进行多次擦除，逐渐生成更具挑战性的训练样本。然而，表2中的结果表明这对于这个任务来说不合适。我们观察到大多数指代表达都非常简短。擦除超过一个关键词将显著消除句子的语义意义。同样，对于视觉特征的多次擦除也会使模型无法识别所指的对象。推理过程中的擦除。我们的模型只在训练阶段利用跨模态擦除，并且在推理过程中不进行擦除。我们尝试在推理过程中擦除关键词或关键区域，并将原始样本和擦除样本的匹配得分集成为最终得分。但实验表明这并没有提高最终的性能。可能是因为在训练过程中，模型已经学会了平衡各种特征的权重，并且在推理过程中不需要遮蔽主导特征以发现其他对齐。与堆叠注意力的比较。利用多个注意力步骤也使模型能够关注不同的特征。然而，这些模型对于不同注意力步骤的学习互补对齐没有直接约束。我们在堆叠注意力[36]上进行实验，与我们的擦除方法进行比较。实验表明，擦除在这个任务上的表现优于堆叠注意力，因为通过擦除，我们强制执行了更严格的学习互补对齐的约束。05. 结论和未来工作0我们解决了指代表达定位中各种类型信息的理解和对齐问题。为了防止模型过度关注最重要的线索，并驱使模型发现互补的文本-视觉对齐，我们设计了一种跨模态注意力引导的擦除方法，通过丢弃最重要的信息来生成困难的训练样本。模型在三个指代表达定位数据集上取得了最先进的性能，证明了我们方法的有效性。0致谢0这项工作部分得到了商汤科技有限公司的支持，部分得到了香港研究资助局的一般研究基金的支持，资助号为CUHK14202217、CUHK14203118、CUHK14205615、CUHK14207814、CUHK14213616、CUHK14208417、CUHK14239816和CUHK直接资助。19580参考文献0[1] Peter Anderson, Xiaodong He, Chris Buehler, DamienTeney, Mark Johnson, Stephen Gould, and Lei Zhang.Bottom-up and top-down attention for image captioning andvqa. arXiv preprin

下载后可阅读完整内容，剩余1页未读，立即下载