LAVT：语言感知视觉Transformer用于指代图像分割

154 浏览量更新于2023-10-25 收藏 13.52MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

In this task, the target object is inferred from a free-form ex-pression, which includes words and phrases presenting theconcepts of entities, actions, attributes, positions, etc., or-ganized by syntactic rules. Therefore, the key challenge ofthis task is to exploit visual features that are relevant to thegiven text conditions.There have been growing efforts devoted to referring im-age segmentation over the past few years. A widely adoptedparadigm is to first independently extract vision and lan-guage features from different encoder networks, and thenfuse them together to make predictions with a cross-modaldecoder. Concretely, the fusion strategies include recurrentinteraction [28,31], cross-modal attention [4,20,48], multi-181550LAVT：用于指代图像分割的语言感知视觉Transformer0赵阳1*，王佳琪2*，唐彦松5,1†，陈凯2,4，赵恒爽3,1，Philip H.S. Torr101牛津大学，2上海人工智能实验室，3香港大学，4商汤研究院，5清华-伯克利深圳研究院，清华大学0摘要0指代图像分割是一项基础的视觉语言任务，旨在从图像中根据自然语言表达式分割出所指的对象。这个任务背后的一个关键挑战是利用指代表达式来突出图像中相关的位置。解决这个问题的一种范例是利用强大的视觉语言（“跨模态”）解码器，将从视觉编码器和语言编码器中独立提取的特征进行融合。最近的方法在这个范例中取得了显著的进展，同时也与Transformer在许多其他视觉语言任务中取得的压倒性成功相吻合。本文采用了一种不同的方法，我们展示了通过在视觉Transformer编码器网络的中间层中早期融合语言和视觉特征，可以实现更好的跨模态对齐。通过在视觉特征编码阶段进行跨模态特征融合，我们可以利用Transformer编码器在建模多模态上下文方面的良好相关性建模能力。这样，我们可以轻松地通过一个轻量级的掩码预测器获得准确的分割结果。在没有花哨的技巧的情况下，我们的方法在RefCOCO、RefCOCO+和G-Ref上都大幅超过了先前的最先进方法。01. 引言0给定一张图像和目标对象的文本描述，指代图像分割旨在预测一个逐像素的掩码，用于描绘该对象[8,18]。它对于语言驱动的人机交互[55]和图像编辑[5]等各种应用具有重要价值。与基于固定类别条件的传统单模态视觉分割任务[30,65]相比，指代图像分割必须处理人类自然语言更丰富的词汇和句法变化。0* 平等贡献。† 通讯作者。0视觉编码器0视觉Transformer0语言编码器0Transformer解码器0“带有糖霜的粉色甜甜圈”0(a) 先前最先进方法的范例0(b) LAVT（我们的方法）0语言编码器0“带有糖霜的粉色甜甜圈”0图1.指代图像分割任务将一张图像和一个文本描述作为输入，并预测一个描绘描述中指定对象的掩码。(a) 先前最先进的方法（即VLT[12]）利用视觉语言Transformer解码器进行跨模态特征融合。(b)相反，我们提出在视觉Transformer网络的中间层直接将语言信息整合到视觉特征中，共同利用有益的视觉语言线索。因此，一个轻量级的掩码预测器可以取代先前方法中复杂的跨模态解码器。181560模态图推理[21]，语言结构引导的上下文建模[22]等。最近的进展（例如[12]）通过使用跨模态Transformer[54]解码器（如图1（a）所示）来学习更有效的跨模态对齐，从而带来了性能改进，这与Transformer在许多其他视觉语言任务[19,27,37,45]中的压倒性成功一致。尽管取得了很大的进展，但是Transformer在提高指代图像分割的潜力在传统范式中仍然远未得到充分探索。具体而言，跨模态交互仅在特征编码之后发生，并且跨模态解码器仅负责对齐视觉和语言特征。因此，以前的方法未能有效利用编码器中丰富的Transformer层来挖掘有用的多模态上下文。为了解决这些问题，一个潜在的解决方案是在视觉编码期间利用视觉编码器网络共同嵌入语言和视觉特征。因此，我们提出了一种语言感知视觉Transformer（LAVT）网络，其中视觉特征与语言特征一起进行编码，并在每个空间位置“感知”相关的语言上下文。如图1（b）所示，LAVT充分利用现代视觉Transformer骨干网络中的多阶段设计，形成了一种分层的语言感知视觉编码方案。具体而言，我们通过像素-词注意机制在网络的每个阶段密集地将语言特征与视觉特征整合在一起。随后的Transformer块（例如[33]）利用这些有益的视觉语言线索，在下一个编码器阶段中进行利用。这种方法使我们能够放弃复杂的跨模态解码器，因为提取的语言感知视觉特征可以轻松地用于使用轻量级掩模预测器获取准确的分割掩模。为了评估所提方法的有效性，我们在各种主流的指代图像分割数据集上进行了大量实验。我们的LAVT在RefCOCO[63]，RefCOCO +[63]，G-Ref（UMD分区）[42]和G-Ref（Google分区）[40]的验证集上分别实现了72.73％，62.14％，61.24％和60.50％的整体IoU，相对于这些数据集的现有技术水平分别提高了7.08％，6.64％，6.84％和8.57％。总结起来，我们的贡献有两个方面：0•我们提出了LAVT，一种基于Transformer的指代图像分割框架，它在特征提取后执行语言感知的视觉编码，而不是跨模态融合。0•我们在三个指代图像分割数据集上取得了新的最先进结果，证明了所提方法的有效性和普适性。源代码可在LAVT-RIS上获得。02. 相关工作0指代图像分割在研究界引起了越来越多的关注，传统流程中有两个主要过程：（1）分别从文本和图像输入中提取特征，以及（2）融合多模态特征以预测分割掩模。在第一个过程中，以前的方法采用递归神经网络[17,18,25,28,31]和语言Transformer[2,11]来编码语言输入。为了编码视觉输入，以前的方法先后采用了纯卷积网络[18,31,35]，DeeplabV3[2,6,28]和DarkNet[25,39,47]，以学习有区分度的表示。多模态特征融合模块是先前方法关注的关键组件。例如，Hu等人[18]提出了基于连接操作的第一个基准线，Liu等人[31]通过循环策略改进了该基准线。Shi等人[48]，Chen等人[4]，Ye等人[60]和Hu等人[20]通过各种注意机制对语言和视觉特征之间的跨模态关系进行建模。Yu等人[62]和Huang等人[21]利用句子结构的知识来捕捉多模态特征中的不同概念（例如类别，属性，关系等），而Hui等人[22]利用单词之间的句法结构来引导多模态上下文聚合。与我们最相关的方法是VLT[12]和EFN[14]，前者设计了一个Transformer解码器来融合语言和视觉特征，后者采用了一个卷积视觉骨干网络来编码语言信息。与[12]不同的是，我们提出了一种早期融合方案，有效地利用Transformer编码器来建模多模态上下文。与[14]相比，我们不依赖于复杂的跨模态解码器，从而形成了一个更清晰和更有效的框架。在公平比较下，我们的方法大大优于这两个先前的对应方法。Transformer首次作为一种序列到序列的深度注意力语言模型被引入[54]，并且在全局上下文建模方面具有强大的能力，因此在自然语言处理（NLP）领域[9,11,58]中占据主导地位。最近，它在各种计算机视觉任务上取得了巨大成功，例如图像分类[13,33,52]，动作识别[1,34]，目标检测[3,33,66]和语义分割[33,51,64]。在计算机视觉和NLP交叉领域，也有许多关于Transformer的研究[26,46]。例如，Radford等人设计了一个大规模预训练模型CLIP[45]，该模型将对比学习[15,16,50]应用于由视觉Transformer和语言Transformer学习的特征上。Hu等人[19]提出了一种统一的Transformer（UniT）模型，该模型跨不同领域共同学习多个视觉语言任务。此外，还有许多其他任务的研究工作。+F1F2F3E1E2E3181570PWAM0PWAM0PWAM0C + +0“黑色绿色卡车”0BERT0LG0语言门（LG）0逐元素相加连接 C +0复制0C C +0LG0LG 语言路径0L0L0L0L0V1 V2 V3 V4 Y1 Y2 Y3 Y4 (=F4)0图2. 所提出的LAVT的整体流程。我们利用分层视觉Transformer[33]执行语言感知的视觉编码。在每个阶段，将视觉特征图Vi，i∈{1,2,3,4}编码为相应的Transformer层的阶段（在第3.1节中描述，为了图示清晰，未在此图中显示）。然后，Vi被用作生成一组位置特定的语言特征图Fi，i∈{1,2,3,4}的查询，这是通过像素-词注意力模块（第3.2节）实现的。接下来，我们通过语言路径（第3.3节）自适应地融合Fi与原始的Vi。新的视觉特征图Ei，i∈{1,2,3}然后传入下一个阶段的Transformer层进行进一步处理。标准的分割解码器头（第3.4节）产生最终的分割输出。0例如，视觉问答[37]和文本到视频检索[27]。然而，据我们所知，几乎没有人尝试设计一个统一的Transformer模型来处理图像分割任务。03. 方法0图2说明了我们的语言感知视觉Transformer（LAVT）的流程，它利用分层视觉Transformer来共同嵌入语言和视觉信息以促进跨模态对齐。在本节中，我们首先介绍了我们的语言感知视觉编码策略（第3.1节），该策略通过像素-词注意力模块（第3.2节）和语言路径（第3.3节）实现。然后，在第3.4节中，我们描述了用于获取最终结果的轻量级掩码预测器。03.1. 语言感知的视觉编码0给定一对图像和自然语言表达式，指定图像中的对象，我们的模型输出一个逐像素的掩码来描绘对象。为了提取语言特征，我们使用深度语言表示模型将输入表达式嵌入到高维词向量中。我们将语言特征表示为L∈RCt×T，其中Ct和T分别表示通道数和词数。在获取语言特征后，我们通过四个阶段的分层视觉Transformer层进行联合视觉特征编码和视觉-语言（也称为“跨模态”或“多模态”）特征融合。我们使用i∈{1,2,3,4}对每个阶段进行索引，从下到上的方向。每个0每个阶段都使用一堆具有相同输出大小的Transformer编码层（ϕ i），一个多模态特征融合模块（θi）和一个可学习的门控单元（ψi）。在每个阶段内，通过三个步骤生成和改进语言感知的视觉特征。首先，Transformer层（ϕi）将上一个阶段的特征作为输入，输出丰富的视觉特征，表示为Vi∈RCi×Hi×Wi。然后，Vi与语言特征L通过多模态特征融合模块（θi）相结合，产生一组多模态特征，表示为Fi∈RCi×Hi×Wi。最后，Fi中的每个元素由可学习的门控单元（ψi）加权，然后逐元素添加到Vi中，产生一组嵌入了语言信息的增强视觉特征，表示为Ei∈RCi×Hi×Wi。我们将这一最后一步的计算称为语言路径。这里，Ci、Hi和Wi分别表示第i个阶段中特征图的通道数、高度和宽度。Transformer编码层的四个阶段对应于Swin Transformer[33]中的四个阶段，SwinTransformer是一种适用于密集预测任务的高效分层视觉骨干。每个阶段内的多模态特征融合模块是我们提出的像素-词注意力模块（PWAM），旨在将语义含义与视觉线索密集对齐。门控单元是我们称之为语言门（LG）的特殊单元，用于调节沿着语言路径（LP）的语言信息流动。03.2.像素-词注意力模块0为了将目标对象与其背景分离，将视觉和语言表示分离是很重要的。181580输入的视觉特征0V i（C i，H i，W i）0输入的语言特征0L（C t，T）0ω ik：1x10ω iw：1x10softmax0ω iv：1x10输出特征F i（C i，H i，W i）0(T，C i)0L ik（C i，T）0(H iWi，C i)0(H iWi，T)0G ' i（H i W i，C i）0(C i，H i，W i)0V im（C i，H i，W i）0ω im：1x10ω io：1x10矩阵乘法逐元素乘法0G i（C i，H i，W i）0ωiq：1x10(H iWi，T)0V iq0L iv（C i，T）0图3.像素-词注意力模块（PWAM）的流程。首先，使用输入的视觉特征图Vi作为查询，输入的语言特征图L作为键和值，执行单头缩放的点积注意力[54]。结果G i是与Vi具有相同空间大小的一组语言特征图。然后，将Gi逐元素与输入的视觉特征图Vim的投影进行乘法运算，然后进行最终输出之前的另一个投影。我们在实践中发现，一个重要的细节是在投影函数ω iq和ωiw中采用实例归一化[53]层（请参见下文和表3）。0为了将目标对象与其背景分离，将视觉和语言表示分离是很重要的。0这一步骤生成一组空间特征图G i ∈ R C i × H i × Wi。具体而言，我们按如下方式获得G i0V iq = flatten(ω iq(V i))，(1)0L ik = ω ik(L)，(2)0L iv = ω iv(L)，(3)0G ′ i = softmax(V T iq L ik √ C i) L Tiv，(4)0G i = ω iw(unflatten(G ′ T i))，(5)0其中，ω iq、ω ik、ω iv和ωiw是投影函数。每个语言投影ω ik和ω iv都是通过Ci个输出通道的1×1卷积来实现的。查询投影ωiq和最终投影ωiw都是通过1×1卷积后跟实例归一化来实现的，其中输出通道数为Ci。这里，'flatten'指的是将两个空间维度展开成一维的操作，按行主序、C风格或顺序进行，而'unflatten'指的是相反的操作。这两个操作和转置用于将特征图转换为适合计算的正确形状。方程1到5使用视觉特征Vi作为查询，语言特征L作为键和值，通过线性变换后进行实例归一化，实现了缩放的点积注意力[54]。其次，在获得与V i形状相同的语言特征Gi之后，我们通过逐元素乘法将它们组合起来生成一组多模态特征图F i。具体而言，我们的步骤如下所述0Vim = ωim(Vi)，(6)0Fi = ωio(Vim ⊙ Gi)，(7)0其中⊙表示逐元素乘法，ωim和ωio分别是一个视觉投影和最终的多模态投影。这两个函数都是由一个1×1的卷积层和ReLU[43]非线性激活函数实现的。03.3. 语言路径0如前所述，在每个阶段，我们将来自PWAM的输出Fi与Transformer层的输出Vi合并。我们将这个合并操作中的计算称为语言路径。为了防止Fi对Vi中的视觉信号产生过大影响，并允许适应性地将语言信息流动到下一个阶段的Transformer层，我们设计了一个语言门控制，它基于Fi学习一组逐元素的权重图来重新缩放Fi中的每个元素。语言路径的示意图如图4所示，并且可以用以下方式进行数学描述：0Si = γi(Fi)，(8)0Ei = Si ⊙ Fi + Vi，(9)1815901×1卷积0ReLU01×1卷积0Tanh0Ei0Vi0Fi0Si0语言门控制0图4.语言路径的示意图，利用语言门控制（LG）控制多模态信息的流动。LG被实现为一个两层感知机。0其中⊙表示逐元素乘法，γi是一个两层感知机，第一层是一个1×1的卷积层，后面跟着ReLU[43]非线性激活函数，第二层是一个1×1的卷积层，后面跟着双曲正切函数。如表3中的消融研究所详述的那样，我们尝试了使用语言门控制语言路径的情况，以及在语言门控制中使用不同的最终非线性激活函数，并发现对于我们的模型来说，使用带有tanh最终非线性激活函数的门控制效果最好。方程9中的求和操作是利用预训练的视觉Transformer层进行多模态嵌入的有效方法，因为将多模态特征视为“补充项”（或“残差项”）可以避免破坏在纯视觉数据上预训练的初始化权重。我们观察到，在采用替换或拼接的情况下，结果要差得多。03.4. 分割0我们以自顶向下的方式组合多模态特征图Fi，i∈{1,2,3,4}，以利用多尺度语义进行最终的分割。解码过程可以通过以下递归函数描述：0Y4 = F4，Yi = ρi([υ(Yi+1); Fi])，i = 3, 2, 1. (10)0这里的“[;]”表示沿通道维度进行特征拼接，υ表示通过双线性插值进行上采样，ρi是一个投影函数，由两个3×3的卷积层连接，之间有批归一化[24]和ReLU[43]非线性激活函数。最终的特征图Y1通过一个1×1的卷积层投影到两个类别分数图中。03.5. 实现0我们在PyTorch[44]中实现了我们的方法，并使用了HuggingFace的Transformer库[56]中的BERT实现。LAVT中的Transformer层使用在ImageNet-22K [10]上预训练的分类权重进行初始化，这些权重来自于SwinTransformer[33]。我们的语言编码器是基础BERT模型，具有12层和隐藏层大小为768。0我们从[54]中获取大小为768的预训练权重（因此第3节中的Ct为768），并使用官方预训练权重进行初始化。我们模型中的其余权重是随机初始化的。第3节中的Ci设置为512，并且模型使用交叉熵损失进行优化。按照[33]的做法，我们采用AdamW[36]优化器，权重衰减为0.01，初始学习率为0.00005，采用多项式学习率衰减。我们使用批量大小为32训练模型40个epochs。在每个epoch中，我们对每个对象进行迭代（同时随机采样一个指代表达式）。图像被调整为480×480，没有应用数据增强技术。在推理过程中，沿着分数图的通道维度使用argmax作为预测结果。04. 实验04.1. 数据集和评估指标0我们在三个标准基准数据集RefCOCO [63]，RefCOCO+[63]和G-Ref [40,42]上评估我们的方法。这三个数据集中的图像来自MSCOCO数据集[30]，并用自然语言表达进行了注释。RefCOCO，RefCOCO+和G-Ref分别包含19,994，19,992和26,711张图像，其中有50,000，49,856和54,822个注释对象和142,209，141,564和104,560个注释表达式。RefCOCO和RefCOCO+中的表达式非常简洁（平均包含3.5个单词）。相反，G-Ref中的表达式更复杂（平均包含8.4个单词），这使得该数据集特别具有挑战性。相比之下，RefCOCO和RefCOCO+每个图像中的相同类别的对象更多（平均为3.9个），而G-Ref中的对象更少（平均为1.6个），因此它们更好地评估算法理解实例级细节的能力。RefCOCO+的一个特点是其表达式中禁止使用位置词，这也增加了挑战性。此外，G-Ref数据集有两个不同的分区，一个由UMD[42]提供，另一个由Google[40]提供。我们报告了两者的结果。在评估每个数据集时，我们在该数据集的训练集上训练我们的模型。最后，我们注意到在RefCOCO的许多表达式中存在歧义和粗言秽语，希望未来的社区努力能够解决这些问题。我们采用常见的整体交并比（oIoU），平均交并比（mIoU）和0.5、0.7和0.9阈值下的精度作为评估指标。整体IoU被定义为所有测试样本（每个样本都是一个语言表达式和一张图像）的总交集面积与总并集面积之比。这个指标偏向于大型对象。平均IoU是预测结果与真实结果在所有测试样本上的平均交并比。这个指标平等地对待大型和小型对象。精度指标衡量通过IoU阈值的测试样本的百分比。LPPWAMP@0.5P@0.7P@0.9oIoUmIoU✓✓84.4675.2834.3072.7374.46✓81.4670.8030.9570.7871.96✓81.7672.7632.4671.0372.3177.8766.9327.9568.8268.87181600方法语言 RefCOCO RefCOCO+ G-Ref0模型验证测试 A 测试 B 验证测试 A 测试 B 验证（U）测试（U）验证（G）0DMN [41] SRU 49.78 54.83 45.13 38.88 44.22 32.29 - - 36.76 RRN [29] LSTM 55.33 57.26 53.93 39.75 42.1536.11 - - 36.45 MAttNet [62] Bi-LSTM 56.51 62.37 51.70 46.67 52.39 40.08 47.64 48.61 - CMSA [61] None58.32 60.61 55.09 43.76 47.60 37.89 - - 39.98 CAC [7] Bi-LSTM 58.90 61.77 53.81 - - - 46.37 46.95 44.32STEP [4] Bi-LSTM 60.04 63.46 57.97 48.19 52.33 40.41 - - 46.40 BRINet [20] LSTM 60.98 62.99 59.21 48.1752.32 42.11 - - 48.04 CMPC [21] LSTM 61.36 64.53 59.64 49.56 53.44 43.23 - - 49.05 LSCM [23] LSTM 61.4764.99 59.55 49.34 53.12 43.50 - - 48.05 CMPC+ [32] LSTM 62.47 65.08 60.82 50.25 54.04 43.47 - - 49.89MCN [39] Bi-GRU 62.44 64.20 59.71 50.62 54.99 44.69 49.22 49.40 - EFN [14] Bi-GRU 62.76 65.69 59.6751.50 55.24 43.01 - - 51.93 BUSNet [57] Self-Att 63.27 66.41 61.39 51.76 56.87 44.13 - - 50.56 CGAN [38]Bi-GRU 64.86 68.04 62.07 51.03 55.51 44.06 51.01 51.69 46.54 LTS [25] Bi-GRU 65.43 67.76 63.08 54.2158.32 48.02 54.40 54.25 - VLT [12] Bi-GRU 65.65 68.29 62.73 55.50 59.20 49.36 52.99 56.65 49.760LAVT（我们的方法） BERT 72.73 75.82 68.79 62.14 68.38 55.10 61.24 62.09 60.500表1.在三个基准数据集上使用整体IoU指标与最先进方法的比较。U：UMD分区。G：Google分区。我们将每个参考方法的语言模型称为在多模态特征融合之前将单词嵌入转换的主要可学习函数。感兴趣的读者可以参考各自的论文以获取嵌入初始化和其他细节。04.2. 与其他方法的比较0在表1中，我们使用oIoU指标评估LAVT与RefCOCO[63]，RefCOCO+ [63]和G-Ref [40,42]数据集上的最先进的指代图像分割方法进行比较。LAVT在所有三个数据集的所有评估子集上都优于所有先前的方法。与第二好的方法VLT[12]相比，LAVT在RefCOCO的验证集、testA子集和testB子集上分别取得了7.08％、7.53％和6.06％的绝对优势。类似地，LAVT在RefCOCO+上相对于先前的最先进方法取得了明显的改进，验证集、testA子集和testB子集的绝对优势分别为6.64％、9.18％和5.74％。在最具挑战性的G-Ref数据集上（其中包含长度更长的表达式），LAVT相对于UMD分区的验证集和测试集分别以6.84％和5.44％的绝对优势超过了第二好的方法。类似地，在Google分区的验证集上，LAVT相对于第二好的方法EFN[14]以8.57％的绝对优势超过。与EFN不同，LAVT在不使用RefCOCO作为额外训练数据的情况下实现了这一性能。04.3. 消融研究0我们进行了几个消融研究，以评估我们提出的网络中关键组件的有效性。语言路径(LP)。表2显示了去除LP（在数学上对应于图2中橙色流的移除）的结果。0表2. 在RefCOCO验证集上的主要消融结果。0根据公式8和9，或者图2中橙色流的移除，整体IoU和平均IoU分别下降了1.95和2.50个绝对点。此外，精确度在三个阈值上都下降了3到4个点。这些结果表明了利用我们的视觉Transformer编码器网络来共同嵌入语言和视觉特征的好处。像素-词注意力模块(PWAM)。在这个消融研究中，我们用从所有单词中全局池化的句子特征向量替换了PWAM中的空间语言特征图G i[59]。如表2所示，这个消融研究导致整体IoU和平均IoU分别下降了1.70和2.15个绝对点，并且在三个阈值上精确度下降了1到2个绝对点。这些结果说明了通过我们提出的注意机制密集地聚合语言上下文来增强跨模态对齐的有效性。语言门(LG)中的激活函数。我们提出的LG学习一组空间权重图，使得我们的网络能够灵活地控制语言的流动。Y4Y4Y4Y3Y3Y3Y2Y2Y2Y1Y1Y1P@0.5P@0.7P@0.9oIoUmIoUTanh (*)84.4675.2834.3072.7374.46Sigmoid81.8972.7133.3570.4972.47InstanceNorm (*)84.4675.2834.3072.7374.46LayerNorm82.9774.1533.9971.9273.32BatchNorm82.8973.8233.5371.5973.09None81.9172.7333.1170.6672.34F4, F3, F2, F1 (G*)84.4675.2834.3072.7374.46F4, F3, F2, F1 (NG)84.0074.9633.4772.2473.94E4, E3, E2, E1 (G)83.8474.9634.4872.0673.98E4, E3, E2, E1 (NG)84.3374.9434.7772.2774.12V4, V3, V2 (G)83.3674.4732.6171.3873.29V4, V3, V2 (NG)83.8374.7632.1472.2973.67PWAM (*)84.4675.2834.3072.7374.46BCAM [20]82.2672.8133.3170.1972.42GA (GARAN) [38,39]83.2274.0932.7171.2073.16181610无PWAM0无LP0完整模型0图像0真值0表达式:0“最近的右侧公交车”0图5.在RefCOCO验证集上的示例中的可视化预测和特征图。从上到下，最左列显示输入表达式、输入图像和叠加在输入图像上的真值掩码。在每一行中，我们从左到右可视化预测的掩码和用于最终分类的特征图(Y 4 , Y 3 , Y 2 , 和 Y 1)。LP表示语言路径，PWAM表示像素-词注意力模块。0(a) 语言门(LG)中的激活函数0(b) 像素-词注意力模块(PWAM)中的归一化层0(c) 用于最终分类的特征0(d) 多模态注意力模块0表3. 在RefCOCO验证集上的消融研究。(G)表示在语言路径中采用了LG，(NG)表示相反。带有(*)的行表示默认选择。0语言路径中的信息。在表3（a）中，我们将sigmoid函数和双曲正切函数作为LG中的最终激活函数进行了比较。使用sigmoid函数会导致较差的结果。PWAM中的归一化层。如第3.2节所述，我们在PWAM的投影函数ω iq和ωiw中采用了最终的实例归一化层。正如我们在表3（b）中所示，这种归一化函数的选择具有非平凡的影响。除了实例归一化（我们的默认选择）之外，我们还尝试了批归一化0归一化、层归一化，并且在函数ω iq和ωiw中没有归一化层。这三种选择中，使用批归一化或层归一化产生的结果比不使用归一化层更好。0用于预测的特征。如图4所示，LAVT的语言感知视觉编码过程产生了三种类型的空间特征图，这些特征图封装了视觉和语言信息，即来自PWAM的输出（Fi，i∈{1,2,3,4}），来自Transformer层的输出（Vi，i∈{2,3,4}）和输入到后续Transformer层的输入（Ei，i∈{1,2,3}）。虽然我们的默认选择是使用Fi来预测对象掩码，但我们还认为另外两种类型的特征图是这个目的的自然候选。如图2所示，E4在LAVT的标准架构中不会生成。为了进行令人信服的消融研究，我们使用额外的语言路径定义的Eqs.8和9计算E4。因此，我们使用Ei，i∈{1,2,3,4}来预测分割掩码。相比之下，由于多模态信息已经逐渐集成到V2、V3和V4中，而V1只包含纯粹的视觉信息，所以我们不使用V1来进行预测。在表3（c）中，我们报告了使用每种类型特征进行分割的结果，包括使用和不使用我们提出的LG（分别用“G”和“NG”表示）。表3（c）显示，在所有选择中，使用我们的默认选择Fi与LG一起产生了最好的结果。此外，我们观察到，当使用Fi进行分割时，LG具有积极的效果，但当使用Ei（oIoU中的72.06% vs.72.27%）或Vi（oIoU中的71.38% vs.72.29%）进行分割时，它会稍微降低结果。0多模态注意力模块。在表3（d）中，我们进行了比较181620“中间的白色手机”0“蓝色手机”0“最下面的手机”0“右边的翻盖手机”0图像我们的真实值0“红墙旁边的人双臂交叉”0表情：0表情：0“摸头发的女孩”0“穿黑色衣服的人坐在左边倾斜”0“穿条纹衬衫的男人，在笔记本电脑上”0我们的我们的我们的真实值真实值真实值0图6.在RefCOCO验证集中的两个示例上，我们预测的掩码和真实掩码的可视化结果。0通过直接将PWAM与两个最先进的注意力模块进行比较，我们在我们的框架中直接用它们替换PWAM，使用相同的主干、语言模型和训练方法。与分组注意力（GA或GARAN）[38,39]和双向跨模态注意力模块（BCAM）[20]相比，PWAM在所有指标上都取得了更高的分数。需要注意的是，BCAM代表了计算量大的注意力模块，而GA是最近表现最好的模块。0可视化预测。在图5中，我们可视化了我们的完整模型和两个消融模型（分别是没有语言路径（“w/oLP”）和没有像素-词注意力模块（“w/oPWAM”））。从第一行可以观察到，我们的完整模型中的高级特征图（即Y4、Y3、Y2）可以准确地定位文本中给出的语义概念，而低级特征图（即Y1）包含对二值分割重要的丰富边界信息。比较三个模型之间的预测掩码，我们可以观察到，去除LP和去除PWAM都会导致对目标巴士前窗区域的假阴性预测，而去除LP还会导致对中间巴士的假阳性识别。这些定性结果进一步验证了我们提出的LP和PWAM机制的有效性。图6中显示了更多示例的可视化结果。0与参考方法的公平比较.为了进一步验证我们提出的通过视觉Transformer编码器网络融合跨模态信息的方法的有效性，在表4中，我们对我们的方法和三种先前的最先进方法LTS [25]、VLT [12]和EFN[14]进行了公平比较. 所有模型都使用BERTBASE作为语言编码器和Swin-B作为视觉骨干网络，并遵循相同的训练设置（在第3.5节中描述）.虽然LTS采用了“定位-分割”流程，VLT代表了采用跨模态Transformer解码器的方法，而EFN代表了融合跨模态信息的方法.0方法 P@0.5 P@0.7 P@0.9 oIoU mIoU0LTS (Swin-B+BERT) [25] 80.59 69.48 26.13 69.94 70.56 EFN(Swin-B+BERT) [14] 82.55 73.27 31.68 70.76 72.95 VLT (Swin-B+BERT)[12] 83.24 72.81 24.64 70.89 71.98 我们的 + VLT [12] 84.57 75.14 26.3672.12 73.570我们的 84.46 75.28 34.30 72.73 74.460表4. 我们的方法、LTS [25]、VLT [12]和EFN[14]在RefCOCO验证集上的比较，其中所有模型使用相同的骨干网络、语言模型和训练方法.0通过编码器网络获取信息，并额外依赖复杂的解码器来获得最佳结果.如表4所示，我们的方法在RefCOCO验证集上在所有指标上均优于LTS、VLT和EFN.为了进一步验证我们提出的LAVT编码方案比其对应的跨模态解码器方法更有效，我们将我们的方法与VLT相结合，将我们原始的轻量级遮罩预测器替换为VLT的跨模态Transformer解码器. 如表4中的实验所示（在“ours +VLT”中），在LAVT进行语言感知的视觉编码之后，使用Transformer解码器进行额外的跨模态特征融合通常不会带来额外的收益（除了P@0.5上微小的0.11%的改进）.05. 结论0在本文中，我们提出了一种用于指代图像分割的语言感知视觉Transformer（LAVT）框架，它利用了视觉Transformer的多阶段设计来共同编码多模态输入.在三个基准测试上的实验结果证明了它相对于现有技术的优势.0致谢.本工作得到了英国研究与创新总署（UKRI）的资助：图灵人工智能奖学金EP/W002981/1，EP-SRC/MURI奖学金EP/N019474/1，中国上海市科学技术委员会（Grant No.20DZ1100800）和香港大学创业基金的支持.我们还要感谢英国皇家工程院、腾讯和FiveAI的支持.[25] Ya Jing, Tao Kong, Wei Wang, Liang Wang, Lei Li, and Tie-niu Tan. Locate then segment: A strong pipeline for referringimage segmentation. In CVPR, 2021. 2, 6, 8[27] Jie Lei, Linjie Li, Luowei Zhou, Zhe Gan, Tamara L. Berg,Mohit Bansal, and Jingjing Liu. Less is more: Clipbert forvideo-and-language learning via sparse sampling. In CVPR,2021. 2, 3181630参考文献0[1] Anurag Arnab, Mostafa Dehghani, Georg Heigold, ChenSun, Mario Luˇci´c, and Cordelia Schmid. Vivit:一种视频视觉Transformer. 在ICCV, 2021年. 20[2] Miriam Bellver, Carles Ventura, Carina Silberer, IoannisKazakos, Jordi T

下载后可阅读完整内容，剩余1页未读，立即下载