ReSTR：Transformer实现无卷积指代图像分割

7 浏览量更新于2023-10-25 收藏 13.6MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

181450ReSTR：无卷积指代图像分割使用Transformer0Namyup Kim 1 Dongwon Kim 1 Cuiling Lan 2 Wenjun Zeng 3 Suha Kwak 101 POSTECH 2 微软亚洲研究院 3 EIT高级研究所0http://cvlab.postech.ac.kr/research/restr/0摘要0指代图像分割是一项高级语义分割任务，其中目标不是预定义的类别，而是用自然语言描述的。现有的大多数方法依赖于卷积神经网络，然而这些方法很难捕捉语言表达中实体之间的长程依赖关系，并且对于建模两种不同模态之间的交互不够灵活。为了解决这些问题，我们提出了一种使用Transformer进行指代图像分割的无卷积模型，称为ReSTR。由于它通过Transformer编码器提取了两种模态的特征，因此它可以捕捉每种模态内实体之间的长程依赖关系。此外，ReSTR通过自注意力编码器融合了两种模态的特征，这使得两种模态在融合过程中能够进行灵活和自适应的交互。融合后的特征被输入到一个分割模块中，该模块根据手头的图像和语言表达自适应地工作。ReSTR在所有公共基准测试中进行了评估和比较，结果优于所有现有模型。01. 引言0近年来，在语义分割方面取得了显著的进展，无论是在效果还是效率方面[4, 5, 15, 28, 33, 51,52]。然而，它在应用于实际的下游任务方面仍然受限。由于该任务仅设计用于处理预定义的一组类别（例如“汽车”，“人物”），语义分割模型很难处理未定义的类别和用户感兴趣的特定实体（例如“一辆红色法拉利”，“一个戴着蓝色帽子的人”）。指代图像分割[12]通过对应于作为查询给出的自然语言表达的图像区域进行分割，已经研究解决了这个限制。由于这个任务不再受限于预定义的类别，它可以应用于各种各样的应用，如人机交互和交互式照片编辑。然而，指代图像分割比语义分割更具挑战性，因为它要求理解语言表达中的个体实体及其关系（例如“一辆汽车在出租车后面的建筑物旁边”），并在分割过程中充分利用这种结构化和关系信息。因此，该任务的模型应该能够捕捉两种模态中的语义实体之间的交互，以及对两种不同模态进行联合推理。现有的指代图像分割方法[3，0一辆白色货车跟随右边0在橙色轿车后面0补丁级别预测0像素级别预测0上采样和线性层0Transformer的组合0输入图像0:语言特征0类别种子嵌入：视觉特征0:内积0图1.我们的无卷积架构用于使用Transformer进行指代图像分割（ReSTR），它采用一组非重叠的图像补丁和词嵌入，并通过Transformer捕捉内部和跨模态的交互。然后，ReSTR采用类别种子嵌入来生成自适应分类器，该分类器检查每个图像补丁是否包含目标实体的一部分。最后，一系列上采样和线性层以粗到细的方式计算像素级预测。0实体及其关系在语言表达中的表示（例如“一辆汽车在出租车旁边的建筑物后面”），并在分割过程中充分利用这种结构化和关系信息。因此，该任务的模型应该能够捕捉两种模态中的语义实体之间的交互，以及对两种不同模态进行联合推理。现有的指代图像分割方法[3，0181460•我们的网络是第一个用于指代图像分割的无卷积架构。它通过Transformer捕捉视觉和语言模态之间的长程交互，并统一了两种不同模态的网络拓扑。•为了对两种模态进行精细理解，我们精心设计了多模态融合编码器，并使用类别种子嵌入将其转换为用于指代图像分割的自适应分类器。•ReSTR在四个公共基准上取得了最先进的结果，没有任何花哨的技巧。0本工作的贡献主要有三个方面：0•我们的网络是第一个用于指代图像分割的无卷积架构。它通过Transformer捕捉视觉和语言模态之间的长程交互，并统一了两种不同模态的网络拓扑。•为了对两种模态进行精细理解，我们精心设计了多模态融合编码器，并使用类别种子嵌入将其转换为用于指代图像分割的自适应分类器。•ReSTR在四个公共基准上取得了最先进的结果，没有任何花哨的技巧。02. 相关工作 2.1. 语义分割随着深度神经网络的出现，语义分割得到了显著改进。基于全卷积网络（FCN）[28]对端到端框架上的像素级预测，提出了许多方法来克服网络的几个限制。由于FCN预测出粗糙的输出掩码，早期的方法[1, 4, 26,54]侧重于进行高分辨率预测。前者的研究提出了通过扩张卷积[5,47]扩展CNN的感受野，并通过特征金字塔池化方案[5, 44,52]捕获多尺度上下文。几种方法提出了编码器-解码器结构[6, 23, 33, 36,49]，通过多级特征融合来建模粗到细的框架。最近，语义分割已经研究了通过注意力机制[15, 50,53]捕获上下文信息的方法。然而，上述方法都使用了限制了局部上下文编码的FCN架构的变体。此外，由于此任务仅定义为在预定义的类别集合中预测分割掩码，语义分割模型在实际应用中有局限性。02.2. 指代图像分割与预定义的像素级分类（语义分割）不同，指代图像分割旨在将像素分组为与给定自然语言表达相对应的掩码。开创性的工作[12]提出从CNN和RNN中提取视觉和语言特征，并通过连接平铺的语言特征和视觉特征图生成多模态特征。基于此框架，早期的方法通过ConvLSTM[25]和中间连接的编码器-解码器架构提出了高分辨率预测的方法[22]。后续研究提出了使用注意力机制融合视觉和语言特征以及多级特征聚合生成高分辨率分割图的方法[3, 11, 13, 46]。最近的研究[8,19]建议使用transformers[40]构建多模态融合编码器以捕捉视觉和语言特征之间的长程交互。与现有工作不同，我们提出了一种新的无卷积架构，以在模型的每个阶段编码上下文信息，并以粗到细的方式将基于块的预测高效地转换为高分辨率分割图。�� Class seed embedding �� 00110This section elaborates on ReSTR, our convolutional-free transformer network for referring image segmentation.Its detailed architecture is illustrated in Fig. 2.To cap-ture long-range interactions for each modality, ReSTR ﬁrstextracts visual and linguistic features by transformer en-coders [40] independently (Sec. 3.1).Then, it forwardsvisual and linguistic features in parallel to a multimodalfusion encoder to capture ﬁne relations across these twomodalities (Sec. 3.2). Finally, an efﬁcient decoder for acoarse-to-ﬁne segmentation converts patch-level predictioninto high-resolution pixel-level prediction (Sec. 3.3).181470“一个穿着黑色衣服戴着黑色太阳镜的男人0站在一只山羊后面”0� � �� 0分割解码器0� � � � � � � � � �0（a）（b）（c）0词嵌入展平和投影0视觉编码器0视觉-语言编码器0语言-种子编码器0解码器0上采样 2线性投影0LeakyReLU0� �0语言编码器0：内积0：哈达玛积0：逐元素加法0：可学习的位置编码0：正弦位置编码0� �0MLP0层归一化0层归一化0Transformer编码器0多头注意力0图2.（左）ReSTR的总体架构。（a）两种模态的特征提取器分别由Transformer编码器组成。（b）多模态融合编码器由两个Transformer编码器组成：视觉-语言编码器和语言-种子编码器。（c）粗到细的分割解码器将基于块的预测转换为基于像素的预测。（右）所有编码器中使用的Transformer编码器以及粗到细分割解码器的组成。0注意力机制用于融合视觉和语言特征，多级特征聚合生成高分辨率分割图[3, 11, 13, 46]。最近的研究[8,19]建议使用transformers[40]构建多模态融合编码器以捕捉视觉和语言特征之间的长程交互。与现有工作不同，我们提出了一种新的无卷积架构，以在模型的每个阶段编码上下文信息，并以粗到细的方式将基于块的预测高效地转换为高分辨率分割图。02.3. 视觉Transformer自从[40]引入transformer作为NLP中的自注意力模块以来，许多方法在计算机视觉任务中采用了这个模块，因为它具有长程依赖性、动态内核和比CNNs更少的视觉归纳偏差等优点。一些研究在CNNs中使用transformer作为注意力模块的CNN-transformer混合网络[2, 35, 38, 41, 43, 51,55]。最近的方法将CNNs替换为transformer作为无卷积架构用于图像分类[9, 17, 27, 42]、目标检测[27,42]、语义分割[27, 39, 42,55]和多模态学习[32]。特别地，transformer被应用于语义分割任务，以克服FCN-like架构的固有限制。例如，Zheng等人[55]利用transformer骨干作为全局上下文特征提取器，然后使用卷积层作为解码器进行混合。Strudel等人[39]提出了一种基于自注意力的无卷积架构，用于语义分割，结合了视觉特征和一组可学习的类别嵌入。受到这一范式的启发，我们采用transformer进行指代图像分割，以利用上述优势，并使用自适应分类器作为语义分割transformer[39,41]中使用的可学习类别查询的扩展。0本节详细介绍了ReSTR，我们用于指代图像分割的无卷积transformer网络。其详细架构如图2所示。为了捕捉每个模态的长程交互作用，ReSTR首先通过transformer编码器[40]独立地提取视觉和语言特征（第3.1节）。然后，它将视觉和语言特征并行地传递给多模态融合编码器，以捕捉这两个模态之间的细粒度关系（第3.2节）。最后，一个高效的解码器将基于补丁的预测转换为高分辨率的像素级预测（第3.3节）。03. 提出的方法03.1. 视觉和语言特征提取0为了提取视觉和语言特征，我们选择transformers[9]。transformer编码器是M个顺序的transformer，每个transformer由多头自注意力（MSA）、层归一化（LN）和多层感知机（MLP）块组成：0¯zi+1 = MSA(LN(zi)) + zi，(1)0zi+1 = MLP(LN(¯zi+1)) + ¯zi+1，(2)0其中 z i ∈ R N × D 表示transformer编码器的第 i层的输入特征，N 是每个模态的输入大小，D是特征的通道维度。LN 是zv = Transformers(zv0; θv),(6)[z′v, z′l] = Transformers([zv, zl]; θvl),(7)e′s = Transformers([z′l, es]; θls),(8)ˆyp = σ�z′ve′⊤s√D�,(9)181480应用于transformer编码器的输出。MSA由k个自注意力（SA）操作组成，其中查询q ∈ R N × D h，键k ∈ R N × Dh，值v ∈ R N × Dh，它们是输入特征z的线性投影的独立结果：0MSA(z) = [SA1(z), SA1(z), ..., SAK(z)]WMSA，(3)0SA(z) = Av，(4)0A = softmax(qk� /√Dh)，0D h)，(5)0其中 A ∈ R N × N 是点积注意力，[ ∙ , ∙ ] 表示连接，WMSA ∈ R kD h × D 是线性投影。D h 设置为D/k，参考[9]。由transformer组成的transformer编码器表示为Transformers(∙)。视觉编码器。输入图像 x v ∈ R H ×W × C v 被转换为一组补丁嵌入 x p ∈ R N v × Dv，通过将输入图像分割成不重叠的补丁并使用线性投影进行映射。令 N v = HW/P 2 为补丁数量，P 为补丁大小，Dv 为投影通道维度。我们添加可学习的1D位置编码 E v pos∈ R N v × D v到补丁嵌入中，以获得输入到视觉编码器的输入，z v 0 = xp + E v pos。我们将 z v 0输入到视觉编码器中，以产生补丁级的视觉特征 z v ∈ R Nv × D v：0其中 θ v是视觉编码器的参数。语言编码器。我们将自然语言表达转换为一组词嵌入 x l ∈ R N l × C l ，其中 N l是句子的最大长度， C l是词嵌入的维度。我们将一个正弦的1D位置编码 e l pos∈ R N l × C l 添加到词嵌入中，即 z l 0 = x l + e lpos 。通过将 z l 0送入由transformers组成的语言编码器，生成语言特征 z l∈ R N l × D l ：03.2. 多模态融合编码器0多模态融合编码器由两个transformer编码器组成，即视觉-语言编码器和语言种子编码器，如图2(b)所示。具体而言，我们使用视觉特征 z v ，语言特征 z l以及一个类别种子嵌入 e s ∈ R 1 × D作为多模态融合编码器的输入。 e s是可训练的参数，随机初始化。我们首先对 z v 和 z l进行归一化，并将它们分别输入到不同的线性层中，以调整它们的通道维度与 D相同。然后，视觉-语言编码器将视觉和语言特征作为输入，产生补丁级多模态特征 z ′ v ∈ R N v × D ：0其中 θ vl 是视觉-语言编码器的参数， z ′ l ∈ R N l × D表示视觉关注的语言特征。由于视觉和语言特征并行输入视觉-语言编码器，我们通过视觉和语言特征之间的精细和灵活的交互获得补丁级多模态特征。然后，我们将类别种子嵌入 e s 和视觉关注的语言特征 z ′ l输入到语言种子编码器中：0其中 θ ls 是用于语言种子编码器的transformer参数，而e ′ s ∈ R 1 × D是自适应分类器。由于在涉及到参考分割的情况下，目标掩膜会因手头的语言表达而变化，因此 e ′ s充当了一个自适应分类器，检查每个补丁是否包含目标实体的一部分。多模态融合编码器的设计是为了产生满足参考图像分割中以下两个要求的自适应分类器。首先，由于参考图像分割旨在分割与语言表达相对应的区域，自适应分类器应该理解语言表达的细微关系。此外，由于输入图像中存在与语言表达无关的区域（例如背景），直接关注视觉信息的类别种子嵌入可能会导致自适应分类器被无关区域破坏。然而，由于语言表达中描述的目标实体的外观可能因图像而异，使用视觉关注的语言特征来生成自适应分类器是有益的。因此，我们交替使用这两个transformer编码器构建多模态融合编码器，以生成满足上述条件的自适应分类器。我们在第4.3节中经验证明了我们的多模态融合编码器的优越性。03.3. 粗到细的分割解码器0通过补丁级多模态特征z ′ v 和自适应分类器e ′ s的内积计算出一个补丁级预测 ˆy p ∈ R N v × 1 ：0D是一个归一化因子[40]。我们提出了一个高效的分割解码器来补偿低分辨率的补丁级预测（例如，N v = H/P × W/P）。首先，解码器产生掩膜多模态特征 z masked ∈ R Nv × D ：0zmasked = z′v � ˆyp, (10)181490其中 �表示沿通道维度进行Hadamard乘积操作。然后，在将特征传递给分割解码器之前，我们将补丁级视觉特征和掩蔽的多模态特征连接起来，形成[zv, zmasked] ∈ R Nv ×2D，以通过视觉语义指导分割解码器。分割解码器由K个顺序块组成，每个块包括2倍上采样、通道减少1/2的线性投影和激活函数，其中K =logP，P是补丁大小。最后，解码器的输出特征经过线性投影并重塑，生成像素级预测ˆYm ∈ R H × W ×1。在推断时，我们只使用像素级预测ˆYm作为最终预测结果。对于补丁级分类，我们通过将真实标签Ym ∈ R H × W× 1分割成与补丁级预测ˆyp ∈ R Nv ×1相同数量的补丁标签来生成补丁级标签，具体标准如下：0yip =0� 1，如果h(pij) > τ，否则为0，(11)0其中 yip 表示第 i 个补丁的补丁级标签，pi,j是补丁中像素的数量，h(∙)表示对空间维度进行平均池化，τ是一个阈值超参数。网络通过二元交叉熵损失Lb(ˆY,Y)对补丁级预测ˆyp和像素级预测ˆYm进行训练：0L(ˆyp, yp, ˆYm, Ym) = λLb(ˆyp, yp) + Lb(ˆYm, Ym)，(12)0其中 λ 是一个平衡超参数。04. 实验 4.1. 实验设置0数据集。我们在四个数据集上进行实验，包括ReferIt[20]、UNC [48]、UNC+ [48]和Gref[30]，这些数据集在指代图像分割任务中被广泛使用。ReferIt[20]包含19,894张图像，有130,525个语言表达式对应96,654个掩码，这些数据是从IAPR TC-12[10]收集而来的。UNC、UNC+和Gref是从COCO[24]数据集中收集的。UNC和UNC+分别包含19,994张图像，有142,209个语言表达式对应50,000个掩码和19,992个语言表达式对应49,856个掩码。UNC和UNC+的区别在于UNC+的表达式中不包含表示位置属性（例如左、上、前）的词语，只包含外观表达式。Gref包含25,711张图像，有104,560个语言表达式对应54,822个对象。实现细节。我们使用在ImageNet-21K [7]上预训练的ViT-B-16[9]作为视觉编码器，它有12个0层，16个补丁大小，768个通道维度，12个MSA的头部和3,072个通道扩展的维度。我们使用预训练的GloVe[34]嵌入来表示语言表达式。语言编码器由6个Transformer层组成，具有300个通道维度的GloVe嵌入，12个MSA的头部和3,072个通道扩展的维度。语言表达式的最大长度Nl设为20，遵循以前的工作。多模态融合编码器由与视觉编码器相同的Transformer组成。分割解码器的层数为4，因为补丁大小为16。在所有实验中，模型使用AdamW[29]进行优化，权重衰减为5e-4；初始学习率为1e-5，并按照多项式衰减[4]进行衰减。我们设置批量大小为8，训练400,000次迭代，其中前40,000次迭代为热身期，以达到初始学习率。我们将输入图像调整为480×480。在公式（11）中，我们将τ设为0.8，在公式（12）中，我们将λ设为0.1，用于所有实验。评估协议。按照以前的工作[12,25]，我们采用累积交并比（IoU）指标，将总交集除以所有测试样本的总并集。然后，我们在 {0.5, 0.6, 0.7, 0.8, 0.9}的IoU阈值上评估准确性。04.2. 与现有技术的比较0我们在四个基准测试中将ReSTR与其他指代图像分割模型进行比较。如表1所总结的，与先前的方法相比，ReSTR在所有公共基准测试中都取得了出色的性能，而无需低效的后处理（例如，DenseCRF [ 21 ]），仅UNC+testB数据集除外。我们按照[ 25]的方法，讨论了语言表达长度与性能之间的关系，如表2所总结的。结果表明，ReSTR在大多数表达长度组上明显优于先前的方法，仅在Grefval数据集的1-5长度组上稍逊一筹。此外，ACM使用的注意力机制用于两种模态之间的远程交互，从Grefval数据集的1-5长度组到11-20长度组，性能下降了13.71%，而ReSTR的性能下降了6.81%。这表明，与先前的方法相比，我们的方法更能捕捉两种模态之间的远程交互。请注意，最近的方法[ 8 , 18 , 45]使用在COCO目标检测数据集上预训练的视觉骨干，并仅在基于COCO数据集的三个基准测试上评估其模型。相反，我们的视觉骨干是在ImageNet分类任务上预训练的，并且ReSTR在所有基准测试上进行了评估。04.3. 融合编码器变体分析0为了验证我们对多模态融合编码器的设计选择，我们研究了融合编码器的变体。在所有编码器的变体中，我们使用了4个Transformer层，分别表示为{ f 1 , f 2 , f 3 , f 4 }。LSTM-CNN [12]48.03------28.14RMI [25]58.7345.1845.6945.5729.8630.4829.5034.52DMN [31]52.8149.7854.8345.1338.8844.2232.2936.76RRN [22]63.6355.3357.2653.9539.7542.1536.1136.45CMSA [46]63.8058.3260.6155.0943.7647.6037.8939.98STEP [3]64.1360.0463.4657.9748.1952.3340.4146.40BRINet [13]63.4661.3563.3759.5748.5752.8742.1348.04LSCM [16]66.5761.4764.9959.5549.3453.1243.5048.05CMPC [14]65.5361.3664.5459.6449.5653.4443.2349.05ACM [11]66.7062.7665.6959.6751.5055.2443.0151.93BUSNet [45]-63.2766.4161.3951.7656.8744.1350.56LTS [18]-65.4367.7663.0854.2158.3248.0254.40VLT [8]-65.6568.2962.7355.5059.2049.3652.99GrefR+RMI [25]35.3431.7630.6630.56BRINet [13]51.9347.5546.3346.49ACM [11]59.9252.9449.5646.21UNCR+RMI [25]44.5141.8635.0525.95BRINet [13]65.9964.8356.9745.65ACM [11]68.7365.5857.3245.90UNC+R+RMI [25]35.7225.4121.7314.37BRINet [13]59.1246.8940.5731.32ACM [11]61.6252.1843.4631.52ReferItR+RMI [25]68.1152.7345.6934.53BRINet [13]75.2862.6256.1444.40ACM [11]78.1966.6360.3046.18f182.416.8f298.91.0f398.71.2f498.11.7(a)VME28.35M31.36G51.27IME28.35M15.96G45.89CME28.35M15.96G52.81CME†14.18M15.96G52.79(b)181500方法 DCRF ReferIt UNC UNC+ Gref0测试验证测试A 测试B 验证测试A 测试B 验证0ReSTR (我们的方法) 70.18 67.22 69.30 64.45 55.78 60.44 48.27 54.480表1. 四个数据集上的IoU（%）定量结果。DCRF表示使用DenseCRF [ 21 ]进行后处理。最佳结果用粗体表示，次佳结果用下划线表示。0长度 1-5 6-7 8-10 11-200ReSTR (我们的方法) 58.72 53.47 53.96 51.910长度 1-2 3 4-5 6-200ReSTR (我们的方法) 72.38 69.46 61.19 50.210长度 1-2 3 4-5 6-200ReSTR (我们的方法) 65.72 54.81 47.65 37.020长度 1 2 3-4 5-200ReSTR (我们的方法) 80.82 69.78 63.66 50.730表2. 根据不同的指代长度在Gref、UNC、UNC+和ReferIt上的性能（IoU%）。最佳结果用粗体表示，次佳结果用下划线表示。0首先，如图3(a)所示，我们提出了一种将所有特征同时作为输入的融合编码器变体，称为Vanilla多模态编码器（VME）。由于所有输入都是并行给出的，VME可以学习到所有特征之间的细微关系。然而，由于视觉特征和语言特征之间的长度不平衡（ N v � N l），自适应分类器可能会对视觉特征产生不希望的偏见。如表3(a)所示，我们测量了视觉和语言特征对类别种子嵌入的注意力得分。具体而言，我们将类别种子嵌入的注意力分为视觉和语言特征的注意力。0层 a v a l0编码器 # 参数 MACs IoU0表3. (a) VME 在 Gref 训练集上每个 Transformer层对类别种子嵌入的视觉和语言特征的平均注意力得分（%）。(b)多模态融合编码器变体在 Gref 验证集上的性能（IoU %）。†表示权重共享的融合编码器。最佳结果用粗体表示，次佳结果用下划线表示。0类别种子嵌入的注意力 a ∈ R 1 × ( N v + N l +1)0将Eq. ( 5 )中的注意力矩阵 A 分解为视觉和语言注意力 a v∈ R 1 × N v 和 a l ∈ R 1 × N l，然后我们对每个模态的注意力在特征维度上求和，得到第i 层的 VME 的注意力得分 a i v 和 a i l。最后，我们对数据集上的每一层的注意力得分进行平均。结果表明，类别种子嵌入的注意力偏向于视觉特征。我们假设注意力的偏向是由于视觉特征和语言特征之间的特征长度不平衡造成的，我们的实验中 N v : N l = 900 : 20，这导致自适应分类器捕捉到的语言表达的细节关系较少。为了解决这个问题，我们考虑断开视觉特征和类别种子嵌入之间的交互，如图3(b)所示，称为独立多模态编码器（IME）。换句话说，类别种子嵌入只与语言特征进行交互。因此，IME限制了类别种子嵌入根据视觉信息自适应地转换为自适应分类器。(a)(b)(c)252.6045.5936.5923.545.2348.1252.8636.6138.9326.377.9048.43461.7755.8646.8630.888.1852.8164.9159.9451.7337.7012.2354.4864.2759.0150.7035.8511.4654.07663.3657.8848.7533.468.7552.8463.0557.3248.1932.478.4752.59181510语言特征视觉特征 � � 视觉特征 � � 语言特征视觉特征 � �0Transformer 编码器 Transformer 编码器0Transformer 编码器0Transformer 编码器 Transformer编码器0语言特征0图3. 基于Transformer架构的多模态融合编码器的变体。 (a) 在所有序列上进行自注意力融合编码器。 (b)在视觉特征和类别种子嵌入之间进行独立融合编码器。 (c) 在视觉特征和类别种子嵌入之间进行间接融合编码器。0编码器解码器 Prec@0.5 Prec@0.6 Prec@0.7 Prec@0.8 Prec@0.9 IoU # 层权重共享0表4. ReSTR在Gref验证集上的消融研究性能。# 层表示多模态融合编码器中的Transformer层数。wshare表示多模态融合编码器的权重共享。0为此，我们提出了一种间接结合类种子嵌入和视觉特征的结构，以语言特征作为媒介，称为间接结合多模态编码器（CME），如图3(c)所示。如3.2节所述，该设计旨在通过语言特征的间接交互避免不相关的视觉特征和类种子嵌入之间的相互作用。此外，CME通过语言特征和类种子嵌入之间的精细交互为语言表达中描述的目标实体生成自适应分类器。如表3(b)所总结的，我们比较了融合编码器的三种变体在性能、计算成本（MACs）和参数数量（#params）方面的差异，这些编码器没有分割解码器。这些结果表明，CME在性能和效率方面优于融合编码器的其他变体。此外，我们还尝试了CME与权重共享（CME†），即在视觉-语言编码器和语言-种子编码器的变压器层之间进行权重共享。结果显示，CME†在性能上仍然优于其他变体，并且具有更少的参数和计算成本。0ReSTR的深入分析0我们在Gref数据集的验证集上研究了我们的框架，该数据集包含比其他数据集更长且更复杂的语言表达。多模态融合编码器中变压器层数量的影响。我们通过改变变压器层数量来研究多模态融合编码器中变压器层数量的影响。0通过改变变压器的数量为{2, 4,6}来研究。由于多模态融合编码器由两个变压器编码器组成，因此编码器始终具有偶数个变压器层。如表4所总结的，性能在使用4个变压器层时有显著提高，并在使用6个变压器层时略微提高。0分割解码器的效果。我们研究了分割解码器的贡献。如表4所总结的，当与融合编码器中的4个变压器层一起使用时，解码器将IoU提高了1.67个百分点。然而，当与只有2个变压器层的融合编码器一起使用时，分割解码器的改进仅为0.31个百分点。当与产生相对较多错误补丁级别预测的浅层融合编码器结合使用时，分割解码器的效果较小，因为它是训练用于细化正样本补丁的掩膜。结果表明，解码器专门用于将补丁级别的预测细化为像素级的预测。请注意，由于内存不足，对分割解码器的分析仅适用于具有6个变压器层的融合编码器之外的情况。0权重共享的效果。在表4中，我们还展示了使用权重共享的模型性能。使用权重共享，无论多模态融合编码器包含多少个变压器层，参数数量都保持不变。结果显示，权重共享引起的性能下降很小。这表明，使用权重共享可以以较小的性能损失高效地使用ReSTR。181520(a) (b) (c) (d) (a) (b) (c) (d)0查询：“一个男人跪在池塘旁边，手在水中”0查询：“一块带有粉色糖霜的蛋糕旁边有一把叉子”0查询：“三明治的后半部分”0查询：“图像右侧背景中非常模糊的酒杯”0查询：“握着勺柄的手中的手指”0图4. Gref验证集上ReSTR的定性结果。(a) 输入图像。(b) 补丁级别预测。(c) ReSTR。(d) 真实值。0“左上角的书架”0“一个穿着黑色T恤的男人” “一个女人在两个男人之间”0“一个人坐在沙发上” “一个穿着蓝色T恤和米色裤子的男人”0“一张被人围绕的咖啡桌”0输入图像0图5.根据不同的语言表达查询对ReSTR的可视化示例，用于Gref val集上的一张图像。0方法 DCRF #参数 MACs IoU0BRINet [13] - 241.18M 367.63G 48.04 LSCM [16] -127.91M 130.45G 48.05 CMPC [14] - 118.66M 126.66G49.05 ACM [11] - 232.78M 124.68G 51.930ReSTR（CME） - 122.87M 52.29G 54.48 ReSTR（CME†）- 108.70M 52.29G 54.070表5.与最近方法的计算和性能比较。两者在IoU（％）上在Grefval集上进行评估。†表示多模态融合编码器采用权重共享，MACs是使用320×320的输入图像计算的。0定性分析。如图4所示，ReSTR的补丁级别预测大致定位在目标补丁和关系对象的边界上。然后，通过分割解码器以粗到细的方式将补丁级别的预测转换为精细的像素级预测。此外，在图5中，我们提供了在给定不同语言表达式作为查询时的预测的可视化示例。这些可视化示例显示，ReSTR能够预测与图像上不同语言表达式相对应的分割掩模。0计算成本分析。在表5中，我们列出了ReSTR和最近的研究的参数数量和MACs，这些研究的代码是公开可用的。由于采用了高效的分割解码器，ReSTR在计算量最小的情况下实现了最佳的准确性。此外，先前工作中使用的视觉特征的大小比我们的大4倍。05.结论0我们提出了ReSTR，这是第一个不使用卷积的指代图像分割模型。ReSTR采用transformer来捕捉特征提取中的全局上下文，同时适用于视觉和语言模态。它还包括由transformer组成的多模态融合编码器，用于编码这两种模态的特征之间的精细和灵活的交互。此外，多模态融合编码器计算出一个自适应分类器，用于补丁级别的分类。此外，我们提出了一个分割解码器，以粗到细的方式将补丁级别的预测细化为像素级的预测。ReSTR在所有公共基准测试中都优于现有的指代图像分割技术。我们的工作的潜在局限性是，随着补丁大小的减小，计算成本呈二次增加。由于使用视觉transformer时密集预测任务的性能严重依赖于补丁大小[39]，这引入了性能和计算成本之间的不可取的权衡。为了缓解这个问题，将线性复杂度的transformer架构整合起来可能是一个有前途的研究方向，我们将其留给未来的工作。0致谢。我们感谢Manjin Kim和SehyunHwang进行了有益的讨论。本工作得到了微软亚洲研究院合作研究计划、韩国科学技术部和信息通信部资助的NRF项目和IITP项目的支持（NRF-2021R1A2C3012728，IITP-2020-0-00842，No.2019-0-01906人工智能研究生院项目-POSTECH）。181530参考文献0[1] Gedas Bertasius，Lorenzo Torresani，Stella X. Yu和JianboShi。用于语义图像分割的卷积随机游走网络。在IEEE计算机视觉和模式识别会议（CVPR）论文集中，2017年7月。[2] NicolasCarion，Francisco Massa，Gabriel Synnaeve，NicolasUsunier，Alexander Kirillov和SergeyZagoruyko。使用transformer的端到端目标检测。在欧洲计算机视觉会议（ECCV）论文集中，2020年。[3] Ding-JieChen，Songhao Jia，Yi-Chen Lo，Hwann-TzongChen和Tyng-LuhLiu。用于指代图像分割的透明文本分组。在IEEE国际计算机视觉会议（ICCV）论文集中，2019年。[4] Liang-Chieh Chen，GeorgePapandreou，Iasonas Kokkinos，Kevin Murphy和Alan LYuille。使用深度卷积网络和全连接CRF的语义图像分割。在国际学习表示会议（ICLR）论文集中，2015年。[5] Liang-ChiehChen，George Papandreou，Iasonas Kokkinos，KevinMurphy和Alan L.Yuille。Deeplab：使用深度卷积网络，扩张卷积和全连接CRF的语义图像分割。IEEE模式分析与机器智能（TPAMI），2017年。[6]Liang-Chieh Chen，Yukun Zhu，George Papandreou，FlorianSchroff和HartwigAdam。具有扩张可分离卷积的编码器-解码器用于语义图像分割。在欧洲计算机视觉会议（ECCV）论文集中，2018年。[7] JiaDeng，Wei Dong，Richard Socher，Li-Jia Li，Kai Li和LiFei-Fei。

下载后可阅读完整内容，剩余1页未读，立即下载