基于视觉语言Transformer和查询生成的指称切分

16 浏览量更新于2023-10-14 收藏 789KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

16321用于指称切分的视觉语言Transformer和查询生成丁恒辉*刘畅*苏晨王旭东江南洋理工大学，新加坡{ding0093，liuc0058，wang.sc，exdjiang}@ ntu.edu.sg摘要在这项工作中，我们解决了具有挑战性的任务，指分割。参考分割中的查询表达式通常通过描述目标对象与其他对象的关系来指示目标对象。因此，要在图像中的所有实例中找到目标实例，模型必须对整个图像有一个整体的理解。为了实现这一点，我们重新将分割作为直接注意力问题：找到图像中查询语言表达最受关注的区域。我们引入Transformer和多头注意建立一个网络的编码器-解码器的注意机制架构，“查询”给定的图像与语言表达。此外，我们提出了一个查询生成模块，它产生了多个不同的关注权重的查询集，代表了语言表达的不同理解从不同的方面。同时，为了从这些基于视觉线索的多样化理解中一个更好的面具一代。没有花里胡哨，我们的方法是轻量级的，并实现了新的最先进的性能一致的三个参考分割数据集，RefCOCO，RefCOCO+，和G-Ref。我们的代码可以在https://github.com/henghuiding/Vision-www.example.com上找到。1. 介绍引用分割目标以生成针对由自然语言中的给定查询表达式引用的目标对象的分割掩码[10，16，15，3]。由于指代切分涉及自然语言处理和计算机视觉，被认为是最基本和最具挑战性的多模态任务之一。随着最近学习方法的成功，很多深-*同等贡献图1.我们的方法检测一种语言表达式的多个强调或理解方式，并为他们中的每一个产生一个查询向量。我们使用每个向量来然后，网络选择性地聚合这些响应，其中提供更好理解的查询被突出。在这一领域提出了基于学习的工作，并取得了显著的成绩。然而，这项任务仍有许多挑战。参考分割图像中的对象之间存在复杂的关联关系，而查询表达式往往通过描述对象之间的关系来指示目标对象，这就要求对图像和语言表达有一个整体的理解。另一个挑战是对象/图像的多样性以及语言的不受限制的表达，这带来了高度的随机性。首先，为了解决给定图像和语言中复杂的相关性的挑战，我们探索通过构建具有全局操作的网络来增强对多模态特征的整体理解，其中所有元素之间的直接交互（例如，像素-像素、字-字、像素-字）。目前，完全卷积网络（FCN）类框架[17，5，6，4]广泛用于引用分割方法[10，22]。它们通常对融合的（例如，在一些实施例中，所述方法包括：将视觉语言特征（级联）以生成目标掩码。然而，常规卷积操作中的长程依赖性建模是间接的，如视觉引导的注意力输查询向量0.6Resp. 20.70.3解码查询反应平衡掩模......Resp.三个Resp.一个Q1“左边的小象“Q2“左边的小象“Q3“左边的小象““左边的小象”...16322其大的感受域通常通过堆叠小核卷积来实现。这种倾斜过程给距离[27]中的像素/单词之间的信息交互带来效率低下，因此对于参考分割模型以理解图像的全局上下文[28]是不期望的。近年来，注意力机制在计算机视觉领域得到了广泛的应用，它能够在所有元素之间建立直接的交互作用，极大地帮助了模型捕获全局语义信息。一些先前的引用分割工作也使用注意力来减轻长范围依赖性问题[28，11，24]。然而，他们中的大多数只是利用关注机制作为辅助模块的基础上的FCN类流水线，这限制了他们的能力，以建模全局上下文。在这项工作中，我们根据注意力重新制定了引用分割问题，并利用Transformer [25]重建了当前的类FCN框架。我们使用视觉引导的注意力从语言特征生成一组查询向量，并使用这些向量来1.一、这种基于注意力的框架使我们能够在计算的每个阶段实现多模态特征之间的全局操作，使网络更好地建模视觉和语言信息的全局上下文。其次，针对物体/图像的多样性和语言表达的无约束性所带来的随机性，提出结合视觉特征，从不同的角度理解语言表达。在许多前人的指称切分方法中，如[19，29]，通常使用语言自注意来提取语言表达中信息量最大的部分和强调词。对于这些方法，他们的语言理解是单独从语言表达本身获得的，而不与图像交互，因此他们无法区分更适合和更有效的强调更适合特定图像。因此，它们的检测重点可能是不准确的或低效的。另一方面，在大多数以前的视觉变换器工作中，对变换器解码器的查询通常是一组固定的学习向量，其中的每一个用于预测一个对象。实验表明，每个查询向量都有自己的操作模式，并且专门针对特定类型的对象[1]。在这些具有固定查询的工作中，必须隐含一个假设，即输入图像中的对象是在某些统计规则下分布的，这不匹配参考分割的随机性为了解决这些问题，我们提出了一个查询生成模块（QGM）产生多个不同的查询向量的语言的基础上，并与视觉功能的援助。每个向量都以自己的方式理解语言表达式通过提出的QGM，我们提高了方法的多样性理解图像和查询语言，增强网络同时，为了保证生成的查询向量是有效的，并找到更适合图像和语言的理解方式，我们进一步提出了一个查询平衡模块来自适应地选择这些查询的输出特征，以更好地生成掩码。我们的方法在不同层次上建立了语言和视觉特征之间的深度交互此外，所提出的模块是轻量级的，其参数大小大致相当于七个卷积层。我们的主要贡献概括如下：• 我们设计了一种视觉语言Transformer（VLT）方法，建立多模态信息之间的深度交互，增强对视觉语言特征的整体理解。• 我们提出了一个查询生成模块，从不同的理解方式来理解语言，和一个查询平衡模块，专注于合适的方式。• 所提出的方法在多个数据集上一致地实现了新的最先进的技术，特别是在硬和复杂的数据集上。2. 相关作品2.1. 参考细分参考分割的目的是在给定描述其属性的自然语言表达式的图像中找到该任务首先由Hu等人提出。在[10]中，其中通过级联由LSTM提取的语言特征然后，一个全卷积网络（FCN）应用于融合的特征，证明了这个问题的可行性。在[16]中，为了利用指称句中的每个词，Liuet al.提出了一种基于多模态LSTM的递归网络（mLSTM）。该框架在每个重现阶段对每个单词进行在[29]中，Yuet al.提出了一种两阶段方法，首先使用实例分割网络Mask R-CNN [8]提取Luo等人[19]提出了一个框架，该框架联合学习解决两个任务：引用表达理解（REC）[20，9]和分割（RES），取得了显着的性能。此外，随着基于注意的方法进入人们这一点在一些作品中得到体现，如[28]设计了一个Cross-Modal16323+查询编码查询生成关注关注关注关注Transformer解码器Transformer编码器POS.EMB.语言特性Ft--愿景图像“小象在左边”视觉+语言图2.网络框架概述。首先将输入图像和语言表达转换到特征空间。特征然后由Transformer编码器-解码器模型处理，生成一组查询响应。这些响应随后被解码以输出目标掩码。“位置Emb."：位置嵌入。自注意（CMSA）模型，其自适应地关注查询表达式中的信息词和输入图像的重要部分，并且[11]利用一对注意模块，即语言引导的视觉注意模块和视觉引导的语言注意模块来学习多模态特征之间的关系。不像以前的方法，是建立在FCN类网络上，我们取代了预测和识别头与一个完全基于注意力的架构，这有助于我们轻松地建模图像中的长程依赖关系。2.2. 注意力和TransformerTransformer模型是一种仅使用注意机制的序列到序列深度网络架构，它首先由Vaswani等人引入。[25]。Transformer模型在自然语言处理（NLP）中迅速获得了吸引力，并在几个主要的NLP任务上显示出有前途的性能，如机器翻译[25]，语言建模[14]，问答[2]。近年来，Transformer也被计算机视觉界采用，并在各种任务中显示出潜力，如对象检测[1]，图像识别[7]，人-对象交互[26]，语义分割[32]等。与专注于局部像素（内核）的CNN不同，变换器因其对全局信息建模的能力而受到赞赏3. 方法我们的方法的整体架构如图所示。二、该网络采用图像I∈RH′×W′×3和语言表达式T=wi i=1，…，t作为输入，其中H’和W’分别是输入图像的高度和宽度。t是语言表达式的长度。首先，将输入图像和语言表达映射到特征空间。接下来，由查询生成模块（QGM）一起处理语言和视觉特征以产生一组语言查询向量，其表示关于图像和视觉特征的不同理解。东凤 +×个×个FVQ变平线性（Wa）线性（Wt）线性（Wv）注意重量A视觉功能FvrTransformer解码器图3.查询生成模块的体系结构。该模块将语言特征Ft和视觉特征Fvr作为输入，并生成一组查询向量Fq。语言表达同时，视觉特征被发送到Transformer编码器以生成一组存储器特征。从QGM获得的查询向量用于最后，网络输出用于目标对象的掩模Mp3.1. 查询生成模块在大多数以前的视觉变换器工作[1]中，变换器解码器的查询通常是一组固定的学习向量，每个学习向量用于预测一个对象并具有自己的操作模式，例如专门研究特定种类或位于特定地区的物体。在这些具有固定查询的工作中，必须隐含一个假设，即输入图像中的对象在某些统计规则下分布。这被证明是工作在其他相关的任务，如目标检测和全景分割。对于参考分割，感兴趣的目标指示符目标掩膜掩码解码器查询余额16324∈∈∈∈∈输入：“左边的大圆圈“原始视觉特征H×W×CH×W×Nq23...NQ FVQ序列视觉特征Nq ×（HW）图4.查询生成模块中视觉特征的准备过程。该模块将规则的二维视觉特征转换为一组序列特征。由输入语言指定的图像可以是图像中的任何实例。由于图像和语言表达都是不受约束的，因此目标对象的属性的随机性因此，固定的查询向量，就像大多数其他视觉转换器作品一样，不足以表示目标对象的属性。相反，这些属性隐藏在语言表达式中，例如，关键词，比如为了提取关键信息并解决参考分割中的这种高度随机性，我们提出了一个查询生成模块，以根据输入图像和语言表达在图像信息的帮助下在线自适应地产生查询向量，如图所示。3.第三章。此外，为了让网络学习不同方面的信息，提高查询的鲁棒性，我们生成多个查询，虽然只有一个目标实例。查询生成模块将语言特征F t R NlX C和原始视觉特征F vr R HX WX C作为输入。在Ft中，第i个向量是单词wi的特征向量，它是输入语言表达式中的第i个单词Ft中的Nl通过补零来固定。该模块的目标是输出Nq个查询向量，每个查询向量是一个具有不同注意力权重的语言特征，由视觉信息引导。首先，准备视觉特征，如图1所示。4.第一章我们通过三个卷积层将视觉特征Fvr的特征通道维度大小减少到查询数量Nq，从而得到Nq特征图。它们中的每一个将参与一个查询向量的生成。然后在空间域中使特征图变平(a)（b）第（1）款图5.一个句子有不同强调的例子。对于不同的图像，“大”和“左”的信息程度在实践中，同一个句子可能有不同的理解角度和侧重点，只有借助意象才能知道最合适、最有效的侧重点。我们在图中给出一个直观的例子。五、对于相同的输入句子“左边的大圆圈”，单词“左”对于第一图像信息更多，但是“大”对于第二图像更有用。在这种情况下，语言自我注意不能区分“大”和“左”之间的重要性，因此只能给这两个词高的注意权重，使注意过程不太有效。因此，在查询生成模块中，我们结合图像从多个方面理解语言表达，从语言中形成Nq个查询。不同的查询强调不同的词，更合适的注意力权重，然后被发现和增强的查询平衡模块。为此，我们通过将视觉特征Fvq导出语言特征Ft的注意力权重。首先，我们对Fvq和Ft应用线性投影。然后，对于第n个查询，取第n个视觉特征向量fvqnR1×（HW），n=1，2，. . .，Nq和所有词的语言特征。设第i个字的特征为ftiR1× C，i = 1，2，. . . 、Nl. 第 i 个词的第n个注意力权重是投影的fvqn和fti的乘积：ani=σ（fvqn Wv）σ（fti Wa）T（2）形成大小为Nq×（HW）的特征矩阵FVq，即，导致标量ani. Wv∈R（HW）× C 且Wa ∈FVQ =展平（Conv（Fvr））T（1）RC×C是可学习参数，σ是激活函数。Softmax函数应用于每个查询的所有单词众所周知，对于一种语言表达，不同的词语的重要性是不同的。以前的一些作品通过测量每个单词的重要性来解决这个问题。例如，[19]给每个单词一个权重，[29，12]定义一组标签，例如，位置、属性、实体，并找出每个词属于不同标签的程度大多数作品都是通过语言的自注意力来获得权重，没有利用图像中的信息，只输出一组权重。但在作为正常化。对于第n个查询，所有词的注意力权重的集合被形成为从a ni到AnR1× Nl，n = 1，2，. . . ，N q. 它由一组不同的词的注意力权重组成，不同的查询可能涉及语言表达的不同部分。因此，Nq个查询向量关注语言表达的不同侧重点或不同理解方式。接下来，将导出的关注权重应用于Conv变平FVR1123...NQ16325线性查询向量东凤企业股份有限公司Transformer解码器×个C×2C线性QN ×1CQ查询信心QN ×CFrTransformer输出掩码解码器∈∈∈∈××个∈：串联图6.查询余额模块。为每个查询向量计算置信度参数置信度然后应用于其对应的Transformer输出以控制每个查询向量的影响。语言特点：Fqn=Anσ（Ft Wt）（3）3.3.网络架构编码. 由于Transformer架构仅接受顺序输入、原始图像和语言其中W tR C× C是可学习的参数。每个F_qn是由视觉信息引导的关注语言特征向量，并且用作到Transformer解码器的一个查询向量。在数学上，每个查询是语言表达中不同单词的特征的投影加权和，因此它保留了作为语言特征的属性，并且可以用于查询图像。3.2.查询余额模块我们从建议的查询生成模块得到Nq个不同的查询向量。每个查询表示输入语言表达式的特定理解。如前所述，输入图像和语言表达都具有高度随机性。因此，需要自适应地选择更好的理解方式，并让网络集中在更合理和合适的理解方式上。另一方面，由于每个查询向量的独立性在Transformer解码器[1]中保持，但我们只需要一个掩码输出，因此希望平衡不同查询对最终输出的影响。因此，我们提出了一个查询平衡模块，自适应地分配每个查询向量的置信度，反映了多少适合的预测和上下文的图像。该架构如图所示。六、查询平衡模块从查询生成模块获取查询向量Fq，并从Transformer解码器获取其响应Fr，其大小与Fq相同。设Frn表示对Fqn的相应响应。在查询平衡模块中，查询及其对应的响应首先连接在一起。然后，一组查询置信度Cq的大小为Nq1由两个连续的线性层生成。每个标量Cqn示出查询Fqn在多大程度上适合其预测的上下文，并且控制其响应Fqn对掩码解码的影响。第二个线性层使用sigmoid作为激活函数来控制输出范围。每个响应F_rn与对应的查询置信度C_qn相乘，并且被发送用于掩码解码。在发送到Transformer之前，必须将输入变换到特征空间中。对于视觉特征，在[1]之后，我们使用CNN主干进行图像编码。我们将主干中最后三层的特征作为编码器的输入。通过将三组特征图调整为相同的大小并将它们相加在一起，我们得到原始视觉特征F vr R H× W× C，其中H，W是特征的空间大小，C是特征通道数。对于语言特征，我们首先使用查找表将每个单词转换为单词嵌入[31]，然后利用RNN模块将单词嵌入转换为与视觉特征相同的通道编号，从而得到一组语言特征F t R Nl× C。然后将F vr和F t作为视觉和语言特征发送到查询生成模块。同时，我们将Fvr的空间域平坦化为序列，形成视觉特征F vR Nv× C，N v=H W，其将被发送到Transformer模块。Transformer模块。我们使用一个完整的，但浅的Transformer，适用于输入功能的注意操作。该网络具有一个Transformer编码器和一个解码器，每个编码器具有两层。每个层具有一个（编码器）或两个（解码器）多头注意模块和一个前馈网络，如[25]中所定义的。Transformer编码器以视觉特征Fv为输入，导出视觉信息FmRNv×C的记忆特征。在发送到编码器之前，我们在Fv上添加固定的正弦空间位置嵌入。在我们的实验中，我们然后将Fv与语言特征的最终状态相乘，如[19]以丰富视觉特征中的信息。然后，将Fm作为键和值连同由查询生成模块产生的Nq个查询向量一起发送到Transformer解码器解码器用语言查询向量查询视觉记忆特征，并输出Nq个响应用于掩码解码。掩码解码器模块。掩码解码器由三个堆叠的3×3卷积层组成，用于解码，然后是一个1×1卷积层，用于输出最终的16326×个表1.与卷积网络在参数大小和性能方面的比较。“#params”表示Transformer及其替代品（一个具有7个3×3卷积层的模块）中可训练参数的数量。类型#参数IOUPr@0.5Pr@0.6Pr@0.7Pr@0.8Pr@0.97转换层Transformer16. 6M17岁。5M44.2849.3649.5455.8442.1650.7935.2441.6825.9829.9610.4710.76表2.我们的查询生成方法与其他相关方法的比较。“F t”：使用所有单词的语言特征作为查询。“Learnt”: queries are parameters learnt in trainingwhile fixed in testing, similar with号方法IOUPr@0.5Pr@0.6Pr@0.7Pr@0.8Pr@0.912Ft学到45.0542.9952.6949.8546.0842.3836.2031.5220.9717.143.422.413我们49.3655.8450.7941.6829.9610.76分段掩码上采样层可以可选地插入到层之间以控制输出大小。为了更清楚地展示Transformer模块的有效性，在我们的实现中，掩码解码模块不使用任何以前的CNN特征。我们使用输出掩码上的二进制交叉熵损失来指导网络训练。4. 实验4.1. 实现细节实验设置。我们严格遵循之前的工作[19，29]的实验设置，包括准备Darknet-56骨干作为CNN编码器。将输入图像的大小调整为416 416。每个Transformer块有8个头，所有头中的隐藏层大小都设置为256。输入语言表达式的最大长度对于RefCOCO和RefCOCO+设置为15，对于G-Ref设置为20。我们使用Adam优化器训练网络50个epoch，学习率λ=0。001。使用浅层Transformer架构，我们能够在32GB VRAM的情况下以每个GPU 32个的大批量大小训练模型。指标. 我们使用两个指标进行实验：mask IoU和Precision@ X。IoU度量示出了输出掩码的质量，其反映了方法的总体性能，包括定向和掩码生成能力。Precision@X报告IoU阈值X处的成功靶向率，其关注于方法的靶向能力。4.2. 数据集我们在三个常用的数据集上评估我们的方法：RefCOCO、RefCOCO+ [30]和G-Ref [21，23]。RefCOCO RefCOCO+（UNC/UNC+）[30]是用于参考分割的两个最大和最常用的数据集。RefCOCO数据集包含19，994张图像，其中包含50，000个对象的142，209个引用表达式，而UNC+数据集包含19，992张图像，其中包含49，856个对象的141，564个表达式。有些词，例如关于绝对位置的词语是5654525048461 2 4 8 16 32询问流动图7.通过增加查询数量N q获得性能增益。灰色点是没有查询平衡模块（QBM）的性能。在RefCOCO+数据集中，因此它被认为比RefCOCO数据集更具挑战性。G-Ref[21，23]是另一个常用的数据集。它包含26，711幅图像，其中104，560个表达式涉及54，822个对象。与RefCOCO和RefCOCO+相比值得注意的是，该数据集有两个分区：Google分区[21]和UMD分区[23]。UMD分区同时有验证集和测试集，但Google分区的测试集并没有公开发布。我们报告的性能，我们的方法对这两种分区。4.3. 消融研究为了更好地展示我们的模型在困难和复杂场景下的性能，我们在更困难的数据集上进行消融研究，即RefCOCO+的testB拆分。参数大小。我们表明，只有一个微小的Transformer网络可以是卷积网络的替代方案，同时在我们的框架中实现更好的性能。为了显示我们的网络的规模和证明Transformer模块的有效性，我们比较了我们的方法的性能和参数大小与表1中的规则conv-网。在实验中，我们替换了整个基于注意力的模块，包括Transformer模块、查询生成模块和查询带有堆叠的3 ×3卷积层的IOU预处理16327∼∼表3.查询编号的影响*：不带余额查询模块NQIOUPr@0.5Pr@0.6Pr@0.7Pr@0.8Pr@0.9144.8350.1743.9434.7521.644.66247.0752.8547.3139.6628.908.30446.7953.0647.5440.3828.238.92849.0455.5750.5844.2432.9912.621649.3655.8450.7941.6829.9610.763249.2755.5750.4844.4333.8712.5016*48.9455.4150.3243.8432.5612.99表4.IoU度量的实验结果，以及其他方法与我们的比较U：UMD分裂。G：谷歌拆分。RefCOCORefCOCO+G-RefVal测试一个测试BVal测试一个测试Bval（U）试验（U）val（G）DMN [22]49.7854.8345.1338.8844.2232.29--36.76RRN [15]55.3357.2653.9339.7542.1536.11--36.45MAttNet [29]56.5162.3751.7046.6752.3940.0847.6448.61-[第28话]58.3260.6155.0943.7647.6037.89--39.98BRINet [11]60.9862.9959.2148.1752.3242.11--48.04中国移动[12]61.3664.5359.6449.5653.4443.23--39.98LSCM [13]61.4764.9959.5549.3453.1243.50--48.05[19]第十九话62.4464.2059.7150.6254.9944.6949.2249.40-CGAN [18]64.8668.0462.0751.0355.5144.0651.0151.6946.54VLT（我们的）65.6568.2962.7355.5059.2049.3652.9956.6549.76预处理@0.576.2080.3171.4464.1968.4055.8461.0360.2456.65具有相似的参数大小。它表明，我们的基于注意力的模块的参数大小仅大致相当于7个卷积层，同时具有更优越的性能。Transformer模块的性能优于7个Conv模块，在IoU中保证金超过5%，在Prec@0.5中保证金超过7%。这证明了Transformer模块的有效性。查询生成。在本节中，我们将 Query GenerationModule与其他生成查询向量的方法进行比较。结果报告于表2中。查询生成模块优于这两种方法，约3%-6%的大幅度。在第一个实验中，我们直接将语言特征作为查询发送到Transformer解码器中。具体来说，输入的语言表达式由RNN网络处理，然后每个单词的输出被用作一个查询向量。可以看出，因为单词之间的信息没有充分交换，所以其性能不是那么令人满意。这表明查询生成模块有效地理解句子并生成由视觉信息引导的有效的关注语言特征。其次，我们使用最常用的方法，即查询向量在训练期间被学习并且在推断期间被固定。在实验中，在训练开始时，我们设置了16个初始化为均匀分布的查询向量，并将它们与网络的其他部分一起训练。结果表明，学习到的固定查询向量不能有效地表示目标对象的查询生成模块在线产生的查询。查询编号。显示查询的影响数量N q，我们报告网络的性能与不同数量的查询图。7、桌子3 .第三章。结果表明，虽然只有一个掩码被输出，但仍然需要对Transformer网络进行多个从结果来看，从1个查询到16个查询，较大的查询数量带来了约5%的显着虽然4次查询的IoU性能略低于2次查询，但从Pr@0.5可以看出其检测性能仍然较高。当查询数大于8时，性能提升会变慢，因此我们选择16作为我们实现中的默认查询数。这还表明，查询生成模块生成的多个查询表示信息的不同方面。此外，当查询余额模块被移除时，存在1%的性能损失，证明了查询余额模块的有效性。4.4. 与最新技术水平的在表4中，我们在三个广泛使用的数据集上将我们提出的视觉语言Transformer（VLT）方法与以前的最先进方法进行了比较。可以看出，我们的方法在所有数据集上都优于其他方法。在RefCOCO数据集上，我们的方法的IoU性能高于其他方法，增益为1%。此外，在更困难和复杂的数据集RefCOCO+上，我们的方法实现了约5%的更显着的性能增益，特别是在testB拆分上。在另一个语言表达式平均长度较长的硬数据集G-Ref上，我们的方法也实现了更高的IoU，其裕度约为2%-5%。这说明16328图（a）“角落里的白碗”“一碗胡萝卜”图片（b）“黑猫”“浅色猫”图像（c）“条纹男”“白衬衫”图像（d）“花卉图案”“绿色衬衫”图像（e）《卷尾》《骑象人》图像（f）“女人在9点钟“男人跪在灰色西装”白大衣”图8. (Best以彩色显示）示例输出。对于每一组图像，第一组图像示出输入图像，并且其他图像下的字幕示出输入语言表达。PP（一）(a)通过描述对象之间的相互作用的表达式来识别目标，即，图像（f）是一组人的照片，其中所有实例以复杂的布局密集地分布在图像中。我们的方法仍然设法提取具有包含多个方面信息的困难语言表达的目标，图9.可视化：（一）. Transformer编码器中的点P的注意图;（b）.不同的查询向量Fq。该方法对复杂情况和长表达式具有较好的处理能力。我们假设原因是，一方面，长句和复杂句通常包含更多的信息和更多的强调，我们的查询生成和平衡模块可以检测多个强调，并找到更多信息。另一方面，较难的情况也可能包含复杂的场景，需要全局视图，多头注意力作为全局算子更适合这个问题。4.5. 可视化和定性结果我们展示了图中的方法的示例输出8.为了清楚地表明该方法的识别能力，对于每个例子集，我们显示了一个图像与不同的输入查询表达式的分割结果。图像（a）和（b）是语言表达描述目标的位置或颜色的两个直接情况。从图像（b）的第二个表达式可以看出，我们的方法能够处理比较词（较轻）。图（c）和图（d）示出了该方法“花香”在图（e）中，该方法成功地例如方向（9接下来，我们从一个点的Transformer编码器的第二层提取注意力图，如图1所示。9（a）。可以看出，来自一个实例的点涉及图像上的其他相关实例，这表明Transformer成功地在一个单层中提取了图9（b）示出了一些查询向量Fq（参见图3和等式10）。（3）），其示出了查询向量的多样性。5. 结论在本文中，我们使用注意力网络来解决传统卷积网络中的全局信息交换问题，从而解决了引用分割的困难任务。我们重新制定的任务的注意力问题，并提出了一个框架，利用Transformer执行注意力操作。为了解决由于强调不明确而导致的歧义指称句的问题该模型在三个广泛使用的数据集上以较大的幅度优于其他方法。16329引用[1] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器的端到端对象检测。在欧洲计算机视觉会议上，第213-229页。Springer，2020年。二三五六[2] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。BERT：用于语言理解的深度双向转换器的预训练。在计算语言学协会北美分会会议论文集中： HumanLanguage Technologies ， NAACL-HLT ， Minneapolis ，MN，USA，2019年6月2日至7日，第1卷（长论文和短论文），第4171-4186页。计算语言学协会，2019年。三个[3] Henghui Ding，Scott Cohen，Brian Price，and XudongJiang.短语点击：通过短语和点击实现灵活的交互式分段。欧洲计算机视觉会议，第417-435页。Springer，2020年。一个[4] Henghui Ding ， Xudong Jiang ， Ai Qun Liu ， NadiaMagnenat Thalmann，and Gang Wang.用于场景分割的边界感知特征传播。在IEEE/CVF计算机视觉国际会议论文集，第6819-6829页，2019年。一个[5] Henghui Ding ， Xudong Jiang ， Bing Shuai ， Ai QunLiu，and Gang Wang.基于上下文对比特征和门控多尺度聚合的场景分割方法.在IEEE计算机视觉和模式识别会议论文集，第2393-2402页，2018年。一个[6] Henghui Ding ， Xudong Jiang ， Bing Shuai ， Ai QunLiu，and Gang Wang.语义相关性促进了形状变化的上下文分割。在IEEE/CVF计算机视觉和模式识别会议论文集，第8885-8894页，2019年。一个[7] 阿列克谢·多索维茨基、卢卡斯·拜尔、亚历山大·科列斯尼科夫、德克·魏森伯恩、翟晓华、托马斯·翁特蒂纳、穆斯塔法·德赫加尼、马蒂亚斯·明德雷尔、格奥尔格·海戈德、西尔万·杰利、雅各布·乌斯兹科里特和尼尔·霍斯比。一张图片相当于16x16个单词：用于大规模图像识别的变压器在国际会议上学习表示（ICLR），2021年。三个[8] KaimingHe，GeorgiaGkioxari，PiotrDolla'r ，andRossGirshick.面具R-CNN。在IEEE/CVF计算机视觉国际会议（ICCV）的会议中，第2961-2969页二个[9] Ronghang Hu ， Marcus Rohrbach ， Jacob Andreas ，Trevor Darrell，和凯特萨恩科建模组合模块网络的指称表达式中的关系。在IEEE计算机视觉和模式识别会议论文集，第1115- 1124页，2017年。二个[10] 胡荣航马库斯·罗尔巴赫和特雷弗·达雷尔。从自然语言表达式中分割。在欧洲计算机视觉会议上，第108施普林格，2016年。一、二[11] Zhiwei Hu，Guang Feng，Jiayu Sun，Lihe Zhang，andHuchuan Lu.双向关系推理网络用于参考图像分割。在IEEE/CVF计算机视觉和模式识别会议论文集，第4424-4433页，2020年。二、三、七[12] Shaofei Huang ， Tianrui Hui ， Si Liu ， Guanbin Li ，Yunchao Wei，Jizhong Han，Luoqi Liu，and Bo Li.通过跨模态渐进理解的参考图像分割。在IEEE/CVF计算机视觉和模式识别会议论文集，第10488-10497页，2020年。四、七[13] Tianrui Hui，Si Liu，Shaofei Huang，Guanbin Li，SansiYu，Faxi Zhang，and Jizhong Han.语言结构引导的上下文建模在参考图像分割中的应用。欧洲计算机视觉会议，第59Springer，2020年。七个[14] Ben Krause，Emmanuel Kahembwe，Iain Murray，andSteve Renals. Transformer语言模型的动态评估。arXiv预印本arXiv：1904.08378，2019。三个[15] Ruiyu Li ，Kaican Li ，Yi-Chun Kuo， Michelle Shu，Xiaojuan Qi，Xiaoyong Shen，and Jiaya Jia.通过循环细化网络进行参考图像分割。在IEEE计算机视觉和模式识别会议论文集，第5745-5753页，2018年。1、7[16] Chenxi Liu，Zhe Lin，Xiaohui Shen，Jimei Yang，XinLu，and Alan Yuille.用于参考图像分割的递归多模态交互。在IEEE/CVF计算机视觉国际会议（ICCV）的会议中，第1271-1280页一、二[17] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。在IEEE计算机视觉和模式识别会议论文集，第3431-3440页，2015年。一个[18] Gen Luo ，Yiyi Zhou，Rongrong Ji，Xiaoshuai Sun，Jinsong Su，Chia-Wen Lin，and Qi Tian.基于级联分组注意网络的指代表情分割。第28届ACM国际多媒体会议论文集，第1274-1282页，2020年。七个[19] Gen Luo，Yiyi Zhou，Xiaoshuai Sun，Liujuan Cao，Chenglin Wu，Cheng Deng，and Rongrong Ji.联合指称表达理解与切分的多任务在IEEE/CVF计算机视觉和模式识别会议论文集，第10034二四五六七[20] Ruotian Luo和Gregory Shakhnarovich。理解引导的指称表达。在IEEE计算机视觉和模式识别会议论文集，第7102-7111页，2017年。二个[21] Junhua Mao，Jonathan Huang，Alexander Toshev，OanaCamburu，Alan L Yuille，and Kevin Murphy.无歧义对象描述的生成和理解。在IEEE计算机视觉和模式识别会议论文集，第11-20页，2016年。六个[22] Ed garMa r g f o y-Tua y，JuanCP e´ rez，EmilioBotero，and PabloArbel a´ ez. 由自然语言查询引导的动态多模态实例分割在欧洲计算机视觉会议（ECCV）的会议记录中，第630-645页，2018年。1、7[23] Varun K Nagaraja，Vlad I Morariu，and Larry S Davis.为引用表达式建模对象之间的上下文16330认识欧洲计算机视觉会议，第792-807页。施普林格，2016年。六个[24] Hengcan Shi，Hongliang Li，Fanman Meng，and QingboWu.关键词感知网络用于指代表情图像分割。在欧洲计算机视觉会议（ECCV）的会议记录中，第38-54页，2018年。二个[25] Ashish Vaswani、 Noam Shazeer 、 Niki Parmar 、 JakobUszkoreit、Llion Jones、Aidan N Gomez、Vukasz Kaiser和 Illia Polosukhin 。注意力是你所需要的。InAdvances神经信息处理系统，第5998-6008页，2017年。二三五[26] Suchen Wang，Yap-Peng Tan，Henghui Ding，Kim-HuiYap，J

下载后可阅读完整内容，剩余1页未读，立即下载