自底向上推理：图像分割中的自然语言指称对象识别的新方法

39 浏览量更新于2024-01-22 收藏 1.34MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11266基于自底向上移位和推理的参考图像分割杨思蓓1孟霞2李冠斌2周洪宇3Yizhou Yu3，4 <$1上海科技大学2中山大学3香港大学4Deepwise AI Lab摘要指称图像分割的目的是分割出图像中自然语言表达所指称的对象或事物。它的主要挑战在于如何有效地区分所指对象和与所指对象同范畴的其他对象在本文中，我们通过提出的新颖的自底向上移位（BUS）和双向注意细化（BIAR）模块，在单个阶段中联合执行组合视觉推理和准确分割来具体来说，总线逐步定位沿层次推理步骤的表达式所实现的所指。在每一步中，它通过相似区域之间的消歧来定位相应的视觉区域，其中消歧基于区域之间通过可解释的视觉推理，BUS明确地将语言成分与视觉区域对齐，从而识别表达式中的所有实体。BIAR通过双向的注意信息传递融合多层次特征，捕捉与所指对象相关的视觉细节，以细化分割结果。实验结果表明，该方法包括BUS和BIAR模块，不仅可以始终超过所有现有的国家的最先进的算法在共同的基准数据集，但也可视化inter-pretable 逐步分割的推理步骤代码可在https://github.com/incredibleXM/BUSNet上获得。1. 介绍视觉和语言的交叉点在学术界引起了越来越多的兴趣，其中提出了许多方法[1，3，25]来促进更好的理解平等贡献。†对应自行这工作是部分国家重点研究发展计划（No.2020YFC2003902）、国家自然科学基金（No.61976250和No.U1811463 ）、广东省基础与应用基础研究基金（No.2020B1515020048）资助。图1.用于参考图像分割的自底向上移位（BUS）BUS执行从实体“broccolis“到“female“再到“person“的逐步视觉推理在每一步中，它首先识别与实体相对应的对象，然后通过关系推理区分所识别的对象。这两种模式。现有的视觉语言方法按其设计原则大致可分为两类，多模态融合和表征学习，以及语言条件视觉反应。与前者相比，前者更侧重于如何从多个模态中学习联合表示，后者基于推理的方法通常不仅在复杂场景中更有效，而且可以提供一个可解释的决策过程。然而，作为最基本的视觉和语言任务之一，参考图像分割（RIS）[8]在以前的研究工作中没有从第二个角度（即，推理）。现有的基于视觉推理的RIS方法[19，46]主要重新排序为两阶段流水线，其中它们首先检测并分割对象实例，然后对两个对象实例的特征向量及其关系进行推理。然而，两阶段解决方案不可避免地面临推理速度慢和通用性差的问题[23]。更糟糕的是，在对这些对象实例的特征向量进行推理时，图像中对于视觉推理至关重要的关系和空间先验丢失了。另一方面，大多数关于RIS的现有工作[9，10，15]主要集中在单个阶段中学习多模态上下文表征。通常，一阶段RIS方法具有快速的推理速度，但在处理复杂的视觉场景和表达方面较差。11267因为他们缺乏足够的视觉推理能力[23]。例如（见图1），如果没有视觉推理，模型就无法区分图像中提到的在本文中，我们的目标是赋予一个阶段的RIS进行视觉推理的能力，并采取一个阶段和两个阶段的方法的优势。两阶段方法依赖于显式对象实例及其关系来进行视觉推理;然而，在一阶段RIS中没有显式对象级别的信息。因此，我们认为捕捉视觉场景的组成部分和它们之间的关系是在一阶段RIS中进行视觉推理的关键。在图1（a）中，给定指称表达（“A female isholding broccolis“）的语言结构（通过该过程，所指的此外，我们可以执行自下而上的移位和推理，以确定所指层次复杂的表达式。如图1（b）所示，我们通过以下两个步骤进一步分割被推荐的首先，我们找到关于名词“person“的区域C然后，我们通过考虑其与所识别的区域A1的“站在旁边“的关系，将区域C移动到区域C1。此外，我们可以通过考虑其与A1的逆关系来细化视觉区域B。除了找到参照物之外，一对关系和逆关系的双向移位有助于分割其他提到的对象。为了实现上述概念和操作，我们提出了一个自底向上转移（BUS）模块，将视觉推理引入到一级RIS中。具体地说，BUS首先将表达式解析为语言图，然后从图中分析语义推理步骤。在语言图中，每个节点和有向边分别表示一个特定的名词短语和从宾语节点到主语节点的语义关系类型。然后，BUS进行自底向上的整个图像的视觉推理推理的推理步骤。特别地，我们将组合视觉推理过程分解为边上的成对关系移位和节点上的整合。成对关系移位通过根据该边的类型在其两个节点之间传递消息来对单个边执行视觉推理，其中基于关系的卷积运算实现消息传递。此外，如何从粗定位中准确地分割出所指对象也是RIS中的一个关键问题以前的作品[9，10，15]通常包含多级特征来细化分割结果的细节然而，这些方法要么忽略了低层次的视觉细节，要么通过单向融合来捕获多个层次之间的不完整交互。在本文中，我们提出了一个双向的，注意力细化（BIAR）模块，用于集成低级视觉特征和高级语义特征。具体而言，自上而下的分支负责捕获语义相关的视觉细节，而自下而上的路径有助于为多层次语义特征配备所捕获的细节。然而，由于低层视觉特征中包含了图像的视觉细节，直接将低层视觉特征融入到高层语义特征中可能会带来无关的噪声。因此，我们提出了一种注意机制，以有选择地纳入与参考相关的细节。本文的主要贡献如下：• 提出了一种自底向上移位（BUS）模块，以增强一阶段参考图像分割的能力，执行可解释的视觉推理。的BUS不仅可以区分所指对象和与其同范畴的其他对象，而且可以分割表达式中提到的其他实体。• 提出了一种双向注意细化（BIAR）模块，用于从粗日志中分割所指对象精确地缩放BIAR通过双向的注意信息传递，将低层视觉特征和高层语义特征结合起来，提高了分割的准确性。• BUS和BIAR被集成到一个自底向上的移位和推理网络（BUSNet）中。实验再-结果表明，BUSNet不仅优于现有的最先进的方法，并取得了显着的性能增益超过参考表达推理模型，但也产生可解释的可视化逐步推理和分割。2. 相关工作2.1. 语义分割语义分割的目的是从预定义的类别中分割出对象的所有像素全卷积网络（FCN）[22]及其变体在语义分割中占据主导地位。为了减轻下采样问题，DeepLab [5]在FCNs中用atrous卷积取代了传统卷积，以扩大卷积的接收范围，而不会丢失空间细节。已经引入了不同的方法来聚合多尺度上下文。例如，DeepLabv2 [6]和PSPNet [48]分别通过金字塔空间卷积和金字塔空间池在多个尺度上捕获对象和上下文。此外，低级别的视觉特征已被整合，以补充详细信息[16，29]。2.2. 参考图像的理解与分割参照图像理解的目的是找到一个绑定框，对应于对象所指的前11268I=2图2.自下而上移位和推理网络（BUSNet）。编码器提取多级视觉特征{Vi}5以及来自输入图像和表情的语言特征自下而上的移位（BUS）模块执行可解释的视觉推理- 经由成对关系移位（PRS）和积分操作的高级视觉特征{Vi}5，以及输出{X′}5其中i=4i=4嵌入所指对象的相关信息双向注意细化（BIAR）模块集成了底层视觉特征{Vi}3和高级语义元素{X′}5以细化分割结果。i=2i=4压力。物体的外观信息、空间位置和属性以及物体之间的关系被共同用来帮助区分所指对象和其他物体[38，41，42，46]。与参照图像理解不同，参照图像分割的目标是用精确的模板代替包围盒来定位参照对象。一些方法[19，46]试图通过直接利用指称图像理解模型来预测指称对象的掩码然而，这些方法往往推理速度慢，泛化能力差[31]。主流方法以更直接的一阶段架构解决参考图像分割问题，其中它们对多模态表示进行编码，然后以完全卷积的方式预测逐像素分割掩码[8]。多模态LSTM [18]，动态过滤器[26]，递归细化[15]和文本引导交换[10]被提出来实现多级视觉特征和顺序文本表示的更好融合。最近，一些方法采用注意力机制来增强关键信息[33]或捕获这两种模式之间的依赖关系[9，23，44]。2.3. 关系的可解释视觉推理视觉推理是对视觉场景中的复杂视觉内容进行多步推理的过程，推理是对场景的组成部分及其相互关系的推理。关系网络[32]捕获每对视觉区域之间的成对关系以执行关系推理。一些作品[11，37，43]采用注意力机制来执行多步推理。神经模块网络[2，13，27，7]将组合推理分解为一系列子任务，并在独立模块中解决这些子任务。神经元符号方法[45，24]首先提取符号表示，然后基于符号表示执行符号程序。视觉推理也被用于关系参考图像压缩和分割的最新进展中的建模。DGA [39]通过动态识别一系列复合对象来执行关系推理。NMTree [19]和SGMN [40]通过神经模块执行然而，他们的推理方法是基于显式的对象实例，这是不适用于一阶段参考图像分割。[23]第二十三话[41]提出了对整个图像执行逐步推理以识别实例级语义差异。然而，他们的分组注意推理和关系传播都是内隐的，与我们的相比过于粗糙，不能为推理提供清晰的解释。3. 自下而上的转换和推理图2显示了自下而上转变和反应网络（BUSNet）的总体框架。给定一个输入图像和一个输入表达式，我们首先使用视觉主干和语言编码器re-encoder（在第3.1节中）提取多个级别的视觉特征图和文本表示。对于每个高级视觉特征图，我们将其与文本表示一起馈送到建议的自底向上移位模块（BUS）以识别所BUS模块通过成对关系移位和积分执行逐步推理（见第3.2节）。接下来，为了细化分割结果，提出了双向注意细化，以通过在自上而下和自下而上的路径中传递注意消息来整合多级特征（在第3.3节中）。3.1. 图像和语言编码器图像编码器。在之前的工作[9，44]之后，我们采用DeepLab ResNet 101作为视觉骨干，并从内部提取{Res-2，Res-3，Res-4，Res-5}11269t=1n=1k=1不t ii将图像I作为视觉特征映射{V2，V3，V4，V5}，其中Vi对应于Res-i的特征，i∈{2，3，4，5}。此外，指称表达通常描述参照物的绝对位置，例如“中间的大象”。因此，我们还将视觉特征图的8维空间坐标[8]编码为图像的表示。对于每个视觉特征图Vi，我们将其对应的空间特征图表示为Pi。语言编码器。给定表达式L={l t}T，是指出度为零的有向无圈图。图的节点和有向边分别对应于名词短语和语言关系（例如，介词/动词短语）从宾语到主语。然后，我们收集了这些语言关系，并定义了一组语言关系类型，如“坐”和“坐”。其次，我们将边的语言关系转换为不同的类型。正式来说，最后的登陆--表达式L的规范图G被定义为G=（O，E），我们首先提取GloVe [30]单词嵌入wt，其中O={on}N且E={ek}K是节点单词lt.我曾以《四库全书》为题，用两个词向量代替整个句子向量来表示整个表达。为了利用序列的顺序，我们对单词和有向边。具体来说，每个节点ON与实体相关联（即，名词/名词短语），并且所指节点被表示为oref。每个有向边ek=（e（s）∈O，e（r），e（o）∈O）从e（o）到e（s）可以是k k k k k在表达式中使用位置编码[34]。为被视为包含主题节点e（s）的三元组，每个单词lt，我们将其位置嵌入位置t相加（r）K（o）和词嵌入 wt 以获得位置感知向量，其表示为w′∈RDw×1。为了进一步增强语言表示，我们通过自我注意机制捕获单词之间的依赖关系[35]，词lt的新词表示ht∈RDh×1计算如下：电子邮件关系类型ek和对象节点ek。我们把主题节点为on的边的集合记为En。由于图结构表示的前，压缩，我们可以简化组合推理成一个多步推理的节点和边缘的图。我们定义的推理步骤，通过运行一个反向的广度优先遍历图从其引用节点，并采用遍历顺序的节点的推理顺序的ht=αt，ivi，i=1S.T.α = Softmax（[q T k]T），（一）遍历顺序本质上保证了当我们得到用于推理的节点时，修改该节点的所有其他节点ttii=1其中 qt=Wqw′ ， ki=Wkw′ ， vi=Wvw′ 。 Wq ， Wk ，Wv∈RDh×DW是线性变换矩阵. αt，i表示注意向量αt的第i个元素。考虑到每个高级视觉特征图分别被馈送到自底向上移位模块（3.2节）进行逐步推理，为了演示的简单性，我们忽略了V和P3.2. 自下而上移位自底向上移位（BUS）模块通过对整个视觉特征图进行逐步推理，实现了一步参考图像分割中的在实践中，BUS将视觉成分（即，视觉区域及其关系），其中语言成分明确地遵循分层推理步骤。具体来说，我们首先表示的推理步骤作为一个层次顺序的遍历语言图，这是从表达式解析。然后，我们通过成对关系移位和集成模块对图的边和节点进行逐步推理3.2.1推理步骤定位指称对象的推理步骤由指称表达式表示，指称表达式描述对象如何修饰指称对象并与指称对象相互作用。受[20，40，41]的启发，我们首先将表达式表示为语言图，已经被处理了。节点上的多步推理顺序是从下到上。图2中示例的层次推理是从“膝上型3.2.2逐步推理我们按照提取的推理步骤进行逐步推理（即，语言图上的遍历顺序）。语言图的每个节点对应于图像中的视觉区域，并提出逐步推理，以确定正确的视觉区域的每个节点进行关系推理的边缘。首先，我们获得节点的初始特征图，其编码节点在图像中的初始空间位置。通过融合视觉特征图V∈RH×W×Dv、空间特征图P∈RH×W×8和节点的语言表示，得到初始特征图。我们特别提取节点的语言表示作为该节点的名词短语的词嵌入的均值为每个节点on与语言表示hn，其mul，单峰特征映射Xn∈RH×W×Dx可以计算如下：Xn=Convv（[V;P]）Tile（Wh<$h<$n）（2）其中，n是逐元素乘法，[;]是一个关联运算，Convx和Wh<$∈RDx×Dh是卷积层和可学习矩阵，tanh是主动矩阵。vation函数。平铺意味着将矢量平铺到11270RnRKMMn′′n，e（r）ref生成大小为H×W×Dx的特征图。上述融合过程可以简化为Xn=F（V，P，o n），其中F（·）代表所有融合操作。接下来，我们移动节点通过对节点之间的关系执行逐步推理，即，边缘.我们按照遍历的顺序一步一步地处理节点类似地，我们假设节点on被处理为目前的步骤。ON被连接到它的节点修改，即，边En的对象节点（见3.2.1节）。我们首先通过成对关系移位（PRS）在En中的每条边上单独执行关系推理，然后通过平均池化操作将来自所有连接边En的节点on为了便于演示，我们首先在这里介绍从边进行的集成，稍后在第3.2.3节中介绍有关PRS模块的更多详细信息。对于具有初始特征图Xn和连通边En的节点on，其更新的特征图X′计算如下：相同关系的关系转换在不同节点之间通常保持相似。例如，给定关系“下面”，我们在定位主语时应将注意力集中在物体下面。相应地，我们应该把我们的注意力转移到物体之上，当关系PRS模块的输入包括边缘的类型以及主体节点和对象节点的特征图。 PRS然后通过合并连接这两个节点的边的类型的影响来输出这两个节点的更新表示。给定单个边e=（e（s），e（r），e（o））以及主体和对象节点的特征图Xs和Xo，新特征图Xs←o和Xs→o计算如下：As <$o=γ （ Conv−1 （ Xo ））， Xs <$o=F （ As <$o<$V，P，e（s）），As→o=γ（Convr（Xs）），X s→o=F（As →o→V，P，e（o）），（四）其中Convr和Conv−1是堆叠的卷积层Xn←m，Xn→mΣ =PRS（3）（XK ，Xm），对应于边型e（r）及其逆型γ表示双曲正切激活函数，λ表示像素-Xn=om∈e（o）ek∈EnXn<$m+Xn|+1个|+1（三）明智的乘法，V和P对应于视觉特征图和空间特征图（见第3.1节），以及其中PRS表示PRS模块，PRS（3）表示PRS模块迭代应用三次，ek∈ En表示主题节点为on的有向边，om∈e（o）是边ek的目标结点，X ′是更新的F（·）是融合函数（见3.2.2节）。的使用节点e（s）的注意力图为As<$o∈RH×W，该注意力图是从对象节点的特征图Xo获得的对节点e（s）的新的特征图Xs←o进行融合。注意我们可以迭代地应用相同的PRS模倍数，节点o m处的特征图，以及|En|是边的数量在En. 注意，遍历的顺序保证了通过用新的特征图Xs←o替换输入Xs和Xo节点m的特征已经被更新为X′当我们开始处理节点on时。此外，我们还可以进一步和Xs→o。使用Xn→m更新X ′以细化节点o m处的信息。因此，更新的特征图X’将用于更新上部节点。通过自下而上执行推理，我们最终可以获得最上面节点的更新后的特征图 X′ （即，引用节点（ref），其编码来自其子节点的所有关系信息。推理过程可以通过层次推理顺序和节点处特征图的解码注意力图来明确解释（见4.4节）。3.2.3成对关系转移成对关系移位（PRS）根据语言关系的类型在两个节点之间传递消息，在单个边上执行关系推理。3.3. 双向注意细化在以前的工作中，多层次的功能已经集成，以提高这些工作[44，9]首先对视觉特征图分别进行多层次的重复处理，然后对不同层次的结果进行整合。然而，对多层次特征图的重复更重要的是，不同层次的视觉特征图的特性没有被充分利用。高层特征揭示语义内容，而低层特征提供结构细节。因此，我们应用视觉推理（即，BUS模块）在高级视觉特征图{V4，V5}上获取所指对象tures{X′，X′}，并进一步聚合低级视觉4 5这个边缘。来自一个节点的消息可以帮助另一个节点以细化其对应的可视区域或将该区域与其它类似区域区分开。受预测运算符[14]的启发，我们实现了消息传递特征图{V2，V3}，其中要获取的高级特征图更多视觉细节我们利用自上而下和自下而上的途径，细化多级特征图{V2，V3，V4，X′，X′}4 5设计了一组基于关系的卷积运算，选项。我们分别为每种语言关系学习卷积核的权重，因为逐渐地。高级语义特征提供了在自上而下的路径中，所指对象的语义和空间信息指向较低级别的视觉特征11271我一期+1一123451234我5ii+1ii+1方法类型ValUNC种皮testBVal联系我们种皮testBG-RefVal融合与精炼马绍尔群岛[18]一期44.3344.7444.6329.9130.3729.4334.40[26]第二十六话一期49.7854.3845.1338.8844.2232.2936.76RRN+DCRF [15]一期55.3357.2653.9539.7542.1536.1136.45[44]第四十四话一期58.3260.6155.0943.7647.6037.8939.98步骤[4]一期60.0463.4657.9748.1952.3340.4146.40CMPC+DCRF [10]一期61.3664.5359.6449.5653.4443.2349.05BRINet+DCRF [9]一期61.3563.3759.5748.5752.8742.1248.04LSCM+DCRF [12]一期61.4764.9959.5549.3453.1243.5048.05可解释推理MAttNet [8]两级56.5162.3751.7046.6752.3940.08-NMTree [18]两级56.5963.0252.0647.4053.0141.56-GAN [23]一期59.2562.3753.9446.1651.3738.2446.54我们的BUSNet一期62.5665.6160.3850.9856.1443.5149.98我们的BUSNet+DCRF一期63.2766.4161.3951.7656.8744.1350.56表1.使用总体IoU（%），与最先进的参考图像分割方法在RISK、RISK+和G-Ref数据集上进行比较DCRF表示DenseCRF后处理。而具有图像细节的较低级别特征则被集成到较高级别特征中。因为没有-站一致性，我们将{V2，V3，V4，X′，X′}表示为禁止在+。G-Ref数据集通过亚马逊的Mechanical Turk从MSCOCO收集4 5{G1，G2，G3，G4，G5}。在自上而下的分支中，FEA-tures计算如下：26,711张图片。实施细节。为了与以前的作品进行公平比较[9，23]，我们采用DeepLab ResNet-101Atd=σ（Convc（Conva（Gi）+Convb（Up（Gtd如果i∈{5}，则Convi（Gi）））））在Pascal VOC数据集上进行预训练，作为视觉骨干。输入图像的大小调整为320×320。为语言编码器，我们使用GloVe [30]在Common CrawlGtd=Convi（Gi+Up（Gtd）），如果i∈{4}840B标记作为我们的初始词嵌入，并将Convi（Atd）+Up（Gtd）），如果i∈{1，2，3}（五）引用表达式的最大长度为20。对于语言关系，我们收集了31、30和33种类型的其中，σ（·）表示S形函数，Convs是卷积操作用于特征处理，上是上采样操作，并且下代表逐像素乘法。注意，低层视觉特征包含了整个图像的细节，可能会给参照物带来无关的噪声，因此，我们计算注意力图td∈RHi×Wi来提取参照物的注意细节。然后，将自底向上传递应用于特征{G td，G td，Gtd，G td，G td}以获得双向注意特征{G′，G ′，G′，G′，G′}。自下而上分别为G-Ref、G-Ref+和G-Ref数据集建立关系。词表征的维度和多维度级别视觉特征图被设置为 512 （即， D h= Dw=512）。此外，BUS模块中的特征尺寸设置为512。我们用RAAdam优化器训练网络[21]。初始学习率为2。5e−4，权decay为5e−4。加权二进制交叉熵损失和Dice损失[28]在训练期间应用于所有像素采用Dense- CRF来细化先前工作之后的分割掩模[10，12]。branch与top共享类似的计算过程下一个最后，我们对双向属性特征图进行上采样和求和，以预测分割掩码[44]。4. 实验4.1. 实验装置数据集。为了评估所提出的算法，我们在三个常见的基准数据集上进行了实验，包括G-Ref [47]，G-Ref[47]和G-Ref [25]。具体地说，该数据集有142，209个表达式，涉及19，994个图像中的50，000个对象。此外，Google+数据集包含19，992张图像，其中包含49，856个对象的141，564个表达式。绝对位置描述如下11272整体交叉联合（IoU）和Prec@X度量用于评估参考图像分割模型的性能[9，10]。总IoU是所有测试样本的总交叉面积除以总联合面积。Prec@X是其IoU得分高于给定的预测掩码阈值X，其中X ∈ {0. 五，零。六，零。七，零。八，零。9}。4.2. 与最先进技术的我们将所提出的模型与参考图像分割中的最新方法进行比较，比较结果如表1所示。我们的模型在所有三个基准数据集上的表现一直优于所有最先进的模型（SOTA）。我们的模型提高了整体IoU的平均性能，11273方法prec@0.5prec@0.6prec@0.7prec@0.8prec@0.9整体IoU1基线39.0932.2226.1015.543.2035.252+ 自我注意（Self-attention）44.6538.4231.9218.855.9738.923+位置编码+GloVe =多级45.7840.5933.6420.036.3240.394多级+FPN46.8241.9035.3321.597.0341.155多层+ConvLSTM48.0543.2936.7222.878.2243.086多级+BIAR =细化50.7344.1238.8426.529.5844.137细化+BUS-154.9348.7242.0729.9210.6046.818精炼+Concat-144.3740.1632.4519.836.7539.959细化+BUS-1 w/o类型51.1344.3538.2824.398.8443.8610细化+BUS-357.0952.9547.8437.9214.2149.9711细化+BUS-455.9451.1346.7736.8713.5248.5812细化+BUS-256.8151.2046.7437.9815.2449.98表2.使用prec@X（%）和总体IoU（%）对G-Ref验证集进行消融研究。所有模型都使用相同的视觉骨干DeepLab ResNet-101，并且没有应用任何后处理。现有的最佳性能的方法，分别为1.66%，2.09%，和1.51%，在ESTA，ESTA+和G-Ref数据集与SOTA相比，该方法在可解释性推理方面的性能提高了3.39%-7.45%，证明了该方法在参考图像分割中的有效性。最近，CGAN [23]提出了一个阶段的指称表达式推理，这与我们的设置和动机相同。该模型在RNN、RNN+和G-Ref上分别比CGAN高出5.17%、5.66%和4.02%，表明该模型能更好地为一级参考图像分割提供视觉推理能力。此外，所提出的方法还改进了由两阶段方法实现的总体IoU（即，MAttNet [46]和NMTree [19]）在P2P和P2P+数据集上分别提高了6.47%和3.60%，即使MAttNet和NMTree具有更强大的预训练骨干[12，23]。此外，建议的BUSNet的推理速度约快五倍在相同的硬件上，两阶段方法的性能要好得多。从多模态融合和渐进细化的角度来看，与SOTA相比，我们的模型在所有基准测试中一致地提高请注意，融合和细化模型通常比推理模型具有更高的性能[40，23];然而，它们没有内部推理过程。4.3. 消融研究为了评估语言编码器的有效性，提出的BIAR和BUS模块，我们已经训练了11个广告模型进行比较。结果示于表2中。基线和语言编码器。基线模型（第1行）只是在多个级别上融合视觉特征图、空间特征图和表达的语言表示，并预测分割掩码融合的特征。语言表示通过均值池操作从表达式中的词的词嵌入中进行，并且词嵌入是从头开始学习的。如第2行所示，采用位置编码和自我注意的编码器使基线的整体IoU提高了3.67%，证明了编码方法的有效性此外，采用GloVe的预训练单词嵌入（第3行）将进一步提高整体IoU 1.47%。BIAR的多级细化。我们进行了多层次细化的消融研究，并对不同细化方法的模型进行了评估。如表2的第3行到第6行所示，FPN [17]（第4行），ConvLSTM[36]（第5行）和我们的BIAR（第6行）具有比将多级特征汇总为一个的多级基线（第3行）更好的性能，这表明了多级特征的渐进细化的有效性。我们的BIAR的双向细化方式将图像的关注细节编码为高级语义特征，分别比单向FPN和ConvLSTM高出2.98%和巴士的视觉推理我们进一步装备模型的推理能力，并检查不同的设置总线。结果显示在表2的第6行至第12行中。BUS-1（第7行）模型将BUS模块应用于单个视觉特征图V5，在总体IoU方面，它比没有任何推理模块的推理基线（第6行）高出2.68%性能增益清楚地验证了推理模块用于参考图像分割的有效性。Concat-1（第8行）和BUS-1 w/o Type（第9行）是BUS模块的两种变体。 Concat-1 通过将 BUS 的成对关系移位（PRS）替换为节点的特征映射和边缘的语言特征的简单级联来忽略视觉区域之间的非局部关系，而BUSw/o Type通过在所有边缘类型上学习PRS的共享卷积参数来Concat-1和BUS w/o Type的性能较差，表明节点上传递的错误最后，我们探索多级BUS推理（第10行到第12行）。的BUS-2、BUS-3和BUS-4 模型在视觉特征图{V4，V5}、{V3，V4，V5 }、{ V 3，V4，V5}上执行BUS推理11274图3.定性结果显示推理结构和注意力图的推理步骤。颜色越暖表示得分越高图4.定性结果显示BUS和BIAR模块的效果和{V2，V3，V4，V5}。BUS-2和BUS- 3将BUS-1（第7行）的总体IoU大致提高了3.17%对不同尺度的物体的影响BUS-4没有进一步提高性能，因为它在所有级别上执行BUS时丢失了图像的细节（嵌入在视觉特征中）。4.4. 定性评价我们可视化推理过程和分割掩模，以深入探讨所提出的模型。推理步骤的推理结构和注意力图如图3所示。具体来说，我们喂养在没有视觉推理的情况下，模型将注意力更多地集中在男人的手臂上，通过推理“女人”与其他实体之间的关系，模型找到了所指的“一个除了定位所指对象之外，该模型还可以识别表达式中提到的其他图3（c）和（d）中显示了两个示例。该模型不仅找到了所提到的“为了演示BUS和BIAR模块的效果，我们可视化了使用或不使用它们预测的分割掩码，结果如图4所示。多模态特征图{Xn′}和更新的特征图如果没有BUS模块，同一类别无法精确区分。使用BIAR模块，{Xn}进入解码器的分割生成初始注意力地图和转移注意力地图，活泼地定性评价结果表明，我们的模型可以产生可解释的中间过程逐步分割的所指。在图3（a）中，我们的模型执行从“贴纸”到“香蕉”再到“橙色对象”的自底向上推理首先，它通过关系转移将“香蕉”的初始注意力转移然后，它识别位于所定位的“香蕉“右侧的目标在图3（b）中，我们的模型执行从“白色连衣裙”和“蛋糕”到“女人”的分层推理如首字母所示分割掩模的边界和细节更接近于地面实况。5. 结论在本文中，我们提出了自下而上的移位（BUS）模块之间的指示和对象的同一类别的指示和双向注意细化（BIAR）模块，细化从视觉细节的粗略定位。所提出的方法由 BUS 和 BIAR 组成，不仅优于所有的SOTA，而且在参考图像分割方面比现有的视觉推理模型取得了显着的进步。11275引用[1] Peter Anderson，Xiaodong He，Chris Buehler，DamienTeney，Mark Johnson，Stephen Gould，and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问题回答。在IEEE Conf.目视帕特-特恩·博格。，2018年6月。1[2] Jacob Andreas Marcus Rohrbach Trevor Darrell 和 DanKlein 神经模块网络。在IEEE Conf. Comput. 目视模式识别，第39-48页，2016年。3[3] Stanislaw Antol ， Aishwarya Agrawal ， Jiasen Lu ，Margaret Mitchell，Dhruv Batra，C Lawrence Zitnick，and Devi Parikh.VQA：可视化问答。在国际会议计算中。目视第2425-2433页，2015年。1[4] Ding-Jie Chen ， Songhao Jia ， Yi-Chen Lo ， Hwann-Tzong Chen，and Tyng-Luh Liu.用于参考图像分割的透明文本分组。 In Int. Conf. Comput. 目视，第7454-7463页6[5] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.使用深度卷积网络和全连接crfs的语义图像分割ICLR，2015年。2[6] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络，atrous卷积和全连接crfs进行语义IEEE传输模式分析马赫内特尔，40（4）：834-848，2017. 2[7] Ronghang Hu，Jacob Andreas，Trevor Darrell，and KateSaenko.通过堆栈神经模块网络进行可解释的神经计算。在Eur.确认补偿目视，第53-69页，2018年。3[8] 胡荣航，马库斯·罗尔巴赫，特雷弗·达雷尔。从自然语言表达式中分割。在Eur. Conf.Comput.目视第108-124页。Springer，2016. 一二三四六[9] Zhiwei Hu，Guang Feng，Jiayu Sun，Lihe Zhang，andHuchuan Lu.双向关系推理网络用于参考图像分割。在IEEE Conf. Comput.目视模式识别，第4424一二三五六[10] Shaofei Huang ， Tianrui Hui ， Si Liu ， Guanbin Li ，Yunchao Wei，Jizhong Han，Luoqi Liu，and Bo Li.通过跨模态渐进理解的参考图像分割。在IEEE Conf.目视模式识别，第10488- 10497页，2020年。一、二、三、六[11] 德鲁·A·哈德森和克里斯托弗·D·曼宁。用于机器推理的组合注意力网络。国际会议学习.代表。，2018年。3[12] Tianrui Hui，Si Liu，Shaofei Huang，Guanbin Li，SansiYu，Faxi Zhang，and Jizhong Han.基于语言结构指导的上下文建模在参考图像分割中的应用。在Eur.确认补偿目视，第59-75页。施普林格，2020年。六、七[13] 贾斯汀约翰逊， Bharath 哈里哈兰， LaurensVanDer Maaten ， Judy Hoffman ， Li Fei-Fei ， C LawrenceZitnick，and Ross Girshick. 推理和执行视觉推理程序。在国际会议计算中。目视，第2989-2998页，2017年。3[14] 兰杰·克里希纳，伊内斯·查米，迈克尔·伯恩斯坦，李菲菲.提到关系。在IEEE Conf.目视模式识别，第6867-6876页，2018年。5[15] Ruiyu Li ，Kaican Li ，Yi-Chun Kuo， Michelle Shu，Xiaojuan Qi，Xiaoyong Shen，and Jiaya Jia.参考图像分割通过循环细化网络。在IEEE Conf.目视模式识别，第5745-5753页，2018年。一、二、三、六[16] Guosheng Lin ，Anton Milan，Chunhua Shen，and IanReid. Refinenet：用于高分辨率语义分割的多路径细化网络。第1925-1934页，2017年。2[17] 林宗义、彼得·多尔、罗斯·格希克、何开明、巴拉斯·哈里哈兰和塞尔日·贝隆吉。用于目标检测的特征金字塔网络在IEEE Conf. Comput. 目视模式识别，第2117-2125页，2017年。7[18] Chenxi Liu，Zhe Lin，Xiaohui Shen，Jimei Yang，XinLu，and Alan Yuille.参考图像分割的循环多模态交互。In Int. Conf. Comput. 目视，第1271第三、六条[19] 刘大庆，张汉旺，凤舞，查正军。学习组装用于视觉基础的神经模块树网络在国际会议计算中。目视，第4673-4682页，2019年。一、三、七[20] 刘大庆，张汉旺，查正军，王梦，孙倩茹。联合视觉接地与语言场景图。arXiv预印本arXiv：1906.03561，2019。4[21] Liyuan Liu ， Haoming Jiang ， Pengcheng He ， WeizhuChen，Xiaodong Liu，Jianfeng Gao，and Jiawei Han.关于自适应学习率的变化及其

下载后可阅读完整内容，剩余1页未读，立即下载