基于交叉模态自注意网络的参考图像分割

28 浏览量更新于2023-10-18 收藏 1.1MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10502基于交叉模态自注意网络的参考图像分割叶林伟<$MrigankRochan<$Zhi Liu刘智杨旺<$加拿大曼尼托巴大学中国上海大学{yel3，mrochan，ywang}@ cs.umanitoba.caliuzhi@staff.shu.edu.cn摘要我们考虑参考图像分割的问题。给定输入图像和自然语言表达式，目标是分割图像中语言表达式所指的对象。现有的语言表达和输入图像的表示方法是分开的。他们没有充分捕捉这两个模态之间的长期相关性在本文中，我们提出了一个跨模态自我注意（CMSA）模块，有效地捕捉语言和视觉特征之间的长程依赖关系。我们的模型可以自适应地集中在参考表达式中的信息词和输入图像中的重要区域此外，我们提出了一个门控多层次融合模块，有选择地整合自我关注的跨模态功能，对应于图像中的不同层次。该模块在不同层次上控制特征的信息流我们验证所提出的方法在四个评估数据集。我们提出的方法始终优于现有的最先进的方法。1. 介绍参考图像分割是计算机视觉和自然语言处理交叉领域的一个具有挑战性的问题。给定一个图像和一个自然语言表达式，目标是在图像中产生一个分割掩码，该掩码对应于自然语言表达式所指的实体（见图1）。4为例）。值得注意的是，引用表达式不限于指定对象类别（例如，“人”、“猫”）。它可以采用任何自由形式的语言描述，其中可能包含外观属性（例如，一种流行的方法（例如[10，15，22]）在这方面刘晓智和王扬为通讯作者图1. (Best（以彩色显示）我们的跨通道自我注意机制的图示。它由三个联合操作组成：对语言的自我注意（红色），对图像表征的自我注意（绿色），以及语言和图像之间的跨通道注意语言和空间特征表示的可视化（在底行中）表明，所提出的模型可以专注于语言中的特定关键词和图像中的空间区域，这些区域对于产生精确的参考分割掩模是必要的。使用卷积神经网络（CNN）和递归神经网络（RNN）分别表示图像和指称表达式。然后将所得的图像和语言表示连接以产生最终的逐像素分割结果。这种方法的局限性在于，语言编码模块可能会忽略一些单个单词的一些细微细节，这些细节对于产生准确的分段掩码是重要的。以前的一些作品（例如：[17，20]）专注于以顺序的方式学习多模态交互。视觉10503特征在每一步都顺序地与基于LSTM的语言模型的输出合并，以推断多模态表示。然而，多模态交互只考虑语言和视觉信息各自在其本地上下文。它可能无法充分捕获语义理解和分割所必需的全局交互信息在本文中，我们解决了上述方法的局限性。我们提出了一个跨模态自我注意（CMSA）模块，以有效地学习远程依赖，从多模态功能，代表视觉和语言信息。我们的模型可以自适应地集中在图像中的重要区域和语言描述中的信息关键字图1示出了说明跨模态自我注意模块的示例，其中呈现了语言中的单词与图像中的区域之间的相关性此外，我们提出了一个门控多层次融合模块，以进一步细化分割掩模的参考实体。门控融合模块被设计为选择性地利用多层次自我关注特征。总之，本文做出了以下贡献：（1）参考图像分割的跨模态自注意方法。我们的模型有效地捕捉了语言和视觉环境之间的长期依赖关系。因此，它产生了一个强大的多模态特征表示的任务。 (2)门控多级融合模块，选择性地集成多级自关注特征，有效地捕捉精细细节，以获得精确的分割掩模。(3)四个基准数据集上的广泛的实证研究表明，我们提出的方法相比，国家的最先进的方法实现了优越的性能。2. 相关工作在本节中，我们回顾了与我们在以下领域的工作相关的几条研究路线语义分割：近年来语义分割取得了很大的进展。全卷积网络（FCN）[18]利用全卷积层在端到端中训练分段模型。用卷积层代替CNN中的全连接层。为了缓解下采样问题并扩大语义上下文，DeepLab [3]采用扩张卷积来扩大感受野，并使用atrous空间金字塔池进行多尺度分割。改进的金字塔池化模块[30]进一步增强了多尺度结构的使用探索较低级别的特征，以提供更详细的信息来补充高级特征，从而生成更准确的分割掩码[1，18，21]。参考图像定位和分割：在参考图像定位中，目标是根据参考图像的描述定位图像中的特定对象。环表达式。它已经在自然语言对象检索[11]和建模关系[9，28]中进行了探索。为了获得更精确的结果，参考图像分割提出了产生一个分割掩模，而不是一个包围盒。这个问题在[10]中首次引入，其中CNN和LSTM分别用于提取视觉和语言特征。然后将它们连接在一起用于空间掩模预测。为了更好地实现单词到图像的交互，[17]直接将视觉特征与语言LSTM中的每个单词特征相结合，以循环地优化分割结果。每个单词的动态过滤器进一步增强了这种相互作用。在[22]中，将单词注意力并入图像区域中以对关键词感知上下文进行在[15]中，低级视觉特征也被用于此任务，其中卷积LSTM（ConvLSTM）[25]逐渐从高级到低级特征依次细化分割掩码。在本文中，我们提出了自适应地整合多层次的自我关注功能的门控融合模块。注意力：注意力机制已被证明是深度学习模型中的一种强大技术，并已广泛用于自然语言处理中的各种任务[2，23]，以捕获上下文的关键字在多-在单峰任务中，单词注意力已经被用于重新加权图像区域的重要性，以用于图像标题生成[26]、图像问题回答[27]和引用图像分割[22]。此外，注意力还用于建模主体，关系和客体[9]以及参考关系理解[28]。在[5]中，分别计算查询、图像和对象的不同注意力，然后循环累积以用于视觉接地自我注意力[23]被提出来关注一个词到所有其他词，以学习输入序列中的关系。它显著地提高了机器翻译的性能。这种技术也被引入视频中，以捕获跨时间帧的长期依赖性[24]。与这些工作不同的是，我们提出了一个跨通道的自我注意模块，视野3. 我们的模型我们的模型的整体架构如图所示二、给定一个图像和一个引用表达式作为查询，我们首先使用CNN从输入图像中提取不同层次的视觉特征图。指称表达式中的每个词被表示为词嵌入的向量。然后将每个词向量附加到视觉特征图以产生多模态特征图。因此，在指称表达中，每个词都有一个多模态特征图。然后，我们引入自我注意[23]机制，将不同单词的特征图组合成跨模态自我注意特征图。自我关注的特征10504多模态特征跨模态自注意门控多层次融合DeepLabRes3Res4转换Res5空间坐标单词嵌入栅极⊕栅极栅极⊕⊕⊕CMSACMSAconcatconcatconcat穿黄衬衫的男人图2.我们的方法概述。该模型由三个组成部分，包括多模态特征，跨模态自我注意（CMSA）和门控多级融合。多模态特征由每个词的图像特征、空间坐标特征和语言特征构成。然后，在每个级别的多模块功能馈给一个跨模态的自我注意模块，以建立跨单个单词和空间区域的长程依赖关系。最后，门控多级融合模块结合来自不同级别的特征以产生最终的分割掩模。映射捕获输入的语言和视觉信息的丰富信息和长范围最后，来自多个级别的自关注特征通过选通机制组合以产生用于生成分割输出的最终特征。我们的模型是由几个观察的动机。首先，为了解决参考图像分割，我们通常需要某些单个单词的详细信息（例如，例如“左”、“右”的词）。以前的作品（例如[10，15，22]）将单词向量作为输入，并使用LSTM生成整个引用表达式的向量表示然后，将整个参考表达式的矢量表示与参考图像分割的视觉特征相结合这种技术的潜在局限性在于，LSTM生成的向量表示捕捉了整个指称表达式的含义，同时丢失了指称图像分割任务所需的某些单个单词的足够详细的信息。我们的模型解决了这个问题，并且不使用LSTM来编码整个引用表达式。因此，它可以更好地捕获更详细的单词级信息。其次，一些以前的作品（例如：[17，20]）处理指称表达中的每个词，并将其与视觉特征连接，以使用递归网络按顺序推断所指称的对象。其局限性在于这些方法只考虑局部空间区域，缺乏全局背景下的长距离空间区域间的交互，而这对于语义理解和分割是必不可少的。相比之下，我们的模型使用了一个跨模态的自我注意模块，可以有效地模拟语言和视觉模态之间的最后，与[15]采用ConvLSTM依次用多尺度视觉特征细化分割不同，所提出的方法采用了一种新的门控融合模块来组合多级自关注特征。3.1. 多模态特征我们模型的输入由图像I和具有N个单词wn，n21，2，...的引用表达式组成，N.我们首先使用主干CNN网络从输入图像中提取视觉特征从特定CNN层提取的特征图表示为V2RH<$W<$Cv，其中H、W和Cv分别是高度、宽度和特征通道的维度为了便于演示，我们只使用从一个特定的CNN层提取的特征。在第3.3中，我们提出了一种扩展方法，该方法使用来自多个CNN层的特征。对于含有N个词的语言描述，我们将每个词wn编码为一个独热向量，并通过一个查找表将其投影到一个表示为en2RCl的紧凑词嵌入中与以前的方法[10，15，22]不同，这些方法应用LSTM顺序处理单词向量并将整个语言描述编码为句子向量，我们保留了单个单词向量并引入了一个跨模态自注意模块来捕获这些单词和图像中的空间区域之间的长距离映射。更多细节将在第二节中介绍3.2.除了视觉特征和词向量之外，空间坐标特征也被证明对于参考图像分割是有用的[10，15，17]。在先前的工作之后，我们使用[17]中的实现在每个空间位置处定义8-D空间坐标特征。特征图的第一个3维对归一化的水平位置进行编码。接下来的3维编码正常化的垂直位置。最后的2维编码图像的归一化宽度和高度信息。最后，我们构建了一个联合的多模态特征表示在每个空间位置的每个词，通过concate-nation的视觉特征，词向量，和空间坐标特征。令p是特征图V中的空间位置，即 p2 {1 ，2 ，… H W}。我们用vp2RCv表示10505查询语言softmax关键线性⊗值⊕人平均池化线性线性BBbb bbBBp0nPN||VP||2||en||2pvbpn=✓◆P（Wvbvbpn+fpn）B空间位置处的视觉特征向量的p. 位置p的空间坐标特征表示为sp2R8。因此，我们可以将对应于位置p和第n个单词的多模态特征fpnf= Concatvp、 en ，s（1）哪里||·||2表示向量的L2范数，Concat（·）表示多个输入向量的级联。特征向量fpn编码关于组合的信息，其中p，n，p0，n0是考虑了（p，n）与空间位置和word（p0，n0）的任何其它组合之间的相关性的注意力分数。然后将vpn变换回与fpn通过线性层，并与fpn逐元素相加以形成残余连接。这允许插入将此模块接入主干网络，而不会中断他的行为[7]。最终的特征表示是指涉表达式中所有单词的平均池。这些操作可概括为：图像中特定位置p的第n个单词wn，其总维数为（Cv+Cl+ 8）。我们使用F={fpn：8p，8n}来表示不同空间位置的特征fpn的集合，fp=avg-pooln（Wvbvpn+fpn）=（C+C+8）512Nn=1N（四）C+C+8话F的维数是N<$H<$W<$（Cv+Cl+ 8）。3.2. 跨模态自我注意多模态特征F很大，可能包含大量冗余信息。此外，F的大小取决于语言描述中的单词的数量而可变。很难直接利用F 以产生分割输出。近年来，注意力机制[9，22，23，26，28]已被证明是是一种强大的技术，可以从语言或视觉表示的原始特征中捕获重要信息。与上述工作不同的是，我们提出了一个跨模态的自我注意模块，以联合利用多模态特征上的特别是，受自我注意力成功的启发[23，24]，所设计的跨模态自我注意力模块可以捕获指涉表达式中的单词与输入图像中的不同空间位置之间的长程依赖关系。该模块将F作为输入，并在学习语言表达与视觉上下文之间的相关性后产生一个对F求和的特征图。注意，该输出特征图的大小不取决于语言描述中存在的单词的数量。给定多模态特征向量fpn，跨模态自注意模块首先在每个空间位置p和第n个词处通过线性变换产生一组查询、键和值对，如 qpn=Wqfpn ， kpn=Wkfpn 和vpn=Wvfpn，其中{Wq，Wk，Wv}是学习模型参数。在我们的实现中，每个查询、键和值都从多模态特征的高维减少到512维即Wq，Wk，Wv2R512 <$（Cv+Cl+8），用于计算ef-效率我们如下计算跨模态自注意力特征vpnX X均p0n0的其中W vb2R vl和fp2RvL.我们使用F={fp：8p}表示所有空间位置处的f p的集合，即F2RH图3说明了生成跨模态自我关注的特点。在黄色衬衫图3.从图像和语言表达（“穿黄色衬衫的人”）生成跨模态自我关注（CMSA）特征的过程的图示。我们使用矩阵乘法和元素求和分别表示矩阵乘法和元素求和，活泼地对每行执行softmax操作，这指示多模态特征中的每个视觉和语言单元的注意力我们将内部语言和空间表征可视化。请参阅Sec。第4.2节和第4.4更多详情3.3. 门控多级融合从Eq. 4专用于CNN中的特定层。以前的工作[15]已经表明，融合多尺度的特征可以提高参考图像分割的性能。在本节中，我们将介绍一种新的门控融合技术来整合多层次特征。设Fd（i）为跨模态自注意特征映射在第i层。在[15]之后，我们使用基于ResNetDeepLab-101作为骨干CNN并考虑功能ap，n，p0，n0=Softmax（qT0kpn）（3）对应于ResNet的三个级别（i= 1，2，3ap，n，p0，n0vp0n0，其中（2）10506pDDXOO.XΩX区块Res3、Res4和Res5。设C vi为网络第i层的视觉特征图的通道尺寸。我们使用Fd（i）={bf（i）：8p}来表示集合（一）4. 实验在本节中，我们首先介绍第二节中的数据集和4.1.然后我们给出了主要结果跨模态自我注意ive特征bfp2RCvi+Cl+8 为并与其他国家的最先进的，对应于第i级的不同空间位置我们的目标是融合特征图F（i）（i=1，2，3）以产生用于产生最终分割输出的融合特征图。注意，特征图F（i）在不同级别i处具有不同的通道维度。在每个级别，我们应用11卷积层，以使不同级别的信道维度一致，并产生输出X（i）。对于第i级，我们分别生成存储门mi和复位门ri（ri，mi2RHi<$Wi）这些门的作用类似于LSTM中的门与逐阶段存储器更新[4，8]不同，每个级别的门的计算与其他级别解耦每个级别的门控制每个级别的视觉特征对最终融合特征的贡献程度。每个级别还具有上下文控制器Gi，其调制从其他级别到第i级别的信息流该过程可以概括为：秒四点二。最后，我们进行了详细的消融分析，以证明我们提出的方法中的每个组件的相对贡献。四点三。我们还提供可视化和失败案例，以帮助您深入了解我们的模型。4.44.1. 数据集和设置实现细节：在以前的工作[15，17，22]之后，我们保持查询表达式的最大长度为20，并将每个单词嵌入到Cl= 1000维的向量给定一个输入图像，我们将其大小调整为320×320，并使用DeepLab-101 ResNet块Res3，Res4，Res5的输出作为多模态特征的输入X（i）中用于门控融合的尺寸固定为500。网络的初始学习率为2。5e-4和重量5e-4衰变。学习率逐渐下降使用幂为0的多项式策略。9 .第九条。公平通过比较，最终分割结果通过以下方式进行细化：Gi=（1-mi）<$Xi+j2{1， 2， 3}\{i}γjmj<$Xj（五）DenseCRF [14].数据集：我们对四个参考图像分割数据集进行了广泛的实验：[29]，Fi=ritanh（Gi）+（1-ri）<$Xi，8i2 {1，2，3}其中，Δ表示Hadamard乘积。γj是一个可学习的参数，用于调整存储门的相对比率，该存储门控制来自不同级别j的特征组合到当前级别i的信息流。为了获得分割掩码，我们从三个级别聚合特征图Fi，并应用3 ×3卷积层，然后是sigmoid函数。该操作序列输出指示每个像素是分割掩模中的前景的可能性的概率图（P），即：[19][12 ][13][14][15]UNC数据集包含19，994张图像，其中包含50，000个对象的142，209个引用表达式。所有的图像和表情都是从MS COCO [16]数据集中收集的，与两个玩家的游戏交互[12]。同一对象类别的两个或多个对象出现在每个图像中。UNC+数据集类似于UNC数据集。但有一个限制，即在指称表达中不允许有位置词。在这种情况下，关于被引用对象的表达完全取决于外观和场景上下文。它由19，992张图像中的49，856个对象的141，564个表达式组成P=σ.C3-33i=1I！！O（六）还基于MS COCO收集G-Ref数据集它包含104，560个表达式，涉及26，711个图像中的54，822个对象。此数据集的注释来自Amazon Mechanical Turk，而不是两个玩家其中σ（·）和C3 <$3表示sigmoid和3<$3convo。操作，分别。二进制交叉熵损失函数在预测输出和真实分割掩码Y上定义如下：ΩL= 1（Y（m）logP（m）+（1-Y（m））log（1-P（m）m=1（七）其中m是图像中的整个像素集合，并且m是其中的第m个像素。我们使用Adam算法[13]来优化等式中的损失。7 .第一次会议。游戏. 表达式的平均长度为8.4个单词，比其他数据集（小于4个单词）更长。ReferIt数据集建立在IAPR TC-12 [6]数据集的基础上。它有130，525个表达式，涉及19，894幅自然图像中的96，654个不同的对象掩码。除了对象之外，它还包含诸如水、天空和地面之类的东西类的注释评价指标：根据以前的工作[15，17，22]，我们使用交集（IoU）和prec@X作为评估指标。IoU度量是预测的分割掩码的交叉和联合之间的比率，并且F10507ValUNC种皮testBValUNC+种皮testBG-RefVal参考测试LSTM-CNN [10]------28.1448.03马绍尔群岛[17]45.1845.6945.5729.8630.4829.5034.5258.73[20]第二十话49.7854.8345.1338.8844.2232.2936.7652.81KWA [22]------36.9259.09RRN [15]55.3357.2653.9339.7542.1536.1136.4563.63我们58.3260.6155.0943.7647.6037.8939.9863.80表1.在四个评估数据集上，就IoU而言，将分割性能与最先进的方法进行比较方法IOU没有注意45.63词语注意力47.01像素关注47.84字像素对注意47.57跨通道自我注意50.12表2.不同注意方法对双值集上多模态特征的消融研究。地面真相prec@X度量具有高于阈值X的IoU分数的测试图像的百分比，其中X2 {0. 5，0。6，0。七比零。八比零。9}在实验中。4.2. 实验评价定量结果：表1给出了我们的方法与现有最先进方法的比较。我们提出的方法在所有四个数据集上都优于所有其他方法。这种改进在更具挑战性的数据集上尤其重要，例如没有位置词的G-Ref+和包含更长和更丰富查询表达式的G-Ref这证明了捕获跨模态特征的长范围依赖关系以及捕获基于我们模型的表达式的引用对象的优势。定性结果：图4显示了我们的网络生成的一些定性示例。更好地了解多层次的自我注意的特点的好处，我们可视化的语言表示，显示在不同的水平上的注意力分布。对于给定的水平，我们得到注意力分数{ap ，n，p0，n0 ：8p，8n，8p0，8n0}，3并在维度p，p0和n0上求平均。因此，我们可以得到一个长度为N我们对所有三个层次重复这个操作，最终得到一个3N的矩阵。这矩阵如图所示4（第二列）。我们可以看到，注意力分布在对应于特定特征水平的词上是不同的。更高级别的特征（例如l3）倾向于关注指代对象的单词（例如“suit-case”，“vase”）。较低级别的特征（例如l1，l2）倾向于关注指属性的词（例如，“黑”）或关系（例如“底部”、“第二”）。4.3. 消融研究我们在UNC数据集上进行额外的消融实验，以进一步调查我们提出的模型的每个组件的相对贡献。注意方法：我们首先对多模态特征的不同注意方法进行实验。我们交替地使用无注意力、单词注意力、像素注意力和单词-像素对注意力，通过将等式中的各个分量归零。二、如表2所示，所提出的跨模态自我注意力显著优于所有其他注意力方法。这表明，在我们的跨模态自我注意方法中，语言与视觉的相关性可以更好地一起学习。多模态特征表示：该实验评估了多模态特征表示的有效性。类似于基线，即[17]中的多模态LSTM交互和[15]中的卷积集成，我们直接采用网络的Res5的输出来测试多模态特征表示的性能，而无需多级融合。我们使用CMSA-W来表示在Sec. 3.2.此外，一种变体方法CMSA-S也使用相同的跨模态自注意特征，而是通过LSTM将整个句子编码为一个单一的语言向量。如表3（顶部4行）所示，所提出的基于跨模态自注意特征的方法实现了比其他基线显著更好的性能。此外，对于多模态特征表示，基于词的方法CMSA-W优于基于句子的方法CMSA-S多层次特征融合：本实验验证了所提出的门控多层次融合模块的相对贡献。在这里，我们使用我们的跨模态自我关注特征作为输入，并与几种众所周知的特征融合技术进行比较，例如语义分割中的Deconv [21]和PPM [30]以及参考图像分割中的ConvLSTM [15]为了清楚地了解我们的融合方法的好处，我们还开发了另一种自门控方法，该方法使用相同的门生成方法。3.3生成存储门并直接与自身特性10508方法prec@0.5prec@0.6prec@0.7prec@0.8prec@0.9IOURMI-LSTM [17]42.9933.2422.7512.112.2345.18RRN-CNN [15]47.5938.7626.5314.793.1746.95CMSA-S51.1941.3129.5714.992.6148.53CMSA-W51.9543.1132.7419.284.1150.12CMSA+PPM58.2549.8239.0924.765.7353.54CMSA+解卷积58.2949.9439.1625.426.7554.18CMSA+ConvLSTM64.7356.0345.2329.157.8656.56CMSA+门控65.1757.2547.3733.319.6657.08CMSA+GF（我们的）66.4459.7050.7735.5210.9658.32表3. UNC瓣膜套件的消融研究。前四种方法比较了多模态特征表示的不同方法的结果。底部的五个结果示出了多级特征融合方法的比较CMSA和GF表示所提出的跨模态自注意和门控多级融合模块。所有方法都使用相同的基础模型（DeepLab-101）和DenseCRF进行后处理。*[15]的数字略高于他们的论文中报告的原始数字，该论文没有使用DenseCRF后处理。查询：标签：查询：(a)（b）（c）（d）（e）图4. 参考图像分割的定性示例：（a）原始图像;（b）语言表示的可视化（在三个特征级别中的每一个上对单词的注意）;（c）仅使用第三级（即，第三级）的特征的分割结果。（d）使用多级特征的分割结果;（e）地面实况。而不与来自其它级别的特征交互如表3中底部5行所示，所提出的门控多级融合优于这些其他多尺度特征融合方法。4.4. 可视化和故障案例可视化：我们对给定图像的各种查询表达式进行空间特征表示的可视化。这有助于进一步了解学习的模型。我们采用[15]中相同的技术来生成空间位置上的可视化热图它是通过对最后一个特征的最强激活通道进行归一化而创建的map，其被上采样以与原始输入图像的大小相匹配。这些生成的热图如图所示。五、可以观察到，我们的模型能够正确地响应具有不同类别、位置和关系的不同查询表达式。例如，在第二行中，当查询是“woman”和“umbrella”时类似地，当查询是“red”时对于更具体的失败案例：我们还将一些有趣的失败10509“chair” “bottom left沙发在左边“woman”绿色外套“pot”图5. (Best以彩色显示）空间特征表示的可视化。这些空间热图显示了网络对不同查询表达式的响应。别名：曲名：查询：查询：(a)(b)（c）第（1）款图6.我们的模型的一些失败的例子：（a）原始图像;(c)分割结果;（c）地面实况。失败是由于诸如语言歧义（第1和第2行）、相似对象外观（第3行）和遮挡（第4行）等因素。图中的案例六、这些失败是由语言的歧义引起的（例如第一个例子中右边的两个男孩和第二个例子中的脚），相似的物体外观（例如，在第三个例子中是汽车对驾驶室）和遮挡（在第四个例子中是摩托车的车轮）。其中一些故障情况可以通过应用对象检测器来修复5. 结论我们提出了跨模态自注意和门控多层次融合模块，以解决两个关键的挑战，在参考图像分割任务。我们的跨模态自我注意模块捕获视觉和语言模态之间的长距离依赖性，这导致更好的特征表示，以专注于所指实体的重要信息。此外，所提出的门控多层次融合模块自适应地集成功能，从不同的水平，通过学习门为每个individual水平。该网络在所有四个基准数据集上都取得了鸣谢：LY、MR和YW由NSERC提供支持。国家自然科学基金项目：61771301. LY和MR也得到了曼尼托巴大学GETS和UMGF项目的支持。感谢NVIDIA提供本工作中使用的部分GPU。10510引用[1] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegnet：用于图像分割的深度卷积编码器-解码器架构。IEEE Transactions on Pattern Anal-ysis and MachineIntelligence，2017。2[2] Dzmitry Bahdanau，Kyunhyun Cho，Yoshua Bengio.通过联合学习对齐和翻译的神经机器翻译。在2015年国际学习代表会议上。2[3] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence，2018。2[4] KyunghyunCho，BartVanMerrieenboer，CaglarGulcehre ， Dzmitry Bahdanau ， Fethi Bougares ，Holger Schwenk，and Yoshua Bengio.使用rnn编码器-解码器学习短语表示用于统计机器翻译。在自然语言处理中的经验方法会议上，2014。5[5] Chaorui Deng，Qi Wu，Qingyao Wu，Fuyuan Hu，FanLyu，and Mingkui Tan.通过累积注意力的视觉基础。在IEEE计算机视觉和模式识别会议上，2018。2[6] HugoJairEscalante，CarlosAHerna`ndez，JesusAGonzalez，AurelioLo`pez-Lo`pez，ManuelMontes ， EduardoFMorales ， LEnriqueSuca r ，LuisVillas en`or，andMichaelGrubinge r. 分段和注释的iaprtc-12基准。计算机视觉和图像理解，2010年。5[7] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议上，2016年。4[8] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经计算，1997年。二、五[9] Ronghang Hu ， Marcus Rohrbach ， Jacob Andreas ，Trevor Darrell，and Kate Saenko.使用组合模块网络对指称表达式中的关系进行建模。在IEEE计算机视觉和模式识别会议上，2017年。二、四[10] 胡荣航马库斯·罗尔巴赫和特雷弗·达雷尔。从自然语言表达中分割。2016年欧洲计算机视觉会议。一、二、三、六[11] Ronghang Hu ， Huazhe Xu ， Marcus Rohrbach ， JiashiFeng，Kate Saenko，and Trevor Darrell.自然语言对象检索。在IEEE计算机视觉和模式识别会议上，2016年。2[12] Sahar Kazemzadeh ， Vicente Ordonez ， Mark Matten ，and Tamara Berg.推荐游戏：在自然景物的照相照片中提到物体的。2014年自然语言处理经验方法会议。5[13] Diederik P Kingma和Jimmy Ba。 Adam：随机最佳化的方法。在学习代表国际会议，2014。5[14] Phi l ippKr？henb？hl和VladlenKoltun。具有高斯边势的全连通crfs的有效推理神经信息处理系统的进展，2011年。5[15] Ruiyu Li ，Kaican Li ，Yi-Chun Kuo， Michelle Shu，Xiaojuan Qi，Xiaoyong Shen，and Jiaya Jia.参考图像分割通过循环细化网络。在IEEE Confer-ence on ComputerVision and Pattern Recognition，2018。一、二、三、四、五、六、七[16] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。2014年欧洲计算机视觉会议。5[17] Chenxi Liu，Zhe Lin，Xiaohui Shen，Jimei Yang，XinLu，and Alan L Yuille.用于参考图像分割的递归多模态交互IEEEInternational Conference on Computer Vision，2017。一、二、三、五、六、七[18] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。IEEE计算机视觉和模式识别会议，2015。2[19] Junhua Mao，Jonathan Huang，Alexander Toshev，OanaCamburu，Alan L Yuille，and Kevin Murphy.无歧义对象描述的生成和理解。在IEEE计算机视觉和模式识别会议上，2016。5[20] 埃德·加尔·A·马·格·弗·图阿·伊、胡安·C·佩雷斯、埃米利奥·博特·罗和巴勃罗·阿贝尔·阿·埃兹。由自然语言查询引导的动态多模态实例分割2018年欧洲计算机视觉会议。一、二、三、六[21] Hyeonwoo Noh Seunghoon Hong和Bohyung Han。用于语义分割的学习反卷积网络。IEEE国际计算机视觉会议，2015。二、六[22] Hengcan Shi，Hongliang Li，Fanman Meng，and QingboWu.关键词感知网络用于参考表情图像分割。2018年欧洲计算机视觉会议。一、二、三、四、五、六[23] Ashish Vaswani， Noam Shazeer ， Niki Parmar ， JakobUszko-reit ， Llion Jones ， Aidan N Gomez ， ukaszKaiser，and Illia Polosukhin.注意力是你所需要的在神经信息处理系统的进展，2017年。二、四[24] 王晓龙，Ross Girshick，Abhinav Gupta，和Kaiming He.非局部神经网络。在IEEE计算机视觉和模式识别会议上，2018。二、四[25] SHI Xianjian，Zhourong Chen，Hao Wang，Dit-Yan Ye-ung，Wai-Kin Wong，and Wang-chun Woo.卷积lstm网络：降水临近预报的机器学习方法神经信息处理系统进展，2015。2[26] Kelvin Xu、Jimmy Ba、Ryan Kiros、Kyunghyun Cho、Aaron Courville 、 Ruslan Salakhudinov 、 Rich Zemel 和Yoshua Bengio。显示、出席和讲述：具有视觉注意的神经图像字幕生成。在2015年机器学习国际会议二、四[27] Zichao Yang，Xiaodong He，Jianfeng Gao，Li Deng，and Alex Smola.用于图像问答的堆叠注意力网络。2016年在IEEE计算机视觉和模式识别会议上发表。2[28] Licheng Yu，Zhe Lin，Xiaohui Shen，Jimei Yang，XinLu，Mohit Bansal，and Tamara L Berg. Mattnet：指涉表达理解的模块化注意网络。在10511IEEE计算机视觉和模式识别会议，2018年。二、四[29] Licheng Yu，Patrick Poirson，Shan Yang，Alexander CBerg，and Tamara L Berg.参照表达式中的建模上下文。2016年欧洲计算机视觉会议。5[30] Hengshuang Zhao ， Jianping Shi ， Xiaojuan Qi ，Xiaogang Wang，and Jiaya Jia.金字塔场景解析网络。在IEEE计算机视觉和模式识别会议上，2017年。二、六

下载后可阅读完整内容，剩余1页未读，立即下载