基于双向关系推理网络的参考图像分割

186 浏览量更新于2023-10-25 收藏 2.42MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

4424基于双向关系推理网络的参考图像分割胡志伟1 <$，冯光1 <$，孙佳宇1，张立和1，胡川路1，21大连理工大学2程鹏实验室hzw950822@mail.dlut.edu.cn，{fengguang.gg，jiayusun666}@ gmail.com{zhanglihe，lhchuan}@ dlut.edu.cn摘要大多数现有的方法没有明确制定视觉和语言之间的相互指导在这项工作中，我们提出了一个双向的关系推断网络（BRINet）的跨模态信息的依赖关系建模。具体地说，视觉引导的语言注意被用来学习对应于每个视觉区域的自适应语言上下文。结合语言引导的视觉注意，建立了一个双向跨通道注意模块（BCAM）来学习多通道特征之间的关系。这样，目标对象和指称表达的最终语义语境就可以被准确一致地设计了一个在四个基准数据集上的实验表明，在不同的评价指标下，该方法的性能优于其他最1. 介绍参考图像分割是近年来出现它有助于理解语言和视觉之间的与传统的语义分割的简单性不同，它需要对图像有更深层次为了分割出与指称表情最匹配的区域，指称图像分割需要考虑表情中包含的外观属性、动作、空间关系以及其他一些线索例如，如果表达式是†同等贡献‡通讯作者引用表达式：像素自适应语言表示语言学特征视觉引导的语言注意左边的熊视觉引导的视觉注意输入图像视觉特征参考视觉表示图1：双向关系推断网络。蓝色虚线表示每个单词之间的关系模型绿色实线代表语言与视觉的双向给定一个指称表达式和一个查询图像，双向跨模态注意模块构建语言信息和视觉信息之间的跨模态关系，使网络更加关注指称表达式所指向的目标对象。句子的语义近年来，卷积神经网络（CNN）和递归神经网络（RNN）的迅速发展参考图像分割最常用的方法是分别用CNN和RN-N提取视觉特征和语言特征。然后融合这些特征以生成最终的逐像素分割掩模。一些方法[14，23，20，28]直接连接这两种特征，然后根据网络本身推断目标对象。由于神经网络强大的学习能力，这些方法确实取得了一定的效果.然而，他们隐含地假设每个词对每个视觉区域的贡献相等，而没有考虑语言特征和视觉特征之间的相互作用，这往往导致一些不准确的目标定位。后来的一些研究要么以完全连接的方式粗暴地建模视觉词混合特征之间的关系[38]，要么只单向地利用语言注意力来构建跨模态关系。4425[31，3]。它们都没有明确地刻画视觉特征和语言特征之间的相互引导，从而削弱了特征空间中语言区域和视觉区域的语境一致性。为此，我们提出了一种双向关系推理网络（BRINet），在语言和视觉的共同指导下有效地捕捉多模态特征的依赖关系。首先，我们构建了一个视觉引导的语言注意模块（VLAM）来学习每个视觉区域的自适应语言上下文。第二，语言引导的视觉注意模块（LVAM）利用学习的语言上下文来指导视觉特征的任何两个位置之间的空间依赖性的学习如图1.通过不同模态之间的相互学习，该模型丰富了目标区域的上下文表示。因此，在参照表达的帮助下，目标区域可以被更一致地突出这显然使我们能够考虑视觉区域和单词之间更复杂和非顺序的依赖关系。最后，设计了一个门控双向融合模块（GBFM），引导网络有选择地进行自顶向下和自底向上的多层次信息聚合我们的主要贡献如下：• 我们提出了一种新的双向跨模态注意模块（BCAM），它使用视觉和语言指导来捕获多模态特征。从而更好地实现语言与视觉区域的兼容。• 我们引入了一个门控双向融合模块（G-BFM）作为助手，以灵活地结合多层次的跨模态特征，这有助于网络进一步细化分割结果。• BCAM和GBFM集成到BRINet中在四个大规模数据集上的实验表明，该方法的性能优于其他方法。在不同的指标上采用最先进的方法。2. 相关工作2.1. 语义分割近年来，语义分割取得了显著的大多数最先进的方法使用全卷积网络（FCN）[24]的结构来以端到端的方式生成逐像素预测。其次，提出了许多基于FCN的工作来减轻由连续下采样引起的细节损失，并增强多尺度上下文聚合。PSPNet [42]利用金字塔池模块来收集一些不同的基于区域的多尺度上下文。Deeplab-v2 [4]和Deeplabv 3 [5]采用了无网格空间金字塔池化以扩大感受野并嵌入多尺度上下文信息。一些作品[29，1，8]研究了编码器-解码器结构，并利用低级特征来补充详细信息，以实现更准确的预测。Ding等人。[8]聚合上下文对比特征以关注本地信息。Li等人。[21]使用互连的LSTM链以双向和循环的方式组合多尺度特征映射和上下文DANet [11]分别采用位置和通道注意来学习空间和通道的我们的方法还考虑了不同类型和多尺度特征的上下文组合，以完全分割目标区域。2.2. 指称定位和分割参考图像定位的目标是基于自然语言表达定位对象。在[27，15，26]中，他们提出了一个模型，以最大化目标对象和给定表达式之间的匹配得分。最近的一些方法[39，33，37]试图将表达式分解为不同的组件，并使用这些组件来建模对象之间的关系。参考图像分割的目的是通过语言表达式的描述，为图像区域生成一个精确的分割模板，而不是一个边界框。该任务首次在[14]中提出，它直接连接视觉和语言特征以生成最终掩码。在[23]中，利用双层LSTM网络以顺序方式分别推断每个视觉区域的平铺多模态特征。RRNet [20]调整卷积LST-M [36]以逐渐融合金字塔特征。DMNet [28]以循环的方式连接特定于单词的多模态特征。所有上述提到的分割方法都遵循然而，语言和视觉信息之间的关系并没有明确的模型。之后，KWANet [31]提取关键词来抑制指代表达中的噪声并突出目标对象。CSANet [38]设计了一个自我注意机制来模拟每个单词的视觉注意。而STEP [3]考虑图像到单词的注意力来计算每个单词和每个视觉区域之间的相关性，并且还使用所得到的热图来重新引导目标分割。然而，这些方法只能实现不同模态之间的单向关系建模。在这项工作中，我们已经建立了一个双向的指导机制之间的语言和视觉特征，使他们能够更好地适应对方。2.3. 注意机制注意机制广泛应用于许多任务[32，35，25，33，43，2，30，34，41]。Deng等人[七]《中国日报》引入共同注意机制来学习自适应4426t=1我我i，t不t=1 exp（α图2：我们的方法的整体框架，其中Resnet-101，如图中顶部所示，对输入图像的特征进行编码。LSTM，如左中所示，对引用表达式中的每个单词进行编码。采用双向跨模态注意模块（BCAM）对多模态特征之间的关系进行建模。门控双向融合模块，表示为GBFM，接收来自不同层次的最终多模态特征，以产生最终的分割掩模。语言与地域特征的关系。Shi等人。[31]设计了一个单词注意力来重新加权每个单词和图像区域之间而Wang等人。[33]提出了一个图形注意力来表示对象间的关系。Yang等人[37]在所有对象之间构建了一个语言引导的高阶视觉关系图李以学习更新特征的多尺度信息最后，三个层次的特征自适应聚合的门控双向融合模块（GBFM），以产生最终的预测掩模。3.1.视觉引导的语言注意等人[19]第十九话：注意力集中，注意力集中。对于给定的表达式L={lt}T我们使用LST-el对象的多类型关系，它可以学习自适应区域表示与以往不同的是，本文将跨模态注意机制扩展到参考图像分割任务中，并设计了一种双向注意机制来增强特征表示的语义一致性3. 该方法所提出的方法的整体架构在图中示出二、给定一个图像及其引用表达式，我们首先使用DeepLab ResNet-101 v2 [4]和LSTM [13]分别提取视觉和语言特征。然后，连接的视觉，语言和空间特征是M [13]表示每个单词的上下文。单词lt的上下文表示为ht∈R1000，其中ht是在运行LSTM通过第一个t个单词之后的隐藏状态向量。乳存在这样一个事实，即句子中的每个词对第i个特征区域vi的重要性是不同的。如果将这些语言特征同等对待并直接用于指导图像分割，则可能会引入一些噪声，使网络产生错误的预测。因此，我们引入了视觉引导的语言注意模块（VLAM），以自适应地建立语言上下文和每个视觉区域之间的关系第i个特征区域和第t个词之间的关系定义如下：v1=Wv1vi输入到双向跨模态注意模块（B-CAM）对多模态特征之间的关系进行这些关系用于更新上下文目标对象的表示。接下来，我们使用ASPP [4]αi，tαi=v1Th=exp（αi，t）、）（一）主干BRINet语言提取器空间坐标hT瓦左LSTM h不在LSTM中×+CL矩阵乘法按元素之和红色LSTMH3C级联BCAMBCAMBCAMpersonLSTMH2H深度监督LGF5GGGGf4GC3×3乙状× +3×3+ASPPASPPGASPP... ……... ……... ……i，t不4427˜I=3˜˜=G454534Ji、jWv∈R500×1000和Wλ∈R1000是可学习的参数。在Eq中定义2，N是像素数λi，j是第j个特征对第i个特征的重要性特征区域在此基础上，建立了图像中所有区域的依赖关系。因此，在下一阶段，我们使用这些关系来更新视觉特征表示，3 4vj=Wv3vj，vi=Wv4viNv=W[（λv3），c]+v4，（4）图3：双向跨模态注意力模块。R：Re-形状; FC：全连接层; S：Softmax; VLAM：愿景-ivi，jjiij=1引导语言注意模块; VLAM：视觉引导视觉注意模块。自适应语言上下文c被用作其中Wv3，Wv4∈R1000×（CI+1000+8）而Wv∈引导对输入特征之间的关系进行建模v.以vi为中心，采用softmax函数对v i与所有特征区域的关系权值进行归一化。其中v i是视觉特征I i∈ R CI、最终隐藏状态h T∈R1000和空间特征si∈R8 ，i的级联。 e. ， vi=[Ii ，hT，si]，其中[·，·]表示级联运算。CI表示变化的数量视觉特征图的nels空间特征如下-[14]的设计Wv1∈R1000×（CI+1000 + 8）是R1000×2000是可学习的参数。图3示出VLAM和LVAM的详细结构，跨模态注意力模块3.3.门控双向融合先前关于语义分割的工作[29，1，8]表明，编码器-解码器结构可以整合多级特征以进一步细化分割掩码。受此启发，我们提出了一种门控双向融合模块（GBFM），其详细结构如图1所示二、我们定义了ASPP的输出当F={f}5时，其对应于Res3、Res4和ii=3可学习的参数，其目的是将Vi映射到相同的di中。5、分别。 {fi}5有相同的频道号-HT的Mensionαi，t是归一化的注意力分数，表示第t个字对第i个特征区域的重要性。因此，第i个特征区域的新的语言上下文可以如下计算：不BER和分辨率。采用自下而上和自上而下相结合的方式逐步指导多层次特征融合。在自底向上的路径中，我们期望更高级别的特征提供全局和语义指导，低层的人。流程如下所示ci= α i，t h t.（二）t=1UU343，4f3+f4，fUU四、五F4+F5（五）U保险丝U三十四、四十五U+fU，3.2. 语言引导的视觉注意背景信息对于参考图像分割是必不可少的，它有助于网络准确地定位和分割目标区域。为了对不同区域之间的上下文关系进行建模，我们设计了一个语言引导的视觉注意模块（LVAM），该模块利用区域自适应语言特征来计算它们的亲和力。对于特征向量vi，其自身与第j个区域vj之间加权的归一化关系定义如下：v2=Wv2vjλi，j=Wλ[tanh（Wcci+Wv<$2v2）]其中，n是元素级乘积。GU是门函数，用于控制信息流。门函数可以计算如下：GU=Sig（Conv（Cat（fi，fj），（6）其中Cat（·，·）表示沿信道轴的级联操作Conv表示3×3卷积层。Sig表示逐元素sigmoid函数。在自顶向下的路径中，我们希望低层特征能够为高层特征提供局部的、精细的指导。流程如下所示：DD D DJλi=λexp（λi，j），（三）f熔丝=（f3 +G3，4<$f4）+G34，45<$（f4 +G4，5<$f5），N×CWCLVAMVLAMCR + FCR+丹FC + S×vR1R + FC高×宽+v2v3高×宽×高vvv4F=GF=G布拉夫4428（七）i、jNj=1 exp（λi、j）其中，和GD的含义与其中Wv2 ∈R1000×（CI+1000+8）， WC∈R500×1000，当量5. 类似地，门函数可以使用下式计算：4429保险丝*参考UNCUNC+G-Ref测试Val种皮testBVal种皮testBValLSTM-CNN [14]48.03------28.14[23]第二十三话58.7345.1845.6945.5729.8630.4829.5034.52[第28话]52.8149.7854.8345.1338.8844.2232.2936.76KWA [31]59.19------36.92RRN+DCRF [20]63.6355.3357.2653.9539.7542.1536.1136.45MAttNet [39]-56.5162.3751.7046.6752.3940.08-lang2seg [6]-58.9061.7753.81----[38]第三十八话63.8058.3260.6155.0943.7647.6037.8939.98步骤[3]64.1360.0463.4657.9748.1952.3340.4146.40我们63.1160.9862.9959.2148.1752.3242.1147.57我们的+DCRF63.4661.3563.3759.5748.5752.8742.1348.04表1：四个数据集的总体IoU定量结果。表示无可用结果。DCRF是指DenseCRF [18]后处理。左边那个兴奋的穿白衣服的男孩她开心吗女孩与黑色衬衫和牛仔裤在中心前排在衣服上留下白人的图像较大的食物切片面包片或蛋糕片在12点钟小块图像较大的食物切片面包片或蛋糕片在12点钟小块图4：BRINet参考图像分割的可视化示例。Di、j=Sig（Conv（Cat（fi，fj）。最后，融合特征+：可以获得f最终 =Conv（fUD保险丝），（8）19，992张图片中的49，856个对象的表达式类似对于MSO数据集，其图像和参考表达式也选自MSCOCO [22]。不过有其用于计算最终预测。4. 实验4.1. 数据集为了评估我们模型的性能，我们使用了四个参考图像分割数据集：[27][28][29]：它包含19，994个图像，142，209个表达式，涉及50，000个seg-分割的图像区域。同一类别的多个对象出现在每个图像中。该数据集的限制是指涉表达中没有词指示位置。即，对象的表达仅描述外观信息。Google-Ref：Google-Ref建立在MS CO之上，CO[22]数据集。在26,711张图片中，有104,560个表情涉及54,822个对象。此数据集的所有注释都在MechanicalTurk上收集，而不是使用双人游戏。每幅图像包含2 ~4个同类对象，指称词的平均长度为8.43字。因此，指称表达更长，描述更丰富。ReferIt：ReferIt数据集由130，525个ex-tags组成，涉及19，894个im中的96，654个对象区域图像G+F4430方法prec@0.5prec@0.6prec@0.7prec@0.8prec@0.9整体IoU基线56.5048.3137.5523.214.9552.26BCAM w/o语言59.2351.3640.9526.356.1553.91BCAM，不带VLAM62.4754.4142.9627.006.0355.14ValBCAMBRINet，不带Gate65.5369.5457.4662.5146.8552.5730.4235.357.289.9156.7659.59BRINet w/left70.8964.2754.6237.6210.5160.32BRINet，右侧71.2064.3655.2238.1610.6560.55BRINet71.8365.0555.6439.3611.2161.35f4+ f570.6963.8353.6136.819.7860.09ConvLSTM69.6162.6752.8236.269.3458.78BRINet，不含SP67.8160.8451.0865.489.7858.91基线59.6151.0040.3925.765.6954.24BCAM w/o语言62.5255.1044.7929.346.7755.52BCAM，不带VLAM65.1255.6545.2729.406.2056.40种皮BCAMBRINet，不带Gate68.8472.5461.0665.5849.9654.7532.0136.437.559.4259.0461.50BRINet w/left74.7068.0857.5239.199.9762.80BRINet，右侧75.0868.5958.5540.0910.2962.99BRINet75.0968.2958.3741.0110.9663.37f4+ f574.1967.4657.3838.229.8362.25ConvLSTM72.6765.8355.5437.979.6060.75BRINet，不含SP71.9565.1554.9637.949.6561.95基线54.0945.6935.8423.006.7350.84BCAM w/o语言56.2948.2438.2125.207.7352.28BCAM，不带VLAM57.6449.5039.5725.917.9952.17testBBCAMBRINet，不带Gate61.0066.2452.3858.6342.4349.6428.6435.649.3612.6054.1257.81BRINet w/left67.0559.8451.1337.3313.1758.13BRINet，右侧66.9559.7150.7937.3113.7658.50BRINet68.3861.7752.7638.1414.3359.57f4+ f566.9960.0850.6435.9013.1957.91ConvLSTM65.7758.3349.7435.5612.9956.56BRINet，不含SP63.3255.7646.6133.4611.7256.18表2：对Tisval、testA和testB数据集的消融研究。年龄参考文献来自IAPR TC-12 [9]数据集。前景区域包括对象和填充物（例如，地面，山脉和天空），并且表达式通常比其他数据集更短，更简洁。4.2. 实现细节给定一个输入图像，我们调整大小并将其零填充为320×320。DeepLab ResNet-101 v2 [4]在这项工作中用作视觉特征提取器。类似于所有其他方法，该网络在Pascal VOC数据集上进行了预训练[10]。这是因为，所有以前的方法，在Pascal VOC上训练他们的模型我们使用DeepLab块Res3、Res4和Res5的输出作为我们模块的输入，并使用符号vi（i∈3，4，5）来表示相应的特征。每个特征图v i的分辨率为40×40。在[23，20]之后，设置每个LSTM单元的大小至1000 μ语言表达式的最大长度为20.换句话说，我们只保留每个表达式的前20个单词。这是因为基准数据集上的大多数语言表达式都短于预定义的最大长度，这在大多数情况下确保了输入句子与[14]的实现类似，我们连接8-D空间坐标特征以进一步增强vi的空间信息。我们的网络通过端到端策略进行训练，并选择初始学习率为0.00025的Adam [17]优化器。重量衰减和批量分别为0.0005和1。初始学习率通过幂为0.9的多项式衰减为了进行公平比较，所有最终预测的分割掩码都由DenseCRF [18]进行了细化。：在之前的工作[20，23，31，38]之后，我们使用两个典型的指标来评估分割准确性：总体相交于联合（总体IoU）和精度@X。总体IoU指标计算比率4431查询：查询表达式：女子黑衬衫图像基线BCAM w/o语言BCAM BRINet GT图5：所提出的模块的可视化示例。长度1-56-78-1011-20R+LSTM [23]32.2928.2727.3326.61G-RefR+RMI [23]35.3431.7630.6630.56我们51.9347.5546.3346.49长度1-234-56-20R+LSTM [23]43.6640.6033.9824.91UNCR+RMI [23]44.5141.8635.0525.95我们65.9964.8356.9745.65长度1-234-56-20R+LSTM [23]34.4024.0419.3112.30UNC+R+RMI [23]35.7225.4121.7314.37我们59.1246.8940.5731.32长度123-45-20R+LSTM [23]67.6452.2644.8733.81参考R+RMI [23]68.1152.7345.6934.53我们75.2862.6256.1444.40表3：Google-Ref、Google+、ReferItGame上不同长度引用表达式的IoU。的总交集区域和总并集区域- s之间的预测掩模和地面实况。第二个度量计算在测试过程中IoU高于阈值X其中X ∈ {0. 5，0。6，0。七比零。八比零。9}。4.3. 性能比较我们将所提出的方法与一些最先进的方法进行比较，包括LSTM-CNN [14]，RMI [23]，DMN [28]，KWA [31]，RRN [20]，MAttNet [39]，lang2seg [6] CMSA [38]和STEP [3]。定量评价：这些方法在所有数据集上的分割性能（IoU）总结见表1。1.我们观察到，所提出的方法-在不同的数据集上执行其他方法，特别是在G-Ref上。G-Ref比其他数据集更复杂，因为它的对象引用表达式更长。我们的方法优于第二个最好的20.16%。值得注意的是，MAt-tNet和lang 2seg这两种方法在分割图像时使用Mask R-CNN [12]对图像进行预处理和后处理。Mask R-CNN本身可以更好地定位和分割图像中的所有目标，这显然有助于提高性能。这实际上表明所设计的端到端方法具有显著的性能优势。此外，在语料库中，指称表达不包含表示空间或位置信息的词语，这对对象外观的理解能力提出对BRINet+数据集的显著改进表明，BRINet可以更准确地理解对象的语义。我们进一步研究了分割性能与指称表达式长度之间的关系我们根据[23]将表达式分为四组，每组的分割结果如表1所示3.第三章。BRINet在所有组上都优于其他方法。定性评价：图4显示了语言注意力的一些代表性结果和可视化示例，以展示所提出的方法的优越性它可以可以看出，即使在指称表达式长度变化和场景复杂的情况下，我们的方法也能准确地分割出目标对象区域。此外，我们的方法也是鲁棒的参考图像分割没有位置或空间信息的参考表达式（行2）。4.4. 消融研究该框架主要由BCAM和GBFM两个模块组成。为了进一步研究BRINet中各个组件的相对贡献，我们对BRINet进行了一系列实验，4432查询表达式：白狗查询表达式：左后卫图像基线BCAM w/o语言BCAM BRINet GT图6：建议模块的分割热图。数据集。我们还验证了8-D空间坐标对性能的影响详细的实验结果见表1.二、BCAM的有效性：我们从BRINet中删除了BCAM和G-BFM，如图所示. 2.建设基地网络。在选项卡中。2 、逐步分析了无语言引导的 BCAM （ BCAM w/olanguage）、无VLAM的BCAM（BCAM w/o VLAM）和完全B-CAM方案，其机制实现了视觉自注意、简单语言引导的关系推理和自适应语言引导的关系推理恢复。BCAM w/o语言方案表明，特征间的关系建模有利于提高分割效果。通过对BCAM w/o VLAM和完全BCAM的实验比较，进一步验证了自适应语言特征有利于学习视觉特征之间的关系。GBFM的有效性：门控双向融合模块（GBFM）由两个组件组成：自下而上和自上而下的信息融合模块。在这里，我们比较了多层次特征的直接求和（ BRINet w/o Gate ），自上而下的融合（ BRINetw/left），自下而上的融合（BRINet w/right）和完整的如Tab.所示。2、通过对BRINet的研究发现，由门函数控制的自顶向下和自底向上的消息传递模型都能有效地提高性能，其中全BRINet的性能最好。此外，我们还分析了尺度数量的影响，其中'BRINet w/o Gate'意味着只使用特征f5，而'BRINet'则采用了三个尺度f 3 + f 4 + f 5。最后给出了f4+f5我们在Tab中比较了GBFM和ConvLSTM。2.后者表示输入到状态和状态到状态的转换。它主要通过级联结构来模拟远程依赖。而GBFM是一种多层次的特征融合模型，它利用两个垂直堆叠的结构来实现垂直跳层融合，水平双向信息融合。而且，后者所需的计算量和参数比前者复杂得多（4倍）.图中的一些视觉结果。图5和图6展示了每个模块的优点。其中，可视化热图是通过与[20，38]中相同的技术生成的，该技术对最后一个特征图的最强激活通道进行归一化，并将其上采样回与输入图像相同的大小。这些数据表明，引导机制可以帮助实现高层次的上下文一致性之间的指称表达和目标区域。该网络通过BCAM的相互指导和GBFM的特征细化，消除了模糊目标的影响，取得了较好的效果。5. 结论本文提出了一种新的双向关系推理网络（BRINet）用于参考图像分割。它由双向跨模态注意模块（BCAM）和门控双向融合模块（GBFM）组成。BCAM实现了语言特征和视觉特征的相互指导，促使指称表达和目标对象之间的语义表达准确一致。GBFM用于自适应地过滤不同级别的特征之间的信息。门可以控制信息流，以更好地整合多层次的线索。在4个数据集上的实验结果表明，该方法具有较好的性能.确认本工作得到了国家重点研发计划#2018AAA0102003、国家自然科学基金#61876202、#61725202、#61751212和#61829102以及大连市科技创新基金#2019J12GX 039的部分支持。4433引用[1] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegnet：用于图像分割的深度卷积编码器-解码器架构。IEEE TPAMI，39（12）：2481-2495，2017。[2] Boyu Chen，Peixia Li，Chong Sun，Dong Wang，GangYang，and Huchuan Lu.用于视觉跟踪的多注意力模块Pattern Recognition，87：80[3] Ding-Jie Chen ， Songhao Jia ， Yi-Chen Lo ， Hwann-Tzong Chen，and Tyng-Luh Liu.用于参考图像分割的透明文本分组。在ICCV，第7454-7463页，2019年。[4] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE TPAMI，40（4）：834[5] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。重新思考语义图像分割的atrous卷积。arXiv预印本arXiv：1706.05587，2017.[6] Yi-Wen Chen，Yi-Hsuan Tsai，Tiantian Wang，Yen-YuLin，and Ming-Hsuan Yang.具有字幕感知一致性的引用表达式对象BMVC，2019年。[7] Chaorui Deng，Qi Wu，Qingyao Wu，Fuyuan Hu，FanLyu，and Mingkui Tan.通过累积注意力的视觉基础。在CVPR中，第7746-7755页[8] Henghui Ding ， Xudong Jiang ， Bing Shuai ， Ai QunLiu，and Gang Wang.基于上下文对比特征和门控多尺度聚合的场景分割方法.在CVPR中，第2393-2402页[9] HugoJairEscalante，CarlosAHerna`ndez，JesusAGonzalez，AurelioLo`pez-Lo`pez，ManuelMontes ， EduardoFMorales ， LEnriqueSuca r ，LuisVillas en`or，andMichaelGrubinge r. 分段和注释的iaprtc-12基准。计算机视觉和图像理解，114（4）：419-428，2010。[10] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams，John Winn，and Andrew Zisserman.pascal视觉对象类（voc）的挑战。IJCV，88（2）：303[11] Jun Fu ， Jing Liu ， Haijie Tian ， Yong Li ， YongjunBao，Zhivei Fang，and Hanqing Lu.用于场景分割的双注意网络。在CVPR中，第3146-3154页[12] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具R-CNN。在ICCV，第2961-2969页[13] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经计算，9（8）：1735[14] 胡荣航马库斯·罗尔巴赫和特雷弗·达雷尔。从自然语言表达中分割。在ECCV中，第108-124页。施普林格，2016年。[15] Ronghang Hu ， Huazhe Xu ， Marcus Rohrbach ， JiashiFeng，Kate Saenko，and Trevor Darrell.自然语言对象检索。在CVPR，第4555-4564页[16] Sahar Kazemzadeh ， Vicente Ordonez ， Mark Matten ，and Tamara Berg.推荐游戏：在自然景物的照相照片中提到物体的。在EMNLP，第787[17] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。[18] Phi l ippKr aühenbuühl和VladlenKoltun。具有高斯边势的全连通crfs的有效推理在NeurIPS，第109-117页[19] Linjie Li，Zhe Gan，Yu Cheng，and Jingjing Liu.面向可视问答的关系感知图注意网络。在ICCV，2019年10月。[20] Ruiyu Li ，Kaican Li ，Yi-Chun Kuo， Michelle Shu，Xiaojuan Qi，Xiaoyong Shen，and Jiaya Jia.参考图像分割通过循环细化网络。在CVPR中，第5745-5753页[21] Di Lin，Yuanfeng Ji，Dani Lischinski，Daniel Cohen-Or，and Hui Huang.多尺度上下文交织语义分割。参见ECCV，第603-619页[22] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。参见ECCV，第740-755页。Springer，2014.[23] Chenxi Liu，Zhe Lin，Xiaohui Shen，Jimei Yang，XinLu，and Alan Yuille.用于参考图像分割的递归多模态交互。在ICCV，第1271-1280页[24] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分割的全卷积网络。在CVPR，第3431-3440页[25] Yifan Lu，Jiaming Lu，Songhai Zhang，and Peter Hall.使用注意力模型的街景中交通信号检测和分类Computational Visual Media，4（3）：253-266，2018。[26] Ruotian Luo和Gregory Shakhnarovich。理解引导的指称表达。在CVPR中，第7102-7111页，2017年。[27] Junhua Mao，Jonathan Huang，Alexander Toshev，OanaCamburu，Alan L Yuille，and Kevin Murphy.无歧义对象描述的生成和理解。在CVPR，第11-20页[28] Ed garMa r g f o y-Tua y，JuanCP e´ rez，EmilioBotero，and PabloArbel a´ ez. 由自然语言查询引导的动态多模态实例在ECCV中，第630-645页[29] Hyeonwoo Noh Seunghoon Hong和Bohyung Han。用于语义分割的学习反卷积网络在ICCV，第1520-1528页[30] Tao Shen，Tianyi Zhou，Guodong Long，Jing Jiang，Shirui Pan，and Chengqi Zhang. Disan：用于无rnn/cnn语言理解的定向自我注意网络。在AAAI，2018。[31] Hengcan Shi，Hongliang Li，Fanman Meng，and QingboWu.关键词感知网络用于参考表情图像分割。在ECCV中，第38-54页[32] Ashish Vaswani， Noam Shazeer ， Niki Parmar ， JakobUszko-reit ， Llion Jones ， Aidan N Gomez ， ukaszKaiser ，and Illia Polosukhin. 注意力是你所需要的。NeurIPS，第5998-6008页，2017年[33] Peng Wang，Qi Wu，Jiewei Cao，Chunhua Shen，LianliGao，and Anton van den Hengel.邻里守望：参考-4434通过语言引导的图形注意力网络的环表达理解。在CVPR中，第1960-1968页[34] 王天天，朴永日，小李，张立和，卢沪川。用于光场显著性检测的深度学习。在ICCV，第8838-8848页[35] Tiantian Wang ， Lihe Zhang ， Shuo Wang ， HuchuanLu，Gang Yang，Xiang Ruan，and Ali Borji.全局检测，局部优化：一种新的显著性检测方法。在CVPR中，第3127-3135页[36] SHI Xianjian ， Zhourong Chen ， Hao Wang ， Dit-YanYeung，Wai-Kin Wong，and Wang-chun Woo.卷积lst-m网络：降水临近预报的机器学习方法。在NeurIPS，第802-810页[37] 杨思北，李冠斌，易州余。基于指称表达的跨模态关系推理。在CVPR中，第4145-4154页[38] Linwei Ye，Mrigank Roch

下载后可阅读完整内容，剩余1页未读，立即下载