参考图像分割中基于协同注意嵌入的编码器融合网络

3 浏览量更新于2024-01-22 收藏 1.95MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

15506曲名：Child inRed基于协同注意嵌入的编码器融合网络参考图像分割冯光1、2，胡志伟1、2，张立和1、2，†，胡川路1、21大连理工2大连理工fengguang.gg @ gmail.com example.com，wwwhzw950822@mail.dlut.edu.cn，{zhanglihe，lhchuan}@ dlut.edu.cn摘要（一）. 参考图像分割的解码器融合近年来，参考图像分割引起了人们的广泛关注。以前的方法执行多-解码时语言与视觉的模态融合网络的一面。而且，语言特征与各个尺度的视觉特征相互作用，忽视了语言对多尺度视觉特征的连续引导作用。在这项工作中，我们提出了一个编码器融合网络（EFN），它将视觉编码器转换为多模态特征学习网络，并使用语言来逐步细化多模态特征此外，在EFN中嵌入了协同注意机制，实现了多模态特征的并行更新，从而促进了跨模态信息在语义空间表示的一致性。最后，我们提出了一个边界增强模块（BEM），使网络更加关注精细结构。在四个基准数据集上的实验结果表明，该方法在不进行任何后处理的情况下，在不同的评价指标下都达到了最佳的性能。1. 介绍参考图像分割的目的是根据参考表达式提取图像中最相关的视觉区域（对象或内容）与传统的语义和实例分割要求正确分割图像中的每个语义类别或每个对象不同，参考图像分割需要根据对给定语言查询的理解因此，它可以被视为逐像素的前地/背景分割问题，并且输出结果不受预定义的语义类别或对象类的限制。该任务在基于语言的人机交互中具有广泛的潜在应用。†通讯作者（b）. 参考图像的编码器融合分割曲名：Child inRed视觉功能多模态功能语言渐进式引导图1：两种多模态融合机制。现有方法在解码端实现了语言与视觉的融合，而本文提出的方法在编码端实现了语言与视觉的融合该任务的关键是实现视觉特征和语言特征的跨模态匹配。深度学习社区在短时间内迅速改善了视觉语言任务的结果。卷积神经网络（CN-N）和递归神经网络（RNN）的迅速发展，使人们对视觉和语言的理解能力有了质的飞跃，从而可以解决更复杂的像素级跨模态预测任务。早期的参考图像分割方法[14，26，23，33]主要依赖于深度学习模型的强大学习能力。它们直接将每个区域的语言特征与视觉特征连接起来，然后使用组合的多模态特征来生成分割掩码。由于两种模态之间缺乏足够的交互，这样的解决方案不能满足实际应用的要求。近年来，一些研究[36，38，1，16，17，19]开始考虑语言和视觉的注意机制，以更好地整合这两种特征。虽然近年来提出了一些有参考价值的图像分割方法，但仍有许多问题没有得到深入的研究。一方面，对于视觉和语言的跨模态融合上一页15507现有的方法通常采用解码器融合策略，将RGB图像和参考表达式分别输入CNN或RNN生成各自的特征表示，然后在解码阶段进行融合。然而，网络输出端的这种融合策略要么只考虑语言特征和最高级别视觉特征之间的相互作用[26，23]，要么将语言特征与每个级别的视觉特征独立地结合起来（如图1（a）所示）[38，16，19]。他们没有研究语言对多模态融合特征的深层指导。此外，一些作品利用视觉和语言注意机制进行跨模态特征匹配。但它们是以串行模式更新语言和视觉特征的[36，1，16，17，19]，即在特定时间只更新一种模态的特征，这将导致不同模态之间特征的更新延迟，最终削弱多模态信息表示的一致性。另一方面，在CNN中，重复的步长和池化操作可能会导致一些重要的精细结构信息的丢失，但很少有参考图像分割方法明确考虑细节恢复问题。为了解决上述问题，我们建议一种用于参考图像分割的具有共同注意嵌入的编码器融合网络（CEFNet）。本文首次采用编码器融合策略，代替输出端的跨模态信息融合，对多层次跨模态特征按语言进行原始视觉特征编码器（例如，ResNet）被转换成多模态特征编码器（如图1（b）所示）。两种模态的特征在CNN编码器中深度交织。此外，为了有效地发挥语言的引导作用，我们采用了共注意机制来同时更新不同模态的特征。该方法利用同一个亲和矩阵，将不同的特征以相似的方式投影到共同的特征子空间，较好地实现了跨模态匹配，弥补了粗粒度指称表达与高度局部化视觉分割之间的差距。我们实现了两个简单而有效的共同注意机制，如香草共同注意和非对称共同注意，这对参考图像分割任务有更深入的了解最后，我们设计了一个边界增强模块（BEM），它捕获并利用边界线索作为指导，在网络的解码阶段逐渐恢复目标区域的细节。我们的主要贡献如下：• 我们提出了一个编码器融合网络（EFN），使用-es语言来指导多模态特征学习，从而实现多模态特征之间的深度交织。在EFN中，共注意机制被嵌入，以保证不同模态的语义对齐，从而促进了表征。语言定位能力有针对性的视觉特征。• 我们引入了边界增强模块（BE-M）来强调网络对轮廓表示的关注，这可以帮助网络逐渐恢复细节。• 该方法在四个大规模数据集上实现了最先进的性能，包括Google+，Google Ref和ReferIt，其速度在Nvidia GTX 1080Ti GPU上的50 FPS。2. 相关工作语义和实例分割。前者的目标是在语义上有意义的方式分组像素，而不区分每个实例。后者要求分离对象的所有实例，而不是材料。近年来，许多语义分割方法采用全卷积网络（FCN）[29]进行端到端预测。在此基础上，多尺度背景[43，3，4，8，10]和在-注意力机制[44，11，45，18]进行了深入研究。一些作品[34，8]利用编码器-解码器结构来减轻由连续下采样引起的细节损失。此外，基于RGB-D的方法[12，5]在提高性能之前引入深度。这些方法为参考图像分割提供了启示。在实例分割中，Mask-RCNN [13]是一个经典的框架，它使用两阶段设计来顺序生成建议并对其进行分类/分割。在后续工作中，探索了特征金字塔[25]、自顶向下和自底向上[28]、迭代优化[2]和边界感知机制[7]。边界细化策略的成功为解决参考图像分割问题提供了重要的思路。参考图像理解。这个任务有两个分支：定位和分割。对于参考图像的定位，以往的方法主要由两个独立的阶段组成。他们首先使用物体探测器，提取候选区域，然后根据引用表达式对这些区域进行排序。开创性的方法-s [15，32，31]使用CNN-LSTM结构来选择具有表达式的最大后验概率的对象，其他作品[27，41]优化了目标对象和表达式的联合概率。最近，一些方法[37，35，24]使用一个阶段的框架。它们不是生成过多的候选框，而是以端到端的方式直接预测目标区域的坐标。上述方法均在解码器中实现了对于参考图像分割，早期的方法[14，26，23，33]直接连接语言和视觉特征，然后完全依赖于完全卷积网络来推断像素掩码。这些方法15508罗伯逊在右边Bi-GRU...E1E2E3E4E5D1D2D3D4D5S2CS3CS4CS5CSTNS1减去减去减去减去CB2CB3CB4CB5B组B组B组B14STNSTN空间Transformer网络C级联元素求和边界增强模块STNSTNi=1t=1Σt=1p，t pt图2：我们模型的整体架构。它主要由Bi-GRU编码器、ResNet-101编码器（E1E5）、共同注意模块（CAM）、解码块（D1D5）和边界增强模块（BEM）组装在解码端组成。CAM用于实现多模态特征之间的匹配。BEM捕获边界线索并使用它们来恢复边界的细节图像，从而产生更准确的分割掩码。所提出的方法的细节在第二节中介绍3没有明确地表述内部模式和模式间的关系。最近的一些工作[36，38，1，16，17，19]考虑了语言和视觉信息的自我注意和交叉注意机制。例如，Shi等人。[36]调整视觉引导的语言注意力来学习每个视觉区域的自适应语言上下文。 Ye等人。[38]采用多个非局部模块以完全连接的方式更新每个像素-单词混合特征。Hu等人[16]设计了一个双向关系推理网络来建模语言和视觉之间的关系Huang等[17]首先根据实体词和属性词感知图像中的所有实体，然后使用关系词对所有实体之间的关系进行建模。LSCM [19]利用基于依赖解析树的词图来指导多模态上下文的学习。类似地，这些方法也使用解码器融合策略。此外，它们不会并行更新语言和视觉特征，这可能会削弱语义空间中语言和视觉的一致性。与以往的工作不同，我们设计了一种并行更新机制，以增强多模态表示的兼容性，并在编码器中进行我们还提出了一个3.1. 具有共同注意力的编码器融合编码器融合网络。对于输入图像，我们使用ResNet101 [42]来提取视觉特征。ResNet 101由5个基本块组成：conv1、res2、res3、res4和res5。来自这五个块的特征图表示为{Ei}5。为了避免丢失过多的空间细节，最后一个块的步幅被设置为1。不同于以往在解码器中执行多模态融合的方法中，我们在res3、res4和res5重新解码之后插入语言特征。ResNet被转换为多模态特征提取器。该设计充分利用了深度CNN模型的数据实现了编码器融合网络（EFN）和解码器融合网络（DFN）之间的实验比较，并将结果显示在数据集上。3 .第三章。多模态特征表示。对于给定的表达式，我们将词嵌入{e t}T馈送到Bi- GRU中以生成语言上下文{h t}T，其中T表示语言的长度。此外，我们采用简单的连接策略，以生成初始多模态特征，并将其表示为：mp=w[ep，hT，sp]，（1）我我边界增强模块，以指导渐进式融合，在解码阶段的多级特征的选择。其中ep是位置p处的Ei的特征向量。sp表示我我3. 该方法所提出的方法的整体架构在图中示出二、在本节中，我们主要介绍8-D空间坐标，其遵循[16]中的设计W是可学习的参数。然后我们使用mp来计算特定于位置的语言上下文lp：α=m·e，不基于共同注意力的编码器融合网络，l=αeexp（αp，t）（2）·你知道吗？ary增强解码器网络。p tt=1不t=1 exp（αp，t）凸轮凸轮凸轮155092L3M出来C×H×WCC×H×WC×H×WHW×HWMC×H×WSC×H×WLC1×H×WC1×H×W（一）.香草共同关注（b）。不对称共同注意图3：两个共同关注模块。M：初始多模式功能。L：适应性语境。S：Softmax。PPM：金字塔池模块。 C：Concatenation。×：矩阵乘法。 +：逐元素求和。 C、H和W分别是特征图的通道数、高度和宽度。lp对每个词的处理都不同。它可以抑制语言表达中的噪声，突出所需区域。接下来，特征图M= [mp]和L=[lp]经过共同注意模块以实现多模态融合。香草的共同关注。我们设计了一个共同注意机制，它可以对多模态特征之间的依赖关系进行建模，并将多模态特征投影到共同特征子空间中。为了便于描述，M的尺寸定义为C×H×W，其中H、W和C分别表示其高度、宽度和通道数。特征L具有与M相同的尺寸。首先，将特征M和L展平为大小为C×（HW）的矩阵表示;它们的亲和矩阵A∈RHW×HW计算如下：编码器中的功能已完成。该机制可以根据另一通道的信息提供额外的补充提示，实现两种通道之间的相互引导图3（a）显示了vanilla co-attention模块（VCM）的详细结构。不对称的共同关注。此外，我们提出了一个非对称的共同注意力模块（ACM），以减少计算成本。受[45]的启发，我们采用金字塔池模块（PPM）对特征图M和L进行采样。PPM由四个尺度特征箱组成，然后将其展平并连接以形成大小矩阵C1×N，N×HW。这里，特征箱的大小分别被设置为1×1、3×3、6×6和8×8。因此，M和L的自亲和矩阵可以计算为：A =（WmM）（W1L），（3）SA =（PPM（W1M））×（W2M），嗯嗯（六）C1×CSA =（PPM（W1L））×（W2L），其中Wm，Wl ∈R是可学习的参数。ll lA的元素ai，j表示M的第i位置和L的第j位置。然后，我们使用softmax函数对sim进行归一化ilarity矩阵如下：其中SAm和SAl表示模态特定相似性矩阵。它们的大小固定为N×（HW）至PPM是不对称的。 W1，W2，W1和W2在-mm l lA1= softmax（A），A =softmax（A），（四）确定可学习的参数。我们进一步结合这些两个矩阵如下：其中A1和A2是逐行和逐行的结果，A3= softmax（（SAm+SA）（七）列式归一化。因此，映射M和L可以通过加权求和来更新：⊤然后，使用行归一化矩阵A3∈R（HW）×N来辅助多模态特征的更新M=MA1，⊤（五）M=A（PPM（W3M）），L=L A2。（八）L=A（PPM（W3L））。3L我们沿着通道维度连接M和L，然后使用3×3卷积来获得多模态特征F∈RC2×H×W. F被归一化并被添加到编码器特征E。因此，多模态的嵌入类似于香草共同注意，M和L是concate-以生成最终的多模态输出。整个ACM的结构如图3（b）所示。出来C×H×WC×H×WCC×H×WN×HWC1×NC1×NSPPMPPMC1×NC1×NPPMPPMC1×H×WC1×H×WC1×H×WC1×H×WC1×H×WC1×H×WMC×H×WLC×H×W⊤15510i=1˜3.2. 边界增强模块在CNN中，重复的步幅和池化操作导致精细结构信息的丢失，这可能会模糊预测区域的轮廓。以前的工作-s [38，1，16，17，19]在解码器中执行多尺度融合时没有明确考虑细节的恢复在这项工作中，我们设计了一个边界增强模块（BE-M），它使用边界特征作为指导，使网络关注更精细的细节，实现预测的渐进细化。其结构如图所示，表2：Google-Ref、Google+、ReferItGame上不同长度引用表达式的IoU。长度1-56-78-1011-20R+LSTM [26]32.2928.2727.3326.61R+RMI [26]35.3431.7630.6630.56G-RefBRINet [16]51.9347.5546.3346.49我们的（VCM）57.9652.1948.7846.67我们的（ACM）59.9252.9449.5646.21图二、具体地，对于解码器特征{Di}5，，我们首先计算边界感知特征：Bi= Si−（Si），（9）其中，R1表示空间Transformer网络[20]。在这里，我们利用它来采样的高层抽象语义信息从Si。因此，残差Bi描述了精细结构。边界图的预测过程可以写为：Bi−1=Conv（Cat（Bi，Di−1）），BMi−1=Sig（Conv（Bi−1）），（十）其中Cat（·，·）是沿着通道轴的级联运算。Conv和Sig分别表示卷积BMi-1由目标区域的地面实况轮廓监督。接下来，我们利用边界特征Bi−1来细化分割掩码，如下所示：Si−1=Conv（Cat（Bi−1+ STN（ Si），Si）），SMi−1=Sig（Conv（Si−1）），（十一）19,992张图片然而，指称表达中并不包含表示位置信息的词语，这意味着其语言与视觉区域的匹配其中Si-1实际上组合了解码器特征Di和Di-1的信息。SMi-1表示精细掩码，由地面实况分割监督来自最后一个解码器块的SM1被作为最终的预测图，如图1所示二、4. 实验4.1. 数据集为了验证所提出的方法的有效性，我们在四个数据集上评估了性能，这四个数据集是 Google [40] ，Google + [40]，Google-Ref [32]和ReferIt [21]。它包含19，994张图像，其中包含50，000个分割对象区域的142，209个语言表达式。这些数据是使用双人游戏从MS COCO数据集中选择的[21]。有多个对象具有相同每一张图片中的类别。C+：它也是MS COCO的一个子集，它包含141，564个语言表达式，用于49，856个对象，完全取决于外观信息。Google-Ref：它包括26，711张图像中54，822个对象的 104 ， 560 个引用表达式。注释基于 MechanicalTurk，而不是使用双人游戏。在这个数据集中，指称表达的平均长度是8.43个单词。参考文献：它是从IAPR TC-12收集的[9]。它由19，894幅自然图像中96，654个目标区域的130，525个指称表达式组成。此外，他们的安-符号包含对象或内容，表达式通常比其他数据集更短，更简洁。4.2. 实现细节该框架构建在公共pytorch工具箱上，并在NvidiaGTX 1080Ti GPU上进行了20万次迭代训练。我们的网络通过端到端策略进行训练，并使用SGD优化器，初始学习率为0.00075，100，000后除以10迭代所有输入图像的大小都调整为320×320。的长度1-234-56-20R+LSTM [26]43.6640.6033.9824.91R+RMI [26]44.5141.8635.0525.95UNCBRINet [16]65.9964.8356.9745.65我们的（VCM）68.1866.1456.8246.01我们的（ACM）68.7365.5857.3245.90长度1-234-56-20R+LSTM [26]34.4024.0419.3112.30R+RMI [26]35.7225.4121.7314.37联系我们BRINet [16]59.1246.8940.5731.32我们的（VCM）60.8748.8843.7929.45长度123-45-20R+LSTM [26]67.6452.2644.8733.81R+RMI [26]68.1152.7345.6934.53参考BRINet [16]75.2862.6256.1444.40我们的（VCM）77.7366.0259.7445.75我们的（ACM）78.1966.6360.3046.1815511右角表1：四个数据集上不同方法的定量评价。- ：无数据。DCRF：DenseCRF [22]后处理。*参考UNC联系我们G-Ref测试Val种皮testBVal种皮testBValLSTM-CNN16 [14]48.03------28.14RMI+DCRF17 [26]58.7345.1845.6945.5729.8630.4829.5034.52[33]第三十三话52.8149.7854.8345.1338.8844.2232.2936.76KWA18[36]59.19------36.92RRN+DCRF18 [23]63.6355.3357.2653.9539.7542.1536.1136.45MAttNet18 [39]-56.5162.3751.7046.6752.3940.08-[6]第19话-58.9061.7753.81----[38]第三十八话63.8058.3260.6155.0943.7647.6037.8939.98第十九步[1]64.1360.0463.4657.9748.1952.3340.4146.40[30]第三十话-59.2562.3753.9446.1651.3738.2446.54BRINet+DCRF20 [16]63.4661.3563.3759.5748.5752.8742.1348.04LSCM+DCRF20 [19]66.5761.4764.9959.5549.3453.1243.5048.05[17]第十七话65.5361.3664.5459.6449.5653.4443.2349.05我们的（VCM）66.0662.5365.3659.1950.2455.0441.6851.22我们的（ACM）66.7062.7665.6959.6751.5055.2443.0151.93我们的可可VCM我们的可可ACM--69.2768.9770.5671.1366.3666.9557.4657.4861.7561.3550.6651.9757.5157.49图像菜在右上角碗胡萝卜白色菜在顶部胡萝卜前碗与胡萝卜在它图像红色白色衬衫粉红色衬衫顶部粉红色衬衫家伙在后面家伙在粉红色衬衫女人前排图像水图像树左上角图像图片的下半部分图4：通过我们的方法参考图像分割的视觉示例。重量衰减和批量大小分别为0.0005和12而在训练G-ref时，我们使用RNN模型作为预训练模型，以避免过拟合。在推理阶段，预测图的大小调整为与原始图像相同的分辨率。使用二进制交叉熵损失来监督边界图和分割图，此外，我们还使用地面实况分割（GT）来监督机器人的输出。评估方法：在之前的工作[16，17，19]之后，我们采用整体相交-联合（Overal-1 IoU）和Prec@X来评估分割准确度。总体IoU度量表示所有测试样本的预测掩码和地面真实值Prec@X度量计算测试集中超过阈值X的预测掩码的IoU s-核心的百分比，其中X∈ {0}。五，零。六，零。七，零。八，零。9}。4.3. 性能比较为了验证所提出的模型的有效性，我们将其与十三种方法进行了比较，这些方法是LSTM-CNN [14]，RMI [26]，DMN [33]，KWA [36]，RRN [23]，MAttNet [39]、lang2seg [6]、CMSA [38]、STEP [1]、C-[30]，BRINet [16]，LSCM [19]和CMPC [17]。性能评价：表1显示了不同方法在四个数据集上的性能（IoU）比较，其中Our（VCM）和Our（ACM）表示使用vanilla co-attention模块和asymmet的结果。15512VCMACM表3：对Tisval、testA和testB数据集的消融研究。DFNEFNVCMACMBEMprec@0.5prec@0.6prec@0.7prec@0.8prec@0.9整体IoUC57.3050.4042.0028.429.0052.86C64.1658.4551.1637.5313.3955.87ValCCCC68.6169.2263.0264.1154.5556.3340.2041.6713.6715.3259.6560.09CCC74.0768.8461.7648.7420.0662.53CCC73.9569.5862.5949.6120.6362.76C61.6654.3044.5531.099.3255.98C67.0361.5953.9240.1313.3158.07种皮CCCC72.1472.9566.8067.9058.2159.9843.0345.0413.1914.4662.1062.46CCC77.5373.1866.0252.1118.8865.36CCC77.6673.7366.7052.7519.6665.69C52.3145.4837.5126.8510.4049.66C58.6152.6245.6734.5615.0352.48testBCCCC64.5365.0257.9658.3350.5450.3437.9438.7416.3916.3156.7657.09CCC69.7463.7556.9045.2022.5159.19CCC69.6665.1458.3146.1822.4359.67查询：查询：DFN EFN EFN+ACM EFN+ACM+BEM GT图5：所提出的模块的可视化示例。ric共同注意模块。所提出的模型在大多数数据集上的性能始终优于这些竞争对手，一些方法，如LSCM和CMPC，应用DenseCRF [22]来优化它们的最终掩码，而我们的模型不需要任何后处理。特别是，我们在G-Ref、GNT + testA和val上分别实现了比第二好方法CMPC [17此外，由于G-Ref、G-Ref+和G-Ref都是从MS COCO数据集收集的，因此我们将它们的训练数据合并到一个更大的训练集。在其上训练的模型的结果表示为cy.结果见表1。2，表明我们的方法达到了最先进的性能。内存和内存统计：我们在 NVIDIA GTX 1080 TiGPU上实现了所有测试。运行时间的比较报告在Tab.四、我们的方法运行最快，速度为50 FPS。GPU内存使用情况显示在选项卡中。五、从Tab 4、Tab。5、我们可以发现，虽然VCM在速度上有优势，但输入量大导致内存使用量急剧增加。相反，VCM对输入大小不敏感。因此，它具有广泛的适用性.我们的可可我们的coco 这表明，足够的培训数据可以产生更好的结果。我们在图中给出了一些直观的四、可以看出，我们的方法可以准确地分割特定区域（对象或东西）根据查询表达式。在[26，16]之后，我们分析了语言长度和分割精度之间4.4. 消融研究我们在P2P数据集上进行了一系列实验，以验证每个组件的益处。DFN和EFN的比较：我们首先删除了共同注意力模块和边界增强模块，15513表4：不同方法的重复性分析。忽略后处理的时间LSTMRMIRRNCMSABRINetCMPC我们的（VCM）我们的（ACM）时间（ms）58毫秒72Ms43毫秒79毫秒117毫秒60ms17Ms20ms表5：VCM和ACM之间的GPU内存（MB）比较。值越低越好。输入大小512×20×20512×40×40512×96×96VCM9.9354.351308.00ACM6.9214.2961.11图2中的CEFNet。然后，我们实现了编码器中的多模态融合方程。（1），解码器采用FPN [25]结构。该网络作为编码器融合的基线网络（EFN）。此外，类似于以前的工作，我们实现了FPN解码器中的多模态融合方程。（1）建立解码器融合的基线（DFN）。我们在Tab中评估两个基线。3，从中可以看出EFN明显优于DFN。在ResNet的帮助下，编码器融合策略在不增加额外计算负担的情况下实现了更强大的特征编码。共同注意的有效性：我们评估了香草共同注意模块（VCM）和不对称共同注意模块（ACM）的性能。较在基线EFN中，VCM分别为UNC-val、UNC-testA和UNC-testB带来6.8%、6.9%和8.2%的类似地，ACM在相同的数据集上分别实现了7.6%、7.6%和8.8%的增益ACM的性能略好于VCM。我们把它归因于特定于情态的亲和学习，它专注于情态中的重要区域，并实现对情态本身的更好的上下文理解。这有助于下一步的跨模态对准。BEM 的有效性：表。 3 给出了边界增强模块（BEM）的烧蚀结果，表明对边界细化的特殊考虑可以显著提高烧蚀性能。BEM可以为最终的预测结果带来约2%-3%的性能改进（总体IoU）。图5中的一些视觉结果证明了BEM的好处。这些数字反映出在边界元细化之后，预测掩模可以更紧密地拟合对象边界4.5. 失败案例我们在图中看到一些有趣的失败案例六、当查询不明确时会发生一种类型的失败。例如，对于左上角的示例，单词的拼写错误（right→right）导致句子的部分语义丢失。此外，对于右上角的示例，左边有两个马屁股另一种情况是，当查询包含低频或新词时（例如，在左下角的示例中，cop很少出现在训练数据中），我们的方法有时无法分割出核心re-tap。查询：图像结果GT图像结果GT查询：查询：图像结果GT图像结果GT图6：失败案例的视觉示例。Gion准确地说。这个问题可以通过使用一次/零次学习来缓解。最后，我们观察到有时小的物体不能被完全分割（右下角的例子）。这种现象可以通过放大输入图像的比例来消除。幸运的是，ACM对尺寸不敏感（Tab. 5详情）。通过对成功（图4）和失败案例的分析，我们认为共同注意模块即使在一些复杂的语义场景中也能学习高阶跨模态关系。它使网络能够更多地关注相关的信息区域，并产生有区别的前景特征。5. 结论在本文中，我们提出了一个编码器融合网络与共同注意嵌入（CEFNet）融合多模态信息参考图像分割。与解码器融合策略相比，我们的策略充分利用语言来指导多模型特征学习，而不增加计算复杂度。所设计的共同注意模块可以促进多模态特征之间的匹配，增强其针对性。此外，边界增强模块，使网络更加关注细节。在四个数据集上的广泛评估表明，所提出的方法在性能和速度上都优于以前的最先进的未来，我们可以将我们的共同注意模块扩展到一阶段的基础，以促进语言和视觉的融合。确认本工作得到了国家重点研发计划#2018AAA0102003、国家自然科学基金#61876202、#61725202、#61751212和#61829102、大连市科技创新基金#2019J12GX 039和中央大学基础研究基金#DUT20ZD 212的部分支持。15514引用[1] Ding-Jie Chen ， Songhao Jia ， Yi-Chen Lo ， Hwann-Tzong Chen，and Tyng-Luh Liu.用于参考图像分割的透明文本分组。 In Int. Conf. Comput. 目视，第7454-7463页一二三五六[2] 陈凯，庞江苗，王佳琪，熊宇，李晓曦，孙树阳，冯万森，刘紫薇，石建平，欧阳万里，等.混合任务级联实例分割. 在IEEE Conf. Comput. 目视模式识别，第4974-4983页2[3] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络，atrous卷积和全连接crfs进行语义IEEE传输模式分析马赫内特尔，40（4）：834-848，2017. 2[4] Liang-ChiehChen ， GeorgePapandreou ， FlorianSchroff，and Hartwig Adam.重新思考语义图像分割的卷积。arXiv预印本arXiv：1706.05587，2017。2[5] Xiaokang Chen，Kwan-Yee Lin，Jingbo Wang，WayneWu，Chen Qian，Hongsheng Li，and Gang Zeng.基于分离聚合门的双向跨模态特征传播rgb-d语义分割。arXiv预印本arXiv：2007.09183，2020。2[6] Y.-- W. 陈玉- H. 蔡氏T. 王玉- Y. Lin和M.-H.杨具有字幕感知一致性的引用表达式对象分割。在英国。马赫。目视Conf. ，2019年。6[7] Tianheng Cheng，Xinggang Wang，Lichao Huang，andWenyu Liu.边界保持掩模r-cnn。arXiv预印本arXiv：2007.08921，2020。2[8] 丁恒辉，蒋旭东，帅兵，刘爱群，王刚。基于上下文对比特征和门控多尺度聚合的场景分割方法. 在IEEE Conf.Comput. 目视模式识别第2393-2402页，2018年2[9] HugoJairEscalante，CarlosAHerna'ndez，JesusAGonzalez，AurelioL o' pez-Lo'pez，ManuelMontes，EduardoFMorales ， LEnriqueSuca r， LuisVillas enBucuor，andMichaelGrubinge r. 分段和注释的iapr tc-12基准。CVIU，114（4）：419-428，2010. 5[10] 冯光，博红光，孙嘉宇，张立和，卢沪川。 Cacnet：通过上下文聚合和对比嵌入的显著对象检测。神经计算，403：33-44，2020。2[11] Jun Fu ， Jing Liu ， Haijie Tian ， Yong Li ， YongjunBao，Zhiwei Fang，and Hanqing Lu.双注意力网络在场景分割中的应用。在IEEE Conf.目视模式识别，第3146-3154页，2019年。2[12] Caner Hazirbas ， Lingni Ma ， Csaba Domokos ， andDaniel Cremers. Fusenet：通过基于融合的cnn架构深入语义分割。在ACCV，第213-228页Springer，2016. 2[13] 凯明赫，吉奥吉亚·吉奥萨里，彼得·多尔和罗斯·吉尔希克。面具R-CNN。在国际会议计算中。目视，第2961-2969页，2017年。2[14] 胡荣航，马库斯·罗尔巴赫，特雷弗·达雷尔。从自然语言表达式中分割。在Eur. Conf.Comput.目视第108-124页。Springer，2016. 一、二、六[15] Ronghang Hu ， Huazhe Xu ， Marcus Rohrbach ， JiashiFeng，Kate Saenko，and Trevor Darrell.自然语言对象检索。在IEEE Conf.目视模式识别，第4555-4564页，2016年。2[16] Zhiwei Hu，Guang Feng，Jiayu Sun，Lihe Zhang，andHuchuan Lu.双向关系推理网络用于参考图像分割。在IEEE Conf. Comput.目视模式识别，第4424一、二、三、五、六、七[17] Shaofei Huang ， Tianrui Hui ， Si Liu ， Guanbin Li ，Yunchao Wei，Jizhong Han，Luoqi Liu，and Bo Li.通过跨模态渐进理解的参考图像分割。在IEEE Conf.目视模式识别，第10488- 10497页，2020年。一、二、三、五、六、七[18] Zilong Huang，Xinggang Wang，Lichao Huang，ChangHuang，Yunchao Wei，and Wenyu Liu. Ccnet：用于语义切分的交叉注意。在国际会议上Comput.目视，第603-612页，2019年。2[19] Tianrui Hui，Si Liu，Shaofei Huang，Guanbin Li，SansiYu，Faxi Zhang，and Jizhong Han.基于语言结构指导的上下文建模在参考图像分割中的应用。arXiv预印本arXiv：2010.00515，2020。一二三五六[20] Max Jaderberg，Karen Simonyan，Andrew Zisserman，et al. Spatial Transformer networks.在高级神经信息。过程。系统2017-2025页，2015年。5[21] Sahar Kazemzadeh ， Vicente Ordonez ， Mark Matten ，and Tamara Berg.参考游戏：指自然场景的照片中的物体。参见EMNLP，第7875[22] Phi l ippKr aühenbuühl和VladlenKoltun。具有高斯边缘势的全连通crfs的有效推理在高级神经信息过程系统第109-117页，2011年。六、七[23] Ruiyu Li ，Kaican Li ，Yi-Chun Kuo， Michelle Shu，Xiaojuan Qi，Xiaoyong Shen，and Jiaya Jia.参考图像分割通过循环细化网络。在IEEE Conf.目视模式识别，第5745-5753页，2018年。一、二、六[24] Yue Liao ， Si Liu ， Guanbin Li ， Fei Wang ， YanjieChen，Chen Qian，and Bo Li.一种用于指代表情识别的实时跨模态相关滤波方法。在IEEE Conf.目视模式识别，第10880-10889页，2020年。2[25] 林宗义、彼得·多尔、罗斯·格希克、何开明、B-哈拉斯·哈里哈兰和塞尔日·贝隆吉。用于目标检测的特征金字塔网络.在IEEE Conf.目视帕特-特恩·博格。，第2117-2125页，2017年。二、八[26] Chenxi Liu，Zhe Lin，Xiaohui Shen，

下载后可阅读完整内容，剩余1页未读，立即下载