RGB-D显著性检测的选择性自互注意

185 浏览量更新于2023-10-23 收藏 1.64MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13756学习选择性自互注意的RGB-D显著性检测刘念1，2张倪1韩俊伟11西北理工大学2穆罕默德·本·扎耶德人工智能{liunian228，nnizhang.1995，junweihan2010}@ gmail.com摘要RGB-D图像的显著性检测是近年来研究的热点。以往的模型采用早期融合或结果融合方案来融合输入的RGB和深度数据或其显著性图，这会导致分布间隙或信息丢失的问题。其他一些模型使用特征融合方案，但受到线性特征融合方法的限制。在这篇文章中，我们建议融合在两种模式中学习到的注意力。受Non-local模型的启发，本文将自我注意和彼此考虑到其他通道的注意力的可靠性，我们进一步提出了一个选择注意力加权新添加的注意力术语。我们将所提出的注意力模块嵌入到双流C-NN中，用于RGB-D显著性检测。此外，我们还提出了一个残差融合模块，将深度解码器的特征融合到RGB流中。在七个基准数据集上的实验结果证明了所提出的模型组件和我们最终的显着性模型的有效性。我们的代码和显着图可在https://github.com/nnizhang/S2MA上获得。1. 介绍显著性检测是将视觉场景中最显著的目标从复杂背景中区分出来的任务。它模仿人类的视觉注意机制，找出什么抓住人们该任务可以用作许多其他视觉任务的预处理技术或模型组件，例如语义分割[52，2]和图像编辑[43，50]。几十年来，研究人员提出了许多显着性模型，其中大多数都适用于RGB图像。虽然最近的RGB显著性模型已经实现了非常有希望的性能，例如，[32，33，17，31]，他们只能利用*通讯作者图 1. Comparison of the RGB and RGB-D saliency detectionresults and the learned attention.在（a）中，我们给出了一个具有挑战性的图像及其相应的深度图。（b）显示了基于RGB的深度模型（顶部）和基于RGB-D的模型（底部）的显着性（c）说明了在基于RGB的非局部模型[51]（顶部）和我们提出的注意力融合模型（底部）中相同位置（红点）的学习注意力地图来自输入RGB数据的外观线索，其在许多具有挑战性的场景中受到严重限制，例如，杂乱的背景或与背景具有相似外观的显著对象。然而，我们人类实际上生活在一个3D环境中，其中深度线索可以为外观线索提供足够的补充信息。因此，研究RGB-D数据的显著性检测问题是十分必要的。在图1中，我们展示了一个具有复杂外观的具有挑战性的图像。在列（b）中，我们可以看到其基于RGB的显著性检测结果容易受到干扰并且具有严重的假阳性突出。然而，其前景对象在深度方面与背景有很大因此，可以使用深度信息来容易地区分前景对象并获得准确的显著性图。为了将外观信息和深度线索结合起来用于RGB-D显著对象检测，一些先前的方法采用早期融合策略[46，41，34，14]，在这种情况下，RGB和深度数据都被视为输入并在统一模型中然而，由于两种模式的分布差异，一个模型很难很其他一些模型使用结果融合策略[11，22，49]，其中RGB图像和深度13757map分别生成各自的显著图，然后采用融合方法对两个显著图进行融合。该方案也是次优的，因为丰富的模态信息在两个单独的显著性建模过程中被逐渐压缩和丢失。因此，两个显着图之间的最终交互是非常有限的。作为更好的选择，许多模型利用中间融合策略，即，融合两种模态的中间信息，然后生成最终的显著性图。最典型的是，许多最近提出的深度RGB-D显着性模型[40，5，44，23，3，4，19]首先使用双流CNN分别提取RGB和深度特征，然后通过求和或级联将它们融合。我们称这些方法为特征融合策略。该策略避免了分布间隙问题，将丰富的多模态特征与丰富的交互融合在一起.然而，简单的特征求和或拼接只能学习线性融合RGB和深度特征，无法探索更复杂的多模态交互。本文提出了一种新的中间融合策略。受非局部（NL）模型[51]的启发，我们提出融合多模态注意。NL模型将每个位置计算为一组空间注意力，然后使用它们来聚合所有位置的特征，从而能够纳入长期全球背景。由于NL模型中的注意力和传播特征基于相同的特征图，因此这种注意机制通常被称为自注意。考虑到RGB和深度数据之间的互补信息，我们提出使用彼此的注意力来进一步传播全局上下文由于原始的自我注意力可能受到单一模态信息的高度限制，因此所提出的相互注意力可以在传播上下文特征时基于另一模态的信息提供关于应该在哪里参加的额外补充线索。在图1（c）中，我们展示了图像中相同位置（红点）的两个注意力地图。我们可以看到，基于RGB的注意由于复杂的外观而具有高度的偏向性，而融合注意通过融合深度注意可以准确定位显著对象的主体。此外，由于来自其他模态的补充信息可能并不总是可靠的所有位置，我们提出了另一个选择注意力，以决定多少相互注意力应该参与在每个位置。我们在双流CNN网络中采用这种新的选择性自我相互注意机制来融合多模态线索进行RGB-D显著性检测。此外，我们还提出了一种新的残差融合模块，将深度线索转换实验结果表明，我们提出的模型组件，都有助于提高显著性检测性能。最后，我们的显着性模型优于所有其他最先进的方法。2. 相关工作RGB-D图像上的显著性检测。早期的RGB-D显著对象检测方法通常借用公共先验（例如，对比度[8]和紧凑度[10]）从RGB显着性模型设计RGB和深度特征。然而，一些研究人员利用深度特定的先验，例如，形状和3D布局先验[9]，以及各向异性中心-环绕差异[28，22]。最近的工作将CNN引入到RGB-D显著对象检测中，并取得了令人鼓舞的结果。Qu等人[41]采用早期融合策略将手工制作的RGB和深度特征序列化在一起作为CNN输入。Fan等人[14] Liuet al. [34]将每个深度图作为第4通道与相应的RGB图像作为CNN输入连接起来。Wang等人[49]采用结果融合策略并学习开关图以自适应地融合RGB和深度显著图。近年来的许多研究工作采用了中间融合策略来融合中间深度和外观特征。Han等人[23]将RGB和深度模态的表示层Chen等人[3]提出了一个互补感知的融合模块来捕获跨模态和跨级别的特征。相比之下，我们的模型专注于融合多模态注意力。其他一些现有的模型也利用注意力机制来融合这两种模态，例如，[55]和[40]。然而，他们只从深度视图中生成通道[40]或空间[55]注意力，并采用它来过滤表观特征。然而，我们从这两种观点中产生非局部注意力，然后将它们融合以传播长程上下文。非本地网络。Vaswani等人[47]提出了一种用于语言建模自注意网络。给定一个查询和一组键值对，它们首先计算查询和每个键之间的注意力权重。然后他们使用注意力权重通过加权和来聚合值类似地，Wanget al.[51]提出NL模型，用于在2D或3D视觉建模中学习自我注意力Huang等人. [26]提出用交叉路径代替稠密连接的注意路径，以提高模型效率。Cao等人[1]建议将NL模型与SENet [24]统一起来，以使用轻量级网络结构学习独立于查询的全局上下文。在[18]中，Fuet al.应用NL模型来捕获空间和信道的长期依赖性。其他一些模型[7，30，57，54]建议通过学习代表性的键值对来提高模型性能和效率在本文中，我们提出通过融合来自多模态的注意来改进NL模块，从而大大促进了13758注意力生成和上下文传播的准确性。多模态注意力学习。在[36]和[48]中，作者还提出了学习多通道注意。Nam等人[36]建议学习多模态推理和匹配的视觉和文本注意力机制。Wan等人[48]在代码检索任务的三种模态源代码中应用三种注意力模型。然而，他们都是分别学习和接受每一种情态的注意，然后融合所获得的注意特征。相反，我们建议直接融合多通道注意。3. 从非局部到选择性自互注意最后，NL模块基于Y学习残差信号以改进原始特征X并获得最终输出Z：Z=YWZ+X，（5）其中WZ∈RC1×C是1×1Conv层的权重，用于将关注特征投影回原始特征空间。3.2.自我相互注意NL模块中的关注度A（X）的获得可以重写为：A（X）=softmax（XW <$X<$）。（六）θφ在本节中，我们详细介绍了拟议的选择性融合多模态信息的自互注意（S2MA它建立在NL模块[51]的基础上，另外还添加了所提出的注意力融合和选择性注意力。我们首先简要回顾NL模块，然后进入S2MA模块.3.1. 审查NL模块在这里，我们简要回顾一下NL模块，其网络架构如图 2 （ a ）所示。成像我们有一个特征映射X∈RH×W×C，其中H、W和C分别代表它的高度、宽度和通道数，NL模块首先将X嵌入到三个具有C1个通道的空间中θ（X）=XWθ，φ（X）=XWφ，g（X）=XWg，（1）其中Wθ、Wφ和Wg∈RC×C1是嵌入权重，嵌入可以通过1×1卷积实现，如图2（a）所示接下来，在θ和φ嵌入中计算相似性（或亲和度）函数f。在[51]中，提出了函数f的几种形式。这里我们介绍最广泛使用的嵌入式高斯函数，其中f（X）=θ（X）φ（X）φ，（2）且f（X）∈RHW×HW.在f（X）中，每个元素fi，j表示X中第i个和第j个空间位置之间的亲和力。随后，NL模块通过使用沿着第二维的归一化来A（X）=softmax（f（X）），（3）其中每行Ai表示所有位置相对于第i个位置的归一化关注度。然后通过加权和来聚合gY=A（X）g（X），（4）其中Y∈RHW×C1是一个值得注意的特征，它被进一步重塑为H×W×C1的形状。我们可以看到，它是原始特征X本身的双线性投影，因此NL模块属于自注意范畴。我们认为，使用同一特征的进一步投影只能带来有限的信息和性能增益（见第5.4节中的实验结果）。对于多模态任务，例如RGB-D显著对象检测，我们可以利用来自多个模态的特征来整合信息互补性。在本文中，我们首先提出融合自互注意力（SMA），以改善多模态数据的NL模块。考虑到我们有两个分别来自RGB和深度模态的特征映射Xr，Xd∈RH×W×C，我们遵循NL模块将它们嵌入θ，φ，g空间，并分别获得它们的亲和矩阵：fr（Xr）=θr（Xr）φr（Xr）θ，f d（Xd）= θ d（Xd）φ d（Xd）φ。（七）由于两个亲和矩阵是通过它们自己的模态特定特征计算的，因此我们通过简单求和将它们融合，然后获得融合的注意力：A f （ Xr ， Xd ） =softmax （ fr （ Xr ） +fd（Xd））.（八）然后，我们使用Af分别在两种模态中传播长距离上下文依赖性：Yr=Af（Xr，Xd）gr（Xr），Yd= A f（Xr，Xd）g d（Xd）.（九）最后，我们使用（5）来获得模态特定的输出Zr和Zd。注意，在Af中，两个模态的亲和力都被包括，因此注意力生成和上下文传播可以变得更准确。第5.4节中的实验结果表明，SMA模块可以为RGB-D显著性检测13759任务带来显著的性能增益13760按元素之和通道级联矩阵式Hadamard矩阵积1 × 1转换softmaxsoftmax��×��× 11softmaxC��×�� ×��×�� ×��×�� ×��1��×�� ×��1��×�� ×��1��×�� ×��1��×�� ×��1��×�� ×��1��×��×��×��×��×�� ×��1��×�� ×��1��×�� ×��×�� ×��×�� × 1��×�� ×��×�� ×��1��×��×�� ×��矩阵乘法��×��1softmax1��×��1��×�� ×��1(a) 非本地模块（b）选择性自我-相互注意模块图2.原始非本地模块[51]（a）和建议的选择性自相互注意模块（b）的网络架构3.3.选择性自我相互注意SMA模型平等地考虑了自我相互注意然而，来自另一模态的相互注意对于所有位置并不总是可靠的，因为来自一个模态的信息对于某些位置可能是不准确的或无用的。一个典型的例子是，一些深度图在一些数据集中是嘈杂的和不准确的。基于广泛验证的有效性的自我注意力机制和实验结果，我们选择重新加权的相互注意力计算一个选择注意力的权重在每个位置。具体来说，我们首先连接Xr和Xd，然后使用1×1Conv层和softmax激活函数来计算选择注意力：α=softmax（Conv（[Xr，Xd]）），（10）其中α∈RH×W×2，[·]表示级联运算。我们进一步把它分裂成两个映射α r，α d∈RH×W×1. 它们中的每一个都代表了相应模态在所有位置处的可靠性。然后，我们可以通过用两个亲和力的加权和来改变（8）来Ar（Xr，Xd）=softmax（fr（Xr）+αd<$fd（Xd）），Ad（Xr，Xd）=softmax（fd（Xd）+αr<$fr（Xr）），（11）其中，λ是信道方式的Hadamard矩阵乘积。最后，我们使用Ar和Ad分别聚合两个视图的上下文特征，类似于（9）。S2MA模块的整个网络架构如图2（b）所示.第5.4节中的实验结果表明，使用所提出的选择注意力可以促进-在S-MA模型的基础上进一步提高模型的性能。4. RGB-D显著性检测网络基于所提出的S2MA模块，我们提出了一种新的用于RGB-D显著性检测的深度模型如图3（a）所示，我们的模型基于双流CNN，每个模型都基于UNet [42]架构。具体来说，我们将VGG-16网络[45]作为UNets的主干，并为两个编码器部分共享相同的网络结构。我们遵循[33]稍微改变VGG-16网络结构如下。首先，我们将pool4和pool5层的池化步长更改为1，将conv5块的膨胀率[6]更改为2。其次，我们将fc6层转换为3×3Conv层，具有1024个通道和12的膨胀率。第三，我们将fc7层转换为1024通道的1×1因此，编码器网络成为完全卷积网络[35]以8为输出步长。接下来，为了进一步增强编码器网络的能力，我们采用了DenseASPP [53]模块，该模块将密集连接[25]引入ASPP [6]模块以覆盖密集特征尺度。我们首先采用1×1 Conv层将fc7特征映射压缩到512个通道，然后在其上部署DenseASPP模块。考虑到我们特定的训练图像大小，我们设计了三个扩张的Conv分支，它们具有3×3的Conv层，176个通道，扩张率分别为2，4和8。同时，我们按照[53]将三个分支密集连接起来。为了捕获全局特征，我们还设计了一个- other分支来平均池输入特征图，然后C��×��1��×�� ××��1��×�� ×��1×��×�� ×��113761（一）(b)（c）第（1）款图3.我们提出的RGB-D显著性检测网络的架构。(a)显示了主要的双流网络。跳过连接的VGG层在第一流中由“C* *”和“fc*"标记。特征图的通道号也在第二流中标记。(b)显示了我们使用的DenseASPP模块。还提供了一些关键的频道号。(c)分别显示这里的将其放大到原始大小。最后，我们将输入的特征图和所有四个分支的特征连接起来，然后将它们压缩到512个通道。整个模块架构可以在图3（b）中找到。在DenseASPP模块之后，我们将RGB和深度CNN流的特征作为输入，并采用所提出的S2MA模块来融合多模态注意力并为两个视图传播全局上下文。然后，我们进入解码部分。在第一个解码器模块中，我们使用两个Conv层，512个通道。然后，我们遵循UNet [42]架构，逐步跳过连接中间编码器功能与解码器功能。所使用的中间VGG特征是五个块的最后Conv特征图，其在图3（a）中标记。为每个深度解码器模块，我们使用一个朴素的融合模型通过简单地连接VGG特征和先前的解码器特征，然后采用两个Conv层来融合它们。对于RGB解码模块，我们设计了一个残差进一步融合深度解码器特征一个残余的连接。具体地，在连接两个输入特征并采用第一Conv层之后，我们将该特征与相应深度解码器模块的第一Conv特征连接，作为融合特征的预激活。然后我们使用另一个Conv层来学习残余融合信号，以便于网络训练。详细的网络结构如图3（c）所示。请注意，我们在解码部分没有进一步采用S2MA模块，因为它对于大型特征图来说是计算上的禁止。我们解码器部分中的每个Conv层都有3×3内核，后面是BN [27]层和ReLU激活函数。每个解码器模块中的输出通道数被设置为与下一个跳过连接的VGG功能相同，这也在图3（a）中标记对于最后三个解码器模块中的每一个，由于先前的解码器特征图具有比跳过连接的VGG特征图更小的空间大小，因此我们通过双线性插值对其进行上采样以逐渐放大空间大小.最后，我们在最后一个解码器特征图上采用具有1个通道的3×3Conv层，并使用sigmoid激活函数来获得每个CNN流的显著性图。5. 实验5.1. 数据集对于模型训练和评估，我们使用七个RGB- D显着性基准数据集，如下所示。NJUD[28]有1,985张从互联网、3D电影和致密ASPPRRRRR646412825664日本语128512 512512256512 512 10241024512致密ASPPFFFFFfc7平均池D=2C致密ASPPD=4CCD=8VGG特征RCCFVGG特征CC1_2512C2_2C3_3C4_3C5_3FC6fc7起来512176176176512BNReLU起来UP BNReLUConvConvBNReLUConvBNReLUBNReLUConvBNReLUConvBNReLU13762表1.对DenseASPP（DA）模块、NL模块、SMA模块、S2 MA模块和残余融合模块ENUR的有效性进行消融研究。蓝色表示最佳性能。设置NJUD [28]NLPR [39]RGBD 135 [8][29]第二十九话DANLSMAS2MAPURERSMmaxFEMaeSMmaxFEMaeSMmaxFEMaeSMmaxFEMaeC0.8650.8770.8520.8650.9020.9130.0720.0570.8970.9110.8730.8920.9410.9450.0390.0300.8750.8890.8340.8610.9270.9250.0460.0320.7860.7870.7750.7680.8360.8360.1310.118CC0.8770.8650.9160.0570.9080.8880.9450.0320.8920.8680.9220.0340.7930.7840.8380.123CC0.8900.8820.9270.0580.9070.8860.9470.0350.9180.9030.9560.0280.8210.8120.8570.108CC0.8890.8840.9290.0560.9150.8980.9500.0310.9290.9180.9720.0250.8290.8190.8650.101CCC0.8940.8890.9300.0530.9150.9020.9530.0300.9410.9350.9730.0210.8370.8350.8730.094图像深度深度SA RGB SAαdAr图4.学习注意力地图的可视化。我们在三幅图像中显示了学习的基于深度的自我注意力（Depth SA），基于RGB的自我注意力（RGB SA），选择注意力αd和融合注意力Ar在每个图像中，红点表示查询位置。立体照片NLPR[39]和RGBD 135[8]分别包含MicrosoftKinect收集的1，000和135张图像。LFSD[29]包含由Lytro光场相机捕获的100张图像。STERE[37]包含从互联网下载的1，000对双目图像。SSD[56]有80个立体电影帧。DUT-RGBD[40]包含由Lytro 2相机拍摄的1，200张真实图像。5.2. 评估指标根据最近的工作，我们采用了四个评价指标。第一个是最大F测度（maxF）。F-测度综合考虑了二值化显著图的精确度和重调用度，给出了最优阈值下的maxF得分。第二个度量是结构度量Sm[12]，其评估显著性图和地面实况之间的区域感知和对象感知结构相似性。我们使用第三个度量作为增强的对齐度量E[13]来捕获显着图的全局统计信息和局部像素匹配信息第四个指标是平均绝对误差（MAE）。它测量显着图和地面真实值之间的每像素绝对差异的平均值5.3. 实现细节为了公平比较，我们采用与[23，3，55]相同的训练集，其中包括来自NJUD的数据集和来自NLPR数据集的650张图像。对于数据增强，我们首先将训练图像和相应的深度图调整为288×288像素，然后随机裁剪256×256个图像区域来训练网络。也使用随机水平翻转。对于深度流CNN，我们简单地将每个深度图复制到三个通道以适应网络输入层。由于不同数据集的深度图具有不同的表示形式，因此我们将它们处理为统一的表示形式，其中小的深度值表示对象靠近相机，反之亦然。我们还将每个图像的深度图归一化到[0，255]的值范围，以简化网络训练。最后，每个图像和三通道深度图减去它们的平均像素值作为双流网络的输入。我们使用预测的显着图和地面真实掩模之间的交叉熵损失作为两个流的训练损失。为了便于网络训练，我们还对每个解码器模块使用深度监督，其中我们首先在每个解码器特征图上采用具有sigmoid激活函数的3×3在[33]之后，我们根据经验使用0.5，0.5，0.5，0.8和0.8来加权每个流的前五采用随机梯度下降（S-GD）算法和动量算法对显著性网络进行了40,000次迭代优化。权重decay、动量和批大小分别设置为0.0005、0.9和8。初始学习率设置为0.01，并分别在第20，000次和第30，000我们使用Pytorch[38]封装并使用GTX 1080 Ti GPU进行计算加速。在测试过程中，我们直接将每个图像及其深度图调整为256×256像素作为网络输入，并从RGB流的网络输出中获得显著图，而无需任何后处理方法。每个图像的测试过程需要0.107秒。5.4. 消融研究为了评估所提出的模型组件的有效性，我们对四个数据集进行了消融研究13763表2.我们提出的模型与其他11个最先进的RGB-D显着性模型在7个基准数据集上的4个评估指标的定量比较红色和蓝色分别表示最佳和第二佳性能数据集度量LBE[16个]DCMC[10个国家]SE[22日]DF[41个]AFNet[49个]CTMF[23日]MMCI[五]《中国日报》PCF[3]第一章TANet[4]美国CPFP[55个]DMRA[第四十届]S2MA（我们的）NJUDSm↑0.6950.6860.6640.7630.7720.8490.8580.8770.8780.8780.8860.894maxF↑0.7480.7150.7480.8040.7750.8450.8520.8720.8740.8770.8860.889E↑0.8030.7990.8130.8640.8530.9130.9150.9240.9250.9230.9270.930[28]第二十八话0.1530.1720.1690.1410.1000.0850.0790.0590.0600.0530.0510.053NLPRSm↑0.7620.7240.7560.8020.7990.8600.8560.8740.8860.8880.8990.915maxF↑0.7450.6480.7130.7780.7710.8250.8150.8410.8630.8670.8790.902E↑0.8550.7930.8470.8800.8790.9290.9130.9250.9410.9320.9470.953[39]第三十九话0.0810.1170.0910.0850.0580.0560.0590.0440.0410.0360.0310.030RGBD 135Sm↑0.7030.7070.7410.7520.7700.8630.8480.8420.8580.8720.9000.941maxF↑0.7880.6660.7410.7660.7290.8440.8220.8040.8270.8460.8880.935E↑0.8900.7730.8560.8700.8810.9320.9280.8930.9100.9230.9430.973[8] MAE↓0.2080.1110.0900.0930.0680.0550.0650.0490.0460.0380.0300.021LFSDSm↑0.7360.7530.6980.7910.7380.7960.7870.7940.8010.8280.8470.837maxF↑0.7260.8170.7910.8170.7440.7910.7710.7790.7960.8260.8560.835E↑0.8040.8560.8400.8650.8150.8650.8390.8350.8470.8720.9000.873[29]第二十九话0.2080.1550.1670.1380.1330.1190.1320.1120.1110.0880.0750.094STERESm↑0.6600.7310.7080.7570.8250.8480.8730.8750.8710.8790.8860.890maxF↑0.6330.7400.7550.7570.8230.8310.8630.8600.8610.8740.8860.882E↑0.7870.8190.8460.8470.8870.9120.9270.9250.9230.9250.9380.932[37] MAE↓0.2500.1480.1430.1410.0750.0860.0680.0640.0600.0510.0470.051SSDSm↑0.6210.7040.6750.7470.7140.7760.8130.8410.8390.8070.8570.868maxF↑0.6190.7110.7100.7350.6870.7290.7810.8070.8100.7660.8440.848E↑0.7360.7860.8000.8280.8070.8650.8820.8940.8970.8520.9060.909[56] MAE↓0.2780.1690.1650.1420.1180.0990.0820.0620.0630.0820.0580.052DUT-Sm↑0.6950.4990.5260.7360.7020.8310.7910.8010.8080.8180.8890.903RGBD maxF↑0.6920.4110.4580.7400.6590.8230.7670.7710.7900.7950.8980.901E↑0.8000.6540.7090.8230.7960.8990.8590.8560.8610.8590.9330.937[40] MAE↓0.2200.2430.2010.1440.1220.0970.1130.1000.0930.0760.0480.043也就是说，NJUD、NLPR、RGBD 135和LFSD。使用具有仅在RGB图像上训练的朴素融合解码器模块的基本UNet模型作为基线模型。实验结果示于表1中。DenseASPP模块的有效性。第一行表示基线UNet，而第二行表示我们采用了DenseASPP模块。对比结果表明，使用DenseASPP模块可以明显提高显著性检测的性能，为我们提出的注意力模块和残差融合模块的评估提供了一个更强大的基线模型。S2MA模块的有效性。我们在表1的第3到第5行中显示了进一步添加NL模块、提议的SMA模块和提议的S2MA模块的模型性能。我们可以看到，在强大的基线模型（UNet+DenseASPP）的基础上，添加N-L [51]模块只能略微提高（甚至降低）模型性能。而使用我们提出的SMA模块在N-JUD，RGBD 135和LFSD数据集上带来了显着的性能增益，这证明了所最后，利用提出的S2MA模块可以进一步适度提高模型性能，特别是在NLPR，RGBD 135和LFSD数据集上。这些结果表明，使用建议的选择注意力加权的相互注意力的注意力融合是有益的。我们还尝试使用αr和αd来衡量自我注意和相互注意，但结果更糟。为了彻底理解我们提出的注意力融合方案的有效性，我们在图4中展示了学习的基于RGB的自我注意力、基于深度的自我注意力、选择注意力αd和融合注意力Ar的一些可视化示例。我们可以看到，通常在每个单一模态中学习到的自我注意力是不完善的，甚至是有噪声的，而在所提出的S2MA模块中学习到的Ar通过融合来自两个模态的信息可以更准确地对于αd，我们发现对于具有大深度值的像素，它往往很小。这是因为大深度通常是粗粒度的，因此区分性较低。相反，对于接近的像素，αd往往较大，因为它们的深度更准确且更具区分力。此外，对于显著对象内部的像素，αd约为0.5，这意味着- s RGB和深度注意对于显著对象13764图像深度GTS2 MADMRACPFPTANetPCFMMCICTMFAFNetDFSEDCMCLBE[第四十届][55个][4]美国[3]第一章[五]《中国日报》[23日][49个][41个][22日][10个国家][16个]图5.与11种最先进的RGB-D显着性检测方法进行定性比较（GT：Ground Truth）地区剩余融合模块的有效性。在表1的最后一行，我们进一步采用残差融合模块外观与背景，第5至第7图像具有多个对象。一般来说，我们的模型可以准确地定位显着的对象，并精确地分割它们，而其他模型在这些复杂的场景中受到严重干扰在我们的萨利恩模型中。结果表明，使用该模块进一步将深度解码器特征融合到具有残差路径的RGB流中，可以进一步提高模型性能，特别是在RGBD 135和LFSD数据集上。5.5. 与最新技术水平方法的为了评估我们提出的显着性模型的有效性，我们将其与其他11种最近发表的RGB-D显着性方法进行了比较，这些方法包括LBE [16]，DCM-C [10]，SE [22]，DF [41]，AFNet [49]，CTMF [23]，MMCI[5]，PCF [3]，TANet [4]，CPFP [55]和DMRA [40]。的前三种方法是基于传统模型的，后八种方法是基于深度模型的。由于DMRA [40]模型的训练集还包括来自DUT-RGBD数据集的800张图像，因此我们进一步对这些图像进行微调，以便在该数据集上进行公平比较。在表2中，我们显示了定量比较结果。我们可以看到，我们的模型在NJUD、NLPR、RGBD 135、SSD和DUT-RGBD数据集。特别是在RGBD 135数据集上，所提出的S2MA模型的性能大大优于次优模型在其他两个数据集上，我们的模型实现了第二好的性能，但接近最好的模型。我们还在图5中给出了定性比较结果。结果表明，该模型能够处理各种具有挑战性的问题，前两幅图像背景复杂，第三幅和第四幅图像中的显著物体具有相似性6. 结论本文提出在非局部模型中融合自我注意和他模态注意，作为一种新的多模态信息融合方法。融合后的注意力更准确，从而可以传播更好的全局上下文。我们也发展了一个选择注意机制来重新加权相互注意项，以过滤掉不可靠的模态信息。提出的S2MA模块被嵌入到双流CNN中，以解决RGB-D显著性检测问题。实验结果表明，S2MA在强大的基线模型基础上显著提高了模型性能因此，我们的显着性模型表现良好，对国家的最先进的RGB- D显着性检测方法。在未来，我们提出的S2MA模块也可以用于其他多模态任务，例如视频显着性检测[15]，视觉问题和分割答案[20]以及视听任务[21]。致谢这项工作得到了国家重点研发计划的部分支持，资助号为2017YFB1002201。这项工作也得到了“西北工业大学跨学科研究基金”和中央大学基础研究基金（3102019PJ005）的支持13765引用[1] 曹岳、徐佳瑞、林斯蒂芬、魏方云和韩虎。Gcnet：非局域网络满足挤压激励网络和超越。arXiv预印本arXiv：1904.11492，2019。2[2] Arslan Chaudhry，Puneet K. Dokania，and Philip H. S. 乇发现用于弱监督语义分割的类特定像素。在BMVC，2017年。1[3] 陈昊和李有福。渐进互补感知融合网络用于rgb-d显著目标检测。在CVPR中，第3051-3060页，2018年。二、六、七、八[4] 陈昊和李有福。用于rgb-d显著对象检测的三流注意感知网络。TIP，28（6）：2825- 2835，2019. 二七八[5] 陈昊、李又甫、苏丹。rgb-d显著目标检测的多尺度、多路径和跨模态交互的多模态融合网络。模式识别，86：376-385，2019。二七八[6] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义TPAMI，40（4）：8344[7] Yunpeng Chen，Yannis Kalatidis，Jianshu Li，ShichengYan，and Jianshi Feng. A 2-nets：双重注意网络。在NIPS，第352-361页，2018年。2[8] 程玉鹏，付华珠，魏星星，肖江建，曹晓春.深度增强显著性检测方法。在互联网多媒体计算和服务国际会议上，第23页。ACM，2014年。二六七[9] Arridhana Ciptadi，Tucker Hermans，and James Bogger.对显着性的深入观察。InBMVC，2013. 2[10] 丛润民，雷建军，张长青，黄清明，侯春平。基于深度置信度分析和多线索融合的立体图像 IEEE SignalProcessing Letters，23（6）：819二七八[11] Karthik Desingh，K Madhava Krishna，Deepu Rajan和CV Jawahar。深度真的很重要：利用深度改进视觉显著区域检测。InBMVC，2013. 1[12] Deng-Ping Fan，Ming-Ming Cheng，Yun Liu，Tao Li，and Ali Borji.Structure-measure：一种评估前景图的新方法在ICCV，第4558-4567页，2017年。6[13] Deng-Ping Fan ， Cheng Gong ， Yang Cao ， Bo Ren ，Ming-Ming Cheng，and Ali Borji.二进制前景图评估的增强对准措施。在IJCAI中，第698AAAI Press，2018. 6[14] Deng-Ping Fan，Zheng Lin，Jia-Xing Zhao，Yun Liu，Zhao Zhang ， Qibin Hou ， Menglong Zhu ， and Ming-Ming Cheng.重新思考rgb-d显著对象检测：模型、数据集和大规模基准测试。 arXiv 预印本 arX- iv ：1907.06781，2019。一、二[15] Deng-Ping Fan，Wenguan Wang，Ming-Ming Cheng，and Jianbing Shen.将更多的注意力转移到视频显著对象检测上。在CVPR中，第8554-8564页，2019年。8[16] David Feng ， Nick Barnes ， Shaodi You ， and ChrisMcCarthy.用于rgb-d显著目标检测的局部背景封闭。在CVPR，第2343-2350页，2016年。七

下载后可阅读完整内容，剩余1页未读，立即下载