深度引导的多尺度循环注意力网络用于显著性检测

105 浏览量更新于2023-10-16 收藏 13.16MB PDF 举报

显著性检测

复杂场景

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

yrpiao@dlut.edu.cn, {jiwei521,lijingjing}@mail.dlut.edu.cn, {miaozhang,lhchuan}@dlut.edu.cn72540深度引导的多尺度循环注意力网络用于显著性检测0Yongri Piao Wei Ji Jingjing Li Miao Zhang � Huchuan Lu Dalian Universityof Technology, China0摘要0在这项工作中，我们提出了一种新颖的深度引导的多尺度循环注意力网络用于显著性检测。它在复杂场景中取得了显著的性能。我们的网络有三个主要贡献，通过实验证明具有显著的实际优点。首先，我们设计了一个有效的深度细化块，使用残差连接来充分提取和融合来自RGB和深度流的多级配对互补线索。其次，创新地将具有丰富空间信息的深度线索与多尺度上下文特征相结合，以准确定位显著对象。第三，我们通过受人脑内部生成机制启发的新颖循环注意力模块来提升模型的性能。该模块可以通过全面学习融合特征的内部语义关系并通过面向内存的场景理解逐步优化局部细节，从而生成更准确的显著性结果。此外，我们创建了一个包含更复杂场景的大规模RGB-D数据集，可以全面评估显著性模型。在六个公共数据集和我们的数据集上进行的大量实验证明，我们的方法能够准确识别显著对象，并在16种最先进的RGB和RGB-D方法上实现一致优越的性能。01. 引言0显著目标检测（SOD）旨在识别场景中最吸引人类注意力的区域[23,33,44]。最近，这个基本任务在各种计算机视觉应用中发挥着重要作用[15,21,29,37]，例如视觉跟踪、图像分割和目标识别。过去，大多数显著性方法[11,28,32,34,41,50]都集中于基于有限领域特定知识提取手工特征，这可能限制了它们在不同场景中的泛化能力。最近，基于CNN的方法由于其在性能上的质的飞跃而取得了显著的成果0� 张教授为通讯作者。0RGB 深度 GT 我们的0PDNet [48] CTMF [18]0R 3 Net[10] PAGRN[47] PiCANet[30] Amulet[44]0PCA [3] MMCI [4]0图1.复杂场景中几种最先进的基于CNN的显著性方法的显著图。RGB-D方法以粗体标记。0由于CNN的强大能力[25]在分层提取信息方面，许多工作[10,22,30,44,45,47]都集中于基于RGB图像识别显著性区域，并取得了优越的性能，但在某些复杂场景中仍然具有挑战性，例如前景和背景相似，低强度环境。包含空间结构和3D布局等各种深度线索的深度信息已被证明可以在SOD中缓解这些问题[3,4,35]。在本文中，我们主要关注如何有效地使用RGB-D数据来增强模型在挑战性场景中的鲁棒性。如图1所示，RGB-D方法在复杂场景中优于RGB方法，其中显著对象与其周围环境具有相似的外观。然而，以前的RGB-DSOD方法存在一些共同的局限性：1）大多数基于CNN的方法[4,18,35]通常通过直接连接或求和在浅层或深层阶段融合RGB和深度特征。没有考虑到多级RGB和深度信息的互补性。具体而言，深层特征可以提供有区别的语义信息，而浅层特征也包含了丰富的局部细节，用于准确识别显著对象。最近的一项工作[3]专注于融合多级信息进行预测，并取得了更好的性能。2）场景中的多个对象在深度和尺度上具有很大的变化。72550进一步，对具有不同尺度的深度线索和对象之间的关系进行研究，可以为准确定位显著区域提供重要的引导线索。然而，据我们所知，这种关联性在以前的SOD工作中从未进行过研究。3）研究表明，人们使用内部生成机制（IGM）[17,46]来感知视觉信息。在IGM中，人类捕捉到的显著性不是眼睛输入的直接翻译，而是大脑一系列主动推理的结果，特别是在复杂场景中。然而，IGM对于全面理解场景和捕捉准确的显著性区域的好处在以前的工作中从未被探索过。特别是，融合特征直接用于预测，而忽略了融合特征中的内部语义关系。0为了解决上述限制，我们提出了一种深度引导的多尺度循环注意力网络（DMRANet）用于显著性检测，如图2所示。我们的DMRANet有三个主要贡献。首先，我们设计了一个有效的深度细化块（DRB），利用残差连接充分提取和融合多层次的RGB和深度特征。其次，我们创新地设计了一个深度引导的多尺度加权（DMSW）模块。在该模块中，首次探索了深度信息与具有不同尺度的对象之间的关系，用于显著性检测任务（见图4）。消融分析表明，利用这种关联性可以提高检测准确性，并促进RGB和深度数据的整合。经过这两个步骤，生成了一个具有丰富显著性线索的融合特征。第三，我们设计了一个新颖的循环注意力模块（RAM），受到人脑IGM的启发。我们的RAM可以通过全面学习融合特征的内部语义关系，以粗到细的方式迭代生成更准确的显著性结果。具体而言，在推断当前结果时，我们的RAM检索先前的记忆以帮助当前决策。这可以通过面向内存的场景理解逐渐优化局部细节，生成最终的最佳显著性结果。该模块大幅提升了我们模型的性能。此外，我们还创建了一个包含1200个配对图像的大规模RGB-D数据集，其中包含更复杂的场景，如多个或透明物体、相似的前景和背景、复杂的背景、低强度环境。这个具有挑战性的数据集可以全面评估显著性模型，并有助于进一步研究显著性领域。0此外，对七个数据集进行的大量实验证明，我们的方法在16种最先进的2D和3D方法上始终表现出优越的性能。代码和结果可以在https://github.com/OIPLab-DUT/DMRA_RGBD-SOD找到。此外，为了促进该领域的研究，我们收集的所有分区数据集都以可直接使用的方式共享。02. 相关工作0RGB-D显著性检测。尽管许多工作[10, 14, 22, 30, 44, 45,47]致力于RGB显著性检测并取得了令人满意的性能，但在处理复杂场景时，如多个或透明物体、相似的前景和背景、复杂的背景和低强度环境，它们可能会失败。具有丰富空间结构和三维布局信息的深度线索可以有助于处理这些情况[3,8,11,18,32]。在我们的工作中，我们主要关注RGB-D显著性检测，并打算提高检测器在复杂场景中的性能。以前的RGB-D显著性检测方法可以通常分为两类：（1）手动设计手工特征；（2）使用CNN自动提取特征。对于第一类，[32]利用多阶段模型将RGB产生的显著性与新的深度引起的显著性相结合用于SOD。[16,24]提出了基于各向异性中心-周围差异或局部背景封闭的显著性方法。[36]利用归一化深度先验和全局上下文先验进行SOD。这些方法主要依赖于手工特征，并且缺乏高级表示，不适用于理解全局上下文。最近，CNN在分层提取信息特征方面的强大能力显著提高了视觉任务的性能。[35]使用手工特征训练基于CNN的模型，并在传统方法上取得了显著的改进。[4,18]利用两流CNN模型，但通过直接连接或在浅层或深层添加配对特征进行融合。[48]提出了一种先验模型引导的深度增强网络用于SOD。这些融合策略没有充分利用多层次的互补线索。最近的一项工作[3]设计了一个融合网络，其中逐渐组合了跨层次特征，并取得了更好的性能。此外，我们观察到一些方案[4,18,48]采用额外的预训练或后处理操作来提高模型的性能，这在一定程度上使训练过程变得复杂，而我们的网络是以端到端的方式进行训练的。03. 提出的方法0我们首先在第3.1节简要描述整体架构。然后，在第3.2节中讨论我们的多级融合策略及其关键组件-DRB，并在第3.3节中详细描述我们的DMSW模块。最后，在第3.4节中详细介绍了RAM，它显著提高了性能。03.1. 整体架构0我们的网络架构如图2所示，采用了两流模型。两个流具有相同的结构，ConvLSTM@+++++RGBspatial resolution with 64 channels. Finally, all features fiin multiple layers are summated as Ffuse = �Ni=1 fi in anelement-wise manner, where N=5 denotes the total num-ber of convolutional blocks.In this way, discriminativemulti-level RGB and depth features are effectively learnedand fused. This fusion strategy enables our model to pro-duce more accurate saliency results because of the compre-hensive combination of both local spatial details and globalsemantic information.72560池化' +' 卷积0Softmax0监督0多级特征融合0RGB / 深度0注意力0扩张卷积0深度诱导的多尺度加权模块0DMSW0循环注意力模块RAM0F 融合0V 深度0Conv1_2 <=>×<=>×>@ Conv2_2 128×A@×<=> 03 <×E<×=A< Conv5_40Conv1_2 <=>×<=>×>@ Conv2_2 128×A@×<=> 03 <×E<×=A< Conv5_40>@×>@×>@ 06 @×>@×>@ 06 @×>@×>@ 06 @×>@×>@ DRB0图2. 我们DMRANet的整体架构。0其中，VGG-19 [39]的5个卷积块是主要的，最后的池化和全连接层被舍弃以更好地适应我们的任务。两个流之间唯一的区别是深度流进一步处理以学习深度向量。我们通过使用提出的DRB在多个层次上细化和融合配对的侧输出特征。然后，将深度向量和融合特征输入到DMSW模块中，该模块根据深度向量的引导将从融合特征生成的多尺度特征进行集成。此外，我们通过一种新颖的RAM将注意机制和ConvLSTM [38]结合起来，提高了模型的性能。最后，通过地面真值对显著图进行监督。我们的网络以端到端的方式进行训练。03.2. 多级融合模块0考虑到多个层次上配对深度和RGB线索的互补性，我们设计了一个简单而有效的DRB，使用残差连接[20]来完全提取和融合多级配对的互补信息。深度细化块。如图3所示，输入fRGB i和f depthi分别表示第i层的RGB和深度流的侧输出特征。我们将fdepth i输入到一系列权重层Ψ( ∙)中，包含两个卷积层和两个PReLU激活函数[19]，以学习深度残差∆ depth i = Ψ( f depth i)。然后，通过残差连接将深度残差添加到RGB特征中，以学习融合特征f fuse i = f RGB i + ∆ depthi。通过这种方式，第i层的互补线索被有效地融合。然后，我们将f fusei重新塑形（即使用双线性插值上采样或最大池化下采样）到相同的分辨率。接着，使用传统的残差单元[20]�( ∙)对特征值进行重新缩放，然后使用1×1卷积操作Wi来调整通道维度。第i层的最终特征定义为f i = Wi � �( reshape( ffuse i ))，它是输入的1/4。03x03x0重01x03x3卷积0PReLU0fi0fi0深度 + f i f i0图3. 深度细化块（DRB）的详细图解。03.3. 深度引导的多尺度加权模块0考虑到图像由多个不同大小、尺度和布局的明显对象组成，我们提出了一种深度引导的多尺度加权(DMSW)模块。在这个模块中，深度线索进一步与多尺度特征连接起来，以准确地定位显著对象。如图4所示，具有丰富空间信息的深度线索进一步处理以学习深度向量，以指导多尺度特征的权重分配。具体而言，为了捕捉多尺度上下文特征，我们在输入特征Ffuse上施加了一个全局池化层和几个并行的卷积层，这些卷积层具有不同的核大小和不同的膨胀率。这样，生成了六个具有相同分辨率但不同上下文的多尺度特征Fm(m = 1, 2, ...,6)。详细的参数如图4所示。与经典的卷积操作相比，膨胀卷积可以增加空间分辨率的大小，具有64个通道。最后，多个层中的所有特征fi以逐元素的方式求和，得到Ffuse =ΣNi=1fi，其中N =5表示卷积块的总数。通过这种方式，我们有效地学习和融合了具有区分性的多级RGB和深度特征。这种融合策略使得我们的模型能够产生更准确的显著性结果，因为它综合了局部空间细节和全局语义信息。1x1 Conv3x3 ConvMax pooling3x3 Conv D=3×ΣAttentionAttentionAttention···h0h1h1FΣFΣFΣh0ht-1ht-1htFΣFconv5_4(a)(b)×Σ+3.4. Recurrent Attention Modulethe fused feature FΣ for prediction, as described in ablationanalysis. However, we claim that exploring the semantic re-lation inside the fused feature is essential, motivated by theInternal Generative Mechanism (IGM) [17] in human visualsystem. In this section, we boost our model’s performanceby a novel recurrent attention module (RAM). This mod-ule, drawing core ideas from the IGM, can comprehensivelyunderstand a scene and learn the internal semantic relationof the fused feature. To be speciﬁc, in order to infer con-spicuous objects, the IGM recurrently deduces and predictssaliency based on memory stored in the brain, while uncer-tain information that is not important will be discarded.Inspired by the IGM, we propose the RAM by ably com-bining attention mechanism and ConvLSTM [38]. In thisway, the RAM can retrieve the previous memory to aidcurrent decision when inferring the current result.It it-eratively learns the spatio-temporal dependencies betweendifferent semantics and progressively optimizes detectiondetails with memory-oriented scene understanding. Con-cretely, for the attention block (see Fig. 4(a)), ht stands forthe previous memory for scene understanding and FΣ is theinput feature. The subscript t denotes time steps in Con-vLSTM. Both ht and FΣ are followed by a convolutionallayer and then we merge the output features by element-wise summation. Then, a global average pooling and a soft-max function are used to generate the channel-wise atten-tion map Attc(ht, FΣ) ∈ R1×1×C, in which C denotes thenumber of channels of FΣ. By performing element-wisemultiplication on Attc(ht, FΣ) and FΣ, a more informativefeature �FΣ,t is produced. This procedure can be deﬁned as:Attc(ht, FΣ) = δ(AvgPooling(W0∗ht+W1∗FΣ)), (4)�FΣ,t = Attc(ht, FΣ) ⊗ FΣ,(5)72570池化卷积0空间注意力0卷积0卷积0池化 + Softmax + ×0通道注意力0FΣ,0 FΣ,1 FΣ,t-1 Fc ~ ~ ~0FΣ,t~0Vdepth Up*x*40Ffuse Fm0注意力0FΣ Fcs0深度引导的多尺度加权模块递归注意力模块(DMSW) (RAM)0／特征／逐元素乘法0逐元素求和0逐元素加法0Softmax函数膨胀参数 D0图4. DMSW和RAM子模块的详细图示。在RAM中，(b)是RAM的详细信息，(a)是注意力块的详细信息。0为了在不牺牲图像分辨率和冗余计算的情况下获得相应的深度向量，在深度流中对Fconv54施加了全局平均池化层和卷积层。然后我们使用softmax函数δ来获得深度向量Vdepth∈R1×1×M，它可以作为加权每个多尺度特征Fm的比例因子，其中M对应于m的最大值。最后，所有多尺度特征Fm根据深度向量Vdepth加权并求和，形成最终输出FΣ。形式上，DMSW模块可以定义为：0Vdepth = δ(Wb * AvgPooling(Fconv54))，(1)0Fm = ξ(Ffuse; θm)，(2)0FΣ =0m = 1 Vm depth × Fm，(3)0其中，�和Wb表示卷积操作和相应的参数。δ(∙)表示softmax函数。ξ(∙)表示并行的卷积或池化操作，θm是第m个分支中要学习的参数。Vmdepth表示相应多尺度特征Fm的权重，×表示逐元素乘法。总之，引入深度线索有助于学习多尺度特征对显著对象的确定的贡献，特别是当不同大小的对象出现在不同深度时。该模块也可以被看作是RGB和深度信息的更深层次融合。0it = σ(Wxi ∗ �FΣ,t + Whi ∗ ht−1 + Wci◦ct−1 + bi),ft = σ(Wxf ∗ �FΣ,t + Whf ∗ ht−1 + Wcf◦ct−1 + bf),ct = ft◦ct−1 + it◦ tanh(Wxc ∗ FΣ,t + Whc ∗ ht−1 + bc),72580这里 W � 是卷积参数。 �表示逐元素乘法。接下来，在图4(b)中，� F Σ ,t被输入到ConvLSTM中，进一步学习不同语义特征之间的空间相关性。ConvLSTM的计算方式为：0o t = σ ( W xo � � F Σ ,t + W ho � h t − 1 + W co ◦ c t− 1 + b o ) , h t = o t ◦ tanh( c t ) , (6) 这里 ◦表示Hadamard乘积， σ ( ∙ ) 是sigmoid函数。 i t , f t和 o t 分别表示输入门、遗忘门和输出门。 c t存储之前的信息。所有的 W � 和 b �都是需要学习的模型参数。 h 0 和 c 0 初始化为0。经过N 步，我们在这项工作中设置 N =3，生成一个通道细化的特征 F c = h N。此外，我们添加了一个常规的空间注意力块，以强调每个像素对最终显著性预测的贡献。我们首先学习一个空间注意力图 Att s ( F c ) = σ ( W s � F c ) ，其中 � 和 W s分别表示1 × 1 卷积操作和相应的参数。然后， Att s ( Fc ) ∈ R W × H × 1 和 F c以逐元素方式相乘，得到一个空间加权特征 F cs = Att s (F c ) � F c 。最后， F cs 经过一个1 ×1卷积层和上采样操作，得到最终的显著性图 S map 。04. 实验04.1. 数据集0我们在我们提出的数据集和其他六个公共数据集上评估了我们网络的有效性。NJUD[24]：包含1985张图片（最新版本），这些图片来自互联网、3D电影和富士W3立体相机拍摄的照片。NLPR[32]：包含由Kinect拍摄的1000张图片。LFSD[27]：包含由Lytro相机拍摄的100张图片。STEREO[31]：包含从互联网下载的797张立体图像。RGBD135[8]：包含由Kinect拍摄的135张图片。SSD[26]：包含从三部立体电影中挑选出的80张图片。我们的数据集：与其他数据集相比，我们的数据集更具挑战性，包含许多复杂的场景（例如，多个或透明的物体，前景和背景相似，复杂的背景和低强度环境）。图5中标记的底部五行显示了我们数据集中的一些代表性场景。我们的数据集包含800个室内和400个室外场景，配有相应的深度图[40]和真值。这个具有挑战性的数据集可以全面评估显著性模型。有关该数据集的更多详细信息可以在github页面找到。0训练和测试：我们的数据集随机分为两部分：800张图像用于训练，其余400张用于测试。对于其他数据集，我们采用与[3, 4,18]相同的分割方式，以确保公平比较。我们从NJUD中分割出1485个样本和从NLPR中分割出700个样本进行训练。这两个数据集中的剩余图像和其他四个数据集中的图像都用于测试，以验证显著性模型的泛化能力。为了防止过拟合，我们通过翻转、裁剪和旋转来增加训练集。04.2. 实验设置0评估指标。为了全面评估各种方法，我们采用了五个评估指标，包括精确率-召回率（PR）曲线，F-度量（Fβ）[1]，平均绝对误差（MAE）[2]以及最近提出的S-度量（S λ）[12]和E-度量（Eγ）[13]。具体而言，显著性图像使用一系列阈值进行二值化，然后计算精确率和召回率的配对以绘制PR曲线。F-度量可以评估整体性能。MAE表示显著性图像与真实情况之间的平均绝对差异。S-度量可以评估空间结构相似性，而E-度量可以同时捕捉图像级统计信息和局部像素匹配信息。对于MAE，数值越低越好，对于其他指标，数值越高越好。实现细节。我们的方法使用pytorch工具箱实现，并在一台配备GTX 1080 GPU和16GB内存的PC上进行训练。输入图像统一调整为256×256。动量、权重衰减和学习率分别设置为0.9、0.0005和1e-10。在训练过程中，我们使用softmax熵损失，网络在小批量大小为2的情况下收敛了50个周期。04.3. 与最先进的方法比较0我们将我们的方法与16种最先进的方法进行比较，包括5种最新的基于CNN的RGB-D方法：PCA [3]，PDNet[48]，MMCI [4]，CTMF [18]，DF[35]；5种传统的RGB-D方法：MB [49]，CDCP[50]，NLPR [32]，DES [8]，DCMC[9]；6种排名靠前的基于CNN的RGB方法：PiCANet[30]，PAGRN [47]，R 3 Net [10]，Amulet [44]，UCF[45]，DSS[22]。为了公平比较，我们使用发布的代码和它们的默认参数来复现这些方法。对于没有发布源代码的方法，我们使用它们的已发布结果进行比较。定量评估。表1和表2显示了七个数据集上四个评估指标的验证结果。我们可以看到，我们的模型在所有其他方法上都取得了显著的优势。图6中的PR曲线也一致地证明了我们方法的优越性能。特别是在我们提出的数据集、NLPR和STEREO上，我们的方法在性能上明显优于所有其他方法，这些图像相对复杂。这进一步表明我们的模型是72590MMCI CTMF PAGRN PiCANet R 3 Net RGB Depth PDNet PCA GT Ours0Amulet0我们提出的数据集其他公共数据集0图5. 我们与最先进的基于CNN的方法进行比较。这些方法是定量评估中排名靠前的方法。显然，我们的结果与真实情况更加一致，特别是在复杂场景中，如杂乱的背景（第5行）。0和第6行），低对比度（第11行），透明对象（第9行和第12行）以及多个和小型对象（第10行）。0在处理复杂场景方面更加强大。定性评估。我们还通过与最具代表性的方法在图5中进行视觉比较。从这些结果中，我们可以观察到我们的显著性图更接近于真实情况。例如，其他方法很难在复杂环境中区分显著对象（见第5行和第6行），而我们的方法可以精确地识别整个对象。我们的DMRANet可以比其他方法更准确地定位和检测整个显著对象的细节，包括低对比度、透明对象以及多个和小型对象（见第9-12行）。这些结果进一步验证了我们提出的DMRANet的有效性和鲁棒性。04.4. 消融分析0相对重要性和具体贡献。DRB的性能。为了验证所提出的多级融合策略的有效性，我们评估了常见的融合策略（参见图7（a））和我们的DRB融合策略（分别表示为“基线”和“+DRB”）。如表3和图8所示，“+DRB”在所有数据集上始终优于“基线”。我们的DRB生成的预测在图9中比“基线”包含更多的局部细节。这一进展进一步证实了我们的DRB在有效地和丰富地提取和融合多级配对互补信息方面的优越性能。DMSW模块的性能。我们的一个核心观点是将深度线索与多尺度特征结合起来可以帮助定位显著性区域。为了证明这一观点，我们将DMSW模块（“+DMSW”）添加到之前的“+DRB”模型中。表3和图8中的结果显示，我们的DMSW模块在各个数据集上都取得了令人印象深刻的准确性提升。OursNJUDNLPRSTEREO*EγSλFβMAEEγSλFβMAEEγSλFβMAEEγSλOurs0.9270.8880.8830.0480.9080.8860.8720.0510.9420.8990.8550.0310.9200.886PCA0.8580.8010.7600.1000.8960.8770.8440.0590.9160.8730.7940.0440.9050.880PDNet0.8610.7990.7570.1120.8900.8830.8320.0620.8760.8350.7400.0640.9030.874MMCI0.8550.7910.7530.1130.8780.8590.8130.0790.8710.8550.7290.0590.8900.856CTMF0.8840.8340.7920.0970.8640.8490.7880.0850.8690.8600.7230.0560.8700.853DF0.8420.7300.7480.1450.8180.7350.7440.1510.8380.7690.6820.0990.8440.763PiCANet0.8950.8320.8260.0800.8800.8470.8060.0710.8950.8340.7610.0530.9040.868PAGRN0.8830.8310.8360.0790.8820.8290.8270.0810.9070.8440.7950.0510.9000.851R3Net0.8330.8190.7810.1130.8380.8370.7750.0920.7880.7980.6490.1010.8560.855Amulet0.8800.8460.8030.0830.8590.8430.7980.0850.8520.8480.7220.0620.8970.881UCF0.8480.8330.7660.1080.8300.8290.7580.1090.8350.8370.7010.0820.8740.867DSS0.8310.7670.7320.1270.8530.8070.7760.1080.8790.8160.7550.0760.8850.841MB0.6910.6070.5770.1560.6430.5340.4920.2020.8140.7140.6370.0890.6930.579CDCP0.7940.6870.6330.1590.7510.6730.6180.1810.7850.7240.5910.1140.8010.727NLPR0.7670.5680.6590.1740.7220.5300.6250.2010.7720.5910.5200.1190.7810.567DES0.7330.6590.6680.2800.4210.4130.1650.4480.7350.5820.5830.3010.4510.473DCMC0.7120.4990.4060.2430.7960.7030.7150.1670.6840.5500.3280.1960.8380.745STEREOLFSDRGBD135SSD*FβMAEEγSλFβMAEEγSλFβMAEEγSλFβMAEOurs0.8680.0470.8990.8470.8490.0750.9450.9010.8570.0290.8920.8570.8210.058PCA0.8450.0610.8460.8000.7940.1120.9090.8450.7630.0490.8830.8430.7860.064PDNet0.8330.0640.8720.8450.8240.1090.9150.8680.8000.0500.8130.8020.7160.115MMCI0.8120.0800.8400.7870.7790.1320.8990.8470.7500.0640.8600.8140.7480.082CTMF0.7860.0870.8510.7960.7810.1200.9070.8630.7650.0550.8370.7760.7090.100DF0.7610.1420.8010.6850.5660.1300.8010.6850.5660.1300.8020.7420.7090.151PiCANet0.8350.0620.8060.7610.7300.1340.9280.8540.7970.0420.8820.8320.7750.068PAGRN0.8560.0670.8310.7790.7860.1170.9190.8580.8340.0440.8620.7930.7620.088R3Net0.8000.0840.7710.7970.7910.1410.8680.8470.7280.0660.8330.8150.7470.095Amulet0.8420.0620.8630.8270.8170.1010.8660.8420.7250.0700.8430.8280.7560.087UCF0.8080.0830.8160.8110.7730.1380.8540.8350.7170.0890.8070.7950.6930.117DSS0.8140.0870.7780.7180.6940.1660.8550.7630.6970.0980.8340.7860.7520.116MB0.5720.1780.6310.5380.5430.2180.7980.6610.5880.1020.6330.4990.4140.219CDCP0.6800.1490.7370.6580.6340.1990.8060.7060.5830.1190.7140.6040.5240.219NLPR0.7160.1790.7420.5580.7080.2110.8500.5770.8570.0970.7260.5620.5510.200DES0.2230.4170.4750.4400.2280.4150.7860.6270.6890.2890.3830.3410.0730.500DCMC0.7610.1500.8420.7540.8150.1550.6740.4700.2280.1940.7900.7060.6840.16872600表1.在我们提出的数据集和六个广泛使用的RGB-D数据集上的E-measure、S-measure、F-measure和MAE的定量比较。最好的三个结果分别以粗体、红色和绿色字体显示。我们的方法在所有数据集和评估指标上都排名第一。从上到下依次为基于CNN的RGB-D方法、最新的RGB方法和传统的RGB-D方法。0表2. 表1的延续。0通过比较'+DMSW'和'+DRB'在所有数据集上的结果，我们可以看到'+DMSW'相对于'+DRB'能够识别出更多的显著区域。这些结果表明了我们的DMSW模块在充分利用深度线索和多尺度信息方面的优势。此外，我们还通过执行一个新的模型来验证利用深度线索和多尺度特征之间的关系的好处，该模型通过1×1卷积操作集成了多个尺度的特征，而不是深度线索（标记为'+DMSW(w/od)'）。表3和图8中的结果表明，去除深度引导会在一定程度上降低性能。这些结果还表明，深度信息和多尺度特征的组合可以0改善检测准确性。此外，重要的是要注意，在这个阶段，我们的模型在几乎所有数据集上都优于其他方法。这一事实进一步验证了我们提出的模块的优势。RAM的性能。在这一部分中，我们评估了我们的RAM的性能。通过比较图9中的视觉结果，我们观察到我们的RAM可以进一步抑制背景干扰并大幅优化检测细节。此外，我们在图7（b）中用基本的通道-空间注意力块[42]（标记为'+Att(common)'）替换了RAM。表3中的结果表明，我们的RAM优于'+Att(common)'，并且大幅提升了模型的性能。我们将这一进步归因于其强大的Recall00.20.40.60.81Precision0.20.30.40.50.60.70.80.91AmuletCTMFDFDSSMMCIOursPAGRNPCAPDNetPiCANetR³NetUCFRecall00.20.40.60.81Precision0.40.50.60.70.80.91AmuletCTMFDFDSSMMCIOursPAGRNPCAPDNetPiCANetRecall00.20.40.60.81Precision0.30.40.50.60.70.80.91AmuletCTMFDFDSSMMCIOursPAGRNPCAPDNetPiCANetRecall00.20.40.60.81Precision0.40.50.60.70.80.91AmuletCTMFDFDSSMMCIOursPAGRNPCAPDNetPiCANetPrecisionPrecisionPrecisionPrecision*FβMAEFβMAEFβMAEFβMAEFβMAEFβMAEFβMAE+DRB0.8390.0650.8280.0640.7740.0460.8280.0640.8250.0900.7920.0430.7680.076+DMSW(w/o d)0.8550.0610.8440.0620.8050.0440.8370.0610.8360.0870.8230.0420.7740.076+DMSW0.8610.0570.8500.0590.8010.0420.8520.0570.8360.0860.8280.0400.7830.075+Att(common)0.8690.0540.8600.0550.8270.0360.8590.0530.8

下载后可阅读完整内容，剩余1页未读，立即下载