保持特征的RGB-D显著性检测

154 浏览量更新于2023-10-13 收藏 2.42MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4681保持特征的RGB-D显著性检测陶周1，傅华珠2，耿澈2，周毅3，邓平2，凌绍01南京理工大学计算机科学与工程学院高维信息智能感知与系统教育部重点实验室2阿联酋阿布扎比IIAI 3东南大学计算机科学与工程学院摘要RGB-D显著性检测由于其有效性和现在可以方便地捕获深度线索的事实而吸引了越来越多的注意力。现有的工作往往集中在学习一个共享的表示通过各种融合策略，很少有方法明确考虑如何保留模态特定的特征。在本文中，从一个新的角度来看，我们提出了一种用于RGB-D显著性检测的特异性保留网络（SP-Net）RGB深度......（一）深度......（b）第（1）款Conv层解码器F融合这通过探索共享信息和模态特定属性（例如，特异性）。具体而言，两个模态特定的网络和一个共享的学习网络被采用来生成个人和共享的显着性图。提出了一种交叉增强集成模块（CIM），用于融合共享学习网络中的跨模态特征，然后将其传播到下一层以集成跨级别信息。此外，我们提出了一个多模态特征聚合（MFA）模块，将来自每个单独解码器的模态特定特征集成到共享解码器中，这可以提供丰富的互补多模态信息以提高显著性检测性能。此外，使用跳过连接来组合编码器层与解码器层之间的分层特征六个基准数据集上的实验表明，我们的SP-Net优于其他国家的最先进的方法。代码可在https://github.com/taozh2017/SPNet上获得。1. 介绍显著性检测旨在定位给定场景中视觉上最突出的对象[46]。它已被广泛应用于各种视觉相关的任务，如图像理解[75]，视频/语义分割[55，58]，交流。[51]，[55]，[67]。尽管已经取得了显著的进展，但是准确地定位com中的显著对象仍然是具有挑战性的。* 通讯作者：范小平（dengpfan@gmail.com）.图1.现有的RGB-D显着性检测技术之间的比较框架和我们提出的模型。(a)RGB和深度图像被馈送到两个单独的网络流中，并且然后融合的高级特征被馈送到解码器（例如，解码器200）中。，[4，5，25，37]）。(b) 深度特征使用裁缝子网络（例如，，[6，66，72]）。(c)我们的方法显式地探讨了共享信息和特定于模态的特征。然后，从模态特定解码器学习的特征被集成到共享解码器中以提高显著性检测性能。复杂场景，例如实例杂乱背景或低对比度照明条件。最近，随着智能设备中深度传感器的大量可用性，已经引入深度图来提供几何和空间信息以提高显著性检测性能。因此，融合RGB和深度图像在显着性检测社区中获得了越来越多的兴趣[39，64，69]。对于RGB-D显著性检测，有效地融合RGB和深度图像是至关重要的一些作品通过一个简单的级联利用早期融合策略。例如，这些模型[41，46，52，56]直接集成RGB和深度图像以形成四通道输入。然而，这种类型的融合没有考虑两种模态之间的分布间隙，这可能导致不准确的特征融合。此外，基于后期融合策略的各种模型使用两个并行网络流来生成RGB和深度数据的独立显著性图，然后将两个图融合以获得最终预测图[15，24，57]。然而，很难捕捉到具有这种类型的融合的两种模态之间的复杂相互作用。F...RGBF FF......（c）F深度RGB4682目前，各种中间融合方法利用两个独立的网络来分别学习两种模态的中间特征，然后将融合的特征馈送到后续的网络或解码器中（如图1所示）1（a））。此外，其他方法在多尺度上执行跨模态融合[4，5，7，25，27，37]。因此，可以有效地利用这两种模态的复杂相关性。此外，几种方法利用深度信息来经由裁缝子网络增强RGB特征[6，66，72]（如图1B所示）。（b）款。例如，Zhao等人。 [66]将对比度先验引入到基于CNN的架构中以增强深度信息，然后使用流体金字塔集成模块将增强的深度与RGB特征集成。Zhu等人。 [72]利用一个独立的子网络来提取基于深度的特征，然后将其纳入RGB网络。应当注意的是，上述方法主要集中于通过融合共享表示来学习共享表示，然后使用解码器来生成最终的显著性图。更重要的是，没有具有监督的解码器来指导基于深度的特征学习[66，72]，这可能会阻止获得最佳深度特征。从多模态学习的角度来看，一些工作[26，42，70，71]已经表明，探索共享信息和模态特定特征可以提高模型性能。然而，很少有RGB-D显着性检测模型明确地利用模态特定的特性。为此，我们提出了一种新的特殊性保留网络RGB-D显着性检测（称为SP-Net），它不仅探索共享信息，但也利用模态特定的特性，以提高显着性检测性能。具体地，两个编码器子网用于提取两种模态的多尺度特征，并且提出了交叉增强集成模块然后，我们使用U-Net [53]结构来构建特定于模态的解码器，其中编码器和解码器层之间的跳过连接用于组合分层特征。通过这种方式，我们可以在每个独立的解码器中学习强大的模态特定特征。此外，我们还构建了一个共享的解码器，结合层次结构的功能，从以前的CIM使用跳过连接。为了充分利用特定于模态的特征，我们提出了一种多模态特征聚合（MFA）将它们集成到共享解码器中。最后，我们制定了一个统一的，端到端可训练的框架来实现RGB-D显着性检测。我们的主要贡献总结如下：• 我们提出了一种新的特定性保持网络的RGB-D显着性检测（SP-Net），它可以探索共享的信息，以及保留模态特定的特征。• 我们提出了一个交叉增强的集成模块（CIM）来融合跨模态特征并学习两种模态的共享表示然后，每个CIM的输出被传播到下一层，以捕获跨级别信息。• 我们提出了一个简单而有效的多模态特征聚合（MFA）模块来整合这些学习到的特定模态的功能。该算法充分利用了在模态特定解码器中学习到的特征来提高显著性检测性能。• 在六个公开数据集上的实验表明，该模型优于三十种基准测试方法.此外，我们进行了基于属性的评估，以研究许多最先进的RGB-D显著性检测方法在不同挑战性因素（例如：显著对象的数量、室内或室外环境以及光照条件），这在现有研究中以前没有进行过。2. 相关工作2.1. RGB-D显著性检测早期基于RGB-D的SOD模型通常从输入RGB-D数据中提取手工制作的特征。例如，Lang等人。 [31]提出了第一个RGB-D SOD工作，该工作利用高斯混合模型对深度引起的显着性的分布进行建模。之后，基于不同的原理探索了几种方法，例如中心-环绕差异[24，30]、对比度[13，46，52]、中心/边界先验[36，74]和背景封闭[19]。然而，这些方法由于手工制作的特征的有限表达能力而遭受不令人满意的性能。受益于深度卷积神经网络（CNN）的快速发展，最近开发了几种基于深度学习的作品[18，48，50，63，66]，并取得了可喜的例如，Qu等人。 [50]开发了一种CNN模型，将不同的低级显着性线索整合到分层特征中，以提高显着性检测性能。Chen等人 [4]提出了一种互补感知融合模块，以有效地集成RGB和深度模态的跨模态和跨级别特征。 Piao等人 [48]提出了一种深度诱导的多尺度递归注意网络，以增强跨模态特征融合。Fan等人[18]设计了一个深度净化器单元来过滤掉一些低质量的深度图。大多数其他模型[5，7，25，33，35，37]使用不同的整合策略在多个尺度上采用跨模态融合。2.2. 多模态学习最近，多模态（或多视图）学习吸引了越来越多的关注，因为大多数数据可以获得468388图2.所提出的SP-Net的整体架构。我们的模型包括两个特定于模态的学习网络和一个共享的学习网络。模态特定学习网络用于保留每个模态的个体属性（即，RGB或深度），而共享网络用于融合跨模态特征并探索它们的互补信息。采用跳过连接来组合编码器和解码器层之间的分层特征从模态特定解码器学习的特征被集成到共享解码器中，以提供丰富的多模态互补信息，用于提高显著性检测性能。这里，来自多个来源或用不同类型的特征表示。一种常见的策略是将来自这样的多模态数据的特征向量直接关联到一个长向量中。然而，这种简单的级联可能无法利用多模态数据之间的复杂相关性。因此，已经开发了几种多模态学习方法，以明确地融合来自不同模态的互补这些流行的方法可以分为以下三种类型。1)协同训练[3，14]试图最小化不同模态之间的不一致，2）多核学习[23]利用来自多个模态的预定义的一组核，并使用所学习的核的权重来集成这些模态，以及3）子空间学习[60，62]假设存在由不同模态共享的潜在子空间，并且多个模态可以被共享。可以源自一个潜在的表征。此外，为了有效地模态特定的学习网络，以获得他们的多层次的特征表示，并提出了一个CIM学习他们的共享特征表示。然后，采用特定的和共享的解码器子网络，分别产生显着性预测图。此外，来自编码器网络的原始特征经由跳过连接被集成到解码器中。为了充分利用特定模态解码器学习到的特征，我们提出了一个MFA模块，将这些特征集成到共享解码器中，以提高显著性检测性能。我们在下面给出了每个关键部分的详细信息。3.1. 特定模式学习网络如图2，使用Res 2Net-50 [22]构建特定模态子网络，该子网络已在ImageNet [54]数据集上进行因此，存在五个多级特征，即，F R=[f R，m=1，2，. . .，5]和F D=融合多模态数据，几个基于深度学习的模型Dm也进行了探索。例如，Ngiam等人。 [44]提出从音频和视频输入中学习共享表示。Eitel等人。 [16]分别针对RGB和深度使用两个单独的CNN流，然后使用后期融合网络将它们组合起来以实现RGB。[f m，m=1，2，. . .，5]，分别用于RGB和深度的模式特定编码器子网络中。在我们的研究中，我们表示模态特定en的输入分辨率编码器子网为W×H。因此，我们有H*W的特征分辨率对于第一层，的HWD物体识别。此外，Hu et al. [26] A2米*2米（当m >1时）。此外，通道号可共享和个人的多视图学习算法，以探索多模态数据的更多属性。Lu等人 [第四十二届]第m层中的特征被给定为Cm（m = 1，2，. . . ）的情况下，我们有C=[64，256，512，1024，2048]。一旦我们获得高级特征fR和fD，它们开发了一个共享的特定功能转移框架55跨模态人员ReID任务。3. 该方法图2示出了所提出的用于RGB-D显著性检测的特异性保留网络的框架。的然后被馈送到模态特定的解码器子网络中以生成单独的显著性图。此外，我们利用U-Net [53]结构来构建模态特定解码器，其中编码器和解码器层之间的跳过连接用于组合分层fea。真的。此外，级联的特征（仅fR或fD5 5RGB和深度图像首先被馈送到解码器子网络的第一级中的双流中）被馈送到解码器子网络的第一级中。烯-188*88*64En-2 En-3 En-488*88*256 44*44*512 22*22*1024烯-511*11*2048向上C向上×2C向上×2C向上×2C向上GR1GR2GR$GR%GR&RGBS%S$S2S1CIM1 CIM2SSCIM$ CIM% CIM&SSS向上g）C1g）CCC2g）$g）%g）&g（烯-188*88*64En-2 En-3 En-488*88*256 44*44*512 22*22*1024烯-511*11*20481g（2CCG$（g%（G&（向上CC向上向上向上向上深度RFBMFARFBRFBRFBMFARFBRFBRFBMFARFBRFBRFBRFBRFBMFARFBRFBRFB1*1转换1*1转换1*1转换4684××MM×猫×猫fm−1M并将其输入第二个-×M1MMMMMMMMMMM嗯嗯嗯∈∈#MSM$m图3.建议的交叉增强集成模块（CIM）图。这里，感受野块（RFB）[61]以捕获全局上下文信息。值得注意的是，特定于模态的学习网络使我们能够通过保留其特定属性来学习每个模态的有效且然后，这些特征被集成到共享解码器子网络中，以提高显着性检测性能。图4.所提出的多模态特征聚合（MFA）模块的示意图。每个模态的原始信息、残差连接适于将增强的特征与它们的原始特征组合。因此，我们具有用于两种模态的交叉增强特征表示，如下所示：fR′=fR+fR wD，fD′=fD+fDwR，其中表示逐元素乘法。一旦我们得到了交叉增强的特征报告-表示（即，，fR′和fD′），一个关键任务是：M m3.2. 共享学习网络如图2、在共享学习网络中，我们融合来自RGB和深度模态的交叉模态特征以学习它们的共享表示，其被馈送到共享解码器中以生成最终的显著性图。此外，我们还采用了跳跃连接的方式有效地融合它们。可以使用各种策略来融合来自不同模态的特征，包括逐元素乘法和最大化。但是，目前还不清楚哪种方法最适合特定的任务。为了从不同策略的优点中受益，我们应用逐元素乘法和最大化，然后将结果一起。具体地，两个特征fR′和fD′M m编码器和解码器层以组合分层特征。此外，为了充分利用特定模态解码器学习到的特征，我们将它们集成到共享解码器中，以提高显著性检测性能。3.2.1交叉增强集成模块首先被馈送到3 - 3卷积层以获得它们的平滑表示，然后我们进行逐元素乘法和最大化。因此，我们可以得到：pmul=Bconv3（fR′）Bconv3（fD′），pmax=Max（Bconv3（fR′），Bconv3（fD′））， M m我们提出了一个CIM，以有效地融合跨模态功能。取fR∈RWm*Hm*Cm fD∈RWm*Hm*Cm 作为其中，Bconv（·）是将例如（为了方便，第m层的宽度、高度和通道数表示为Wm、Hm和Cm），我们使用1×1卷积层来减少通道。3卷积，然后是批量归一化，以及ReLU函数。然后，我们将结果连接为 p cat=[p mu l ， pmax]∈RWm*Hm*Cm，并在p1中获得为nel数到Cm/2的加速度。 CIM包括两部分，跨模态特征增强和adap-主动特征融合首先，我们使用一个交叉增强的策略来利用这两种模式之间的相关性，通过学习它们的增强功能。具体地说，如图3，这两个特征可以被馈送到具有Sigmoid激活函数的3 × 3卷积层中，然后通过Bconv3操作自适应地Bconv3（pcat）。称量两部分。此外，输出pi与先前的输出S相关联的（）-th CIM，Bconv3操作。最后，我们得到的输出f S的第m个CIM。注意，当m = 1时，我们不需要使用11卷积层来减少信道数量。再说了，没有前科-我们可以获得归一化的特征图，即，，w R=放fSm−1 （当m=1时），所以我们只输入连接的σ（Conv3（f R））[0，1]且w D=σ（Conv3（f R））[0，1]，其中σ是逻辑S形激活函数。为了利用两种模态之间的相关性，归一化特征图可以被认为是特征级注意力图，以自适应地增强特征表示。以这种方式，来自一种模态的特征图可以用于增强另一种模态。另外为了保存将所有功能合并到一个Bconv3操作中。值得注意的是，我们的CIM可以通过交叉增强的特征学习有效地利用两种模态之间的相关性，并通过自适应地加权不同的特征表示来融合它们此外，融合的特征表示被传播到下一层以捕获和集成跨级别信息。×+×CC× +MSMSm%&GR×MC+G$×M+添加×乘法C级联1*1转换1*1转换3*3转换3*3转换乙状乙状3*3转换3*3转换3*3转换3*3转换3*3转换ƒGƒ（一）（二）..4685∗−∗∈MMLL−×在模态特定解码器中的特征gR和gD。作为×i=1i=1MMMMMMβ（[gDR，gDS]），然后输入Bconv（·）操作β2P+RLL3.2.2多模态特征聚合为了充分利用在特定于模态的解码器中学习到的特征，我们提出了一个简单但有效的（MFA）模块来将它们集成到共享解码器中。特别地，在共享解码器的第m层中，我们具有 S用于评估区域感知（Sr）和对象感知（SO）之间的结构相似性定义为S α=αSO+（1α）S r，其中α[0，1]是一个折衷参数，它被设置为0。5为默认值[8]。2)E[17]用于捕获图像级统计数据和它们的局部像素匹配信息，并且其被定义为共享表示G，m，以及学习到的模态特定的MMRDE=1 ΣWΣHFM（i，j），其中示于图4，两个特征gm和gm乘以当前层的共享特征，即，g RS= g Sg R综合考虑精度和可靠性调用，我们可以通过以下方式获得加权调和平均g DS=g Sg D.这两个特点是进一步concise-F=. 1+β2ΣP*R，其中β2设置为0.3以强调M m以获得gSc。最后，我们得到了MFA的输出模块，用于将卷积特征g_Sc与卷积特征g_Sc组合精确度[1]。我们使用不同的固定[0，255]阈值来计算F-测度。这产生一组F-测度原始特征MgS通过加法运算。我们报告的最大Fβ值。4)平均绝对-鲁特误差（MAE）[47]用于评估平均像素。值得注意的是，学习的模态特定特征用于增强共享表示并提供丰富且互补的跨模态信息。更重要的是，模态特定解码器被给予监督信号以指导用于模态特定属性保留的特征学习，这有益于最终预测结果时将它们集成到共享解码器中。3.3. 损失函数最后，我们制定了一个统一的和端到端的可训练的框架。总损失函数由两部分组成，即SP和SH分别用于特定于模式的和共享的解码器。为了方便起见，S R和S D分别表示使用RGB和深度图像时的预测图，S sh表示使用它们的共享表示的预测图，并且G表示地面实况图。因此，总损失函数可以公式化如下：L总= Lsh（S sh，G）+Lsp（S R，G）+Lsp（SD，G）。（三）由方程式（3），我们利用sp和sh的像素位置感知损失[59]，它可以对硬像素和易像素给予不同的关注，以提高显着性检测性能。4. 实验4.1. 实验装置数据集：为了验证所提出的模型的有效性，我们在六个公开的RGB-D SOD数据集上对其进行了评估，包括NJU 2K [30]，NLPR [46]，DES [10]，SSD [73]，[ 45 ][46][47][48][49]在[18，48]之后，我们从NJU2K[30]中选择了相同的1，485个样本，从NLPR [46]中选择了700个NJU2K（500）和NLPR（300）的剩余样本以及整个DES（135）、SSD（80）、STERE（1，000）和SIP（929）用于测试。评估方法：我们采用四种广泛使用的方法进行定量评估。1）S-测度（Sα）[8]是通过计算差值的绝对值的平均值来调整地面实况和归一化预测之间的相对误差。比较RGB-D SOD模型：我们将所提出的模型与30种基准RGB显着性检测方法进行了比较，其中包括8种手工制作的传统模型（即 [2019-04 -16][ 2019 - 04 -05][2019- 04 - 05][2019 - 0MDSF [56]、CDCP [74]）和DTM [11]，以及22深模型（即、DF [50]、CTMF [25]、PCF [4]、AFNet[57]、CPFP [66]、MMCI [6]、TANet [5]、DMRA [48]、cmSal-GAN [29]，ASIFNet [32]，ICNet [34]，A2dele [49]，JLDCF[20]，S2 MA [38]，UCNet [63]，SSF [65]，Cas-GNN[43]，CMMS [33]、D3Net [18]、CoNet [28]、DANet [68]和PGAR [9]）。这里省略了这些方法的细节，并且读者可参阅有关文件。实现细节：我们的模型在PyTorch中实现，并在具有32 GB内存的NVIDIA Tesla V100 GPU上进行训练使用骨干网络（ Res 2Net-50 [22] ），该网络已在ImageNet [54]上进行了预训练由于RGB和深度图像具有不同的通道，因此深度编码器的输入通道被修改为1。我们采用Adam算法对所提出的模型进行优化。初始学习率被设置为1e4，并且每60个时期除以10RGB和深度图像的输入分辨率被调整大小为352 352。使用各种策略来增强训练图像，包括随机翻转、旋转和边界裁剪。批量大小设置为20，模型在200个epoch上训练。在测试阶段期间，RGB和深度图像被调整大小为352 352，然后被馈送到模型中以获得预测图。然后，可以将最后，共享解码器的输出是我们模型的最终预测图。4.2. 性能比较定量评价：如表1所示，我们的方法优于八种传统方法（即、LHM [46]、ACSD [30]、LBE [19]、DCMC[12]、SE [24]、MDSFW*H增强的对齐矩阵[17]。3)F-测度[1]（Fβ）4686NJU2K立方米DESNLPR↑↓表1.使用四个广泛使用的评估指标（即，基于6个公共RGB-D显着性数据集的8个代表性传统模型和22个深度模型的基准测试结果）。，Sα[8]，maxEβ [17]，maxFβ [1]和M[47]）。“ “ 每个模型的下标表示出版年份。最佳结果以粗体突出显示NJU2K [30] STERE [45] DES [10] NLPR [46] SSD [73] SIP [18]型号Sα↑Fβ↑Eξ↑M↓Sα↑Fβ↑Eξ↑M↓Sα↑Fβ↑Eξ↑M↓Sα↑Fβ↑Eξ↑M↓Sα↑Fβ↑Eξ↑M↓Sα↑Fβ↑Eξ↑M↓LHM14[46].514 .632.724 .205 .562.683 .771 .172 .562.511.653 .114 .630.622 .766 .108 .566.568 .717 .195 .511 .574.716 .184ACSD14[30].699 .711.803 .202 .692.669 .806 .200 .728.756.850 .169 .673.607 .780 .179 .675.682 .785 .203 .732 .763.838 .172LBE16 [19].695 .748.803 .153 .660.633 .787 .250 .703.788.890 .208 .762.745 .855 .081 .621.619 .736 .278 .727 .751.853 .200DCMC16[12].686 .715.799 .172 .731.740 .819 .148 .707.666.773 .111 .724.648 .793 .117 .704.711 .786 .169 .683 .618.743 .186[24]第二十四话.664 .748.813 .169 .708.755 .846 .143 .741.741.856 .090 .756.713 .847 .091 .675.710 .800 .165 .628 .661.771 .164MDSF17[56].748 .775.838 .157 .728.719 .809 .176 .741.746.851 .122 .805.793 .885 .095 .673.703 .779 .192 .717 .698.798 .167CDCP17 [74].669 .621.741 .180 .713.664 .786 .149 .709.631.811 .115 .669.621 .741 .180 .603.535 .700 .214 .595 .505.721 .224[11]第十一届中国国际纺织品展览会.706 .716.799 .190 .747.743 .837 .168 .752.697.858 .123 .733.677 .833 .145 .677.651 .773 .199 .690 .659.778 .203DF17 [50].763 .804.864 .141 .757.757 .847 .141 .752.766.870 .093 .802.778 .880 .085 .747.735 .828 .142 .653 .657.759 .185[25]第二十五话.849 .845.913 .085 .848.831 .912 .086 .863.844.932 .055 .860.825 .929 .056 .776.729 .865 .099 .716 .694.829 .139PCF18 [4].877 .872.924 .059 .875.860 .925 .064 .842.804.893 .049 .874.841 .925 .044 .841.807 .894 .062 .842 .838.901 .071[57]第十九话.772 .775.853 .100 .825.823 .887 .075 .770.729.881 .068 .799.771 .879 .058 .714.687 .807 .118 .720 .712.819 .118CPFP19 [66].878 .877.923 .053 .879.874 .925 .051 .872.846.923 .038 .888.867 .932 .036 .807.766 .852 .082 .850 .851.903 .064MMCI19[6].859 .853.915 .079 .873.863 .927 .068 .848.822.928 .065 .856.815 .913 .059 .813.781 .882 .082 .833 .818.897 .086TANet19[5].878 .874.925 .060 .871.861 .923 .060 .858.827.910 .046 .886.863 .941 .041 .839.810 .897 .063 .835 .830.895 .075[48]第四十八话.886 .886.927 .051 .886.886 .938 .047 .900.888.943 .030 .899.879 .947 .031 .857.844 .906 .058 .806 .821.875 .085cmSalGAN20 [29].903 .896.940 .046 .900.894 .936 .050 .913.899.943 .028 .922.907 .957 .027 .791.735 .867 .086 .865 .864.906 .064[32]第三十二话.889 .888.927 .047 .878.878 .927 .049 .934.935.974 .019 .906.888 .944 .030 .857.834 .884 .056 .857 .859.896 .061ICNet20 [34].894 .891.926 .052 .903.898 .942 .045 .920.913.960 .027 .923.908 .952 .028 .848.841 .902 .064 .854 .857.903 .069A2dele20 [49].871 .874.916 .051 .878.879 .928 .044 .886.872.920 .029 .898.882 .944 .029 .802.776 .861 .070 .828 .833.889 .070JLDCF20 [20].903 .903.944 .043 .905.901 .946 .042 .929.919.968 .022 .925.916 .962 .022 .830.795 .885 .068 .879 .885.923 .051[38] 2016年12月28日.894 .889.930 .053 .890.882 .932 .051 .941.935.973 .021 .915.902 .953 .030 .868.848 .909 .052 .872 .877.919 .057UCNet20 [63].897 .895.936 .043 .903.899 .944 .039 .933.930.976 .018 .920.903 .956 .025 .865.854 .907 .049 .875 .879.919 .051SSF20 [65].899 .896.935 .043 .893.890 .936 .044 .904.884.941 .026 .914.896 .953 .026 .845.824 .897 .058 .876 .882.922 .052Cas-GNN20 [43].911 .903.933 .035 .899.901 .930 .039 .905.906.947 .028 .919.904 .947 .028 .872.862 .915 .047 .875 .879.919 .051CMMS20[33].900 .897.936 .044 .895.893 .939 .043 .937.930.976 .018 .915.896 .949 .027 .874.864 .922 .046 .872 .877.911 .058[28]第二十八话.895 .893.937 .046 .908.905 .949 .040 .909.896.945 .028 .908.887 .945 .031 .853.840 .915 .059 .858 .867.913 .063DANet20 [68].899 .910.935 .045 .901.892 .937 .043 .924.928.968 .023 .915.916 .953 .028 .864.866 .914 .050 .875 .892.918 .054第20届[9].909 .907.940 .042 .907.898 .939 .041 .913.902.945 .026 .930 .916.961 .024 .865.838 .898 .057 .876 .876.915 .055[18]第十八话.900 .900.950 .041 .899.891 .938 .046 .898.885.946 .031 .912.897 .953 .030 .857.834 .910 .058 .860 .861.909 .063SP-Net（我们的）.925.935.954 .028 .907.915 .944 .037 .945.950.980 .014 .927.925 .959 .021 .871.883 .915 .044 .894.916 .930 .0431 1 1 110.90.90.90.90.90.80.70.60.80.70.60.80.70.60.80.70.60.80.70.60.50.50.50.50.50.40 0.2 0.4 0.6 0.81召回0.40 0.2 0.4 0.6 0.81召回0.40 0.2 0.4 0.6 0.81召回0.40 0.2 0.4 0.6 0.81召回0.40 0.2 0.4 0.6 0.81召回1 1 1 1 10.950.950.950.950.950.90.90.90.90.90.850.850.850.850.850.80.80.80.80.80.750.750.750.750.750.7050100150200250阈值0.7050100150200250阈值0.7050100150200250阈值0.7050100150200250阈值0.7050100150200250阈值PCFMMCI TANetDMRAA2deleJLDCFS2MAUCNetICNetSSFD3Net达内PGAR我们图5. NJU2K [30]、STERE [45]、DES [10]、NLPR [46]和SIP [18]上的PR曲线（第1行）和F测量曲线（第2[56]和CDCP [74]）在所有六个数据集上都有很大的差距。此外，我们的方法优于所有的比较国家的最先进的方法，并获得最佳的性能方面的四个评估指标NJU2K，DES和SIP数据集。此外，值得注意的是，我们的模型在STERE和NLPR上获得了比大多数比较的RGB-D显著性检测方法更好的性能我们的模型也与STERE数据集上的CoNet相当，并且NLPR数据集上的JLDCF和PGAR。总的来说，我们提出的SP-Net在定位给定场景中的显著对象方面获得了有前途的性能。此外，我们还在图中给出了PR曲线[2]和F-测度曲线。五、为了更清楚地了解，我们提供了14种RGB-D显着性检测方法的结果，其中包括13种具有完整显着性图的SOTA模型正如所观察到的，我们的模型的优越性在这些报告的数据集上更加明显。SIP精度F-measure精度F-measure精度F-measure精度F-measure精度F-measure4687×RGB深度GT我们A2deleJLDCF S2MA UCNetSSFD3Net达内PGAR图6.我们的方法与八种最先进的方法（包括A2dele [49]，JLDCF [20]，S2MA [38]，UCNet [63]，SSF [65]，D3Net [18]，DANet[68]和PGAR [9]）的视觉比较。定性评价：图6示出了将我们的模型与八种最先进的方法进行比较的结果的几个代表性样本。第一行显示具有小对象的场景。我们的方法，A2dele，PGAR和D3Net可以准确地检测到显着的对象，而JLDCF，S2MA，SSF和UCNet预测一些非对象区域。在第二和第三行，我们显示两个考试-当场景具有复杂背景时，从比较结果中，可以观察到，我们的方法和S2MA产生可靠的结果，而其他RGB-D显著性检测模型无法定位对象或将背景混淆为显著对象。在第4行中，比较方法（除了D3Net）定位不显著的小对象。在第五行中，我们展示了一个有多个显著对象的例子，在这个例子中，很难确定表2.消融研究的定量评价[45]第四十五话 DES [10] NLPR [46] SSD [73]高级督察〔18〕Sα↑M↓Sα↑M↓Sα↑M↓Sα↑M↓Sα↑M↓Sα↑ M ↓ S α ↑M↓我们 .925.028.907.037.945 .014 .927 .021 .871 .044 .894 .043A1.916.034.898.042.939 .016 .926 .022 .869 .047 .892 .044A2.921.031.895.042.938 .016 .925 .022 .865 .051 .896 .042A3.919.032.895.043.938 .016 .929 .020 .864 .049 .887 .048A4.924.029.903.038.930 .019 .927 .023 .867 .049 .888 .046B1.918.034.901.041.939 .017 .922 .024 .858 .050 .885 .048B2.924.029.900.041.941 .015 .926 .022 .864 .049 .893 .044B3.921.031.903.039.938 .016 .925 .022 .863 .050 .891 .045C.913.037.900.047.935 .019 .922 .025 .861 .055 .880 .051用于融合跨模态特征并学习其共享表示，我们利用直接级联策略代替CIM。具体地，两个特征f R和f D精确地定位所有显著的物体。我们的方法定位所有mm显著的对象，并更准确地分割它们，与其他方法相比产生更清晰的边缘。我们在最后一行显示了低光照条件下的示例一些方法不能检测显著对象的整个范围。我们的模型可以产生有希望的结果，通过抑制- ING背景干扰，以提高显着性检测性能。4.3. 消融研究为了验证模型中不同组件的相对贡献，我们通过从完整模型中删除或替换它们来进行消融研究(A) CIM的有效性。由于拟议的CIM是（如图所示。3）被直接级联，然后被馈送到3 × 3卷积层以获得每层中的融合表示。我们在表2中将该评价表示为从比较结果可以看出，我们的模型表现更好时，使用建议的CIM比使用简单的特征连接策略。这也表明了CIM在提高显著性检测性能方面的贡献此外，CIM还包括

下载后可阅读完整内容，剩余1页未读，立即下载