没有合适的资源?快使用搜索试试~ 我知道了~
3472RGB-D显著性检测的选择、补充和聚焦张苗1,2任伟松1张永日朴1<$郑坤荣1胡川路1,31大连理工大学2大连理工大学泛在网络与服务软件辽宁省重点实验室3鹏程实验室{miaozhang,yrpiao,lhchuan}@ dlut.edu.cn{beatlescoco,rzk911113}@ mail.dlut.edu.cn摘要深度数据在位置上具有优势的辨别能力,已被证明有利于准确的显着性预测。然而,RGB-D显著性检测方法也受到深度图上或沿着对象边界随机分布的错误或缺失区域的负面影响这提供了通过精心设计的模型实现更有效的推理的可能性在本文中,我们提出了一个新的框架,准确的RGB-D显着性检测考虑到全球的位置和局部细节的互补性,从两个模态。这是通过设计一个互补的交互模块(CIM)来实现的,以区别性地从RGB和深度数据中选择有用的表示,并有效地集成跨模态特征。融合后的特征能够准确定位具有精细边缘细节的显著目标此外,我们提出了一个补偿感知损失,以提高网络在六个公开数据集上的综合实验表明,我们的方法优于18个最先进的方法。1. 介绍显著对象检测(SOD)的目的是区分场景中最吸引人的对象。这一基本任务在广泛的计算机视觉和机器人视觉任务中起着重要作用[3],例如视频/图像分割[11],视觉跟踪[18],图像字幕[9]。许多以前的作品在SOD的重点是RGB图像。尽管RGB SOD方法已经取得了很大的进步,但当涉及到具有挑战性的场景时,它们可能仍然很敏感。这主要是因为如果没有准确的空间约束,单独的外观特征往往本质上是平等贡献†通讯作者图像深度图DMRA CPFP OURS GT图1.来自RGB-D显著性数据集的样本第一行示出了理想的深度图可以显著地帮助检测任务。然而,如其他行所示,不期望的深度图也可能显著影响预测效果。当前景和背景之间的颜色对比度相当低或者背景杂乱时,对于显著性检测的预测性较低。具有丰富空间结构信息的深度图已被证明有利于准确的显著性预测。在过去的几年里,已经对RGB-D显着性检测做出了巨大的努力[27,37,6,5,1]。RGB-D显著性检测的准确性高度依赖于深度图的质量,深度图的质量很容易受到各种噪声的影响,例如相机的温度、背景照明以及观察对象的距离和反射率。因此,在现实生活场景中捕获的深度图在两个方面对准确的RGB-D显著性检测提出了巨大的挑战。首先,在深度图上引入随机分布的错误或缺失区域这通常是由传感器,吸收或反射不良产生的,例如,物体的一部分出现在不正确的深度,如图1的第3行所示我们还在图2中证明,随着深度图中相似性错误的增加,最新的代表性RGB-D方法逐渐失去了与排名第一的RGB方法的竞争。第二,误差深度测量主要发生在物体3473*DMRA*CPFP图2.我们显示的性能比较MAE方面的R。R表示输入深度图的显著区域与背景之间的深度对比度值,公式为|Ds − Dns|.Ds是显著性的平均深度值区域,Dns是背景的平均深度值地区我们测试了两种最先进的RGB-D方法[27,37](用注释 ) , 一 种 顶 级 RGB 方 法 [32] 以 及 我 们 在NJUD+LFSD+NLPR数据集中提出的方法。边界[37]。这通常是由成像原理引起的,例如,如图1的第4行所示,深度图中不可靠的边界信息也会显著影响后续性能。在这项工作中,我们努力迎接准确的RGB-D显着性检测的挑战。实现这一目标的主要挑战是设计一个模型,该模型具有足够的区分性,能够同时从跨模态互补的RGB-D数据中推理出有用的表示。第二个挑战是在损失的设计中,对不可靠深度图的硬样本具有高置信度,导致预测不准确和模糊。我们的核心见解是,尽管一些深度图的质量远非完美,但我们利用深度信息来解决上述挑战。我们的方法侧重于有效地探索和建立跨模型特征的互补性和合作性,同时避免错误的深度图带来的负面影响。源代码已发布1。具体而言,我们的贡献是:• 我们设计了一个互补的交互模块(CIM),用于区分性地探索跨模态复杂性。精神,并有效地融合跨模态特征。我们的国际监测协调员通过对区域的关注将这两种模式联系起来,并通过补充丰富的边界信息来加强每一种模式。• 我们引入了一个补偿感知损失,以提高网络对硬样本的信心。为此,拟亏损进一步帮助我网挖矿包含在交叉模态特征中的结构信息确保了具有挑战性的场景中的显著性检测的高稳定性。• 在6个基准数据集上,我们的模型优于18种最先进的SOD方法,包括9种RGB方法和9种RGB-D1https://github.com/OIPLab-DUT/CVPR2. 相关工作RGB-D 显 著 性 检 测 : 大 量 的 RGB 显 着 对 象 检 测(SOD)方法[19,35,36,10,23]已经取得了出色的性能。然而,在某些复杂场景下,如前景和背景相似、复杂背景、透明物体和低照度等,它们可能会出现脆弱的情况。因此,应利用额外的辅助信息来协助SOD任务。一些作品[37,5]专注于RGB-D显着性检测,其使用深度线索来提高这些复杂场景中的性能。传统的RGB-D显著性检测方法大多集中在引入更有效的跨模态融合方法,可以分为三类:(a)[26,31]连接输入深度图和RGB图像。(b)[13,14]分别从RGB图像和深度图中产生预测,然后将结果整合。(c)[15,29]结合手工制作的RGB和深度显着特征来推断最终结果。最近,在RGB-D显著性检测中采用CNN来学习更多有区别的RGB-D特征。[28]将手工制作的RGB-D特征馈送到CNN以进行深度表示。[39]使用基于CNN的网络处理RGB信息,使用对比度增强的网络提取深度线索。[17,5,7]提出多模态多级融合策略以从RGB-D特征捕获互补信息。[6]提出了一种三流结构,以自底向上的方式增强RGB-D表示[37]增强深度图以使用RGB特征,并设计流体金字塔集成方法以更好地利用多尺度交叉模态特征。[27]使用包含深度的多尺度加权模块来定位和识别显著对象,并通过循环注意力模型逐步生成更准确的显著性结果。与上述方法不同,我们的工作考虑了不可靠的深度图所造成的负面影响,并努力利用有用和精确的信息进行跨模态融合。3. 拟议框架概况. 在本节中,我们描述了我们提出的用于RGB-D显著性检测的框架的细节。图3示出了由三个主要部分组成的所提出的网络的概述首先,两个基于VGG-16 [30]的编码器分别从RGB和深度图像学习特征表示。在此基础上,我们提出了跨模态注意单元和边界细化单元生成显著物体位置和边界细节的有效特征。在解码器部分,我们采用了部分解码器,有效地融合提取的特征。巴斯我们*DMRA*CPFP0.070.060.050.040.030.4零点三五0.3R零点二五0.20.150.1Mae3474CIM(Complimentary InteractionModule)RW(区域权重)BSU+Conv1_2256x256X64Conv1_2256x256X64CAU++Conv2_2128x128X128Conv2_2128x128X128BSU边界译码器Conv3_364x64x256Conv3_364x64x256CIM++CRWConv4_332x32x256Conv4_332x32x256CIM显著性解码器(边界)GTConv5_316x16x256Conv5_316x16x256CIM+C+监督LGT(显著性)初始显著图深度图JRRRRR图3.我们提出的网络的整体架构。第3.2节介绍了本部分的详细内容。 为了引导网络从具有挑战性的场景中进一步学习,我们在第3.3节中引入了补偿感知损失。ΣmF[l]=CA(F[l]ΣNj=1D(di,jSpr)),(1)3.1. 免费互动模块3.1.1跨模态注意单元r rii=1ΣNj=1 di,j不同模态之间的差距使得多模态特征的线性融合策略对复杂场景的适应性较差。为了解决这个难题,[37][5]提出了核聚变。其中F[1]是从RFB块[34]生成的第l级RGB特征。表示第i个二进制掩码映射。Spr表示初始显著图。N是图像中像素的总数。m是二进制更好地融合跨模态特征的方法这些冰毒ODS基于输入具有高对比度的深度图遮罩贴图。 CA表示信道方面的注意力。F[l]在前景和背景物体之间。然而,在训练和测试过程中并不能总是保证理想的深度图。因此,这些方法容易受到错误深度图的负面影响。为了解决这个问题,我们提出了一个跨模态atten-tion单元,如图4(a)所示。它旨在有效地从RGB和深度模态特征中选择有用的信息。首先,我们将深度图(0-1)划分为m个二进制掩码图,以帮助找到用于显著对象检测的有用区域。二进制掩模图与深度图共享相同的空间分辨率。具体地说,map,我们将深度区域(i-1,i)中的像素设置为1,并且是从通道方向at生成的输出特征在L级的张力。当涉及到不可靠的深度图时,很难从深度图中提供有效的补充。 为了缓解上述问题,我们引入另一RGB注意块与所述跨模态注意块一起工作,表示 为 : CA ( SF[l] ) . 如 果 l=5 , 则 S=Spr , 否 则 S=(1−Spr)。该块利用Spr的贡献和(1-Spr)的帮助保持高级语义信息和残留细节。 在这种情况下,我们的网络可以保持从RGB模型中学习到的可靠信息。最终输出RGB特征F<$[l]为公式为:MM其它像素为0以生成第i个掩模图。对于RG-F<$[l]=Conv(Cat(F[l],CA(SF[l]), (2)R r rB模式,我们首先生成一个粗略的显着图,即通过1×1卷积(S pr=Conv(F5))从RGB编码器的第5级获得初始显著性图。Spr由显著性基础事实监督初始显着图指导深度层的选择,其被公式化为:其中Conv()表示具有64个输入通道和32个输出通道的卷积层。对于深度模型,我们也使用初始显著图来根据显著区域的比例对深度该过程可以用公式表示为:跨模态注意单元BSU边界补充单元连接和转换RGB模态特征深度模态特征跨模态融合特征边界要素转换乙状深度模态特征RGB模态特征L+赔偿意识损失逐像素加法C级联特权知识3475我我JSdout543(a)(b)第(1)款图4.互补交互模型子单元详图。 (a)是跨模态注意力单元(CAU)的细节,(b) 是边境支援小组的详情。RGB图像BPR1BPR2BPR3(一)BPR4BPR5周边空白图深度英1英2英3英国石油公司4英5(b)第(1)款图5.我们从VGG-16的每个级别生成显著性边缘预测(a):bpr表示当输入RGB图像时从第i(b)表示当输入深度图时从第i结果表明,BP_r、BP_r、BP_r能维持模糊的预测基于这一观察,我们提出了边界补充单元,如图4(b)所示。与以前从低层特征中提取局部边缘信息的方法不同[38],该单元旨在有效地从高层(VGG16:13,14,15)。这是由包含更纯边界信息的RGB模态的高级特征激发的,如图所示5.具体来说,我们设计了一个多尺度边界特征提取器,它包含四个具有不同感受野(1,3,5,7)的并行扩张然后,我们融合获得的互补显著边缘特征和每个级别的显著性特征,如图所示:纯净完整的显著边缘信息。N(di,j Spr)Fb=Fb <$F[l]<$F[l],(4)其中,表示逐元素乘法,并且表示逐元素加法。Fb表示在多个像素之间的边界特征。F[l]=CA(F[l]j=1D)、(3)比例边界特征提取F~代表了约束-D[l]Dii=1中国人民解放军报j=1B增强功能。我们将Fb解码为边界预测,由显著性背景真实值生成的边界背景真实值监督,以鼓励获得Fb其中F d表示第l层的RGB模态特征在RFB块之后。 这个选择步骤可以帮助我们的网络-判别边界推理然后,我们在每个模态中的CAU和BSU之后连接特征,工作重点放在重要地区以及渠道,生成增强特征F[1][l]路由器从深度BSU多尺度边界特征提取器…F[l]RGBX+F[l]扩张卷积边界特征增强的边界特征CAUF[l]RGBF[l]RGBX关注C初始显著图X关注CF[l]深度深度图二进制掩码映射F[l]深度WRGB模式区域选择 W深度模式区域选择注意频道明智的注意RGB注意块CConcatenateWW、FΣΣm3476跨模态特征。3.1.2边界补充股模式和RGB模式。最后,我们融合跨模态特征,如图所示:F[1]=Conv(cat(F[1] ,F[l])),(5)现有的RGB-D显著性检测方法仍然保持由于池化操作,边界模糊的问题fdout路由器选项。具体来说,如图5所示,很其中,C〇nv(·)表示具有64个输入通道和32个输出通道的卷积层3477Kff表1.在六个RGB-D数据集上对S-测量、F-测量和MAE评分进行定量比较。具有/不具有RGB的方法分别表示RGB-D方法和RGB方法。最好的三个结果以红色、绿色和蓝色显示。方法年份DUT-RGBD NJUD NLPR STEREO LFSD RGBD 135Sα↑Fβ↑MAE↓Sα↑Fβ↑MAE↓Sα↑Fβ↑MAE↓Sα↑Fβ↑MAE↓Sα↑Fβ↑MAE↓Sα↑Fβ↑MAE↓DSSCVPR17 .767 .732 .127 .807 .776 .108 .816 .755 .076 .841 .814 .087 .718 .694 .166 .763 .697 .098护身符ICCV17 .846 .803 .083 .843 .798 .085 .848 .722 .062 .881 .842 .062 .827 .817 .101 .842 .725 .070公司简介 Tcyb17 .833 .792 .097 .849 .788 .085 .860 .723 .056 .853 .786 .087 .796 .781 .120 .863 .765 .055DVDFTIP17.730 .748 .145 .735 .744 .151 .769 .682 .099 .763 .761 .142 .685 .566 .130 .685 .566 .130CDCPICCV17 .687 .633 .159 .673 .618 .181 .724 .591 .114 .727 .680 .149 .658 .634 .199 .706 .583 .119PiCANCVPR18 .832 .826 .080 .847 .806 .071 .834 .761 .053 .868 .835 .062 .761 .730 .134 .854 .797 .042PAGRN CVPR18 .831 .836 .079 .829 .827 .081 .844 .795 .051 .851 .856 .067 .779 .786 .117 .858 .834 .044R3网络 公司简介 .819 .781 .113 .837 .775 .092 .798 .649 .101 .855 .800 .084 .797 .791 .141 .847 .728 .066PPCACVPR18 .801 .760 .100 .877 .844 .059 .873 .794 .044 .880 .845 .061 .800 .794 .112 .845 .763 .049MMCIPR19.791 .753 .113 .859 .813 .079 .855 .729 .059 .856 .812 .080 .787 .779 .132 .847 .750 .064TANETTIP19.808 .779 .093 .878 .844 .061 .886 .795 .041 .877 .849 .060 .801 .794 .111 .858 .782 .045PDNetICME19 .799 .757 .112 .883 .832 .062 .835 .740 .064 .874 .833 .064 .845 .824 .109 .868 .800 .050CPFPCVPR19 .749 .736 .099---.888 .822 .036---.828 .813 .088 .874 .819 .037PoolNet CVPR19 .892 .871 .049 .872 .850 .057 .867 .791 .046 .898 .877 .045 .826 .830 .094 .888 .852 .031BasnetCVPR19 .900 .881 .042 .872 .841 .055 .890 .838 .036 .896 .865 .042 .823 .825 .086 .889 .861 .030CPDCVPR19 .875 .872 .055 .862 .853 .059 .885 .840 .037 .885 .880 .046 .806 .808 .097 .893 .860 .028EGNetICCV19 .872 .866 .059 .869 .846 .060 .867 .800 .047 .889 .876 .049 .818 .812 .101 .878 .831 .035印度国家机器人协会ICCV19 .888 .883 .048 .886 .872 .051 .899 .855 .031 .886 .868 .047 .847 .849 .075 .901 .857 .029我们-.915 .915 .033 .899 .886 .043 .914 .875 .026 .893 .880 .044 .859 .867 .066 .905 .876 .0253.2. 解码器对于第m层,我们首先采用后向稠密连接来跳过所有更深层的特征。考虑到第m层只学习特定于级别的表示,我们使用更深的特征来补充第m层的上下文信息然后,我们对多层特征的空间分辨率为128×128,边界信息(2)具有不可靠深度信息的样本。首先,我们使用边界预测作为特权信息来挖掘RGB图像中具有挑战性的边界区域。在生成边界预测之后,我们使用以下操作来生成挑战区域wb的权重图:wb=Max(pmax(bgt),pmax(bpr))−pmax(bgt)<$pmax(bpr),(7)并将它们连接起来。最终结果可以生成k l k lk l k l使用1×1卷积,其定义为:Σn其中pmax表示具有k个信元大小k的最大池化操作。采用最大池化算法扩大覆盖范围边界的区域。 在本文中,我们设定k=8。Max()F[i]=Conv(Cat(F[i],Conv(up(F[i]),(6)gtf f f最大值操作。 B是一个真实的世界i=l+1其中F[1]表示第1层的融合特征。F[l]显著性边缘,Bpr是预测的显著性边缘。对于那些不可靠的深度样本,f f显著区域类似于背景的显著区域因此,在本发明中,表示Lthl ev el的更新特征。up(·)是上采样操作。 n是总层数(n = 5)。我们从F [ 3 ]得到了最终结果Spr。3.3. 补偿意识损失建议CIM可以有效地增强从位置和边界细节提取的特征。但对于我们计算显著区域Ds和非显著区域Dns的平均深度值。样品重量定义为:w样本=1−|D s−D ns|.然后,我们按区域对深度样本进行加权,以进一步评估这些样本。区域权重图定义如下:Nkk一些硬样本、提取的交叉模态补偿和边界细节仍然是不可靠的。因此,我们使用了一个量身定制的损失函数来更多地关注那些硬样本。具体来说,我们开采这些wd= 阿萨姆·fi=1(digs)di(1 −(k=1)),(8)ΣNk我k=1样本从两个方面:(1)具有挑战性的样本,其中Mf表示二进制掩码映射D3478NF[25]第25届中国国际汽车工业展览会[26]第25届中国国际汽车工业展览会[27]图6.所提出的方法和最先进的算法的视觉比较(di)包含显著区域。N是像素的总数。gs是显著性基础事实。我们使用w样本,wd,ws来处理交叉熵损失,并且我们的补偿感知损失可以被给出为:表2.DUT-RGBD、LFSD和STEREO的消融分析Baseline表示图8中所示的基线架构。第3.1节介绍了CAU和BSU。closs表示第3.3节中介绍的建议补偿感知损失。ΣNLcl=−1Σwi(y(vi)=c)(log(y(vi)=c)),(9)方法DUT-RGBD LFSD STEREOi=1c∈{0,1}我我我其中w=λ1wb+ λ2wd+ λ3w sample。设λ1= 1λ2=1,λ3=0。五、y表示显著性基础事实。 y是显着的cy预测。我们的最终损失,结合BCE损失和补偿意识损失,en为:L=lbce(Spr,gs)+lbce(Spr,gs)+lbce(Bpr,gb)+Lcl,(十)其中lbce表示BCE损失。 PR是最后的预测-基线+CAU+BSU+闭合.915.915.033.859.867.066.893.880.044GPU。骨干网络的参数由VGG-16初始化[30]。其他卷积参数随机分配。所有训练和测试图像的大小都调整为256×256。批量大小设置为20。所提出的模型由Adam优化器[21]训练,第的公关F是由RGB初始学习率1 e-4除以10,35个纪元。我们的网络总共训练了40个epoch。模态Bpr是边界预测。gb是显著对象的边界真实值,其通过Prewitt算子由显著性真实值生成。4. 实验4.1. 实验装置实作详细数据。我们使用Nvidia RTX 2080Ti评估指标。我们采用3个常用的度量,即平均F-度量[2],平均绝对误差(MAE)[4]和最近发布的结构度量(S-度量)[12],来评估每种方法的性能。4.2. 数据集我们在六个广泛使用的RGB- D基准数据集上进行了实验。DUT-RGBD[27]:包含1200个Sα↑Fβ ↑MAE↓Sα ↑Fβ ↑MAE↓Sα ↑Fβ ↑MAE↓基线.869 .876 .053 .775 .808 .103 .791 0.810.085基线+CAU.894 .897 .042 .824 .823 .084 .867 0.859 0.056基线+BSU.900 .904 .039 .823 .843 .082 .869 0.870 0.055基线+CAU+BSU.904 .904 .038 .845 .851 .074 .883 0.874.0503479RGB深度RGB深度B+CAUB+BSUB+CAU+BSU最终GT图7.消融分析的目视比较。索引的含义已在表2的标题中解释。Lytro相机在现实生活场景中拍摄的图像。NJUD[20]:包括1985 RGB-D立体图像,其中立体图像是从互联网,3D电影和富士W3立体相机拍摄的照片中收集的。NLPR[26]:包含Kinect在不同照明条件下捕获的1000个图像对。LFSD[22]:包含Lytro相机拍摄的100张图像。[25]第二十五话图8.我们提议的网络的基线代表连接RGB和深度模态的特征。收集了797张从互联网上下载的立体图像net. RGBD-135[8]:包含收集的(一)(b)第(1)款(c)(d)其他事项(e)(f)第(1)款微软Kinect与[27]中相同的拆分方式,我们将来自DUT-RGBD的800个样本、来自N-JUD的1485个样本和来自NLPR的700个样本拆分用于训练。这三个数据集和其他三个数据集中的剩余图像均用于测试。4.3. 与现有技术的比较我们将我们的模型与18个显著对象检测模型进行了比较,其中包括9种最新的基于CNN的RGB-D方法(用“”注释):*DMRA [27],*CPFP [37],*PDNet[39] , *TANet [6] , *MMCI [7] , *PCA [5] ,*CDCP[40],*DF [28]、*CTMF [17]; 9个排名靠前的CNN RGB方法:EGNet [38],CPD [34],BASNet [32],PoolNet[23],R3Net [10],PAGRN [36],Amulet [35],PiCAN[32],安全理事会[19]。为了公平比较,我们使用发布的代码及其默认参数来重现这些方法。对于没有发布源代码的方法,我们使用它们发布的结果进行比较。定量评价。表1显示了六个数据集上三个指标的验证结果,包括平均从表1中可以看出,我们的方法显著优于现有方法,将MAE提高了15。NJUD数据集上的6%。在其他两个指标上一致观察到改善特别是,受益于建议的免费交互模块(CIM)和有益的补偿意识的损失,我们的结果优于所有其他方法的立体声和NLPR,其中的场景被认为是相对复杂的。定性评价。为了获得更直观的视图,我们在图6中展示了一些可视化结果,以展示所提出的方法的优越性 前4行显示具有挑战性的场景,包括透明物体(行1)、多个物体(行2)、低对比度场景(行3),图9. 可视化CAU周围的特征图。前两名行显示来自深度模式的特征,第3行和第4行显示来自RGB模式的特征。(a)RGB和深度输入。(b):显着性地面真理。(c-f):不同地点的CAU:建议的跨模态注意单元。Conv:两个卷积层。小目标(第4行)这些结果表明,我们的网络能够在这些具有挑战性的情况下准确地捕获显著区域。此外,第5-6行证明了我们的方法在不可靠的深度图方面的优越性。在这些场景中,现有的RGB-D方法无法检测显著部分,被不期望的深度图误导。另一方面,我们的网络可以挖掘有用的信息,以应付这些场景的建议跨模态注意单元(CAU)。此外,我们选择了两个具有复杂显著对象边界的示例(第7-8行),以表明我们的模型不仅定位了显著对象,而且还分割了具有更准确边界细节的对象。4.4. 消融研究在本节中,我们进行了消融分析,以证明每个组件对表2中三个测试数据集的影响基线是基于VGG16的架构,如图8所示。跨模态注意单元(CAU)。为了验证CAU的有效性,我们分析了启用CAU的性能,如表2所示。可以看出我们的CAU改进了三个数据集的基线。直观地,我们可视化了使用CAU之前/之后的结果,如图7所示。我们观察到,我们的CAU产生的预测可以更好地定位显着对象。此外,我们可视化的特征图是-前/后采用CAU,以验证其能力的se-map。Conv1_2Conv2_2 Conv3_3 Conv4_3 Conv5_3预测解码器Conv1_2Conv2_2 Conv3_3 Conv4_3 Conv5_3CAUC一个vC一个vCAU3480RGB基线AFNet[16][38]第24话:我的世界图10.视觉比较不同方法的边界细化的显着对象。表3.不同边缘线索使用机制的消融分析。在第4.4节中介绍了基线+AFNet边缘、基线+NLDF边缘和基线+EGNet边缘。方法DUT-RGBD LFSD STEREOSα↑Fβ ↑MAE↓Sα ↑Fβ ↑MAE↓Sα ↑Fβ ↑MAE↓基线.869.876 0.053 0.775.808 .103 0.791.810 0.085基线+AFNet边缘.873.879.051.784 .814.099.796.809.083基线+NLDF边缘.875.882.050.793 .815.093.815.826.072基线+EGNet边缘.882.882.048.792 .823.098.806.820.081基线+BSU.900.904.039.823.843.082.869.870.055选择有用的信息,如图9所示。显然,与两个卷积层之后的特征图(列d)相比,CAU之后的特征图显示出更精确地提取的显著对象的位置信息(列f)。边界补充单位(BSU)。我们将BSU与其他一些使用边缘信息的设计进行比较[24,16,38],以评估其有效性。结果示于表3中。NLDF边缘:我们将与[24]相同的IoU损失添加到基线,以最小化边缘的误差。AFNet边缘:我们将与[16]相同的CE损失添加到基线。EGNet边缘:基于[38],我们将RGB流调整为EGNet方式,并从Conv 2 -2中提取局部边界特征。通过O2OGM将边缘补充添加到显著性特征。如表3所示,在三个数据集上实现了相当大的性能提升。这些改进是合乎逻辑的,因为我们的BSU从高层提取更纯净的边界细节-如图5所示。 同时,图10中启用BSU的视觉效果说明了捕捉显著对象边缘的能力。赔偿意识损失的影响。我们通过使用基线+CAU+BSU的损失来验证补偿感知损失的强度,如表2所示。是我们可以看到,我们的补偿感知损失改善了三个数据集的基线+CAU+BSU。此外,我们可视化的预测之前/之后添加补偿意识的损失,以证明其能力。 如图- 图11(a),对于难以补充边界细节的挑战性样本,我们的损失有助于我们的网络在训练阶段更加关注硬像素,以获得更准确的预测。此外,所提出的损失还可以帮助具有不可靠深度图的样本从RGB图像中生成有用的知识,如图11(b)所示。(a)(b)第(1)款图11.有/没有补偿感知损失的结果的视觉比较。行2和行1分别示出了具有/不具有补偿感知损失的边界和显著性预测。第2列显示边缘预测。第3列和第6列显示了显着性预测。第4列和第7列表示显著性基础事实。表4.二进制映射的数量(m)的影响方法DUT-RGBDLFSDSTEREOSα↑Fβ↑MAE↓ Sα↑Fβ↑MAE↓ Sα↑Fβ↑MAE↓m=2.898.898.040.810.841.088.835.842.069M=5.911.914.035.853.866.071.869.869.055M=10.915.915.033.859.867.066.893.880.044M=20.910.917.035.842.853.070.890.882.045超参数设置。m表示CAU中二进制掩码的数量。我们将m从2增加到20,并测量相应的分数,如表4所示。随着m的增加,深度图被更精确地划分,以帮助选择准确的跨模态信息。然而,当m大于10时,精度增益不显著,但具有更多的计算成本。在我们的实验中,m被设置为10。5. 结论在本文中,我们努力迎接准确的RGB-D显着性检测的挑战。我们提出了一个新的框架,准确的RGB-D显着性检测考虑到本地和全球的互补性,从两种方式。它包括一个互补的交互模型,该模型由一个跨模态注意单元和一个边界补充单元组成此外,我们提出了一个补偿意识的损失,以提高网络在检测硬样本的信心。实验结果表明,该方法在6个公共显着性基准上达到了最先进的性能。鸣谢。本工作得到大连市科技创新基金(2019J12GX034)、国家自然科学基金(61976035,61725202,U1903215,U1708263,61829102、91538201和61751212)和中央大学基础研究基金(DUT19JC 58)。3481引用[1] 一种有效的基于图和深度层的rgb-d图像前景对象提取方法。Computational Visual Media,(4):85[2] Radhakrishna Achanta , Sheila Hemami , FranciscoEstrada和SabineSüsstrunk。频率调谐显著区域检测。在IEEEInternational Conference on Computer Vision and PatternRecognition(CVPR 2009),编号CONF,第1597-1604页[3] 阿里博尔吉、程明明、侯启斌、江怀祖、贾力。显著对象检测:一个调查。Eprint Arxiv,16(7):3118,2014.[4] Ali Borji、Ming-Ming Cheng、Huaizu Jiang和Jia Li。显著 对 象 检 测 : 基 准 。 IEEE transactions on imageprocessing,24(12):5706[5] 陈昊和李有福。渐进互补感知融合网络用于rgb-d显著目标检测。在IEEE计算机视觉和模式识别会议论文集,第3051-3060页[6] 陈昊和李有福。用于rgb-d显著对象检测的三流注意感知 网 络 。 IEEE Transactions on Image Processing , PP(99):1[7] 陈昊、李又甫、苏丹。 多尺度、多路径和跨模态交互的多模态融合网络用于rgb-d显著目标检测。模式识别,86:376[8] Yupeng Cheng,Huazhu Fu,Xingxing Wei,JiangjianXiao,and Xinxun Cao.深度增强显著性检测方法。互联网多 媒体 计算 和服 务国 际会议 论文 集 ,第 23页。ACM,2014年。[9] Abhishek Das 、 Harsh Agrawal 、 Larry Zitnick 、 DeviParikh和Dhruv Batra。视觉问答中的人类注意力:人类和深度网络会关注相同的区域吗?计算机视觉和图像理解,163:90[10] Zijun Deng,Xiaowei Hu,Lei Zhu,Xuemiao Xu,JingQin,Guoqiang Han,and Pheng-Ann Heng. R3net:用于显著性检测的循环残差细化网络。第27届国际人工智能联合会议论文集,第684-690页。AAAI Press,2018.[11] Michael Donoser , Martin Urschler , Martin Hirzer 和Horst Bischof。显著性驱动的全变分分割。2009年IEEE第12届计算机视觉国际会议,第817-824页。IEEE,2009年。[12] Deng-Ping Fan,Ming-Ming Cheng,Yun Liu,Tao Li,and Ali Borji.Structure-measure:一种评估前景图的新方法在IEEE计算机视觉国际会议论文集,第4548-4557页[13] 范星星,刘智,孙广灵。立体影像的显著区域侦测2014年第19届数字信号处理国际会议,第454-458页IEEE,2014。[14] Yuming Fang,Junle Wang,Manish Narwaria,PatrickLe Callet,and Weisi Lin.立体图像的显著性检测。IEEETransactions on Image Processing,23(6):2625[15] David Feng , Nick Barnes , Shaodi You , and ChrisMcCarthy.用于rgb-d显著目标检测的局部背景封闭。在IEEE计算机视觉和模式识别会议论文集,第2343-2350页[16] 冯梦阳,卢沪川,丁二瑞。用于边界感知显著对象检测的注意反馈网络。在IEEE计算机视觉和模式识别会议论文集,第1623-1632页[17] Junwei Han,Hao Chen,Nian Liu,Chenggang Yan,and Xuelong Li.基于cnns的跨视图传输和多视图融合的rgb-d显著性检测。IEEE transactions on cybernetics,48(11):3171[18] Seunhoon Hong , Tackgeun You , Suha Kwak , andBohyung Han.利用卷积神经网络学习判别显著图进行在线跟踪。计算机科学,第597-606页[19] Qibin Hou , Ming-Ming Cheng , Xiaowei Hu , AliBorji,Zhuowen Tu,and Philip HS Torr.具有短连接的深度监督法律程序中的IEEE计算机视觉和模式识别会议,第3203-3212页,2017年。[20] 冉菊,凌歌,耿文静,任通威,吴刚山。基于各向异性中心-环绕差分的深度显著性。2014年IEEE图像处理国际会议(ICIP),第1115IEEE,2014。[21] Diederik P. Kingma和Jimmy Ba。Adam:随机最佳化的方法。计算机科学,2014年。[22] Nianyi Li,Jinwei Ye,Yu Ji,Haibin Ling,and JingyiYu.光场显著性检测IEEE计算机视觉和模式识别会议论文集,第2806-28
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功