没有合适的资源?快使用搜索试试~ 我知道了~
3927基于对比度先验和流体金字塔积分的RGBD显著目标检测赵家兴1,曹阳1,樊登平1,*程明明1李轩毅1张乐21南开大学理学院https://mmcheng.net/rgbdsalpyr/摘要深度传感器的大量可用性为RGBD图像中的显著对象检测(SOD)提供了有价值的补充信息。然而,由于RGB和深度信息之间的固有差异,使用ImageNet预训练的骨干模型从深度通道中在本文中,我们利用对比度先验,它曾经是基于非深度学习的SOD方法中的主导线索,到基于CNN的架构中,以增强深度信息。增强的深度线索进一步与SOD的RGB特征集成,使用新的流体金字塔集成,其可以更好地利用多尺度交叉模态特征。在5个具有挑战性的基准数据集上的综合实验证明了CPFP架构优于9种最先进的替代方法。1. 介绍显著对象检测(SOD)的目的是区分场景中视觉上最独特的对象或区域它具有广泛的应用,包括视频/图像分割[17,40],对象识别[46],视觉跟踪,[3],前景图评价[14,15],图像重建,trieval [6,16,22,38],内容感知图像编辑[8],infor-信息发现[58],照片合成[5,29]和弱监督语义分割[52]。最近,基于卷积神经网络(CNN)的方法[28,36,39]已经成为SOD任务的主流,在挑战性的基准测试中取得了有希望的结果[13]。然而,现有的基于CNN的SOD方法主要处理RGB图像,当图像中的对象与背景材料具有相似的外观时,可能会产生不令人满意的结果来自流行设备的深度信息,Kinect和iPhone X提供了重要的互补信息,*表示共同第一作者。M.M.程(cmm@nankai.edu.cn)为通讯作者。图1. RGBD显着性数据集的样本:2000年[32],NLPR [42]和SSB [41]。深度信息对于发现显著目标起着重要的补充作用。信息识别突出的对象,如图所示。1.一、尽管在过去几年中已经提出了几个基于RGBD的SOD基准[32,42]和方法[4,18,20,49],但如何有效地利用深度信息,特别是在深度神经网络[4]的背景下,仍然在很大程度上未被探索。现有的基于RGBD的SOD方法通常通过简单的级联来融合RGB和深度输入/特征,或者经由在早期阶段的融合[42,49]、在后期阶段的融合[18]、或者在中间阶段的融合[20],如图2所示。二、我们认为,由于两个主要挑战,经由简单级联的直接跨模态融合1) 缺乏高质量的深度图。从最先进的传感器捕获的深度图比RGB图像更嘈杂且无纹理,这对深度特征提取提出了挑战。我们缺乏良好的预训练骨干网络来从深度图中提取强大的特征,因为像ImageNet [10]这样的大规模深度图数据集不可用。2) 次优多尺度跨模态融合。这两种模式,即,深度和RGB具有非常不同的属性,使得两种模态的有效多尺度融合变得困难。例如,与其他颜色相比,“绿色”颜色与“植物”类别的相关性更强。然而,没有深度值具有这样的相关性。两种模态之间的固有差异可能会导致不兼容问题,当简单的融合策略,如线性组合或concate,G-truth深度RGB3928国就业。我们不是使用ImageNet预训练的骨干网络从深度图中提取特征,然后像现有方法[4,18,20,49]那样融合RGB和深度信息,而是提出使用对比度先验来增强深度信息。然后将增强的深度图用作注意力图,以与RGB特征一起工作,以获得高质量的SOD结果。在CNN流行之前,对比度先验曾经是发现显着对象的主要线索,不仅在计算机视觉社区[2,7,30,43],而且在神经科学[11]和认知心理学[50]中。通过重新使用对比度先验Concatenatea预测模型模型联合决定通过我们的对比度增强网络,我们桥接了来自RGB通道的代表性CNN特征和来自深度通道的强大显着性先验具体来说,我们提出了一个对比度损失的对比度增强网络,通过测量显着和非显着区域之间的对比度以及它们的一致性。以完全可重构的方式设计,对比度增强的网络可以通过反向传播轻松训练,并与其他CNN模块一起工作。高质量的基于超声波图像的RGBD需要有效的多尺度跨模态特征融合。与现有的基于多尺度特征融合的CNN方法[4,27,28,55]不同,我们需要额外考虑特征兼容性问题。我们设计流体金字塔整合融合跨模态(RGB和深度)的信息,在一个层次化的方式。受Houet al的启发。[28]和Zhaoet al. [55],我们的集成方案包含从较高CNN层到较低CNN层的丰富短连接在集成过程中,来自两种模态的特征通过几个非线性层,使得反向传播机制能够调整它们的表示以获得更好的兼容性。我们通过广泛的消融研究和比较,实验验证了我们的模型设计的有效性即使使用简单的骨干网络(VGG-16 [48]),与最先进的基于RGBD的SOD方法相比,我们的方法也表现出显着的性能。总之,我们的主要贡献有三个方面。• 我们设计了一种对比度损失,以利用在非深度学习方法中广泛使用的对比度先验,用于深度图增强。我们基于RGBD的SOD模型成功地利用了传统对比度先验和深度CNN特征的优势。• 为了更好地利用多尺度交叉模态特征,我们提出了一种流体金字塔集成策略,其有效性已被实验验证。• 没有铃铛和哨子,例如,HHA [24],superpix-els[54]或CRF [33],我们的模型在5个广泛使用的基准数据集上以较大的幅度优于图2.使用深度图的三种方法。(a)早期融合(例如[42,49])(b)晚期融合(例如,[18])(c)中度融合(例如:[20]详细内容见第二节。2.22. 相关作品2.1. SODSOD的早期工作依赖于各种手工设计的功能[7,26,37,41]。最近,学习表示正在成为事实上的标准,性能大大提高。Li等[35]通过预训练的深度卷积网络为每个超像素提取多尺度特征以导出显著图。该方法将每个超像素周围的三个不同尺度的包围盒特征组合成一个特征向量,以整合多尺度信息。在[56]中,Zhaoet al.提出了一种用于显著对象检测的多上下文深度学习框架,其中使用两种不同的CNN分别提取全局和局部上下文信息。Lee等[34]考虑了从CNN提取的高级特征和手工特征。 高水平的功能和手-使用多个1× 1卷积层和ReLU层编码的工艺特征被融合到特征向量中。中在上述方法中,输入都是超像素,使得模型必须运行多次以获得显著性对象预测结果。Liu等[39]设计了一个两级网络,其中粗降尺度预测图由另一个网络以分层和渐进的方式产生和细化。Li等[36]提出了一种深度对比度网络,它不仅考虑了像素级信息,而且还将段级指导融合到网络中。在[28]中引入了具有短连接的深度架构,其基于HED架构[53]添加了从高级特征到低级特征2.2. RGBD基SOD如图2、现有的RGBD显著性目标检测方法可以分为三类。第一个方案,如图所示。2(a),在最早阶段融合输入,并将深度图直接视为输入的一个通道[42,49]。图2(b)代表模型c特征融合模型预测模型3929F,b)第二种方案采用“后融合”策略。更具体地,产生来自RGB和深度两者的单独预测,并且结果被集成到单独的后处理步骤中,诸如逐像素求和和乘法。例如,Fanet al. [18]使用深度对比度和深度加权颜色对比度来测量区域的显著值。Fang等人[19]使用从DC-T系数中提取的深度来表示图像块的能量。Cheng等人[9]通过颜色和深度空间中视觉显著刺激的规律计算了显着此外,Desingh等人[12]利用非线性支持向量回归来融合这些预测图。第三种方案,如图所示。图2(c)中所示的方法组合了从不同网络提取的深度特征和RGB特征。例如,Fenget al. [20]提出了新的RGBD显着特征来捕获角方向的扩展。类似地,R.Shigematsuet al. [47]建议捕获背景外壳,以及低级别的深度线索。最近,在RGBD显著性检测中采用CNN未能获得更具区分性的基于学习的特征。基于CNN的方法几乎属于上述第三种方案。在[44]中,Quet al.首先为每个超像素/块生成RGB和深度特征向量,然后将这些向量送入CNN以获得显著性置信度值,最后使用Laplacian传播来获得最终的显著性图。Han等人[25]提出了一种双视图(RGB和深度)CNN,从RGB图像和相应的深度图像中获取特征,然后同时将这些特征与新的全连接层连接,以获得最终的显着图。Chen等人[4]设计了一种渐进式融合方法。为了融合多尺度信息,它将预测从所有较深的层跳接到较浅的层。而不同尺度的信息被预测为预测-由对比度增强网络(Contrast Enhance Net)和跨模态融合(Cross-Modal Fusion)策略组成,对比度增强网络用于学习增强的深度图,跨模态融合策略用于特征调制。该功能增强模块独立于RGB流的网络骨干。在这里,我们使用[4]中建议的VGG-16进行公平比较,最后三层被截断。VGG-16网络包括五个卷积块,并且块的输出分别被[2,4,8,16,32]次下采样。如图3.在每个块的末尾增加一个特征增强模块(FEM),以获得增强的特征。FEM包含对比度增强网络和跨模态融合,这将在第2节中介绍。3.1.1和第第3.1.2条。3.1.1对比度增强网(CEN)受先前工作的启发[14],前景和背景之间的对比度以及前景中的均匀分布在SOD中占主导地位为了有效地使用这个先验知识,我们在对比度增强网络中设计了一个对比度损失对比度增强网络的结构如图所示。3.第三章。为了科学地衡量对比度损失的影响,对于CEN中的其他部分,我们选择了几种常见的层和简单的结构,这不会影响性能。有关参数的详细信息,请参见4.1.对比度损失包含三项:前景对象分布损失L f、背景分布损失L b和整个深度图像分布损失L w。在我们的例子中,我们简单地把图像中的显著对象看作是前地对象.首先,对于前景和背景观测,增强的图应该与原始深度图因此,对于所生成的增强地图,前方地面对象分布损失If和背景分布损失Ib可以表示为:(pi,j−p<$f)2融合前的特征图,即在多尺度融合前已经完成了对特征的跨模态3. 该方法lf= −log( 1− 4<$∑(i,j)∈Flb= −log( 1− 4<$∑(i,j)∈BN),(pij−p)2b,(一)总体架构CPFP如图所示。3.第三章。VGG-16采用了有限元法和流体金字塔基于对比度先验,FEM在VGG-16的五个阶段增强RGB特征。细节在Sec. 第3.1条然后多尺度交叉模态F和B是图像中的显著对象区域和背景地面真相Nf和Nb分别表示显著对象和背景中的像素的数量。类似地,pf和pb分别表示增强图的前景和背景中的值的平均值特征通过流体棱锥集成。详情请参见第二节。3.2.3.1. 特征增强模块(FEM)pf=∑(i,j)∈Fpi,jNf,pb=∑(i,j)∈Bpi,jNb.(二)我们建议通过用来自深度图的信息调制它们来增强来自RGB输入的特征。然而,简单地用深度图调制可能会降低最终性能,因为深度图通常是有噪声的。相反,我们提出了一种新的安全性增强模块如在Eqn. 1、我们对显著对象和背景的内部方差进行建模,以促进与原始深度图的一致性S形层用于将对比度增强网络的输出压缩为[0,1]。在这种情况下,内部方差的最大方差为0. 25,N3930流体金字塔集成卷积最大池化不同尺度的增强图3.建筑CPFP。该架构包含两个模块:特征增强模块(FEM)和流体金字塔集成模块。FEM包含两个子模块:对比度增强的网络和跨模态融合。在对比度增强网络中,我们利用一种新的对比度损失来利用深度网络中的对比度先验来生成增强图,然后在VGG-16的所有5个阶段通过跨模态融合来获得增强特征。采用流体金字塔积分方法融合多尺度交叉模态特征。我们的体系结构的细节在第二节中介绍。3 .第三章。因此,我们将方差乘以4以确保对数函数的范围是从0到1。第二,增强前景和背景物体之间的对比度因此,我们将整个深度图像分布损失lw定义为:l w= −log(pf− p b)2.(三)通过对均值差进行建模,保证了前景对象与背景之间的对比度尽可能大。pf和pb介于0和1之间,因此log函数中的参数值介于0和1之间。最后,对比度损失lc可以表示为:lc=α1lf+α2lb+α3lw,(4)其中α1、α2和α3是预定义的参数。我们建议将它们分别设置为5、5和1。如图4,增强后的深度图与原始深度图相比具有此外,前景和背景中的分布更加均匀。3.1.2跨模态融合跨模态融合是特征增强模块的一个子模块,其目的是用增强的深度图调制RGB特征。单通道增强图的作用类似于注意力图[21,51]。到具体来说,我们将每个块的RGB特征图乘以增强的深度图,以增强显著区域和非显著区域之间的特征对比度残余连接被进一步添加以保留原始RGB特征。我们将这些特征图称为增强特征F,其计算为:F=F+FDE,(5)F是原始RGB特征,DE表示由所提出的对比度增强网络生成的增强图。表示逐像素乘法。如图3.通过将特征增强模块插入到每个块的末尾,我们分别获得了F_1、F_2、F_3、F_4、F_5五个不同尺度的增强特征。3.2. 流体金字塔集成(FPI)在处理跨模态信息时,特征兼容性是关键。受多尺度特征融合的启发,我们设计了一个如图所示的流体金字塔结构3 .第三章。流体金字塔可以更充分地利用多尺度水平中的跨模态特征,这有助于确保特征兼容性。具体地说,我们的金字塔有5层。第一层由五个节点组成,每个节点是一组增强的fea,不同尺度的作品。然后,我们通过将F~2、F~3、F~4、F~5上采样到与F~1相同的大小并将这些上采样的特征相加来构造第二层的第一节点。类似地,我们将F103、F104、F105上采样到与F102相同的大小,并添加增强功能增强型地图交叉模态融合对比增强网对比度损失S乙状S3931它们构建第二层的第二节点以这种方式,对于金字塔的第n(n∈ {1, 2, 3, 4, 5})层,总共有n个节点,并且每个节点与来自金字塔的第(n-1)层(在这种情况下,第0层返回到修改的VGG-16)的所有更高级别的信息骨架)。接着是过渡卷积层和sigmoid层,我们获得最终的显着图P。与[4]连接预测的显着图相比,所提出的集成方法适用于特征图。而特征在多尺度融合前保留了更丰富的跨模态信息也就是说,流体金字塔在多尺度和跨模态两个层次上集成了信息与文献[55]中传统的金字塔特征融合方式相比,FPI通过更丰富的连接(称为流体连接)将金字塔每一层节点的所有高层特征引入到底层特征中。流体连接为不同尺度下的跨模态特征提供了更多的交互,有助于多尺度层次上的特征兼容。受[53]的启发,我们将深度监督添加到每个尺度的增强深度图中。因此,总损失L可以表示为:5L=ls+Σlci,(6)i=1其中LS表示预测图和显著性基础事实之间的交叉熵损失。Lci表示第i个特征增强模块中的对比度损失。上面已经提到了对比度损失,并且交叉熵损失可以计算为:lf=YlogP+( 1−Y) log( 1−P),(7)其中P和Y分别表示预测图和显著性地面实况图4. 实验4.1. 实现细节所提出的思想通常独立于网络主干。在这项工作中,我们选择VGG-16 [48]进行公平的比较。所提出的网 络 使 用 Caffe 库 实 现 [31] 。 在 [4] 之 后 , 我 们 从NJU2000 [32]中随机选择1400个样本,从NLPR [42]中随机选择650个样本进行训练。我们还从NJU2000和50从NLPR作为验证集的样本100图像。其余图像用于测试。我们随机翻转训练集中的图像以进行数据增强。对比度增强网络中的参数详细信息。我们简单地使用两个卷积层,然后是ReLU层,重复使用以确保增强的地图具有相同的尺寸与原始特征图相同。在第一卷积层中,核大小、信道数和步幅被设置为(4,32,2)。在第二卷积层中,核大小,信道数和跨距被设置为(3,32,1)。之后重复该两层块,直到特征图保持与融合位置中的RGB特征相同的尺寸。然后,接着是另外两个卷积层。它们的核大小、通道数和步长分别为(3,32,1)和(3,1,1)。之后,输出被抛出到sigmoid层以生成最终的增强映射。采用S形层以确保增强图的值落在范围[0,1]内。训练在训练阶段,我们训练我们的网络进行10,000次迭代.初始学习率设置为1 e-7,并在7,000次迭代后除以10体重下降-Cay 和 动 量 分 别 设 置 为 0.0005 和 0.9 。 我 们 在 单 个NVIDIA TITAN X GPU上训练我们的网络。批处理大小和iter大小分别设置为1和10新添加的卷积层的参数都用高斯核初始化。对于长宽比大于400的图片,在保持长宽比不变的情况下,我们将其调整为新的长宽比,其中最大值为400。推理。在推理阶段,我们调整预测的显着性图的大小,以保持与原始RGB图像相同的分辨率4.2. 数据集和评估指标数据集。我们在5个广泛使用的RGBD数据集上进行了实验。NJU 2000[32]包含2003个立体图像对,其中包含不同的对象和复杂的chal-challing场景,以及地面实况图。立体图像是从3D电影,互联网,和照片拍摄的富士W3立体相机收集 NLPR[42]也被称为RGBD 1,000数据集,包括1,000张图像。在每个图像中可能存在多个显著对象。在不同的光照条件下,利用微软Kinect获得了结构光深度图像。SSB[41]也称为STEREO数据集,由1000对双目图像组成。 LFSD[37]是一个小数据集,包含100张具有深度信息和人类标记的地面真实值的图像。通过Lytro光场相机获得深度信息。RGBD 135也被命名为DES,由7个室内场景组成,包含135个由Microsoft Kinect收集的室内图像。评估指标。我们采用了4种常用的度量方法,即S-测度、均值F-测度、最大F-测度和平均绝对误差(MAE),以及最近发布的结构测度(S-测度[14])来评估不同方法的性能[2]。F度量是平均精确度和平均召回率的调和平均值,公式为:(1+β2)精确度×召回率Fβ=β2×精度+召回率,(8)我们设β 2= 0。3.精确度高于召回率,3932宽×高数据集度量LHM[第四十二届]GP[45个]LBE[20个]SE[23日]CDCP[五十七]DF[第四十四届]马里国防[49个]CTMF[25日]PCF[4]美国我们CPFPSSB 1000S-测量↑0.5620.5880.6600.7080.7130.7570.7280.8480.8750.879平均F↑0.3780.4050.5010.6100.6430.6160.5270.7580.8180.842maxF↑0.6830.6710.6330.7550.6680.7560.7190.8310.8600.873[41]MAE↓0.1720.1820.2500.1430.1490.1410.1760.0860.0640.051NJU 2000S-测量↑0.5140.5270.6950.6640.6690.7630.7480.8490.8770.878平均F↑0.3280.3570.6060.5830.5940.6630.6280.7790.8400.850maxF↑0.6320.6470.7480.7470.6210.8150.7750.8450.8720.877[32]MAE↓0.2050.2110.1530.1690.1800.1360.1570.0850.0590.053LFSDS-测量↑0.5570.6400.7360.6980.7170.7910.7000.7960.7940.828平均F↑0.3960.5190.6110.6400.6800.6790.5210.7560.7610.811maxF↑0.7120.7870.7260.7910.7030.8170.7830.7910.7790.826[37]MAE↓0.2110.1830.2080.1670.1670.1380.1900.1190.1120.088RGBD 135S-测量↑0.5780.6360.7030.7410.7090.7520.7410.8630.8420.872平均F↑0.3450.4110.5760.6190.5850.6040.5230.7560.7650.815maxF↑0.5110.6000.7880.7450.6310.7660.7460.8440.8040.838[9]MAE↓0.1140.1680.2080.0890.1150.0930.1220.0550.0490.037NLPRS-测量↑0.6300.6540.7620.7560.7270.8020.8050.8600.8740.888平均F↑0.4270.4430.6260.6240.6210.6840.6490.7530.8090.840maxF↑0.6220.6030.7450.7200.6550.7920.7930.8340.8470.869[42]MAE↓0.1080.1550.0810.0990.1170.0780.0950.0630.0520.036表1.定量比较结果包括5个流行数据集的S-测度、平均F-测度、最大F-测度和MAE↑↓分别表示越大越好,越小越每行中的前三个分数分别用红色、蓝色和绿色标记建议在[1]。在[2]之后,我们提供了使用不同阈值(0-255)的平均F-测量,最大F-测量令P和Y表示显著性图和被归一化为[0,1]的地面真值。为了公平地比较非-显着区域[2],我们通过以下方式计算MAE分数:1W Hε=∑ ∑|P(x,y)− Y(x,y)|、(9)x=1y= 1其中W和H是显着图的宽度和高度。MAE和F-measure度量都忽略了结构相似性评估,然而,行为视觉研究表明,人类视觉系统对场景中的结构高度敏感[14]。因此,我们另外引入S-测度[14]以进行更全面的评估。S-度量将区域感知(Sr)和对象感知(So)结构相似性组合为它们的最终结构度量:S−测度=α<$So+(1−α)<$Sr,(10)其中α∈[0, 1]是平衡参数,设置为0.5。4.3. 烧蚀实验与分析在本节中,我们将探讨所提出的方法中的不同组件对NJU2000数据集的影响安全性增强模块。为了证明所提出的对比度增强网络的有效性。我们比较了使用骨架(用B表示)和在骨架中加入有限元(用B + C表示)的结果。如Tab.所示2、比较第一排和第三排,我们可以看到图4.深度图像与其增强图之间的视觉比较。显著区域和非显著区域之间的对比度得到提升,同时这些区域中的价值观变得更加一致。所提出的有限元方法带来了明显的改进。此外,我们在图中展示了深度图像和它们的增强图4.第一章显然,与原始深度图像相比,显著区域和非显著区域之间的对比度得到了提升,同时两个区域内的值变得更加一致。此外,我们还直接使用原始深度图作为增强图(由B + D表示,表2中的第2行)来评估结果2),表明B + D具有负效应。这是合理的。从图1所示的原始深度图。4、显著区域和非显著区域的对比度不够明显,显著区域和背景噪声较多。虽然B + C有所不同,但视觉实例如图所示六、比较由主链(B,图1A中的第3列)产生的结果。图6)和主干融合原始深度图(B + D,第4列6),我们可以看到,起源-增强深度RGB3933RGB深度BB+DB+CB+C+MB+C+PB+C+FPGT图6.与不同模块的视觉比较索引的含义可以在Tab的标题中看到。2图5.不同的融合方式。位于左上方的是金字塔融合架构[55](表中的P)。2)的情况。另一个位于右下角的是简单的多尺度融合架构[36](M in Tab. 2)的情况。最终深度图不工作得很好。当我们将我们提出的特征增强模块添加到主干中以融合跨模态信息时,结果如图5的第5列所示。6(B + C)。在深度信息的帮助下,被误认为骨干中的显著对象的区域被成功地移除。结果表明,在对比度先验增强深度图后,当RGB特征检测遇到困难时,深度信息有很大的帮助。例如,RGB贴图中的某些区域是嘈杂的(因为颜色、纹理、亮度等)。在深度层次上呈平凡分布。流体金字塔集成。与一些transmitting多尺度方法[36,55]相比,所提出的集成可以更充分地利用信息,这有助于多尺度水平的跨模态特征兼容性在选项卡中。2,第3行和最后一行显示添加FPI之前(B +C)和添加FPI之后(B + C + FP)的性能。从数字上看,金字塔一体化战略非常有效,贡献了近10个百分点。为了说明金字塔架构的作用,我们首先采用简单的融合方法,其中我们将多尺度特征上采样到相同的大小,并直接将它们连接起来[36],如图右下所示。五、我们将此方法表示为B + C + M,并在表4中的第4行显示性能。二、结果表明,这种多尺度融合方法的帮助非常有限。然后,我们使用金字塔架构来分层融合这些特征[55],如图左上所示。5,在表5的第5行中表示为B + C + P。二、数值上,金字塔融合比直接融合方法有效得多,贡献了近4个点的改进。然后我们在金字塔上添加流体连接,结果进一步改善,如第6行所示。在视觉上,如图所示。6、比较第5柱(B + C)和第6柱(B + C + M)的结果可以看出,表2.不同模块的消融研究B表示基础模型(VGG)。D表示深度图。B + D表示我们直接使用原始深度图作为增强图。C表示对比度增强的网络,M表示简单的多尺度融合,如图1右下角所示。五、P表示如图1的左上部所示的金字塔融合。5,FP表示所提出的流体金字塔积分方法。细节在Sec. 四点三。多尺度信息、边缘细节得到改善。但是被对比度先验(第5列)屏蔽的非显著区域再次出现。造成这种现象的原因是跨模态信息融合在多尺度层次上遇到了特征兼容性问题。然后,我们利用金字塔体系结构(B + C+ P)多尺度信息融合更充分。非显著区域变得更小,因为特征补充得更好。在我们添加流体连接(B + C +FP)之后,将高层特征融合到金字塔每一层的低层特征中,显著对象的位置变得更好。特征互补实现最佳性能。4.4. 与最先进的技术相比我们将我们的模型与9个基于RGBD的显著对象检测模型进行比较,包括LHM [42],GP [45],LBE [20],SE [23],CTMF [25],DF [44],MDSF [49],[57]和PCF [4]。请注意,上述方法的所有显着图都是通过运行源代码或由作者预先计算而产生的对于所有比较的方法,我们使用的默认设置的文件建议。对于目前没有发布代码的作品,我们感谢作者帮助运行结果。如Tab.所示。1,我们的方法优于国家的最先进的方法在大多数评估指标包括最大F-测量,平均F-测量和MAE。与最近提出的基于CNN的方法相比,我们的方法具有明显的优势。模型平均F ↑maxF↑MAE↓B [40]0.7140.7910.115B + D0.7080.7880.121B + C0.7560.8060.094B + FP0.7580.8140.092B + C + M0.7480.8240.105B + C + P0.7890.8440.078B + D + FP0.7830.8420.081B + C + FP0.8510.8770.0533934简单场景低对比度复杂场景小物体多个对象RGB深度GT我们的PCF CTMF MDSF DF CDCP SE LBE图7.SSB1000、NJU2000、LFSD、RGBD 135和NLPR的可视化结果。在常用的数据集上有明显的优势。图7、给出了一些可视化结果。特别地,我们总结了显著对象检测中的几种具有挑战性的情况:低对比度、复杂场景、小目标和多目标。如图7,我们在第一行展示了一个简单的例子,几乎所有的方法都表现得很好。在第2 - 3行中,我们展示了一些低对比度的图像,其中显著对象与背景之间的颜色差异不明显。然而,如果它们的深度差异像所显示的样本一样明显,我们可以利用这些深度信息来帮助模型检测显著对象。与早期的方法(右)相比,我们的结果更完整。与PCF [4]和CTMF [25]等基于学习的方法相比,细节要好得多。此外,我们还采样了一些图像(第4 - 5行)的场景是复杂的。在这些图像中,由于场景的复杂性,其他方法将背景误认为显著对象然而,我们的模型表现得非常好。这两种类型的图像进一步说明了所提出的使用深度信息的方式是合理的。然后,我们展示了另外两种具有挑战性的情况,小对象和多个对象。在这些具有挑战性的情况下,可以看出,我们的模型不仅通过高层信息很好地定位了显著对象,而且通过低层信息很好地分割了对象。5. 结论在本文中,我们开发了一个对比度增强的网络监督的一种新的对比度损失的深度图像。提出的网络增强深度图显式,基于对比度先验。增强后的地图结合RGB特征,增强了显著区域和非显著区域的对比度,同时保证了这些区域内的一致性此外,我们设计了一种流体金字塔积分方法,以更好地利用多尺度交叉模态特征。与单模态特征的多尺度融合策略相比,流体金字塔融合在多尺度层次上对跨模态融合进行了我们的方法在广泛使用的数据集上显著地推进了最先进的技术,并且能够在具有挑战性的情况下捕获显著区域。鸣谢。我们要感谢匿名评论者提供的有用反馈。 本研究得到了国家自然科学基金(61572264)、国家青年人才支持计划、中央高校基础研究基金(南开大学,NO.20000000)、国家自然科学基金(61572264)和国家自然科学基金(61572264)的资助。63191501)和 天 津 市 自 然 科 学 基 金 ( 17JCJQJC 43700 ,18ZXZNGX 00110)。3935引用[1] R. Achanta,S. Hemami,F. Estrada和S. 很好频率调谐显著区域检测。CVPR,2009。 6[2] Ali Borji、Ming-Ming Cheng、Huaizu Jiang和Jia Li。显著 对 象 检 测 : 基 准 。 IEEE TIP , 24 ( 12 ) : 5706-5722,2015. 二、五、六[3] Ali Borji 、 Simone Frintrop 、 Dicky N Sihite 和 LaurentItti 。 通 过 学 习 背 景 上 下 文 的 自 适 应 对 象 跟 踪 见CVPRW,第23-30页。IEEE,2012。1[4] 陈昊和李有福。用于RGB-D显著目标检测的渐进互补感知融合网络在CVPR中,第3051-3060页,2018年。一二三五六七八[5] Tao Chen , Ming-Ming Cheng , Ping Tan , ArielShamir,and Shi-Min Hu. Sketch2photo:互联网图像蒙太奇。ACM TOG,28(5):124,2009. 1[6] Ming-Ming Cheng,Qi-Bin Hou,Song-Hai Zhang,andPaul L Rosin.智能视觉媒体处理:当图形与视觉相遇。JCST,32(1):110-121,2017. 1[7] Ming-Ming Cheng , Niloy J Mitra , Xiaolei Huang ,Philip HS Torr,and Shi-Min Hu.基于全局对比度的显著区域检测。IEEE TPAMI,37(3):569-582,2015。2[8] 郑明明,张芳略,尼洛伊·J·米特拉,黄晓磊,胡世民。Repfinder:查找近似重复的场景元素进行图像编辑。ACM TOG,29(4):83,2010. 1[9] Yupeng Cheng,Huazhu Fu,Xingxing Wei,JiangjianXiao,and Xinxun Cao.深度增强显著性检测方法。见ICIMCS,第23页。ACM,2014年。三五六[10] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。在CVPR,第248-255页中。Ieee,2009年。1[11] 罗伯特·德西蒙和约翰·邓肯。选择性视觉注意的神经机制。神经科学年度评论,18(1):193-222,1995。2[12] Karthik Desingh,K Madhava Krishna,Deepu Rajan和CV Jawahar。深度真的很重要:利用深度改进视觉显著区域检测。InBMVC,2013. 3[13] Deng-Ping Fan , Ming-Ming Cheng, Jiang-Jiang Liu ,Shang- Hua Gao,Qibin Hou,and Ali Borji.clut- ter中的显著对象:将显著对象检测带到前景。在ECCV。Springer,2018. 1[14] Deng-Ping Fan,Ming-Ming Cheng,Yun Liu,Tao Li,and Ali Borji.Structure-measure:一种评估前景图的新方法在ICCV,第4548-4557页,2017年。一二三五六[15] Deng-Ping Fan , Cheng Gong , Yang Cao , Bo Ren ,Ming-Ming Cheng,and Ali Borji.用于二值前景图评估的增强对齐度量。在IJCAI,第698-704页,2018年。1[16] 邓平范,王娟,薛梅良。利用上下文感知显著区域改进图像检索。在《应用力学与材料》,第734卷,第596599. Trans Tech Publ,2015. 1[17] Deng-Ping Fan,Wenguan Wang,Ming-Ming Cheng,and Jianbing Shen.将更多的注意力转移到视频显著对象检测上。在CVPR,2019年。1[18] 范星星,刘智,孙广灵。立体影像的显著区域侦测。在DSP中,第454-458页,2014年。一、二、三[19] Yuming Fang,Junle Wang,Manish Narwaria,PatrickLe Callet,and Weisi Lin.用于立体图像的显著性检测IEEE TIP,23(6):2625-2636,2014年。3[20] David Feng , Nick Barnes , Shaodi You , and ChrisMcCarthy.用于rgb-d显著目标检测的局部背景封闭。在CVPR,第2343-2350页,2016年。一二三六七[21] 傅建龙,郑和良,陶梅。近看才能看得更清楚:用于细粒度图像识别的循环注意力卷积神经网络。在CVPR,第2卷,第3页,2017年。4[22] 高岳、王梦、陶大成、季荣荣、戴琼海。基于超图分析的三维物体检索与识别。IEEE TIP,21(9):4290-4303,2012年。1[23] 郭静帆,任通威,贾蓓。基于显著性进化的rgb-d图像显著目标在IEEE ICME中,第1-6页。IEEE,2016. 六、七[24] SaurabhGupta,RossGirshick,PabloArbela' ez,andJiten-dra Malik.从rgb-d图像中学习丰富的特征用于目标检测和分割。在ECCV,第345Springer,2014. 2[25] 韩俊伟,陈浩,刘念,阎成刚,李学龙.基于cnns的rgb-d 显 著 性 检 测 跨 视 图 传 输 和 多 视 图 融 合 。 IEEETransactions on Cyber-netics,2017。三六七八[26] Jonathan Harel,Christof Koch,和Pietro Perona。基于图形的视觉显著性。NIPS,第545-552页,2007年。2[27] Bhara thHariharan,PabloArbela' ez,RossGirshick,andJi-tendra Malik.用于对象分割和细粒度定位的超列。在CVPR,第447-456页,2015年。2[28] Qibin Hou , Ming-Ming Cheng , Xiaowei Hu , Ali
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功