深度校准和融合：提升RGB-D显著目标检测性能的关键

108 浏览量更新于2024-01-22 收藏 1.93MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9471校准的RGB-D显著目标检测魏继1、2、李晶晶1、双玉2、张淼3、朴永日3、姚顺玉3、齐碧2、4、马凯2、郑业锋2、胡川路3、李成1、1加拿大阿尔伯塔大学2中国深圳腾讯贾维斯实验室3大连理工大学4湖北武汉大学{wji3，jingjin1，lcheng5}@ ualberta.ca，{shirlyyu，kylekma，yefengzheng}@ tencent.com摘要复杂的背景和相似的外观之间的对象和他们的周围环境通常被认为是具有挑战性的场景中的显著对象检测（SOD）。这自然导致除了作为输入的常规RGB图像之外还并入深度信息，称为RGB-D SOD或深度感知SOD。意思是-图像GT深度原始深度测试（CoNet）深度测试（Ours）深度校准D3Net D3Net（+Cal）DMRA DMRA（+Cal）虽然，这一新兴的研究路线已经被认为-能够被原始深度图像中普遍存在的噪声和模糊性所阻碍。为了解决上述问题，我们提出了一个深度校准和融合（DCF）框架，它包含两个新的组件：1）一个学习策略，以校准原始深度中的潜在偏差0.8750.8700.8650.8600.8550.8500.8850.8800.8750.8700.8650.8600.0520.0500.0480.0460.0440.042映射到提高SOD性能; 2）一个简单而有效的交叉引用模块，以融合来自RGB和深度模态的特征。大量的实证实验表明，所提出的方法实现了优越的性能对27个国家的最先进的方法。此外，我们的深度校准策略可以单独作为预处理步骤;经验上，当应用于现有的前沿RGB-D SOD模型时，它会产生显著的改进。源代码可在 https://github.com/jiwei0921/DCF 上获得。1. 介绍显著目标检测（SOD）是一个重要的计算机视觉问题，其目的是识别和分割场景中最显著的目标。它已成功应用于各种任务，如对象识别[59]，图像检索[38，61]，SLAM [37]和视频分析[25，19，14]。为了解决在具有低纹理对比度或存在杂乱背景的困难场景中进行广告装饰的固有挑战，深度信息已被并入作为补充输入源。的魏籍、李景景功相当。纪伟在腾讯贾维斯实验室实习期间参与了这项双宇、李成为通讯作者。0.0 0.0 0.0(d)在NJU2K基准上具有深度原始值与深度校准值图1. 顶部：不同深度质量的示例; GT表示地面实况显着图;Depthraw表示原始深度图;第4列和第5列中的Depthest分别是CoNet [34]和我们的DCF产生的估计深度;最后一列的Depthcal由我们提出的深度校准策略生成底部：分别用原始和校准深度（“+Cal”）训练的两个代表性RGB-D SOD模型（D3 Net[24]和DMRA [54对RGB-DSOD方法[12，42，48]的开发的日益增长的兴趣尤其受到各种3D成像传感器[29]的快速发展和繁荣的推动，所述3D成像传感器的范围从产生视差图的传统立体成像到最近的结构化照明[76，30]、飞行时间、光场[63，71，72]和直接产生深度图像的LIDAR相机。如最近的跨模态融合方案[7，10，44]所示，在RGB图像顶部添加深度图作为额外输入，导致在具有挑战性的场景中定位显著对象的卓越性能从本质上讲，深度在SOD中的实际价值在于它能够从背景中分辨出物体的轮廓。然而，如图1所示的实际检查意味着阻碍充分利用的两个主要问题：−8.5%−7.8%+1.3%+1.4%+1.4%+1.3%w↑）准确度Weig h tedF-mea sur e（F！（c）中性（b）阳性（a）阴性F-mea sur e（F！↑）accuracy平均绝对误差（$%&↓）9472012 s*r（a/· ··IRGB12月Pai$%R（）&a*aCRM34s567CRM1CRM2CRM3⨁12月· ··· ··000000000000Ori$inl（）C&libr+）/（）困难De#$G a（）*+a$）12月$%e&D（）*+ s*r（a/（S）*&图2.建议的DepthC校准和DCF框架。深度图的处理：1）深度图通常在对象边界处噪声过大，如图1（a）所示，这可能受到深度传感器和场景配置（例如遮挡[64]、反射[3，43]和观看距离[2]）的限制的阻碍;2）即使具有正确的深度，如图1（a）所示1（c）中，前景对象通常与深度图中的周围背景仅略有与使用RGB图像作为唯一输入相比，这严重限制了合并深度图的潜在性能增益。为了解决上述两个挑战，提出了一个DCF框架。如示于图2，我们的DCF生成了一个最佳的校准深度值，直接促进显著对象检测。我们的方法包含以下主要贡献：• 开发了两步校准融合流水线：第一步涉及校准深度图像并校正原始深度图中的潜在偏差;第二步引入有效的交叉引用模块（CRM）来融合来自RGB和校准的深度流的特征表示。通过大量的仿真实验证明了该方法的性能，并与27种最先进的RGB-D SOD方法进行了比较。• 我们的深度校准模块可以作为一个预处理步骤，直接适用于前RGB-D SOD方法。通过将深度校准模块引入到现有的基于RGB-D的SOD方法中，当在广泛使用的NJU 2K基准上进行评估时，D3 Net[24]和DMRA [542. 相关工作近年来，在基于RGB图像的显著对象检测中已经证明了显著的进步[22，40，46，56，75、67、79]。同时，当目标及其周围环境具有相似的外观或背景场景严重杂乱时，性能仍然严重恶化。作为补救措施，在RGB-D中加入深度图显著性检测极大地提升了这些具有挑战性的场景下的模型性能，受益于深度图的嵌入式丰富空间结构和3D布局信息[5，15，17，18，21，41，62，77]。现有的RGB-D SOD方法更多地关注于设计一种有效的跨模态融合策略来融合来自RGB和深度通道的互补信息 Qu等人。[57]尝试使用手工制作的特征向量作为输入来训练基于CNN的模型，并在传统方法[16，27，53，58]上取得了显着改进Chen等人[8]设计了一个渐进的双流网络，其中使用跨模式的剩余函数和互补意识监督来探索跨模式和跨级别的互补。Piao等人。[54]提出了一种深度诱导的多尺度递归张力网络，并设计了一个深度残差块来整合交叉模态特征。Fu等人。[28]共同学习RGB和深度输入，通过暹罗网络挖掘有用的互补特征。Fan等人[26]引入了一个深度增强模块，用于从深度特征中挖掘信息性为了有效地学习区分性融合特征，Li等人。[44]提出了一种跨模态加权策略，以鼓励RGB和深度信息之间的全面在相关的综合调查中可以了解SOD领域研究的更详细的情况[4，24，35，53，82]。然而，深度图偶尔质量较低[52，76]，因此可能包含大量噪声和误导信息，这在一定程度上导致了RGB-D显着性模型的性能瓶颈最近，有一些新兴的研究工作揭示了不可靠深度的影响并试图解决它。Zhao等人。[78]采用对比度先验损失来增强深度数据的前景和背景之间的色差同样，Zhang et al.[69]提出了一种语义引导的深度校正子网络，以在深度图的边缘应与RGB图像的边缘对齐的假设下产生增强的深度线索。Fan等人。[24]设计了一个三流特征学习网络，并在测试阶段执行了一个深度净化器单元来过滤低质量的深度图。此外，Chen et al. [6]利用从外部数据集检索一小组相似图像来获取额外的增强深度信息，并采用选择性融合方法从增强深度、原始深度和RGB图像中提取手工制作的显著性线索来预测显著性。在本文中，我们将系统地解决与深度相关的副作用，如前所述，并提出了一个深度校准和融合（DCF）框架来应对这一重大挑战。与现有方法不同，我们的工作旨在直接标定原始深度，9473图3. 我们的DepthC校准和F（DCF）网络的详细架构。标定深度为显著性模型提供了更可靠的补充信息，这显著地提高了SOD性能。同时，当直接将校准的深度应用于现有的RGB-D显著性模型时，也观察到显著的性能增益。3. 方法在本节中，我们首先说明了所提出的DCF框架的整体架构，并详细介绍了关键组件深度校准（DC）策略此外，一个有效的交叉引用模块（CRM）提出融合有用的互补信息，从RGB和深度模态。3.1. 概述图2提供了拟议的DCF框架的概述该算法基于双流特征提取网络，包含两个核心部分：深度标定和融合策略。如图所示 2 和图 3. 提出了一种深度校准（DC）策略，以校正由不可靠的原始深度图引起的潜在噪声，并获得校准的深度 I_depth （或Depthcal）。至于图中所4.校准后的深度比原始深度更能体现场景布局和识别前景区域现在，给定校准的RGB-D配对数据，RGB图像IRGB和校准的深度I深度被馈送到双流特征提取网络中以生成分层特征。对于每个流，采用编码器-解码器网络[66其次是融合策略：交叉参考模块（CRM）的设计，以整合有价值的线索，从两个RGB fea，将纹理和深度特征合并到跨模态融合特征中;这导致分别处理RGB、深度和融合分层特征的三个解码分支。这些特征被分别处理，并且相应的输出被求和以获得最终的显著图SMap。3.2. 深度校准深度图中有效的空间信息对于在复杂场景中定位显著区域起着至关重要的作用，如杂乱的背景和低对比度的情况。然而，不可靠的原始深度和由观察距离、遮挡或反射导致的潜在深度获取误差将阻碍模型从深度图中提取准确的信息。为了解决由噪声深度图导致的性能瓶颈有两个关键问题需要解决：1）模型如何学习区分质量差的深度图（负面情况）和质量好的深度图（正面情况）？2）如何产生校准/校正的深度图，既可以从质量好的深度图中保留有用的线索，又可以从质量差的深度图中校正不可靠的信息？因此，我们设计了深度校准（DC）策略，这是我们的DCF的核心组成部分，如图所示。3 .第三章。两个连续的阶段涉及到选择代表性的样本，并生成校准的深度图。3.2.1难度感知选择策略针对第一个关键问题，提出了一种难度感知的选择策略。如图3所示，它旨在选择CRMCRMCRM· ··⨁;1/2P*$/e0 123DepthC校准策略F战略9英：泰;ca/· ··mth（e）*t$eP*$/E0123-th-th第一第一位置$t$eP*$/e01232n$2n$生成校准深度+%p**e（）34567$%&+%p* 未加工P$%&P阳性4567est测试火车De#$Ge&$i（）$*+P）*+鉴别器深度有帮助吗？6789200r/0PO（P#$iiv（）*$（$ +（g*&iv（）一些典型实例mth（e）*t$e第1位e2N20% ↓* （nk/n0&ee=$/>n20% ↑SDe#$GDe#$G&$re（）Pai$%+%p*&a*a2019- 05 -22 01：01：01（*+B&$re（）Pai$%R（）SRGB· ··· ··· ··· ··· ··· ··· ··深度校准模块难度感知选择De#$G&$re（）*+B&$re（）9474训练数据库中最典型的阴性和阳性样本。然后，这些样本用于训练判别器/分类器以预测深度图的质量，反映深度图的可靠性。我们首先预训练具有相同架构的两个基线模型，用于RGB数据和深度数据，分别作为显着性地面实况（显着性地面实况，显着地面实况，显着地面实况，显然后，设计了一种选择方案，以测量深度是否地图能够根据两个基线模型预测的显著性提供可靠的信息。具体地，根据由RGB流和深度流生成的显著性结果，我们首先针对每个训练样本计算两个流的预测显著性和地面真实显著性之间的交集（IoU）度量，分别表示为IoU深度和IoURGB然后，所有训练样本的IoU深度得分将从大到小顺序排序。根据排名顺序，样本排名前20%的所有训练样本将被视为典型正集P集（即，深度图的质量是可接受的）并且底部的20%将被认为是典型的负集合N集合（即，深度图的质量差且不可接受）。此外，本发明还提供了一种方法，当IoU深度> IoURGB时，这些样本也将被视为正样本，这指示原始深度数据提供比RGB输入更丰富的全局线索来标识前景区域。两个典型的例子-肯定概率负概率鉴别器0.17980.82020.43710.56290.32570.67430.99950.00050.43460.5654图像GT深度raw深度测试深度校准图4. 深度校准的内部检查：输入深度图Depthraw、中间估计深度图Depthest和校准深度图Depthcal的示例。绿色和黄色的圆圈分别代表由负电荷产生的正概率和负概率。深度校准，如：图的右上角显示了肯定的情况和否定的情况。3 .第三章。深度Cal=深度原PARP阳性+深度est（1−P POS），（1）3.2.2深度校准模块基于所选择的代表性正样本和负样本，训练基于ResNet-18 [32]的二进制鉴别器/分类器以评估深度图的可靠性这里，所选择的正集合和负集合是用于训练集合，{Depthraw，1} ∈ P集合和{Depthraw，0} ∈ N集合。我们训练的神经网络能够预测可靠性得分Ppos，indi，分别计算深度图为正或负的概率。P_pos越高，原始深度图的质量越好。此外，还建立了一个深度估计器，它包含几个卷积块，使用与[34]相同的架构。深度估计器是用RGB 图像和来自正集合的良好质量深度数据对{IRGB，Depthraw} ∈ P集合，以便减轻由不准确的原始深度数据导致的固有噪声在深度校准模块中，我们不直接使用可能不可靠的原始深度图，而是重新将原始深度图与加权求和其中Depthest和Depthraw分别表示来自深度估计器和原始深度图的估计深度。为了更好地理解，我们在图4中可视化深度校准过程的中间结果。对于具有差质量深度的负面情况，如图4中的第1行和第3行所示，Depthcal提供比Depthraw更可靠的3D布局信息。在低对比度深度数据方面（如第2行和第5行所示），与原始深度相比，我们的Depthcal至于具有良好质量的原始深度图（如第4行所示），估计深度Depthest与Depthraw相比具有次优性能。然而，由于对于良好质量的Depthraw来说，由所述方法预测的可靠性概率Ppos将是高的，所以我们的框架将仍然能够获得高质量的校准深度Depthcal。3.3. 特征融合在深度校准过程之后，校准的深度图Depthcal与RGB图像一起被馈送到双流特征提取网络以生成在所述原始深度图和所述估计深度之间，以及等级分层要素，表示为{FDepth}5和i i=3权重由可靠性概率Ppos{FRGB}5分别表示。注意，我们保留了最后i i=3据《明报》报道，从而得到了具有丰富语义特征的cali-9475我我I=3我我我我并丢弃具有高分辨率的前两个卷积块以平衡计算成本。通常，从RGB通道提取的特征包含丰富的语义信息和纹理信息;同时，从深度通道提取的特征包含更多的区分场景布局线索，这与RGB特征互补。为了整合跨模态信息，我们设计了一种名为交叉引用模块（CRM）的融合策略。五、所提出的CRM旨在挖掘和组合最具鉴别力的特征检测器[65，68]），并生成更多的信息特征。更具体地，给定由第i个卷积块的两个输入特征FRGB⨂$RG$~我$RG$我⨂$I·RG$⨁GA#$C⎰属性号）*我妈*（·）&GA#$C⎰属性吉吉Att $% t（⨂我·% p（）⨁我$我$% p（）$~%&p（）我我图5. 建议的CRM架构。我我分别针对RGB流和深度流，我们首先采用全局平均池化（GAP）来获得RGB和深度视图中的然后，两个fea-将真向量分别馈送到全连接层（FC）和softmax作用函数δ（·）中，以获得通道注意向量属性RGB和属性深度，反映此外，利用三重态损失来增强光学特性。该方法通过引入跨模态融合特征Fi，促使融合特征更接近前景，同时增大前景特征与融合特征之间的距离背景特征。我们使用Fi作为锚特征。与显著区域对应的特征被设置为位置。将背景区域的特征设置为RGB特征和深度特征的重要性，- 是的然后，注意向量以逐通道乘法的方式应用于输入特征。通过这种方式，CRM将明确关注重要功能消极的，如：Fpos=FiS，（6）Fneg=Fi（1 −S），（7）并抑制用于场景理解的不必要的信号这个过程可以定义为：Atti=δ（Wi=AvgPooling（Fi）+bi），（2）其中S表示地面实况显著性图。然后，三重态损失L三重态可以计算为：L=Max（d（Fi，Fpos）-d（Fi，Fneg）+m，0），（8）我我其中Wi和bi表示用于第i个特征的FC层的参数，并且表示全局平均池化操作。然后，生成信道增强特征Fsteci=Atti <$Fi，其中，其中d（·）表示欧几里得距离;m表示边缘参数，并根据[60]设置为1.0。在提出的CRM之后，我们可以获得跨模态融合特征{Fi}5，其与原始特征一起，通道式乘法。从RGB流提取的特征{FRGB}5和RGB深度深度i i=3此外，注意力向量Atti和Atti深度流{Fi5I=3，被进一步馈送到三个独立的由最大值函数聚合，以保留来自RGB流和深度流两者的有用特征通道，其然后被馈送到归一化操作N（·）以将输出归一化到从0到1. 因此，我们得到了交叉引用的通道atten-向量AttCR。这个过程可以定义为：由S监督的解码器，如图2所示。最后，将来自三个解码器的预测相加以生成最终显着图S图。所提出的方法的优化目标Ltotal可以被描述为：αΣ5CRRGB深度L总=LRGB+L深度+L熔丝+（9）Atti= N（Max（Atti ，Atti））。（三）NI=3三重基于融合通道注意力向量AttCR，可以通过下式获得增强的特征FRGB和FDepth：其中LRGB、LDepth和Lfuse表示二进制交叉每个解码器的预测与我我将FsteciRGB和FsteciDepth相加，AttCR增强功能.来自RGB分支和深度分支的增强特征被进一步级联并馈送到1×1卷积层以生成交叉模态融合特征Fi。该过程可以描述为：Fi=Fsteci+AttCRFi，（4）Fi=Conv1×1（Concat（FiRGB，FiDepth））.（五）}9476地面实况显著性。 N = 3表示孔数，三重态丢失中涉及的旋转嵌段。本文在分析了现有文献的基础上，超参数α根据经验被设置为0.24. 实验4.1. 数据集为了评估所提出的DCF框架的性能，我们对五个有代表性的9477β表1. 五个代表性大规模基准数据集的定量比较。最好的两个结果分别以红色和蓝色显示。* 非深度学习方法。Pub.方法杜TLF-深度 [五十四]NJU2K[36]NLPR[53]STERE1000 [50个]SIP [24日]EFWβFβMaeEFWβFβMaeEFWβFβMaeEFWβFβMaeEFWβFβMaeICIMCS14[13]第十三话.733.386.668.280.421.241.165.448.735.259.583.301.579.281.594.295.742.352.646.300SPL16[20]第二十话.712.290.406.243.796.506.715.167.684.265.328.196.655.551.742.148.787.426.646.186ECCV 14[53]第五十三话.767.350.659.174.722.311.625.201.772.320.520.119.484.379.703.172.722.286.593.182CAIP17[第84话].691.464.577.156.643.369.492.202.814.574.637.089.693.455.572.178.715.474.573.163TCyb17CTMF [31].884.690.792.097.864.732.788.085.869.691.723.056.841.747.771.086.824.551.684.139TIP17DF [57].842.542.748.145.818.552.744.151.838.524.682.099.691.596.742.141.794.411.672.186ICCVW17[85]第85话.794.530.633.159.751.522.618.181.785.512.591.114.751.596.666.149.721.411.494.224CVPR 18PCA [8].858.696.760.100.896.811.844.059.916.772.794.044.887.801.826.064.898.777.824.071TIP19TANet [9].866.712.779.093.893.812.844.061.916.789.795.041.893.804.835.060.893.762.809.075ICME19PDNet [83].861.650.757.112.890.798.832.062.876.659.740.064.880.799.813.071.802.503.620.166PR19MPCI [10].855.636.753.113.878.749.813.079.871.688.729.059.873.757.829.068.886.726.795.086CVPR 19CPFP [78].814.644.736.099.895.837.850.053.924.820.822.036.912.808.830.051.899.798.818.064CVPR 20JL-DCF [28]--------.954.882.878.022.919.857.869.040.919.844.873.051CVPR 20S2MA [47]--------.938.852.853.030.907.825.855.051.911.825.849.058CVPR 20UCNet [69]--------.953.878.890.025.922.867.885.039.913.836.868.051TNNLS20[24]第二十四话.847.668.756.097.913.860.863.047.943.854.857.030.920.845.855.046.902.808.835.063ECCV20型 [44]第四十四话----.910.855.878.047.940.856.859.029.917.847.869.043.906.811.851.062ECCV20型BBSNet [26].833.663.774.120.924.884.902.035.952.879.882.023.925.858.885.041.916.830.872.055我们的NJU+NLPR.890.766.804.071.924.893.902.035.957.892.891.021.927.873.885.039.920.848.875.051第十九届会议DMRA [54].927.858.883.048.908.853.872.051.942.845.855.031.923.841.876.049.863.750.819.085CVPR 20SSF [73].946.894.914.034.913.871.886.043.949.874.875.026.921.850.867.046.911.829.851.056CVPR 20A2dele [55].924.864.890.043.897.851.874.051.945.867.878.028.915.855.874.044.892.793.825.070ACMM 20FRDT [74].941.878.902.039.917.862.879.048.946.863.868.029.925.858.872.042.905.817.854.063ECCV20型DANet [81].925.847.884.047----.949.858.871.028.914.830.858.047.916.829.864.054ECCV20型HDFNet [51].934.865.892.040.915.879.893.038.948.869.878.027.925.863.879.040.918.835.863.051ECCV20型CoNet [34].947.896.908.034.911.856.872.047.934.850.848.031.928.874.885.037.909.814.842.063ECCV20型[第11话].944.889.914.035.915.871.893.042.955.881.885.024.919.856.880.041.908.822.854.055ECCV20型ATSA [70].947.901.918.032.921.883.893.040.945.867.876.028.919.866.874.040.912.848.871.053我们的DUT+NJU+NLPR.952.909.926.030.922.884.897.038.956.892.893.023.931.880.890.037.920.850.877.051大规模RGB-D SOD数据集，包括DUT-D[54]，[ 36]NJU2K[36 ] ， NLPR[53] ， STERE1000[50] 和SIP[24]。DUT-D[54]（即，DUTLF-Depth）由800个室内和400个室外场景图像以及相应的深度图组成。NJU2K[36]和NLPR[53] 分别包含 1985 和 1000 对立体图像。STERE1000[50]包含从互联网下载的1000个立体图像SIP[24]是一个高质量的RGB-D数据集，有929个样本。由于空间有限，另外两个数据集（LFSD [45]和DES[13]）的结果可以在发布的github网页中访问。为了进行公平的比较，我们基于两种当前主流的训练设置，使用两种不同的训练设置进行实验。对于第一个训练设置，我们使用来自NJU2K的1485个样本和来自NLPR的700个样本作为遵循相同设置的训练集如[24，28，69]。对于第二个，我们遵循与现有作品相同的训练设置[11，54，73]，其中来自DUT-D的800个样本，来自NJU 2K的1485个样本和来自NLPR的700个样本用于训练集。剩余的图像和其他公共数据集用于测试。为了减轻潜在的过拟合，训练集中的图像通过随机旋转，裁剪和翻转来增强。4.2. 评估指标采用四个广泛使用的度量来评估模型性能，包括E-度量（E_m）[23]，加权F-度量（F_w）[49]，F-度量（F_β）[1]和平均绝对误差（MAE）[4]。此外，我们还评估-在两个具有高质量深度图的RGB-D数据集上评估深度估计器的性能估计深度的性能用均方根误差（RMSE）、绝对相对误差（AbsRel）、平方相对误差（SqRel）和在各种阈值1下的深度精度来评估。二十五，一。252和1。第25话我的建议[80]4.3. 实现细节该框架使用PyTorch实现，并使用具有24GB内存的Tesla P40 GPU进行训练。骨干网络[66]配备了ResNet-50编码器部分[32]，初始参数在ImageNet中预先训练[39]。所有图像的尺寸统一调整为352×352用于训练和推断的像素。拟议的网络是该算法以多阶段方式训练，并且它在总共250个时期之后收敛，包括第一阶段中用于困难感知选择模块的120个时期，第二阶段中用于深度校准模块的60个时期，以及第三阶段中用于困难感知选择模块的70个时期。在最后一个阶段进行特征融合。在整个训练过程中，学习率设置为1×10−4，并采用亚当优化器，小批量为16。在模型推理阶段，所提出的框架以端到端的方式预测显着性图，并且没有后处理过程。cyclic（例如，CRF [33]）。4.4. 与最新技术水平的比较该方法与27种RGB-D SOD方法进行了评估和比较，其中包括22种基于深度学习的方法和5种非深度学习方法（在表1中标记为“0”）。为了公平的比较，比较的结果-9478Cal原图像深度原始深度校准GT我们的BBSNetATSACMWNetPGAR CoNet JL-DCF SSF D3Net图6.所提出的模型和现有的最先进的算法的视觉比较ISON方法由授权代码生成或由作者直接提供。定量评价。表1列出了定量比较结果。遵循[24]和[54]的主流训练设置，采用两种不同的训练设置，其结果独立列出在表1的第一和第二块中。总的来说，我们提出的方法与最先进的方法相比，在五个常用的SOD数据集上使用两种训练设置实现了卓越的性能定性评价。图6示出了由所提出的方法和几种顶级RGB-D方法在几种具有挑战性的情况下生成的一些代表性样本，包括长距离、杂乱的背景，清晰的边界和多个对象。如图6的第三列所示，校准深度（Depthcal）可以提供比原始深度（Depthraw）更丰富的3D布局线索。对于具有由反射导致的低质量深度图的挑战性场景（例如，第4行）和观看距离（例如，第5和第6行），所提出的方法可以通过利用来自校准的深度图Depthcal的可靠空间线索来更好地识别显著对象。因此，定量和定性评估都证明了所提出的深度校准和融合框架的有效性4.5. 消融研究为了验证所提出的模块的有效性，对DCF框架的每个组件进行消融研究，以调查其性能增益。RGB流与深度流。表2（a）和（b）比较了使用RGB数据作为输入（RGB流）的基线模型和原始模型的显著性预测性能。作为输入的最终深度数据（深度流）。RGB流实现了比使用原始深度图的深度流更好的性能，指示RGB输入包含比深度输入更多的语义和纹理此外，对于具有高质量深度图的SIP数据集，与具有较低质量深度图的其他数据集相比，深度流的性能这再次验证了可靠的深度线索可以帮助模型更好地识别显著区域的假设深度校准策略的效果。为了评估深度校准策略的有效性，我们首先将基线模型性能与原始深度进行作为输入（深度流）与使用校准深度（校准深度流）的对比。如表2（b）和（c）所示，校准深度使四个数据集的MAE与其余数据集相比，在SIP数据集上实现了相对较小的性能增益，这是合理的，因为高质量SIP已经在原始深度图中提供了可靠的深度线索。为了更好地理解，图4可视化了原始深度图、估计深度以及最终校准深度图的几个代表性示例，并且如图7所示，从校准深度提取的特征图F_Depth可以比来自原始深度的F_Depth 更好地捕获场景布局信息（参见第1行与第2行）。我们还评估了由深度估计器在具有高质量深度图的两个数据集如表3所示，与CoNet [34]相比，我们的深度估计器实现了更准确的深度估计还要注意的是，我们的深度估计器仅由20%的训练集训练，而CoNet则由100%的训练集训练。阴性病例阳性/中性病例94792019 -05 -22原图像深度raw2019 -05 -22）a*GT深度校准图7.在建议的交叉引用模块（CRM）中可视化特征表示图，其中F深度和F深度表示粗卡分别以原始深度和校准深度作为输入从主干提取特征据观察，校准的深度特征地图捕获比来自原始深度的特征地图更丰富的结构信息。表2.不同消融设置的定量比较指数.模型NJU2K[36]NLPR[53]STERE1000 [50个]SIP [24日]EFWβFβMaeEFWβFβMaeEFWβFβMaeEFWβFβMae（一）RGB流.905.866.869.046.942.860.855.028.916.856.863.047.908.813.839.063（b）第（1）款深度流.885.800.831.068.915.794.800.044.823.609.695.122.903.802.845.068（c）第（1）款经校准的深水.896.824.840.059.925.819.821.039.873.742.778.083.906.804.852.067（d）其他事项(a)+（c）+直接融合.910.867.878.043.945.862.859.026.919.863.867.044.913.822.859.060（五）(a)+（c）+CRM（w/oL三联体）.919.882.890.038.954.887.885.023.921.866.877.042.919.845.869.052（f）第（1）款(a)+（c）+客户关系管理（我们的）.924.893.902.035.957.892.891.021.927.873.885.039.920.848.875.051表3. 与最先进的方法CoNet [34]对估计深度的准确性进行定量比较，评估两个高质量的RGB-D数据集SIP [24]和DES[13]。↑和↓分别代表高分和低分较好*RMSE↓AbsRel↓SqRel↓δ<1。25↑δ<1。252↑δ<1。253↑CONET0.43500.15070.09470.67130.90600.9846[第24话]我们0.42890.14820.09070.68660.91680.9867DES [13]CONET0.64260.25860.20230.43640.74460.9317我们0.47940.19780.11920.55690.87640.9851表4. 最先进的RGB-D显著性模型的准确性（即，D3Net [24]和DMRA [54]）使用我们的校准深度与原始深度进行训练。‘+Cal’ represents the models trained on the calibrated[36]第三十六话：RGB和深度（直接融合）。在表2中，通过比较(d) 和（f），我们可以看到，与直接特征融合相比，所提出的CRM可以更好地融合来自RGB和深度特征的互补信息。同时，与表2中的（f）相比，即，当从框架中排除三元组损失时，在所有实验数据集上观察到最终框架的性能下降，表明三元组损失在增强特征表示方面的有效性总之，定量和定性分析表明，我们的DCF框架可以有效地捕获可靠的深度信息和集成互补的跨模态特征。ββ5 结论在这项工作中，DepthC校准和F校准（DCF）框架提出了准确的RGB-D SOD。首先，设计了一种深度校正策略，相同的训练集，这也证明了我们的困难意识选择策略的有效性。此外，为了验证所提出的深度校准模块的泛化能力，我们还将校准的深度应用于两个最先进的SOD模型，包括D3Net [24]和DMRA [54]。如表4所列，通过用校准深度替换原始深度图来训练D3 Net和DMRA，DUT-D数据集和NJU 2K数据集实现了显著的性能增益。D3Net和DMRA的MAE指标分别下降了12.5%和9.1%。因此，大量的实验已经证明了所提出的深度校准策略的优点。融合策略的效果。对于集成RGB和深度特征的跨模态融合模块，直接的解决方案是使用级联，然后是卷积。融合操作，以将互补特征从*FWFβMaeFWFβMae[24]第二十四话0.6680.7560.0970.8600.8630.047D3Net（+Cal）0.7470.7880.0810.8720.8750.043DMRA [54]0.8580.8830.0480.8530.8720.0519480来自不可靠的原始深度的噪声。校准的深度已被证明有效地提高模型性能，无论是提出的框架和国家的最先进的RGB-D显着性模型。此外，提出了一个交叉引用模块，以有效地整合RGB和深度特征的互补线索。广泛的实验证明了我们的ap-proach超过27个国家的最先进的方法的优越性能。致谢。本工作得到了中国广东省重点领域研究发展计划（No.2018B010111001）、中国国家重点研发计划（No.2018YFC2000702）和科技创新2030-“新一代人工智能”项目（No.2020AAA0104100）、阿尔伯塔大学启动基金、 UAHJIC 基金和 NSERC 发现基金（No.2020AAA0104100）的RGPIN-2019-04575）。9481引用[1] Radhakrishna A

下载后可阅读完整内容，剩余1页未读，立即下载