A2dele:自适应和专注的深度蒸馏器提高RGB-D显著目标检测的效率

167 浏览量更新于2023-10-25 收藏 12.87MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

0.70.80.810.820.830.840.850.860.870.880.8990600A2dele:自适应和专注的深度蒸馏器用于高效的RGB-D显著目标检测0Yongri Piao 1 � Zhengkun Rong 1 � Miao Zhang 1,2 † Weisong Ren 1 Huchuan Lu 1,301 中国大连理工大学 2辽宁省普适网络与服务软件重点实验室，中国大连理工大学 3 鹏城实验室0{ yrpiao, miaozhang, lhchuan } @dlut.edu.cn, { rzk911113, beatlescoco } @mail.dlut.edu.cn0摘要0现有的RGB-D显著目标检测方法通过两流架构探索RGB-D数据，其中需要一个独立的子网络来处理深度数据。这不可避免地增加了额外的计算成本和内存消耗，并且在测试过程中使用深度数据可能会阻碍RGB-D显著性检测的实际应用。为了解决这两个困境，我们提出了一种深度蒸馏器（A2dele），通过将网络预测和注意力作为两个桥梁，探索了将深度知识从深度流传递到RGB流的方式。首先，通过自适应地减小深度流和RGB流生成的预测之间的差异，我们实现了像素级深度知识传递到RGB流的期望控制。其次，为了将定位知识传递给RGB特征，我们鼓励深度流的扩张预测与RGB流的注意力图之间的一致性。结果，我们通过嵌入我们的A2dele实现了一个轻量级的架构，在测试时不使用深度数据。我们在五个基准测试上进行了广泛的实验评估，结果表明我们的RGB流达到了最先进的性能，与最佳方法相比，模型大小减少了76％，运行速度提高了12倍。此外，我们的A2dele可以应用于现有的RGB-D网络，显著提高其效率，同时保持性能（DMRA的FPS提高了近两倍，CPFP的FPS提高了三倍）。01. 引言0卷积神经网络（C-NNs）的出现，以及更大的数据集[31,17, 30, 29]0� 相等贡献 † 通讯作者050 100 150 200 250 300 模型大小/ MB0F-度量0RGBRGB+深度0DMRA'19+A2dele0CPFP'19+A2dele0CPFP'190CPFP'190DMRA'190DMRA'190图1.F-度量与模型大小在NLPR数据集上的对比[30]。通过嵌入我们的A2dele（CPFP'19 [41]+A2dele和DMRA'19[31]+A2dele标有×），我们实现了与原始模型（CPFP'19和DMRA'19标有•）相当的准确性，模型大小显著减小。0最近在RGB-D显著目标检测方面取得了显著进展。在RGB-D方法中，深度信息在定位和空间结构方面提供了卓越的区分能力，对显著性检测任务起着重要作用[2]。许多开创性的工作[31, 3, 5, 4, 41,43]已经证明了它的有效性，尤其是在具有挑战性的场景中。从两种模态学习视觉显著性的区分性表示已经得到广泛探索。为了学习跨模型的互补性，RGB和深度数据通常在两流架构中分别学习，如图2(a)所示，然后附加一个多级融合解码器来学习联合表示和合作预测[31, 3, 5,4]。另一方面，用于学习增强的RGB表示的方法依赖于通过一个量身定制的子网络来探索深度信息[41,43]，如图2(b)所示。DepthConv_1256×256×64Attention𝐹𝐶𝑜𝑛𝑣516×16×32𝐶𝑜𝑛𝑣 / 𝐹𝐶𝑜𝑛𝑣4/ 𝐹𝐶𝑜𝑛𝑣5Conv_2128×128×128Conv_364×64×256Conv_432×32×512Conv_516×16×512RFB𝐹𝐶𝑜𝑛𝑣364×64×32F33F34F35RFB𝐹𝐶𝑜𝑛𝑣432×32×32RFB𝐹𝐶𝑜𝑛𝑣516×16×32Conv_1256×256×64Conv_2128×128×128Conv_364×64×256Conv_432×32×512Conv_516×16×512Attention𝐹𝐶𝑜𝑛𝑣432×32×32Attention𝐹𝐶𝑜𝑛𝑣364×64×32F33F34F35𝐴𝑡𝑡𝑅𝐺𝐵𝑖The strategy of leveraging RGB-D data and CNNs pro-duces the impressive results, but it remains challenging interms of two aspects. First, RGB-D approaches inevitablyincur extra computational costs and memory consumptionduring inference of the two-stream model in which an inde-pendent encoder or subnetwork is required to process depthdata, as shown in the F-measure vs. model size plot on theNLPR dataset [30] in Figure 1. We observe from the plotthat the model size of the RGB-D networks is 1.5 largerthan their RGB networks. Second, The use of depth infor-mation during testing may hinder the practical applicationsof RGB-D saliency detection. Despite the fact that the ad-vent of consumer grade RGB-D cameras leaves open thepossibility of opening a path towards a boarder applicationof 3D vision, depth sensors may pose a high risk to accu-rate saliency detection as they can be easily inﬂuenced bya number of factors, such as the temperature of the camer-a, background illumination, and distance and reﬂectivity ofthe observed objects. Considering these two challenges, ourgoal is to design a mechanism that learns from RGB-D dataduring training and is free of the use of depth data duringtesting, while maximizing performance.To achieve this goal, we propose a depth distiller(A2dele), in which two bridges are adopted to connect RG-B and depth modalities for transferring depth knowledgeto the RGB stream as shown in Figure 2(c). First, we usethe network prediction as a bridge for adaptively transfer-ring the pixel-wise depth knowledge to the prediction of theRGB stream, namely an adaptive depth distillation scheme.More precisely, we selectively minimize the differences be-tween predictions generated from the depth stream and RG-B stream by an adaptive factor. This scheme realizes the1https://github.com/OIPLab-DUT/CVPR2020-A2dele90610卷积卷积卷积 RGB0深度0多级跨模态融合0卷积卷积0S0卷积...0(a)0RGB0深度0S0部分编码器\子网络0卷积...卷积0(b)0解码器0解码器0� ��0RGB0解码器 � ��0扩张0注意力深度蒸馏0自适应深度蒸馏0A2dele0� 3 3 × 3,3203 × 3，1卷积0×0注意力0VGG-160VGG-160深度流0RGB流0(c)0图2. (a) 通过双流架构利用跨模态互补性（例如[31, 3, 5, 4]）。(b) 通过定制的子网络利用深度信息增强RGB特征（例如[41, 43]）。(c)我们的RGB流嵌入了提出的深度蒸馏器（A2dele）。通过嵌入我们的A2dele，在测试过程中可以自由使用深度流。0将像素级深度控制知识转移到RGB流。其次，我们使用网络注意力作为将显著对象的定位知识转移到RGB特征的另一种桥梁，即注意力深度蒸馏方案。具体而言，我们通过扩张操作改进了深度流的预测，以确保对显著对象的整体覆盖，使得扩张预测可以作为可靠的定位线索。通过鼓励扩张预测和RGB流的注意力图之间的一致性，可以有效地抑制RGB特征中的背景区域激活。此外，我们的A2dele可以帮助其他现有的RGB-D方法在保持准确性的同时实现高效率。图1显示了CPFP’19 [41]+A2dele和DMRA[31]+A2dele与原始模型相比，以显著较小的模型尺寸实现了可比较的准确性。我们的核心见解是，我们接受挑战，不再试图在配对的RGB和深度图像上训练和测试模型，而是仅在单个RGB模态上测试模型。我们的方法是设计一个深度蒸馏器，使用网络预测和注意力作为连接RGB和深度模态的两个桥梁，在测试过程中不使用深度图。通过这种方式，我们的自适应和注意力蒸馏方案确保可靠的深度信息通过筛除错误的深度知识进行传递。源代码已发布1。具体而言，我们做出以下贡献：0•我们提出了一种深度蒸馏器（A2dele），它探索了使用网络预测和注意力作为两个桥梁，将深度知识从深度流传递到RGB流。因此，在训练时嵌入我们提出的A2dele，可以实现一个轻量级的架构，在测试时不需要深度流。teacher network to the student by minimizing the differ-ences between the soft target from the teacher and the classprobabilities from the student. Knowledge distillation hasbeen exploited in many computer vision tasks, such as do-main adaptation [10], object detection [21, 15], depth esti-mation [32] and semantic segmentation [13, 25]. In a sim-ilar spirit, our goal is to transfer knowledge from the depthstream to the RGB stream, being free use of depth streamduring testing. The learning under privileged informationprovides a network with extra information which is onlyavailable in the training stage. Recent works [19, 37, 27]propose to use privileged depth information in semanticsegmentation and action recognition. In our case, depth isthe privileged information available for training, along withRGB data, but only RGB data is used at test time.Different from the aforementioned distillation designswhich indiscriminately transfer knowledge, we propose atailor-made depth distiller (A2dele) to achieve the discrimi-native transfer of useful depth knowledge. It is well knownthat the unstable quality of depth map can impose negativeeffects on RGB-D salient object detection. Our A2dele cantransfer useful depth information to the RGB stream andmeanwhile suppressing erroneous ones.90620•我们的深度蒸馏器（A2dele）可以应用于改进现有的RGB-D方法。与原始模型相比，由我们的A2dele嵌入的模型在性能上具有可比性，同时运行速度更快（DMRA [31]的FPS提高了近一倍，CPFP[41]的FPS提高了3倍），模型大小显著减小（DMRA[31]减少了37％，CPFP [41]减少了43％）。0•在五个基准数据集上进行了大量实验，结果表明我们的RGB流在性能上达到了最先进的水平，与最佳方法相比，模型大小减少了76％，运行速度提高了12倍。0RGB-D显著目标检测。早期的RGB-D显著性检测方法[30, 8, 17,34]手动设计了特征，并取得了新的突破。最近，基于CNN的RGB-D方法由于CNN在分层提取信息特征方面的强大能力，性能有了质的飞跃。Zhu等人[43]使用独立的编码器网络充分利用深度线索，并辅助RGB流网络。Chen等人[3]通过补充感知融合模块，利用所有层次上的跨模型互补性。Chen等人[5]提出了一种多尺度多路径融合网络，通过跨模态交互实现充分和高效的融合。Chen等人[4]引入了一个跨模态蒸馏流，以学习每个层次中的新的有区分性的多模态特征。Zhao等人[41]提出使用增强对比度的深度图作为注意力图，以抑制RGB特征中的干扰物。Piao等人[31]提出了一种基于ConvLSTM的递归注意力模块，逐步学习多模态特征的内部语义关系。然而，现有的RGB-D方法需要额外的网络来处理深度数据，这增加了计算成本和内存消耗。此外，深度图很容易受到影响，这可能对准确的显著性检测造成高风险。这严重阻碍了RGB-D显著性检测的实际应用。相反，通过嵌入我们的A2dele，我们在测试时可以自由使用深度流，同时最大化性能。02. 相关工作0教师网络通过最小化教师的软目标与学生的类别概率之间的差异来将知识从教师传递给学生。知识蒸馏已经在许多计算机视觉任务中得到应用，例如域适应[10]，目标检测[21,15]，深度估计[32]和语义分割[13,25]。在类似的精神下，我们的目标是将知识从深度流传递到RGB流，在测试时不使用深度流。特权信息下的学习为网络提供了额外的只在训练阶段可用的信息。最近的研究[19,37,27]提出在语义分割和动作识别中使用特权深度信息。在我们的情况下，深度是可用于训练的特权信息，与RGB数据一起使用，但在测试时只使用RGB数据。与前面提到的不加区分地传递知识的蒸馏设计不同，我们提出了一个量身定制的深度蒸馏器（A2dele），以实现有用的深度知识的有区分传递。众所周知，深度图的不稳定质量可能对RGB-D显著目标检测产生负面影响。我们的A2dele可以将有用的深度信息传递到RGB流中，同时抑制错误信息。0基于特权信息的蒸馏和学习。我们的深度蒸馏器受到广义蒸馏[26]的启发，该蒸馏器结合了蒸馏[14]和特权信息[36]。在蒸馏中，知识从03. 方法03.1. 概述0现有的RGB-D显著目标检测方法不可避免地会增加额外的计算成本和内存，因为它们需要一个独立的子网络来处理深度数据，并且在测试过程中使用深度信息可能会阻碍RGB-D显著性检测的实际应用。为了应对这些挑战，我们提出了一个深度蒸馏器（A2dele），以在测试时以单个RGB图像作为输入来改进RGB-D显著性检测。所提出的框架的概述如图2(c)所示。深度方面，我们训练深度流不仅能够准确定位显著对象，还能够为RGB流传递特权知识。深度流中的编码器基于VGG16[35]，其中保留了5个卷积块，并且舍弃了最后的池化和全连接层。然后，我们选择高层特征（F 3 Conv，F 4Conv和F 5Conv）来检测显著对象。此外，我们通过在每个层级应用感受野块（RFB）[24]来提升深度特征的质量。RFB可以捕捉全局对比信息，非常适合深度流的目标。最后，解码器以深度特征作为输入进行最终预测。解码器的详细架构如图3所示。RGB方面，我们设计了一个高效的RGB流，可以有效地利用RGB信息和从深度流传递的深度知识。RGB流与深度流具有相同的架构，唯一的区别是𝐹𝐶𝑜𝑛𝑣364×64×32𝐹𝐶𝑜𝑛𝑣432×32×32𝐹𝐶𝑜𝑛𝑣516×16×32++𝑈𝑝2+Conv+Conv+ 𝑈𝑝4S𝑈𝑝4+Conv𝑈𝑝2+Conv90630连接0图3. 深度流或RGB流中解码器的详细结构。0我们用注意力模块替换了RFB。注意力模块轻量且只包含一个3×3的卷积层。RGB流的训练由我们提出的深度蒸馏器（A2dele）监督，其中包括自适应深度蒸馏方案和注意力深度蒸馏方案（详见第3.2节）。03.2. 提出的深度蒸馏器（A2dele）0受蒸馏[14]和特权信息[36]的启发，我们通过深度蒸馏器（A2dele）建立了连接RGB和深度模态的两个桥梁，将特权深度知识转移到RGB流中。知识被定义为两个部分：（1）第一部分旨在实现像素级深度知识对RGB流预测的期望控制。（2）第二部分旨在将显著对象的定位知识转移到RGB特征中。接下来，我们详细介绍A2dele中的每个蒸馏方案。03.2.1 自适应深度蒸馏方案0在我们提出的深度蒸馏器中，我们使用网络预测作为RGB和深度模态之间的第一个桥梁，将像素级深度知识转移到RGB流的预测中。为此，我们通过最小化深度流和RGB流产生的预测之间的损失来训练RGB网络。当我们从深度流获得准确的预测时，这种策略将有效地帮助RGB流轻松区分显著对象和背景。相反，如果由于低质量的深度图而导致预测不可靠，这种策略可能会在RGB预测中引入副作用。基于这一观察，我们提出了一种自适应深度蒸馏方案，以确保所需的深度知识传递。更具体地说，我们设计了一个自适应因子λ来调节深度流的影响。λ的定义如下：0λ = exp（−αL CE（S depth，Y）），（1）0其中Y表示真实值，超参数α设置为70，以保持λ在0到1之间。λ与深度流输出与真实值之间的损失成反比。这表明当深度流的预测可靠时，RGB流从深度流中学习；否则，RGB流从真实值中学习。因此，完整的损失函数可以写成：0当深度流的预测不完整时，这种策略可能导致不令人满意的分割结果。为了确保可靠的定位知识，我们通过扩张操作扩大了来自深度流的预测的覆盖面积，以提高其有效性，如图2(c)所示。扩张通过使用最大池化操作实现，表示为：0L Adap = λL KL（S RGB∥S depth）+（1−λ）L CE（S RGB，Y），（2）0LKL是Kullback-Leibler散度损失，其中温度超参数T设置为20，LCE是交叉熵损失。与直接强制RGB流以固定权重模仿深度流输出相比，我们提出的自适应深度蒸馏方案允许RGB流有选择地吸收深度流的有用信息。03.2.2 注意力深度蒸馏方案0我们的注意力蒸馏方案进一步选择网络注意力作为将定位知识传递给RGB特征的第二个桥梁。这通过鼓励深度流的预测与RGB流中的注意力图一致来实现。为了最小化不一致性，RGB流必须学习一个注意力图，以接近深度流的预测。随着注意力图质量的提高，RGB特征的干扰逐渐被抑制，使RGB流逐渐准确定位显著对象。然而，当深度流推断出显著对象的检测不完整时，这种策略可能导致不令人满意的分割结果。为了确保可靠的定位知识，我们通过扩张操作扩大了来自深度流的预测的覆盖面积，以提高其有效性，如图2(c)所示。扩张通过使用最大池化操作实现，表示为：0扩张（S depth）=最大池化（Sdepth，核大小=11）。通过覆盖更完整的显著对象区域，深度流的扩张预测可以作为更好的定位线索，有助于提升RGB特征。总之，注意力深度蒸馏方案可以定义为：0L Atten =0i =1 L CE（Att i RGB，扩张（Sdepth）），（4）0其中Att iRGB表示RGB流中第i个注意力图。N表示总级数，设置为3。通过最小化损失LAtten，抑制了显著对象外部的响应，将响应集中在显著区域上。03.3. 优化0我们方法的训练过程包括两个阶段，如算法1所示。在第一阶段，深度流6WR= argminWR (LAdap + LAtten)90640由交叉熵损失LCE与真实值Y监督。在知识蒸馏过程（阶段2）中，保持深度流的参数冻结。RGB流由Eq.(2)中的自适应深度蒸馏损失LAdap和Eq.(4)中的注意力蒸馏损失L Atten组合监督。WD和W R分别是深度流和RGB流的参数。0算法1：我们方法的训练过程01 阶段1：训练深度流02 输入：深度图03 W D = argmin W D L CE（S depth，Y）04 阶段2：训练RGB流05 输入：RGB04. 实验04.1. 基准数据集0我们在以下五个广泛使用的RGB-D数据集上进行实验。DUT-RGBD[31]：包含由Lytro相机在现实场景中拍摄的1200张图像。NJUD[17]：包括1985对立体图像，其中立体图像来自3D电影、互联网和由富士W3立体相机拍摄的照片。NL-PR[30]：包含由Kinect在不同照明条件下拍摄的1000张图像。STEREO[29]：包括从互联网收集的797张立体图像。RGB-D135[6]：包括由Kinect拍摄的135张图像。为了比较，我们采用与[31]中相同的训练集，其中包含来自DUT-RGBD数据集的800个样本，来自NJUD的1485个样本和来自NLPR的700个样本进行训练。其余的图像和其他两个数据集用于测试以验证显著性模型的泛化能力。为了避免过拟合，我们通过翻转、裁剪和旋转来增加训练集。04.2. 实验设置0评估指标。我们使用广泛认可的F-度量（Fβ）[1]，加权F-度量（Fwβ）[28]和平均绝对误差（MAE）进行评估。这三个评估指标可以提供全面可靠的评估结果，并在许多文献中得到了很好的解释。我们还采用模型大小和每秒帧数（FPS）来评估每种方法的复杂性。实现细节。我们基于Pytorch工具箱在一台GTX 1080TiGPU上实现了我们的方法。在训练阶段，我们使用Adam优化算法[18]来训练我们的深度流和RGB流。批量大小设置为10，初始学习率设置为1e-4。深度流和RGB流的最大迭代次数0流分别设置为100和50。所有的训练图像都被调整为256×256。04.3. 与最先进方法的比较0我们将我们的RGB流与其他18种最先进的方法进行比较，包括9种RGB-D方法（用�标注）：CTMF � [11]，DF � [33]，CDCP � [44]，PCA � [3]，PDNet �0[43]，MMCI � [5]，TANet � [4]，CPFP � [41]，DMRA �[31]；以及9种RGB方法：DSS [16]，Amulet [39]，R3Net[7]，PiCANet [23]，PAGRN [40]，PoolNet [22]，AFNet[9]，CPD [38]，EGNet[42]。我们使用授权代码实现这些模型，或直接评估作者提供的结果。注意，CPD [38]和EGNet[42]有两种设置（使用VGG16 [35]和ResNet50[12]骨干网络）。为了公平比较，我们展示了使用与我们相同的VGG16骨干网络的CPD [38]和EGNet[42]的结果。定量评估。表1显示了五个数据集上三个评估指标的定量比较结果。可以看出，我们提出的RGB流在五个数据集上都能胜过RGB方法和RGB-D方法，除了在NJUD和RGBD135上的次优加权F-度量分数。特别是，在DUT-RGBD、NLPR和STEREO上，我们的RGB流在很大程度上胜过其他所有方法，这些图像相对复杂。这表明我们的蒸馏器能够传递合格的深度知识以促进RGB流。定性评估。在图4中，我们展示了一些具有挑战性的情况下的定性比较：低强度环境（第一行），前景和背景相似（第二行和第三行），透明物体（第五行），小物体（第五行和第六行）和多个物体（第四行、第五行和第六行）。与RGB方法（最后4列）相比，我们的方法更容易区分显著对象和背景，并实现更完整的预测。这表明我们的RGB流受到从深度流传递的深度知识的积极影响，从而获得了稳健的结果。此外，与RGB-D方法（第5-8列）相比，我们的方法也能更准确地定位和分割显著对象。这进一步证明了我们提出的A2dele在传递深度知识方面的优越性。复杂性评估。此外，我们将模型大小和每秒帧数（FPS）与其他模型进行复杂性评估，如表1所示。可以观察到，我们的RGB流运行速度比最佳性能方法DMRA �[31]快12倍，并将模型大小减小了76%。不仅如此，与最高效的模型CPD[38]相比，我们在DUT-RGBD、NJUD和NLPR上也取得了很大的改进，模型大小减半，FPS几乎翻倍。这些结果进一步验证了我们的A2dele能够实现高精度和低成本的RGB-D显著性检测模型。90650表1.在五个RGB-D数据集上的F-度量（F β）[1]、加权F-度量（F wβ）[28]和平均绝对误差（MAE）得分的定量比较。�表示RGB-D方法。-表示没有可用的结果。（红色：最佳，蓝色：次佳，绿色：第三佳）。0方法年份 FPS ↑ 尺寸 ↓ DUT-RGBD NJUD NLPR STEREO RGBD1350F w β ↑ F β ↑ MAE ↓ F w β ↑ F β ↑ MAE ↓ F w β ↑ F β ↑ MAE ↓ F w β ↑ F β ↑ MAE ↓0DSS CVPR'17 23 447 .628 .732 .127 .678 .776 .108 .614 .755 .076 .718 .814 .087 .556 .697 .098 Amulet ICCV'17 21133 .762 .803 .083 .758 .798 .085 .716 .722 .062 .811 .842 .062 .701 .725 .070 R 3 Net IJCAI'18 22 225 .709 .781.113 .736 .775 .092 .611 .649 .101 .752 .800 .084 .693 .728 .066 PiCANet CVPR'18 5 197 .741 .826 .080 .768 .806.071 .707 .761 .053 .792 .835 .062 .741 .797 .042 PAGRN CVPR'18 - - .746 .836 .079 .746 .827 .081 .707 .795 .051.774 .856 .067 .748 .834 .044 PoolNet CVPR'19 32 279 .836 .871 .049 .816 .850 .057 .771 .791 .046 .849 .8770AFNet CVPR'19 26 144 .817 .851 .064 .832 .857 .056 .796 .807 .043 .850 .876 .046 .816 .840 .034 CPD CVPR'1966 112 .835 .872 .055 .821 .853 .059 .829 .840 .037 .851 .880 .046 .841 .860 .0280EGNet ICCV'19 21 412 .805 .866 .059 .808 .846 .060 .774 .800 .047 .835 .876 .049 .787 .831 .0350CTMF � Tcyb'17 50 826 .690 .792 .097 .732 .788 .085 .691 .723 .056 .727 .786 .087 .694 .765 .055 DF � TIP'17 - - .542.748 .145 .552 .744 .151 .524 .682 .099 .576 .761 .142 .397 .566 .130 CDCP � ICCV'17 - - .530 .633 .159 .522 .618.181 .512 .591 .114 .595 .680 .149 .484 .583 .119 PCA � CVPR'18 15 534 .696 .760 .100 .811 .844 .059 .772 .794 .044.810 .845 .061 .718 .763 .049 PDNet � ICME'19 - - .650 .757 .112 .798 .832 .062 .659 .740 .064 .799 .833 .064 .731.800 .050 MMCI � PR'19 19 930 .636 .753 .112 .749 .813 .079 .688 .729 .059 .747 .812 .080 .656 .750 .064 TANet �TIP'19 - - .712 .779 .093 .812 .844 .061 .789 .795 .041 .811 .849 .059 .745 .782 .045 CPFP � CVPR'19 7 278 .644 .736.099 - - - .820 .822 .036 - - - .794 .819 .037 DMRA � ICCV'19 10 239 .858 .883 .048 .853 .872 .051 .845 .854 .031.850 .868 .047 .849 .857 .0290我们的 - 120 57.3 .870 .892 .042 .851 .874 .051 .867 .878 .028 .867 .884 .043 .845 .865 .0280RGB 深度 GT 我们的 DMRA CPFP TANet PCA CPD PoolNet AFNet EGNet0图4.在一些具有挑战性场景中，我们的RGB流与排名靠前的基于CNN的方法的视觉比较。04.4.消融研究0自适应深度蒸馏方案的效果。我们的自适应深度蒸馏方案旨在将所需的逐像素深度知识传递给RGB流的预测。如表2所示，我们可以看到我们的自适应蒸馏大大改善了基线0RGB流（仅利用RGB）跨越四个数据集。我们还在图5中展示了视觉效果。可以观察到，我们的自适应蒸馏方案可以通过传递高质量的深度知识（第一行和第二行）帮助RGB流区分显著对象和背景，并消除不准确深度图引起的负面影响（第三行）。此外，为了使InputDepthGTRGBRGB+LAdap90660表2.我们提出的A2dele中不同蒸馏方案的效果。λ表示固定λ的自适应深度蒸馏方案，L Adap表示我们提出的自适应因子，LAtten表示注意力蒸馏方案。0DUT-RGBD NJUD NLPR STEREO0F w β ↑ F β ↑ MAE ↓ F w β ↑ F β ↑ MAE ↓ F w β ↑ F β ↑ MAE ↓ F w β ↑ F β ↑ MAE ↓0深度 .829 .852 .054 .815 .835 .061 .811 .825 .043 .648 .702 .116 RGB .836 .873 .052 .817 .848 .058 .834 .850.036 .829 .860 .053 RGB+ λ =0.3 .856 .883 .048 .841 .862 .053 .849 .863 .032 .850 .869 .048 RGB+ λ =0.5 .858.884 .048 .840 .863 .053 .854 .869 .031 .855 .875 .046 RGB+ λ =0.7 .834 .863 .056 .823 .844 .058 .830 .843 .037.832 .852 .054 RGB+ L Adap .861 .886 .045 .845 .867 .051 .855 .870 .032 .858 .877 .046 RGB+ L Adap + LAtten .870 .892 .042 .851 .874 .051 .867 .878 .028 .867 .884 .0430图5. 自适应深度蒸馏方案的视觉分析。0对自适应深度蒸馏方案的核心组件 - 自适应因子 λ进行更深入的分析，我们在表2中添加了与固定 λ(0.3、0.5、0.7) 的比较。可以看到我们的 'RGB+ L Adap '实现了最佳结果。从固定 λ的深度流中学习不能最大化深度流的好处。相比之下，我们的自适应因子可以通过根据深度流的性能有选择地将深度知识传递给RGB流。注意力深度蒸馏方案的效果。我们的注意力深度蒸馏方案旨在将定位知识转移到RGB特征中。为了证明注意力深度蒸馏方案的效果，我们在没有该方案的情况下可视化了注意力图和显著性预测，如图6所示。显然，没有我们的注意力深度蒸馏方案，注意力图（图6(a)）不能有效地过滤RGB特征中的干扰物，导致显著性预测中存在一些背景噪声（图6(b)）。相反，通过添加注意力深度蒸馏方案生成的注意力图（图6(c)）可以有效地抑制RGB特征中的背景干扰，因此预测成功地突出显示了显著对象（图6(d)）。这些视觉改进是合理的，因为我们的注意力深度蒸馏方案通过提出的方法强调了有用的RGB特征，并抑制了背景区域的激活。此外，在表2中，通过添加我们的注意力深度蒸馏方案实现了四个数据集上的性能改进。0输入 GT (a) (b) (c) (d)0图6. 注意力深度蒸馏方案的视觉分析。 (a) 和 (b) 分别表示从RGB+L Adap 生成的注意力图和预测结果。 (c) 和 (d) 分别表示从RGB+L Adap + L Atten 生成的注意力图和预测结果。04.5. 在现有的RGB-D模型中应用A2dele0在本文中，我们将提出的A2dele应用于两个排名靠前的RGB-D模型（CPFP [41]，DMRA[31]），以实现更高的效率和可比较的准确性。CPFP使用对比增强子网络来处理深度数据，DMRA采用VGG-19来编码深度特征。我们首先用我们的深度流替换原始的深度流（CPFP中的子网络和DMRA中的VGG-19），然后施加提出的两个蒸馏方案。具体而言，为了应用我们的注意力深度蒸馏方案，我们在每个级别中都添加了相同的注意力模块。注意力模块轻量级，几乎不会增加额外的计算成本，参见

下载后可阅读完整内容，剩余1页未读，立即下载