基于级联互信息最小化的RGB-D显著性检测

6 浏览量更新于2023-10-13 收藏 1.15MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4338×基于级联互信息最小化的RGB-D显著性检测张静1樊登平2、欧阳玉超戴欣宇4钟怡然5尼克·巴恩斯1凌少21澳大利亚国立大学2IIAI3西北工业大学4悉尼科技大学5商汤科技摘要现有的RGB-D显著性检测模型没有明确地鼓励RGB和深度来实现有效的多模态学习。在本文中，我们引入了一种新的多级级联学习框架，通过相互信息最小化显式地建模RGB图像和深度数据之间的多模态信息。具体地说，我们首先将每个模式的特征映射到一个较低维的特征向量，并采用互信息最小化作为正则化，以减少冗余之间的外观特征从RGB和几何特征从深度。然后，我们进行多级级联学习，在网络的每个阶段施加互信息最小化约束。在基准RGB-D显着性数据集上的广泛实验说明了我们框架的有效性。此外，为了促进该领域的发展，我们贡献了最大的（比NJU2K大7个）COME 15 K数据集，其中包含15，625个具有高质量多边形/涂鸦的图像对/object-/instance-/rank-level annotations。基于这些丰富的标签，我们还构建了四个新的基准与强大的基线，并观察到一些有趣的现象，这可以激励未来的模型设计。源代码和数据集可在https://github.com/JingZhang 617/cascaded_rgbd_sod获得。1. 介绍显著性检测模型被训练以发现图像中吸引人类注意力的区域。传统上，主要仅在RGB图像上执行显著性检测[37，44，22，43，36]。如表1所示，随着深度数据的可用性，RGB-D显着性检测[46，35，51，53]引起了极大的关注。额外的深度数据提供真实世界的几何信息，这对于前景与背景共享类似外观的场景是有用的。此外，深度范登平（dengpfan@gmail.com）为通讯作者。工作完成时，张静是IIAI实习生，由范邓平指导.图像深度GT BBSNet Ours图1.最先进的RGB-D显著性检测模型的显著性预测的比较，例如[12]我的，我的。传感器（例如，Microsoft Kinect）也可以有益于显著性检测任务。由于RGB和深度数据捕获关于相同场景的不同信息，现有的RGB-D显著性检测模型[35，1，3，2，53，49，30，12，19，33，51]集中于通过使用不同的融合策略隐式地对RGB图像和深度数据的互补信息进行建模。已经广泛研究了三种主要的融合策略：早期融合[38，46]、晚期融合[41，16，36]和跨水平融合[41，16，36]。融合[35，1，3，2，53，49，30，12，19，33，51，25]。虽然性能改进可以通过有效的融合策略来实现，对网络设计没有约束，迫使它学习两种模态之间的互补信息，并且我们不能明确地评估深度数据在这些模型中的贡献[52]。作为多模态学习任务，训练的模型应该最大化网络容量内不同模态的联合熵。最大化联合熵也等于最小化互信息，这可以防止网络关注冗余信息。为了明确地对RGB图像和深度数据之间的互补信息进行建模，我们通过相互信息最小化引入了一个多级级联学习框架。具体地，我们引入互信息最小化作为正则化器（如图所示）。2）实现了两个主要优点：1）显式地建模外观特征和几何特征之间的关系; 2）在互信息最小化约束下有效地融合外观特征和几何特征。图1B中所产生的显著性图。1说明了我们的解决方案的有效性。4339此外，我们发现没有大规模的RGB-D显著性检测训练集。在表1中，我们在RGB-D显著性检测中的大小、数据类型、深度数据的来源以及它们的角色（用于训练“Tr”或用于测试“Te”）方面比较了广泛使用的RGB-D显著性数据集我们注意到，用于RGB-D显著性检测的常规训练集是来自NJU 2K [21]数据集和NLPR [34]的样本的组合，其总共仅包括2，200个图像对。虽然来自DUT数据集[35]的另外800个训练图像可以作为训练集的第三部分，但训练图像的总数是3，000，这不够大，可能导致模型有偏差。此外，我们观察到在现有的RGB-D显著性训练集中存在类似的背景，例如。超过10%的训练数据集来自具有类似照明条件的相同场景。数据集中缺乏多样性可能导致模型的泛化能力较差同时，我们还注意到最大的测试集[11]仅包含1，000个图像对，这可能不足以全面评估深度RGB-D显著性检测模型的整体性能。为了提供用于鲁棒模型训练的RGB-D显著性检测数据集和用于模型评估的足够大小的测试数据，我们贡献了最大的RGB-D显著性检测数据集，从Holo 50 K数据集[18]重新标记，具有用于训练的8，025个图像对和用于测试的7，600个图像对。我们不仅提供了二进制注释，而且还提供了用于立体显著性检测的注释、用于弱监督RGB-D显著性检测的潦草和多边形注释、实例级RGB-D显著性注释和RGB-D显著性排名。此外，我们贡献了5，000个未标记的训练图像用于半监督或自监督RGB-D显著性检测。我们的主要贡献是：1）我们经由用于RGB-D显著性检测的互信息最小化来设计多级级联学习框架，以“显式地”对RGB图像与深度数据之间的冗余进行建模。2)互信息最小化正则化器可以很容易地扩展到其他多模态学习流水线，以模拟多个模态的冗余。3)我们贡献了最大的RGB-D显著性检测数据集，其中有15，625个标记集和5，000个未标记集，以实现完全/弱/无监督的RGB-D显著性检测。4)我们提出了新的基准RGB-D显着性检测，并介绍了立体和弱监督RGB-D显着性检测的基线模型。2. 相关工作2.1. RGB-D显著性检测模型对于RGB-D显著性检测，主要焦点之一是探索RGB图像和深度数据之间的互补信息。前者提供AP-表1.与广泛使用的RGB-D数据集的比较数据集大小类型深度源作用NJU2K[21]1,985电影/互联网FujiW3摄像头+光流Tr，TeDUT [35]1,200室内/室外光场相机Tr，TeNLPR [34]1,000室内/室外微软KinectTr，TeSSB [32]1,000互联网立体相机Te高级督察〔11〕929人在外面华为Mate10TeDES [7]135室内微软KinectTe[27]第二十七话80室内/室外Lytro Illum相机Te我们15,625室内/室外Holopix社交平台Tr，Te场景的透视信息，而后者引入几何信息。根据来自这两种模态的信息如何融合，现有的RGB-D显著性检测模型可以分为三类：早期融合模型[38，46]，后期融合模型[41，16，36]和跨级别融合模型[35，1，3，2，53，49、30、12、19、33、51、25、26]。第一种解决方案直接将RGB图像与其深度连接，而后期融合模型单独处理每个模式（RGB和深度）上述两种解决方案在输入或输出层执行多模态融合，而跨级融合模型在特征空间中融合RGB和深度。具体地，RGB图像和深度的特征在网络的不同级别中逐渐融合[33，26，12，25，31，5，48，30，49]。虽然现有的方法融合了RGB图像和深度数据进行多模态学习，但它们都没有明确说明网络如何实现有效的多模态学习。我们提出了一个跨层次的融合模型，如图所示。二、通过设计“互信息正则化器”，我们的目标是减少冗余的外观特征和几何特征的有效的2.2. 使用RGB-D数据集进行多模态学习的基本假设是在不同的模态中既有共同的信息又有不同的对于RGB-D数据集，RGB图像和深度数据共享相似的语义信息，其可以被定义为公共部分。RGB图像编码外观信息，包括对象的强度或颜色，而深度数据编码几何信息，示出对象的相对几何定位。外观信息和几何信息的区别实现RGB-D数据的多模态学习的主要焦点是通过使用不同的融合策略[42，4，31，24]，例如早期融合、晚期融合或跨节段融合。与传统的解决方案不同，我们引入了一个多阶段的级联学习框架，通过相互信息最小化，以减少每个模式的特征冗余。虽然互信息最大化[29，39]被广泛用于表示学习中以产生与输入相似的表示，但我们将互信息最小化作为正则化器以减少4340∗∗一gc=1一一一GGGG一一一一GGGG一 c=1G c=1------图2.概述所提出的用于RGB-D显著性检测的多级级联学习框架我们将RGB图像和深度馈送到显著性编码器以提取每个模式的显著性特征，其中互信息正则化项将特征彼此不同。然后，我们将每个模式的低维特征（za和zg）与原始图像特征（ea和eg）融合，以有效地对每个模式的互补信息进行建模，并获得我们的最终预测P。有效的多模态学习的特征冗余。2.3. RGB-D显著性数据集广泛使用的RGB-D显著性检测数据集包括NJU 2K[21]、NLPR [34]、SSB [32]、DES [7]、LFSD[27]、SIP [11]、DUT [35]等，如表1所示。典型的训练数据集是1，485张图像从NJU2K [21]和700图像从NLPR [34]。飘e1，e2，e3，e4. RGB显著性编码器模块的最终输出是ea=el，e2，e3，e4，并且深度显著性编码器的最终输出是eg=el，e2，e3，e4。注意，RGB显著性编码器和深度显著性编码器共享相同的网络结构，但不共享权重。3.2.特征嵌入给定来自RGB的输出ea={e1，e2，e3，e4}显著性编码器，并且从深度训练和400个图像用于测试。为了繁荣RGB-D显著性检测任务，我们介绍了最大的RGB-D显著性检测训练和测试数据集，将在第4节中介绍。显着性编码器，我们的目标是将RGB特征和深度特征映射到低维特征空间用于特征嵌入。具体来说，我们提出了一个多级级联学习策略，在网络的每一个阶段进行互补学习用于下3. 拟议的CMINet阶段，我们馈送RGB特征{ec}3和深度特征{ec}3到两个不同的3×3卷积层-我们在图中介绍了一个多阶段级联学习2显式地对用于RGB-D显著性检测的互补信息3.1. 凸极编码器ers（图中的“conv3x3”）2）获得RGB分支和深度分支的通道大小为4C的特征图。然后，我们采用两个完全连接的层（图1中的“fc”）。2）将通道大小为4 μ C的特征图映射到两个不同的较低-一G尺寸为{zc}3和{zc}3的维特征我们将我们的训练数据集表示为T={X，Y}N，K=6。相关的补充学习哪里i ii=1损失（将在第3.3节和第3.5节中介绍）是i索引图像，N是训练集的大小，Xi和Yi是输入RGB-D图像对及其对应的地面实况（GT）显著性图。我们喂采用该方法以减少较低阶段的RGB和深度的特征冗余在最高阶段，我们首先在空间维度上平铺较低维度的特征向量z4和z4训练图像对（RGB图像I和深度D）到g显着性编码器，如图所示2.分别提取图像的表观特征fαa（I）和几何特征fαg（D），其中αa和αg分别是RGB显著性编码器和深度显著性编码器的参数我们在ResNet50网络上构建显着性编码器[17]，其中包括四个卷积阶段{s1，s2，s3，s4}。我们添加一个额外的卷积层然后，我们将它们与另一模式的原始图像特征连接，以获得RGB分支和深度分支的4C+K通道大小特征图ra和rg3.3.多模态学习在获得RGB图像和深度数据的特征嵌入za和zg之后，我们引入了一个相互的信息，在每个sc∈ {sc}4之后，核大小为3 ×3来减少C4通道尺寸c至c=1将{ea}c=1的级联定义为ra wRGB特征，并且s C=32，并获得特征图{ec}4的级联作为原始深度特征等人[35]介绍了DUT数据集，其中包含800张图像c=1c=14341Σ−（四）×L4一G(a)（b）（c）（d）（e）（f）（g）图3.我们新的RGB-D显著性检测数据集的注释：（a）RGB图像，（b）深度数据和（c）二进制地面实况，（d）实例级注释，（e）基于排名的注释，（f）涂鸦注释和（g）多边形注释。我们的不同注释将有助于开发不同的完全/弱监督RGB-D显着性检测。信息最小化正则化器以显式地减少这两种模态之间的冗余我们的基本假设是，一个良好的外观显着性特征和几何显着性特征对应该携带共同的部分（语义相关）和不同的属性（域相关）。互信息Mi用于测量熵项之间的差异：MI（za，zg）=H（za）+H（zg）−H（za，zg），（1）其中H（. ）是熵，H（za）和H（zg）是边际熵，并且H（za，zg）是za和zg的联合熵。直观地说，我们有两个潜在变量（或条件熵）的KL（z a||z g）=H zg（z a）− H（z a），（2）KL（z g||z a）=H za（z g）− H（z g），（3）其中Hzg（za）=xza（x）logzg（x）是交叉熵。然后我们总结Eq。1，等式2和Eq。3，得到：MI（za，zg）=Hzg（za）+Hza（zg）−H（z a，z g）−（KL（z a||z g）+KL（z g||z a））。给定RGB图像和深度数据，H（za，zg）是非负的，则最小化互信息可以是然后在ra之后采用一个DenseASPP [45]模块以获得具有多尺度上下文信息的RGB显著性预测Pa类似地，我们可以获得深度显著性预测Pg。显著性解码器fγ（图1B中的“解码器”）2）将细化的显著性特征ra、rg以及RGB显著性预测Pa和深度显著性预测Pg作为输入以产生我们的最终预测P，其中γ是显著性解码器的参数集。具体来说，我们增加了位置关注模块和渠道关注模块[14]在ra和rg之后，分别获得da（ra）和da（rg）然后，我们将da（ra）和da（rg）连接起来，并将其馈送到DenseASPP [45]模块以获得我们的显著性预测Pf。为了进一步融合来自两种模式的信息，我们逐通道地级联Pa、Pg和Pf，并将其馈送到3 × 3卷积层以实现我们的最终预测P。3.5.目标函数我们采用二进制交叉熵损失ce作为我们的目标函数来训练我们的多级级联学习框架，其中互补约束，如等式中所示。（1），推动RGB图像的显著性特征分布与深度数据的显著性特征分布分开。我们的最终目标函数是：L=Lce（P，Y）+λ1Lce（Pf，Y）+λ 2Lce（Pa，Y）+λ2Lce（通过最小化实现：Lmi=（H zg（z a）+H za（zg））−（KL（z a||z g）+KL（z g||z a））。直观地，MI（z a，z g）表示一Gλ3Lce（Pg，Y）+λΣLmi（zc，zc），c=1（五）或反之亦然。作为一个多模态学习任务，每一个模态应该从其他模态中学习任务的一些新属性。通过最小化MI（Za，Zg），我们可以有效地探索两种模态的互补属性。请注意，尽管KL损失项在[46]中用作分布相似性度量，但我们使用它来测量多模态学习的模式相似性。3.4.显著性解码器以互信息作为正则化算子，在网络的较低阶段实现特征冗余约束，在最高阶段得到细化的RGB显著性特征ra和细化的深度显著性特征rg我们确保降低z中的不确定性当z被观察到，4342LL根据经验我们设λ1= 0。8，λ2= 0。6，λ3= 0。4.第一章由于mi的范围比ce的范围大10倍，因此我们将其损失权重设置为λ = 0。1、均衡学习。4. COME15K数据集如表1所示，现有的RGB-D显著性检测训练数据集不够大，这可能导致模型的泛化能力差。此外，由于训练数据集是来自NJU2K的样本的组合，因此训练数据集可以是来自NJU2K的样本的[21]和NLPR数据集[34]，训练集的不同分割通常导致不一致的性能评估。最后，测试数据集的小尺寸可能无法填满4343M×评估RGB-D显著性检测模型。为了提升RGB-D显著性检测，我们贡献了最大的RGB-D显著性检测数据集。我们提供二进制注释、实例级注释、基于排名的注释、弱注释，如图所示。3.第三章。补充材料中介绍了对数据集的详细分析。4.1. 数据集标注我们新的COME15K数据集基于Holo50K [18]，这是一个立体数据集，包括室内和室外的场景。我们首先过滤Holo50K数据集，然后获得16，000个用于标记的立体图像对（candidate标记集）和另外5，000个图像对作为未标记集。请注意，Holo 50 K数据集中的立体对是由立体相机直接捕获的，而无需校正，我们使用SOTA现成的立体匹配算法[55]的修改版本来计算候选标记集和未标记集的深度，其中左-右视图图像作为输入。为了为候选标记集提供注释，我们首先要求五个其次，“精细”注释器将分割显着对象的全部范围并提供实例级注释。第三，我们执行“多数投票”以获得用于我们的RGB-D显著性检测任务的二进制GT显著性图。请注意，我们删除了那些没有共同显著区域的样本，并获得了大小为15，625的最终标记此外，基于涂鸦注释和实例级显著性图，我们根据初始涂鸦注释对每个显著性实例进行排名，以形成我们的RGB-D显著性排名数据集。我们还为弱监督RGB-D显著性检测提供了弱注释我们将来自多个粗略注释器的大部分涂鸦注释定义为我们数据集的涂鸦注释。具体来说，我们首先获得的实例与大多数的涂鸦。然后，我们将多数实例上的scribble定义为scribble注释。我们用多边形标记大多数显著实例以形成基于多边形的注释。4.2. 数据集拆分我们将标记集分为一个具有8，025个样本的训练集训练数据集通过从标记的集合中随机选择8，025个图像来生成。对于测试数据集，我们打算引入两组不同的难度。具体来说，我们基于全局和内部对比度对RGB图像进行排名，并将具有低全局对比度和高内部对比度的样本表示为困难的我们删除了暴力图片。样品然后我们有1,800个困难样本Dd和5,800个正常样本Dn。我们从Dd和Dn中分别随机抽取30%和70%的样本，得到我们的5. 实验我们将我们的方法CMINet与现有的RGB-D显着性检测模型进行了比较，并在表2- 3中报告了性能。此外，我们在我们的新训练数据集上重新训练了最先进的RGB-D显着性检测模型，并在表6中提供了这些模型在我们的测试数据集上的性能。5.1. 设置数据集：为了与现有的RGB-D显着性检测模型进行公平比较，我们遵循传统的训练设置，其中训练集是来自NJU 2K数据集[21]的1，485张图像和来自NLPR数据集[34]的700张然后，我们在NJU2K测试集，NLPR，测试集LFSD [27]，DES [7]，SSB [32] SIP[11]和DUT [35]测试集。指标：我们在四个黄金评估指标上评估模型的性能，即，平均绝对误差（）、平均F-测度（Fβ）、平均E-测度（Eξ）[10]和S-测度（Sα）[9]，在补充资料中有详细解释。培训详情：我们的模型是使用Py-torch库实现的。两个显着性编码器共享相同的网络结构，并使用在ImageNet上训练的ResNet50 [17]进行初始化，其他新添加的层随机初始化。我们将所有图像和地面实况调整为352 - 352像素的相同空间大小。我们将最大epoch设置为100，初始学习率为5e-5。我们采用“阶梯式”学习率衰减策略，并将衰减大小设置为80，衰减率设置为0.1。在NVIDIA GeForce RTX 2080 Ti GPU上，对于传统训练（NJU 2K- train+ NLPR-train）数据集，整个训练需要4.5小时，对于我们的新训练（COME 15 K-train）数据集，整个训练需要16小时5.2. 模型比较定量比较：我们比较了CMINet和最先进的RGB-D显着性检测模型的性能，并在表2中报告了性能。注意，我们使用NJU 2K和NLPR的训练集作为现有的深度RGB-D显著性检测模型。我们的模型的一致更好的性能表明我们的解决方案的有效性。此外，我们观察到当前RGB-D显著性检测的性能差距是补充资料中详细介绍了图像的整体对比度和内部对比度。4344SIPLFSDNLPRDESSSBNJU2K表2.在六个RGB-D显着性数据集上对三个领先的手工制作的基于特征的模型和十八个深度模型（*）进行基准测试。↑↓分别表示越大越好，越小越好。&这里，我们采用平均Fβ和平均Eξ[10]。度量早期融合模型DF DANet UCNet JLDCF[38][54][46][15]晚期融合模型LHM DESM CDB A2dele AFNetCTMF[34个][七]《中国日报》[28日][36][16]第41话跨层次融合模型DMRA PCF MMCI TANet CPFP S2MA BBS-Net CoNet HDFNet BiaNetCMWNet[35][1][3][2][53][30][12][19][33][51][25]CMINet我们的Sα↑Fβ↑Eξ↑M↓.763.653.700.140.897.877.926.046.897.886.930.043.902.885.935.041.514.328.447.205.665.550.590.283.632.498.572.199.873.867.913.051.822.827.867.077.849.779.846.085.886.873.920.051.877.840.895.059.858.793.851.079.879.841.895.061.878.850.910.053.894.865.914.053.921.902.938.035.911.903.944.036.908.892.936.038.915.903.934.039.903.881.923.046.939.925.956.032Sα↑Fβ↑Eξ↑M↓.757.617.692.141.892.857.915.048.903.884.938.039.903.873.936.040.562.378.484.172.642.519.579.295.615.489.561.166.876.874.925.044.825.806.872.075.848.758.841.086.835.837.879.066.875.818.887.064.873.813.873.068.871.828.893.060.879.841.911.051.890.853.914.051.908.883.928.041.896.877.939.040.900.870.931.041.904.879.926.043.905.872.928.043.921.895.959.034Sα↑Fβ↑Eξ↑M↓.752.604.684.093.905.848.961.028.934.919.967.019.931.907.959.021.578.345.477.114.622.483.566.299.645.502.572.100.881.868.913.030.770.713.809.068.863.756.826.055.900.873.933.030.842.765.838.049.848.735.825.065.858.790.863.046.872.824.888.038.941.909.952.021.933.910.949.021.906.880.939.026.926.910.957.021.931.910.948.021.934.909.955.022.953.926.970.015Sα↑Fβ↑Eξ↑M↓.806.664.757.079.908.850.945.031.920.891.951.025.925.894.955.022.630.427.560.108.572.430.542.312.632.421.567.108.887.871.933.031.799.755.851.058.860.740.840.056.899.865.940.031.874.802.887.044.856.737.841.059.886.819.902.041.888.840.918.036.916.873.937.030.930.896.950.023.900.859.937.030.923.894.955.023.925.894.948.024.917.877.939.029.941.909.964.019Sα↑Fβ↑Eξ↑M↓.791.679.725.138.845.826.872.082.864.855.901.066.862.848.894.070.557.396.491.211.722.612.638.248.520.376.465.218.831.829.872.076.738.736.796.134.796.756.810.119.847.845.893.075.794.761.818.112.787.722.775.132.801.771.821.111.828.811.863.088.837.806.855.094.864.843.883.072.842.834.886.077.854.835.883.077.845.834.871.085.876.862.900.066.877.862.911.064Sα↑Fβ↑Eξ↑M↓.653.465.565.185.878.829.914.054.875.867.914.051.880.873.918.049.511.287.437.184.616.496.564.298.557.341.455.192.826.827.887.070.720.702.793.118.716.608.704.139.806.811.844.085.842.814.878.071.833.771.845.086.835.803.870.075.850.821.893.064.872.854.905.057.879.868.906.055.868.855.915.054.886.875.923.047.883.873.913.052.867.851.900.062.894.887.933.044表3.DUT [35]测试集的模型性能度量UCNet[46个]JLDCF[第十五条]A2dele[36个]DMRA[35]第三十五届CPFP[五十三]S2MA[30个]CONET[19个]HDFNet[33个]CMINet我们Sα↑Fβ↑Eξ↑M↓.907.902.931.038.905.884.932.043.884.889.924.043.886.883.924.048.749.695.759.100.903.881.926.044.919.911.947.033.905.889.929.040.928.921.959.030非常微妙，例如，BBS-Net [12]，CoNet [19]，HDFNet[33]，BiaNet [51]和CMWNet [51]，这表明了更大和更多样化的训练和测试数据集用于模型训练和评估的必要性。DUT [35]数据集上的性能一些现有的RGB-D显著性检测方法[35，30]在DUT训练数据集[35]上微调它们的模型，以评估它们在DUT测试集上的性能。为了在DUT测试集上测试我们的模型，我们遵循相同的训练策略。在表3中，所有模型都是用常规训练集训练的，然后在DUT训练集上进行微调。一贯的优越性能说明了我们的模型的优越性。此外，由于表3中的当前测试性能是以训练-再训练方式实现的（在组合训练集上训练，并在DUT训练集上再训练[35]），因此我们使用常规训练集和DUT训练集的组合来重新训练这些模型，并观察到一致的较差性能。这种观察告诉我们，在上述三个训练集中可能出现不一致的注释（即，NJU2K、NLPR和DUT）。这也促使我们收集具有一致注释的更大训练数据集，以进行强大的模型训练。定性比较：我们进一步观察我们的预测--积极探索多模态学习的两种模式。更多结果见补充材料。模型大小和运行时间：我们的模型尺寸为84M，与最先进的模型，如BBS-Net [12]的模型大小为100 M。对于推理，我们的模型实现了10图像/秒，这再次与现有的模型相媲美5.3. 消融研究我们进行了以下消融研究，以进一步分析我们模型的组成部分。我们还实现了我们的基线模型，而没有提出的策略，以突出互信息最小化正则化的贡献。注意，所有这些实验都是用常规训练数据集训练的。基线模型的性能：为了测试我们设计的编码器和解码器如何在图。2执行，我们将“互信息正则化器”部分从我们的框架中移除，并且直接将RGB特征ea与深度特征eg级联并将其馈送到解码器。性能在表4中显示为我们观察到的“基地”与现有的RGB-D显着性检测模型相比，compa-able性能与我们的最终结果相比，“基地”的表现较差，这特征空间的维度：我们将低维特征嵌入的维数（z a和z g）设置为K=6。测试要素尺寸对网络性能，我们设置K=3和K=32，以及图中的位置1.一、定性比较表明与建议的学习策略，我们的模型可以effec-详细结构见补充资料4345×表4.额外实验的性能方法Sα↑NJU2K[21]Fβ↑ Eξ↑M↓Sα↑SSB [32]Fβ↑ Eξ↑M↓Sα↑DES [7]Fβ↑ Eξ↑ M↓Sα↑NLPR [34]Fβ↑ Eξ↑M↓Sα↑[27]第二十七话Fβ↑ Eξ↑M↓Sα↑高级督察〔11〕Fβ↑ Eξ↑M↓基地.910.900.935.035.890.870.917.043.926.915.959.018.920.898.942.024.842.835.880.077.879.876.917.049K3.928.908.947.032.909.892.939.036.934.922.964.018.925.904.956.022.869.845.898.067.885.879.919.047K32.924.909.944.033.908.894.941.036.938.923.966.017.927.906.959.021.856.853.900.065.885.878.921.046SS.926.913.943.034.914.882.942.036.946.927.968.017.932.896.954.021.861.852.896.067.885.879.925.046W0.918.907.944.033.892.877.923.042.934.924.964.017.924.900.945.023.843.836.881.076.884.878.916.048W1.919.909.946.032.905.886.937.037.938.927.971.016.923.903.956.022.857.853.891.071.887.882.921.045Pf.925.908.945.033.908.887.939.036.946.925.965.016.938.907.962.023.862.845.896.068.889.886.927.045SRGB.898.890.930.040.899.876.924.042.891.883.920.028.908.885.932.031.817.807.853.095.860.865.905.056SRGBD .915.901.932.037.903.878.931.039.920.908.942.021.914.893.943.026.850.841.886.071.876.870.910.051CMINet .939.925956.032.921.895.959034.953.926.970.015.941.909.964.019.877.860.911.064.894.887.933.044在表4中分别将它们的性能报告为实验结果表明，该模型在不同维数的低维特征下具有相对稳定的性能，而当前维数K=6时效果最好。“互信息正则化器”的结构模块如图所示。2：如3.2节所述，“互信息正则化器”模块由一个3 × 3卷积层和一个全连接层组成。还可以直接从显著性编码器的输出来实现这一点。具体地，我们可以将RGB特征和深度特征馈送到两个完全连接的层，以分别获得za和zg在表4中，我们报告了我们的模型在这个简单设置下的我们观察到性能下降，这表明有必要引入更多的非线性，以有效地提取每个模式的特征表示。互信息正则化器的权重：互信息正则化项的权重λ控制互补信息的水平。我们设置λ = 0。1本文实现了均衡训练。我们补充材料。合并战略：在本文中，我们产生四个不同的显着性图作为中间输出，包括从RGB分支（Pa）和深度分支（Pg）的显着性预测，特征嵌入融合分支（Pf），以及我们通过融合Pa，Pg和Pf的最终预测P。由于Pf已经包含在za和zg的互补信息中，因此我们将最终预测定义为Pf，而不进行最终融合以获得P。性能示于表4我们观察到较差的性能主要原因是，Za和Zg是RGB图像和深度数据的高级特征嵌入，其主要捕获语义信息。za和zg的直接合并将生成具有较低结构准确度的显著性预测。深度数据的贡献：可以仅利用RGB图像来实现显著性检测。讨论的在第1节中，深度引入了用于显著性检测的有用几何信息。为了验证这一结论，我们训练了我们的模型（仅包括图1中的编码器和解码器）。2）有和没有深度作为输入。性能然后测试模型在不同λ下的表现，并设置λ=0和λ=1。我们展示了在表4中显示为rgbd” andRGB”分别。的表4中的那些变体由“W0”和“W1”表示。“W0”的较差性能此外，与表2中的性能相比，我们观察到“W1”的相对较差的性能5.4. 讨论互信息最小化作为正则化器的有效性：我们计算了最高阶段特征嵌入的平均绝对余弦相似度（z4与“S rgb“相比，“S rgbd“的优越性能我们还展示了解释深度如何有助于在补充材料中的显着性检测的例子。深度生成：我们使用Holo50K [ 18 ]生成COME15K数据集，其中立体对没有严格纠正，即使使用最先进的立体算法也可能导致严重的匹配失败[6]。为了解决这个问题，我们放宽了立体算法中的水平搜索到水平和垂直搜索，但只保留水平位移作为立体视差。我们使用修改后的立体匹配算法[40]来生成DIS-A。和4在我们的数据集中的奇偶性/深度。此外，立体摄像机是zg）对于cosine（z M0）=0。90和cosine（z Ours）=0。11的广泛用于移动设备中，这使得更容易获得室内和室外的深度信息。a，g a，gNLPR测试数据集。这清楚地显示了我们的解决方案在为每个模式提取相关性较低的特征方面的优势。我们将学习到的特征嵌入到深度融合模型是一种早期融合模型，在输入层将深度和4346困难正常×表5.弱监督显著性检测基线的性能方法Sα↑NJU2K[21]Fβ↑ Eξ↑M↓Sα↑SSB[32]Fβ↑ Eξ↑ M↓Sα↑NLPR [34]Fβ↑ Eξ↑M↓Sα↑高级督察〔11〕Fβ↑ Eξ↑M↓COME 15 K-正常Sα↑ Fβ↑ Eξ↑M↓COME 15 K-困难Sα↑ Fβ↑ Eξ↑M↓Scribble .823.806.869.080.820.803.884.073.820.737.863.058.815.793.888.076.802.780.856.082.767.749.812.115多边形.847.827.896.065.853.831.913.056.848.789.899.043.846.822.909.060.827.805.884.065.786.774.841.096表6.我们的新COME15K测试集上的性能度量UCNet[46个]JLDCF[第十五条]A2dele[36个]DMRA[35]第三十五届CPFP[五十三]S2MA[30个]CONET[19个]BBS-Net[12个]CMINet我们Sα↑Fβ↑Eξ↑M↓.894.883.929.036.894.875.919.042.833.835.882.060.782.744.812.105.795.716.801.104.877.829.881.059.820.796.850.082.902.879.923.039.915.893.941.033Sα↑Fβ↑Eξ↑M↓.822.814.859.079.845.832.870.075.787.795.838.092.743.724.775.137.770.704.776.131.828.789.836.092.779.774.813.113.853.834.876.071.

下载后可阅读完整内容，剩余1页未读，立即下载