快速显著目标检测的级联部分解码器

51 浏览量更新于2023-10-18 收藏 691KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

39070.783.40.752.2用于快速准确的显著目标检测的级联部分解码器吴哲1，2，李肃1，2，3，黄清明1，2，31中国北京中国科学院大学计算机科学与技术学院2中国科学院大学大数据挖掘与知识管理重点实验室北京3中国科学院计算技术研究所智能信息处理重点实验室北京zhe. vipl.ict.ac.cn，{suli，qmhuang}@ usas.ac.cn摘要现有的最先进的显著对象检测网络依赖于聚合预先训练的卷积神经网络（CNN）的多级特征。与高级特征相比，低级特征对性能的贡献较小，但由于其较大的空间分辨率而花费更多的计算。在本文中，我们提出了一种新的级联部分解码器（CPD）框架，0.726 5 4 3 2 1侧输出（一）16 5 4 3 2 1侧输出（b）第（1）款精确的显著对象检测。一方面，该框架构造了部分解码器，丢弃较浅层的较大分辨率特征以加速。另一方面，我们观察到，整合更深层的特征获得相对精确的显着图。因此，我们直接利用生成的显着图来细化骨干网的特点。这种策略有效地抑制了特征中的干扰项，并显著提高了它们的表征能力。在五个基准数据集上进行的实验表明，该模型不仅达到了最先进的性能，而且运行速度比现有模型快得多。此外，该框架进一步应用于改进现有的多层次特征聚合模型，显著提高其效率和准确性。1. 介绍近年来，深度学习在显著目标检测方面取得了令人惊讶的成绩，因为它提供了丰富而有区别的图像表示。早期的深度显着性方法[15，16，32]利用CNN来预测图像区域的显着性得分，并获得具有高计算复杂度的准确显着性图。在接下来的工作中，完全卷积网络（FCN）[24]基于图1：（a）PASCAL-S[19]数据集中原始DSS [9]模型的六个侧输出的最大F测量。（b）我们将骨干网络的推理时间设为1，这里显示了每侧输出的推理时间。当从高级6到低级1逐渐集成特征时，性能增长变得越来越慢，推理时间迅速增加。编码器-解码器架构被广泛应用于凸透镜，测试对象检测。编码器是预训练的图像分类模型（例如VGG [29]和ResNet [8]），它提供多级深度特征：具有低分辨率的高级特征表示语义信息，而具有高分辨率的低级特征表示空间细节。在解码器中，这些特征被组合以生成准确的显著性图。研究人员已经开发了各种解码器[9，17，20，21，25，41，42]，以集成低级和高级功能。然而，在这些深度聚合方法中存在两个缺点。一方面，与高级特征相比，低级特征对深度聚合方法的性能贡献较小。在图1（a）中，我们展示了DSS [9]模型不同侧输出的性能。很明显，当从高级别到低级别逐渐聚合特征时，性能趋于快速饱和。另一方面，由于大规模的maxF时间3908图像Conv1_2 Conv2_2Conv3_3 Conv4_3 Conv5_3图2：VGG 16的原始图像和五级特征图[29]。Conv3 3功能仍保留边缘信息。因此，具有大分辨率的Conv1 2和Conv2 2特征不在所提出的框架中考虑。的低级别的功能，将它们与高级别的功能，显然扩大了计算的复杂性，如图所示。第1段（b）分段。然而，检测和分割显著对象应该是快速的，因为这个过程通常是更复杂操作的预处理阶段[3]。因此，设计一种机制在保证性能的同时消除底层特征对计算复杂度的影响是非常必要的。当CNN深入时，特征逐渐从低级表示变为高级表示。因此，当仅整合更深层的特征时，深度聚合模型可以恢复显着图的空间细节。在图2中，我们显示了VGG16的多级特征图的示例 [29]。与Conv1 2和Conv2 2层的低层特征相比，Conv3 3层的特征还保留了边缘信息。此外，特征图中的背景区域可能导致显著图的不准确性。以前的工作利用自适应注意机制来解决这个问题。然而，这种机制的效果依赖于注意力地图的准确性。由于融合更深层的特征会生成相对精确的显着图，因此我们可以直接使用该图来细化特征。在本文中，我们提出了一种新的级联部分解码器框架，该框架丢弃较浅层的特征以确保高计算效率，然后细化较深层的特征以提高其表示能力。我们修改了标准的直骨干网络的分叉。这个新的主干网包含两个具有相同架构的分支。我们构造了只聚集每个分支中的特征的部分解码器。为了进一步加快模型的速度，我们设计了一个快速有效的上下文模块来提取区分性特征，并以上采样-连接的方式将它们整合在一起。然后，我们提出了一个级联优化机制，它利用第一个分支的初始显着图，第二个分支的细化特征。为了统一分割整个显著对象，我们提出了一个整体注意力模块，使初始显著图覆盖更多的有用信息。此外，所提出的框架可以用来改善现有的深度聚合模型。当将他们的解码器嵌入到我们的框架中时，准确性和效率将大大提高。我们的贡献总结如下：(1) 我们提出了一种新的级联部分解码器框架，该框架丢弃低级别特征以降低深度聚合模型的复杂性，并利用生成的相对精确的注意力图来细化高级特征以提高性能。(2) 在五个基准数据集上的实验结果表明，该模型不仅达到了最先进的性能，而且运行速度比现有模型快得多。(3) 我们的框架可以应用于改进现有的深度聚合模型。改进后的模型的效率和准确性均较原模型有显著提高。2. 相关工作在过去的二十年中，研究人员开发了大量的显著性检测算法。传统模型提取手工制作的特征，并基于各种显着性假设[2，6，11，46]。关于传统方法的更多细节在[3，4]中总结。在这里，我们主要讨论基于深度学习的显著性检测模型。早期的工作利用CNN来确定图像区域是否突出[15，16，32，44]。虽然这些模型已经取得了比trans-marting方法更好的性能，它是耗时的预测图像区域的显着性分数。然后研究人员基于成功的全卷积网络开发更有效的模型[24]。Li等人。 [18]建立了一个用于显著对象检测和语义分割的统一框架，以有效地学习显著对象的语义属性S. Wang等人 [34]利用级联的全卷积网络来不断细化以前的预测图。最近，研究人员已经证明，融合多层次特征进一步提高了密集预测任务的性能[7，27]。在CNN中，高级特征提供语义信息，低级特征包含有助于细化对象边界的空间细节。许多作品[9，17，20，21，25，41，42]遵循这种策略，并精确地分割显着对象。Li等人。 [17]直接集成多级特征以获得更高级的特征表示。Liu和Han [20]首先进行粗略的全局预测，然后通过内部分层和渐进地逐步细化显着图的细节3909i−12i−1我33ConvConv部分解码器（a）国内S（b）INConvConvConvSh火腿SI卷积块整体跳过连接注意模块元素乘法ConvConv部分解码器图3：（a）传统的编码器-解码器框架，（b）所提出的级联部分解码器框架。我们使用VGG16[29]作为骨干网络。传统的框架通过采用集成所有级别特征的全解码器来生成显著图S该框架采用部分解码器，只集成较深层的特征，并生成初始显著图Si和最终显著图Sd。整合本地上下文信息。Houet al. [9] intro-溶液[2H，W]。先前提出的解码器减少与内部的跳跃层结构的短连接，[38]第38话Luo等人。 [25]通过多分辨率4×5网格网络结合局部对比度特征和全局信息来分割显著对象。Zhang等人[42]第一步，将多层次特征映射集成到-到多个分辨率，同时结合语义信息和空间细节。然后，这项工作预测每个分辨率下的显着性图，并将它们融合以生成最终的显着性图。在[41]中，工作提取了上下文感知的多级特征，然后利用双向门控结构在它们之间传递消息。Liu等人。 [21]利用全局和局部像素上下文注意力网络来捕获全局和局部上下文信息。然后将这些模块与U-Net架构相结合来分割显著对象。在本文中，我们认为，低级别的功能总是贡献小于高级别的功能。然而，它们需要更多的计算成本比高层次的功能，由于其更大的空间分辨率。因此，我们提出了一种新的级联部分解码器作品[41，42]，在本文中称为全解码器整合所有特征以生成显著性图S。一个统一的架构的完整解码器如图所示3（a）它可以表示为DT=g（f1，f2，f3，f4，f5），其中g（·）表示一个多级特征聚集算法。以前的工作集中在如何开发一个更有效的，有效的整合策略。在图3（b）中，我们示出了所提出的级联部分解码器框架的架构。由于较浅层的特征对性能的贡献较小，我们构造了一个只集成较深层特征的部分解码器。为了利用生成的显着图来细化特征，我们设计了一个分叉的骨干网络。我们将Conv3 3层设置为优化层，并使用最后两个卷积块构建两个分支（一个attention分支和一个detection分支）。在注意分支中，我们设计了一个部分解码器来整合三级特征其表示为{fa= fi，i = 3，4，5}。因此，第-译码器用Da=ga（fa，fa，fa）表示，3 4 5框架的显着对象检测，这并不符合，sider低级别的功能，并利用生成的显着图来细化高级别的功能。3. 拟议框架本文提出了一种新的级联部分解码器框架，它包含两个分支.在每个分支中，我们设计了一个快速有效的部分解码器。第一个分支生成一个初始显着图，它是uti，生成初始显著性图Si。在处理所提出的整体注意力模块之后，我们获得了增强的注意力图Sh，其用于细化特征f3。由于我们可以通过整合三个顶层的特征来获得相对精确的显著图，因此注意力图Sh有效地消除了特征f3中的干扰项。然后，我们通过将特征和注意力图按元素相乘来获得检测分支的细化特征fdf d= f3<$S h. 因此，以下两个级别的特征检测分支表示为{fd，fd}。通过欺诈-这是为了完善第二个分支的功能另外，45构造另一部分解码器Dd=gd（fd，fd，fd），我们提出了一个整体注意力模块来分割w-均匀地给对象打孔3.1. 拟议框架我们基于VGG 16网络设计了所提出的模型，VGG16网络是深度显著对象检测模型中使用最广泛的骨干网络。对于大小为H×W的输入图像I，我们可以在五个级别，表示为{fi，i = 1，.，5、以…3 4 5在检测分支中，所提出的模型输出最终显著性图Sd。为方便起见，本文设ga=gd.所提出的整体注意力模块和部分解码器的细节分别在第3.2节和第3.3节中描述。我们用地面实况联合训练这两个分支。两个分支的参数不共享。给定{Si，Sd}和对应的标号l，总损失Ltotal转换转换转换完整解码器Conv山姆SISD3910我我公式为：Ltotal=Lc e（Si，l|Θi） +Lc e（Sd，l|Θd）。（一）Lce是S形交叉熵损失：ΣNLce（Θ）=−Σδ（lj=c）logp（Sj=c|Θ），（二）c∈{0， 1}其中，N是像素数，δ是指示函数，j表示pixel坐标，并且Θ={Θi，Θd}是对应于显著性图S={Si，S d}的参数集。显然，Θi是Θ d的真子集，这表明这两个分支以交替的方式工作。上一方面，注意分支为检测分支提供了精确的注意图，使得检测分支能够更准确地分割显著对象。另一方面，检测分支可以被认为是注意分支的辅助损失，这也有助于注意分支聚焦于显著对象。联合训练这两个分支使我们的模型在抑制干扰物的同时均匀地突出显著对象。此外，我们可以利用所提出的框架，以改善现有的深度聚合模型时，我们集成的功能，每个分支，通过使用这些作品的聚合算法。尽管与传统的编解码器架构相比，我们增加了骨干网络的计算成本和多一个解码器，但由于在解码器中丢弃了低级特征，总的计算复杂度仍然显著降低。此外，该框架的级联优化机制提高了性能，实验表明，两个分支都优于原始模型。3.2. 整体注意力模块给定来自优化层的特征图和来自注意分支的初始显著图，我们可以使用初始注意策略，这意味着直接将特征图与初始显著图相乘。当我们从注意力分支获得准确的显着性图时，这种策略将有效地抑制特征的干扰物。相反，如果干扰项被归类为显著区域，则该策略会导致异常分割结果。因此，我们需要提高初始显着图的有效性。更具体地，显著对象的边缘信息可以通过初始显著图过滤掉，因为它很难被精确预测。此外，复杂场景中的一些对象很难被完全分割。因此，我们提出了一个整体注意力模块，其目的是扩大初始显着图的覆盖区域，其定义如下：图像GT初始注意事项整体注意力图4：GT是地面真相。正如我们所看到的，所提出的整体注意力模块有助于分割整个显著对象并细化更精确的边界。其中Convg 是具有高斯核k 和零偏置的卷积运算，fminmax（·）是使模糊地图范围在[0，1]中的归一化函数，MAX（·）是倾向于增加权重的最大值函数Si的显著区域的系数，因为卷积操作将模糊Si。与初始注意力相比，所提出的整体注意力机制几乎不增加计算成本，并且它进一步突出了w孔显著对象，如图所示4.第一章此外，高斯核k的大小和标准偏差初始化为32和4。然后，它与所提出的模型进行联合训练3.3. 所提出的解码器由于所提出的框架由两个解码器组成，我们需要构造一个快速集成策略以确保低复杂度。同时，我们需要尽可能准确地生成显著图首先，为了捕获全局对比度信息，我们设计了一个有效的上下文模块，其灵感来自感受野块（RFB）[22]。与原始RFB相比，我们增加了一个更多的分支，以进一步扩大接受领域我们的上下文模块由四个分支{b m，m = 1，...， 4}。为了加速，在每个分支中，我们使用1×1卷积层将通道数减少到32 。对于 {b m ， m> 1} ，我们添加两层：一个（ 2m−1 ） × （ 2m−1 ）卷积层和一个具有（2m−1）膨胀的3×3卷积层[5]。我们连接这些分支的输出，并通过额外的1×1卷积层将通道减少到32然后添加短连接作为原始RFB。一般而言，给定特征{fc，i ∈ [l，.， L]，c ∈ [a，d]}，我们从分支骨干网络中得到了由分支xt模得到的判别特征{fc1}。然后利用乘法运算来减小多级间的间隔功能. 特别地，对于最高特征（i=L），我们Sh=MAX（fminmax（Convg（Si，k）），Si）（3）集合f c2 =f c1. 对于特征{f c1， iL}，我们将其更新为L L i3911我通过逐元素地将其自身与更深层的所有特征相乘。此操作定义如下：这些模型具有可用的源代码或直接评估作者提供的显著性图。特别是，NLDF，Amulet和DSS最初是在MSRA10K上训练的[6]f c2=f c1LConv（Up（f c1））， i∈[l，.，L−1]，（4）数据集或MSRA-B [23]数据集（存在大量重叠i ik=i+1k其中Up（·）是通过因子2k-j的上采样特征，Conv是3×3卷积层。最后，我们利用上采样-级联策略，功能.当我们构造一个部分解码器并将Conv 3 3层设置为优化层（l=3，L=5）时，我们得到了一个[H，W]大小和96通道的特征图这两个数据集之间）。因此，我们在DUTS数据集上重新训练这三个模型作为其他模型，以获得相当的一致性。我们发现，在DUTS数据集上进行训练将使深度模型在复杂场景中更好地工作。此外，我们还在MSRA-B数据集上训练了该模型，以与这三个原始模型进行比较，结果表明，4 4 在补充材料中报告number. 使用3×3层和1×1卷积层，我们得到最终的特征图，并将其调整为[H，W]。4. 实验4.1. 显着物体检测4.1.1实验装置评价数据集。我们在五个基准数据集上评估了所提出的模型： [39] ， HKU-IS [16] ， PASCAL-S [19] ，DUTS [33]，DUT-OMRON [40].评估指标。我们采用两个指标：平均绝对误差（MAE）和F-测量（maxF）。我们采用平均绝对误差（MAE）和F-测度作为评价指标。根据显著图二值化的不同方法，存在两种计算F-测度的方法[4]。一个是最大F-测度（记为maxF），它被采用在 [9、21、25、41]。另一种是平均F测度（表示为avgF），在[35，36，42，43]中采用。为了公平比较，我们计算maxF和avgF两者。执行续费我们基于Pytorch 1框架实现了所提出的模型，并使用GTX1080 Ti GPU进行加速。根据以前的工作-s [21，35，36，41，43]，我们在DUTS [33]数据集的训练集上训练所提出的模型。分叉骨干网络的参数由VGG16初始化 [29]。我们使用Pytorch的默认设置所有的训练和测试图像都是重新-尺寸为352×352。本文不适用任何后处理程序（例如CRF [14]）。所提出的模型由Adam优化器训练[13]。批量大小设置为初始学习率设置为10−4，当训练损失达到1000时降低10%训练所提出的模型需要近六个小时。代码可用在https://github.com/wuzhe71/CPD。4.1.2与现有技术的我们将所提出的模型与八种最先进的深度显著对象检测算法进行了比较，包括NLD-[25]第25话：[25]第26话：[26]第27话：[27]第28话：[28]第29话：[29]第29话：[29][23][24][25][26][27][28][29]][29][29][29]][29][29]我们实施1https://pytorch.org/在表中。1，我们给出了定量的比较结果。考虑到一些作品使用ResNet50作为骨干网络，我们也在这个骨干网络的基础上训练提出的模型。ResNet50包含四个卷积块，我们将第二个块的最后一层设置为优化层。然后我们利用最后两块设计两个分支。在表中。1中，还报告了该模型的注意分支（记为“-A”）的结果。此外，我们在DUTS数据集上将平均执行时间与其他模型进行了比较，并且在我们的平台上测试了所有分数（PAGR仅提供显着性图）。很明显，在大多数情况下，该模型优于所有其他模型，它运行速度远远快于以往的模型。在DUT-OMRON数据集上，只有PiCANet-R获得了比所提出的模型更高的maxF分数。不过，我们的模型比PiCANet快12倍R.更特别的是，相比maxF和MAE的改进，我们得到了更大的改进avgF。这表明所提出的模型工作得更好均匀地突出的物体。此外，我们可以发现，我们的注意力分支的结果也达到了与其他模型相当的结果。同时，只考虑注意力分支的模型运行速度更快.这表明该模型为实时应用提供了两级显著性图。在图5中，我们示出了一些具有挑战性的情况下的定性比较：小对象、复杂场景、多个对象和大对象。即使我们丢弃了骨干网络的低层特征，我们的模型仍然恢复了显著对象的精确边界，并且小对象仍然被准确地分割。此外，该模型分割出的显著对象比比较模型分割出的显著对象更加均匀.与表中的结果一致。1，我们的模型在avgF得分上比MAE和maxF实现了更多的改善。这种现象是由于该模型的联合训练策略造成的。一方面，注意分支的监督注意图使检测分支进一步集中在显著对象上。另一方面，当训练所提出的模型时，检测分支的梯度也反向传播到注意分支。这种训练机制逐渐促进所提出的模型专注于显著对象。多个视觉3912方法骨干FPSECSSD [39]香港大学-IS [16]DUT-OMRON [第四十届]DUTs [33]PASCAL-S [19个]maxF平均FMaemaxF平均FMaemaxF平均FMaemaxF平均FMaemaxF平均FMae护身符[42]VGG16210.9220.8810.0570.9090.8630.0470.7910.6990.0720.8320.7380.0620.8390.7800.095NLDF [25]VGG16200.9150.8860.0510.9080.8710.0410.7590.6940.0710.8300.7590.0550.8400.7920.083[9]第九章VGG16230.9280.8890.0510.9150.8670.0430.7810.6920.0650.8580.7570.0500.8590.7960.081BMPM [41]VGG16280.9280.8940.0440.9200.8750.0390.7750.6930.0630.8500.7680.0490.8620.7700.074PAGR [43]VGG19-0.9270.8940.0610.9180.8860.0480.7710.7110.0720.8550.7880.0550.8510.8030.092PiCANet [21]VGG1670.9310.8850.0460.9210.8700.0420.7940.7100.0680.8510.7490.0540.8620.7960.076CPD-A（我们的）VGG161050.9280.9060.0450.9180.8840.0370.7810.7210.0610.8540.7870.0470.8590.8140.077CPD（我们的）VGG16660.9360.9150.0400.9240.8960.0330.7940.7450.0570.8640.8130.0430.8660.8250.074SRM [35]ResNet50370.9170.8920.0540.9030.8710.0470.7690.7070.0690.8270.7570.0590.8470.7960.085DGRL [36]ResNet5060.9250.9030.0430.9140.8820.0370.7790.7090.0630.8340.7640.0510.8530.8070.074[21]第二十一话ResNet5050.9350.8860.0460.9190.8700.0430.8030.7170.0650.8600.7590.0510.8630.7980.075CPD-RA（我们的）ResNet501040.9340.9070.0430.9180.8820.0380.7830.7250.0590.8520.7760.0480.8550.8070.077CPD-R（我们的）ResNet50620.9390.9170.0370.9250.8910.0340.7970.7470.0560.8650.8050.0430.8640.8240.072表1：不同方法在五个基准数据集和四个指标上的比较，包括FPS，MAE（越低越好），max F-measure（越高越好）和平均F-measure。比较是在两种设置下（使用VGG [29]和ResNet50 [8]主干网络）。每个设置的最佳结果显示为红色。“-R”表示使用ResNet 50作为主干。“-A”表示注意分支的结果。所有方法都是在DUTS的训练集上训练的[33]。没有可用的PAGR代码[43]，作者只提供了显着图。Image GTCPD CPD-R CPD-A CPD-RA PiCANet-R PiCANet PAGR DGRL BMPM SRM DSS Amulet NLDF图5：在一些具有挑战性的情况下，所提出的模型和现有的最先进算法的视觉比较：小目标、复杂场景、多目标和大目标。比较结果见补充资料。4.1.3在现有模型中的应用通过使用现有模型中提出的聚合算法来集成每个分支的功能，可以利用我们的框架来改进这些工作。在本文中，我们将所提出的框架应用于三个深度聚合模型（BMPM，Amulet，NLDF）。NLD-F采用了典型的U-Net结构，BMPM提出了一种具有门功能的双向解码器，Amulet在多个分辨率下集成了多层次特征映射。我们在各自的默认深度学习库中实现了改进的模型（BMPM和NLD-F 的tensor brown [1]，Amulet 的caffe[12]）。对于BMPM和NLDF，我们训练改进的模型（表示为BMPM-CPD和NLDF）。CPD），它只需要将学习率从原来的10−6更改为10−5。对于A-mulet，我们通过使用与原始模型完全相同的设置来训练改进的模型（表示为Amulet-CPD）。在表中。在第2章中，我们给出了原始模型和改进模型（-CPD-A，-CPD）在五个基准数据集上的定量结果。我们可以看到，每一个改进的模型优于其原始模型。更特别的是，改进的模型在两个最具挑战性的DUT-OMRON和DUTS数据集上获得了很大的改进。此外，改进后的模型（-CPD和-CPD-A）的运行速度分别是原模型的2倍和3倍。总之，所提出的级联部分解码器框架可以用于改进具有不同类型解码器的深度聚合模型。在图6中，我们显示了挑战案例的定性结果：多目标、小目标、大目标和复杂场景。上两行显示改进的模型进一步关注目标区域并抑制干扰。下面两排3913方法FPSECSSD [39]香港大学-IS [16][40]第四十话DUTs [33]PASCAL-S [19]maxF 平均FMaemaxF 平均FMaemaxF平均FMaemaxF平均FMaemaxF平均F MaeBMPM [41]280.9280.8940.0440.9200.8750.0390.7750.6930.0630.8500.7680.0490.8620.8030.074BMPM-CPD-A820.9320.9010.0460.9200.8820.0370.7960.7310.0570.8640.7990.0460.8610.8170.074BMPM-CPD470.9350.9070.0430.9250.8880.0350.8040.7400.0560.8700.8080.0440.8680.8220.072NLDF [25]210.9150.8860.0510.9080.8710.0410.7590.6940.0710.8300.7590.0550.8400.7920.083NLDF-CPD-A750.9180.8890.0490.9140.8730.0390.7750.7100.0610.8370.7730.0500.8410.7930.083NLDF-CPD480.9220.8960.0440.9160.8800.0360.7810.7210.0600.8420.7860.0480.8430.8000.080护身符[42]210.9220.8810.0570.9090.8630.0470.7910.6990.0720.8320.7380.0620.8390.7800.095护身符-CPD-A610.9250.8890.0530.9100.8640.0450.7900.7080.0700.8320.7470.0600.8420.7840.091Amulet-CPD450.9340.9010.0470.9200.8780.0400.8050.7350.0630.8450.7710.0550.8510.8010.085表2：原始模型和改进模型（-CPD-A和-CPD）的比较。GTBMPMBMPM-CPD-ABMPM-CPDAmuletAmulet-CPD-AAmulet-CPDNLDFNLDF-CPD-ANLDF-CPD图6：原始模型（BMPM、Amulet、NLDF）与改进模型（-CPD-A、-CPD）的视觉比较。设置DUTs [33]PASCAL-S [19]maxF平均FMaemaxF平均FMaeCPD（与IA）0.8620.8030.0450.8620.8210.075CPD（含ha）0.8640.8130.0430.8660.8250.074Amulet-CPD（带ia）0.8420.7630.0560.8490.7940.087Amulet-CPD（含ha）0.8450.7710.0550.8510.8010.085BMPM-CPD（带ia）0.8650.7910.0450.8670.8180.072BMPM-CPD（含ha）0.8700.8080.0440.8680.8220.072NLDF-CPD（withia）0.8380.7770.0510.8400.7930.084NLDF-CPD（含ha）0.8420.7860.0480.8430.8000.080表4：四种模型（建议模型和三种改进模型）中初始注意力（ia）和整体注意力（ha）的比较。表明改进后的模型进一步突出了整个对象。4.1.4对拟议框架整体注意力的有效性。在这里，我们证明了所提出的整体注意力模型在所提出的模型和三个改进的模型的有效性。我们将这些模型与整体注意和初始注意模型进行了比较，结果如表4所示它整体注意优于初始注意。优化层的选择。在所提出的模型中，我们设置Conv3 3层作为优化层。在这里，我们比较了所提出的模型与不同的优化层（Conv2 2和Conv4 3）。此外，我们还报告了无优化层的结果，这意味着通过建议的解码器集成所有级别的功能。我们不测试所提出的模型与Conv 1 2优化层，因为这种设置将增加计算成本，通过增加一个完整的解码器;因此将不能实现降低计算成本的要求。五个基准数据集的比较结果见表。3.最后，考虑到conv3 3层的性能最好，我们将其设置为优化层。当我们细化较浅的特征（Conv22）时，计算复杂度增加，性能下降。其原因可能是浅层特征训练不够。当我们细化深度特征（Conv4 3）时，计算成本和性能都降低了。这是因为Conv4 3层中特征分辨率较小。设置（Conv2 2和Conv4 3）的准确性和效率都优于完整的解码器，这验证了所提出的框架的有效性。3914设置FPSECSSD [39]香港大学-IS [16]DUT-OMRON [第四十届]DUTs [33]PASCAL-S [19]maxF平均FMaemaxF平均F MaemaxF平均FMaemaxF平均FMaemaxF平均FMaeConv2 2380.9360.9030.0420.9250.8840.0360.7920.7200.0630.8610.7780.0480.8650.8100.076Conv3 3660.9360.9150.0400.9240.8960.0330.7940.7450.0570.8640.8130.0430.8660.8250.074Conv4 3900.9310.9100.0410.9200.8900.0340.7870.7370.0590.8550.8010.0450.8630.8240.072完整解码器300.9220.8910.0510.9110.8730.0420.7580.6920.0700.8430.7660.0500.8530.8070.077表3：具有不同优化层和没有优化层（完整解码器）的所提出的模型的比较。图片GT CPD-A CPD图7：所提出的模型的一些失败示例。当注意力分支只定位一小部分目标区域时，我们的模型表现不佳。失效示例。所提出的模型的性能依赖于注意分支的准确性。当注意分支检测杂波作为目标区域时，我们的模型将获得错误的结果。在图7中，我们展示了我们模型的一些失败示例。当一个大的目标区域没有被正确分割时，所提出的模型无法分割整个对象。4.2. 在其他任务在本文中，我们还评估了其他两个二进制分割任务的模型：阴影检测和人像分割。阴影检测。我们在SBU [30]数据集的训练集上重新训练我们的模型，并在三个公共阴影检测数据集上测试模型：[31]和UCF [45]的测试集。此外，我们应用广泛使用的度量BER（平衡错误率）进行定量比较。我们将该方法与五种深度阴影检测方法进行了比较：[10][11][12][13][14][15][16][17][18][19][19]CNN [30].此外，我们重新训练了三个显著对象检测模型用于阴影检测：NLDF [25]、DSS [9]、BMPM [41]。结果示于表中。5，所提出的模型在所有情况下都优于其他模型纵向分割。我们使用的数据来自[28]。我们在这个数据集上重新训练NLDF，DSS，BMPM结果示于表6中。可以看出，所提出的模型优于现有的算法。表5：将所提出的方法与用于阴影检测（DSC、DC-DSPF、JDR、StackedC-NN、scGAN）和用于显著对象检测（Amulet、NLD-F、BMPM、DSS）的现有技术进行比较。方法PFCN+[28]NLDF [25][9]第九章BMPM [42]持续专业发展（我们的）平均IoU95.90%百分之九十五点六96.20%96.20%96.60%表6：纵向分割的定量比较。5. 结论在本文中，我们提出了一种新的级联部分解码器的框架，快速和准确的显着对象检测。在构造解码器时，所提出的框架丢弃较浅层的特征以提高计算效率，并利用生成的显著图来细化特征以提高准确性。我们亦建议一个整体注意力模块，用于进一步分割整个显著对象，以及一个有效的解码器，用于提取区分性特征并快速集成多级特征。实验表明，我们的模型在五个基准数据集上达到了最先进的性能，并且比现有的深度模型运行得更快。为了证明所提出的框架的通用性，我们将其应用于改进非常深入的聚合模型，并显着提高其准确性和效率。此外，我们在阴影检测和人像分割两个任务中验证了该模型的有效性。谢谢。本工作得到了中国科学院大学的资助，国家61472389、61620106009、61772494、U1636214、61771457，61732007，部分由前沿科学重点研究计划，CAS：QYZDJ-SSW-013。SBU [30]ISTD [31]UCF [45]方法BER↓BER↓BER↓NLDF [25]7.027.507.69[9]第九章7.0010.4810.56BMPM [41]6.177.108.09scGAN [26]9.108.9811.50StackedCNN [30]11.0010.4513.00JDR [31]8.147.3511.23DC-DSPF [37]4.90-7.90DSC [10]5.598.248.10CPD（我们的）4.196.767.213915引用[1] M. Abadi，P. Barham，J. Chen，Z. Chen，中国山核桃A. Davis，J. 迪恩M. Devin，S.盖马瓦特湾Irving，M. Isard等人张量-张量流：一个大规模机器学习系统。在OSDI，第16卷，第265-283页[2] R. Achanta，S. Hemami，F. Estrada和S.暂停频率调谐显著区域检测。在CVPR，第1597-1604页[3] A. Borji，M. M. Cheng ，H. Jiang 和J.李显着对象检测：一个调查。arXiv预印本arXiv：1411.5878，2014年。[4] A. Borji，M. M. Cheng ，H. Jiang 和J.李显著目标检测：基准。IEEE TIP，24（12）：5706-5722，2015.[5] L- C. Chen，G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。Deeplab：使用深度卷积网络、atrous卷积和完全连接的crfs进行语义图像分割。IEEE TPAMI，40（4）：834[6] M.- M. Cheng，N. J. Mitra，X. Huang，P. H. Torr和S.-M.胡基于全局对比度的显著区域检测。IEEE TPAMI，37（3）：569[7] B. 哈里哈兰山口阿尔韦阿埃斯河Girshick 和J.马利克Hype r-columns 用于对象分割和细粒度定位。在CVPR，第447-456页[8] K. 他，X。Zhang，S.Ren和J.太阳用于图像识别的深度残差CVPR，第770-778页，2016年[9] Q.侯，M. Cheng，X. Hu，黄毛菊A. Borji，Z. Tu和P.H.S. 乇具有短连接的深度监督显著对象检测。 IEEETPAMI，41（4）：815[10] X. 胡湖，加-地朱春W. Fu，J.Qin和P. -A. 衡用于阴影检测的方向感知空间上下文特征。在CVPR中，第7454-7462页[11] L.伊蒂角Koch和E.尼布尔基于显著性的快速场景分析视觉注意模型。IEEE TPAMI，20（11）：1254[12] Y. Jia、E.Shelhamer，J.多纳休S.Karayev，J.隆河

下载后可阅读完整内容，剩余1页未读，立即下载