精确紧凑的深度网络用于显著目标检测

38 浏览量更新于2023-11-02 收藏 2.02MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

显著目标检测陈舒涵[0000 - 0002 - 0094 - 5157]、谭秀丽、王本、胡雪龙扬州大学信息工程学院{c.shuhan，t.xiuli0214} @ gmail.com，wangben9503@163.com，xlhu@yzu.edu.cn抽象的。得益于深度学习技术的快速发展，显著目标检测技术近年来取得了显著的进展.然而，它在嵌入式设备中的应用仍然面临着两大挑战：输出分辨率低和模型重量大。为此，本文提出了一种精确而紧凑的深度网络，用于有效的显著对象检测。更具体地说，给定最深层的粗略显着性预测，我们首先采用残差学习来学习侧输出残差特征以进行显着性细化，这可以在保持准确性的同时用非常有限的卷积参数来实现。其次，我们进一步提出了反向注意力，以自上而下的方式指导这种侧输出残差学习。通过从侧输出特征中擦除当前预测的显著区域，网络最终可以探索丢失的对象部分和细节，这导致高分辨率和准确度。在6个基准数据集上的实验表明，该方法在简单性、效率（45 FPS）和模型大小（81 MB）方面优于现有方法。关键词：显著目标检测·反向注意·侧输出残差学习1介绍显著对象检测，也称为显著性检测，旨在定位和分割图像中最显眼和吸引眼球的对象或区域。它通常作为一个预处理步骤，以促进各种后续的高级视觉任务，如图像分割[1]，图像字幕[2]等。最近，随着深度卷积神经网络（CNN）的快速发展，显着目标检测相对于传统的手工制作的基于特征的方法已经取得了显着的全卷积神经网络（FCN）的出现[3]由于其效率和端到端训练，进一步将其推向了新的这种架构也有利于其他应用，例如，语义分割[4]、边缘检测[5]。虽然取得了很大的进展，但仍存在两个主要的挑战，阻碍了它在现实世界中的应用，嵌入式设备。一个是由基于FCN的显著性模型产生的显著性图的低分辨率由于CNN架构中重复的步幅和池化操作2Shuhan Chen et al.0.920.910.90.890.880.870.860100200300400500600700800900 1000模型大小（MB）图1. 最近基于深度CNN的显着性检测模型的最大F测量在ECS SD上，包括DS[6]，ELD[7]，DCL+[8]，DHS[8]，RFCN[9]，NLDF[10]、DSS+[11]、MSRNet[12]、Amulet[13]、UCF[14]和我们的（Red圈）。可以看出，所提出的模型是唯一一个小于100 MB的模型，同时实现了与最先进的方法相当的性能。不可避免地会损失分辨率，并且难以细化，使得精确定位显著对象是不可行的，特别是对于对象边界和小对象。二是现有的深度显著性模型权重大、冗余度大。从图1中可以看出，所有列出的深度模型都大于100MB，这对于预处理步骤来说太重而无法应用于后续的高级任务，并且对于嵌入式设备来说也没有内存效率已经探索了各种解决方案来提高基于FCNs的预测的分辨率。早期的作品[8，15，16]通常将其与额外的区域或基于超像素的流相结合，以牺牲各自的优势时间成本高。然后，构建一些简单而有效的结构来结合浅层和深层CNN特征的互补线索，分别捕获低级空间细节和高级语义信息，例如跳过连接[12]，短连接[11]，密集连接[17]，自适应聚合[13]。这种多级特征融合方案在语义分割[18，19]、边缘检测[20]、骨架检测[21，22]中也起着重要作用。然而，现有的古老的融合仍然是不称职的显着性检测在复杂的现实世界的场景下，特别是当处理多个显着对象与不同的尺度。此外，还应用了一些耗时的后处理技能进行细化，例如：，基于超像素的滤波器[23]，全连接条件随机场（CRF）[8，11，24]。然而，据我们所知，目前还没有同时考虑到轻量级模型和高精度的显著性检测网络。为此，我们提出了一个准确而紧凑的深度显著对象检测网络，该网络的性能与最先进的方法相当，从而能够实现实时应用。通常，具有较大核尺寸的更多卷积通道导致显著对象检测的更好性能我们AmulDSSet+MSRNetUCFDHSNLDFDCL+DSRFCNELDF-measure显著目标检测的反向注意算法3Img GT s-out 1 s-out 2 s-out 3 s-out 4 s-out 5图2. DSS [11]（顶行）产生的显着图的视觉比较，我们的方法分别在不同的侧输出中没有（中间行）和有反向注意（底行）。可以清楚地看到，显着图的分辨率从深到浅的侧输出逐渐提高，并且我们基于反向注意力的侧输出残差学习比短连接表现得更好[11]。由于大的接收场和模型容量来捕获更多的语义信息，例如，在DSS的最后一个边输出中，有512个核大小为7×7的通道[11]。以不同的方式，我们将残差学习[25]引入HED [5]的架构中，并将显著对象检测视为超分辨率重建问题[26]。在预测精度较低的情况下，通过学习边输出残差特征，逐步对预测精度进行改进。请注意，它可以仅使用64个通道的卷积和每个侧输出的核大小为3×3，其参数明显少于DSS。类似的残差学习也用于骨架检测[21]和图像超分辨率[27]。然而，由于其挑战性，如果我们直接将其应用于显著目标检测，其性能并不令人满意由于大多数现有的深度显着性模型都是从图像分类网络中微调的，因此微调后的网络在残差学习期间会无意识地关注具有高响应值的区域，如图所示 5，从而难以捕捉剩余的细节，例如，对象边界和其它未检测到的对象部分。为了解决这个问题，我们提出了反向注意力，以自顶向下的方式指导侧输出残差学习具体地说，深层的预测被上采样，然后被反转以加权其相邻的浅侧输出特征，这快速引导网络专注于未检测到的区域以进行残留捕获，从而导致更好的性能，如图所示。2.本文的主要贡献如下：（1）将残差学习引入HED的体系结构中，用于显著目标检测。在学习的侧输出残差特征的帮助下，与现有的深度显著性网络相比，显著性图的分辨率可以用更少的参数逐渐提高。(2)我们进一步提出了反向注意力来指导侧输出残差学习。通过擦除当前预测，网络可以发现丢失的对象部分和残差部分。4Shuhan Chen et al.快速有效地跟踪，从而显著提高性能(3)得益于上述两个组成部分，我们的方法始终实现了与最先进方法相当的性能，并在简单性，效率（45 FPS）和模型大小（81 MB）方面具有优势。2相关工作在过去的两篇论文中，提出了大量的显著性检测方法。在这里，我们只关注最近的最先进的方法。这些方法都Kuen等人。 [28]将回流单元应用于FCNs中，以迭代地细化每个显著区域。Hu等人。 [23]将基于超像素的引导滤波器扩展为网络中用于边界细化的层 Hou等人 [11]为多尺度特征融合设计了短连接，而在Amulet [13]中，自适应地聚合了多级卷积特征。Luo等人 [10]提出了一种多分辨率网格结构来捕获局部和全局线索。此外，引入了一个新的损失函数来惩罚边界上的错误。Zhang等人 [14]进一步提出了一种新的上采样方法，以减少反卷积中产生的伪影最近，扩张卷积[23]和密集连接[17]被进一步合并以获得高分辨率显着图。也有一些渐进的工作，以解决上述问题的语义分割。在[19]中，提出了跳过连接来细化对象实例，而在[29]中，它被用于构建拉普拉斯金字塔重建网络以进行对象边界细化。我们尝试学习残差特征以进行低分辨率细化，而不是像上面那样融合多级卷积特征。残差学习的思想首先由He等人提出。 [25]用于图像分类。之后，它被广泛应用于各种应用中。Ke等人。 [21]将侧输出残差特征用于精确的对象对称检测。Kim等人。 [27]基于残差学习构建了一个非常深的卷积网络，用于精确的图像超分辨率。虽然将其应用于显著目标检测是很自然的，但性能并不令人满意。为了解决这个问题，我们引入了注意机制，这是从人类的感知过程的启发。它利用顶层信息有效地在[12，30]中，注意力模型被设计用于对多尺度特征进行加权。在[31]中，剩余注意力模块被用来生成用于图像分类的深度注意力感知在ILSVRC 2017图像分类挑战赛中，Hu等人。 [32]通过构建用于通道注意力的挤压和激励块获得第一名。Huang等人。 [33]设计了一个注意力掩码来突出反向对象类的预测，然后从原始预测中减去，以纠正语义分割混淆区域中的错误。受其启发，但不同的是，我们采用反向注意自上而下的方式来指导侧输出剩余学习。从中受益，我们可以了解更准确的剩余细节，从而导致显着的改善。显著目标检测的反向注意算法5IQSXWiPDJH*OREDOVDOiHQF\3XS108XS-2RRRFRQYFRQYFRQY6iGH-RXWSXWUHViGXDOIHDWXUH2XWSXWSUHGiFWiRQ+++*URXQG WUSWKViJPRiGXS-2XS-2XS-2XS104V-RXWV-RXW2V-RXW1公司简介图3.拟议网络的总体架构。在这里，只有三个侧面的输出是为了防止使用不当而设置的。“R”表示图4中所示的适当的驱动器结构块。如图所示，通过对残差单元（黄色圆圈）的输入和输出进行监控，残差沿着堆叠方向减小。3该方法在本节中，我们首先描述了所提出的深度显著对象检测网络的整体架构，然后逐一介绍了主要组件的细节，它们分别对应于侧输出残差学习和自上而下的反向注意。3.1架构拟议的网络建立在HED [5]架构上，并选择VGG-16[34]作为骨干。我们使用直到“pool 5”的层，并选择{conv 1 2，conv2 2，conv 3 3，conv 4 3，conv 5 3 }作为侧输出，其步长为{ 1，2，4，8，16}像素。我们首先通过卷积将“pool5”的维度减少到256，内核大小为1×1，然后添加三个卷积层，内核为5×5，以捕获全局显着性。由于全局显著图的分辨率仅为输入图像的1/32，我们进一步学习每个侧输出的残差特征，以逐步提高其分辨率。具体来说，具有3×3内核和64通道的D卷积层被堆叠用于残差学习。在侧输出残差学习之前嵌入反向注意块。最浅侧输出的预测被馈送到sigmoid层以用于最终输出。总体架构如图3所示，完整配置如表1所示。6Shuhan Chen et al.一期+1表1.拟议网络的配置。（n，k×k）×D表示用通道数（n）和核大小（k）堆叠D个卷积层，并添加ReLU层用于非线性变换。侧输出1 × 5全局显著性（64，1×1）（256，1×1）{（64， 3× 3），ReLU} ×D{（256， 5× 5），ReLU} × 3（1，3×3）（1，1×1）3.2边输出残差学习我们知道，深层网络捕捉的是高层语义信息，但细节却很混乱，而浅层网络则相反。基于这种观察，多层次特征融合是捕获它们的互补线索的常见选择，然而，当与浅层特征结合时，它会降低深层特征的置信预测在本文中，我们以一种不同但更有效的方式实现它，通过采用残差学习来纠正预测的显着性图和地面真实值之间的错误。具体地，通过对设计的残差单元的输入和输出两者应用深度监督来学习残差特征，这在图1中示出3. 从形式上讲，考虑到-Pled输入显着图在侧输出级i+ 1中以因子2，并且在侧输出阶段i中学习的剩余特征Ri，则深度监督可以被公式化为：.{Si+1}向上×2一期+1B.G.向上i+1我+Ri}up×2我={Si}up×2G、（1）其中，Si是残差单元的输出，G是地面真值，up×2i表示因子为2i的上采样操作，其通过HED [5]的相同双线性插值来实现这样的学习目标继承了以下良好的性质。残差单元在来自不同尺度的预测与地面实况之间建立了快捷连接通常，基于相同的监督，残差单元的输入和输出之间的误差相当小，因此可以更容易地用较少的参数和迭代来学习。在极端情况下，如果预测足够接近地面实况，则误差近似等于零因此，构建的网络可以是非常高效和轻量级的。3.3自上而下的反向注意力虽然学习剩余细节以进行显着性细化是自然和直接的，但网络在没有额外监督的情况下准确捕获它们并不容易，这将导致检测不令人满意由于大多数现有的显著性检测网络是从仅响应于小的和稀疏的有区别的对象部分的图像分类网络微调的{S显著目标检测的反向注意算法76iJPRiG一期+1H&RQYROXWiRQDOIHDWXUHņ：HiJKWHGFRQYROXWiRQDOIHDWXUH5HYHUVHDWWHQWiRQZHiJKWH（OHPHQW-ZiVHPXOWiSOiFDWiRQ8SVDPSOHGSUHGiFWiRQ1图4.建议的反向注意力块的图示，其输入和输出分别以蓝色和绿色突出显示。这显然偏离了显著性检测任务的要求，该任务需要探索密集和完整的区域以进行逐像素预测。为了弥补这一差距，我们提出了一种基于反向注意力的侧输出残差学习方法，用于逐步扩展对象区域从最深层生成的具有高语义置信度但低分辨率的粗糙显着图开始，我们提出的方法通过从侧输出特征中擦除当前预测的显着区域来引导整个网络顺序地发现补充对象区域和细节，其中当前预测是从其更深层上采样的。这种自上而下的擦除方式最终可以将粗略和低分辨率的预测细化为具有这些探索的区域和细节的完整和高分辨率的显著性图，参见图4用于说明。给定侧输出特征T和反向注意力权重A，则可以通过它们的逐元素乘法来产生输出注意力特征，其可以公式化为：Fz，c=Az·Tz，c，（2）其中z和c表示特征图的空间位置，并且索引的特征通道。并且侧输出级i中的反向注意力权重简单地通过从1中减去侧输出i+ 1的上采样预测来生成，其计算如下：A i= 1 −Sigmoid（S up）。（三）图图5示出了学习的残差特征的一些视觉示例，以说明所提出的reverse注意力的有效性。可以看出，所提出的网络在反向注意的帮助下很好地捕捉了物体边界附近的残留细节。而在没有反向注意的情况下，学习到了对象内部的一些冗余特征，对显著性细化无能为力。8Shuhan Chen et al.侧侧侧图5. 在没有（第一行）和有反向注意（第二行）的情况下，所提出的网络的不同侧输出中的残留特征的可视化从左到右是显着图，分别是从侧输出1到4的最后一个卷积特征。在应用我们的反向注意力后，所提出的网络很好地捕捉了物体边界附近的空间细节，这有利于显著性细化，特别是在浅层。最好用彩色看3.4监督如图3所示，深度监控应用于每个侧输出级，如[5，11]所示每个侧输出产生如下定义的损耗项L侧CIMML侧（I，G，W， w）=L（m）（I，G，W，w（m）），（4）m=1其中，M表示包括全局显著性的总侧输出数，W表示所有标准网络层参数的集合，I和G分别表示输入图像和对应的地面真值。每个侧输出层被视为具有对应权重w的逐像素分类器，其由下式表示：这里，（m）w=（w（1），w（2），.，w（M））。（五）表示图像级类平衡交叉熵损失函数。第m侧输出的tion [5]，其通过以下公式计算（m）（I，G，W，w（m））=−Σ|我|z=1G（z）logPr（G（z）= 1 |I（z）; W，w（m））（六）+（1 − G（z））logPr（G（z）= 0 |I（z）; W，w（m）），当Pr（G（z）=1|I（z）;W，w（m））表示第m侧输出中位置z处的有效值的概率，z是空间坐标。与HED [5]和DSS [11]不同，我们的方法中不包括融合层。第一侧输出的输出在测试阶段的sigmoid层之后用作我们的最终预测显著目标检测的反向注意算法93.5与其他网络的区别虽然名称相同，但所提出的网络与反向注意力网络[33]显著不同，后者应用反向注意力来加权与目标类别无关的预测，以这种方式放大混淆区域中的反向类别响应，从而可以帮助原始分支做出正确的预测。而在我们的方法中，反向注意的用法是完全不同的。它用于消除深层的置信预测，可以引导网络有效地探索丢失的对象区域和细节。与其他基于残差学习的架构也有一些显著的差异，例如。、侧输出残差网络（SRN）[21]和拉普拉斯重构网络（LRN）[29]。在SRN中，残差特征是直接从VGG-16的每个侧输出中学习的，而本文中，它是在反向注意之后学习的，用于指导残差学习。与LRN的主要区别在于使用了权重掩码，它用于对LRN中学习到的侧输出特征进行加权以进行边界细化，相比之下，我们在侧输出特征学习之前应用它以进行指导。此外，LRN中的权重掩码是从深度预测的边缘生成的，由于其分辨率较低，会遗漏一些对象区域，而本文中，我们将其应用于关注所有未检测到的区域进行显著性细化，不仅可以很好地细化对象边界，而且可以更完整地突出对象区域。4实验4.1实验装置所提出的网络建立在HED [5]和DSS [11]的实现之上，并通过公开可用的Caffe [35]库进行训练。整个网络使用全分辨率图像进行端到端训练，并通过随机梯度下降法进行优化。超参数设置为低：批量大小（1），iter大小（10），动量（0.9），权重衰减（5e-4），学习率初始化为1 e-8，当训练损失达到平坦时，训练迭代次数（10 K）减少10%。所有这些参数在以下实验期间固定。源代码将发布1。我们在六个代表性数据集上全面评估了我们的方法，包括MSRA-B[36]，HKU-IS [37]，ECSSD [38]，PASCAL-S [39]，SOD [40]，和DUT-OMRON [41]，分别包含5000、4447、1000、850、300、5168个良好注释的图像。其中，PASCAL-S和DUT-OMRON比其他人更具挑战性。为了保证与现有方法的公平比较，我们使用与[8，10，11，42]相同的训练集，并使用相同的模型测试所有数据集数据增强也与[10，11]相同，以降低过度拟合风险，通过水平翻转增加了21http://shuhanchen.net10Shuhan Chen et al.三个标准的和广泛认可的指标来评估性能，包括精确度召回（PR）曲线，F-测量，和平均绝对误差（MAE）。通过将二进制显着图与地面真实值进行比较来计算精确度和召回率值对，以绘制PR曲线，其中阈值在[0，255]的范围内。采用F-措施是为了表示-确定整体性能，其定义为加权调和平均值精确度和召回率：F=（1 +β2）精确度×召回率ββ2精确度+召回率、（7）其中β2设置为2，以强调精度高于召回率，如[43]中所建议的。这里只报告最大F-Measure，以显示检测器可以实现的最佳给定归一化显著图S和地面实况G，MAE分数通过它们的平均每像素差异来计算：Mae =1小时高×宽中国|，（8）|,(8)x=1y =1其中W和H分别是显著图的宽度和高度4.2消融研究在与最先进的方法进行比较之前，我们首先评估不同设计选项（深度D）的影响，本节中提出的侧输出残差学习和反向注意力的有效性深度D我们做了一个实验，看看深度D如何影响性能，通过改变它从1到3。PASCAL-S和DUT-OMRON的结果见表2。可以看出，当D=2时获得最佳性能因此，我们在下面的实验中将其设置为2。表2.不同数量D.PASCAL-S DUT-OMRONFβMaeFβMaeD=10.8300.1000.7760.067D=20.8340.1040.7860.062D=30.8240.1060.7780.064边输出残差学习。为了研究侧输出残差学习的有效性，我们分别评估了每个侧输出预测的性能，如表3所示。我们可以发现，通过结合更多的侧输出残差特征，性能逐渐得到改善。反向注意力如图5所示，在反向注意的帮助下，网络很好地定位在对象边界处。在这里，我们执行一个显著目标检测的反向注意算法11表3.不同侧输出预测的性能比较PASCAL-S DUT-OMRONFβMaeFβMae侧输出50.8170.1110.7550.071侧输出40.8270.1060.7760.065侧输出30.8310.1040.7850.062侧输出20.8320.1040.7860.062侧输出10.8340.1040.7860.062使用表4中报告的F-测量和MAE评分进行详细比较。实验结果表明：（1）在没有反向注意的情况下，我们的性能与最新的DSS（没有基于CRF的后处理）相似，这表明它具有很大的(2)在应用反向注意后，性能得到了很大的改善，特别是，我们获得了平均1.4%的增益在F-措施和0.5%的MAE分数下降，这清楚地证明了其有效性。4.3与最先进技术的性能比较我们将所提出的方法与10种最先进的方法进行了比较，其中包括9种常用的CNN-b方法，DCL+[8]，DHS[44]，SSD[45]，RFCN[9]，DLS[23]，NLDF[10]、DSS和DSS+[11]、A muleet[13]、UCF[14]和基于卷积的方法DRFI [42]，其中符号“+”指示网络包括基于CRF的后处理。请注意，上述方法的所有显着图都是通过运行源代码或由作者预先计算而产生的，并且不包括基于ResNet的方法以进行公平比较。定量评价。与最新技术水平方法的定量比较结果报告于表4和图3中。第七章我们可以清楚地观察到，我们的方法在F度量和MAE分数方面都明显优于竞争方法，特别是在具有挑战性的数据集上（例如，，DUT-OMRON）。对于PR曲线，我们也实现了与最新技术相当的性能，除了在高水平的召回（召回> 0.9）。在比较到的topmehod，DSS+，其中hhhh esesaCRF-basedpo st-pross singpppe-fine的分辨率，然而，我们的方法仍然达到几乎相同（或更好）的性能在所有的董事会。同时需要指出的是，现有的方法使用了不同的训练数据集和数据扩充策略，造成了不公平的比较。尽管如此，我们仍然表现得更好，这清楚地表明了所提出的方法的优越性我们还相信，通过使用更大的训练数据集和更多的增强训练图像，可以获得进一步的性能增益，这超出了本文的范围定性评价。我们还展示了一些具有代表性的图像的视觉结果，以展示图中所提出的方法的优越性6，包括复杂的场景，显著对象和背景之间的低对比度12Shuhan Chen et al.具有不同特征的多个（小）显著对象（例如，尺寸、颜色）。考虑到所有的情况下，可以清楚地观察到，我们的方法不仅正确地突出了显著区域，减少了错误检测，而且还产生了清晰的边界和连贯的细节（例如，图6第4行中鸟的嘴）。同样有趣的是，所提出的方法甚至纠正了地面实况中的一些错误标记，例如。图6的第7行中的左角。然而，我们仍然在一些具有挑战性的情况下获得不令人满意的结果，以图6的最后一行为例，对于现有的方法来说，完全分割所有的显著对象仍然是非常困难的。[11]第十一届全国政协委员[14]第十三届全国政协委员[8]第四十四话：一个人图第六章在一些具有挑战性的情况下与现有方法进行视觉比较：复杂场景，低对比度和多个（小）突出对象。显著目标检测的反向注意算法13查全率曲线1查全率曲线1查全率曲线10.90.90.90.80.80.80.70.60.50.40.30.20.10.70.60.50.40.30.20.10.70.60.50.40.30.20.100 0.2 0.4 0.6 0.81召回(a) ECSSD00 0.2 0.4 0.6 0.81召回(b) SOD00 0.2 0.4 0.6 0.8 1召回(c) DUT-Omron图7.不同数据集上的查准率-查全率曲线比较。表4.在六个基准数据集上与最先进的方法进行定量比较。每个单元格（从上到下）都包含最大F测量（越高越好）和MAE（越低越好）。前两个结果以红色和灰色突出显示。“RA”表示的不是有效的数据集，“MK“表示的是MSRA-10K[ 46]，其他缩写是文中提到的每个数据集的首字母缩写。请注意，此处列出的图像数量包括增强图像。培训MSRA-B HKU-IS ECSSD PASCAL-S SODDUT-数据集#图像OMRONDRFI [42]MB2.5kDCL+ [8]MB2.5k国土安全部[44]MK+D 9.5k×12SSD[45]MB2.5kRFCN[9]MK10kDLS[23]MK10kNLDF[10]MB2.5k×2护身符[13]MK10k×8UCF[14]MK10k×8[第11话]MB2.5k×2DSS+ [11]MB2.5k×2我们无RAMB2.5k×2我们MB2.5k×2DCL+DHSSSDRFCNDLSNLDFDSSAmuletUCF我们的DSS+DCL+DHSSSDRFCNNLDFDSSAmuletUCF我们的DSS+DCL+SSDRFCNDLSNLDFDSSAmuletUCF我们的DSS+精度精度精度0.8510.7750.7840.6900.6990.6640.1230.1460.1720.2100.2230.1500.9180.9070.8980.8100.8310.7570.0470.0480.0710.1150.1310.080-0.8920.9050.8240.823--0.0520.0610.0940.127-0.902-0.8650.7740.7930.7540.160-0.1930.2200.2220.193-0.8940.8890.8290.7990.744-0.0880.1090.1330.1690.111-0.8350.8520.753-0.687-0.0700.0880.132-0.0900.9110.9020.9030.8260.8370.7530.0480.0480.0650.0990.1230.080-0.8990.9140.8320.7950.743-0.0500.0610.1000.1440.098-0.8880.9020.8180.8050.730-0.0610.0710.1160.1480.1200.9200.9000.9080.8260.8340.7640.0430.0500.0630.1020.1260.0720.9290.9160.9190.8350.8430.7810.0340.0400.0550.0950.1220.0630.9190.8980.9050.8180.8390.7620.0420.0490.0630.1060.1260.0710.9310.9130.9180.8340.8440.7860.0360.0450.0590.1040.1240.06214Shuhan Chen et al.执行时间。最后，我们研究了我们的方法的效率，并进行了所有的实验在一个单一的NVIDIA TITAN Xp GPU的公平竞争。训练我们的模型只需要不到2个小时，相比之下，DSS需要大约6个小时。我们还比较了ECSSD上的平均执行时间与其他五个领先的基于CNN的方法。从表5中可以看出，我们的方法比所有竞争方法快得多因此，综合考虑虚拟质量和效率，我们的方法是目前实时应用的最佳选择表5.与ECSSD上其他方法的平均执行时间比较DHSDSSNLDFUCF护身符我们时间（s）0.0260.0480.0480.1680.0800.0225结论显著目标检测作为一个底层的预处理步骤，在各种高层任务中有着广泛的应用前景，但一直没有得到很好的解决，主要表现在输出分辨率低和模型权重大两个方面在本文中，我们提出了一个精确而紧凑的深度网络，用于有效的显著对象检测。我们不是在不同的侧输出阶段直接学习多尺度显著性特征，而是采用残差学习来学习侧输出残差特征以进行显著性细化。在此基础上，利用有限的参数逐步提高最深卷积层生成的全局显著图的分辨率我们进一步提出了反向注意力，以自上而下的方式指导这种侧输出残差学习。从中受益，我们的网络学习到了更准确的残差特征，从而显著提高了性能大量的实验结果表明，该方法在定量和定性方面都优于现有方法，这使其成为进一步实际应用的更好选择，也使其在其他端到端像素级预测任务中具有很大的应用潜力。尽管如此，全局显着性分支和骨干（VGG-16）网络仍然包含大量的冗余，这将通过引入手工显着性先验和从头开始学习在我们未来的工作中进一步探索。确认本课题得到了国家自然科学基金（No.61502412）、江苏省青少年自然科学基金（No.BK20150459）、扬州大学基金（No.20150459）、江苏省自然科学基金（No.201 2017CXJ026）。显著目标检测的反向注意算法15引用1. Wei，Y.，Liang，X.，Chen，Y.，Shen，X.，程，M.M.，Feng，J.，赵，Y.，Yan，S.：Stc：一个从简单到复杂的框架，用于弱监督语义分割。我不知道。 PattternAnal. MACH。我告诉你。39（11）（2017）23142. Xu，K.，Ba，J.，基罗斯河Cho，K.，Courville，A.，Salakhudinov河，泽梅尔河Bengio，Y.：显示，出席和告诉：神经图像字幕生成与视觉的一个字母。 In：JiangsuJiangsu （2015年）20483. Long，J.，Shelhamer，E.，达雷尔，T.：完全卷积网络用于语义序列。In：CVPR. （2015）34314. Dai，J.，他，K.，Li，Y.，Ren，S.，Sun，J.：实例敏感的全卷积网络工作。 In：ECCV. （2016）5345. Xie，S.， Tu，Z. ：Holistically-nestedededededged etetetetction. In：ICCV. （201 5）13956. Li，X.，Zhao，L.，Wei，L.，杨，M.H.，Wu，F.，Zhuang，Y.，Ling，H.，Wang，J.：Deepsaliency：用于显著对象检测的多任务深度神经网络模型。我不知道。我是一个gePr oc。25（8）（2016）39197. Lee，G.，戴耀威，Kim，J.：具有编码的低级别距离图和高级别特征的深度显著性。 In：CVPR. （2016）6608. Li，G.，Yu，Y.：深度对比度学习用于显著对象检测。在：CVPR。（2016）4789. Wang，L.，Wang，L.，Lu，H.，Zhang，P.，阮X：利用循环的全隐式网络任务进行显著性检测。 In：ECCV. （2016）82510. Luo，Z.， Mishra ，A.， Achkar，A. ，Eichel，J.，Li，S.，Jodoin ，P.M.：非局部深层特征是一种不可分割的特征。 In：CVPR. （2017）659311. Hou，Q.，程，M.M.，Hu，X.，Borji，A.，Tu，Z.，Torr，P.：深度监督的服务可以与高级连接一起执行。 In：CVPR. （2017）530012. Li，G.，Xie，Y.，Lin，L.，Yu，Y.：实例级显著对象分割。In：CVPR.（2017）24713. Zhang，P.，Wang，D.，Lu，H.，Wang，H.，阮X：Amulet：聚合多层次的概念，以实现一个可扩展的目标。 In：ICCV. （2017）20214. Zhang，P.，Wang，D.，Lu，H.，Wang，H.，Yin，B.：学习不确定的卷积特征对于一个CC来说是一个复杂的过程。 In：ICCV. （2017）21215. Chen，T.，Lin，L.，Liu，L.，Luo，X.，Li，X.：Disc：通过渐进式表示学习进行深度图像显着性计算。IEEE Trans. Neural Netw.学习.第27（6）（2016）号系统第113516. Tang，Y.，Wu，X.：结合区域级和像素级预测的cnn显著性检测。 In：ECCV. （2016）80917. Xiao，H.，Feng，J.，Wei，Y.，Zhang，M.：具有密集连接和分心诊断的深度显著对象检测。IEEE Trans. Multimedia（2018）18. 奥拉夫河，Philipp，F.，托马斯，B.：U-net：用于生物医学图像数据段的卷积网络。 In：I. （2015）第23419. Pinheiro，P. O.，林，T。Y.，科洛·贝·特河，我会的，P。：我正在查找块数据段。 In：ECCV. （2016）7520. Liu，Y.，Yao，J.，Li，L.，Lu，X.，Han，J.：学习使用自上而下的完全卷积编码器-解码器网络来细化对象轮廓。在：ArXiv电子打印。（2017年）21. Ke，W.，Chen，J.，焦，J.，赵，G.，叶问：Srn：用于在W中的任意节点的侧输出残差网络。 In：CVPR. （2017）30222. Shen ， W. ，赵， K. ， Jiang ， Y. ， Wang ， Y. ， Bai ， X. ， Yuille ， A. ：Deepskeleton：学习多任务规模相关的深侧输出，用于在naturlimages中提取对象骨架。我不知道。我是一个gePr oc。26（11）（2017）529816Shuhan Chen et al.23. Hu，P.，Shui，B.，Liu，J.，Wang，G.：用于显著对象检测的深度水平集。In：CVP R.（2017）230024. Kréahenbuéhl，P.， Koltun，V. ：在具有大量使用的通用点的完整连接的CRF中，效率更高。 In：IPS. （2011年）10925. 他，K.，Zhang，X.，Ren，S.，Sun，J.：深度残差学习用于图像识别。In：CVPR. （2016）77026. Lai，W.S.，Huang，J.B.，Ahuja，N.，Yang，M.H.：深层拉普拉斯金字塔网络，用于转发和转发。 In：CVPR. （2017）62427. Kim，J.，Kwon Lee，J.，Mu Lee，K.：精确的图像超分辨率，使用非常深的成本和体积的一个网络工作。 In：CVPR. （2016）164628. Kuen，J.，Wang，Z.，Wang，G.：用于显著性检测的递归注意网络。In：CVPR. （2016）366829. Ghiasi，G.，Fowlkes，C.C.：用于空间数据段的拉普拉斯金字塔重构与精化。 In：ECCV. （2016）51930. Chen，L.C.，杨，Y.，Wang，J.，Xu，W.，Yuille，A.L.：注意规模：规模--一个简单的数据段。 In：CVPR. （2016）364031. Wang，F.，Jiang，M.，Qian，C.，Yang，S.，Li，C.，Zhang，H.，Wang，X.，唐X：Resid ualat tenton ttor kforrimagecasicaton。 In：CVPR. （2017）645032. Hu，J.，Shen，L.，Sun，G.：挤压-激发网络。在：ArXiv电子打印。（2017年）33. Huang，Q.，Xia，C.，Wu，C.，Li，S.，Wang，Y.，宋，Y.，郭俊俊：反向注意的语义分割。在：BMVC. （2017年）34. Simonyan，K.，Zisserman，A.：用于大规模图像识别的深度卷积网络。在：ArXiv电子打印。（2014年）35. Jia，Y.，Shelhamer，E.，Donahue，J.，Karayev，S.，Long，J.，吉希克河，瓜达尔-拉马，S.，达雷尔，T.：Caffe：用于快速特征嵌入的卷积架构。In：ACMMutimdia. （2014）67536. Liu，T.，袁，Z.，Sun，J.，Wang，J.，Zheng，N.，Tang，X.，沈浩贤：学习发现一个显著的物体。IEEE Trans. Pattern Anal.马赫Intell. 33（2）（2011）35337. Li，G.，Yu，Y.：基于多尺度深度cnn特征的视觉显著性检测。我不知道。我是一个gePr oc。25（11）（2016）501238. Shi，J.，Yan，Q.，Xu，L.，Jia，J.：基于扩展css的分层图像显著性检测。我不知道。 PattternAnal. MACH。我告诉你。38（4）（20 16）71739. Li，Y.，Hou，X.，Koch，C.，J.M.，Yuille，A.L.：显着物体的秘密。In：CVPR. （2014年）28040. Martin，D.，Fowlkes，C.，Tal，D.，Malik，J.：人类分割自然图像的数据库及其在评估分割算法和测

下载后可阅读完整内容，剩余1页未读，立即下载