具有短连接的显著性检测算法的优化与应用

143 浏览量更新于2023-10-17 收藏 1.53MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1具有短连接的侯启斌1程明明1胡晓伟1阿里·博尔吉2涂卓文3菲利普·托尔4 1南开大学CCCE 2 CRCV，UCF 3 UCSD 4牛津大学www.example.com摘要显著性检测的最新进展是实质性的，主要受益于卷积神经网络（CNN）的爆炸性发展。最近发展的语义分割和显著性检测算法大多基于全卷积神经网络（FCN）。与没有明确处理尺度空间问题的通用FCN模型相比，仍然有很大的改进空间。整体嵌套边缘检测器（HED）为边缘和边界检测提供了一种具有深度监督的跳层结构，但HED在显著性检测上的性能提升并不明显。在这篇文章中，我们提出了一种新的显着性方法，通过引入短连接的跳跃层结构内的HED架构。我们的框架提供了丰富的多尺度特征映射在每一层，一个属性，是迫切需要执行段检测。我们的方法在5个广泛测试的显著对象检测基准上产生了最先进的结果，在效率方面具有优势（0。08秒/图像）、有效性和简单性。1. 介绍显著对象检测的目标是识别图像中视觉上最独特的显著对象检测方法通常作为各种计算机视觉应用的第一步，包括图像和视频压缩[15，20]、图像分割[10]、内容感知图像编辑[9]、对象识别[44，48]、视觉跟踪[2]、非照片真实感渲染[43，16]、照片合成[6，14，19]、信息发现[35，53，8]、图像检索[18，12，8]等。受视觉注意的认知研究的启发[21，41，11]，计算显着性检测在过去二十年中受到了极大的研究关注[22，4，1，5]。通过将简单的局部分析[22]与全球分析[23]相结合，不断观察到令人鼓舞的研究进展。*M.M. 程（cmm@nankai.edu.cn）为通讯作者。提示[7]、丰富的特征集[24]及其学习的组合权重[37]，表明了强大的特征表示对于此任务的重要性。在最新的基准测试[1]中，领先方法[24]使用了多达34个手工制作的功能。然而，使用手动丰富的特征表示的进一步改进是重要的。在各种计算机视觉任务中，例如图像分类[27，45]，语义分割[38]和边缘检测[49]，卷积神经网络（CNN）[28]已经成功地打破了人工制作特征的限制。这激发了最近使用全卷积神经网络（FCN）进行显著对象检测的研究工作[29，46，52，13，36]。整体嵌套边缘检测器（HED）[49]模型明确地处理尺度空间问题，在边缘检测的背景下，它比一般的FCN模型有了很大的改进。然而，在HED模型中具有深度监督的跳层结构并没有导致显著性检测的明显性能增益。如图所示 1.我们观察到i）更深的侧输出编码高级知识并且可以更好地定位显著对象; ii）较浅侧输出捕获丰富的空间信息。这促使我们通过在HED [49]体系结构中向跳跃层结构引入短连接来开发一种用于显著对象检测的新通过从较深侧输出到较浅侧输出的一系列短连接，我们的新框架提供了两个优势：i）高级特征可以被转换到较浅的侧输出层，从而可以帮助它们更好地定位最显著的区域;较浅的侧输出层可以学习丰富的低级特征，这些低级特征可以帮助从较深的侧输出层细化稀疏和不规则的预测图。通过结合不同层次的特征，所得到的架构在每一层提供了丰富的多尺度特征图，这是进行显著对象检测所必需的属性。实验结果表明，我们的方法在5个广泛测试的显著对象检测基准上产生了最先进的结果，在效率方面具有优势（0。08秒/图像）、有效性和简单性。为了促进我们相关领域的未来研究，我们发布了32033204(a) 源GT（b）结果（c）s-out 1（d）s-out 2（e）s-out 3（f）s-out 4（g）s-out 5（h）s-out 6图1：基于HED的方法[49]和我们的方法产生的显着性图的视觉比较。虽然由较深（4-6）侧输出（s-out）产生的显著性图看起来相似，但由于引入了短连接，每个较浅（1-3）侧输出可以生成令人满意的显著性图，从而获得更好的输出结果。源代码和训练模型。2. 相关作品在过去的二十年中，已经开发了一套非常丰富的显着性检测方法。大多数显著对象检测方法基于手工制作的局部特征[22，25，50]，全局特征[7，42，37，24]，或两者（例如，[3]）。对这些方法的全面调查超出了本文的范围，我们建议读者参考最近的调查论文[1]以了解详细信息。在这里，我们重点讨论最近基于深度学习架构的显著对象检测方法。与使用手工特征的传统方法相比Li等人。 [29]提出使用从深度CNN提取的多尺度特征来导出显着图。Wang等人 [46]通过结合局部估计和全局搜索来预测显著性图。训练两个不同的深度CNN来捕获局部信息和全局对比度。在[52]中，Zhao等人提出了一种用于显著对象检测的多上下文深度学习框架。他们使用两种不同的CNN来提取全局和局部上下文信息，重新排序。Lee等人。 [13]考虑了从CNN和手工制作的特征中提取的高级特征。为了将它们结合在一起，设计了一个统一的全连接神经网络来估计显著图。 Liu等人 [36]设计了一个两阶段的深度网络，其中产生了一个粗略的预测图，然后是另一个网络，以分层和渐进的方式细化预测图的细节。提出了一种深度对比网络，[30 ]第30段。它结合了像素级完全卷积流和分段空间池流。虽然在过去的两年里，这些发展取得了重大进展，但与没有明确处理尺度空间问题的通用CNN模型相比，仍然有很大的改进空间。3. 短连接正如大多数以前的工作中所指出的，一个好的显著对象检测网络应该足够深，以便可以学习多层次特征。此外，它应该有多个阶段，不同的步幅，以便从不同的尺度上学习更多的内在特征。这种要求的一个很好的候选者可能是HED网络[49]，其中在VGGNet[45]中每个阶段的最后一个卷积层图2（b）提供了HED模型的说明。然而，实验结果表明，这样一个成功的架构是不适合显着对象检测。图1提供了这样的图示。造成这一现象的原因有两方面。一方面，显著性检测是一个比边缘检测更困难的视觉任务，需要特殊的处理。一个好的显着性检测算法应该能够从图像中提取最具视觉特色的对象/区域，而不是简单的边缘信息。另一方面，从较低阶段生成的特征过于杂乱，而从较深的侧输出层获得的显著性图缺乏规律性。为了克服上述问题，我们提出了一种自顶向下的方法，合理地结合低级别和高级别的功能，准确的显着性检测。以下各小节专门用于详细描述3205隐藏层损失层Jl（，侧J（一）（b）第（1）款（c）第（1）款（d）其他事项图2：不同架构的图示。(a)Hypercolumn [17]，（b）HED [49]，（c）和（d）我们提出的架构的不同模式。可以看出，在我们的架构中引入了一系列短连接，以结合更深层和更浅层的优点。虽然我们的方法可以扩展到各种不同的结构，我们只列出两个典型的。所提出的方法。3.1. 基于HED的显著性检测地面实况图和融合预测，在这里被设置为图像级类平衡交叉熵损失[49]。因此，最终损失函数可以由下式给出：我们将从标准HED架构开始[49]以及其扩展版本，这是一个特殊的情况，L最终. W，w，f）=L保险丝. W，w，f）+L侧. W，w）。（四）工作，用于显著对象检测，并逐渐转向我们提出的架构。HED架构[49]。设T={（Xn，Zn），n=1，. . . ，N}表示训练数据集，其中Xn={x（n），j=1，. . . 、|Xn|}是输入图像，Zn=HED将每个侧输出连接到VGGNet [45]每个级中的最后一个卷积层，分别为conv1 2，conv2 2，conv3 3，conv4 3，conv5 3。每一侧输出由核大小为1×1的单通道卷积层和用于学习边缘信息的上采样层组成。{z（n），j=1，. . . 、|Xn|}，z（n）∈[0，1]表示相应的jj增强的HED架构。在这一部分中，我们扩展了对Xn的连续地面真实显着图进行响应。在其次，为了符号上的方便，我们省略了下标n，因为我们假设输入都是彼此独立的。我们将所有标准网络层参数的集合表示为W.假设总共有M个边输出。每个侧输出与分类器相关联，其中对应的权重可以表示为w=（w⑴，w⑵，. . . ，w（M））。（一）因此，HED的侧目标函数可以由下式给出：HED架构用于显著对象检测。在我们的实验中，我们观察到更深的层可以更好地定位最突出的区域，因此基于HED的架构，我们将另一侧输出连接到VGGNet中的最后一个池化层[45]。此外，由于显著对象检测是比边缘检测更困难的任务，因此我们在每个侧输出中添加了具有不同滤波器通道和空间大小的另外两个卷积层，可以在表1中找到。我们使用与HED中相同的双线性插值运算进行上采样。我们还使用标准的交叉熵损失，并计算火车中所有像素的损失函数L侧（W，w）=ΣMm=1（m）侧. W，w（m）Σ、（二）使图像X={xj ，j=1， . . . 、 |X|}和salien c y映射Z={zj ，j=1，. . . 、|Z|{\fn方正粗倩简体\fs12\b1\bord1\shad1\3cH2F2F2F} 我们的损失函数可以定义如下：其中αm是第m个边损失的重量，l（m）（m）Ww侧（m））=−Σ。zjlogPrzj=1|X;W，w（m）Σ表示图像级类平衡交叉熵损失[49]第49话：一个人的幸福另外，一个有分量的-j∈Z .（m）增加融合层，以更好地捕捉每一个的优点+（1 − zj）log Pr zj= 0|X;W，w、（五）侧输出。熔融层处的熔融损失可以是例如。（m）其中Przj=1|X; W，w代表概率被问及在第m侧中的位置j处的激活值的外-Mput，可以通过h（a（m））计算，其中A（m）=.Σ（m）Σαml3206侧j侧L熔断器（W，w，f）=σ Z，h（fmA侧），（3）m=1{a（m），j=1，. . . 、|X|}是第m侧输出的动作。与[49]相似，我们添加了一个加权融合层，其中f =（f1，. . . M A（m）是融合权重，A（m）是启动每侧。在我们的情况下，融合层的损失函数可以表示为：第m侧输出的动作，h（·）表示符号。moid函数，σ（·，·）表示.Lfuse（W，w，f）=σZ，ΣMˆm=1（m）侧Σ、（6）fmA3207侧m=1侧侧我我M泳池58×8conv5_316×16conv4_3conv3_332×3264×64熔损conv2_2conv1_2128×128256×256侧输出交叉熵损失融合权重CE损失图4：图4中的短连接示意图3 .第三章。256×256短连接图3：建议的网络架构。该架构基于VGGNet [45]，以便与以前基于CNN的方法进行更好的比较。其中，A（m）是第m个侧输出的n个动作M=M+1，并且σ（·，·）表示地面实况图与新融合预测之间的距离，其具有与等式11 相同的形式。（五）、用于显著对象检测的原始HED和增强的HED之间的结果比较可以在表4中找到。尽管有一个小的改进，如图所示1，来自较浅侧输出的显著图仍然看起来混乱，并且较深侧输出通常产生不规则的结果。此外，深侧输出确实可以定位显著对象/区域，但仍然丢失了一些详细信息3.2. 短连接表1：各端输出的详细信息。（n，k×k）表示通道数和核大小分别为n和k“Layer” means which layer the侧输出连接到。“1” “2” and “3” represent （请注意，每个侧输出中的前两个卷积层后面是用于非线性变换的ReLU层。和我们的方法是基于观察到，更深侧输出能够找到显着区域的位置L型熔断器（W，w，f，r）=σ.Z，MfR（m），（9）但这是以细节的丢失为代价的其中r={rm}，i>m。请注意，此时，m（m）表示一种是关注底层特征，但缺乏全局信息侧阵这些现象启发我们利用以下方式来适当地组合不同的侧面输出，以便可以呈现最具视觉特色的对象标准交叉熵损失，我们在等式（五）、因此，我们的新的最终损失函数可以写为：被牵引在数学上，我们的新的副作用R∈（m）。..第m侧输出可以由下式给出. Σ侧L型最后W，w，f，r）=L保险丝W，w，f，r）+L侧W，w，r）。（十）MrmR（i）+A（m），其中m=1，. . . 、5我们的建筑可以被认为是两个紧密相连的-R（m）=i=m+1i侧侧侧A（m），对于m=6（七）从功能的角度来看，我们称之为显著性定位阶段和细节细化阶段，其中rm是从侧输出i到侧输出m（i > m）的短连接的权重。我们可以通过直接将rm设置为0来删除一些短连接。新的边损失函数和融合损失函数可以分别表示为：活泼地显著性定位阶段的主要焦点是外观-搜索给定图像的最显著区域。对于细节细化阶段，我们引入了自顶向下的方法，从较深的侧输出层到较浅的侧输出层的一系列短连接这样考虑的原因是，在更深侧信息的帮助下，下侧出-64×641×1conv64×64CE损2×向上128×128128×1281×1conv1×1conv号层1231Conv1 2128， 3×3128， 3×31、1 ×12conv2 2128， 3×3128， 3×31、1 ×13conv3 3256， 5×5256， 5×51、1 ×14conv4 3256， 5×5256， 5×51、1 ×13208αmlLside（W，w，r）=ΣMˆm=1（m）侧. W，w（m），r（八）Put既可以准确地预测显著对象/区域，又可以从更深侧输出中细化结果，从而产生密集且准确的显著性图。3209侧βγ3.3. 推理我们在这项工作中使用的架构可以在图中找到。3.第三章。如何建立一个短连接的说明可以在图中看到4.第一章虽然引入了一系列短连接，但由最深和最浅侧输出产生的预测图的质量不令人满意。考虑到这一事实，我们在推理过程中只融合三个边输出，而通过直接将f1，f5和f6设置为0来丢弃其他三个边输出。让Z1、···、Z6表示侧输出映射。这可以是COM-由Zm=h（R（m））计算。因此，融合输出图并且最终输出映射可以通过以下方式计算：两个类在我们的情况下，我们直接使用每个像素是显著的推断后验概率作为最终显著图。4. 实验和结果在本节中，我们描述了我们提出的架构的实现细节4.1. 执行我们的网络基于公开可用的Caffe li-和Z熔断器=h. Σ4m=2（m）侧Σ、（11）[23]和FCN 的开放实现[38]。如上所述，我们选择VGGNet [45]作为我们的预训练模型，以便与以前的作品进行更好的比较。我们在跳层结构在HED网络中，可以直接实现-Zfinal=Mean n（Zfus e，Z2，Z3，Z4）.（十二）平滑方法虽然我们的DCNN模型可以精确地找到图像中的显著对象/区域，但获得的显著性图非常平滑，并且丢失了一些有用的边界信息。为了提高显着图的空间一致性和质量，我们采用全连接条件随机场（CRF）方法[26]作为推理阶段的选择层。CRF的能量函数由下式给出：使用Caffe中的拆分层进行分割。参数本工作中使用的超参数包括：学习率（1 e-8）、重量衰减（0.0005）、动量（0.9）、每侧输出的重量损失（1）。我们使用全分辨率图像来训练我们的网络，每次只加载一张图像。考虑到训练效率，每幅图像训练10次，即，在Caffe中，“iter_size”参数被设置为10。新添加的卷积层中的内核权重都是初始的-E（x）=Σθi（xi）+我Σi、jθij（xi，xj），（13）用随机数来表示我们的融合层权重在训练阶段都初始化为0.1667。完全连接的CRF中的参数使用交叉其中x是像素的标签预测。为了使我们的模型更具竞争力，我们利用以下一元项，而不是直接使用预测的映射作为一元项的输入洛戈塞里验证集上的验证。在我们的实验中，τ设置为1.05，w1、w2、σα、σβ和σγ分别设置为3.0、3.0、60.0、8.0和5.0运行时间。它需要我们大约8小时来训练我们的网络工作在一个单一的NVIDIA TITAN X GPU和4.0GHz的θi（xi）=−τh（xi），（14）英特尔处理器。由于不存在任何其他预-和后处理程序，只需约0.08s其中，Si表示pix elxi的归一化salienc y值，h（·）是S形函数，τ是尺度参数。成对势定义为对于我们的模型，处理大小为400×300的图像，并且对于我们的CRF，需要另外0.4s。因此，我们的方法使用不到0.5秒的时间来生成最终的显着图，θij（xi，xj）=µ（xi，xj）Σ。w1exp−pi−pj2σ2−比目前大多数基于CNN的方法快得多。4.2. 数据集和评价指标ΣIi−Ij2σ2.+w2exp−αΣΣpi−pj2σ2，（十五）数据集。一个好的显着性检测模型应该在几乎所有的数据集上都能很好地执行[1]。为此，我们在5个代表性数据集上评估了我们的系统，包括-其中，如果xi/=xj，则μ（xi，xj）=1，否则为零ii和pi分别是xi参数-变量w1、w2、σα、σβ和σγ控制每个高斯核的重要在本文中，我们采用了[26]的公开实现，称为PyDenseCRF1。由于只有1https://github.com/lucasb-eyer/pydensecrffmR3210[29]第29话：我的世界，我的世界，我的世界[34]和SOD [39，40]，所有这些都可以在网上找到。这些数据集都包含大量的图像，最近被广泛使用。MSRA-B包含来自数百个不同类别的5000张图像。这个数据集中的大多数由于其多样性和数量大，MSRA-B一直是3211[30]第36话：我的世界 RFCN [47] DS [33] [29][32]第十三届全国人大常委会第十三次会议图5：与九种现有方法的视觉比较。可以看出，我们提出的方法比所有其他方法产生更连贯和准确的显着性图，这是最接近地面真相。号侧输出1侧输出2侧面输出3侧面输出4侧面输出5侧面输出6Fβ1(128、3× 3）×2(128、3× 3）×2(256、5× 5）×2(512、5× 5）×2(1024、5× 5）×2(1024、7× 7）×20.8302(128、3× 3）×1(128、3× 3）×1(256、5× 5）×1(256、5× 5）×1(512、5× 5）×1(512、7× 7）×10.8153(128、3× 3）×2(128、3× 3）×2(256、3× 3）×2(256、3× 3）×2(512、5× 5）×2(512、5× 5）×20.8204(128、3× 3）×2(128、3× 3）×2(256、5× 5）×2(256、5× 5）×2(512、5× 5）×2(512、7× 7）×20.830表2：不同侧输出设置及其在PASCALS数据集上的性能比较[34]。（c，k×k）×n意味着有n个卷积层，具有c个通道和大小k×k。请注意，每侧输出中的最后一个卷积层没有变化，如表1所示。在每个设置中，我们只修改一个参数，而保持所有其他参数不变，以便强调每个选择参数的重要性。显著对象检测文献中最广泛使用的数据集。ECSSD包含1000个语义上有意义但结构复杂的自然图像。HKU-IS是另一个大型数据集，包含4000多个图像。该数据集中的大多数图像与多个显著对象的对比度较低。PASCALS包含850个具有挑战性的图像（每个图像由几个对象组成我们还评估了我们的系统上的SOD数据集，这是从BSDS数据集选择。它包含300幅图像，其中大部分都有多个显著对象。所有这些数据集都由地面实况人类注释组成。为了保持评价的完整性，并获得与现有方法的公平比较，我们UTI-而召回率可以通过|B Z|/|B|和|B Z|/|Z|，其中|·|将非零条目累加到掩码中。将精确度和召回率值在给定数据集的显著性图产生PR曲线。为了全面评估显着图的质量，使用F度量度量，其定义为（1+β2）精确度×召回率Fβ =β2精确度+召回率。（十六）正如以前的工作所建议的，我们选择β2为0.3，以强调精度值的重要性。设S_n和Z_n表示归一化到[0，1]的连续凸性映射和基础真值。MAE分数可以通过以下方式计算：使用与[24]中相同的训练和验证集，并使用相同的模型对所有数据集进行测试。Mae=1ΣH高×宽ΣW|.|.（十七）评估指标。我们使用三个普遍认可的标准度量来评估我们的模型：精确率-召回率曲线，F-测量和平均绝对误差（MAE）。对于给定的连续显著图S，我们可以使用阈值将其转3212换为二进制掩码B。那么它的精确度i=1j=1如[1]中所述，该度量支持成功检测显著像素但未能检测非显著区域的方法，而不是成功检测非显著像素但在确定显著像素时出错的方法3213侧我侧数据集方法MSRA-B [37]ECSSD [51][29]第二十九话帕斯卡尔[34]SOD [39，40]FβMaeFβMaeFβMaeFβMaeFβMaeRC [7]0.8170.1380.7410.1870.7260.1650.6400.2250.6570.242CHM [31]0.8090.1380.7220.1950.7280.1580.6310.2220.6550.249DSR [32]0.8120.1190.7370.1730.7350.1400.6460.2040.6550.234DRFI [24]0.8550.1190.7870.1660.7830.1430.6790.2210.7120.215MC [52]0.8720.0620.8220.1070.7810.0980.7210.1470.7080.184ELD [13]0.9140.0420.8650.9810.8440.0710.7670.1210.7600.154[29]0.8850.1040.8330.1080.8600.1290.7640.1450.7850.155DS [13]--0.8100.160--0.8180.1700.7810.150RFCN [47]0.9260.0620.8980.0970.8950.0790.8270.1180.8050.161国土安全部[36]--0.9050.0610.8920.0520.8200.0910.8230.127DCL [30]0.9160.0470.8980.0710.9070.0480.8220.1080.8320.126我们0.9270.0280.9150.0520.9130.0390.8300.0800.8420.118表3：11种方法在5个流行数据集上的定量比较前三个结果分别以红色、绿色和蓝色突出显示4.3. 消融分析我们用不同的设计选项和不同的短连接模式来说明我们的方法的每个组件的有效性。侧输出层的详细信息。每个侧输出层的详细信息已在表1中示出。我们要强调的是，引入另一个卷积层，在每一边的输出，如第二节所述。3.1非常重要。此外，我们还进行了一系列的实验相对于卷积层的参数在每一侧的输出。侧输出设置见表2。为了强调差异化的重要性号架构Fβ1超柱[17]0.8182[49]第四十九话0.7913增强HED0.8164模式1（Eqn. （十八））0.8165模式2（Eqn.（19））0.8246模式3：（20））0.830表4：不同架构在PAS-CALS数据集上的性能[34]。“*”表示本文中使用的模式。比第一个更复杂。对于不同的参数，我们采用变量控制的方法.m+2m（m）每次只改变一个参数可以证明R（m）=i=m+1ri R侧+A侧，m=1、2、3、4减少卷积层（#2）会降低性能，但不会太多。可以看出，减少-侧A（m）。对于m=5，6（十九）减小内核大小（#3）也会导致最后一种模式，也就是本文中使用的模式，可以由下式给出：F度量此外，将频道数量增加一倍，最后三个卷积层（#1）并没有给我们带来任何Σ6i=3 r mR（一）侧（m）侧，对于m=1，2改进.R（m）=rmR（5）+rmR（6）+A（m），其中m=3，4侧5面6面侧各种短连接模式的比较。为了更好地展示我们提出的方法的优势，我们使用A（m）。对于m=5，6（二十）不同的网络架构，如图所示。2个用于突出目标检测除了Hypercolumns架构之外[17]和基于HED的架构[49]，我们使用我们提出的方法实现了三种代表性模式。第一个公式如下，这是一个类似的架构图。第1段（c）分段。性能列于表4中。从表4可以看出，随着短连接的增加，我们的方法逐渐获得更好的性能。上采样操作。在我们的方法中，我们使用网络内的双线性插值在每一侧输出中执行上采样。如[38]中所实现的，我们使用固定.（m+1）+A3214R=侧（m）我们的边输出的反卷积内核具有不同的（m）侧rm+1R边+A边，m =1，. . . 、5A（m）。对于m=6（十八）大步走由于深侧输出层生成的预测图不够密集，我们还尝试使用第二种模式表示如下，其输出更密集。我们采用了与Done321510.90.80.70.60.50.40.30.20.1010.90.80.70.60.50.40.30.20.1010.90.80.70.60.50.40.30.20.10图6：三个流行数据集上的精确召回曲线。[30]。然而，在我们的实验中，使用这样的方法会产生更差的性能。尽管融合预测图变得更密集，但是即使在之后使用CRF，一些非显著像素也被错误地预测为显著像素。验证集上的F-measure得分降低了1%以上。数据扩充。数据增强已被证明在许多基于学习的视觉任务中非常有用。我们水平翻转所有训练图像，得到一个比原始图像大两倍的增强图像集。我们发现，这样的操作进一步提高了性能超过0.5%。4.4. 与最新技术我们将所提出的方法与7种最近的基于CNN的方法进行了比较，包括DCL [29]，DS [33]，DCL [30]，[13][14][15][16][17][18]我们也将我们的方法与4种经典方法进行比较：RC [7]、CHM[31]、DSR [32]和DRFI [24]，在Borji等人的基准研究中已被证明是最好的。 [1]的文件。目视比较。图5提供了我们的方法相对于上述方法的视觉比较。可以很容易地看出，我们提出的方法不仅突出了正确的显着区域，但也产生连贯的边界。同样值得一提的是，由于短连接，我们的方法为显著区域提供了更高的置信度，从而在显著对象和背景之间产生了更高的对比度。它还产生了连接的区域。这些优点使我们的结果非常接近地面真相，因此比其他方法更好。PR曲线。我们比较我们的方法与现有的方法在PR曲线。如可见于图6、所提出的方法获得了比其他方法更好的PR曲线。由于低级别特征的细化效果这也导致我们的精度值更高，从而导致更高的PR曲线。F-测量和MAE。我们还比较了我们的方法与现有的方法在F-meature和MAE分数。方法的F-测量和MAE见表3。可以看出，我们的方法在表3所列的所有数据集上都获得了最佳得分（最大F-度量和MAE）。我们的方法提高了目前最好的最大F-措施的百分之一。此外，我们还观察到，所提出的方法在更困难的数据集上表现得更好，例如HKUIS [29]，PASCALS [34]和SOD [39，40]，包含大量具有多个显著对象的图像这表明，我们的方法是能够检测和分割的最突出的对象，而其他方法的-10失败在这些阶段之一。5. 结论在本文中，我们开发了一个深度监督网络用于显著对象检测。我们在较浅和较深的侧输出层之间引入了一系列短连接，而不是将损耗层直接连接到每一级的最后一层。通过这些短连接，每个侧输出层的激活获得了突出显示整个显著对象并准确定位其边界的能力一个完全连接的CRF也被用来纠正错误的预测，并进一步提高空间一致性。我们的实验表明，这些机制，nisms的结果更准确的显着性地图在各种图像。我们的方法显着推进了国家的最先进的，是能够捕捉显着的地区，在简单和困难的情况下，这进一步验证了所提出的架构的优点。致谢我们要感谢匿名评论者提供的有用反馈。本研究得到了国家自然科学基金（ NO. 61572264 ，61620106008），华为创新研究计划（HIRP），CAST青年人才计划。RCCHMDSRDRFIMCELDMDFRFCNDHSDCL我们RCCHMDSRDRFIMCELDMDFRFCNDHSDCL我们RCCHMDSRDRFIMCELDMDFRFCNDHSDCL我们精度精度精度00.10.20.30.40.50.60.70.80.9100.10.20.30.40.50.60.70.80.9100.10.20.30.40.50.60.70.80.91召回(1)MSRA召回(2)ECSSD召回(3)HKUIS3216引用[1] A. Borji，M.M. Cheng，H.Jiang和J.李显著物体检测：基准。IEEE TIP，24（12）：5706-5722，2015. 一、二、五、六、八[2] A. Borji，S.Frintrop，D.N. Sihite和L.伊蒂通过学习背景上下文的自适应在 IEEE CVPRW 中，第 23-30 页。IEEE，2012。1[3] A. Borji和L.伊蒂利用局部和全局补丁稀有性进行显著性检测。在计算机视觉和模式识别（CVPR），2012年IEEE会议上，第478IEEE，2012。2[4] A. Borji和L. 伊蒂最先进的视觉注意力模型。 IEEEtransactionsonpatternanalysisandmachineintelligence，35（1）：185-207，2013。1[5] A. Borji，D. N. Sihite和L.伊蒂定量分析视觉显著性建模中的人体模型一致性：比较研究。 IEEETransactions on Image Processing，22（1）：55-69，2013。1[6] T. 陈文 M. Cheng ， P. Tan ， A.Shamir 和 S.- M.胡Sketch2photo ：互联网图像蒙太奇。 ACM TOG， 28（5）：124：1-10，2009年。1[7] M. Cheng，N. J. Mitra，X. Huang，P. H. Torr和S.胡基于全局对比度的显著区域检测。IEEE TPAMI，2015年。一、二、七、八[8] M.- M. Cheng，Q.- B.侯，S.- H. Zhang和P. L.松香智能视觉媒体处理：当图形遇到视觉。JCST，2017年。1[9] M.- M. 郑，F.-L. Zhang，N.J. Mitra，X.Huang和S.-M.胡Repfinder：查找用于图像编辑的近似重复的场景元素。在ACM TOG，第29卷，第83页。ACM，2010年。1[10] M. Donoser，M. Urschler，M. Hirzer和H.比肖夫显著性驱动的全变分分割。见ICCV，第817IEEE，2009年。1[11] W. Einh aüuser和P. 国王亮度-对比度是否有助于显性视觉注意的显着性图欧洲神经科学杂志，17（5）：1089-1097，2003。1[12] Y. Gao，M. Wang，中国山杨D.陶河，巴西-地Ji和Q.戴.基于超图分析三维物体检索与识别。IEEE TIP，21（9）：4290-4303，2012年。1[13] L. Gaystan，T. Yu-Wing和K.俊模具有编码的低级距离图和高级特征的深度显著性。在CVPR，2016年。https://github.com/gylee1103/www.example.com 一二六七八[14] C. Goldberg，T.陈芳L. Zhang，中国古柏A.Shamir和S.-M. 胡图像中的数据驱动对象操作31（21）：265 1[15] C. Guo和L.张某一种新的多分辨率时空显著性检测模型及其在图像和视频压缩中的应用。 IEEE TIP ， 19（1）：185-198，2010年。1[16] J. Han，E.J. Pauwels和P.德泽乌快速显著性感知多模态图像融合。神经计算，第70- 80页1[17] B. 哈里哈兰山口阿尔韦阿埃斯河Girshick和J. 马利克用于对象分割和细粒度定位的炒作r在CVPR，第447-456页，2015年。三、七[18] J. He ， J. Feng ， X. Liu ， T. Cheng ， T.- H. Lin ， H.Chung和S.- F.昌移动产品搜索与哈希位袋和边界重新排序。在IEEE CVPR，第3005-3012页1[19] S.- M. Hu，T. Chen，K.徐，M.- M. Cheng和R. R.马丁互联网视觉媒体处理：图形与视觉应用综述The VisualComputer，29（5）：393 1[20] L.伊蒂用于视频压缩的自动聚焦视觉注意力的神经生物学模型IEEE TIP，13（10）：1304-1318，2004年。1[21] L. Itti和C.科赫视觉注意力的计算模型。Nature ReviewsNeuroscience，2（3）：194-203，2001. 1[22] L.伊蒂角Koch和E.尼布尔基于显著性的快速场景分析视觉注意模型。IEEE TPAMI，（11）：1254-1259，1998.一、二[23] Y. Jia、E.Shelhamer，J.多纳休S.Karayev，J.隆河，西-地Gir- shick，S. Guadarrama和T.达雷尔。Caffe：用于快速特征嵌入的卷积架构。ACM Multimedia，第675-678页。ACM，2014年。5[24] H. Jiang，J. Wang，Z. Yuan，Y. Wu，N. Zheng，和S.李显著对象检测：判别式区域特征集成方法。在CVPR，第2083-2090页，2013年。http://people.cs.umass.edu/www.example.com一二六七八[25] D. A. Klein和S. Frintrop显著目标检测特征统计的中心-环绕发散。见ICCV，第2214-2219页。IEEE，2011年。2[26] P. K raühenbuühl 和V. 科尔顿具有高斯边势的全连通crfs的有效推理NIPS，2011年。5[27] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。在NIPS，第1097-1105页，2012中。1[28] Y.勒昆湖Bottou，Y. Bengio和P.哈夫纳基于梯度的学习应用于文档识别。Proceedings of the IEEE，86（11）：2278-2324，1998. 1[29] G. Li和Y. Yu.基于多尺度深度特征的视觉显著性。在CVPR 中，第 5455-5463 页， 2015 年。 http ： //i.cs.hku.hk/http：//www.example.com 一、二、五、六、七、八[30] G. Li和Y.Yu. 显著对象的深度对比学习侦测。在CVPR，2016年。二、六、七、八[31] X. Li，Y. Li，C. Shen，中国古猿A. Dick和A.范登亨格尔。用于显著目标检测的上下文超图建模在ICCV，第3328-3335页，2013年。七、八[32] X. Li，H.卢湖，加-地Zhang，X.阮和M.- H.杨通过密集和稀疏重建的显著性检测。在ICCV，第2976-2983页，2013中。六七八[33] X.利湖，澳-地赵湖，加-地韦，M.- H. Yang，F. Wu，Y.庄H. Ling和J.王.深度显著性：用于显著对象检测的多任务深度神经网络模型。 IEEE Trans-actions on ImageProcessing ， 25 （ 8 ）： 3919- 3930 ， 2016 。https://github.com/zlmzju/DeepSaliency 网站。六、八3217[34] Y. Li，X.侯角，澳-地Koch，J. M. Rehg，和A. L.尤尔。显着对象分割的秘密。在CVPR，第280五六七八3218[35] H.柳湖，加-地Zhang和H.煌网络

下载后可阅读完整内容，剩余1页未读，立即下载