基于深度学习的边界敏感显著目标检测方法

99 浏览量更新于2023-10-17 收藏 2.52MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1623用于边界敏感显著目标检测的冯梦阳1，胡川路1，丁二瑞21大连理工大学2百度公司计算机视觉技术部（VIS）mengyangfeng@mail.dlut.edu.cn，lhchuan@dlut.edu.cn，dingerrui@baidu.com摘要最近基于深度学习的显著对象检测方法在全卷积神经网络（FCN）的基础上实现了令人满意的性能。然而，他们中的大多数人都遭受了边界的挑战。现有的方法采用特征聚合技术，可以精确地找出显著目标的位置，但往往不能分割出具有精细边界的整个目标，特别是那些凸起的窄条纹。因此，与基于FCN的模型相比，仍然有很大的改进空间。在本文中，我们设计了注意反馈模块（AFMs），以更好地探索对象的结构。边界增强损失（BEL）被进一步用于学习精细边界。我们提出的深度模型在对象边界上产生了令人满意的结果，并在五个经过广泛测试的显著对象检测基准上实现了最先进的性能。该网络以完全卷积的方式运行，速度为26 FPS，不需要任何后处理。1. 介绍与语义分割、边缘检测等密集标记任务不同，显著目标检测的目标是识别图像中视觉上有区别的区域或这种有用的处理通常作为有益于其他计算机视觉任务的第一步，包括内容感知图像编辑[6]和图像分割[2]，视觉跟踪[3]，个人重新识别[35]和图像分割[7]。随着深度学习方法的突破，为图像识别任务训练的卷积神经网络（CNN，例如VGG [25]和ResNet [9]）已通过迁移学习进一步发展到其他计算机一个成功的转换是语义分割中的全卷积神经网络（FCN）为了对每个图像像素进行预测，[23，24]通常通过插值或学习去卷积滤波器来引入上采样操作，图1.以前的多尺度聚集方法不能分割精确的边界。在推论之前。得益于这种有效和高效的方法，与传统的密集标记方法相比，密集标记任务的性能获得了很大的提高。然而，通用的完全卷积框架的不完美之处在于它们遭受尺度空间问题。CNN架构中重复的步幅和池化操作导致基本精细细节（低级视觉线索）的丢失，这不能通过上采样操作来重建。为了解决上述问题，引入了用于在空间深度特征之间进行通信的多尺度机制来增强空间信息，例如在[30]，[10]和[33]中提出的跳跃连接，短连接和特征聚合，重新定义。这些机制是基于以下观察：1）深层编码高级知识，善于定位对象; 2）较浅的层捕获更多的空间表示并且可以更好地重建空间细节。虽然这些策略带来了令人满意的改进，但它们不能预测整体结构，并且在检测精细边界方面存在困难（见图1）。①的人。为了获得精确的物体边界，一些研究人员不得不采用耗时的CRF来细化最终的显着图。本文致力于提出一种边界感知的1624网络用于显著对象检测，其不需要任何昂贵的后处理。我们构造了一个新颖的全卷积式的编码器-解码器网络.首先，我们在编码器网络的顶部实现全局感知模块（GPM），以生成用于粗略捕获显著对象的低分辨率显著性图。然后，我们引入了注意反馈模块（AFM），它是通过采用每个编码器块和相应的解码器块来建立的，以细化粗预测逐尺度。AFM有助于捕获目标的整体形状。此外，边界增强损失（BEL）-服务于产生精致的边界-被用来帮助学习的显着性预测的对象轮廓。我们的模型具有学习能力，以产生精确的和结构完整的显著对象检测结果，在同一时间，目标的轮廓可以清楚地切出没有后处理。我们的主要贡献如下：- 我们提出了一个注意反馈网络（AFNet）来处理显着性检测中的边界挑战。编码器块的多尺度特征被传输到相应的解码器块，并用于产生更好的分割结果，通过建议的注意反馈模块（AFM）。AFNet学习逐尺度预测精确和结构完整的分割，并最终获得最高分辨率的显着图。- 我们引入边界增强损失（BEL）作为学习精致物体轮廓的助手。因此，AFNet不需要任何后处理或额外的参数来细化显著对象的边界。- 所提出的模型可以以26 FPS的实时速度运行，并在五个大规模显著对象检测数据集上实现了最先进的性能，包括ECSSD [31]，PASCAL-S [19]，DUT-OMRON[32]，[15]第27话，是一个很好的选择。2. 相关工作多尺度融合方法。对于显著对象检测的任务，早期的改进[10，33]都受益于全卷积神经网络（FCN）。针对下采样操作带来的尺度空间问题，寻求最优的多尺度融合方案。[10，33]都将分层深度特征之间的连接引入多个子网络，并且每个都预测最高分辨率的显着性图。发现的问题是，从不同的层连接功能可能会遭受边界的挑战。虽然来自较深层的特征可以帮助定位目标，但空间细节的丢失可能会阻碍来自较浅层的特征用于恢复对象边界。白羊座一种更合适的方法是以由粗到细的方式使用多尺度特征，并逐渐预测最终的显著图。粗到细的解决方案。考虑到简单地从不同尺度关联特征如果被模糊信息扰乱可能会失败，在最近的最先进的方法中采用从粗到细的解决方案，例如Re，[20][22][23][24][25][26][27]作者通过引入递归聚合方法来解决这一限制，该方法将粗特征逐步融合以生成高分辨率的语义特征。在本文中，我们同样整合了从粗到细尺度的层次特征，通过构建尺度匹配编码器和解码器块之间的跳跃连接然而，我们认为递归聚合方法的弱点是，粗信息仍然可能误导精细的一个没有适当的指导。因此，我们建立了注意反馈模块（AFM）来指导编码器和解码器块之间的消息传递。注意模特们。注意力模型是近年来神经网络研究的热点，它可以模拟人类视觉系统中的视觉注意机制。G-FRNet建议由Islam等人[11]在每个编码器和解码器块之间应用门单元作为注意力模型。这些门单元控制前馈信息的传递，以滤除模糊信息。然而，信息传递受Hadamard积控制，一旦前一阶段出现错误，不准确的引导和过度使用这些特征可能会导致分割显著目标时出现意外漂移。为了消除这一障碍，我们的注意力反馈模块使用三元注意力图作为编码器和解码器块之间的指导。受形态学膨胀和腐蚀的启发，根据初始显著性预测构建了三元注意力图--表示置信前景、置信背景和不确定区域实验表明，三元注意图中的不确定区域主要集中在物体边界附近。我们在每个编码器块的输入上应用三元注意力图，然后生成用于显著性预测的更新的多尺度特征，以便网络可以对那些不确定的像素进行进一步的努力。因此，通过使用注意模型，我们的网络不仅通过引导来整合不同阶段之间的特征，而且还通过注意反馈模块在每个阶段有机会进行错误3. 该方法在本文中，我们提出了一个注意反馈网络（AFNet）与新的多尺度注意反馈模块和边界增强损失预测的显着对象与整个结构和精致的边界。以下各小节首先从骨干网开始1625图2.网络管道。我们的网络是编码器-解码器风格的，并且我们将第l尺度编码器和解码器块分别表示为E（1）和D（1）输入图像首先经过E（1）E（5）以提取多尺度卷积特征。然后，在E（5）之上构建全局感知模块（GPM）以给出全局显著性预测SG。解码器网络将SG和多尺度卷积特征作为输入，以逐尺度地生成更精细的显著性预测S（5）→S（1）。我们通过注意反馈模块（AFM，一个图示在右侧）控制E（I）和D（I）其中，内置的三元注意力图T（l）引导边界感知学习进程。我们使用多个分辨率生成地面实况，并使用交叉熵损失作为监督。此外，为了产生精致的边界，额外的边界增强损失（BEL）被施加到最后两个AFM。然后是每个组件的详细实现。3.1. 网络概述与大多数先前的显著对象检测方法类似，我们选择VGG-16 [25]作为我们的骨干网络，并以编码器-解码器风格开发它。网络图如图所示. 2.五对编码器和解码器块分别表示为E（1）和D（1）（1∈ {1，2，3，4，5}表示尺度）。编码器网络。我以《易经》为例，将《易经》分为四类。16网络转换为完全卷积网络将最后两个完全连接的层与最后一个池化层一起另一方面，我们跳过最后一个卷积块E（5）之前的缩小操作，并使用E（5）的速率=2的扩张卷积[4]来保持滤波器的原始感受野。我们进行这样的手术是为了避免丢失过多的空间细节。全局感知模块。 GPM，描述节中3.2，利用从E（5）学习的语义资源丰富的特征，并预测全局显著性图SG，其将被馈送到解码器块中用于细化。中国广播电视网.解码器网络包括：五个卷积块。我们采用2×上采样层-以确保具有相同的与相应的编码器块缩放。每个D（l ）有三个3×3卷积层，输出数分别为32、32和1。在尺度匹配对中，学习到的多级信息可以通过注意反馈模块（AFM）传输，内置的三元注意力图T（1）。我们将在第二节中讨论实现细节。3.3.当训练网络时，每个D（1）递归地估计两个显著性图（S（1，1）和S（1，2）），并且每个显著性图经由交叉熵损失由相同尺度的基础事实G（1）监督。特别是，我们增加了额外的边界增强损失（见第二节）。3.4)在D（1）和D（2）上，以加强它们在对象边界上的区分能力。3.2. 全局感知模块至于全局显着性预测，Liu等人。 [21]直接在其Global-View CNN中采用全连接层其问题是：1）最深层相邻元素的感受野重叠较大，这意味着输入图像上的同一个像素要为计算单个显著性值贡献大量的冗余时间;（2）使用所有像素对于确定一般位置是有用的，但是局部模式丢失。这些事实促使我们提出一个全局感知模块（见图1）。3）充分利用本地和全球信息。令大小为N×N×C的X是从E（5）中导出的特征图（通过一个1×1卷积将通道数减少到C= 16 我们首先将X分成n × n个单元{x1，. . . ，xn× n}，然后在X上进行核大小为Kg×Kg的全局卷积，得到全局特征F（n）∈RN× N × C. 图3给出了当n= 2和Kg= 6时的说明。正如我们所看到的，在全球范围内在卷积运算中，某个单元中的每个元素（红色的）都连接到Kg×Kg−1个类似于引入孔1626（个）M（l）MM（l）eDeDeDe图3.全局感知模块的图示。在扩张的回旋中。不同的是，我们也考虑到当地的邻居。以这种方式，同时保证了局部模式从F（n）生成全局显著性图SG，然后将全局显著性图SG与来自E（1）的多尺度卷积特征一起递送到解码器网络中以进行细化。实施. 我们以逐步的方式实现全局卷积。首先，分割单元{x1，. . . ...重塑版本XR。然后，通过kg×kg卷积生成全局卷积特征F（n示于图2（AFM-3，t= 1）。然而，在第一次时间步长细化之后，我们无法保证结果的质量，因为来自前一个块的指导涉及到放大操作，该操作引入了许多不准确的值，特别是在对象边界上。除此之外，假设前一个块未能分割出完整的目标，后续的块将永远不会有机会执行结构完整的检测。AFM提供了在第二时间步反馈流中使用三元注意力图进行错误校正的机会。我们介绍提供可信的模板的前景和背景的参考。我们的端到端训练策略的一个适当方式是利用第一时间步中的精细预测S（1，1）从形态学上看，扩张与侵蚀是一种双重作用，前者能受此激励，我们可以通过侵蚀减薄突出区域来减轻对边界的负面影响。另一方面，我们可以通过膨胀操作来扩展显著区域以拉入更多周围像素。因此，当t= 2时，三元注意力图--表示确信的背景、确信的前景和不确定的区域--通过对S（1，1）。我们利用最大池化操作Pmax（·）来实现形态膨胀D（1）（·）和膨胀E（1）（·），写为，XR（个）并将结果恢复为N×N×C的大小。那是-D（l）（）下一页S（1，1）=Pmax （）下一页S（1，1），GPM的最终步骤是应用3×3卷积来生成G（l）（）（）（一）我们的全局显著性预测S。E（l）S（1，1）=−Pmaxe-S（l，1），3.3. 专注反馈模块其中M（1）和M（1）表示池的内核大小De我们控制尺度匹配之间的消息传递在级别L处对层进行分组。三元a（ tenttio） n映射T（l）是编码器和解码器块通过注意反馈模式-计算为D（l）的平均值S（1，1）和E（1）（S（1，1）.ules. 图中右边的部分。2放大详细的architec-真正的，和AFM工程在一个两步循环的风格。为了更清楚地解释它是如何工作的，我们分别使用实线和虚线以两个时间步长来说明我们将来自E（l）的特征表示为：f（l，t），输入I（l，t），来自D（l）的特征为f（l，t），以及因此，1）在侵蚀显著性中的像素区域接近1; 2）这两个转换之间的边缘具有接近0.5的分数;3）并且剩余区域几乎为0，如图12所示2（AFM-3）。然后，T（l）通过逐像素加权E（l）的输入，乘法，并且更新的注意特征图f（l，2）是ede输出预测为S（l，t），其中t表示时间步长。当t= 1时，解码器块D（1）将来自第1个编码器块的f（1，1）以及来自D（1+1）的S（1+ 1，2）和f（1+ 1，2）作为输入。在f（l，1）上应用一个1 × 1卷积以将其通道减少到32个以节省存储器。来自D（1+ 1）的输出通过因子2进行上采样，以使空间分辨率与f（1，1）匹配。然后，我们连接所有的输入元素，这制定了一个attentive特征I（1，1）的指导下，从最后一个规模的粗略预测第一时间步中的精细预测S（1，1）可以通过具有批量归一化和ReLU的三个卷积层容易地生成整条小溪都是由编码器产生同样地，收集S（1，1）、f（1，1）和f（1，2），得到更新的特征I（1，2）。最后，解码器块执行细化过程再次生成S（1，2），其具有更突出的边界，并进入下一个层次。整个流程如图所示。2（AFM-3，t= 2）。我们将来自最后一个解码器块的输出S（1，2）作为我们最终的显著性图。3.4. 边界增强损耗随着空间分辨率的提高，物体的整体结构也逐渐显对1627现出来的AFM。尽管如此，卷积网络仍然1628A（l）A（l）有一个共同的问题，他们通常产生模糊的边界，并有困难，在区分狭窄的表1.AFM和BEL的参数设置五四三二一两个前景区域之间的背景边距（例如两条腿之间的空间）。我们应用边界增强损失与交叉熵AFM（l）d（l）e11 11 13 13 155 5 5 7 7显著性检测的损失，以克服这个问题。采用核大小为A（l）的平均池化操作Pave（·）我们避免直接预测边界，这确实是一项艰巨的任务，并且对象轮廓图应该与其显著性掩模一致。我们使用B（1）（X）来解-贝拉（1）-3 5F度量作为总体测量，它可以通过2×平均显著性值对显著性图进行阈值化，从精确度和召回率两个方面计算，如下所示：注意产生给定对象轮廓图的操作显著性掩模X，如下所示，（）下一页1 +β2·精确度·召回率..F β=β2·查准率+查全率，（4）B（I）（X）=. X-P ave（X）. 、（二）哪里|·|（rema）rksab s（olutev）value函数。Wevisualize其中，如[1]中所建议的，β2我们还报告了最大F-测度（Fmax）B（1）G（l）和B（l）S（l，t）在图2（BEL）中。损失β对于l= 1，2的函数可以写为，从所有的查准率-查全率对中计算出来。平均绝对误差。MAE是对（）下一页LS（l，t），G（l）=λ1·Lce（）下一页S（l，t），G（l）+PR曲线和测量预测和地面实况之间的平均差异定量像素级。λ2·Le（B（l）（S）（l，t））、B（l））（G（l）） .（三）S-措施。S-measure由Fan等人提出。 [8]，它可以用于评估非二值前景图。第一项Lce（·，·）代表显著性检测的跨入口损失，而第二项是我们的边界增强损失。 Le（·，·）表示欧几里得损失。我们使用λ1和λ2来控制损失权重，并且我们设置λ1：λ2= 1：10来加强在我们的实现中对对象轮廓对于l=3，4，5，损失函数仅包含第一项，即显著性检测的交叉熵损失。这是因为这些层不保持恢复精致轮廓所需的细节。通过从显着性预测本身提取边界，边界增强的损失增强了模型在边界上的努力。4. 实验4.1. 数据集和评估指标我们在五个公共显着对象检测数据集上进行了实验，这些数据集是ECSSD[31]，PASCAL-S[19]，DUT-OMRON[32]，HKU-IS[15]和DUTS[27]。的前四个被广泛用于显著性检测领域，最后一个DUTS数据集是最近发布的大规模基准，具有显式训练（10533）/测试（5019）评估协议。我们在来自DUTS的训练集上训练我们的模型，并在其测试集以及其他四个数据集上进行测试。我们使用以下指标评估性能。查准率-查全率曲线它是评估显着性性能的标准度量。应该使用从0到255的阈值滑动来二值化显著性图，然后将二值图与地面实况进行比较。该测量同时评估显著图和地面实况之间的区域感知和对象感知结构相似性。4.2. 实现细节我们通过水平和垂直翻转以及图像裁剪来进行数据增强，以减轻Liu 等人的过度拟合。[21]。当输入AFNet时，每个图像都被扭曲到224×224的大小，并使用VGG net在每个位置提供的平均像素进行相减我们的系统构建在公共平台Caffe [12]上，超参数设置如下：我们在两个GTX 1080 Ti GPU上训练我们的网络，进行40K次迭代，基本学习率（0.01），动量参数（0.9）和权重衰减（0.0005）。小批量设置为8在每个GPU上gamma = 0的“step”策略。5，步长=10K。编码器网络中前13个卷积层的参数由VGG-16模型[25]初始化，并且它们的学习率乘以0.1。对于其他卷积层，我们使用“高斯”方法初始化权重，std = 0。01. 选择SGD方法来训练我们的神经网络。4.3. 参数设置AFM和BEL的参数。桌子图1示出了在AFM和BEL中实现的池化层的内核大小。所有步幅都固定为1，并且设置填充宽度以保持空间分辨率。根据观察结果调整这些参数：1）对于低分辨率的预测，三元注意力图应该MM1629eD表2.定量比较。最好的三个结果以红色、绿色和蓝色显示。DHS方法使用来自DUT-OMRON的3500张图像进行训练，因此其结果在此排除在此表中。第一列中的索引与出版年份有关。方法ECSSD PASCAL-S DUT-OMRON HKU-IS DUTS-testβ β β β β在排除目标对象的情况下涉及足够的区域。因此，内核大小应该相对于空间大小相对较大。随着空间分辨率的提高，可以减小核的大小，因为目标的整体形状已经被识别出来; 2）侵蚀M（l）的核大小应该小于扩张M（l）的核大小，因为我们需要感知同样多的信息。作为边界区域周围的可能细节。 M（1），我们的边界感知方法。通过用腐蚀的显著性掩模减去膨胀的显著性掩模来获得地面真实边界掩模。结构元素是5×5金刚石基体。我们可以用同样的方法产生预测的边界映射，然后计算PR曲线。曲线表明，我们预测的显着图具有更精细的对象边界，并且可以比PiCANet和其他方法更好地捕获整体形状。请注意，PGRL（l）d和C2 SNet还提出了改进对象边界的方法-Me和A（l）根据上述实验设定意见GPM的参数。全局卷积中的核大小Kg=n×kg，并且我们将GPM中的局部卷积核大小kg固定为3。关于分裂细胞的数量n×n，我们在第二节中进行了消融研究四点五分。在我们最后的简单-在多尺度模型中，我们采用多尺度策略，全局预测模块通过组合3个具有不同设置的GPS。每个GPM接收来自E（5）的特征作为输入，它们的输出特征通过一个3×3卷积连接以产生SG4.4. 与最新技术水平结果的我们将我们的算法与其他12种最先进的深度学习方法进行了比较，这些方法是LEGS [26]，RFCN [28]，ELD [13]，DCL [16]，DS [18]，DHS [21]，Amulet [33] ， DSS [10] ， C2SNet [17] ， RAS [5] ，DGRL [29][22]第二十二话其他方法的显着图由作者提供或由其发布的代码计算，具有用于公平比较的默认设置。定量评价。1）我们使用图1中的标准PR曲线评估我们的显着性图。4.在前两行中，五个图将所提出的方法（红色）与其他最先进的算法进行比较。可以观察到，我们的方法执行与PiCANet和比其他算法好得多。在最后两行中，我们计算图像边界上的PR曲线，以证明白羊座PGRL采用额外的参数（BRN）来细化边界，而C2 SNet需要额外的轮廓/边缘地面真值来训练另一个分支（轮廓分支）。我们提出的AFNet不需要额外的参数或训练数据的边缘，并可以产生显着性和轮廓图使用相同的参数集。我们也取得了更好的性能上的PR曲线的对象边界。2)表. 2表示五个数据集上的最大F-度量，S-度量和MAE。我们的AFNet排名与PiCANet相当，甚至更好，但速度更快。Pi-CANet、DGRL、C2 SNet、DSS、Amulet的FPS（每秒帧数）速度（无后处理）我们的实时速度达到26 FPS，与RAS（33 FPS）和DHS（28FPS）相当一些方法如DCL和DSS应用CRF来细化其最终的显着性图，而我们的AFNet不需要任何后处理。定性评价。我们在图中说明了与其他方法的视觉比较。5.在前四行中，突出的窄条纹，如触角和角，在我们的方法中突出显示，但在所有其他方法中忽略了。此外，AFNet可以产生刀刃形边界，与使用额外参数或边缘数据来细化边界的PGRL和C2SNet相比，对于最后两排的两个伸展手臂的女孩来说，几乎所有其他方法都产生了模糊的手臂反应，而我们的方法给出了明确的决定。FMaxSMMaeFMaxSMMaeFMaxSMMaeFMaxSMMaeFMaxSMMae腿15.827.787.118.762.725.155.669.714.133.766.742.119.655.694.138RFCN16.890.860.095.837.808.118.742.774.095.892.858.079.784.792.091ELD16.867.839.079.773.757.123.715.750.092.739.820.074.738.753.093DCL16.890.828.088.805.754.125.739.713.097.885.819.072.782.735.088DS16.882.821.122.765.739.176.745.750.120.865.852.080.777.793.090DHS16.907.884.059.829.807.094---.890.870.053.807.817.067护身符17.915.894.059.837.820.098.742.780.098.895.883.052.778.803.085DSS17.916.882.052.836.797.096.771.788.066.910.879.041.825.822.057C2SNet18.911.895.053.852.838.080.757.798.072.898.887.046.809.828.063RAS18.921.893.056.837.795.104.786.814.062.913.887.045.831.839.060DGRL18.922.903.041.854.836.072.774.806.062.910.895.036.829.841.050PiCANet18.931.914.047.868.850.077.794.826.068.921.906.042.851.861.054AFNet.935.914.042.868.850.071.797.826.057.923.905.036.862.866.0461630图4. PR曲线的建议算法和其他国家的最先进的方法超过五个数据集。前两排：显著图上的评价。最后两行：通过膨胀和侵蚀从显著性预测中提取的边界图的评估。图5.与最先进的方法进行目视比较。1631βββ图6.不同型号设置之间的视觉比较左列显示了全局模型的比较右列说明AFM和BEL的有效性。表3.全局感知模块的有效性（x）代表GPMs中不同的分裂单元数βββ β4.5. 消融研究我们在DUT测试数据集上进行消融研究，并使用一些额外的指标进行更好的演示。GPM的有效性。我们设计了一些简单的模块来产生SG，以便与GPS进行比较。结果见表。3.为了方便起见，我们使用了一些简短的名称，即FC：全连接层;S-Conv：具有小内核的卷积层（3×3）; L-Conv：con-具有大内核的卷积层（7×7）; D-Conv：扩张卷积层具有小内核（3×3）和大速率（速率= 7）;PPM：PSPNet中的金字塔池化模块[34]。我们计算Fmax，Fmax处的交集（IOU）和平均IOU。我们的GPM可以实现更好的结果，并且它们的组合表现最佳。图中的视觉效果。图6（左列）还说明GPM可以更好地捕获整体形状和局部模式。AFM和BEL的有效性。桌子图4示出AFM和BEL的附加效果我们还实现了G-FRNet [11]，以便在本部分中更好地演示，并且G-FRNet也在相同环境中在DUTS-train数据集上进行了训练。我们计算了8个评估值-Fβ、Fβ下的准确率和召回率、表2中使用的三个分数、Fmax下的交并比（IOU）和平均IOU-以进行详细比较。如第二节所述。2、G-FRNet在显著性检测方面的表现不尽如人意，因为它的门控单元会导致网络过度依赖前几个阶段的粗略结果，这可能会出错。的表4中的“AFNet”的第一行AFM和BEL都单独贡献，并且比G-FRNet表现更好。从图中的可视化。从图6（右列）中我们可以观察到AFM有助于识别目标的结构，而BEL负责捕获边界细节。5. 结论在本文中，我们已经介绍了一个尺度的解决方案边界感知显着性检测。采用一种新颖的轻量级全局感知模块进行全局显着性预测，然后通过注意反馈模块与编码器和解码器网络进行通信，用于细化粗预测和预测最终显着图。整个网络可以学习捕捉物体的整体形状，实验结果表明，该架构在五个公共显着性基准点上实现了最先进的性能。我们的AFNet不需要任何后期处理，以26 FPS的实时速度运行。鸣谢。这工作是支持国家自然科学基金项目61725202、61829102和61751212。FCS-ConvL-转化D-ConvPPMGPM（22）GPM（42）GPM（72）GPM（22 + 42 +72）平均IOU.534.523.500. 541.550.551.555.552.558IOU（@Fmax）.571.568.560.580.585.594.597.583.603Fmax.769.768.759.779.781.783.787.780.791表4.注意反馈模块（AFM）和边界增强损失（BEL）的有效性公制精度型号名称召回FβFMaxSMMAE IOU（@Fmax）平均IOUG-FRNet.7573.8709.7579.8319.8381.0562.6667.6500无AFM.7742.8899.7771.8586.8621.0512.7069.6960AFNet不含BEL.7829.8907.7872.8557.8618.0493.7140.70011632引用[1] R. Achanta，S. Hemami，F. Estrada和S.暂停频率调谐显著区域检测。在 Proceedings of IEEE Conference onComputer Vision and Pattern Appraisition，第1597-1604页[2] S. Avidan和A.沙米尔用于内容感知图像大小调整的接缝雕刻。ACM事务处理图表，26（3）：10，2007.[3] A. Borji，S. Frintrop，D. N. Sihite和L.伊蒂通过学习背景上下文的自适应目标跟踪在 Proceedings of IEEEConference on Computer Vision and Pattern Recognition，第23-30页[4] L- C. Chen，G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。Deeplab：使用深度卷积网络、atrous卷积和完全连接的 crfs 进行语义图像分割。 arXiv ：1606.00915，2016。[5] S. Chen，X.坦湾Wang和X.胡显著目标检测的反向注意。2018年欧洲计算机视觉会议[6] M. Cheng ， F. Zhang ， N. J. Mitra ， X. Huang 和 S. 胡Repfinder：查找近似重复的场景元素以进行图像编辑。ACM事务处理图表，29（4）：83：1-83：8，2010.[7] M. Donoser，M. Urschler，M. Hirzer和H.比肖夫显著性驱动的全变分分割。在IEEE计算机视觉国际会议论文集，第817-824页[8] D.- P. Fan，M.- M.郑，Y. Liu，T. Li和A.波吉结构-措施：一种新的方法来评估前景地图。在2017年IEEE计算机视觉国际会议[9] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议论文集，第770- 778页[10] Q. Hou，M.- M. Cheng，X. Hu，黄毛菊A. Borji，Z. Tu和P. Torr.具有短连接的深度监督显著对象检测。在IEEE计算机视觉和模式识别会议论文集，2017年。[11] M. A. Islam，M.Rochan，N.D. B. Bruce和Y.王. 用于密集图像标记的门控反馈精化网络。在IEEE计算机视觉和模式识别会议论文集，第4877-4885页[12] Y. Jia、E.Shelhamer，J.多纳休S.Karayev，J.隆河，西-地B. Girshick，S. Guadarrama和T.达雷尔。Caffe：用于快速特征嵌入的卷积架构。在Proceedings of the ACMInternational Conference on Multimedia，MM[13] G.李，Y。Tai和J. Kim。具有编码的低级距离图和高级特征的深度显著性。在IEEE计算机视觉和模式识别会议论文集，第660-668页[14] G. Li，Y.谢湖，加-地Lin和Y. Yu.实例级显著对象分割。IEEE计算机视觉与模式识别会议论文集，2017年。[15] G. Li和Y. Yu.基于多尺度深度特征的视觉显著性。IEEE计算机视觉和模式识别会议论文集，第5455-5463页[16] G. Li和Y. Yu.用于显著对象检测的深度对比度学习。在IEEE计算机视觉和模式识别集，第478-487页[17] X. Li，F. Yang，H.郑，W. Liu和D.沈用于显著对象检测的轮廓知识传递。在2018年欧洲计算机视觉会议上[18] X.利湖，澳-地赵湖，加-地韦，M.- H. Yang，F. Wu，Y.庄H. Ling和J.王.深度显著性：用于显著对象检测的多任务深度神经网络模型。 IEEE Transactions on ImageProcessing，25（8）：3919[19] Y. Li，X.侯角，澳-地Koch，J. Baug，and A.尤尔。显着对象分割的秘密在Proceedings of IEEE Conference onComputer Vision and Pattern Recognition，第280-287页[20] G. Lin，L.米兰角沈和我里德Refinenet：用于高分辨率语义分割的多路径细化网络2016年。[21] N. Liu和J.Han. Dhsnet：用于显著对象检测的深度层次显著性网络。在IEEE计算机视觉和模式识别会议论文集，第678-686页[22] N. Liu、J. Han和M.- H.杨Picanet：学习像素级上下文注意力进行显著性检测. 在IEEE计算机视觉和模式识别会议论文集，第3089-3098页，2018年[23] J.朗，E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络IEEE计算机视觉和模式识别会议论文集，第3431-3440页，2015年[24] H. Noh，S. Hong和B.韩用于语义分割的学习反卷积网络在IEEE计算机视觉国际会议论文集，第1520- 1528页[25] K. Simonyan和A.齐瑟曼。用于大规模图像识别的非常深的卷积网络。CoRR，abs/1409.1556，2014。[26] L. Wang，H. Lu、X.阮和M.- H.杨通过局部估计和全局搜索进行显着性检测IEEE计算机视觉和模式识别会议论文集，第3183-3192页，2015年[27] L. Wang，H.Lu，Y.Wang，M.Feng，L.王湾，澳-地尹和X.阮。学习用图像级监督检测显著对象。IEEE计算机视觉与模式识别会议论文集，2017年。[28] L.王湖，加-地Wang，H. Lu，P. Zhang，and X.阮。使用循环全卷积网络进行显著性检测。欧洲计算机视觉会议论文集，第825-841页[29] T.王湖，加-地Zhang，S. Wang，H. Lu，G. Yang，X.阮和A. 波吉全局检测，局部优化：一种新的显着性检测方法在IEEE计算机视觉和模式识别会议论文集，第3127-3135页1633[30] S. Xie和Z.涂。整体嵌套边缘检测。在IEEE计算机视觉国际会议的Proceedings，第1395-1403页[31] Q.延湖，澳-地Xu，J. Shi，and J.贾层次显着性检测。IEEE计算机视觉和模式识别会议论文集，第1155-1162页，2013年[32] C.扬湖，澳-地Zhang，H. Lu、X.阮和M.- H.杨通过基于图的流形排序的显著性检测在IEEE计算机视觉和模式识别会议的Proceedings，第3166-3173页[33] P.Zhang，D. Wang，H. Lu，H. Wang和X.阮。Amulet：聚合用于显着对象检测的多级卷积特征。在2017年IEEE计算机视觉国际会议上[34] H. Zhao，J. Shi，X. Qi，X. Wang和J.贾金字塔场景解析网络。IEEE计算机视觉与模式识别会议论文集，2017年。[35] R. Zhao，W.欧阳和X.王.无监督显着性学习用于人员重新识别。IEEE计算机视觉和模式识别会议论文集，第3586-3593页，2013年

下载后可阅读完整内容，剩余1页未读，立即下载