基于池的实时显著目标检测设计

33 浏览量更新于2023-10-18 收藏 1.98MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1一种简单的基于池的实时显著目标检测设计刘江江1侯启斌1程明明1 <$冯佳诗2蒋健民31南开大学计算机科学学院TKLNDST 2新加坡国立大学3深圳大学{j04.liu，andrewhoux}@ gmail.com摘要我们通过研究如何扩大卷积神经网络中池化的作用来解决显著对象检测问题。基于U形架构，我们首先建立了一个全球性的指导模块（GGM）的自底向上的路径，旨在提供在不同的特征层次的潜在显着对象的位置信息的层。我们进一步设计了一个特征聚合模块（FAM），使粗层次的语义信息与细层次的特征从自顶向下的路径上得到很好的融合。通过在自上而下路径中的融合操作之后添加FAM，来自GGM的粗略级特征可以与各种尺度的特征无缝地合并。这两个基于池化的模块允许高级语义特征被逐步细化，从而产生细节丰富的显著性图。实验结果表明，我们提出的方法可以更准确地定位突出的物体与锐化的细节，从而大大提高了性能相比，以前的国家的最先进的。我们的方法速度也很快，在处理300×400图像时可以以超过30FPS 的速度运行代码可在 www.example.com上找到http://mmcheng.net/poolnet/。1. 介绍显著对象检测得益于从给定图像中检测视觉上最独特的对象的能力，显著对象检测在许多计算机视觉任务中起着重要作用，例如视觉跟踪[8]、内容感知图像编辑[4]和机器人导航[5]。传统的方法[11，25，14，31，2，12，41，3]大多依赖于手工制作的特征来单独或同时捕获局部细节和全局上下文，但缺乏高层语义信息限制了它们在复杂场景中检测整体显著对象的能力幸运的是，卷积神经网络（CNN）由于能够同时提取高层语义信息和低层语义信息，*表示等额缴款。M. M.程（cmm@nankai.edu.cn）为通讯作者。多尺度空间中的细节特征。正如在许多先前的方法中所指出的[9，28，44]，由于CNN的金字塔状结构特征，较浅的阶段通常具有较大的空间尺寸，并保留丰富，详细的低层信息，而较深的阶段包含更多的高级语义知识，并更好地定位显著对象的确切位置。基于上述知识，已经设计了用于显著对象检测的各种新架构[9，17，38，10]在这些方法中，基于U形的结构[32，22]受到了最多的关注，因为它们能够通过在分类网络上构建自上而下的路径来构建丰富的特征图尽管通过这种类型的方法实现了良好的性能，但仍然存在很大的改进空间。首先，在U形结构中，高级语义信息被逐渐传输到较浅的层，并且因此由较深的层捕获的位置信息可以同时被逐渐稀释。其次，如[47]中所指出的，CNN的感受野大小与其层深度不成比例。现有的方法通过将注意力机制[46，24]引入U形结构，以递归的方式细化特征图[23，46，36]，结合多尺度fea，真实信息[9，28，44，10]，或者向显着图添加额外的约束，如[28]中的边界损失项。与上述方法不同，本文研究了如何通过扩展池技术在U形结构中的作用通常，我们的模型由基于特征金字塔网络（FPN）的两个主要模块组成[22]：全局指导模块（GGM）和特征聚合模块（FAM）。如图1，我们的GGM组成的金字塔池模块（PPM）和一系列的全球引导流（GGF）的修改版本。与直接将PPM插入U形网络的[37]不同，我们的GGM是一个单独的更具体地，PPM被放置在主干的顶部以捕获全局引导信息（显著对象所在的位置）。通过引入GGF，PPM收集的高级语义信息可以在39173918RPRRF F FFPN结构RRR8×up4×向上2×向上F一F一F一F一分数图骨干PF上采样3×3 conv+上采样残余块特征聚合模块（FAM）金字塔池化模块（PPM）全局指导流（GGF）全局指导模块（GGM）可选的边相关路径图中的特征可视化位置。4图1.我们提出的方法的总体管道。为了清楚起见，我们还在左上角放置了一个标准的U形FPN结构[22]。用于边缘检测的顶部部分是可选的。所有金字塔级别，弥补了U形网络的缺点考虑到粗层次的特征图从GGF与金字塔的不同尺度的特征图的融合问题，我们进一步提出了一个特征聚合模块（FAM），它采取融合后的特征图作为输入。该模块首先将融合的特征映射转换为多个特征空间，以捕获不同尺度的局部上下文信息，然后组合信息以更好地加权融合的输入特征映射的组成。由于上述两个模块都基于池化技术，因此我们将方法称为PoolNet。据我们所知，这是第一篇旨在研究如何设计各种基于池的模块来帮助提高显著对象检测性能的论文。作为这项工作的扩展，我们还配备了我们的架构与边缘检测分支，以进一步锐化显着对象的细节，通过联合训练我们的模型与边缘检测。为了评估我们提出的方法的性能，我们报告了多个流行的显着对象检测基准的结果。没有花里胡哨的东西，我们的PoolNet在很大程度上超过了以前所有最先进的方法此外，我们还进行了一系列消融实验，让读者更好地了解我们架构中每个组件对性能的影响，并展示联合训练与边缘检测如何帮助增强预测结果的细节。我们的网络可以在单个NVIDIA Titan Xp GPU上以超过30 FPS的速度运行300×400的输入图像。当边缘分支不被合并时，在5,000个图像的训练集上训练仅花费不到6小时，这比大多数先前的方法快得多[24，43，28，44，45，9]。这主要是由于涉及池化技术的有效利用。因此，PoolNet可以被视为一个基线，以帮助简化未来的研究在显着的对象检测。2. 相关工作最近，受益于CNN强大的特征提取能力，大多数基于手工特征的传统显着性检测方法[3，12，20，31]已逐渐被超越。Li等人。 [18]使用从CNN中提取的多尺度特征来计算每个超像素的显着性值。Wang等人。[34]采用了两种CNN，旨在将局部超像素估计和全局建议搜索结合在一起，以产生显着图。Zhao等人。 [48]提出了一种多上下文深度学习框架，该框架通过采用两个独立的CNN来提取局部和全局上下文信息。 Lee等人 [6]将低级启发式特征（如颜色直方图和Gabor响应）与从CNN提取的高级特征相结合。所有这些方法都将图像块作为CNN的输入，因此非常耗时。此外，它们忽略了整个输入图像的基本空间信息。为了克服上述问题，受全卷积网络的启发，更多的研究关注于预测逐像素显着性图[27]。Wang等人。 [36]使用低级线索生成显着性先验图，并进一步利用它来指导显着性的预测。Liu等人。 [23]提出了一种两阶段网络，首先产生粗略的显着性图，然后整合局部上下文信息以递归和分层地细化它们。Hou等人 [9]将短连接引入到多尺度侧输出中以捕获精细细节。Luo等人。[28]和Zhang等人。 [44]都提出了U形结构，并在-RAP3919用于精确检测显著对象的形成。Zhang等人。 [46]和Liu等人。 [24]将注意力机制与U形模型相结合，以指导特征整合过程。 Wang等人 [38]提出了一种网络来递归地定位显著对象，然后用局部上下文信息对其进行细化。Zhanget al. [43]使用双向结构在CNN表现的多层次特征之间传递消息，以更好地预测显着性图。Xiaoet al. [39]首先采用一个网络来调整分散注意力的区域，然后使用另一个网络进行显着性检测。我们的方法与上述方法完全不同我们没有探索新的网络架构，而是研究如何将简单的池化技术应用于CNN，以同时提高性能并加快运行速度。3. PoolNet文献[23，9，37，38]指出，高层语义特征有助于发现显著对象的具体同时，为了将从深层提取的特征从粗层次提高到细层次，中低层特征也是必不可少的。基于上述知识，在本节中，我们提出了两个互补的模块，它们能够准确地捕捉显著对象的确切位置，并同时锐化它们的细节。3.1. 整体管道我们基于特征金字塔网络（FPN）[ 22 ]构建我们的架构，这是一种以自下而上和自上而下的方式设计的经典U形架构，如图左上角所示。1.一、由于从分类网络[7，33]中组合多级特征的强大能力，这种类型的架构已被广泛用于许多视觉任务，包括显著对象检测。如图1，我们介绍了一个全球指导模块（GGM），这是建立在自下而上的途径的顶部。通过将GGM提取的高层信息聚合到每个特征层的特征图中，我们的目标是明确地注意到显著对象所在的不同特征层。在将GGM的引导信息与不同层次的特征融合后，我们进一步引入了一个特征聚集模块（FAM），以保证不同尺度的特征图能够无缝融合在下文中，我们描述上述两个模块的结构并详细解释它们的功能。3.2. 全球指导模块FPN提供了一个经典的架构，用于组合来自分类主干的多层次特征.然而，由于自上而下的途径是建立在自下而上(a)（b）（c）（d）（e）（f）（g）图2.视觉比较显著对象检测与我们提出的GGM和FAM的不同组合。(a)源（b）地面实况;（c）FPN基线的结果;（d）FPN + FAM结果;（e）FPN + PPM的结果;（f）FPN + GGM的结果;（g）FPN+ GGM + FAM的结果。骨干，这种类型的U形架构的问题之一在[49，47]中表明，CNN的经验感受野比理论上的感受野小得多，特别是对于更深层，因此整个网络的感受野不足以捕获输入图像的全局信息。对这一点的直接影响是，只有部分突出对象可以被发现，如图所示。2杯关于自上而下路径中精细级别特征图缺乏高级语义信息，我们引入了一个全局指导模块，该模块包含金字塔池化模块（PPM）的修改版本[47，37]和一系列全局指导流程（GGF），以显式地使每个级别的特征图知道显著对象的位置。更具体地说，PPM在我们的GGM由四个子分支来捕获输入图像的上下文信息。第一个和最后一个子分支分别是身份映射层和全局平均池化层。对于中间的两个子分支，我们采用自适应平均池化层1，以确保它们的输出特征图分别具有3×3和5×5的空间大小。活泼地鉴于PPM，我们现在需要做的是如何保证PPM产生的引导信息能够与自顶向下路径中不同层次的特征图合理融合。与以前的工作[37]完全不同，它简单地将PPM视为U形结构的一部分，我们的GGM独立于U形结构。通过引入一系列全局引导流（标识映射），高级语义信息可以很容易地传递到各个级别的特征映射（见图中的绿色箭头）。①的人。通过这种方式，我们显式地增加了自上而下路径的每个部分中的全局指导信息的权重，以确保在构建FPN时位置信息不会为了更好地展示我们的GGM的有效性，我们1https://pytorch.org/docs/stable/nn.html#adaptiveavgpool2d39208× up8×向下4×向上4×向下2×向下2×向上和3×3卷积平均池3×3转化图3.我们的特征聚合模块（FAM）的详细说明。它包括四个子分支，每个子分支在一个单独的尺度空间中工作。在上采样之后，所有子分支被组合，然后被馈送到卷积层。显示一些视觉比较。如图所示2 c，我们展示了FPN 2的VGGNet版本产生的一些显着性图。可以容易地发现，仅利用FPN主干，难以针对一些复杂场景定位显著对象。还存在其中仅检测到显著对象的部分的一些结果。然而，当我们的GGM被纳入，所产生的显着性地图的质量大大提高。如图2 f，显著目标可以被精确地发现，证明了GGM的重要性。3.3. 特征聚合模块我们的GGM的利用允许的全球制导信息被传递到特征地图在不同的金字塔级别。然而，一个新的问题，值得问的是如何使粗层次的特征图从GGM无缝融合的特征图在不同尺度的金字塔。以FPN的VGGNet版本为例，金字塔中对应于C={C2，C3，C4，C5}的特征图与输入图像的大小相比分别具有{2，4，8，16}的下采样率在FPN的原始自上而下路径中，具有较粗分辨率的特征图被上采样2倍。因此，在合并操作之后添加一个核大小为3×3的卷积层可以有效地减少上采样的混叠效应。然而，我们的GGF需要更大的上采样率（例如，8）。如何有效地弥合GGF与不同尺度特征图之间的巨大差距是非常必要的。为此，我们提出了一系列的特征聚合模块，每个模块包含四个子分支，如图所示。3.第三章。在前向传递中，输入特征图首先通过将其馈送到2与[22]类似，我们使用conv 2，conv 3，conv 4，conv 5输出的特征映射（表示为{C2，C3，C4，C5}）在VGGNet上构建特征金字塔[33]。对应的频道号{C2，C3，C4，C5}分别设置为{128，256，512，512}。（a）（b）（c）（d）图4.可视化FAM周围的特征图。左侧显示的特征图来自具有FAM的模型，而右侧显示的特征最后一行是源图像和相应的地面实况注释。(a-d)是不同位置的特征图的可视化。可以看出，当使用我们的FAM时，FAM之后的特征图可以更精确地捕获显著对象的位置和细节信息（列a），与两个卷积层之后的那些（列c）相同。使用不同的下采样率对池化层进行平均。然后将来自不同子分支的上采样特征图合并在一起，然后是3×3卷积层。总的来说，我们的FAM有两个优势。首先，它有助于我们的模型减少上采样的混叠效应，特别是当上采样率很大时（例如，，8）。此外，它允许每个空间位置查看不同尺度空间的本地上下文，进一步扩大了整个网络的接收场。据我们所知，这是第一个揭示FAM有助于减少上采样的混叠效应的工作。为了验证我们提出的FAM的有效性，我们将图中FAM附近的特征图可视化。4.第一章通过比较左部分（w/FAM）和右部分（w/o FAM），FAM之后的特征图（列a）比没有FAM的特征图（列c）能够更好地除了可视化中间特征图之外，我们还显示了一些由具有不同设置的模型产生的显着性图。二、通过比较列f（w/o FAM）和列g（w/FAM）中的结果，可以容易地发现，多次引入FAM使我们的网络能够更好地锐化显著对象的细节。这种现象在观察SEC时尤为明显。FAMGGFFAMconvGGFconv一B一FCD一F3921(a)（b）（c）（d）（e）（f）图5.通过与边缘检测联合训练的视觉效果。(a)源图像;（b）基本真相;（c-d）使用显著对象的边界作为边缘分支的地面实况的边缘图和显著图;（e-f）通过与边缘数据集联合训练的边缘图和显著性图[1，29]。通过比较列d和列f中的结果，我们可以很容易地观察到，使用高质量边缘数据集的联合训练大大改善了检测到的显著对象的细节图的第二行二、所有上述讨论验证了我们的FAM在不同尺度下更好地融合特征图的显著效果。在我们的实验部分，我们将给出更多的数值结果。4. 边缘检测联合训练在Sec. 3已经超越了所有以前的国家的最先进的单一模型的结果对多个流行的显着对象检测基准。尽管如此，通过观察我们的模型产生的显着性图，我们发现许多不准确（不完整或过度预测）的预测是由不清晰的对象边界引起的。首先，我们试图通过添加一个额外的预测分支建立在第二节提出的架构。3来估计显著对象的边界。详细的结构可以在图1的顶侧上找到。1.一、我们在自顶向下路径中的三个特征级别的FAM之后添加三个残差块[7]，用于信息转换。这些残差块类似于[7]中的设计，并且具有{128，256，512}从精细级别到粗略级别。如[26]中所做的那样，每个残差块之后是用于特征压缩的16通道3×3卷积层和用于边缘预测的单通道1×1卷积层我们还将这三个16通道的3×3卷积层连接起来，并将它们馈送到三个连续的3×3卷积层，其中有48个通道来传输帽。将边缘信息用于显著对象检测分支以用于细节增强。与[17]类似，在训练阶段，我们使用显著对象的边界作为联合训练的基础事实。然而，这一过程并没有给我们带来任何性能上的提高，而且有些结果仍然不够精确。对象边界的尾部信息。例如，如在图c的列中所演示的。5中，对于前景和背景之间具有低对比度的场景，所得到的显著性图和边界图仍然是模糊的。其原因可能是从显著对象导出的地面实况边缘图仍然缺乏显著对象的大部分详细信息。它们只是告诉我们显著对象的最外边界在哪里，特别是在显著对象之间有重叠的情况下。考虑到上述论点，我们尝试使用与[26]相同的边缘检测数据集[1，29]在训练期间，交替地输入来自显著对象检测数据集和边缘检测数据集的图像。如可见于图5、联合训练与边缘检测任务大大提高了检测到的显著对象的细节。我们将在实验部分提供更多的定量分析。5. 实验结果在本节中，我们首先描述实验设置，包括实施细节、使用的数据集和评估指标。然后，我们进行了一系列的烧蚀研究，以证明我们提出的方法对性能的每个组成部分的影响。最后，我们报告了我们的方法的性能，并将其与以前的国家的最先进的方法。5.1. 实验装置实施详情。所提出的框架是基于PyTorch存储库3实现的。所有的实验都是使用Adam [13]优化器进行的，权重衰减为5e-4，初始学习率为5e-4。在15个时期之后除以10。我们网络总共训练了24个epoch。我们网络的骨干参数（例如，、VGG-16 [33]和ResNet-50[7]）用在ImageNet数据集上预训练的相应模型初始化[16]，其余模型随机初始化。默认情况下，我们的消融实验基于VGG-16主干以及MSRA-B [25]和HKU-IS[18]数据集的联合集进行，如[17]中所做，除非有特殊解释。我们只使用简单的随机水平翻转来进行数据扩增。在训练和测试中，输入图像的大小保持不变，如[9]中所做的。数据集损失函数。为了评估我们提出的框架的性能，我们对6个常用的数据集进行了实验，包括ECSSD[41]，PASCAL- S [21]，DUT-OMRON [42]，HKU-IS[18]，SOD [30]和DUTs [35].有时，为了方便起见，如果没有前，我们使用数据集的初始值作为它们的缩写3https://pytorch.org3922[24]第24话 [19]第38话：我的世界，我的世界[19]图6.与先前最先进方法的定性比较显然，与其他方法相比，我们的方法不仅能够这使得我们得到的显着图非常接近地面实况注释。明显的冲突我们使用标准二进制交叉熵损失进行显著对象检测，使用平衡二进制交叉熵损失[40]进行边缘检测。评价标准。我们使用三种广泛使用的方法来评估我们的方法和其他方法的性能：精确-召回（PR）曲线、F-测量分数和平均绝对误差（MAE）。F-measure，表示为Fβ，是一种整体性能度量，计算公式如下：PPM GGF FAMMaxF↑ MAE↓ MaxF↑ MAE↓1✓✓✓✓0.7700.0760.8380.12420.7830.0710.8470.12530.7720.0760.8430.12140.7900.0690.8550.120100000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000010.0630.861 0.117精确度和召回率的加权调和平均值：Fβ= （1+β2）×精确度×召回率β2×精确度+召回率（一）表1.在两个流行的数据集上对所提出的架构进行消融分析。所有实验均基于VGG-16主干，并在MSRA-B [25]和HKU-IS[18]的联合集上进行训练。默认情况下，我们的基线是FPN的VGG-16版本[22]。其中β2被设置为0.3，如在先前的工作中所做的那样，以使精确度比召回率更重要。MAE分数指示显著图S与地面实况G相比有多相似：可以观察到，我们的架构中的每个组件都发挥着重要的作用，并有助于性能。每列中的最佳结果以红色突出显示。MAE=1μm宽×高ΣH|（二）|(2)GGM和FAM，所有其他配置相同。表1显示了在两个具有挑战性的数据集上的性能x=1y =1其中W和H分别表示S的宽度和高度。5.2. 消融研究在本小节中，我们首先研究了我们提出的GGM和FAM的有效性然后，我们对我们的GGM和FAM的配置进行了更多的实验。最后，我们展示了联合训练与边缘检测对性能的影响。GGM和FAM的有效性。为了证明我们提出的GGM和FAM的有效性，我们基于具有VGG-16骨架的FPN基线进行消融实验。除了不同的组合DUT-O和SOD。相应的视觉比较可参见图二、• 仅限GGM。添加GGM（表1中的第4行）给出了在FPN基线上的两个数据集上的F测量和MAE方面的性能增益。GGM产生的全局指导信息使我们的网络能够更多地关注显着对象的完整性，大大提高了显着性图的质量。因此，显著对象的细节可以被锐化，这可能被错误地估计为具有有限感受野的模型的背景（例如，背景噪声）。，图中的最后一行。2）的情况。• 仅限FAM。简单地将FAM（表1的第5行）嵌入到号GGM + FAM[30]第三十二话：W3923FPN基线中，如图2所示13924DCL MSR DSS Amulet SRM PAGR DGRL PiCANet Ours1 1 10.90.90.90.80.80.80.70.70.70.60 0.2 0.4 0.6 0.810.60 0.2 0.4 0.6 0.810.60 0.2 0.4 0.6 0.8 1(a)[21]（b）香港大学-IS [18]（c）DUTS-TE [35]图7.三个流行的显著对象数据集上的精确度（纵轴）召回率（横轴）曲线还有助于提高相同两个数据集上的F-测量和MAE得分的性能这可能[30]第二十一届中国国际航空航天博览会设置MaxF MAE MaxF Mae MaxF MAE是因为FAM内部的池化操作也将整个网络组件的感受野扩大到基线，FPN基线仍然需要合并不同级别的特征图，这在-表明我们的FAM解决上采样的混叠效应的有效性。• GGM FAM。通过将GGM和FAM引入基线（表1的最后一行），与上述两种情况相比，F-测量和MAE评分的表现可以这一现象说明我们的GGM和FAM是两个互补的模块。它们的利用允许我们的方法具有准确发现突出对象和细化细节的强大能力，如图所示。二、更多的定性结果可以在图中找到。也是6。GGM的配置。为了更好地理解我们提出的GGM的构成，我们进行了两个消融实验，分别对应于表1的第2行和第3行。我们交替地删除PPM和GGF中的一个，同时保持另一个不变。可以看出，与考虑这两种操作的结果（第4行）相比，这两种操作都使性能下降这些数值结果表明PPM和GGF在我们的GGM中起着重要的作用。缺少其中任何一个都不利于我们方法的执行。联合训练的影响。为了进一步提高我们的方法产生的显着性图的质量，我们尝试将边缘检测与显着对象检测相结合，在联合训练的方式。在表2中，我们列出了当考虑两种边界信息时的结果。可以看出，使用显著对象的边界作为监督结果没有任何改进，而使用标准边界可以极大地提高所有三个方面的性能表2.消融分析我们的方法时，使用不同类型的边界。此处的基线是指FPN加GGM + FAM的VGG-16版本。我们还使用MSRA-B [25]和HKU-IS [18]的组合作为训练集。‘SalEdge’refers to the boundaries of salient objects and ‘StdEdge’ refers tothe standard datasets for edge detection, which include[1]和PASCAL VOC上下文[29]，如[26，15]中所做的特别是MAE指标。这表明，涉及详细的边缘信息是有助于显著目标检测。5.3. 与最先进技术的比较在本节中，我们将我们提出的PoolNet与13种以前最先进的方法进行了比较，包括DCL [19]，RFCN [36]，DHS [23]，MSR [17]，DSS [9]，NLDF [28]，[45]第45话：你是谁？[46][24][25][26][27][28][29][29]为了公平的比较，这些方法的显着图是由作者发布或直接提供的原始代码生成的。此外，所有结果都直接来自单模型测试，而不依赖于任何后处理工具，并且所有预测的显著性图都使用相同的评估代码进行评估定量比较。定量结果列于表3中。我们考虑VGG-16[33]和ResNet-50[7]作为我们的骨干，并显示对他们两个的结果此外，我们还在不同的训练集上进行了实验，以消除潜在的性能波动。从表 3 中，我们可以观察到，我们的PoolNet在具有相同骨干和训练集的所有数据集上几乎超过了所有以前的最先进结果不同方法之间的平均速度（FPS）比较（在相同的环境基线（B）0.8380.0930.8060.0630.8610.117B + SalEdge0.8350.0960.8050.0630.8630.120B +标准边缘0.8490.0770.8080.0590.8720.1053925培训ECSSD [41]PASCAL-S [21]DUT-O [42]香港大学国际学院[18][30]DUTS-TE [35]型号图片数据集MaxF↑MAE↓MaxF↑MAE↓MaxF↑MAE↓MaxF↑MAE↓MaxF↑MAE↓MaxF↑MAE↓VGG-16骨架DCL[19] 2，500MB0.8960.0800.8050.1150.7330.0940.8930.0630.8310.1310.7860.081[36]第三十六话MK0.8980.0970.8270.1180.7470.0940.8950.0790.8050.1610.7860.090国土安全部[23] 9，500MK+DTO0.9050.0620.8250.092--0.8920.0520.8230.1280.8150.065最低标准收入[17] 5 000MB + H0.9030.0590.8390.0830.7900.0730.9070.0430.8410.1110.8240.062[9] 2，500MB0.9060.0640.8210.1010.7600.0740.9000.0500.8340.1250.8130.065NLDF[28] 3，000MB0.9030.0650.8220.0980.7530.0790.9020.0480.8370.1230.8160.065UCF[45] 10，000MK0.9080.0800.8200.1270.7350.1310.8880.0730.7980.1640.7710.116[44]第四十四话MK0.9110.0620.8260.0920.7370.0830.8890.0520.7990.1460.7730.075[10]第 10话MB + H0.9230.055--0.7900.0680.9340.0340.8530.117--PAGR[46] 10 553DTS0.9240.0640.8470.0890.7710.0710.9190.047--0.8540.055[24]第二十四话DTS0.9300.0490.8580.0780.8150.0670.9210.0420.8630.1020.8550.053PoolNet（我们的）2，500MB0.9180.0570.8280.0980.7830.0650.9080.0440.8460.1240.8190.062PoolNet（我们的）5，000MB + H0.9300.0530.8380.0930.8060.0630.9360.0320.8610.1180.8550.053PoolNet（我们的）10，553DTS0.9360.0470.8570.0780.8170.0580.9280.0350.8590.1150.8760.043PoolNet†（Ours）10，553DTS0.9370.0440.8650.0720.8210.0560.9310.0330.8660.1050.8800.041ResNet-50骨干网SRM[37]10,553DTS0.9160.0560.8380.0840.7690.0690.9060.0460.8400.1260.8260.058DGRL[38]10,553DTS0.9210.0430.8440.0720.7740.0620.9100.0360.8430.1030.8280.049PiCANet[24]10,553DTS0.9320.0480.8640.0750.8200.0640.9200.0440.8610.1030.8630.050PoolNet（我们的）10,553DTS0.9400.0420.8630.0750.8300.0550.9340.0320.8670.1000.8860.040PoolNet†（我们的）10,553DTS0.9450.0380.8800.0650.8330.0530.9350.0300.8820.1020.8920.036MB：MSRA-B [25]，MK：MSRA10K [3]，DTO：DUT-OMRON [42]，H：HKU-IS [18]，DTO：DUTS-TR [35].表3. 6个广泛使用的数据集上的定量显著对象检测结果。不同主链的最佳结果分别以蓝色和红色突出显示。t：与边缘检测的联合训练。可以看出，我们的方法在几乎所有数据集上的F-测度和MAE方面都取得了最好的结果。大小 400 × 300224 × 224384 × 384 353 × 353256 × 256FPS32781416UCF [45]NLDF [28][9]第九章MSR [17]国土安全部[23]大小 224× 224400× 300400× 300 400× 300 224× 224FPS231212223表4.我们的方法（ResNet-50，w/ edge）和以前最先进的方法之间的平均速度（FPS）比较环境）也在表4中报告。显然，我们的方法比其他方法更快，更实时。PR曲线。除了数值结果，我们还显示了三个数据集的PR曲线，如图所示。7.第一次会议。可以看出，我们的方法（红色）的PR曲线与所有其他以前的方法相比特别突出。当召回分数接近1时，我们的准确率分数远远高于其他方法。这种现象表明，我们的显着图中的假阳性很低。目视比较。为了进一步解释我们的方法的优点，我们在图中展示了一些定性结果。六、从上到下，图像分别对应于具有透明对象、小对象、大对象、复杂纹理以及前景与背景之间的低对比度的场景。可以很容易地看出，我们的方法不仅可以突出正确的显著对象，而且还可以突出主要对象。[24]第二十四话 DGRL [38] SRM [37] 护身符[44]3926在几乎所有的情况下都保持他们尖锐的界限。6. 结论在本文中，我们通过设计两个简单的基于池化的模块：全局引导模块（ GGM）和特征聚合模块（FAM）来探索池化在显著目标检测中的潜力。通过将它们插入到FPN架构中此外，我们还揭示，联合训练我们的网络与标准的边缘检测任务在端到端的学习方式可以大大提高检测到的显着对象的细节。我们的模块独立于网络架构，因此可以灵活地应用于任何基于金字塔的模型。这些方向还提供了有希望的方法来提高显着图的质量。鸣谢。本研究得到了国家自然科学基金（61620106008，61572264）、国家青年人才资助计划、天津市自然科学基金（ 17JCJQJC 43700 ，18ZXZNGX 00110）和天津市基础科学基金（2010）的资助。中央高校科研经费（南开大学，NO. 63191501）。3927引用[1] 巴勃罗·阿贝莱斯，迈克尔·梅尔，查利斯·福克斯，还有吉坦德拉·马利克.轮廓检测和分层图像分割。IEEETPAMI，33（5）：898-916，2011年。五、七[2] Ali Borji和Laurent Itti利用局部和全局块稀有性进行显著性检测。在CVPR，第478-485页，2012中。1[3] Ming Cheng，Niloy J Mitra，Xumin Huang，Philip HSTorr，and Song Hu.基于全局对比度的显著区域检测。IEEE TPAMI，2015年。一、二、八[4] 郑明明，张芳略，尼洛伊·J·米特拉，黄晓磊，胡世民。Repfinder：查找近似重复的场景元素进行图像编辑。ACM TOG，29（4）：83，2010. 1[5] CelineCraye，D a vidFilliat，andJean-Fran c.Goudou. 基于对象的视觉显著性学习的实验探索在ICRA，第2303-2309页，2016年。1[6] 李佳彦戴有荣金俊模具有编码的低级距离图和高级特征的深度在CVPR，2016年。2[7] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。三、五、七[8] Seunhoon Hong ， Tackgeun You ， Suha Kwak ， andBohyung Han.利用卷积神经网络学习判别显著图进行在线跟踪。在ICML，第597-606页，2015中。1[9] Qibin Hou ， Ming-Ming Cheng ， Xiaowei Hu ， AliBorji，Zhuowen Tu，and Philip Torr.具有短连接的深度监督显著对象检测。IEEE TPAMI，41（4）：815-828，2019。一二三五六七八[10] Hou Qibin ， Jiang-Jiang Liu ， Ming-Ming Cheng ， AliBorji，and Philip HS Torr.一石三鸟：提出了一个统一的显著目标分割、边缘检测和骨架提取的框架. arXiv预印本arXiv：1803.09860，2018。一、七、八[11] Laurent Itti，Christof Koch，and Ernst Niebur. 基于显著性的快速场景分析视觉注意IEEE TPAMI，20（11）：1254-1259，1998. 1[12] Huaizu Jiang ， Jingdong Wang ， Zejian Yuan ， YangWu，Nan- ning Zheng，and Shipeng Li.显著对象检测：一种区分性的区域特征整合方法。在CVPR，第2083-2090页，2013年。一、二[13] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。2015年，国际会议。5[14] Dominik A Klein和Simone Frintrop。用于显著对象检测的特征统计的中心-环绕发散。见ICCV，2011年。1[15] Iasonas Kokkinos 使用深度学习推动边界检测的边界。arXiv预印本arXiv：1511.07386，2015。7[16] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。NIPS，2012年。5[17] 李冠斌、元燮、梁琳、益州余。实例级显著对象分割。在CVPR，2017年。一、五、六、七、八[18] 李冠斌、余益州。基于多尺度深度特征的视觉显著性。在CVPR中，第5455-5463页，2015年。二五六七八[19] 李冠斌、余益州。用于显著对象检测的深度对比度学习在CVPR，2016年。六七八[20] Xiaohui Li，Huchuan Lu，Lihe Zhang，Xiang Ruan，and Ming-Hsuan Yang.通过密集和稀疏重建的显著性检测。在ICCV，第2976-2983页，2013中。2[21] Yin Li，Xiaodi Hou，Christof Koch，James M Rehg，and Alan L Yuille.显着对象分割的秘密在CVPR，第280-287页，2014年。五七八[22] 林宗义、杜拉拉、葛希克、何开明、哈里哈兰、贝隆吉.用于对象

下载后可阅读完整内容，剩余1页未读，立即下载