基于金字塔关注度和显著边缘的显著对象检测方法

177 浏览量更新于2023-10-18 收藏 2.33MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1448基于金字塔关注度和显著边缘的王文冠1，赵树洋2，沈建兵1，2，Steven C.H. Hoi3，4，Ali Borji51阿联酋人工智能初始研究所2北京理工大学3新加坡管理大学4Salesforce Research Asia，新加坡5MarkableAI，美国wenguanwang.ai @gmail.comzsyprich@bit.edu.cnshenjianbingcg@gmail.comexample.com，wwwchhoi@smu.edu.sgaliborji@gmail.com摘要提出了一种利用卷积神经网络（CNN）检测图像中显著对象的新方法。这个被命名为PAGE-Net的网络有两个主要的创新贡献。首先是设计一个基本的金字塔注意力结构的显着对象检测，这使得网络能够集中更多的显着区域，同时利用多尺度显着性信息。这种堆叠的注意设计提供了一种有效的方式来有效地增强相应网络层的表征能力，并扩大了感受野。第二个贡献是提出了一个显著边缘检测模块，该模块强调了显著边缘信息的重要性，因为它为更好地分割显著对象和细化对象边界提供了强有力的这样的显著边缘检测模块学习精确的显著边界估计，并因此鼓励更好的边缘保持显著对象分割。详尽的实验表明，所提出的金字塔注意力和显著边缘都是有效的显著对象检测，我们的PAGE-Net优于国家的最先进的方法在几个流行的基准测试，具有快速的推理速度（25 FPS在一个单一的GPU）。1. 介绍显著目标检测（SOD）是指定位和分割图像中最显著的目标或区域的问题。它可以广泛应用于改善各种视觉任务，例如对象建议生成[2]，对象分割[42，44]，照片裁剪[45，41]和视频对象跟踪[13]等。SOD在计算机视觉中得到了广泛的研究。传统的方法通常设计手工制作的低级别特征并进行启发式假设[49，17]，这通常无法对具有复杂场景的图像产生令人满意的结果。再-*同等缴款。†通讯作者：沈建兵。目前，深度学习方法已经成为SOD的重要趋势，并且经常报告显著的改进。尽管正在积极研究，但如何为SOD设计一个有效而高效的深度神经网络模型仍然是一个开放的挑战。在本文中，我们提出了一种新的金字塔注意和显着的边缘感知显着性模型，称为PAGE-Net，用于显着性对象检测，它配备了两个关键模块：（1）金字塔注意模型，通过考虑多尺度注意和扩大显着性模型的感受野，有效地增强显着性表征;以及（2）显著边缘检测模块，其示例性地学习显著对象边界以更好地定位和锐化显著对象。所提出的PAGE网络的设计是出于以下两个方面。首先，特征表示是基于深度学习的显着性模型的关键，并且总是希望探索更有效的策略来处理尺度空间特征学习问题。正如许多显着性研究[34，57，14]所证明的那样，多尺度显着性特征对于SOD至关重要。因此，最近的深度显着性模型主要集中在组合来自中间网络层的输出。与现有的工作不同，我们提出了一种新的金字塔注意力模型，继承了注意力机制的特征增强能力，并显式地处理多尺度显著性特征学习问题。事实证明，将注意力机制引入网络对于选择任务相关特征是有用的[33]。如图1.我们扩展了注意力机制，增加了显着性计算的层次结构。这样的设计是重要的，因为它有效地增加了卷积层的接收场（即使对于浅层）。我们的显着性模型被鼓励使用多尺度信息关注重要区域（图1）。（b）款。使用金字塔注意力，原始特征中的背景反应（图1）。 1（c））被成功地抑制，导致更多的歧视显着表示（图1）。1（d））和更好的结果（图。1（g））。这样的注意力模块还通过以下方式提供额外的可解释性维度：1449图1：所提议的PAGE-Net的激励性示例和想法。（a）形象。(b)金字塔式注意力地图（第3.1节）。(c)原始的显着特征。(d)通过应用（b）中提出的金字塔注意力来改进显著性特征。(e)检测到显著性边缘图（§3.2）。(f)显著性结果w/o。注意和显著边缘检测模块。(g)通过考虑金字塔注意力和显著边缘线索改进了结果。(h)Ground Truth显着图。解释了我们的显着性模型在关注什么。其次，还期望找到增强显著对象检测结果的锐度的有效手段。CNN被设计为通过重复的池化和子采样操作来产生分层特征图，其中较高层获得更大的感受野和更强的表示能力，但丢失更详细的空间信息。这对于高级任务可能是有用的，但不幸的是降低了低级任务的准确性，诸如显著对象分割，其中需要精确的逐像素激活，特别是在显著对象边界上。在显著对象检测领域，尽管密集连接或自下而上/自上而下的网络架构[54，14，26]（见图11中的方案），但在显著对象检测领域，2（a））已经被广泛地研究以自上而下的方式逐渐恢复显著对象细节，但是锐度的问题仍然是一个挑战。受语义分割[4，6]最新进展的启发，我们建议为显着性模型配备显着边缘检测模块，专门设计用于检测显着对象边界。因此，网络可以利用更明确的突出边缘（图1）。 1（e）），以更好地定位突出的对象和锐化结果（图。1（g））。总之，我们的主要贡献有三方面：（i）我们提出了一个金字塔注意力模型，用于多尺度特征学习和扩展感受野的区分显着性表示（§3.1）;（ii）我们提出了一个利用显著边缘信息明确的显着对象检测（§3.2）;（iii）我们进行了广泛的实验，对六个流行的基准，即。、ECCSD[49]、DUT-OMRON [50]、HKU-[21]，[25]，[ 30 ]，[35]，[36]，[37]，[38]，[39]所提出的深度显着性模型在许多强基线上产生一致的改进。最后，该模型在现代GPU上运行速度非常快，达到了25FPS的实时推理速度。2. 相关工作2.1. 显着物体检测显著对象检测的开创性工作可以可以追溯到Liu etal. ，[28]和Achanta et al. ，[1]。从那时起，许多后续工作已被报道，主要使用基于对比度的假设[9，49，17]，背景先验[46，58]。这些早期的方法[43，10]通常严重依赖于手工制作的功能和启发式假设。最近，由于CNN在计算机视觉中的巨大成功，深度学习已经成为SOD的一个有前途的替代方案。基于CNN的显着性模型允许灵活的显着性表示，具有强大的端到端学习能力，从而实现比经典方法更好的性能。在文献中已经提出了各种深度学习方法。例如，一些方法将深度学习模型与手工制作的特征[20]，启发式显着性先验[36]，水平集[15]，上下文信息[57]或显式视觉固定[40]集成在一起。其他方法利用全局和局部显着性信息[21，34，54，29]，结合像素级和片段级特征[22]，激发网络层之间的连接[14]，或探索更复杂的深层架构[18，26，55，37，32]。我们的方法与现有研究的一个明显区别在于显著边缘保持属性。当前显著性网络架构倾向于堆叠多层特征。虽然最终预测层访问多尺度和多层次信息并产生更精确的显著性分割，但由于卷积核的平滑性和空间池化的下采样，锐化问题已经采用了一些后处理算法[36，14，22最近的一些方法[53，23]也探索了边界线索，但它们与我们的方法非常不同。例如，Zhang[53]et al.简单地使用额外的损失来强调显著对象边界内的像素的检测误差。在[23]中，他们考虑了来自预训练轮廓检测器的语义轮廓信息[51]。相比之下，我们用一个显著的边缘检测模块扩展了每个侧面层，并端到端地学习边缘和对象信息的组合。1450我Σi in=12N2N2N2Nexp（）图2：所提出的PAGE-Net的体系结构设计。（a）在先前的显著性方法中使用的典型的自下而上/自上而下的网络架构。(b)PAGE-Net配备了两个基本模块：金字塔注意模块和显著边缘检测模块。（c）金字塔注意力模块的架构（§3.1），其中学习注意力以增强多尺度中的显着性表示。(d)金字塔注意力模块为相应的卷积层分配具有增加的感受野的全局视图。（e）边缘检测模块（§3.2）提供明确的边缘信息，用于定位显著对象和锐化显著对象边界。2.2. 网络环境下的可训练注意机制深度神经网络的注意力机制最近得到了积极的研究，它首先由Bahdanau等人 [3]提出用于神经机器翻译。后来，它被证明在许多自然语言处理和视觉任务中很有用，例如，字幕生成[48]、问题回答[52]和场景识别[5，33]等。在这些研究中，注意力是以自动、自上而下和目标驱动的方式学习的，允许网络专注于图像或句子中与任务最相关的部分只有少数最近的SOD方法[56，27，7]使用了注意力网络。但我们的方法与他们的方法非常不同在我们的方法中，对于每个卷积层，都配备了一个注意力金字塔，用于基本上学习为突出区域分配更高的重要性，同时解决特征表示。与以往的显着性模型，同等对待所有位置的显着性特征，我们的模型侧重于在重要区域的功能，并考虑多尺度信息。这是通过使用堆叠注意力架构来实现的：堆叠建立在多尺度特征上的多个注意力层以形成统一的金字塔注意力模型。从技术上讲，让X表示来自显着性网络的卷积层的3D特征张量（图2（c））。这通常由宽度为M和高度为M的C个通道组成：X∈RM×M ×C。我们的目标是学习一组等空间大小的注意力面具，基于多尺度信息输出显著性特征X本质上，我们通过将X逐步下采样到多分辨率{Xn：Xn∈RM×M× C，n =1，2，3，. . . ，N}，具有N个步骤。对于Xn多尺度学习的问题。更重要的是，这种金字塔式的注意力设计使我们的模型具有在一定的尺度n内，我们使用软注意机制[48]来预测重要性图l ∈ [0，1]M× M。全球视野和提高学习能力，具体地，在M×Mspa上应用softmax运算。2N 2N接受领域3. 我们的方法tial地点。softmax的位置可以被认为是我们的模型认为输入特征中的对应区域是重要的概率。其定义为：图2（b）给出了PAGE-Net的简化说明，它由三个部分组成：一个用于特征提取的骨干网络，一个金字塔关注模块，以及一个ln=p（L= i|Xnexp（WnXn））=M M ，2n×2nWnXnj=1ji（一）其中i ∈ 1，. . . ，M× M，Wn是隐层的权重，显著边缘检测模块。我们首先描述我们的金字塔的注意力模块（在图。第3.1节第2（b）段）。一我们的显著边缘检测模块的详细描述2n2ni映射到位置softmax的第i个元素的层，L是一个随机变量，可以取M×M中的1个值。M×M2n2n（在图2（b）中）在§ 3.2中得到证明。在第3.3节中，我们l是注意力地图，2N2nl我我= 1时。通过提供更多实施细节。3.1. 金字塔注意力模块对于每个显著性网络层，通过上述操作，我们的模型学习了每个区域在一定尺度下的归一化重要性权重（注意力地图）（图1）。第2段（c）分段）。这对于显著性表示是必不可少的，因为显著区域应该具有更高的权重。模块首先被合并以生成更有区别的一旦注意概率{ln}N对一切1451{X}n=1k=1jjj图3：我们的金字塔注意力模块的插图。（a）显示了我们的注意力模块的工作流程。(d)给出了注意力层次结构，可以捕获多尺度信息并强调重要区域。比较（c）和（e）中的特征，我们发现注意模块成功地抑制了背景反应。(f)以及（g）示出施加注意力之前/之后的结果可以观察到，PAGE-Net通过注意力模块生成更准确的结果。更多详情请参见§3.1。nNn=1采用上采样操作，每个对应的卷积层的视图（具有sig，将它们调整为原始分辨率：{l′n∈感受野明显扩大;见图2（d））。一个更[0，1]M×M}N.图3提供了更详细的说明-注意力模块的详细架构在我们的注意力模块。显然，这些注意力地图(Fig.3（d））对应于不同的分辨率，并且可以显示重要区域。更重要的是，金字塔注意力模块配备了堆叠池操作，大大提高了相应的特征提取层的感受野在计算这些重要性概率之后，通过考虑不同区域中的特征切片的期望来改进原始特征表示X第一章§3.3.讨论来自不同位置的特征对显著性计算的贡献不相等。因此，我们介绍-引导注意力机制集中在那些对突出对象的性质最重要的位置上。通过我们的设计，注意力模块可以通过迭代下采样特征图来快速收集多尺度信息。这样的金字塔结构使得特征层的接收场能够容易且快速地扩大。相比之前的专注模式，我们的金字塔关注度更Yj= NljXj，j ∈ 1，. . . ，M × M，（2）n=1由于其有效使用多尺度特征，其中Y是更新的特征，Yj是特征立方体的第j个切片。在这里，该模型通过对不同区域中的图像特征进行期望来计算输入的期望值。我们的注意力模块不仅用于增强聚焦位置的显着性表示正如[33]中所讨论的，注意力地图细化的特征通常具有大量接近零的值。因此，许多细化特征的堆叠使得反向传播变得困难。为了解决这个问题，我们在等式中应用恒等映射[12]。第二章：Y=1N（1+l′n）X， j∈1，. . . ，M× M.（三）Nn=1即使具有非常小的注意力（l′j0），来自原始特征X的信息仍将通过残差控制来保留强大的表征与扩大的感受野，所有其中的每一个对于逐像素显著性估计是必要的。3.2. 显著边缘检测器利用细化的显著性特征Y，可以通过将Y直接馈送到具有S形的卷积层的小堆叠中来生成显著性图，如在先前的方法中所做的。然而，我们观察到，检测不能产生一个明确的边界之间的显着对象和背景（见图）。第四条（b）款）。这主要是由于卷积核的平滑性和池化层的下采样为了解决这个问题，我们设计了一个额外的显着边缘检测模块（见图1）。2（d））来迫使网络强调显著性边界对齐，并学习使用显著性边缘信息来细化显著性图。连接如图所示3（c）及（e）段所指的─设{（Ik，Gk，Pk）}K表示训练数据，其中特征提取模块能够增强特征图以获得更有效的显著性表示。这种金字塔式的注意力体系结构提供了一种可行的方法，Ik、Gk和Pk分别是彩色图像、对应的地面实况显著性图和显著对象边界图。注意，边缘图Pk（图4（d））1452PY图4：PAGE-Net的显著边缘检测模块的图示。在（c）中检测到的显著对象边缘提供关于显著对象的位置的重要信息。与（b）相比，利用该显著边缘信息，PAGE-Net能够生成更准确和更好的边界附着结果（e）。更多详情请参见§3.2。可以很容易地从地面真实显着图Gk（图4（f））获得。我们首先建立一个显著的边缘检测模型F（YIk）（在图2和图4（c）中），其可以生成估计的显著边缘图（在图4（c）中）。2）对于输入图像Ik.这里，F表示由卷积层的堆叠组成的显著边缘检测模块，并且YIk对应于Ik的增强特征。F可以通过最小化以下L2范数损失函数来学习：1K边10、A（I）），其中H表示对来自所有先前层的附加输入进行上采样和级联的小网络F、R、H的详细结构见§3.3。讨论为了保留更多的边界信息，我们添加了显著边缘检测模块F，其特别关注在真实边缘图P的监督下分割显著对象边界。请注意，F足够通用，可以合并其他边缘感知滤波器，如[6]。然后使用显著性特征Y和来自F的显式显著边缘信息两者来学习用于检测显著对象的读出网络R。在此基础上，进一步引入了稠密连接，通过重用来提取表示力来自其他层的信息。3.3. 详细的网络架构骨干网。骨干网络是从VGG-16 [31]模型构建的，该模型以其简单性和简单性而闻名，并广泛用于显着性模型。采用VGG-16的前五个卷积块如图5，我们省略了最后一个池化层（pool5）以保留更多的空间信息。金字塔注意力模块。设{X5，X4，X3，X2，X1}KLEdg（Pk，F（Yk=1Ik））=||PK-F（YIkK2）||二、（四）表示来自最后卷积层的特征五个conv块：conv 1 -2、conv 2 -2、conv 3 -3、conv 4 -3和然后构建显著性读出网络R（YIk，F（YIk））以生成显著性估计（在图1中）。 2）同时计算显著性特征YIk和显著边缘信息F（YIk）。因此，可以通过最小化以下组合损失来学习整个模块conv5-3。对于每个X，我们首先将X下采样为多个双秤对于尺度n，注意力模块被定义为三个连续的操作：BN→Conv（1×1，1）→ReLU，其中最小的注意力地图被设置为14×14。应用上采样操作来调整注意力地图的{ln}n在所有尺度上恢复到其原始大小。然后我们得到1ΣK萨尔G、R（Y、F（Y埃奇。通过Eq. 3 .第三章。Kk=1Lk我kIk））+LPk，F（YIk）、（五）其中，显著性损失LSal是考虑显著像素和非显著像素之间的数据不平衡的加权交叉熵损失：边缘检测模块。边缘检测模块F定义为：BN→ Conv（3×3，64）→ReLU→ Conv（1×1，1）→S形。建立了显著性读出函数R如：BN→ Conv（3×3，128）→ReLU→ BN→ Conv（3×L萨尔。ΣG，R（ YI，F（ YI））=−Σβ（1−Gi）log（1−Si）我+（1−β）Gilog（Si），（六）3，64）→ReLU →Conv（1×1，1）→sigmoid。对于第三层，采用一组上采样操作（H_∞），以便放大所有显著对象估计和显著边缘信息。其中i∈<$I，<$I是图像I的格域。S表示R和Si∈S的显著性估计。β是指地面实况G中的显著像素的比率。与损失函数在图5和显著边缘检测模块F中，读出网络R学习通过利用显式边缘信息来优化显著对象估计由于神经网络的分层性质，我们在模型中引入了密集连接[16]，以利用来自不同层的信息并增加代表性能力。第二类中的显著性特征Y通过考虑所有多层显著性估计{S∈-1，. . .，S1}，以及边缘信息{E−1，. . . ，E1}从所有前面的n-1层：Y← [Y，H（E−1，. . . ，E1，S−1，. . . 、S1）]、（7）.1453信息从所有先前层与当前特征分辨率。然后，我们更新显着性表示Y通过Eq。7 .第一次会议。接着，采用边缘检测模块F和显著性读出函数R来生成相应的显著性图S。以 conv 3 -3 层为例。给定输入图像I∈R224×224×3，来自conv 4 -3和conv 5 -3层的显著图S2、S1和边缘图E2、E1首先被上采样到当前空间分辨率56×56。然后被馈送到H3中，并且特征Y3相应地被更新。应用边缘检测模块F3和显著性读出函数R3，得到显著性图S3∈[0，1]56×56。这样，我们从conv 1 -2、conv 2 -2、conv 3 -3、conv 4 -3和conv5 -3中得到五个显著图{S5，S4，S3，S2，S1}，其中S5∈ [0，1]224×224是最后的，最准确的。1454k=1k我k我k图5：PAGE-Net的侧输出图示。为了更好的可视化，我们省略了显着的边缘结果。可以观察到，来自VGG-16的不同卷积块的显著性可以以自上而下的方式逐渐优化。详情见§3.3(a) ECCSD（b）DUT-OMRON（c）HKU-IS（d）PASCAL-S图6：四个广泛使用的基准的PR曲线的定量结果：ECCSD [49] ，DUT-OMRON [50] ，HKU-IS [21] 和PASCAL-S [25]。PAGE-Net获得了良好的性能。最好用彩色观看详情见第4.1率显着性估计。整体损失。所有训练图像{Ik}K重新-基于竞争对手（详细比较见第4.1固定尺寸为224×224×3。显著边界图Pk∈ {0，1}224×224是从对应的真实显著对象图Gk∈ {0{0，1}224×224并扩大到三像素半径。考虑-在所有五边输出中，一列火车的总训练损失图像Ik为：4. 实验我们在六个流行的基准点上进行了广泛的实验：[ 21 ]第49话：我的世界，我的世界[25][26][ 27][28][29]所有这些都是公开的，Σ5 .=1 L萨尔。G，R（Y，F（Y））.ΣΣ（八）定量评估的基础事实为了评估，我们采用三种广泛使用的度量[11]，即，精确-召回（PR）曲线，F-测量和平均绝对误差（MAE）。+ LEdgP，F（Y）.k我k通过分层损失函数，PAGE-Net中的五个中间层可以直接访问损失函数的梯度，从而实现隐式深度监督[19]。实施详情。PAGE-Net在Keras中实现。按照[54，20，36]中的训练协议，我们使用THUS 10K [9]，包含10，000个像素的图像，明智的注释，用于培训。在训练阶段，学习率被设置为0.0001，并且每两个时期减少10个因子。在每次训练迭代中，我们使用10张图像的小批量。整个训练过程大约需要7个小时，使用Nvidia TITAN X GPU。由于我们的模型不需要任何预处理或后处理，因此推理仅需要0.04秒来处理大小的图像224×224。这使得它比大多数深度学习更快4.1. 性能比较我们将提出的PAGE-Net与最近19种基于深度学习的替代方案进行了比较：[21]、LEGS [34]、DS [24]、DCL [22]、ELD [20]、MC [57]、RFCN [36]、DHS[26]，HEDS [14]，KSR [38]，NLDF [29]，DLS [15]，AMU[54]、UCF [55]、SRM [37]、FSN [8]、PAGR [56]、RAS[7]和C2S [23]。我们使用具有推荐的参数设置的实现或作者共享的显著图。为了公平比较，我们排除了其他基于ResNet的模型，如[39]，或使用更多训练数据的模型[40]。由于完全连接的条件随机场（CRF）已在[22，14]中用作后处理，因此我们进一步提供使用CRF的基线PAGE-Net+CRF1455方法[第49话][第50话][21]第二十一话PASCAL-S [25][30]DUTS-TE [35]F评分↑MAE↓F评分↑MAE↓F评分↑MAE↓F评分↑MAE↓F评分↑MAE↓F评分↑MAE↓[21]第二十一话0.8310.1080.6940.0920.8600.1290.7640.1450.7850.1550.6570.114腿[34]0.8310.1190.7230.1330.8120.1010.7490.1550.6910.1970.6110.137[24]第二十四话0.8100.1600.6030.1200.8480.0780.8180.1700.7810.150--DCL [22]0.8980.0710.7320.0870.9070.0480.8220.1080.7840.1260.7420.150ELD [20]0.8650.0800.7000.0920.8440.0710.7670.1210.7600.1540.6970.092MC [57]0.8220.1070.7020.0880.7810.0980.7210.147----RFCN [36]0.8980.1090.7010.1110.8950.0890.8270.1180.8050.1610.7520.090国土安全部*[26]0.9050.061--0.8920.0520.8200.0910.7930.1270.7990.065[第14话]0.9150.0530.7140.0930.9130.0400.8300.1120.8020.1260.7960.057KSR [38]0.8010.1330.7420.1570.7590.1200.6490.1370.6980.1990.6600.123NLDF [29]0.9050.0630.7530.0800.9020.0480.8310.1120.8080.1300.7770.066DLS [15]0.8250.0900.7140.0930.8060.0720.7190.136----AMU [54]0.8890.0590.7330.0970.9180.0520.8340.1030.7730.1450.7500.085UCF [55]0.8680.0780.7130.1320.9050.0740.7710.1280.7760.1690.7420.117SRM [37]0.9100.0560.7070.0690.8920.0460.7830.1270.7920.1320.7980.059FSN [8]PAGR [56]0.9100.9040.0530.0610.741-0.073-0.8950.8970.0440.0480.8270.8150.0950.0940.781-0.127-0.761-0.066-RAS*[7]0.9080.0560.7580.0680.9000.0450.8040.1050.8090.1240.8070.059C2S [23]0.9020.0540.7310.0800.8870.0460.8340.0820.7860.1240.7830.062PAGE-Net0.9240.0420.7700.0660.9180.0370.8350.0780.7960.1100.8150.051PAGE-Net+CRF0.9260.0350.7700.0630.9200.0300.8350.0740.7960.1080.8170.047CHTHS [26]使用THUS 10 K和DUT-OMRON进行训练。[21][22][23][24][25][26] [27][28][29][2表1：在六个著名的SOD基准上使用F-测量（越高越好）和MAE（越低越好）的定量结果：ECCSD [49]，DUT-OMRON [50]，HKU-IS [21]，PASCAL-S [25]，SOD [30]和DUTS-TE [35]。为每个列中，前两个最佳条目分别以红色和蓝色突出显示。详情见第4.1图7：一些代表性挑战性示例的目视结果的定量比较。可以观察到，所提出的PAGE-Net能够处理各种具有挑战性的场景。最好用彩色观看详情见第4.1定量评价。所有方法的查准率-查全率曲线如图所示。六、由于篇幅有限，我们只展示了四个数据集的结果。如图所示，我们的PAGE- Net在所有数据集上的表现都优于同行，从而证明了该方法的有效性。我们还将我们的方法与当前最先进的模型在F-测量和MAE分数方面进行了比较。从表1中可以看出，PAGE-Net实现了出色的再现性。所有数据集的结果，跨指标。特别是，对于DUT-OMRON数据集，与第二好的方法RAS相比，PAGE-Net显示出显著改进的F测量（0.770vs 0.758），这是最具挑战性的基准之一这清楚地证明了PAGE-Net在复杂场景中的优越性能。定性评价。图7显示了我们的方法与其他五个顶级方法的结果的视觉比较。1456方法腿[34][21]第二十一话[24]第二十四话DCL [22]ELD [20]时间（s）1.547.830.130.390.55方法RFCN [36]国土安全部[26][第14话]KSR [38] NLDF [29]时间（s）4.650.040.5749.640.09方法DLS [15]AMU [54]UCF [55]SRM [37] PAGE-Net时间（s）0.080.070.040.070.04表2：与先前基于深度学习的显着性模型的GPU时间比较详情见第4.1竞争对手的表现。为了更好的可视化，我们突出了每个图像组的主要困难我们发现，PAGE-Net在各种具有挑战性的场景中表现良好，例如。对于大的显著对象（第一行）、对象和背景之间的低对比度（第二行）、杂乱的背景（第四行）和多个断开的对象（最后一行）。此外，我们观察到，我们的方法captures显着的边界很好，由于其使用的显着的边缘检测模块。运行时比较。我们还在表2中报告了几种深度显着性方法的运行时间。这些评估是在配备i7 CPU和Titan-XGPU的机器上进行的PAGE-Net比大多数其他方法更快，实现了25 FPS的实时速度。4.2. 消融研究在本节中，我们将分析每个组件对模型整体性能的贡献我们使用ECCSD [49]和DUT-OMRON [50]数据集进行实验结果总结于表3中。多尺度注意力。为了验证我们的多尺度注意力结构（§3.1）的有效性，我们比较了三种变体：w/o注意力，w/单尺度和w/o身份表3：ECCSD [49]和DUT-OMRON [50]上PAGE-Net的消融研究。我们一次改变一个组成部分，以评估个人的贡献。详见第4.2节。为了更深入地了解显著边缘信息的重要性，我们在用两种不同的边缘检测器HED替换显著边缘检测模块后再次对模型进行了测试[47] The canny filter.我们还观察到在这两种情况下性能略有这表明使用显著边缘信息对于获得更好的性能是至关重要的。这是因为显著边缘提供了用于检测和分割显著对象的信息提示，而不是简单地确定颜色或强度变化。侧输出。最后，我们研究了我们的层次结构对自上而下推断显着性的影响（图 10 ）。（ 2 ）（ b ）和（3.3）。我们引入了四个额外的基线，对应于中间PAGE-Net层：conv 2-输出，conv 3-输出，conv 4-映射. 基线w/o注意是指结果ob-o通过在没有任何注意力模块的情况下重新训练PAGE-Net来获得。基线w/单尺度对应于用单尺度注意力模块获得的结果（在等式（1）中N= 1）。（3）第三章。对于w/o恒等映射，我们在没有恒等映射的情况下重新训练我们的注意力模块（等式2）。2）的情况。如表3所示，与没有注意模块或使用单尺度注意的网络相比，具有多尺度注意的网络实现了更好的性能。这证实了注意模块受益于多尺度信息。这些结果还表明，标识映射也提高了性能。带注意力模块和不带注意力模块的PAGE-Net的结果之间的视觉比较可以在图中找到。3（f）和（g）。显著边缘信息。接下来，我们研究显著对象边缘信息的影响（§3.2）。基线w/o显著边缘是通过禁用我们的显著边缘检测来获得的模块。我们观察到性能下降（ ECCSD ：0.042→0.054，DUT-OMRON：0.066→0.074）使用时梅这表明，显着的边缘信息，实际上改进了显著对象分割。提供输出和conv 5-输出。请注意，PAGE-Net的最终预测可以被视为conv1层的输出。我们发现，显着性的结果逐渐优化，通过添加更多的细节，从较低的层。5. 结论在本文中，我们提出了一种新的深度显着性模型，PAGE-Net，用于显着对象检测。PAGE-Net配备了两个基本组成部分：金字塔注意模块和显著边缘检测模块。该算法利用多尺度信息扩展了常规注意机制，提高了显著性表征，从而实现了更有效的训练和更好的性能。后者着重于显著边缘信息的检测，可用于锐化显著对象段。在六个著名的基准数据集上进行的大量实验验证了上述贡献显着提高了显着性检测性能。最后，该模型具有高效的推理速度，并在GPU上实时运行方面方法[第49话][第50话]F评分↑ MAE↓F评分↑MAE↓充分模型PAGE-Netconv 1-输出0.9240.0420.7700.066conv 2-输出0的情况。9140的情况。0510的情况。7640的情况。070侧conv 3-输出0的情况。9060的情况。0560的情况。7610的情况。072输出conv 4-输出0的情况。8870的情况。0680的情况。7400的情况。083conv 5-输出0的情况。8540的情况。0900的情况。7060的情况。099金字塔无注意0的情况。8970的情况。0590的情况。7060的情况。0801457引用[1] Radhakrishna Achanta ， Sheila Hemami ， FranciscoEstrada，and Sabine Susstrunk.频率调谐显著区域检测。CVPR，2009。2[2] 博格丹·阿列克谢，托马斯·德塞拉尔斯和维托里奥·法拉利。测量图像窗口的客观性。 IEEE TPAMI ， 34（11）：2189-2202，2012年。1[3] Dzmitry Bahdanau，Kyunhyun Cho，Yoshua Bengio.通过联合学习对齐和翻译的神经机器翻译。2015年，国际会议。3[4] Gedas Bertasius，Jianbo Shi，and Lorenzo Torresani.基于边界神经场的语义分割。在CVPR，2016年。2[5] Chunshui Cao，Xianming Liu，Yi Yang，Yinan Yu，Jiang Wang ， Zilei Wang ， Yongzhen Huang ， LiangWang，Chang Huang，Wei Xu，et al.仔细看，三思而后行：用反馈卷积神经网络捕获自上而下的视觉注意力。在ICCV，2015年。3[6] 陈良杰，乔纳森T巴伦，乔治帕潘德里欧，凯文墨菲，和艾伦L尤伊尔。语义图像分割与特定任务的边缘检测使用cnn和区分训练域变换。在CVPR，2016年。二、五[7] Shuhan Chen，Xiuli Tan，Ben Wang，and Xuelong Hu.显著对象检测的反向注意。在ECCV，2018。三六七[8] 陈小武，郑安林，李佳，卢锋。观察、感知和细分：基于双流注视语义cnns的图像显著对象发现。InICCV，2017. 六、七[9] Ming-Ming Cheng ， Niloy J Mitra ， Xiaolei Huang ，Philip HS Torr，and Shi-Min Hu.基于全局对比度的显著区域检测。IEEE TPAMI，37（3）：569-582，2015。二、六[10] Runmin Cong ， Jianjun Lei ， Huazhu Fu ， QingmingHuang，Xiaoxun Cao，and Chunping Hou.基于多约束特征匹配和交叉标签传播的rgbd图像共显著性检测IEEETIP，27（2）：568-579，2018。2[11] Deng-Ping Fan ， Ming-Ming Cheng， Jiang-Jiang Liu ，Shang- Hua Gao，Qibin Hou，and Ali Borji.clut- ter中的显著对象：将显著对象检测带到前景。在ECCV，第186-202页，2018年。6[12] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。4[13] Seunhoon Hong ， Tackgeun You ， Suha Kwak ， andBohyung Han.利用卷积神经网络学习判别显著图进行在线跟踪。ICML，2015。1[14] Qibin Hou ， Ming-Ming Cheng ， Xiaowei Hu ， AliBorji，Zhuowen Tu，and Philip Torr.具有短连接的深度监督显著在CVPR，2017年。一二六七八[15] 胡平，帅兵，刘军，王刚。用于显著对象检测的深度水平集。在CVPR，2017年。二、六、七、八[16] Gao Huang ， Zhuang Liu ， Kilian Q Weinberger ， andLaurens van der Maaten. 密集连接的卷积网络。在CVPR，2017年。5[17] Huaizu Jiang ， Jingdong Wang ， Zejian Yuan ， YangWu，Nan- ning Zheng，and Shipeng Li.显著对象检测：一种区分性的区域特征整合方法。CVPR，2013。一、二[18] Jason Kuen、Zhenhua Wang和Gang Wang。用于显著性检测的递归注意网络。在CVPR，2016年。 2[19] Chen-Yu Lee ， Saining Xie ， Patrick Gallagher ，Zhengyou Zhang，and Zhuowen Tu.深度监督网络。在AIS中-TATS，2015年。6[20] Gayoung Lee，Yu-Wing Tai，和Junmo Kim.具有编码的低级距离图和高级特征的深度在CVPR，2016年。二、六、七、八[21] 李冠斌、余益州。基于多尺度深度特征的视觉显著性。CVPR

下载后可阅读完整内容，剩余1页未读，立即下载