边缘感知显著目标检测的堆叠交叉精化网络

200 浏览量更新于2023-10-12 收藏 833KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

7264边缘感知显著目标检测的堆叠交叉精化网络吴哲1，2，李肃1，2，3，黄清明1，2，3，41中国北京中国科学院大学计算机科学与技术学院2中国科学院大学大数据挖掘与知识管理重点实验室北京3Intell重点实验室Info. 过程.，Inst. 的Comput。技术人员：中国科学院，北京4鹏程实验室，深圳，中国wuzhe14@mails.ucas.ac.cn，{suli，qmhuang}@ usas.ac.cn摘要显著目标检测是计算机视觉的一项基本任务。现有的大多数算法集中在聚集预训练的卷积神经网络的多级特征。此外，一些研究者试图利用边缘信息进行辅助训练。然而，前边缘感知模型设计单向框架，其仅使用边缘特征来改进分割特征。受二值分割和边缘图之间的逻辑相互关系的启发，我们提出了一种新的，el堆叠交叉细化网络（SCRN）的凸-t目标检测。我们的框架旨在同时完善多层次的特征显着的objec， t检测和边缘检测。根据逻辑关系，CRU设计了两个特定方向的集成操作，并在两个任务之间双向传递消息。该模型利用典型的U-Net模型对改进的边缘保持特征进行了验证，从而准确地检测出显著目标。在六个基准数据集上进行的大量实验表明，我们的方法在准确性和效率方面都优于现有的最先进的算法。此外，基于属性的性能在SOC数据集上显示，该模型在大多数具有挑战性的场景中排名第一。代码可在https://github.com/wuzhe71/SCAN上找到。1. 介绍显著对象检测[1，5，10，11，17]旨在检测和分割图像或视频中最吸引人的对象。苏丽（suli@ucas.ac.cn）为通讯作者。在过去的几十年中，已经开发了数百种传统方法来解决显着物体检测的任务，并广泛应用于其他计算机视觉任务中的预处理过程[2，3]。近年来，卷积神经网络（CNN）极大地推动了计算机视觉的研究。早期的深度显著对象检测模型[14，18，19，27，38]利用分类网络来确定图像的每个区域是否显著。这些模型产生的结果优于传统的模型以及昂贵的计算开销。然后，基于全卷积网络（FCN）[23]的方法[4，15，22，24，29，30，31，35，36，37]进一步推动了显著对象检测的发展。这些工作已经达到了最先进的性能vi-设计合理的解码器，以提取有区别的多层次特征并将它们聚集在一起。此外，研究者还试图利用显著目标检测和边缘检测这两个任务之间的互补信息。一些策略使用边缘标签来改进分割网络的训练过程：在分割网络的末端增加辅助边界损失[24]，设计仅使用边缘信息的单向框架[12，39]，以提高分割特征的表示能力。虽然以往的工作已经证明，融合边缘特征是有利于产生更准确的分割图，他们可能会面临的问题，不准确的边缘特征。现有的边缘感知框架中边缘信息没有得到充分利用。本文研究了二值分割与边缘图之间的相互关系，指出边缘图中的边界区域是分割图中目标区域的真子集。受此观察的启发，我们提出了一种新的边缘感知7265边缘Seg（a）（b）（d）其他事项CruSeg边缘多级分割特征多级边缘特征聚合分割特征聚合边缘特征通过分割特征通过边缘特征分割图边缘（显着图）边缘图图1：（a）[24]中的辅助边缘丢失，（b）单向融合聚合分割和边缘特征[39]，（c）单向融合多级边缘特征和预测边缘图[12]，（d）提出的框架。我们的模型以端到端的方式连续堆叠多个交叉细化单元，通过设计两个特定方向的集成操作来双向细化两个任务的多层次特征。显著对象检测方法，称为堆叠交叉细化网络（SCRN），其在两个任务之间双向传递消息，并同时细化多级边缘和分割特征。我们首先从共享骨干网络中提取两组独立的多级深度特征，用于构建两个并行解码器：一个用于边缘检测，另一个用于显著对象检测。我们将逻辑关联从二进制映射层扩展到特征层，并提出了一个交叉细化单元（CRU），它包含两个不同的方向特定的集成操作。通过以端到端的方式连续堆叠多个CRU，两个任务的多层次特征逐渐得到改善。结合两个独立的U-Net结构[26]，我们的框架可以检测显著对象和边缘，并且在准确性和效率方面优于最先进的算法。我们的贡献总结如下：• 我们提出了一个有效的交叉细化单元（CRU），它双向传递消息之间的两个任务的显着对象检测和边缘检测在CRU中，我们设计了两个方向特定的集成操作，以同时细化两个任务的多层次特征。• 我们提出了一个新的框架显着对象检测，命名为堆叠交叉细化网络（SCRN），堆叠多个CRU，以逐步improve-证明两组多层次特征。结合典型的U-Net结构，我们的框架从图像中精确地分割出显著对象。• 在六个传统基准数据集上进行的大量实验表明，我们的模型在所有六个指标上都优于最先进的模型此外，本发明还提供了一种方法，我们还证明了我们的模型在SOC数据集的大多数挑战性场景中排名第一。2. 相关工作在过去的二十年里，数百个手工制作的特征为基础的传统方法已被提出的显着目标检测。更多的细节可以在[2，3]中找到。这里我们主要讨论基于FCN的深度聚合模型和边缘感知的深度模型。深度聚合模型。基于对的成功的FCN [23]用于语义分割，大量基于FCN的显著对象检测模型已经被开发用于显著对象检测。Hou等人。 [15]在HED [32]架构中引入了跳层结构的短连接。Zhang等人。 [36]将多层次特征图集成到多个分辨率中，预测每个分辨率的显着图，并将它们融合以生成最终显着图。Deng等人。 [7]通过交替利用FCN的低级集成特征和高级集成特征来学习中间显着性预测和地面实况之间的残差。在[35]中，该工作提取了上下文感知的多级特征，然后利用双向门控结构在它们之间传递消息。Liu等人。 [22]利用全局和局部像素上下文注意力网络来捕获全局和局部上下文信息。Zhang等人提出了一种新的注意力引导网络，它以渐进的方式选择性地整合多层次的上下文信息。Chen等人 [4]提出了一种反向注意力网络，它最终通过从侧输出特征中删除当前预测的显著区域来探索缺失的对象部分和细节。边缘感知模型。除了仅使用分割标签训练模型外，研究人员还尝试使用边缘标签。在[24]中，该工作使用额外的基于IOU的边缘损失来直接优化预测显着图的边缘S.在[39]中，作者在对象边界信息的指导下循环地集成多级卷积特征。Guan等人。 [12]使用微调HED来检测边缘，然后将其用作互补信息。Seg边缘CNNCruCNNSegSeg（c）第（1）款边缘CNN图像图像图像图像CNN72662i+1 × ×C.SnnU-NetU-Net多层次分割特征多级边缘特征一级分割特征一级边缘特征选择性地使分割特征选择性通过边缘特征逐元素加法按元素相乘级联图2：所提出的SCRN模型的框架。我们首先提取两个单独的多层次特征显著对象检测和边缘检测。然后，我们利用堆叠的CRU通过两种不同的方向特定操作来细化这些功能。在每个CRU中，我们使用选择性机制。当细化一个任务的一个层特征时，另一个任务的较低级别特征将被忽略。在所提出的模型中，我们以端到端的方式堆叠四个CRU。结合典型的U-Net结构，我们最终同时生成分割图和边缘图。形成并与显著性检测流集成以描绘显著对象的连续边界。这些方法只是简单地利用边缘信息来提高显著图的准确性，而没有对边缘特征的改进给予足够的重视。在本文中，我们研究了二进制分割和边缘图之间的逻辑相互关系，然后将其提升为双向细化两个任务的多层次特征图1示出图像的一个像素，N是图像中的像素数那么相应的边缘图可以定义为Me。对于一幅图像，Ms突出显示整个显著对象，而Me仅突出显示显著对象的边缘因此，Me中的边缘区域是Ms中目标区域的真子集.这导致逻辑相互关系可以表示为：.边缘感知深度显著对象检测模型的不同框架。Ms Me=MeMs<$Me=Ms，（一）3. 方法在本节中，我们首先探索二进制分割和边缘图之间的逻辑关系。然后，我们促进的相互关系，以集成的多层次特征的显着目标检测和边缘检测，并提出了一种新的交叉细化单元（CRU）。通过以端到端的方式堆叠多个CRU，这些功能逐渐得到完善。结合典型的U-Net结构，得到了精确的分割图。的概述其中，n是布尔AND运算，n是布尔OR运算。在本文中，这些逻辑的相互关系进行了扩展，以细化这两个任务的多层次特征。3.2. 网络架构3.2.1特征提取参考以前的作品[22 ， 30 ， 31] ，我们的模型基于ResNet 50 [13]。我们从骨干网络的四个残差块中获得四个级别的特征，定义为F={Fi，i=1，2，3，4}。给定一个图像，建议的模型如图所示。二、大小为H×W，每个特征的大小为HW2i+13.1.边缘和分割显著目标检测是一个逐像素的二进制分类问题。我们定义了一个真实分割图Ms={Mp，p∈（0，1），p=1，.，N}，其中p表示C是特征的通道号，等于2i+7。对于每一层，我们使用两个1×1卷积层来提取两个特征，两个任务的通道数为32。然后我们使用S={Si，i=1，2，3，4}和E ={Ei，i=1，2，3，4}来表示S0Res1Res2Res3Res4e0级S10CruS13CruS20S23英英03S30S33S40S43Ε10Ε13Ε20Ε23SI0CSI1SI3CSI4Ε30Ε33Ε40Ε43Εi4Εi1E4S4C7267n−1n−1n−1n−1n−1n−1n−1S=Sn−1n−1n−1显著目标检测和边缘检测。在所提出的模型中，我们堆叠多个CRU，并使用n来指示特征属于哪个CRU。对于尚未细化的特征，n等于0。3.2.2交叉精炼单元根据二值分割和边缘图之间的逻辑关系，我们提出了CRU，以改善这两个任务的多层次特征。通过以端到端的方式堆叠多个CRU，这两组功能将逐渐完善。更具体地说，一个CRU的输入等于前一个CRU的输出。计算第n个CRU和第i个级别中的特征（Si和Ei），图像GT SSPS SPS PPS图3：所提出的交叉细化模型的不同风格的视觉比较.PPS：点对点样式，SPS：定点样式，SSPS：选择性定点样式。n n通过积分特征（Sn−1，En−1）来计算。因此，我们认为，我们设计了两个特定方向的集成操作，CRU。这两个操作的一般公式定义为：其中Cat是通道轴之间的级联操作，Conv也表示具有32个输出通道的3×3卷积层，如g的Conv。但不同的是我我nn−1Ei=Ei+f（Si+g（Ei，En−1），Sn−1）（二）重要的是，卷积层的输入信道是六十四对于f和g的所有版本，我们遵循一个规则，即在应用每个函数后，通道号保持在32n n−1n −1其中，f和g被设计为细化Siin−1与在应用等式中定义的操作之后，3和等式4、两个任务的特点将变得更加清晰，En−1/Sn−1。此外，它们还结合了成功的剩余学习[13]，区别性特征根据这两种不同的逻辑关系设计了这两种功能的具体形式。特别是，在设计这两个功能时存在两个问题。一个问题是如何在每个方向上集成功能。另一个问题是应该选择一个任务的多少水平特征来改进另一个任务的一个水平特征。为了解决这两个问题，我们在下面逐步介绍三种类型的CRU。点对点风格。对于一个任务的每一个层次特征，我们可以直接使用另一个任务的对应层次特征对其进行精化，即只使用Ei和Si进行相互精化。这被称为CRU的点对点风格。当使用分割特征来细化边缘特征时，我们使用特征级乘法来近似布尔AND运算。在这种情况下，点对点风格的函数g定义为：歧视一方面，分割特征包含了完整的边缘信息，可以通过乘法运算来改善边缘特征;另一方面，分割特征中的干扰项可以通过连接边缘特征来抑制。设定点样式。 CNN提取多级从输入图像中提取表示不同信息的特征。更具体地说，高级特征总是表示语义信息（例如面部），而低级特征关注与类别无关的空间信息（例如边缘，纹理）。为了在特征细化中编码更多的信息，我们进一步提出了一种集到点风格，通过集成所有级别的fea来细化一个任务的每个层特征另一项任务的任务。例如，Ei由四级分割特征{Sk，k=1，.，4}。在这种情况下，函数g定义为：4g=Conv（Eiin−1）、（3）g=Conv（Ei⊗k=1CU（Sk）），（5）其中，k是逐元素乘积，Conv表示3×3卷积层，32个输出通道。相反，布尔OR运算不能直接在特征级别实现，并且它也是不可区分的。因此，我们使用另一种策略，以提高分割功能，通过集成的边缘功能。点对点风格中的函数f被公式化为：其中CU是一个尺度变换操作，以及一个具有32个输出通道数的1×1卷积层。CU的目标是保证分割和边缘特征在空间上的一致性。当k > i时，CU使用比例因子为2k-i的双线性上采样操作。当k i时，CU使用比例因子为2i-k的双线性下采样操作。当k=i时，CU使用恒等函数。除此之外，它是元素乘法，平均值-f=Conv（Cat（Siin−1）），（4）的元素乘所有级别的分割功能。/E公司简介、E7268n−1k=1n−1n−1n−1n−1K=In−1n−1n−1n−1ββ相应地，这种类型的函数f被定义为：其中δ是指示函数，θ∈ {θs，θe}是参数。f=Conv（Cat（Si，Cat4[CU（Ek）]），（6）映射P∈ {Ps，Pe}对应的点。其中Cat[n]表示连接第（n-1）个CRU的所有级别边缘特征。在这种级联方式中，Conv具有160个输入通道编号。相比点到点的方式，通过融合更多的信息，进一步改善分割和边缘特征。选择性设定点样式。当CNN从输入图像中提取多级特征时，特征中的干扰项随着CNN的深入而逐渐被抑制。低层特征包含背景的许多空间细节，高层特征更多地关注区分区域。由于在较低级别的特征中有更多的干扰项，我们将原始的设置到点样式改进为选择性版本，并且函数g更新为：4g=Conv（EiCU（Sk））（7）K=I函数f定义为：4. 实验4.1. 实现细节该模型在公共的Py-torch工具箱上实现，并在PC机上运行。6Ghz CPU，16GB RAM和GTX Titan X GPU。我们在DUTS [28]训练集上训练所提出的模型，如以前的工作[22，30，31]。对于解码器中的卷积层，它们的权重由正态分布初始化，0的情况。01标准差和零均值。每个卷积层后面都有一个批范数层[16]，除了最后两个1×1卷积层。对于数据增强，我们使用大小为[0. 7511 25]。我们使用随机梯度下降来训练动量为0的网络。9和重量衰减为0。0005 批量大小设置为8，输入图像尺寸为352×352。整个训练过程需要30个epoch。学习率设置为0。002，在20个时期下降了10%我们将制定代码f=Conv（Cat（Si，Cat4[CU（Ek）]）（8）在未来可用。在该选择性版本中，对于一个任务的一个级别特征，在特征细化中忽略另一任务的较低级别特征例如，最低级别的边缘特征E1仍由四级分割特征细化4.2. 数据集和评估指标我们在六个传统的基准数据集上评估了所提出的方法：ECSSD [33]、PASCAL-S [21]、DUTS [28]、HKU-IS [19]、DUT-OMRON [34]和Kn−1，k=1，…4}，但最顶端的边缘特征E4[6]第六章. 此外，我们评估基于属性的每-仅由S4. 此外，选择性风格在具有挑战性的SOC数据集上进行验证[8]。六项指标比原来的set-to-点样式。此外，性能提高，因为更少的干扰已被引入功能集成。三种不同样式的CRU的一些直观示例如图所示。3.第三章。通过堆叠多个CRU，我们获得了两个任务的改进的多层次特征。然后分别采用两种典型的U-Net结构进行融合，两个H×W×C特征通过上采样和级联，主要用于评估我们的模型和现有的最先进的算法。前两个指标是平均绝对误差（ MAE ），最大 F- 测量（maxF）（参见[3]的定义），两者都被广泛采用在以前的模型[4，15，20，22，35]。然后加权F-测度（Fω）[25]和结构相似性测度（Sα，α=0. 5）[9]也被用来评估显着图。此外，我们还绘制了准确率-召回率（PR）曲线和F-测度曲线。4 4从高级到低级的功能。每个上采样和级联操作之后都有一个卷积层作为CRU。两个额外的1×1卷积层，两个上采样操作（比例因子4）和sigmoid函数，我们得到预测的分割和边缘图（ Ps，Pe）。给定真实分割图GTs，我们将边缘标签GTe推断为[24]。然后，所提出的框架的损失被公式化为：L=Lce（Ps，GTs）+Lce（Pe，GTe），（9）其中Lce是标准交叉熵损失：4.3. 消融分析在本节中，我们将仔细分析模型的变体。我们设置了一个基线，它不使用建议的CRU，并包含两个单独的分支，用于两个任务。我们选择两个基准数据集（DUT-OMRON [34]和DUTS-TEST [28]）和两个指标（Fω和Sα）进行消融分析。CRU的数量。我们发现，仅使用一个CRU并不能明显提高性能。这可能是因为一个CRU对扩大的影响有限，ΣNLce=−Σδ（GT j= c）log p（P j=c|θ），（10）接收场。因此，我们用偶数堆叠数（2，4，6，8）对所提出的模型进行了测试，结果表明，c∈{0， 1}在表1中示出，其显示具有{S7269表1：建议型号与不同数量CRU的比较。每个变体被命名为 SCRN k ， k=2 ， 4 ， 6 ， 8 。特别地，基线（k=0）意味着不使用CRU的两个单独的分支。模型FPSDUT-OmronFωSαβDUTS-TESTFωSαβ基线1250.6670.8100.7520.861SCRN2780.6990.8270.7860.879SCRN4520.7200.8370.8030.885SCRN6410.7160.8320.8070.885SCRN8340.7140.8310.8070.887表2：提出的双向模型与其两个单向变体的比较。方法方向DUT-OmronFωSαβDUTS-TESTFωSαβ基线-0.6670.8100.7520.861S→E0.6880.8190.7730.868SCRN4S←E0.6830.8140.7720.866SParticipE0.7200.8370.8030.885两个CRU（SCRN2）明显优于基线。当CRU数量大于4时， DUTS-TEST 数据集的性能增长缓慢， DUT-OMRON数据集的性能下降。这是因为添加过多的CRU会因引入过多的参数而导致过度拟合。综上所述，我们综合考虑性能和效率，选择了四个CRU版本（SCRN4）作为最终模型。双向模型VS单向变体。在所提出的双向模型中（在此被屏蔽为SParticipE），消息在两个任务。我们将其与两种单向变体进行比较：仅使用边缘特征来细化分割特征（S←E ），并且仅使用分割特征来细化边缘特征（S→E）。与建议的双向模型类似，两种变体也具有四个单向精制单位。结果示于表2中。我们可以发现两个单向变量都优于基线。虽然分割特征没有直接由S→E方向上的边缘特征细化，边缘分支的梯度仍然传播到细分分支，导致间接细化。对于另一个方向S←E，其性能比最终双向模型差。这是因为边缘特征在这个方向上没有得到改善，这导致分割特征的有限增强。所提出的双向模型显著优于两种单向变体。这表明，这两个建议的方向特定的集成操作-表3：我们在每个方向上使用不同的集成操作来测试所提出的模型。Cat表示级联运算，Mul表示乘法运算。方法S →ES ←EDUT-OmronFωSαβDUTS-TESTFωSαβ猫猫0.6790.8140.7640.866SCRN4MulMul0.7080.8340.7900.881Mul猫0.7200.8370.8030.885表4：不同类型CRU的性能和剩余学习的效果。模型残余风格DUT-OmronFωSαβDUTS-TESTFωSαβCPPS0.6990.8270.7850.876SCRN4CCSSPS0.7070.7200.8330.8370.7870.8030.8800.885’SSPs0.7190.8350.8020.885合作得很好。相互关系的影响。受二值分割和边缘图之间逻辑运算的启发，我们在不同的方向上采用了两种不同的集成策略：S→E方向采用乘法运算，另一个方向采用级联运算S←E. 在这里，我们测试这些操作的效果，结果示于表3中。显然，使用在两个方向上的乘法运算优于使用级联运算。这是因为分割特征比边缘特征包含更多的信息，因此边缘特征更容易受到分割特征的影响。不同类型CRU的效果。表4显示了不同类型CRU的性能。SPS优于PPS，因为它在特征细化中编码更多信息。此外，SSPS获得最高的性能，因为它忽略了部分低级别的功能，其中包含更多的干扰比高层功能。此外，我们测试了剩余学习的效果。研究发现，残差学习在几乎不增加计算开销的情况下提高了性能。4.4. 与现有技术的我们将所提出的方法与10种基于FCN的SOD算法进行比较：[15]第36话，你是谁？GR [37]，RANet [4]， R3Net [7]，C2S-Net [20]，DGRL[31]，[35]和PiCANet-R [22]。为了公平比较，我们使用作者提供的显着图或运行可用的源代码。此外，一些算法在MSRA-B 或 MSRA10 K （ DSS ， Amulet ， RANet ，R3Net）上进行了训练. 因此，我们在MSRA-B7270F-measure加权F-测度精度精度β表5：所提出的模型和10种最先进算法的最大F测量值（maxF）、平均绝对误差（MAE）和每秒帧数（FPS）。前三名的分数显示在红色，绿色和蓝色。方法FPSECSSDHKU-ISPascal-SDUT-OmronDUTS-TEST星期四15KmaxF↑MAE↓maxF↑MAE↓maxF↑MAE↓maxF↑MAE↓maxF↑MAE↓maxF↑MAE↓[第15话]230.9080.0630.8980.0510.8260.1020.7640.0720.8130.0650.7610.083护身符[36]200.9130.0590.8870.0530.8280.0950.7370.0830.7790.0850.7560.093RANet [4]450.9180.0590.9130.0450.8340.1040.7860.0620.8310.0600.7720.075[20]第二十话300.9100.0540.8960.0480.8460.0810.7570.0710.8110.0620.7750.083R3Net [7]290.9290.0510.9100.0470.8370.1010.7930.0730.8280.0670.7810.078SRM [30]370.9170.0560.9060.0460.8440.0870.7690.0690.8260.0590.7780.077PAGR [37]-0.9270.0610.9180.0480.8510.0920.7710.0710.8550.0560.7960.070BMPM [35]280.9280.0440.9200.0380.8620.0740.7750.0630.8500.0490.7790.079DGRL [31]60.9250.0430.9140.0370.8530.0740.7790.0630.8340.0510.7790.077[22]第二十二话50.9350.0470.9190.0430.8630.0750.8030.0650.8600.0510.7900.081我们520.9500.0380.9340.0340.8820.0640.8120.0560.8880.0400.8140.0660.820.80.780.760.740.720.780.80.820.840.860.88结构相似性10.90.80.70.60.50.40.30.740.720.70.680.660.640.620.770.780.790.80.810.820.830.84结构相似性0.90.80.70.60.50.40.30.20.850.80.750.70.650.80.820.840.860.880.9结构相似性10.80.60.40.20.740.720.70.680.660.640.620.790.80.810.820.830.84零点八五结构相似性0.90.80.70.60.50.40.30.20.90.890.880.870.860.850.840.830.880.890.90.910.92零点九三结构相似性10.90.80.70.60.50.40.30.20 0.20.40.6召回0.810.10 0.20.40.6召回0.8100 0.20.40.6召回0.810.10 0.20.40.6召回0.810.20 0.20.40.6召回0.8 10.90.850.80.750.70.650.60.550.5我们PiCANet-RPAGRDGRLBMPMSRMR3网络RANetC2S-NetDSS护身符0 50 100 150 200250阈值Pascal-S0.850.80.750.70.650.60.550.50 50 100 150 200250阈值DUT-Omron0.90.850.80.750.70.650.60.550.5我们PiCANet-RPAGRDGRLBMPMSRMR3网络RANetC2S-NetDSS护身符050100150200250阈值DUTS-TEST0.850.80.750.70.650.60.550.50 50 100 150 200250阈值星期四15K0.950.90.850.80.750.70.650.60 50 100 150 200 250阈值ECSSD图4：所提出的模型与10种最先进算法的定量比较。第一行显示加权F-度量和结构相似性分数。第二行和第三行分别是PR和F测量曲线。数据集，并在补充材料中呈现结果表5显示了所提出的模型和10种最先进算法在六个传统基准数据集上的maxF和MAE得分我们可以看到，所提出的模型优于现有的算法在所有情况下。在第一行的图。4、给出了模型和算法的Fω（Y轴）和Sα（X轴）得分。这表明，我们生成更精确的地图时，评价他们在不同的方面。在图1的第二行和第三行中。4、给出了查准率-查全率曲线和F-测度曲线。我们的曲线明显高于其他曲线。图5显示了视觉比较，证明所提出的模型可以处理各种具有挑战性的情况：复杂场景（行4、5）、低对比度（行1、6）、小对象（行2、3）、大对象（行1）和多个对象（行2、4）。更多的视觉比较结果可以在补充材料中找到。SOC上基于属性的性能。在嵌入式SOC数据集[8]中，每个显著图像都伴随着反映现实世界场景中常见挑战的属性。这些注释有助于研究显着对象检测模型的优点和缺点表6显示了所提出的模型和10种最先进算法的结构相似性得分我们可以看到我们的模型我们DGRLBMPMPiCANet-RC2 S-网络SRMRANetPAGR护身符DSSR3Net护身符C2S-NetDSSR3网络RANetBMPMSRMPAGRDGRL我们PiCANet-R我们DGRLRANetBMPMPiCANet-RC2 S-网络SRMR3网DSSPAGR护身符护身符C2S-NetDSSR3网络RANetBMPMSRMPAGRDGRL我们的PiCANet-R我们PiCANet-RPAGRDGRLBMPMSRMR3网络RANetC2S-NetDSS护身符我们RANetDGRLBMPMPiCANet-RPAGRC2S-NetSRMDSSR3网络护身符我们PiCANet-RPAGRDGRLBMPMSRMR3网络RANetC2 S-Net我们DGRLRANetBMPMPAGRC2S-NetSRMPiCANet-R护身符R3NetDSS我们的PiCANet-RPAGRDGRLBMPMSRMR3网络RANetC2S-NetDSS护身符我们DGRLBMPMPiCANet-RRANetSRMC2S-NetR3NetDSSAmuletPAGR我们PiCANet-RPAGRDGRLBMPMSRMR3网络RANetC2S-NetDSS护身符我们PiCANet-RPAGRDGRLBMPMSRMR3网络护身符C2S-NetDSS我们PiCANet-RPAGRDGRLBMPMSRMR3网络RANetC2S-NetDSS护身符精度F-measure加权F-测度精度F-measure加权F-测度加权F-测度F-measure精度F-measure加权F-测度7271GT Ours PiCANet-R DGRL BMPM PAGR SRM R3 Net C2 S-Net RANet Amulet DSS图5：在一些具有挑战性的情况下与现有方法的视觉比较：复杂场景、低对比度、小对象、大对象、多个对象。表6：挑战性SOC数据集上基于属性的性能[8]。我们将所有具有该特定属性的数据集的平均结构相似性得分报告为[8]。最后一行显示了显著对象的平均性能。前三名的分数显示在红色，绿色和蓝色。AttrDSS护身符RANetC2S-NetR3NetSRMDGRLBMPMPiCANet-R我们AC0.7440.7560.6940.7710.7030.7940.7910.7750.7960.824博0.5870.6530.4750.7030.4510.6910.7280.6750.7280.709CL0.6890.7180.6190.7440.6800.7470.7560.7370.7710.790何0.7530.7640.6920.7720.7150.7940.8000.7840.8050.827MB0.7580.7560.6910.8060.6960.8170.8270.8130.8600.870OC0.7030.7140.6160.7450.6430.7340.7480.7440.7630.779OV0.7020.7440.6220.7550.6390.7750.7780.7690.8070.803SC0.7520.7480.6970.7600.7030.7740.7790.7830.7840.817所以0.7070.6750.6780.7050.6860.7270.7270.7290.7380.766Avg0.7190.7150.6640.7380.6830.7570.7590.7560.7740.793第一个是九个属性中的七个属性。此外，我们的模型在平均水平上也排名第一。这些结果表明，该模型优于现有的算法在大多数具有挑战性的情况下。虽然我们在两个属性上获得的分数比DGRL和PiCANet小，但我们的模型运行速度比它们快近10倍（表5）。5. 结论在本文中，我们提出了一种新的显着对象检测框架，称为堆叠交叉细化网络（SCRN）。受二元分割和边缘图之间的逻辑相互关系的启发，我们提出了一个交叉细化单元（CRU），其中两个方向特定的接口，梯度操作被设计为改进两个任务的多级特征。该模型将典型的U-Net结构与堆叠的CRU相结合，能够准确、快速地检测出显著目标。实验表明，该模型在六个基准数据集上的性能明显优于现有的最先进的算法，并在SOC数据集的大多数场景中排名第一。谢谢。本工作得到了中国科学院大学国家自然科学基金项目的资助：61472389、61620106009、U1636214和61836002，部分由前沿科学重点研究计划，CAS：QYZDJ-SSW- SYS013。7272引用[1] Radhakrishna Achanta ， Sheila Hemami ， FranciscoEstrada ，and Sabine Susstrunk. 频率调谐显著区域检测。在CVPR，第1597-1604页[2] Ali Borji、Ming-Ming Cheng、Huaizu Jiang和Jia Li。显著对象检测：一个调查。 arXiv 预印本 arX-iv ：1411.5878，2014年。[3] Ali Borji、Ming-Ming Cheng、Huaizu Jiang和Jia Li。显著对象检测：基准。IEEE TIP，24（12）：5706[4] Shuhan Chen，Xiuli Tan，Ben Wang，and Xuelong Hu.显著对象检测的反向注意。在ECCV中，第236-252页[5] 作者：Niloy J. Mitra，Xiaolei Huang，PhilipH. S. Torr和Shi-Min Hu.基于全局对比度的显著区域检测。IEEE TPAMI，37（3）：569[6] Ming-Ming Cheng，Niloy J Mitra，Xiaolei Huang，andShi-Min Hu. 显着形状：图像集合中的组显着性TheVisual Computer，30（4）：443[7] Zijun Deng，Xiaowei Hu，Lei Zhu，Xuemiao Xu，JingQin，Guoqiang Han，and Pheng-Ann Heng. R3net：用于显著性检测的递归残差细化网络在IJCAI，第684-690页[8] Deng-Ping Fan ， Ming-Ming Cheng ， Jiangjiang Liu ，Shanghua Gao，Qibin Hou，and Ali Borji.显着的物体在混乱：把显着的物体检测到前景。在ECCV，第196-212页[9] Deng-Ping Fan ， Ming-Ming Cheng ， Yun Liu ， TaoLi，and Ali Borji.Structure-measure：一种评估前景图的新方法在ICCV，第4558-4567页[10] Deng-Ping Fan，Zheng Lin，Jia-Xing Zhao，Yun Liu，Zhao Zhang ，Qibin Hou ， Menglong Zhu ， and Ming-Ming Cheng.重新思考rgb-d显著对象检测：模型、数据集和大规模基准测试。 arXiv 预印本 arX- iv ：1907.06781，2019。[11] Deng-Ping Fan，Wenguan Wang，Ming-Ming Cheng，and Jianbing Shen.将更多的注意力转移到视频显著对象检测上。在CVPR，2019年6月。[12] 关文龙，王天天，齐金庆，张立和，陆沪川。基于边缘感知卷积神经网络的显著目标检测。IEEE信号处理。Lett. ，26（1）：114[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年[14] Shengfeng He ， Rynson WH Lau ， Wenxi Liu ， ZheHuang，andQingxiongYang.Supercnn：Asuperpixelwiseconvolutionalneuralnetworkforsignificant object detection. IJCV，115（3）：330[15] Qibin Hou ， Ming-Ming Cheng ， Xiaowei Hu ， AliBorji，Zhuowen Tu，and Philip Torr. 使用短连接的深度监督显著对象检测。IEEE TPAMI，41（4）：815[16] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。在ICML，第448-456页[17] Laurent Itti，Christof Koch，and Ernst Niebur. 基于显著性的快速场景分析视觉注意模型。IEEE TPAMI，20（11）：1254[18] Gayoung Lee，Yu-Wing Tai，和Junmo Kim.具有编码的

下载后可阅读完整内容，剩余1页未读，立即下载