显著目标检测的标签解耦框架

69 浏览量更新于2023-10-20 收藏 13.05MB PDF 举报

显著目标检测

全卷积网络

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

0.00.20.40.60.80.10.20.30.40.5ECSSDDUTSDUT-OMRON0.00.20.40.60.80.10.20.30.40.5ECSSDDUTSDUT-OMRON1130250显著目标检测的标签解耦框架0魏军 1,2 , 王树辉 1 � , 吴哲 2,3 , 苏驰 4 , 黄庆明 1,2,3 , 田琦 501 中国科学院计算技术研究所智能信息处理重点实验室，中国北京 2 中国科学院大学，中国北京 3深圳鹏城实验室，中国深圳 4 金山云，中国北京 5 华为技术有限公司诺亚方舟实验室，中国0jun.wei@vipl.ict.ac.cn, wangshuhui@ict.ac.cn, zhe.wu@vipl.ict.ac.cn0suchi@kingsoft.com, qmhuang@ucas.ac.cn, tian.qi1@huawei.com0摘要0为了获得更准确的显著性图，最近的方法主要集中在从全卷积网络（FCN）聚合多层特征和引入边缘信息作为辅助监督。尽管取得了显著的进展，但我们观察到像素距离边缘越近，预测越困难，因为边缘像素的分布非常不平衡。为了解决这个问题，我们提出了一个标签解耦框架（LDF），它由标签解耦（LD）过程和特征交互网络（FIN）组成。LD将原始显著性图明确地分解为主体图和细节图，其中主体图集中在对象的中心区域，细节图则侧重于边缘周围的区域。细节图效果更好，因为它涉及比传统边缘监督更多的像素。与显著性图不同，主体图舍弃了边缘像素，只关注中心区域。这在训练过程中成功避免了边缘像素的干扰。因此，我们在FIN中使用两个分支分别处理主体图和细节图。特征交互（FI）被设计用于融合这两个互补的分支以预测显著性图，然后再次用于改进这两个分支。这种迭代改进有助于学习更好的表示和更精确的显著性图。在六个基准数据集上的综合实验表明，LDF在不同的评估指标上优于最先进的方法。代码可以在https: //github.com/weijun88/LDF找到。01. 引言0显著目标检测（SOD）[ 1 , 6 , 10 , 11 , 12]旨在识别图像或视频中最具视觉吸引力的对象或部分，被广泛应用作为预处理0� 通讯作者0表1.两种最先进方法在三个数据集上预测显著性图的平均绝对误差（MAE global）和边缘区域（MAE edge）。MAE edge远大于MAEglobal，说明边缘预测更加困难。0EGNet [ 41 ] SCRN [ 34 ]0ECSSD DUTS DUT-O ECSSD DUTS DUT-O0MAE global 0.037 0.039 0.053 0.037 0.040 0.056 MAE edge0.289 0.292 0.298 0.299 0.297 0.3020(a) EGNet [ 41 ]0(b) SCRN [ 34 ]0图1.预测误差与像素到最近边缘的距离的分布。水平坐标表示距离，已归一化到[0,1]，垂直坐标表示预测误差。可以看出，像素距离边缘越近，预测越困难。0下游计算机视觉任务中的一个重要步骤[ 29 , 35]。在过去的几十年里，研究人员提出了数百种基于手工特征（例如颜色、纹理和亮度）的SOD方法[ 29]。然而，这些特征无法捕捉高级语义信息，限制了它们在复杂场景中的应用。最近，卷积神经网络（CNN）展示了强大的特征表示能力，并极大地推动了SOD的发展。许多基于CNN的方法[ 15 , 39 , 26 , 27 , 28 , 40 , 4 , 21 , 7 , 42, 16 , 32]通过设计不同的解码器来聚合多层CNN特征，取得了显著的性能。为了获得更好的特征表示，这些方法侧重于挖掘更多的上下文信息和设计更有效的特征融合策略。此外，引入边界• We design a feature interaction network to makefull use of the complementary information betweenbranches. Both branches will be enhanced by itera-tively exchanging information to produce more precisesaliency maps.130260信息是SOD中的另一个关键点。现有的方法试图以边缘作为监督来训练SOD模型，这显著提高了显著性图的准确性。然而，边缘像素和非边缘像素之间的不平衡使得很难得到良好的边缘预测。因此，直接以边缘作为监督可能导致次优解。为了更好地阐述这一观点，我们计算了两种最先进方法（即EGNet和SCRN）在三个SOD数据集（即ECSSD，DUTS和DUT-O）上的平均绝对误差（MAE），如表1所示。尽管这两种方法在全局显著性预测方面误差较低，但在边缘预测方面表现得更差，这表明边缘像素比其他像素更难预测。为了进一步探索像素的预测困难性，我们分析了EGNet和SCRN在距离最近边缘处的预测误差分布，如图1所示。在图1中，预测误差曲线从远离边缘逐渐增加（即从右轴到左轴）。当距离大于0.4时，这些曲线上升缓慢。然而，当距离小于0.4时，这些曲线开始迅速上升。基于这一观察，我们可以根据像素距离最近边缘的距离将每个曲线分为两部分。靠近边缘的像素的预测误差比远离边缘的像素大得多。这些高预测误差的像素包括边缘像素和许多被最近的边缘感知方法忽略的靠近边缘的其他像素。大多数能够极大提高SOD性能的困难像素没有被充分利用，而仅使用边缘像素会因边缘像素和背景像素之间的不平衡分布而导致困难。相反，远离边缘的像素具有相对较低的预测误差，更容易进行分类。然而，传统的显著性标签将显著对象内的所有像素视为相等，这可能导致低预测误差的像素受到靠近边缘像素的干扰效果。我们提出了标签解耦框架来解决上述问题。LDF主要由标签解耦过程和特征交互网络组成。如图3所示，标签解耦将显著性标签分解为身体图和细节图。细节图不同于纯边缘图，它既包含边缘，又包含附近的像素，充分利用了靠近边缘的像素，因此具有更平衡的像素分布。身体图主要集中在远离边缘的像素上。在没有靠近边缘像素的干扰下，身体图可以监督模型学习更好的表示。因此，FIN设计了两个分支来适应身体图和细节图。FIN中的两个互补分支融合以预测显著性图，然后用于再次改进这两个分支。这种迭代改进过程有助于逐渐获得准确的显著性图预测。我们在六个流行的SOD数据集上进行了实验，并展示了LDF的卓越性能。总之，我们的贡献如下：0•我们设计了一个特征交互网络，充分利用分支之间的互补信息。通过迭代交换信息来增强两个分支，产生更精确的显著性图。0•我们分析了基于边缘的SOD方法的缺点，并提出了一个标签解耦过程，将显著性标签分解为身体图和细节图，分别对模型进行监督。0•在六个SOD数据集上进行了大量实验，结果显示我们的模型在很大程度上优于最先进的模型。特别是，在SOC数据集的不同挑战场景中，我们展示了LDF的良好性能。02. 相关工作0在过去的几十年中，已经开发了大量传统的SOD方法。这些方法[2, 3,36]主要依赖于内在线索（例如颜色和纹理）来提取特征。然而，这些特征无法捕捉高级语义信息，并且对变化不稳定，这限制了它们在复杂场景中的应用。最近，基于深度学习的模型取得了显著的性能，可以分为聚合型模型和基于边缘的模型。02.1. 聚合型模型0大多数基于聚合的模型采用编码器-解码器框架，其中编码器用于提取多尺度特征，解码器用于整合特征以利用不同层次的上下文信息。Hou等人[15]在全卷积网络[22]上构建了快捷连接，并整合了不同层次的特征以输出更准确的图像。Chen等人[4]提出了一种逆向注意力网络，通过擦除当前预测的显著区域，期望网络挖掘出缺失的部分。Deng等人[7]设计了一种迭代策略，通过结合深层和浅层的特征来学习预测与真实结果之间的残差图。Wu等人[33]发现浅层特征大大增加了计算成本，但在最终结果中只带来了很小的改进。Liu等人[20]利用简单的池化和特征聚合模块构建了快速准确的模型。Zhao等人[42]引入了通道注意力和空间注意力来提取有价值的特征并抑制背景噪声。BMBMBMDMDMDMBlock4Block5Block3Block2Block1IMIMIM130270c0U0U0U0U 上采样 C 连接 3x3 卷积 1x1 卷积0身体解码器0细节解码器0交互解码器0+ U0D0BM（身体模块）0+ U0DM（细节模块）0IM（交互模块）0+ 加法身体流细节流交互流0图2. 我们提出的标签解耦框架（LDF）的概述。LDF基于ResNet-50[14]，通过身体图、细节图和显著图进行监督。LDF由两个编码器和两个解码器组成，即用于特征提取的主干编码器，用于信息交换的交互编码器，用于生成身体图和细节图的身体解码器和细节解码器。直到身体解码器和细节解码器输出特征后，交互编码器才参与其中。0Wang等人[30]设计了一种自上而下和自下而上的工作流程，通过多次迭代推断显著目标区域。Liu等人[21]提出了一种像素级上下文注意力网络，学习每个像素的上下文，并结合全局上下文和局部上下文进行显著性预测。Zhang等人[38]设计了一个双向消息传递模型，以更好地选择和整合特征。02.2. 基于边缘的模型0除了显著性掩模外，边缘标签也被引入到SOD中[23, 34, 31,20, 39,42]，以辅助生成显著图。Zhang等人[39]和Zhao等人[42]直接使用二元交叉熵构建边缘损失，以强调边界的重要性。Qin等人[23]设计了一种混合损失，对SOD的像素级、块级和图像级进行监督训练。Liu等人[20]使用额外的边缘数据集联合训练边缘检测和SOD模型。Feng等人[13]应用边界增强损失生成清晰的边界，并区分两个前景区域之间狭窄的背景边缘。Li等人[18]使用两个分支网络同时预测轮廓和显著图，可以自动将训练好的轮廓检测模型转换为SOD模型。Wu等人[34]研究了分割和边缘图之间的逻辑关系，并将其推广为双向改进两个任务的多级特征。尽管这些方法考虑了边缘和显著图之间的关系，但边缘预测是一项困难的任务，因为0不平衡的像素分布。在本文中，我们明确将显著性标签分解为身体图和细节图，如图3所示。细节图有助于模型学习更好的边缘特征，而身体图减少了从边缘到中心像素的干扰。03. 方法论0在本节中，我们首先介绍标签解耦方法，并给出将显著性图分解为身体图和细节图的具体步骤。然后，为了利用特征之间的互补性，我们引入了FIN，它促进了分支之间的迭代信息交换。所提出模型的概述如图2所示。03.1. 标签解耦0如第1节所述，像素的预测困难程度与其位置密切相关。由于杂乱的背景，靠近边缘的像素更容易被错误预测。相比之下，中心像素由于显著目标的内部一致性具有更高的预测准确性。与平等对待这些像素不同，根据它们各自的特点处理它们将更合理。因此，我们提出将原始标签分解为身体标签和细节标签，如图3所示。为了实现这个目标，我们引入了距离变换(DT)来分解原始标签，这是一种传统的图像处理算法。DT可以将二进制图像转换为新图像，其中每个前景�′130280像素具有与背景的最小距离相对应的值。具体来说，DT的输入是二进制图像I，可以分为两组（即前景I fg 和背景I bg。对于每个像素p，I(p)是其对应的值。如果p ∈ Ifg，则I(p)等于1，如果p ∈ Ibg，则为0。为了获得图像I的DT结果，我们定义度量函数f(p, q) = �0(px - qx)2 + (py -qy)2来衡量像素之间的距离。如果像素p属于前景，DT将首先在背景中查找其最近的像素q，然后使用f(p,q)计算像素p和q之间的距离。如果像素p属于背景，它们的最小距离设置为零。我们使用f(p,q)作为新生成图像的像素，并且距离变换可以表示为0I'(p) =0min q ∈ I bg f (p, q), p ∈ I fg00 , p ∈ I bg (1)0距离变换后，原始图像I已经转换为I'，其中像素值I'(p)不再等于0或1。我们将像素值在[0,1]范围内进行归一化。0将最大值(I')-最小值(I')映射到[0,1]以将原始值映射。与将所有像素平等对待的原始图像I相比，I'的像素值不仅取决于它是否属于前景或背景，还与其相对位置有关。位于对象中心的像素具有最大值，而远离中心或位于背景中的像素具有最小值。因此，I'表示原始图像的身体部分，主要关注相对容易的中心像素。我们将其用作以下实验中的身体标签。相应地，通过从原始图像I中去除身体图像I'，我们可以得到细节图像，它被视为连续实验中的细节标签，并主要集中在远离主要区域的像素上。此外，我们将新生成的标签与原始二进制图像I相乘，以消除背景干扰。0标签 �0DL = I * (1 - I') (2)0其中BL表示身体标签，DL表示细节标签。现在，原始标签已经被解耦为两种不同的监督形式，以帮助网络学习具有不同特征的身体和细节特征。03.2. 特征提取0(a).图像 (b).真值 (c).身体标签 (d).细节标签0图3. 标签解耦的一些示例。 (c)表示真值的身体标签，靠近目标中心的像素具有较大的值。 (d)表示真值的细节标签，靠近目标边界的像素具有较大的值。 (c) 和(d) 的总和等于 (b)。0连接层并保留所有卷积块。给定一个形状为H ×W的输入图像，这个主干网络将通过步长2进行下采样，生成五个不断降低空间分辨率的特征。我们将这些特征表示为F = {Fi | i = 1, 2, 3, 4, 5}。第i个特征的大小为W02i ×Ci，其中Ci是第i个特征的通道数。已经证明低层特征大大增加了计算成本，但带来的性能改进有限[33]。因此，我们只使用{Fi | i = 2, 3, 4,5}中的特征，如图2所示。对这些特征应用两个卷积层，分别适应身体预测任务和细节预测任务。然后我们得到两组特征B = {Bi | i = 2, 3, 4, 5}和D = {Di | i = 2, 3, 4,5}，它们都被压缩为64个通道并发送到解码器网络以生成显著性图。03.3. 特征交互网络0特征交互网络被构建用于适应标签解耦，如图2所示。通过标签解耦，显著性标签已经转化为身体图和细节图，两者都被用作模型学习的监督。FIN被设计为一个两分支结构，每个分支负责一种标签。由于身体图和细节图都来自同一个显著性标签，两个分支的特征之间存在一定程度的相似性和互补性。我们引入特征交互来实现信息交换。总体上，提出的框架由一个主干编码器网络、一个交互编码器网络、一个身体解码器网络和一个细节解码器网络组成。如第3.2节所讨论的，我们使用ResNet-50[14]作为主干网络来提取多层特征B = {Bi | i = 2, 3, 4,5}和D = {Di | i = 2, 3, 4,5}。对于特征B，应用身体解码器网络来生成L =K�k=1αkℓ(k),(3)ℓ(k) = ℓ(k)body + ℓ(k)detail + ℓ(k)segm,(4)ℓbce =−�(x,y)[g(x,y)log(p(x,y))+(1−g(x,y))log(1−p(x,y))], (5)ℓiou = 1 −�(x,y)[g(x, y) ∗ p(x, y)]�(x,y)[g(x, y) + p(x, y) − g(x, y) ∗ p(x, y)],(6)MAE =1H × WH�i=1W�j=1|P(i, j) − G(i, j)|(7)130290生成身体图。同样地，对于特征D，应用细节解码器网络来生成细节图。在得到这两个分支的输出特征之后，最简单的处理方式是将这些特征连接起来，并应用一个卷积层来得到最终的显著性图。然而，这种方式忽略了分支之间的关系。为了明确促进分支之间的信息交换，引入了一个交互编码器网络。具体来说，交互解码器将身体解码器和细节解码器的连接特征作为输入。它堆叠多个卷积层来提取多层特征。然后，这些多层特征将分别与3x3卷积层结合，使它们适用于身体解码器和细节解码器。直接相加用于将交互特征与主干编码器的特征融合，以产生更准确的显著性图。从表面上看，整个网络是不寻常的，因为后面的分支输出被用于前面的解码器。但实际上，特征交互包含多次迭代。在第一次迭代中，两个分支输出特征而不交换信息。从第二次迭代开始，分支之间开始交互。03.4. 损失函数0我们的训练损失定义为所有迭代输出的总和，如下所示：0其中ℓ(k)是第k次迭代的损失，K表示总迭代次数，αk是每次迭代的权重。为了简化问题，我们将αk设置为1，以平等对待所有迭代。对于每次迭代，我们将得到三个输出（即body、detail和segmentation），每个输出对应一个损失。因此，ℓ(k)可以定义为以下三个损失的组合：0其中ℓ(k)body、ℓ(k)detail和ℓ(k)segm分别表示body损失、detail损失和segmentation损失。我们直接使用二元交叉熵（BCE）来计算ℓ(k)body和ℓ(k)detail。BCE是二元分类和分割中广泛使用的损失函数，定义如下：0其中，g(x, y)∈[0, 1]是像素(x, y)的真实标签，p(x, y)∈[0,1]是预测的显著性对象的概率。然而，BCE独立地计算每个像素的损失，并忽略了图像的全局结构。为了解决这个问题，正如[23]建议的那样，我们利用IoU损失来计算ℓ(k)分割，它可以衡量两个图像的整体相似性，而不仅仅是单个像素。它的定义如下：0它衡量了两个图像的整体相似性，而不仅仅是单个像素。它的定义如下：0其中符号与公式5相同。我们不在ℓ(k)body和ℓ(k)detail上应用IoU损失，因为IoU损失要求groundtruth是二进制的，否则会导致错误的预测，而body标签和detail标签不满足这个要求。04. 实验04.1. 数据集和评估指标0为了评估所提出的方法，采用了六个流行的基准数据集，包括ECSSD [36]（1000张图像），PASCAL-S[19]（850张图像），HKU-IS[17]（4447张图像），DUT-OMRON[37]（5168张图像），DUTS[25]（15572张图像）和THUR15K[5]（6232张图像）。其中，DUTS是最大的显著性检测基准数据集，包含10553个训练图像（DUTS-TR）和5019个测试图像（DUTS-TE）。DUTS-TR用于训练模型，其他数据集用于评估。此外，我们还在具有不同属性的具有挑战性的SOC数据集[8]上测量模型的性能。我们使用五个指标来评估我们的模型和现有的最先进方法的性能。第一个指标是平均绝对误差（MAE），如公式7所示，广泛应用于[4，15，18，21]。平均F-度量（mF），E-度量（Eξ）[9]，加权F-度量（Fωβ）和S-度量（Sα）也广泛用于评估显著性图。此外，还绘制了精确度-召回（PR）和F-度量曲线以显示整体性能。0其中P是预测的映射，G是真实值。04.2. 实现细节0所提出的模型在DUTS-TR上进行训练，并在上述六个数据集上进行测试。对于数据增强，我们使用水平翻转、随机裁剪和多尺度输入图像。使用在ImageNet上预训练的ResNet-50来初始化骨干网络（即block1到block5），其他参数随机初始化。我们将最大学习率设置为0.005用于ResNet-50骨干网络，0.05用于其他部分。使用热身和线性衰减策略。整个网络使用随机梯度下降（SGD）进行端到端训练。动量和权重衰减分别设置为0.9和0.0005。批量大小设置为32，最大迭代次数设置为48。在测试期间，每个图像都是MAE mFEξMAE mFEξMAE mFEξMAE mFEξMAE mFEξMAE mFEξBMPM [38].044 .894 .914 .073 .803 .838 .049 .762 .859 .039 .875 .937 .063 .698 .839 .079 .704 .803DGRL [28].043 .903 .917 .074 .807 .836 .051 .764 .863 .037 .881 .941 .063 .709 .843 .077 .716 .811R3Net [7].051 .883 .914 .101 .775 .824 .067 .716 .827 .047 .853 .921 .073 .690 .814 .078 .693 .803RAS [4].055 .890 .916 .102 .782 .832 .060 .750 .861 .045 .874 .931 .063 .711 .843 .075 .707 .821PiCA-R [21].046 .867 .913 .075 .776 .833 .051 .754 .862 .043 .840 .936 .065 .695 .841 .081 .690 .803AFNet [13].042 .908 .918 .070 .821 .846 .046 .792 .879 .036 .888 .942 .057 .738 .853 .072 .730 .820BASNet [23].037 .880 .921 .076 .775 .847 .048 .791 .884 .032 .895 .946 .056 .756 .869 .073 .733 .821CPD-R [33].037 .917 .925 .072 .824 .849 .043 .805 .886 .034 .891 .944 .056 .747 .866 .068 .738 .829EGNet-R [41] .037 .920 .927 .074 .823 .849 .039 .815 .891 .032 .898 .948 .053 .755 .867 .067 .741 .829PAGE [31].042 .906 .920 .077 .810 .841 .052 .777 .869 .037 .882 .940 .062 .736 .853---TDBU [30].041 .880 .922 .071 .779 .852 .048 .767 .879 .038 .878 .942 .061 .739 .854---SCRN [34].037 .918 .926 .064 .832 .857 .040 .808 .888 .034 .896 .949 .056 .746 .863 .066 .741 .833SIBA [24].035 .923 .928 .070 .830 .855 .040 .815 .892 .032.900 .950 .059 .746 .860 .068 .741 .832PoolNet [20].039 .915 .924 .074 .822 .850 .040 .809 .889 .032 .899 .949 .056 .747 .863 .070 .732 .8220.70.750.800.850.900.951.00R3NetPiCA-RRASEGNet-RPAGEAFNetTDBUPoolNetBASNetCPD-RSCRNSIBAOurs0.0.60.70.80.9R3NetPiCA-RRASEGNet-RPAGEAFNetTDBUPoolNetBASNetCPD-RSCRNSIBAOurs0.0.60.70.80.91.0R3NetPiCA-RRASEGNet-RPAGEAFNetTDBUPoolNetBASNetCPD-RSCRNSIBAOurs.70.750.800.850.900.951.00R3NetPiCA-RRASEGNet-RPAGEAFNetTDBUPoolNetBASNetCPD-RSCRNSIBAOurs0.0.40.50.60.70.80.9R3NetPiCA-RRASEGNet-RPAGEAFNetTDBUPoolNetBASNetCPD-RSCRNSIBAOurs0.800.820.840.860.880.900.920.940.96R3NetPiCA-RRASEGNet-RPAGEAFNetTDBUPoolNetBASNetCPD-RSCRNSIBAOurs0.760.780.800.820.840.860.88R3NetPiCA-RRASEGNet-RPAGEAFNetTDBUPoolNetBASNetCPD-RSCRNSIBAOurs0.600.650.700.750.800.850.90R3NetPiCA-RRASEGNet-RPAGEAFNetTDBUPoolNetBASNetCPD-RSCRNSIBAOurs0.700.750.800.850.900.95R3NetPiCA-RRASEGNet-RPAGEAFNetTDBUPoolNetBASNetCPD-RSCRNSIBAOurs0.600.650.700.750.80R3NetPiCA-RRASEGNet-RPAGEAFNetTDBUPoolNetBASNetCPD-RSCRNSIBAOurs130300表2.在六个数据集上与最先进方法的性能比较。使用MAE（越小越好），平均F-度量（mF，越大越好）和E-度量（Eξ，越大越好）来衡量模型的性能。'-'表示作者未提供相应的显著性图。最佳和次佳结果分别用红色和蓝色突出显示。0算法0ECSSD PASCAL-S DUTS-TE HKU-IS DUT-OMRON THUR15K01,000张图像 850张图像 5,019张图像 4,447张图像 5,168张图像 6,232张图像0LDF（我们的方法） .034 .930 .925 .060 .848 .865 .034 .855 .910 .027 .914 .954 .051 .773 .873 .064 .764 .84200.0 0.2 0.4 0.6 0.8 1.0 召回率0精确度0ECSSD00.0 0.2 0.4 0.6 0.8 1.0 召回率0PASCAL-S00.0 0.2 0.4 0.6 0.8 1.0 召回率0DUTS00.0 0.2 0.4 0.6 0.8 1.0 召回率0HKU-IS00.0 0.2 0.4 0.6 0.8 1.0 召回率0DUT-OMRON00 100 200 阈值0F-度量0ECSSD00 100 200 阈值0PASCAL-S00 100 200 阈值0DUTS00 100 200 阈值0HKU-IS00 100 200 阈值0DUT-OMRON0图4.在五个数据集上与最先进方法的性能比较。第一行显示了精确度-召回率曲线。第二行显示了不同阈值下的F-度量曲线。0简单调整大小为352 x352，然后输入网络以获得预测，没有任何后处理。值得注意的是，输出的显著性图被用作预测，而不是预测的主体和细节图的相加。04.3.消融研究0特征交互的数量。表4显示了不同特征交互数量的性能。与没有特征交互的基线相比，0动作（数字=0），具有一个特征交互的模型获得了更好的结果。当数字较大时，性能变差。因为重复的特征交互使得网络变得更深，更难优化。因此，在所有后续的实验中，我们将数字设置为1，以平衡模型优化和性能。不同监督组合。表5显示了不同监督组合的性能。TDBUPiCA-RPAGEDGRLCPD-RBMPMBASNetAFNetPoolNetAC0.7210.7270.6590.7440.6640.7630.7730.7460.7650.7390.7700.774BO0.7060.8020.6370.8470.6540.8240.7800.6770.8210.7430.7430.803CL0.7030.7080.6670.7350.6160.7400.7210.7230.7410.7070.7510.772HO0.7270.7380.6830.7730.6820.7780.7690.7680.7660.7470.7750.807MB0.7790.7570.6690.8090.6870.7940.7910.7840.8100.7410.8150.840OC0.6920.7110.6250.7240.6080.7300.7210.7130.7410.6990.7320.756OV0.7780.7830.6770.7970.6660.8050.8020.7740.7990.7680.8010.820SC0.6780.7020.6260.7250.6450.7110.7130.7230.7260.7080.7380.774SO0.5690.5880.5460.6180.5600.6150.6190.6310.6350.6050.6390.676Avg0.6620.6730.6110.6980.6080.7000.6970.6940.7090.6800.7100.739130310我们的0图像0标签0图5.不同算法的视觉比较。每行代表一张图像和相应的显著性图。每列代表一种方法的预测。显然，我们的方法擅长处理杂乱的背景，并产生更准确和清晰的显著性图。0表3. 不同属性的SOC [ 8]性能。每行代表一个属性，我们报告LDF和最先进方法的平均F-测量分数。最后一行显示了SOC数据集的整体性能。最佳和次佳结果分别以红色和蓝色突出显示。0属性 PiCA-R BMPM R 3 Net DGRL RAS AFNet BASNet PoolNet CPD-R EGNet-R SCRN 我们0从这个表格可以看出，包含详细标签的组合比包含边缘标签的组合效果更好，这证明了详细标签比边缘标签更有效。此外，包含身体标签的组合比包含显著性标签（Sal）的组合效果更好。这证实了在没有边缘干扰的情况下，中心像素可以学习到更好的特征表示。04.4. 与最先进技术的比较0定量比较。为了证明所提出方法的有效性，我们使用14种最先进的SOD方法进行比较0介绍了用于比较的方法，包括BMPM [ 38 ]，DGRL [ 28]，R 3 Net [ 7 ]，RAS [ 4 ]，PiCA-R [ 21 ]，AFNet [ 13]，BASNet [ 23 ]，CPD-R [ 33 ]，EGNet-R [ 41 ]，PAGE[ 31 ]，TDBU [ 30 ]，SCRN [ 34 ]，SIBA [ 24 ]和PoolNet[ 20]。为了公平比较，我们使用相同的评估代码评估作者提供的所有显著性图。我们根据MAE、mF和Eξ在Tab.2中比较了我们的方法与其他方法的性能。最佳结果以红色突出显示。显然，与其他对手相比，我们的方法在性能上大幅优于先前的最先进方法。此外，图40.00.20.40.60.80.10.20.30.40.5PoolNetSCRNEGNet-RAFNetSIBAPiCA-ROurs(a) ECSSD0.00.20.40.60.80.10.20.30.40.5PoolNetSCRNEGNet-RAFNetSIBAPiCA-ROurs(b) DUTS0.00.20.40.60.80.10.20.30.40.5PoolNetSCRNEGNet-RAFNetSIBAPiCA-ROurs(c) HKU-IS0.00.20.40.60.80.000.050.100.150.200.250.300.350.40PoolNetSCRNEGNet-RAFNetSIBAPiCA-ROurs(d) THUR15KξEξ00.069 0.751 0.834 0.038 0.839 0.89710.064 0.764 0.842 0.034 0.855 0.91020.066 0.756 0.837 0.035 0.849 0.90330.068 0.753 0.834 0.037 0.842 0.897ξEξ130320图6. 不同方法的误差距离分布。所提出的方法在距离上具有最小的误差。特别是在边缘区域附近，所提出的方法表现得更好。0表4.不同特征交互数量的性能。Number=0表示两个分支没有特征交互。0数量 THUR15K DUTS-TE0表5.不同监督组合的比较。分别使用身体、详细、显著性和边缘图。0标签 THUR15K DUTS-TE0主体+细节 0.064 0.764 0.842 0.034 0.855 0.910主体+边缘 0.066 0.758 0.836 0.036 0.850 0.904显著+细节 0.066 0.756 0.835 0.037 0.848 0.901显著+边缘 0.070 0.752 0.827 0.039 0.844 0.8950在五个数据集上，我们绘制了精确率-召回率曲线和 F-measure曲线。可以看到，所提出方法的曲线始终位于其他方法之上。此外，我们在图 6中计算了不同方法的误差-距离分布，其中所提出方法产生的预测在距离上具有最小的误差，特别是在边缘区域附近。视觉比较。我们在图 5中展示了所提出方法和其他最先进方法的一些预测示例。我们观察到，所提出方法不仅清晰地突出显示了正确的显著目标区域，而且还很好地抑制了背景噪声。它在处理各种具有挑战性的场景方面表现出鲁棒性，包括杂乱的背景、制造结构和低对比度的前景。与其他对应方法相比，所提出方法产生的显著图更清晰、更准确。不同属性的SOC性能。SOC [8]是一个具有多个属性的具有挑战性的数据集。具有相同属性的图像具有一定的相似性，并反映了现实世界中的共同挑战。我们利用这个数据集来测试模型在不同场景下的鲁棒性。具体而言，我们评估了我们模型的平均 F -measure 分数。0以及11种最先进的方法。每个模型将在九个属性下获得九个分数。此外，还计算了整体分数以衡量所有场景下的整体性能。表 3显示了这些分数。我们可以看到，所提出的模型在大多数属性上都取得了最好的结果，除了“BO”，这表明了所提出方法的良好泛化性，可以应用于不同的具有挑战性的场景。05. 结论0在本文中，我们提出了显著目标检测的标签解耦框架。通过实验证明边缘预测是显著性预测中的一个具有挑战性的任务，我们提出将显著性标签解耦为主体图和细节图。细节图有助于模型学习更好的边缘特征，而主体图避免了靠近边缘像素的干扰。在这两种图的监督下，所提出的方法在不同的评估指标下实现了比直接使用显著性图进行监督的方法更好的性能。此外，引入特征交互网络以充分利用主体图和细节图之间的互补性。在六个数据集上的实验证明了所提出的方法在不同的评估指标下优于现有方法。06. 致谢0本工作得到了中国国家重点研发计划项目的部分支持，编号为2018AAA0102003；中国国家自然科学基金项目的部分支持，编号为61672497，61620106009，61836002，61931008和U1636214；中国科学院前沿科学重点研究计划项目的部分支持，编号为QYZDJ-SSW-SYS013。作者们感谢金山云对他们的有益讨论和免费GPU云计算资源的支持。0参考文献0[1] Radhakrishna Achanta, Sheila S. Hemami, Francisco J.Estrada, 和 Sabine S¨usstrunk. 频率调谐显著区域检测. 在 CVPR, 页 1597–1604, 2009. 10[2] Jingdong Wang 和 Huaizu Jiang, Zejian Yuan, Ming-Ming Cheng, Xiaowei Hu, 和 Nanning Zheng. 显著130330目标检测: 一种区域特征整合的判别方法. 计算机视觉国际期刊, 123(2):251–268, 2017. 20[3] Ali Borji 和 Laurent Itti.利用局部和全局补丁稀有性进行显著性检测. 在 CVPR , 页478–485, 2012. 20[4] Shuhan Chen, Xiuli Tan, Ben Wang, and Xuelong Hu.反向注意力用于显著目标检测. 在 ECCV (9) , 卷 11213

下载后可阅读完整内容，剩余1页未读，立即下载