弱监督下基于潦草注释的显著对象检测模型

14 浏览量更新于2023-10-25 收藏 1.71MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

125461，4 2 2∼弱监督下基于潦草注释的张静1，3，4于鑫1，3，52艾轩李培培宋博文刘玉超戴1澳大利亚国立大学2西北工业大学3ACRV，澳大利亚4Data61，澳大利亚5ReLER，悉尼科技大学，澳大利亚摘要与费力的逐像素密集标记相比，通过涂鸦标记数据要容易得多，12秒标记一个图像。然而，尚未探索使用潦草标签来学习显著对象检测。在本文中，我们提出了一个弱监督的显着对象检测模型来学习显着性，从这样的注释。在这样做时，我们首先用涂鸦重新标记现有的大规模显著对象检测数据集，即S-DUTS数据集。由于对象结构和细节信息不能通过涂鸦来识别，因此直接使用涂鸦标签进行训练将导致边界定位较差的显著图为了缓解这个问题，我们提出了一个辅助的边缘检测任务，以明确地定位对象边缘此外，我们设计了一个scribble boosting方案来迭代地合并我们的scribble注释，然后将其用作超视来学习高质量的显着性图。由于现有的显著性评估度量忽略了测量预测的结构对齐，显著性图排名度量可能不符合人类感知。我们提出了一个新的度量，称为显着性结构测度，作为一个补充度量来评估预测的锐度。在六个基准数据集上进行的大量实验表明，我们的方法不仅优于现有的弱监督/无监督方法，而且与几种完全监督的最先进模型相当。1. 介绍视觉显著目标检测（SOD）的目的是定位图像中最吸引人注意力的感兴趣传统的基于手工特征或人类经验的显着对象检测方法[57，14基于深度学习的显着对象检测模型[42，50]已被广泛研究，并且通讯作者：戴玉超（daiyuchao@gmail.com）1我们的代码和数据可在以下网址公开获取：https：//github.com/JingZhang617/Scribble_Saliency.(a) GT（涂鸦）（b）GT（Bbx）（c）GT（每像素）(d) 基线（e）Bbx-CRF（f）BASNet(g) WSS（h）Bbx-Pred（i）Ours图1. (a)我们潦草的注释。(b)地面实况边界框。(c)地面实况像素智能注释。(d)基线模型：直接在涂鸦上训练。（e）DenseCRF [1]的细化边界框(f)全监督SOD方法的结果[26]。(g)在图像级注释上训练的模型结果[34](h) 在注释（e）上训练的模型。(i)我们的结果。显著性检测性能显著提高。然而，这些方法高度依赖于大量的标记数据，这需要耗时且费力的逐像素注释。为了实现标记效率和模型性能之间的权衡，已经提出了几种弱监督或无监督方法[16，47，24，52]来从稀疏标记数据[16，47]中学习显著性或从噪声注释[24，52]中推断潜在显著性。在本文中，我们提出了一个新的弱监督显著对象检测框架，通过学习低成本的标记数据，涂鸦，如图所示1（a））。在这里，我们选择潦草的注释，因为它们的灵活性（虽然边界框注释是一个选项，但它不适合标记缠绕对象，从而导致不合格的显着性图，如图所示。1（h））。由于潦草的注释通常是非常稀疏的，对象的结构和细节不能很容易地推断。直接训练一个深度12547图2. S-DUTS数据集中标记像素的百分比。部分交叉熵损失稀疏涂写模型[30] 可能导致边界定位不良的显着图，如图所示。第1段（d）分段。为了实现高质量的显著性图，我们提出了一个辅助边缘检测网络和门控结构感知损失，以强制执行我们预测的显著性图的边界，以与显著区域中的图像边缘对齐。边缘检测网络迫使网络产生特征突出的对象结构，并且门控结构感知损失允许我们的网络关注显著区域而忽略背景的结构。我们进一步开发了一种scribble boosting方式，通过将标签传播到更大的高置信度的接收字段来通过这种方式，我们可以获得更密集的注释，如图所示。7（g）。由于缺乏基于涂鸦的显着性数据集，我们用涂鸦重新标记现有的显着性训练数据集DUTS [34DUTS是一个广泛使用的显著对象检测数据集，包含10，553个训练图像。注释者被要求根据他们的第一印象潦草地写下DUTS数据集，而不向他们展示地面真实的显着对象。图2显示了整个S-DUTS数据集中标记像素的百分比。平均而言，大约3%的像素被标记（前景或背景），其他像素被保留为未知像素，这表明涂鸦注释非常稀疏。请注意，我们在训练期间仅使用涂鸦注释作为监督信号，并且我们在测试期间将RGB图像作为输入以产生此外，基于传统的平均绝对误差（MAE）的显著图排序可能不符合人类的视觉感知。例如，在图1的第一行3，最后一个显著图在视觉上优于第四个，第三个优于第二个。我们提出了显着性结构测度（Bµ）作为现有评估指标的补充指标，该指标考虑了显着性图的结构对齐。基于Bµ的测量更符合人类的感知，如图2第2行所示。3 .第三章。本文的主要工作包括：（1）提出了一种新的弱监督显著性目标检测方法，该方法通过从涂鸦中学习显著性，并引入了一种新的基于涂鸦的显著性数据集S-DUTS;（2）我们提出了一种门控结构感知损失来约束预测的显著图与输入图像中的相似结构。M= 0M=. 054M=. 061米=。104M=. 144B µ = 0B µ=. 356 B µ=。705 B µ=。787 B µ=。890图3.基于平均绝对误差（第一行）和我们提出的显着性结构测度（第二行）的显着性图排名显著区;（3）我们设计了一个scribble boosting方案来扩展我们的scribble注释，从而促进高质量的显著图获取;（4）我们提出了一个新的评估指标来衡量预测的显著图的结构对齐，这与人类的视觉感知更加一致;（5）六个显著对象检测基准的实验结果表明，我们的方法优于现有的显著图检测方法。art弱监督算法。2. 相关工作深度全监督显着性检测模型[26，55，42，50，51，36，49]已被广泛研究。由于我们的方法是弱监督的，我们主要讨论了相关的弱监督稠密预测模型和从弱标注中发现细节信息的方法。2.1. 从弱注释中学习显著性为了避免需要精确的像素级标签，一些SOD方法试图从低成本注释中学习显着性，例如边界框[29]，图像级标签[34，16]和噪声标签[52，48，24]等。这促使SOD被制定为弱监督或无监督任务。Wang等人[34]介绍了一个前景推理网络来产生带有图像级标签的显着图。同样的弱标签，Hsuet al. [10]提出了一种类别驱动的地图生成器，用于从类别激活地图中学习Li等[16]采用迭代学习策略，通过使用图像级监督的学习来更新从无监督显着性方法生成的初始显着性图。在[34，16]中使用了一个完全连接的CRF [1]作为后处理，以细化生成的Zeng等人[47]提出用各种弱监督源训练显着性模型，包括类别标签，标题和未标记的数据。 Zhang等人[48]在深度学习框架内，将来自无监督方法的显着性图与启发式融合。在类似的设置中，Zhangetal.[52]合作12548i=1--更新显著性预测模块和噪声模块以从多个噪声标签学习显著性图。2.2. 弱监督语义分割Dai等人[3]和Khoreva [13]提出以弱监督的方式从边界框学习语义分割。Hung等人[12]随机交错标记和未标记的数据，并在未标记的数据上训练具有对抗性损失的网络，用于半监督语义分割。Shi等人[39]通过使用不同膨胀率的多个膨胀卷积块来编码密集对象定位，解决了弱监督语义分割问题。Li等[37]提出了一种迭代的自下而上和自上而下的语义分割框架，以交替地扩展对象区域并优化具有图像标签监督的分割网络。Huang等人. [11]介绍了一种种子区域生长技术，用于学习图像级标签的语义分割。Vernaza等人[32]设计了一种基于随机游走的标签传播方法，以从稀疏注释中学习语义分割。2.3. 从弱标签恢复结构由于弱注释不包含特定对象的完整语义区域，因此预测的对象结构通常是不完整的。为了保留丰富和精细的语义信息，通常采用额外的正则化。两种主要的解决方案被广泛研究，包括基于图模型的方法（例如，通用报告格式[1]）和基于约束的损失[15]。Tang等人[30]介绍了一个归一化的削减损失作为正则化与部分交叉熵损失弱监督图像分割。Tang等人[31] 将标准正则化器建模为部分观测的损失函数，Obukhov等人[25]提出了弱监督语义分割的门控CRF损失。Lampert等人[15]介绍了一种约束边界原则，以恢复弱监督图像分割的细节信息。2.4. 与现有Scribble模型的虽然涂鸦注释已用于弱监督语义分割[19，33]，但我们提出的基于涂鸦的显著对象检测方法在以下方面与它们不同：（1）语义分割方法针对特定类别的对象。以这种方式，可以探索类特定的相似性。相反，显著对象检测不关注类特定对象，因此对象类别相关信息是不可用的。例如，叶子可以是显著对象，而类别类别在广泛使用的图像级标签数据集中不可用[4，20]。因此，我们提出了边缘引导的门控结构感知损失从图像中获得结构信息，而不是依赖于图像的类别。血淋淋的 (2)尽管边界信息已经被用于[33]为了传播标签，Wanget al. [33]回归边界由102个损失。因此，分段的结构可能没有与图像边缘很好地对准。相比之下，我们的方法最大限度地减少显着性图和图像的一阶导数之间的差异，并导致显着性图更好地与图像结构对齐。(3)受益于我们开发的增强方法和显著对象的固有属性，我们的方法仅需要在任何显著区域上进行涂写，如图所示。9，而scrib-bles需要遍历所有这些语义类别，以进行基于scribble的语义分割[19，33]。3. 从涂鸦中学习显著性让我们将训练数据集定义为：D={xi，yi}N，其中xi是输入图像，yi是其对应的符号，N是训练数据集的大小。完全-在有监督的显著对象检测中，yi是逐像素标签，其中1表示显著前景，0表示背景。我们定义了一个新的弱监督显着性学习问题从涂鸦注释，其中yi在我们的情况下是在训练期间使用的涂鸦注释，其中包括三类监督信号：1作为前景，2作为背景和0作为未知像素。在图2中，我们显示了训练数据集的注释像素的百分比，这表明大约3%的像素在我们的涂鸦注释中被标记为There are three main components in our network, as il-lustrated in Fig. 4: (1) a saliency prediction network (SPN)to generate a coarse saliency map sc, which is trained onscribble annotations by a partial cross-entropy loss [30]; (2)an edge detection network (EDN) is proposed to enhancestructure of sc, with a gated structure-aware loss employedto force the boundaries of saliency maps to comply with im-age edges; (3) an edge-enhanced saliency prediction mod-ule (ESPM) is designed to further refine the saliency mapsgenerated from SPN.3.1. 弱监督显著目标检测显著性预测网络（SPN）：我们基于VGG 16-Net构建了前端显著性预测网络[28]在第五层池化层之后移除层。类似于[43]，我们将生成与网络阶段相同分辨率的特征图的卷积层分组（如图所示）。4）.因此，我们将前端模型表示为f1（x，θ）=s1，.，s5，其中s m（m=1，...，5）表示来自第m级中的最后一个卷积层的特征（本文中为如[39]中所讨论的，通过不同的扩张率来扩大感受野可以将辨别性信息传播到非辨别性对象区域。我们采用了一个密集的空间金字塔池（DenseASPP）模块12549×5×5L×L图4.我们的网络图。为了简单起见，我们在这里没有显示scribble boosting机制。“I”是输入“x”的强度图像。“C”：串联操作;“conv 1x 1”：1×1卷积层。以从SPN细化粗显著性图sc，并获得边缘保持细化显著性图sr。具体地，我们将sc和e连接起来，然后将它们馈送到卷积层以产生显著性图sr。注意，我们图5.我们的“DenseASPP”模块。“conv1x1 d=3” represents[46]在前端模型之上，以从特征S5生成具有更大感受野的特征图S’。特别是，我们在DenseASPP的卷积层中使用不同的膨胀率。然后，使用两个额外的11卷积层将s'映射到一个通道的粗略显著性图s。由于我们在涂鸦符号中有未知类别的像素，因此采用部分交叉熵损失[30]来训练使用显着图作为我们网络的最终输出。类似于训练SPN，我们采用部分交叉熵损失与涂鸦注释来监督SR。门控结构感知损耗：虽然ESPM鼓励网络产生具有丰富结构的显着图，但不存在对结构范围的限制。恢复遵循我们的SPN：Ls=Σ（u，v）∈JlLu，v，（1）类似于图像的显著区域。我们期望预测的显著图在显著区域内具有一致的强度和明显的边界其中，Jl表示标记的像素集合，（u，v）是像素坐标，并且u，v是（u，v）处的交叉熵损失。边缘检测网络（EDN）：边缘检测网络鼓励SPN产生显著特征，结构信息我们使用SPN中间层的特征来产生一个通道边缘图。具体地，我们映射每个s i（i=1，.，5）具有11卷积层的信道大小M的特征图。然后我们将这五个特征图连接起来，1×1卷积层，以产生边缘图e。交叉熵损失e用于训练EDN：ΣLe=（Eloge+（1−E）log（1−e）），（2）在物体边缘。[98]《明史》：“，我们也在显著区域内施加这样的约束。回想一下，平滑度损失被开发为在保持整个图像区域的图像结构的同时增强平滑度。然而，显著对象检测旨在抑制显著区域之外的结构信息。因此，在整个图像区域上强制平滑损失将使显著性预测模糊，如表2为了减轻这种模糊性，我们采用了一种门机制，让我们的网络只关注显著区域，以减少背景结构引起的分心。具体来说，我们将门控结构感知损失定义为：u，vΣLb=Σ（|dsu，v|e−α|d（G·Iu，v）|）、（3）其中E由现有边缘检测器预先计算[22]。边缘增强显著性预测模块（ESPM）：我们引入了一个边缘增强的显著性预测模块u，vd∈→−x，→−y其中，定义为（s）=s2+1e−6，以避免计算√12550LCrCRLL（g2+g2）µµRL(a)（b）（c）（d）（e）图6.门控结构感知约束：（a）初始预测显著性图。(b)图像边缘图。(c)（a）的扩展版本。(d)Eq.中的门控掩模3 .第三章。(e)门控边缘贴图。计算零的平方根，Iu，v是像素（u，v）处的图像强度值，d指示关于→−x和→−y方向，G是结构的gate知其所失，见其所失。6（d））。门控结构感知损失对显着图的梯度应用L1惩罚以使其局部平滑，边缘感知项作为权重以保持沿图像边缘的显着区别。具体地说，如图在训练期间，利用预测的显著性图（a）），我们用大小为k = 11的正方形核对其进行扩张，以获得放大的前景区域（c））。然后，我们将门（d））定义为通过自适应阈值化二值化（c））。参见图6（e），我们的方法能够专注于显着区域并预测尖锐边界在显着性图中。目标功能：如图4.采用部分交叉熵损失Ls和门控结构感知损失Lb对显著图s c和s r进行粗处理，对边缘检测网络采用交叉熵损失e。我们的最终损失函数定义为：L=Ls（s，y）+Ls（s，y）（a）（b）（c）（d）(e)（f）（g）（h）图7.使用不同的策略来丰富潦草的注释的说明。（a）输入RGB图像并涂写注释。(b)每像素明智的地面实况。（c）将DenseCRF应用于涂鸦的结果(d)显著性检测，在（a）的涂鸦上训练。(e)显著性检测，在（c）的涂鸦上训练（f）对结果（d）应用Dense- CRF（g）（d）和（d）之间的置信图(f)用于涂鸦增强。橙色表示前景一致，蓝色表示背景一致，其他标记为未知。(h)我们的最终结果在new scribble（g）上训练。在（c）上训练的预测显著性图仍然非常类似于由原始涂鸦监督的显著性图（参见图11）。7（d））。我们没有直接扩展scribble注释，而是将DenseCRF应用于我们的初始显着性预测sinit，并将sinit 更新为scrf。直接用scrf训练网络会给网络带来噪声，因为scrf不是确切的我们计算sinit和scrf的差，并将sinit=scrf=1的像素定义为新涂鸦注释中的前景像素，将sinit= scrf= 0定义为背景像素+β1 · Lb（s，x）+β2· Lb（s，x）+β3（四）· Le像素，而其他像素为未知像素。在图7（g）和图7（g）中，7（h），我们说明了涂鸦的中间结果其中y表示潦草的注释。部分交叉-熵损失Ls将涂鸦注释作为监督，而门控结构感知损失b利用图像边界，ary信息。这两个损失并不相互矛盾，因为s专注于将带注释的可涂写像素传播到前景区域（依赖于SPN），而b强制s与EDN提取的边缘很好地对齐，并防止前景显著性像素被传播到背景。3.2. 涂鸦助推当我们为一个特定的图像生成涂鸦时，我们只是简单地注释了前景和背景的一小部分，如图所示。1.一、类内的不连续性，如复杂的形状和外观的对象，可能会导致我们的模型被困在一个局部最小值，与不完整的显着对象分割。在这里，我们试图propa-门涂鸦注释到一个更密集的注释的基础上，我们的初步估计。获得更密集注释的直接解决方案是通过使用DenseCRF [ 1 ]扩展涂鸦标签，如图所示。7（c）.然而，由于我们的涂鸦注释非常稀疏，DenseCRF无法生成更密集的注释。助推器请注意，我们的方法实现了比将DenseCRF应用于初始预测的情况更好的显著性预测结果（参见图2）。（第7段（f）分段）。这证明了我们的涂鸦提升方案的有效性。在我们的实验中，在进行一次scribbleboosting步骤的迭代后，我们的性能几乎与完全监督的方法相当。3.3. 显著性结构测度现有的显着性评价指标（ Mean Maximum SoluteError，Precision-Recall Curves，F-measure，E-measure[7]和S-measure [6]）主要关注预测的准确性，而忽略了预测的显着性图是否符合人类感知。换句话说，估计的显著性图应该与输入图像的对象结构对准在[23]中，提出bIOU损失来惩罚显着边界长度。我们将bIOU损失调整为误差度量Bµ，以评估显着图与其地面实况之间的结构对齐。给定预测的显著性图s及其逐像素的地面实况y，它们的二值化边缘图被定义为gs并且关于iv el y被定义为gy。则Bµ表示为：Bµ=从我们的涂鸦（见图。7（c））。参见图7（e）、1−2Σ·（gs·gy），其中B ∈[0，1]. B=0表示每-S y12551×55N∼图8.前两个图像显示原始图像边缘。我们扩大了原始边缘（最后两张图像），以避免由于原始边缘的小尺度而导致的错位。效果预测由于边缘尺度较小，预测和地面实况显着性图的边缘可能无法很好地对齐，因此它们将导致不稳定的测量结果（见图1）。（八）。在计算Bµ测度之前，我们用大小为3的平方核扩张两个边缘映射。如图3、B µ反映了预测的敏锐度，与人类的感知一致。3.4. 网络详细信息我们使用VGG 16-Net [28]作为我们的骨干网络。在边缘检测网络中，我们将sm编码为通道大小为32到11个卷积层的特征图。在“DenseASPP”模块中5），前三个卷积层产生信道大小为32的显著性特征，最后一个卷积层将特征映射到与s5相同大小的s′。然后，我们使用两个连续的卷积层将s′映射到一个通道的粗糙显著性图sc。Eq. 3和等式（4）设为：α=10，β1=β2=0。3，β3=1。我们使用Pytorch训练我们的模型50个epoch，SPN使用ImageNet [4]上预训练的VGG 16-Net [28]中的参数初始化其他新添加的卷积层随机初始化为（0，0. 01）。基本学习率初始化为1 e-4。整个训练在配备NVIDIA GeForce RTX 2080 GPU的PC上，训练批量大小为15，耗时6小时。4. 实验结果4.1. 涂鸦数据集为了训练我们的弱监督显着对象检测方法，我们通过三个注释器重新标记了具有潦草注释的现有显着性数据集（S-DUTS数据集）。在图9中，我们展示了两个由不同标注者进行的涂鸦注释的示例。由于涂鸦的稀疏性，带注释的涂鸦不会有很大的重叠。因此，不进行多数表决。如前所述，用涂鸦标记一个图像非常快，平均只需要12秒。4.2. 设置数据集：我们在新标记的涂鸦显著性数据集上训练网络：S-DUTS。然后，我们在六个广泛使用的基准上评估我们的方法：（ 1）DUT测试数据集[34];（2）ECSSD [44];（3）DUT [45];（4）PASCAL-S[18];（5）HKU-IS [17]和（6）THUR [2]。图9.由不同的标注者绘制的涂鸦注释插图。从左至右：输入RGB图像，逐像素地面实况标签，由三个不同的标签器进行涂写注释。竞争方法：我们比较我们的方法具有五种最新的弱监督/无监督方法和十一种全监督显著性检测方法。评估指标：使用了四个评价指标，包括平均绝对误差（MAEM）、平均F-度量（F β）、平均E-度量（Eβ[7]）和我们提出的显著性结构测量（Bµ）。4.3. 与最新技术定量比较：在表1和图11中，我们将我们的结果与其他竞争方法进行了比较。如表1所示，与其他弱监督或非监督方法相比，我们在这四种显着性评估标准下始终实现了最佳性能。由于最先进的弱监督或无监督模型不会对预测的显着性图的边界施加任何约束，因此这些方法无法保留预测中的结构并在Bµmeasure上产生高相比之下，我们的方法显式地对预测的边缘强制执行门控结构感知损失，并实现较低的Bµ。此外，我们的性能也与一些完全监督的显着性模型（如DGRL和PiCANet）相当或更好。图11显示了我们的方法以及其他竞争方法在HKU-IS和THUR数据集上的E-测量和F-测量曲线由于篇幅所限，补充资料中提供了其他四个测试数据集的E-测量和F-测量曲线。如示于图11，我们的方法显着优于其他弱监督和无监督模型与不同的阈值，证明了我们的方法的鲁棒性。此外，我们的方法的性能也与一些完全监督的方法相当，如图所示。11个国家。定性比较：我们从ECSSD数据集[ 44 ]中采样了四幅图像，并通过六种竞争方法预测了显着性图，我们的方法如图10所示。我们的方法，同时实现性能与对于一些完全监督的方法，显著优于其他弱监督和无监督模型。图10，我们进一步表明，直接训练与scrib-bles产生显着地图与穷人的定位（受益于我们的EDN以及门控结构感知损失，我们的网络能够产生更清晰的显着性图12552表1.六个基准数据集的评价结果↑↓分别表示越大越好，越小越&度量DGRL[35]UCF[53]PiCANet[21]R3Net[5]充分NLDF[23]辅助核算模型[41]第四十话：我的世界AFNet[8]PFAN[56]PAGRN[54]BASNet[26]弱的Sup。不好模型SBFWSIWSSMNL我们的MSW[48个][16个][34个][52][47]Bµ ↓.4997.6990.5917.4718.5942.5421.4338.5100.6601.5742.3642.7587.8007.8079 .6806.8510.5500ECSSDFβE↑↑.9027.9371.8446.8870.8715.9085.9144.9396.8709.8952.8856.9218.9076.9321.9008.9294.8592.8636.8718.8869.9128.9378.7823.8354.7621.7921.7672.7963.8098.8357.7606.7876.8650.9077M ↓.0430.0705.0543.0421.0656.0479.0434.0450.0467.0644.0399.0955.0681.1081 .0902.0980.0610Bµ ↓.6188.8115.6846.6061.7148.6415.5491.6027.6443.6447.4803.8119.8392.8298 .7759.8903.6551DUTFβE↑↑.7264.8446.6318.7597.7105.8231.7471.8527.6825.7983.7095.8306.7385.8450.7425.8456.7009.7990.6754.7717.7668.8649.6120.7633.6408.7605.5895.7292.5966.7124.5970.7283.7015.8345M ↓.0632.1204.0722.0625.0796.0636.0567.0574.0615.0709.0565.1076.0999.1102 .1028.1087.0684Bµ ↓.6479.7832.7037.6623.7313.6708.6162.6586.7097.6915.5819.8146.8550.8309 .7762.8703.6648Pascal-SFβE↑↑.8289.8353.7873.7953.7985.8045.7974.7806.7933.7828.8129.8219.8220.8197.8241.8269.7544.7464.7656.7545.8212.8214.7351.7459.6532.6474.6975.6904.7476.7408.6850.6932.7884.7975M ↓.1150.1402.1284.1452.1454.1193.1215.1155.1372.1516.1217.1669.2055.1843 .1576.1780.1399Bµ ↓.4962.6788.5608.4765.5525.4979.4211.4828.5302.5329.3593.7336.7824.7517 .6265.8295.5369HKU-ISFβE↑↑.8844.9388.8189.8860.8543.9097.8923.9393.8711.9139.8780.9304.8948.9402.8877.9344.8717.8982.8638.8979.9025.9432.7825.8549.7625.7995.7734.8185.8196.8579.7337.7862.8576.9232M ↓.0374.0620.0464.0357.0477.0387.0333.0358.0424.0475.0322.0753.0885.0787 .0650.0843.0470Bµ ↓.5781-.6589-.6517.6196.5244.5740.7426.6312.4891.7852-.7880 .7173-.5964ThurFβE↑↑.7271.8378...7098.8211--.7111.8266.7177.8288.7498.8514.7327.8398.6833.8038.7395.8417.7366.8408.6269.7699--.6526.7747.6911.8073--.7181.8367M ↓.0774..0836-.0805.0794.0935.0724.0939.0704.0734.1071-.0966 .0860-.0772Bµ ↓.5644.7956.6348-.6494.5823.4618.5395.6173.5870.4000.8082.8785.7802 .7117.8293.6026个dutFβE↑↑.7898.8873.6631.7750.7565.8529--.7567.8511.7917.8829.8246.9021.8123.8928.7648.8301.7781.8422.8226.8955.6223.7629.5687.6900.6330.8061.7249.8525.6479.7419.7467.8649M ↓.0512.1122.0621-.0652.0490.0428.0457.0609.0555.0476.1069.1156.1000 .0749.0912.0622GT PiCANet NLDF CPD BASNet SBF MSW M1 Ours图10.显着图的比较图11.两个基准数据集上的E-measure（前两位）和F-measure（后两位）曲线最好在屏幕上观看比其他弱监督和无监督的人更好。4.4. 消融研究我们进行了九个实验（如表2所示）来分析我们的方法，包括我们的损失函数（我们的最终结果表示为带潦草注释的直接培训：我们采用部分交叉熵损失来训练图中的SPN。四是标签化。性能标记为“M1”。正如预期的那样，门控结构感知损失的影响：我们将我们的门控结构感知损失添加到“M1”，并且性能由“M2”表示。与“M1”相比，门控结构感知损失提高了性能然而，如果不使用我们的EDN，12553L表2.六个基准数据集的消融研究闸门冲击：我们提出了门控结构感知损失，让网络专注于图像的突出区域，而不是像传统的平滑损失那样关注整个图像[38]。为了验证门的重要性，我们将我们的损失与标记为“M3”的平滑损失进行比较。如图所示，边缘检测任务的影响：我们在M1中加入边缘检测任务，并使用交叉熵损失来训练EDN。性能用“M4”表示。我们观察到，与“M1”相比，Bµ测量值显著降低。这表明我们的辅助边缘检测网络为显著性预测提供了丰富的结构指导。注意，我们的门控结构感知损失未在“M4”中使用scribble boosting的影响：我们使用所有的分支以及我们提出的损失来训练我们的网络，性能用“M5”表示。预测的显著性图也称为我们的初始估计显著性图。我们观察到降低的性能相比，使用DenseCRF作为后处理：在获得我们的初始预测显着图后，我们还可以使用后处理技术来增强显着图的边界。因此，我们使用Dense- CRF对“M5”进行了细化，结果显示在“M6”中，其劣于“M5”。原因在于两个部分： 1 ） DenseCRF 的超参数不是最好的 ; 2 ）DenseCRF在恢复结构信息时没有考虑结构的显著性，造成额外的假阳性区域。使用我们的scribble提升机制，我们总是可以实现提升的或至少相当的性能，如“M0”所示使用Grabcut生成伪标签：给定scribble注释，可以使用Grab- cut [27]放大注释。我们使用通过将Grabcut应用于我们的涂鸦注释y而获得的伪标签y'进行了实验，并在“M7”中显示了性能在训练过程中，我们使用与Eq. 4，除了我们对 s使用交叉熵损失。“M7”的表现比我们差。主要原因是由于Grabcut有限的准确性，伪标签y'直接用y'训练会让网络记住嘈杂的标签，而不是学习有用的显着性信息。对不同涂鸦注释的鲁棒性：我们通过用一组涂鸦数据集训练网络来报告我们的性能“M0”。然后，我们使用另一组涂鸦数据集（“M8”）进行训练，我们观察了与“M0”相比的吻合钉性能。这意味着，我们的方法是强大的涂鸦注释，尽管他们的稀疏性和几个重叠不同的标注。我们还进行了实验，合并涂鸦不同的标签作为监督信号，并显示了这个实验的性能在实验材料。不同的边缘检测方法：我们得到Eq中的边缘映射E。2从RCF边缘检测网络[22]训练EDN。我们还采用了手工制作的边缘图检测方法，由于Sobel算子对图像噪声比较敏感，所以M9算子的RCF然而，5. 结论在本文中，我们提出了一个弱监督显着对象检测（SOD）网络在我们新标记的涂鸦数据集（S-DUTS）上训练。我们的方法显着放宽了标记的数据训练SOD网络的要求。通过引入辅助边缘检测任务和门控结构感知损失，我们的方法产生具有丰富结构的显着性图，这与我们提出的显着性结构度量所测量的人类感知更加一致。此外，我们开发了一个scribble boosting-ing机制，以进一步丰富scribble标签。大量的实验表明，我们的方法显着优于国家的最先进的弱监督或无监督的方法，并与完全监督的方法。谢谢。该研究得到了中国自然科学基金资助（61871325，61420106007，61671387），澳大利亚研究委员会机器人视觉卓越中心（CE140100016）和中国国家重点研发计划（2018AAA0102803）的部分支持。我们感谢所有的观众和地区主席的建设性意见。度量M0M1M2M3M4M5M6M7M8M9Bµ ↓.550.896.592.616.714.582.554.771点五四三点五九二Fβ↑0.865.699.823.804.778.845.835点六九六点八六八.839E↑0.908.814.874.859.865.898.890.730.908点九零七口径M↓061.117.083.094.091.068.074.136.059. 070Bµ ↓.655.925.696.711.777.685.665.7860.656.708Fβ↑0.702.518.656.626.580.679.6580.556.691.671E↑ 电话： +8 6 - 0 2 1 - 88 8 8 8 8 8 8 传真： +8 6 -021 - 88888888点816口径M↓.068.134.083.102.116.074.081.1080.069.080Bµ ↓.665.921.732.760.787.693.676.7920.664.722Fβ↑0.788.693.748.727.741.772.7680.657.792.771E↑0.798.761.757.731.795.791.782.664.800点804口径M↓.140.171.160.173.152.145.152.2040.136.143Bµ ↓.537.892.567.609.670.574.559.747点五三五点五六四Fβ↑0.858.651.813.789.747.835.812点六四六点八五七.821E↑0.923.799.904.878.867.911.900.761.920点九零七口径M↓.047.113.060.083.080.055.062.1230.047.058Bµ ↓.596.927.637.677.751.635.606.7800.592.650Fβ↑点七一八点五二零.660.641.596.696.6830.586.718.690Bµ ↓.603.923.681.708.763.639.634.7450.604.687Fβ↑点七四七点五一七.688.652.607.728.685点五七八点七四三.728个dutHKU-ISPascal-SThurDUTECSSD12554引用[1] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE传输模式分析马赫内特尔，40（4）：834-848，2017. 一、二、三、五[2] Ming-Ming Cheng，Niloy J Mitra，Xiaolei Huang，andShi-Min Hu.凸形：图像集合中的组显著性。The Visual Computer，30（4）：443-453，2014. 6[3] 戴季峰、何开明、孙建。Boxsup：利用边界框来监督卷积网络进行语义分割。正在进行IEEE国际配置文件目视第1635-1643页，2015年。3[4] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。在proc IEEE会议Comp. 目视帕特识别，第248-255页，2009。三、六

下载后可阅读完整内容，剩余1页未读，立即下载