高分辨率显著目标检测方法

115 浏览量更新于2023-10-13 收藏 1.54MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3580××解纠缠的高质量显著目标检测吕唐博里1*易捷钟守宏丁1莫飞宋2，31优图实验室，腾讯，上海，中国2计算机科学与工程3计算机网络与信息集成教育部重点实验室中国南京东南大学luckybird1994@gmail.com，libraboli@tencent.com，dun. gmail.com，ericshding@tencent.comsongmf@seu.edu.cn摘要显著目标检测（SOD）是从视觉场景中发现和定位最具特征的目标，在各种计算机视觉系统中起着至关重要的作用。进入高分辨率时代，SOD方法面临着新的挑战。以前的方法的主要限制是，他们试图识别显着的区域，并估计准确的对象边界，同时与一个单一的回归任务在低分辨率。这种做法忽略了这两个困难问题之间的内在差异，导致检测质量差。在本文中，我们提出了一种新的高分辨率SOD任务的深度学习框架，它将任务分解为低分辨率显着性分类网络（LRSCN）和高分辨率细化网络（HRRN）。LRSCN是一种基于像素的分类算法，能够在低分辨率下获取足够的语义信息，识别出图像中的显著区域、背景区域和不确定区域。HRRN是一个回归任务，其目的是准确地细化不确定区域中像素的显著性值，以在有限的GPU存储器的情况下以高分辨率保留清晰的对象边界。值得注意的是，通过在训练过程中引入不确定性，我们的HRRN可以在不使用任何高分辨率训练数据的情况下很好地解决高分辨率精化任务。在高分辨率显著性数据集以及一些广泛使用的显著性基准上的大量实验表明，与现有方法相比，该方法具有更好的性能。*通讯作者和第一作者同等贡献。本工作得到了国家自然科学基金（61906036）和中央高校基础研究基金（2242021k30056）的资助。1. 介绍显著对象检测（SOD）的目标是准确地检测和分割的视觉场景中最独特的作为初步步骤，它在各种视觉系统中起着至关重要的作用，例如视频对象分割[43]，光场图像分割[39]，图像-句子匹配[18]，人员重新识别[23]和实例分割[64]。近年来，商品成像和显示设备的快速发展，导致了对高分辨率（例如，720p、1080p和4K）图像。显著对象检测以及许多最先进的计算机视觉任务在遇到高分辨率场景时面临各种挑战。一个好的高分辨率显著对象检测方法不仅要准确地检测出整个显著对象，而且要预测出显著对象的精确边界。尽管传统的基于深度神经网络（DNNS）的SOD模型在低分辨率（例如，典型尺寸224224、384384），但是它们通常不能为高分辨率图像生成高质量的检测结果。这一缺点的主要原因是，大多数以前的方法试图在一个步骤中同时识别显著区域和估计准确的对象边界，这对于高分辨率显著对象检测是两个困难且为了解决第一个问题，需要网络通过维持较大的接收域来捕获足够的语义。然而，由于内存使用量随着图像分辨率的增加而急剧增加，因此这些模型直接学习高分辨率图像的足够语义是不现实的。一种合理的方式是引入下采样操作，但是结构细节在下采样期间不可避免地丢失，然而这恰恰是解决第二个问题的关键。不幸的是，大多数现有的低分辨率SOD3581Img GT我们的LDF GateNet图1.与高分辨率SOD的最新方法的比较。最好放大观看。方法[24，57，4，47]试图用单个回归框架来解决上述两个问题，这忽略了两个问题之间的固有差异，并导致模糊的边界。如图1所示，如果我们深入研究由代表性现有方法LDF [47]和GateNet [62]生成的显着图，我们可以观察到像素可以分为三个不同的集合：（1）显著对象内部的大多数像素具有最高的显著性值，并且我们将这些像素称为确定显著像素;（2）背景区域中的大多数像素具有最低的显著性值，其属于确定背景像素;（3）模糊对象边界处的像素的显著性值在0和1之间波动，因此我们将这些像素称为不确定像素。理想的SOD方法应能有效地识别图像中确定的显著区域和背景区域，并能准确地计算不确定区域中像素的显著值，以保持清晰的目标边界。从这个角度来看，在SOD中基本上有两个任务，它们需要完全不同的能力来解决上述两个问题。前一个任务可以被看作是一个经典的分类任务，而后者是一个典型的回归任务。尽管对有效的高分辨率SOD方法的需求，这条线的工作很少被研究。在本文中，受SOD应该被分解为两个任务的新观察的启发，我们提出了一种用于高分辨率显著对象检测的新的深度学习框架。具体地，我们将高分辨率显著性对象检测解耦为低分辨率显著性分类网络（LRSCN）和高分辨率细化网络（HRRN）。LRSCN被设计为在低分辨率下捕获足够的语义，并将像素分类为三个不同的集合以供后续处理。HRRN旨在精确地细化不确定区域中的像素的显著性值，以在有限的GPU存储器的情况下以高分辨率保留清晰的对象边界。如上所述，HRRN需要高分辨率图像中的结构细节然而，广泛使用的低分辨率显着性数据集通常在注释质量方面存在一些问题[52]，使得几乎不可能从这些有缺陷的数据集中直接获得足够的对象边界细节来训练高分辨率显着性数据集。网络在最近的工作中，Zeng et al.[52]建议通过使用具有准确注释的高分辨率图像来训练他们的SOD网络。然而，这样的高质量图像注释需要沉重的劳动力成本。在我们的论文中，我们认为在网络训练中使用这种精确注释的高分辨率图像是不必要的通过在训练过程中引入不确定性[19]，我们的HRRN可以很好地解决高分辨率细化任务，仅使用具有较差注释的低分辨率训练数据集。我们的主要贡献可概括如下：• 我们提供了一个新的视角，即高分辨率显着对象检测应该被分解为两个任务，并证明了这两个任务的分解对于提高基于DNN的SOD模型的性能至关重要。• 出于解开的原则，我们提出了一个新的框架，高分辨率的显着对象检测，它使用LRSCN捕获足够的语义在低分辨率和HRRN准确的边界细化在高分辨率。• 我们最早尝试将不确定性引入SOD网络训练中，这使得HRRN能够在没有任何高分辨率训练数据集的情况下很好地解决高分辨率精化任务。• 我们进行了大量的实验，以证明所提出的方法刷新了SOTA的高分辨率显着性数据集的性能，以及一些广泛使用的显着性基准的大幅度。2. 相关工作在过去的几十年中，人们开发了大量的SOD算法。传统模型[17，6，36，40，20]通过利用具有手工特征的各种启发式显着性先验来检测显着对象。关于传统方法的更多细节可以在调查中找到[1]。最近，随着深度学习的发展，显著性检测的性能已经取得了很大的改进[24，9，26，34，65，38，59]。在这里，我们主要关注基于深度学习的显著性检测模型。最近，一些基于DNN的模型使用各种特征增强策略来提高显著对象的定位和感知能力[16，48，35，5，46，28，62，12]，或者利用边缘特征来恢复显著对象的结构细节[44，60，49，63]。例如，Pang et al.[28]在多层次和多尺度特征上应用变换-交互-融合策略来学习判别特征表示。Zhao等人[62]设计了一种门控双分支结构，以建立不同层次特征之间的合作，并提高整个网络的可区分性在[60]中，3582{1}|}{|}{|}352×352352×35211024×10243 1133上采样S4++德孔夫2424 21024×1024Conv1-2Conv2-2Conv3-3En-ConvSsupEn-Res1SMECFDe-Res1+De-Res2+MECFEn-Res2SsupDe-Res3+MECFsupEn-Res3SDe-Res4MECFsupEn-Res4第1阶段：LRSCN第2阶段：HRRN显著性监督3×3Conv步幅转换+SN+BNConv+SN+BN最近上采样平均池S短切块+ 逐元素添加短切块解码器Res块+编码器资源块++编码器转换+D-4D-3Conv6-3Conv5-3Conv4-3D-5SGA图2.所提出的解纠缠高质量显著对象检测方法的框架将边缘检测分支中的边缘特征与显著性特征进行融合，作为互补信息，增强结构细节，实现精确的显著性检测。Zhou等人。[63]使用两个单独的分支分别表示显着性和轮廓流，并使用一种新的特征融合模块进行相关组合。与上述方法不同，一些方法考虑利用预测-细化架构来生成精细显著对象。例如，Wang等人[41]提出了全局定位显着对象，然后通过局部边界细化模块对其进行细化。Qin等[31]由一个Encoder-Decoder网络和一个残差细化模块组成，分别负责显著性预测和显著图细化。然而，所有这些方法都不能很好地处理高分辨率显著对象检测问题，因为这种简单的回归框架不能同时识别显著区域和估计准确的对象边界，并且它们的架构没有针对高分辨率SOD进行优化。Zeng等[52]试图通过利用全局语义信息和局部高分辨率细节来精确地检测高分辨率图像中的显著物体来缓解这个问题然而，Zeng等人。[52]依赖于具有精确符号的高分辨率训练图像，这需要大量的劳动力成本。与上述方法不同，我们将高分辨率SOD分解为不同分辨率的两个任务：以低分辨率识别显著区域，并以高分辨率估计精确的对象边界。此外，与Zeng et al.[52]，我们引入了新的不确定性损失，这使得我们的HRRN能够在不使用任何高分辨率训练数据集的情况下很好地解决高分辨率细化任务。最近，Wei等人[47] Zhang et al.[55]在他们的SOD方法中也利用解缠结。然而，他们仍然试图在一个单一的回归框架下，但与解耦的监督，以解决SOD任务。与我们提出的方法不同，他们的解纠缠框架几乎没有触及SOD的本质，这本质上是包含两个不同的任务。有关基于DNN的方法的更多信息，请参考调查[42，14]。3. 该方法在本节中，我们首先描述所提出的解纠缠高质量显著对象检测网络的总体架构，然后阐述我们的主要贡献，其对应于LRSCN和HRRN。3.1. 网络概述所提出的方法的架构如图2所示。可以看出，解纠缠包括两个不同分辨率的两个解耦任务。LRSCN的目标是在低分辨率下捕获足够的语义，并将像素分类为三个不同的集合，这也可以节省内存使用。而准确的物体边界估计需要更多的高分辨率局部细节因此，我们设计HRRN回归像素的显着性值，并在高分辨率下保持清晰的对象边界。LRSCN具有类似于编码器-解码器架构的简单U-Net[32]。VGG-16 [33]用作骨架。接下来[16，60]，我们将另一条侧路径连接到VGG-16中的最后一个池化层。因此，我们从骨干网络获得六个侧特征Conv 1 -2，Conv 2 -2，Conv 3 -3，Conv 4 -3，Conv 5 -3和Conv 6 -3。由于Conv 1 -2和Conv 2 -2离输入太近，并且它们的感受域太小，在[60，48]之后，我们只使用最后四个级别的特征进行以下过程。Conv 6 -3是例如，在表示为Fhh=6的情况下，其他三个级别特征表示为F11=3、4、5。增加了多尺度特征提取和跨层次特征融合（MECF）模块补间编码器和解码器，以帮助改进特征表示的可辨别性。解码器以自下而上的方式融合来自MECF的输出特征和来自前一级的上采样特征。每个解码器的输出被定义为Di，i=3、4、5、6。最后，在D3的基础上建立了SGA模块，实现了三重图T的精确生成.如所描述的，LRSCN是分类任务并且旨在3583--×gt∈MECF）/2×H×WSGA）×高×F1显著性图×三元图+乙状Softmax×逐元素乘法+逐元素加法C级联3×3ConvHF2$）/2×高×$Fu（F2C$F$分裂D-3CF我图3. MECF和SGA模块的架构。图像GTTrimapGT预测三元图以低分辨率捕获足够的语义。为了回归清晰的对象边界值，HRRN的输入是在由LRSCN提供的三重图的指导下的HRRN具有基本的编码器-解码器架构，并且在不确定性损失的帮助下，网络可以对噪声数据更加鲁棒，并预测具有清晰边界的高分辨率显著性图。3.2. LRSCN的体系结构为了在低分辨率下捕获足够的语义，学习判别特征表示是必不可少的。该网络不仅要考虑不同显着对象的尺度和位置变化，而且要区分显着对象和非显着区域之间的外观差异。为了实现第一个目标，我们开发了一个基于全局卷积网络（GCN）的多尺度特征提取模块（ME）[29]，以扩大特征感受野并获得多尺度信息。为了实现第二个目标，我们利用跨级别特征融合模块（CF）来利用不同级别特征的优势。此外，在设计网络架构时，受[50]的启发，我们使用分裂-变换-合并策略来进一步扩大特征感受野，从而产生更具鉴别力的特征表示。具体地说，我们将输入F按通道维数均匀地分成两部分F1、F2，然后将F1送入多尺度特征提取通路，将F2送入跨尺度特征融合通路。这两个路径的输出我们把这个桥接模块称为MECF模块，如图3所示。有关MECF模块的更多详细信息，请参见补充材料的第6节。SGA模块。如图2所示，每个解码器融合来自MECF模块和先前解码器级的特征，然后使用3 × 3卷积层进行最终预测。为了保持Trimap和显着图的一致性，保证Trimap的不确定区域能够准确覆盖显着图的边界，在D3上设计了显着引导注意模块（SGA）。具体地说，我们先×图4.trimap的例子列3示出了从GT生成的三元图列4示出了由LRSCN预测的三重映射精确的三重图最后，输出三重映射T是3通道分类logits。整个SGA模块保证了三元图和三元图的对齐。3.3. HRRN架构HRRN的目标是精确地细化不确定区域中像素的显著性值，以在LRSCN提供的trimap的指导下，以高分辨率保持清晰的对象边界。HRRN的架构如图2所示。HRRN有一个类似U-NET的简单架构。打赌- 称为高分辨率预测，然后我们做一些重要的修改。首先，较低级特征包含丰富的空间和细节信息，其在恢复清晰的对象边界中起着至关重要的作用，因此解码器在每个上采样块之前而不是在每个上采样块之后组合编码器特征。此外，我们使用一个两层的捷径块来对齐编码器特征的通道，用于特征融合。其次，为了让网络更加关注细节信息，我们直接将原始输入通过一个捷径块馈送到最后，从图像生成任务[3，53]中学习，我们对每个卷积层使用谱归一化 [27]来添加对网络Lipschitz常数的约束并稳定训练。3.4. LRSCN的损失函数为了监督LRSCN，我们应该生成三图地面实况Tgt，它可以表示明确的显着性，明确的背景和不确定的区域。如所描述的，不确定区域主要存在于对象的边界处。因此，我们擦除和扩大二进制地面实况地图在对象边界与随机像素数（5，7，9，11，13）生成GT不确定区域。剩余的前地和背景区域表示确定的显著区域和背景区域。Tgt定义为：2002年2月，Tgt（x，y）∈定凸使用3 3卷积和sigmoid函数来计算显著图然后，显著图被视为空间的权重图可帮助细化要素并生成Tgt（x，y）=0，Tgt（x，y）∈确定背景1、T（ x，y）不确定区域（一）3584不确定2σ2+2logσi，1E我Uσi是每个像素的不确定性，由我Σ|| −||2我我其中（x，y）代表图像上的每个像素位置。图4中可以看到一些示例对于trimap监督，我们使用Softmax交叉熵损失，其定义为：1ΣeTi−L三重映射=N1998年12月20日（IjeTj）。（二）ImgGTL1损失不确定性损失不确定性值+L1损失为了保证三图的精确性，我们增加了额外的显著性监督L显著性作为三图监督的补充。与BASNet [31]类似，我们在多个级别上使用像素级，区域级和对象级监督策略，以更好地保持显着对象的均匀性和整体性。具体地，二进制交叉熵（BCE）[7]、SSIM [45]和F测量损失[61]被表示为像素级、区域级和对象级损失。注意，LRSCN的所有部分都是联合训练的，因此整体损失函数给出为：LLRSCN=L显著性+L三重图。（三）我们不使用不确定性损失，因为LRSCN的主要目标是捕获足够的语义，而不是准确的边界。关于L显著性的更多细节可以在补充材料的第5节中找到。3.5. HRRN的损失函数图5.损失的影响。最好放大观看。然而，在[54]中，“不确定性”是指由CVAE建模的人类感知不确定性。而在[58]中，“不确定性”表示由R-dropout建模的显着性预测系统不确定性。显然，他们对不确定性的用法与我们的不同。受[19]的启发，使用高斯似然来对不确定性进行建模。令x和f（x）是HRRN的输入和输出，并且高斯似然被定义为：p（y|f（x））=N（f（x），σ2），（5）其中σ测量估计的不确定性，y是输出的标签。在最大似然推断中，我们最大化模型的对数似然，其被写为：yf（x）2 1lo gp（y|f（x））∝−2σ2−2logσ，（6）因此，拟议的不确定性损失定义为：我们执行一个L1损失和新的不确定性损失，以恢复的精细结构和边界的显着对象。对于输入高分辨率图像I，令GH表示其L不确定度=||2||22σ2+1logσ2。（七）2groundtruth，预测的显着图是SH。我们利用L1损失来比较预测的显着性图和地面实况之间的绝对差异我们只关心不确定区域的像素，所以L不确定度表示为：H H2明确的显著区域和背景区域：L=1Σ||SI −Gi ||1i∈U我第二（8）条L =1Σ|SH− GH|、（四）哪里是不确定区域中的像素总数其中E指示在三重图中被标记为明确的显著或背景的像素的数量，SH和GH表示位置i处的预测值和地面实况值。我们不能直接计算不确定区域上的预测显着图和地面实况之间的L1我们在补充材料的第4节中显示了这些低质量的注释。从这些有缺陷的数据集中直接获得足够的对象边界细节来训练高分辨率网络几乎是不可能的。为了解决这个问题，我们设计了不确定性损失，这使得我们的HRRN能够很好地解决高分辨率细化任务，只使用这些有缺陷的低分辨率训练数据集。值得注意的是，有一些以前的作品[54，58]在其标题中涉及“不确定性”，这似乎与我们的Ui∈E3585HRRN。与直接从噪声数据中学习不同，不确定性损失可以允许网络学习如何从错误的标签中减弱效果。具体地，网络学习预测高不确定性的像素将具有等式8的第一项的较小值，因此对损失几乎没有影响。同时，大的不确定性增加了等式8的第二项的贡献，并且反过来惩罚模型并且使模型做出具有低不确定性的更好预测。注意，HRRN的所有部分都是联合训练的，因此总体损失函数如下：LHRRN=L不确定度+L 1。（九）为了展示建议的不确定性损失如何使网络在训练期间减弱错误标签的影响，我们将L1损失和不确定性损失的影响可视化3586××××β×β-∗β2精确度+召回率在图5中的相同训练迭代中。我们在同一张图片中显示了这两种损失的影响。图5中所示的图像是在注释质量方面具有问题的图像。与column.4和column.5相比，如果我们只使用L1损失，则不确定区域中的损失的权重将很大，这导致网络难以收敛。而不确定性损失将使不确定区域中损失的权重很小，并使网络尽可能忽略噪声数据的影响。列6示出了不确定区域中的像素的不确定值。可以看出，不确定区域中的像素通常具有较高的不确定性值。通常，与L1损失相比，不确定性损失降低了不确定性区域中损失的权重，从而减轻了噪声数据对网络的影响。但由于不确定性值，它将允许网络学习如何以低确定性值预测更好的预测，而不是完全忽略不确定性区域的学习。这些视觉比较显示了不确定性损失如何使网络对噪声数据更具鲁棒性。4. 实验4.1. 实验设置实施详情。在工作[31，60，28，47]之后，我们在DUTS-TR上训练我们提出的网络。我们使用Pytorch1来实现我们的模型。GTX 1080Ti GPU用于加速。VGG-16 [33]被用作LRSCN的骨干网络，整个网络通过随机梯度下降（SGD）进行端到端训练。为了进行更全面的演示，我们还使用ResNet-50 [15]主干训练了我们的网络。最大学习速率对于主干设置为0.001，对于其他部分设置为0.01预热和线性衰减策略用于调整学习速率。动量和重量衰减分别设置为0.9和0.0005。批量大小设置为32，最大历元设置为100。水平翻转和多尺度输入图像被用于数据增强，如在[31，60，46]中所做的。在测试期间，LRSCN的输入为分辨率352×352。HRRN的学习率被初始化为0.0005。预热和余弦衰减应用于学习率。网络HRRN被训练了10000次迭代，批量大小为20。在训练过程中，输入图像和trimap的分辨率为512512在测试过程中，我们首先调整大小图像和三重映射到10241024，然后我们分了im-年龄和三重图分成四个子图像和子三重图512 512分辨率，如图2所示。最后，我们将每个子图像和子三元图一起发送到HRRN以生成子预测结果，并使用拼接在一起的4个子预测来制作一个高分辨率显著性结果。1https://pytorch.org/评价数据集。在工作[52]之后，我们在两个高分辨率显著性检测数据集上评估了我们的方法，包括HRSOD-TE和DAVIS-S，其中包含400和92张图像。DAVIS-S数据集收集自DAVIS [30]。这两个数据集中的图像被精确地注释并且具有非常高的分辨率（即，1920 1080）。我们还在三个低分辨率数据集上评估了我们的方法，包括DUT-OMRON [51]，DUTS-TE [37]和HKU-IS [22]，其中包含5168，5019和4447个图像。我们的结果可以在https：//github上找到。com/luckybird1994/HQSOD.评估指标。六个指标被用来评估我们的方法的性能。第一个是平均绝对误差（MAE），其表征地面实况图和预测之间的平均1-范数第二个是F-度量（Fβ和Fmax），平均精确度和平均召回率的加权平均值，计算公式为Fβ=（1+β2）×精确度×召回率。我们按照建议将β 2设为0.3在[2] 。第三种是结构度量（Structure Measure ，Sm），其是基于区域感知结构相似度Sr和对象感知结构相似度So两者来评估显著图的空间结构相似度的度量，其被定义为Sα=αSr+（1 α）So，其中α=0。5[10]。此外，还用查准率-查全率曲线（PR）来表示整体性能。为了进一步评估边界质量，在[52]和[56]之后，我们使用边界位移误差（BDE）[11]和Bµ度量。有关BDE和Bµ的更多详情，请参见补充材料第7节。后两种方法仅用于两个高分辨率数据集，因为它们的边界标注准确，评价结果可靠。4.2. 与最新技术水平的我们将我们的方法与16种SOTA方法进行了比较，包括Amulet [57]，R3Net [8]，DGRL [41]，DSS [16]，Basnet[31]、CPD[48]、EGNet[60]、PFPN[35]，[2019 - 05 - 25][2019 - 05 - 25][2019 - 05][2019 - 05 -05][2019 - 05][2019 - 05 - 05][2019 - 05 - 05][2019 -05][2019 - 05 - 05][2019 - 05 - 05][12][13][14][15][16][17][18][19]为了进行公平的比较，我们使用具有推荐参数设置的实现或作者提供的显着性图本文使用的评估工具箱与F3N [46]相同。定量评价。从表1中可以看出，当我们只使用DUTS（Ours）来训练我们的网络时，我们的方法已经可以提高现有最佳算法所实现的Fmax、Fβ、Sm值得注意的是，对于边界精度，我们的方法在两个高分辨率上远远优于其他方法。这些结果证明了所提出的解纠缠SOD框架在识别显著区域和估计准确对象边界方面的有效性。除了数值结果，我们还展示了两个高分辨率数据集的PR曲线3587‡†β×表1.在两个高分辨率和三个低分辨率数据集上与SOTA进行定量比较。最好的三个结果是红色，绿色和蓝色字体。“”表示结果通过密集条件随机场（CRF）进行后处理[21]。意指使用ResNeXt- 101 [50]骨架。“”表示使用ResNet-101主干。““表示使用Res2Net50 [13]主干。MK：MSRA10K [6]，DUT：DUTS-TR[37]，MB：MSRA-B [25]，HR：HRSOD-培训[52]，HR-L：HRSOD-培训调整为低分辨率。MAE、BDE和Bµ越小，Fmax、Fβ和Sm越大，性能越好。模型培训数据集HRSOD-TEDAVIS-SDUT-OmronDUTS-TEHKU-ISFMaxFβSmMaeBDEBµβFMaxFβSmMaeBDEBµβFMaxFβSmMaeβFMaxFβSmMaeβFMaxFβSmMaeβVGG-16骨架护身符（ICCV2017）MK0.7990.7170.8290.075139.8890.9470.8020.7550.8480.04264.8270.8560.7430.6470.7810.0980.7780.6780.8040.0850.8970.8410.8860.051DGRL（CVPR2018）个dut0.8210.7890.8470.05595.0340.8890.8030.7720.8590.03850.3230.8260.7740.7090.8100.0630.8280.7940.8420.0500.9100.8810.8960.037DSS†（TPAMI2019）CPD（CVPR2019）MB个dut0.8260.8760.7560.8290.8400.8870.0600.039145.40372.6860.9520.8240.8300.8780.7280.8220.8650.9030.0410.02594.06936.6490.8900.7030.7810.7940.7400.7450.7900.8180.0620.0570.8250.8640.8080.8130.8200.8670.0570.0430.9160.9240.9020.8960.8780.9040.0400.033EGNet（ICCV2019）个dut0.8830.8140.8880.04473.5000.8960.8860.7940.8970.03037.3690.7990.8030.7440.8130.0570.8770.8000.8660.0440.9270.8930.9100.035MINet（CVPR2020）个dut0.9020.8510.9030.03276.2910.8490.9150.8640.9260.01932.3040.7420.7940.7410.8220.0570.8770.8230.8750.0390.9300.9040.9120.031资讯科技署（CVPR2020）个dut0.8240.7150.8340.071139.9430.9240.8060.6870.8430.05592.8640.8610.8020.7450.8280.0630.8760.7980.8770.0420.9270.8900.9060.035GateNet（ECCV2020）个dut0.9050.8250.9060.03579.4680.8860.9140.8250.9230.02344.8270.7780.7940.7230.8210.0610.8700.7830.8700.0450.9290.8890.9100.036HRNet（ICCV2019）DUT +HR0.9050.8880.8970.03088.0170.8880.8990.8880.8760.02644.3590.8010.7430.6900.7620.0650.8350.7880.8240.0500.9100.8860.8770.042我们个dut0.9180.9020.9120.02748.4680.7110.9330.9190.9330.01515.6760.5360.8040.7690.8290.0530.8820.8550.8790.0360.9350.9180.9130.029Ours-DHDUTS+HR-L0.9210.9070.9170.02445.4620.7060.9380.9260.9360.01414.4120.5310.7950.7640.8200.0520.8940.8650.8790.0350.9330.9140.9040.031ResNet-50/ResNet-101/ResNeXt-101/Res 2Net 50主干R3Net*（IJCAI2018）MK0.7980.7440.8120.081108.9100.9310.8060.7530.8350.04147.3730.8680.7850.6900.8190.0730.7780.7160.8370.0670.9150.8530.8940.047BASNet（CVPR2019）个dut0.8780.8310.8900.03867.6430.8230.8570.8060.8810.03946.2830.7050.8050.7660.8380.0560.8590.7910.8660.0480.9280.8950.9090.032PFPN（AAAI2020）个dut0.8890.8250.8970.04265.0480.8960.8860.8220.9120.02530.4880.8480.8180.7480.8410.0570.8850.8050.8870.0410.9370.8960.9190.033GCPA（AAAI2020）个dut0.8890.8270.8940.03970.3200.8730.9120.8330.9240.02124.1320.7590.8120.7480.8380.0560.8880.8170.8910.0380.9380.8980.9200.031F3N（AAAI2020）个dut0.9000.8530.8970.03565.9010.8170.9150.8450.9130.02045.1060.7190.8130.7660.8380.0530.8910.8400.8880.0350.9370.9100.9170.028LDF（CVPR2020）个dut0.9050.8660.9050.03258.6550.8120.9110.8640.9220.01935.4960.7130.8170.7730.8390.0520.8940.8550.8900.0340.9390.9140.9190.028CSF‡（ECCV2020）我们个dut个dut0.8940.9150.8320.9020.9000.9190.0380.02471.29347.8040.9220.7500.8990.9350.8220.9230.9120.9370.0250.01330.48814.3960.8480.5760.8150.8180.7500.7850.8380.8420.0550.0510.8940.8950.8230.8700.8900.8920.0380.0330.9350.9430.9020.9280.9210.9230.0300.025Ours-DH个dut0.9220.9090.9220.02246.4950.7460.9380.9260.9390.01214.2660.5710.8200.7910.8430.0480.9000.8760.8920.0310.9440.9290.9220.026HRSOD-TE召回DAVIS-S召回DUT-Omron召回DUTS-TE召回HKU-IS召回图6.两个高分辨率和三个低分辨率数据集的PR曲线比较图像GT我们HRNet GateNet CSF LDF ITSD MINet F3N PFPN GCPA EGNet CPD BASNet图7.我们的方法和其他SOTA方法之间的视觉比较每个样本占据两行。最好放大观看。可以清楚地观察到，我们的方法在所有这些情况下都取得了令人印象深刻的性能。以及图6中的三个低分辨率数据集。可以看出，与所有其他先前的方法相比，我们的方法的PR曲线（红色曲线）特别突出。此外，较短的PR曲线意味着我们的显着图通常比其他方法的结果更自信，边界更清晰。一个有趣的观察结果是，当我们在LRSCN中添加HRS 0D训练数据集（调整大小为低分辨率，如352 352）时，可以进一步提高两个高分辨率数据集HRS 0 D-TE和DAVIS-S然而，这种做法似乎对提高其他三个低分辨率数据集的性能帮助不大。在HRNet的性能中也可以发现类似的现象[52]。我们认为可能有一些高分辨率数据集和低分辨率数据集之间的图像选择或数据注释偏差，这导致了这种现象。定性评价。为了展示所提出的方法的优越性，图7示出了由我们的方法和其他最先进的算法生成的显着性图的代表性示例。可以看出，与其他方法相比，在LRSCN的帮助下，我们的方法不仅可以保持显著对象的整体性（第3行），而且可以准确地定位显著对象并抑制非显著区域（第5行）HRRN可以帮助模型恢复准确和完整的显著对象的边界，这是更符合GT边界。可以清楚地精度精度精度精度精度3588表2. LRSCN的消融研究HRSOD-TEDAVIS-S表3. HRRN的消融研究HRRN（Ours-DH（L1+Luncertainty））中的数据集，性能没有明显的改善，这表明我们的网络在训练过程中不依赖于精确注释的高分辨率图像。为了进一步证明我们的分解框架的有效性，我们HRSOD-TE最大βHRSOD-TEFβSMMaeBDEBµB“最大βDAVIS-SFβSMMaeBDEBµHRSOD-TE将我们的HRRN与CRF [21]进行比较，CRF是一种广泛用于显着性检测的后处理。表3中的结果表明，我们提出的方法（我们的（LRSCN + HRRN））在很大程度上优于 CRF （我们的（ LRSCN + CRF ））。在EGNet、CPD和BASNet的细化中可以发现相同的现象（它们的三元图是利用等式1之后的对应显着图生成的此外，与BASNet中提出的RRM模块相比，本文的HRRN能更好地提高性能.该消融研究证明了HRRN在我们的新型解缠结框架内的优越性更多的分析，建议解开框架，可以发现在第3节的柔软-侵蚀或扩张内核侵蚀或扩张内核辅助材料(a)（b）第（1）款图8.用噪声数据训练网络。观察到我们的方法在所有这些情况下都取得了令人印象深刻的更多的比较实验可以在补充材料的第2节中找到4.3. 消融研究为了验证我们的方法的建议组件的有效性，我们进行了一系列的实验，两个高分辨率的数据集与不同的设置下VGG- 16骨干。具体来说，我们首先验证MECF和SGA 在LRSCN 中的有效性。然后，我们验证了HRRN的不确定性损失的有效性和所提出的解纠缠架构的优越性LRSCN的消融研究为了证明MECF和SGA模块的有效性，我们在表2中报告了具有不同架构的LRSCN的定量比较结果。基线表示我们在具有纯U-Net架构的LLRSCN上进行实验我们可以看到，仅使用ME或CF就可以大大提高性能。通过这两种体系结构的结合，实现了更好的性能。最后，SGA模块，特别是BDE和Bµ，可以进一步提高性能，这意味着SGA可以帮助生成准确的三重图。虽然L显着性不是我们的核心创新，但在补充材料的第5节中可以找到更多关于L显着性的消融研究HRRN的消融研究。在HRRN中，不确定性损失对估计准确的对象边界起着关键作用，因此我们首先研究了我们提出的不确定性损失的有效性从表3中，我们可以看到，在没有不确定性损失（我们的（L1））的情况下，性能下降了很多。此外，当我们添加高分辨率HRSOD训练时为了进一步证明不确定性损失可以使网络对噪声数据更鲁棒，我们用随机像素数（3、4、5、6、7、9、11、13）擦除并扩大对象边界处的DUT-TR的二进制地面实况图以生成噪声训练数据。然后我们在这些噪声数据上训练网络，HRSOD-TE上的BDE和Bµ结果如图8（a）和图8（b）所示当腐蚀或膨胀核的取值范围为3 ~ 7时，不确定性损失训练的网络具有相当稳定的性能。随着腐蚀或膨胀核的增加，即使性能下降，具有不确定性损失的训练仍然比没有不确

下载后可阅读完整内容，剩余1页未读，立即下载