杂波中的显著对象：全面评价和新数据集

16 浏览量更新于2023-10-13 收藏 1.33MB PDF 举报

显著目标检测

文件作者

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

杂波中的显著对象：将显著目标检测推向前台范登平1[0000 - 0002 - 5245 - 7518]、程明明1[0000 - 0001 - 5550 - 8758]、刘江江1[0000 -0002 - 1341 - 2763]、高尚华1[0000 - 0002 - 7055 - 2703]、侯启斌1[0000 - 0002 - 8388 -8708]、阿里· 博尔吉2[0000−0001−8198−0335]1南开大学计算机科学学院天津2美国佛罗里达州奥兰多中佛罗里达大学CRCVhttp://mmcheng.net/SOCBenchmark/抽象。我们提供了一个全面的显着目标检测（SOD）模型的评价。我们的分析确定了一个严重的设计偏见，现有的SOD数据集，假设每个图像包含至少一个明显突出的物体在低杂波。设计偏差导致饱和的最先进的SOD模型时，在现有的数据集上进行评估的高性能然而，这些模型在应用于现实世界的日常场景时，仍然表现得远远不能令人满意根据我们的分析，我们首先确定了一个全面和平衡的数据集应该满足的7个关键方面。然后，我们提出了一个新的高质量数据集，并更新了以前的显着性基准。具体来说，我们的SOC（杂乱中的显著对象）数据集包括来自日常对象类别的具有显著性和非显著性对象的图像。除了对象类别注释之外，每个显著图像都伴随着反映现实世界场景中常见挑战的属性。最后，我们报告基于属性的性能评估我们的数据集。关键词：显著性目标检测·显著性基准·数据集·属性1介绍本文认为显着对象检测（SOD）的任务。视觉显著性模仿人类视觉系统选择视觉场景的某个子集的能力。SOD旨在检测场景中最引人注目的对象，然后提取对象的像素精确轮廓。SOD的优点在于它在许多其他计算机视觉任务中的应用，包括：视觉跟踪[4]，图像检索[14，16]，计算机图形学[9]，内容感知图像调整大小[45]和弱监督语义分割[18，39，40]。我们的工作是由两个观察的动机。首先，现有的SOD数据集-s[2，5，10，11，23，26，29，32，43，44]在数据收集程序或数据质量方面存在缺陷具体地说，大多数数据集假设一幅图像至少包含一个显著对象，因此丢弃不包含显著对象的图像2Fan等人隐隐隐隐隐隐不不不显著的显著的显著的HOHO、、OCOC、、SCSC、、SOSOHOHO、、OCOC、、SCSC、、SOSOHOHO，，SCSCHOHO、、OCOC、、ACAC书书书胡萝胡萝胡萝卜卜卜狗狗狗摩托车摩托车摩托车厕所厕所厕所OCOC、、SCSCHOHO、、OCOC、、OVOV、、SCSCOVOVHOHO、、OCOC、、SCSC自行自行自行车车车酒杯人酒杯人酒杯人香蕉香蕉香蕉狗狗狗人人人手机手机手机BOBO、、OCOCHOHO、、OCOC、、OVOVHOHO、、OCOC、、ACAC何何人人人长颈长颈长颈鹿鹿鹿人人人伞伞伞计算机计算机计算机笔记笔记笔记本电脑本电脑本电脑键盘键盘键盘图1.一、来自我们的新数据集的样本图像，包括非显着对象图像（第一行）和显着对象图像（第2至4行）。对于显著对象图像，提供实例级地面实况图（不同颜色）、对象属性（Attr）和类别标签。请参阅补充材料，了解我们数据集的更多说明。对象我们称之为数据选择偏差。此外，现有的数据集大多包含具有低杂波的单个对象或若干对象（通常是人）的图像这些数据集不能充分反映现实世界中图像的复杂性，其中场景通常包含大量杂乱中的多个对象。因此，在现有数据集上训练的所有表现最好的模型的性能几乎饱和（例如，，>0.9F-在大多数当前数据集上的测量），但在真实场景上的性能不令人满意（例如，，0.45F-表3中的测量值）。<因为当前模型可能偏向于理想条件，所以一旦它们被应用于现实世界场景，它们的有效性就可能受损。为了解决这个问题，重要的是引入更接近现实条件的数据集。其次，只有模型的整体性能可以在现有数据集上进行分析。没有一个数据集包含反映现实世界场景中的拥有属性有助于1）更深入地了解SOD问题，2）调查SOD模型的优缺点，以及3）从不同的角度客观地评估模型性能，这对于不同的应用可能是不同的。针对以上两个问题，我们做了两点贡献。我们的主要贡献是收集了一个新的高质量的SOD数据集，命名为SOC，显着的对象在杂波。迄今为止，SOC是最大的实例级SOD数据集，包含来自80多个常见类别的6，000张图像它与现有数据集的区别在于三个方面：1）显著对象具有类别将显著目标检测推向前台3注释，可用于新的研究，如弱监督SOD任务，2）包含非显着图像，使该数据集更接近3）显著对象具有反映现实世界中所面临的特定情况的属性如运动模糊、遮挡和杂乱的背景。因此，我们的SOC数据集缩小了现有数据集和真实世界场景之间的差距并提供了一个更现实的基准（见图1）。①的人。此外，我们还提供了几种最先进的基于卷积神经网络（CNN）的模型的综合评估[8，15，17，23，24，28，31，36，3 8，4 8- 5 1 ]。为了评估模型，我们根据检测的区域相似性、分割的逐像素准确性和结果的结构相似性来评估三个方面。在此基础上，给出了基于属性的性能评价方法.这些属性可以更深入地了解模型，并指出有前途的方向，进一步的研究。我们相信，我们的数据集和基准可以是非常有影响力的未来SOD的研究，特别是面向应用的模型开发。整个数据集和分析工具将免费向公众发布。2相关作品在本节中，我们简要讨论了为SOD任务设计的现有数据集，特别是在注释类型、每张图像的显著对象数量、图像数量和图像质量等方面我们还回顾了基于CNN的SOD模型。(a) 图像（b）像素（c）实例（d）分段图二. 先前的SOD数据集仅通过绘制（b）显著对象的像素精确轮廓来注释图像。不同于（d）MS COCO对象分割数据集[27]（对象不一定是突出的），我们的工作集中在（c）分割突出对象实例。2.1数据集早期的数据集要么在图像数量上受到限制，要么在显著对象的粗略注释上受到限制。例如，数据集MSRA-A [29]和MSRA-B [29]中的显著对象以边界框的形式被粗略地注释。ASD [1]和MSRA10K [11]在每个图像中大多仅包含一个显著对象，而SED2 [2]数据集在单个图像中包含两个对象4Fan等人但仅包含100个图像。为了提高数据集的质量，近年来研究人员这些数据集包括DUT-OMRON [44]，ECSSD [43]，Judd-A [5]和PASCAL-S[26]。这些数据集在注释质量和图像数量方面与其前辈相比有所改进。数据集HKU-IS [23]，XPIE [41]和DUTS [37]通过收集大量像素标记图像（图2（b））解决了这些缺点然而，他们忽略了非显着的对象，并没有提供实例级（图。2（c））显着的对象一个符号。除此之外，[19]的研究人员收集了大约6k个简单的背景图像（其中大多数是纯纹理图像）来解释非显著场景。该数据集不足以反映真实场景，因为真实世界场景更复杂。 ILS0 [22]数据集包含实例级显著对象注释，但具有如图1所示的粗略标记的边界。第五条（a）款。综上所述，如上所述，现有的数据集主要集中在简单背景中具有清晰显著对象的图像上。考虑到现有数据集的上述限制，对于该领域的未来研究，需要包含具有非显著对象的真实场景、“野外”纹理和具有属性的显著对象的更真实的数据集这样的数据集可以深入了解SOD模型的弱点和优势2.2模型我们根据任务的数量划分了最先进的SOD深度模型。单任务模型具有检测图像中的显著对象的单一目标。在LEGS [36]中，局部信息和全局对比度分别由两个不同的深度CNN捕获，然后融合以生成显着性图。在[51]中，Zhao等人提出了一个用于SOD的多上下文深度学习框架（MC）。Li等人。 [23]（MDF）提出使用从深度CNN提取的多尺度特征来导出显着性图。Li等人。 [24]提出了一种深度对比度网络（DCL），它不仅考虑了像素信息，而且还将片段级指导融合到网络中。Lee等人。 [15]（ELD）考虑了从CNN和手工制作的特征中提取的高级特征。Liu等人。 [28]（DHS）设计了一个两阶段网络，其中产生了一个粗略的缩小预测图然后，接着是另一个网络以细化细节并分层地和渐进地对预测图进行上采样 Long等人 [30]提出了一种全卷积网络（FCN），使密集像素预测问题适用于端到端训练。RFCN [38]使用循环FCN将粗略预测作为显着性先验，并以阶段方式细化生成的预测DISC [8]框架被提出用于细粒度图像显著性计算。利用两个堆叠的CNN分别获得粗粒度和细粒度的显著性图IMC [48]通过FCN在不同水平上整合了显着性线索它可以有效地利用学习的语义线索和高阶区域统计边缘准确的SOD。最近，一个深度架构[17]与将显著目标检测推向前台5表1. 基于CNN的SOD模型。我们将这些模型分为单任务模型（S-T）和多任务模型（M-T）。训练集：MB是MSRA-B数据集[29]。MK是MSRA-10 K [11]数据集。ImageNet数据集参考[34]。D是DUT-OMRON [44]数据集。H是HKU-IS[23]数据集。P是PASCAL-S [26]数据集。P2010是PASCAL VOC 2010语义分割数据集[12]。基础模型：VGGNet，ResNet-101，AlexNet，GoogleNet是基础模型。FCN：模型是否使用全卷积网络。Sp：模型是否使用超像素。建议：模型是否使用对象建议。边缘：模型是否使用边缘或轮廓信息没有模型年酒吧#培训训练集基础模型FCN SP提案边缘S-T1腿[36]2015 CVPR3,340MB + P-×××J××J×JJJJJ×JJJJ×JJJ××××J××××××××××××××J×××J××J×J×2MC [51]2015 CVPR8,000MKGoogLeNet3中密度纤维板[23]2015 CVPR2,500MB-4DCL [24]2016 CVPR2,500MBVGGNet5ELD [15]2016 CVPR9,000MKVGGNet6国土安全部[28]2016 CVPR9,500MK+DVGGNet7RFCN [38]2016 ECCV10,103P2010-8DISC [8]2016 TNNLS9,000MK-9IMC [48]2017 WACV6,000MKResNet-10110 [第17话]2017 CVPR2,500MBVGGNet11 NLDF [31]2017 CVPR2,500MBVGGNet12 AMU [49]2017 ICCV10,000MKVGGNet13 UCF [50]2017 ICCV10,000MK-M-T123DS [25]WSS [37]MSR [22]201620172017头端CVPRCVPR10,000四五六千5,000MKImageNetMB + HVGGNetVGGNetVGGNetJ J× ×J J× ×J×J J短连接（DSS）。 Hou等人在HED [42]架构的基础上增加了从高层功能到底层功能的连接，实现了良好的性能。NLDF [31]集成了局部和全局特征，并将边界损失项添加到标准交叉熵损失中，以训练端到端网络。AMU [49]是一个通用的聚合多级卷积特征框架。它将粗糙的语义和精细的详细特征映射集成到多个分辨率中。然后，它自适应地学习在每个分辨率下组合这些特征图，并预测具有组合特征的显着图。UCF [50]被提出来提高显著性检测的鲁棒性和准确性。他们在特定的卷积层之后引入了重新定义的dropout，以构建内部特征单元的不确定集合。此外，他们提出了一种有效的混合上采样方法，以减少解码器网络中的反卷积算子的棋盘伪影后重新制定的辍学。目前多任务模型主要有DS、WSS和MSR三种方法。DS [25]模型建立了一个多任务学习方案，用于探索显着性检测和语义图像分割之间的内在相关性，该方案共享FCN层中的信息，以生成有效的对象感知特征。最近，Wang et al. [37]提出了一种名为WSS的模型，该模型开发了一种使用图像级标签进行显著性检测的弱监督学习方法。首先，他们联合训练了前景推理网（FIN）和FCN进行图像分类。然后，他们使用FIN与迭代CRF进行微调，以加强空间标签的一致性来预测显着性图。MSR [22]被设计用于显著区域检测和显著对象轮廓检测，6Fan等人与多尺度组合分组和基于MAP的子集优化框架相结合使用具有共享参数的三个改进的VGG网络流和一个学习的注意力模型来融合不同尺度的结果，作者能够取得良好的结果。我们在我们提出的数据集上对大量最先进的基于CNN的模型（见表1）进行了基准测试，突出了当前的问题并指出了未来的研究方向。3拟议数据集在本节中，我们将介绍我们新的具有挑战性的SOC数据集，旨在详细反映现实世界的场景。来自SOC的样本图像如图所示。1.一、此外，关于SOC的类别和属性的统计数据如图所示。4（a）和图6，分别。基于现有数据集的优点和缺点，我们确定了一个全面和平衡的数据集应该满足的七个关键方面1) 非显着物体的存在。几乎所有现有的SOD数据集都假设图像至少包含一个显著对象，并丢弃不包含显著对象的图像。然而，这一假设是一个理想的设置，导致数据选择偏差。在现实环境中，图像并不总是包含显著对象。例如，一些无定形背景图像（诸如天空、草地和纹理）完全不包含显著对象[6]。用于将显著对象或块聚集在一起的非对称性可能会影响到真实场景，并且因此严重地约束了显著对象的可能位置。 Xia等人 [41]提出了一个最先进的SOD模型，通过判断什么是或什么不是显着对象，表明非显着对象是关键的推理显着对象。这表明，在SOD中，非显着对象应该得到合并包含非显著对象的多个图像使得数据集更接近真实世界场景，同时产生更多的视觉效果。因此，我们可以将“非孤立对象”定义为包含对象的存储器或包含对象的存储器。如在[6，41]中所建议的，在图12中示出的（a）简单地划分的区域是简单的对象，（b）模糊的形状，以及（c）没有语义的区域中的“结构化”的区域。3（a）-（c）。(a)（b）（c）图3.第三章。一些非显着物体的例子将显著目标检测推向前台7基于非显著对象的特征，我们从DTD [21]数据集中收集了783张纹理图像。为了丰富多样性，从互联网和其他数据集收集了2217张图像，包括极光，天空，人群，商店和许多其他类型的现实场景[26，27，32，35]。我们相信，纳入足够的非显着对象将开辟一个有前途的方向，为未来的工作。2) 图像的数量和类别。大量的图像对于捕捉真实世界场景的多样性和丰富性是必不可少的。此外，对于大量的数据，SOD模型可以避免过拟合和增强泛化能力。为此，我们从80多个类别中收集了6,000张图像，其中3,000张图像有显著对象，3,000张图像没有显著对象。我们将数据集按6：2：2的比例分为训练集、验证集和测试集为了确保公平性，测试集不会公布，但在我们的网站上提供在线测试3。图4（a）示出了用于缓存区的集合的数目。因此，在日常场景中，“人”的形象占了很大的比例，这是合理的3) 显著对象的全局/局部颜色对比度。如在[26]中所描述的，该“分辨率”与地面和背景的整体/局部对比相关。重要的是检查显著对象是否易于检测。对于每一个物体，我们分别计算前地和背景的RGB颜色直方图.然后，利用χ2距离来测量两个直方图之间的距离全局和局部颜色对比度分布如图所示4（b）和（c）。与ILSO相比，我们的SOC具有更大比例的对象具有低的全局颜色对比度和局部颜色对比度。4) 突出物体的位置。中心偏差已被确定为显着性检测数据集的最显著偏差之一[3，20，26]。图4(d) 显示了一组图像及其覆盖图。可以看出，尽管显著对象位于不同位置，但是覆盖图仍然示出了显著对象的位置。这组图像有中心偏向以往的基准测试往往采用这种不正确的方法来分析显着对象的位置分布。为了避免这种误导现象，我们绘制两个量的统计图在图4（e）中的r0和rm，其中r0和rm分别表示对象中心和对象中的最远（边缘）点离图像中心有多远。将ro和Rm除以图像对角线长度的一半进行归一化，使得ro，Rm∈[0， 1]。从这些统计数据中，我们可以观察到我们数据集中的显着对象不会受到中心偏差的影响。5) 突出物体的大小。实例级显著对象的大小定义为图像中像素的比例[26]。如图4（g），与唯一现有的实例级ILSO [ 22 ]数据集相比，我们SOC中显着对象的大小在更宽的范围内变化。此外，中等大小的物体在SOC中所占比例较高。6) 高质量的显著对象标记。正如在[17]中也注意到的那样，在ECSSD数据集（1，000）上进行训练可以获得比其他数据集3http://dpfan.net/SOCBenchmark/8Fan等人每个类别的数量（对数标尺）1031021011000.250.20.150.10.05（一）0.20.150.10.050 0.2 0.4 0.6 0.81整体色彩对比度（b）第（1）款0.20.160.120.080.040 0.2 0.4 0.6 0.81局部色彩对比（c）第（1）款0 0.2 0.4 0.6 0.8 1位置分布(d)（e）外观变化（AC）杂波（CL）（f）第（1）款0.450.350.250.150.05-0.0500.1 0.3 0.5 0.7 0.9实例大小（g）见图4。（a）我们的SOC数据集中每个类别的注释实例的数量。（b、c）分别统计全局颜色对比度和局部颜色对比度。(d)一组显着图从我们的数据集和他们的覆盖图。(e)SOC中显著对象的位置分布。（f）属性视觉示例。(g)SOC和ILSO的实例大小分布[22]。数据集（例如，MSRA10K，具有10，000个图像）。除了规模，数据集质量也是一个重要因素。为了获得大量的高质量图像，我们从MSCOCO数据集[ 27 ]中随机选择图像，MSCOCO数据集是一个大规模的真实世界数据集，其对象用多边形标记（即粗标记）。高质量的标记在提高SOD模型的准确性方面也起着关键作用[1]。为此，我们用逐像素注释重新标记数据集。类似于著名的SOD面向任务的基准数据集-ILSOSOCILSOSoCILSOSoCroILSOrmILSOroSOCrmSOC比例比例比例比例将显著目标检测推向前台9(a) ILSO（b）SOC(c)MSCOCO（d）SOC图五. 与最近新的（a）实例级ILSO数据集[22]（标记为不连续的粗边界），（c）MSCOCO数据集[27]（标记为多边形）相比，我们的（b，d）SOC数据集标记为平滑的细边界。表2.显著对象图像属性的列表和相应的描述。通过观察现有数据集的特点，我们总结了这些属性。一些直观的例子可以在图中找到1和图4（f）。更多的例子请参考补充材料属性描述AC外观变化。物体区域的光照变化明显。BO大对象。目标区域与图像区域之间的比率大于0.5。CL杂波。对象周围的前景和背景区域具有相似的颜色。我们标记的图像，其全局颜色对比度值大于0.2，局部颜色对比度值小于0.9与杂波图像（见第二节）。（3）第三章。HO异构对象。由视觉上独特/不相似的部分组成的对象。MB运动模糊由于相机抖动或运动，对象具有模糊边界。OC闭塞。对象被部分或完全遮挡。OV视野外。对象的一部分被图像边界裁剪。SC形状复杂度。对象具有复杂的边界，例如薄部件（例如动物的脚）和洞。小物件。目标区域与图像区域之间的比率小于0.1。s [1，2，11，19，22，23，29，32，37，41，43]，我们没有使用眼动仪设备。我们已经采取了许多步骤来提供高质量的注释。这些步骤包括两个阶段：在边界框（bboxes）阶段，（i）我们要求5个观众用他们认为突出的bboxes注释对象-t在每一个图像中。(ii)保持大多数（≥ 3）观察者注释相同的图像（bbox的IOU> 0. 8）对象。在第一阶段之后，我们有3,000个用bbox注释的显著对象图像。在第二阶段，我们进一步手动标记的准确轮廓的显着对象根据bboxes。请注意，我们有10名志愿者参与了整个步骤，以交叉检查注释的质量。最后，我们保留了3，000张具有高质量，实例级标记的显着对象的图像。如图5（b，d），我们的对象标签的边界是精确的，尖锐的和平滑的。在一个-符号过程中，我们还添加了一些新的类别（例如计算机显示器，帽子，枕头），这些都没有在MSCOCO数据集中标记[27]。7) 具有属性的显著对象。具有关于数据集中的图像的属性信息有助于客观地评估模型在不同类型的参数和变化上的性能。它还允许检查10Fan等人ACBOCLHOMBOCOVSCSOAC博CL何MBOCOVSC所以图六、左：SOC数据集中显著对象图像的属性分布网格中的每个数字表示出现的图像数量右：属性之间的支配依赖关系基于出现的频率链接的宽度越大，表示一个属性对其他属性的概率越高。模型的失败。为此，我们定义了一组属性来表示现实场景中面临的特定情况，例如运动模糊，遮挡和杂乱的背景（总结在表2中）。注意，一个图像可以用多个属性注释，因为这些属性不是排他性的。受[33]的启发，我们呈现了数据集上的属性分布，如图所示。6左。类型SO具有最大的比例，这是由于精确的实例级（例如，图中的网球拍。2）注释。HO类型占很大比例，因为真实世界场景由不同的组成材料组成运动模糊在视频帧中比在静止图像中更常见因此，MB类型在我们的数据集中占相对较小的比例由于一个真实的图像通常包含多个属性，我们显示的属性之间的主要依赖关系的基础上出现的频率在图。6正确。例如，包含许多异构对象的场景可能具有大量的对象彼此阻挡并形成复杂的空间结构。因此，HO类型与OC、OV和SO类型有很强的依赖性。4运作效益评估系统在本节中，我们将展示16个SOD模型在SOC数据集上的评估结果。评估了几乎所有代表性的基于CNN的SOD模型。但是，由于某些型号的代码没有公开，我们在这里不考虑它们。此外，大多数模型没有针对非显著对象检测进行优化。因此，公平地说，我们只使用SOC数据集的测试集来评估SOD模型。我们在第二节中描述了评估指标。4.1.SOC数据集的整体模型性能见第 4.2的性能，并在表3中进行了总结，而属性级别性能（例如：，外观变化的性能）在第2节中讨论4.3并在表中总结4. 评估脚本是公开的，并在我们的网站上提供在线评估测试。将显著目标检测推向前台11W4.1评估指标在监督评估框架中，给定由SOD模型生成的预测地图M和地面实况掩码G，期望评估度量告知哪个模型生成最佳结果。在这里，我们使用三种不同的评估指标来评估SOC数据集上的SOD模型。逐像素精度ε。区域相似性评估措施不考虑真正的负显着性分配。作为补救措施，我们还计算M和G之间的归一化（[0，1]）平均绝对误差（MAE），定义为：ε=1ΣΣ宽×高||、（1）||,(1)x=1y =1其中W和H分别是图像的宽度和高度区域相似性F.为了测量两个地图的区域匹配程度，我们使用F-测量，定义为：（1+β2）精确度×召回率F=β2精确度+召回率，（2）其中β2= 0。3是由[1]建议的，以权衡召回率和精度。然而，在计算查全率和查准率时，黑（全零矩阵）地面真值在F-测度中没有很好地定义。在这种情况下，不同的前景图得到相同的结果0，这显然是不合理的。因此，F-测量不适合于测量非显著对象检测的结果。然而，ε和F的两个度量都基于逐像素误差，并且经常忽略结构相似性。行为视觉研究表明，人类视觉系统对场景中的结构高度敏感[13]。在许多应用中，期望SOD模型的结果保持对象的结构。结构相似性S. Fan等人 [13]提出的S-测度通过考虑区域和对象来评估结构相似性。因此，我们另外使用S-度量来评估M和M之间的结构相似性。G.请注意，我们评估和分析的下一个整体性能是基于S-度量的。4.2度量统计信息为了获得总体结果，我们对评估度量η的得分进行（η∈ {F，ε，S}），表示为：M（D）=1η|D|ΣI∈Dη¯（Ii），（3）其中，r_n（Ii）是IiiH12Fan等人表3. SOD模型在三个度量下的性能。F表示区域相似性，ε是平均绝对误差，S是结构相似性。↑表示数字越大越好，↓表示数字越大越好。评估结果根据式（Eqn）计算。（3）在我们的SOC数据集上。Sall、Fall、εall分别使用S、F、ε为了最好的勇敢。单任务多任务型号LEGS MC MDF DCL AMU RFCN DHS ELD DISC IMC UCF DSS NLDF DS WSS MSR[36个][五十一][23日][24日][24日][38个][28][15][八]《中国日报》[48个][50][17][三十一][25日][37]第三十七届[22日]F全部↑.276.291 .307 .339 .341.435 点三六零点三一七.288.352 .333.341.3520.347.327.380S全部↑.677.757 .736 .771 .737.8140.804.776.737.664 .657.807.818.779 .785.819εall↓.230.138 .150 .157 .185.113.118.135.1730.269.282.111.104.155 .133 .113单任务：对于单任务模型，在整个SOC数据集（表3中的S全部）上表现最好的模型是NLDF [31]（ MS= 0. 818），接着是RFCN [38]（MS= 0. 814）。[23]和AMU [49]使用边缘线索来提升显着图，但未能达到理想的目标。针对利用图像的局部区域信息，MC [51]，MDF[23]，ELD [15]和DISC [8]尝试使用超像素方法将图像分割成区域，然后从这些区域提取为了进一步提高性能，UCF [50]、DSS [17]、NLDF[31]和AMU [49]利用FCN来提高SOD的性能（表4中的Ssal）。一些其他方法，如DCL [24]和IMC [48]，试图将超像素与FCN结合起来，以建立一个强大的模型。此外，RFCN [38]将包括边缘和超像素的两个相关线索组合到FCN中以获得良好的性能（MF= 0. 435，MS= 0。814）在整个数据集上。多任务：与上述模型不同，MSR [22]使用三个密切相关的步骤检测实例级显着对象：估计显着性图，检测显着对象轮廓和识别显着对象实例。它创建了一个多尺度显着性细化网络，可实现最高性能（Sall）。另外两个多任务模型DS [25]和WSS [37]同时利用值得一提的是，虽然WSS是一个弱监督的多任务模型，但它仍然达到了与其他单任务、全监督模型相当的性能。因此，弱监督和基于多任务的模型可能是有前途的未来发展方向。4.3基于属性的评价我们为显著图像分配属性，如第2节所述。3和Ta-表2.每个属性代表现实世界场景中面临的一个具有挑战性的问题。这些属性允许我们识别具有主要特征的图像组（例如，存在杂波），这对于说明SOD模型的性能以及将SOD与面向应用的任务相关联是至关重要的。例如，s-ketch 2 photo应用程序[7]更喜欢在大对象上具有良好性能的模型，这可以通过基于属性的性能评估方法来识别。将显著目标检测推向前台13表4.我们的SOC显着对象子数据集上的基于属性的性能对于每个模型，得分对应于平均结构相似性Ms（在第二节中）。 4.1）在具有该特定属性的所有数据集上（例如，，CL）。分数越高，性能越好。为了最好的勇敢使用结构相似性S在第一行中呈现平均显著对象性能Ssal。符号+和-分别表示与平均（Ssal）结果相比的增加和减少单任务多任务附件腿MC MDF DCL AMU RFCN DHS ELD DISC IMCUCF DSS NLDF DS WSS MSR[36个][23][24][24日][24日][38个][28日][15][8][48个][50个][17个][三十一][25日][37][22]Ssal.607点六一九点六一零.705.705.7090.728 0.6640.629.679.678.698.714.719 0.676.748AC.625.6BO.509.4640.691.789850.566.667CL.620.635.566.699.708.714点七四三点六五八点六三五.696.704−0.677.713.729.678.756HO.666点六六六点六四八.745.755.7590.766.706.681 .715.744点七四八点七五五.756.707.777MB.543− .603.615.693.706.7150.722 0.6390.600.689.682点六九五点六八五.711 0.641.757OC. 609点六一七点六零八.708+.725+.7110.716 0.6580.630.6720.701+0.689.709.725+.672.740OV.548点五八四点五六八0.699 0.708+0.6870.706.637.5730.693+0.685+0.665.688.722+.624.743SC.6080.620 0.669+ 0.738点七三一点七三五.763 .688.6530.6900.722+ 0.746+0.745.724.677.773SO.573−.601.621.6910.685.698.713 .644.614--.6480.650 0.696 0.703.696.659.730结果在表4中，我们显示了由特定属性表征的数据集子集的性能。由于篇幅所限，在下面的部分中，我们只选取了一些具有代表性的属性进行进一步的分析。更多详情请参见补充材料。大对象（BO）场景通常发生在对象与相机处于近距离时，在这种情况下，微小的在这种情况下，更喜欢关注局部信息的模型将被严重误导，导致相当大的（例如）。， DSS 损失 28.9%[17] ， MC 损失20.8%[51]和RFCN损失23.8%[38]）性能损失然而，IMC [48]模型的性能反而略微上升了3.2%在深入研究了这个模型的管道之后，我们得出了一个合理的解释。IMC使用粗预测图来表达语义，并利用过分割图像来补充结构信息，在BO类型上取得了令人满意的结果。然而，过度分割的图像不能弥补缺失的细节，导致SO类型的性能下降4.6%。小对象（SO）对于所有SOD模型都是棘手的。所有模型均遇到性能退化（例如：，从DSS [17] -0.3%至LEGS [36] -5.6%），因为在CNN的下采样期间SODSS [17]是唯一一个在SO型上性能略有下降的模型，而在BO型上性能损失最大（28.9%）。MDF [23]使用多尺度超像素作为网络的输入，因此它很好地保留了小物体的细节。然而，由于超像素的大小有限，MDF不能有效地感知全局语义，导致BO类型上的大失败。遮挡（OC）：物体部分被遮挡的场景。因此，需要SOD模型来捕捉全局语义，以弥补不完整的31.614点七三四点七三六.744点七四五点六七三点六四四.702.714.7260.737.714Fan等人对象的信息为此，DS [25] AMU [49]利用下采样过程中的多尺度特征生成融合显着图; UCF [50]提出了一种不确定学习机制来学习不确定的卷积特征。所有这些方法都试图得到包含全局和局部特征的显著性图。不出所料，这些方法在OC型上取得了相当好的结果。基于以上分析，我们还发现这三种模型在AC、OV和CL类型等需要更多语义信息的场景中表现得非常好。异构对象（HO）是自然场景中常见的属性。不同模型在HO型上的性能相对于各自的平均性能都有一定的提高，都在3.9%~ 9.7%之间波动我们怀疑这是因为HO类型占所有数据集的很大比例，客观上使模型更适合此属性。这一结果在一定程度上证实了我们在图1中的统计结果。六、5讨论和结论据我们所知，这项工作提出了目前最大规模的基于CNN的显着对象检测模型的性能评估。我们的分析指出，在现有的SOD数据集严重的数据选择偏差。这种设计偏差导致最先进的SOD算法在现有数据集上评估时几乎达到饱和的高性能，但在应用于现实世界的日常场景时仍然远未达到饱和根据我们的分析，我们首先确定了一个全面和平衡的数据集应该满足的7个重要方面。我们首先介绍了一个高质量的SOD数据集，SOC。它包含了日常生活中的突出对象，在他们的自然环境中达到更接近现实的设置。 SOC数据集将随着时间的推移而发展和增长，并将在多个方向上实现研究可能性，例如显著对象子集化[46]、实例级显著对象检测[22]、基于弱监督的显著对象检测[37]等。然后，一组属性（例如，外观变化）的提出，试图获得更深入的洞察SOD问题，调查的优点和缺点的SOD算法，并客观地评估模型的性能在不同的角度/要求。最后，我们报告基于属性的性能评估我们的SOC数据集。研究结果为模型的开发和比较开辟了有前途的未来方向。致谢本研究得到了国家自然科学基金（NO. 61620106008，61572264）、国家青年人才支持计划、天津市杰出青年自然科学基金（ NO.17JCJQJC43700），华为创新研究计划。将显著目标检测推向前台15引用1. 阿昌塔河Hemami，S.，埃斯特拉达，F.，Susstrunk，S.：频率调谐显著区域检测。In：CVP R.pp. 159702The Dog（2009）2. Alpert，S.，Galun，M.，Basri河Brandt，A.：图像分割的概率Bottom-UpAgg区域和CueInte g区域图In：CVP R.pp. 一02The Dog（2007）3. Borji，A.，郑女士江，H.，李杰：显著对象检测：基准。IEEETIP24（12），57064. Borji，A.，Itti，L.：视觉注意力建模的最新技术IEEE TPAMI35（1），1855. Borji，A.，Sihite，D.N.，Itti，L.：显著对象检测：一个基准In：ECCV.pp. 414Springger（2012）6. 凯撒H Uijlings，J.，Ferrari，V.：COCO-Stuff：Thing and Stuff Classes inContext.在：CVPR中。IEEE（2018）7. 陈，T.，郑女士Tan，P.，Shamir，A.，Hu S.M.：Sketch2photo：互联网图像蒙太奇。 ACM Transactions on Graphics （ TOG ） 28 （ 5 ）， 124（2009）8. 陈，T.，林，L.，刘，L.，Luo，X.，李X：DISC：通过渐进式表示学习进行深度图像显着性 IEEE transactions on neural networks andlearningsystems27（6），11359. 郑女士Hou，Q.B.，Zhang，S.H.，松香，P.L.：智能视觉媒体处理：当图形遇到视觉。Journal of Computer Science andTechnol-ogy32（1），11010. 郑女士美国新泽西州米特拉市黄，X.，Hu S.M.：凸形：在图像收集中的组显著性。TheVisualComuter30（4），44311. 郑女士美国新泽西州米特拉市黄，X.，Torr，P.H.S.，Hu S.M.：基于全局对比度的所有检测区域。IEEETPAMI37（3），56912. Everingham，M.凡古尔湖威廉姆斯，C.K.I.，Winn，J.，齐瑟曼，A.：PASCAL Visual Object Classes Challenge 2010（VOC2010）13. 范，D.P.，郑女士Liu，Y.，Li，T.，Borji，A.：结构-测度：评价广义数学的一种新方法In：ICCV.pp. 4548IEEE（2017）14. 范，D.P.，Gong，C.，曹玉，Ren，B.，郑女士Borji，A.：用于二值前景图评估的增强对齐度量在：国际联合会议上的一个实时性信息披露（IJCAI）。pp. 69815. 加扬湖Yu-Wing，T.，Junmo，K.：具有编码的低级别距

下载后可阅读完整内容，剩余1页未读，立即下载