场景上下文感知的显著目标检测

121 浏览量更新于2023-10-13 收藏 1.74MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4156场景上下文感知的显著目标检测Avishek Siris1，Jianbo Jiao2，Gary K.L. [1]作者：陈文辉，陈文辉.刘三斯旺西大学计算机科学系1牛津大学2香港城市大学3swansea.ac.uk，jianbo@robots.ox.ac.uk，{k.l.tam，x.xie} @ swansea.ac.uk，Rynson. cityu.edu.hk摘要显著对象检测识别图像中吸引视觉注意力的对象。虽然上下文功能被认为是在最近的文献中，他们经常失败，在现实世界中的复杂场景。我们认为，这主要是由于两个问题：首先，大多数现有的数据集由简单的前景和背景组成，很难代表现实生活中的场景。第二，现有方法只学习显著对象的上下文特征，不足以为复杂场景中的显著性推理建模高级语义。为了解决这些问题，本文首先构建了一个新的大规模数据集的复杂场景。然后，我们提出了一个上下文感知的学习方法，明确地利用语义场景上下文。具体而言，提出了两个模块来实现目标：1）语义场景上下文细化模块，用于增强从具有场景上下文的显著对象学习的上下文特征，以及2）上下文实例Transformer，用于学习对象与场景上下文之间的上下文关系。据我们所知，图像场景的这种高级语义上下文信息在文献中未被充分探索用于显著性检测。大量的实验表明，该方法优于国家的最先进的技术，在复杂的场景显着性检测，并转移到其他现有的数据集。代码和数据集可在https://github.com/SirisAvishek/Scene_Context_Aware_Saliency获得。1. 介绍显著对象检测探索识别图像或视频中“弹出”并抓住视觉注意力的对象的问题。该任务已被广泛用作许多视觉应用的预处理步骤，例如图像/视频压缩[59，11]，视频对象分割[50]，图像字幕[56]和图像解析[21]。所有这些视觉任务都是针对具有[54]第54话美国[68]图1：现实世界复杂场景的示例，其中现有方法（例如[54，68]）可能不能很好地捕获语义场景上下文，导致干扰物的不正确检测。而我们的模型能够捕捉场景的语义上下文。复杂的场景。最近，显着性研究通过CNN的成功迅速发展，与手工制作的特征相比，CNN能够捕获更好的特征表示[32，5，57]。最先进的显着性模型主要从空间关系中提取和聚合上下文信息，包括以各种方式的多尺度和局部-全局特征[67，30，37]。虽然已经证明了良好的性能对这种标签的训练只能限制网络学习语义上下文特征（更高级别的理解）的能力，否则这些语义上下文特征将有助于对复杂图像场景内的对象的各种关系进行建模[29，65]。图1示出了现有模型表现不佳的真实世界复杂场景的顶行示出了具有显著人物和干扰物（例如，具有类似纹理的冰箱）。现有的模型不能捕获的语义知识的干扰，并且不能区分它从人对于底行是类似的情况，其涉及卧室场景，其中显著的人被许多干扰物（例如，具有类似纹理的衣服和物体）。上述观察促使我们提出以下问题：我们是否可以学习和使用有区别的语义上下文来改进具有丰富上下文的复杂场景中的显着性建模？根据我们的观察，我们发现大多数前...4157(a) [57]（b）PASCAL-S [24]（c）HKU-IS [23]（d）DUT-OMRON [58](e)[65]第四十五话：一个人的世界图2：现有数据集和拟议的新挑战数据集之间的比较。现有流行的显著对象数据集（a-f）不是很有挑战性。相比之下，我们提出的数据集（g）包含更复杂的场景，这是由于前景/背景中的对象数量以及非显著干扰物的增加。显著对象检测数据集[36，4，57，24，23，58，45]由具有少量对象和简单背景的图像组成来自这些数据集的示例图像在图1中示出2（a-f）。这些图像对于野外的显著对象检测相对简单2（g）。心理学研究表明，语义场景上下文影响眼球运动和注意力[43]，揭示了显着物体与周围图像场景之间的关系。据我们所知，高级场景上下文和空间上下文的显着性检测尚未得到充分探索，只有两个相关的作品[65，29]解决了类似的问题。Zhang等人[65]建议利用字幕作为语义场景上下文来改进显著对象预测。然而，依赖于生成的字幕可能对显著性预测有害，特别是如果它们不正确的话另一方面，DSCLRCN[29] 从图像级场景分类模型导出它们的场景上下文特征，而所提取的特征太抽象，仅包含总体表示而没有捕获场景内的对象关系上述限制进一步促使我们探索使用语义场景和空间上下文的显着对象检测在现实世界中的场景复杂。为此，我们首先构建了一个新的数据集，包括具有丰富背景的图像（更多细节请参见第二节）。（3）第三章。然后，我们提出了一个上下文感知的显着性建模框架，利用语义场景上下文功能。具体来说，我们引入实例上下文分割和素材上下文分割语义分割的东西和东西。这两个组件在整个场景上执行全景分割，提供给定图像的详细语义然而，我们发现，并不是所有的语义信息发挥有效的作用，在定义的语义场景上下文的图像。因此，我们提出了一种新的语义场景上下文细化（SSCR）模块来融合和增强显著对象的信息具有周围语义场景上下文的特征，用于改进显著性推理。为了进一步利用语义场景上下文，我们提出了一个上下文实例转换器（CIT）来捕获对象和场景上下文之间的关系。总而言之，我们的主要贡献包括：• 我们提出了一个语义场景上下文感知的框架工作的显着对象检测，探索显着对象和场景上下文之间的语义关系。• 我们提出了一个语义场景上下文细化模块来提取和增强与图像场景高度相关的语义场景上下文特征我们进一步提出了一个新的上下文实例转换器来学习对象和场景上下文之间的上下文关系，以进行显着性推理。• 我们建立（并将提供）一个新的显着对象检测数据集与现实世界的复杂场景，考虑语义场景上下文。• 大量的实验表明，所提出的方法优于我们的数据集上的最先进的方法，也很好地推广到现有的数据集。2. 相关工作2.1. 显着物体检测早期的传统显着性工作主要基于结合低级特征的计算方法[16]。然而，在本文中，我们专注于基于深度学习的方法。以前的深度学习显著对象检测方法使用多层感知（MLP）来预测图像中每个像素的显著性得分[13，23，69，22]。虽然这些基于MLP的模型优于传统的手工制作的显着性方法[52，5]，但由于使用固定的全连接层，它们无法有效地捕获空间信息。后来的方法解决了这个问题-4158通过利用全卷积网络（FCN）[34]，在语义分割上取得成功。许多最近的基于深度学习的显着性模型都是建立在具有各种策略的FCN上的，以组合多尺度上下文信息。他们主要嵌入模块，用于从网络中的不同层提取和聚合上下文特征[64，55，9，37，71，63]。通常，它们在其编码器中采用来自不同层的侧输出，并将这些侧输出与其解码器中的层聚合[66，14，46，49，68，51，72，62]。Su等人[41]使用不同的扩张卷积进一步提取了多尺度上下文特征，而在[28]和[48]中应用了递归块。随后的工作提出通过（a）使用单独的网络[60，3]，（b）在编码器[35，33]中的最后卷积层之后的ad-convolution卷积以及（c）采用金字塔池化模块[47，27]来显式地组合局部和全局上下文特征。注意力机制也被用来通过捕捉局部[20]和全局上下文中像素之间的相互作用来增强多尺度上下文特征[30，39，70，15]。最近，Zenget al. [61]提出了将显著对象检测和弱监督语义分割的任务统一起来。他们引入了显著性聚合模块，该模块使用显著性得分来加权相应的语义分割，以生成最终的显著性图。Aydemir等人[1]使用对象检测来基于视觉外观和相对大小产生相异性分数Liu等[31]采用Transformers [44]在图像块之间传播上下文。尽管上述显著性方法已经显示出显著的改进，但是它们仍然难以处理语义上下文丰富的复杂场景图像。这些方法主要学习有限范围的多尺度空间上下文特征。网络通常仅使用二进制显着性注释进行训练，并且无法有效地学习高级语义。我们AD-Dress这个问题，包括一个联合任务的分割，以明确地确定在场景中的东西这使得我们的显着性网络，以探索语义场景上下文，并加强显着性推理的多个对象和它们的关系，在复杂的场景。2.2. 显著性研究中的语义场景语境Gist特征被认为是一种抽象的低层次场景表示。Torralba等人[42]在用于建模注意力的统计框架中，来自整体低维编码的Peter等人[38]提出了一种技术来学习低级别要点特征和视频游戏期间记录的眼球运动之间的映射。Judd等人[18]将低级到高级特征组合到模型注意力。他们使用从中级要点特征训练的水平线检测器作为它们的中级特征。对于显著性检测，高级语义场景上下文大多未被充分探索。Liu和Han [29]提出使用现有的场景分类网络来提取场景上下文特征。Zhang等人[65]通过使用字幕网络来捕获场景中的“主要”对象来编码场景在我们的工作中，我们采用语义分割捕捉高层次的语义场景上下文功能。虽然[29]主要捕获了场景的整体表示，但我们通过分割从场景中获得了更详细的语义信息。他们的目标任务是眼睛注视点预测，而我们专注于显著对象检测。此外，我们解释了给定场景中所有对象之间的语义关系，而[65]仅限于标题中提到的那些对象。Goferman等人[10]通过基于图像描述引入具有GT显著对象与[10]不同，我们认为事物和东西上下文分割是一个辅助任务，以获得我们的场景上下文特征。3. 拟议数据集如前所述，现有的显著对象数据集大多包含不能很好地表示真实世界场景的图像CapSal [65]数据集包含真实世界的图像，然而，地面实况显著对象通常严重偏向于字幕数据。其结果是，与字幕相关的所有对象通常被认为是突出的，而不管这些对象中的每一个是否单独地在视觉上突出（参见图1B）。2（f））。我们提出了一个新的数据集，以支持在现实世界的场景中包含丰富的语义上下文的显着性建模。我们的数据集基于 MS-COCO [26] 和 SAL-ICON [17] 。 MS-COCO提供了具有挑战性的场景的图像和对象实例（事物）和区域（东西）的语义分割的注释。SALICON提供相应图像的基于鼠标的固定序列。我们的数据集分两个阶段构建：1）自动地面实况显著性生成和图像滤波，以及（2）手动图像滤波。(1) 自动阶段。我们基于[8]中的观察自动化地面真实显着对象生成，其中Fosco等人。发现人类通常在[0，0.5]秒内注视人，然后在[0.5，3]秒内移向其他在最初的3秒之后，有更多的固定在材料区域上。基于这些观察，如果SALICON注视点在范围[0，3]秒内落在图像中的对象分割的MS-COCO注释上，则我们收集显著对象。如果超过，则对象被进一步标记为地面实况显著4159表1：现有数据集和我们的数据集之间每个图像的对象和对象类别的平均数量的比较。（c）第（1）款（d）其他事项图3：当我们构建建议的数据集时，在手动图像过滤（第2阶段）期间进行视觉比较的示例。在（a）和（b）中，生成的显著性图与保存在我们的最终数据集中的对应SALICON注视图相当。而具有较大差异的那些图像，如（c）和（d）中所示，从数据集中移除。一半的观察者都盯着这个物体一旦为所有可用的15，000个图像生成了地面实况显著性，就应用自动过滤步骤以确保图像是复杂的并且包含丰富的上下文。这是图像的复杂性与结果图像的数量之间的折衷。我们发现，最少4个对象和至少2个对象类别，每个图像产生一个很好的一组复杂的图像，同时保留了更高数量的图像在构造的数据集。然而，当前景和背景对象的注释首先，在 MS-COCO数据集中的一些图像中（例如长凳/餐桌上的食物），我们观察到背景物体（例如，长凳、餐桌）通常是大型物体。它们被错误地认为是突出的简单，因为注视落在前景和背景物体上。第二，一些对象（例如，汽车，火车）由于它们覆盖了一些图像中的大部分背景（例如，汽车中的人），但是它们显然不是显著的（例如，与前景人物相比在前一种情况下，由于MS-COCO不提供深度信息，因此我们手动浏览数据集，识别那些背景类别并将其排除用于显著性地面实况生成。在后一种情况下，我们还忽略了其面积大于图像的60%（我们根据经验确定的阈值）这些步骤作为上述自动化过程之前的预过滤步骤进行。它们确保大对象（通常是背景）不被给予显著性分数。(2) 手动阶段。为了确保构建的数据集的质量，我们按照[65]中的类似程序手动检查从阶段（1）生成的显著对象图是否与相应的SALICON注视图一致。具体来说，我们希望确保SALICON中的峰值注视也落在我们生成的显着性图中被识别为显着例如图图3（c）和3（d）示出了被移除的两个图像，因为在两个图像之间存在大的差异。固定图的峰值和所生成的显著性图中的所选择的显著性对象。此步骤删除可能由自动过程引起的不一致注释。经过这两个阶段，我们的最终数据集由5，534张训练图像和2，554张测试图像组成。表1比较了前数据集和我们的数据集中每个图像的对象和类别的平均数量。现有的数据集不提供对象分割或类别数据。因此，我们通过从每个数据集中随机采样25个图像并手动计数对象和类别来报告表中的统计数据。它表明，我们的数据集包含的图像具有更高的对象和类别计数，更接近真实世界的场景。上述数据集创建步骤的更多细节，以及我们数据集的进一步统计数据在补充材料中提供。4. 该方法在本节中，我们首先介绍主干（Sec.4.1），并讨论如何提取和利用上下文特征。然后，我们指定如何提出的模块（第二节）。第4.2节和第4.3）利用上下文特征，以便细化和增强用于显著性的特征。最后，我们详细介绍了显着的实例网络（Sec. 4.4）用于显著对象检测的任务。所提出的框架的概述示于图1中。4.第一章4.1. 骨干我们的网络建立在Mask-RCNN [12]架构上，我们从FPN [25]中提取多尺度特征。我们利用多尺度特征作为3个操作的输入，即，（1）对象建议，（2）上下文分割和（3）上下文分割。(3) 上下文特征细化。(1) 反对提案。我们将RPN和RoIAlign [12]应用于多尺度特征以生成对象实例提议和对应的对象特征。(2) 上下文分段。我们包括用于实例和素材上下文分段的共享上下文分段解码器，以便提取给定场景的语义上下文特征。解码器将多尺度特征作为（一）（b）第（1）款数据集#平均值物镜#平均值物镜目录ECSSD [57]1.321.28PASCAL-S [24]2.081.80香港大学国际学院[23]2.121.68DUT-OMRON [58]1.441.24DUTs [45]1.561.364160WHWH×联系我们×}R44R44∈×图4：拟议网络的概述。我们的模型提取语义特征的共享上下文分割解码器。解码器被训练以重构用于生成事物和物品类别的特征。我们的语义场景上下文细化（SSCR）模块（Sec. 4.2）然后利用语义特征和多尺度特征来构建增强的场景上下文特征，使图像的语义我们上下文实例Transformer（CIT）模块（第4.3），内图5：语义场景上下文细化（SSCR）模块的图示。这三个层次的多尺度特征的应用与上下文分割中的操作类似，导致特征p3，p4，p5∈××128。我们融合这些特征到fF∈× ×128通过串联多尺度显著实例网络，学习对象和场景上下文之间的关系，并增强显著性推理。输入和重建用于分割事物的的东西分类。从解码器中我们提取出seman-特征与上下文特征，并应用（11）上下文特征。涡卷层级联通过利用场景上下文信息来帮助抑制显著性干扰物。接下来，我们以逐通道和逐空间的方式细化fFWHtic特征fR44，其中WH是spa-图像I的最终尺寸。解码器遵循与[19]中类似的设计，以组合多尺度特征用于分割。然后，解码器的输出特征通过两个单独的卷积层，用于生成Things，然后是Stuff上下文分割。(3) 上下文特征细化。第三，我们将多尺度特征与从上下文分割（2）中提取的特征相结合，产生用于增强显著性推理的细化的场景上下文特征。这些上下文特征由所提出的SSCR使用（第2节）。4.2）和CIT（第4.3）。SSCR通过仅聚合有用的上下文信息来构建最终场景上下文特征。CIT学习场景上下文特征和对象特征之间的关系最后的显着对象分类的详细信息在第二节。4.44.2. 语义场景上下文细化以前的工作表明并不是所有的上下文信息（例如，干扰物）与最终预测任务相关且有用[30，48，67]。为了解决这个问题，我们设计了这个模块，以提高语义信息，具有很强的相关性的场景上下文。这允许网络增强仅从具有强语义场景上下文的显著性注释学习的上下文信息。我们通过细化从上下文分割解码器和多尺度特征获得的上下文特征来构建我们的语义场景上下文特征（图1B）。（五）。我们只渠道细化。在CNN设计中，典型地，不同的语义信息由不同的通道特征激活[2，67]。我们包括一个通道明智的注意力机制，加权通道功能，更相关的语义信息。给定一组特征，我们应用平均池化、最大池化和两个卷积层，并使用ReLU和sigmoid激活。然后我们将处理后的特征（即，其中原始特征X为：CR（x）=x×Sigmoid（Ca（x）+Cm（x））Ca（x）=conv2（ReLU（conv1（avgpool（x），W1）），W2）（1）Cm（x）=conv2（ReLU（conv1（maxpool（x），W1）），W2）其中x=fF。W1和W2表示两个卷积层的参数空间细化。类似地，我们包括利用有用的空间信息的空间方面的注意。给定一组特征，我们采用具有交替内核的两组双卷积层，其中一组包含内核1k，k1，而另一组包含k1。1公里。添加来自两组卷积层的所得特征，并且应用S形激活来生成空间注意力图。我们用注意力图对原始特征x进行加权（即，S1，S2）通过乘法：SR（x）=x×Sigmoid（S1（x）+S2（x））使用多尺度特征中的特征级别[P3，P4，P5]，因为这些级别包含更高级别的上下文特征[70]。S1（x）=x×ReLU（conv2（ReLU（conv1（s，W1）），W2））S2（x）=x×ReLU（conv4（ReLU（conv3（s，W3）），W4））（二）4161联系我们联系我们我1 2N--∈其中（W1，W2）和（W3，W4）是关于1k，k1和k1，1k内核的两组卷积层的参数。在对融合特征fF执行通道和空间方面的细化之后，我们将两个输出与阿达玛乘法组合。通过加法将乘积与原始上下文特征（fC）进一步融合，并应用最终卷积。这生成了我们最终的语义场景上下文特征fsc。fsc=ReLU（conv（（CR（fF）×SR（fF））+fC，Wsc））（3）其中Wsc是最终卷积层的参数。该过程使得能够从显著性特征和场景上下文特征中增强上下文，所述显著性特征和场景上下文特征分别从显著对象检测和上下文分割中学习4.3. 上下文实例Transformer（CIT）在文献中观察到场景上下文影响眼球运动[43]。然而，大多数现有的显著性对象检测方法不建模这样的高水平的理解和关系，更不用说，指导在复杂的现实世界场景中的显著性预测如图1，个体对象的显著性需要关于其他对象和场景上下文的语义信息，以推断高级关系并将对象与干扰物区分开。该模块旨在学习对象和场景上下文之间的关系，以进行显着性推理。我们采用变换器[44]来学习对象到对象和对象到上下文关系中的单个对象特征和场景上下文特征之间的依赖关系我们将模块分为两个部分（见图 1 ）。（六）。第一部分被设计成仅学习对象之间的关系，而第二部分学习个体对象和场景上下文之间的关系。我们在两种类型的关系上使用一个带有单个头部的缩放点积注意力层：图6：上下文实例Transformer（CIT）模块的图示。其中，T00和T0C是建模对象到对象和对象到上下文关系的注意力特征。W{q1，q2}，W{k1，k2}和W{v1，v2}是线性投影的全连通层和共解层的参数。F〇’是指来自RoIAlign的对象特征和一个完全连接的层（Sec.4.4）。在TOC中的注意期间，K和V被展平以成为1-D向量（与对象特征相同）。然后，我们将完全连接的层和残差连接应用于两个注意力特征（T00和T0C）。对于应用于TOC的残差连接，我们首先平均池场景上下文特征（fsc）以将特征变换成1-D向量。最后，两个对象到对象和对象到上下文关系特征被连接用于我们随后的显着性分类（Sec.4.4）。4.4. 显著实例网络显着实例网络从输入对象特征执行主要的显着对象分类任务，允许我们的方法在对象级别上执行显着性推理。它适应于Mask-RCNN的第二阶段，注意力（Q，K，V）=softmax（√QKT√d）V(4)其由用于预测对象类别、边界框和掩模分割的网络组成。我们修改了网络的显着对象检测和增强显着性预处理，哪里d是指基于特征尺寸的归一化措辞与场景上下文，可视化图。7 .第一次会议。Q、K和V是对应于查询、键和值的矩阵。具体地说，Q是从对象特征投影的，而K和V是从对象特征或场景上下文特征生成的。Q和K相乘，然后是softmax，产生表示Q和K中的特征向量之间的相关度的输出。然后，这用于对由潜在特征V表示的对象的信息进行加权：我们的骨干（Sec. 4.1）生成候选对象特征并预测它们的显著性。RPN和RoIAlign生成各个对象候选的2D特征。它后面是一个扁平层和一个完全连接的层。特征向量f〇R1024，从而产生一组对象特征F。. . 其中N =512是对象提议的最大数量。我们通过融合对象到对象和TOO =注意（Wq1Fo′，Wk1 Fo′，Wv1F o′）(5)在采用CIT和两个完全连接的层之后的对象到上下文关系信息。一种改良的分类-TOC=Attention（Wq2F o′，Wk2fsc，Wv2fsc）然后，图像层确定每个对象的显著性。4162表2：与我们数据集上最先进方法的定量比较。avgF是指所采取的平均F-测量，并且Em是指E-测量。红色和蓝色分别表示最佳和第二佳性能5. 实验和结果5.1.数据集和评估指标数据集。我们的评估主要是在建议的数据集上进行的。我们使用5，534张图像的训练集进行训练，使用2，554张图像进行测试。流行的显著对象数据集不适合训练我们的模型（例如，没有对象实例和语义分割注释），我们在这里不报告对这些数据集的评估。相反，我们建议读者参考补充材料，在那里我们提供了我们的模型与现有数据集上最先进的模型的比较结果。评估指标。我们使用三个指标，即F-测量，平均绝对误差（MAE）和E-测量[6]，来评估我们的模型和最新技术的性能。F度量提供关于预测的显著性图的质量的总体性能的分数。它由精确度和召回率的加权组合来制定：5.3.与现有技术的我们比较了显着物体检测中的9种最先进的方法，包括BASNet [40]，CapSal [65]，CPD-R [54]，PFANet[70]，EGNet [68]，SCRN [55]，ITSD[72]，LDF [51]和MINet [37]。此外，我们还与S4 Net[7]（显着实例分割）进行了比较，S4 Net也建立在Mask-RCNN架构（如CapSal和我们的模型）上。请注意，在比较中，CapSal是唯一一个没有在我们的数据集上训练的方法（仅使用其预先训练的权重进行直接测试）。CapSal需要对应于GT显著性注释的GT字幕数据。我们还遇到了运行他们提供的源代码1的问题。Fβ= （1 +β2）精确度×召回率β2精确度+召回率(6)定量评价。我们报告了将所提出的模型与表2中的最新技术进行比较的实验结果。它表明我们的模型相当显著地-其中β2=0.3。MAE计算平均每像素距离。预测显著性图和真实显著性图之间的奇偶性。E-measure同时计算像素级和图像级误差，以测量二值前景相似性。5.2.实现细节我们使用在MS-COCO [26]上预先训练的ResNet-101作为我们的骨干网的一部分。我们的网络与Mask-RCNN [12]共享类似的架构和参数，并使用相同的损失函数进行显着性预测。我们使用交叉熵损失的实例和材料上下文分割网络。我们的模型基于detectron2框架[53]，并在单个NVIDIA GTX 1080 Ti GPU上训练30个epoch。使用初始学习率为0.001的SGD优化器，以及权重衰减（10−4）和动量（0.9）。我们应用随机裁剪，翻转和多尺度图像训练的数据增强。在所有指标上都能达到现有的最先进水平。特别是，我们的模型在平均F-测量中显示出实质性的改善，与第二好的方法相比，性能提高了4.17%。定性评价。我们进一步展示了我们的模型在图中的性能。8，它显示了我们的模型和10个国家的最先进的方法之间的视觉比较。我们的模型是能够正确地挑选出独特的和有趣的显着物体中的多个干扰，利用的背景下的图像场景。对于其他方法来说，情况往往不是这样，因为它们不能有效地区分突出对象和干扰物。最下面一行的图像进一步说明了我们的模型利用语义1我们尝试了CapSal源代码来预处理字幕数据（https://github.com/zhangludl/code-and-dataset-for-CapSal），但无法将其代码用于我们的数据集。图7：显著实例网络的图示。方法avgF↑Em↑MAE↓BASNet [40]0.7060.8230.087CapSal [65]0.7970.8530.082CPD-R [54]0.8030.8540.074PFANet [70]0.6760.7720.131S4Net [7]0.6250.7200.149EGNet [68]0.8150.8630.067SCRN [55]0.7860.8420.076资讯科技署[72]0.7760.8540.070LDF [37]0.8080.8520.070MINet [51]0.8100.8610.067我们0.8490.8720.0624163[40]第40话 CapSal[65] [70]第70话 [68]第68话 [51]第55话：我的世界，我的世界图8：所提出的方法与其他十种最先进的显着性方法的定性比较表3：在我们的数据集上对所提出的模型的消融研究。Base：Mask-RCNN架构，ISCG：实例/素材上下文分段，SSCR ：语义场景上下文细化， CIT ：上下文实例Transformer。方法avgF ↑E m↑MAE↓基础0.8260.8510.069个单位基础+ISCG0.8410.8660.063基础+ISCG+SSCR0.8450.8690.062基础+ISCG+CIT0.8490.8710.062基础+ISCG+SSCR+CIT0.8490.8720.062TIC信息，以便从替补席中完全分割突出的人。其他方法不捕获这样的语义信息。他们遭受额外的假显着性的板凳上的一部分，或无法正确分割显着的对象。5.4.消融研究我们进行额外的实验，以评估我们提出的模块的有效性。这些结果示于表3中。它表明，所提出的模块产生的基线显着性网络的改进。我们的完整模型实现了最佳的整体性能和最先进的结果。这表明，所提出的模块能够有效地提取和增强场景上下文信息。mation，然后将它们整合用于显着性推理。6. 结论在本文中，我们观察到，现有的显着对象检测方法不完全捕捉复杂的图像场景的语义上下文，导致他们产生虚假的显着性的干扰和丢失的预测显着对象与场景上下文的关系。我们还发现，流行的显著性基准数据集大多包含简单场景结构的图像，并且不提供涉及具有丰富上下文的复杂场景的真实世界场景。我们已经解决了这些问题，提出了一个新的具有挑战性的数据集，复杂的场景和显着性模型，利用语义场景的背景下，提高显着性推理。实验结果表明，所提出的模型优于国家的最先进的方法，建议的数据集。鸣谢：这项工作部分得到香港研资局的研究基金资助（参考：11205620）。Avishek Siris由斯旺西科学DTC研究生研究奖学金支持。 Jianbo Jiao 得到 EPSRCProgram Grant Visual AI EP/T028572/1的支持。4164引用[1] Bahar Aydemir 、 Deblina Bhattacharjee 、 SeungryongKim、TongZhang、MathieuSalzmann和SabineSüsstrunk 。为深度显著性预测建模对象相异度。arXiv：2104.03864，2021。[2] Long Chen，Hanwang Zhang，Jun Xiao，Ligen Nie，Jian Shao，Wei Liu，and Tat-Seng Chua. Sca-cnn：图像字幕卷积网络中的空间和通道注意力。在CVPR中，第5659-5667页[3] Zuyao Chen ， Qianqian Xu ， Runmin Cong ， andQingming Huang.用于显著对象检测的全局上下文感知渐进聚合网络在AAAI，第34卷，第10599-10606页[4] Ming-Ming Cheng，Niloy J Mitra，Xiaolei Huang，andShi-Min Hu.凸形：图像集合中的组显著性。The VisualComputer，30（4）：443[5] Ming-Ming Cheng ， Niloy J Mitra ， Xiaolei Huang ，Philip HS Torr，and Shi-Min Hu.基于全局对比度的显著区域检测。IEEE TPAMI，37（3）：569[6] Deng-Ping Fan ， Cheng Gong ， Yang Cao ， Bo Ren ，Ming-Ming Cheng，and Ali Borji.二进制前景图评估的增强对准措施。在IJCAI，2018。[7] 范若尘、程明明、侯启斌、穆泰江S4net：单阶段显著实例分割。在CVPR中，第6103-6112页，2019年。[8] Camilo Fosco，Anelise Newman，Pat Sukhum，Yun BinZhang，Nanxuan Zhao，Aude Oliva，and Zoya Bylinskii.你还有多少时间？建模多持续时间显著性。在CVPR中，第4473-4482页[9] Shang-Hua Gao，Yong-Qiang Tan，Ming-Ming Cheng，Chengze Lu，Yunpeng Chen，and Shuicheng Yan.具有100k参数的高效显著对象检测。arXiv：2003.05643，2020。[10] Stas Goferman、Lihi Zelnik-Manor和Ayellet Tal。上下文感知显著性检测。IEEETPAMI，34（10）：1915[11] HadiHadizadeh和I v anVBaji c'。Salienc y-aw都是视频压缩。IEEE TIP，23（1）：19[12] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具R-CNN。在ICCV，第2961-2969页[13] Shengfeng He ， Rynson WH Lau ， Wenxi Liu ， ZheHuang，andQingxiongYang.Supercnn：Asuperpixelwise convolutional neural network for significantobject detection. IJCV，115（3）：330[14] Qibin Hou ， Ming-Ming Cheng ， Xiaowei Hu ， AliBorji，Zhuowen Tu，and Philip HS Torr.具有短连接的深度监督在CVPR中，第3203-3212页[15] Xiaowei Hu，Chi-Wing Fu，Lei Zhu，Tanyu Wang，andPheng-Ann Heng. Sac-net：用于显著对象检测的空间衰减上下文。IEEE TCSVT，2020。[16] Laurent Itti，Christof Koch，and Ernst Niebur. 基于显著性的快速场景分析视觉注意模型。IEEE TPAMI，20（11）：12544165[17] Ming Jiang，Shengsheng Huang，Juanyong Duan，andQi Zhao. Salicon：语境中的显著性。在 CVPR，第1072- 1080页[18] TilkeJudd，KristaEhinger，Fre´doDurand，andAntonioTorralba.学习预测人类的视线。在ICCV，第2106-2113页[19] Alexander Kirillov，Ross Girshick，Kaiming He，andPiotr Doll a'r. 光学特性金字塔网络工作。见CVPR，第6399[20] Jason Kuen、Zhenhua Wang和Gang Wang。用于显著性检测的递归注意网络。在CVPR中，第3668-3677页[21] 赖百胜和龚小金。用于弱监督图像解析的显著性引导字典学习。在CVPR，第3630-3639页[22] Gayoung Lee，Yu-Wing Tai，和Junmo Kim.具有编码的低级距离图和高级特征的深度在CVPR，第660-668页[23] 李冠斌、余益州。基于多尺度深度特征的视觉显著性。在CVPR中，第5455-5463页[24] Yin Li，Xiaodi Hou，Christof Koch，James M Rehg，and Alan L Yuille.显着对象分割的秘密。在CVPR，第280-287页[25] 林宗义、彼得·多尔、罗斯·格希克、何启明、巴拉特·哈里哈兰和塞尔日·贝隆吉.用于对象检测的特征金字塔网络。在CVPR中，第2117-2125页，2017年。[26] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、卢博米尔·布尔德夫、罗斯·格希克、詹姆斯·海斯、彼得罗·佩罗纳、德瓦·拉马南、彼得·多尔·拉尔和劳伦斯·齐特尼克。Microsoftcoco：上下文中的公共对象。在ECCV，第740- 755页[27] Jiang-Jiang Liu，Qibin Hou，Ming-Ming Cheng，JiashiFeng，and Jianmin Jiang.一个简单的基于池的实时显著对象检测设计。在CVPR中，第3917-3926页，2019年。[28] 刘念和韩俊伟。Dhsnet：用于显着对象检测的深度层次显着网络在CVPR，第678-686页[29] 刘念和韩俊伟。用于显著性检测的深度空间上下文长期循环卷积网络。IEEE TIP，27（7）：3264[30] 刘念，韩俊伟，杨明轩。Picanet：Learning pixel-wisecontextual attention for saliency detection.在CVPR中，第3089-3098页[31] 刘念，张倪，万开元，韩俊伟，凌少。视觉显著性Transformer。arXiv：2104.12099，2021。[32] Tie Liu ， Zejian Yuan ， Jian Sun ， Jingdong Wang ，Nanning Zheng，Xiaoou Tang，and Heung-Yeung Shum.学习检测显著物体。IEEE TPAMI，33（2）：353[33] 刘毅，韩俊公，张强，单彩凤。具有上下文信息引导的深度显著对象检测。IEEE TIP，29：360[34] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。在CVPR，第3431-3440页4166[35] Zhiming Luo，Akshaya Mishra，Andrew Achkar，JustinEichel，Shaozi Li，and Pierre-Marc Jodoin.用于

下载后可阅读完整内容，剩余1页未读，立即下载