没有合适的资源?快使用搜索试试~ 我知道了~
{xin.tian.831, kkangwing @gmail.com,xinyang, ybc @dlut.edu.cn,mimicking how humans change their attention across thescenes depending on the saliency ranks, saliency rankingcan benefit many down-stream visual tasks, e.g., image ma-nipulation [6,49], scene understanding [37], important per-son identification [24] and their interaction reasoning [10].Islam et al. [19] propose the first saliency ranking work,which directly predicts a relative saliency map with dif-ferent pixel values indicating different saliency degrees, asshown in Figure 1(b). However, this method only studiesthe relative saliency of pixels. Later, Siris et al. [34] pro-pose to study the salient object ranking as humans shift at-tention from object to object. They propose to model therelations between objects and global context for reasoningtheir ranks. Liu et al. [28] further propose a neural graph-based method to learn relations between objects and localcontexts as well as relations between objects.However,these two methods [28,34] tend to favor objects with strongsemantics (e.g., people) as shown in Figure 1, resulting inincorrect saliency ranks. For example, in the first and sec-58820双向对象-上下文优先学习用于显著性排序0Xin Tian 1 , 2 , 3 Ke Xu 2 , † Xin Yang 1 , † Lin Du 3 Baocai Yin 1 Rynson W.H. Lau 2 , ‡01 大连理工大学 2 香港城市大学 3华为技术有限公司人工智能应用研究中心(AARC)0dulin09@huawei.com, Rynson.Lau@cityu.edu.hk0摘要0最近提出了显著性排序任务,用于研究人类在场景中根据显著性程度通常会将注意力转移到不同对象上的视觉行为。现有方法侧重于学习对象-对象或对象-场景关系。这种策略遵循了心理学中的“基于对象的注意力”思想,但它倾向于偏爱具有强语义的对象(例如人),导致了不现实的显著性排序。我们观察到,在人类视觉识别系统中,“空间注意力”与“基于对象的注意力”同时起作用。在识别过程中,人类的空间注意力机制会从区域到区域(即从上下文到上下文)移动、参与和脱离。这启发我们为显著性排序建模区域级互动,除了对象级推理之外。因此,我们提出了一种新颖的双向方法,将空间注意力和基于对象的注意力统一起来进行显著性排序。我们的模型具有两个新颖的模块:(1)选择性对象显著性(SOS)模块,通过推断显著对象的语义表示来建模基于对象的注意力,以及(2)对象-上下文-对象关系(OCOR)模块,通过联合建模显著对象的对象-上下文和上下文-对象互动来为对象分配显著性排序。大量实验证明我们的方法优于现有的最先进方法。代码和预训练模型可在https://github.com/GrassBro/OCOR获得。01. 引言0显著性检测是计算机视觉中的一项基本任务。以前的工作主要集中在显著对象/实例检测任务[9, 17,38]和注视预测任务[33]上。最近,Siris等人[34]提出了一项称为显著性排序的新任务,旨在同时检测显著实例并推断它们的显著性排序。通过0† Ke Xu和Xin Yang为共同通讯作者。‡ RynsonLau领导此项目。0低 高0排名1 排名2 排名3 排名4 排名50(a) 图像 (b) RSDNet [19] (c) ASSR [34] (d) IRSR [28] (e) 我们的方法 (f) GT0图1. 现有的显著性排序方法[19, 28,34]产生不现实的显著性排序结果。 (b) RSDNet[19]是一种像素级方法,无法很好地预测对象级显著性排序。 (c)ASSR [34]和 (d) IRSR[28]探索对象-对象和对象-场景关系以推断显著性排序。然而,它们倾向于偏爱具有强语义的对象,并倾向于将人类分配给高显著性排名。 (e)我们的方法通过双向对象-上下文优先学习公式探索了空间和基于对象的注意力,产生了忠实的显著性排序结果。58830如图1(c,d)的第一行和第二行所示,它们将人类分配给最高的显著性等级,尽管第一个例子中绿色屏幕的视觉独特性和第二个例子中相对较大的马。在最后一行,这两种方法甚至不认为滑板是一个显著的对象。0在本文中,我们基于心理学研究[2,8]揭示的结果,提出了一种解决显著性排序问题的方法,即人类视觉系统中空间注意力和基于对象的注意力同时起作用的观察结果。基于对象的注意力通过对场景进行预先注意力分割,将我们的视线引导到候选对象或感知群体上[8],而人类的空间注意力机制允许我们通过根据低级视觉刺激(例如丰富的颜色)、对象的功能和对象之间的相互作用来优先处理场景中的区域(对象所属的区域)。这激发了我们共同利用空间注意力和基于对象的注意力进行显著性排序的灵感。基于这一观察结果,我们提出了一种双向的对象-上下文优先学习方法,以建模区域级和对象级之间的关系。我们首先提出了一个选择性对象显著性(SOS)模块,通过推断和丰富显著对象的语义表示来建模基于对象的注意力。然后,我们提出了一个对象-上下文-对象关系(OCOR)模块,通过在对象-上下文和上下文-对象的双向方式上进行推理来利用空间注意力机制。我们制定了一个多头注意力机制,来模拟一个对象及其上下文与其他对象及其上下文之间的交互方式。如图1(e)所示,我们的方法在最先进的方法上产生了更准确的显著性排序。例如,我们的方法可以根据它们的视觉独特性检测到屏幕(第一行)和马(第二行)作为最显著的对象。在第三行,我们的方法可以通过建模其与人的交互来检测和排序滑板。0总结一下,这项工作有三个主要贡献:1)受心理学研究的启发,我们提出了一种新颖的双向对象-上下文优先学习方法,用于显著性排序,通过共同利用空间和基于对象的注意力机制。2)我们提出了一种新颖的选择性对象显著性(SOS)模块,用于建模基于对象的注意力,以及一种新颖的对象-上下文-对象关系(OCOR)模块,用于通过推断对象之间的关系来建模空间注意力。3)我们进行了大量实验来分析我们的方法并验证其在最先进的方法上的卓越性能。02. 相关工作02.1. 显著性排序0显著性排序是一项新任务。它研究了日常场景中物体通常具有不同显著性的视觉现象。0不同的显著性程度会引起观察者的注意力依次转移到不同的对象上。Islam等人[19]对这个问题进行了初步尝试,但他们只研究了像素级的相对显著性。这从他们的数据收集步骤中可以看出,有时多个对象被标注为相同的显著性等级。Siris等人[34]提出了一个新的数据集和一个模型,以促进这个任务的研究。具体而言,他们利用对象上的注视统计数据构建了一个大规模的数据集,并设计了一个带有对象-上下文关系模块的网络来学习显著性等级。Liu等人[28]进一步提出了另一个数据集,减少了注释噪声,并研究了任务的对象-对象关系。类似地,Fang等人[12]也提出了建模对象-对象关系,但在学习步骤中嵌入了对象的空间坐标作为空间线索。通过建模基于对象的注意力,上述方法可以利用学习到的对象的语义表示的优势。然而,它们往往会产生不合理的显著性排序,例如,它们倾向于将人类排在具有视觉上有区别的色调的物品之上。相比之下,在本文中,我们提出了一种双向的对象-上下文优先方法,将空间注意力与基于对象的注意力结合起来进行显著性排序。02.2.显著对象检测(SOD)0SOD是一个存在已久的问题,有很多方法被提出。它旨在检测场景中引人注目的对象。早期的方法[1, 7, 31,48]主要依赖于手工设计的特征(例如颜色、亮度和纹理)来检测显著对象。由于低级手工设计特征的有限表示能力,这些方法在复杂场景中经常失败。最近基于深度学习的方法[42]取得了优越的性能。它们主要融合了两种深度技术,即深度特征融合[44, 51]和特征注意力[27, 35, 52,53]。深度特征融合旨在聚合包括低级刺激和高级语义在内的多层上下文信息,用于SOD,而特征注意力则重新加权多尺度特征,并增强上下文学习,帮助模型专注于显著区域并抑制背景区域的噪声。与SOD不同,显著性排序任务需要检测显著实例,然后确定它们的显著性排序。因此,现有的显著对象检测方法不能直接应用于显著性排序任务。02.3.显著实例检测(SID)0有一些方法被提出来检测实例级别的显著对象。Zhang等人[50]提出了一种基于最大后验优化的方法来检测带有边界框的显著实例。Li等人[22]提出利用实例感知的显著轮廓来检测实例级别的对象。Fan等人[11]提出了结合3.1. Selective Object Saliency ModuleWHWHCH.attentions [18, 45] mainly aim to highlight the discrimina-tive channels according to the ground truth categories whilesuppressing the responses from other channels. However,simply suppressing the low responses from the other chan-nels may not be suitable for saliency ranking, as these lessdiscriminative channels may also be informative. They mayserve as the contexts to correlate objects to each other or asthe global context. Hence, we propose to extend existingchannel-wise attentions in two aspects. First, we leveragethe global covariance pooling [23, 41] to learn object rep-resentations as well as their correlations to both local andglobal contexts. Second, we learn a group of dynamic recti-fying functions to reallocate attentions to the channels basedon the high-order feature statistics computed by the globalcovariance pooling. Consequently, they jointly capture fine-grained object information for learning object-based repre-sentations. Figure 3 shows our SOS module.(1)58840Swin FPN0P20P30P40P50特征金字塔显著性排序学习骨干输入0框查询0全局上下文输出0对象查询0第10第20第30第40第50选择性对象显著性模块0对象-上下文-对象0关系模块0排序头0掩膜头0图2.我们提出的网络概述。给定输入图像,我们首先应用基于查询的对象检测方法[13,36]提取全局上下文特征,并利用一组可学习的显著对象提议(即编码对象位置和丰富对象特征的框和对象查询)来帮助预测最终的显著性排序。显著性排序学习过程包括(1)SOS模块,用于捕捉和丰富对象级别的语义表示,(2)OCOR模块,用于建模一个对象与其上下文以及其他对象与它们的上下文之间的交互,即双向对象-上下文和上下文-对象关系学习,以及(3)排序和掩膜头,用于在SOS和OCOR模块改进的特征上推断对象级别的显著性排序。0使用带有分割分支的对象检测模型FPN[26]来检测显著实例。Tian等人[38,39]提出了一种利用类标签和子计数标签进行SID的弱监督方法。SID方法可以提供显著对象的实例级信息,但它们不尝试对检测到的显著实例进行排序。03.方法学0心理学研究[2,8]表明,空间注意力和基于对象的注意力在人类视觉系统中合作工作,以便顺序处理场景中的多个视觉输入。一方面,基于对象的注意力倾向于通过对场景的预先注意分割将人类的视线固定在候选对象上,因为人们更容易被他们最熟悉的对象所吸引。另一方面,空间注意力通过多个因素的联合过程,如区域视觉刺激、对象的功能性和它们的上下文交互,将人类的视线从区域引导到区域。这激发了我们利用基于对象的注意力和空间注意力来设计我们的显著性排序模型。图2显示了我们的双向对象-上下文优先模型的概述。给定输入图像,我们首先使用基于查询的对象检测方法[13,36]提取全局特征并生成一组基于对象提议的对象特征,即编码对象位置和丰富对象特征的框和对象查询。然后,我们将它们输入到两个新颖的模块中,即选择性对象显著性(SOS)模块和对象-上下文-对象关系(OCOR)模块,这两个模块用于推理显著性排序的两个注意机制。最后,我们的模型学习对象的优先级信息以进行显著性排序。0在遵循基于对象的注意力机制的精神的基础上,我们的SOS模块的目标是捕捉和增强显著对象的语义表示。已经证明深层特征的通道响应对不同的语义组件有响应[4,54]。以前的通道注意力主要旨在根据地面实况类别突出显示有区别的通道,同时抑制其他通道的响应。然而,仅仅抑制其他通道的低响应可能不适合显著性排序,因为这些不太有区别的通道可能也是有信息的。它们可能作为上下文来将对象相互关联,或者作为全局上下文。因此,我们提出在两个方面扩展现有的通道注意力。首先,我们利用全局协方差池化[23,41]来学习对象表示以及它们与局部和全局上下文的相关性。其次,我们学习一组动态修正函数,根据全局协方差池化计算的高阶特征统计量重新分配注意力到通道上。因此,它们共同捕捉细粒度的对象信息,用于学习基于对象的表示。图3显示了我们的SOS模块。0动态修正 C0图3. SOS模块的结构。0全局协方差池化研究了建模高阶特征统计量的跨通道相关性。给定上下文特征 F context和对象提议(即框和对象查询),我们首先使用 ROIAlign[15] 提取对象特征 F obj ∈ R H × W × C,其中 H、W 和C分别表示特征的高度、宽度和通道维度。然后,我们沿着通道维度将 F obj 分割成通道特征 F obj = [F 1 obj,F 2obj,...,F K obj] ∈ R C × K,其中 K = W × H,k ∈[1,K],用于计算协方差归一化矩阵 M,如下所示:0M =0∆ 1K0K0k = 10∆ F k obj − µ ∆ F k obj − µ T α0∈ R C ×C,̸ˆFobj = Fobj ⋄ ˆS,(6)2CHW2CWH2CHWP1✕1 ✕ 2C……P1✕1 ✕ 2C……P1✕1 ✕ 2C……P1✕1 ✕ 2C……1✕1 ✕ 2C2CWHP1✕1 ✕ 2C……2CW58850其中 µ = ∆ 1 K K k = 1 F k obj ∈ R 1 × K是通道维度的均值向量。α是归一化超参数。然后,我们计算 M 上的全局协方差池化GCP,如下所示:0s c = GCP(M c) = 10c = 1 M c,(2)0其中 S = [s 1,s 2,...,s C] ∈ R C × 1是高阶通道特征统计量,它编码了对象及其与局部和全局上下文的关系。0动态修正函数进一步根据通道统计量 S动态重新分配注意力到每个特征通道。它首先学习重新加权每个 s c,如下所示:0ˆ s c = max {a 1 c(S) s c + b 1 c(S),a 2 c(S) s c + b 2 c(S)},(3)0其中 a 1 c、b 1 c、a 2 c 和 b 2 c是可学习参数,它们形成两组系数(即 (a 1 c,b 1 c) 和 (a2 c,b 2 c)),用于构建两个分段函数,以将 s c 更新为 ˆ sc。由于等式3中的最大操作不可微分,它被重新表述为:0[∆ a 1 1: C,∆ a 2 1: C,∆ b 1 1: C,∆ b 202 σ (FC R/C → 4 × C (ReLU (FC C → R/C (S)))) - 1,(4)0并且,a 1 1: C = 1 + λ a ∆ a 1 1: C,a 2 1: C = λ a ∆ a 2 1: C,0b 1 1: C = λ b ∆ b 1 1: C,b 2 1: C = λ b ∆ b 2 1: C,(5)0其中 FC C → R/C 是一个全连接层,将特征维度从 C 改变为R/C。σ 是Sigmoid函数。λ a ,λ b是设置为1和0.5的超参数。a 1 1:C = [ a 1 1 , a 1 2 , ..., a 1C ] ∈ R 1 × C 。a 2 1:C , b 1 1:C 和 b 2 1:C 的定义与a 1 1:C 类似。注意,a 和 b 不仅与输入 s c相关,还与其他 s i � = c ∈ S 通过两个 FC层相关联。因此,我们建立了跨通道的相关性,并计算增强的 ˆ F obj 如下:0其中 ˆ S = [ ˆ s 1 , ˆ s 2 , ..., ˆ s c ] ∈ R C × 1 ,�表示按通道进行乘法运算。给定全局池化的高阶通道特征统计,通过线性函数对其进行动态修正,如公式3所述,其中线性函数的斜率和截距(例如 ( a 1 c , b 1 c))通过公式4和5自适应学习得到。我们利用两组斜率和截距来分别调整负/正通道响应。通过这种方式,在将细粒度的注意力分配给特征通道之前,可以通过斜率和截距对其进行调整,以适应显著性排序任务。0x0y0z0查询:0值:0关键字:0查询:0Softmax0按通道求和0归一化0y0Softmax0H y0图4. 我们OCOR模块的结构。03.2. 对象-上下文-对象关系模块0OCOR模块旨在模拟人类视觉系统的空间注意力,学习如何优先处理区域。为此,我们首先基于SOS模块的增强对象表示编码对象-上下文关系,然后建立双向的对象-上下文-对象关系,以模拟人类的空间扫描过程。0建立对象-上下文关系的公式。在SOS模块之后,我们得到N 个对象特征 ˆ F obj ( n ) ∈ R H × W × C 。然后,将 Fcontext 缩放到与 ˆ F obj ( n ) 具有相同的空间尺寸( H ×W ),并通过将每个 ˆ F obj ( n ) 与 F context连接起来,建立对象-上下文关系,形成一系列对象-上下文关系特征 {F o � c ( n ) } N i =1 ∈ R H × W × 2 C ,用于N 个对象。0建立对象-上下文-对象关系的公式。基于对象-上下文关系,我们建立双向的对象-上下文-对象关系 {F o � c � o ( n } N n=1,以模拟注意力如何从区域到区域转移,伴随着对象通过上下文进行交互。具体来说,我们利用一组线性投影来计算不同对象-上下文关系特征之间的长程交互,受到多头注意力机制的启发 [40]。我们将 i, j ∈ N 视为两个不同的对象,x,y ∈ K 视为空间位置,ϕ 视为线性投影函数。tion function. We utilize P distinct projection functions,ϕp, p ∈ [1, P], to obtain Key k, Query q, and Value v em-bedding of the object-context relation features. For exam-ple, ϕpvFo↔c(i)(x) denotes the value embedding v of object-context relation of object i at location x using the p-th linearprojection function. The interaction can be modeled as:Attp⟨i,j⟩(x, y) = ϱ(Ap⟨i,j⟩(x, y)) × ϕpv(Fo↔c(i)(x)),(7)p ∈P̸,58860其中 Att p � i,j � ( x, y ) 衡量对象 i 及其空间上下文 x 与对象 j及其空间上下文 y 的交互程度。ϱ 是加权函数(即Softmax),用于计算对象-上下文表示的嵌入的重要性,Ap � i,j � ( x, y ) 编码 F o � c ( i ) ( x )的上下文信息。它们的计算公式如下:0ϱ(Ap�i,j�(x,y))= eAp�i,j�(x,y)0�i,j�(x,y),(8)0Ap�i,j�(x,y)= ϕpk(Fo�c(i)(x))T ∙0其中∙是两个特征向量之间的点积。我们计算对象-上下文-对象关系特征如下:0Fo�c�o(i)(x)=0N �0j = 1,j ≠ i0K �0y = 10p = 1 Att p�i,j�(x,y)。 (10)0最后,我们对Fo�c�o进行归一化,并将其与输入Fo�c融合以产生最终输出ˆFo�c�o。图4显示了我们OCOR模块的结构。03.3. 学习显著性排名0为了基于我们的SOS和OCOR模块学习显著性排名,我们将排名步骤形式化为多阶段的基于查询的检测过程,并遵循[14]以T查询阶段(1≤t≤T)进行初始化。这种多阶段策略的优势在于,盒子和对象查询(qtbox和qtobj)以及相应的对象特征Ftobj可以逐个阶段地改进。在每个阶段,我们执行以下三个子任务。首先,我们从上一阶段的盒子查询(qt−1box)中提取当前阶段t(即Ftobj)的对象特征,如下所示:0Ftobj = ROIAlign(Fcontext,qt−1box)。(11)0其次,我们获得改进的对象特征˜Ftobj和对象查询qtobj,如下所示:0˜Ftobj,qtobj = Htrank0�fOCOR(fSOS(Ftobj))� ���ˆFto�c�o,fSA(qt−1obj)0�0(12)其中fSOS和fOCOR是我们的SOS和OCOR模块,fSA是多头自注意力[40],Htrank是0第t个阶段的排名头部。第三,我们使用盒子预测分支B更新盒子查询:0qtbox = Bt(˜Ftobj)。 (13)0在最后一个阶段,将对象特征˜FTobj输入到排名头部以预测最终的显著性排名,并将其输入到掩膜头部以预测显著对象的掩膜。04. 实验04.1. 实验设置0数据集和指标。我们的实验是在公开可用的ASSR[34]和IRSR [28]数据集上进行的。ASSR[34]根据顺序眼球注视信息对每个图像的5个显著对象进行排名。它提供了7,464、1,436和2,418张图像用于训练、验证和测试。IRSR[28]考虑眼球注视序列和眼球注视持续时间来标记显著性排名。它还手动过滤了不适当的注释。在IRSR中,每个图像最多涉及8个具有排名的显著对象。它包含8,988张图像,分为6,059张用于训练和2,929张用于测试。我们采用三个指标,即显著对象排名(SOR)[19,34],分割感知SOR(SA-SOR)[28]和平均绝对误差(MAE),来评估我们的方法。SOR计算预测和显著性排名顺序的真实值之间的Spearman等级相关性。该指标表示相对显著性在对象之间的预测质量,而不是对象的特定显著性排名数字。SA-SOR计算预测和显著性排名的真实值之间的Pearson相关性。它还惩罚检测非显著对象和错误排名。MAE测量预测和显著性图的真实值之间的每像素差异的平均值。因此,它还有助于根据与真实值的重叠程度来衡量对象的排名质量。0实现细节。我们的网络是基于多阶段的基于查询的检测器[14,36]构建的。按照他们的设置,阶段数T设置为6,查询数N设置为100。我们使用在ImageNet [20]上预训练的Swin Transformer[29]作为我们的骨干网络。在SOS模块中,H和W最初设置为7,然后在OCOR模块中减小到2。我们将α设置为102和C为256。0我们实验设置R = 4和P =8用于我们的SOS和OCOR模块。我们在每个数据集上训练我们的模型60个epochs。学习率从2.5×10^-5开始,在第25和第45个epoch时除以10。为了优化模型,我们采用带有1×10^-4权重衰减的AdamW优化器。图像被调整为800×800的分辨率。我们使用随机翻转进行数据增强。训练的批量大小设置为16。58870在4个Tesla GPU卡上训练。我们使用集合预测损失[14,36]和显著性排名损失[28]训练排名头部,使用Dice损失[30]训练蒙版头部。我们在单个TeslaGPU卡上使用800×800分辨率的图像进行测试。04.2. 基线方法0由于显著性排名是一个相对较新的任务,只有四种方法被提出,为了全面评估我们的方法,我们设计了基线方法进行比较。我们发现语义实例分割任务与我们的任务相关,因为它们具有类似的输出形式(即对象实例映射+相应的语义类别)与我们的任务(即显著实例映射+显著性排名)。因此,我们将八种代表性的语义实例分割方法作为基线进行比较。0• Mask R-CNN[15]是一种流行的两阶段检测器。所有现有的显著性目标排名方法[12, 28,34]都是基于它构建的。这里我们有两个版本:基于ResNet的MaskR-CNN和基于Swin的Mask R-CNN。0• BlendMask[5]是一种单阶段无锚点方法,它整合了高层任务语义(自顶向下)和低层细节(自底向上)。与基于锚点的检测器[15]相比,它提供了一个更简单的基线。0• CenterMask[21]也是一个单阶段无锚点网络,由基于通道注意力的主干网络(VoVNet)和基于空间注意力的蒙版头部组成,用于提取信息语义和抑制背景噪声。0• SOLO[43]提议在特征网格的每个位置上对实例进行分类和检测。它直接将坐标信息与候选对象特征结合起来,以使检测对对象的中心和边界更敏感。0• 级联R-CNN [3]和QueryInst[14]以渐进的方式检测实例。它们在网络中使用级联检测器逐步改进检测结果。0• CBNetV2[25]提议在自顶向下的路径中连接并行的主干网络。前一个主干网络的高层特征具有更粗糙的空间信息和更精细的语义信息,可以丰富后一个主干网络的低层特征。0为了适应这些方法进行显著性排名,我们根据显著性排名数据集中显著性排名的数量修改它们的输出层。我们使用显著性排名损失[28]来训练这些方法。04.3. 主要结果0我们将我们的方法与四种现有的显著性排名方法进行比较:RSDNet [19],ASSR [34],IRSR [28]和SOR[12];与[34]中用于比较的四种显著目标检测方法:S4Net[11],BASNet [32],CPD-R [46]和SCRN[47];以及我们从语义实例分割中选择的八种基线方法:CenterMask [21],SOLO [43],BlendMask[5],基于ResNet的Mask R-CNN [15],基于Swin的MaskR-CNN [15],级联R-CNN [3],QueryInst[14]和CBNetV2[25]。定量比较。表1显示了定量结果。从对ASSR测试集的比较中,我们可以看到S4Net在SOR上表现第二好,但在MAE上表现第二差。这是因为SOR不会对缺失的对象进行惩罚,但MAE会考虑它们。基于SOD的方法在SOR上表现相对较差,因为它们没有排名对象显著性的能力。几种SIS基线在SR任务上表现良好。总体而言,我们提出的方法在所有三个指标和两个测试集上都大幅优于所有比较方法。定性比较。我们进一步定性评估了我们的方法,如图5所示。由于空间有限,我们只与表1中表现最好的方法进行比较。我们可以看到现有方法普遍存在检测非显著对象、推断对象之间不正确的显著性排名以及对对象的欠检测或过检测等问题。视觉比较显示,我们的方法能够准确地个性化显著对象并推断它们的显著性排名,适用于各种场景。04.4. 模块分析0我们模型的消融研究。我们首先研究了所提出的SOS和OCOR模块的有效性。表2显示了结果。通过从网络中移除它们中的每一个或两个,我们可以看到性能显著下降。这表明SOS和OCOR模块对显著性排序性能很重要。SOS模块的内部分析。我们研究了SOS模块中全局协方差池化(GCP)和动态修正(DR)函数对显著性排序性能的影响。表3显示了结果,从中我们可以看出,GCP和DR在一起工作时比单独工作时表现更好。0OCOR模块的替代方法。最后,我们尝试了四种替代策略来构建双向的对象-上下文关系。S1:给定两个对象特征和上下文特征,我们将它们连接在一起并将其馈送到两个卷积层中学习它们的上下文关系;S2:在融合的特征上应用通道注意力[ 45 ];S3:在融合的特征上应用空间注意力[ 45 ];S4:在融合的特征上同时应用通道注意力和空间注意力[ 45]。SA-SOR↑SOR↑MAE↓SA-SOR↑SOR↑MAE↓S4Net† [11]SIDResNet-50-0.8910.150---BASNet† [32]SODResNet-34-0.7070.115---CPD-R† [46]SODResNet-50-0.7660.100---SCRN† [47]SODResNet-50-0.7560.116---RSDNet [19]SRResNet-1010.4990.7170.1580.4600.7350.129ASSR [34]SRResNet-1010.6670.7920.1010.3880.7140.125IRSR [28]SRResNet-500.7090.8110.1050.5650.8060.08558880表1. 与4种最先进的显著性排序方法、[ 34]用于比较的4种显著目标检测方法以及我们在第4.2节中使用的8种基线方法的定量比较。我们在第2列和第3列中显示了它们的原始任务和使用的主干网络(即ResNet [ 16 ],VoVNet [ 21 ]和Swin [ 29])。SID,SOD,SIS和SR分别表示显著实例检测,显著目标检测,语义实例分割和显著性排序。带†的方法表示其结果是从原始论文中复制的。-表示由于缺乏公开可用的实现/结果而缺少结果。最佳性能以粗体标记。0方法 原始任务 主干网络 基准数据集和评估指标0ASSR测试集 [ 34 ] IRSR测试集 [ 28 ]0SOR † [ 12 ] SR和SIS(联合学习) VoVNet-39 - 0.841 0.081 - - -0CenterMask [ 21 ] SIS VoVNet-99 0.672 0.813 0.099 0.509 0.771 0.113 SOLO [ 43 ] SIS ResNet-101 0.655 0.805 0.1120.499 0.745 0.126 BlendMask [ 5 ] SIS ResNet-101 0.694 0.822 0.094 0.531 0.785 0.098 Mask R-CNN [ 15 ] SISResNet-101 0.632 0.739 0.123 0.480 0.699 0.137 Mask R-CNN [ 15 ] SIS Swin-L 0.643 0.750 0.118 0.489 0.712 0.128Cascade R-CNN [ 3 ] SIS Swin-L 0.699 0.816 0.100 0.520 0.766 0.105 QueryInst [ 14 ] SIS Swin-L 0.715 0.837 0.095 0.5420.799 0.087 CBNetV2 [ 25 ] SIS Cascaded Swin-L 0.704 0.827 0.101 0.514 0.780 0.091 我们的SR Swin-L 0.738 0.904 0.0780.578 0.834 0.0790表2. SOS和OCOR模块的消融研究。0方法 SA-SOR ↑ SOR ↑ MAE ↓0无SOS,OCOR 0.715 0.837 0.095 无SOS 0.7290.885 0.084 无OCOR 0.722 0.870 0.090 我们的0.738 0.904 0.0780表3. SOS模块的内部分析。0方法 SA-SOR ↑ SOR ↑ MAE ↓0基准 0.715 0.837 0.095 基准 + GCP 0.715 0.8400.092 基准 + DR 0.719 0.857 0.094 基准 + SOS0.722 0.870 0.0900融合特征。表4显示,我们的OCOR模块优于所有这些基线,验证了我们的OCOR模块能够捕捉与对象相关的区域级上下文并构建良好的双向对象-上下文关系。05. 结论0在本文中,我们研究了显著性排序问题。我们观察到人类视觉系统利用空间和基于对象的注意力来处理视觉输入。因此,我们提出了一种双向的对象-上下文优先学习方法来进行显著性排序。我们提出了一个选择性对象显著性模块,通过捕捉和增强对象的语义表示来建模基于对象的注意力。我们提出了一个对象-上下文-对象关系模块,通过研究对象与其区域上下文以及其他对象与其区域上下文的交互来建模空间注意力。大量实验证实了我们的方法相对于最先进的方法的有效性。0表4. 不同建模对象-上下文-对象关系策略的比较。0方法 SA-SOR ↑ SOR ↑ MAE ↓0基线 0.715 0.837 0.095 基线 + S1 0.718 0.8420.092 基线 + S2 0.719 0.845 0.093 基线 + S30.722 0.853 0.090 基线 + S4 0.722 0.857 0.088基线 + OCOR 0.729 0.885 0.0840因此,我们提出了一种双向的对象-上下文优先学习方法来进行显著性排序。我们提出了一个选择性对象显著性模块,通过捕捉和增强对象的语义表示来建模基于对象的注意力。我们提出了一个对象-上下文-对象关系模块,通过研究对象与其区域上下文以及其他对象与其区域上下文的交互来建模空间注意力。大量实验证实了我们的方法相对于最先进的方法的有效性。0我们的工作有一个限制。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Fisher Iris Setosa数据的主成分分析及可视化- Matlab实现
- 深入理解JavaScript类与面向对象编程
- Argspect-0.0.1版本Python包发布与使用说明
- OpenNetAdmin v09.07.15 PHP项目源码下载
- 掌握Node.js: 构建高性能Web服务器与应用程序
- Matlab矢量绘图工具:polarG函数使用详解
- 实现Vue.js中PDF文件的签名显示功能
- 开源项目PSPSolver:资源约束调度问题求解器库
- 探索vwru系统:大众的虚拟现实招聘平台
- 深入理解cJSON:案例与源文件解析
- 多边形扩展算法在MATLAB中的应用与实现
- 用React类组件创建迷你待办事项列表指南
- Python库setuptools-58.5.3助力高效开发
- fmfiles工具:在MATLAB中查找丢失文件并列出错误
- 老枪二级域名系统PHP源码简易版发布
- 探索DOSGUI开源库:C/C++图形界面开发新篇章
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功