没有合适的资源?快使用搜索试试~ 我知道了~
共显著目标检测的民主特征挖掘模型
979民主很重要:基于综合特征挖掘的共显著目标检测四月雨1,2,1 * JiminXiao酒店,张冰峰1,2,林永志11西交利物浦大学,2利物浦大学{思月.于,肖继民,张冰峰,林英奇}@ xjtlu.edu.cn摘要共同显着对象检测,其目标是检测一组图像中共存的显着对象,越来越受欢迎。最近的研究利用注意机制或额外信息来聚合共同的共显特征,导致对目标对象的不完整甚至不正确的反应。在本文中,我们的目标是挖掘与民主的显著共显特征,并在不引入任何额外信息的情况下减少背景干扰为了实现这一点,我们设计了一个民主原型生成模块,以生成民主反应地图,覆盖足够的共显区域,从而涉及(一)(b)第(1)款(c)第(1)款《蝴蝶》共同突出对象的更多共享属性。然后,一个全面的原型的基础上的响应图,可以生成作为指导的最终预测。为了抑制原型中的噪声背景信息,我们提出了一个自对比学习模块,其中形成了正反对,而不依赖于广告分类信息。此外,我们还设计了一个民主特征增强模块,通过调整注意值来进一步增强共显特征。大量的实验表明,我们的模型获得了更好的性能比以前的国家的最先进的方法,特别是在具有挑战性的现实世界的情况下(例如,对于CoCA,在相同设置下,我们获得了MAE的2.0%增益,最大F-测量值的5.4%增益,最大E-测量值的2.3%增益,以及S-测量值的3.7%增益。源代码可在https://github.com/siyueyu/DCFM上获得。1. 介绍共显对象检测(CoSOD)的目的是从一组输入图像中检测出共同的显着对象。与通过模仿人眼来检测最吸引人的物体的显著物体检测(SOD)不同[3,21,*通讯作者1国家自然科学基金项目61972323。980图1.响应图的可视化(a)投入;(b)以前方法产生的反应图[11];(c)我们的。可以看出,我们可以覆盖更多的共同显着的对象。24、27、30、31、36、45],CoSOD专注于检测所有输入图像中显著但共存的对象。在这种情况下,CoSOD面临两个主要挑战:1)减少复杂场景中噪声背景的干扰; 2)挖掘具有大的外观变化的整体共显对象。一些作品引入额外的SOD数据集来提供显着性指导[52,53]或预测显着性图[19],以便掩盖共同显着的对象。然而,这些方法高度依赖于额外的数据集,导致额外的人工努力来提供注释。最近的方法[11,19,49,52]尝试使用注意力机制[39]来加强共同显着特征或建立特征一致性,以制定共同显着对象的共享属性,用于整体预测。然而,当直接将注意力机制应用于该任务时,存在两个主要缺点。一方面,在注意力机制中获得的反映共享属性的响应图只能覆盖属于共显对象的有限像素,如图1所示。1.一、(b). 在这种情况下,模型很难学习共同显着对象的全面共享属性。另一方面,对于复杂场景,注意机制倾向于集中在981错误的对象区域,如图的第二张图片所示。1.一、(b). 一些方法,如GCoNet [11]提出一种通过收集人工负组对的小组协作学习。然而,它们的对是基于辅助分类信息进行分组的,这需要对不同的否定类别对进行分组,因为现实世界中没有自然离散对象类别的明确定义[37]。为了解决上述问题,我们设计了一个新的D-显着特征挖掘框架(DCFM)。该算法不需要额外的SOD数据集或分类信息,直接挖掘出更有竞争力的特征,有效地抑制了背景噪声。具体来说,为了挖掘足够的共显信息,我们首先设计了一个民主原型生成模块(DPG),在那里生成民主反应图,以捕获更多的共享属性。如图1.一、(c),我们的反应地图覆盖更多的共同显着的对象的区域。然后,根据民主反应图生成具有显著共显信息的原型,该原型可以进一步指导模型预测共显对象。接下来,为了抑制噪声背景信息在我们的原型,并避免引入额外的分类信息,我们提出了一个简单的自我对比学习模块(SCL),形成积极和消极的对过滤噪声。我们认为,从原始图像生成的原型应该是一致的,当图像背景区域被擦除时生成的,应该是不同的,当共显对象被擦除时生成的。因此,这些原型之间的自我对比损失的设计,以抑制噪声背景的影响,并帮助模型学习更多的共同显着的对象的判别特征。最后,为了进一步加强从上述模块中检测到的共显特征,我们设计了一个基于注意力机制的民主特征增强模块(DFE)[39]。如前所述,注意力机制倾向于集中在有限数量的相关特征上,这无法提供全面的信息。因此,我们重新调整注意力值,以生成一个民主的注意力地图聚合更多的相关像素的特征增强。总体而言,我们的主要贡献可以概括为:• 设计了民主原型生成模块(DPG),用于构建覆盖足够多共显区域的反应图,从而生成包含全面共享属性的原型,作为共显预测的指导。• 提出了一个自对比学习模块(SCL),以帮助我们的模型减少噪声背景的影响,而不依赖于额外的分类,形成,其中从图像本身生成正样本和负样本。• 民主特征增强模块(DFE)的目的是进一步加强共同显着的功能,通过调整注意力值,涉及更多的相关像素。• 大量的实验表明,我们的方法比最先进的方法表现得更好,特别是在具有挑战性的现实世界的情况下,如CoCA数据集,我们获得了2.0%的增益MAE,5.4%的最大F-措施,2.3%的最大E-措施,和3.7%的S-措施在相同的设置。2. 相关工作2.1. 共显著目标检测CoSOD越来越受欢迎。一些工作建立图来建模来自一组图像的像素之间的关系[15-一些作品采用额外的显着对象检测,首先挖掘显着对象,然后进行CoSOD[19,52,53]。 此外,SAEF [38]建议首先使用基于无监督深度学习的模型生成的显着性建议,然后根据这些建议进行CoSOD。其他作品[11,49,54]试图在输入图像中制定共享属性,以反映共同显着的像素,并使用分类信息作为语义信息的补充。在CoEGNet [9]中,边缘检测用于更好的结构预测。有关CoSOD的更多信息,请参见调查[5,10,47]。虽然这些方法取得了优异的性能,但它们依赖于额外的信息来学习区分性的共显特征。因此,我们考虑在不使用SOD数据集或额外分类信息的情况下,彻底探索共显对象和背景的内在特征以实现CoSOD2.2. 对比学习对比学习在自我监督分类中很普遍。SimCLR [2]研究了对对比学习中的否定对进行分组的重要性。MoCo[14]采用存储体来减少负对不足的影响。此外,对比学习还应用于许多其他任务,如视频接地[28],长尾识别[6],动作识别[34]和视觉定位[37]。然而,如[37]所述,很难为对比学习定义人工否定对,他们使用图像的软分配。在本文中,我们还研究了如何组的积极/消极对没有人为定义的类别在CoSOD。982F∈n=1n=1F×F∈∈∈∈⊤联系我们2.3. 注意机制注意机制在不同的任务中得到了应用它已被应用于机器翻译中,以在输入和输出之间绘制全局关系[39]。它也用于非本地网络中,以处理检测和分段[12,41,42]。此外,A2GNN[46]将其用于弱语义分割中的亲和映射此外,它用于视频对象分割以分割和跟踪目标对象[29,44]。此外,它被部署在指称表达接地[35]和语言-人搜索[23]中。最近,注意机制已被应用于SOD或CoSOD。 MSANet [55]应用注意力机制来挖掘显著特征并抑制背景信息。此外,它还用于CA-FCN [13]和RCAU [22]中,作为CoSOD的共同注意力链接共同显着对象然而,我们发现注意力机制倾向于集中在有限数量的像素上.因此,在本文中,我们尝试将民主引入到注意机制中,以涉及更多的相关像素。3. 方法3.1. 概述CoSOD数据集包括具有la的图像组贝尔斯 每个组表示为G={I,Y},其中3) 然后将原型融合到视觉特征中,并将融合后的特征传输到DFE中进一步增强特征。4) 最后,将增强的特征输入到解码器中以预测对应的共显著图。在接下来的章节中,将分别讨论关于民主原型生成模块、自我对比学习模块和民主特征增强模块的细节。3.2. 民主原型生成模块我们的民主原型生成模块(DPG)主要包括三个部分串联,这是残留块,种子选择块(SSB),民主响应块(DRB)。通 过 特 征 提 取 器 后 , 我 们 得 到 初 始 特 征extRN×C×H×W ( C 、 H 、 W 为 通 道 数 、 高 度 和 宽度),这些初始特征首先由残差块处理,以生成增强的残差特征Fres:Fres=Fext+conv1×1(Fext),(1)其中conv1×1表示1 × 1卷积层,Fres∈RN×C×H×W。I=xnN,Y=y nN,xn是输入图像,yn是对应的标签,N是组G中的图像的总数,并且所有图像都包含相关对象。标签在推理期间不可用该模型需要在同一组的每幅图像中检测出共存的显著对象 在这项工作中,我们的目标是设计一个模型,可以检测到的共同显着的对象,通过彻底探索的共享属性,挖掘全面的共同显着特征,并通过自对比学习抑制噪声背景,而不使用分类信息或额外的SOD数据集。我们的方法和学习过程的框架在图中展示。二、我们的网络有五个主要模块,包括特征提取器、民主原型生成模块(DPG)、自对比学习模块(SCL)、民主特征增强模块(DFE)和解码器。请注意,SCL仅适用于训练,并将在推理期间删除。整个过程可概括为:1) 首先,特征提取器将一组相关图像(N幅图像)编码为初始特征,然后由DPG进行处理以生成综合的共显原型。2) 同时,为了避免在原型中从背景中挖掘噪声信息,我们的SCL被部署用于然后,生成的特征res被传递到SSB选择每个输入图像中的共显对象接下来,通过DRB将所选择的种子与残差特征图相关以产生最后,将响应图与残差特征相乘并平均,生成包含全面共显特征信息并指导后续预测的原型。种子选择块(SSB)。 SSB如图所示。3 .第三章。部署此块以检测每个图像的最具首先,残差特征res被输入到我们的SSB。然后,采用注意力机制,通过两个1 1卷积层得到两个特征图,即KRN×C×H×W和QRN×C×H×W.在对K和Q进行整形以形成RNHW×C之后,每个像素的特征相似性图(S)被计算为:S=KQ,(2)其中SRNHW×NHW,表示转置,并且S的每一行表示N个输入的一个像素与所有像素之间的相似性然后,我们首先将S重塑为SRNHW×N×HW和在每幅图像中选择其最大相似度值,以获得每个像素的N个最大相似度值。该过程计算如下:辅助训练SN-max= maxi=1···HW S[:,:,i],(3)983∈Σ∈2·F∥ ∥图2.我们的网络框架和学习过程。具体而言,该网络包含五个主要部分,包括特征提取器,民主原型生成模块(DPG),自对比学习模块(SCL),民主特征增强模块(DFE)和解码器。请注意,SCL仅在培训期间使用。其中S N-maxRNHW×N。 然后,N个最大相似度值的平均值被视为每个像素的共显概率,N原型,它不能聚合共同显着对象的综合特征。这是因为有限的种子难以表达整体共存对象,尤其是当存在较大的外观变化时1P= N其中P∈RNHW。SN-max[:,n],(4)n=1在群体中。因此,我们试图通过考虑每个像素与来自SSB的种子D然后,概率图被重塑回PRN×H×W。我们可以通过以下方式定位每个图像中概率最高的像素,Max具体地,我们首先在通道维度上使用L2归一化来获得 归 一 化 的 残 差 特 征 和 归 一 化 的 种 子 。 然 后 , 将RNDRND2作为内核,对RNDRND2进行卷积:P= maxh=1,···H P[:,h,w],(5)M=convD2(Fres),(8)w=1,···W其中M表示响应图,convD2是卷积。index=ind(P max),(6)其中ind()表示取出Pmax的索引。最后,我们从样本中提取特征向量,根据Eq.(6)作为最终种子,以D2为核心。由于D具有N个种子向量,响应图的大小在等式之后变为RN ×N ×H×W。(8)、其中信道维度是每个输入的响应映射的数量每个图像的最终民主响应图被计算为N个响应图的平均值:D=Fres(索引)。(七)Mfinal=1mmM[:,n,:,:],(9)请注意,每个图像将提供一个种子向量,总共有N个种子。这些种子可以代表每个输入图像中的共同显着对象的基本特征,并用于定位。民主反应块(DRB)。DRB如图所示。3 .第三章。如果我们直接使用种子D作为民主原型生成模块(DPG)N个输N个输出#$t共享残余块1 ×1Conv⨁c*n/22&是说()*+*平均民主功能增强模块(DFE)#&*P1a$ 总人数 *%Mf+/alSSBDRB…⨀()*+*(…⨀民主原型生成模块(DPG)自我对比损失IoU丢失()*+*0逐元素加法自我对比学习模块(SCL) 逐元素乘法解码器………………特征提取器……984∈Nn=1其中M 为最终RN×H×W。 在这种方式中,更多的像素有机会对响应图做出贡献。最后,通过以下方式生成原型(proto∈R1×C):proto=avg(M最终单位Fres),(10)985*·FFF↓·×12×最大值共享最大概率指数拿出逐元素乘法0K:N×C×H×W1 ×1ℱ0 ℱ1 ℱ2ℱ0ℱ1ℱ2ℱ0…ℱ0专栏Convℱ1 ℱ11 ×1Conv2Q:N×C×H×W...ℱ1ℱ2…ℱ2重塑Maxcon$D2是说...平均12o3o:1 ×C用户编号$:N×C×H ×W联系我们NHW ×NHW++,-(x:NHW×NP:NHWP:N×H × WP-(x#$丁:N ×C男:N× N×H × WM*i/():N×H ×W种子选择区块(SSB)民主回应区块(DRB)图3.种子选择块(SSB)和民主响应块(DRB)的框架。输入是剩余特征。然后,通过SSB首先从残差特征中选择共显种子之后,通过DRB使用所选择的种子和残余特征来产生响应图最终的响应图和输入的残差特征被融合以生成原型。其中,M final被广播到与res相同的大小,表示逐元素乘法,并且avg()表示来自所有输入的所有像素的平均特征向量。3.3. 自我对比学习模块为了进一步帮助DPG抑制背景噪声,在不依赖分类信息的情况下学习判别特征,设计了一个自对比学习模块(SCL)。二、我们的动机是,由原始输入生成的原型(proto)应该与由背景被擦除的输入生成的共显原型(protoc)一致,但不同于由共显对象被擦除的输入生成的背景原型(protob)。注意,这里的输入是来自特征提取器的初始提取特征ext共凸原型和背景原型可以被生成为原c=DPG(FextY↓),(11)原b=ΔDPG(FextΔ(1−Y↓)),(12)其中,“DPG”是DPG过程的缩写,然后,proto和protoc被视为正对,cosb=cos(proto,protob),(15)Lsc=−log(cosc+ω)−log(1−cosb+ω),(16)其中,log是一个小的常数值,确保log()的非零值,并设置为1 10−5。 我们的SCL仅在训练过程中作为辅助损失来应用,以帮助DPG学习更多的区分性共显特征。在推理过程中不使用此部分。3.4. 民主功能增强模块我们设计了一个民主的特征增强模块(DFE),以进一步加强从DPG融合的共同显着的功能,最终的预测。我们的DFE基于注意力机制[39]。我们观察到传统的注意力[39]倾向于关注有限数量的相关像素。因此,我们认为,在这种情况下,民主也很重要,更多的像素应该参与增强融合的功能。因此,我们尝试放大小的正atten- tion值,以涉及更多的像素进行特征增强。这里不考虑负注意力值,因为它们通常代表不相关性。首先,我们生成的融合功能使用的指导下的响应地图和来自方程的原型。(9)和Eq。(10)在DPG中,最终而Proto和ProtoB被视为负对。自我对比的损失是为了把积极的一面聚集在一起Ffused=FresM+Fresearchproto,(17)配对并推开负对。首先,我们通过以下方式定义原型之间的余弦样式相似性:cos(p,p)=(1+p1·p2)0. 五、(十三)|p|p2| p 2|之后,自我对比损失被定义为…………………………986FF×cosc=cos(proto,protoc),(14)其中Mfinal和proto都广播到大小一样。因此,Eq.(17)包含特定属性和共享属性。每个输入图像的融合特征被我们的DFE单独和独立地增强。如图4,将对应的融合输入到11卷积层,然后进行ReLU激活以首先获得Fconv∈RC×H×W。之后,键、查询和987F∈F ∈F ∈××××∈⊤A=1,else,(19)FFF最终C× H× Wfu*#)Conv(3/4)关键帧转换×查询转换价值转换HW ×HWSoftmax1R⨀1/31其中Y表示预测,Y表示地面实况。最后的目标函数是其中λ是平衡IoU损失和自对比损失。×⨁编号/51&号1例女性+/alR重新调整×矩阵乘法Element-wise addit io nElem ent-wise mult iplicat io n4. 实验4.1. 实现细节我们使用特征金字塔网络(FPN)[25]和VGG-16[33]作为我们的骨干。方程中的超参数α(19)是3,λ在方程中。(23)为0.1。另外,我们使用亚当[20]C×H × W图4.民主功能增强模块的流程聊天。应用值卷积,然后重新整形以生成KRHW×C,QRHW×C和vRHW×C。然后,初始注意力图(A)可以通过下式计算:A=FF,(18)Q作为我们的优化器来训练我们的模型200个epoch。特征提取器的学习率设置为110−5110-4其他部分。 权重衰减设置为1 10−4。在每一集训练中,我们随机选择一组(16相关图片。对于推理,一次输入每组中的所有样本。对于训练和推理,输入被调整大小为224 224。Eq.(2)是O((NHW)2),并且等式(1)(十八)K是O((HW)2)。FLOP的增量很小,因为其中 RHW×HW和意思是转置。接下来,将softmax应用于A以获得归一化的注意力图(A范数)。此外,以降序对初始关注度图A进行排序以生成排序索引矩阵(Z)。当我们采用降序时,小的注意力值被分配给大的排序索引。然后,我们应用下面的公式来放大小的积极注意力值,输入大小很小。总训练时间在3小时左右推理时间约为84.4fps。所有实验均在NVIDIA GeForceRTX 2080 Ti上运行。4.2. 数据集和评估指标数据集。我们使用COCO-SEG [40],这是COCO数据集[26]的一个子集,其中包含来自65组的9,213张图像用于训练。我们评估我们的方法对三个popu-rei,j. (Zi,j+1)α,若Ai,j>0最大CoSOD基准测试:CoCA [54]、Cosal2015 [48]和CoSOD3k [10]。CoCA和CoSOD3k被提出用于挑战现实世界的共显着性评估,包括其中Are表示用于重新调整注意力的权重α是确定放大程度的系数,i和j是空间指数。然后,通过以下方式计算最终的注意力图:Afinal=AnormAre,(20)某些图像中的多个共同显著的对象、大的外观和尺度变化以及复杂的背景杂波。Cosal2015是一个广泛使用的大型数据集。评估指标。评估指标包括平均绝对误差(MAE)[4], 最大F测度(Fmax)[1],最大E-测量(Emax)[8]和S-最后的增强特征可以通过β-ε来计算Fenh=Fconv+AFv, (21)其中A finalv的结果首先被重新整形为与conv相同的大小。最后,将增强特征enh传输到解码器中以预测对应的共显著图。3.5.目标函数用于训练的目标函数是IoU损失[32,53]和等式中的自对比损失的组合。(十六)、IoU损失可以示为[7]《易经》中的易经。具体而言,MAE的值是越小越好而其他人则是越大越好。4.3. 与最新技术水平的比较方法。 我们主要与以前在常见的单个CoSOD训练数据集上训练的最先进的方法进行比较,包括CSMG[50] , GCAGC [51] , CoEGNet [9] , GICD [54] ,GCoNet [11],[49 ]第四十九章.我们还列出了在CoSOD数据集和SOD数据集上训练的几种方法,例如CADC [52],ICNet[19]和CoADNet [53]。988IOUN我的天定量比较。在选项卡中。1、我们列出了我们和以前国家L=1−1YY,(22)艺术方法。可以看出,我们的方法达到了989↑↓表1. 在3个基准上与其他最先进的方法进行比较。表示越大越好,表示越小越好。‘SOD’ denotestraining with extra SOD方法SODMAE↓古柯F max↑Emax↑β ξSα↑MAE↓CoSOD3kF max↑Emax↑β ξSα↑MAE↓Cosal2015Fmax↑βEmax↑ξSα↑ICNet [19](NeurIPS20)✓0.1480.5060.6980.6510.0970.7440.8320.7800.0580.8550.9000.856CADC [52](ICCV21)✓0.1320.5480.7440.6810.0960.7590.8400.8010.0640.8620.9060.866CoADNet [53](NeurIPS20)✓----0.0700.825-0.8370.0640.875-0.861CSMG [50](CVPR 19)0.1240.5030.7340.6320.1570.6450.7230.7110.1300.7770.8180.774GCAGC [51](CVPR20)0.1110.5230.7540.6690.1000.7400.8160.7850.0850.8130.8660.817CoEGNet [9](TPAMI21)0.1060.4930.7170.6120.0920.7360.8250.7620.0770.8320.8820.836GICD [54](ECCV 20)0.1260.5130.7150.6580.0790.7700.8480.7970.0710.8440.8870.844[49]第四十九章:你是谁?0.1020.5520.7710.6880.0890.7560.8380.7920.0640.8420.8920.854GCoNet [11](CVPR21)0.1050.5440.7600.6730.0710.7770.8600.8020.0680.8470.8870.845DCFM(我们的)0.0850.5980.7830.7100.0670.8050.8740.8100.0670.8560.8920.838‘Strawberry’‘Soap bubble’图像GTDCFM(我们的)GCoNetCoEGNetGICDGCAGCCSMG图5.与其他先进方法的定性比较。实验结果表明,与其他方法相比,该方法可以预测出更平滑的共显着图,同时具有更少的背景噪声。更多内容可在我们的补充材料中找到。与相同设置下的其他方法相比,具有新的最先进性能。具体来说,对于两个具有挑战性的真实世界数据集CoCA和CoSOD3k,例如,对于CoCA,与GCoNet[11] 相 比 , 我 们 获 得 了 MAE 的 2.0% 增 益 , 最 大 F-measure的5.4%增益,最大E-measure的2.3%增益和S-measure的3.7%增益。此外,我们的方法甚至可以在这两个数据集上使用额外的SOD数据集进行训练,例如ICNet [19]和CADC [52]。对于Cosal 2015,我们的方法获得了与DeepACG [49]和GCoNet [11]相当的结果。这种现象可能是由于Deep-ACG [49]和GCoNet [11]都使用额外的分类信息来提供结构信息,而我们的方法不依赖于任何额外的信息。定性比较。我们还报告了一些定性比较与国家的最先进的方法图。五、这些组来自CoCA数据集。可以发现,我们的模型可以预测更多的整体和更少的噪声共显着性与其他地图相比。具体来说,当一幅图像中有多个共同显着的对象时,如“草莓”组,在“肥皂泡”组当背景噪声水平较高时,例如“怀表”组,与GCoNet [ 11 ]和GICD [ 54 ]相比,我们的预测包含较少的4.4. 消融研究我们在CoCA数据集上进行了我们方法的消融研究,每次添加一个模块,并将删除所有模块的网络作为基线。结果见表。二、可以发现,每个提出的模块贡献很大。使用我们的DPG,MAE的性能可提高3.2%,最大F-测量值可提高5.4%,最大E-测量值可提高2.8%,S-测量值可提高4.1%我们的SCL可进一步改善1.0%990表2.我们提出的模块的消融研究 表示基线。我们的整体方法获得了最好的结果。基地DPGSCLDfEMAE↓Fmax↑βEmax↑ξSα↑1234✓✓✓✓✓✓✓✓✓✓0.1290.0970.0870.0850.5210.5750.5920.5980.7350.7630.7750.7830.6550.6960.7010.710表3.DPG中不同部件的消融研究 整个过程获得最佳性能。RBSSBDRBMAE↓Fmax↑βEmax↑ξSα↑10.1290.5210.7350.6552✓0.1240.5270.7450.65934✓✓✓✓✓0.1260.0970.5270.5750.7390.7630.657零点六九六表4. Eq.中不同部件的消融研究(16)沙中线。‘cos不使用DFE。cosccosbMAE↓Fmax↑βEmax↑ξSα↑10.0970.5750.7630.69623✓✓0.0930.0950.5740.5830.7640.7730.6950.6974✓✓0.0870.5920.7750.701MAE的最大F-测度为1.7%,最大E-测度为1.2%,S-测度为0.5%。此外 ,我们的模 型与DFE 达到0.085的MAE,0.598的最大F-措施,0.783的最大E-措施,0.710的S-措施。新的国家的最先进的性能时,获得所有的模块都包括在内。民主原型生成模块的影响我们的DPG的每个块的评估列于表。3 .第三章。实验是通过一次添加一个块来进行的与基线(第1行)相比,DPG的每个部分都对最终结果进行了投票。具体地,如果我们仅使用RB和SSB,其中我们将种子的平均值作为原型类型,则结果甚至低于没有SSB的情况,比较第2行和第3行。另一方面,使用DRB,与第3行和第4行相比,MAE的结果将增加2.9%,最大F-测量值将增加4.8%,最大E-测量值将增加2.4%,S-测量值将增加3.9%这个现象可以证明民主是重要的。更多的共同显着的像素应注册的综合原型。自我对比学习模块的影响 我们还评估了我们的自我对比损失中的两个主要部分,如表1所示。4.第一章我们通过每次移除一个部分来进行这个实验可以看出,只有正对cosc,通过比较第1行和第2行,我们可以得到相当的结果。表5.消融研究以重新调整DFE。‘w/o DFE’ de- notes not usingDFE, ‘w/o RA’ denotes using DFE without read- justment and‘w/ RA’ denotes using DFE withMAE↓Fmax↑Emax↑Sα↑β ξ1不含DFE0.0870.5920.7750.7012无RA0.1000.5670.7690.6913带RA0.0850.5980.7830.710通过比较第1行和第3行,只有负对cosb时,性能明显提高。这一现象证明了负对去除背景噪声的重要性然而,通过比较第3行和第4行,具有正对和负对的对比学习促进了平衡训练以获得更高的结果。更多的分析可以在我们的补充材料中找到。民主功能增强模块的影响我们还对Tab中注意值的调整进行了实验。五、当去除重新调整但在我们的DFE中使用常规注意力时,性能甚至比没有我们的DFE的情况更差,如行1和2所示因此,民主在这个模块中也很重要。传统的关注机制只关注有限的像素点,不能为解码器提供足够的信息,而需要更多的相关像素点。5. 结论在本文中,我们提出了一种新的方法,不使用SOD数据集和分类信息的CoSOD。我们设计了一个民主原型生成模块(DPG),首先建立民主反应地图,以生成一个全面的原型,作为进一步预测的指导。此外,为了帮助抑制原型中的噪声背景信息,我们设计了一个自对比学习模块(SCL),其中正负对都是从图像本身生成的,而不依赖于分类信息。此外,我们还设计了一个民主特征增强模块(DFE)来增强DPG中的共显特征,以用于最终的预测。我们的DPG和DFE都表明民主确实很重要。为了挖掘CoSOD的综合特征,需要更多的相关像素。991引用[1] Radhakrishna Achanta , Sheila Hemami , FranciscoEstrada,and Sabine Susstrunk.频率调谐显著区域检测。在IEEE Conf. Comput.目视模式识别,2009年。6[2] 陈婷,西蒙·科恩布里斯,穆罕默德·诺鲁齐,和葛offrey Hinton.视觉表征对比学习的一个简单框架。在马赫国际会议上。学习. ,2020年。2[3] Zuyao Chen , Qianqian Xu , Runmin Cong , andQingming Huang.用于显著对象检测的全局上下文感知渐进聚合网络。在AAAI,2020年。1[4] Ming-Ming Cheng,Jonathan Warrell,Wen-Yan Lin ,Shuai Zheng,Vibhav Vineet,and Nigel Crook.基于软图像抽象的高效显著区域检测 在Int. Conf.Comput.目视,2013年。6[5] Runmin Cong , Jianjun Lei , Huazhu Fu , Ming-MingCheng,Weisi Lin,and Qingming Huang.综合信息的视觉显著性检测综述 IEEE Trans. 循环系统视频技术,29(10):2941-2959,2018. 2[6] Jiequan Cui,Zhisheng Zhong,Shu Liu,Bei Yu,andJiaya Jia.参数对比学习。在国际会议中Comput.目视,2021年。2[7] Deng-Ping Fan,Ming-Ming Cheng,Yun Liu,Tao Li,and Ali Borji.结构-措施:一种新的方法来评估前景地图。在国际会议计算中目视,2017年。6[8] Deng-Ping Fan , Cheng Gong , Yang Cao , Bo Ren ,Ming-Ming Cheng,and Ali Borji.二进制前景图评估的增强对准措施。在IJCAI,2019年。6[9] 范登平,李腾鹏,郑林,纪格鹏,张鼎文,程明明,傅华珠,沈建兵。重新思考共显对象检测。arXiv预印本,2020年。二六七[10] Deng-Ping Fan , Zheng Lin , Ge-Peng Ji , DingwenZhang,Huazhu Fu,and Ming-Ming Cheng.深入了解共同显着对象检测。在IEEE Conf. Comput. 目视模式识别,2020年。二、六[11] Qi Fan,Deng-Ping Fan,Huazhu Fu,Chi-Keung Tang,Ling Shao,and Yu-Wing Tai.群体协作学习在共显目标检测中的应用。在IEEE Conf. Comput.目视模式识别,2021年。一、二、六、七[12] Jun Fu , Jing Liu , Haijie Tian , Yong Li , YongjunBao,Zhivei Fang,and Hanqing Lu.用于场景分割的双注意网络。在IEEE Conf. Comput.目视模式识别,2019年。3[13] Guangshuai Gao , Wenting Zhao , Qingjie Liu , andYunhong Wang.基于共同注意全卷积网络的共同显著性检测。IEEE传输电路系统视频技术,31(3):877-889,2020. 3[14] Kaiming He,Haoqi Fan,Yuxin Wu,Saining Xie,andRoss Girshick.用于无监督视觉表示学习的动量对比。在IEEE Conf. Comput.目视模式识别,2020年。2[15] 胡荣华,邓振云,朱晓峰基于多尺度图融合的共显著性检测。在AAAI,2021年。2[16] 江波,江星月,唐锦,罗斌通过通用优化模型和自适应的图 学 习 IEEE Trans. Multimedia , 23 : 3193-3202 ,2021。2[17] 姜波,姜星月,唐金,罗斌,黄石磊。用于共显着性检测的多图卷积网络。 在Int. Conf. 多媒体和博览会,2019年。2[18] Bo Jiang,Xingyue Jiang,Ajian Zhou,Jin Tang,andBin Luo.用于共显性估计的统一多重图学习和卷积ACM国际会议多媒体,2019年。2[19] Wen-Da Jin,Jun Xu,Ming-Ming Cheng,Yi Zhang,and Wei Guo.用于共显着性检测的显着性内相关网络。在高级神经信息。过程系统,2020年。一、二、六、七[20] Diederik P Kingma和Jimmy Ba。亚当:随机优化的一种方法。在国际会议学习中。代表。,2014年。6[21] Aixuan Li,Jing Zhang,Yunqiu Lv,Bowen Liu,TongZhang,and Yuchao Dai.不确定性感知的显著目标和隐藏目标联合检测。 在IEEE Conf. Comput. 目视模式识别,2021年。1[22] 李波、孙正兴、唐吕、孙云汉、石金龙。基于递归共同注意神经网络的鲁棒共同显著性在IJCAI,2019年。3[23] Hui Li,Jimin Xiao,Mingjie Sun,Eng Gee Lim,andYao Zhao.基于Transformer的多区域切片语言人搜索。IEEE Trans. 电路系统视频技术,2021年。3[24] 李佳,苏金明,夏昌群,马明灿,田永红。具有净化机制与结构相似性损失的显著目标侦测。IEEE传输图像处理。,30:6855-6868,2021. 1[25] 林宗义、彼得·多尔、罗斯·格希克、何启明、巴拉特·哈里哈兰和塞尔日·贝隆吉.用于对象检测的特征金字塔网络 在IEEE会议Comput. 目视模式识别,2017年。6[26] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco:在上下文中常见的对象。以Eur.确认补偿目视,2014年。6[27] Yun Liu,Xin-Yu Zhang,Jia-Wang Bian,Le Zhang,and Ming-Ming Cheng. Samnet:用于轻量级显著对象检测的立体关注多尺度网络。IEEE传输图像处理。,30:3804-3814,2021. 1[28] Guoshun Nan,Rui Qiao,Yao Xiao,Jun Liu,SicongLeng,Hao Zhang,and Wei Lu.双对比学习的介入视频基础。在IEEE Conf. Comput. 目视模式识别,2021年。2[29] Seoung Wug Oh,Joon-Young Lee,Ning Xu,and SeonJoo Kim.使用时空记忆网络的视频对象分割。在国际会议计算中目视,2019年。3[30] Youwei Pang,Xiaoqi Zhao,Lihe Zhang,and HuchuanLu.用于显著对象检测的多尺度交互式网络。在IEEE会议Comput. 目视模式识别,2020年。1[31] Yongri Piao,Jian Wang,Miao Zhang,and Huchuan Lu.用于弱监督显著目
下载后可阅读完整内容,剩余1页未读,立即下载
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功