没有合适的资源?快使用搜索试试~ 我知道了~
41360MFNet:用于弱监督显著目标检测的多滤波器指导网络0Yongri Piao 1 * Jian Wang 1 � Miao Zhang 1,2 † Huchuan Lu 1,301 大连理工大学,中国 2辽宁省普适网络与服务软件重点实验室,大连理工大学,中国 3 鹏城实验室0{ yrpiao, miaozhang, lhchuan } @dlut.edu.cn { dlyimi } @mail.dlut.edu.cn0摘要0弱监督显著目标检测(WSOD)旨在仅使用低成本注释训练基于CNN的显著性网络。现有的WSOD方法采用各种技术从低成本注释中追求单个“高质量”伪标签,然后开发其显著性网络。尽管这些方法取得了良好的性能,但生成的单个标签不可避免地受到采用的精炼算法的影响,并显示出偏见特征,进一步影响显著性网络。在这项工作中,我们引入了一个新的多伪标签框架,以集成来自多个标签的更全面和准确的显著性线索,避免了上述问题。具体而言,我们提出了一个多滤波器指导网络(MFNet),包括一个显著性网络和多个指导滤波器。指导滤波器(DF)旨在从嘈杂的伪标签中提取和过滤更准确的显著性线索。来自多个DF的多个准确线索随后通过多引导损失同时传播到显著性网络中。对四个指标的五个数据集进行的大量实验证明了我们的方法优于所有现有的同类方法。此外,值得注意的是,我们的框架足够灵活,可以应用于现有的方法并改善其性能。我们的方法的代码和结果可在https://github.com/OIPLab-DUT/MFNet上获得。01. 引言0随着卷积神经网络(CNN)[16]的出现,基于CNN的许多显著目标检测(SOD)方法[31,22,32,41]已被提出。0* 同等贡献 † 通讯作者0图像CAM Y1 Y2 真值0图1.不同的精炼算法在类激活图(CAM)上合成的不同伪标签,其中Y1和Y2分别表示像素级[4]和超像素级[29]精炼算法生成的伪标签。0并打破了记录。然而,这些基于CNN的SOD方法严重依赖于具有像素级注释的大量手工标注数据,这是一项费时费力的工作[39]。由于像素级注释的标注成本较高,一些有希望的工作已经提出探索其他低成本的替代方案,包括涂鸦[38,35]和图像级别类别标签[36,29,17]。其中,基于类别标签的方法只需要用于训练的类别标签,并且已经给出了大量的对象类别存在的标签(例如ImageNet[5])。因此,在本文中,我们将重点放在基于图像级别类别标签的显著目标检测(WSOD1)上。以前关于WSOD的工作提出了各种技术,例如全局平滑池化[29],多源监督[36]和交替优化[17],以追求用于训练其显著性网络的单个“高质量”伪标签。尽管这些工作取得了良好的性能,但生成的单个“高质量”伪标签通常陷入其偏见特征中,这是由于不同的采用的精炼算法。例如,不完整的缺陷(图1中的第3列)和多余的噪声(图1中的第4列)。我们提出利用多个伪标签建立一个更稳健的框架,并避免来自单个偏见标签的负面影响。首先,我们采用两种不同的精炼算法,包括像素级算法[4]和超像素级算法[29],来合成两个不同的伪标签。这两种算法都利用RGB图像中丰富的外观信息对类激活图(CAMs)[43]进行精炼。像素级算法将每个像素视为单位,以其类激活分数为线索,然后推断其相邻像素的分数,而超像素级算法将超像素视为其操作单位。因此,合成的伪标签Y1(来自像素级算法)和Y2(来自超像素级算法)描述了不同的特征。如图1所示,Y1提供了更好的详细信息,但通常陷入不完整性,而Y2可以涵盖更完整的对象,但引入了更多的额外噪声信息。这些观察结果驱使我们探索如何从多个伪标签中提取和整合更全面和稳健的显著性线索。本文的核心思想是充分挖掘多个伪标签中的全面显著性线索,并避免单个标签的偏见。具体而言,对于多个伪标签,我们1)从多个嘈杂标签中提取丰富准确的多个显著性线索,2)进行整合并将整合的多个线索传播到显著性网络中。具体而言,我们的贡献如下:0为了方便起见,在本文中,我们将基于图像级别类别标签的方法称为WSOD。gle ”high-quality” pseudo label for training their saliencynetworks. Though these works have achieved good perfor-mance, the generated single ”high-quality” pseudo label isusually trapped by its prejudiced characteristics due to thedifferent adopted refinement algorithms. For example, theincomplete deficiency (3rd column in Figure 1) and redun-dant noise (4th column in Figure 1).Instead of pursuing single ”high-quality” pseudo labels,we propose to utilize multiple pseudo labels to establisha more robust framework and avoid the negative impactsfrom the single prejudiced label. To begin with, we adopttwo different refinement algorithms, including a pixel-wiseone [4] and a superpixel-wise one [29], to synthesize twodifferent pseudo labels. Both of these two algorithms uti-lize abundant appearance information in RGB images toperform refinement for class activation maps (CAMs) [43].The pixel-wise one treats each individual pixel as units,takes its class activation score as clues and then infers itsneighbor pixels’ scores, while the superpixel-wise one takessuperpixels as its operation units. As a result, the synthe-sized pseudo labels Y1 (from pixel-wise algorithm) and Y2(from superpixel-wise algorithm) describe different charac-teristics. As is shown in Figure 1, Y1 provides better de-tailed information, but is usually trapped in incompleteness,while Y2 can cover more complete objects but introducesmore extra noisy information. These observations drive usto explore how to extract and integrate more comprehensiveand robust saliency cues from multiple pseudo labels.The core insight of this work is to adequately excavatethe comprehensive saliency cues in multiple pseudo labelsand avoid the prejudice of the single label. To be specific,for multiple pseudo labels, we 1) extract abundant accuratemultiple saliency cues from multiple noisy labels, and 2)perform integration and propagate the integrated multiplecues to the saliency network. Concretely, our contributionsare as follows:41370•我们设计了一个多滤波器指令网络(MFNet),其中提出了多个指令滤波器和多重指导损失,分别从多个伪标签中提取和整合多个显著性线索。0•我们还将所提出的框架扩展到现有方法MSW[36]上,并通过在ECSSD数据集上F ωβ指标上取得了9.1%的改进,证明了其有效性。0•我们引入了一个新的框架来利用多个伪标签进行弱监督显著目标检测,该框架利用多个标签中更全面和稳健的显著性线索,避免了单一标签的负面影响。02.1. 显著目标检测02.2. 弱监督显著目标检测02. 相关工作0共享编码器0早期的显著目标检测(SOD)研究主要利用手工特征来分割最显著的目标,例如边界先验[34]、中心先验[12]等[44,13]。最近,基于CNN的方法由于CNN在提取信息特征方面的强大能力,取得了性能的质的飞跃。提出了各种有效的架构[22, 41, 30, 24,23]来增强显著性网络的性能,其中Liu等人[22]提出了一种深层次的显著性网络,可以同时学习强大的特征表示、信息丰富的显著性线索以及它们在全局视图中的最佳组合机制。随着注意机制的发展,一些有希望的工作[32, 27,40]被提出来引入各种注意模块来改进显著性网络,在其中Wu等人[32]引入了级联部分解码器框架,利用生成的相对精确的注意力图来改进高层特征,提高性能。近年来,边界信息受到了很大的重视,许多工作[21, 28,42]提出探索显著目标的边界以预测更详细的预测。在[28]中,Su等人提出了一种有效的交叉细化单元(CRU),在显著目标检测和边缘检测的两个任务之间双向传递信息。尽管这些方法取得了有希望的改进,但是训练这些模型需要大量的像素级注释,这是非常昂贵的。FilterLc(S, Yc) = − 1C ∗C�i=1yci ∗ log((1 + exp(−si))−1)+ (1 − yci) ∗ log(exp(−si)1 + exp( si)),(2)41380伪标签0多个伪标签0CAMs M0滤波器0指令0指令0滤波器0多指令0滤波器0码器0网络0CUSCU0CUC0CUC0指令滤波器0连接0CCS0显著性解码器0CUC0CUCU0CC0Sigmoid函数0上采样(×2)0多引导损失0标签监督0RGB图像信息流0多滤波器指令0网络(MFNet)0图2.我们提出方法的整体框架。类激活图(CAMs)[43]是由经过训练的图像分类网络推断得到的,基于它合成多个伪标签。所提出的MFNet包括两个指令滤波器和一个普通的编码器-解码器显著性网络。显著性解码器和指令滤波器的架构如右侧所示,其中显著性解码器的三个输入表示共享编码器的第3、第4和第5个卷积块的特征。0在各种监督中引入了多源信息,此外,提出了一种注意力传输损失来在网络之间传递监督信号,并提出了一种注意力一致性损失来鼓励网络检测普遍显著的区域。由于多源弱监督中存在丰富的显著性信息,[36]取得了显著的改进。然而,多源框架只集成了丰富的信息生成单个伪标签,导致多源信息无法明确传播到显著性网络。总之,上述先前的工作旨在追求单个“高质量”的伪标签,然后在其上开发显著性网络。0与前述工作不同,我们认为图像级别类别标签中的显著性线索可以被不同地挖掘以合成多个伪标签。在这些多个标签上开发的显著性网络可以更加稳健,并避免单个标签的偏见影响。03. 提出的方法0为了挖掘多个伪标签中的综合显著性线索,我们提出了多伪标签框架。如图2所示,所提出的框架可以分为两个部分:1)在给定现有的图像级分类数据集的训练图像上合成多个像素级伪标签;2)使用生成的多个标签开发所提出的多滤波器指令网络(MFNet)。本节中,我们将简要介绍第一部分,然后详细描述第二部分。03.1. 合成多个伪标签0基于图像分类网络,类激活图(CAMs)[43]建立了从图像级别的类别标签到像素级伪标签的桥梁,在弱监督分割任务中起着至关重要的作用。与[36,29]类似,我们采用ImageNet数据集[5]作为训练集,以保证公平性。对于一个图像分类网络,我们用全局平均池化(GAP)[20]层替换全连接层,并添加一个额外的卷积层。GAP层鼓励分类网络识别对象的更完整范围。分类得分S的计算公式如下:0S = conv(GAP(F5)), (1)0其中,conv(∙)表示新添加的卷积层,F5表示分类网络的最后一个卷积块的特征。在这个训练阶段,分类损失Lc如下所示:0其中,C表示类别的总数,yci和si分别表示类别标签Yc的元素和计算的分类分数S。在完成分类网络的训练阶段后,我们固定学习到的参数,并对DUTS-Train数据集[29]的RGB图像进行推理,生成类激活图(CAMs)M,具体如下:M =C�i=1norm(relu(conv(F5)i)) ∗ si,(3)(4)(5)41390其中,conv(∙)是上述新增的卷积层,relu(∙)表示relu激活函数,norm(∙)表示将CAMs中的元素归一化到[0,1]的归一化函数。如上所述,我们在CAMs上采用像素级和超像素级算法进行细化。像素级细化[4]将CAMs中的单个像素的类激活分数作为种子,并使用RGB外观信息推断其邻居像素的分数。另一方面,超像素级细化首先使用聚类算法SLIC[2]将RGB图像中的像素聚类成超像素,然后对超像素进行类似的细化。与之前的工作[36,29,17]一样,我们还采用CRF[15]进行进一步的细化,这在弱监督方法中被广泛接受。03.2. 多滤波器指导网络0如上所述,从不同的细化中合成的伪标签描述了不同的特征,而基于单个标签开发的显著性网络不可避免地受到其有偏特征的影响。因此,我们的目标是探索如何有效利用多个伪标签中丰富而全面的显著性线索。一种利用多个线索的直接方法是设计一个双解码器架构,如图5(b)所示,引入两个解码器分别从两个不同的伪标签中学习显著性线索。同时采用互相引导损失来整合多个显著性线索。在这种情况下,我们将双解码器的平均预测作为最终的显著性预测。然而,在这种直接方法中,有偏伪标签中存在的噪声信息可能直接传播到显著性网络中,产生负面影响。为了解决上述问题,我们提出了一个多滤波器指导网络(MFNet),以有效地整合来自多个伪标签的过滤线索。具体而言,我们首先设计了一个指导滤波器(DF)来从伪标签中提取和过滤更准确的显著性线索。所提出的指导滤波器的架构如图2所示。它以共享编码器的特征作为输入,并通过几个卷积层从伪标签中提取显著性线索。正如[9,4,26,8]所指出的,卷积神经网络对噪声标签具有良好的鲁棒性。因此,伪标签中的不准确显著性线索可以通过DF中的卷积层逐渐纠正。如图3所示,伪标签中的额外噪声和不完整缺陷逐步被纠正,并通过卷积提取更具体的显著性线索。0图像伪标签(a)(b)(c)0图3. 指导滤波器F1的可视化。(a)和(b)表示指导滤波器的第2个和第4个卷积层的特征图,(c)表示F1的预测P1。0为了有效利用和整合来自多个伪标签的综合显著性线索,我们设计了所提出的MFNet,如图2所示。首先,我们引入两个指导滤波器F1和F2,分别从伪标签Y1和Y2中过滤和提取准确的显著性线索。为了给不同的伪标签赋予相同的重要性,我们为两个指导滤波器设置相同的设置。F1和F2的相应训练损失L1和L2计算如下:0Lk(Pk, Yk) = - �0i yki * log pki - (1 - yki) *0log(1 - pki), k = 1, 2,0其中pki和yki分别表示指令滤波器预测Pk的元素和其伪标签Yk。其次,我们通过多向导损失Lmg同时将这些滤波后的准确线索传播到显著性解码器中,可以描述如下:0Lmg(Ps, Ys) = - �0i (1 - yi) * log(1 - psi)0- yi * log psi,0其中psi是显著性解码器预测Ps的元素。Ys是上述像素级细化之后的指令滤波器的平均预测[4],yi是其元素。此外,我们采用两个指令滤波器之间的自监督策略,旨在鼓励两个滤波器从不同的伪标签中提取类似的显著性线索。其内在原理是从不同的伪标签中学习到的共同显著性线索描述了更准确和真实的显著性信息。这种自监督项的损失Lss定义如下:0Lss(P1, P2) = - �0i (p1i - p2i)2. (6)41400提出的MFNet的最终损失函数L由上述损失函数的组合给出:0L = L1 + L2 + Lmg + δLss,(7)0其中δ是一个超参数,用于控制自监督项的权重。显著性网络的架构如图2所示。我们采用了一个简单的编码器-解码器框架,通常作为SOD中的基线网络。它将编码器的第3、4和5个卷积块的三个特征作为输入,并进行多尺度自底向上聚合[41]。显著性解码器的预测Ps是我们的最终预测。在测试阶段,我们只保留显著性网络,舍弃多个指令滤波器以加速。04. 实验04.1. 实现细节0我们在Pytorch工具箱上使用RTX 2080TiGPU进行方法实验。我们的方法中的共享编码器基于DenseNet-169 [11]设计,与最新的工作MSW[36]相同。在分类网络的训练阶段,我们采用Adam优化算法[14],将学习率和最大迭代次数分别设置为1e-4和20000。在推理阶段,我们使用多推理策略生成CAMs,遵循[3]的设置。具体来说,输入图像被翻转并调整为四个尺度。最终的映射是相应八个CAM的平均值。对于显著性网络,我们只使用DUTS-Train数据集[29]的RGB图像和生成的伪标签进行训练。在这个阶段,我们也采用Adam优化算法,并将学习率和最大迭代次数分别设置为3e-6和26000。所有训练图像都被调整为256×256,并且新添加的层的参数由Xavier算法[10]初始化。源代码将在发表后发布。04.2. 数据集和评估指标0在之前的工作[29,36]的基础上,为了公平起见,我们采用ImageNet[5]和DUTS-Train数据集[29]作为分类网络和提出的MFNet的训练集。我们在五个广泛采用的数据集上测试我们的方法:ECSSD [33],DUTS-Test [29],HKU-IS[18],DUT-OMRON [34]和PASCAL-S[19]。ECSSD包含1000张不同大小的图像,其中有明显的显著对象。DUTS-Test包含5019个具有各种挑战性场景的样本。HKU-IS包含4447张具有多个对象场景的图像。DUT-OMRON包含5168张具有复杂结构的图像。0和轮廓。PASCAL-S包括850个样本,由8个受试者在眼动测试中进行注释。为了全面比较,我们采用了四个公认的指标,包括S-measure [6]、E-measure [7]、F-measure[1]以及平均绝对误差(MAE),来评估我们的方法。具体而言,S-measure侧重于评估显著性图像的结构信息,并评估显著性图像与真实值之间的区域感知和对象感知结构相似性。E-measure更加重视全局和局部信息的统一。此外,F-measure是平均精度和平均召回率的调和平均值,而MAE评估了显著性图像与真实值之间的平均差异。04.3. 与现有技术的比较0我们将我们的方法标记为MFNet,与现有的基于图像级别类别标签的WSOD方法进行比较:WSS [29]、ASMO[17]和MSW[36]。定量和定性结果在表1和图4中进行了说明。为了公平比较,我们从作者那里获取了这些方法的显著性图像,并对所有方法进行了相同的评估。0定量评估。表1显示了五个数据集上的定量结果。可以看出,除了DUT-OMRON数据集上的S-measure之外,我们的方法在几乎所有指标上都优于以前的方法。值得注意的是,我们的方法的F-measure在PASCAL-S(0.751对0.713)、HKU-IS(0.851对0.814)和DUT-Test(0.710对0.684)上的结果明显优于第二好的结果。MAE指标的改进进一步证明了我们方法的优越性。特别是,在HKU-IS数据集上的改进达到了29.7%,在DUT-OMRON数据集上的改进达到了20.2%。此外,从更深层次来看,先前的工作ASMO[17]在具有挑战性的DUT-OMRON数据集上取得了更好的性能,而WSS [29]和MSW[36]在其他数据集上显示出更大的优势。这是因为前者使用传统的SOD方法MB+[37]进行细化和生成伪标签,而后者利用了前面提到的基于超像素的细化方法。这表明来自不同细化算法的偏见单一伪标签确实会导致WSOD方法的不同泛化能力。根据这些观察结果,我们认为探索多个伪标签是必要的,并且表1中的结果也证明了其有效性。0定性评估。图4显示了我们的MFNet与现有WSOD方法在一些具有挑战性场景中的定性比较。可以看出,我们的方法能够比其他方法更准确和完整地分割对象。例如,在图4左侧的第1行、第3行和第4行中的一些相似的前景和背景场景中,我们的方法能够区分更显著的对象SαEsFβMSαEsFβMSαEsFβMSαEsFβMSαEsFβMASMO [17]I.802 .853 .797 .110 .697 .772 .614 .116----.752 .776 .622 .101 .717 .772 .693 .149MFNetI.834 .885 .854 .084 .775 .839 .710 .076 .846 .921 .851 .059 .742 .803 .646 .087 .770 .817 .751 .11541410表1. 对五个基准数据集的E-measure (E s)、S-measure (S α)、F-measure (F β)和MAE (M)指标进行定量比较。监督类型(Sup.)I表示仅使用类别注释,I&C表示同时使用类别和标题注释开发WSOD。-表示不可用的结果。最佳结果以粗体标记。0方法 Sup. ECSSD DUTS-Test HKU-IS DUT-OMRON PASCAL-S0WSS [29] I .811 .869 .823 .104 .748 .795 .654 .100 .822 .896 .821 .079 .725 .768 .603 .109 .744 .791 .715 .1390MSW [36] I&C .827 .884 .840 .096 .759 .814 .684 .091 .818 .895 .814 .084 .756 .763 .609 .109 .768 .790 .713 .1330图像 GT MFNet WSS [29] ASMO [17] MSW [36] 图像 GT MFNet WSS [29] ASMO [17] MSW [36]0图4. 我们方法与现有的基于图像级注释的WSOD方法在一些具有挑战性的场景中的视觉比较。0准确地从其相似的背景中分割出对象。当背景变得复杂和嘈杂,如第2个0在右侧的第2行和第3行,我们的方法也可以比其他方法表现更好。04.4. 消融研究0我们设计了各种消融研究案例,全面证明了我们方法的优越性。为了更清楚地描述,在表2中的每个案例的不同框架在图5中展示。0指令过滤器的有效性。我们提出了一种指令过滤器(DF),用于从嘈杂的伪标签中提取和过滤更准确的显著性线索。它可以应用于单伪标签设置 (SDF) 和多伪标签设置(MDF),根据伪标签的数量。一方面,如表2中的情况 (1)到 (4)所示,SDF可以在所有数据集上取得有希望的改进,特别是在两个具有挑战性的数据集DUTS-Test和DUT-OMRON上。这表明,当伪标签在具有挑战性的场景中趋向于更不准确和嘈杂时,普通的显著性网络不可避免地从其直接监督中学习到更多的负面信息。在这些场景中,提出的SDF可以过滤和提取准确的显著性线索,然后鼓励一个更强大的显著性解码器。另一方面,MDF可以有效地整合各种伪标签中的多个显著性线索。为了证明其优越性,我们设计了四种不同的情况来融合多个显著性线索,包括0三种简单的方法:平均 (Avg( ∙ )), 交集 ( ∩ ) 和并集 ( ∪ ),以及前面提到的双解码器的直接方法。情况 (5) 到 (7)的结果证明这三种简单方法不能充分利用多个信息。情况(8)的更好性能表明,更合适的方法来利用多个标签可以取得有希望的改进。情况 (9)是我们最终的使用MDF的MFNet,如图5中的(d)所示,可以看出MDF在各个数据集上的表现明显优于其他多个设置,特别是在两个具有挑战性的数据集DUTS-Test和DUT-OMRON上。这些观察结果支持:1)我们提出的DF在提取准确的显著性线索方面的有效性。2)提出的MDF在整合多个显著性线索方面的优越性。此外,如表3所示,显著性解码器相对于其指令过滤器 (DFs)显著改进。这证明了DFs中的过滤显著性线索足够准确,可以通过提出的多重引导损失获得更好的结果。0多伪标签的有效性。我们引入了一种多伪标签的WSOD框架,旨在整合多个显著性线索,避免每个单一伪标签的偏见。首先,如上所述,表2中的情况 (5) 到 (7)是整合多个线索的前述简单方法。情况 (5) 和 (7)的性能相似,没有明显的改进,比单一伪标签的情况 (1) 和(2) 更好,而情况 (6)Y1Y2Y1 or Y2Y1Y241420编码器0解码器0(b) 双解码器 (a) 单解码器0编码器0解码器 解码器 解码器 指令0过滤器0(c) 单指令过滤器 (SDF) (d) 我们提出的MFNet (MDF)0解码器0编码器 编码器0指令0过滤器0指令0过滤器0单伪标签0图5. 消融研究中不同设置的框架。 (a) 表示单伪标签情况 (1) 到 (2) 和 (5) 到 (7),(b) 指的是双解码器框架在情况 (8) 中,(c)表示单指令过滤器 (SDF) 情况 (3) 和 (4)。 (d) 是我们提出的使用多个指令过滤器 (MDF) 的MFNet,对应于情况 (9)。0表2.消融研究的定量结果,类型表示使用的伪标签数量,伪标签表示不同的伪标签Y1和Y2。指导滤波器(DF)代表我们提出的指导滤波器。案例(1)和(2)分别表示使用Y1和Y2训练显著性网络的案例。在(1)和(2)的基础上,案例(3)和(4)采用了提出的指导滤波器。案例(5)到(7)首先通过平均(Avg(∙))、交集(∩)和并集(∪)整合多个标签,然后在这些整合标签上训练显著性网络。案例(8)采用了直接的双解码器框架,案例(9)是我们最终的MFNet。0类型 案例 指导滤波器 伪标签 ECSSD DUTS-Test HKU-IS DUT-OMRON PASCAL-S0标签 F β ↑ M ↓ F β ↑ M ↓ F β ↑ M ↓ F β ↑ M ↓ F β ↑ M ↓0单个0(1) Y1 0.818 0.113 0.607 0.099 0.824 0.080 0.607 0.099 0.724 0.134 (2) Y2 0.824 0.090 0.639 0.090 0.801 0.067 0.5760.108 0.717 0.122 (3) � Y1 0.835 0.095 0.698 0.082 0.840 0.066 0.641 0.089 0.734 0.125 (4) � Y2 0.847 0.085 0.6840.084 0.836 0.062 0.602 0.103 0.743 0.1150多个0(5) Avg(Y1, Y2) 0.826 0.087 0.638 0.088 0.800 0.066 0.576 0.106 0.716 0.120 (6) Y1 ∩ Y2 0.831 0.086 0.649 0.0850.810 0.064 0.595 0.098 0.723 0.118 (7) Y1 ∪ Y2 0.823 0.091 0.637 0.093 0.800 0.070 0.637 0.093 0.714 0.124 (8) Y1& Y2 0.843 0.087 0.670 0.083 0.831 0.064 0.607 0.093 0.735 0.118 (9) � Y1 & Y2 0.854 0.084 0.710 0.076 0.851 0.0590.646 0.087 0.751 0.1150表3.对显著性解码器及其两个指导滤波器结果的比较。在由指导滤波器提供更准确的显著性线索的监督下,最终的显著性解码器取得了令人期待的改进。0结果 ECSSD DUTS-Test HKU-IS0F β ↑ M ↓ F β ↑ M ↓ F β ↑ M ↓0P1 0.842 0.089 0.689 0.079 0.836 0.063 P2 0.844 0.0880.686 0.080 0.836 0.063 最终 P s 0.854 0.084 0.710 0.0760.851 0.0590在MAE指标上取得了良好的改进。这些结果表明,平均和并集从伪标签中引入了更多的冗余噪声,导致性能较差。案例(6)之所以比案例(5)和(7)取得更好的性能,是因为两个伪标签的交集操作有助于生成高置信度的标签。此外,在案例(8)中采用双解码器框架,相比于单个伪标签案例(1)和(2),取得了显著的改进,证明了多个伪标签的优越性,并激发了我们进一步的探索。最后但并非最不重要的是,0图像 案例(3) 真值 案例(4) 案例(9)0图6.多个伪标签有效性的视觉分析。Case(3)、(4)和(9)分别代表案例(3)、(4)和(9)的结果。可以看到,与单个标签相比,多个标签鼓励更具泛化性和准确性的结果。0案例(9)是我们提出的MFNet,与案例(3)和(4)相比,在所有指标上都取得了显著的改进,进一步证明了多个线索的优越性。图6提供了多个指导滤波器和单个指导滤波器设置的视觉结果。它证明了多个伪标签中更全面的显著性线索有助于避免负面影响。δECSSDDUTS-TestHKU-IS-20.8440.0810.6790.0830.8370.05800.8510.0840.7020.0770.8480.058→2←0.8540.0840.7100.0760.8510.05940.8480.0890.7060.0780.8500.06141430表4.自监督效果及其超参数δ的设置实验。最佳和次佳结果分别用粗体和下划线标记。0F β ↑ M ↓ F β ↑ M ↓ F β ↑ M ↓0通过单个标签的影响,鼓励更稳健的结果。04.5. 超参数设置0我们采用多个指令滤波器之间的自我监督策略,旨在强制它们从各种伪标签中学习更真实的显著性线索。为了进行全面比较,我们在表4中将超参数δ从-2到4进行设置,以讨论自我监督策略以及超参数δ的有效性。具体而言,当δ设置为-2时,鼓励指令滤波器从各种伪标签中学习不同的显著性线索。将δ设置为0意味着我们不采用自我监督策略,表4中的最后两行表示自我监督策略的不同超参数。可以看出,鼓励多个指令滤波器学习相似线索的效果要优于其他设置,当δ设置为2时达到最佳性能。04.6. 应用0为了进一步证明我们提出的框架的有效性,我们将其扩展到最新的WSOD方法MSW[36]。具体而言,对于从多源弱监督生成的粗糙映射,我们还执行两种不同的细化操作,就像我们合成不同的伪标签一样,并采用提出的多伪标签框架来提取和整合多个显著性线索。显著性解码器的架构遵循MSW中的原始设置,以进行公平比较。在这里,我们添加了加权F-measure F ω β[25]以进行更全面的比较。表5中的结果表明,在F ωβ和MAE指标上取得了显著的改进。这表明,提出的多伪标签框架确实充分整合了来自多个标签的显著性线索,并帮助现有方法实现更好的性能。图7中的视觉分析也支持这一观察结果,其中我们的框架帮助MSW在具有挑战性的场景中预测更准确和完整的显著性映射。此外,值得注意的是,0表5. 在最新的工作MSW [36]上应用我们的多伪标签框架的实验。0设置 ECSSD HKU-IS0F β ↑ F ω β ↑ M ↓ F β ↑ F ω β ↑ M ↓0MSW [36] 0.840 0.716 0.096 0.814 0.685 0.084 +我们的方法 +0.016 +0.065 -0.019 +0.006 +0.058 -0.0150图像 MSW [36] MSW + 我们的方法 真值0图7. 将我们的框架应用于最新的先前工作MSW [36]的视觉分析。0提出的框架不仅可以扩展到其他单伪标签方法,而且在获得更多伪标签时,只需添加更多指令滤波器即可灵活地整合更多其他伪标签。05. 结论0在本文中,我们提出利用多个伪标签来避免偏见单一标签的负面影响。为此,我们引入了一个新的框架,从多个标签中探索更全面和准确的显著性线索。具体而言,我们设计了一个多滤波器指令网络(MFNet),它由一个编码器-解码器显著性网络和多个指令滤波器组成。我们首先使用多个指令滤波器从多个标签中提取和过滤更准确的显著性线索,然后同时将这些过滤后的线索传播到显著性解码器中。我们还采用自我监督策略来鼓励不同指令滤波器的相似引导,并通过多引导损失隐式地整合多个显著性线索。与先前的方法相比,对比实验证明了所提出方法的优越性,消融研究也支持每个组件的有效性。0致谢。本工作得到大连市科技创新基金(#2019J12GX034),中国国家自然科学基金(#61976035)和中央高校基本科研业务费(#DUT20JC42)的支持。41440参考文献0[1] R. Achanta,S. Hemami,F. Estrada和S.Susstrunk。频率调谐显著区域检测。在《2009年计算机视觉和模式识别IEEE会议》中,页码1597-1604,2009年。0[2] R. Achanta,A. Shaji,K. Smith,A. Lucchi,P. Fua和S.S¨usstrunk。与最先进的超像素方法相比的Slic超像素。《IEEE模式分析与机器智能交易》,页码2274-2282,2012年。0[3] Ahn Jiwoon和KwakSuha。通过图像级监督学习像素级语义亲和力进行弱监督语义分割。2018年IEEE/CVF计算机视觉和模式识别会议,页码4981-4990,2018年。0[4] Nikita Araslanov和S.Roth。从图像标签进行单阶段语义分割。2020年IEEE/CVF计算机视觉和模式识别会议(CVPR),页码4252-4261,2020年。0[5] J. Deng,W. Dong,R. Socher,L. Li,Kai Li和LiFei-Fei。ImageNet:一个大规模的分层图像数据库。在《2009年计算机视觉和模式识别IEEE会议》中,页码248-255,2009年。0[6] Deng-Ping Fan,Ming-Ming Cheng,Yun Liu,Tao Li和A.Borji。结构度量:一种评估前景图的新方法。2017年IEEE国际计算机视觉会议(ICCV),页码4558-4567,2017年。0[7] Deng-Ping Fan,Cheng Gong,Yang Cao,BoRen,Ming-Ming Cheng和AliBorji。用于二值前景图评估的增强对齐度量。在《第二十七届国际人工智能联合会议论文集》中,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功