没有合适的资源?快使用搜索试试~ 我知道了~
L2G:一种局部到全局知识转移框架用于弱监督语义分割
dddddddddorkorkAttentionTransfer168860L2G: 一种简单的局部到全局知识转移框架用于弱监督语义分割0Peng-Tao Jiang 1 Yuqi Yang 1 Qibin Hou 1 � Yunchao Wei 201 TMCC, CS, 南开大学 2 北京交通大学0pt.jiang@mail.nankai.edu.cn andrewhoux@gmail.com0摘要0精确的类别感知注意力图(也称为类别激活图)对于弱监督语义分割至关重要。在本文中,我们提出了L2G,一种简单的在线局部到全局知识转移框架,用于高质量的对象注意力挖掘。我们观察到,当将输入图像替换为其局部补丁时,分类模型可以发现具有更多细节的对象区域。基于此,我们首先利用局部分类网络从输入图像随机裁剪的多个局部补丁中提取注意力。然后,我们利用全局网络在线学习多个局部注意力图之间的互补注意力知识。我们的框架使全局网络能够从全局视角学习捕获的丰富对象细节知识,从而产生可直接用作语义分割网络的伪注释的高质量注意力图。实验证明,我们的方法在PASCAL VOC 2012验证集和MS COCO2014上分别达到了72.1%和44.2%的mIoU得分,创造了最新的最高记录。代码可在https://github.com/PengtaoJiang/L2G获得。01. 引言0深度学习算法[37, 41,64]在近年来促进了语义分割任务的快速发展。然而,训练深度神经网络进行语义分割需要大量像素级准确标签,这消耗了大量的人力和资源。最近,为了减少对准确注释的依赖,研究人员尝试研究基于廉价监督的语义分割,例如边界框[12,42],涂鸦[36, 50],点[4]和图像级标签[23,53]。在这些弱监督中,图像级标签仅提供有关目标对象类别存在的信息,使其比其他监督更受欢迎,因为收集起来更容易。在本文中,我们也关注基于图像级标签的弱监督语义分割(WSSS)。在WSSS方面,最重要的组成部分之一应该是类别激活图(CAM)[65],它包含有关目标对象的语义和位置信息,并可用作训练分割网络的伪像素级注释。由于CAM的质量对分割结果有很大影响,最近提出了许多策略来改进原始的CAM方法,包括对抗擦除[22, 53, 63, 66],在线注意力累积[25,26],种子区域扩展[24, 28]和亲和性学习[1, 2,57]等。尽管这些方法表现良好,但大多数方法将整个输入图像作为模型的唯一输入。然而,我们凭经验观察到,与整个输入图像相比,分类模型在将局部图像补丁作为输入时可以发现更具有区分性的区域。这表明通过利用局部图像补丁的方式可以改善注意力图的质量。0� 侯奇斌为通讯作者。0全局视图0dddd0dddd0全局网络0局部网络 局部视图 注意力0转移0图1.所提方法的概念工作流程。我们利用从局部网络中提取的具有丰富细节的局部视图的注意力图来教导全局网络。这使得全局网络能够在线学习局部网络中的丰富局部细节知识,从而产生更完整的对象注意力。0由于易于收集,基于图像级标签的弱监督语义分割(WSSS)已经比其他监督更受欢迎。在本文中,我们也关注基于图像级标签的弱监督语义分割(WSSS)。在WSSS方面,最重要的组成部分之一应该是类别激活图(CAM)[65],它包含有关目标对象的语义和位置信息,并可用作训练分割网络的伪像素级注释。由于CAM的质量对分割结果有很大影响,最近提出了许多策略来改进原始的CAM方法,包括对抗擦除[22, 53, 63, 66],在线注意力累积[25,26],种子区域扩展[24, 28]和亲和性学习[1, 2,57]等。尽管这些方法表现良好,但大多数方法将整个输入图像作为模型的唯一输入。然而,我们凭经验观察到,与整个输入图像相比,分类模型在将局部图像补丁作为输入时可以发现更具有区分性的区域。这表明通过利用局部图像补丁的方式可以改善注意力图的质量。168870图2.我们的L2G注意力知识传递方法的动机。顶部一行显示原始图像(全局视图)和随机裁剪后的多个图像块(局部视图)。第二行显示由CAM[65]生成的注意力图。我们可以观察到局部视图的注意力图相对于全局视图捕捉到更多的目标细节。0在本文中,考虑到上述分析,我们提出了一个简单的在线局部到全局知识传递框架,称为L2G,用于生成高质量的目标注意力。图1中已经描述了一个概念性的插图。与前述的注意力挖掘策略不同,我们提出利用从输入图像中随机裁剪的全局视图和局部视图(由彩色边界框围起来的区域)的优势。具体而言,我们的框架包含一个本地网络,用于为局部视图生成具有丰富目标细节的局部注意力,以及一个接收全局视图作为输入并旨在从本地网络中提取判别性注意力知识的全局网络。我们的方法具有以下优点。首先,我们从输入图像的多个局部视图而不是其全局视图产生注意力图。这使我们能够获得更多未发现的语义区域的细节,这些细节在不同的局部视图之间也是互补的,如图2所示。其次,通过设计知识传递损失,可以以在线学习的方式将互补的注意力知识有效地传递给全局网络。这使得全局网络能够捕捉像素级的语义目标细节,并在推理中生成高质量的注意力图。最后但并非最不重要的是,整个流程简单灵活。我们可以选择性地向本地网络添加额外的约束[32],以帮助塑造获得的目标注意力。我们在PASCAL VOC 2012和MS COCO2014数据集上评估了我们的方法。实验证明,我们的方法比先前的最先进方法具有更好的性能。当使用DeepLab-v2模型[10]作为我们的分割网络时,我们在PASCAL VOC2012的验证集和测试集上分别获得了72.1%和71.7%的mIoU得分,并在MS COCO2014的验证集上获得了44.2%的得分,在弱监督设置下创造了新的最先进记录。我们还进行了一系列的消融实验,以帮助读者更好地理解我们方法中的每个组件的性能。02. 相关工作02.1. 弱监督语义分割0一阶段WSSS方法直接利用图像级别标签作为监督来训练端到端的分割网络。早期的工作[43,44]将这个问题形式化为多实例学习。之后,Papandreou等人[42]提出了一种利用中间预测来监督分割网络的期望最大化(EM)方法。Zhang等人[62]利用图像分类分支生成注意力图并构建伪分割标签来监督并行分割分支。Araslanov等人[3]提出了一种自监督机制,在训练过程中应用图像外观先验生成伪分割标签。Chen等人[7]构建了一个端到端的框架,使用编码器-解码器网络来探索目标边界。与两阶段WSSS方法相比,一阶段方法通常具有较差的性能,吸引力较小。0两阶段WSSS方法依赖于注意力图[63,65]生成伪分割标签,然后用这些标签来训练分割网络。两阶段WSSS方法的核心是生成高质量的注意力图[5, 33, 48,52,54]。为实现这一目标,最近提出了许多方法。Wei等人[53]提出了对抗擦除策略,通过迭代遮挡挖掘的目标区域来驱动分类网络发现新的目标区域。Hou等人[22]通过使用自擦除策略来防止注意力扩散到背景,改进了对抗擦除策略。Kolesnikov等人[28]引入了种子扩展的思想,从预计算的注意力图中扩展初始种子区域,并限制扩展区域与目标边界对齐。随后,Jiang等人[26]提出了在线注意力累积策略,利用不同训练阶段的注意力图。Chang等人[6]利用子类别信息来突出非判别性语义区域。另一类方法试图改进注意力图以获得具有宝贵边界的完整目标区域。Ahn等人[2]学习像素亲和力,将注意力图中强响应的语义传播到相邻像素。Chen等人[8]和Ahn等人[1]进一步改进了这种方法,通过明确学习类别边界。Lee等人[32]利用现成的显著性图作为监督,引导区域学习生成高质量的注意力图。上述方法共同点是它们都在图像的全局视图上改进注意力图。与之不同的是,我们的方法利用全局视图和多个局部视图的优势。ddddClassification LossTransfer LossStage1Stage2Stage3Stage4Stage5Stage1Stage2Stage3Stage4Stage5Stage1Stage2Stage3Stage4Stage5Stage1Stage2Stage3Stage4Stage5Global NetworkLocal NetworkBinarizeShape TransferAttention TransferReplace if |Si| ≠ 0Bi x SiSAiBiGC�c=1yc log(σ(f c)) + (1 − yc) log(1 − σ(f c)),(1)Ac =ReLU(F c)max(ReLU(F c)).(2)L = Lcls + Lkt.(3)168880分类损失0传输损失0裁剪和调整大小0阶段0阶段0阶段0阶段0阶段0阶段0阶段0阶段0阶段0阶段0全局网络0本地网络0二值化0形状传输0注意力传输0如果|S i | ≠ 0,则替换0图3. 所提出方法的整体框架。本地网络捕获的互补注意力图通过知识传输损失蒸馏到全局网络中。0研究如何有效地将本地网络的互补注意力知识传输到全局网络中,以改善注意力图的质量。02.2. 知识蒸馏0我们的工作还与知识蒸馏相关[17,0知识蒸馏是一种从经过良好训练的教师模型到学生模型的知识提取方法,这在大多数先前的工作中已经指出[2, 22, 26,53]。对于图像分类任务,这些工作侧重于通过模仿教师模型的预测分布来改进学生模型。此外,一些研究者[20,39]还研究了用于语义分割任务的知识蒸馏。与之不同的是,我们研究如何以在线学习的方式将本地视图捕获的注意力知识传输到全局网络中,以更好地利用多个视图的互补信息。03. 方法0在本节中,我们详细介绍了我们方法的整体框架。在描述框架之前,我们首先对注意力图生成进行一些基本介绍。03.1. 先决条件0我们首先介绍生成注意力图的方法。给定输入图像I,令y为图像级标签。最后一个卷积层的输出特征F具有C个通道,与类别数目相同。最后一个卷积层后面是一个全局平均池化层,其中特征F被池化为大小为C的向量fC。我们通过应用sigmoid交叉熵损失函数计算分类损失,其形式如下:0Lce = -10其中σ是sigmoid函数。注意力图可以从最后一个卷积层的输出生成。对于某个类别c,注意力图Ac由F的第c个通道派生,可以表示为0如大多数先前的工作所指出的那样,上述方法只能定位最有区别的区域。它经常无法发现那些在语义上有意义的非有区别的对象区域。接下来,我们提出了一种新颖的注意力生成框架,通过提供一种新的从局部到全局的知识传输方法来捕获高质量的对象注意力。03.2. 整体框架0如第1节所述,专注于处理局部补丁视图的本地网络倾向于发现更多有区别的对象区域。基于这一观察,我们提出利用局部视图的注意力图来帮助全局网络定位更多完整的对象区域。所提出方法的整体框架如图3所示。从功能上讲,有四个组件:全局网络、本地网络、注意力传输模块和形状传输模块。全局网络和本地网络可以是任何CNN分类器,如流行的VGGNet [46]或ResNet-38[56]。在注意力传输模块中,我们优化两个损失函数:用于识别语义对象的分类损失Lcls和鼓励全局网络模仿本地网络发现更多有区别区域的注意力传输损失Lat。在形状传输模块中,我们引入形状约束到损失Lat,得到损失Lst,以塑造捕获的对象注意力。因此,整体优化的损失函数可以如下形式化:Lcls = −1N × Cyc log(qci ) + (1 − yc) log(1 − qci ).(4)Gc =ˆF cLat = 1N||Ai − Gi||2.(6)̸168890当没有添加形状约束时,L kt = L at 。否则,L kt = L st。03.3. 局部到全局的注意力传输0给定输入图像 I ,我们将其转换为一组不同的视图 V,包括全局视图 V I 和 N 个局部视图 { V 1 , V 2 , ..., V N },这些局部视图是从全局视图随机裁剪得到的。局部视图 {V 1 , V 2 , ..., V N }被送入专注于生成包含丰富对象细节的注意力图的局部网络。全局视图 V I被送入全局网络,旨在从局部网络中学习知识并在推理中生成对象注意力。令 { F 1 , F 2 , ..., F N }是局部网络最后一个卷积层的输出,每个输出具有 C个通道,对应于类别的数量。令 ˆ F是全局网络最后一个卷积层的输出,具有 C +1个通道。分类损失和注意力传输损失可以定义如下。0分类损失:分类损失是在局部网络上进行的。具体来说,局部视图的特征图 { F 1 , F 2 , ..., F N }首先被送入一个全局池化层,将特征池化为一组1D特征向量{ f 1 , f 2 , ..., f N } 。给定1D特征向量 f i ,可以通过 q i = σ ( f i ) 计算出所有类别的预测概率。其中,σ 是 sigmoid函数。然后,分类损失 L cls 可以表示为0N0C0注意力传输损失:我们首先从局部网络生成局部视图的注意力图。如果 c 在图像级标签中,我们使用公式(2)为第 c个类别生成注意力图 { A c 1 , A c 2 , ..., A c N } 。如果 c不在图像级标签中,则对应的注意力图中的注意力值将被置为零。为了将局部网络获得的注意力传输到全局网络,我们采用均方误差损失。给定全局网络的输出 ˆ F,我们沿着通道维度对 ˆ F 应用 Softmax 函数,得到0∑ C +1 i =1 e ˆ F i , (5)0其中 G c 的每个位置的值表示该位置是类别 c 的概率。令 {G 1 , G 2 , ..., G N } 表示与 { A 1 , A 2 , ..., A N }对应的全局视图上的区域,即每对 ( G 1 , A 1 )是从全局视图上的相同坐标裁剪得到的。注意力传输损失通过衡量两者之间的差异来定义。0如下定义 { A i } 和 { G i } :0N0在训练过程中,我们同时优化上述两个损失函数。在推理过程中,注意力图是从全局网络生成的,而局部网络可以被丢弃。0讨论:我们的方法提供了一种有效的方式来利用全局视图和局部视图之间的互补信息。局部到全局的注意力传输方法使得全局网络能够在线学习地吸收局部网络捕获的丰富对象细节知识。尽管大多数先前的方法也使用数据增强,如随机裁剪,作为输入,但它们没有一个组件能够从全局视图在线累积来自裁剪的局部补丁的对象细节知识。这使得我们的局部到全局策略与先前的方法非常不同。我们将在实验部分展示所提出方法相对于其他方法的更多优势。03.4. 局部到全局形状转移0所提出的局部到全局注意力转移策略已经能够比原始的CAM[65]产生更完整的对象注意力。然而,由于注意力转移过程仅利用图像级标签,因此在对象边界周围捕获的注意力不够清晰。为了在注意力图中很好地捕捉到局部化对象的形状,我们尝试通过添加形状约束将辅助显著对象信息引入到注意力转移损失中。显著性模型[38]可以作为一种类别不可知的显著对象检测器,可以分割前景对象并提供形状信息。形状转移过程很简单,已在图3的右侧部分进行了说明。给定局部网络的注意力图{Ai},我们首先使用一个小阈值(例如0.1)对其进行二值化,得到二值图{Bi}。然后,我们利用显著性模型为给定图像I生成显著性图S,并获取与I上的同一坐标对应的注意力图{Ai}的相应显著性区域,表示为{Si}。然后,注意力转移损失可以重新写为0L st = 10N0N �0i =10� || B i × S i − G i || 2 , if | S i | � = 0 ||A i − G i || 2 , if | S i | = 0 (7)0其中×表示逐元素乘法,| S i |是显著性图S i的基数。通过使用B i × Si,我们的目标是去除显著对象外的注意力区域,这些区域很可能属于高概率的背景。这使得我们的方法能够充分利用显著性图提供的形状信息,并产生高质量的240280360400686907172trainaugvalidation12816686907172trainaugvalidation168900图像局部 L2G L2G w/形状0图4. 不同方法的注意力图的定性比较。0注意力图。我们将在实验部分详细阐述。请注意,并非所有图像都具有显著对象,因此始终使用等式(7)的顶部部分是不合适的。因此,对于那些显著性图中不包含任何内容的图像,我们使用原始的注意力图作为监督,如等式(7)的底部部分所示。值得一提的是,EPS[32]也使用显著性图作为监督,以提供网络的形状信息。不同的是,我们的方法更注重如何利用多个局部视图以及如何有效地将从局部网络中学到的知识转移到全局网络中。接下来,我们将展示所提出的局部到全局知识转移相对于EPS的优势。04. 实验04.1. 实验设置0数据集和评估指标。实验在两个公开可用的数据集PASCALVOC 2012和MS COCO 2014上进行。PASCAL VOC2012数据集包含20个语义类别和背景。它被分为三个集合,训练集、验证集和测试集,分别包含1464、1449和1456张图像。与大多数先前的工作一样,我们还使用增强的训练集[18],总共得到10582张训练图像。MS COCO2014数据集有80个语义类别。根据[11,32],将没有目标类别的图像从数据集中排除,剩下82081张训练图像和40137张验证图像。平均交并比(mIoU)[41]被用作评估指标。0补丁尺寸0mIoU0补丁数量0mIoU0图5.局部视图大小和数量N的消融实验。0网络设置。对于数据增强,输入图像的短边大小被调整为512。全局视图的分辨率为448×448,从输入图像中裁剪得到。分辨率为320×320的局部图像补丁从全局视图中裁剪得到。我们使用ResNet-38作为我们的分类网络,遵循[2,32]的方法。我们在PASCALVOC上训练分类网络10个epoch,在MSCOCO上训练15个epoch。初始学习率设置为0.001。使用多尺度测试策略[2]从全局网络生成注意力图。我们选择DeepLab-v1和DeepLab-v2作为我们的分割网络。我们基于VGG-16和ResNet-101报告性能。对于基于VGG-16的分割网络,我们使用在ImageNet上预训练的分类模型进行初始化。对于ResNet-101,我们使用COCO预训练模型。对于在MSCOCO数据集上的实验,我们都使用ImageNet预训练模型。遵循[32],我们使用相同的方法生成伪标签。给定注意力图,我们为背景通道分配一个固定的阈值,并使用argmax函数获取每个像素的标签。04.2.消融研究0局部视图采样策略。首先,我们研究采样策略对注意力图的影响。我们比较了两种局部视图采样策略。一种是随机采样策略,另一种是均匀采样策略。我们通过在全局视图上均匀滑动窗口来实现均匀采样策略。这样,每个像素都可以被一些局部视图包围。对于448×448分辨率的全局视图,我们将窗口大小设置为320×320,步长设置为64,得到9个局部视图。为了与均匀采样策略进行公平比较,我们随机采样了9个图像补丁用于随机采样策略。使用这两种策略生成的伪分割标签的质量非常接近(随机68.8%对比均匀68.5%)。为了灵活调整局部视图数量N,我们选择了随机采样策略作为我们的方法。0补丁尺寸和补丁数量N。补丁尺寸控制局部视图的空间尺寸。补丁数量N表示发送到局部网络的局部视图的数量。147.147.52✓46.1 (-1.0)47.2 (-0.3)3✓48.5 (+1.4)50.0 (+2.5)4✓56.8 (+9.7)54.9 (+7.4)168910表1.在不同网络设置下的mIoU得分比较。基线是原始的CAM[65]。SW:在推理过程中对基线应用滑动窗口策略[65]。Local:使用多个局部图像补丁而不是输入图像来训练分类网络。L2G:我们的方法仅使用局部到全局的注意力传递。mIoUtrainaug表示增强训练集上伪分割标签的mIoU得分。0编号 SW 局部 L2G mIoU 训练增强 mIoU 验证0为了研究它们对注意力质量的影响,我们选择了5种不同的补丁尺寸[240×240,280×280,320×320,360×360,400×400]。当研究补丁数量N时,我们从[1, 2, 4, 8,16]的范围内选择了局部视图的数量。如图5所示,我们观察到当N增加时,伪分割标签的质量变得更好。当局部视图数量大于4时,性能趋于稳定。对于补丁尺寸,我们可以看到当局部视图尺寸为320×320时,我们的方法达到了最佳性能。当尺寸大于320×320时,伪分割标签的质量大幅下降。0提出的局部到全局知识传递的重要性。当将局部视图发送到局部网络时,我们可以从生成的注意力图中发现更多的目标区域。这里可能会有一个问题:“局部网络生成的注意力图是否足够好,以至于我们不需要传递过程?”为了回答这个问题,我们测试了使用局部网络的注意力图生成的伪分割标签的质量。如表1所示,我们可以看到局部网络的性能略好于基线CAM[65]。然而,性能远低于L2G(48.5%对比56.8%)。我们还在图4中展示了一些注意力图的定性结果,并在图6中展示了分割结果。这表明局部到全局的注意力传递策略是一种更有效的利用局部网络捕获的丰富目标注意力知识的方法。此外,我们通过引入形状信息进一步扩展了上述实验。相应的结果可以在表2中找到。在[32]中已经证明,显著性形状信息可以显著提高注意力质量。然而,当使用我们提出的L2G时,训练增强集和验证集上的mIoU得分都可以大幅提高。我们将在下一小节中展示更多的分割数值结果。0L2G与滑动窗口。我们方法的关键是利用局部注意力图来促进全局网络的工作。0表2.每个组件的重要性消融实验。L2G:仅局部到全局的注意力传递。形状:局部到全局的形状传递。可以看出,与仅使用局部网络的设置相比,我们的局部到全局传递策略可以显著提高性能。当结合形状信息时,L2G仍然可以大幅提升性能。0编号 局部 L2G 形状 mIoU 训练增强 mIoU 验证01 � 48.5 50.0 2 � 56.8 ( +8.3 ) 54.9 ( +4.9 )03 � � 68.0 69.9 4 � � 70.3 ( +2.3 ) 72.1 ( +2.2 )0利用滑动窗口策略在推理过程中发现更多完整的物体区域。实现这个想法的一种直接方法是利用滑动窗口策略,并聚合来自不同图像块的注意力图。我们将我们的L2G与滑动窗口策略进行比较。具体来说,对于滑动窗口策略,窗口大小和步长分别设置为320×320和64。对于我们的L2G,我们将局部视图大小设置为320×320,并一次随机采样4个图像块。如表1所示,局部到全局的注意力传递策略比基线CAM [ 65]取得了更好的结果,验证了我们方法的有效性。然而,滑动窗口策略的结果甚至比原始CAM还要差。我们认为滑动窗口策略不适合挖掘非区分性的物体区域,因为训练的模型仍然基于具有全局视图的输入。这使得在处理全局视图时,与显著区域具有不同外观的未发现的物体区域很难响应。0全局网络的分类损失。局部网络配备了分类损失来引导注意力生成。有人可能会问“全局网络是否也需要分类损失?”为了回答这个问题,我们尝试在全局网络中添加分类损失。我们观察到,当添加分类损失时,全局网络生成的注意力图定位在非常小的物体区域。伪分割标签的质量大幅下降,从70.3%降至53.8%。我们认为分类损失和注意力传递损失起着相反的作用。分类损失使注意力更具有区分性。注意力传递损失有助于将非区分性区域上的注意力传递给全局网络。因此,注意力图变得更差。0局部和全局骨干网络共享。在这里,我们探索了局部和全局网络骨干共享与否的性能差距。当局部和全局网络共享相同的骨干时,168920图像 CAM 局部 L2G 局部 + 形状 L2G + 形状 GT0图6. 在不同网络设置下的分割结果比较。我们可以观察到,结合L2G和形状传递可以获得最佳结果,特别是在局部物体细节上。0表3. 在PASCALVOC训练集上比较没有显著性图的伪分割标签。0方法 mIoU 训练0CAM [ 65 ] 48.0SC-CAM [ 6 ] 50.9SEAM [ 52 ] 55.4ADvCAM [ 31 ] 55.60L2G(我们的方法)56.20表4. 将显著性图与PASCALVOC训练集上的伪分割标签进行比较。0方法 mIoU 训练0SGAN [ 58 ] 62.80EPS [ 32 ] 69.40L2G(我们的方法)71.90在trainaug数据集上的伪分割标签为69.2%。训练分割网络后,验证集上的mIoU得分为70.9%。当局部和全局网络使用不同的骨干时,伪分割标签的mIoU得分可以提高1.1%。最终的分割结果也获得了1.2%的mIoU增益。04.3. 与最先进方法的比较0我们首先将我们生成的注意力图与之前最先进的WSSS方法的质量进行比较。我们将我们的注意力图转换为伪分割标签。如表3和表4所示,显然我们方法生成的注意力图无论是否使用显著性图都比其他方法更好。在没有使用显著性图的情况下,PASCALVOC训练集上的mIoU得分达到56.2%,比SEAM[52]高出0.8%。在应用显著性图进行转移过程后,mIoU得分达到71.9%,比EPS[32](71.9%对69.4%)要好得多。我们使用伪分割标签来训练DeepLab分割模型。0表5. 与之前最先进方法在PASCAL VOC2012验证集和测试集上的定量比较。所有分割结果都基于带有VGGNet骨干的DeepLab[46]。Pub.:出版物,Seg.:分割网络,Sup.:监督,I.:图像级标签,S.:来自现成显著性模型的显著性图。0方法 Pub. Seg. Sup. Val (%) Test (%)0Af�nityNet [2] CVPR'18 V1 I. 58.4 60.5 MCOF [51] CVPR'18V1 I.+S. 56.2 57.6 DSRG [24] CVPR'18 V2 I.+S. 59.0 60.4SeeNet [22] NeurIPS'18 V1 I.+S. 61.1 60.7 FickleNet [30]CVPR'19 V2 I.+S. 61.2 61.9 OAA + [26] ICCV'19 V1 I.+S.63.1 62.8 BES [8] ECCV'20 V1 I. 60.1 61.1 MCIS [48]ECCV'20 V1 I.+S. 63.5 63.6 Multi-Est. [16] ECCV'20 V1 I.+S.64.6 64.2 ICD [15] CVPR'20 V1 I.+S. 64.0 63.9 ECS-Net [49]ICCV'21 V1 I. 62.1 63.4 DRS [27] AAAI'21 V1 I.+S. 63.5 64.5Group-WSSS [34] AAAI'21 V2 I.+S. 63.3 63.6 OAA++ +[25] PAMI'21 V1 I.+S. 63.7 63.2 NSROM [59] CVPR'21 V2I.+S. 65.5 65.3 EPS [32] CVPR'21 V1 I.+S. 66.6 67.9 EPS [32]CVPR'21 V2 I.+S. 67.0 67.30L2G(我们的)- V1 I.+S. 68.1 68.80L2G(我们的)- V2 I.+S. 68.5 68.90我们将我们的方法的分割性能与之前最先进的方法进行比较。表5和表6列出了我们方法和最近最先进方法在PASCALVOC数据集上的分割结果。如我们所见,与之前的WSSS方法相比,我们的方法在验证集和测试集上都取得了最好的结果。与我们方法最相关的工作是EPS[32],它明确使用显著性图作为监督。我们方法与EPS之间的差异已在第3.4节中解释。如表6所示,我们可以看到我们的方法可以将EPS的结果提高约1%。此外,如表7所示,我们在具有挑战性的MSCOCO数据集上的结果比以前的方法要好得多,这也证明了我们的局部到全局策略的有效性。我们方法的伪标签的mIoU为43.4%,比EPS(37.2%)要好得多。MethodsPublication Seg.Sup.Val (%) Test (%)L2G (ours)–V1I.+S.72.073.0methods on the PASCAL VOC dataset. As we can see, com-pared to the previous WSSS methods, our method achievesthe best results on both the validation and test sets. Thework most relevant to our method is EPS [32], which ex-plicitly uses the saliency maps as supervision. The differ-ences between our method and EPS have been explained inSec. 3.4. As shown in Tab. 6, we can see that our methodcan improve the results of EPS by around 1%. Besides, asshown in Tab. 7, our results on the challenging MS COCOdataset are much better than the previous methods, whichalso demonstrates the effectiveness of our local-to-globalstrategy. The mIoU of the pseudo labels for our method is43.4%, much better than that of EPS (37.2%).168930表6. 与之前最先进方法在PASCAL VOC2012验证集和测试集上的定量比较。所有分割结果都基于ResNet骨干[19, 56]。我们的方法取得了最好的结果。0Af�nityNet [2] CVPR'18 V1 I. 61.7 63.7 MCOF [51] CVPR'18V1 I.+S. 60.3 61.2 DSRG [24] CVPR'18 V2 I.+S. 61.4 63.2SeeNet [22] NeurIPS'18 V1 I.+S. 63.1 62.8 IRNet [1]CVPR'19 V1 I. 63.5 64.8 FickleNet [30] CVPR'19 V2 I.+S.64.9 65.3 OAA + [26] ICCV'19 V1 I.+S. 65.2 66.4 SSDD [45]ICCV'19 V1 I. 66.1 66.8 SEAM [52] CVPR'20 V2 I. 64.5 65.7SC-CAM [6] CVPR'20 V2 I. 66.1 65.9 ICD [15] CVPR'20 V1I.+S. 67.8 68.0 BES [8] ECCV'20 V2 I. 65.7 66.6 MCIS [48]ECCV'20 V1 I.+S. 66.2 66.9 Multi-Est. [16] ECCV'20 V1 I.+S.67.2 66.7 LIID [40] PAMI'20 V2 I.+IS. 66.5 67.5 DRS [27]AAAI'21 V2 I.+S. 71.2 71.4 Group-WSSS [34] AAAI'21 V2I.+S. 68.2 68.5 ECS-Net [49] ICCV'21 V1 I. 66.6 67.6 PMM[35] ICCV'21 PSP I. 68.5 69.0 CDA [47] ICCV'21 V2 I. 66.166.8 CGNet [29] ICCV'21 V1 I. 68.4 68.2 AuxSegNet [57]ICCV'21 V1 I.+S. 69.0 68.6 AdvCAM [31] CVPR'21 V2 I. 68.168.0 NSROM [59] CVPR'21 V2 I.+S. 70.4 70.2 EDAM [55]CVPR'21 V1 I.+S. 70.9 70.6 EPS [32] CVPR'21 V1 I.+S. 71.071.8 EPS [32] CVPR'21 V2 I.+S. 70.9 70.80L2G(我们的)- V2 I.+S. 72.1 71.70讨论。值得注意的是,我们的局部网络只是一个简单的分类模型。由于所提出的框架的灵活性,我们可以用更复杂的注意力模型替换局部网络以进一步改进结果。0表7. 在MSCOCO验证集上与先前最先进方法的定量比较。所有分割结果都基于VGGNet骨干网络[ 46 ],除了L2G*使用ResNet-101骨干网络[19 ]。0方法 出版物 分割 监督 验证集(%)0SEC [ 28 ] ECCV’16 V1 I.+S. 22.4 DSRG [ 24 ]CVPR’18 V2 I.+S. 26.0 ADL [ 11 ] PAMI’20 V1 I.+S.30.8 EPS [ 32 ] CVPR’21 V2 I.+S. 35.70L2G (我们的) – V2 I.+S. 42.70L2G* (我们的) – V2 I.+S. 44.20改进结果。因此,我们相信仍然有很大的改进空间,我们也希望我们的局部到全局知识传递方法能够为研究人员提供新的研究方向。0失败案例分析。首先,一些非目标对象被错误地识别为目标类别,如图7的第一行所示。在我们的L2G中,我们只使用ResNet提取注意力。设计更先进的分类模型,如transformers [ 14 , 60],可以改进结果。其次,发现的对象的形状仍在进一步改进中(第二行)。使用更强的显著性模型或过分割方法可以在一定程度上解决这个问题。0图像结果 GT0图7. 我们的L2G的两个分割失败示例。05. 结论0在本文中,我们提出了一种新颖的局部到全局注意力传递方法来获取对象的注意力。通过利用局部视图中局部网络捕获的互补注意力,并在注意力传递过程中引入形状约束,我们的方法在PAS- CAL VOC 2012的验证集和测试集以及MSCOCO2014的验证集上取得了最佳结果。我们希望所提出的方法能够促进基于高质量注意力图的视觉任务的研究。0致谢:YunchaoWei部分受到中国国家重点研发计划(2021ZD0112100)的支持。[14] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov,Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner,168940参考文献0[1] Jiwoon Ahn, Sunghyun Cho, and Suha Kwak.基于像素间关系的实例分割弱监督学习. 在IEEE Conf. Comput.Vis. Pattern Recog. , 2019年, 第2209-2218页.0[2] Jiwoon Ahn and Suha Kwak.利用图像级监督学习像素级语义亲和性进行弱监督语义分割.在IEEE Conf. Comput. Vis. Pattern Recog. , 2018年,第4981-4990页.0[3] Nikita Araslanov and Stefan Roth.从图像标签进行单阶段语义分割. 在IEEE Conf. Comput. Vis.Pattern Recog. , 2020年, 第4253-4262页.0[4] Amy Bearman, Olga Russakovsky, Vittorio Ferrari, and LiFei-Fei.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功