没有合适的资源?快使用搜索试试~ 我知道了~
使用Transformer进行端到端弱监督语义分割及其性能优势
(c) Affinity(b) Multi-head self-attention(a) Images5#6#7decade, deep neural networks have achieved great successin semantic segmentation. However, due to the data-hungrynature of deep neural networks, fully-supervised semanticsegmentation models usually require a large amount of datawith labour intensive pixel-level annotations. To settle thisproblem, some recent methods seek to devise semantic seg-mentation models using weak/cheap labels, such as image-level labels [2, 25, 47, 23, 50, 27, 35], points [3], scribbles[28, 54, 52], and bounding boxes [24]. Our method fallsinto the category of weakly-supervised semantic segmen-tation (WSSS) using only image-level labels, which is themost challenging one in all WSSS scenarios.1168460从注意力中学习亲和力:使用Transformer进行端到端弱监督语义分割0Lixiang Ru 1 Yibing Zhan 2 Baosheng Yu 3 Bo Du 1 *01中国武汉大学人工智能学院多媒体软件国家工程研究中心,计算机学院和湖北省多媒体与网络通信工程重点实验室。2 京东探索学院,中国。3 悉尼大学,澳大利亚。0{ rulixiang, dubo } @whu.edu.cn zhanyibing@jd.com baosheng.yu@sydney.edu.au0摘要0使用图像级标签的弱监督语义分割(WSSS)是一项重要且具有挑战性的任务。由于训练效率高,端到端的WSSS解决方案受到了社区的越来越多的关注。然而,当前的方法主要基于卷积神经网络,未能很好地探索全局信息,因此通常导致对象区域不完整。为了解决上述问题,我们引入了Transformer,它自然地整合了全局信息,以生成更完整的端到端WSSS的初始伪标签。受Transformer中的自注意力和语义亲和力之间的内在一致性的启发,我们提出了一种从注意力中学习亲和力(AFA)模块,以从Transformer中的多头自注意力(MHSA)中学习语义亲和力。然后,利用学习到的亲和力来细化分割的初始伪标签。此外,为了高效地获得可靠的亲和力标签以监督AFA,并确保伪标签的局部一致性,我们设计了一个像素自适应细化模块,将低级图像外观信息纳入伪标签的细化中。我们进行了大量实验,我们的方法在PASCAL VOC 2012和MS COCO2014数据集上分别达到了66.0%和38.9%的mIoU,显著优于最近的端到端方法和几个多阶段竞争对手。代码可在https://github.com/rulixiang/afa上获得。01. 引言0* 通讯作者。此工作是在LixiangRu在京东探索学院担任研究实习生时完成的。0图1. (a)图像和查询点(用“�”表示)用于可视化注意力和亲和力图;(b)Transformer块中的自注意力图仅捕捉粗糙的语义级亲和关系;(c)使用我们提出的方法从自注意力中学习到的可靠语义亲和力。0使用图像级标签的主流WSSS方法通常采用多阶段框架[35,23, 22]。具体而言,这些方法首先训练一个分类模型,然后(a) CNN CA2168470(a) CNN CAM(b)Trans. CAM(d)我们的(c)使用MHSA细化0图2. 使用(b)Transformers生成的CAM在更多的整体区域上激活,而(a)CNN则激活较少。使用(c)粗糙的MHSA来细化CAM效果不好,而(d)学习到的亲和力可以显著改善生成的CAM。0然后生成类激活图(CAM)[59]作为伪标签。经过改进后,伪标签被用来训练一个独立的语义分割网络作为最终模型。这种多阶段的框架需要为不同的目的训练多个模型,因此明显复杂化了训练流程并降低了效率。为了避免这个问题,最近提出了几种端到端的WSSS解决方案[4, 52, 53,3]。然而,这些方法通常基于卷积神经网络,未能正确地探索全局特征关系,这对于激活完整的对象区域[13]非常重要,从而显著影响生成的伪标签的质量。最近,Transformer[42]在许多视觉应用[49, 58,5]中取得了重大突破。我们认为Transformer架构自然适用于WSSS任务。首先,Transformer中的自注意机制可以建模全局特征关系并克服卷积神经网络的上述缺点,从而发现更完整的对象区域。如图1所示,我们发现Transformer中的多头自注意力(MHSA)可以捕捉语义级别的亲和力,并可用于改进粗糙的伪标签。然而,MHSA中捕捉到的亲和力仍然不准确(图1(b)),即直接将MHSA作为亲和力来修正标签在实践中效果不好,如图2(c)所示。基于上述分析,我们提出了一种基于Transformer的端到端WSSS框架。具体来说,我们利用Transformer生成CAM作为初始的伪标签,以避免卷积神经网络的固有缺陷。我们进一步利用Transformer块中固有的亲和力来改进初始的伪标签。由于MHSA中的语义亲和力较粗糙,我们提出了一种基于注意力的亲和力(AFA)模块,旨在导出可靠的伪亲和力标签,以监督Transformer中学习到的语义亲和力。0然后利用学习到的亲和力通过随机游走传播[2,1]修正初始的伪标签,这可以扩散对象区域并减弱错误激活的区域。为了为AFA导出高度可信的伪亲和力标签,并确保传播的伪标签的局部一致性,我们进一步提出了像素自适应细化模块(PAR)。基于像素自适应卷积[4,37],PAR有效地整合了局部像素的RGB和位置信息,以改进伪标签,使其与低级图像外观更好地对齐。此外,由于其简单性,我们的模型可以以端到端的方式进行训练,从而避免了复杂的训练流程。在PASCAL VOC 2012 [12]和MSCOCO 2014[29]上的实验结果表明,我们的方法明显优于最近的端到端方法和一些多阶段竞争者。总之,我们的贡献如下。0•我们提出了一种基于Transformer的端到端WSSS框架,用于图像级标签。据我们所知,这是第一个探索Transformer0•我们利用Transformer的固有优势,设计了一种基于注意力的亲和力(AFA)模块。AFA从MHSA中学习可靠的语义亲0•我们提出了一种高效的像素自适应细化(PAR)模块,它将局部像素的RGB和位置信息纳入标签细化中。02. 相关工作02.1. 弱监督语义分割0多阶段方法。大多数使用图像级标签的WSSS方法都是通过多阶段的过程完成的。通常,这些方法训练一个分类网络,使用CAM生成初始的伪像素级标签。为了解决CAM不完整激活对象的缺点,[46, 56,40]利用擦除策略擦除最具有区分性的区域,从而发现更完整的对象区域。受到分类网络在不同训练阶段倾向于关注不同对象区域的观察启发,[16, 51,18]在训练过程中累积激活的区域。[26, 39,47]提出从多个输入图像中挖掘语义区域,发现相似的语义区域。一种流行的WSSS方法是使用辅助任务训练分类网络以确保完整的对象发现[45, 7, 35,36]。一些最近的研究从新的角度解释CAM的生成,如因果推断[55]、信息瓶颈理论[22]和反对抗攻击[23]。端到端方法。由于极其有限的监督,训练一个性能良好的端到端模型用于WSSS是困难的。[31]提出了一种适应性的 PARFeatuClassilSImageClassifSegmInitition3168480PAR0Transformer0PAR0特征图0分类0层0CAM0MHSA0亲和预测改进标签0分割0解码器0分割预测伪标签0图像0MLP0层0分类0分割0亲和学习0初始伪标签0随机0行走0亲和标签0AFA0分类预测0图3. WSSS的提出的端到端框架。我们使用Transformer作为编码器提取特征图。初始伪标签是使用CAM[59]生成的,然后使用提出的PAR进行改进。在AFA模块中,我们从Transformer块中的MHSA中得到语义亲和性。AFA使用从改进标签派生的伪亲和标签进行监督。接下来,我们使用学习到的亲和性来通过随机游走传播[2,1]修订伪标签。传播的标签最后通过PAR进行改进,作为分割分支的伪标签。0[32]使用图像级别标签作为多实例学习(MIL)问题来处理WSSS,并设计了Log-Sum-Exp聚合函数来驱动网络分配正确的像素标签。1Stage[4]通过引入nGWP池化、像素自适应掩膜细化和随机低层信息传递,实现了与多阶段模型相当的性能。在[53]中,RRM将CAM作为初始伪标签,并采用CRF[20]生成经过改进的标签作为分割的监督。RRM还引入了辅助正则化损失[41],以确保分割图与低层图像外观之间的一致性。[57]引入了自适应亲和场[17],其中包括加权亲和核和特征到原型对齐损失,以确保语义的准确性。上述方法通常采用CNN并提出了卷积的固有缺点,即无法捕捉全局信息,导致对象的激活不完整[13]。在这项工作中,我们探索了Transformer用于端到端的WSSS,以解决这个问题。02.2. Transformer在视觉中0在[11]中,Dosovitskiy等人提出了VisionTransformer(ViT),这是第一个将纯Transformer架构应用于视觉识别任务的工作,在视觉分类基准上取得了惊人的性能。后续的变种表明ViT也有助于下游的视觉任务,如语义分割[49, 9,58],深度估计[33]和视频理解[5]。在[13]中,Gao等人提出了第一个基于Transformer的方法(TS-CAM)用于弱监督目标定位(WSOL)。与WSSS接近,WSOL旨在仅使用图像级别的支持来定位对象。0TS-CAM使用图像级别的监督来训练ViT模型,生成语义感知的CAM,并将生成的CAM与语义不可知的注意力图耦合。语义不可知的注意力图是由类令牌与其他补丁令牌之间的注意力导出的。然而,TS-CAM没有利用MHSA中的内在语义亲和性来提升定位结果。在这项工作中,我们提出了从MHSA中学习可靠的语义亲和性,并使用学习到的亲和性传播CAM。03. 方法论0在本节中,我们首先介绍Transformer骨干网络和CAM以生成初始伪标签。然后,我们介绍了注意力亲和性(AFA)模块,以学习可靠的语义亲和性,并使用学习到的亲和性传播初始伪标签。随后,我们介绍了像素自适应细化(PAR)模块,以确保伪标签的局部一致性。最后,我们在第3.5节中介绍了用于优化的整体损失函数。03.1. Transformer骨干网络0如图3所示,我们的框架使用Transformer作为骨干网络。首先,将输入图像分割成h×w个补丁,每个补丁被展平并线性投影以形成h×w个令牌。在每个Transformer块中,使用多头自注意力(MHSA)来捕捉全局特征依赖关系。具体而言,对于第i个0在头部,使用多层感知机(MLP)层对补丁令牌进行投影,并构建查询Qi∈Rhw×dk、键Ki∈Rhw×dk和值Vi∈Rhw×dv。dk是查询和键的特征维度,dv表示值的特征维度。Y i,jp=(4)+1N +(5)Aikα,(6)4168490值的维度。基于Qi、Ki和Vi,得到自注意力矩阵Si和输出Xi。0Si = QiKi�0√dk,Xi = softmax(Si)Vi. (1)0Transformer块的最终输出Xo是通过将(X1∥X2∥...∥Xn)馈送到前馈层(FFN)中构建的,即Xo =FFN(X1∥X2∥...∥Xn),其中FFN(∙)由层归一化[6]和MLP层组成。(∙∥∙)表示连接操作。通过堆叠多个Transformer块,骨干网络为后续模块生成特征图。03.2. CAM生成0考虑到简单性和推理效率,我们采用类激活图(CAM)[59]作为初始伪标签。对于提取的特征图F ∈ R hw ×d和给定的类别c,通过将特征图F与其对类别c的贡献加权生成激活图Mc,即分类层中的权重矩阵W。0Mc = ReLu�0i = 1 Wi,c Fi �, (2)0其中ReLu函数用于去除负激活。对Mc进行最小-最大归一化,将其缩放到[0, 1]。然后使用背景分数β(0 < β <1)区分前景和背景区域。03.3. 从注意力中获取亲和力0如图1所示,我们注意到Transformer中的MHSA和语义级别的亲和力之间存在一致性,这激发了我们使用MHSA来发现对象区域的想法。然而,在训练过程中,自注意力矩阵没有明确的约束条件,学到的亲和力通常是粗糙和不准确的,这意味着直接将MHSA作为亲和力来改进初始标签效果不好(图2(c))。因此,我们提出了从注意力中获取亲和力模块(AFA)来解决这个问题。假设Transformer块中的MHSA表示为S∈Rhw×hw×n,其中hw是展平的空间尺寸,n是注意力头的数量。在我们的AFA模块中,我们通过线性组合多头注意力直接生成语义亲和力,即使用MLP层。本质上,自注意力机制是一种有向图模型[43],而亲和力矩阵应该是对称的,因为共享相同语义的节点应该是相等的。为了进行这种转换,我们简单地将S和其转置相加。预测的语义亲和力矩阵A∈Rhw×hw表示为0A = MLP(S + S�). (3)0在这里,我们使用矩阵转置运算符�表示张量S中每个自注意力矩阵的转置。伪亲和力标签生成。为了学习有利的语义亲和力A,关键步骤是得到可靠的伪亲和力标签Yaff作为监督。如图3所示,我们从改进的伪标签(稍后将介绍改进模块)中得到Yaff。我们首先使用两个背景分数βl和βh,其中0< βl < βh <1,将改进的伪标签过滤为可靠的前景、背景和不确定区域。形式上,给定CAM M∈Rh×w×C,伪标签Yp构造为0argmax(M i,j,:),如果 max(M i,j,:) ≥ β h,00,如果 max(M i,j,:) ≤ β l,0255,否则,0其中 0 和 255分别表示背景类和忽略区域的索引。argmax(∙)提取具有最大激活值的语义类别。伪亲和性标签 Y aff ∈ Rhw × hw 然后由 Y p 导出。具体来说,对于 Yp,如果像素 (i, j) 和 (k, l)具有相同的语义,我们将它们的亲和性设置为正;否则,它们的亲和性被设置为负。请注意,如果像素 (i, j) 或 (k, l)来自忽略区域,则它们的亲和性也将被忽略。此外,我们只考虑像素 (i, j) 和 (k, l)在同一个局部窗口中的情况,并忽略远距离像素对的亲和性。亲和性损失。然后使用生成的伪亲和性标签 Y aff对预测的亲和性 A 进行监督。亲和性损失项 L aff的构造如下:0L aff = 10(ij,kl) ∈ R − (1 − sigmoid(Aij,kl))0(ij,kl) ∈ R + sigmoid(Aij,kl),0其中 R + 和 R − 分别表示 Y aff中的正样本和负样本集合。N + 和 N − 分别计算 R + 和 R− 的数量。从直观上讲,公式 5 强制网络从 MHSA中学习高置信度的语义亲和关系。另一方面,由于亲和性预测 A 是 MHSA 的线性组合,公式 5也有助于学习自注意力并进一步帮助发现整体对象区域。亲和性传播。可靠的语义亲和性可以用来修正初始CAM。根据 [2, 1],我们通过随机游走 [44]来完成这个过程。对于学习到的语义亲和性矩阵A,语义转移矩阵 T 的计算如下:0T = D − 1 A α,其中 D ii = �Maff = T ∗ vec(M),(7)κij,klrgb = −�|Iij − Ikl|w1σijrgb�2,κij,klpos = −�|Pij − Pkl|w2σijpos�2,(8)5168500其中 α > 1 是一个超参数,用于忽略 A中的微不足道的亲和性值,D 是一个对角矩阵,用于对 A逐行进行归一化。初始 CAM M ∈ R h × w × C的随机游走传播完成如下:0其中 vec(∙) 是将 M向量化的操作。这个传播过程将具有高亲和性的语义区域扩散开来,并减弱错误激活的区域,使得激活图与语义边界更好地对齐。03.4. 像素自适应细化0如图3所示,伪亲和性标签 Y aff是从初始伪标签中导出的。然而,初始伪标签通常粗糙且局部不一致,即具有相似低级图像外观的相邻像素可能不具有相同的语义。为了确保局部一致性,[19, 53,57]采用了密集CRF [20]来细化初始伪标签。然而,CRF在端到端框架中并不是一个理想的选择,因为它会显著降低训练效率。受到[4]的启发,该方法利用像素自适应卷积[37]来提取局部RGB信息进行细化,我们将RGB和空间信息结合起来定义低级配对亲和性,并构建我们的像素自适应细化模块(PAR)。给定输入图像 I ∈ R h × w × 3,对于位置 (i,j) 和 (k, l) 的像素,RGB 和空间配对项定义如下:0其中 I ij 和 P ij 分别表示像素 (i, j)的RGB信息和空间位置。在实践中,我们使用 XY坐标作为空间位置。在公式 8 中,σ rgb 和 σ pos分别表示RGB和位置差异的标准差,w 1 和 w 2 控制 κ rgb和 κ pos 的平滑程度。PAR的亲和性核函数通过对 κ rgb 和κ pos 进行softmax归一化并将它们相加构建,即:0κij,kl = exp0�0(x,y) exp(κij,xy rgb) + w3 pos) �0(x,y) exp(κij,xy pos), (9)0其中(x, y)是从(i, j)的邻居集合N(i,j)中采样的,w3调整位置项的重要性。基于构建的亲和核,我们对初始CAM和传播的CAM进行了改进。改进是通过多次迭代进行的。对于CAM M ∈ Rh × w ×C,在第t次迭代中,我们有0M i,j,c t 0(k,l) ∈ N (i,j) κij,kl M k,l,c t−1. (10)0对于邻居像素集合N(∙),我们遵循[4]的定义,将其定义为具有多个膨胀率的8邻居。0这样的设计确保了训练效率,因为给定像素的膨胀邻居可以通过3×3膨胀卷积轻松提取。03.5. 网络训练0如图3所示,我们的框架由三个损失项组成,即分类损失Lcls,分割损失L seg和亲和损失Laff。对于分类损失,按照常见做法,我们将聚合特征输入到分类层中计算类别概率向量pccls,然后使用多标签软边界损失作为分类函数。0L cls = 10C0c = 1 (yc log(pc cls) + (1 − yc) log(1 − pccls)), (11)0其中C是总类别数,y是真实的图像级别标签。对于分割损失Lseg,我们采用常用的交叉熵损失。如图3所示,分割分支的监督是经过亲和传播修正的标签。为了与低层次的图像外观更好地对齐,我们使用提出的PAR进一步改进传播的标签。亲和损失Laff用于亲和学习,其在公式5中已经描述。总损失是Lcls、L aff和Lseg的加权和。此外,为了进一步提升性能,我们还使用了[41, 57, 54, 53]中使用的正则化损失Lreg,以确保分割预测的局部一致性。最终的总损失形式为0L = L cls + λ1L seg + λ2L aff + λ3L reg,(12)0其中λ1、λ2和λ3平衡了不同损失的贡献。04. 实验04.1. 设置0数据集。我们在PASCAL VOC 2012和MS COCO2014数据集上进行实验。PASCAL VOC2012数据集[12]包含21个语义类别(包括背景类)。该数据集通常与SBD数据集[14]进行增强。增强后的数据集包括10,582张训练图像、1,449张验证图像和1,464张测试图像。MS COCO2014数据集[29]包含81个类别,包括82,081张训练图像和40,137张验证图像。PASCAL VOC和MSCOCO的训练集图像仅有图像级别标签。默认情况下,我们使用平均交并比(mIoU)作为评估指标。6168510表1.使用不同的top百分比进行top-k池化对CAM的影响。结果在PASCAL VOC的训练集和验证集上评估,并以mIoU(%)报告。0gap 50% 25% 10% gmp0train 30.7 34.5 39.6 43.5 48.2 val 31.1 34.8 39.7 43.648.30网络配置。对于Transformer骨干网络,我们使用Segformer中提出的Mix Transformer (MiT) [49],它比原始的ViT[58]更适用于图像分割任务。简而言之,MiT使用重叠的patch嵌入来保持局部一致性,使用空间降维的自注意力机制来加速计算,使用带有卷积的FFN来安全地替换位置嵌入。对于分割解码器,我们使用MLP解码器头[49],它使用简单的MLP层来融合多级特征图进行预测。骨干网络参数使用ImageNet-1k[10]预训练的权重进行初始化,其他参数随机初始化。实现细节。我们使用AdamW优化器[30]来训练网络。对于骨干网络参数,初始学习率设置为6×10^-5,并且每次迭代按照多项式调度器进行衰减。其他参数的学习率是骨干网络参数学习率的10倍。权重衰减因子设置为0.01。数据增强方面,采用随机缩放(范围为[0.5,2.0])、随机水平翻转和随机裁剪(裁剪尺寸为512×512)。批量大小设置为8。对于PASCALVOC数据集的实验,我们训练网络20,000次迭代。为了确保初始伪标签的质量,我们先对分类分支进行2,000次迭代的预热,然后再对亲和分支进行4,000次迭代的预热。对于MSCOCO数据集的实验,总迭代次数为80,000次。相应地,分类分支和亲和分支的预热迭代次数分别为5,000和15,000。默认的超参数设置如下。对于伪标签生成,背景阈值(βh,βl)为(0.55,0.35)。在PAR中,与[4]相同,提取邻居像素的膨胀率为[1, 2, 4, 8, 12,24]。权重因子(w1,w2,w3)设置为(0.3,0.3,0.01)。计算亲和损失时,忽略远距离亲和对的局部窗口半径设置为8。在公式6中,将幂因子α设置为2。公式12中的权重因子分别为0.1、0.1和0.01。超参数的详细调查结果在补充材料中报告。04.2.初始伪标签生成。0在这项工作中,我们使用流行的CAM方法生成初始伪标签。根据经验,对于基于CNN的分类网络,池化方法的选择明显影响CAM的质量。具体而言,全局最大池化(gmp)倾向于低估物体的大小,而全局平均池化(gap)通常会高估物体的区域[19,59]。在这里,我们研究了基于Transformer分类网络的有利池化方法。我们首先将gmp和gap推广为top-k池化,即在每个特征图中平均值为前k%的值。在这种情况下,gmp和gap是top-k池化的两种特殊情况,即top-100%和top-1池化。我们在表1中展示了不同k下top-k池化的影响。表1显示,在我们的框架中,对于基于Transformer的分类网络,使用gmp进行特征聚合有助于生成具有良好性能的CAM,这是由于自注意力的全局建模能力。0表2.我们提出的方法在PASCAL VOC验证集上的消融研究。0方法PAR AFA L reg CRF验证0我们的基准模型46.70我们的0� 56.20� � 62.60� � � 63.80� � � � 66.00表3.用于分割的伪标签评估。0训练 验证0PSA [2] 59.7 – IRN [1] 66.5 – 1Stage [4] 66.9 65.30我们的0无AFA 54.4 54.20AFA(无属性)66.3 64.40AFA(带有MHSA的属性)58.3 55.90AFA 68.7 66.50平均池化(gap)通常会高估物体区域[19,59]。在这里,我们研究了基于Transformer分类网络的有利池化方法。我们首先将gmp和gap推广为top-k池化,即在每个特征图中平均值为前k%的值。在这种情况下,gmp和gap是top-k池化的两种特殊情况,即top-100%和top-1池化。我们在表1中展示了不同k下top-k池化的影响。表1显示,在我们的框架中,对于基于Transformer的分类网络,使用gmp进行特征聚合有助于生成具有良好性能的CAM,这是由于自注意力的全局建模能力。04.3.消融研究和分析0消融分析的定量结果报告在表2中。表2显示,基于Transformer的基准模型在PASCALVOC验证集上实现了46.7%的mIoU。提出的PAR和AFA进一步将mIoU显著提高到56.2%和62.6%。通过辅助正则化损失L reg,我们的框架实现了63.8%的mIoU。CRF后处理进一步提高了2.2%的mIoU,将最终性能提升到66.0%的mIoU。简而言之,表2中的定量结果表明我们提出的模块非常有效。AFA。AFA的动机是从MHSA中学习可靠的语义亲和力,并使用学习到的亲和力修正伪标签。在图4中,我们展示了一些自注意力映射(从最后一个Transformer块中提取)和学习到的亲和力映射的示例图像。图4显示,我们的AFA能够有效地从不准确的MHSA中学习可靠的语义亲和力。AFA模块中的亲和力损失也鼓励MHSA很好地建模语义关系。在图4中,我们还展示了从我们的模型生成的不带AFA模块(w/o AFA)的伪标签,带有AFA模块但没有随机游走传播(AFA w/oprop.)的伪标签以及带有完整AFA模块的伪标签。对于生成的伪标签,AFA模块带来了明显的视觉改进。亲和力传播过程进一步扩散了具有高语义亲和力的区域,并减弱了低亲和力的区域。在表3中,我们报告了在PASCALVOC训练集和验证集上生成的伪标签的定量结果。我们还报告了使用平均MHSA作为语义亲和力进行随机游走传播(AFA prop. withMHSA)的结果。结果表明,AFA模块中的亲和力学习损失显著提高了伪标签的准确性(在训练集上从54.4%的mIoU提高到66.3%的mIoU)。传播过程可以进一步提高伪标签的可靠性,在表2中获得性能提升。还需要注意的是,使用原始MHSA进行传播显著降低了准确性,证明了我们的动机和AFA模块的有效性。PAR。提出的PAR旨在利用低级图像外观和位置信息改进初始伪标签。在图5中,我们展示了PAR的定性改进。图5显示,PAR有效地减弱了错误激活的区域,使其与低级边界更好地对齐。定量上,如表4所示,我们的PAR将基于Transformer基线生成的CAM从48.2%提高到52.9%,超过了基于扩张像素自适应卷积的PAMR[4],后者也用于融合局部图像外观信息。表4还证明了PAR中的位置核κpos对于改进CAM是有益的。关于PAR的更多调查细节请参见补充材料。AFA w/o MHSAImagesGround TruthAffinity mapw/o AFAbels generated from our model without AFA module (w/oAFA), with AFA module but no random walk propagation(AFA w/o prop.) and with full AFA module. For the gen-erated pseudo labels, the AFA module brings notable visualimprovements. The affinity propagation process further dif-fuses the regions with high semantic affinity and dampensthe regions with low affinity.In Tab. 3, we report the quantitative results of the gen-erated pseudo labels on PASCAL VOC train and val set.We also report the results of performing random walk prop-agation with the average vanilla MHSA as semantic affinity(AFA prop. with MHSA). The results show that the affinitylearning loss in the AFA module remarkably improves theaccuracy of the pseudo labels (from 54.4% mIoU to 66.3%mIoU on the train set). The propagation process could fur-ther promote the reliability of pseudo labels, which harveststhe performance gains in Tab. 2. It is also noted that prop-agation with the naive MHSA significantly reduces the ac-curacy, demonstrating our motivation and the effectivenessof the AFA module.PAR. The proposed PAR aims at refining the initial pseudolabels with low-level image appearance and position infor-mation. In Fig. 5, we present the qualitative improvementsof PAR. Fig. 5 shows PAR effectively dampens the falselyactivated regions, enforcing better alignment with the low-level boundaries.Quantitatively, as shown in Tab. 4, our PAR improves theCAM (generated with Transformer baseline) from 48.2% to52.9%, which outperforms PAMR [4], which is also basedon the dilated pixel-adaptive convolution to incorporate lo-cal image appearance information. Tab. 4 also demonstratesthe position kernel κpos in PAR is beneficial for refiningCAM. More investigation details on PAR are presented inthe supplementary material.Refined labelGround truthInitial label7168520AFA无属性MHSA图像地面真值与亲和力映射0图4. MHSA映射、学习到的亲和力映射和用于分割的生成伪标签的可视化。�表示用于可视化注意力和亲和力映射的查询点。0改进的标签真值初始标签0PAR在伪标签上的改进示例。伪标签是使用CAM和Transformer基线生成的。0表4. CAM的改进方法比较。0κ rgb κ pos 训练0CAM 48.2 PAMR [4] � 51.40PAR � 51.70� � 52.904.4.与最先进方法的比较0PASCAL VOC 2012.我们在PASCAL VOC2012验证集和测试集上报告了语义分割性能。R101和WR38分别表示该方法使用ResNet101 [15]和WideResNet38[48]作为骨干。表5显示了该提出的模型明显超过了先前最先进的端到端方法。我们的方法达到了其完全监督对应物Segformer [49]的83.8%,而1Stage [4]和AA&LR[57]只能分别达到WideResNet38的77.6%和79.1%。我们的方法在某些最近的多阶段方法中也具有竞争力。Multi-Stage weakly-supervised models.End-to-End weakly-supervised models.GrounPASCAL VOCMS COCO8168530表5. PASCAL VOC2012数据集上的语义分割结果。Sup.表示监督类型。F:完全监督;I:图像级标签;S:显著性图。†表示我们的实现。0方法Sup.骨干验证测试0完全监督模型。DeepLab0R101 77.6 79.7 WideResNet38 [48] WR38 80.8 82.5Segformer † [49] MiT-B1 78.7 –0R101 65.2 66.4 MCIS [39] ECCV’2020 R101 66.2 66.9AuxSegNet [50] ICCV’2021 WR38 69.0 68.6 NSROM [51]CVPR’2021 R101 70.4 70.2 EPS [25] CVPR’2021 R10170.9 70.80WR38 64.5 65.7 SC-CAM [7] CVPR’2020 R101 66.1 65.9CDA [38] ICCV’2021 WR38 66.1 66.8 AdvCAM [23]CVPR’2021 R101 68.1 68.0 CPN [56] ICCV’2021 R10167.8 68.5 RIB [22] NeurIPS’2021 R101 68.3 68.60VGG16 38.2 39.6 MIL [32] CVPR’2015 – 42.0 40.6CRF-RNN [34] CVPR’2017 VGG16 52.8 53.7 RRM [53]AAAI’2020 WR38 62.6 62.9 RRM † [53] AAAI’2020MiT-B1 63.5 – 1Stage [4] CVPR’2020 WR38 62.7 64.3AA&LR [57] ACM MM’2021 WR38 63.9 64.80我们的MiT-B1 66.0 66.30表6. MS COCO数据集上的语义分割结果。0方法Sup.骨干验证0多阶段弱监督模型。EPS [25] CVPR’2021 I + S R101 35.7AuxSegNet [50] ICCV’2021 WR38 33.90WR38 31.9 CONTA [55] NeurIPS’2020 WR38 32.8 CDA[38] ICCV’2021 WR38 31.7 CGNet [21] ICCV’2021WR38 36.4 RIB [22] NeurIPS’2021 R101 43.80端到端弱监督模型。我们的MiT-B1 38.00我们+CRF I MiT-B1 38.90阶段WSSS方法,如OAA+ [16],SEAM [45],SC-CAM[7]和CDA[38]。值得注意的是,我们的方
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功