基于Transformer的多类标记方法用于弱监督语义分割

95 浏览量更新于2023-10-25 收藏 1.5MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4310弱监督语义分割中的多类标记Transformer徐连1、欧阳万里2、穆罕默德·本那蒙1、法里德·布赛义德1、徐丹31西澳大利亚大学3香港科技大学2悉尼大学，SenseTime计算机视觉集团，澳大利亚{lian.xu，mohammed.bennamoun，farid.boussaid}@ uwa.edu.au，wanli. sydney.edu.au，danxu@cse.ust.hk摘要本文提出了一种新的基于transformer的框架来学习类特定的对象定位图作为弱监督语义分割（WSSS）的伪标签。受标准视觉Transformer中的一类标记的关注区域可以被利用来形成类不可知的定位图这一事实的启发，我们调查了Transformer模型是否也可以有效地捕获类特定的注意力，以获得更具区分性的目标。self-attention(a) ViTself-attention(b) MCTformer（拟定）类不可知注意力地图重塑特定类别的注意力地图重塑通过学习Transformer中的多个类标记来进行对象本地化。为此，我们提出了一个多类To- ken Transformer，称为MCTformer，它使用多个类令牌来学习类To-ken和补丁令牌之间的交互。建议的MCTformer可以成功地产生类判别的对象定位图，从类到补丁的注意力对应于不同的类令牌。我们还建议使用从补丁到补丁Transformer注意力中提取的补丁级成对亲和力来进一步细化局部化映射。此外，所提出的框架，以充分补充类激活映射（CAM）的方法，导致显着优越的WSSS结果的PASCAL VOC和MS COCO数据集。这些结果强调了类标记对于WSSS的重要性。11. 介绍弱监督语义分割（WSSS）旨在通过使用弱监督来减轻对像素级地面真实标签的依赖。该任务的关键步骤是通过使用弱标签来生成高质量的伪分割地面实况标签。图像级标签可以提供简单的弱标签，其仅指示某些类的存在或不存在，而没有任何地面实况本地化信息。以前的 WSSS 方法通常依赖于类激活映射（CAM）[51]来提取ob-1https://github.com/xulianuwa/MCTformer图1. (a)在以前的视觉转换器[10]中，只有一个类令牌（红色方块）用于将信息从补丁聚合到- kens（蓝色方块）。对应于类令牌的学习到的补丁注意力生成类不可知的定位图。(b)相比之下，所提出的MCTformer使用多个类令牌来学习类令牌和补丁令牌之间的交互。学习不同类标记的类到补丁的注意力可以产生类特定的对象定位图。卷积神经网络（CNN）的对象定位图尽管使用复杂的CAM扩展策略或多个训练步骤，现有方法在局部化对象的完整性和准确性方面仍然表现出有限的性能Vision Transformer（ViT）[10]作为第一款专门为计算机视觉设计的Transformer模型，最近在多个视觉任务上实现了性能突破[18]。特别是，由于其强大的远程上下文建模能力，ViT在大规模图像识别方面取得了最先进的性能。ViT将输入图像分割成不重叠的块，并将它们转换成一系列矢量。ViT还使用一个额外的类令牌来聚合来自补丁令牌的整个序列的信息。虽然类标记已经在最近的Transformer方法中被移除[7，8，29]，但这项工作将强调其对于弱监督语义分割的重要性。最近的一项工作DINO [3]揭示了在自监督ViT特征中存在关于图像语义分割的明确信息更确切地说，它是一个-4311用于从类标记的注意力图中发现语义场景布局。这些注意力地图在无监督分割任务中产生了有希望的结果。虽然它被证明，不同的头部在Transformer的注意力可以参加不同的语义区域的图像，它仍然不清楚如何将头部关联到一个正确的语义类。也就是说，这些注意力地图仍然是类不可知的（参见图1）。利用变压器的类特定注意力是具有挑战性的。我们认为，现有的基于transformer的作品有一个共同的问题，即，仅使用一个类来识别，这使得在单个图像上精确定位不同对象具有挑战性。这主要有两个原因。首先，一类标记设计基本上不可避免地从其他对象类别和背景中捕获上下文信息。换句话说，它自然地学习不同对象类的类特定和类属表示，因为只考虑一个类标记，因此导致相当无区别和有噪声的对象定位。其次，该模型使用唯一的一类令牌来学习与数据集中许多不同对象类的补丁令牌的交互。因此，模型容量不足以实现目标区分定位性能。为了解决这些问题，一个简单的想法是杠杆化多个类令牌，这将负责学习不同对象类的表示。为此，我们提出了一个多类令牌Transformer（MCT- former），其中多个类特定的令牌被采用，以利用类特定的Transformer的注意。我们的目标是拥有特定于类的标记，这不能通过简单地增加ViT中的类标记数量来实现，因为这些类标记仍然没有特定的含义。为了确保每个类标记都能有效地学习特定对象类的高级判别表示，我们提出了一种多类标记的更具体地说，我们沿着嵌入维度对来自Transformer编码器的输出类令牌应用平均池化因此，这在每个类标记和相应的类标签之间建立了一对一的强连接。通过这种设计，一个显著的优点是，学习到的不同类的类到补丁的注意力可以直接用作类特定的定位图。值得注意的是，学习到的补丁到补丁注意力，作为训练的副产品，没有额外的计算，可以作为补丁级成对亲和力。这可用于进一步细化类特定的Transformerat-tension映射，从而显著提高本地化性能。此外，我们还表明，所提出的转换器框架完全补充了CAM方法时，应用于补丁令牌（通过同时学习用基于类令牌和补丁令牌的表示进行分类这导致类到-kens和补丁令牌之间的高度一致性，从而大大增强了其派生的对象定位图的区分能力总之，主要贡献有三方面：• 我们建议利用类特定的Transformer atten- tions弱监督语义分割。• 我们提出了一个有效的Transformer框架，其中包括一个新的多类令牌Transformer（MCTformer）加上类感知的训练策略，学习类特定的本地化地图从类到补丁的注意力不同的类令牌。• 我们建议使用补丁到补丁的Transformer属性作为补丁级别的成对亲和力，这可以显着细化类特定的Transformer属性。此外，建议的MCTformer可以充分补充CAM机制，导致高质量的对象定位地图。所提出的方法可以为WSSS生成高质量的类特定的多标签定位图，在PASCAL VOC （测试集上的mIoU为71.6%）和MS COCO（mIoU为42.0%）上建立新的最先进的结果2. 相关作品2.1. 弱监督语义分割大多数现有的WSSS方法依赖于类激活映射[51]来从CNN中提取对象定位映射。原始CAM地图是不完整的，具有粗糙的边界，因此无法为语义分割网络的学习提供足够的监督。为了解决这个问题，已经提出了具体的分割损失，以满足分割监督不足的需要，包括SEC损失[19]、CRF损失[35，46]和对比损失[17]。此外，许多研究都集中在改善从CAM地图获得的伪分割标签这些方法可以分为以下几类：生成高质量的CAM图。一些方法改进了启发式策略，例如先前的工作还利用子类别[4]和交叉图像语义[13，25，33]来定位更准确的对象区域。为了解决标准分类目标损失函数的限制，已经提出了正则化损失[39，49]来引导网络发现更多的对象区域。此外，其他几项工作[41]通过引入扩张卷积来解决标准图像分类CNN的有限接收域问题，以鼓励识别激活向周围环境传播。4312平均池化输出类标记课成绩额外的可学习类标记规范多头注意+标准MLP+输入RGB图像补丁令牌+PE特定类别的Transformer注意图细化的特定于类的Transformer注意图Transformer自注意力图头重塑细化融合补丁级成对亲和力图2.建议的多类令牌Transformer（MCTformer-V1）的概述。它首先将输入的RGB图像分割并转换为一系列补丁令牌。我们建议学习C个额外的类令牌，其中C是类的数量。C类令牌与补丁令牌连接，添加位置嵌入（PE），然后通过连续的LTransformer编码层。最后，输出的C类令牌用于通过平均池化产生类得分。我们聚合的Transformer的注意力从最后的K层和多个头生成一个最终的注意力地图，从中我们可以提取类特定的对象定位地图和补丁级成对的亲和力地图，分别从类到补丁和补丁到补丁的注意力。块级成对亲和度可用于细化类特定的Transformer注意力图，以产生改进的对象定位图。使用亲和学习细化CAM图。几项工作集中在学习成对的语义亲和力，以完善CAM地图。Ahn等人[1]提出了AffinityNet来学习来自原始CAM地图的可靠种子的相邻像素之间的亲和力。学习的Affini- tyNet可以预测亲和矩阵以经由随机游走传播CAM图。类似地，Wangetal. [38]还使用来自分割结果的置信像素学习了成对亲和网络在[39，48]中，直接从分类网络的特征图中学习亲和度以细化CAM图。此外，Xuet al. [44]提出了一种跨任务亲和力，它是从弱监督多任务框架中的显着性和分割表示中学习的与以前的WSSS方法相比，这些方法都是基于CNN的，我们提出了一个基于Transformer的模型来提取特定于类的对象定位图。我们利用自注意机制中的Transformer注意图来生成物体定位图。2.2. 用于视觉任务的Transformer [37]最初被设计用于在NLP领域中对长序列的长程依赖性进行建模。最近，Transformer模型已被用于适应各种各样的视觉任务[18]，例如图像分类[10]，显著性检测[27]和语义分割[30]，实现了有前途的性能。第一个基于Transformer的视觉模型ViT [10]将图像分割为补丁并将其转换为一系列to-kens。这些令牌然后被转发到多个堆叠的基于自我注意力的层中，使每个补丁具有一个全球性的接收场。Caron等人[3]将自监督方法适应于ViT，并观察到类令牌对补丁的关注包含有关场景语义布局的信息。然而，在[3]中没有建立注意力和类之间的一对一映射。此外，他们对Transformer注意力的研究结果还没有扩展到弱监督学习。另一项相关工作TS-CAM [14]将CAM模块适配为ViT。然而，TS-CAM仅利用ViT的类不可知注意力图，而所提出的方法利用来自transformer注意力的类特定定位图。此外，所提出的多类令牌Transformer框架被示出为比原始ViT更好地补充CAM机制，生成比TS-CAM更好的对象定位图（参见表5）。3. 多类别令牌Transformer3.1. 概述我们提出了一种新的纯粹基于transformer的框架（MCTformer-V1 ），利用类特定的对象定位图从transformer的注意。MCTformer-V1的总体架构如图2所示。首先将输入的RGB图像分割成不重叠的补丁，然后将其转换为补丁令牌序列传统的变压器，只使用一个类令牌相比，我们建议使用多个类令牌。这些类标记与嵌有位置信息的补丁标记连接在Transformer编码器中使用了多个Transformer块，以提取两者4313MCT∈×∈∈∈∈∈∈MCT∈KMCTK√∈补丁标记和类标记。我们对来自最后一层的输出类令牌应用平均池化来生成类得分，而不是像传统变换器那样使用多层感知（MLP）来进行分类预测。在训练时，为了确保不同的类令牌可以学习不同的类特定表示，我们采用了第3.2节中详细介绍的类感知训练策略。在由类标记直接产生的类分数和地面实况类标签之间计算分类损失因此，这使得每个类令牌与对应类标签之间能够建立强连接。在测试时，我们可以从Transformer中的类到补丁的注意力中提取类特定的定位图。我们进一步聚合来自多个层的注意力地图，以利用复杂的从不同的Transformer层学习到的冗余信息图2.每一行代表一个特定类对所有补丁的注意力分数。利用这些注意力向量，与所有补丁的原始空间位置，可以产生C类相关的定位图。我们可以从每个Transformer编码层提取类相关的本地化映射。考虑到更高的层学习更多的高级判别表示（而更早的层捕获更多的一般和低级视觉信息），我们建议融合最后K个Transformer编码层的类到补丁的注意力，以探索在生成的对象定位图上的精确度和召回率之间的良好权衡该过程被公式化为：A=1Al，（2）L呃。此外，可以从补丁到补丁的关注度中解释补丁级别的成对亲和力，以进一步细化类到补丁的关注度，从而显著改进类特异性定位图。类特定的定位图被用作种子来生成伪标签以监督分割模型。3.2. 特定类别的Transformer注意力学习多类令牌结构设计。考虑一个输入图像，它被分成NN块，然后被转换成一个序列的补丁令牌TpRM×D，其中D是嵌入维数，M = N 2。我们建议学习C类标记TcRC×D，其中C是类的数量。C类标记与补丁标记连接在一起，并添加位置嵌入以形成其中，是类特定的Transformerattentionex-从所提出的MCTformerr-V1的第l个Transformer编码层开始. 融合后的映射A.两个空间维度，以生成最终的类特定对象定位图AmctRC×N×N。关于如何选择K的详细结果可以在图6中找到。注意细化类。在先前的工作[1，38，44]中经常使用成对它通常需要额外的网络或额外的层来学习亲和图。相比之下，我们提出从建议的MCT former的补丁到补丁的注意力中提取成对的亲和力图，而不需要额外的计算和监督。这是通过R（C+M）×D中的输入令牌T到Transformer en-编码器Transformer编码器具有L个连续编码提取补丁到补丁的注意力A哪里p2p ∈RM×M，层，每个层由一个多头注意（MHA）模块、一个MLP和两个分别应用于MHA和MLP之前的LayerNorm层类特定的多类标记注意。我们使用标准的自我关注层来捕获令牌之间的长期依赖性。更具体地说，我们首先Ap2p=At2t[C+ 1：C+M，C+ 1：C+M]，如图2中的蓝点矩阵所示。块到块的注意力被重塑为 4D 张量 Ap2pRN×N×N×N。example函数用于进一步细化类特定的Transformer注意。这过程被公式化为：N N规范化输入令牌序列并将其转换为三元组Q∈R（C+M）×D，K∈R（C+M）×D和V∈Amctref（c，i，j）=Ap2p（i，j，k，l）·Amct（c，k，l），R（C+M）×D，通过线性层[10]。我们采用（三）Scaled Dot-Product Attention [37]机制计算查询和键之间的注意力值每个输出令牌是使用注意力值作为权重的所有令牌的加权和，公式为：Attention（Q，K，V）=softmax（QK/D）V，（1）其中我们可以获得令牌到令牌的注意力映射At2tR（C+M）×（C+M）和At2t= softmax（QK）/D。从全局成对注意力图At2t，我们可以得出：将类的注意力转移到曲面Ac2pRC×M上，即，类别到补丁的注意力，其中Ac2p= At2t[1：C，C +1：C+M]，如图中黄色圆点的矩阵所示。其中AmctrefRC×N×N是细化的类特定定位图。如表5和图5所示，使用区块级成对亲和力进行细化导致具有改进的外观连续性的更好的对象定位图这在以前的工作中没有观察到[14]。班级意识培训。与使用来自最后一层的单个类标记通过MLP执行分类预测的传统变换器相比，我们具有多个类标记TclsRC×D，我们需要- 确保不同的类令牌可以学习不同的类区分信息。为此，我们应用平均KL4314∈∈∈Σ输入语言符号输出语言符号课成绩图3.建议的MCTformer-V2的概述我们引入一个CAM模块到建议的MCTformer-V1。更具体地，CAM模块由卷积层和全局平均池化（GAP）层组成它将来自最后一个Transformer编码层的整形输出补丁标记作为输入，并输出类得分。至于MCTformer-V1，我们也使用输出类标记来生成类分数。因此，整个模型通过分别应用于两种类型的类预测的两个分类损失来优化。在推理时，我们融合类特定的Transformer注意力（MCT Attention）和PatchCAM映射。通过从块到块的Transformer关注度中提取的块亲和度来进一步细化结果，以产生最终的对象定位图。对输出类令牌进行池化以产生类分数：1个Dy（c）=Tcls（c，j），（4）D J关注在测试时，可以从最后一个卷积层中提取基于补丁令牌的CAM（以下称为PatchCAM）映射。我们提取PatchCAM映射ApCAM，其中ApCAM∈RN×N×C，通过应用最小-其中yRC是类别预测，c1，2，...， C.Tcls（c，j）表示Tcls中的元素，即，第c个类令牌的第j个特征。最后，我们计算类c的类得分y（c）与其真实标签之间的多标签软余量损失这为每个类令牌提供了强大而直接的类感知监督，使每个类令牌能够捕获类特定的信息。3.3. 补丁令牌CAM的补充我们将一个CAM模块[14，50，51]集成到所提出的多类令牌Transformer框架中，如图3所示，构建一个扩展模型，称为MCTformer-V2 。更具体地说，给定来自Transformer编码器Tout的输出令牌序列，特征图Foutpat上的最大归一化。前...然后，将PatchCAM图与所提出的类特定的Transformer注意力图组合，以通过逐元素乘法运算产生融合的对象定位图AA=ΔpCAMΔmct，（6）其中Δ表示Hadamard乘积。类特定的对象定位图细化。类似于MCTformer-V1中提出的注意力细化机制（参见等式2）。3），我们还可以从MCTformer-V2中提取块到块的注意力图作为块级成对亲和度，以如下细化融合的对象定位图（C+M）×D，我们把它分成输出类tokenNNRTout cls∈RC×D和输出补丁令牌Tout pat∈的ref（c，i，j）=Ap2p（i，j，k，l）·A（c，k，l）。（七）RM ×D。补丁令牌然后被重新整形并转发kl到具有 C 个输出通道的卷积层，产生 2D 特征图FoutpatRN×N×C。Foutpat最终通过全局平均池（GAP）层转换为类预测。此外，我们还使用输出类令牌来产生类分数（参见等式10）。（四））。总损失是在图像级地面实况标签与分别来自类别令牌和补丁令牌的类别预测之间计算的两个多标签软余量损失的总和，如下所示：Ltotal=Lcls − class + Lcls − patch。（五）结合PatchCAM和类特定的Transformer额外的可学习类标记平均池化Transformer编码器类分数NxN xDNxNxC重塑CONV间隙输入RGB图像PatchAffinityMCT注意事项PatchCAM融合图细化融合图细化4315MCTformer-V2提供了一个有效的基于transformer的框架，其中CAM方法可以灵活而鲁棒地适应多标签图像。通过将分类损失应用于来自类令牌和补丁令牌的类预测，可以加强这两种类型的令牌之间的强一致性以改进模型学习。直觉主要是双重的。首先，这种一致性约束可以被视为一种辅助监督，以指导更有效的补丁表示的学习。第二，强成对相互作用（即，消息传递）也可以导致更有代表性的补丁令牌，因此，4316××表1.在PASCAL VOC训练集上根据mIoU（%）评估初始种子（Seed）和对应的伪分割真实掩模（Mask）。方法种子掩模PSA（CVPR 18）[19] 48.0 61.0Chang等（CVPR 20）[4] 50.9 63.4SEAM（CVPR 20）[39] 55.4 63.6AdvCAM（CVPR21）[22] 55.6 68.0CDA（ICCV21）[32] 55.4 63.4（一）（b）第（1）款(c)Pascal VOCMS CocoZhang等人（ICCV21）[48] 57.4 67.8MCTformer（Ours）61.7 69.1表2. WSSS方法在PASCAL VOC 2012val和使用不同分割主干的测试集上的mIoU（%）方面的性能比较。补充：监管I：图像级地面实况标签。S：现成的显着图。方法骨干辅助核算Val测试[13]第13届中国国际音乐节ResNet101I+S64.365.3ICD（CVPR 20）[12]ResNet101I+S67.868.0Zhang等人（ECCV 20）[49]ResNet50I+S66.666.7Sun等人（ECCV 20）[33]ResNet101I+S66.266.9EDAM（CVPR 21）[42]ResNet101I+S70.970.6EPS（CVPR 21）[23]ResNet101I+S71.071.8Yao等人（CVPR 21）[45]ResNet101I+S68.368.5[44]第44话ResNet38I+S69.068.6Zhang等人（AAAI20）[46]ResNet38我62.662.9Luo等人（AAAI20）[28]ResNet101我64.564.6Chang等（CVPR 20）[4]ResNet101我66.165.9Araslanov等人（CVPR20）[2]ResNet38我62.764.3[39]第39话ResNet38我64.565.7BES（ECCV 20）[5]ResNet101我65.766.6[47]第ResNet38我66.166.7[22]第二十二话ResNet101我68.168.0ECS-Net（ICCV21）[34]ResNet38我66.667.6Kweon等人（ICCV 21）[20]ResNet38我68.468.2[32]第ResNet38我66.166.8Zhang等人（ICCV 21）[48]ResNet38我67.868.5MCTformer（Ours）ResNet38我71.971.6引入更多的类别区分PatchCAM映射，与TS-CAM [14]中仅使用一个类别令牌相同。4. 实验4.1. 实验设置数据集。我们在两个数据集上评估了所提出的方法，即，PASCAL VOC 2012 [11]和MS COCO 2014 [26]。PASCAL VOC有三个子集，即，训练（train）、验证（val）和测试集，每个集分别包含1，464、1，449和1，456个图像。它有20个对象类和一个用于语义分割任务的背景类。在之前的工作[4，22，32，39，44，48]之后，使用来自[15]的额外数据的10，582张图像的增强集进行训练。MS COCO使用80个对象类和一个背景类进行语义分割。它的训练集和验证集分别包含80K和40K图像。注意，我们只使用了图像级图4. PASCAL VOC和MS COCOval集的定性分割结果。(a)输入. (b)地面实况(c)我们的了在训练过程中从这些数据集中提取地面实况标签。评估指标。与以前的工作[22]一致，我们使用平均交集对并集（mIoU）来评估两个基准的val集上的语义分割性能。我们从官方PASCAL VOC在线评估服务器上获得了PASCAL VOC测试实作详细数据。我们使用在ImageNet [9]上预训练的DeiT-S Backbone [14，36]构建了拟议的MCT- former。更具体地说，我们使用DeiT-S中的预训练类令牌来初始化所提出的多类令牌。我们遵循[14，36]中提供的数据增强和故障训练参数。训练图像的大小调整为256第256章然后224224 对于语义分割，我们遵循先验作品[1，44，46，48]使用ResNet38 [43]基于DeeplabV1. 在测试时，我们使用多尺度测试和CRF以及[6]中建议的超参数进行后处理。4.2. 与现有技术的PASCAL VOC. 我们遵循常见的做法[4，22，32，39，48]在提出的对象局部化映射（种子）上应用PSA[1]，以在训练集上生成伪语义分割地面实况标签（掩码）。如表1所示，所提出的方法在初始种子和伪地面实况掩模上的表现优于实验，比最佳初始种子[48]好4.3%。表2示出了所提出的MCT形成器分别在val和测试集上实现71.9%和71.6%的分割结果（mIoU）建议的MCTformer执行显着优于所有现有的，ING方法只使用图像级标签。特别地，MCTformer甚至可以实现与使用附加显著性图的方法相比相当或更好的结果。图4（左）显示，使用我们的伪标签训练的分割模型可以在各种具有挑战性的场景中产生准确和完整的对象轮廓。可可小姐。表3示出了所提出的方法实现了42.0%的分割mIoU，大大超过了值得注意的是，从表3中，我们观察到，与最近的方法相比，使用附加显着图的几种方法获得了较差的性能4317表3. WSSS方法在MS COCO值集上的mIoU（%）方面的性能比较。方法骨干辅助核算ValEPS（CVPR 21）[23]ResNet101I+S35.7[44]第44话ResNet38I+S33.9Wang等人（IJCV 20）[38]VGG16我27.7Luo等人（AAAI20）[28]VGG16我29.9[39]第39话ResNet38我31.9[47]第ResNet38我32.8Kweon等人（ICCV 21）[20]ResNet38我36.4[32]第ResNet38我33.2MCTformer（Ours）ResNet38我42.0表4.生成对象定位图的模型的复杂性。提出的MCT成形器基于DeiT-S [36]。型号图像大小#Params（M）MAC（G）ResNet38224×224104. 3 99. 8MCTformer-V1224×22421.7 4.6MCTformer-V2224×22421.8 4.7ODS只使用图像级标签。这揭示了依赖于预先训练的显着性模型的局限性，这可能在具有挑战性的数据集上表现不佳。几个定性分割结果如图4所示（右）。模型复杂性。我们比较了所提出的MCTformer的模型复杂度与用于生成对象定位图的常用CNN模型[1，39 ， 48]，即， ResNet38 [43]，在参数和乘加计算（MAC）的数量方面。表4显示，所提出的基于DeiT-S [36]的方法的复杂性明显小于基于ResNet 38的方法。4.3. 消融研究多个特定于类的标记的效果。在传统的ViT中，类标记注意力仅指示类不可知的本地化映射。TS-CAM [14]在ViT的输出补丁令牌上应用CAM以获得类特定的本地化映射。在其正式实现之后，TS-CAM在PAS-CALVOC 训练集上生成的对象定位图获得了 29.9% 的mIoU，如表5所示。我们只是在他们的Patch-CAM地图上添加了一个ReLU层（即，TS-CAM*），获得了11.4%的大幅改善。相比之下，建议的基线方法，即，在所提出的MCTformer-V1中的多个类特定令牌的类特定Transformer注意力图达到47.2%的mIoU，以5.9%的显著裕度优于 TS-CAM标记这证明了所提出的基于Transformer注意力的类特定定位图的有效性。PatchCAM的互补性和建议类特定的Transformer注意.表5显示了使用标准CAM模块由MCTformer-V2生成的对象定位图，获得了58.2%的mIoU这可以表5.在PASCAL VOC训练集上根据mIoU（%）评估不同的对象定位图。方法mIoU[14] 29.9[14] 2016年中国国际汽车工业展览会MCTformer-V1（注意）47.2MCTformer-V1（Attention + PatchAffinity）55.2MCTformer-V2（Attention + PatchCAM）58.2MCTformer-V2（Attention + PatchCAM + PatchAffinity）61.7表6.在PASCAL VOC值集上使用不同对象定位图的分割结果，以mIoU（%）表示。方法mIoU[14] 2016年中国国际汽车工业展览会MCTformer-V1（注意）55.6MCTformer-V1（Attention + PatchAffinity）58.8MCTformer-V2（Attention + PatchCAM）61.1MCTformer-V2（Attention + PatchCAM + PatchAffinity）62.6表7.在生成的特定于类的Transformer注意力（以PASCALVOC训练集上的mIoU（%）表示）上，比较MCTformer-V1中用于类预测的不同方法全连接最大池平均池mIoU 41.5 26.847.2通过使用补丁级别的成对亲和力进行细化，可以进一步提高到61.7%如图5e所示，类特定的Transformer注意力可以有效地定位对象，同时具有低响应和噪声。相比之下，PatchCAM地图（图5f）显示对象区域的高响应，同时它们在激活的对象周围也有更多的背景像素。这两者的融合导致明显改进的定位图，其仅激活对象区域，背景噪声显著降低（图5g）。这些类特定的定位图证实了我们提出的模型与TS-CAM [14]（图5b）相比具有显著的优越性能，TS-CAM [14]在大多数情况下显示稀疏和低对象响应。贴片亲和力的影响。如表5和表6所示，通过将学习到的块到块注意力作为块级成对亲和度应用于细化来自MCTformer-V1的对象定位图，伪分割标签图可以提高8%，并且相应地，分割性能也提高了3.2%的增益与不使用补丁亲和力的变体相比，MCTformer-V2在生成的伪标签的质量和分割性能方面产生一致的改进图5（d）中的可视化结果和(h)表明，细化的对象定位图看起来更完整，对象轮廓更平滑。这进一步证明了我们的方法在生成有效的补丁亲和力而无需额外计算方面的巨大优势不同的类预测方法。我们评估了不同策略对生成的特定类别的Transformer注意力地图的影响。4318图5.来自不同方法的不同对象定位图的可视化示例：（b）TS-CAM [14];（c）V1-attn（来自我们的MCTformer-V1的类特定的Transformer注意）;（d）V1-attn-细化（通过来自MCTformer-V1的补丁亲和性的细化的类特定的Transformer注意）;（e）V2-attn（来自MCTformer-V2的类特定的Transformer注意）;（f）V2-PatchCAM（来自MCTformer-V2的补丁- CAM映射）。(g)V2-融合（类别特定的Transformer注意力的融合图和来自MCTformer-V2的PatchCAM图）;（h）V2-融合-细化（通过来自MCTformer-V2的补丁亲和度的细化融合图）。(i)地面实况较大的FP和FN值表明过度激活增加4540353025201 2 3 4 5 6 7 8 91011 12K（最后K层）图6.使用假阳性率（FP）、假阴性率（FN）和mIoU，通过融合来自最后K个Transformer层的类标记注意力来评估对象定位图如表7所示，最大池化在特定于类的定位方面表现最差，mIoU仅为26.8%，而使用全连接层进行线性投影，mIoU提高了41.5%。平均池化产生最佳性能，mIoU为47.2%。这些结果证实了我们最初的设计动机。具体地，在全连接层内涉及额外的参数与只需要关注最相关的块的最大池化相比，平均池化可以鼓励类令牌关注更相关的块，这有利于学习更好的空间上下文以进行定位。注意力融合的层数。我们通过融合多个Transformer编码层的不同类别标记的注意力图来评估目标定位图的质量。在[39]之后，我们使用三个评估指标，即，假阳性率（FP）、假阴性率（FN）和mIoU，其中和欠激活区域。如图6所示，聚集来自更多层的信息产生倾向于被过度激活的对象定位图。这表明早期层产生更通用的低级表示，这可能对高级语义本地化没有很大帮助通过减少层数，所生成的对象定位图以较低的激活覆盖率为代价变得更具区分性。图6中报告的结果表明，融合来自最后三层的注意力可以产生最佳伪分割地面实况标签（mIoU为47.2%）。5. 结论本文介绍了MCTformer，一个简单而有效的基于transformer的框架，以产生类特定的对象定位地图，并取得了国家的最先进的成果WSSS。我们发现，类到补丁的注意力不同的类令牌可以发现类特定的本地化信息，而补丁到补丁的注意力也可以学习有效的成对的亲和力，以改善本地化地图。因此，我们证明了所提出的框架可以无缝地补充CAM机制，从而为WSSS提供高质量的伪地面实况标签。未来的工作将扩展所提出的方法到更多的下游任务，如弱监督对象检测和实例分割。谢谢。本研究得到了澳大利亚研究委员会资助 DP210101682、DP 210102674、DP 200103223、澳大利亚医学研究未来基金MR-FAI 000085、CRC-P智能材料回收设施（SMRF）- Curby Soft Plastics的部分支持，香港特别行政区研究资助局（研资局）的“早期就业计划” （拨款编号26202321 ）及香港科技大学创业基金（拨款编号26202321）。R9253FPFNMiou性能（%）4319引用[1] 安智云和郭淑华。学习像素级语义亲和力与图像级监督弱监督语义分割。在CVPR，2018年。三、四、六、七[2] 尼基塔·阿拉斯拉诺夫和斯特凡·罗斯图像标签的单阶段语义分割。在CVPR，2020年。6[3] MathildeCaron ， HugoTouvron ， IshanMisra ， Herve'Je'gou ， Julien Mairal ， Piotr Bojanowski ， and ArmandJoulin.自我监督视觉转换器中的新兴特性。ICCV，2021。第1、3条[4] 张玉婷，王乔松，洪伟智，罗宾逊·皮拉穆图，蔡义轩，杨明轩。通过子类别探索的弱监督语义分割。在CVPR，2020年。二、六[5] 陈丽怡，吴薇薇，付晨晨，韩晓，张运涛.具有边界探索的弱监督语义分割。在ECCV，2020年。6[6] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.使用深度卷积网络和全连接crf的语义图像分割2015年，国际会议。6[7] Xiangxiang Chu，Zhi Tian，Yuqing Wang，Bo Zhang，Haibing Ren，Xiaolin Wei，Huaxia Xia，and ChunhuaShen. Twins：Revisiting the design of spatial attention invision transformers.在NeurIPS，2021年。1[8] 楚翔翔，田智，张波，王新龙，魏晓林，夏华夏，沈春华.视觉变换器的条件位置编码。arXiv预印本arXiv：2102.10882，2021。1[9] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。CVPR，2009。6[10] AlexeyDosovitskiy，LucasBeyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner ， Mostafa Dehghani ， Matthias Minderer ，Georg Heigold，Syl- vain Gelly，et al. An image is worth16x16 words ： Trans- formers for image

下载后可阅读完整内容，剩余1页未读，立即下载