基于部分类激活注意力的语义分割方法

38 浏览量更新于2023-10-25 收藏 13.24MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

{lsa1997, keda2010}@mail.ustc.edu.cn, {htxie, zhyd73}@ustc.edu.cn, tian.qi1@huawei.com…�…�…� × �(e) CAM…�168360用于语义分割的部分类激活注意力0刘孙奥 1 谢宏涛 1* 徐海 1 张永东 1 田琦 201 中国科学技术大学 2 华为云与AI0摘要0当前基于注意力的语义分割方法主要通过成对亲和力和粗分割来建模像素之间的关系。本文首次探索了通过类激活图(CAM)来建模像素之间的关系。除了以往从图像级别分类生成的CAM外，我们提出了部分CAM，将任务细分为区域级别的预测，并实现更好的定位性能。为了消除由于局部上下文的差异而引起的类内不一致性，我们进一步提出了部分类激活注意力(PCAA)，它同时利用局部和全局类别级别的表示来计算注意力。一旦获得部分CAM，PCAA收集局部类别中心并在局部计算像素与类别的关系。应用局部特定的表示可以在不同的局部上下文下得到可靠的结果。为了保证全局一致性，我们从所有局部类别中心收集全局表示并进行特征聚合。实验结果证实，部分CAM在像素关系方面优于以前的两种策略。值得注意的是，我们的方法在Cityscapes、PascalContext和ADE20K等几个具有挑战性的基准测试中取得了最先进的性能。代码可在https://github.com/lsa1997/PCAA上获得。01. 引言0场景解析是一项像素级预测任务，旨在为给定图像中的每个像素分配一个类别标签。这个任务的困难之处在于属于同一类别的像素的特征可能因纹理、光照和位置的差异而大不相同。因此，为了实现精确的分割，我们需要消除这种局部特异性，并生成具有全局一致性的特征。近年来，基于卷积神经网络(CNNs)的模型采用了各种策略来处理这个问题，如金字塔池化[40]、空洞卷积0* 通讯作者。0(a) 图像0(f) 部分CAM0(c) 粗分割0(b) 真值0(d) 成对亲和力0图1.建模像素之间关系的不同方法。这里，H×W表示输入的空间尺寸，K是类别的数量。非局部使用点积计算成对亲和力来构建像素之间的关系，而OCRNet采用粗分割预测来获取类别级别的关系。本文首次引入CAM来建模像素与类别之间的关系，并提出部分CAM来细分预测任务以获得更好的定位性能。最佳观看效果为彩色图像。0卷积[2]和自注意力[9,14,34,44]。在这些方法中，基于注意力的模型通常表现出较好的性能。它们通常包括两个步骤：首先计算像素之间的关系，然后根据关系图通过加权聚合来增强特征。当前的研究主要采用两种策略来计算像素之间的关系：成对亲和力和粗分割。非局部模型[26]使用点积作为成对亲和力来构建像素之间的关系。这些方法计算量大，像素级的聚合不能保证相同类别的全局一致性。在图1(d)的前两个注意力图中，红点标记的两个像素都属于建筑物，但关注的重点不同。on different areas. Features in these areas may differ, whichwill lead to intra-class inconsistency after aggregation. Onthe other hand, models like ACFNet [36] and OCRNet [32]introduce coarse segmentation maps to collect global classcenters and model pixel-to-class relation. For each class,applying a global representation improves the intra-classconsistency but ignores the local specificity. If features varydue to different local contexts, a single global center may beunable to model pixel relation of the whole image correctly.Based on the analysis above, this paper focuses on twoissues: (i) is there another way to model pixel relation in ad-dition to pairwise affinity and coarse segmentation, and (ii)how to improve global consistency while considering localspecificity. For the first issue, our motivation comes fromClass Activation Map (CAM). The CAM method [41] iswidely used in weakly supervised segmentation with onlyimage-level annotations to localize objects for each class.Intuitively, it can be used to represent pixel-to-class rela-tion similarly to coarse segmentation. However, as shownin Fig. 1(e), it is far from sufficient enough for attention cal-culation. Localizing objects from the whole image is ratherdifficult because image-level classification completely ig-nores spatial information. Therefore, we propose PartialCAM as a subdivision of the original CAM. An input imageis split into non-overlapped patches, and the activation mapswill be generated from region-level prediction. Each partialCAM can thus be seen as a smaller-scale CAM within onepatch. Note that the region-level ground truth is availablesince pixel-wise annotations are provided for segmentation.Compared with the conventional CAM, partial CAM forcesthe network to learn more spatial information and can pro-vide more reliable localization results. Fig. 1(f) illustratespartial CAMs with 4 × 4 patches.To handle the second issue, we propose Partial Class Ac-tivation Attention (PCAA). In contrast to the previous workssimply using pixel features or global centers, PCAA utilizeslocal and global representations simultaneously. Specifi-cally, it first gathers local class representations based on thepartial CAMs and computes pixel-to-class similarity mapsinside each patch. For each class, all local representationsare then aggregated into one global class center which isused as the basis for feature augmentation. PCAA consid-ers the variances of local contexts by calculating pixel re-lation locally and ensures the consistency of final featuresthrough global class centers, which fits our purpose to im-prove global consistency while considering local specificity.To the best of our knowledge, we are the first to intro-duce the CAM method to the attention mechanism for se-mantic segmentation. Extensive experiments demonstratethat our partial class activation attention outperforms theprevious models based on pairwise affinity and coarse seg-mentation. It achieves state-of-the-art results on three chal-lenging public benchmarks including Cityscapes [5], Pascal168370Context [20]和ADE20K[42]。我们希望它能为注意力机制提供不同的视角。我们的主要贡献总结如下：0•我们提出了部分类激活图作为一种表示像素关系的新策略。它通过将图像级分类任务细分为区域级预测来改进CAM生成。0•我们设计了部分类激活注意力来增强特征表示。它通过局部和全局类中心同时考虑局部特异性和全局一致性。0•我们通过大量实验证实了所提方法的有效性。具体而言，我们的方法在Cityscapes上达到了82.3％，在PascalContext上达到了55.6％，在ADE20K上达到了46.74％。02. 相关工作0语义分割。这是一个长期存在的计算机视觉任务，自从全卷积网络（FCN）[19]出现以来，CNN已成为主流方法。为了扩大感受野并捕捉长距离信息，提出了各种策略。一种常见的方法是多尺度上下文，如PSPNet [40]和Deeplabv3[3]。GFFNet [17]，ACNet [10]和CCL[6]利用门控机制控制不同层级之间的信息传播。为了捕捉形状变异的上下文，提出了基于动态卷积的方法[7，8，11]。最近，基于注意力的模型表现出可观的性能，并成为语义分割的流行策略。注意力模型。自注意力首次用于机器翻译[25]。非局部网络[26]将这种机制引入计算机视觉任务。DANet[9]设计了一个并行结构来计算空间和通道注意力。提出了各种策略[14，44]来降低计算成本。DNL[29]证明了通过将非局部计算分解为成对项和一元项，可以改进基本注意力。ACFNet [36]和OCRNet[32]考虑了类级信息。它们通过粗分割图获取全局类中心，并使用这些类表示来计算像素与类的关系。本文提出的方法也对类级相似性进行建模，但通过类激活图提供了一种新的策略。类激活图。CAM[41]是一种广泛使用的策略，用于为弱监督的语义分割生成伪标签。最近的研究探讨了不同的策略来增强CAM的预测。像[23，28]这样的方法提出了区域擦除来扩大每个CAM中的激活区域。AffinityNet[1]提出了通过基于像素级语义亲和力的随机游走来改进CAM的方法。[15]设计了在线注意力累积策略，逐步改进CAM。168380将代表性区域积累为整体对象。SEAM[27]采用自监督方法改善了CAM的仿射变换等变性。在本文中，我们利用CAM来建模注意力机制中的像素关系，并进一步将其细分为部分CAM。03. 方法0在本节中，我们首先描述了部分CAM的概念，它专门为具有像素级注释的全监督语义分割任务设计。然后，我们详细介绍了部分类激活注意力的计算方法。最后，我们提出了整体网络结构，以整合所提出的模块。03.1. 部分类激活图0在引入部分CAM之前，我们首先回顾CAM生成的过程。CAM生成。它首先由[41]提出，通过全局平均池化（GAP）生成类激活图。在从卷积网络中获取特征X之后，使用GAP层来降低空间分辨率。然后将输出馈送到全连接层，以生成用于分类的概率分数。要生成CAM，我们需要根据全连接层的权重对X进行加权求和。显然，在前向传递之后需要额外的操作，不能以端到端的方式使用。注意，上述两个层都是线性操作，全连接层等效于1×1卷积层，[39]提出了一步CAM生成策略如下：0Ac=Conv1×1(Xin), (1)0Sc=Sigmoid(AvgPool1×1(Ac)), (2)0其中Ac∈RK×H×W是激活图，Sc∈RK×1×1是分类得分。这里K表示分割的类别数。AvgPool1×1说明平均池化层生成大小为1×1的输出，即全局池化。部分CAM。CAM方法可以从分类模型中定位对象。这对于弱监督任务非常重要，因为通常只提供图像级别的标签。全局池化层成为分割和分类之间的桥梁，但完全忽略了空间关系。如图1(e)所示，生成的激活图通常集中在最具有区分性的部分，或者错误地激活背景像素。然而，对于完全监督的分割任务，像素级注释使我们能够为更精确的CAM生成引入空间信息。具体而言，我们用自适应平均池化代替GAP操作，将整个图像分成几个部分，这些部分是不重叠的patch。0这里。网络然后预测概率得分并在每个patch内生成部分CAM：0Sc=Sigmoid(AvgPoolS×S(Ac)). (3)0这里，激活图Ac被分成S×S个部分，Sc∈RK×S×S。图2(a)提供了S=4的一个例子。部分CAM可以看作是原始CAM的一个细分，它是从每个部分而不是整个图像生成的。部分CAM预测的真实标签可以从像素级注释计算得到。首先，将分割标签转换为大小为K×H×W的one-hot向量Lc∈RK×H×W，然后使用输出大小为S×S的最大池化生成每个部分的标签：0ˆLc=MaxPoolS×S(Lc), (4)0其中ˆLc∈RK×S×S。这样，部分CAM预测被形式化为每个部分内的多标签分类任务。与图像级别标签相比，patch级别的标签为网络提供了更精细的监督和空间信息。因此，部分CAM显示出比原始CAM更精确的定位性能。03.2.部分类别激活注意0[32,36]已经证明，学习类别级别的表示是改进分割注意机制的有效方法。与使用粗糙预测的方法相比，我们利用部分CAM来实现这个目标。图2(b)说明了部分类别激活注意(PCAA)的整个过程。基于patch的预测使我们能够在每个部分内计算局部类别中心。由于这些局部表示是从比整个图像更小的尺度收集的，它们可以更好地表示各种局部上下文下的局部特异性。局部类别中心。方程(3)中的自适应池化层被设计为根据输出大小S将整个图像分割成不重叠的patch。给定大小为H×W的输入，它将被分割成NP×h×w，其中h=H/S，w=W/S，NP=S×S表示区域的数量。在为每个部分获取部分CAM之后，我们通过加权和计算局部类别中心：0ˆFl=˜Sc∙[σs(˜Ac)�×˜Xin]. (5)0我们使用˜(∙)来表示被分割和展开的特征。因此，˜A(i)c∈RN×K，˜X(i)in∈RN×C，其中N=h×w。i∈{0,...,NP−1}表示每个patch的索引。σs(∙)在空间维度N上执行softmax归一化。此外，我们利用方程(3)中的概率得分来停用那些不存在的类别的局部中心，确保只有与类别相关的特征被收集。在这里，Sc被重塑为RNP×K×1。从方程(5)中，我们得到ˆFl∈RNP×K×C。局部中心既期望具有局部上下文的特定性，又期望具有CNN� × �4 × 4� × � × �� × ℎ × � × �� × � × �� × ℎ� × �� × ℎ� × �� × ℎ� × �� × � × �� × � × �1 × � × �…softmax� × � × �� × ℎ × � × ��(a)(b)…………��ConvConvC��Fl = Linear(Conv1×1(ˆFl)),(6)Fg =�ifiF(i)l ,(7)…………channelnode�� × ℎ × � × �� × ℎ × � × �� × � × �…………��1 × � × �…��…�softmaxFigure 3. Illustration of gathering local class centers and fusingthem as global representations.P(i) = σc(Wq(˜X(i)in ) × Wk(F(i)l )⊤),(8)˜X(i)out = P(i) × Wv(Fg).(9)168390池化0PCAA 模块（S=4）0部分类别0激活注意力0部分CAM0部分CAM0分割0分割0恢复0重复0局部聚合0全局融合0: 矩阵乘法0: 逐元素求和0C : 连接0图2.所提方法的详细架构。整体网络结构如(a)所示，其中部分类别激活注意力（PCAA）模块的池化大小设置为4。（b）说明了部分类别激活注意力计算的过程。它利用局部类中心计算相似性图，并使用全局表示进行特征聚合。0应该足够通用以表示每个类别的语义。因此，我们采用图卷积单元[4]构建局部中心之间的相互作用。将每个局部中心视为一个节点，我们首先在节点之间进行信息扩散，然后更新每个节点的特征。如图3所示，可以通过以下方式实现：0由于局部类中心是在每个区域内计算的，因此同一类别的表示可能因为局部特异性而不同。为了提高整个图像的类内一致性，我们需要获得全局类别表示。通过加权聚合融合所有区域的局部中心：0其中 f i 是每个部分的可学习权重，F g ∈ R 1 × K × C表示每个类别的全局中心。特征聚合。一旦获得了局部和全局类中心，我们将两种类型的特征应用于注意力计算。首先，使用局部中心计算0局部聚合全局融合0: 矩阵乘法0: 逐元素乘法0像素相似性图在每个区域内部：0这里 P ∈ R N P × N × K 表示像素与类别的关系。σ c ( ∙ )在类别维度 K上执行softmax归一化。聚合后的增强特征计算如下：168400最后，˜ X out 恢复为 H × W ×C，作为注意力计算的输出。W q，W k，W v执行线性变换，就像非局部模块[26]中所做的那样。PCAA独特地采用部分CAM来建模像素关系，并在注意力计算的两个步骤中使用不同类型的类中心。与整个图像相比，同一类别的特征在每个部分内的方差通常较小。因此，通过使用不同的局部类中心计算相似性图来减轻局部特异性的影响。同时，采用全局表示进行特征聚合保证了最终输出的类内一致性。03.3. 网络架构0按照分割方法的常见做法[14,29]，我们基于扩张ResNet[12]构建了我们的网络。首先通过一个3×3的卷积块将提取的特征Xin降低到512个通道，然后将其输入到PCAA模块中计算部分类激活注意力。增强的特征与Xin进行连接，生成最终的分割图。模块设计。我们可以调整自适应池化层的输出大小S，或者集成多个PCAA模块以适应不同的输入大小。对于注意力计算，我们采用瓶颈结构来降低计算成本，这是大多数工作[32,44]中的做法。具体来说，线性投影Wq、Wk、Wv之后，通道数C减半。增强的特征Xout经过另一个1×1的卷积块来恢复通道维度。最后，通过残差连接与输入特征相加。损失函数。我们采用交叉熵作为基本的分割损失lseg。根据[40]的方法，在骨干网络的第三层添加了一个辅助分支来提供深度监督laux。在训练部分CAM时，我们选择了焦点损失[18]lfocal来增强对难样本的学习。如果有多个PCAA模块，每个模块的损失都等权重求和。最终的损失可以表示如下：0最终的损失函数为λ1lseg + λ2laux + λ3lfocal。(10)0λ1、λ2、λ3分别设置为1、0.4、1。04. 实验0我们在Cityscapes[5]、PascalContext[20]和ADE20K[42]上验证了所提出方法的有效性。在下面的子章节中，我们首先对数据集和实现细节进行简要介绍。然后进行全面的消融实验和可视化分析。最后，我们将我们的结果与三个数据集上的最先进方法进行比较。04.1. 数据集0Cityscapes。该数据集是一个用于城市场景理解的大规模数据集，包含19个语义分割任务的类别。总共提供了5000张带有像素级注释的图像，分为2975/500/1525张用于训练、验证和测试。PascalContext。该数据集包含4998张用于训练和5105张用于验证/测试的图像。根据[13,31]的方法，我们评估最常见的59个类别的性能，不考虑背景。ADE20K。它提供了2万张训练图像和2K张验证图像。具有150个类别，被认为是分割任务中最具挑战性的基准之一。04.2. 实现细节0我们在PyTorch[21]上实现了我们的方法。训练时使用了随机梯度下降（SGD）[22]优化器，动量为0.9，权重衰减为0.0001。PascalContext的初始学习率设置为0.001，其他两个数据集设置为0.01。按照[9]的方法，我们采用了“poly”学习率策略。初始学习率乘以(1-iter/maxiter)^0.9。对于多GPU训练，我们使用了与[37]中相同的同步批归一化方法。0对于多GPU训练，我们使用了与[37]中相同的同步批归一化方法。为了避免过拟合，我们选择了数据增强策略，包括随机裁剪（Cityscapes为768×768，其他数据集为512×512）、随机水平翻转、随机光度失真和随机缩放。Cityscapes的批量大小设置为8，其他数据集设置为16。网络在Cityscapes、PascalContext和ADE20K上分别进行了60K、40K和160K次迭代训练。默认情况下，我们采用平均交并比（mIoU）作为评估指标。04.3. 消融研究0我们在Cityscapes验证集上进行了消融研究。如果没有特别说明，每个网络都是用ResNet-50进行40K次迭代训练的。PCAA模块中的池化大小。我们首先研究了PCAA模块中不同池化大小的影响。结果如表1所示。当只使用一个模块时，我们发现网络在S=4时性能最好，达到了79.22%。需要注意的是，S=1表示全局平均池化层，即原始的CAM。其mIoU比S=4低1.75%。当S大于1时，mIoU增加。我们推断主要原因是改进的类激活图。原始的CAM无法为注意力计算提供足够的指导，而我们的部分CAM可以通过区域级别的预测显著提高精度。我们还注意到，如果使用S大于4，性能会下降。一个可能的原因是当增加S时，像素数量急剧下降。因此，一个区域无法提供足够的上下文信息来表示类中心，这对分割是有害的。168410S=1 S=2 S=4 S=8 S=16 mIoU(%)0� 77.47 � 78.68 � 79.22 � 79.00 � 78.250� � 78.46 � � 79.29 � � 78.700表1. PCAA模块中池化大小的消融研究。0Key F l F l F g F l F l Value F l F l F g F g F g GCU� � �0mIoU(%) 75.36 78.89 78.68 78.93 79.220表2. 注意力计算的消融研究。0PCAA模块数量。我们还在表1中探讨了集成多个PCAA模块的影响。S=4,8的网络构建了一个级联的粗到细的空间金字塔，达到了最好的79.29%的mIoU。然而，与S=4相比，这种改进是微小的，而计算成本增加了。因此，为了在性能和复杂度之间取得更好的平衡，保持了S=4的结构。本地或全局类别中心。提出的部分类别激活注意力引入了本地和全局类别中心。从自注意力的角度来看，我们使用本地中心作为键来计算相似度图，并将全局中心聚合为值。为了检查两种类型的类别中心的影响，我们在表2中设计了不同的变体。当同时使用本地类别中心作为键和值时，达到了78.89%。这甚至比仅使用全局中心（78.68%）更好。同时利用本地和全局中心获得了最高的79.22%的mIoU。这验证了引入两种类型的类别中心的有效性。如果我们在本地中心生成的图卷积单元（GCU）中去除图卷积单元（GCU），仅使用本地中心的性能下降到75.36%。相比之下，没有GCU的PCAA达到了78.93%。GCU中的本地中心之间的交互改善了本地表示的一致性。这对于计算注意力图是有帮助的，并且在直接增强具有本地中心的特征时对于特征聚合是必要的。与其他方法的比较。表3提供了与其他方法的比较。我们通过简单地去除PCAA模块并保留其他卷积块来设置基准模型。PCAA的mIoU比基准提高了4.54%，这充分证明了我们方法的改进。当使用更强大的主干网络ResNet-101时，它将mIoU提升到了80.70%。此外，我们报告了0方法主干网络 mIoU(%)0FCN（基准）ResNet-50 74.68 +ASPPResNet-50 78.34 +NL ResNet-5078.65 +OCR ResNet-50 78.860+PCAM ResNet-50 78.84 +PCAAResNet-50 79.22 +PCAA ResNet-10180.700表3. Cityscapes验证集上的实验结果。0方法参数（M） FLOPs（G）0NL 0.53 21.75 OCR 1.18 8.07PCAA(S=4) 0.80 2.86 PCAA(S=4, 8)1.60 6.230表4. 计算复杂度的比较。0现有方法的结果。所有模型都在相同的设置下进行训练。多尺度方法Deeplabv3[3]达到了78.34%的mIoU。基本的非局部模型通过点积计算像素对之间的关系，与Deeplab（78.65%）相当。OCRNet通过粗分割引入像素到类别的关系，获得了78.86%的mIoU。相比之下，我们的PCAA优于所有这些方法。结果证实，计算类别级别的关系对于语义分割是有帮助的，而我们的PCAA提供了一种有效的方法来建模像素到类别的关系，除了粗分割之外。我们还设计了一种直接使用部分CAM作为注意力图的变体，该模型（标记为PCAM）达到了78.84%的mIoU。这进一步证实了部分CAM作为像素关系的有效性。计算复杂度。我们在表4中报告了注意力模型的计算复杂度。为了避免不同的主干网络或额外的卷积块的影响，我们直接比较了注意力计算模块。结果是基于输入尺寸为512×96×96（从768×768下采样8倍）计算的。理论上，非局部计算像素之间的像素关系的复杂度为O（CH2W2），而OCR和我们的PCAA计算像素到类别的关系的复杂度为O（CKHW）。由于类别数量远小于空间尺寸，计算成本可以大大降低。至于表4中的实际成本，我们采用了相同的线性变换结构Wk，Wq，Wv用于非局部和PCAA。PCAA的参数比非局部多，因为它使用了额外的块来生成CAM和图卷积。PCAA和OCR的差异主要是因为OCR使用了更多的卷积块用于Wk，Wq，Wv和残差连接的串联。它的复杂度与两个级联的PCAA相当。168420真值 S=1 S=2 S=4 S=8 S=160图4.不同池化大小的部分类别激活图的可视化。通过增加S，网络能够生成更精确的部分CAM。04.4. 可视化0我们在图4中可视化了部分CAM。S=1通过全局池化生成原始CAM。随着池化大小S的增加，网络能够生成更精确的部分CAM，这可以为注意力计算提供更可靠的指导。当S=4时，部分CAM非常清晰。这也解释了PCAA在相同S下的高性能。在图5中，我们进一步可视化了相应类别的部分CAM和注意力图。前两行证实了PCAA可以基于部分CAM进行类别特征聚合，类似于OCRNet[32]使用粗糙分割图。第4.5节提供了进一步的讨论。在图6中，我们可视化了基线模型和我们的PCAA在Cityscapes验证集上的分割结果。白色虚线框标记了我们的方法改进的区域。PCAA在大规模预测上展示了显著的改进，例如最后一行的卡车。这证明了我们的PCAA确实能够适应减轻局部变化和提高语义分割的类内一致性的目的。04.5. 讨论0PCAA首次将CAM引入到注意力机制中。它优于以前的注意力模型，并证明了CAM作为像素关系的重要性。然而，可视化结果也揭示了部分CAM和PCAA的一些局限性和特性。首先，尽管通过细分预测任务得到了改进，部分CAM仍然存在像原始CAM一样在背景像素上过度激活的问题。从图4中可以看出，通过使用更大的S可以缓解这个问题。请注意，本文仅采用了用于CAM生成的基本结构来验证其有效性。因此，我们相信部分CAM可以通过弱监督分割模型中提出的策略进一步增强，例如[27]。另一个有趣的观察是高激活区域的CAM部分通常集中在对象边界而不是内部区域。这个特性与分割图的特性不同，因为后者往往倾向于信任对象的内部区域[35]。我们推测，属于不同类别的特征在边界区域附近往往显示出明显的差异，这对于分类是至关重要的。这可能有助于边界上的精确分割，但也会导致一些极端情况。图5的最后一行以红框突出显示了一个实例。在这种情况下，对于类别car，部分CAM的高激活区域集中在车身上。然而，这个区域大部分像素都在窗户上。因此，它们被注意力图中的忽略，这对于特征聚合是有害的。这与方程(5)中的空间归一化有关，因为softmax操作可能会增加不同激活值之间的距离。0(a) (b) (c) (d)0图5. PCAA的可视化。(a): 输入图像。(b): 部分CAM。(c):注意力图。(d): 真值。在最后一行，红框标出了一个失败案例。0图像真值基准模型 PCAA0图6.Cityscapes验证集上的分割结果。白色虚线框标出了改进的区域。与基准模型相比，我们的方法可以显著提高分割的一致性。0生成的CAM的部分区域通常更关注对象的边界而不是内部区域。这个特性与分割图不同，因为后者往往信任对象的内部区域[35]。我们推测，属于不同类别的特征在边界区域附近往往显示出明显的差异，这对于分类是至关重要的。这可能有助于边界上的精确分割，但也会导致一些极端情况。图5的最后一行以红框突出显示了一个实例。在这种情况下，对于类别car，部分CAM的高激活区域集中在车身上。然而，这个区域大部分像素都在窗户上。因此，它们被注意力图中的忽略，这对于特征聚合是有害的。这与方程(5)中的空间归一化有关，因为softmax操作可能会增加不同激活值之间的距离。[1] Jiwoon Ahn and Suha Kwak. Learning pixel-level semanticaffinity with image-level supervision for weakly supervised168430方法骨干步幅 mIoU0PSPNet [40] † ResNet-101 8 × 80.2 DANet [9]ResNet-101 8 × 81.5 ANL [44] ResNet-101 8 ×81.3 CCNet [14] ResNet-101 8 × 81.4 ACFNet [36]ResNet-101+ASPP 8 × 81.8 HRNet [24]HRNetV2-W48 4 × 81.6 CPNet [31] ResNet-101 8× 81.3 DNL [29] † ResNet-101 8 × 82.0 RGNet[30] ResNet-101 8 × 81.5 OCRNet [32]ResNet-101 8 × 81.8 MCIBI [16]ResNet-101+ASPP 8 × 82.00PCAA（我们的方法） ResNet-101 8 × 82.30表5.在Cityscapes测试集上与最新技术的比较。†表示使用额外的粗糙注释进行训练。0方法骨干网络步长 mIoU0DANet [9] ResNet-101 8 × 52.6 ANL [44]ResNet-101 8 × 52.8 HRNet [24] HRNetV2-W484 × 54.0 CPNet [31] ResNet-101 8 × 53.9 SPNet[13] ResNet-101 8 × 54.5 DNL [29] ResNet-101 8× 54.8 RGNet [30] ResNet-101 8 × 53.9 OCRNet[32] ResNet-101 8 × 54.8 OCNet [33]ResNet-101+ASPP 8 × 54.00PCAA（我们的方法） ResNet-101 8 × 55.60表6. 在Pascal Context测试集上与最新技术的比较。04.6. 与最新技术的比较0在本小节中，我们将我们的方法与Cityscapes测试集、PascalContext测试集和ADE20K验证集上的最新技术进行比较。Cityscapes。按照常规做法[30,44]，我们使用精细注释的数据对网络进行了10万次迭代的训练，并在测试集上验证性能。结果如表5所示。我们没有采用像[16,36]那样使用ASPP等额外模块。我们的PCAA模型达到了82.3%的mIoU，优于先前的基于注意力的模型，如DANet[9]、ACFNet [36]和ANL[44]。值得注意的是，它也优于没有使用粗糙注释的DNL[29]。Pascal Context。与Cityscapes不同，PascalContext提供了更多样的场景。通常，一幅图像中大多数区域都有一个典型的目标。因此，从更大的尺度捕捉上下文信息是很重要的。这可以通过较小的池化尺寸来实现，我们发现使用S=2比S=4效果更好。最后，在表6中，我们的方法在PascalContext测试集上达到了55.6%的mIoU，优于利用粗糙分割的OCRNet [32]。0方法骨干网络步长 mIoU0DANet [9] ResNet-101 8 × 45.22 ANL [44]ResNet-101 8 × 45.24 CFNet [38] ResNet-101 8 ×44.89 SPNet [13] ResNet-101 8 × 45.60 DNL [29]ResNet-101 8 × 45.97 OCRNet [32] ResNet-101 8 ×45.28 CPNet [31] ResNet-101 8 × 46.27 OCNet [33]HRNetV2-W48+ASPP 4 × 45.50 STLNet [43]ResNet-101+ASPP 8 × 46.480PCAA（我们的方法） ResNet-101 8 × 46.740表7. 在ADE20K验证集上与最新技术的比较。0为了建模像素之间的关系，我们的方法采用了局部类激活注意力。它还优于基于成对亲和力并集成ASPP模块的OCNet[33]。这一结果再次证实了我们的部分类激活注意力的有效性。ADE20K是一个包含150个类别的具有挑战性的数据集，我们采用了S=4的PCAA方法。表7报告了验证集上的结果。在没有ASP

下载后可阅读完整内容，剩余1页未读，立即下载