ISNet：图像语义分割中的上下文整合

61 浏览量更新于2023-10-14 收藏 16.85MB PDF 举报

图像分割

语义图像分割

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

{blwx@mail., flowice@, qchu@, ynh@}ustc.edu.cn71890ISNet：整合图像级和语义级上下文进行语义分割0中国科学技术大学电磁空间信息重点实验室金振超，刘斌*，储琦，于能海0摘要0共现的视觉模式使得聚合上下文信息成为增强语义图像分割像素表示的常见范例。现有的方法主要关注从整个图像的角度建模上下文，即聚合图像级上下文信息。尽管这些方法令人印象深刻，但它们削弱了相同类别的像素表示的重要性，即语义级上下文信息。为了解决这个问题，本文提出通过分别聚合图像级和语义级上下文信息来增强像素表示。首先，设计了一个图像级上下文模块，用于捕捉整个图像中每个像素的上下文信息。其次，我们聚合了每个像素相同类别的表示，其中类别区域是在地面真实分割的监督下学习的。第三，我们计算每个像素表示与图像级上下文信息和语义级上下文信息之间的相似性。最后，通过加权聚合图像级上下文信息和语义级上下文信息来增强像素表示，其中相似性作为权重。整合图像级和语义级上下文使得本文在ADE20K、LIP、COCOStuff和Cityscapes等四个基准测试上报告了最先进的准确性。01. 引言0语义图像分割是计算机视觉中一个非常重要的问题，它为给定图像中的每个像素分配对象类别的预测。这个任务对于许多现实世界的应用非常重要，例如自动驾驶和机器人感知。最近的发展0* 通讯作者。我们的代码将在https://github.com/SegmentationBLWX/sssegmentation上提供。0输入图像0汽车的语义级上下文0汽车的图像级上下文0汽车的像素0增强0增强0图1.整合图像级和语义级上下文的主要思想。上部分分支的蓝色区域表示语义级上下文，下部分分支的紫色区域表示图像级上下文。0深度神经网络的发展鼓励了一系列研究[16,24]，其中FCN是这些研究的基石。它的编码器-解码器结构将空间维度降低以提取特征，然后利用上采样恢复空间范围，在语义分割方面显示出了许多改进。基于此，最近的研究主要关注两个问题，以进一步提升分割性能。一是如何改进编码器结构，使模型能够为每个像素提取更强大的表示[25,29,34]。另一个问题是如何建模上下文，以便网络可以通过将上下文信息编码到原始特征表示中来增强每个像素的表示能力[4, 11, 14, 17, 30,35]，这也是本文的兴趣所在。共现的视觉模式启发了一系列关于建模上下文的研究。这些方法可以大致分为两类，即多尺度上下文建模和关系上下文建模。对于多尺度上下文建模，Deeplab[4]引入了空洞空间金字塔池化（ASPP），以便可以利用各种扩张卷积来捕捉多尺度的上下文信息。PSPNet[35]提出利用金字塔空间池化来聚合多尺度的上下文信息。对于关系上下文建模，Wang等人[26]首先重新审视了传统的局部均值[1]，然后设计了71900一个非局部块来加权聚合整个图像中的上下文信息。Zhu等人提出了一个非对称金字塔非局部块，以减少标准非局部模块的计算量和GPU内存消耗。除此之外，ACFNet[32]和OCRNet[30]首先将像素分组成一组区域，然后通过加权聚合区域表示来增强像素表示，其中权重由像素和区域之间的关系确定。尽管令人印象深刻，但这些解决方案只关注从整个图像的角度聚合上下文信息（即图像级上下文信息），而忽视了相同类别的像素表示的重要性。因此，它们都面临着同样的问题，即每个像素的上下文信息不均匀地来自像素所属的类别区域和其他类别的区域。例如，边界像素或小尺度对象的区域往往从其他对象的区域中捕获到更多的上下文信息。由于像素的标签是像素所属对象的类别，来自其他对象的过多上下文信息可能会导致网络错误地将这些像素标记为其他类别。为了缓解上述问题，本文提出通过分别聚合图像级和语义级上下文信息来增强像素表示。如图1所示，图像级上下文表示输入图像中的所有像素，语义级上下文表示相同类别区域中的像素。基于这个定义，首先设计了一个图像级上下文模块（ILCM）来捕获整个图像的上下文信息，从而可以获得图像级上下文信息。然后，提出了一种新颖的语义级上下文模块（SLCM），以聚合同一类别的像素表示（即语义级上下文信息），其中类别区域是在地面真值分割的监督下学习的。接下来，计算像素表示与图像级上下文信息、语义级上下文信息之间的相似性。最后，通过加权聚合图像级上下文信息和语义级上下文信息来增强像素表示，其中权重由计算得到的相似性确定。总的来说，我们的主要贡献如下：0•据我们所知，本文首次探索通过聚合图像级上下文信息和语义级上下文信息来改进像素表示。0•本文设计了一个简单而有效的图像级上下文模块（ILCM）和一个新颖的语义级上下文模块（SLCM），以加权聚合整个图像中的上下文信息。0上下文模块（SLCM）来分别捕获整个图像和类别区域的上下文信息。实验结果证明了我们方法的有效性。0•本文提出了一个名为ISNet的通用架构框架，揭示了如何利用ILCM和SLCM来持续提升语义图像分割的性能。所提出的框架使本文在四个分割基准上实现了最先进的准确性，即ADE20K，LIP，COCOStuff和Cityscapes。02. 相关工作0语义分割。为了为给定的图像生成像素级的语义预测，图像分类网络[4,24]被扩展以生成语义分割掩码。FCN[22]是第一个在整个图像上应用全卷积来产生每个像素标签的工作，过去几年中许多研究者都在FCN的基础上进行了努力。具体而言，这些研究可以大致分为两组。一组是设计一种新颖的骨干网络[25,29]，以提取每个像素更强大的特征表示。考虑到高分辨率表示对于位置敏感的视觉问题至关重要，Wang等人[25]提出了一种名为HRNet的骨干网络，以在整个过程中保持高分辨率表示。ResNeSt[34]提出了一种模块化的架构，通过在不同的网络分支上利用通道注意力来捕获交叉特征交互并学习多样化的表示。另一组是为每个像素引入更丰富的上下文信息[3, 4, 11, 14,23,35]。例如，采用不同大小的卷积/池化核或扩张率来收集多尺度的视觉线索[4, 27,35]，利用神经注意力[6]直接交换配对像素之间的上下文信息[3, 11, 17, 28,31]，构建图像金字塔或特征金字塔[18,21]。本文重点研究后者，即聚合更有意义的上下文信息以增强像素表示。上下文聚合。虽然FCN从自下而上的方式捕捉信息，但广域的上下文信息对于像素标签任务也至关重要，并且被许多研究所利用。Deeplab[4,5,7]提出了孔卷积核，以强制网络感知更大的区域并获得更高分辨率的输出。基于Deeplab，DenseASPP[27]增加了扩张率的密度，使网络能够收敛到更大的尺度范围。PSPNet[35]采用空间池化来获得不同感受野大小的特征图，以便合并的特征图可以聚合多尺度的目标线索。DANet[11]和OCNet[31]首先计算像素之间的相似性作为权重，然后通过加权聚合像素表示来改进像素表示。SLCMILCM⨂⨂⨂⨂⊕⊕R = B(I),(1)Ril = Mil(R),(2)Rsl = Msl(R),(3)Sil = Softmax(RHW64 ×C ⊗ RC× HW64il√C),(4)71910骨干网络0表示 � !"0表示 � #"0表示 �0相似度 � !"0相似度 � #"0表示 � $%&0表示 � !"0表示 � #"0分布 �0区域表示0SLCM ILCM 表示 �0图2. 所提出框架（ISNet）的概述。首先，使用语义级上下文模块（SLCM）和图像级上下文模块（ILCM）提取语义级上下文信息 R sl和图像级上下文信息 R il 。然后，计算像素表示 R 与 R sl 、R il之间的相似度。最后，根据计算得到的相似度采用两种上下文信息来增强像素表示。0除此之外，一些工作[20, 30,32]首先将像素分组成一组区域，然后通过加权聚合区域表示来增强像素表示，其中权重由它们的上下文关系确定。虽然我们的语义级上下文模块看起来与这些方法类似，但关键区别在于我们仅通过采用与像素表示具有相同类别的区域表示来增强像素表示，而不是所有区域表示。03. 方法0如图2所示，我们的ISNet结合了图像级上下文信息和语义级上下文信息进行语义图像分割。我们首先在第3.1节介绍了我们框架的整体公式。然后，在第3.2节和第3.3节中分别描述了图像级上下文模块（ILCM）和语义级上下文模块（SLCM）的详细信息。最后，在第3.4节中展示了用于训练所提出的ISNet的多任务损失函数。03.1. 公式0给定输入图像 I ∈ R 3 × 高度 × 宽度，我们首先使用骨干网络 B（例如，ResNet [16]）将像素投影到0将 I 中的像素转换为非线性嵌入空间，以获得像素表示 R ：08，像素表示的维度为 C 。然后，使用图像级上下文模块 Mil 从整个图像中聚合上下文信息：08，用于存储每个像素表示的图像级上下文信息。同时，语义级上下文模块 M sl旨在捕捉各个类别区域内的上下文信息：08，用于存储每个像素表示的语义级上下文信息。然后，我们计算 R 与 R il 之间的相似度：Ssl = Softmax(RHW64 ×C ⊗ RC× HW64sl√C),(5)HWHWHWHW7192064 和 � 代表矩阵乘法。R 和 R sl 同理：064。这个操作受到了自注意机制[6]的启发。接下来，我们利用R il 和 R sl 来增强 R ：0Raug = A(R'il ⊕ R'sl ⊕ R)，(6)0其中⊕表示连接操作，A是用于将输入矩阵张量的通道减少到大小为C×H的变换函数08。R'il通过使用Sil和Ril计算得到：0R'il = reshape(S064il � R0il 64 × C)，(7)0而R'sl如下所示：0R'sl = reshape(S064sl � R064 × Csl)，(8)0其中reshape用于使R'il和R'sl的大小为C×H08。最后，利用Raug预测I中像素的标签：0O = Upsample 8 × (H(Raug))，(9)0其中H是一个分类头，O是一个大小为K×H×W的矩阵，存储每个像素的预测类别概率分布。K是类别的数量。03.2. 图像级上下文模块0图像级上下文模块Mil旨在从整个图像的角度捕捉上下文信息。由于存在共现的视觉模式[35]，Mil广泛应用于语义分割任务中。在本文之前，已经有许多优秀的Mil结构，如ASPP[4]、PPM [35]和OCR[30]。尽管如此，由于我们的框架中存在两个上下文模块，我们希望本文设计的Mil具有最小的计算复杂度和增加的参数。根据这个期望，如图2所示，我们首先计算矩阵张量R的通道均值：0G = 10H 8 × W0ij R[*,i,j]，(10)0其中，我们使用下标[i, j]或[*, i,j]来索引矩阵的元素。G是一个大小为C×1×1的矩阵，存储相应通道的全局上下文信息。然后，将G添加到像素表示R中，得到Ril：0Ril = F(repeat(G) ⊕ R)，(11)0其中F是用于融合G和R的变换函数，由一个1×1卷积层实现。repeat用于重复G中相应通道的元素，使G具有与R相同的形状。注意，图像级上下文模块可以用现有的所有方法（如ASPP [4]和PPM[35]）替换，以更好地对图像级上下文进行建模，以追求最佳分割性能。这不会影响本文的基本动机。03.3. 语义级上下文模块0我们提出了语义级上下文模块Msl来聚合各个类别区域内的上下文信息。如图2所示，首先引入分类头H'来预测表示在R中的类别概率分布D：0D = H'(R)，(12)08，H'由两个1×1卷积层实现。根据D，R中的表示可以分组为不同的类别区域：0Rck = {R[*,i,j] | argmax(D[*,i,j]) = ck}，(13)0其中，ck介于1和K之间，表示类别标签，Rck是一个大小为Nck×C的矩阵。Nck表示属于类别ck的表示数量。为了方便起见，我们还定义了Dck如下：0Dck = {D[ck,i,j] | argmax(D[*,i,j]) = ck}，(14)0其中，Dck是一个大小为Nck×1的矩阵。接下来，为了根据它们的类别聚合每个像素表示的语义级上下文信息，我们计算每个语义类别ck的区域表示如下：0R′ck =0Nck �0n=10e Dck,[n,�] � e Dck ∙ Rck,[n,�] (15)0其中R′ck的大小为1×C，是相同类别表示的复合向量。计算所有区域表示后，根据相应元素的类别标签将它们分配给一个矩阵张量：0R_sl, [�,i,j] = R′ck if argmax(D[�,i,j]) = ck (16)08是我们要求的语义级上下文信息。03.4. 损失函数0使用D和O的多任务损失函数来共同优化模型参数。特别地，D的损失函数定义如下：0L_D = 10H×W0i,j L_ce(DK×H×W[�,i,j], §(GT[ij])), (17)71930其中§表示将存储在GT中的真实类别标签转换为one-hot格式，D_K×H×W的计算如下：0DK×H×W = Softmax(Upsample 8×(D)). (18)0i,j表示求和计算在输入图像I上的所有位置。为了让O包含每个像素的准确类别概率分布，我们定义O的损失函数如下：0L_O = 10H×W0i,j L_ce(O[�,i,j], §(GT[ij])). (19)0最后，我们将多任务损失函数L定义为：0L = αLD + LO (20)0其中α是平衡L_D和L_O损失的超参数。我们默认将α设置为0.4。通过反向传播，通过这个联合损失函数学习模型参数。04. 实验04.1. 实验设置0基准数据集。我们在四个广泛使用的语义分割基准数据集上进行实验。0• ADE20K[37]是一个场景解析数据集，包含150个类别和多样化的场景，具有1,038个图像级标签。这个具有挑战性的基准数据集被划分为20K/2K/3K张图像用于训练、验证和测试。0• COCOStuff[2]是一个具有91个物体类别和91个物质类别的具有挑战性的场景解析数据集。该数据集包含9K/1K张用于训练和测试的图像。0• LIP[13]是一个专注于单人解析的大规模基准数据集。它包含50,426张单人图像，其中30,426张用于训练，10,000张用于验证，10,000张用于测试。像素级注释涵盖19个语义人体部分标签和一个背景标签。0• Cityscapes[9]是一个用于语义城市场景理解的基准数据集，包含19个语义类别。数据集中有5K张高质量的像素级精细注释图像和20K张粗略注释图像。这5K张精细注释图像被划分为包含2,975、500、1,525张的训练、验证和测试集。0训练细节。我们使用在ImageNet上预训练的骨干网络，并随机初始化两个集成的上下文模块。使用“Poly”学习率策略，因子为(1-iter/total iter)。0在训练我们的框架时，使用(1-iter/totaliter)的“Poly”学习率策略，其中totaliter为总迭代次数，因子为0.9。训练过程中启用了由pytorch实现的同步批归一化。对于数据增强，我们在训练过程中对每个样本进行随机缩放(范围为[0.5,2])、随机裁剪和左右翻转。具体来说，根据之前的工作[30]，不同基准数据集的训练设置如下：0•ADE20K：初始学习率设置为0.01，权重衰减设置为0.0005。输入图像的裁剪大小默认设置为512×512，批量大小默认设置为16。如果未指定，模型将进行160K次微调。0•COCOStuff：初始学习率设置为0.001，权重衰减设置为0.0001，裁剪大小设置为512×512，批量大小设置为16，默认情况下训练迭代次数为60K。0•LIP：初始学习率设置为0.01，权重衰减设置为0.0005。输入图像的裁剪大小默认设置为473×473，批量大小默认设置为32。如果未指定，模型将进行160K次微调。0•Cityscapes：初始学习率设置为0.01，权重衰减设置为0.0005。输入图像的裁剪大小设置为512×1024，批量大小设置为8，默认情况下训练迭代次数为80K。0推理设置。对于ADE20K、COCOStuff和LIP，测试期间输入图像的大小与训练期间的输入图像大小相同。对于Cityscapes，将输入图像缩放，使其较短的一边为1024像素。默认情况下，在测试期间不采用任何技巧（例如，多尺度翻转测试）。评估指标。按照标准设置，采用平均交并比（mIoU）进行评估。可重现性。所提出的框架基于PyTorch（版本≥1.3）实现，并在四个NVIDIA Tesla V100GPU上进行训练，每个卡片内存为32GB。所有测试过程都在单个NVIDIA Tesla V100GPU上执行。为了提供我们框架的全部细节，我们的代码将公开发布。04.2.消融研究0ILCM。由于存在共同出现的视觉模式，图像级上下文信息对于语义图像分割非常重要。例如，汽车很可能在停车场或高速公路上，而不会在天空中飞行。从表1可以看出，图像级上下文模块（ILCM）在mIoU上提高了5.54%✓ResNet-5036.96✓✓ResNet-5042.50✓✓ResNet-5042.89✓✓✓ResNet-5044.09Allt-5071940表1.关于图像级上下文模块（ILCM）和语义级上下文模块（SLCM）的消融实验。所有方法都是在ADE20K的训练集上学习，并使用单尺度测试协议在验证集上进行评估。0基准ILCM SLCM 骨干网络 mIoU0表2. 与现有上下文方案的复杂性比较。采用大小为[1 × 2048 ×128 ×128]的特征图评估它们在推理过程中的复杂性。所有数字均在单个NVIDIA Tesla V100 GPU上使用CUDA11.0获得，数字越小越好。如表所示，我们的方法需要最少的参数和最少的FLOPs。0方法参数 FLOPs 时间0ASPP [5]（我们的实现）42.21M 674.47G 101.44ms PPM[35]（我们的实现）23.07M 309.45G 29.57ms CCNet[17]（我们的实现）23.92M 397.38G 56.90ms OCRNet[30]（我们的实现）14.82M 237.45G 20.22ms DANet[11]（我们的实现）23.92M 392.02G 62.64ms ANN[38]（我们的实现）20.32M 335.24G 49.66ms DNL[28]（我们的实现）24.12M 395.25G 68.62ms APCNet[10ILCM（我们的实现）10.36M 169.77G 42.56msSLCM（我们的实现）10.10M 165.47G 53.12msILCM+SLCM（我们的实现）11.02M 180.60G 84.19ms0ADE20K的验证集。这个结果表明，ILCM具有从整个图像的角度建模上下文的能力，从而帮助网络通过考虑长距离依赖关系更好地对像素进行分类。SLCM。由于像素的标签本质上是像素所属对象的类别，来自相同语义类别的上下文信息可以进一步增强原始像素表示的类别表示能力。因此，网络可以利用增强的表示更准确地对像素进行分类。如表1所示，我们可以看到聚合语义级上下文信息可以提高基本框架的mIoU性能5.93%。这一改进充分证明了所提出的语义级上下文模块的有效性。ILCM+SLCM。共同出现的视觉模式使得图像级上下文信息对于语义分割至关重要。然而，从整个图像中捕获上下文信息也会引起一些问题。例如，由于像素的标签由像素所属对象的类别决定，从其他类别区域聚合过多的上下文信息可能会导致网络错误地将像素标记为其他类别。为了解决这个问题，本文提出了为每个像素表示额外引入语义级上下文信息的方法，它只利用0表3.在ADE20K的训练集上学习并在ADE20K的验证集上测试的现有上下文方案的mIoU比较。0方法骨干网络步长迭代次数 mIoU0PPM [35]（我们的实现） ResNet-50 8 × 160K 42.64 ASPP[5]（我们的实现） ResNet-50 8 × 160K 43.19 OCR[30]（我们的实现） ResNet-50 8 × 160K 42.47 ANN[38]（我们的实现） ResNet-50 8 × 160K 41.75 NonLocal[26]（我们的实现） ResNet-50 8 × 160K 42.15 DNL[28]（我们的实现） ResNet-50 8 × 160K 43.50 CCNet[17]（我们的实现） ResNet-50 8 × 160K 42.470ISNet (我们的) ResNet-50 8 × 160K 44.090图像0FCN FCN+ILCM FCN+ILCM+SLCM 真实情况0图3.在ADE20K的验证集上的定性结果。这里的所有模型都是在相同的设置下使用ResNet-50作为骨干网络进行训练的。最好以彩色和放大的方式查看。0在相应类别区域中增强每个像素表示的表示。如表1所示，我们可以发现将ILCM和SLCM结合起来的mIoU相对于基准模型提高了7.13%。这个改进比单独应用ILCM（7.13%对5.54%）或单独应用SLCM（7.13%对5.93%）要高得多。这个结果表明ILCM和SLCM可以相互补充和促进，很好地证明了基本动机的可靠性，以及本文设计的框架的有效性。定性结果。图3展示了一些定性结果，进一步证明了我们基本动机的可靠性。可以看到，在引入语义级上下文模块（SLCM）之后，分割性能得到了很好的改善。例如，在第2行中，只有图像右侧的一个小可见部分的绘画仍然被很好地分割出来（地面真实情况是错误的）。这个结果很好地表明，从其他类别区域聚合太多的上下文信息可能会导致网络将一个像素错误地标记为其他类别，并且引入SLCM可以很好地缓解这个问题。复杂性。表2展示了与现有上下文方案的复杂性比较，包括增加的参数、计算复杂性（以FLOPs的数量衡量）和推理时间。可以看到，所提出的上下文方案需要最少的参数和最少的计算复杂性。具体而言，ILCM+SLCM只需要10ASPP和PPM的两个参数，可以在一定程度上防止我们的模型过拟合。此外，ILCM+SLCM只重新DeepLab [4]ResNet-101-44.80CE2P [23]ResNet-10116×53.10OCRNet [30]ResNet-1018×55.60OCNet [31]ResNet-1018×54.72CCNet [17]ResNet-1018×55.47HRNet [25]HRNetV2-W484×55.90OCRNet [30]HRNetV2-W48456.65nlyGCNet [3,8]ResNet-1018×79.03PSPNet [8,35]ResNet-1018×79.76PSANet [8,36]ResNet-1018×79.31ANN [8,38]ResNet-1018×77.14NonLocal [8,26]ResNet-1018×78.93CCNet [8,17]ResNet-1018×78.87EncNet [8,33]ResNet-1018×78.55DANet [8,11]ResNet-1018×80.41DNL [8,28]ResNet-1018×80.41OCRNet [8,30]HRNetV2-W48480.7071950表4.在ADE20K验证集上的分割结果。这里采用了多尺度和翻转测试以进行公平比较。最佳分数以粗体标记。0方法骨干网络步长 mIoU0PSPNet [35] ResNet-101 8 × 43.29 PSANet[36] ResNet-101 8 × 43.77 EncNet [33]ResNet-101 8 × 44.65 OCNet [31] ResNet-1018 × 45.08 OCRNet [30] ResNet-101 8 × 45.28CCNet [17] ResNet-101 8 × 45.76 ANNet [38]ResNet-101 8 × 45.24 ACNet [12] ResNet-1018 × 45.90 DMNet [14] ResNet-101 8 × 45.50APCNet [15] ResNet-101 8 × 45.38 DANet [11]ResNet-101 8 × 45.22 OCRNet [30]HRNetV2-W48 4 × 45.660ISNet (我们的) ResNet-50 8 × 45.04 ISNet(我们的) ResNet-101 8 × 47.31 ISNet (我们的)ResNeSt-101 8 × 47.550表5.在COCOStuff的测试集上与最先进方法的性能比较。这里采用了多尺度和翻转测试以进行公平比较。0方法骨干网络步长 mIoU0OCRNet [30] ResNet-101 8 × 39.50 SVCNet[10] ResNet-101 8 × 39.60 DANet [11]ResNet-101 8 × 39.70 EMANet [20]ResNet-101 8 × 39.90 SpyGR [19] ResNet-1018 × 39.90 ACNet [12] ResNet-101 8 × 40.10OCRNet [30] HRNetV2-W48 4 × 40.500ISNet (我们的) ResNet-50 8 × 40.16 ISNet(我们的) ResNet-101 8 × 41.60 ISNet (我们的)ResNeSt-101 8 × 42.080分别基于PPM、ASPP、CCNet、OCRNet、DANet、ANNet、DNL和APC-Net的FLOPs的5。这些结果充分证明了所提出方法的效率。性能比较。为了进一步展示引入语义级上下文信息的必要性，我们在相同的训练和测试设置下比较了ISNet与现有上下文方案的性能。如表3所示，我们可以看到ISNet的mIoU为44.09%，超过了所有现有上下文模块，这表明了引入语义级上下文信息的有效性。需要注意的是，集成到ISNet中的图像级上下文模块只获得了42.50%的mIoU，远低于大多数现有的图像级上下文方案。这个结果很好地证明了引入语义级上下文信息的有效性。04.3. 与最先进技术的比较0ADE20K.ADE20K上其他最先进的语义分割解决方案的结果总结如表4所示。众所周知，ADE20K由于其各种图像尺度、丰富的语义类别以及0表6. LIP验证集上的最先进比较。这里使用翻转测试进行公平比较。‡ 表示我们采用ASPP作为图像级上下文模块。0方法骨干网络步长 mIoU0ISNet (我们的) ResNet-50 8 × 53.41 ISNet (我们的)ResNet-101 8 × 55.41 ISNet (我们的) ResNeSt-1018 × 56.81 ASPP (我们的实现) ResNet-101 8 × 55.34ISNet ‡ (我们的) ResNet-101 8 × 56.960表7. Cityscapes验证集上的分割结果。这里只采用单尺度测试。0方法骨干网络步长 mIoU0ISNet (我们的) ResNet-50 8 × 79.32 ISNet(我们的) ResNet-101 8 × 80.56 ISNet ‡ (我们的)ResNet-101 8 × 81.100在训练集和验证集之间存在差距。即使在这种情况下，ISNet采用ResNet-50实现了45.04%的mIoU，比使用更强大的ResNet-101骨干网络的PSPNet [35]、PSANet[36]和EncNet[33]分别高出1.75%、1.27%和0.39%的mIoU。这个结果进一步显示了聚合语义级上下文信息以增强每个像素表示的重要性。此外，正如我们所看到的，以前的最佳方法ACNet实现了45.90%的mIoU。我们的ISNet与ResNet-101实现了更高的mIoU，达到47.31%，比以前的最先进技术高出1.41%。此外，集成ILCM和SLCM还使本文能够在ADE20K的验证集上报告新的最先进性能，即47.55%，利用ResNeSt-101。COCOStuff。由于COCOStuff的训练集中只有9K张图像，这些图像包含182个语义类别，因此COCOStuff是一个非常具有挑战性的场景解析基准。表5比较了最先进方法的性能。通过使用ResNet-50作为骨干网络，ISNet实现了40.16%的mIoU，已经超过了大多数先前的最先进方法。当使用相同的骨干网络This paper studies the context aggregation problem. Mo-tivated by the fact that the existing image-level contextschemes may bring too much contextual information ofother categories into the pixel representations so that itmakes the network mislabel the pixel, we propose to inte-grate the image-level contextual information and semantic-level contextual information, respectively, to further boostthe performance of semantic segmentation. Specifically, wefirst design a simple yet effective image-level context mod-ule as a common practice to capture the global semanticstructured information. Then, the semantic-level contextualinformation is also aggregated for each pixel by leverag-ing the proposed semantic-level context module. At last,the pixel representations are augmented by weighted ag-gregating the image-level contextual information and thesemantic-level contextual information.Extensive experi-ments demonstrate the effectiveness of our method. Inte-grating image-level and semantic-level context allows us toreport new-state-of-arts on four segmentation benchmarks,i.e., ADE20K, Cityscapes, LIP and COCOStuff.71960(a) 图像 (b) FCN (c) PSPNet (d) ISNet (e) 真值0图4. ADE20K验证集上的定性结果。这里的所有模型都是在相同的设置下训练的。最好在彩色和放大的情况下查看。0使用ResNet-101的ISNet在大多数指标上超过了OCRNet[30]、EMANet [20]、DANet [11]和ACNet[12]，分别为2.10%、1.70%、1.90%和1.50%的mIoU。此外，由于将图像级和语义级上下文集成到语义图像分割中的有效性，我们的ISNet与ResNeSt-101在COCOStuff的测试集上报告了最新的最佳性能，即42.08%。LIP是一个细粒度的语义分割基准，具有复杂的服装纹理、不同类别的尺度多样性、可变形的人体和细粒度的标签分割等额外挑战。因此，仅仅利用提出的ILCM简单地连接平均池化层的输出特征，很难对图像级上下文进行建模。尽管如此，如表6所示，使用ResNet-101的ISNet仍然实现了55.41%的mIoU，这在先前的最先进方法中非常有竞争力。为了报告最新的最佳性能，我们在这里用ASPP[4]替换了原始的ILCM，以更好地对图像级上下文进行建模。如表所示，我们的ISNet‡在mIoU方面优于先前最佳方法HRNetV2-W48的OCRNet0.31%，而ASPP的mIoU仅为55.34%，比我们的ISNet‡低1.62%。这些结果一致地证明了本文的基本动机，即引入语义级上下文信息对改进像素表示至关重要。Cityscapes。如表7所示，我们还展示了在Cityscapes的验证集上与其他最先进方法的比较结果。我们可以看到，使用ResNet-101的ISNet‡优于先前最佳方法HRNetV2-W48的OCRNet。具体而言，集成图像级上下文模块ASPP和提出的语义级上下文模块SLCM使本文在单尺度测试下的mIoU达到81.10%，创造了新的最佳性能。这一结果进一步证明了聚合图像级和语义级上下文以增强每个像素表示的合理性。定性结果。图4展示了在ADE20K的验证集上的定性结果。我们可以看到，与没有上下文模块的FCN和使用图像级上下文模块的PSPNet相比，我们的ISNet能够实现更好的分割结果，进一步展示了我们的方法（即同时采用图像级和语义级上下文模块）的有效性。0本文研究了上下文聚合问题。由于现有的图像级上下文方案可能会将其他类别的太多上下文信息引入像素表示中，导致网络错误标记像素，因此我们提出分别集成图像级上下文信息和语义级上下文信息，以进一步提升语义分割的性能。具体而言，我们首先设计了一个简单但有效的图像级上下文模块，作为捕捉全局语义结构信息的常见方法。然后，通过利用提出的语义级上下文模块，对每个像素也进行了语义级上下文信息的聚合。最后，通过加权聚合图像级上下文信息和语义级上下文信息，增强了像素表示。大量实验证明了我们方法的有效性。集成图像级和语义级上下文使我们能够在ADE20K、Cityscapes、LIP和COCOStuff等四个分割基准上报告最新的最佳性能。05. 结论[14] Junjun He, Zhongying Deng, and Yu Qiao. Dynamic multi-scale filters for semantic segmentation. In Proceedings ofthe IEEE/CVF International Conference on Computer Vi-sion, pages 3562–3572, 2019.[16] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun.Deep residual learning for image recognition. In Proceed-ings of the IEEE conference on computer vision and patternrecognition, pages 770–778, 2016.[17] Zilong Huang, Xinggang Wang, Lichao Huang, ChangHuang, Yunchao Wei, and Wenyu Liu. Ccnet: Criss-crossattention for semantic segmentation. In Proceedings of theIEEE/CVF International Conference on Computer Vision,pages 603–612, 2019.719

下载后可阅读完整内容，剩余1页未读，立即下载