没有合适的资源?快使用搜索试试~ 我知道了~
162910面向语义分割的区域感知对比学习0Hanzhe Hu 1,2, Jinshi Cui 1*, Liwei Wang 1*1北京大学电子工程与计算机科学学院机器感知(MOE)重点实验室,2浙江实验室0huhz@pku.edu.cn {cjs, wanglw}@cis.pku.edu.cn0摘要0最近的研究通过在单个图像内以局部或全局方式利用上下文信息,并使用像素级交叉熵损失对模型进行监督,取得了在语义分割方面的巨大成功。然而,从整个数据集的整体视角来看,语义关系不仅存在于单个图像内部,而且在整个训练数据中普遍存在,这使得仅考虑图像内部的相关性是不足够的。受到无监督对比学习的最新进展的启发,我们提出了用于语义分割的区域感知对比学习(RegionContrast)的监督方法。为了增强语义上相似像素的相似性,同时保持与其他像素的差异性,我们采用对比学习来实现这一目标。借助存储库的帮助,我们探索将所有代表性特征存储到内存中。为了在不占用太多计算资源的情况下将所有训练数据高效地纳入内存库中,我们提出为每个图像构建区域中心,以表示来自不同类别的特征。因此,所提出的区域感知对比学习在所有训练数据的区域级别上进行,比探索像素级关系的方法节省了更多的内存。所提出的RegionContrast在训练过程中几乎不需要计算成本,并且在测试过程中不需要额外的开销。广泛的实验证明,我们的方法在Cityscapes、ADE20K和COCO Stuff等三个基准数据集上实现了最先进的性能。01. 引言0* 通讯作者。0(a) 大多数当前方法0(b) 提出的RegionContrast0图1. 我们的方法与之前方法的主要区别。1(a)大多数现有方法只关注图像内部的关系。1(b)我们提出的RegionContrast除了仅关注图像内部信息外,还考虑了区域级别的图像间相关性。0基于大规模数据集(如ImageNet [11]和Cityscapes[10])的可用性,语义分割取得了显著进展。特别是基于全卷积网络(FCN)[30],出现了许多最先进的方法,这些方法侧重于利用上下文信息。DeepLabV3[5]提出了ASPP模块,该模块以不同的膨胀率聚合空间上规则采样的像素,而PSPNet[52]则提出了金字塔池化模块,在池化之前将特征图划分为多个区域。非局部网络[40]采用自注意机制使每个像素能够接收来自所有其他像素的信息,从而获得更完整的像素级表示。尽管上述方法取得了令人满意的结果,但从整个数据集的整体视角来看,语义关系不仅存在于单个图像内部,而且在整个训练数据中普遍存在,这使得仅考虑图像内部的相关性是不足够的。受到无监督对比学习的最新进展的启发,我们提出了用于语义分割的区域感知对比学习(RegionContrast)的监督方法。为了增强语义上相似像素的相似性,同时保持与其他像素的差异性,我们采用对比学习来实现这一目标。借助存储库的帮助,我们探索将所有代表性特征存储到内存中。为了在不占用太多计算资源的情况下将所有训练数据高效地纳入内存库中,我们提出为每个图像构建区域中心,以表示来自不同类别的特征。因此,所提出的区域感知对比学习在所有训练数据的区域级别上进行,比探索像素级关系的方法节省了更多的内存。所提出的RegionContrast在训练过程中几乎不需要计算成本,并且在测试过程中不需要额外的开销。广泛的实验证明,我们的方法在Cityscapes、ADE20K和COCO Stuff等三个基准数据集上实现了最先进的性能。162920在大多数情况下,分割结果仍然面临着重要的缺点。具体而言,大多数当前方法都集中在图像内部挖掘上下文信息,忽略了来自其他图像的潜在关系信息。如图1所示,跨类别的关系也值得探索。对于图像的一个区域,膨胀卷积或自注意机制只能使其接收来自周围类别的一些特定特征的信息,而在现实中,这种区域可能与更多种类的特征接触。因此,仅仅探索图像内部的关系是不够全面的,这导致了对整个数据集的整体视图的特征学习的需求。最近,无监督对比学习在预训练强特征提取器方面引起了广泛关注,用于图像分类或目标检测等下游任务。简而言之,大多数工作在图像级别上执行对比学习,其中将数据集中的所有其他图像视为负样本,而具有随机增强的图像被视为正样本。通过利用存储库的使用,可以引入大量的负样本来辅助对比学习以获得更好的特征表示。请注意,大多数无监督对比学习方法都专注于分类问题,而语义分割则需要比分类更多的语义信息。直观地说,为了适应分割问题,我们可以调整为像素级对比学习,其中对比内部和外部像素,如[41]所示。然而,这种形式的制定存在一个严重问题:来自不同图像的像素可能属于相同的类别,这会损害后续的特征学习。因此,我们不再坚持无监督设置,而是以完全监督的方式探索对比学习以获得丰富的类别信息。在这项工作中,我们提出了一种全面监督的新对比学习范式,针对语义分割问题。通过像素的相应类别作为先验知识,可以以更高效的方式执行对比学习。我们首先描述最直接的方法。具体而言,当每个像素的类别已知时,这是由模型的预测引起的,我们建立了符合每个类别的不同内存库来存储不同类别的像素嵌入。对于图像的每个像素,可以从内存库中检索到其相应的正样本和负样本,从而完成对比学习过程。尽管简单而有效,但这种方法会导致严重的内存负担,因为整个数据集的像素数量太大,这也会严重降低训练速度。为了解决上述问题,同时保留足够的嵌入空间,我们提出了以下方法。0我们提出了区域感知对比学习(RegionContrast)来学习像素嵌入。特别地,由于图像中一个类别的区域特征由属于该类别的所有像素特征组成,我们可以在一个图像中构建不同类别的区域中心。这样,我们只需将几个来自不同类别的区域中心推入内存库,而不是将所有像素嵌入推入内存库。虽然一张图像可能包含属于同一类别的多个区域,但嵌入空间中的特征是相似的。因此,为了简化起见,我们为每个单个图像的每个类别生成一个区域中心。为了便于学习难以分类的像素特征,我们在生成区域中心时进一步提出了一种动态采样方法,以将更多的注意力分配给难样本。在为不同类别构建内存库之后,可以进行区域感知对比学习。具体而言,对于一张图像的一个区域中心,其对应的正样本来自于相同类别的内存库中的嵌入,而负样本来自于其他内存库中的嵌入。通过提供正样本和负样本,可以实现对比学习过程。我们的RegionContrast的整体框架如图2所示,其中传统的交叉熵损失作为像素级监督,而RegionContrast则专注于图像间关系学习。最重要的是,所提出的RegionContrast可以轻松应用于任何分割模型,在训练期间只需要很少的计算资源,而在测试期间不需要额外的开销。总之,我们的贡献总结如下:0•我们提出了一种新的全监督对比学习设置,针对特定的语义分割问题。0•为了以一种内存高效的方式适应分割场景,我们设计了一种有效的区域感知对比学习(RegionContrast),以从整个数据集的整体视角探索语义关系。0•我们在几个公共数据集上进行了广泛的实验,并在Cityscapes、ADE20K和COCOStuff等三个语义分割基准上取得了最先进的性能。02. 相关工作02.1. 语义分割0随着深度神经网络的成功 [ 25 , 35 ,019 ], 语义分割取得了巨大的进展。FCN [ 30]是第一个采用完全卷积网络进行语义分割的方法。随后,出现了许多基于FCN的工作,如UNet [ 33 ],Re�neNet [ 29],162930PSPNet [ 52 ],DeepLab系列[ 3 , 4 , 5 , 6 ]。Chen等人[4 ]和Yu等人[ 45]去除了最后两个下采样层,以获得密集的预测,并利用扩张卷积来扩大感受野。我们选择DeepLabV3作为基本的分割网络,以方便起见。我们还采用上述范式来获得更好的特征图,从而提高模型的性能。然而,大多数先前的方法利用典型的像素级交叉熵损失来监督模型的训练,忽略了不同像素之间的内在关联。02.2. 上下文0上下文信息对于语义分割生成更好的特征表示至关重要。从局部角度来看,DeepLabV3 [ 5]采用多个具有不同扩张率的空洞卷积来捕获上下文信息,而PSPNet [ 52]利用金字塔池化在子区域上进行信息提取。而从全局角度来看,Wang等人[ 40 ]将transformer[ 37]中的自注意力思想应用于视觉问题,并提出了非局部模块,其中计算所有像素之间的相关性以指导密集的上下文信息聚合。这些方法虽然在图像内部有效地利用了上下文信息,但都忽视了图像间的关系。因此,为了学习更全面的特征表示,我们提出在区域级别上进一步探索图像间的关系。02.3. 对比学习0最近,基于孪生网络[1]的对比学习[36, 42, 7, 18,8]在无监督学习问题上取得了巨大的进展,并且明显优于基于预训练任务的先前方法[26, 16, 13, 31]。SimCLR[7]提出了一个简单的框架来进行对比学习,其中使用同一图像的两个随机增强视图生成正样本,使用不同图像生成负样本,形成一个图像级别的鉴别任务。对比学习旨在增加不同图像之间的实例区分能力,并且主要受益于大量的负样本。此外,MoCo[18]维护一个负样本队列,并将孪生网络的一个分支转变为动量编码器,以提高队列的一致性。此外,针对特定的语义分割问题,DenseCL[41]在像素级别上执行密集对比学习。此外,一些先前的方法[23, 22,51]提出使用对比损失对分割问题进行无监督聚类。然而,上述使用对比学习的工作主要集中在无监督预训练任务或聚类上。在没有标签的指导下,可能会出现一些严重的问题。特别是,这些方法将来自不同图像的实例视为负样本,这可能来自同一类别。0不同图像的实例或像素作为负对,这些实例或像素可能来自同一类别。通过对比学习将这些特征推开,下游任务的最终性能可能会受到影响。为了解决这个问题,我们选择从完全监督的角度探索对比学习。基于可用的分割标签,可以探索更深层次的特定语义关系,并且对比学习可以帮助增强同一类别内的特征相似性,并增加不同类别之间的区分能力。03. 方法0在本节中,我们将详细描述所提出的区域感知对比学习(RegionContrast)。我们首先回顾一下无监督表示学习中传统对比学习的背景知识。然后我们将介绍我们提出的以监督方式进行的RegionContrast的细节。03.1. 背景0无监督对比学习。最近,无监督(自监督)表示学习取得了相当大的进展。突破性的方法,如SimCLR[7],MoCo-v1/v2 [18,8]利用对比学习从无标签数据中获得良好的表示,旨在学习一个CNN编码器将输入图像转换为特征表示。给定一个无标签数据集,采用实例鉴别预训练任务,训练集中每个图像的特征与其他图像的特征相区分。对于每个输入图像,通过随机数据增强生成随机的“视图”。每个视图被输入编码器以提取全面编码输入视图的高维特征。编码器由主干网络和投影头组成。主干网络是预训练后用于下游任务的模型,投影头将在之后被丢弃。不同视图的编码器参数可以共享或者通过动量更新。编码器通过成对对比损失进行优化,该损失度量从投影头生成的不同特征向量之间的相似性。记忆库。为了更好地优化编码器,对比学习需要正样本和负样本。虽然来自增强的同一图像的不同视图被视为正样本,但其他图像可以被视为负样本。由于小批量的大小有限,[42, 18,8]采用了一个存储训练图像嵌入的大型记忆库。在训练过程中,可以从记忆库中有效地检索负样本以构建完整的对比损失函数。损失函数。根据MoCo [18,8],对比学习可以被视为一种字典查找任务。162940形式上,对于每个编码的查询q,可以从存储器库中检索到一组编码的键{k0, k1,...},其中单个正键k+对应于查询q,而其他负键k-编码了其他图像的视图。使用对比损失函数InfoNCE[36]将q拉近到k+,同时将其与负键k-分开:0LNCEq = -log 0exp(q∙k+/τ) + ∑k- exp(q∙k-/τ)...0(1)其中τ表示温度超参数。损失函数中的所有嵌入都进行了L2归一化。03.2. 区域感知对比学习0在这项工作中,我们以有监督的方式探索对比学习。借助可用的标记数据,对比学习在类别级别上进行,而不是像以前的方法那样在实例级别上进行,从而更好地增强特征表示。03.2.1 整体框架0如图2所示,我们展示了我们提出的RegionContrast的整体框架。我们选择DeepLabV3作为基本分割网络。我们使用在ImageNet数据集上预训练的ResNet作为骨干网络,替换最后两个下采样操作,并在后续的卷积层中使用扩张卷积,扩大特征图的分辨率和感受野,使输出步幅从16变为8。模型使用传统的像素级交叉熵损失和提出的区域感知对比损失进行监督。具体而言,为了进行区域级对比学习,需要提取区域特征。给定输入图像I∈RC×H×W,我们通过骨干网络和ASPP模块将其传递到特征图F∈RC×H×W。在网络预测的指导下,将从特征图F中进一步提取区域特征,这是通过在特征图上添加一个分割头实现的。为了简化起见,我们选择用一个区域中心来表示图像中的每个类别,该中心编码了关于该类别的最基本信息。在实践中,生成的区域中心是类别i的一个向量Ri∈RC。随后,来自同一类别的区域中心成为正样本,而来自其他类别的区域中心成为负样本。所提出的有监督的区域感知对比学习的关键是将相同类别的区域特征聚集在一起,同时保持不同类别之间的区分能力。03.2.2 区域中心0直观上,类别i的区域中心可以定义为属于类别i的所有像素特征的平均值...0单个图像中类别i的区域中心可以形式化地定义为给定特征图F∈RC×H×W,其中C、H和W分别表示特征图的维度、高度和宽度,类别i的区域中心可以定义为...0Ri = ...0...0x,y0x,y 1[L(x,y)=i]...0其中,L(x,y)是基本分割网络预测的像素标签,1(∙)是指示器,表示像素是否属于类别i。然而,根据上述公式构建的区域中心会覆盖像素的模糊特征,因为网络预测包含了错误的预测,这会误导区域中心的学习过程。为了更多地关注难以分类的像素,我们进一步提出了一种动态采样方法来构建区域中心。除了特征图F∈RC×H×W和预测图P∈RN×H×W之外,还引入了地面真值图G∈RH×W来挖掘难样本,其中C是特征维度,N是类别数量。在地面真值的指导下,可以过滤掉难负样本并检索到难正样本。为了更多地关注难样本,当生成区域中心时,不同像素特征的权重应该不同,难样本的像素权重应该高于易正样本。为此,我们利用预测的置信度图来为易正样本分配权重,其中置信度图ci,j的每个位置的值 ∈ [0, 1]。因此,易正像素(i, j)的权重为1 -ci,j,而难正像素的权重为1。形式上,类别i的易正样本可以表示为EPi = ...0x,y 1 [ L ( x,y ) = i ] ∩ 1 [ G ( x,y ) = i0x,y 1 [ G ( x,y ) = i ] - 1 [ L ( x,y ) = i ] ∩ 1 [ G ( x,y ) = i]。类别i的最终区域中心的定义如下,0Ri =0�0x,y F ( x,y ) ((1 - c ( x,y ) ) ∙ EPi + HPi ) � x,y1 [ G ( x,y ) = i ],(3)03.2.3 区域对比0在为每个图像构建了所有类别的区域中心之后,对于来自类别i的区域中心,可以直接定义区域感知对比损失如下,0LNCEi = 10|Mi|0k+∈Mi - lo0exp(q∙k+/τ)+�0k- exp(q∙k-/τ),0(4)其中Mi表示整个训练集中来自类别i的区域中心的内存库,k-来自其他类别的内存库。如3.1节所述,包含负样本的内存库对于学习良好的特征表示非常重要。之前的方法[41,54, 39]应用了对比. . .. . .. . .. . .... . .. . .. . .. . .162950特征提取器0特征提取器0深度特征0区域中心0推送0交叉熵监督0区域感知0对比学习0在当前迭代之前的内存库0动态采样0图2.我们提出的区域感知对比学习(RegionContrast)的整体框架。所有类别的内存库包含来自当前迭代之前的图像生成的区域中心。给定当前迭代的输入图像,我们首先将其输入特征提取器(骨干网络+ASPP模块)以获取其深度特征。通过提出的动态采样方法,我们从图像中构建区域中心,并根据相应的类别将它们推入内存库。在内存库中,进行区域感知对比学习,红色箭头表示推力,绿色箭头表示拉力(不同颜色的点表示不同类别的区域中心)。模型同时受交叉熵损失和提出的RegionContrast的监督。0在语义分割中,需要维护一个大的内存库来存储像素级的嵌入,这导致对内存库的大容量和训练速度慢的严重需求,因为内存负担很重。而我们的方法则通过引入区域中心而在训练过程中需要更少的内存。具体而言,对于一个包含N个类别的训练集,构建N个内存库,每个库的大小为D×C,其中C是嵌入的特征维度,也被称为区域中心。具体而言,在训练过程中,我们将这些N个内存库作为不同的队列进行维护。对于每个小批量,不同类别的区域中心被生成并推入相应的队列,并在下一个训练周期中进行更新。总之,语义分割的最终监督可以总结如下。采用了提出的区域感知对比损失。传统的像素级交叉熵损失与辅助损失一起使用,就像之前的最先进的工作[52, 47,20]一样。具体而言,我们的骨干网络ResNet的第三阶段的输出被进一步输入到一个辅助层中,产生一个由辅助损失(也是交叉熵损失)监督的预测。总之,损失可以如下表示,L = LCE + αLAUX + βLRC,(5)0其中α,β用于平衡主要的分割损失LCE,辅助损失LAUX和区域感知对比损失LRC。04. 实验0为了评估我们提出的RegionContrast的性能,我们在包括Cityscapes [10]、ADE20K [55]和COCO Stuff[2]在内的三个基准数据集上进行了大量实验。实验结果表明,所提出的RegionContrast能够有效提升最先进方法的性能。在接下来的部分中,我们将首先介绍数据集和实现细节,然后对Cityscapes数据集进行详细的消融研究。最后,我们将报告ADE20K数据集和COCO Stuff数据集的结果。04.1. 数据集和评估指标0Cityscapes数据集[10]用于城市场景理解,包含30个类别,其中只有19个类别用于场景解析评估。该数据集包含5000张精细标注的图像和20000张粗略标注的图像。这5000张精细标注的图像被分为2975/500/1525张用于训练、验证和测试。ADE20K数据集[55]是一个大规模的场景解析基准,包含150个物体/物体类别的密集标签。该数据集包括20K/2K/3K张用于训练、验证和测试的图像。COCOStuff数据集[2]是一个具有挑战性的场景解析数据集,包含59个语义类别和1个背景类别。训练集和测试集分别包含9K和1K张图像。162960方法 mIoU(%)0CE基准方法 76.4 RegionContrast(图内) 77.5RegionContrast(图间) 79.60表1.我们提出的RegionContrast在Cityscapes验证集上的性能比较。0评估指标。在我们的实验中,类别间交并比的均值(mIoU)被用作评估指标。04.2. 实现细节0我们选择ImageNet预训练的ResNet作为骨干网络,去除最后两个下采样操作,并在后续的卷积层中使用扩张卷积,使输出步长等于8。对于训练,我们使用随机梯度下降(SGD)优化器,初始学习率为0.01,权重衰减为0.0005,动量为0.9,用于Cityscapes数据集。此外,我们采用'poly'学习率策略,其中初始学习率乘以(1-iter)^power,其中power为0.9。0max iter ) power with power=0.9.对于Cityscapes数据集,我们采用裁剪尺寸为769×769,批量大小为8,训练迭代次数为30K。对于ADE20K数据集,我们将初始学习率设置为0.004,权重衰减设置为0.0001,裁剪尺寸设置为480×480,批量大小设置为16,训练迭代次数设置为150K。对于COCOStuff数据集,我们将初始学习率设置为0.001,权重衰减设置为0.0001,裁剪尺寸设置为520×520,批量大小设置为16,训练迭代次数设置为60K。L AUX 和 L RC的损失权重分别为0.4和0.1。04.3. 消融研究0在这个子节中,我们使用Cityscapes数据集的验证集进行了大量的消融实验,采用了不同的设置来验证我们提出的RegionContrast的有效性。在这个子节的所有实验中,我们使用DeepLabV3作为我们的分割网络,使用扩张ResNet-50作为骨干网络。RegionContrast的影响。我们进行了实验来评估所提出的RegionContrast的有效性。采用了不同水平的RegionContrast。具体而言,我们选择交叉熵(CE)损失函数作为像素级监督,这也是我们的基准方法。RegionContrast(图内)表示只在图像内部进行区域感知对比学习,使用了更少的正负样本。RegionContrast(图间)表示在整个训练集中进行区域感知对比学习,产生足够的正负样本来确保对比学习的效果。如表所示0方法 mIoU(%)0交叉熵基准 76.4 RegionContrast(直接平均)78.2 RegionContrast(EP + HP) 78.8RegionContrast(加权EP + HP) 79.60表2.区域中心不同构建方法在Cityscapes验证集上的性能比较。'EP'和'HP'分别表示易正样本和难正样本。0方法 内存库大小 mIoU(%)0交叉熵基准 0 76.4 不带内存库的RegionContrast 077.5 带内存库的RegionContrast 1000 78.5带内存库的RegionContrast 2000 79.1带内存库的RegionContrast 2975 79.60表3.内存库对Cityscapes验证集性能的影响。'MB'表示内存库。'2975'是Cityscapes数据集的训练数据大小。01,RegionContrast可以在基准上实现一致的改进。此外,通过引入足够的负样本进行跨图像对比学习,性能进一步提升。动态采样的影响。我们进一步进行实验验证动态采样方法在构建区域中心时的有效性。如表2所示,我们应用不同的构建方法,其中'Direct Average'对应于Eq.2中定义的普通方式,'Weighted EP +HP'表示最终的动态采样构建方式。从表的第2行和第3行可以看出,难正样本比难负样本更关键。此外,结果表明动态采样方法可以有效处理难样本,并引发更强大的区域表示。内存库的影响。在本小节中,我们进行了大量实验来评估内存库的重要性。如表3所示,采用了几种实验设置。具体来说,当不使用内存库执行RegionContrast时,它与表1中的RegionContrast(图像内)相同。可以推断出随着内存库的增大,性能可以进一步提高,这验证了内存库的有效性。较大的内存库能够容纳更多特征,为后续的对比学习提供更丰富的信息。对不同模型的影响。我们进行实验评估了提出的RegionContrast在不同模型中的有效性。采用了不同的分割模型和骨干网络,包括使用ResNet [19]和HRNetV2[38]的DeepLabV3。如表4所示,RegionContrast将ResNet-50的DeepLabV3的mIoU提高了3.2%,ResNet-101的DeepLabV3提高了2.3%,HRNetV2提高了1.5%,表明提出的RegionContrast可以应用于任何分割模型。0.00.20.40.60.81.00.00.20.40.60.81.0(a) CE Supervision0.00.20.40.60.81.00.00.20.40.60.81.0(b) Joint Supervision of CE and RegionContrastgionContrast with different models. Different segmentationmodels and backbones are adopted, including DeepLabV3with ResNet [19] and HRNetV2 [38]. As shown in Table4, RegionContrast improves DeepLabV3 with ResNet-50by 3.2% in mIoU, DeepLabV3 with ResNet-101 by 2.3%and HRNetV2 by 1.5%, indicating that the proposed Re-gionContrast can be applied into any segmentation models.DeepLabV3ResNet-5076.4DeepLabV3 + RegionContrastResNet-5079.6DeepLabV3ResNet-10179.0DeepLabV3 + RegionContrastResNet-10181.3HRNetV2HRNetV2-W4880.4HRNetV2 + RegionContrastHRNetV2-W4881.9162970交叉熵损失监督0交叉熵损失 + RegionContrast0图3.区域中心的可视化结果。模型分别受交叉熵损失和交叉熵损失与RegionContrast的监督。不同颜色的点表示来自不同类别的区域中心。0RegionContrast的效果可视化。为了进一步理解RegionContrast的效果,我们在图3中展示了定性结果。具体来说,我们计算了Cityscapes验证集中每个图像的所有类别的区域中心,并使用t-SNE可视化在图3中展示了所有特征,其中每个点对应一个区域中心。在图3(a)中,仅使用交叉熵损失监督,几个区域中心混合在一起,严重增加了类别之间的模糊性。0方法 骨干网络 mIoU(%)0表4.在Cityscapes验证集上使用不同模型的RegionContrast的性能影响。0方法 骨干网络 mIoU(%)0Re�neNet [ 29 ] ResNet-101 73.6 GCN [ 32 ]ResNet-101 76.9 PSPNet [ 52 ] ResNet-101 78.4AAF [ 24 ] ResNet-101 79.1 DFN [ 44 ] ResNet-10179.3 PSANet [ 53 ] ResNet-101 80.1 GloRe [ 9 ]ResNet-101 80.9 CPNet [ 43 ] ResNet-101 81.3CCNet [ 21 ] ResNet-101 81.4 DANet [ 14 ]ResNet-101 81.5 OCR [ 46 ] ResNet-101 81.8RegionContrast(我们的方法) ResNet-101 82.30表5. 在Cityscapes测试集上与最先进方法的比较。0并且增加了模型的分类难度。引入RegionContrast后,如图3(b)所示,不同类别的区域中心之间的区分能力得到了显著增强。因此,CE和RegionContrast的联合监督显著有助于特征学习,增强了类别之间的区分能力。我们还在Cityscapes数据集的验证集上提供了可视化结果的比较,如图4所示。可以看出,我们提出的RegionContrast可以通过区域级别的图像间关系探索有效地提高预测的一致性。04.4. 与最先进方法的比较0Cityscapes。此外,我们还使用Cityscapes数据集的训练集和验证集训练了所提出的方法,并通过将我们的测试结果提交到官方评估服务器来对测试集进行评估。为了公平比较,我们使用ResNet-101作为骨干网络,使用OHEM损失作为像素级损失,并使用我们提出的RegionContrast来监督学习过程。此外,在测试时使用多尺度和翻转策略。从表5中可以看出,162980图像 CE 基线 RegionContrast 真值0图4.在Cityscapes验证集上的可视化结果。从左到右:输入图像,由交叉熵损失监督的基线方法的预测结果,由我们提出的RegionContrast的预测结果和真值图。0方法 骨干网络 mIoU(%)0Re�neNet [ 29 ] ResNet-152 40.70 PSPNet [ 52 ]ResNet-101 43.29 DSSPN [ 28 ] ResNet-101 43.68PSANet [ 53 ] ResNet-101 43.77 SAC [ 50 ]ResNet-101 44.30 EncNet [ 48 ] ResNet-101 44.65CFNet [ 49 ] ResNet-101 44.89 APCNet [ 17 ]ResNet-101 45.38 CPNet [ 43 ] ResNet-101 46.27RegionContrast(我们的方法) ResNet-101 46.850表6. 在ADE20K验证集上与最先进方法的比较。0可以观察到我们提出的RegionContrast在Cityscapes测试集上达到了最先进的性能。ADE20K。我们还在ADE20K数据集上进行了实验。在验证集上的性能结果报告在表6中。我们的方法在ADE20K数据集的验证集上取得了最先进的结果。COCO Stuff。我们还在COCOStuff数据集上进行了实验,并在表7中报告了结果。结果表明,我们的模型在平均IoU方面达到了40.7%,创下了最高纪录。因此,我们的方法能够有效地收集有用的长程上下文信息,并在语义分割中获得更好的特征表示。05. 结论0在本文中,我们提出了区域感知对比学习(RegionContrast)来将对比学习应用于语义分割问题中。与以前的无监督对比学习方法不同,我们以全监督的方式提出了一种新的对比学习设置,并针对分割问题。在有标签的情况下,我们能够探索更多的语义关系。此外,我们提出了不同类别的区域中心的概念,这些中心存储在内存中,并参与后续的对比学习过程。通过使用区域级别的嵌入来存储整体训练集的信息,而不是像素级别的嵌入,可以以节省内存的方式实现对比学习。消融实验证明了RegionContrast的每个组成部分的有效性。我们提出的RegionContrast在Cityscapes、ADE20K和COCO Stuff三个基准数据集上取得了最先进的结果。0方法 骨干网络 mIoU(%)0FCN-8s [ 30 ] VGG-16 22.7 DAG-RNN [ 34 ] VGG-1631.2 Re�neNet [ 29 ] ResNet-101 33.6 CCL [ 12 ]ResNet-101 35.7 DSSPN [ 28 ] ResNet-101 38.9DANet [ 14 ] ResNet-101 39.7 EMANet [ 27 ]ResNet-101 39.9 ACNet [ 15 ] ResNet-101 40.1RegionContrast(我们的方法) ResNet-101 40.70表7. 在COCO Stuff测试集上与最先进方法的比较。0与以前的无监督对比学习方法不同,我们提出了一种新的对比学习设置,以全监督的方式针对分割问题。有了标签的情况下,我们能够探索更多的语义关系。此外,我们提出了不同类别的区域中心的概念,这些中心存储在内存中,并参与后续的对比学习过程。通过使用区域级别的嵌入来存储整体训练集的信息,而不是像素级别的嵌入,可以以节省内存的方式实现对比学习。消融实验证明了RegionContrast的每个组成部分的有效性。我们提出的RegionContrast在Cityscapes、ADE20K和COCOStuff三个基准数据集上取得了最先进的结果。0致谢0本工作得到了中国国家重点研发计划的支持,批准号为2017YFB1002804。162990参考文献0[1] Jane Bromley, Isabelle Guyon, Yann LeCun, EduardS¨ackinger, and Roopak Shah.使用“孪生”时延神经网络进行签名验证.神经信息处理系统进展,页码737-737,1994年。0[2] Holger Caesar, Jasper Uijlings, and Vittorio Ferrari. Coco-stuff: 上下文中的物体和物品类别.在计算机视觉和模式识别的IEEE会议论文集中,页码1209-1218,2018年。0[3] Liang-Chieh Chen, George Papandreou, IasonasKokkinos, Kevin Murphy, and Alan L Yuille.基于深度卷积网络和全连接CRF的语义图像分割.arXiv预印本arXiv:1412.7062,2014年。0[4] Liang-Chieh Chen, George Papandreou, IasonasKokkinos, Kevin Murphy, and Alan L Yuille. Deeplab:基于深度卷积网络、空洞卷积和全连接CRF的语义图像分割.IEEE模式分析与机器智能交易,40(4):834-848,2017年。0[5] Liang-Chieh Chen, George Papandreou, Florian Schroff,and Hartwig Adam. 重新思考用于语义图像分割的空洞卷积.arXiv预印本arXiv:1706.05587,2017年。0[6] Liang-Chieh Chen, Yukun Zhu, George Papandreou,Florian Schroff, and Hartwig Adam.用于语义图像分割的编码器-解码器和空洞可分离卷积.在欧洲计算机视觉会议(ECCV)论文集中,页码801-818,2018年。0[7] Ting Chen, Simon Kornblith, Mohammad Norouzi, andGe- offrey E. Hinton. 对视觉表示进行对比学习的简单框架.在第37届国际机器学习大会(ICML2020)论文集中,页码1597-1607。PMLR,2020年。0[8] Xinlei Chen, Haoqi Fan, Ross B. Girshick, and Kaiming He.动量对比学习的改进基线. CoRR,abs/2003.04297,2020年。0[9] Yunpeng Chen, Marcus Rohrbach, Zhicheng Yan, YanShuicheng, Jiashi Feng, and Yannis Kalantidis.基于图的全局推理网络.在计算机视觉和模式识别的IEEE会议论文集中,页码433-442,2019年。0[10] Marius Cordts, Mohamed Omran, Sebastian Ramos, TimoRehfeld, Markus Enzweiler, Rodrigo Benenson, Uwe Franke,Stefan Roth, and Bernt Schiele.用于语义城市场景理解的Cityscapes数据集.在计算机视觉和模式识别的IEEE会议论文集中,页码3213-3223,2016年。0[11] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei.ImageNet: 一个大规模的分层图像数据库.在CVPR09中,2009年。0[12] Henghui Ding, Xudong Jiang, Bing Shuai,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 批量文件重命名神器:HaoZipRename使用技巧
- 简洁注册登录界面设计与代码实现
- 掌握Python字符串处理与正则表达式技巧
- YOLOv5模块改进 - C3与RFAConv融合增强空间特征
- 基于EasyX的C语言打字小游戏开发教程
- 前端项目作业资源包:完整可复现的开发经验分享
- 三菱PLC与组态王实现加热炉温度智能控制
- 使用Go语言通过Consul实现Prometheus监控服务自动注册
- 深入解析Python进程与线程的并发机制
- 小波神经网络均衡算法:MATLAB仿真及信道模型对比
- PHP 8.3 中文版官方手册(CHM格式)
- SSM框架+Layuimini的酒店管理系统开发教程
- 基于SpringBoot和Vue的招聘平台完整设计与实现教程
- 移动商品推荐系统:APP设计与实现
- JAVA代码生成器:一站式后台系统快速搭建解决方案
- JSP驾校预约管理系统设计与SSM框架结合案例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功