基于像素对比度的语义分割方法研究

105 浏览量更新于2023-10-13 收藏 1.64MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

17303基于像素对比度的语义分割方法研究Wengguan Wang1*，Tianfei Zhou1 *，Fisher Yu1，Jifeng Dai2，Ender Konukoglu1，Luc VanGool11苏黎世联邦理工学院计算机视觉实验室2商汤科技https://github.com/tfzhou/ContrastiveSeg摘要当前的语义分割方法只关注于挖掘“局部”上下文，即，通过上下文聚集模块（例如，扩张卷积，神经注意力）或结构感知优化准则（例如，IoU样损失）。然而，它们忽略了训练数据的“全局”上下文，即，不同图像的像素之间的丰富语义关系。受无监督对比表示学习的最新进展的启发，我们提出了一种在全监督环境下进行语义分割的像素级对比算法。其核心思想是使同一语义类的像素嵌入比不同语义类的像素嵌入更相似。它提出了一个像素级度量学习范式的语义分割，明确地探索标记像素的结构，这是很少探索以前。我们的方法可以毫不费力地我们的实验表明，与著名的分割模型（即DeepLabV3，HRNet，OCR）和主干（即，ResNet，HRNet），我们的方法在不同的数据集（即 Cityscapes 、 PASCAL-Context 、 COCO-Stuff 、CamVid）。我们希望这项工作将鼓励我们的社区重新思考目前的事实上的训练范式在语义分割。1. 介绍语义分割是计算机视觉中的一个基本问题，其目的是推断图像中所有像素的语义在过去的十年中，语义分割已经取得了显著的进步，这是由大规模数据集（例如，Cityscapes [15]）和卷积网络的快速演进（例如，VGG [63]，ResNet [32]）以及分割模型（例如，全卷积网络（FCN）[51]）。特别是，FCN [51]是现代深度学习技术用于分割的基石，由于其在端到端方面的独特优势。*前两个作者对这项工作的贡献相同。图1：主要思想。当前的分割模型学习将像素（b）映射到嵌入空间（c），但忽略了标记数据的固有结构（即，来自相同类别的像素之间的图像间关系引入逐像素对比学习以通过明确地解决类内紧凑性和类间分散性来培育新的训练范例（d）每个像素（嵌入）i被拉得更靠近（）到同一类的pixels（），但推远了（）从像素（）从别类的因此，一个更好的结构化嵌入空间（e）被导出，最终提高分割模型的性能像素表示学习。然而，其空间不变性的性质阻碍了在像素之间（在图像内）建模有用上下文的能力。因此，后续努力的主流深入研究用于有效上下文聚合的网络设计，扩张卷积[80，8，9]，空间金字塔池化[84]，多层特征融合[58，47]和神经注意力[35，24]。此外，由于广泛采用的逐像素交叉熵损失从根本上缺乏空间区分能力，因此提出了一些替代优化标准，以在分割网络训练期间明确解决对象结构[40，2，86]。基本上，这些分割模型（不包括[37]）利用深度架构将图像像素投影到高度非线性的嵌入空间中（图11）。（c）第1段。然而，它们通常学习仅利用像素样本周围的“局部”上下文的嵌入空间各个图像内的像素相关性跨图像的像素语义关系）。因此，一个重要的问题一直被忽视的领域：一个好的分割嵌入空间应该是什么的？理想地，它不仅应该1）解决单个像素嵌入的分类能力，而且2）被良好地构造以解决类内紧凑性和类间分散性。关于2），像素17304在嵌入空间中，来自同一类的那些应该比来自不同类的那些更接近。表征学习中的先前研究[49，60]还表明，对训练数据的内在结构（即，2））将有助于特征鉴别（即，1））。因此，我们推测，虽然现有的算法已经取得了令人印象深刻的性能，它是可能的，学习一个更好的结构化的像素嵌入空间，通过考虑1）和2）。无监督表示学习[12，31]的最新进展可以归因于对比学习的复兴-深度度量学习的一个核心思想是“学习比较”：给定锚点，在投影嵌入空间中将相似（或正）样本与一组不相似（或负）样本区分开特别是在计算机视觉领域，基于图像特征向量对对比度进行评价;锚图像的增强版本被视为正图像，而数据集中的所有其它图像充当负图像。无监督对比学习的巨大成功和我们前面提到的推测一起激励我们重新思考当前语义分割的事实训练范式。基本上，无监督对比学习的能力源于结构化比较损失，它利用了训练数据中的上下文有了这个洞察力，我们提出了一个像素级对比算法，在全监督环境中进行更有效的密集表示学习。具体地，除了采用逐像素交叉熵损失来解决类别区分（即，性质1）），我们利用逐像素对比损失来进一步形成像素嵌入空间，通过探索标记像素样本的结构信息（即，性质2））。逐像素对比度损失的想法是计算像素到像素的对比度：强制嵌入对于正像素是相似的，并且对于负像素是不相似的。由于在训练期间给出了像素级分类信息，因此正样本是属于同一类的像素，而负样本是来自不同类的像素（图12）。1（d））。以这种方式，可以捕获嵌入空间的全局属性（图13）。1（e）），以更好地反映训练数据的内在结构并实现更准确的分割预测。我们的监督像素对比算法，两个新的技术开发。首先我们提议区域存储器组以更好地解决语义分段的性质。面对大量高度结构化的像素训练样本，我们让内存存储语义区域的池化特征（即，来自同一图像的具有相同语义标签的像素这导致像素到区域对比度，作为像素到像素对比度策略的补充。这样的内存设计使我们能够在每个训练步骤中访问更多的代表性数据样本，并充分探索像素和语义级段之间的结构关系。我们我们+0.8[14]第十一届中国国际航空航天博览会CCNet[84]我们DeepLabV3+[第十一届]HRNet-W48[第六十五章]PSPNet[84]+0.9DeepLabV3[9]图2：准确度与城市景观测试的模型尺寸[15]。我们的对比使性能持续改进超过最先进的技术，即 DeepLabV3[9] ，HRNet[65]，OCR[81]，在推理过程中不会对基础网络进行任何更改。段，即，属于同一类的像素和片段在嵌入空间中应该是接近的。其次，我们提出了不同的采样策略，以更好地利用信息样本，让分割模型更关注那些分割困难的像素。以前的工作已经证实，硬否定对于度量学习是至关重要的[39，60，62]，我们的研究进一步揭示了在这个有监督的密集图像预测任务中挖掘信息性否定/肯定简而言之，我们的贡献有三方面：• 我们提出了一种有监督的，像素级对比学习方法的语义分割。它将当前的图像训练策略提升到图像间、像素到像素的范例。它本质上是学习一个结构良好的像素语义嵌入空间，充分利用标记像素之间的• 我们开发了一个区域存储器，以更好地探索大的视觉数据空间，并支持进一步计算像素到区域的对比度。结合像素到像素的对比度计算，我们的方法利用像素之间的语义相关性，像素和语义区域之间。• 我们证明，更强大的分割模型，更好的例子和锚采样策略，可以提供，而不是选择随机像素样本。我们的方法可以无缝地结合到现有的分割网络中，而无需对基础模型进行任何更改，并且在测试期间没有额外的推理负担（图11）。2）的情况。因此，我们的方法在挑战性数据集上显示出一致改进的交集分割分数（即，Cityscapes [15]、PASCAL-Context [53]、COCO-Stuff[5]和CamVid[3]），使用最先进的分段体系结构（即， DeepLabV3 [9] 、 HRNet [65] 和 OCR[81]）和标准主干（即，ResNet [32]，HRNet [65]）。令人印象深刻的结果揭示了度量学习在密集图像预测任务中的承诺。我们希望这项工作提供洞察全球像素关系在分割网络训练中的关键作用，并促进对所提出的开放问题的研究。17305∈2. 相关工作我们的工作借鉴了语义分割、对比学习和深度度量学习方面的现有文献。为简洁起见，仅讨论最相关的作品。语义分割。FCN [51]极大地促进了语义分割的进步。它擅长于端到端的密集特征学习，然而，只能感知有限的视觉上下文与局部感受野。由于图像中的像素之间存在强相关性，并且这些相关性提供关于对象结构的信息[70]，因此如何捕获这种相关性成为进一步改进FCN的重要问题一组主要的后续工作尝试聚合多个像素以显式地建模上下文，例如，利用不同大小的卷积/池化内核或膨胀率来收集多尺度视觉线索[80，84，8，9]，构建图像金字塔以从多分辨率输入中提取上下文，采用编码器-解码器架构来合并多层特征[58，47，66]，应用CRF来恢复详细结构[50，87]，并采用神经注意力[67，29]来直接交换成对像素之间的上下文[10，35，36，24]。除了研究上下文聚合网络模块之外，另一条工作线转向设计上下文感知优化目标[40，2，86]，即，在训练期间直接验证分割结构，以代替逐像素交叉熵损失。虽然令人印象深刻，但这些方法仅解决了单个图像内的像素依赖性，忽略了标记数据的全局上下文，即，不同训练图像之间的像素语义相关性。通过像素方面的对比学习公式，我们将不同类别中的像素所学习的像素特征不仅对于图像内的语义分类是有区别的，而且更关键的是，对于跨图像的语义分类是有区别的。对比学习最近，用于学习没有标签的表示的最引人注目的方法是无监督对比学习[55，34，73，13，12]，其显著优于其他基于任务的替代方法[43，26，18，54]。与范例学习[19]的想法类似，对比方法通过将相似（正）数据对与不相似（负）数据对进行对比，以有区别的方式学习表示后续研究的一个主要分支集中在如何选择正负对。对于图像数据，标准正对采样策略是应用强扰动来创建每个图像数据的多个视图[73，12，31，34，6]。否定对通常是随机抽样的，但最近提出了一些困难的否定示例挖掘策略[41，57，38]。此外，为了在对比度计算期间存储更多负样本，采用固定[73]或动量更新[52，31]存储器。一些最新的研究[41，33，71]也证实了标签信息可以帮助基于图像级模式预训练的对比学习。我们提出了一个像素到像素的对比学习方法的语义分割在全监督设置。它产生了一个新的训练协议，探索全球像素关系的标记数据，正则化分割嵌入空间。虽然一些并行的工作也解决了密集图像预测中的对比学习[75，7，69]，但这些想法是显着不同的。首先，他们通常将对比学习视为密集图像嵌入的预训练步骤第二，它们简单地使用单个图像内的局部上下文，即，仅计算来自同一图像的增强版本的像素之间的对比。第三，他们没有注意到度量学习在补充当前完善的基于像素交叉熵损失的训练机制中的关键作用（参见图1）。§ 3.2）。深度度量学习。度量学习的目标是使用最佳距离度量来量化样本之间的相似性对比损失[28]和三重损失[60]是深度度量学习的两种基本类型的损失函数。与增加和减少相似和不相似的数据样本之间的距离，分别，前一个作为输入的样本对，而后者是由三元组。深度度量学习[22]已被证明在各种各样的计算机视觉任务中是有效的，例如图像检索[64]和人脸识别[60]。尽管一些现有方法解决了语义分割中度量学习的思想，但它们仅考虑了来自对象[29]或实例[16，1，22，42]的本地内容值得注意的是[37]还探索了训练数据的交叉图像信息，即利用感知像素组进行非参数像素分类。由于其基于聚类的度量学习策略，[37]需要检索额外的标记数据以进行推断。不同的是，我们的核心理念，即利用图像间像素到像素的相似性来对嵌入空间施加全局约束在概念上是新颖的，并且以前很少探索。它由紧凑的训练范例执行，该训练范例享有一元的逐像素交叉熵损失和成对的逐像素对比度损失的互补优势，而不会在部署期间对基础网络带来任何额外的推理成本或修改3. 方法在详细介绍用于语义分割的有监督像素对比算法（§3.2）之前，我们首先介绍了无监督视觉表示学习中的对比公式和记忆库的概念（§3.1）。3.1. 预赛无监督对比学习。无监督视觉表示学习旨在学习CNN编码器 fCNN，其将每个训练图像I变换为特征向量v=fCNN（I）RD，使得v最佳地描述I。为了实现这一目标，对比方法通过区分积极的（一个增强的版本）来进行训练。17306Σ·N|N|C\ΣLCE（等式（二）ΣLNCE（方程式第三章M图3：我们的基于像素对比学习的语义分割网络架构的详细说明chorI）从几个底片（从训练集随机抽取的图像，不包括I），基于样本之间的相似性原理。一个流行的损失函数其中，1c<$表示c<$的独热编码，log算法被定义为逐元素的，并且softmax（yc）=exp（yc） . 这样的培养目标设计主要受对比学习，称为InfoNCE [27，55]，需要以下内容-|C|c’=1exp（yc'）下表：NCEexp（v·v+/τ）（一）两个限制。1）它独立地惩罚逐像素预测，但忽略像素之间的关系[86]。2）由于使用softmax，损失仅取决于LI=−logexp（v·v+/τ）+Σv−∈NI、exp（v·v−/τ）logits之间的相对关系，不能直接监督其中V+是I的正的嵌入，I包含负的嵌入，表示内部（点）积，并且τ>0是温度超参数。注意，损失函数中的所有嵌入都是l2归一化的。内存库。正如最近的研究[73，13，31]所揭示的，一大组负面（即，I）在无监督的对比表示学习中至关重要。由于阴性的数量受到小批量大小的限制，最近的对比方法利用大的外部存储器作为库来存储更多的导航样本。具体地，一些方法[73]直接将所有训练样本的嵌入存储在存储器中，然而，容易遭受异步更新。其他一些选择保留最后几个批次的队列[68，13，31]作为内存。在[13，31]中，存储的嵌入甚至通过CNN的编码器网络的动量更新版本实时更新。3.2. 监督对比分割逐像素交叉熵损失。在语义分割的上下文中，图像I的每个像素i必须是分类的。[56]关于学习的陈述。这两个问题很少被注意到;通过考虑像素相似性[40]、优化交集大于并集测量[2]或最大化地面实况和预测图之间的交互信息[86]，仅设计了几个结构感知损失来解决1）。然而，这些可选损失仅考虑图像内像素之间的依赖性（即，局部上下文），而不管图像上的像素之间的语义相关性（即，全局结构）。像素间对比度。在这项工作中，我们开发了一种基于像素的对比学习方法，通过正则化嵌入空间和探索训练数据的全局结构来解决1）和2）我们首先扩展Eq.（1）到我们的监督的、密集的图像预测设置。基本上，我们的对比损失计算中的数据样本是训练图像像素。另外，对于像素i利用其地面实况语义标签c’，假设样本是也属于类别c’的其他像素，而假设样本是属于其他类别的像素。c¯。我们的监督式像素对比度损失定义为：定义为语义类c∈ C。当前方法类型-NCE1Σ我exp（i·i+/τ）（三）Li=|P|−logexp（i·i+/τ）+Σ、exp（i·i−/τ）将此任务视为像素分类问题。具体地，设fFCN是FCN编码器（例如，ResNet [32]），我i+∈P其中P和Ni−∈Ni的像素嵌入集合。17307∈ C∈···∈我c¯它产生一个稠密特征I∈RH ×W ×D，对于I，从ii其中可以导出i的像素嵌入i∈RD（即，i∈I）。然后，分割头fSEG将I映射到猫-积分图Y=fSEG（I）∈RH×W×| C|.进一步让y=[y1，y| C|] R| C|是未归一化的得分向量（称为logit），从Y导出，即，Y Y。给我一张照片。r.t其地面实况标签c′，交叉熵损失用softmax优化（参见。图3）：LCE=−1Tlog（softmax（y）），（2）17308分别为像素i的正样本和负样本。注意正/负样本和锚点i不是仅限于来自同一个图像。如等式（3）显示，这种基于像素到像素对比度的损耗设计的目的是学习一个嵌入空间，通过拉相同的类像素通过将不同类别的样本分开来关闭样本。等式（1）中的逐像素交叉熵损失（2）我们的承诺--在Eq.（3）相互补充前者让分割网络学习区分17309LLM|C| ××MM|C| ××C\L|C| × ×·|C|−L·−MLSEG=Σ。LCE+λLNCEΣ，（4）我伊=−（1−pi+）·i−i−∈Npi−·iexp（i·i/τ）图4：用（左）逐像素熵损失（即，Eq.（2））和（右）我们的基于像素对比度的优化目标（即，方程中的SEG（4）城市景观val[15]。要素根据类标签着色。如图所示，所提出的LSEG产生结构良好的语义特征空间。对于分类有意义的像素特征，而后者有助于通过显式地探索像素样本之间的全局语义关系来正则化具有改进的类内紧致性和类间可分性的嵌入空间。因此，总体培训目标是：gionmemory 是通过平均池化第n 个图像中标记为c’cat egory的像素的所有嵌入而获得的D维特征向量。区域存储器带来两个优点：1）以低存储器消耗存储更多代表性的“像素”样本;以及2）允许我们的逐像素对比度损失（参见图1）。当量（3））进一步探索像素与区域的关系。关于2），当计算等式。（3）对于一个属于c ′ category的锚点像素i，具有相同类c′的存储区域嵌入被看作是正的，而具有其它类的区域嵌入被看作是正的。carene-atives.对于像素存储器，大小为T D。因此，对于整个内存（表示为），总大小为（N+T）D.我们研究的设计见第4.2节。在下面的部分中，我们将不区分中的像素和区域嵌入，除非另有说明。硬示例采样。先前的研究[60，39，41，57，38]发现，除了损失设计和训练样本的数量之外，训练样本的辨别能力对于度量学习至关重要考虑到我们的情况，逐像素对比损失的梯度（参见图 1 ）。当量（三））w.r.t. 锚嵌入i可以给出为：我我我哪里λ >0LNCE1 Σ。+−τ|Pi|i+∈Pi我通过SEG学习的像素嵌入变得更加紧凑并且很好地分离。这表明，通过享受一元交叉熵损失和成对满足的优势-其中pi+/-∈ [0，1]表示正/负i+/-与锚i之间的匹配概率，即， p i+/−=ric损失，分割网络可以产生更多的区分创新的特点，从而产生更有前途的结果。正/负Σi'∈Pi∪Niexp（i·i'/τ）. 我们用点积来观察底片定量分析稍后见§4.2和§4.3。像素到区域对比度。正如第3.1节所述，记忆是一种关键技术，有助于对比学习利用大量数据来学习良好的表征。然而，由于在我们的密集预测设置中存在大量的像素样本，并且它们中的大多数是冗余的（即，从和谐对象区域采样），直接存储所有训练像素样本，如传统存储器[12]，将大大减慢学习过程。在队列中维护最后几个批次，如[68，13，31]，也不是一个好的选择，因为最近的批次只包含有限数量的图像，减少了像素样本的多样性因此，我们选择为每个类别维护一个像素队列对于每一类别，只有一小部分，即，从最新的小批量中的每个图像随机地选择像素，并且将其拉入队列中，其大小为T. V。在实践中，我们发现这种策略是非常有效和有效的，但欠采样的像素嵌入太稀疏，以充分捕捉图像内容。因此，我们进一步建立一个区域记忆库，它存储从图像片段中吸收的更有代表性的嵌入（即，语义区域）。具体而言，对于具有总共N个训练图像和语义类的分割数据集，我们的区域存储器以大小N D构建，其中D是像素嵌入的尺寸。第（c¯，n）个元素（即，i i-）更接近于1以更难，即，与锚点I相似的负片。类似地，具有点积的正像（即，i+）被认为更硬，即，与i不同的阳性。我们可以发现，越强的负项带来越多的梯度贡献，即 pi−，比更容易的负数。这一原则也适用于正的，其梯度贡献是1pi+。Kalan-tidis等[38]进一步表明，随着训练的进行，越来越多的否定词变得过于简单，以至于不能为无监督的对比损失提供重要的贡献（cf. 当量①①）。这也发生在我们的监督设置中（参见。当量（3）、积极和消极。为了解决这个问题，我们提出了以下采样策略：• 最难的示例采样。受度量学习中最难负挖掘的启发[4]，我们首先设计了一个“最难样本采样”策略：对于每个锚定像素嵌入i，仅从存储器组中采样前K个最硬的负和正，用于逐像素对比度损失的计算（即，当量中的NCE（三））。• 半硬示例采样。一些研究建议使用更难的否定，因为使用最难的否定进行度量学习可能会导致糟糕的局部最小值[60，74，23]。因此，我们进一步设计了“半硬样本采样”策略：对于每个锚点嵌入i，我们首先收集前10%的最近否定（分别为顶部是系数。如图4所示，、（五）17310M/∈∈∈MLLLL∈L××（1-），幂为0。9 .第九条。而且对于××10%最远的阳性），从中我们随机抽样K阴性（分别为K个正）用于我们的对比损失计算。• 分段感知硬锚点采样。而不是挖掘翔实的正面和负面的例子，我们开发了一个锚抽样策略。我们把锚嵌入的分类能力作为其在对比学习中的重要性。这导致“分段感知硬锚点采样”：具有不正确预测的像素，即， c=c¯，被视为ha r d和c ho r s。F或对比损失计算（cf.当量（3）），一半的锚是随机抽样的，一半是硬锚。这种锚点采样策略使我们的对比学习能够更多地关注难以分类的像素，从而提供更多的分割感知嵌入。在实践中，我们发现此外，在采用相关实验见§4.23.3. 详细的网络架构我们的算法有五个主要组成部分（cf. 图3）：• FCN编码器，fFCN，其将每个输入图像I映射成密集嵌入I=fFCN（I）RH×W×D。在我们的算法中，任何FCN骨干都可以用来实现FCN，我们测试了两种常用的，即，在我们的实验中，ResNet [32]和HRNet [65• 分段头，fSEG，将I投影到分数图Y=fSEG（I）RH×W×|C|. 我们使用主流方法中的不同分割头（即，DeepLabV3 [9]、HRNet [65]和OCR [81]）。• 项目负责人，fPROJ，其将每个高维像素嵌入i I映射到256-d12归一化特征向量[12]中，用于计算对比度损失NCE。fPR0J被实现为具有ReLU的两个11卷积层。请注意，项目头仅在训练期间应用，并在推理时删除。因此，它不引入对分段网络的任何改变或部署中的额外计算成本。• 内存库，由两部分组成，分别存储像素和区域嵌入。对于每个训练图像，我们每个类采样V=10个为每个类，我们将像素队列的大小设置为T=10N。的在训练之后也丢弃存储体。• 接头损失，SEG（参见当量（4）），其利用表示学习的能力（即，Eq.（2））和度量学习（即，当量中的NCE（3））用于更明显的分割特征学习。在实践中，我们发现我们的方法对系数λ不敏感（例如，当λ[0.1，1]），并且根据经验将λ设定为1。对于公式中的NCE（3），我们将温度τ设为0。1.一、对于采样，我们发现“Chor采样K）分别为1，024和2，048对于每个小批次，每个类别抽取50个锚点（一半是随机抽样，另一半是分段困难的）。4. 实验4.1. 实验装置数据集。我们的实验在四个数据集上进行：• Cityscapes[15]拥有5000张经过精细注释的城市场景图像，其中2975/500/1524张用于train/val/test。细分性能报告19chal- lenging类别，如人，天空，汽车和建筑物。• PASCAL-Context[53]分别在训练和测试分割中包含4，998和5，105个图像，具有59个语义类别的精确注释• COCO-Stuff[5]由从COCO [48]收集的10，000张图像组成。它被分成9000和1000个图像用于训练和测试。它提供了丰富的注释80对象类和91个填充类。• CamVid[3]有367/101/233个图像用于train/val/test，总共有11个语义标签训练如§3.3所述，各种主链（即，ResNet [32]和HRNet[65]）和分段网络（即，DeepLabV3 [9]，HRNet [65]和OCR [81]）在我们的实验中被利用来彻底验证所提出的算法。我们遵循惯例[65，81，14，76]来训练超参数。为了公平起见，我们使用在Ima-geNet [59]上预训练的相应权重初始化所有主干，其余层随机初始化。对于数据增强，我们使用颜色抖动、水平翻转和随机缩放，因子为[0. 5、2]。我们使用SGD作为我们的优化器，动量为0。9和重量衰减0。0005我们采用多项式退火策略[9]来调度学习率，其是乘ITER功率总iter对于城市景观，我们使用8的小批量，初始学习率为0。01. 所有的训练图像通过从1024 2048到512 1024的随机裁剪来增强。对于测试实验，我们按照[65]训练模型进行100K次迭代。注意我们没有使用任何额外的训练数据（例如，城市景观粗糙[15]）。对于PASCAL-Context和COCO-Stuff，我们选择mini-batch大小为16，初始学习率为0。001，并且裁切尺寸为520 520。我们在他们的训练集上训练了60K次迭代。对于CamVid，我们训练模型6K次迭代，批量大小为16，学习率为0。02和原始图像大小。试验. 根据一般协议[65，81，61]，我们断言-用翻转使分割结果在多个尺度上老化，即，比例因子是0。75比2 0（间隔为0。25）原始图像大小的倍。请注意，在测试期间，没有任何变更或额外的推断步骤介绍。17311L→→→像素对比度骨干mIoU（%）基线（无造影剂）HRNetV2-W4878.1图像内对比度HRNetV2-W4878.9（+0.8）图像间对比度HRNetV2-W4881.0（+2.9）表1：Cityscapesval [15]上不同对比机制的比较。更多详情请参见§4.2。表2：Cityscapesval [15]上不同内存条设计的比较。更多详情请参见§4.2。引入到基本分割模型，即，投影头fPROJ和存储体M被直接丢弃。评估指标。根据标准设置，使用平均交-并（mIoU）进行评价。再现性。我们的模型在PyTorch中实现，并在四个NVIDIA Tesla V100 GPU上训练，每张卡具有32GB内存。在同一台机器上进行测试。我们的实现可以在https：//github.com/tfzhou/ContrastiveSeg网站。4.2. 诊断实验我们首先研究我们的核心理念和基本模型设计的有效性，超过Cityscapesval [15]。我们采用HRNet [65]作为我们的基础分割网络（在表1 - 3中表示为为了进行广泛的消融实验，我们对每个模型进行40K次迭代，同时保持其他超参数不变。图像间与图像内像素对比度。我们首先调查的有效性，我们的核心思想的图像间像素对比度。如表1所示，另外考虑跨图像像素语义关系（即，“Inter- ImageContrast”) in segmentation network learning leads to asubstantial performance gain ( 2.9%），与“基线（无造影剂）”相比此外，我们开发了另一个基线，当量中的NCE （5）计算。表1中的结果表明，尽管78.1%→78.9%），内存库。接下来，我们验证我们的记忆银行的设计。结果总结在表2中。基于它得到79。百分之八mIoU。然后，我们为该变体提供像素和区域内存分开，并观察一致的性能增益（79. 8%→80。5%的像素内存和79。8%→表3：Cityscapesval [15]上不同硬示例采样策略的比较。更多详情请参见§4.2。八十2%用于区域存储器）。这验证了i）在对比学习期间利用更多的像素样本导致更好的像素嵌入;以及ii）像素到像素和像素到区域的关系都是信息线索。最后，在使用两个记忆之后，更高的分数（即，81.0%），揭示了i）我们的存储器设计的有效性;以及ii）全面考虑像素到像素对比度和像素到区域对比度的必要性采矿的硬例子。表3给出了对§3.2中提出的各种硬示例挖掘策略的全面检查。我们的主要意见如下：i）对于正/负采样，挖掘有意义的像素（即，“最硬”或“半硬”采样）而不是“随机”采样确实是有用的; ii）因此，“半硬”采样更受欢迎，因为它通过避免训练集中的过拟合异常值来提高训练的鲁棒性。这证实了无监督设置中的相关观察结果[72]，并表明分割可能受益于更智能的样本处理;和iii）对于锚取样，“分段-“感知硬80.1%和81.0%）。这表明，在监督度量学习中利用任务相关信号可以帮助开发更好的分割解决方案，这仍然是相对未开发的。4.3. 与最新技术水平的城市景观[15]。表4列出了在两种广泛使用的训练设置[65]下（通过训练或训练+val训练）的Cityscapes测试分数。我们的方法在3个强基线上带来了令人印象深刻的收益（即，DeepLabV 3、HR-NetV 2和OCR），并且设置了新的最先进的技术。PASCAL-Context [53]. 表5给出了PASCAL上下文测试的比较结果。我们的方法通过坚实的余量（即，五十四055 1用于HRNetV2，56。257 2用于OCR）。这是特别令人印象深刻的，考虑到这一事实，即改善这个广泛的基准数据集是非常困难的。COCO-Stuff [5]. 表6报告了我们的方法在COCO-Stuff测试中与七种竞争对手的性能比较。我们发现OCR+Ours产生的mIoU为41。0%，这导致相对于其对应物的0.5%的有希望的增益（即， OCR 405%mIoU）。另外，人力资源部-采样骨干mIoU（%）锚阳性/ Neg.基线（无造影剂）HRNetV2-W4878.1随机HRNetV2-W4879.3（+1.2）随机最难HRNetV2-W4879.4（+1.3）半硬HRNetV2-W4880.1（+2.0）赛格觉察困随机HRNetV2-W4880.2（+2.1）存储器骨干mIoU（%）基线（无造影剂）HRNetV2-W4878.1小批量（不含内存）HRNetV2-W4879.8（+1.7）像素存储器HRNetV2-W4880.5（+2.6）17312图5：OCR[81]和OCR+Ours之间的视觉比较（从左到右：Cityscapes，PASCAL-Context，COCO-Stuff）。模型骨干mIoU（%）在Cityscapes列车在Cityscapestrain+val德国联邦国防军18[79]D-ResNet-10179.3PSANet18 [85]D-ResNet-10180.1SVCNet19 [17]D-ResNet-10181.0尼泊尔共产党（20）[77]D-ResNet-10181.3DANet19 [24]D-ResNet-10181.5[82]第19话D-ResNet-10181.8DGCNet19 [83]D-ResNet-10182.0HANet20 [14]D-ResNet-10182.1ACNet19 [25]D-ResNet-10182.3DeepLabV317 [9]D-ResNet-10179.4DeepLabV3+我们的D-ResNet-10180.3（+0.9）[65]第65话HRNetV2-W4881.6HRNetV2+我们的HRNetV2-W4882.5（+0.9）OCR20 [81]HRNetV2-W4882.4OCR+我们的HRNetV2-W4883.2（+0.8）表4：Cityscapes上的定量分割结果测试[15]。D-ResNet-101 =扩张的ResNet-101。参见§4.3。模型骨干mIoU（%）DANet19 [24]D-ResNet-10152.6SVCNet19 [17]D-ResNet-10153.2尼泊尔共产党（20）[77]D-ResNet-10153.9ACNet19 [25]D-ResNet-10154.1[30]第十九话D-ResNet-10154.4RANet20 [61]ResNet-10154.9[76]第二十六话HRNetV2-W4855.3[65]第65话HRNetV2-W4854.0HRNetV2+我们的HRNetV2-W4855.1（+1.1）OCR20 [81]HRNetV2-W4856.2OCR+我们的HRNetV2-W4857.2（+1.0）表5：PASCAL-Context上的定量分割结果测试[53]。D-ResNet-101 =扩张的ResNet-101。参见§4.3。NetV2+Ours比HRNetV2高0.6%。CamVid [3]. 表7示出了我们的方法还导致在CamVid测试上的HRNetV2和OCR的改进。定性结果。图5描述了OCR+Ours与OCR在代表性示例上的定性模型骨干mIoU（%）SVCNet19 [17]D-ResNet-10139.6DANet19 [24]D-ResNet-10139.7SpyGR20 [46]ResNet-10139.9ACNet19 [25]ResNet-10140.1[65]第65话HRNetV2-W4838.7HRNetV2+我们的HRNetV2-W4839.3（+0.6）OCR20 [81]HRNetV2-W4840.5PSPNet17 [84]D-ResNet-10178.4PSANet18 [85]D-ResNet-10178.6PAN18[44]D-ResNet-10178.6AAF18 [40]D-ResNet-10179.1DeepLabV317 [9]D-ResNet-10178.1DeepLabV3+我们的D-ResNet-10179.2（+1.1）[65]第65话HRNetV2-W4880.4HRNetV2+我们的HRNetV2-W4881.417313表6： COCO-Stuff上的定量分割结果测试[5]。D-ResNet-101 =扩张的ResNet-101。参见§4.3。模型骨干mIoU（%）DFANet19 [45]Xception64.7[78]第十八话D-ResNet-10168.7PSPNet17 [84]D-ResNet-10169.1[65]第65话HRNetV2-W4878.5HRNetV2+我们的HRNetV2-W4879.0（+0.5）OCR20 [81]HRNetV2-W4880.1OCR+我们的HRNetV2-W4880.5（+0.4）表7：定量分割结果关于CamVidtest[3]. D-ResNet-101=扩张的ResNet-101。参见§4.3。从三个数据集（即，Cityscapes、PASCAL-Context和COCO-Stuff）。如图所示，我们的方法能够在各种挑战场景中产生更准确的片段5. 结论与讨论在本文中，我们提出了一种新的监督学习模式的语义分割，享受一元分类和结构化度量学习的互补优势。通过逐像素对比学习，它研究训练像素之间的全局语义关系，引导像素嵌入跨图像类别区分表示，最终提高分割性能。我们的方法产生了有希望的结果，并在各种密集预测任务中显示出巨大的潜力，例如姿势估计[89，21]和身体解析[88，20]。它还带来了新的挑战，特别是关于智能数据采样，度量学习损失设计，训练期间的类重新平衡和多层特征对比。考虑到过去几年的大量技术突破，我们预计这些有前途的方向会出现一系列创新。鸣谢本工作得到了浙江实验室开放基金（No. 2020 AA 3AB14）和CCF-百度开放基金。17314引用[1] 白敏和拉奎尔·乌塔孙用于实例分割的深分水岭变换。在CVPR，2017年。3[2] Maxim Berman、Amal Rannen Triki和Matthew B布拉什河lova'sz-softmaxloss：神经网络中交叉-联合测量优化的易处理的surrogate在CVPR，2018年。一、三、四[3] Gabriel J Brostow，Julien Fauqueur，and Roberto Cipolla.视频中的语义对象类：一个高清晰度地面实况数据库。PRL，30（2）：88-97，2009. 二、六、八[4] MaximeBuche r，Ste'phaneHerbin和Fre'd e'ricJurie。硬基于度量学习的零触发分类的否定挖掘。在ECCV，2016年。5[5] Holger Caesar Jasper Uijlings和Vittorio Ferrari 可可-stuff：上下文中的Thing和stuff类。在CVPR，201

下载后可阅读完整内容，剩余1页未读，立即下载