渐进式分割推理：利用上下文依赖性和潜在线索进行像素级语义分割推理

110 浏览量更新于2023-10-13 收藏 887KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

15354Scribble监督的语义分割推理徐景山1*，周传伟1*，崔振1 <$，徐春燕1 <$，黄宇歌2，沈鹏程2，李少新2，杨健11南京理工2腾讯，深圳，中国摘要在本文中，我们提出了一个渐进式分割推理（PSI）框架来处理涂鸦监督语义分割。凭借潜在的上下文依赖性，我们封装两个关键线索，上下文模式传播和语义标签扩散，以增强和细化像素级分割结果从部分已知的种子。在上下文模式传播中，基于图形模型将不同粒度的上下文模式进行关联和利用，以适当地扩散模式信息，从而提高像素标签预测的推理置信度此外，根据估计像素的高置信度分数，通过动态学习自适应决策策略，初始注释种子在图像上逐步传播。这两个线索最后模块化，形成一个闭环更新过程中，逐像素的标签推理。大量的实验表明，我们提出的渐进式分割推理可以受益于空间和语义上下文线索的组合，同时在两个公共涂鸦分割数据集上实现最先进的1. 介绍语义分割是计算机视觉中的一个基本课题许多基于深度学习的方法已经涌现出来来处理这个任务[5，6，28，10，43]。它们通常需要大量完全注释的样本来促进深度神经网络的训练但由于分割区域的多边形完全灵活/不规则，图像分割的标注工作量很大为了绕过对高成本注释的依赖性从广义上讲，注释方式主要有四种类型。*作者贡献相同。†通讯作者：zhen. njust.edu.cn，cyx@njust.edu.cn.图像：图像级标签[9，18，24，41]，点击[4]，绑定-在框[7，30，19]和涂鸦[26，34，35，38]。图像级标签和点击仅提供非常有限的监督信息，因此使得它们难以训练高精度语义分割模型。虽然绑定框可以提供更多的监督信息，但它们往往彼此重叠，从而在训练期间导致许多混淆标签的干扰。与之相比，涂鸦式标注更能灵活地反映语义类的分布，且操作易于控制。由于其潜在的优势，在这里，我们专注于涂鸦监督语义分割的情况下。在过去的十年中，已经研究了涂鸦监督的语义分割早期的方法[33，12]可以追溯到交互式分割，其使用图形模型将语义标签直接扩展到未标记的区域。随着深度神经网络的普及，许多最近的方法试图将深度特征学习引入传统的图形模型中，例如，CRF [26]和基于涂鸦[26]的随机游走[37]，并为那些未标记的区域生成更可信的伪标签以指导模型更新。此外，由于边界估计的困难，一些方法[38]采用辅助网络来帮助分割细化，或者引入拓扑约束损失函数[34，35]来平滑预测结果。尽管这些方法致力于利用更鲁棒的特征或外部信息来提高分割性能，但关于从已知种子推断什么/如何推断未知区域的关键问题，特别是在深特征模式空间中，仍在研究中。为了解决上述问题，我们提出了一个渐进的分割推理（PSI）框架，自适应扩散上下文模式以及标签信息的涂鸦监督语义分割。受观察结果[27]的启发，从低级视觉到高级语义的模式在空间域或语义域中相互依赖/相关，我们试图利用模式依赖性来实现分割推断。15355恩塞具体地，所设计的分割推断由两个部分组成：多粒度上下文模式传播（CPP）和渐进式语义标签扩散（SLD）。在CPP中，从多粒度上下文域中挖掘模式相关性，包括跨不同卷积层以及跨不同空间位置。然后，通过图模型在多粒度上下文域中进行信息聚合，增强用于预测像素标签由于引入了图结构，CPP具有两方面的优点。一方面，可以有效地集成来自不同粒度层的上下文信息另一方面，在训练期间，由于图中的短路连接，向后梯度可以更快地传播到先前的图像像素，这也使得顶层的稀缺监督更有效地施加在底层上。在SLD中，受[17，42]的启发，我们试图根据具有CPP的分割模型的预测得分将注释的涂鸦扩展到相邻的置信区域。为了确保更可信的推理，我们引入了一种自适应决策策略，选择那些高置信度区域作为伪地面真值，进一步用于下一个模型更新过程。由此，可以利用高置信度区域的连续扩展来逐渐细化未知的分割标签。这两个组件被模块化，并进一步封装成一个闭环推理过程，以实现渐进的分割预测。实验结果表明，该方法能够使分割模型和标签相互进化，在手写监督语义分割中取得了较好的效果。总之，我们的贡献有三个方面：• 我们提出了一种新的渐进式分割推理框架，通过上下文推理以及注释推理涂鸦监督语义分割。• 我们开发了两个关键组件，多粒度上下文模式传播和渐进语义标签扩散，以形成一个闭环更新过程中的像素标签推理。• 我们通过实验验证了所提出的两个组件的有效性，并报告了最先进的性能。2. 相关作品语义分割。在早期，语义分割方法主要采用CRF等图形模型[22]。文献[11]集成了条件图形模型和位置先验以产生语义分割结果。”[21]《易经》云：“君子之道，焉可诬也？”CRF并通过全多面体晶格使其在计算上有效[1]。随着深度学习的快速发展，许多深度分割网络已经被开发出来。FCN [28]首先将深度网络引入语义分割，并实现了极大的性能提升。SegNet [3]开发了一种具有反卷积和解池层的编码器-解码器结构，并放弃了FCN [28]中使用的全连接层。后来，上下文信息挖掘引起了人们的广泛关注，并提出了许多方法来利用上下文信息的先验知识。DeepLab [5]采用atrous卷积来扩大卷积核的感受野，以感知更广泛的上下文区域，并使用CRF[21]来细化分割预测。CENet [45]利用端到端可训练神经网络来学习上下文编码向量。DeepLabV 3 + [6]聚合了ASPP模块和编码器-解码器结构，以进一步扩大感受野。DANet [10]利用自我注意力[36]从空间和通道维度聚合全局OCR [43]采用HRNet [39]作为主干，并利用粗略的分割结果来获得对象区域上下文，以进一步细化分割结果。大多数的语义切分研究试图利用更多的上下文信息，我们的研究也是如此与以往的方法不同，本文的方法通过图形化模型，为空间域和语义域的上下文聚合提供了一种有效的Scribble-Supervised Segmentation。在早期阶段，涂鸦监督分割通常以交互方式解决[33，12]，其中不断绘制反馈涂鸦以细化分割结果。这个阶段的方法通常将图像转换为加权无向图。随着深度学习的兴起，许多研究尝试利用深度神经网络来解决涂鸦监督分割。ScribbleSup [26]首先将深度学习引入到涂鸦监督分割中。首先使用弱注释的手写体和CRF模型生成完整的注释图[21]。然后，交替优化神经网络和CRF能量函数来细化分割结果。RAWKS [37]嵌入了深度分割网络和可学习的标签传播器，以逐步更新分割网络和传播的密集注释。我们提出的PSI还联合更新分割网络和注释图，但我们的注释是根据动态学习策略逐步扩展到未标记区域。BPG [38]开发了一种感知细化网络，以利用来自编码器的更多信息，特别是来自较大分辨率特征图的信息。BPG还专门设计了一个辅助网络来细化边缘细节，该网络在额外的条件下训练。15356RRRi=1L˜˜←···R--|图1.说明我们提出的渐进式分割推理方法。（a）总体框架。（b）我们提出的CPP模块的详细示例（c）我们建议的SLD模块的详细结构我们的方法主要由两个部分组成：上下文模式传播（CPP）模块和语义标签扩散（SLD）模块。在CPP中，多尺度上下文模式通过空间和语义域的图形模型传播，形成增强的聚合模式。在SLD中，设计了一个动态决策网络，根据估计的置信度图的分布，自适应地将语义标签扩散到未标记的区域CPP和SLD最后被模块化为一个闭环，以逐步更新分段网络和监督。边缘信息我们提出的PSI也试图捕获更多的内部信息，如[47]，但我们在空间和语义域中聚合了不同粒度的上下文模式，并且我们其他研究[34，35]专注于设计拓扑约束损失函数，以仅用潦草的注释来约束网络学习。相比之下，我们提出的PSI主要致力于设计新的网络结构，以执行有效的推断分割结果以及注释，我们只使用简单的交叉熵和1惩罚来训练我们的网络。3. 渐进式分割推理3.1. 概述我们提出的渐进式分割推理的框架如图所示。1.一、给定一组带有弱注释涂鸦的训练样本，我们的目标是学习一个更鲁棒的分割模型。由于涂鸦的标签信息有限，通常缺乏足够的指导来训练一个优秀的分割模型。为了解决这个问题，一方面，需要充分挖掘图像的内部/自身先验（诸如上下文模式相关性或拓扑结构信息）以用于学习。另一方面，标签信息被认为是推断和扩散从注释涂鸦到未标记的像素，以便提供尽可能多的可用注释为此，我们封装了两个关键线索，上下文模式传播（CPP）和语义标签扩散（SLD），以增强和完善像素级分割结果从弱注释涂鸦。给定输入图像I，我们假设涂鸦注释区域为0，并且对应的标签为yR0aka初始种子。我们试图通过从I挖掘内部上下文线索来推断从初始区域0到整个图像I的置信监督标签。首先，我们使用一些流行的卷积神经网络（CNN）（例如ResNet [15]）对输入图像I进行编码，并生成多尺度特征映射X（i）L，其中上标⑴表示层索引，X（i）表示具有较大i的更高级别语义特征映射。分割区域t（在初始t= 0处）将随着渐进演化过程而扩展。在每个阶段中，我们利用CPP深入挖掘基于图拓扑结构的输入图像I的内部上下文模式相关性，并在语义和空间域上聚合上下文模式。假设增强的特征图的预期目标大小等于第k层增强的特征图可以被导出为X（k）CPP（X⑴，X⑵，）的情况。 CPP的详细信息将在第3.2节中介绍。一旦获得增强的上下文模式X（k），我们就可以通过一个回归函数（例如，卷积网络层）。置信图M与先前的种子yRt-起被馈送到SLD级中，以输入表示为yRt+1的新的种子区域。为了更好地预测新的种子，我们专门设计了一个动态策略网络，根据估计的分割图中的置信度分布自适应地扩大监督有关SLD的更多详细信息，请参见第3.3节。因此，新的种子yRt+1可以用作监督信息以指导下一个训练过程并且进一步继续生长种子。15357我我⟨·⟩i、j（k）（l）V A XV A X我我--其中，Θ是要学习的模型参数。我们在-˜我JAi，j←Σ（k）i、j（k）我我我我CPP和SLD最后被模块化，并进一步封装成一个闭环推理过程，以优化分割网络以及分割标签。3.2. 上下文模式传播CPP模块的目标是通过用图建模模式的拓扑结构，用图像在语义域中，第l层中的上下文邻居窗口的半径，I是所有相关层索引的集合。根据邻居节点集N（k），可以构造邻接矩阵A（k）。为了计算节点之间的边权重，我们引入了一种满足ric，它可以是欧几里得距离，余弦距离或内积在本文中，我们使用内积作为我们的关系度量，因此目的节点v（k）和邻接节点v（l）的边权重A（k）等于从低级别详细要素图层到x，x ，则可以获得归一化的边权重捕获高级语义特征层;在空间I j（k）exp{A（k）}聚集在当地。具体地，我们通过定义在多粒度特征层上的图G=（，，）来对CPP聚合过程进行建模，其中，，分别是节点集、邻接矩阵和节点属性/特征。为了简化，下面我们取一个节点周围的局部子图来说明CPP模块。假设我们想要导出目的地层k的一个空间位置处的图案，其中该空间位置对应于一个节点，表示为v（k）∈ V。鉴于m∈Niexp{Ai，m}在不同层语义域中聚合模式，当k=1时，在空间域中聚合上下文模式，传播同一语义层的空间模式，增强节点表示。回到我们的节点v（k）的聚合模式，我们现在可以重新公式化等式（1）此说：目标节点v（k），我们可以构造多粒度ad-x∈（k）=σ（x ∈A（k）·x（l）·W（l）+b（l）），（4）我跨不同特征级别的相邻关系邻居节点集w.r.tv（k）表示为N（k），其还包含i i，j jl∈Ivj∈N（k，l）自节点v（k）。根据邻居节点集，我们（k，l）（k）我（k）其中NiNi是在第l个节点可以构造相应的邻接矩阵Ai和属性矩阵X（k）。模式聚合可以被公式化为：域中，特定层中的上下文模式是ag-. 当k=l时，上下文15358i图层，参数 W（l），b（l）用于聚合不同粒度特征地图一个统一的语义域，σ是一个非线性ac-15359我⌊⌋∈∈⌊·⌋（k）（k）（k）15360（一）激励功能15361xi= fagg（Xi ，Ai ，Θp），其中x（k）是关于目的地的增强模式p给出了邻接矩阵A（k）和聚集函数fagg的构造。为了确定关于目的地节点的邻居节点，我们将算子p（l）（·）定义为：在DeepLabV3+ [6]之后，我们对15362聚合模式x（k）和最高级特征图到低级别要素地图15363它们与相应的低级模式，形成有效的解码器模块。很明显，15364的CPP模块是两个折叠。一方面另一方面，各种颗粒15365p（l）（i）=i，如果S2Sk−Slk>Sl，（二）15366在图-ical模型来增强模式表示，提升i·2Sl−Sk，否则。其中运算符表示向下舍入。Sk是目的地层X（k）的比例，Sl是目的地层X（k）的比例。聚合层X（1）。例15367如，给定X（k）RCk×Hk×Wk和X（l）RCl×2Hk×2Wk，则目的地层k的规模被认为是1，并且聚合层l的规模是2。然后我们定义邻接所有相关层上的v（k）的节点集合N（k语义标签推理。另一方面，在15368训练后向梯度可以被传播到由于短路连接而15369在图形中，这也使得缺少对顶层监督更有效地施加在底层上。我们的实验15370结果表明，我们提出的CPP模块能够超越强大的基准，并导致满意的se-15371Mantic分割结果。15372（k）我（l）我（l）（l）（l）3.3. 语义标签扩散N1={Idx（j）||p（i）−Idx（j）|<ρi ，l∈I}，（3）其中Idx（l）（j）表示相邻节点v（l）在相关层X（l）中的特定位置，15373在聚集空间和se中的上下文模式之后Mantic域，我们可以预测一个置信图M

下载后可阅读完整内容，剩余1页未读，立即下载