单阶段弱监督语义分割：从点注释到复杂场景的高性能

24 浏览量更新于2025-01-16 收藏 2.12MB PDF 举报

"本文介绍了一种单阶段弱监督语义分割方法，旨在克服现有方法在处理复杂场景时的局限性，提高性能并简化训练过程。该方法不依赖预先训练的骨干网络，而是利用点注释生成可靠且即时的伪掩模，从而在不同数据集复杂性上展现出良好的推广能力。在基准数据集PascalVOC2012及多个真实世界数据集上的实验表明，该方法相较于其他SOTA WSSS方法和多阶段基线有显著的性能提升。" 弱监督语义分割（WSSS）是计算机视觉领域的一个关键问题，它尝试通过有限的注释信息（如图像级、点或框标签）来实现像素级别的类别划分。传统的方法通常依赖于大量逐像素标注的数据，但这种标注方式成本高昂且耗时。因此，研究者转向弱监督策略以减少对完整标注的依赖。本研究提出的单阶段方法强调了减少训练复杂性和提高模型泛化能力的重要性。它不采用多阶段训练，避免了使用预训练的分类网络或额外的细化任务，这通常是弱监督方法中常见的做法。通过点注释，该方法能够生成高质量的伪掩模，这些掩模经过细化和空间过滤，可以为复杂场景提供准确的语义分割结果。以往的方法在处理具有高复杂性的数据集时，如包含大量对象、不同尺度和多样性的场景，往往表现不佳。图1展示了数据集复杂性的差异，传统SOTA主要关注以对象为中心的数据集，如PascalVOC2012，而新方法的目标是扩展到更广泛的复杂场景。实验结果显示，该方法在CRAID、CityPersons、IAD、ADE20K和CityScapes等数据集上都表现出色，性能提升显著。论文中提到，图像级注释虽然成本较低，但在复杂场景中往往不足，因为它们无法捕获精细的像素级信息。相比之下，点注释提供了更丰富的上下文，有助于生成更具细节的分割结果。此外，通过避免多阶段训练，这种方法降低了网络复杂性，提高了训练效率。总结来说，这篇论文介绍的单阶段弱监督语义分割方法在处理复杂场景时展现了强大的性能和泛化能力，为未来在更多实际应用中的语义分割任务提供了新的解决方案。通过简化训练流程和提高模型在不同数据集复杂性上的表现，这种方法对于减少对详尽标注的依赖和促进弱监督学习在语义分割领域的进步具有重要意义。

5956

神经网络[51]推动了全卷积网络（FCN）[2]的发展，

这是许多当前SOTA语义分割方法的基础[1，3，52，

53]。语义分割网络的典型设计利用编码器-解码器架

构，其中深度特征被学习，并且被最近的工作通过结

合跳跃连接[3]，上下文信息[53]，自我注意机制[54]，

扩大的感受场[52]，金字塔池[1，55]和精炼网络[56]来

改进这种基础设计。虽然这些网络通常提供SOTA性

能，但它们仍然需要昂贵的、完全监督的地面实况。

2.2.

类激活图和区域建议

响应输入图像的深度学习网络的激活神经元被称为

类激活图（称为CAM或注意力图）[31]。它们代表了

网络对于给定类别标签最具特色的区域。利用CAM的

初始工作用于对象定位[31，32，57，58，59]和网络

可解释性 [33]，但最近被用于语义和实例分割任务

[16，17，18，60]。大多数方法使用UTI-CAM、区域

建议或辅助数据来生成用于分割方法的伪掩模。由于

CAM往往有噪声且形状不规则，因此WSSS领域的重

点一直致力于细化输出，以提高CAM覆盖精度和一致

性[61，62]。

2.3.

弱监督语义分割

在WSSS领域中完成的大部分工作是在多步骤过程

中完成的：训练分类或分割网络，将网络应用于训练

集以提取CAM，然后在用于训练单独的分割网络之前

对其进行细化和阈值化。早期的工作，如 BoxSup

[23]，利用边界框来更新预定义的区域建议，以生成

训练集的地面真实AffinityNet [18]利用图像级标签来生

成通过选择放大的CAM上的高置信度点获得的亲和标

签。类似地，PRM（峰值响应图）[16]通过注意力图

中的局部极值点反向传播以生成实例伪掩码。其他方

法[17，29，60，61，63]遵循使用图像级标签用于伪

掩模生成的类似

多级

如前所述，如[16]所示，基于图

像级的CAM在场景复杂度方面显着降低，通常超出任

何下游任务的实用性。因此，基于图像级的WSSS方法

集中在低复杂度场景上。

图像级驱动的WSSS方法的弱点也被最近的基于点

[35，64，65]，框[66]和涂鸦[67]的方法所认识到[35]

分段构建-

在一个阶段中从头顶图像中提取，但需要建筑物中心

点注释和捕获建筑物的点周围的估计半径。[65]采用

点注释和四个独立的网络结构作为教师-学生架构，两

个教师网络和两个学生网络。除了高网络复杂性之

外，每个网络在生成伪掩码之前需要单独的训练和

2.4.

单阶段WSSS学习

单阶段WSSS方法[19，29，30]不太常见，因为从弱

标签隐式获取可靠的空间和上下文信息的挑战。

Triple-S [20]使用点监督和形状先验作为网络的空间和

上下文线索。然而，形状先验的使用是高度限制性

的，并且明确地向网络提供空间和上下文信息，使得

该方法过于任务特定。相反，Araslanovet al. [19]使用

归一化全局加权池化（nGWP）、迭代掩码细化和焦

点掩码惩罚来训练分割感知分类网络。标准化全局加

权池允许同时进行分类和分割训练，而输出掩码预测

使用[68]中引入的像素自适应卷积（PAC）层进行迭代

细化。虽然[19]在单阶段WSSS中显示出显着的改进，

但该方法需要预先训练的骨干来实现良好的性能，并

且如我们的实验所示，无法推广到更复杂的数据集。

预训练的主干（在基准数据集或类似数据集上训练）

本质上是预训练权重的效用消除了初始训练步骤期间

存在的偏差和随机性，从而允许优越的伪掩码生成，

在没有预先训练的权重的情况下，生成的伪掩模将明

显更差，降低分割性能，并在学习过程中传播偏差。

通常，如[32，33]所示，经过训练的分类网络通过定

位类激活图中的峰值来提供这样的本地化将是不可用

的，除非骨干是预先训练的，或首先训练的。相反，

我们的方法可以推广到任何数据集，并且可以从头开

始训练。与[19]类似，我们还利用像素自适应卷积层

[68]进行特征细化和后续伪掩模生成。

点的伪掩码

我们的方法背后的动机是从初始点获得可靠的、实

时的伪掩模以训练语义分割网络。直观地说，地面实

况标签越好，网络的性能就越好。伪掩码通常通过一

些阈值来获得，

剩余11页未读，继续阅读

cpongm

粉丝: 6

单阶段弱监督语义分割：从点注释到复杂场景的高性能

cole_02_0507.pdf

工程硕士开题报告：无线传感器网络路由技术及能量优化LEACH协议研究

【东海期货-2025研报】东海贵金属周度策略：金价高位回落，阶段性回调趋势初现.pdf

图像数据处理工具+数据(帮助用户快速划分数据集并增强图像数据集。通过自动化数据处理流程，简化了深度学习项目的数据准备工作)

diminico_02_0709.pdf

agenda_3cd_01_0716.pdf

A课件Python全栈开发线下班.zip

diminico_02_1108.pdf

基于人工智能大模型技术的果蔬农技知识智能问答系统.pdf

diminico_02_0307.pdf

最新资源