弱监督全景分割:联合物与物挖掘框架WSPS

0 下载量 63 浏览量 更新于2024-06-17 收藏 825KB PDF 举报
"弱监督全景分割的有效联合物与物挖掘框架WSPS及其实验结果" 全景分割是一种图像处理技术,旨在将图像分割为不同的对象实例和语义区域,为每个对象分配唯一的标识并理解其类别。这项技术在计算机视觉领域具有广泛的学术价值和实际应用,例如自动驾驶、智能监控和虚拟现实等。然而,传统的全景分割方法通常需要大量带有实例级和像素级注释的训练数据,这在数据收集和标注上耗费巨大。 本文针对这一问题,提出了一种名为“弱监督全景分割的联合物与物挖掘”(Joint Thing and Stuff Mining, JTSM)的框架,特别关注于仅使用图像级标签进行学习的场景。JTSM框架的核心创新是“掩模的兴趣池”(Mask of Interest Pooling, MoIPool)操作,它能够从固定大小的特征图中提取任意形状的分割信息,以适应不同对象的边界。MoIPool使得JTSM可以利用多实例学习(Multiple Instance Learning, MIL)策略,有效地识别图像中的事物和背景,即实例分割和语义分割。 在JTSM中,两个并行的分支——实例分割分支和语义分割分支,被用来协同工作。通过自训练,这两个分支可以利用从全景挖掘中获得的挖掘掩码,并结合自下而上的对象证据,生成伪地面真实标签,以提升空间一致性和边缘定位的准确性。这种方法不仅提高了全景分割的效果,还能够在弱监督环境下实现对象检测和实例分割。 实验结果显示,JTSM在PASCAL VOC和MSCOCO这两个标准数据集上的表现均有效,证明了该方法对于解决仅有图像级标签的全景分割任务的可行性。此外,作为副产品,JTSM在弱监督对象检测和实例分割任务上也取得了竞争力的结果,这为未来在有限注释资源下进行复杂图像理解的研究开辟了新路径。 这项工作是向解决只有图像级标签的全景分割挑战迈出的重要一步,为减少对大规模精细注释数据的依赖提供了新的解决方案。JTSM框架的创新在于其能够高效地联合学习实例和语义信息,有望推动全景分割技术在现实世界的应用,特别是在数据标注成本高昂的情况下。