弱监督全景分割：联合物与物挖掘框架WSPS

79 浏览量更新于2024-06-17 收藏 825KB PDF 举报

"弱监督全景分割的有效联合物与物挖掘框架WSPS及其实验结果" 全景分割是一种图像处理技术，旨在将图像分割为不同的对象实例和语义区域，为每个对象分配唯一的标识并理解其类别。这项技术在计算机视觉领域具有广泛的学术价值和实际应用，例如自动驾驶、智能监控和虚拟现实等。然而，传统的全景分割方法通常需要大量带有实例级和像素级注释的训练数据，这在数据收集和标注上耗费巨大。本文针对这一问题，提出了一种名为“弱监督全景分割的联合物与物挖掘”（Joint Thing and Stuff Mining, JTSM）的框架，特别关注于仅使用图像级标签进行学习的场景。JTSM框架的核心创新是“掩模的兴趣池”（Mask of Interest Pooling, MoIPool）操作，它能够从固定大小的特征图中提取任意形状的分割信息，以适应不同对象的边界。MoIPool使得JTSM可以利用多实例学习（Multiple Instance Learning, MIL）策略，有效地识别图像中的事物和背景，即实例分割和语义分割。在JTSM中，两个并行的分支——实例分割分支和语义分割分支，被用来协同工作。通过自训练，这两个分支可以利用从全景挖掘中获得的挖掘掩码，并结合自下而上的对象证据，生成伪地面真实标签，以提升空间一致性和边缘定位的准确性。这种方法不仅提高了全景分割的效果，还能够在弱监督环境下实现对象检测和实例分割。实验结果显示，JTSM在PASCAL VOC和MSCOCO这两个标准数据集上的表现均有效，证明了该方法对于解决仅有图像级标签的全景分割任务的可行性。此外，作为副产品，JTSM在弱监督对象检测和实例分割任务上也取得了竞争力的结果，这为未来在有限注释资源下进行复杂图像理解的研究开辟了新路径。这项工作是向解决只有图像级标签的全景分割挑战迈出的重要一步，为减少对大规模精细注释数据的依赖提供了新的解决方案。JTSM框架的创新在于其能够高效地联合学习实例和语义信息，有望推动全景分割技术在现实世界的应用，特别是在数据标注成本高昂的情况下。

16697

- 是的每个分支都采用全图像特征图

多标签分类得分为

科

隆

山

口

英里

。

然

后

作为输入。首先，全景最小-

ing分支利用多实例学习（MIL）[77]

我们得到了一个多标签交叉熵目标函数

用多个全景细化头联合分割

物体

和

填充

物。特别地，

我们设计了一种新颖的MoIPool来产生固定大小的像素

精确卷积

MIL

−

乌

伦

、、、

log

（

−

）

log

（

−

）

。

（

二

）

生成的细分方案的要素图

通过无监督的建议生成方法[78，79]，第二，来自全

景挖掘的挖掘掩模与自底向上的对象证据相结合，以

改善空间相干性和轮廓定位。第三，并行实例和语义

分割分支通过将预测作为监督来进一步细化

事物

和

材

料

掩码。在训练过程中，我们有以下目标函数

，

（

）

其中

是全景挖掘分支的损失函数，

和

分别

是

实例和语义分割分支的损失函数。

为了进一步减少错误识别，我们通过多个全景细

化头来细化

MIL

分数，每个全景细化头

包含单个完全

连接

的

层。

或

细化

头，它重用建议特征作为输

入，并产生新

的分类得分

∈

（

）

，其中

1indi-

选择

个

对象类别和

个背景类别。

在训练中，对于

头和

猫，

= 1

时

，

选择

来自先前预测

的最高分数边界框

作

为伪地面实况标签，并

为其余段propos分配正/负标签

人症我们还设置

MIL

。

因此，对应的全景细化损

失为：

科隆

山口

（

）

3.2.

联合物料开采

泛光矿业分公司旨在联合细分

log

布吕

普

（

）

、

（3

）

可数

的事物

实例和不可数

的事物

内容。回想一下，背

景

材料

可以分成一组连接的组件。因此，我们将背景

的每个关联成分看作一个独立的实例，它与可数对象

具有相同的精神。虽然区分背景的不连续组件是不必

要的，所有

的东西

和

东西

都被视为统一的对象实例。

为此，我们遵循--

其中，

表示

针对

头部中

的

sg-

ment

建议

获得的分

类

目标，

并且

是相应的

预测得分因此，

Lpr

是由图像级分类分数

加权的

softmax

交叉熵损失。

根据上述定义，

全景挖掘分支定义为

伦

河

降低深度卷积网络中的MIL管道，

转换双流WSDDN [8]和OICR [18]算法，以统一的方式

识别所有类别的实例

MIL

r=1

，

（

）

形式上，给定图像

和对应的图像

水平标签

[

，

. . .

在

训练期间，

JTSM

旨在估计该图像中

的每个对象实例

的分割掩模。设

是一个固定长度的

二进制向量，其中

表示图像

包含

ta r

getcatory

，否则

。

是

事物

和

材料

类别的总

数。骨干网络首先输出输入

的全图像特征图

。然

后，我们使用

MoIPool

层（稍后讨论）来计算分段建

议的固定大小的池化特征图

，

然后是两个具有ReLu激活和dropout层的全连接层，以

提取最终建议特征。之后，MIL负责人将提案功能分

为两部分

流产生两个得分矩阵

，

∈

分别通过另外两个完全连接的层，其中

是提案的数量最后，我们使用逐元素乘积来计算

最终提议得分矩阵为

（

）

（

）

，其中

（

）

是

softmax

函数。要仅使用图像级

来

训练

MIL

头

透视，总和池应用于获取图像级

−

剩余15页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

弱监督全景分割：联合物与物挖掘框架WSPS

如何理解弱监督全景分割中的物与物挖掘技术，以及它如何与JTSM框架和MoIPool操作相结合？

在弱监督全景分割任务中，物与物挖掘技术是如何配合JTSM框架和MoIPool操作实现高效分割的？

wsps-[removed]wsps-server 的 JavaScript 客户端

wsps_html5_dist:纯wsps的基本模板

wsps-server:WebSocket 发布订阅服务器

WSPS JavaScript客户端：轻松实现WebSocket通信

【机器人】将ChatGPT飞书机器人钉钉机器人企业微信机器人公众号部署到vercel及docker_pgj.zip

图数据分析中基于对比学习的异常检测算法的Python实现及应用-含代码及详细解释说明

专题调研登记表.docx

跟网型逆变器小干扰稳定性分析与控制策略优化simulink仿真模型和代码 现代逆变技术 阻抗重塑 双锁相环 可附赠参考文献（英文） 和一份与模型完全对应的中文版报告

最新资源

跟网型逆变器小干扰稳定性分析与控制策略优化simulink仿真模型和代码现代逆变技术阻抗重塑双锁相环可附赠参考文献（英文）和一份与模型完全对应的中文版报告