无监督数据流语义场景标记：超越视频分割的高效算法

PDF格式 | 1.14MB | 更新于2025-01-16 | 201 浏览量 | 举报

本文主要探讨了一种创新的无监督语义场景标记方法，旨在处理实时流数据中的视觉感知任务。这种方法并非局限于传统的无监督视频分割，它不追求早期的连贯过分割，而是直接学习更高级别的语义概念。其核心在于利用集成学习策略，通过在数据流中对局部窗口内的数据进行聚类，构建出图形结构来表示跨窗口的标签映射，并通过协调标签来减少无监督学习过程中的噪声。算法的关键点在于迭代地从数据相似性中学习，通过观察数据流中的模式和特征，自动捕捉和理解语义。与依赖于大量标注数据的传统监督学习方法不同，无监督语义场景标记允许在无需人工干预的情况下，实时更新和适应新的视觉概念，这对于那些需要频繁更新和快速反应的应用场景尤为适用，如自动驾驶、无人机监控等。与其他方法，如基于层次图（GBH）的分割算法相比，USSL展示了更强的全局语义一致性，能够更准确地标记复杂场景中的对象，如交通锥。尽管在欠分割熵和过分割之间寻找平衡是挑战，但USSL在保持标记输出数量相近的前提下，显示出更高的准确性和灵活性。文章指出，尽管半监督和自监督学习技术在一定程度上缓解了数据标记的负担，但USSL提供了更高效且无须大量人工干预的解决方案。这项研究对于推进无监督视觉感知技术的发展，尤其是在线学习和适应新概念的能力，具有重要意义，有望在未来视觉智能应用中发挥重要作用。

4614

I j

）

图

无监督语义场景标注算法概述。来自数据流的下一个图像被过度分割，并且片段与来自流中的先前帧的现有模型聚集地合

并。为流中的窗口创建重叠的局部模型，并且使用图形编码来映射和协调这些局部标签集以生成全局标签集。

3.1.

图像表示

来自数据流的帧依次进入

USSL

系统

进行处理。

USSL执行场景分割，从传入帧的超像素开始，而

不是

单个像素，因为超像素提供更多的区域来提取对语

义建模重要的特征。我们使用基于图（

）的图像分

割

[8]

来生成

USSL

聚类的初始过分割超像素。分割以参数

运行

。

，

min

100

。传入帧

表示为

，

. . .

{\fn方正粗倩简体

\fs12\b1\bord1\shad1\3cH2F2F2F

}

（从W中的先前帧中学习）。现有的局部模型在图中

显示为蓝色圆圈，其不同大小表示局部模型代表W的

不同体积。

USSL

的本地学习技术的许多新颖性和贡献

具体而

言，USSL评估

两个模型

和

之间的相似性

，相对于第

3.1

节中描述的每个

直方图特征类型。我们将模型

的

特征类型

表示

为

。形式上，关于特征

的相似

性是

1 2

大多数图像分割技术依赖于颜色和

位置特征以识别像素的相干分组

（

，

）

. 1

.一

、

，

（

）

USSL使用额外的功能来帮助编码语义信息，就像许多

监督方法一样[23，28]。

1 .

一

、

以

上

r r

每个

由

LAB

颜色空间直方图表示，该颜色空间直方

图包括每个通道

个

bin

，

SIFT

描述符的

150

项码本

[20]

，以及使用半径为

，

和

的邻域的

个周围邻

居创建的局部二进制模式（

LBP

）

[24]

直方图三个实

验室频道，三个

LBP半径和SIFT直方图被独立地L1这些帧片段然后被

传递到当前实例化的本地窗口进行处理。

其产生在[0. 0

，

。

0]。特征类型

都是单独评估的，

所有外观特征类型之间的高相似性最有可能表示相同

的语义概念。因此，限制合并到这些模型将减少无监

督学习引入的噪声。然而，并非所有特征都与所有语

义类相关，因此USSL还评估了特征相似性的整体线性

组合：

3.2.

局部模型学习

USSL通过凝聚聚类学习语义模型，

（

，

）=

r∈R

（

，

）

（

二）

将本地窗口中的数据存入流中。我们将聚类算法针

对局部窗口输出的组的集合称为局部标签模型，

{

，

. . .

{\fn

方正粗倩简体

\fs12\b1\bord1\shad1\3cH2F2F2F}

每个局部窗口

由

个连续帧组成，并且

被构造并迭代地适应每个输

入。

即将到来的画面。图2中的LocalModelLearning框说明

了这种迭代聚类流程。来自新帧的S中的片段（如红色

圆圈所示）进入系统，并与M

（

剩余11页未读，继续阅读

cpongm

粉丝: 6

无监督数据流语义场景标记：超越视频分割的高效算法

GuidedMix-Net: 半监督下利用标记信息提升语义分割效果

利用语义描述标记优化网络游戏中数据寻址与路由

IntraDA: 无监督域内自适应的语义分割研究

自动化转换labelme数据到YoloV8语义分割并划分数据集

Unet模型在Carvana数据集上的语义分割实践

Enet模型实现高效语义分割方法

自监督图卷积网络SelfSAGCN：语义对齐提升性能

H.264标准中的场景信息SEI消息及其语义应用示例

基于YOLOv3和视觉SLAM的语义地图构建提升无人驾驶导航性能

数据流分析：基于高级编译器优化技术

最新资源