无监督学习视频对象分割：MuG框架

129 浏览量更新于2024-06-20 收藏 1.52MB PDF 举报

“从未标记视频中学习视频对象分割 - MuG：一种无监督/弱监督学习框架” 正文：视频对象分割（Video Object Segmentation, VOS）是计算机视觉领域中的一个关键任务，它涉及到从视频中精确地识别和分割出特定的对象。这项技术广泛应用于视频分析、监控、内容理解等多个领域。然而，传统的VOS方法大多依赖于大量的带有逐像素标注的训练数据，这既耗时又成本高昂。本文提出了一种名为MuG的新方法，它是一种无监督/弱监督的学习框架，旨在从未标记的视频中学习视频对象分割的模式。与以往严重依赖注释数据的方法不同，MuG能够在多个粒度级别上捕获VOS的内在属性，从而帮助理解和学习视觉模式，同时减轻了对人工标注的依赖。 MuG的核心是构建一个能够处理不同VOS设置的模型，包括对象级zero-shot VOS、实例级zero-shot VOS和one-shot VOS。在zero-shot VOS中，模型需要在没有预先训练样本的情况下分割目标对象；而在one-shot VOS中，模型依赖于第一帧的注释信息。通过精心设计的架构和强大的表示学习能力，MuG模型能够有效地适应这些不同的分割任务。实验结果显示，MuG在各种VOS设置中表现出令人鼓舞的性能。更重要的是，该模型能够利用未标记的视频数据进行学习，从而进一步提高分割的准确性。这种能力对于扩展到大规模、多样化的视频数据集具有重大意义，因为它可以显著降低对人工标注的依赖，使得模型的训练更加高效且经济。总结来说，MuG为视频对象分割提供了一个创新的解决方案，它开创性地利用未标记的视频数据进行学习，降低了对监督学习的依赖，提高了模型的泛化能力和实际应用价值。这一研究对于推动无监督或弱监督的视频理解技术的发展具有深远的影响。

8962

t=1

我们的方法在两个方面是独特的。首先，在一个统

一的多粒度框架下，深入研究了视频的各种内在属性

以及与类别无关的前背景知识，从而对VOS中的视觉

模式有了更全面的其次，它显示了强大的视频对象表

示学习能力，并且首次在仅训练一次后应用于各种

VOS设置这给了一个新的一瞥之间的连接，两个最有

影响力的VOS设置。

该算法

3.1.

多粒度VOS网络

对于包含

帧的训练视频X ∈X：

{

}

，其特征被指定为

}

，获得

从全卷积特征提取器：

=<$

（

）∈

。

探索了四粒度的几何学，

引导学生学习《易经》。2），如下。

帧粒度分析：前背景知识理解。由于VoIP是VOS感知

的，因此需要对基本的前背景知识进行编码。在我们

的方法中，这种知识（图）。1（b））最初来自基于

背景先验的显著性模型 [70] （在无监督学习设置

中），或者以CAM图的形式[73，76]（在弱监督学习

设置中）。

形式上，对于每个帧

，

让我们将其对应的初始

前背景掩模表示为

∈

{

，

}

（

即

，二值化的显

著性或

CAM

激活图）。在我们

帧粒度分析，学习的指导下，

图2：我们的方法概述。研究了视频对象在帧、短期、长期

和整个视频粒度上的内在属性，以指导视频对象模式学习。

对于给定的连续帧

和

，我们

首先

从

中裁剪

出一个补丁

，并

分别

对

和

应用

补丁

然后得到两

个特征嵌入： <$（

）

∈

和

（

）

∈

通过

类似于经典的暹罗跟踪器

[2]

的设计

，

我们

通过对

（

）和

（

X t + 1

）进行互相

关运算

“Xt”来向前跟踪下一帧

（

）

（

）

∈

[

，

]

，

（

）

其中，

是

形归一化响应图，其大小

}

的监控信号

即

，利用内部，

将其重新缩放为（

，

）。

在

中的新位置

t+1

是

帧信息

（

）以回归

：

帧

= L

（

，

）。

（

二）

这里 L

是

交叉熵

损失，

（

）其中

：

<$→

[

，

]

将输入单帧特征

映射

到前背

景预测映射

。

是由一个带有

sigmoid

激活的

1×1

卷

积层

短期粒度分析：夹内

粘连建模。短期一致性是一个

重要支柱

然后根据

_∞

上的峰值进行推断。在

获得

X t + 1

中的

前向跟踪补丁

′

之后

，我们将后向

跟踪

′

到

，

并

得到后向跟踪响应图

′

：

∈

[0，1]

W×H

（四

）

理想情况下，

的峰值应该对应于

在初始帧

中的

位置。因此，我们建立了一个一致性损失，它测量

了

的初始和前后向跟踪位置之间的对齐误差：

在视频中，作为时间上接近的帧，

连续的视觉内容变化[15]。捕捉

短

−

，

（

）

利用这一特性，我们应用了一种前向-后向片跟踪机制

[57]，该机制通过在几个连续帧中向前跟踪采样片，

然后向后跟踪直到开始帧，并惩罚该片的初始和最终

向后跟踪位置之间的距离来学习跟踪

其中

∈

[

0，1

]

是一个（H，W）维

Gaussian

型

映射，具有相同的

中心

和方差

pro

，

与

的大小成比例。如在[57]中，上述前后向跟踪机制

被扩展到多帧设置（图11）。（3）第三章。具体而

言，在获得远期

′

′′

⋆

短

电

话

不

图

：左侧：短期粒度分析的主要思想。右：片段内连贯性建模的训练细节。

帧

长

短

霖

国际

剩余14页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

无监督学习视频对象分割：MuG框架

视频对象分割

视频分割案例

chromy：Chromy是用于操作无头Chrome的库。 :beer_mug::beer_mug::beer_mug:

homebrew-vernemq：用于Homebrew软件包管理器的VerneMQ（https：vernemq.com）公式:beer_mug::beer_mug:

自制彼得·刘易斯：:beer_mug::potable_water:

homebrewanalytics：:beer_mug::bar_chart:访问“ Homebrew” Formluae Analytics数据

brew-ds：为Mac和Linux设置的通用数据科学:beer_mug::microscope:

homebrew-pythons：:beer_mug::snake:一个Hombrew Tap，字面上充满了Python解释器

Beer-Itda-iOS::beer_mug:

自制麦芽：:beer_mug:自制自制水龙头

最新资源