利用未标记视频自动生成看不见的类对象训练数据

PDF格式 | 2.34MB | 更新于2025-01-16 | 88 浏览量 | 举报

"本文主要探讨了如何在未标记的视频中自动创建训练数据，以提升对象分割模型对未见过的类别的识别能力。研究聚焦于解决实例分割模型在处理新类别对象时性能下降的问题，旨在实现开放世界的实例分割，利用丰富的网络视频资源。" 在当前的计算机视觉领域，实例分割模型已经取得了显著的进步，能够准确地预测和分割已知类别的对象。然而，这些模型在面对未见过或“看不见的类”时表现欠佳，限制了其在开放世界环境中的应用，例如自动驾驶和机器人操作等场景。由于手动标注新类别的对象既耗时又昂贵，本文提出了一种利用未标记视频自动生成训练数据的新方法。作者指出，虽然可以尝试直接应用现有的视频分割技术到未标记的视频中获取对象掩模，但实验结果显示这种方法效果并不理想。因此，他们设计了一种基于贝叶斯理论的方法，该方法从一组初始的对象建议开始，通过合成分析和全局优化来选择正确的对象。这个过程涉及在所有帧中同时进行优化，以确保选择的掩模不仅在单个帧中合适，而且在整个视频序列中一致。实验结果证明，该方法能够生成高质量的训练集，显著提升模型对看不见的类别的分割性能。通过重新训练初始模型，该方法允许模型在保持对原始已知类别的识别能力的同时，有效地定位和分割新类别中的对象。这种方法为开放世界的实例分割开辟了新的可能性，使得模型可以从海量的网络视频中自我学习和适应新出现的对象。如图1所示，这种方法的流程是从在有限类别上训练的初始模型出发，通过未标记的视频自动检测和选择对象的掩模，然后使用这些自动创建的掩模来重新训练模型，从而增强其对新类别对象的处理能力。这一创新性工作有望推动实例分割技术在面对未知类别时的自适应性和泛化性，为未来的自主学习和开放环境应用提供强大的工具。

3377

M {

}

ing未标记的静态图像。他们使用数据蒸馏[46]，来自

网络的未标记图像[31]，图像翻转的一致性[24]或预测

不确定性的估计[38]。虽然这种方法非常有趣，但未

标记的视频很容易获得，并且有可能使结果更加可

靠。我们比较我们的方法对最有代表性的方法在我们

的实验，并显示我们取得了更好的性能。

另一种类型的方法通过将具有相似颜色或图像特征

的像素分组以生成掩模[3，18，33，45，57]而以自下

而上的方式进行。然而，这很容易受到局部纹理或颜

色的影响，并且其中一些方法仅在合成图像上进行了

演示因为它从预先训练的实例分割模型开始，所以我

们的方法更加健壮。

像我们一样，一些方法利用未标记的视频进行城市

场景分割[6]以及人脸和人体检测[25]。然而，这些工

作只集中在如何提高现有类的模型性能，并没有考虑

新的类。[40]利用立体视频数据以及深度信息来重建

静态背景，然后通过减法从前景区域生成对象提议虽

然这是一种有趣的方法，但它们需要深度数据和静态

背景.

视频对象分割。我们的工作还涉及到单镜头，零镜头

视频对象分割（VOS ）和基于显着性的视频对象分

割。One-Shot VOS的目标是在给定帧的地面真值分割

时分割视频中的对象。单次VOS方法通常将所提供的

分割扭曲到其他帧[4，30，54]。因此，它们需要手动

注释，并且如果出现新的对象，则不能生成新的预

测。一些Zero-Shot方法[9，39，51，52] 使用可见

类上的视频标签进行训练，并且能够推广到不可见

类，但是视频标签非常耗费劳动力。一些方法在视频

中寻找显著区域[7，10，11，14，22，27，34，42]，

因为显著区域往往对应于对象。然而，显着性预测对

于我们的目的有两个主要限制：（a）它可以被不显眼

的伪装物体愚弄。(b)两个相邻的对象将被合并到一个

单一的显着区域，而我们希望单独识别它们。

像我们一样，一些方法已经采用了基于提议的方法

[2，35，37]，但依赖于经典的跟踪算法来跟踪诸如

tracklet的提议。相比之下，我们的方法依赖于综合分

析。综合分析是计算机视觉中的一个老概念，但最近

越来越受欢迎。它以解释整个图像为目标，可以开发

更多的信息。此外，它在概念上是简单的，并且需要

很少的易于修复的超参数。我们在实验中表明，我们

的方法

为了生成对象掩模的目的，其性能优于现有技术的视

频对象分割方法UnOVOST [35

方法

如第1节所述，我们的目标是提高预训练的类不可

知实例分割在看不见的类上的性能我们的管道包括三

个步骤：

•

掩码生成：我们使用我们的基线实例分割网络上的

未标记的视频包含看不见的面具生成类;

•

遮罩选择：我们应用我们的方法来自动选择正确的

面具上未标记的视频;

•

模型细化：我们使用我们生成的掩码来微调或重新

训练我们的基线网络，以提高其对看不见的类的性

能。

在本节中，我们将介绍我们的基线实例分割网络以

及通过探索视频信息自动选择高质量蒙版的方法如我

们将在以下部分中所示，与穷举搜索相比，我们的方

法是高效的，并且需要很少的易于修复的超参数。

3.1.

用于掩码生成的

为了从未标记的视频中生成掩码，我们使用类不可

知的Mask R-CNN [19]，其ResNet-50- FPN [32]骨干作

为我们的基线网络。根据以前的工作[41]，我们将这

种类别不可知的 Mask R-CNN 称为 Mask Proposal R-

CNN的注意，在实践中，Mask R-CNN可以由任何其

他可训练实例分割方法替换。如我们在第1节中提到

的，实例分割网络可以为一些正确检测的未见过的类

分配低置信度分数。因此，在掩模生成阶段期间，我

们将置信度分数阈值设置为0以获得尽可能多的检测。

3.2.

掩码选择

给定

个

帧的视频，我们从掩码候选集合

，

对于

使用我们的基线网络获得的每个帧

I t

，

，其

中

是

I t

中的掩码候选

的数量

。为了选择实际对应于对

象的掩码候选，我们利用以下线索和约束：

•

“背景线索”：分割典型的背景，如天空或草地，给

我们一个关于物体在哪里的

•

The

•

“一致性提示”：所选择的掩码不仅在连续帧之间应

该一致，而且在长序列中也应该一致

剩余10页未读，继续阅读

cpongm

粉丝: 6

利用未标记视频自动生成看不见的类对象训练数据

cole_02_0507.pdf

工程硕士开题报告：无线传感器网络路由技术及能量优化LEACH协议研究

【东海期货-2025研报】东海贵金属周度策略：金价高位回落，阶段性回调趋势初现.pdf

图像数据处理工具+数据(帮助用户快速划分数据集并增强图像数据集。通过自动化数据处理流程，简化了深度学习项目的数据准备工作)

diminico_02_0709.pdf

agenda_3cd_01_0716.pdf

A课件Python全栈开发线下班.zip

diminico_02_1108.pdf

基于人工智能大模型技术的果蔬农技知识智能问答系统.pdf

diminico_02_0307.pdf

最新资源