弱监督语义分割：网络爬虫视频的新算法

75 浏览量更新于2025-01-16 收藏 1.39MB PDF 举报

"基于网络爬虫视频的弱监督语义分割" 本文提出了一种新颖的弱监督语义分割算法，该算法主要针对图像级类标签的局限性，旨在通过网络爬虫技术从视频中自动获取分割标签，以模拟强监督语义分割的效果。在弱监督设置中，传统的模型往往过于关注图像中的显著特征而忽视了整个对象区域。为了解决这个问题，研究者利用图像分类和歧视性定位技术来筛选和提取与目标类标签相关的视频片段。首先，算法会自动检索与目标类别相关的网络视频，这一过程得益于网络爬虫技术，能够高效地从海量的网络资源中找出相关素材。接着，通过图像分类技术对检索到的视频进行分析，排除不相关的片段，同时应用歧视性定位技术来识别出视频中与目标类别相符的时空区域。这一步骤有助于提高后续分割标签的准确性。生成分割标签的过程不需要额外的人工注解，而是通过对检索到的视频进行处理，从中提取出像素级别的信息。尽管这一过程完全是自动化的，但它产生的分割注释质量足以支持深度学习模型进行语义分割的学习。相较于传统方法，提出的算法在相同监督水平下表现出显著的优越性，并且与依赖额外注释的方法相比也具有竞争力。文章指出，深度卷积神经网络（DCNN）在语义分割领域的进步很大程度上依赖于大规模带注释的数据集。然而，像素级别的注释获取困难且成本高昂，使得全监督的DCNN在处理多类别问题时受到限制。弱监督方法通过利用图像级类别标签等弱注释形式，缓解了这一问题。然而，基于图像级标签的方法存在自监督学习过程可能陷入局部最优的风险。为了改善这个问题，除了图像级标签外，一些研究引入了边界框、点标注等其他形式的弱监督。然而，这些方法仍然需要进一步的改进以确保生成的分割注释质量。而本文提出的算法，通过结合网络视频资源和自动化处理，提供了一种新的、有效的弱监督语义分割策略，有望在不增加额外标注成本的情况下提升模型性能，从而更好地适应现实世界的多类别图像分割任务。

7322

基于网络爬虫视频的弱监督语义分割

Seunhoon Hong

$DonghunY eo

$Suha Kw ak Honglak Lee

Boh yung Han

†

POSTECH POGIST

Uni

versityofMichigan

Pohang

，

Korea Daegu

，

Korea Ann Arbor

，

USA

{maga33，hanulbog，bhhan}@ postech.ac.krskwak@dgist.ac.krhonglak@umich.edu

摘要

我们提出了一种新的算法，弱监督语义分割的基础

上图像级的类标签在弱监督设置中，通常观察到训练

模型过度关注有区别的部分而不是整个对象区域。我

们的目标是克服这一限制，没有额外的人为干预，检

索相关的视频从网络存储库的目标类标签，并从检索

到的视频生成分割标签，以模拟强大的监督语义分

割。在此过程中，我们利用图像分类与歧视性定位技

术，以拒绝检索到的视频中的假警报，并确定检索到

的视频中的相关时空卷。虽然整个过程不需要任何额

外的监督，从视频中获得的分割注释是足够强大的学

习模型的语义分割。所提出的算法大大优于现有的方

法，基于相同的监督水平，甚至是竞争力的方法依赖

于额外的注释。

介绍

由于深度卷积神经网络（DCNN ）[3，21，24，

32，37，41]，语义分割最近取得了DCNN的成功在很

大程度上取决于大规模训练数据集的可用性，其中注

释通常是手动给出的。然而，在语义分割中，注释是

以逐像素掩码的形式，并且为大量图像收集这样的注

释需要巨大的努力和成本。因此，准确和可靠的分段

注释仅可用于少量的类。因此，用于语义分割的全监

督DCNN仅限于这些类别，并且难以扩展到现实世界

图像中出现的许多其他类别。

弱监督的方法已经被提出来通过利用大量的弱注释

的图像来减轻这个问题在用于语义分割的几种类型的

弱监督中，图像级类别标签已经被

广泛使用[17，26，28，29，30]，因为它很容易从现

有的图像数据库中获得[7，10]。从图像级标签生成逐

像素标签的最流行方法是基于分割注释和模型参数的

联合估计的自监督学习[6，20，29，30]。然而，由于

没有办法测量估计的注释的质量，这些方法很容易收

敛到次优的解决方案。为了弥补这一限制，除了图像

级标签之外，还采用了其他类型的弱监督，边界框

[6，26]，涂鸦[20]，先验元信息[28]和其他类别的分割

地面实况[13]。然而，它们通常需要额外的人为干预

来获得额外的监督[6，13，26]或采用可能无法很好地

推广到其他类的特定领域知识[28]。

这项工作的目的是克服内在的限制，在弱监督语义

分割没有额外的人的监督。具体来说，我们建议从

Web上检索

视频

，并使用它们作为额外的训练数据

源，因为视频中的时间动态提供了丰富的信息，以区

分对象和背景，并更准确地估计它们的形状更重要的

是，我们的视频检索过程是通过使用一组类别标签作

为搜索关键字并从网络存储库（

例如

，YouTube）。

检索的结果是弱注释视频的集合，因为每个视频都被

赋予其查询关键字作为视频级类别标签。然而，由于

标签和帧之间的模糊关联，直接从弱标记视频中学习

语义分割仍然是不该关联在时间上是模糊的，因为视

频中只有帧的子集与其类别标签相关。此外，尽管存

在表现出显著运动的多个区域，但是其中只有少数区

域可能与类别标签相关，这导致空间模糊。这些模糊

性在自动抓取的视频中无处不在，无需人工干预。

本文的核心思想是利用弱注释的图像和视频来学习

单个DCNN进行语义分割。图像与clean类相关联

下载后可阅读完整内容，剩余8页未读，立即下载

cpongm

粉丝: 6

弱监督语义分割：网络爬虫视频的新算法

机器学习赋能爬虫：智能化数据提取

有效去除爬虫数据中的噪音与冗余信息

无监督学习应用秘籍：文本挖掘与社交网络分析的深入解读

【监督学习基础】：YOLO数据集标注的黄金法则

基于Python的情感分析：从理论到实际应用，完整指南助你入门

BP神经网络在图像分类中的前沿研究：突破与创新

【深度学习前沿】：探索5种超越卷积神经网络的新型架构

cole_02_0507.pdf

工程硕士开题报告：无线传感器网络路由技术及能量优化LEACH协议研究

【东海期货-2025研报】东海贵金属周度策略：金价高位回落，阶段性回调趋势初现.pdf

最新资源