开放世界视觉语言驱动的无监督语义分割

140 浏览量更新于2024-06-19 收藏 1.68MB PDF 举报

开放世界视觉语言驱动的语义分割是当前计算机视觉领域的一个前沿研究方向，主要目标是弥合监督语义分割与实际应用中识别新概念的差距。传统方法往往依赖于大量标记的图像数据，但在现实世界中，获取此类数据往往成本高昂且限制了模型的泛化能力。零镜头分割作为一种解决策略，试图通过分析隐藏和可见对象间的关联，但其需求大量不同基础类别的密集标注。本文提出了ViL-Seg（Visual Language-driven Semantic Segmentation）方法，这是首个尝试仅利用互联网上广泛存在的图像标题数据来学习分割开放世界类别语义对象的系统。方法的核心在于结合视觉和文本编码器，生成图像字幕的视觉和文本嵌入，从而实现分割功能。该系统包含两个关键组件： 1. 基于视觉和跨模态对比的图像编码器：图像编码器经过联合训练，采用对比学习策略，同时考虑视觉特征和文本描述，这样既保留了图像的细粒度语义信息，又包含了高级类别概念，这对于分割任务来说至关重要。 2. 在线聚类头：设计在图像编码器上的在线聚类模块，可以实时将视觉嵌入划分为多个语义组。这个模块通过与文本嵌入进行比较，动态地对视觉特征进行分类，进一步增强了模型的适应性和灵活性。实验结果显示，ViL-Seg在无需任何密集标注数据的情况下，能直接处理开放世界的各类对象，相较于依赖于多个基准数据集标注的传统零次分割方法，性能更加优秀。这种方法展示了利用无标注的互联网数据进行零样本迁移学习的巨大潜力，对于推动语义分割技术的实际应用具有重要意义。总结来说，开放世界视觉语言驱动的语义分割是一种创新的解决方案，它挑战了传统的数据依赖性，通过巧妙融合视觉和文本信息，实现了对开放类别对象的有效分割。这一突破性工作有望在未来减少大规模标注的需求，使得模型能够更好地应对现实世界的复杂场景。

+v：mala2255获取更多论

文

4问。Liu等人

相关工作

2.1

Zero-shot Semantic Segmentation.

Zero-shot语义分割[1]表示分割看不见的类别，而无需使用它们的任何

实例进行训练。在过去的几年里，已经提出了一些方法[21，23]，通

过学习可见和不可见类别之间的词嵌入例如，SPNet[45]利用生成器从

词嵌入中生成合成特征以匹配相应的视觉特征，而SP3Net[1]通过不同

类别的固定词嵌入矩阵将视觉语义嵌入投影到类别概率为了减轻

SPNet中看到的类别在此基础上，SIGN[9]进一步采用并改进了标准位

置编码，以整合特征级的空间信息，并提出了退火自训练，根据伪标

签的置信度为其分配不同的重要性。

也有几个作品[11，35，32]集中在开集识别问题[38]，其目的是区分样

本是否来自新类，而不提供特定的不可见类别名称。各种关于无监督语

义分割的工作[42，18，48]也倾向于在不使用分割标签的情况下学习密集

的语义表示。然而，这些方法只能通过使用聚类方法（如K-Means[22]）

作为网络特征的后处理来提供语义组，但不能提供类别名称每个语义

组。与这些方法不同的是，通过利用来自互联网的视觉语言数据[4]，我

们的方法能够预测每个图像像素的类名，而无需使用任何具有密集注释

的数据

2.2

视觉语言预训练。

近年来，利用互联网上的大量图像-文本对进行视觉语言预训练[25，

19，24，16，43]引起了越来越多的关注。通过使用对比预训练来预测正

确的图像和文本样本对，CLIP[36]在几个下游分类任务中与完全监督的

基线相比取得了竞争性结果。一些作品[27，8]还引入了类似语言建模的

目标，包括掩蔽语言/区域建模，图像字幕和文本去噪，以进一步提高视

觉语言模型的性能。此外，有几种方法[17，39]采用预先训练的对象检

测器来获得对象嵌入序列作为视觉特征。最近，一些研究[49，12，46]提

出利用预训练的视觉语言模型来解决开放词汇对象检测任务，其目的是

训练模型从给定的类别词汇中检测任何对象。Zareian等人。[49]建议在预

训练期间学习视觉到语言（V2 L）层，并利用它来初始化Faster-RCNN模

型。ViLD[12]将来自预训练的零触发分类器的知识提取到两阶段

剩余17页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

开放世界视觉语言驱动的无监督语义分割

计算机视觉-语义分割面试题目及其答案

【多语言语音识别挑战】：专家分享多语言模型构建的8大策略

LabVIEW视觉自动化实现：智能化生产流程的秘密

树莓派OpenCV摄像头深度学习：探索计算机视觉的无限可能（前沿技术揭秘）

自然语言处理（NLP）基础：PPT演示文稿制作与分享技巧

精选毕设项目-微笑话.zip

在线教育系统-springboot毕业项目，适合计算机毕-设、实训项目、大作业学习.zip

基于智能推荐的卫生健康系统-springboot毕业项目，适合计算机毕-设、实训项目、大作业学习.zip

精选毕设项目-课程预约.zip

同步机(VSG)三相并网仿真模型 有功功率从20k突变到10k再恢复至20k 系统始终稳定运行 该仿真主要用于基础原理的学习

最新资源

同步机(VSG)三相并网仿真模型有功功率从20k突变到10k再恢复至20k 系统始终稳定运行该仿真主要用于基础原理的学习