零镜头目标检测：基于语义嵌入与背景感知的解决方案

41 浏览量更新于2024-06-20 收藏 1.2MB PDF 举报

零拍目标检测（Zero-Shot Object Detection, ZSD）是一项前沿的计算机视觉任务，它旨在让模型在没有直接见过某些类别的情况下，仅凭文本描述或语义信息识别出这些对象。传统的目标检测通常依赖于大规模标注的训练数据，但在现实场景中，有些对象类别可能难以获取足够的样本来训练模型，这就引出了零拍目标检测的挑战。在本文中，作者提出了一种原则性方法，将视觉语义嵌入（Visual Semantic Embedding, VSE）应用于解决ZSD问题。VSE是将图像和文本映射到同一高维空间的技术，通过理解词汇和视觉概念之间的关联，帮助模型在无监督条件下学习跨模态的表示。这种方法的优势在于能够捕捉类别间的语义相似性，即使在类别间有细微差别或者完全没见过的情况下也能提供线索。针对背景感知，作者讨论了两种不同的策略。一种是固定背景类方法，它假设某些类别的背景特征是通用的，可以通过这些背景知识来增强对新类别对象的检测。另一种是迭代的潜在分配方法，通过动态调整背景类的权重，使得模型能更好地适应不同的环境和场景变化。零拍目标检测还面临另一个挑战，即训练数据中的类别数量有限。为了克服这一限制，研究者提出了一种新的数据集划分策略，通过结合大规模的多类数据集如MSCOCO和Visual Genome，以扩大训练样本的覆盖范围。这种做法有助于提高模型的泛化能力，尤其是在处理新颖或罕见类别的场景中。作者展示了在传统的零拍摄设置（仅依赖文本描述）和更广泛的泛化零拍摄（考虑背景和场景变化）下，他们提出的策略所带来的性能提升。实验结果证实了方法的有效性，并为后续研究提供了有价值的洞见。同时，文章也提出了若干开放问题，鼓励同行在零拍目标检测领域进行更深入的探索。这篇论文不仅探讨了零拍目标检测的核心技术，如视觉语义嵌入和背景感知，而且还讨论了如何通过迁移学习和数据集扩展来解决实际应用中的问题。这对于推动计算机视觉领域尤其是零样本学习的发展具有重要意义。

Bansal等人

零拍摄图像分类。用于处理零激发分类的先前方法使用属性，如形状、颜色、

姿势或地理信息作为附加信息源[10，26，27]。最近的方法使用多模态嵌入来

学习图像向量和类标签嵌入之间的兼容性函数[1，2]。在[52]中，作者通过添加

潜变量来扩展双线性相容性模型深度视觉语义嵌入模型[11]使用标记的图像数

据和来自未注释文本数据的语义信息来对以前未见过的图像类别进行分类。我

们遵循类似的方法，使用标记的对象边界框和语义信息的形式，无监督的词嵌

入检测新的对象类别。对于零炮分类的更全面的概述[13 ]第10段。

目标检测。早期的对象检测方法包括获取每个图像的对象建议，并使用图像分

类

CNN [16，17，46，55]。最近的方法使用单次通过深度卷积网络，而不需要对

象区域建议[32，44]。最近，Redmon et al.[45]介绍了一种对象检测器，它可以

使用边界框和图像级注释扩展到9000个对象类别。与此设置不同，我们在更具

挑战性的设置中工作，并且在训练期间不观察测试对象类的任何标签我们建立

我们的检测框架的方法类似于上述基于建议的方法。

多模式学习。使用多种模态作为额外的信息源已被证明可以提高几种计算机视

觉和机器学习任务的性能。这些方法可用于跨模态检索任务[9]，或用于

在模态之间转移分类器。最近，[4]使用图像、文本和声音来生成在三种模态之

间共享的深度判别表示。类似地，[58]使用图像和文本描述来更好地基于自然

在[18]中，作者使用共享的视觉和语言表示空间来获得可以在多个视觉和语言

域中共享的图像区域和单词描述符。我们的工作还使用多模态学习来为看不见

的类构建一个强大的对象检测器。另一个相关的工作是由李等人。[28]，它学

习对象特定的属性来分类，分割和预测新对象。这里提出的问题与在无约束设

置中检测大量对象的问题有很大不同，并且不依赖于使用属性。

比较与最近的作品ZSD：完成这项工作后，我们发现两个平行的工作朱等人。

[61]和Rahman等人。[42]这是一个类似问题。Zhu等人集中在为看不见的对象生

成对象建议的不同问题Rahman等人[42]提出一个损失公式，它结合了最大边际

学习和

语义聚类损失它们的目的是分离单个类并减少语义向量中的我们的工作和

Rahman等人的工作之间的一个关键区别是评估数据集的选择。Rahman等人使

用ILSVRC-2017检测数据集[47]进行训练和评估。与我们工作中使用的数据集

（MSCOCO和VisualGenome）相比，该数据集受到更多限制，我们还想指出的

是，由于相对简单的测试设置，Rahman et al.不考虑corrruption的背景类看不见

的类，在这项工作中所做的朱等人。

剩余16页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

零镜头目标检测：基于语义嵌入与背景感知的解决方案

CVSE:用于图像-文本匹配的共识感知视觉语义嵌入论文的官方源代码（ECCV 2020）

ZeroshotSemanticSegmentation:使用联合视觉语义嵌入空间进行语义分割的Zeroshot学习

计算机视觉五大技术：图像分类、对象检测、目标跟踪、语义分割和实例分割

零样本图像检索的视觉-语义嵌入方法综述

层次化多模态LSTM：视觉语义嵌入的创新解决方案

深度视觉语义嵌入模型在视频缩略图推荐中的应用

多区域语义分割感知CNN模型实现目标检测

Keras语义分割与Tensorflow目标检测错误解决手册

基于语义分割与改进区域匹配的煤岩划痕检测与去除方法

基于边界轮廓的高效感知区域检测器：显著提高语义精度与速度

最新资源