零样本检测的方法与应用领域的探索

18 浏览量更新于2023-12-09 收藏 12.39MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

0认知机器人学1（2021）159-1670ScienceDirect上提供的内容列表0认知机器人学0期刊主页：http://www.k eaipublishing.com/en/journals/cogniti ve-robotics/0零样本检测：方法和应用的调查0谭楚峰，徐星，沈富民0中国电子科技大学未来媒体与计算机学院未来媒体中心0文章信息0关键词：深度学习零样本学习零样本检测0摘要0零样本学习（ZSL）旨在识别在训练期间标签不可用的对象。这种学习范式使得分类器具有区分未知类别的能力。传统的ZSL方法只关注图像识别问题，即对象只出现在图像的中心部分。但现实世界的应用远非理想，图像可能包含各种对象。零样本检测（ZSD）旨在同时定位和识别属于新类别的未知对象。本文提出了关于零样本检测的详细调查。首先，我们总结了零样本检测的背景，并给出了零样本检测的定义。其次，基于传统检测框架和零样本学习方法的结合，我们将现有的零样本检测方法分为两种不同的类别，并介绍了每个类别下的代表性方法。第三，我们讨论了零样本检测的一些可能应用场景，并提出了零样本检测的一些未来研究方向。01. 引言0近年来，监督学习取得了巨大进展，并且这些方法在各种应用领域也表现出色。由于深度学习技术的发展和数据集的不断丰富，它们取得了巨大的成功。然而，由于缺乏足够的标记数据，这些方法的性能会迅速下降，并且无法处理未知类别。在现实世界的应用中，精心标记的数据需要大量的人力资源，特别是那些需要更详细注释的任务，比如语义分割和目标检测。此外，经过训练的分类器只能识别属于训练数据中包含的类别的实例，并且缺乏类比学习的能力。为了解决上述问题，提出了一些新的学习范式。少样本学习（FSL）[1]似乎能够解决对没有足够标记数据的类别进行训练的问题。在这些方法中，最著名的方法是使用元学习方法。元学习的一般思想是使用大量与目标任务相似的任务来学习元学习器，然后将其应用于目标任务以获得良好的初始模型值。因此，模型可以快速适应目标任务，只需少量训练数据。累积学习[2]和终身学习[3]方法旨在解决在分类器训练后出现属于未知类别的新标记数据的问题。在一些应用中，有许多类别没有标记数据。但是对于分类器来说，识别在训练期间标签不可用的对象非常重要。零样本学习[4]被提出来解决这些问题。基于迁移学习范式，传统的零样本学习方法通过将在训练集中学到的知识转化为测试集分类的任务来进行分类器。为了处理没有训练数据的未知类别，提出了一系列零样本学习方法。基于嵌入的方法，0�通讯作者。邮箱地址：chufengtan97@gmail.com（C. Tan），xing.xu@uestc.edu.cn（X. Xu），fumin.shen@gmail.com（F. Shen）。0https://doi.org/10.1016/j.cogr.2021.08.001 收稿日期：2021年6月9日；修订日期：2021年8月9日；接受日期：2021年8月9日在线发表日期：2021年8月26日2667-2413/© 2021 The Authors. Publishing Services by Elsevier B.V. on behalf of KeAi Communications Co. Ltd. 本文是根据CCBY-NC-ND许可协议的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）160 0C. Tan, X. Xu and F. Shen Cognitive Robotics 1 (2021) 159–1670旨在为视觉和语义特征构建嵌入空间，基于未见类别的二元分类器与其对应的类别原型之间的关系进行未见实例的分类，例如DeViSE [5]，ALE[6]。基于关系的方法根据类别之间的关系进行未见分类。类别之间的关系可以通过各种方式获得，例如简单地计算语义空间中原型之间的余弦相似性，或者使用WordNet中的本体结构。通过应用深度生成模型，可以通过直接从学习到的知识中生成样本来克服未见实例的缺失。假设为已见类别生成高质量样本的模型能够为未见类别生成合理的样本。在合成方法方面有许多尝试，使用条件变分自编码器[7]和GANs[8]等生成模型。然而，在上述学习范式下的方法主要集中在对象分类[6]。尽管零样本识别仍然是一个开放的研究问题，在许多实际应用中，我们需要分类器能够在更复杂的情况下对对象进行分类和定位。但是就像传统识别和检测之间的关系一样，在添加定位功能后，分类任务将比识别更加困难。以下是现实应用场景中的主要挑战。0-对象的外观在不同图像中会发生变化。在现实世界的场景中，同一对象的外观会随着一些因素的变化而发生很大变化，比如镜头位置、全局照明、对象的距离和角度。更不用说同一类型的对象的外观也可能不同。学习对象的抽象概念变得非常重要。-现实世界中的对象类别数量很大。一些研究[9]指出，人类可以识别至少30,000个不同的类别。由于收集和标注的困难，当前的图像数据集只包含其中的一小部分类别。- 在一些特定任务中，标记的实例很难获得。像对象检测[10]和语义分割这样的任务0[11]需要实例或像素级注释。这种标注非常昂贵，对象之间的遮挡使标注非常困难且容易出错。这导致了最大的检测数据集MS COCO[12]，它包含的图片和类别比ImageNet [13]要小得多。大多数图像不仅包含一个主导类别，使得识别方法不适用。-很难收集足够的稀有类别的数据。一些类别很难获得训练数据，因为对象很少出现，比如濒临灭绝的动物。此外，由于一些隐私保护和相关政策，这些领域的数据不能公开获取或标注。-在不同数据集上应用检测算法需要大量的重新训练。尽管当前的检测算法在许多应用中有显著效果，比如医学图像诊断，自动驾驶，问答系统，图像生成等。然而，对于不同领域的应用，需要使用新数据进行重新训练。当新的数据标注出现时，大多数检测系统无法通过微调有效地学习新数据。0在这些应用中，分类器不仅能够识别对象，还能够在零样本情况下定位对象。为了满足这一需求，提出了零样本检测[14]。零样本检测的目的是同时识别和定位属于新类别的对象。自其提出以来[14]，零样本检测吸引了研究人员的注意，并成为机器学习中一个快速发展的领域。零样本检测的主要应用是克服传统检测理论到实践中出现的困难。例如，在自动驾驶中，程序需要及时发现前方的障碍物及其具体位置。然而，现实生活中有许多种障碍物，许多障碍物并不经常出现在道路上。为了确保系统可以在没有相关训练数据的情况下运行，零样本检测方法可以非常有帮助。此外，零样本检测更类似于人类认知世界的过程。它整合了多模态知识，适应实际应用场景，并减少了对数据集的依赖。01.1. 零样本检测概述0与经典的零样本学习类似，数据集中既有标记的训练数据，也有未标记的测试数据。这些未标记的测试数据属于未被标记训练数据覆盖的类别。训练数据中包含的类别被定义为已见类。同样，测试数据中包含的这些类别被定义为未见类。考虑一个由� ={��|�=1,2,3,…,��}表示的已见类集合，其中每个��是一个已见类。类似地，考虑一个由� ={��|�=1,2,3,…,��}表示的未见类集合，其中每个��是一个未见类。注意��=�。将�表示为D维特征空间，通常��。将训练数据集表示为��={(��,��,��)��×�×�}，其中每个标记实例(��,��,��)，��是特征空间中的输入表示，这些图像至少包含一个已见类的实例，��是一组标签，其对应的实例被��覆盖。��是与��对应的边界框集合。每个边界框通常由一个由矩形框组成的矩形框表示0左上角和右下角分别表示为（� min，� min，� max，� max）。类似地，将�� ={��∈�}��=1表示为测试数据集，其中每个��是特征空间中的一个测试图像。在大多数情况下，训练数据集��中不会出现未见类对象，但��中可能会出现未见类对象0可以包含已见类对象。由于没有未见类的标记数据，因此需要一些辅助信息。这些辅助信息应涉及一些有关未见类的信息，并与特征空间�相关。在现有的工作中，受零样本学习方法的启发，语义信息通常被用作零样本检测任务中的辅助信息。语义信息的应用非常类似于人类进行零样本学习的方式。人类可以轻松地结合语义信息和学习的视觉知识进行零样本学习。最经典的例子是人类可以轻松地通过语义知识表示“斑马看起来像马，并且有条纹”，并通过视觉161 0C. Tan, X. Xu 和 F. Shen 认知机器人 1 (2021) 159–1670表1 本文中使用的关键符号0符号定义0� A D维视觉特征空间 � 由语义信息创建的M维原型空间 �，� 分别表示已见类和未见类的集合 ��，��分别表示已见类和未见类的数量 ��，�� 分别表示训练数据和测试数据的数量 �� 测试数据集的输入 ��训练数据集 (��) 第i个带有未见类对象的测试样本 ��(�;�) 一个零样本检测器 �(�)对于给定类别标签输出类别原型的函数0“马”和“条纹”的知识。即使我们以前从未见过斑马，通过结合语义信息以及马的外观和“条纹”的模式[15]。在辅助信息的帮助下，我们可以形成一个称为原型空间的空间，其中包含有关已见类和未见类的知识。将�表示为M维原型空间。将��∈�表示为已见类��的类原型，将��∈�表示为未见类��的类原型。将�(�)∶�∪�→�表示为给定类标签的函数。��={��}��=1表示已见类的原型集，��={��}��=1表示未见类的原型集。这些原型在训练阶段中使用。0输出给定类标签的类原型。��={��}��=1表示已见类的原型集，��={��}��=1表示未见类的原型集。这些原型在训练阶段中使用。0定义1（零样本检测）。给定一个只包含带标签数据的已见类�的训练数据集��，零样本检测的目的是找到一个映射函数��(�;�)，找到得分最高的边界框并将它们分配给得分最高的对象类。我们可以用以下形式定义映射函数：0��(�;�)=argmax�∈�max�∈�(�)�(�,�,�;�)。(1)0其中 � ∈ �是训练数据集中的输入图像，�表示学习的参数。�是相应边界框的类标签。�(�)是一个兼容函数。�(�)是给定图像�的边界框集。当训练过的检测器在测试期间应该识别属于已见类和未见类的对象时，零样本检测变成了另一个称为广义零样本检测(GZSD)的任务。它的映射函数��(�;�)应该具有如下形式：0��(�;�)=argmax�∈(�∩�)max�∈�(�)�(�,�,�;�)。(2)0一些初始研究[16]指出，原始的零样本检测问题在评估过程中可以得到放松：0T1零样本检测(ZSD)：给定输入图像�∈�，训练过的检测器应该识别和定位属于未见类的每个对象。T2零样本元类检测(ZSMD)：给定输入图像�∈�，训练过的检测器应该定位属于未见类的每个对象并将其分类为元类之一。T3零样本标记(ZST)：给定输入图像�∈�，训练过的检测器应该识别属于未见类的每个对象而无需对其进行定位。T4零样本元类标记(ZSMT)：给定输入图像�∈�，训练过的检测器应该识别属于未见类的每个对象而无需对其进行定位，并且只将其分类为元类之一。0零样本检测问题是上述任务中最困难和具有挑战性的。从这些定义中，零样本检测的主要思想是将在训练过程中学到的知识转移到几乎类似于传统零样本学习但具有不同应用的目标检测任务中。然而，与零样本识别相比，零样本检测任务要困难得多。对象可以出现在给定图像的任何位置，检测器应该有能力在视觉和语义空间中过滤噪音。最后，我们总结了本文中使用的关键符号，如下表1所示。01.2.我们的贡献和文章组织0贡献：零样本检测是迁移学习中零样本学习的一个子领域。有关零样本学习的调查[4]。但这些调查并不包括对零样本检测任务的足够详细的分析总结。由于零样本检测问题的快速发展，我们需要对零样本检测进行全面调查，涵盖方法、评估、数据集等方面。在这项调查中，我们总结我们的贡献如下：我们将现有的零样本检测方法分为两个层次的类别，根据语义信息在检测任务中的使用方式。我们指出了零样本检测与零样本学习的区别，以及零样本检测的主要挑战。我们分析了这些方法的优势和缺点，并指出了未来研究和可能应用的方向。162 0C. Tan, X. Xu and F. Shen 认知机器人学 1 (2021) 159–1670图1. 不同类别的方法和主要思想。0图2. 基于两阶段检测的主要思想。0文章组织：我们的组织如下：在第2节中，我们介绍了零样本检测任务中的主要挑战，并介绍了每个类别中的现有方法，并对这些方法进行了讨论。在第3节中，我们介绍了零样本检测的几种可能应用。在第4节中，我们提出了零样本检测的一些挑战，并建议了几个未来的研究方向。在第5节中，我们对本调查文章进行了总结。02. 方法0我们将零样本学习方法分为两类：基于分类器的方法和基于实例的方法。基于类的方法侧重于传统目标检测框架和零样本学习分类器的结合。这种方法通常在目标检测的分类阶段添加语义信息。根据是否使用RPN来预处理对象的位置，我们可以将基于类的方法分为一阶段方法和二阶段方法。二阶段方法主要侧重于更好的RPN。因为RPN是特征空间中的密集采样，即使没有一些稀有类别的训练数据，它仍然具有良好的鲁棒性。对于一阶段方法，它们主要侧重于视觉和语义之间的特征融合。对于基于实例的方法，受零样本学习中的综合方法的启发，它们通常首先训练一个传统的目标检测，然后使用综合图像或视觉特征更新置信度预测器。综合方法将问题从训练零样本分类器转化为生成模型。我们在图1中总结了一种方法分类层次结构。尽管当前的方法似乎是零样本学习和目标检测算法的简单融合，无论它属于哪种方法类别。但是当零样本学习和目标检测的挑战相结合时，零样本检测要复杂得多：0(1)正负训练样本严重不平衡。这种困难通常存在于传统的目标检测方法之间，因为边界框的预测空间是稀疏的，这意味着很难训练一个网络来预测包含所需对象的可能边界框。许多目标检测方法尝试改善这种情况。Faster-rcnn [10]设计了区域提议网络，它基于锚点枚举可能的边界框。级联R-CNN[17]使用级联回归作为重新采样机制，逐步增加提议阶段的IoU值。因此，来自前一阶段的重新采样提议可以适应更高质量的提议，更有可能覆盖下一阶段的对象。RetinaNet[18]设计了一种称为焦点损失的新类型损失，它减少了在训练阶段中占大多数负样本的简单负样本的权重。该策略也可以应用于硬样本挖掘。一些其他作品[19,20]尝试为边界框寻找一种新的表示，这将在分类器训练期间减少负提议。最近的研究如DERT[21]指出，由于传统的多对一分配，这种缺点几乎无法解决163 0C. Tan, X. Xu and F. Shen 认知机器人学 1 (2021) 159–1670图3. 基于一阶段检测的主要思想。0正负样本和先前候选设计。他们设计了一个稀疏检测网络，将候选对象定义为一组稀疏可学习的对象查询，正负样本分配是一对一的最优二部匹配，最终的测试结果直接输出，无需NMS。在零样本设置下情况可能更糟。没有标记数据的情况下，背景和未见类别很难区分，检测器将产生更少的正样本和更多的负样本，与完全监督的检测任务相比。此外，零样本检测器应具有对背景类进行分类的能力，以更好地检测未见类别，而在视觉空间中背景并没有严格定义。(2)分类依赖于对象的背景信息。ObjectNet[22]指出现有的检测方法无法学习关于对象的高度抽象的概念。由于ObjectNet中的对象出现在更复杂的情况中，如奇怪的旋转和凌乱的房间，图像分类的SOTA方法在ObjectNet数据集上遭受了巨大的性能下降。零样本检测将语义空间中的知识转移到视觉空间，这需要一个高度抽象的概念来识别未见的对象。(3)语义空间中噪声的影响。由于外观对象会发生很大变化，并且可以出现在任何地方，零样本检测任务中的噪声影响要比零样本识别大得多。此外，零样本检测更注重视觉对齐语义的精度。(4)没有专门的零样本检测任务数据集。由于大多数零样本检测方法是在COCO [12]和PASCALVOC上进行测量的。这些数据集只包含少量类别。此外，这些数据集应该分为已见和未见部分，以适应零样本设置。最近的研究[14]使用了从48个已见类别中选择的73,774张训练图像和从17个未见类别中选择的6608张测试图像的零样本COCO数据集。已见/未见分割标准是类语义的聚类嵌入。其他研究[23]使用了从每个超类中挑选最稀有类别的20%作为未见类别，导致了15个未见类别和65个已见类别的分割。但无论采用何种分割方式，都不能保证这些数据集适用于零样本检测任务。因为具有相似语义或属于相同超类的类别可能不具有相似的视觉特征。0接下来，我们将讨论属于这两个主要类别的现有作品。在介绍这些方法时，我们主要关注如何处理上述挑战，并讨论这些方法。02.1. 基于分类器的方法0基于分类器的方法的关键思想是用零样本学习分类器 � � ( � ) 替换检测框架的原始分类器 � ( � ) 。现有的基于分类器的方法通常将零样本分类器 � � ( � )嵌入到检测网络的不同部分，但由于不同类型的检测网络，� � ( � )的输入会发生很大变化。因此，根据所选目标检测网络的基本框架，我们进一步将基于分类器的方法分为两个子类别：(1) 基于两阶段检测的方法，(2)基于单阶段检测的方法。然后，我们将详细介绍每个子类别。基于两阶段检测的方法。这种类型的分类器通常将ROI池化后的特征作为输入。也就是说，图像首先会被一些区域提议方法处理，然后将处理后的特征馈送给分类器。零样本检测的基线[24]首先使用Edge-Boxes从整个图像中提取提议区域，然后将这些图像特征映射到一个300维的语义特征空间。通过相似性比较策略获得预测的类别。还提出了一些策略来区分未见对象和背景：(1)基于静态分配的背景零样本检测：在语义空间中添加一个背景类，对应于一个固定的标签向量。(2)基于潜在分配：类似EM的算法，本文构造了一个不包含已见和未见类别的单词列表 �，然后使用基线ZSD方法来预测一些背景类别，标记一些背景框，并将它们添加到数据集中，以进行下一次训练迭代。164 0C. Tan, X. Xu和F. Shen 认知机器人学 1 (2021) 159–1670由于语义空间中噪声的影响，这种方法在MS-COCO[12]数据集上的性能非常差，以平均精度（mAP）来衡量。后续的工作利用现代两阶段目标检测方法（如Faster-RCNN [10]，FPN[25]）的优势。当进入零样本设置时，区域提议网络的召回率下降很少，因为它在特征图上进行了密集采样。ZSD-CNN-ohem[26]是一种典型的方法，它将零样本分类器与检测网络结合起来。然而，简单的ZSL分类器无法解决上述挑战。ZSD-CNN-ohem在准确性上表现非常差。由于检测任务中额外噪声的存在，ZSL分类器无法得到适当的训练。为了解决这个问题，一些采用ZSD的方法出现了，以获得更好的性能，如MS-Zero[27]。它设计了一种对称映射方法，以减少对分类器的新噪声的影响。在实践中，它首先分别将视觉特征映射到语义空间，然后将语义特征映射到视觉空间。对于不同的对象，它们在语义空间和视觉空间中的对应特征有不同的区别。一些对象可能在语义空间中很容易区分，而有些类别在视觉空间中很容易区分。为了利用两个空间中不同对象的区别，该方法对齐不同的空间并合并结果，以实现使用不同的空间共同预测的效果。其他一些方法尝试为零样本检测获得更好的语义表示。ZSD-TD[28]使用Faster-Rcnn作为视觉分支生成视觉单元，捕捉提议的对象模式。使用Word-LSTM作为语言分支，学习用于加权每个描述中的视觉单元和单词级注意力。与一般的语言描述相比，属性表示在语义空间中的噪声较低。LLS-ZSD[29]结合了预先指定的语义属性和学习潜在属性，以在RPN阶段更好地进行锚框分类。此外，该方法以端到端的方式自动学习潜在属性。这种方法由于区域提议方法的预处理，具有相对较高的召回率，但正负训练样本的严重不平衡导致分类性能较低。极性损失[23,30]被提出来解决这个缺点。此外，基于Focal Loss，提出了极性损失，以找到更合适的视觉信息和语义信息的对齐。这是为了解决原始FocalLoss损失函数应用于零样本检测问题的缺点而设计的损失函数。因为原始的Focal损失函数只能将视觉特征推向它们对应的地面实况嵌入向量，但不能保证将它们远离所有其他负类向量。BLRPN-ZSD[31]使用级联阶段利用语义信息生成高质量的候选提议。BLRPN-ZSD不仅使用语义信息训练零样本分类器，还帮助原始区域提议网络区分背景和未见对象。基于单阶段检测的方法。另一种零样本检测是基于单阶段检测框架构建的。与基于两阶段检测的方法相比，没有区域提议网络的预处理，未见实例的漏检主要是由定位阶段的错误而不是分类阶段引起的。ZS-YOLO[32]指出，只要解决了漏检问题，我们就可以使用现有的零样本学习方法来识别对象提取特征。因此，ZS-YOLO设计了四个不同的部分：对象定位模块、对象重要性置信度预测模块、特征提取模块和语义信息预测模块。但与其他零样本检测方法一样，由于检测问题中正负训练样本的严重不平衡，分类器仍然很难训练。另一种方法是ACS-ZSD[33]，它使用ResNet和FPN提取视觉特征。之后，ACS-ZSD在属性嵌入空间中通过KNN对齐它们。最后，它为每个视觉特征找到属性表示。KNN分类器是无需训练的，但在语义空间中遇到了很大的噪声问题。CG-ZSD[34]提出了一种新颖的ZSD方法，结合了YOLOv3和零样本分类器。CG-ZSD的主要思想受到了常识经验的启发，即对象更有可能出现在某些特定的上下文中。因此，CG-ZSD利用图像中围绕对象的上下文信息，并在检测阶段使用它们。CG-ZSD在很大程度上依赖于图像的上下文信息。因此，这种方法也在一定程度上存在一些限制。例如，有时上下文是违反直觉的，或者两个对象类属于同一超类，但外观非常不同，两个对象有很多遮挡。02.2. 基于实例的方法0基于实例的方法的关键思想是为无标签类生成标记实例。通常，合成实例是通过生成模型（如GAN或VAE）生成的。然后，这些合成实例可以帮助以监督方式学习零样本分类器 � � ( �)。这种方法使得训练分类器比上述方法更容易，但很难保证合成的未见实例与真实的未见实例一致。它将零样本学习的挑战转化为仅使用已见类训练适当的生成模型。此外，仅使用语义信息生成未见对象的位置是非常困难的。如果基于实例的方法建立在两阶段检测框架上，它将严重依赖原始检测框架的定位能力，因为合成实例几乎无法提高区域提议部分的性能。DELO [35]通过使用条件变分自动编码器（CVAE）构建生成器，并且DELO还添加了额外的视觉一致性检查器组件，以确保生成的假视觉特征与原始真实视觉特征一致。DELO的YOLO [36]部分和CAE部分分别训练。首先，他们使用平衡比例下的前景/背景对象的视觉特征和相应语义来训练视觉特征生成器。然后，他们使用生成器为未见类合成假的视觉特征。最后，他们使用合成的视觉特征作为新的训练数据，并重新训练已训练的检测器的置信度预测模块。重新训练的置信度预测器将被插入到已训练的检测器中，以检测已见和未见实例。Generative-ZSD [37]是另一种使用生成模型的方法。他们使用cWGAN作为他们的生成器。像DELO一样，Generative-ZSD的Faster-RCNN [10]部分和cWGAN部分分别训练。然而，他们只是在训练数据集中使用合成实例来更新已用已见类训练后的分类器的权重 � ��。165 0C. Tan, X. Xu and F. Shen 认知机器人学 1 (2021) 159–1670表2 在MS COCO数据集上最先进方法的比较。0方法类型分割 ZSD(mAP/RE) GZSD(mAP/RE)0已见未见平均0SB [24] 分类器 48/17 0.70/24.39 - - - DSES [24] 分类器 48/17 0.54/27.19 -/15.02 -/15.32 -/15.17 LAB [24] 分类器 48/170.27/22.4 - - - ZSD-Textual [28] 分类器 48/17 -/34.3 - - - PL [23] 分类器 48/17 10.01/43.56 35.92/38.24 4.12/26.32 7.39/31.18PL [23] 分类器 65/15 12.40/37.72 34.07/36.38 12.40/37.16 18.18/36.76 CGS-ZSD [34] 分类器 65/15 10.9/- - - - CGS-ZSD [34]分类器 48/17 7.2/- - - - ACS-ZSD [33] 分类器 65/15 15.34/47.83 - - - SU-ZSD [37] 合成 65/15 19.0/54.0 36.90/57.7019.0/53.90 25.08/55.74 ZSD-ohem [26] 分类器 48/17 -/41.15 - - - BLC [31] 分类器 48/17 10.60/48.87 - - - BLC [31] 分类器65/15 14.70/54.68 - - - DELO [35] 合成 60/20 6.9/33.5 - - - OD-ZSD [16] 分类器 48/17 5.05/12.27 13.93/20.42 2.55/12.424.31/15.45 LSA-ZSD [29] 分类器 48/17 13.55/37.78 34.18/40.32 13.42/38.73 19.27/39.510基于实例的方法有一个非常明显的问题，即合成实例通常被假定遵循某种分布，如高斯分布，这可能导致真实世界的视觉特征与合成实例的视觉特征之间存在差距。此外，基于实例的方法通常首先用已见类训练网络，然后使用合成示例更新权重。这种两阶段训练范式将设计网络的生成模型和检测模型之间可能导致已见类域和未见类域之间存在差距。基于实例的方法的重新训练阶段对定位性能帮助不大，因为当生成器被训练以生成单个对象的视觉特征时，几乎不可能合成对象的位置。02.3. 方法比较0零-shot 检测仍处于研究的初级阶段，由于缺乏专门的数据集，各种方法的评估标准尚未统一。大多数方法都是在零-shot COCO数据集上进行测试的，该数据集是在 MS COCO [12] 的基础上构建的，将类别分为已见和未见类。48/17 分割 [14] 使用了 73,774张训练图像，这些图像来自 48 个已见类，以及 6608 张测试图像，这些图像来自 17 个未见类。已见/未见分割标准是类语义的聚类嵌入。其他研究 [23]使用了零-shot COCO 数据集，从每个超类中挑选了最稀有的 20% 类作为未见类，导致了 15 个未见类和 65 个已见类的分割，通常称为 65/15分割。DELO [35] 在不同的已见/未见比例下进行了零-shot COCO 数据集的实验，比如 20/60、40/40 和 60/20。我们在表 2中总结了现有的最先进方法。评估标准是平均精度（mAP），这在目标检测任务中被广泛使用。正检测的 IOU 阈值为 0.5，RE表示召回率。但无论采用何种分割方式，都不能保证这些数据集适用于零-shot检测任务。因为类别的语义相似或属于同一超类的类可能并不具有相似的视觉特征。我们可以看到，大多数零-shot检测方法的性能较差，因为存在以下一些挑战: (1) 未见类与难以检测的类之间存在很大的重叠。这些对象通常很小，并出现在图片中不显眼的位置。(2)正负训练样本严重不平衡。为了在未见类上达到相对较高的召回率，RPN 生成了许多可能的提议，但其中大多数是负样本。(3) 与传统的零-shot识别方法相比，已见类的数量太少。零-shot 检测是一个非常有潜力的领域，有很多值得研究的问题。03. 应用0零-shot检测在新颖对象的定位、检索和跟踪中可以得到广泛应用。例如，在自动驾驶的实际应用中，可能会出现从未经过训练的新障碍物出现在道路上。零-shot检测方法可以帮助视觉系统检测这些新目标并主动避让，减少事故的可能性。此外，对于无人机，异常检测可以保护无人机免受在不良环境中运行或撞上障碍物的影响 [38] 。零-shot检测在异常检测中可能会有所帮助，因为未见数据可以被视为异常。此外，随着检测规模的扩大，比如在野外场景中，要对大量的对象类别进行边界框级别的注释是不可能的。此外，研究零-shot检测可以让我们知道如何获得对象类别更抽象的视觉表达以及它与语义特征的关系，并减少检测网络目前的数据需求，从而促进许多其他任务。零-shot检测试图总结层次化知识，这在语义空间中很容易找到，但在视觉特征中很难找到。一些研究 [39] 指出，这种层次化知识在故障检测中可能非常有用。166 0C. Tan, X. Xu and F. Shen 认知机器人学 1 (2021) 159–16704. 未来方向0提出了零-shot 检测的可能未来研究方向和挑战如下:0- 在广义零-shot 检测中，已见类的性能下降。零-shot 检测的性能取决于广义零-shot检测设置下已见和未见类的性能。当训练检测器以检测未见对象时，已见类的性能往往会下降，从而导致广义零-shot检测任务的整体性能较差。训练一个能够在已见和未见类之间取得平衡的检测器是一个挑战，更符合更现实的场景。-减少语义信息中的噪声。传统的语义嵌入向量如 word2vex/GloVe由于是从未标记的文本挖掘中自动生成的，因此存在噪声。在视觉空间中的背景情况下，情况变得更加困难。-类别之间的对象尺寸变化。一些具有训练数据的小对象在对象检测网络中仍然很难有效地找到，更不用说未见类了。- 理论保证。现有的零-shot检测方法通常是以一种启发式的方式开发的，缺乏很多理论保证。对这些问题的更多理论分析有利于零-shot 检测的发展。05. 结论0在本文中，我们对零样本检测进行了详细调查。首先，我们总结了零样本检测的背景，并给出了零样本检测的定义。我们还详细分析和描述了零样本检测任务在实际应用中的潜力和困难。其次，基于传统检测框架和零样本学习方法的结合，我们将现有的零样本检测方法分为两种不同类别，并介绍了每个类别下的代表性方法。我们详细阐述和比较了每种方法的核心思想、优缺点。在“方法比较”部分，指出了各种方法实验结果的差异，并分析了这一结果的原因。第三，我们讨论了零样本检测的一些可能应用场景，并提出了零样本检测的一些未来研究方向。0竞争利益声明0作者声明，他没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作。0参考文献0[1] S. Ravi，H. Larochelle，优化作为少样本学习的模型，ICLR，2017年。[2] G. Fei，S. Wang，B. Liu，累积学习以增加知识，第22届ACMSIGKDD国际知识发现与数据挖掘会议论文集，2016年。0[3] Z. Chen，B. Liu，终身机器学习，人工智能和机器学习综合讲座，2016年。[4] W. Wang，V. Zheng，H. Yu，C. Miao，零样本学习综述，ACM智能系统技术交易10（2019）1-37。[5] A.Frome，G. Corrado，J. Shlens，S. Bengio，J. Dean，M. Ranzato，T. Mikolov，DeviSE：深度视觉语义嵌入模型，NIPS，2013年。[6] Z. Akata，F. Perronnin，Z. Harchaoui，C.Schmid，图像分类的标签嵌入，IEEE模式分析与机器智能38（2016）1425-1438。[7] G. Arora，V. Verma，A. Mishra，P.Rai，通过合成示例的广义零样本学习，在：2018年IEEE/CVF计算机视觉与模式识别会议，2018年，4281-4289页。0[8] Y. Xian，T. Lorenz，B. Schiele，Z. Akata，零样本学习的特征生成网络，在：2018年IEEE/CVF计算机视觉与模式识别会议，2018年，5542-5551页。0[9] I. Biederman，组件识别：人类图像理解理论，心理评论94（2）（1987）115。0[10] S. Ren，K. He，R.B. Girshick，J. Sun，更快的r-CNN：具有区域建议网络的实时目标检测，IEEE模式分析与机器智能39（2015）1137-1149。0[11] E. Shelhamer，J. Long，T. Darrell，用于语义分割的全卷积网络，IEEE模式分析与机器智能39（2017）640-651。[12] T.-Y. Lin，M. Maire，S.J. Belongie，J. Hays，P. Perona，D.Ramanan，P. Dollár，C.L. Zitnick，微软COCO：上下文中的常见对象，ECCV，2014年。[13] O. Russakovsky，J. Deng，H. Su，J. Krause，S. Satheesh，S. Ma，Z. Huang，A. Karpathy，A.Khosla，M.S. Bernstein，A. Berg，L. Fei-Fei，Imagenet大规模视觉识别挑战，计算机视觉国际期刊115（2015）211-252。0[14] A. Bansal，K. Sikka，G. Sharma，R. Chellappa，A. Divakaran，零样本目标检测，ECCV，2018年。[15] Z.-Y. Fu，T. Xiang，E. Kodirov，S.Gong，语义流形距离实现的零样本目标识别，在：2015年IEEE计算机视觉与模式识别会议，2015年，2635-2644页。0[16] S. Rahman，S. Khan，F. Porikli，零样本目标检测：新概念的联合识别和定位，计算机视觉国际期刊（2020）1-21。[17] Z. Cai，N.Vasconcelos，级联r-CNN：深入高质量目标检测，在：2018年IEEE/CVF计算机视觉与模式识别会议，2018年，6154-6162页。0[18] X. Du , T.-Y. Lin , P. Jin , G. Ghiasi , M. Tan , Y. Cui , Q.V. Le , X. Song , Spinenet: 学习尺度置换骨干以进行识别和定位, 2020年IEEE/CVF计算机视觉与模式识别会议, 2020, pp. 11589–11598.0[19] R. Spin-Neto , E. Gotfredsen , A. Wenzel , CBCT图像体素大小变化对牙科诊断结果的影响: 一项系统性综述, 数字成像杂志 26 (2012) 813–820 .0[20] H. Law, Y. Teng, O. Russakovsky, J. Deng, Cornernet-lite: 高效基于关键点的目标检测, ArXiv (2020) arXiv:1904.08900 . [21] X. Zhu, W. Su, L. Lu, B. Li, X. Wang, J. Dai, Deformable DETR:可变形transformers用于端到端目标检测, ArXiv (2020) arXiv:2010.04159 . [22] A. Barbu, D. Mayo, J. Alverio, W. Luo, C. Wang, D. Gutfreund, J. Tenenbaum, B. Katz, Objectnet:用于推动目标识别模型极限的大规模偏差控制数据集 (2019). [23] S. R

下载后可阅读完整内容，剩余1页未读，立即下载