基于增量少样本学习的目标检测方法及其应用

79 浏览量更新于2023-10-25 收藏 12.35MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Juan-Manuel P´erez-R´ua1Xiatian Zhu1Timothy Hospedales1,3Tao Xiang1,2j.perez-ruaxiatian.zhut.hospedalestao.xiang*@samsung.com1Samsung AI Centre, Cambridge2University of Surrey3University of EdinburghUnited Kingdom1138460增量少样本目标检测0摘要0大多数现有的目标检测方法依赖于每个类别丰富标记的训练样本和批处理模式下的离线模型训练。这些要求严重限制了它们对具有有限标记训练数据的新类别的可扩展性。我们提出了一项研究，旨在超越这些限制，考虑到增量少样本检测（iFSD）问题设置，其中新类别必须逐步注册（无需重新访问基类）并且只有少量示例。为此，我们提出了OpeN-ended CentrenEt（ONCE），这是一个专为少样本学习场景设计的检测器，用于学习检测具有少量示例的新类别对象。通过将CentreNet检测器优雅地适应到少样本学习场景，并元学习一个用于注册新类别的类别特定代码生成器模型，实现了这一目标。ONCE完全遵循增量学习范式，新类别的注册仅需要少样本训练样本的单次前向传递，并且无需访问基类，因此适用于嵌入式设备上的部署。在标准目标检测和时尚地标检测任务上进行的大量实验表明了iFSD的可行性，首次开辟了一条有趣且非常重要的研究方向。01. 引言0尽管深度卷积神经网络（CNNs）在目标检测中取得了成功[21, 24, 45,49]，但大多数现有模型只能通过批处理的漫长迭代过程进行离线训练。在这种设置下，所有目标类别都是已知的，每个类别都有大量的注释训练样本，并且所有训练图像都用于训练。这种注释成本和训练复杂性严重限制了潜力。0对于这些方法来说，能够在线增长和适应新类别是很重要的。这种能力在机器人应用[32,1]中是必需的，当检测器在嵌入式设备上运行时，或者只是为了扩大对要识别的对象类别的长尾的覆盖范围[31]。相比之下，人类学习新概念（如对象类别）时是逐步增量的，而不会忘记先前学到的知识[14]，通常每个类别只需要少量的视觉示例[36,3]。受到将最先进的目标检测与人类水平智能之间的差距缩小的愿景的启发，最近的几项研究[53,22]提出了少样本目标检测器学习的方法。然而，这两种方法[53,22]在开放式或机器人学习环境中实际部署时基本上是不可扩展的，因为它们缺乏从数据流随时间增量学习新概念的能力。具体而言，它们必须使用旧（基类）和新（新颖）类别的数据进行昂贵的检测模型训练/更新，每当需要添加新类别时。因此，尽管它们成功地减少了注释要求，但这些模型本质上缩减为传统的批处理学习范式。这导致在增量场景中类别数量的二次计算成本过高，并且随着时间的推移，还会引发数据隐私问题[9,40]。同时，存储和计算要求限制了在机器人场景中进行设备上部署的能力，机器人可能希望逐步注册在世界中遇到的对象以供将来检测[32,1]。为了克服上述限制，我们研究了一个非常实际的学习设置-增量少样本检测（iFSD）。iFSD设置的定义如下：（1）检测模型可以预先在一组基类上进行训练，每个基类都有丰富的训练样本可用-使用现有的注释数据集来引导模型是有意义的[32]。（2）一旦训练完成，iFSD模型应能够部署到实际应用中，其中新类别可以随时使用少量示例进行注册。138470标注的示例。模型应该在观察到的所有类别上提供良好的性能（即，学习而不遗忘）。（3）从无限流的示例中学习新类别应该在内存占用、存储和计算成本方面是可行的。理想情况下，模型应该支持在资源有限的设备上部署，如机器人和智能手机。由于对大型数据集的批量学习的固有需求，传统的目标检测方法不适用于所提出的设置。一个明显的想法是使用新类别的训练数据对训练好的模型进行微调。然而，如果不重新访问旧数据（批量设置），这会导致现有类别的性能严重下降，原因是灾难性遗忘挑战[14]。最先进的少样本目标检测方法[53,22]也面临同样的问题，如果被拒绝访问基础（旧）类别的训练数据，并且按顺序适应新类别（请参见表2中的评估）。在本文中，作为深度神经网络中所提出的增量少样本目标检测问题的第一步，我们引入了OpeN-ended Cen- trenEt（ONCE）。该模型是基于最近提出的CentreNet[56]构建的，CentreNet最初是为传统的目标检测的批量学习而设计的。我们采用基于特征的知识迁移策略，将CentreNet分解为类别通用和类别特定的组件，以实现增量少样本学习。具体而言，ONCE使用丰富的基础类别训练数据首先训练一个类别通用的特征提取器。然后，使用模拟的少样本学习任务进行元学习，训练一个类别特定的代码生成器。一旦训练完成，给定少量新对象类别的图像，元训练的类别代码生成器能够在元测试阶段（新类别注册）中以高效的前馈方式使ONCE检测器逐步学习新类别。这是在不需要访问基础类别数据或进行迭代更新的情况下实现的。与[22,53]相比，ONCE更适应iFSD设置，因为它的性能对到达顺序和新类别的选择不敏感。这是因为它不使用基于softmax的分类，而是使用每个类别的阈值进行决策。重要的是，由于每个类别特定的代码是独立生成的，ONCE本质上能够保持基础类别和迄今为止注册的任何新类别的检测性能。在这项工作中，我们做出了三个贡献：（1）我们研究了被严重忽视的增量少样本检测问题，这对许多实际应用非常重要。据我们所知，这是第一次尝试在少样本注册新类别时减少深度学习目标检测器对大型基础类别数据集的批量训练的依赖，与最近的少样本检测替代方法[22,53]不同。（2）我们通过将最近的CentreNet检测器调整为增量少样本场景，提出了OpeN-ended CentrenEt（ONCE）。（3）我们在标准目标检测（COCO[29]，PASCAL VOC[12]）和时尚地标检测（DeepFashion2[15]）任务上进行了大量实验。结果显示ONCE相对于现有的替代方法具有显著的性能优势。0OpeN-ended CentrenEt（ONCE）通过将最近的CentreNet检测器调整为增量少样本场景而得到。（3）我们在标准目标检测（COCO[29]，PASCAL VOC[12]）和时尚地标检测（DeepFashion2[15]）任务上进行了大量实验。结果显示ONCE相对于现有的替代方法具有显著的性能优势。02. 相关工作0目标检测现有的深度目标检测模型通常分为两类：（1）两阶段检测器[19, 18, 43, 20, 8]，（2）一阶段检测器[30, 41, 42, 28,56, 57,25]。虽然两阶段方法在检测性能上通常优于一阶段方法，但由于需要进行对象区域推断（以及从对象候选集合中进行分类），两阶段方法的效率较低。通常，这两种方法都假设每个类别有大量的训练图像，并且需要以离线批量模式训练检测器。这限制了它们在模型部署期间需要动态添加新类别时的可用性和可扩展性。尽管它们是非增量的，但它们可以作为少样本检测器的检测骨干。我们的ONCE方法基于一阶段的CentreNet[56]，选择它是因为它的效率和竞争性的检测准确性，以及它可以很容易地分解为类别通用和特定部分，以适应增量少样本检测问题。0少样本学习对于图像识别，即使在行动中高效地适应新类别也是广泛研究的课题，这被称为少样本学习（FSL）[51,38,34,13,46,48,5]。假设有一组基类的丰富标记示例，FSL方法旨在元学习一种数据高效的学习策略，随后允许从非常有限的每类示例中学习新类别。大量的FSL工作已经研究了如何在这种稀缺数据中学习而不过拟合[34,44,6,26,7,17,47,55,50,27,39,11,16]。然而，这些FSL工作通常侧重于对整个图像或裁剪良好的对象图像进行分类。这比目标检测要简单得多，因为不需要将对象实例与各种背景杂乱分开，或者在空间和尺度上进行定位。在这项工作中，我们将少样本分类扩展到更具挑战性的目标检测任务。0少样本目标检测及其他一些最近的工作尝试利用少样本学习技术进行目标检测[53,22,23]。然而，与我们的工作相比，它们在考虑非增量学习设置时有着显著的不同，这在限制了它们在访问大规模基类数据受限的情况下的可扩展性和适用性。例如，由于两阶段设计和基于softmax的分类的使用，FasterR-CNN[43]是一种常见的选择，并且在大规模注释的情况下具有较强的性能，但它对于适应新类别的灵活性较差。在这项工作中，我们基于最近开发的基于中心点的目标检测模型CentreNet[56]进行构建，基于以下几点考虑：(1)它是一个高效的一阶段目标检测流水线，具有比SSD[30]、RetinaNet[28]和YOLO[41,42]等替代方案更好的速度-准确性权衡。(2)重要的是，它遵循一种类别特定的建模范式，可以以插件方式轻松高效地引入新类别。实际上，CentreNet的核心特征，基于每类热图的中心点预测，自然适用于我们的设置中所需的增量学习。Featuremaps f(I)Objectlocator h(·)138480实际的增量少样本学习设置，消除了反复在大规模基类训练数据上训练模型的不可行要求。尽管与非增量学习相比，这种更具挑战性的情景不可避免地导致性能下降，如我们的实验所示，但它更具代表性，符合自然人类学习能力，因此一旦解决，具有很大的应用潜力。还有其他旨在减少物体检测数据标记量的技术，例如弱监督学习[4,10]和零样本学习[58,37,2]。它们假设不同形式的训练数据和先验知识，并且在概念上与我们的iFSD问题设置互补。因此，在有多个输入源可用时（例如未标记的数据或语义类别描述符），它们可以结合使用。03. 方法论0问题定义我们考虑增量少样本检测（iFSD）的问题：通过仅使用每个类别的少量标记示例，获得能够增量识别新类别的学习器。我们考虑两个不相交的对象类别集：用于引导系统的基类，假设它们带有丰富的标记数据；以及稀疏标注的新类别，需要逐步加入。也就是说，在计算上高效地进行，而不需要重新访问基类数据。03.1.目标检测架构为了成功地从稀疏标注的新类别中学习目标检测，我们希望建立在一个有效的架构上，并利用已经通过该架构学习的基类的知识转移。然而，选择基本目标检测架构不能是任意的，因为我们需要根据需要在新类别上即时调整检测模型。例如，虽然FasterR-CNN[43]是一种常见的选择，并且在大规模注释的情况下具有强大的性能，但由于其两阶段设计和基于softmax的分类的使用，它对于适应新类别的灵活性较差。在这项工作中，我们基于最近开发的基于中心点的目标检测模型CentreNet[56]进行构建，基于以下几点考虑：(1)它是一个高效的一阶段目标检测流水线，具有比SSD[30]、RetinaNet[28]和YOLO[41,42]等替代方案更好的速度-准确性权衡。(2)重要的是，它遵循一种类别特定的建模范式，可以以插件方式轻松高效地引入新类别。实际上，CentreNet的核心特征，基于每类热图的中心点预测，自然适用于我们的设置中所需的增量学习。01一些研究已经研究了对象检测器的增量学习[35]。然而，它们没有解决少样本的情况。0测试图像I 特征提取器f（∙）0图1：Centre-Net的概述。一个骨干网络，可以通过分辨率降低的块和上采样操作来实现，生成特征图（顶部）。这些特征图经过一个小型CNN（对象定位器）进一步处理，并转换为一组编码对象框中心点和大小的每类热图（底部）。03.1.1 CentreNet模型回顾CentreNet的关键思想是将目标检测重新定义为点+属性回归问题。它受到关键点检测方法[33,52]的启发，采用了类似于[25,57]的思路，但不需要点分组和后处理。CentreNet的架构如图1所示。具体来说，正如名称所示，CentreNet将对象边界框的中心点和空间大小（即宽度和高度）作为回归目标。这两者都用2D热图表示，根据地面真值注释生成。在训练中，模型被优化以预测这样的热图，由L1回归损失进行监督。有关模型细节，请参阅原始论文以限制篇幅。0备注值得一提的是，基于关键点估计的目标检测方法不仅消除了区域提议生成的需求，还通过预测相应的像素对齐热图，实现了对象位置和大小的预测。特别是对于少样本目标检测，CentreNet的一个重要优点是每个单独的类别都维护着自己的预测热图，并通过激活阈值进行独立的检测。接下来，我们将展示如何利用CentreNet的这一特性，以无序和组合不敏感的方式支持新类别的增量注册，而不会干扰旧类别和新类别之间的关系。这与现有模型[53,22]中使用的softmax分类不同，后者使得这种视觉难以实现。03.2. 增量少样本目标检测0由于CentreNet是一个批量学习模型，因此不适用于iFSD。我们通过将元学习策略[51,44]纳入CentreNet架构来解决这个问题，138490阶段I阶段II0测试图像I0支持集Sk0特征提取器f（∙）0类代码生成器g（∙）0特征图f（I）0类别代码0对象定位器h（∙）0输出（从热图解码的边界框）0图2：我们的OpeN-ended CentrenEt（ONCE）模型的架构。具体来说，特征提取器（在我们的实现中是一个编码器-解码器模型，左上角为蓝色）生成测试图像的类通用特征图f（I）。这些特征图进一步与类特定代码（狗类为橙色，猫类为绿色）卷积，这些代码由类代码生成器（左下角为黄色）从每个类别的少量标记支持样本中预测生成，以生成热图格式的目标检测结果（为简单起见未显示）。ONCE的模型训练包括两个阶段：（1）阶段I：在基类的丰富训练数据上执行类似于CentreNet的监督学习。（2）阶段II：在特征提取器的权重被冻结的情况下进行情节元训练，允许类代码生成器学习如何从小的每类支持集中生成类特定代码，以便模型能够很好地推广到未见过的新类别（右侧）。基类在元训练中被用作伪新类。值得注意的是，ONCE也可以应用于其他检测问题，例如时尚地标定位。0提出了OpeN-ended CentreNet（ONCE）。0模型形式化ONCE将CentreNet分解为两个组件：（i）特征提取器，它被所有基类和新类共享，（ii）对象定位器，它包含每个要检测的单个类别的类别特定参数。具体来说，特征提取器以图像为输入，输出一个3D特征图。然后，对象定位器使用作为卷积核的类别特定代码分析特征图，并以热图的形式给出该类别的对象检测结果。在CentreNet的标准提取器/定位器分解中，对象定位器仍然需要以批量模式进行训练，并使用大规模训练数据。在ONCE中，我们通过元学习的生成器网络进一步参数化对象定位器，其中生成器网络根据少样本支持集合成定位器网络的参数（即类别特定的卷积核权重）。通过这种方式，我们将传统的批量模式检测器学习问题（图1中的第二个CNN，用“对象定位器”标记）转化为参数生成器元网络的前向传递（图2中的类别代码生成器）。为了实现这一点，我们进行元学习，训练类别代码生成器通过给定支持集合合成权重来解决少样本检测器学习任务（结果为图2中的绿色和橙色类别特定对象定位器）。0元训练：学习少样本检测器为了充分利用具有丰富训练数据的基类，我们将ONCE分为两个连续的阶段进行训练。在第一阶段，我们在基类上训练类别无关的特征提取器。0训练数据。然后，根据其他少样本策略[48]，我们在后续步骤中固定这个特征提取器。在第二阶段，我们通过联合训练对象定位器和一个基于类别特定代码的元网络来学习少样本目标检测。这是通过模拟在部署过程中遇到的少样本情景进行的。在接下来的几节中，我们将更详细地描述训练过程。元测试：注册新类别在测试时，给定一个包含少数标记边界框的新类别支持集，我们直接部署在元训练中学到的特征提取器、目标定位器和代码生成器。元网络从支持集（少样本）生成对象特定的权重，而目标定位器则使用这些权重在测试图像中检测对象。这意味着新类别对象在测试图像中以前馈的方式被检测出来，而无需模型训练和/或适应。03.2.1 阶段I：特征提取器学习0我们的目标是在ONCE中学习一个与类别无关的特征提取器f。这可以通过在基类上使用标准的有界框级别监督学习来简单实现，类似于原始的CentreNet[56]。具体来说，我们通过热图回归损失进行关键点检测和训练检测模型（包括特征提取器f(∙)和目标定位器h(∙)）。在这个阶段，我们训练一个完整的特征提取器和目标定位器流水线，尽管这个阶段的目标仅仅是学习一个强大的特征提取器f(∙)。学习到的定位器in this stage is a regular CentreNet locator, which will bediscarded in stage II, but will be used at the test time for thebase classes.Given a training image I ∈ Rh×w×3 of height h andwidth w, we extract a class-agnostic feature map m = f(I),m ∈ Rhr × wr ×c. The object locator then detects objects ofeach class k by processing the feature map with a learnedclass convolutional kernel ck ∈ R1×1×c, where r is theoutput stride and c the number of feature channels. We thenobtain the heatmap prediction Yk ∈ Rhr ×Yk = h(m, ck) = m ⊙ ck, k ∈ {1, 2, · · · , Kb},(1)where (δxi, δyi) = Oxi,yi is the offset prediction, O ∈Rhr × wr ×2, and (hi, wi) = Sxi,yi is the size prediction,138500类别k的r表示为：0其中⊙表示卷积操作，Kb表示基类的数量。为了定位类别k的对象实例，我们首先确定局部峰值Pk = {(xi, yi)}ni =1，这些点的激活值大于或等于其8个相邻点在Yk中的激活值。边界框预测为0(xi + δxi - wi/2, yi + δyi - hi/2, (2)0xi + δxi + wi/2, yi + δyi + hi/2)0r ×2，通过偏移和尺寸编码以相同方式生成。给定真实边界框和该预测，我们使用L1回归损失来优化特征提取器f和定位器h的参数。实际上，特征提取器模型采用了[52]中的基于ResNet的主干。03.2.2 阶段二：类别编码生成器学习0上述检测中学习到的类别编码参数c仅为基类的固定参数。为了处理iFSD设置，除了这些基类编码之外，我们还需要一个归纳类别编码生成器g(∙)，它可以在部署过程中根据仅有的少量标记样本快速合成新类别的类别编码。为了训练类别编码生成器g(∙)，我们采用一种分集元学习策略[51]。该策略利用基类数据来采样大量的少样本任务，从而模拟新任务的测试时需求。虽然分集元学习在少样本识别中被广泛使用，但我们在这里为检测任务定制了一种策略。具体而言，我们将iFSD任务T定义为可能的类别标签集L上的均匀分布，每个集合都包含一个或几个唯一的类别。为了形成一个用于计算梯度并训练类别编码生成器g(∙)的分集，我们首先从T中采样一个类别标签集L（例如，L =0{person, bottle,...}）。根据L，我们从中采样一个支持（元训练）集S和一个查询（元验证）集Q。S和Q都是L中类别的标记样本。在前向传播中，支持集S用于为每个采样的类别k生成一个类别编码，如下所示：0˜ck = g(Sk)，(3)0其中Sk是类别k的支持样本。有了这些编码{˜ck}，我们的方法可以通过使用特征提取器（公式（4））和对象定位器（公式（5））对查询图像I进行目标检测：0m = f(I)，其中I ∈ Q，(4) ˜Y = h(m,˜ck)。(5)0ONCE然后通过仅更新代码生成器的参数（参考公式（3））来训练，以最小化Q上的平均预测误差。与CentreNet一样，在这个阶段使用L1损失作为目标函数，定义为|˜Y -Z|，其中Z是真实热图。03.2.3 元测试：注册新类别0在具有特征提取器（f，在阶段I中训练）、类别编码生成器（g，在阶段II中训练）和对象定位器（h，公式（1））的情况下，在测试时，ONCE可以以前向传递的方式高效地注册任何新类别，只需少量标记样本，无需模型自适应和更新。对于新类别的元测试总结如下：01. 使用公式（3）利用少样本标记集获取其类别编码；02. 通过使用公式（4）计算测试图像特征；03. 通过公式（1）定位新类别的对象实例；04. 通过使用公式（2）获取所有对象候选框；05. 寻找热图局部最大值，输出该类别的最终检测结果。0这个过程适用于基类，只是不再需要第一步，因为它们的类别编码已经从训练阶段I中获取（参考公式（1））。通过这样做，我们可以独立地引入新类别，从而促进模型的iFSD部署。03.2.4 架构0对于特征提取器函数f，我们从一个强大且简单的基线架构[52]开始，该架构使用ResNet[21]作为主干。该架构包括一个编码器-解码器对，首先提取低分辨率的3D地图，然后通过可学习的上采样卷积进行扩展，输出输入图像I的高分辨率特征图f(I)。我们利用相同的主干来构建类别编码生成器（不包括上采样操作）。在138510方法新类别基础类别所有类别 AP AR AP AR AP AR0Fine-Tuning 1.4 8.2 20.7 23.4 15.8 24.4 Feature-Reweight [22]5.6 10.1 - - - - Meta R-CNN � [53] 8.7 12.6 - - - - ONCE 5.1 9.522.9 29.9 18.4 24.80表1：COCOval2017集上的非增量少样本目标检测性能。训练设置：每个新类别10个样本和所有基础类别的训练数据。‘�’：使用不同（未知）的新类别支持集。‘-’：没有报告的结果。0元训练（第二阶段），类别编码生成器的权重通过克隆特征提取器的编码器部分的权重进行初始化。最终的卷积输出进行全局池化以形成类别编码ck，给出一个代码大小为2562。为了处理具有可变大小的支持集，我们采用了[54]的不变集表示方法，通过对每个图像Ik,si在Sk中的类别编码生成器输出进行平均池化。代码和训练模型将会发布。04. 实验04.1. 非增量少样本检测0我们从一个重要的上下文实验开始实验部分。我们在[22,53]中研究的非增量设置下评估了ONCE的性能。具体而言，我们使用了COCO[29]，一个流行的目标检测基准数据集，涵盖了80个目标类别，其中有20个类别被留出作为新类别。这些元测试类别恰好是PASCALVOC数据集[12]涵盖的20个类别。COCO中的其余60个类别作为基础类别。对于模型训练，我们使用了每个新类别的10个样本以及所有基础类别的训练数据。表1中的COCO结果显示，虽然由于使用了不同的检测骨干和/或数据分割，无法直接进行比较，但ONCE接近两个最先进模型[22,53]的性能。我们继续在增量设置下进行实验分析，这更具挑战性，并且以前的方法[22, 53]不能轻松解决。04.2. 增量少样本目标检测0实验设置为了评估iFSD，我们遵循了[22,53]的评估设置，但有一个关键的区别，即在元测试期间无法访问基础类别的训练数据，并且需要对新类别进行增量更新。具体而言，我们使用了广泛使用的目标检测基准数据集COCO [29]和PASCAL VOC[12]。如前所述，COCO涵盖了80个目标类别，其中包括PASCALVOC的所有20个类别。我们将这20个VOC/COCO共享的目标类别视为新类别，而COCO中的其余60个类别作为基础类别。02实际上，当考虑到类别特定的宽度和高度热图时，新类别代码为3×256。出于简单起见，在我们的方法描述中省略了这一点。0这导致了两个数据集的分割：在COCO上的同数据集分割和以60个COCO类作为基础的跨数据集分割。对于在COCO上的同数据集评估，我们使用了基础类别的训练图像进行模型元训练。在每个episode中，我们随机抽样了32个任务，每个任务包含一个3类别检测问题，每个类别有5个注释的边界框。更大的学习任务可能对性能有益，但在训练时需要更多的GPU内存，因此在我们的资源条件下不可能实现。对于元测试，我们从所有20个新类别的训练集中随机抽样一个支持集。为了将这20个新类别加入模型，我们考虑了两种设置：增量批处理或连续增量学习。在增量批处理设置中，所有20个新类别一次性添加，并进行单个模型更新。在连续增量学习设置中，逐个添加20个新类别，并进行20个模型更新。我们评估了每个新类别每个类别注释的k ∈ {1, 5,10}个边界框的少样本检测学习。在实践中，我们使用了与[22]相同的新类别支持集，以便进行增量学习和非增量学习之间的直接比较（[53]中使用的数据分割不公开）。然后，我们在新类别的验证集上评估模型性能。对于从COCO到VOC的跨数据集评估，我们使用了与上述相同的设置和训练/测试数据分区，只是模型在PASCAL VOC2007测试集上进行评估。也就是说，元训练的支持/查询集来自COCO，而元测试使用VOC的训练数据进行少样本检测器学习，并使用VOC的测试数据进行评估。0竞争对手我们将我们的ONCE方法与几种替代方法进行了比较：（1）标准的Fine-Tuning方法，（2）一种流行的元学习方法MAML（一阶变种）[13,34]，以及（3）一种最先进的（非增量）Few-Shot目标检测方法Feature-Reweight[22]。特别地，由于[22]最初是针对非增量设置设计的，我们根据其公开发布的代码将其调整为iFSD设置。我们注意到MetaR-CNN[53]与[22]具有相同的公式，不同之处在于重新加权区域建议而不是整个图像。然而，由于没有发布的代码，我们无法复现MetaR-CNN。所有方法都是在CentreNet/ResNet50上实现的，作为检测器网络和代码生成器元网络的骨干。0COCO上的目标检测。我们首先评估了增量批处理设置。所有方法的结果在表2中进行了比较。我们有几个观察结果：（1）标准的Fine-Tuning方法不仅对于03主要修改是在元测试时间只访问新类别。1510+person+bicycle+car+motorcycle+airplane+bus+train+boat+bird+cat+dog+horse+sheep+cow+bottle+chair+couch+potted plant+dining table+tvmonitor05101520253035138520图3：COCO val2017数据集上的新类别目标检测。上方：我们的方法。下方：Fine-Tuning。10-shot iFSD设置。0Shot Method Novel Classes Base Classes All Classes0AP AR AP AR AP AR0Fine-Tuning 0.0 0.0 1.1 1.8 0.8 1.40Feature-Reweight† [22] 0.1 0.3 2.5 4.3 1.9 3.30ONCE 0.7 6.3 17.9 19.5 13.6 16.20Fine-Tuning 0.2 3.5 2.6 7.4 2.0 6.40Feature-Reweight† [22] 0.8 5.1 3.3 8.2 2.6 7.40ONCE 1.0 7.4 17.9 19.5 13.7 16.40Fine-Tuning 0.6 4.2 2.8 8.0 2.3 7.00Feature-Reweight† [22] 1.5 8.3 3.7 8.9 3.1 8.70ONCE 1.2 7.6 17.9 19.5 13.7 16.50表2：COCOval2017数据集上的增量Few-Shot目标检测性能。设置：批处理中的所有20个新类别的增量学习。'†'：[22]的代码被调整为使用相同的检测骨干（CentreNet）和设置进行公平比较。0学习从每个新类别的少样本中学习，但也面临着灾难性遗忘（基类性能大幅下降）的问题，使其不适用于iFSD。作为代表性的元学习方法，MAML在Few-Shot检测能力上略微优于Fine-Tuning。然而，在iFSD中，由于无法访问基类（旧类别）的支持集，MAML无法对基类进行目标检测。毕竟，MAML并不是为增量学习而设计的。Feature-Reweight与Fine-Tuning类似，在增量设置中也会出现灾难性遗忘。在大多数指标上，它比我们的方法差，只在10-shot实验的新类别检测上稍微有优势。这是以测试时间中的密集优化为代价的，这在许多实际场景中并不理想。ONCE在大多数实验中同时取得了新类别和基类别的最佳性能。随着样本数量的减少，与基准方法相比的改进更为显著。特别是通过类别特定的检测器学习，ONCE保持了基类别的性能不变，自然地解决了学习不遗忘的挑战。尽管在新类别上的绝对性能仍然较低，但这是一个新的且非常04请注意，还有许多最新的Few-Shot Learning方法[6, 26, 7, 17, 47,055, 50, 27, 39, 11,16]，这些方法在图像分类任务上比MAML表现更好。然而，它们仅适用于分类任务，不能轻易地用于目标检测任务。我们得到的基类AP比正常的有监督设置要低。这是由于在基类训练过程中的早停造成的。如果没有早停，我们可以达到[56]中报告的结果。然而，对于iFSD来说，早停对于训练基类检测器非常重要，否则特征将过度拟合于已知类别，对新类别的泛化能力较差。0这是一个具有挑战性的问题，ONCE提供了一个有希望的第一个解决方案，而无需在测试时进行优化。图3展示了一些定性结果。0# 逐渐添加的类别0得分（%）0ONCE（AP）ONCE（AR）0特征重新加权（AP）0特征重新加权（AR）0微调（AP）微调（AR）0图4：COCOval2017数据集上增量式少样本目标检测性能。我们绘制了所有类别的准确率与逐渐增加的新类别数量之间的关系。训练设置：每个新类别10个样本。‘†’：[22]的代码经过调整，使用相同的检测骨干（CentreNet）和设置进行公平比较。我们还评估了连续增量学习设置：逐个添加新类别。我们报告了所有类别的准确率。在这个测试中，我们排除了MAML，因为它不适用于没有检测基类对象的iFSD。图4中的结果显示，ONCE的性能变化很小，而竞争对手的性能随着添加更多类别而迅速下降，这验证了我们ONCE在动态添加新类别方面的能力。510138530Shot 方法 AP AP S AP M AP L AR AR S AR M AR L0Fine-Tuning 0.1 0.1 0.8 0.3 1.9 0.7 2.9 7.60MAML [34] 0.6 0.2 1.1 1.3 2.2 1.2 4.0 10.60ONCE 2.4 1.2 2.4 3.4 12.2 5.9 16.4 33.60Fine-Tuning 0.3 0.1 0.8 1.0 2.8 0.9 3.3 10.20MAML [34] 1.0 0.4 1.7 2.1 3.2 7.9 5.1 12.20ONCE 2.6 5.7 2.2 4.9 11.6 8.3 19.4 32.60表3：VOC2007测试集上增量式少样本目标检测的迁移性能。训练数据：COCO。设置：增量批次。由于VOC中没有基类图像，我们只报告了新类别的性能。从COCO到VOC的目标检测迁移。我们在从COCO到VOC的跨数据集设置中评估了iFSD。我们考虑了增量批次设置，并报告了新类别的性能，因为VOC中没有基类图像。表3中的结果显示：（1）与表2中的相对结果相同，验证了我们的模型在与训练不同的测试域中的性能优势。（2）与COCO相比，所有方法在VOC上获得了更高的性能。这是有道理的，因为COCO图像比VOC中的图像更具挑战性和无约束性。04.3. 少样本时尚地标检测0实验设置。除了目标检测，我们还在DeepFashion2基准测试上对我们的时尚地标检测方法进行了进一步评估[15]。该数据集包含来自13个类别的801K件服装。单个服装类别包含8�19个地标类别，总共有294个类别。这形成了一个两级层次的语义结构，在COCO/VOC数据集中没有呈现。每个图像在商业购物店或野外消费场景中拍摄，呈现一个或多个服装项目。在原始的训练/测试数据拆分之上，我们开发了一种iFSD设置。具体而言，我们将294个地标类别分为三组：153个用于训练（8个服装类别），95个用于验证（3个服装类别），46个用于测试（2个服装类别）。这种拆分在测试模型在服装类别上的泛化能力时是类别不相交的。最稀疏的服装类别被分配到测试集中。在iFSD训练的每个episode中，我们随机抽样了1个任务，每个任务包含每个类别的k-shot标注的地标和总共5个地标类别，其中k ∈ {1, 5,10}。我们使用验证集进行模型选择，即根据验证准确率选择最终模型。为了避免过度拟合训练服装类别，我们在每个episode中随机抽样了所有可用的（8�19）个地标类别中的5个。这是由于ONCE的类别特定建模性质所能实现的，而[22,53]无法做到这一点。在元测试中，我们从新的地标类别的原始训练集（iFSD测试集的一部分）中随机抽样了一个支持集，包括每个新地标类别的k ∈ {1, 5,10}个边界框的注释，并将其用于模型学习。我们0图5：ONCE进行时尚地标检测。第1列：一个包含五个随机选择的地标真值的支持样本。第2列：一个带有预测地标的测试图像。第3-7列：预测的热图。0Shot Method AP AP 50 AR AR 5001 Fine-Tuning 2.8 9.0 6.7 16.50ONCE 4.6 26.5 11.8 49.905 Fine-Tuning 17.0 35.9 25.1 42.10ONCE 29.5 77.5 42.1 87.4010 Fine-Tuning 17.1 37.1 24.6 43.00ONCE 32.2 79.5 44.3 88.30表4：DeepFashion2新类别增量少样本地标检测性能。设置：增量批处理。0在原始的新类别地标测试集上测试了模型的性能（作为iFSD测试集的一部分）。我们重复了测试过程100次并报告了平均值。0竞争对手。在这个受控测试中，我们将ONCE与Fine-Tuning基线进行了比较。其他少样本目标检测方法（例如[22,53]）由于其层次化语义结构，对于这个任务并不容易适应。事实上，采用CentreNet作为检测主干，并且我们提出的少样本检测框架允许ONCE具有这种广泛的适用性，获得了类间独立性。0评估结果。我们评估了增量批处理设置并报告了新类别的性能。表4中的结果显示，ONCE始终明显优于Fine-Tuning。这表明我们的模型更擅长将基类的地标外观信息转移到新类别，即使只有一个样本的训练示例可用于学习。由于在元测试期间不需要执行迭代优化，因此在此任务上实现的绝对准确度要高得多（表4与表2和表3相比）。这是因为所有类别都是服装地标，因此从基类到新类别的可传递知识更多。图5展示了ONCE进行一次性地标检测的示例。可以看到，模型在只看到一次的情况下能够准确地检测地标。05. 结论0我们研究了具有挑战性但实用的增量少样本目标检测问题。我们提出的ONCE为这个问题提供了一个有希望的初始解决方案。关键是，ONCE能够以前馈方式增量地注册具有少量示例的新类别，而无需重新访问基类训练数据。它在增量少样本设置下的目标和地标检测任务上表现出优越的性

下载后可阅读完整内容，剩余1页未读，立即下载