少镜头对象检测网络的Attention-RPN和多关系检测器

157 浏览量更新于2023-10-25 收藏 2.22MB PDF 举报

香港科技大学

数据集链接

身份认证购VIP最低享 7 折!

30元优惠券

4013基于注意RPN和多关系检测器的少镜头目标检测香港科技大学qfanaa@cse.ust.hkWeiZhuo赵伟wei. gmail.com邓志强cktang@cse.ust.hk戴宇荣腾讯yuwingtai@tencent.com摘要用于对象检测的常规方法通常需要大量的训练数据，并且准备这样的高质量训练数据是非常劳动密集的。在本文中，我们提出了一种新的少镜头对象检测网络，旨在检测对象的看不见的类别只有几个注释的例子。我们的方法的核心是我们的Attention-RPN，多关系检测器和对比训练策略，它们利用少数镜头支持集和查询集之间的相似性来检测新对象，同时抑制背景中的错误检测为了训练我们的网络，我们贡献了一个新的数据集，其中包含1000个具有高质量注释的各种对象的类别据我们所知，这是专为少数拍摄对象检测而设计的首批数据集之一一旦我们的少镜头网络经过训练，它就可以检测到不可见类别的对象，而无需进一步训练或微调。该方法具有通用性，有着广泛的应用前景.我们在少数镜头设置中对不同的数据集产生了新的最先进的性能数据集链接是https://github.com/fanq15/Few-Shot-Object-Detection-Dataset。1. 介绍现有的目标检测方法通常严重依赖于大量的注释数据，并且需要很长的训练时间。这激发了最近的发展少镜头目标检测。鉴于现实世界对象中的光照、形状、纹理等的大变化，少镜头学习具有挑战性。虽然已经取得了重大的研究和进展[1，2，3，4，5，6，7，8]，但所有这些方法都集中在图像分类上，很少涉及少数镜头对象检测的问题，很可能是因为从少数镜头分类转移到少数镜头对象检测是一项重要的任务。Central to object detection given only a few shots ishowtolocalizeanunseenobjectinaclutteredbackground,which in hindsight is a general problem of object localiza-*两位作者的贡献相等。本研究部分由腾讯及香港特别行政区研究资助局资助，1620818图1.给定不同的对象作为支持（上角），我们的方法可以检测到所有对象在给定的查询图像中的相同类别。从几个注释的例子在小说类别。潜在的边界框很容易错过看不见的对象，否则在背景中可以产生许多错误的检测。我们认为，这是由于区域保护网络（RPN）输出的好边界框分数不适当地低，使得新对象难以被检测到。这使得少数镜头对象检测本质上不同于少数镜头分类。另一方面，最近的少数镜头对象检测工作[9，10，11，12]都需要微调，因此不能直接应用于新类别。在本文中，我们解决了少镜头目标检测的问题：给定一些新目标对象的支持图像，我们的目标是检测测试集中属于目标对象类别的所有前景对象，如图所示。1.一、为此，我们提出两个主要贡献：首先，我们提出了一个通用的少数镜头对象检测模型，可以应用于检测新的对象，而无需重新训练和微调。通过精心设计的对比训练策略、RPN上的注意力模块和检测器，该方法在多个网络阶段利用权值共享网络中对象对之间的匹配关系。这使我们的模型能够对新类别的对象进行在线检测，无需精细训练或进一步的网络调整。实验表明，我们的模型可以受益于早期阶段的注意力模块，其中建议质量显着增强，并从多关系检测器模块中获益。4014后一阶段，其抑制并过滤掉在混乱背景中的错误检测。我们的模型在ImageNet Detection数据集和MS COCO数据集上实现了最新的性能。第二个贡献包括一个大型的注释良好的数据集，有1000个类别，每个类别只有几个例子。总的来说，我们的方法通过利用这个数据集比现有的大规模数据集，例如，COCO [13]. 据我们所知，这是第一个少数拍摄对象检测数据集之一，具有前所未有的对象类别数量（1000）。使用这个数据集，我们的模型在不同的数据集上实现了更好的性能，即使没有任何微调。2. 相关作品通用对象检测。目标检测是计算机视觉中的一个经典问题。在早期，物体检测通常被表述为使用手工特征的滑动窗口分类问题[14，15，16]。随着深度学习的兴起[17]，基于CNN的方法已成为主要的对象检测解决方案。大多数方法可以进一步分为两种一般的方法：无命题检测器和基于命题的检测器。第一条工作线遵循一个阶段的培训策略，并且不显式地生成建议框[18，19，20，21，22]。另一方面，由R-CNN[23]开创的第二条线首先从给定图像中提取潜在对象的类不可知区域建议。然后，这些盒子被进一步细化，并通过特定的模块分为不同的类别[24，25，26，27]。这种策略的一个优点是，它可以通过RPN模块过滤出许多负位置，这有助于下一步的检测器任务。出于这个原因，基于RPN的方法通常比无建议方法更好，具有最先进的检测任务结果[27]然而，上述方法是以密集监督的方式工作的，很难扩展到只有几个例子的新类别。很少有机会学习。经典集合中的少次学习[28]对于传统的机器学习算法来说是一个挑战，因为它只能从几个训练样本中学习。早期的作品试图学习一个一般的先验知识[29，30，31，32，33]，例如手工设计的笔画或可以跨类别共享的部分。一些作品[1，34，35，36]专注于人工设计不同类别之间的距离公式的度量学习。最近的趋势是设计一个通用的代理/策略，可以在每个任务中指导监督学习;通过积累知识，网络可以捕获不同任务的结构变化。这个研究方向通常被称为元学习[2，5，37，38，39]。在这一领域，[37]中提出了一种连体网络，它由共享权重的孪生网络组成，每个网络分别提供支持图像和查询。查询和它的支持之间的距离自然是通过逻辑回归学习的这匹配策略捕获支持和查询之间的固有多样性，而不管它们的类别。在匹配框架领域，后续工作[3，4，6，8，10，40]集中于增强特征嵌入，其中一个方向是构建内存模块以捕获支持中的全局上下文。许多作品[41，42]利用局部描述符从有限的数据中获得额外的知识在[43，44]中，作者引入了图神经网络（GNN）来建模不同类别之间的关系。在[45]中，遍历给定的整个支持集以识别任务相关的特征，并使高维空间中的度量学习更有效。其他工作，如[2，46]，致力于学习一般代理，以指导参数优化。到目前为止，少镜头学习还没有取得突破性的进展，主要集中在分类任务上，但很少涉及其他重要的计算机视觉任务，如语义分割[47，48，49]，人体运动预测[50]和对象检测[9]。在[51]中，使用未标记的数据，并在没有框的图像上交替优化多个模块。然而，该方法可能会被误导的不正确的检测在弱监督，并需要重新训练的一个新的类别。在LSTD [9]中，作者提出了一种新的少镜头对象检测框架，可以通过最小化源域和目标域之间的分类后验概率的差距，将知识从一个大型数据集转移到另一个较小的数据集。然而，这种方法强烈地依赖于源域，并且难以扩展到非常不同的场景。最近，已经提出了其他几个用于少镜头检测的工作[9，10，11，12]，但它们学习了特定于类别的嵌入，并且需要针对新类别进行微调。我们的工作是由匹配网络[37]开创的研究路线所推动的我们提出了一个通用的少镜头对象检测网络，该网络基于Faster R-CNN框架学习图像对之间的匹配度量，该框架配备了我们的新型注意力RPN和使用对比训练策略训练的多关系检测器3. FSOD：一个高度多样化的少镜头目标检测数据集少样本学习的关键在于当出现新类别时相关模型的泛化能力。因此，具有大量对象类别的高多样性数据集对于训练可以检测看不见的对象的通用模型以及执行令人信服的评估是必要的。然而，现有的数据集[13，52，53，54，55]包含非常有限的类别，并且它们不是在少数镜头评估设置中设计的。因此，我们建立了一个新的少镜头目标检测数据集。数据集构建。我们从现有的大规模对象检测数据集构建数据集，I.E. [54、56]。然而，这些数据集不能直接使用，原因是：1）不同数据集的标签系统4015图2.数据集标签树。 ImageNet类别（红色圆圈）与采用超类的Open Image类别（绿色圆圈）合并。图3.FSOD的数据集统计类别图像数几乎平均分布。大多数类（超过90%）具有少量或中等数量的图像（在[22，108]中），最常见的类仍然不超过208张图像。不一致，其中具有相同语义的一些对象在数据集中用不同的词注释; 2）由于不准确和缺失标签、重复框、对象太大，大部分现有注释是嘈杂的; 3）它们的训练/测试分割包含相同的类别，而对于少数镜头设置，我们希望训练/测试集包含不同的类别，以便评估其分类 l-ity on unseencategories.为了开始构建数据集，我们首先总结了[54，56]中的一个标签系统我们将叶子标签合并到表1.数据集总结。我们的数据集是多样化的，在框大小和纵横比上有很大的变化。说话。详细统计数据见表1和图2。3 .第三章。我们的数据集具有以下属性：类别的高度多样性我们的数据集包含83个父语义，如哺乳动物，服装，武器等，这些语义进一步分为1000个叶类别。我们的标签树如图所示二、由于我们严格的数据集分割，我们的训练/测试集包含非常不同的语义类别的图像，因此对模型提出了挑战。原始标签树，通过以相同的语义对它们进行（例如，IceBear和PolarBear）归入一个类别，并去除不属于任何叶类别语义。然后，我们删除标签质量不好的图像和尺寸不合适的盒子具体来说，移除的图像具有小于图像大小的0.05%的框，其通常视觉质量较差，不适合用作支持示例。接下来，我们遵循少量学习设置，将数据分为训练集和测试集，而不重叠类别。我们使用MS COCO数据集[13]中的类别构建训练集，以防研究人员更喜欢预训练阶段。然后，我们通过选择与现有训练类别距离最大的类别来分割包含200个类别的测试集，其中距离是连接is-a分类法中两个短语含义的最短路径[57]。剩余的类别被合并到总共包含800个类别的训练集中。总之，我们构建了一个包含 1000 个类别的数据集，其中 531 个类别来自ImageNet数据集[56]，469个类别来自Open Image数据集[54]。数据集分析。我们的数据集是专门为少数镜头学习和评估模型在新类别上的通用性而设计的，其中包含1000个类别，分别用于训练集和测试集，约66，000张图像和182，000个边界框。测试设置：我们的数据集包含在框大小和长宽比上具有较大差异的对象，由26.5%的图像组成，测试集中不少于三个对象。我们的测试集包含了大量的盒子类别不包括在我们的标签系统，从而提出了很大的挑战，为少数拍摄模型。虽然我们的数据集有大量的类别，但训练图像和框的数量远远少于其他大型基准数据集，例如MS COCO数据集，它包含123，287张图像和大约886，000个边界框。我们的数据集被设计为紧凑的，同时有效地进行少量学习。4. 我们的方法在本节中，我们首先定义了我们的少镜头检测任务，然后详细描述了我们新颖的少镜头目标检测网络。4.1. 问题定义给定具有目标对象的特写的支持图像s c和潜在地包含支持类别c的对象的查询图像q c，任务是找到属于查询中的支持类别的所有目标对象，并且用紧密边界框来标记它们。如果支持集包含N个类别和每个类别的K个示例，火车测试号类800200号图像5235014152号框14748935102平均数包装盒/图像2.822.48最小值Img/ Cls2230最大值Img/ Cls208199平均数Img/ Cls75.6574.31Box Size【6，6828】[13，4605]箱面积比【0.0009，1】【0.0009，1】4016−×××图4.网络架构。查询图像和支持图像由权值共享网络处理注意力RPN模块通过关注给定的支持类别来过滤其他类别中的对象提案。然后，多关系检测器匹配查询建议和支持对象。对于N向训练，我们通过添加N1个支持分支来扩展网络，其中每个分支都有自己的注意力RPN和与查询图像的多关系检测器对于K-shot训练，我们通过权重共享网络获得所有支持度特征，并使用属于同一类别的所有支持度的平均特征作为其支持度特征。这个问题被称为N路K镜头检测。4.2. 深度关注的少镜头检测我们提出了一种新的注意力网络，它在RPN模块和检测器上学习支持集和查询图4显示了我们网络的整体架构具体来说，我们构建了一个权重共享框架，它由多个分支组成，其中一个分支用于查询集，其他分支用于支持集（为了简单起见，我们在图中只显示了一个支持分支）。权重共享框架的查询分支是更快的R-CNN网络，其包含RPN和检测器。我们利用这个框架来训练支持和查询特征之间的匹配关系，以使网络学习相同类别之间的一般知识。基于该框架，我们引入了一个新的注意力RPN和多关系模块的检测器，以产生一个准确的支持和潜在的查询框之间的解析。4.2.1基于注意力的区域建议网络在少数拍摄对象检测中，RPN在产生潜在相关框以促进以下检测任务中是有用的具体来说，RPN不仅应该区分对象和非对象，还应该过滤掉不属于支持类别的否定对象。然而，在没有任何支持图像信息的情况下，RPN将在具有高对象性得分的每个潜在对象中无目的地活动，即使它们不属于支持类别，从而使检测器的后续分类任务负担大量不相关的对象。为了解决这个问题，我们提出了注意力RPN（图1）。 5）使用支持信息来过滤大多数背景框和不匹配类别中的框。因此，生成具有包含目标对象的高潜力的候选提议的更小且更精确的集合我们通过注意机制向RPN引入支持信息图5.注意RPN。将支持特征平均汇集到IlC向量。然后计算与查询特征的深度方向互相关，其输出被用作要被馈送到RPN中以用于生成建议的注意力特征同时压制其他类别的提案具体来说，我们以深度方式计算支持度特征图与查询特征图之间的相似度。然后利用相似性图来构建提议生成。特别地，我们将支持度特征表示为X∈t S×S×C，查询的特征映射表示为Y∈t H×W×C，相似度定义为Gh，w，c=Xi，j，c·Yh+i−1，w+j−1，c，i，j∈{1，…S}i、j其中G是所得到的注意力特征图。这里，支持特征X被用作内核，以深度交叉相关方式[60]在查询特征图[58，59]上滑动。在我们的工作中，我们采用的RPN模型的顶层的功能，即。ResNet50中的Res4 6我们发现S=1的内核大小在我们的情况下表现良好这一事实与[25]一致，即全局特征可以为对象分类提供良好的对象先验。在我们的例子中，内核是通过对支持特征映射求平均来计算的。注意力图由3-3卷积处理，然后是客观分类层和框回归层。具有损失Lrpn的注意力RPN与[25]中的网络联合训练4.2.2多关系检测器在R-CNN框架中，RPN模块之后将是一个检测器，其重要作用是重新评分提案4017全球R地方研究帕奇河AP50AP75✓47.734.0✓50.535.9✓45.132.8✓✓49.635.9✓✓53.838.0✓✓54.638.9✓✓✓55.039.1图6.多关系检测器。不同的关系头模型查询和支持图像之间的不同关系。全局关系头使用全局表示进行图像匹配;局部关系头捕获像素到像素的匹配关系;补丁关系头建模一对多像素关系。阶级认同。因此，我们希望检测器具有很强的区分能力，以区分不同的类别。为此，我们提出了一种新的多关系检测器，以有效地测量来自查询和支持对象的建议框之间的相似性，见图。六、该检测器包括三个注意模块，分别是全局关系头，用于学习全局匹配的深度嵌入，局部相关头，用于学习支持和查询建议之间的像素和深度互相关，以及补丁关系头，用于学习补丁匹配的深度非线性度量。实验表明，三个匹配模块可以相互补充，产生更高的性能。三个头的实现细节见补充资料。我们需要哪些关系头？我们遵循RepMet [ 61 ]中提出的N路K杆评估协议来评估我们的关系头和其他组件。表2显示了我们提出的多关系检测器在FSOD数据集上的朴素1路1次训练策略和5路5次评估下的消融研究。对于FSOD数据集上的所有消融研究，我们使用相同的评价设置。对于单个头部，局部关系头部在AP 50和AP 75评估中表现最好。令人惊讶的是，补丁关系头的表现比其他关系头差，尽管它建模更复杂的图像之间的关系。我们相信复杂的关系头使得模型难以学习。当将任意两种关系头组合使用时，我们获得了比单独使用关系头更好的性能。通过组合所有的关系头，我们得到了完整的多关系检测器，并取得了最佳的性能，表明三个建议的关系头是互补的，以更好地区分目标从非匹配对象。因此，以下所有实验均采用全多重关系检测器。表2. 不同关系头组合在单向单次训练策略中的实验结果。4.3. 双向对比训练策略一种朴素的训练策略是通过构造训练对（qc，sc）来匹配相同的类别对象，其中查询图像qc和支持图像sc都在相同的第c个类别对象中。然而，一个好的模型不仅要匹配相同的类别对象，而且要区分不同的类别。为此，我们提出了一种新的双向对比训练策略。根据图1中不同的匹配结果 7、提出了双向对比训练方法，在区分不同类别的同时匹配同一类别。我们随机选择一个查询图像qc、一个包含相同的第c类对象的支持图像sc和另一个包含不同的第n类对象的支持图像sn来构造训练三元组（qc，sc，sn），其中cn. 在训练三元组中，只有查询图像中的第c类对象被标记为前景，而所有其他对象被视为背景。在训练过程中，模型学习将查询图像中的注意力RPN生成的每个pro-bands与支持图像中的对象进行匹配因此，该模型不仅学习匹配（q c，s c）之间的相同类别对象，而且还区分（q c，s n）之间不同类别中的对象。然而，有大量的背景建议通常占主导地位的训练，特别是与负面的支持图像。出于这个原因，我们平衡了查询亲和支持之间的这些匹配对的比例。我们将前向建议和前向支持对（pf，sp）、后向建议和正向支持对（p b，s p）以及建议（前向或后向）和负向支持对（p，sn）的比例保持为1：2：1。我们选取所有N（pf，sp）对，根据匹配得分分别选取前2个N（pb，sp）对和前N（p，sn）对，计算所选对的匹配损失。在训练过程中，我们使用每个采样建议的多任务损失作为L=L matching+L box，其中边界框损失L box如[24]中所定义，匹配损失是二进制交叉熵。哪种培训策略更好？参见表3。我们用双向单次对比训练策略训练我们的模型，与朴素的单向单次训练策略相比，获得了7.9%的AP 50改善，这表明在训练过程中学习如何区分不同类别的重要性。通过5次射击训练，我们实现了进一步的改进，这也在[1]中得到了验证，4018×培训战略注意RPNAP50AP75单向单射55.039.1单向单射✓55.941.1双向单次拍摄63.842.9双向五摄65.443.7双向五摄✓67.546.2五向五射✓66.945.6图7. 双向对比训练三元组和不同匹配结果。只有正支持具有与查询图像中的目标地面实况相同的类别匹配对由正支持和前景建议组成，非匹配对有三类：（1）正支持和背景建议，（2）负支持和前景建议，（3）负支持和背景建议。铅球训练有利于少铅球测试。将我们的双向培训策略扩展为多路培训策略是直截了当的。然而，从表3来看，5路训练策略并不比2路训练策略产生更好的性能我们认为，只有一个负支持类别能够训练模型区分不同的类别。因此，我们的完整模型采用双向5杆对比训练策略。哪个RPN更好？我们根据不同的评估指标来评估我们的注意力RPN。为了评估提案质量，我们首先评估常规RPN和我们提出的注意力RPN的前100个超过0.5 IoU阈值的提案的召回率。我们的注意力RPN比常规RPN具有更好的回忆性能（0.9130 vs. 0.8804）。然后，我们评估这两个RPN的地面实况框的平均最佳重叠率（ABO [62]）。注意力 RPN 的ABO为 0.7282 ，而常规RPN的相同指标为0.7127。这些结果表明，注意力RPN可以产生更多的高质量的建议。表3进一步比较了在不同训练策略下具有注意力RPN和具有常规RPN的模型。在AP 50和AP 75评估中，具有注意力RPN的模型始终优于常规RPN。在AP 5 0 / AP 75评价上，注意力RPN在单向1次训练策略中产生0.9%/2.0%的增益，在双向5次训练策略中产生2.0%/2.1%的增益。这些结果证实了我们的注意力RPN产生了更好的利润，并有利于最终的检测预测。因此，在我们的完整模型中采用了注意力RPN。5. 实验在实验中，我们比较了我们的方法与国家的最先进的（SOTA）方法在不同的数据集。我们通常在FSOD训练集上训练我们的完整模型，并直接在这些数据集上进行评估与其他公平比较表3. 训练策略和注意力RPN与多关系检测器的实验结果。方法，我们可以放弃FSOD上的训练，并采用与这些方法相同的训练/测试设置在这些情况下，我们在微调阶段使用多路1次少量训练，更多细节将被描述。5.1. 培训详细信息我们的模型使用SGD在4个Tesla P40 GPU上进行端到端训练，批量大小为4（用于查询图像）。前56000次迭代的学习率为0.002，后4000次迭代的学习率为0.0002 我们观察到ImageNet [56]和MS COCO [13]上的预训练可以提供稳定的低级特征并导致更好的收敛点。鉴于此，除非另有说明，否则我们默认从[13，56]上的预训练ResNet50训练我们的模型。在训练过程中，我们发现更多的训练迭代可能会损害性能，太多的训练迭代会使模型过度拟合训练集。我们固定了Res 1 -3块的权重，只训练高级层，以利用低级基本特征并避免过度拟合。查询图像的短边被调整为600像素;长边的上限为1000像素。支持图像在目标对象周围以16像素图像上下文裁剪，零填充，然后调整大小为320320的正方形图像。对于少量训练和测试，我们通过对具有相同类别的对象特征进行平均来融合特征，然后将它们馈送到注意力RPN和多关系检测器。我们采用典型的度量标准[21]，即AP、AP50和AP75进行评价。5.2. 与最新方法的比较5.2.1ImageNet Detection数据集在表4中，我们将我们的结果与LSTD [9]和RepMet [61]在具有挑战性的基于ImageNet的50路5次检测场景中的结果进行了为了公平比较，我们使用他们的评估协议和测试数据集，并使用相同的MS COCO训练集来训练我们的模型。我们还在评估期间使用软NMS [63]作为RepMet。我们的方法产生 1.7% 的性能增益相比，国家的最先进的（SOTA）的AP 50评估。为了显示我们方法的泛化能力，我们直接将我们在FSOD数据集上训练的模型应用于测试集，我们在AP50评估中获得了41.7%，这比我们的微调模型要好得多（表4）。值得注意的是，我们的模型是在FSOD数据集上训练的。1微调阶段在多路训练中受益于更多的方式，因此我们使用尽可能多的方式来填充GPU内存。4019方法FSOD预训练微调AP50AP75[25]第二十五话[25]第二十五话LSTD [9]✗✓✓✓FSOD✓FSOD✓FSOD11.823.024.26.712.913.5我们直接训练✗27.519.4表4. ImageNet检测数据集上的实验结果，50个新类别，5个支持。†表示从FSOD训练数据集中删除测试类别 ImageNet意味着模型在ImageNet Detection数据集上进行了微调。方法数据集微调APAP50AP75法国[10]Meta [1]我们COCO都可Coco✓Coco✓Coco✓Coco5.68.711.112.319.120.44.66.610.6我们FSOD†✗16.631.316.1表5. 实验结果MS COCO minival集为20个新的类别与10个支持。†表示从FSOD训练数据集中删除测试类别 Cococo意味着模型在MS COCO数据集上进行了微调。可以直接应用于测试集，无需微调即可实现SOTA性能。此外，尽管我们在FSOD数据集上训练的模型比我们在MSCOCO数据集上的微调模型具有略好的AP 50性能，但我们的模型在AP75评估中超过了微调模型6.4%，这表明我们提出的FSOD数据集显着有利于少数拍摄对象检测。通过在测试集上进一步微调我们的FSOD训练模型，我们的模型实现了最佳性能，同时注意到，与SOTA相比，我们的方法在没有微调的情况下已经工作得最好。5.2.2MS COCO数据集在表5中，我们将我们的方法1与MS COCO minival集上的特征重新加权[10]和Meta R-CNN [12]进行了我们遵循他们的数据分割并使用相同的评估协议：我们将PASCAL VOC中包含的20个类别设置为用于评估的新类别，并使用MS COCO中的其余60个类别作为训练类别。我们使用相同MS COCO训练数据集的微调模型在AP/AP50/AP75指标上的表现优于Meta R-CNN 2.4%/1.3%/4.0%。这证明了我们模型的强大学习和泛化能力，以及在少数情况下，学习一般匹配关系比尝试学习类别特定嵌入更有前途[10，12]。我们在FSOD上训练的模型在AP/AP50/AP75指标上实现了7.9%/12.2%/9.5%的显著改善。请注意，我们在FSOD数据集上训练的模型直接应用于新类别，而没有任何进一步的微调，而所有其他方法都使用10个微调支持来适应新类别。同样，在没有微调的情况下，我们的FSOD训练模型已经在SOTA中工作得最好。1由于特征重新加权和Meta R-CNN在MS上进行了评估表6. 实验结果FSOD测试集为200新类别与5个支持评估新类别检测。✓fsod表示模型在FSOD数据集上进行了微调5.3. 现实应用我们应用我们的方法在不同的现实世界的应用场景，以证明其泛化能力。图图8示出了在我们的测试集中对新类别的定性1次目标检测结果我们进一步将我们的方法应用于野生企鹅检测[64]，并在图中显示了样本定性5次目标检测结果。9 .第九条。新类别检测。考虑这种常见的现实世界应用场景：给定相册或电视连续剧中的大量图像而没有任何标签，任务是注释新颖的目标对象（例如，火箭），而不知道哪些图像包含目标对象，如果存在的话，目标对象可以具有不同的尺寸和位置。为了减少人工劳动，一种解决方案是手动找到少量包含目标对象的图像，对它们进行注释，然后应用我们的方法来自动注释图像集合中的其余部分。在此设置之后，我们执行评估如下：我们混合FSOD数据集的所有测试图像，并且对于每个对象类别，我们挑选5个包含目标对象的图像以在整个测试集中执行这种新颖的类别对象检测请注意，与标准的对象检测评估不同，在此评估中，模型单独评估每个类别，并且不知道完整的类别。我们与LSTD [9]进行了比较，LSTD需要通过将知识从源域转移到目标域来对新类别进行训练。然而，我们的方法可以应用于检测新类别中的对象，而无需任何进一步的重新训练或微调，这与LSTD有着根本的不同。为了进行经验比较，我们调整LSTD以基于Faster R-CNN，并在公平配置中分别对每个测试类别的5个固定支持进行重新训练。结果示于表6中。在AP 50 /AP 75指标的所有200个测试类别上，我们的方法比LSTD高出3.3%/5.9%，其骨干Faster R-CNN高出4.5%/6.5%。更具体地说，如果没有对我们的数据集进行预训练，Faster R-CNN的性能会显著下降。请注意，由于模型只知道支持类别，因此基于微调的模型需要单独训练每个类别，这很耗时。野生汽车检测。我们将我们的方法2应用于KITTI [52]和Cityscapes [65]数据集上的狂野汽车检测，这些数据集是用于驾驶应用的城市场景数据集，其中图像由车载摄像机捕获我们COCO，在这一小节中，我们放弃了[13]上的预训练，以进行公平的比较。应遵循与所述相同的实验设置2在这个实验中，我们也放弃了MSCOCO预训练。方法数据集微调AP50AP75LSTD [9]Coco✓ImageNet✓ImageNet✓ImageNet✗✓ImageNet37.4-[第11话]Coco39.6-我们Coco41.321.9我们FSOD†41.728.3我们FSOD†44.131.04020图8.我们的方法在FSOD测试集上的定性单次检测结果放大图片以获得更多视觉细节。图9.我们在企鹅数据集上的应用结果[64]。给定5个企鹅图像作为支持，我们的方法可以检测到所有的企鹅在给定的查询图像中的野生。在 KITTI 训练集（ 7481 张图像）和 Cityscapes 验证集（500张图像）上评估Car类别的性能。DA Faster R-CNN [66]使用来自源域（KITTI/Cityscapes）的大量注释数据和来自目标域（Cityscapes/KITTI）的训练域自适应Faster R-CNN，并评估目标域上的性能。在没有任何进一步的重新训练或微调的情况下，我们的10次拍摄支持模型获得了相当甚至更好的AP 50性能（37. 0%vs. 38.5%的城市景观和67.4%的城市景观。 64.1%的KITTI）的野生车检测任务。请注意，DA Faster R-CNN是专门为狂野汽车检测任务设计的，它们在类似的领域使用了更多的训练数据。5.4. 更多分类vs. 更多样品？我们提出的数据集有大量的对象类别，但每个类别中的图像样本很少，我们声称这有利于少镜头对象检测。为了证实这一好处，我们在MS COCO数据集上训练我们的模型，该数据集有超过115，000张图像，只有80个类别。然后，我们在具有不同类别编号的FSOD数据集上训练我们的模型，同时保持训练图像的数量相似。表7总结了实验结果，我们发现虽然MS COCO拥有最多的训练图像，但其模型性能最差，而在FSOD数据集上训练的模型随着类别数量的增加而具有更好的性能。表7.我们的模型在FSOD测试集上的实验结果，在5路5镜头评估中，训练类别和图像的数量不同。tally增加，同时保持相似数量的训练图像，这表明具有太多图像的有限数量的类别实际上会阻碍很少拍摄的对象检测，而大量的类别可以始终有利于任务。因此，我们得出结论，类别多样性是必不可少的少镜头目标检测。6. 结论本文提出了一种新的具有注意力RPN、多关系检测器和对比训练策略的少镜头目标检测网络。我们贡献了一个新的FSOD，其中包含1000个类别的各种对象与高质量的注释。我们在FSOD上训练的模型可以检测新类别的对象，无需预训练或进一步的网络适应。我们的模型已经验证了广泛的定量和定性结果在不同的数据集。本文有助于少镜头目标检测，我们相信有价值的和相关的未来工作可以从我们的大规模FSOD数据集和检测网络与上述技术贡献。数据集号类号图像AP50AP75COCO [13]80115k49.128.9FSOD30026k60.339.1FSOD50026k62.741.9FSOD80027k64.742.64021引用[1] 杰克·斯内尔凯文·斯沃斯基和理查德·泽梅尔用于少镜头学习的原型网络。NeurIPS，2017。[2] 萨钦·拉维和雨果·拉罗谢尔。优化作为一个模型的少镜头学习。在ICLR，2017。[3] Adam Santoro，Sergey Bartunov，Matthew Botvinick，DaanWierstra，and Timothy Lillicrap.使用记忆增强神经网络的元学习InICML，2016.[4] Oriol Vinyals ， Charles Blundell ， Tim Lillicrap ，DaanWier-stra ， et al. 匹配网络进行一次性学习。InNeurIPS，2016.[5] Chelsea Finn，Pieter Abbeel，Sergey Levine.用于深度网络快速适应的模型不可知元学习。 ICML，2017。[6] 齐彩，潘英伟，姚婷，严成刚，梅涛。用于单次图像识别的记忆匹配网络。在CVPR，2018年。[7] 斯派罗·吉达里斯和尼科斯·科莫达基斯动态少镜头视觉学习而不忘。在CVPR，2018年。[8] Flood Sung Yongxin Yang ， Li Zhang ， Tao Xiang ，Philip HS Torr，and Timothy M Hospedales. 学习比较：用于少数学习的关系网络。在CVPR，2018年。[9] Hao Chen ， Yali Wang ， Guoyou Wang ， and YuQiao.Lstd：用于物体检测的低拍摄传输检测器在AAAI，2018。[10] 秉义康、庄柳、辛王、渔人余、嘉世丰、特雷弗·达雷尔。通过特征重加权的少镜头对象检测。在ICCV，2019年。[11] LeonidKarlinsky 、 Joseph Shtok 、 Sivan Harary 、 EliSchwartz 、Amit Aides 、Rogerio Feris 、Raja Giryes 和Alex M Bronstein。Remmet：基于代表性的度量学习，用于分类和少量目标检测。在CVPR，2019年。[12] 严晓鹏，陈子良，徐安妮，王晓曦，梁晓丹，林亮.Meta r-cnn ：面向实例级低拍摄学习的通用求解器在ICCV，2019年。[13] 林宗毅，迈克尔·梅尔，塞尔日·贝隆吉，詹姆斯·海斯，彼得罗·佩罗纳，德·瓦·拉马南，彼得·多尔·拉尔和C·L·劳伦斯·齐特尼克。Microsoft coco：上下文中的公共对象2014年，在ECCV[14] Navneet Dalal和Bill Triggs。用于人体检测的定向梯度的直方图。在CVPR，2005年。[15] PedroFFelzenszwalb 、 RossBGirshick 、 DavidMcAllester和Deva Ramanan。使用区分性训练的基于部分的模型进行对象检测。IEEE Transactions on PatternAnalysis and Machine Intelligence，32（9）：1627[16] P VIODA。使用简单特征的增强级联快速目标检测。载于CVPR，2001年。[17] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络进行Imagenet分类。在NeurIPS中。2012年。[18] Joseph Redmon，Santosh Divvala，Ross Girshick，andAli Farhadi. 你只看一次：统一的，实时的对象检测。在CVPR，2016年。[19] 约瑟夫·雷德蒙和阿里·法哈迪Yolo9000：更好，更快，更强。在CVPR，2017年。[20] Wei Liu ， Dragomir Anguelov ， Dumitru Erhan ，ChristianSzegedy，Scott Reed，Cheng-Yang Fu，andAlexander C Berg.Ssd：单发多盒探测器。在ECCV，2016年。[21] 林宗义，普里亚·戈亚尔，罗斯·格希克，何开明，和彼得·多尔。密集目标检测的焦面损失。InICCV，2017.[22] 刘松涛，黄迪，等.接收场块网用于准确和快速的物体检测。在ECCV，2018。[23] Ross Girshick，Jeff Donahue，Trevor Darrell和JitendraMalik。丰富的特征层次结构，用于精确的对象检测和语义分割。CVPR，2014。[24] 罗斯·格希克。快速R-CNN。在ICCV，2015年。[25] 任少卿、何开明、罗斯·格尔希克、孙健。Faster r-cnn：Towards real-time object detection with regionpropos

下载后可阅读完整内容，剩余1页未读，立即下载