FasterR-CNN与Few-Shot目标检测的矛盾之处：研究与解耦

122 浏览量更新于2023-10-16 收藏 12.19MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Limeng QiaoYuxuan ZhaoZhiyuan LiXi Qiu*Jianan WuChi ZhangMegvii Technology{qiaolimeng, zhaoyuxuan, lizhiyuan, qiuxi, wjn, zhangchi}@megvii.com1-shot2-shot3-shot5-shot10-shot30-shot51015209.312.914.816.118.522.65.16.77.410.712.514.7DeFRCNWildFSDMPSRTFAMeta R-CNNMetaDetFSRWFRCN-FT86810DeFRCN：用于Few-Shot目标检测的Decoupled Faster R-CNN0摘要0Few-shot目标检测旨在从极少的已注释的先前未见类别示例中快速检测到新对象，这引起了学术界的广泛关注。大多数现有方法使用FasterR-CNN作为基本检测框架，然而，由于缺乏针对数据稀缺场景的定制考虑，它们的性能通常不令人满意。在本文中，我们仔细研究了传统的FasterR-CNN，并从两个正交的角度，即多阶段（RPN vs.RCNN）和多任务（分类 vs.定位）进行了分析其矛盾之处。为了解决这些问题，我们提出了一种简单而有效的架构，名为Decoupled FasterR-CNN（DeFRCN）。具体而言，我们通过引入梯度解耦层进行多阶段解耦，并通过引入原型校准块进行多任务解耦来扩展FasterR-CNN。前者是一个具有重新定义特征前向操作和梯度反向操作以解耦其后续层和前置层的新型深层，后者是一个离线的基于原型的分类模型，它以检测器提案作为输入，并通过额外的成对得分来提升原始分类得分以进行校准。在多个基准测试上进行的大量实验表明，我们的框架明显优于其他现有方法，并在few-shot文献中建立了新的最先进水平1。01. 引言0最近，深度神经网络在各种视觉任务上取得了最先进的成果，例如图像分类[9, 17, 18]和目标检测[4, 8, 14, 15, 23, 33,34,36]。然而，这些性能的飞跃只有在大量标注数据可用时才会出现。由于获取足够标记数据往往需要大量的人力，可用样本数量严重限制了当前视觉系统的应用。此外，与人类从极少的例子中快速提取新概念的能力相比，这些深度模型仍然远远不够令人满意。0* Xi Qiu (qiuxi@megvii.com)是通讯作者。1https://github.com/er-muyue/DeFRCN0COCO新颖集上的mAP0图1：在COCO[24]新颖集上不同样本数的FSOD性能（mAP）。提出的DeFRCN明显优于其他最先进的方法。0因此，few-shot学习[6, 21, 22, 29, 38, 40,44]引起了主要的研究兴趣，它采用了在数据稀缺场景中快速学习新概念并良好泛化的思想。作为研究分支之一，few-shot目标检测（FSOD）比few-shot分类和目标检测[5, 19,46, 51,53]更具挑战性。目前，大多数FSOD方法更倾向于遵循元学习范式，以获取更多的任务级知识并更好地泛化到新类别。然而，这些方法通常在训练过程和数据组织上存在复杂性，导致应用场景有限。相比之下，基于微调的方法作为FSOD的另一个研究分支非常简单高效[46]。通过采用两阶段微调方案，这个系列与元方法相媲美。然而，由于大多数参数在基础域上进行预训练，然后在新颖集上冻结，它们可能会遭受数据分布的严重偏移和新颖数据的低利用率。无论是基于元学习还是基于微调的方法，Faster R-CNN[36]已被广泛用作基本检测器并取得了良好的性能。然而，它的原始架构是为传统检测设计的，缺乏针对few-shot场景的定制考虑，这限制了现有方法的上限。具体而言，��86820建议框0骨干网络0RPN0RCNN头部0输入0前向流动梯度流动0传统的Faster R-CNN架构0建议框0骨干网络0RCNN头部0输入0停止梯度0解耦的Faster R-CNN（DeFRCN）架构0× ×0盒子分类器0盒子回归器0盒子分类器0盒子回归器0解耦任务0任务冲突0图2：FasterR-CNN和我们的动机的比较。我们在RPN和骨干网络之间执行停止梯度，在RCNN和骨干网络之间执行缩放梯度，以及在分类器和回归器之间解耦冲突任务。黄色块在微调过程中是可训练的。0一方面，作为经典的两阶段堆叠架构（即骨干网络、RPN和RCNN，见图2），FasterR-CNN在通过共享骨干网络对类别无关的RPN和类别相关的RCNN进行端到端的联合优化时可能会遇到一个棘手的冲突。另一方面，作为一种多任务学习范式（即分类和定位），RCNN需要具有平移不变性的特征用于盒子分类器，而需要具有平移协变性的特征用于盒子回归器。这些不匹配的目标可能会产生很多低质量的分数，进而导致分类能力降低。此外，由于在学习过程中只有很少的样本可用，上述矛盾将进一步加剧。基于上述观察，我们从两个正交的角度扩展了FasterR-CNN，以适应少样本场景：（1）多阶段视图。如图2所示，FasterR-CNN包含三个组件，即骨干网络、RPN和RCNN，它们通过特征前向传递和梯度反向传递相互交互。由于上述RPN和RCNN之间的矛盾，我们通过梯度调整三个模块之间解耦的程度，以减轻整个模型被其中一个模块主导的问题。（2）多任务视图。分类和回归之间的任务冲突会影响特征的质量，进而损害盒子头部输出的性能，即类别分数和盒子坐标。我们仅在分类分支上使用高效的分数校准模块，以实现解耦上述两个任务的目的。本文提出了一种简单而有效的方法，名为Decoupled FasterR-CNN（DeFRCN），用于进行少样本目标检测的多阶段解耦和多任务解耦。整体架构如图3所示，非常直观。与标准的FasterR-CNN[36]相比，DeFRCN还额外包含两个梯度解耦层（GDL）和一个离线原型校准块（PCB）。前者插入在共享骨干网络和RPN之间，同时插入在骨干网络和RCNN之间，以调整三个模块之间的解耦程度，而后者与盒子分类器并行，用于进一步校准分数。具体而言，在前向-后向传播过程中，GDL对前向特征图执行可学习的仿射变换，并将后向梯度乘以一个常数，从而有效地解耦了后续模块和前置模块。此外，PCB最初配备了一个经过良好预训练的分类模型（例如ImageNetPretrain）和一组新颖的支持原型。然后，它以来自少样本检测器的区域建议作为输入，并通过附加的基于原型的成对分数提升原始的softmax分数。有趣的是，我们发现仅在推理阶段采用PCB就可以极大地提高少样本检测器的性能，而无需额外的训练工作，这使得PCB具有数据高效性和即插即用性。我们的方法的主要贡献有三个方面：•我们仔细研究了传统的FasterR-CNN，并提出了一种简单而有效的架构，用于少样本检测，名为Decoupled FasterR-CNN，可以通过直接的微调进行端到端学习。0标准的FasterR-CNN[36]，DeFRCN还额外包含两个梯度解耦层（GDL）和一个离线原型校准块（PCB）。前者插入在共享骨干网络和RPN之间，同时插入在骨干网络和RCNN之间，以调整三个模块之间的解耦程度，而后者与盒子分类器并行，用于进一步校准分数。具体而言，在前向-后向传播过程中，GDL对前向特征图执行可学习的仿射变换，并将后向梯度乘以一个常数，从而有效地解耦了后续模块和前置模块。此外，PCB最初配备了一个经过良好预训练的分类模型（例如ImageNetPretrain）和一组新颖的支持原型。然后，它以来自少样本检测器的区域建议作为输入，并通过附加的基于原型的成对分数提升原始的softmax分数。有趣的是，我们发现仅在推理阶段采用PCB就可以极大地提高少样本检测器的性能，而无需额外的训练工作，这使得PCB具有数据高效性和即插即用性。我们的方法的主要贡献有三个方面：•我们仔细研究了传统的FasterR-CNN，并提出了一种简单而有效的架构，用于少样本检测，名为Decoupled FasterR-CNN，可以通过直接的微调进行端到端学习。0•为了处理数据稀缺的情况，我们进一步提出了两个新颖的模块，即GDL和PCB，分别对FasterR-CNN的多个组件进行解耦，并提升分类性能。0• DeFRCN在各种基准测试上明显优于SOTA，显示了我们方法的有效性。02. 相关工作02.1. 通用目标检测0基于深度神经网络的通用目标检测目前分为两个主要分支，即两阶段的基于提案的范式[4, 8, 14, 15, 16, 23,36]和一阶段的无提案的范式[3, 25, 33, 34,35]，这两种范式在许多大规模基准测试上都取得了巨大的进展。R-CNN系列属于前一种工作线，它首先使用区域提案网络（RPN）[36]生成一组潜在对象，然后进行类别分类和边界框定位以实现端到端的检测。相比之下，一阶段检测器试图直接从特征图中产生最终的预测结果，而不需要RPN模块，通常具有推理速度的优势，但检测性能往往不如两阶段的方法好。然而，所有这些框架都统一假设可以访问大量来自已知领域的注释数据，这可能会在数据稀缺的情况下或新颖的未知领域中陷入困境。�� ⋅ ��86830提案主干0RCNN头解耦梯度层0GDL PCB0类别分数0坐标0边界框分类器0边界框回归器0原型支持集0查询集边界框分类器0特征提取器成对分数0Softmax分数0解耦梯度层0解耦梯度层0原型校准块0解耦的少样本目标检测框架0图3：少样本目标检测的解耦Faster R-CNN（DeFRCN）架构。与标准的FasterR-CNN相比，该框架插入了两个解耦梯度层（天蓝色）和一个离线原型校准块（红色），分别用于多阶段和多任务的解耦。A是GDL中的仿射变换层，⊕是PCB中的分数融合操作。此外，黄色和深蓝色表示在微调期间可训练和冻结的块。橙色实线和黑色虚线表示正向流和梯度流。02.2. 少样本学习0少样本学习旨在从丰富的基础数据中缓慢学习一般知识，并从极少数新类别的示例中快速提取新概念，最近已经成为基于元学习[43]和微调[27]的范式的特色。作为少样本学习的一个识别案例，少样本分类一直受到广泛研究。在文献中，有大量的研究遵循元学习的思想来缓解严重的过拟合问题，可以分为两个流派，即优化方法[1, 13, 22, 26, 30,32]和度量方法[21, 29, 38, 40,44]。前者旨在学习高效的参数更新规则[32]或良好的参数初始化策略[13]，后者则专注于获得一个可推广的嵌入度量空间，以执行输入的成对相似性。除了基于元的方法，一些简单的基于微调的方法[6,41]在少样本社区中越来越受到关注。这些方法表明，仅仅在预训练模型之上微调一个线性分类器，竟然能够以与基于元的方法相媲美的性能。与分类相比，其他任务（如目标检测和分割）的解决方案仍然不够发达。02.3. 少样本目标检测0由于以前的检测器通常需要大量的标注数据，因此少样本检测近年来越来越受到关注[2, 10, 12, 28, 31, 45, 47, 52,54]。与分类任务[38, 39]类似，目前的大多数0少样本检测器专注于元学习范式。FSRW [19]是基于YOLOv2 [34]的轻量级元模型，用于重新加权特征的通道注意力，并将这些特征调整以促进新颖检测。然而，Meta R-CNN [53]不同于在整个特征图上使用注意力，它专注于每个RoI特征的注意力。此外，FSDView [51]提出了一种新颖的特征聚合方案，利用基础类别的特征信息来提高新颖类别的性能。从RPN的注意力角度来看，FSOD[11]利用支持信息来过滤掉大多数背景框和非匹配类别的框。尽管最近已经广泛研究了基于元的方法，但仍然存在其他一些无元的方法。RepMet [20]将修改后的原型网络作为分类头部融入标准目标检测器。TFA [46]提出了一种基于迁移学习的简单方法，仅对稀有类别上现有检测器的最后一层进行微调，这与之前的基于元的方法相当。相反，我们的方法也遵循微调的思想，通过新颖的梯度解耦层和原型校准块共同训练几乎整个检测器，在性能上优于所有上述基于元和微调的方法。03. 方法0在本节中，我们首先介绍少样本目标检测的设置。然后在第3.2节中回顾传统的FasterR-CNN，并在第3.3节详细介绍我们的解耦FasterR-CNN（DeFRCN）。)(2)868403.1. 问题设置0与之前的各种工作[11, 19, 46,51]一样，我们在本文中遵循少样本目标检测的标准问题设置。具体而言，整个学习过程按照两阶段微调范式的形式组织，逐渐收集跨大量带有丰富注释实例的基础集合Dbase上的可转移知识，并在只有每个类别少量样本的新颖支持集合D novel上快速进行适应。注意，基础类别Cbase在D base中，新颖类别C novel在Dnovel中，两者不重叠，即C base ∩ C novel =�。给定样本(x, y) ∈ D base ∪ D novel，其中x = {o i, i =1, ..., N}是具有N个对象的输入图像，y = {(c i, b i), i = 1, ...,N}表示类别c i ∈ C base ∪ Cnovel和结构化的边界框注释bi。在这种设置下，我们算法的最终目标是基于D base和Dnovel优化一个强大的检测器F，然后对具有类别Cquery的新颖查询集合Dquery中的未标记对象进行分类和定位。整个过程遵循标准的迁移学习，可以总结如下：0F init D base �� F base D novel �� F novel (1)0其中，F init ，F base和F novel分别表示初始化、基础训练和新颖微调阶段中学习到的检测器。符号�表示模型训练。03.2. 重新审视Faster R-CNN0作为一个两阶段的堆叠架构，Faster R-CNN [36]包括三个功能分离的模块，用于端到端训练，即用于提取通用特征的共享卷积主干，用于生成无类别提议的高效区域建议网络（RPN），以及用于执行与类别相关的分类和定位的任务特定的RCNN头部[14]。整个学习过程如图2（a）所示。具体而言，首先将输入图像输入到主干中生成高级特征图，然后并行地提供给下面的两个模块，即RPN和RCNN。其次，RPN通过同时对特征图的一组尺度变化的锚点进行分类和回归，生成一组稀疏的高质量区域提议。最后，在共享特征图和提议的基础上，RCNN使用RoI池化[16]将每个感兴趣区域池化为固定大小的特征图，然后进行盒子分类器和回归器，计算对象类别概率和微调盒子边界。所有这些模块通过最小化统一的目标函数进行端到端联合优化，遵循多任务学习范式，如下所示：0L total = ( L cls rpn + L reg rpn �rpn 任务0) + η ∙ ( L cls rcnn + L reg rcnn � �� rcnn 任务0其中 η 是不同任务的平衡超参数。0多任务学习问题。可以看出，FasterR-CNN的上述三个模块构成了一个统一的多任务学习（MTL）框架，但是这些子网络的优化目标之间存在一定的不一致性。具体而言，利用从硬参数共享[42]骨干提取的特征图，RPN旨在生成类别无关的区域建议，告诉网络“在哪里查找”，而RCNN旨在通过逐类别执行基于区域的检测，确定“要查找什么”。此外，分类头需要具有平移不变性的特征，而定位头则需要具有相反的平移协变特征。尽管多任务学习通常有助于提高目标检测的端到端性能，如FasterR-CNN[36]所示，但是使用Eq.2进行联合优化可能会导致各个任务的可能次优解，以平衡它们的不匹配目标[7, 49]。0共享骨干的问题。根据[36]中的论证，共享骨干的最终目标是提取尽可能适用于所有下游任务的通用特征。实际上，从图2（a）中的梯度流的角度来看，RPN和RCNN通过共享骨干相互交换优化信息。然而，由于RPN和RCNN之间存在潜在的矛盾，我们注意到当前的架构可能导致整个框架的少样本检测能力降低。此外，根据Eq.1的设置，少样本新颖检测器 F novel 的共享骨干通常是从基础域检测器 F base微调而来。在这个两阶段的跨域过程中，RPN可能会遭受前景-背景混淆，这意味着在基础训练阶段属于背景的提议在新颖微调阶段很可能是前景。通过来自RPN的梯度，共享的卷积层将过拟合基类的倾向传播到骨干和RCNN。尽管这是一种在基础域上表现良好的收敛方案之一，但它可能损害快速高效地转移到新颖集的能力，特别是在数据稀缺的情况下。03.3. 解耦 Faster R-CNN0受到上述论点的启发，我们提出了一种简单而有效的方法，名为解耦 FasterR-CNN（DeFRCN），以发掘少样本文献中FasterR-CNN风格检测器的更多潜力。基于解耦三个功能模块（即骨干、RPN和RCNN）和两种任务（即分类和定位）的思想，我们的方法的整体架构非常直观，如图3所示，其中有两个解耦梯度层（GDL）来调整三个模块之间的解耦程度，并且有一个离线原型校准块（PCB）来提高RCNN在推理阶段的分类能力。In this section, we look into a different aspect of networkdesign - how to customize the relationship between the up-stream and downstream modules of the model. From theperspective of feature-forward and gradient-backward, weintroduce a novel architectural unit, denoted as the Gradi-ent Decoupled Layer (GDL). During the forward propaga-tion, GDL employs an affine transformation layer A, whichis parameterized by learnable channel-wise weights ω andbias b, to simply enhance feature representations and per-form forward-decoupling. During the backward propaga-tion, GDL takes the gradient from the subsequent layer,multiplies it by a constant λ ∈ [0, 1] and passes it to thepreceding layer, as illustrated in Fig.3. Concretely, alongwith the back-propagation process passes through the GDL,the partial derivatives of the loss Ld that is downstream ofthe GDL with respect to the layer parameters θu that areupstream of the GDL get multiplied by λ, i.e., ∂Ld∂θu (de-G(A,λ)(x) = A(x)(3)d(9)868503.3.1 解耦梯度层0∂θ u。从数学上讲，我们可以将GDL正式地视为由以下两个方程定义的伪函数 G ( A ,λ ) ：0d x = λ � A (4)0其中 A 是仿射变换层，λ ∈ [0, 1] 是解耦系数，� A是仿射层的雅可比矩阵。一般来说，使用现有的深度学习框架实现这样的层非常简单，因为定义前向传播（仿射变换）和反向传播（乘以常数）的过程是微不足道的。我们在算法1中提供了GDL的伪代码。使用GDL进行解耦。给定一个标准的Faster R-CNN[36]，我们分别在共享的骨干网络和RPN（即 G rpn）之间以及共享的骨干网络和RCNN（即 G rcnn）之间插入了两个GDL，如图3所示的DeFRCN架构的一部分。具体来说，在前向传播过程中，共享的骨干特征通过 Arpn 和 A rcnn转换为不同的特征空间。此外，在反向传播过程中，我们通过在梯度上应用不同的 λ rpn 和 λ rcnn来调整三个模块（即骨干、RPN和RCNN）的解耦程度。更正式地说，我们考虑以下具有两个单独的GDL的损失函数：0L = L rpn (F rpn (G rpn (F b (x; θ b)); θ rpn), y rpn) + η ∙0L rcnn (F rcnn (G rcnn (F b (x; θ b)); θ rcnn), y rcnn) (5)0这里，G∙是我们在本节中提出的梯度解耦层，θ b ，θrpn和θrcnn分别是主干、RPN和RCNN的可学习参数。此外，η0是一个超参数，用于控制L rpn和Lrcnn之间的权衡（通常设置为1）。使用GDL进行优化。与FasterR-CNN的优化目标一致，我们寻求函数Eq.5的最优参数θ b，θ rpn和θ rcnn，记为Θ：0Θ = arg min Θ1 N0i=1 L , Θ = {θ b , θ rpn , θ rcnn} (6)0其中N是训练样本的数量，L来自公式5。具体而言，梯度下降步骤可以描述为：0θ b ← θ b − γ � λ1∂L rpn0∂θ b + λ2∂L rcnn0∂θ b0� (7)0θ rpn ← θ rpn − γ ∂L rpn0∂θ rpn (8)0θ rcnn ← θ rcnn − γ ∂L rcnn0∂θ rcnn0其中γ是学习率，λ1和λ2是RPN和RCNN的解耦系数。从公式8和公式9可以看出，添加GDL不会影响RPN和RCNN的优化。然而，共享主干的参数更新在公式7中受到GDL的深刻影响。我们主要分析三种重要情况：（1）λ1 = 0（或λ2 =0），相当于停止来自RPN（或RCNN）的梯度，θ b的更新只会受到RCNN（或RPN）的主导；（2）λ1 ∈ (0,1]（或λ2 ∈ (0,1]），相当于缩放来自RPN（或RCNN）的梯度，这意味着RPN（或RCNN）对共享主干的更新有个体贡献；（3）λ1= λ2 =˜λ，相当于将主干的学习率γ乘以一个小系数，即˜λ，确保θb 的更新速度比θ rpn和θ rcnn慢。注意，λ <0对于检测来说是没有意义的，关于λ的更多讨论在补充材料中提到。0算法1 梯度解耦层，类似于PyTorch0# A：可学习的通道级仿射层 # _lambda：梯度解耦系数0class GradientDecoupledLayer(Function):0# 特征前向传播 def forward(ctx, x, A, _lambda):0ctx._lambda = _lambda x =A(x) return x.view_as(x)0# 梯度反向传播 def backward(ctx, grad_output):0grad_output = grad_output * ctx._lambda returngrad_output, None, None0def 0return GradientDecoupleLayer(x, A, _lambda)3.3.2Prototypical Calibration Blockpc =1c(xi, yi)∈Sc xi(10)scosi=xi · pcixipci(11)s‡i = α si + (1α) scosi(12)86860在本节中，我们引入了一种新的基于度量的得分细化模块，称为原型校准块（Prototypical CalibrationBlock，PCB），以在推理时有效地解耦分类和定位任务。通常，大多数检测器在共享网络的顶部并行部署分类器和回归器。然而，分类需要平移不变特征，而定位需要平移协变特征。因此，定位分支可能会迫使主干逐渐学习平移协变属性，这可能会降低分类器的性能。由于模型复杂性，极度缺乏注释样本将进一步加剧这种矛盾。我们注意到，未充分探索的少样本分类分支会生成大量低质量的分数，这激励我们通过引入原型校准块（PCB）来消除高分数的误报和修复低分数的缺失样本。整体流程如图3（c）所示。具体而言，我们的PCB由来自ImageNet预训练模型的强分类器、一个RoIAlign层和一个原型库组成。给定一个M-wayK-shot任务和支持集S，PCB首先提取原始图像特征图，然后使用带有真实边界框的RoIAlign生成MK个实例表示。基于这些特征，我们使用公式10将支持集S缩小到原型库P ={pc}Mc=1。0其中 S c 是包含在 S 中具有相同标签 c的样本的子集。给定由精调的少样本检测器产生的目标提议ˆ y i = ( c i , s i , b i ) ，其中 b i 是边界框， c i是预测的类别， s i是相应的得分，PCB首先对预测的边界框 b i进行RoIAlign以生成目标特征 x i ，然后计算 x i 与 p c i之间的余弦相似度 s cos i ，如下所示：0最后，我们对来自PCB的 s cos i 和来自少样本检测器的 s i进行加权聚合，得到最终的分类得分 s ‡ i ，如下所示：0其中 α是权衡超参数。此外，我们在少样本检测器和PCB模块之间不共享任何参数，因此PCB不仅可以保持分类目标的平移不变特征的质量，还可以更好地解耦RCNN中的分类任务和回归任务。此外，由于PCB模块是离线的，没有任何进一步的训练，因此它可以即插即用，轻松装备到任何其他架构中，以构建更强大的少样本检测器。04. 实验0在本节中，我们首先介绍了实验设置（第4.1节），然后在多个基准测试中与之前的SOTA方法进行比较（第4.2节）。最后，我们在第4.3节中提供了全面的消融研究。04.1. 实验设置0现有基准。我们遵循之前的工作[19, 46,51]，使用与[46]相同的数据拆分来进行公平比较。对于PASCALVOC，我们有三个随机拆分组，每个组包含20个类别，随机分为15个基类和5个新类。每个新类别从VOC07和VOC12的训练/验证集的组合中随机抽取K = 1, 2, 3, 5,10个对象进行少样本训练。评估使用VOC07测试集。对于COCO，与VOC不相交的60个类别被称为基类，而剩下的20个类别被用作新类别，每个类别有K = 1, 2, 3, 5, 10,30个样本。我们从验证集中使用5k个图像进行评估，其余用于训练。评估设置。我们考虑了两种流行的评估协议来评估我们方法的有效性，包括少样本目标检测（FSOD）和广义少样本目标检测（G-FSOD）。前者协议被大多数先前的方法广泛采用[5, 19, 51,53]，仅关注新类别的性能。然而，后者不仅观察新类别的性能，还观察基类和整体少样本检测器的性能，更全面地监测灾难性遗忘的发生[46]。对于评估指标，我们报告VOC的AP50和COCO的COCO风格mAP。此外，所有结果都是在多次重复运行中平均的。实施细节。我们的方法采用FasterR-CNN[36]（称为FRCN）作为基本检测框架，ResNet-101[17]在ImageNet[37]上进行预训练作为骨干网络。我们采用SGD来端到端地优化网络，使用批量大小为16，动量为0.9，权重衰减为5e-5。基础训练期间学习率设置为0.02，少样本微调期间学习率设置为0.01。此外，RPN的GDL中的λ设置为0以停止梯度，RCNN的GDL中的λ在基础训练期间设置为0.75，在新颖微调期间设置为0.01以进行梯度缩放。PCB中的α在所有设置中均统一设置为0.5。04.2. 比较结果0PASCALVOC。我们在表1中呈现了VOC在三个不同数据拆分下的评估结果。可以看出，无论是在FSOD还是G-FSOD设置下，我们的De-FRCN都明显优于最近的最先进方法（高达21.4%），这证明了我们方法的有效性。基于结果lu-86870新颖集1 新颖集2 新颖集3 方法/拍摄数 w/G 1 2 3 5 10 1 2 3 5 10 1 2 3 5 100YOLO-ft [19] � 6.6 10.7 12.5 24.8 38.6 12.5 4.2 11.6 16.1 33.9 13.0 15.9 15.0 32.2 38.4 FRCN-ft [53] � 13.8 19.6 32.841.5 45.6 7.9 15.3 26.2 31.6 39.1 9.8 11.3 19.1 35.0 45.1 LSTD [5] � 8.2 1.0 12.4 29.1 38.5 11.4 3.8 5.0 15.7 31.0 12.68.5 15.0 27.3 36.3 FSRW [19] � 14.8 15.5 26.7 33.9 47.2 15.7 15.2 22.7 30.1 40.5 21.3 25.6 28.4 42.8 45.9 MetaDet[47] � 18.9 20.6 30.2 36.8 49.6 21.8 23.1 27.8 31.7 43.0 20.6 23.9 29.4 43.9 44.1 Meta R-CNN [53] � 19.9 25.5 35.045.7 51.5 10.4 19.4 29.6 34.8 45.4 14.3 18.2 27.5 41.2 48.1 TFA [46] � 39.8 36.1 44.7 55.7 56.0 23.5 26.9 34.1 35.139.1 30.8 34.8 42.8 49.5 49.80MPSR [48] � 41.7 - 51.4 55.2 61.8 24.4 - 39.2 39.9 47.8 35.6 - 42.3 48.0 49.70DeFRCN（我们的方法）� 53.6 57.5 61.5 64.1 60.8 30.1 38.1 47.0 53.3 47.9 48.4 50.9 52.3 54.9 57.40FRCN-ft [53] � 9.9 15.6 21.6 28.0 52.0 9.4 13.8 17.4 21.9 39.7 8.1 13.9 19.0 23.9 44.6 FSRW [19] � 14.2 23.6 29.8 36.535.6 12.3 19.6 25.1 31.4 29.8 12.5 21.3 26.8 33.8 31.0 TFA [46] � 25.3 36.4 42.1 47.9 52.8 18.3 27.5 30.9 34.1 39.517.9 27.2 34.3 40.8 45.6 FSDetView [51] � 24.2 35.3 42.2 49.1 57.4 21.6 24.6 31.9 37.0 45.7 21.2 30.0 37.2 43.8 49.60DeFRCN（我们的方法）� 40.2 53.6 58.2 63.6 66.5 29.5 39.7 43.4 48.1 52.8 35.0 38.3 52.9 57.7 60.80表1：在VOC数据集上的实验结果。我们评估DeFRCN在三个不同划分上的性能（AP50）。术语w/G表示我们是否使用G-FSOD设置[46]。红色/蓝色表示SOTA/第二好的结果。请注意，我们的结果是在多次运行中平均得到的，基础/整体性能在补充材料中呈现，以下相同。0拍摄数方法/拍摄数 w/G 1 2 3 5 10 300FRCN-ft [53] � 1.0 � 1.8 � 2.8 � 4.0 � 6.5 11.1 FSRW [19] � - - - -5.6 9.1 MetaDet [47] � - - - - 7.1 11.3 Meta R-CNN [53] � - -- - 8.7 12.4 TFA [46] � 4.4 � 5.4 � 6.0 � 7.7 � 10.0 13.7 MPSR [48]� 5.1 � 6.7 � 7.4 � 8.7 � 9.8 14.1 FSDetView [51] � 4.5 6.6 7.2 10.712.5 14.70DeFRCN（我们的方法）� 9.3 12.9 14.8 16.1 18.5 22.60FRCN-ft [53] � 1.7 3.1 3.7 4.6 5.5 7.4 TFA [46] � 1.9 3.9 5.17.0 9.1 12.1 FSDetView [51] � 3.2 4.9 6.7 8.1 10.7 15.90DeFRCN（我们的方法）� 4.8 8.5 10.7 13.6 16.8 21.20表2：在COCO数据集上的实验结果。我们评估DeFRCN在多次运行中的性能（mAP）。上标�表示我们复现的结果。0从表1的结果中，我们进一步注意到在few-shot检测中存在两个有趣的现象：（1）对于FSOD设置，新颖拍摄数的增加并不一定会导致最终性能的提升。以新颖集1为例，5-shot的AP50为64.1%，而10-shot为60.8%（-3.3%）。TFA也有类似的情况。我们推测在数据稀缺的情况下，样本的质量对于检测器至关重要，添加低质量的样本可能对检测器有害。（2）对于FSOD和G-FSOD之间的比较，我们发现随着拍摄数的增加，G-FSOD的最终性能增长速度比FSOD更快（40.2% → 66.5% vs. 53.6% →60.8%），这是由于在G-FSOD设置下添加了更多的负样本。0方法 FRCN-ft FSRW MetaDet MetaRCNN MPSR 我们的方法0mAP 31.2 32.3 33.9 37.4 42.3 55.90表3：在COCO基准集上，10-shot跨域FSOD在VOC新颖集上的性能。所有用于比较的检测结果参考自[19, 48, 53]。0COCO。表2显示了在COCO数据集上的所有评估结果，使用标准的COCO风格平均AP（mAP）。显然，我们的方法在所有设置中始终优于最近的SOTA方法，包括FSOD和G-FSOD的K =1,2,3,5,10,30。对于FSOD，我们在10-shot和30-shot上相对于最佳方法分别实现了约6.0%和7.9%的改进，这证明了我们的方法在few-shot场景中的强大鲁棒性和泛化能力。此外，与基于微调的方法相比，DeFRCN的可学习参数数量几乎与FRCN-ft相同，但比TFA多得多。表2中的结果揭示了我们的方法不仅保证了这些参数的充分学习，而且没有陷入严重的过拟合。G-FSOD的所有基础/整体结果在补充材料中呈现。0COCO到VOC。我们在标准的VOC2007测试集上进行跨域FSOD实验，采用了与[19,48]相同的设置，该设置使用了60个类别的基础数据集，以及每个类别的10个样本对象的新颖数据集。如表3所示，我们的方法取得了55.9%的最佳性能，比MPSR[48]提高了13.6%。这个巨大的提升表明我们提出的DeFRCN在跨域情况下具有更好的泛化能力。18.522.60.000.250.500.751.001.000.750.500.250.00RCNN39.01 38.83 38.82 38.66 38.3939.04 39.02 38.67 38.48 38.2138.53 38.62 38.24 37.73 37.4437.99 38.19 37.41 36.94 36.4320.27 32.00 32.05 31.48 31.5622.525.027.530.032.535.037.50.000.0010.010.101.001.000.100.010.0010.00RCNN7.467.517.477.458.2112.94 12.94 12.80 11.93 10.1716.89 16.84 16.7

下载后可阅读完整内容，剩余1页未读，立即下载