增量少样本实例分割器：基于iFS-RCNN的对象类别分类器和边界框预测

162 浏览量更新于2023-10-25 收藏 21.08MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

70100iFS-RCNN：一种增量少样本实例分割器0Khoi Nguyen VinAIResearch，越南河内0ducminhkhoi@gmail.com0Sinisa Todorovic俄勒冈州立大学，美国俄勒冈州0sinisa@oregonstate.edu0摘要0本文解决了增量少样本实例分割的问题，其中在无法再访问旧类的训练示例时，会出现少量新对象类的示例，并且目标是在旧类和新类上表现良好。我们通过扩展常见的Mask-RCNN框架的第二阶段做出了两个贡献-即，我们基于概率函数指定了一个新的对象类别分类器和一个新的基于不确定性的边界框预测器。前者利用贝叶斯学习来解决新类训练示例的匮乏问题。后者不仅学习预测对象边界框，还估计预测的不确定性作为边界框细化的指导。我们还根据估计的对象类别分布和边界框不确定性指定了两个新的损失函数。我们的贡献在COCO数据集上相对于现有技术产生了显著的性能提升-特别是在AP实例分割指标上，新类别的提升为+6，旧类别的提升为+16。此外，我们是第一个在更具挑战性的LVIS数据集上评估增量少样本设置的研究。01. 引言0本文解决了增量少样本目标检测（iFSOD）和实例分割（iFSIS）这两个相关问题。首先，我们提供了一个大型基类对象的训练集，可以用于预训练实例分割器。在预训练之后，无法访问基类的训练示例。当出现少量新类的训练示例时，目标是在新类和基类上实现成功的目标检测和实例分割。我们面临的主要挑战包括：如何解决新类数据的匮乏问题，以及如何在训练新类时不“遗忘”基类。表1将iFSOD和iFSIS与其他相关问题进行了比较。iFSOD和iFSIS是许多应用中出现的重要问题，其中访问旧的训练数据变得不可用，例如由于隐私和安全问题或数据访问的新法规，同时在基类和新类上重新训练的时间有限。0在基类上进行预训练0在新类上进行微调0在基类和新类上进行测试0L T R B0训练0Mask-RCNN0类别头部0边界框头部0Mask头部0Mask-RCNN0类别头部0边界框头部0Mask头部0Mask-RCNN0类别头部0边界框头部0Mask头部0类别权重分布0边界框不确定性0图1.我们的iFS-RCNN首先在大量基类示例上进行预训练，然后在少量新类示例上进行微调。iFS-RCNN通过贝叶斯学习估计类别权重分布来修改Mask-RCNN的分类头部。iFS-RCNN通过计算预测边界框左侧(L)、右侧(R)、顶部(T)和底部(B)的不确定性来修改Mask-RCNN的边界框头部。在测试时，学习的最后一层新类（对角线条纹）与学习的基类相应层（纯色）进行连接。0由于隐私和安全问题或数据访问的新法规，访问旧的训练数据变得不可用。此外，在时间预算有限的情况下，无法重新训练基类和新类。0iFSOD和iFSIS的工作很少。在最近的FSIS方法之后，我们使用Mask-RCNN[13]，并修改其预测头部，如图1所示。Mask-RCNN首先使用大量的基类示例进行预训练，然后通过“冻结”所有模块，在新类上进行微调。70110设置预训练微调测试0FSOD - FSIS 基类别新类别新类别0gFSOD - gFSIS 基类别基类别+新类别基类别+新类别0CL 基类别新类别基类别+新类别0iFSOD - iFSIS 基类别新类别基类别+新类别0表1.相关问题的比较。蓝色和红色分别表示基类别和新类别的丰富和少量样本。FSOD（FSIS）：少样本目标检测（实例分割），gFSOD（gFSIS）：广义FSOD（FSIS），CL：持续学习，iFSOD（iFSIS）：增量FSOD（FSIS）。相对于FSOD（FSIS），iFSOD（iFSIS）更具挑战性，因为我们同时测试了两个类别；相对于gFSOD（gFSIS），我们的训练无法访问基类别；相对于CL，我们的方法使用了更多的样本。0除了分类头、边界框头和分割掩码头之外，我们保持了Mask-RCNN的所有模块不变。最后，为了在基类别和新类别上进行测试，我们将在新类别上学习的权重与在基类别上学习的权重连接起来，使得分类、边界框和分割掩码头的相应最后几层也连接起来。如图1所示，并在图2中更详细地描述，我们提出了两个旨在解决Mask-RCNN在少样本微调中的过拟合问题并改善其对具有大的外观-形状-尺度变化的基类别和新类别的查询图像的泛化能力的贡献。受深度贝叶斯学习[2]的启发，我们的第一个贡献是学习新类别的分类头权重的分布，并使用估计的分布对微调进行正则化。我们的关键技术创新在于将权重分布学习视为贝叶斯逻辑回归问题，并使用概率函数对这个难以处理的问题进行了高效的近似。从我们的消融研究结果来看，我们的基于概率函数的近似方法比蒙特卡罗采样方法在合理的训练时间预算下表现出更好的性能。我们的第二个贡献是估计新类别边界框定位的不确定性，并将估计的不确定性用于两个目的 -优化边界框预测和适当地加权边界框预测的损失。如图2所示，我们将估计的不确定性与ROI对齐的池化特征图一起作为输入，用于新的边界框优化模块。优化后的边界框随后输入到分割头中。此外，我们定义了一个新的损失函数，用于测量预测边界框与真实边界框之间的差异，使得对于高度不确定的预测，损失变得更小，即我们的微调更加严厉地惩罚对于高度确定的边界框预测的错误。值得注意的是，我们在Mask-RCNN的分割头的微调中既不使用贝叶斯学习，也不明确地估计不确定性。这是因为微调分割头的过程是基于独立的像素标签预测的。0对于新类别的分割头的微调并不面临少样本学习的常见挑战。回想一下，分割头使用1×1卷积独立地预测像素标签。因此，每个（像素，标签）对都是一个独立的训练样本，从而产生了足够大的训练集来微调分割掩码。我们对增量少样本设置的Mask-RCNN进行了扩展，这也给了我们的方法命名的灵感 -iFS-RCNN。我们在COCO数据集[24]上评估了iFS-RCNN在少样本目标检测和实例分割中的性能，包括iFSOD、iFSIS、FSOD和FSIS任务。与最近的一种方法[11]相比，iFS-RCNN的性能显著优于它。与在gFSOD和gFSIS设置下训练的标准Mask-RCNN相比，iFS-RCNN在新类别上显示出了显著的改进，同时在基类别上保持了相同的性能。在iFSOD和iFSIS上，相对于现有技术，我们还实现了更高的COCOAP率，新类别和基类别分别提高了6和16个百分点。此外，我们是首次在更具挑战性的LVIS数据集[12]上报告iFSOD、FSIS和iFSIS的结果，该数据集具有更多的类别和长尾类别分布。接下来，第2节回顾了先前的工作；第3节详细介绍了iFS-RCNN；第4节介绍了我们的实现细节和实验结果。02. 相关工作0本节回顾了密切相关的工作。FSOD方法[6, 8, 9, 16, 17, 19,32, 33, 35, 36,38]通常将Faster-RCNN[29]、YOLO[28]或DETR[5]用于标准目标检测的少样本设置。这些方法可以分为两个子组：基于情节训练[8,16,35,36,38]和微调[6,9,32,33]。前者使用情节训练来模拟少样本学习的设置，通过限制对每个基类的少量注释支持图像的访问。后者在保留在基类上学到的知识的同时，微调一些层的权重。FSIS方法通常使用Mask-RCNN[13]作为其骨干网络。与FSOD类似，这些方法要么进行情节训练[10, 25, 26,37]，要么在基类上进行预训练，然后在新类别上微调每个头部的最后几层[32]。我们的iFS-RCNN遵循第二种训练策略，并将其应用于Mask-RCNN的三个头部——分类、边界框和分割头。iFSOD方法通常使用Faster-RCNN作为其骨干网络。在[20]中，知识蒸馏确保在对新类别进行微调后，基类的预测与预训练预测相匹配。在[27]中，根据从目标类别的示例中提取的类别特定代码，动态生成盒头的权重。通过这种方式，每个类别都有一个独特的盒子44470120CNN+ FPN0边界框头0边界框特征 �0�0特征图0类别预测 �0�0贡献1：Probit分类器0在微调阶段冻结0Mask Head掩膜预测 �0�×�0边界框预测 �0边界框不确定性 �0RPN0边界框0细化模块0细化后的边界框预测 �0扩展0前向传播，进行反向传播0前向传播，不进行反向传播0贡献2：0基于不确定性引导的边界框预测器0拼接的特征图0�×�×(� + 4)0类别均值 �0类别方差 Σ0ROI-Align池化0Probit函数0边界框预测器0图2.iFS-RCNN通过两个贡献扩展了Mask-RCNN：probit分类器和基于不确定性引导的边界框预测器。前者使用贝叶斯学习来估计分类器头部权重的概率分布（红色对角条纹）。我们的第一个贡献是使用probit函数对这个贝叶斯学习进行高效的解析公式化。后者明确估计预测边界框的不确定性（蓝色对角条纹），并使用估计的不确定性（紫色）作为输入特征，与ROI-align-pooled特征（深黄色）一起用于细化边界框。彩色条纹描绘了在少样本设置下在微调新类别时学习的分类、边界框和分割头的最后几层。0用于目标检测的头部。我们的iFS-RCNN还使用Mask-RCNN的分类、边界框和分割头的不同集合，其中各个头部的区别在于为每个新类别单独微调的最后一层。0iFSIS：iFSIS的最新方法[11]将Mask-RCNN中的标准全连接分类器替换为余弦相似度分类器。与我们的iFS-RCNN不同，他们不使用贝叶斯学习，也不估计边界框的不确定性。他们将分类头的激活转换为softmax分布，并使用交叉熵损失训练头部。通过这种方式，所有类别的激活分数相互竞争以确定边界框的类别。由于新类别的训练样本稀缺，它们的激活分数可能小于softmax函数中基类的激活分数。因此，他们的分类器可能偏向于偏爱基类。他们通过使用余弦相似度分类器来解决这个偏差，其中盒特征和类别权重在点积之前都被归一化为单位长度，以减少基类和新类之间的统计差异。相比之下，我们直接使用分类头的sigmoid激活来预测类别0对于边界框的分类，我们使用焦点损失[23]来训练我们的全连接分类器。我们的iFS-RCNN使用sigmoid激活来独立预测每个类别，从而减轻了上述偏差。03. iFS-RCNN的规范03.1. 问题陈述0我们解决N-way K-shotiFSOD和iFSIS问题，其中提供了N_b个基类的丰富训练样本用于预训练。之后，不再有基类的训练样本可用。当任意提供了N_n个新类的K个训练样本时，我们的目标是在查询图像中检测和分割属于所有N = N_b +N_n个类别的所有物体实例。接下来，我们说明我们的两个贡献——probit分类器和基于不确定性的边界框预测器。03.2. Probit分类器0如第2节所述，我们的iFS-RCNN使用sigmoid激活而不是softmax激活来预测边界框的类别。使用sigmoid激活，所有类别的得分都是独立预测的，因此我们的分类头可以有效地处理基类和新类之间的统计差异。p(c|f, µ, Σ) =�σ(a)N(a|µa, Σa)da,(3)≈�Φ(λa)N(a|µa, Σa)da = Φ�λµa(1 + λ2Σa)12�, (4)≈ σ�f ⊤µ(1 + π8 f ⊤Σf)12�.(5)Lb = Lu + Lrefine,(6)Lu =4�k=112�(mk − b∗k)2u2k+ u2k�,(7)70130分类头有效地解决了基类和新类之间的统计差异。然而，在FSOD和FSIS的设置中，我们的实验（见表2）表明，当分类器头的权重（也称为类别权重）作为点估计学习时，使用sigmoid激活的分类头通常比使用softmax激活的分类头性能较低。为了解决这个问题，我们采用类别权重的贝叶斯学习，并采用常见的变分框架。形式上，类别权重w由正态分布w � N(μ, Σ)来描述，其中均值μ ∈ R^D和对角协方差矩阵Σ∈R^(D×D)+。我们的目标是通过最小化以下变分目标来学习μ和Σ：0L_c = l_d(p(c|f, μ, Σ), c^*) + KL(N(μ, Σ)||N(0, 1))，(1)0其中f ∈R^D是从边界框中提取的特征；c和c^*分别是预测的类别和真实类别；l_d是用于预测c的sigmoid焦点损失[23]；KL表示Kullback-Leibler散度；p(c|f, μ, Σ)是定义为0p(c|f, μ, Σ) = ∫σ(f^Tw)N(w|μ, Σ)dw，(2)0其中σ(∙)表示sigmoid激活。一旦学习了μ和Σ，类别预测就变成了MAP问题：c = arg max_c' p(c'|f, μ,Σ)。然而，(2)中的积分是不可解的。先前的工作通常使用Monte Carlo采样来近似MAP问题：p(c|f, μ, Σ) ≈ 1/T∑0w_t � N(μ, Σ)σ(f^Tw_t)，其中T是Monte-Carlo样本的数量。然而，MonteCarlo近似在效率和准确性之间的权衡较差，使用足够大的T会使我们的训练和测试变得非常缓慢。我们不使用随机的MonteCarlo采样，而是指定了一种更高效的确定性近似方法来计算后验预测分布。我们首先观察到，使用贝叶斯学习对分类头的最后一层进行微调等价于学习贝叶斯逻辑回归(BLR)。方便地，著名的probit函数Φ(x) [30]，[1, p.219]提供了对BLR的确定性近似。probit函数将sigmoid函数近似为σ(x) ≈ Φ(λx) = 1/2[1+ erf(λx)/√2]0，其中0erf ( ∙ ) 是误差函数，λ^2 = π/8确保两个函数在原点具有相同的斜率。Probit函数的一个重要性质是它与高斯函数的卷积可以被解析地表示。设a =f^Tw ∈ R为一个随机变量，其期望和方差可以表示为E[a]= μ_a = f^Tμ ∈ R和V[a] = Σ_a = f^TΣf ∈R。那么由(2)给出的后验预测分布可以高效地近似为0由于我们的分类器头部对MAP类别预测使用了probit函数，我们将其称为probit分类器。它适用于iFSOD和iFSIS有两个原因。它利用贝叶斯学习来解决训练数据的稀缺性。此外，它独立地为每个类别预测一个分数，以解决增量学习的设置。03.3. 不确定性引导的边界框预测器0测试图像中的目标外观、形状和尺度可能与少量可用的训练样本显著不同。此外，查询图像中的目标可能会受到部分遮挡。所有这些都导致了边界框预测的不确定性。我们试图在预测最初识别边界框位置的四个偏移值 { m k } k =1 .. 4 ∈R 4时明确建模这种不确定性。具体而言，如图2所示，我们的边界框预测器还额外估计了四个不确定性值 { u k } k =1 ..4 ∈ R 4 + ，分别对应于每个 { m k }预测。然后，将估计的不确定性 { u k }与从最初预测的边界框 m提取的ROI-align-pooled特征一起作为输入，传递给边界框改进模块，用于最终的偏移边界框预测 { b k } k =1 .. 4 ∈R 4 。为了学习如何在少量训练样本上预测不确定性 { u k }，初始边界框 { m k } 和改进后的边界框 { b k }，我们指定了以下边界框损失：0其中 L u 是我们新的不确定性加权边界框损失，L refine是边界框改进模块产生的损失。我们定义 L u 如下：0其中 b �是真实边界框。式（7）中的第一项旨在最小化真实边界框和预测边界框之间的加权差异。权重与预测的不确定性 u k成反比，因此对于具有高不确定性的边界框预测，会产生较低的损失。式（7）中的第二项旨在最小化不确定性值，以便网络在试图减小式（7）中的第一项时对预测高不确定性产生惩罚。Lrefine =470140当边界框改进模块进行最终预测 b 时，会产生以下损失：0k =1 平滑L1 ( b k , b � k ) . (8)0值得注意的是，我们的损失函数与最近其他旨在估计目标检测中的不确定性的方法在根本上有所不同。例如，最近的方法[15,18]假设边界框的位置和不确定性服从高斯分布。相比之下，我们没有明确指定任何边界框位置的概率分布。iFS-RCNN似乎与Cascade-RCNN[3,4]相关，它也对初始边界框进行了改进。然而，这些方法没有明确预测不确定性，因此不能像我们一样将不确定性作为边界框改进的输入特征。相比之下，我们在训练中的不确定性估计用于将“知识”从基类传递到新的测试类。在实验中，这些方法的性能比我们的不确定性引导的边界框改进模块差。03.4. 我们的训练和测试策略0基类训练01.使用替换标准softmax分类器的sigmoid分类器获得Mask-RCNN的变体Mask+Sigmoid。使用以下损失函数训练Mask+Sigmoid：sigmoid focal loss、式（8）中的Lrefine 和mask-BCE loss。02.通过用不确定性引导的box预测器（图2中的贡献2）替换box预测器，获得Mask+Sigmoid的变体Mask+Sigmoid+Uncertainty。在冻结其他模块的同时，使用（6）中的损失函数 L b训练Mask+Sigmoid+Uncertainty的不确定性引导的box预测器。03.存储Mask+Sigmoid+Uncertainty的sigmoid分类器的基类权重 µ b。在新类上进行微调。01.通过用probit分类器替换sigmoid分类器（图2中的贡献1）来获得Mask+Sigmoid+Uncertainty的变体iFS-RCNN。02. 在冻结其他模块的同时，使用（1）中的损失函数 L c训练probit分类器，以获得新类的类别权重 µ n 和 Σn。还要使用（6）中的损失函数 L b训练box预测器的最后一层；使用mask-BCE损失训练分割头的最后一层。在基类和新类上进行测试。01. 对于probit分类器，设置 µ = [ µ b ; µ n ] 和 Σ = [ 0 ;Σ n ]，其中 [ ∙ ; ∙ ]是连接操作。还要将基类和新类的权重连接起来，以获得box和分割掩码头部。02. 在查询图像上运行iFS-RCNN。04. 实验结果0数据集和评估指标：我们在COCO2014数据集的修改版本上评估iFS-RCNN，该数据集由[16]用于FSIS和FSOD引入。此外，我们是第一个在LVIS数据集的新划分上评估iFSOD、FSIS和iFSIS，该数据集由[32]引入，用于FSOD。我们报告了目标检测和实例分割的常见COCO风格评估指标，即在多个IoU阈值（从0.5到0.95）下的平均精度（AP）。对于COCO，我们使用与PASCAL VOC[7]共享的20个类别作为新类，而剩下的60个类别作为基类。我们改变新类的示例数量，即 K = {1, 2, 3, 5, 10,30}，并报告每个 K的10次运行的平均结果和95%的置信区间，每次运行使用不同的少样本示例集合。本文为简洁起见，仅报告了 K = {1,5, 10}的结果。其他结果请参见补充材料。LVIS有1230个类别，其中一些类别有大量示例，而另一些类别（称为稀有类别）只有很少的示例（每个类别少于10个示例）。因此，LVIS中每个类别的图像数量呈长尾分布。我们将LVIS中出现在超过100个图像中的常见类别和普通类别（10-100个图像）作为基类，将出现在少于10个图像中的454个稀有类别作为新类。由于LVIS中稀有类别的训练示例数量较少，我们无法像COCO那样进行多次运行，因此我们遵循[32]在 K ≤ 10的划分上进行。04.1. 实现细节0我们的主干CNN是ResNet-50 [14]与FPN[22]的组合，与FSIS的最新工作相同。所有iFS-RCNN的变体都使用detectron2工具包[34]和[32]的代码库实现。我们的方法的所有变体（在第4.2节中指定）都使用SGD和批量大小为16在8个NVIDIA GPUV100上进行训练，每个GPU上有两个图像。学习率分别设置为0.02和0.01，用于预训练和微调阶段。预训练阶段的迭代次数为110000次，其中包括两个权重衰减步骤，80000次和100000次迭代时的衰减率为10。微调阶段的迭代次数取决于示例数量，范围从500次（K = 1）到6000次（K =30）。焦点损失的超参数为 γ = 0.25，α =2。在NMS之前过滤预测的阈值为0.05。为了选择用于训练不确定性引导的box预测器的候选框，我们选择与其最接近的ground-truth框的IoU大于0.7的预测框。在分割掩码头部中，用于确定前景和背景的阈值为0.5。我们使用softplus函数 f(x) = ln(1 + exp(x)) 来确保类别方差 Σ和box不确定性 u 都是非负的。70150目标检测实例分割0拍摄数量 1 2 3 5 10 30 1 2 3 5 10 300Mask-RCNN 3.58 5.07 5.79 7.81 8.59 12.68 3.71 5.24 5.29 7.66 8.46 11.09 Mask+Cosine 3.39 4.875.19 6.87 7.96 12.52 3.40 5.00 4.75 6.68 7.72 11.030Mask+Sigmoid 3.60 4.49 5.63 7.06 7.68 11.40 3.92 4.63 5.63 7.15 7.67 10.94 Mask+Probit 5.185.90 7.82 9.45 10.43 13.48 5.15 6.03 7.67 9.34 9.52 12.070Mask+MC 4.52 5.45 7.02 8.85 9.57 13.05 4.54 5.19 6.91 8.26 8.98 11.55 Mask+Sig+Uncert 4.485.32 6.76 8.49 9.16 12.85 4.84 5.88 7.00 8.62 9.22 11.98 Mask+Sig+Gauss 3.74 4.77 5.89 7.33 7.8611.65 3.94 4.72 5.87 7.24 7.76 11.02 Mask+Sig+Refine 3.87 4.57 5.78 7.48 8.23 11.95 3.99 4.775.68 7.40 7.87 11.01 iFS-RCNN 6.34 6.93 8.93 10.53 11.27 14.66 5.54 6.33 7.80 9.41 10.23 13.080表2. 我们在COCO上使用不同的K={1, 2, 3, 5, 10,30}进行的FSOD和FSIS消融研究。最佳结果以红色表示，次佳结果以蓝色表示。Mask-RCNN和Mask+Cosine在训练时使用Softmax激活和交叉熵损失。其余的消融实验使用Sigmoid激活和focal loss进行训练。0目标检测实例分割0测试结果（新类别基础类别所有类别）（新类别基础类别所有类别）0拍摄数量 1 5 10 1 5 10 1 5 10 1 5 10 1 5 10 1 5 100TFA [32] 2.90 7.00 9.10 31.90 32.30 32.40 3.60 11.50 14.20 - - - - - - - - - FSDetView [35] 3.35 8.53 12.50 25.75 25.05 24.8220.15 20.92 21.74 - - - - - - - - - GIFSOD [21] - - 8.50 - - 28.10 - - 23.20 - - - - - - - - - ONCE [27] 0.70 1.00 1.20 17.90 17.9017.90 13.60 13.70 13.70 - - - - - - - - - LEAST [20] 4.40 9.40 12.50 24.60 25.20 23.10 7.50 13.70 16.20 - - - - - - - - - iMTFA [11]3.23 6.07 6.97 27.81 24.13 23.36 21.67 19.62 19.26 2.81 5.19 5.88 25.90 22.56 21.87 20.13 18.22 17.870Mask+Sigmoid 2.85 6.34 8.04 38.55 38.53 38.53 29.62 30.49 30.91 3.06 6.52 8.00 35.70 35.69 35.69 27.54 28.76 29.37iFS-RCNN 4.54 9.91 12.55 40.08 40.06 40.05 31.19 32.52 33.02 3.95 8.80 10.06 36.35 36.33 36.32 28.45 29.89 30.410表3. 在COCO上使用不同的K={1, 5, 10}进行的iFSOD和iFSIS结果。‘-’表示没有报告结果。最佳结果以粗体表示。0我们的分割头与Mask-RCNN[13]中的相同。它使用二元交叉熵（BCE）损失进行训练。我们的盒子细化模块与盒子头具有相同的架构。不确定性引导的盒子预测器和分割头的最后几层是类特定的，并通过连接为基础类和新类学习的类权重获得。04.2. 消融研究0以下消融实验在COCO的第一次运行中进行，以研究iFS-RCNN的每个组件如何影响最终性能。•Mask-RCNN：原始的Mask-RCNN[13]，使用Softmax分类器。0•Mask+Cosine：在Mask-RCNN中用余弦相似度分类器替代点积分类器，如[11]中所示。0•Mask+Sigmoid：在Mask-RCNN（我们的强基线）中用Sigmoid分类器替代Softmax分类器。0•Mask+Probit：在Mask+Sigmoid中用Probit分类器替代Sigmoid分类器，这是我们在图2中的贡献1。0•Mask+MC：在Mask+Probit中用蒙特卡洛（MC）采样替代概率近似，采样次数为T=10。0•Mask+Sig+Uncert：在Mask+Sigmoid中用不确定性引导的盒子预测器替代盒子预测器，这是我们在图2中的贡献2。0•Mask+Sig+Gauss：Mask+Sigmoid的一种变体，除了预测盒子的概率之外，还使用高斯分布假设预测盒子的不确定性（类似于[15]）。0•Mask+Sig+Refine：类似于级联RCNN[3]，在细化初始盒子预测时不明确预测不确定性。0•我们的iFS-RCNN如图2所示。表2显示了我们在FSOD和FSIS上对上述消融的评估结果（参见表1）。从表2可以看出，使用softmax激活的Mask-RCNN优于使用sigmoid激活的其他点估计消融。然而，Mask-RCNN的性能不如使用带有Probit或MC的sigmoid激活的消融。这证明了我们选择使用带有sigmoid激活的基于贝叶斯学习的分类器的合理性。此外，我们的Probit分类器优于MC分类器，这表明MC需要更长的随机采样T �10，在实践中速度过慢。重要的是，我们在Mask+Sig+Uncert中建模不确定性相比于Mask+Sigmoid、Mask+Sig+Gauss和Mask+Sig+Refine获得了显著的性能提升。这证明了我们的贡献2的有效性。最后，我们的完整方法iFS-RCNN产生了70160设置 FSOD FSIS 目标检测实例分割0在新类、基类和全部上进行测试0TFA [32]（gFSOD）18.35 - 16.90 24.30 27.90 24.40 - - - - Mask-RCNN [13]（gFSOD和gFSIS）16.50 18.31 12.11 24.5428.59 24.04 12.75 25.35 27.75 24.360Mask+Sigmoid（iFSOD和iFSIS）16.93 19.18 15.02 23.33 27.23 23.55 17.39 25.26 27.05 24.75iFS-RCNN（iFSOD和iFSIS）20.76 21.06 18.38 26.11 30.12 26.46 18.26 26.29 28.46 25.900表4显示了LVIS上FSOD、FSIS、iFSOD和iFSIS任务的目标检测和实例分割结果，使用AP指标进行评估。最佳结果以粗体显示。TFA和Mask-RCNN比Mask+Sigmoid和iFS-RCNN使用更多的监督进行训练，如表1所述。Base-c和Base-f表示基类中的常见类（≥100个图像）和频繁类（10-100个图像）。0在最后的实验中，我们选择了Mask+Sigmoid和iFS-RCNN与之前的工作进行比较。04.3. 与COCO上的先前工作的比较0Tab.3将我们在COCO上在iFSOD和iFSIS中与强基准Mask+Sigmoid、针对FSOD和FSIS设计的方法（TFA[32]、FSDetView[35]），以及针对iFSOD和iFSIS设计的方法（GIFSOD[21]、ONCE [27]、LEAST [20]、MTFA和iMTFA[11]）的结果进行了比较。TFA（一种基于微调的方法）和FSDetView（一种基于情节训练的方法）被适应到iFSOD设置中，具体如下。首先，TFA在基类上进行训练，得到模型1。然后，TFA在新类上进行微调，得到模型2。最后，我们在相同的测试图像上运行模型1和模型2，并选择前100个预测，与COCO评估协议相同。对于FSDetView，在预训练模型上使用基类的训练示例后，我们使用预训练模型估计每个基类的原型，然后在新类上运行预训练模型以提取它们的原型。FSDetView在测试图像中使用新类和基类的原型进行目标检测。由于TFA和FSDetView最初并不是为iFSOD设计的，它们从FSOD到iFSOD的适应有两个限制：（1）存储和运行用于预测基类和新类的两个不同模型/原型；（2）两个不同的模型可能分别在测试图像中的基类和新类上产生高分，这样就难以解决。在针对iFSOD的方法中，ONCE基于YOLO [28]，LEAST和GIFSOD基于Faster-RCNN[29]。iMTFA是Mask+Cosine的一个变体，其中权重µn设置为从新类示例中提取的框特征f。从表3中可以看出，对于iFSOD设置，iFS-RCNN在新类上的性能略优于最先进的方法（SOTA）（+0.05），而在基类上显著优于最先进的方法（+12），其中K =10。对于iFSIS设置，iFS-RCNN在新类上的性能明显优于SOTA方法iMTFA。具体而言，对于K =10，我们的性能提升约为+6。0分割中的新类别上提升了6个点，基础类别上提升了16个点。我们的性能提升非常大，特别是对于具有挑战性的COCO数据集。04.4. LVIS上的结果0表4报告了我们在LVIS上的结果，K ≤10的iF-SIS和FSIS。虽然Mask+Sigmoid使用的监督比Mask-RCNN和TFA少，但它们给出了可比较的结果。iFS-RCNN在新类别上的FSIS上的增益为+3，在iFSIS上的增益为+6，明显优于Mask-RCNN。这些结果证明了我们的iFS-RCNN在更具挑战性的数据集LVIS上的有效性。04.5. 定性评估0图3展示了我们的一些结果。前两行显示成功的案例，底部一行显示失败的案例。对于失败的案例，从左到右：由于外观非常相似，火车被错误分类为公共汽车，由于遮挡，鸟的检测结果具有较大的边界框，由于外观相似，人的腿被分割为摩托车的一部分，远处的小船没有被检测到。图4显示了我们的边界框细化结果。可以看出，对于边界框预测的高不确定性会导致较大的细化。05. 结论和讨论0我们已经指定了iFS-RCNN来解决N-wayK-shot增量式少样本目标检测（iFSOD）和实例分割（iFSIS）问题。iFS-RCNN利用了Mask-RCNN，但修改了标准的softmax分类器和边界框预测头。为了减轻基类和新类别之间的统计不平衡，我们用sigmoid分类器替换了softmax分类器。通过贝叶斯学习进一步改进了sigmoid分类器，以鲁棒地估计新类别的分类器头部权重的分布。对于这种贝叶斯学习，我们提出了使用probit函数的解析近似。此外，Mask-RCNN的标准边界框预测器已被扩展，以明确预测边界框预测的不确定性，并将估计的不确定性用作边界框细化模块的输入。iFS-RCNN在iMTFA（目前最先进的方法）上取得了显著的性能优势。L:23, T:11, R:15, B:1270170图3. iFS-RCNN在COCO-new上的代表性结果，K =30。前两行显示成功的案例，底部一行显示失败的案例。在最后一行，从左到右：火车被检测为公共汽车，鸟的边界框太大，人的腿被分割为摩托车的一部分，远处的小船没有被检测到。0L:5, T:12 , R:4, B:16 L:7, T:6, R:4, B:120图4.在COCO-new上使用我们的不确定性引导的边界框预测器进行边界框细化，K =1。对于每一对，左边：初始边界框，右边：细化后的边界框。边界框标签显示了左（L），上（T），右（R）和下（B）边的不确定性；红色文本表示高不确定性（≥10），导致较大的细化。黄色箭头指示每个边界框边的细化方向。0在iFSIS中的艺术 -在COCO数据集上取得了非常大的性能提升，新类别上提升了6个点，基础类别上提升了16个点，训练样本为10个。此外，我们是0我们是第一个报告LVIS数据集上iFSOD、FSIS和iFSIS问题的结果的研究，我们的方法优于强基线模型。0关于潜在的限制，我们的贡献1，总的来说，可以应用于任何目标检测器，包括基于RPN的检测器，如Faster-RCNN[29]和Mask-RCNN [13]，基于点的检测器，如FCOS[31]和Center-Net[39]，以及基于transformer的检测器，如DETR[5]。然而，在我们的实验中，我们只成功地将其应用于基于RPN的检测器。这可能是因为在Faster-RCNN的第二阶段中，背景和前景类别的预先选择平衡的训练样本，在其他两个检测器框架中是不存在的。此外，虽然我们对框预测的不确定性的估计和我们的新的不确定性加权框损失使性能显著提高，但我们的贡献2缺乏一个理论支持，解释为什么我们的公式优于基于高斯的不确定性估计。0与任何用于目标检测和分割的系统一样，我们的系统可能被武器化和滥用，用于恶意侵犯隐私，也可以用于高效地发现和打击此类滥用，因为它具有少样本学习的能力.0致谢. 本工作部分得到DARPAMCS奖励N66001-19-2-4035的支持.[13] Kaiming He, Georgia Gkioxari, Piotr Doll´ar, and Ross Gir-shick. Mask r-cnn. In Proceedings of the IEEE internationalconference on computer vision, pages 2961–2969, 2017.[16] Bingyi Kang, Zhuang Liu, Xin Wang, Fisher Yu, Jiashi Feng,and Trevor Darrell.Few-shot object detection via featurereweighting. In Proceedings of the IEEE/CVF InternationalConference on Computer Vision, pages 8420–8429, 2019.70180参考文献0[1] Christopher M. Bishop. 模式识别与机器学习 . Springer,2006.0[2] Charles Blundell, Julien Cornebise, Koray Kavukcuoglu,and Daan Wierstra. 神经网络中的权重不确定性. InInternational Confere

下载后可阅读完整内容，剩余1页未读，立即下载