少样本目标检测中的完全交叉变换器模型的改进方法

189 浏览量更新于2023-10-26 收藏 16.37MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Few-shot object detection (FSOD) aims to detect objectsfrom the query image using a few training examples. This ismotivated by human visual system which can quickly learnnovel concepts from very few instructions. The key pointis how to quickly learn object detection models with stronggeneralization ability using a small number of training data,such that the learned model can detect objects in unseenimages. This is very challenging, especially for the currentstate-of-the-art deep-learning based methods [1,28,32,33],which usually need thousands of training examples and areprone to overﬁtting under this data-scarce scenario.Current methods for this task mainly follow a two-stage learning paradigm [45] to transfer the knowledgelearned from the data-abundant base classes to assist inobject detection for few-shot novel classes. The detailed53210使用完全交叉变换器进行少样本目标检测0Guangxing Han，Jiawei Ma，Shiyuan Huang，LongChen，Shih-Fu Chang哥伦比亚大学0{gh2561,jiawei.m,sh3813,cl3695,sc250}@columbia.edu0摘要0最近，少样本目标检测（FSOD）引起了学术界的广泛关注，其目标是使用非常少的训练样本来检测新的对象。基于度量学习的方法已经被证明对于使用基于孪生网络的两分支方法进行检测的任务是有效的，并计算图像区域与少样本示例之间的相似性。然而，在先前的工作中，两个分支之间的交互仅限于检测头部，而将其余的数百层用于单独的特征提取。受最近关于视觉变换器和视觉语言变换器的工作启发，我们提出了一种新的基于完全交叉变换器（FCT）的FSOD模型，通过将交叉变换器整合到特征主干和检测头部中，来改进FSOD的性能。我们提出了不对称批次交叉注意力，用于聚合具有不同批次大小的两个分支的关键信息。我们的模型通过引入多级交互来改善两个分支之间的少样本相似性学习。在PASCAL VOC和MSCOCOFSOD基准测试上进行了全面的实验，证明了我们模型的有效性。01. 引言0图1. 单分支、双分支FSOD模型和我们提出的模型的比较。0模型架构在不同的工作中有所不同，可以大致分为两类，基于单分支的方法[36，45，47，51，52]和基于双分支的方法[8，12，13，20，23，49]。（1）基于单分支的方法采用典型的目标检测模型，例如FasterR-CNN[33]，并构建一个多类别分类器进行检测。当我们只有每个新类别的1-shot训练数据时，它容易过拟合于小的训练数据，特别是当我们只有每个新类别的1-shot训练数据时。（2）基于双分支的方法将度量学习思想[34，37，41]应用于FSOD，并构建一个孪生网络来并行处理查询图像和少样本支持图像。在从两个分支提取深度视觉特征之后，先前的研究提出了各种方法（例如特征融合[8，48，49]，特征对齐[13]，GCN[12]和非局部注意力/变换器[2，3，6，20，44]）来计算两个分支的相似性。基于双分支的方法不会学习新类别的多类别分类器，并且通常通过学习将查询区域与少样本类别进行比较来具有更强的泛化能力。先前的基于双分支的方法已经探索了查询和支持图像之间的各种交互（例如对齐）。53220支持分支以提高相似性学习。但是，这些交互仅限于具有高级特征的检测头部，并将其余的数百层用于单独的特征提取。实际上，查询图像和支持图像可能在目标姿态、尺度、光照、遮挡、背景等方面存在较大的视觉差异和领域差距。仅仅在高级特征空间对齐两个分支可能不是最优的。如果我们能够在所有网络层中对齐提取的特征，网络可以更好地关注每个层中的共同特征，并改善最终的相似性学习。0在这项工作中，我们提出了一种新颖的基于完全交叉transformer的模型（FCT）用于FSOD，它是一种纯粹的基于交叉transformer的检测模型，而不是深度卷积网络。transformer中建模长程依赖性的能力[40]不仅可以捕捉一个分支中丰富的上下文，还可以捕捉另一个分支中的相关上下文，从而鼓励两个分支之间的相互对齐。如图1所示，我们的模型基于两阶段的检测模型FasterR-CNN。我们不是分别为查询和支持输入提取深度视觉特征，而是使用多层深度交叉transformer共同提取两个分支的特征。在交叉transformer层内，我们提出了非对称批次交叉注意力，以聚合具有不同批次大小的两个分支的关键信息，并使用聚合的关键信息对任一分支的特征进行自注意力更新。因此，我们可以在每个交叉transformer层中对两个分支的特征进行对齐。然后，在对查询图像进行联合特征提取和提议生成之后，我们在检测头中提出了基于交叉transformer的RoI特征提取器，以联合提取查询提议和支持图像的RoI特征。将我们的交叉transformer应用于特征主干和ROI特征提取器中可以大大促进查询和支持输入之间的多级交互（对齐），从而进一步提高最终的FSOD性能。0我们想强调与一个密切相关的工作ViLT[24]之间的区别，两者都使用transformer来联合提取两个分支的特征。首先，ViLT使用语言和原始图像作为输入，在每一层中，高度抽象的语言标记与视觉标记进行交互。然而，视觉标记在开始时代表低级概念，并在深层逐渐演化为高级概念。与ViLT不同，我们采用两个视觉图像作为输入，并从低级到高级特征逐渐探索两个视觉分支之间的多级交互。其次，我们专注于FSOD，这是一个密集预测任务，而不是ViLT中的分类和检索任务，并将交叉transformer应用于特征主干和检测头。第三，ViLT按照ViT[7]提取视觉标记，并在整个模型中使用相同数量的标记。我们采用金字塔结构0为了提取多尺度视觉标记，我们提出了一种特征金字塔[43]，并提出了跨不同批次大小的分支之间的非对称批次交叉注意力以减少计算复杂性。我们的贡献可以总结如下：（1）据我们所知，我们是第一个探索和提出基于视觉transformer的少样本目标检测模型的研究者。（2）我们提出了一种新颖的完全交叉transformer，用于特征主干和检测头，以促进查询和支持之间的多级交互。我们还提出了分支之间的非对称批次交叉注意力。（3）我们在两个广泛使用的FSOD基准上全面评估了所提出的模型，并取得了最先进的性能。02. 相关工作0目标检测。目标检测是计算机视觉中最基本的任务之一。最近，深度卷积神经网络（DCNNs [19,25]）展示了它们从大规模训练数据中自动学习特征的能力，并且是目标检测的主要方法。使用DCNN的当前方法主要可以分为两类：基于提议的方法和无提议的方法。基于提议的方法[11, 15, 17, 18,33]将目标检测分为两个连续的阶段，首先生成一组区域提议，然后对每个提议进行分类和边界框回归。无提议的方法[16, 28, 32,39]直接在CNN特征之上预测边界框和相应的类别标签。最近，基于transformer的目标检测模型[1,53]显示出有希望的结果，但仍然存在收敛速度慢的问题。因此，我们选择使用最具代表性的基于提议的方法FasterR-CNN[33]进行FSOD，考虑到检测准确性和训练效率。少样本学习。少样本学习（FSL）旨在仅使用少量示例来识别新类别。FSL的关键思想是将知识从多样本基类别转移到少样本新类别。现有的少样本学习方法可以大致分为以下三类：（1）基于优化的方法。例如，模型无关元学习（MAML[9]）学习一个良好的初始化，以便学习者可以在少数优化步骤内快速适应新任务。（2）基于参数生成的方法[10,22]。例如，Gidaris等人[10]提出了一种基于注意力的权重生成器，用于生成新类别的分类器权重。（3）基于度量学习的方法[30, 34, 37, 41,50]。这些方法从基类别中学习一个可推广的相似度度量空间。例如，原型网络[34]通过对少数样本的特征求平均来计算新类别的原型，然后通过最近邻搜索进行分类。少样本目标检测。少样本目标检测不仅需要使用少量训练样本来识别新对象，还需要在这些样本上进行目标检测。53230既可以学习图像中的对象，也可以定位图像中的对象。现有的方法主要可以分为以下两类，根据模型架构进行分类：（1）基于单支路的方法[36, 45, 47, 51,52]。这些方法尝试使用来自数据丰富的基类和数据稀缺的新颖类别的长尾训练数据来学习目标检测。检测头中的最终分类层由要检测的类别数量确定。为了处理不平衡的训练集，重新采样[45]和重新加权[27]是两种主要策略。Wang等人[45]表明，简单的两阶段微调方法优于其他复杂的元学习方法。随后的工作引入了多尺度正样本细化[47]，图像幻觉[51]，对比学习[36]和语义知识[52]等方法来辅助FSOD。（2）基于两支路的方法[8, 12-14, 20, 23,49]。这些方法基于孪生网络并行处理查询和支持样本，并计算图像区域（通常是候选框）与少样本示例之间的相似度以进行检测。Kang等人[23]首次提出了一种特征重新加权模块来聚合查询和支持特征。随后提出了多个特征融合网络[8,13, 48,49]以进行更强的特征聚合。Han等人[13]提出了在两个输入之间执行特征对齐并使用注意力聚焦于前景区域的方法。GCN在[12]中被用于促进两支路之间的相互适应。其他工作[2,3, 6, 20]使用更先进的非局部注意力/Transformer [40,44]来改进两个输入的相似性学习。所有这些先前的工作表明，两支路的范式是FSOD的一种有前途的解决方案。我们的工作也属于这个范畴，并提出了一种纯交叉Transformer模型，以最大程度地利用两个支路之间的交互作用。0Transformer及其在计算机视觉中的应用。Transformer最早由Vaswani等人[40]引入，作为一种新的基于注意力的机器翻译构建块，并成为NLP中普遍使用的架构[5]。Transformer的成功可以归因于其使用自注意力机制来建模长程依赖关系的强大能力。从那时起，Transformer已经扩展到各种与视觉相关的任务，例如视觉与语言的预训练[24, 35,38]，图像分类[7, 29, 43]，目标检测[1, 53]等。VisionTransformer（ViT[7]）的开创性工作将图像分割为非重叠的块（类似于NLP中的标记），并将这些块的线性嵌入序列作为Transformer的输入，与CNN相比，在图像分类方面取得了有希望的结果[19]。随后的工作，例如PVT [42, 43]，Swin [29]和Twins[4]，引入金字塔结构为密集预测任务生成多尺度特征图。空间缩减注意力[42,43]和基于平移窗口的自注意力[29]被提出来降低Transformer的计算复杂度。Kim等人[24]0提出了一种无卷积的统一视觉-语言Transformer模型（ViLT[24]），更加关注模态交互，而不是使用深层模态特定的嵌入。我们的工作受到了这些先前工作的启发，并提出了一种基于纯交叉Transformer的新颖FSOD模型。03. 我们的方法03.1. 任务定义0在少样本目标检测（FSOD）中，我们有两组类别 C = Cbase ∪ C novel，并且 C base ∩ C novel = �，其中基类 Cbase 每个类别都有大量的训练数据，而新颖类别 Cnovel（也称为支持类别）每个类别只有很少的训练样本（也称为支持图像）。对于 K-shot（例如 K =1，5，10）目标检测，我们对于每个新颖类别 c ∈ Cnovel，有恰好 K个边界框注释作为训练数据。FSOD的目标是利用数据丰富的基类来辅助少样本新颖类别的检测。0我们提出的模型（FCT）的概述。0我们在这项工作中提出了一种基于全交叉变压器（FCT）的少样本目标检测模型。我们的工作属于基于两个分支的少样本目标检测方法。动机是尽管传统的基于两个分支的方法[8,12, 13, 20, 23,49]显示出有希望的结果，但查询分支和支持分支的交互仅限于检测头部，在交叉分支交互之前，每个分支都有数百层用于单独的特征提取。我们的想法是去除独立的深度特征编码器，并充分利用交叉分支交互。我们的模型概述如图2所示。我们的模型基于Faster R-CNN目标检测框架。在FasterR-CNN中，我们有一个特征主干来提取输入的深度视觉特征。然后使用提取的特征生成提案，并跟随一个检测头部来提取每个提案的RoI特征，并进行分类和边界框（bbox）细化。受最近的视觉变压器和视觉语言变压器的启发，我们提出了一种纯交叉变压器的少样本目标检测模型，而不使用深度卷积网络。具体来说，交叉变压器被整合到特征主干和检测头部中。我们在第3.3节中展示了如何使用我们的交叉变压器特征主干同时提取查询和支持图像的特征，类似地，在第3.4节中展示了我们的交叉变压器检测头部的细节。模型训练框架在第3.5节中介绍。0交叉变压器特征主干。0我们的特征主干有三个交叉变压器模块的阶段，用于联合特征提取查询。and support inputs. In the ﬁrst stage, we have a single queryimage Iq ∈ R1∗HIq ∗WIq ∗3 and a batch of support imagesIs ∈ RBs∗HIs∗WIs∗3 of the same class as inputs, whereBs ≥ 1. We ﬁrst split the original RGB images into non-overlapping 4 × 4 × 3 patches. Then the ﬂattened patches gothrough a linear patching embedding layer and are projectedto C1 dimensions. The embedded patch sequences Xq ∈RN q1 ∗C1 (N q1 =HIq4WIq4 ) and XsRN s1 ∗C1 (N s1 =53240图2.我们提出的基于全交叉变压器的少样本目标检测模型（FCT）的整体架构。0两个分支的输出（Qi q和Qis）被馈送到多个交叉变压器层中。第二和第三阶段与第一阶段具有相似的架构，并生成具有逐渐减小的序列长度和增加的通道维度的特征图。根据变压器[40]，我们的交叉变压器层由提出的多头不对称批次交叉注意力和两个前馈层组成，其中在LN（LayerNorm）、GELU非线性和残差连接之间。具体来说，位置嵌入Eposq∈R Nq1�C1，Eposs∈RNs1�C1和分支嵌入Ebra∈R2�C1首先添加到输入的补丁序列Xq和Xs中，以保留位置和分支信息。0X'q = Xq + Eposq + Ebra[0]，X's = Xs + Eposs + Ebra[1]0在多头交叉注意力中，我们将输入的补丁序列X'q映射到Qiq，Ki q，Vi q和X's映射到Qi s，Ki s，Vis，其中i为头部编号（i = 1 ...h，h为头部数量），遵循变压器中的Q-K-V注意力[40]。为了减少注意力的计算复杂度，特别是在早期层中，受PVT[43]的启发，我们使用空间降维操作对K和V的特征图进行子采样。另一个好处是我们可以总结关键信息。0使用子采样的K和V提取信息。0将X'q映射到Qi q，X's映射到Qi s，其中i为头部编号（i = 1 ...h，h为头部数量）[40]。0Ki q = SR(X'q)Wi K，Ki s = SR(X's)Wi K0其中Wi Q∈RC1�dh，Wi K∈RC1�dh，WiV∈RC1�dh是线性投影的可学习权重，它们在两个分支之间共享。投影特征的维度为dh =C1/h，在每个头部中相同。SR(∙)是空间降维操作，可以通过步幅卷积层或空间池化层实现。0非对称批次交叉注意力。查询分支和支持分支的批次大小不同。我们分别对每个查询图像进行检测，因为不同的查询图像是无关的，检测是相互独立的。对于支持分支，新类别也是逐个处理的，但一个类别的支持图像数量可以是任意的。仅仅每次转发一个查询图像和一个支持图像，并为每个支持图像重复该过程的朴素实现可能非常慢。因此，我们提出了非对称批次交叉注意力，一次计算查询图像与同一类别的所有支持图像之间的注意力。如图3所示，交叉注意力层聚合了两个分支的关键信息（K-V对）进行注意力计算。为了将支持分支的K-V对聚合到查询分支，我们首先对多个支持图像进行平均池化，以匹配查询分支的批次大小，然后将两个分支的K-V对连接起来。类似地，为了聚合来自支持分支的K-V对，Kiq cat = [Kiq, 1Bs�BsKis],(5)V iq cat = [V iq , 1Bs�BsV is ](6)Kis cat = [REP(Kiq, Bs), Kis],(7)V is cat = [REP(V iq , Bs), V is ],(8)X′′q = Concat(head1q, ..., headhq)WO(9)X′′s = Concat(head1s, ..., headhs )WO(11)X′′′q = MLP(LN(X′′q ) + X′′q(13)X′′′s = MLP(LN(X′′s ) + X′′s(14)53250图3. 我们交叉变换器特征主干中提出的非对称批次交叉注意力。0将查询分支传递到支持分支，我们首先沿批次维度重复查询图像 B s 次，然后将两个分支的K-V对连接起来，0其中 [ ∙ , ∙ ] 表示默认沿标记维度进行连接，REP(A, b)表示默认沿批次维度将张量 A 重复 b次。因此，多头非对称批次交叉注意力可以总结为，0其中 head i s = Attention( Q i q , K i q cat , V i q cat ) (10)0其中 head i s = Attention( Q i s , K i s cat , V i s cat ) (12)0其中 W O ∈ R hd h � C 1是返回原始特征空间的投影权重，与两个分支共享。0然后对每个具有更强特征表示的补丁应用前馈网络，参考[40]，0备注。我们在我们提出的模型中深入研究了两个视觉分支之间的多层级交互。我们的交叉变换器特征主干中的三个阶段逐渐实现了两个分支与低层级、中层级和高层级视觉特征的高效交互。03.4. 交叉变换器检测头0在检测头中，我们首先按照之前的工作[8]在查询图像中生成类别特定的提议，并使用RoIAlign[18]为每个提议提取初始RoI特征，其中 f p ∈ R B p � H ′ � W ′ � C 3，支持集同样处理0分支 f s ∈ R B s � H ′ � W ′ � C 3 。（默认情况下，B p =100，H ′ = W ′ =14，RoIAlign后的默认空间尺寸。）然后，RoI特征提取器，也是我们交叉变换器的第4阶段，在最终检测之前联合提取提议和支持图像的RoI特征。为了减少计算复杂度，我们对所有支持图像取平均值 f ′ s = 1 B s �0B s f s ，使得0f ′ s ∈ R 1 � H ′ � W ′ � C 3。我们使用提出的非对称批次交叉注意力计算两个分支 f p和 f ′ s的注意力，与特征主干中类似。不同的是，查询提议的批次大小为 B p ≥ 1，支持分支的批次大小为 B ′ s =1，与主干相反。在联合RoI特征提取之后，我们使用[8]中的配对匹配网络进行最终检测。训练时采用二元交叉熵损失和边界框回归损失，参考[8]。0备注：我们遵循纯FasterR-CNN目标检测框架，在我们的模型中不使用FPN[26]。我们发现使用FPN并不能提高性能，特别是对于基于两个分支的小样本目标检测方法[3, 8, 12, 20, 48,49]。检测头中基于交叉Transformer的RoI特征提取器可以促进查询提议和支持图像之间的相互对齐，这对于最终的成对匹配至关重要。03.5. 模型训练框架0我们的模型训练分为三个步骤。第一步，我们在基类数据集上使用单分支模型进行预训练。具体来说，我们使用带有视觉Transformer骨干的纯Faster R-CNN模型[42,43]，只使用基类数据集对模型进行训练。第二步，我们使用基类数据集训练提出的基于两个分支的模型，并完全使用交叉Transformer。该模型是在第一步预训练模型的基础上初始化的。我们提出的FCT模型可以重用第一步学习到的模型的大部分参数。第一步中的良好初始化点可以减轻我们的FCT模型的训练。53260在新类上对基于两个分支的模型进行微调。最后，我们在基类和新类的子采样数据集上对我们的FCT模型进行微调，每个类别有K个样本，遵循先前的工作[8,45]。微调可以通过在训练过程中看到少量示例来大大提高我们的模型对新类的适应性。04. 实验结果04.1. 数据集0我们在两个广泛使用的小样本目标检测基准上评估我们的模型，如下所示。PASCAL VOC。根据[23,45]的先前工作，我们有三个随机的基类和新类的划分。在每个划分中，20个PASCALVOC类别被分为15个基类和5个新类。我们按照[36,45]的方法对少样本图像进行采样，并在1、2、3、5和10个样本的情况下报告AP50的结果。我们报告单次运行结果，使用与[23,45]完全相同的少样本图像，以及多次运行的平均结果。MSCOCO。我们将20个PASCALVOC类别作为新类，剩下的60个类别作为基类。我们按照[36,45]的方法对少样本图像进行采样，并在1、2、3、5、10和30个样本的情况下报告检测准确率AP，按照[12, 31,45]的方法。我们报告单次运行结果，使用与[23,45]完全相同的少样本图像，以及多次运行的平均结果。我们在第4.3节中使用MSCOCO数据集进行2/10/30-shot的消融研究。04.2. 实现细节0我们基于改进的金字塔视觉TransformerPVTv2[42]实现了我们的模型。我们遵循PVTv2中的大部分模型设计和超参数。原因是首先，PVTv2是一个纯Transformer骨干，已经在图像分类、目标检测等任务上表现出强大的性能。其次，空间降维注意力（SRA）最初是在PVT[43]和PVTv2[42]中提出的，用于减少计算开销。我们发现这也是一种有效的方式来总结高分辨率特征中的关键信息。受此启发，我们提出了不对称批次交叉注意力，它使用子采样特征从两个分支中聚合关键信息进行注意力计算。在实验中，我们使用PVTv2模型的变体PVTv2-B0、PVTv2-B1、PVTv2-B2和PVTv2-B2-Li进行实现。由于GPU内存限制，我们不使用PVTv2-B3或更大的模型。我们的模型使用[42]提供的ImageNet预训练模型进行初始化。我们将PVTv2-B2-Li作为默认模型，因为它可以通过基于池化的空间降维注意力大大减少训练/测试时间，并保持高的检测准确性。详细的训练超参数（例如，epochs、learning rate）在补充文件中包含。04.3. 消融研究0我们在表格1、2和3中对模型架构和训练策略进行了消融研究。单分支基准模型与双分支基准模型。首先，我们比较了单分支基准模型[ 45 ]和双分支基准模型[ 8]在表格1(a-d)中使用两个特征骨干，ResNet-101和PVTv2-B2-Li的性能。使用更强的Transformer骨干，我们实现了更高的FSOD准确性。双分支模型在任何两个骨干中都优于单分支模型，特别是对于极少样本的情况，例如2/10-shot。原因是单分支模型容易过拟合到少样本训练数据，而双分支模型通过学习将查询区域与少样本类进行比较，具有更强的泛化能力。每个交叉Transformer块如何对FSOD有所帮助？我们在表格1(e-j)中研究了四个交叉Transformer阶段的功能。(1)我们进行了仅使用一个交叉Transformer阶段的实验，并将其他三个阶段用于单独处理。结果显示，由于两个分支的相互对齐和特征融合，所有四个交叉Transformer阶段都是有效的。在这四个阶段中，检测头的第4阶段改进最大。这是因为FSOD的目标是将提议特征与支持特征进行比较，而第4阶段在最终比较之前统一了两个分支的RoI特征提取。(2)使用前三个阶段得到了我们的交叉Transformer特征骨干(Table1(i))，相比于单独使用这些阶段，进一步提高了性能。最后，我们的完全交叉Transformer(FCT) (Table1(j))在交叉Transformer特征骨干和检测头上取得了最佳结果。(3)四个阶段的交叉注意力掩码的可视化如图4所示。从图4中，我们得出以下观察结果：i)在早期阶段(例如第1阶段)，注意力掩码在具有相似颜色和纹理的区域上扩散，对齐了两个分支的低级特征空间。ii)在后期阶段，注意力掩码更加关注语义相关的局部区域，对齐了两个高级特征空间。使用不同骨干进行模型性能比较。我们在表格1(j-m)中使用不同的PVTv2变体作为骨干进行实验。基于PVTv2-B2的模型由于更大的模型容量而优于基于PVTv2-B0和PVTv2-B1的模型。基于PVTv2-B2-Li的模型与PVTv2-B2的性能非常相似，并且在训练/测试速度上更快。因此，我们默认使用PVTv2-B2-Li。关于分支之间的信息聚合的消融研究。为了进行两个分支的交叉注意力，我们需要聚合两个分支的关键信息。具体来说，我们使用连接操作符-(e)PVTv2-B2-Li✓7.113.06.815.728.315.420.233.620.5(f)PVTv2-B2-Li✓7.313.17.016.228.516.020.433.920.8(g)PVTv2-B2-Li✓7.413.37.316.128.515.820.533.820.9(h)PVTv2-B2-Li✓7.713.57.716.428.916.320.734.121.5(i)PVTv2-B2-Li✓✓✓7.613.77.616.529.616.220.834.921.2(j)PVTv2-B2-Li✓✓✓✓7.914.27.917.130.217.021.435.522.1(k)PVTv2-B0✓✓✓✓4.68.14.210.220.18.713.727.511.8(l)PVTv2-B1✓✓✓✓5.39.55.012.123.910.217.333.415.6(m)PVTv2-B2✓✓✓✓7.313.77.216.329.616.420.637.220.8AP75rk.5.310.35.014.125.513.3✓7.914.27.917.130.217.053270表格1. 在MSCOCO数据集上使用不同骨干对我们模型的每个组件进行消融研究。†如果标记了，则将骨干中的原始块替换为我们的交叉Transformer块。‡ 基准模型在特征骨干和RoI特征提取器中没有分支间交互。0骨干网络我们的Cross-Transformer † 2-shot 10-shot 30-shot0阶段1 阶段2 阶段3 阶段4 AP AP50 AP75 AP AP50 AP75 AP AP50 AP750(a) ResNet101 单分支基准模型 [ 45 ] ‡ 4.6 8.3 4.8 10.0 19.1 9.3 13.7 24.9 13.4 (b) ResNet101 双分支基准模型 [ 8 ] ‡ 5.6 14.0 3.9 9.6 20.7 7.713.5 28.5 11.70(c) PVTv2-B2-Li 单分支基准模型 [ 45 ] ‡ 5.3 9.5 5.2 14.5 26.5 13.9 19.7 33.6 19.9 (d) PVTv2-B2-Li 双分支基准模型 [ 8 ] ‡ 7.0 12.8 6.7 15.3 27.315.3 19.5 32.7 19.80表2. 关于从两个分支聚合键值对的消融研究。0方法 2-shot 10-shot0加法 6.5 11.9 6.2 15.0 26.2 14.8 乘法 6.7 12.0 6.7 15.1 26.9 15.00无分支嵌入 7.7 14.0 7.8 17.0 29.8 17.0 有分支嵌入 7.9 14.2 7.9 17.130.2 17.00表3. 关于模型训练框架的消融研究。0单分支 2-shot 10-shot 预训练 AP AP50 AP75 AP AP50 AP750我们在我们的工作中使用分支嵌入来聚合来自两个分支的K-V对，而不会丢失原始信息。(1)我们使用逐元素加法和乘法来聚合两个分支的K-V对进行实验。结果与使用连接相比要差得多，如表2所示，这是由于潜在的信息丢失。(2)分支嵌入可以识别特征来自哪个分支，并在表2中稍微提高性能。三步训练框架的重要性。我们的模型训练有三个步骤。第一步和第二步都是预训练，针对数据丰富的基类进行。我们在表3中进行了使用第一步预训练与否的实验。使用单分支预训练可以带来很大的改进。这是因为单分支方法与多类分类器一起使用时，可以在大规模基类训练数据上学习到更强的特征骨干，而我们的两分支方法则是0图4.我们模型中多层交叉注意力的可视化（红色表示较大的值）。使用查询图像中的白色区域（接近查询中的马眼）作为Q，我们展示了查询图像和1-shot支持图像中的相应交叉注意力掩码。我们在所有四个阶段中可视化了最后一个交叉变换器层。每个阶段中的白色框的大小由输入中的实际块大小确定。0通过学习如何进行比较，我们的方法在少样本情况下表现更好。因此，我们在训练的前两个步骤中结合了这两种方法的优点。第一步中的预训练模型可以提供良好的初始化，有助于减轻第二步中的训练负担。04.4. 与最新技术（SOTAs）的比较0我们在表4和表5中与PASCAL VOC和MSCOCOFSOD基准上的最新技术进行了比较。我们根据这两个基准遵循[36,45]的单次运行和多次运行结果进行报告。与现有的两分支方法相比，我们在这两个基准的两种评估设置下，在大多数镜头下都取得了最佳结果。与单分支方法相比，我们在多次运行集合下取得了第二好的结果。510SMetaDet [46]ICCV 2019VGG1618.920.630.236.849.621.823.127.831.743.020.6 23.929.443.944.1TFA w/ cos [45]ICML 2020ResNet-10139.836.144.755.756.023.526.934.135.139.130.8 34.842.849.549.8MPSR [47]ECCV 2020ResNet-10141.742.551.455.261.824.429.339.239.947.835.6 41.842.348.049.7TST1030STST53280表4. PASCALVOC数据集上的少样本目标检测结果（AP50）。我们报告了单次运行结果和多次运行的平均结果。S：单分支方法。T：两分支方法。0类型方法场所骨干网络新颖集合1 新颖集合2 新颖集合30单次运行结果，使用与[45]完全相同的少样本样本0SRR-FSD [52] CVPR 2021 ResNet-101 47.8 50.5 51.3 55.2 56.8 32.5 35.3 39.1 40.8 43.8 40.1 41.5 44.3 46.9 46.40CoRPNs + Halluc [51] CVPR 2021 ResNet-101 47.0 44.9 46.5 54.7 54.7 26.3 31.8 37.4 37.4 41.2 40.4 42.1 43.3 51.4 49.60FSCE [36] CVPR 2021 ResNet-101 44.2 43.8 51.4 61.9 63.4 27.3 29.5 43.5 44.2 50.2 37.2 41.9 47.5 54.6 58.50FSRW [23] ICCV 2019 YOLOv2 14.8 15.5 26.7 33.9 47.2 15.7 15.3 22.7 30.1 40.5 21.3 25.6 28.4 42.8 45.90Meta R-CNN [49] ICCV 2019 ResNet-101 19.9 25.5 35.0 45.7 51.5 10.4 19.4 29.6 34.8 45.4 14.3 18.2 27.5 41.2 48.10Fan等人[8] CVPR 2020 ResNet-101 37.8 43.6 51.6 56.5 58.6 22.5 30.6 40.7 43.1 47.6 31.0 37.9 43.7 51.3 49.80QA-FewDet [12] ICCV 2021 ResNet-101 42.4 51.9 55.7 62.6 63.4 25.9 37.8 46.6 48.9 51.1 35.2 42.9 47.8 54.8 53.50Meta Faster R-CNN [13] AAAI 2022 ResNet-101 43.0 54.5 60.6 66.1 65.4 27.7 35.5 46.1 47.8 51.4 40.6 46.4 53.4 59.9 58.60FCT (我们的方法) 本文 PVTv2-B2-Li 49.9 57.1 57.9 63.2 67.1 27.6 34.5 43.7 49.2 51.2 39.5 54.7 52.3 57.0 58.70多次运行的平均结果，参考[45]0TFA w/ cos [45] ICML 2020 ResNet-101 25.3 36.4 42.1 47.9 52.8 18.3 27.5 30.9 34.1 39.5 17.9 27.2 34.3 40.8 45.60FSCE [36] CVPR 2021 ResNet-101 32.9 44.0 46.8 52.9 59.7 23.7 30.6 38.4 43.0 48.5 22.6 33.4 39.5 47.3 54.00DeFRCN [31] ICCV 2021 ResNet-101 40.2 53.6 58.2 63.6 66.5 29.5 39.7 43.4 48.1 52.8 35.0 38.3 52.9 57.7 60.80Xiao等人[48] ECCV 2020 ResNet-101 24.2 35.3 42.2 49.1 57.4 21.6 24.6 31.9 37.0 45.7 21.2 30.0 37.2 43.8 49.60DCNet [21] CVPR 2021 ResNet-101 33.9 37.4 43.7 51.1 59.6 23.2 24.8 30.6 36.7 46.6 32.3 34.9 39.7 42.6 50.70FCT (我们的方法) 本文 PVTv2-B2-Li 3

下载后可阅读完整内容，剩余1页未读，立即下载