基于区域先验的无监督目标检测预训练方法DETReg的研究

148 浏览量更新于2023-10-25 收藏 17.86MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

UP-DETR 146050DETReg：基于区域先验的无监督目标检测预训练0Amir Bar 1，Xin Wang 5，Vadim Kantorov 1，Colorado J Reed 2，Roei Herzig 1，Gal Chechik 3，4，AnnaRohrbach 2，Trevor Darrell 2，Amir Globerson 101 以色列特拉维夫大学 2 伯克利人工智能研究 3 NVIDIA 4 巴尔干大学 5 微软研究 amir.bar@cs.tau.ac.il0摘要0最近的自监督预训练方法主要集中在预训练目标检测器的主干上，忽略了检测架构的关键部分。相反，我们引入了DETReg，这是一种新的自监督方法，它预训练了整个目标检测网络，包括对象定位和嵌入组件。在预训练过程中，DETReg预测对象的定位，以匹配无监督区域提案生成器的定位，并同时将相应的特征嵌入与自监督图像编码器的嵌入进行对齐。我们使用DETReg实现了DETR系列检测器，并且在COCO、PASCAL VOC和AirbusShip基准测试中显示出优于竞争基线的性能。在低数据情况下，包括半监督和少样本学习设置，DETReg取得了许多最先进的结果，例如在COCO上，我们看到10-shot检测的AP提高了+6.0，而仅使用1%的标签进行训练时，AP提高了2个以上。101. 引言0目标检测是计算机视觉中的一个关键任务，但它在很大程度上依赖于人工标注的训练数据集的可用性。构建这样的数据集不仅成本高昂，而且对于医学成像或个人照片等隐私敏感的应用来说有时是不可行的[ 46 , 68]。幸运的是，最近自监督表示学习的进展大大减少了各种应用所需的标记数据量，包括目标检测[ 6 , 11 , 26 , 27]。尽管取得了这一最近的进展，但目前的方法在学习目标检测的好表示方面存在局限性，因为它们没有预训练整个目标检测网络，特别是定位和区域嵌入组件。大多数最近的工作（例如01 代码：https://www.amirbar.net/detreg/。0SwAV0仅主干0DETReg（我们的模型）以对象为中心0随机区域0图1.预训练后的顶级类别无关目标检测结果。自监督预训练方法（例如SwAV [ 6]）仅预训练检测器的主干，因此预训练阶段后的对象定位仅取决于定位组件的随机初始化（绿色）。UP-DETR [ 16]预训练整个检测网络，但由于其预训练是通过重新识别随机区域进行的，因此它在预训练后不擅长定位对象（橙色虚线）。我们的模型DETReg通过以对象为中心的预训练方式预训练整个检测网络，并且在预训练阶段后可以定位对象（蓝色）。0SwAV [ 6 ]，ReSim [ 62 ]，InsLoc [ 67]）遵循与基于监督图像分类的预训练相同的检测网络预训练策略，其中只有CNN主干可以从预训练模型中初始化。而最近的UP-DETR [ 16]方法预训练了完整的检测架构，但仍然不能在图像中定位对象，而是随机选择图像区域。在这项工作中，我们提出了一种使用区域先验的检测与变换器模型（DETReg），与现有的预训练方法不同，DETReg学习了定位和编码的能力。b3b1b41234b2b z pb z c^^ ^146060无监督区域提案生成器0输入图像：x0编码器0f boxfembf cat0v 检测器0二分匹配0图2. DETReg模型和预训练任务。给定图像x的嵌入v，我们使用DETR系列检测器[5，71]来预测区域提议（f box(v)=ˆb），相关的对象嵌入（femb(v)=ˆz）和对象得分（fcat(v)=ˆp）。现有的无监督区域提议方法（如[54，59]）可以生成伪地面真实区域提议标签（b），现有的自监督方法（如[6，27]）可以生成伪地面真实对象嵌入（z），其中这些提议的对象得分c始终为1。通过二分匹配将预测分配给伪标签，未匹配的预测则分配给带有c=0的填充提议。0在无监督预训练阶段同时处理多个对象-参见图1。DETReg包括两个面向对象且与类别无关的预训练任务：一个对象定位任务用于定位对象，一个对象嵌入任务用于编码对象的视觉属性。这些任务一起预训练整个检测网络-参见图2进行概述。然后可以使用少量标签对最后的对象分类头进行微调，从而获得比现有方法更好的性能。DETReg的对象定位任务使用简单的区域提议方法进行无类别边界框监督[3，3，14，15，54]。这些方法需要很少或没有训练数据，并且可以以高召回率生成区域提议。例如，我们在DETReg中采用的区域提议方法Selective Search[54]使用颜色连续性、层次结构和边缘等对象线索提取对象提议。DETReg在这些区域先验的基础上构建了一个无类别检测器进行预训练。DETReg的对象嵌入任务旨在预测在对象区域上评估的单独自监督图像编码器的嵌入。例如，SwAV[6]等自监督图像编码器可以学习具有转换不变性的嵌入，因此训练检测器来预测这些值可以将学习到的不变性融入检测器的嵌入中。因此，对象嵌入头学习到的表示对于平移或图像裁剪等变换是鲁棒的。我们在MS COCO [41]、PASCALVOC[18]等标准对象检测基准数据集以及航空图像数据集AirbusShip Detection[1]上对DETReg进行了广泛评估。我们发现，在有少量注释数据的情况下，DETReg相对于具有挑战性的基线方法，特别是当少量注释数据可用时，可以提高两种最先进的基础架构的性能。定量上，DETReg在仅有骨干网络的基础上改进了性能0在PASCALVOC上，DETReg在图像分类预训练基线上提高了4个AP点，在MS COCO上提高了1.6个AP点，在Airbus ShipDetection上提高了1.2个AP点。此外，在使用1%到10%的数据以及10和30个样本时，DETReg在半监督学习中优于预训练基线。综上所述，这些结果表明，预训练整个检测网络，包括区域提议预测和嵌入组件，是有益的，而我们特定的DETReg模型通过利用这种面向对象的自监督预训练实现了新的SOTA性能。02. 相关工作0自监督预训练。最近的研究[6，10，13，22，25，27，28，31，43]表明，自监督预训练可以生成用于迁移学习的强大表示，甚至在具有挑战性的视觉基准上超过了其监督对应物[10，61]。学到的表示在图像分类中具有良好的迁移效果，但在对象检测和实例分割等实例级任务中改进不明显[27，29，48，70]。最近，一些工作[31，51，62，64]专注于学习可以迁移到对象检测的骨干网络。与这些工作不同，我们预训练整个检测网络。正如我们所展示的，使用基于图像块的任务预训练骨干网络不一定能使模型学习到对象的“是什么”和“在哪里”，而从区域先验中添加弱监督则证明是有益的。我们的方法也不同于半监督对象检测方法[34，42，53，65]和少样本检测方法[9，12，19，20，35，36，39，56，59，60，63，66，69]，因为我们是从预训练的DETReg模型初始化检测器，而没有进一步修改架构。因此，这些方法可以看作是DETReg的补充。146070端到端目标检测。基于变压器的检测器（DETR）[5]构建了第一个完全端到端的目标检测器，并消除了诸如锚点生成和非极大值抑制（NMS）后处理等组件的需求。该模型在机器视觉社区中迅速获得了广泛关注。然而，原始的DETR收敛速度慢，样本效率有限。可变形DETR[71]引入了一个可变形注意模块，用于关注稀疏采样的一小组显著关键元素，并在减少训练轮数的同时实现了更好的性能。因此，我们将可变形DETR作为基础检测架构。DETR和可变形DETR都采用了在ImageNet上进行监督预训练的主干网络（ResNet [30]）。UP-DETR[16]通过检测和重构输入图像的随机补丁以自监督方式预训练DETR。相反，我们还采用了来自无监督区域提案算法的区域先验，为预训练提供了弱监督，这对于对象具有明确的概念，而不是UP-DETR使用的随机补丁。0区域提案。目标检测文献中存在丰富的区域提案方法研究[2,3, 8, 15, 17, 37, 55, 72]。基于分组的方法Selective Search[55]和基于窗口评分的方法Objectness[2]是两种早期和广为人知的提案方法，它们在主要软件库（如OpenCV [4]）中得到了广泛采用和支持。SelectiveSearch通过贪婪地合并超像素生成提案。Objectness依赖于多尺度显著性、颜色对比度、边缘密度和超像素跨越等视觉线索来识别可能的区域。虽然该领域主要转向了基于学习的方法，但这些模型的关键优势在于它们需要很少或不需要训练数据，并且可以以较高的召回率产生区域提案[3, 3, 14,15,54]。这提供了一种廉价但嘈杂的监督来源。Hosang等人[32, 33]对各种区域提案方法进行了全面分析，SelectiveSearch在召回率方面是表现最好的方法之一。在这里，我们从SelectiveSearch生成的区域提案中寻求弱监督，SelectiveSearch已被广泛采用并在R-CNN [24]和Fast R-CNN[23]等知名检测器中证明了其成功。然而，我们的方法不限于Selective Search，可以使用其他提案方法。03. DETReg0DETReg是一种自监督方法，用于完全预训练目标检测器，包括其区域定位和嵌入组件。在高层次上，DETReg通过预测与无监督区域提案生成器相匹配的对象定位，同时将相应的特征嵌入与自监督图像编码器的嵌入对齐，参见图2。0DETReg的关键思想是制定与监督目标检测期间执行的任务相似的预训练任务，以便改进的预训练可以转移到目标检测器上。我们基于DETR系列检测器[5,71]构建了DETReg，因为它们具有实现简单性和性能，尽管其他架构也可以轻松插入DETReg。接下来，我们回顾DETR，并在以下子节中介绍构成DETReg核心的目标定位和嵌入预训练任务。DETR概述：DETR通过在变压器解码器的N个对象查询向量和输入图像特征上迭代应用注意力和前馈层，检测图像中的N个对象。解码器的最后一层产生N个依赖于图像的查询嵌入，用于预测边界框坐标和对象类别。形式上，考虑输入图像x∈RH×W×3。DETR使用x计算N个依赖于图像的查询嵌入v1,...,vN，其中vi∈Rd。这是通过将图像通过主干网络、变压器和查询向量的处理来实现的[5]。然后，两个预测头应用于vi。第一个是fbox：Rd→R4，用于预测边界框。第二个是fcat：Rd→RL，输出L个对象类别的分布，包括背景“无对象”类别。03.1. 对象定位任务0DETReg的对象定位预训练任务使用简单的区域提议方法进行无类别边界框监督（见图2中的橙色箭头）。我们使用这些方法的输出，因为它们需要有限或无训练数据，并且可以以高召回率产生区域提议[3, 14, 15, 54]。我们使用SelectiveSearch[54]作为训练DETReg的主要区域提议方法，因为它在现成的计算机视觉库中广泛可用，并且不需要训练数据。SelectiveSearch使用颜色和边缘的连续性等对象线索提取对象提议，并且DETReg进一步建立在这些区域先验的基础上，以学习无类别检测器。区域提议方法接收图像并以高召回率产生大量区域提议，其中一些区域很可能包含对象。然而，它们的精度较低且不输出类别信息，参见[32,33]。由于非对象框的内容比对象框更具变化性，我们期望即使给出噪声标签，深度模型也能够训练以识别对象的视觉属性。因此，对象定位预训练任务接收由无监督区域提议方法输出的一组M个框b1，...，bM（其中bi∈R4），并优化一个最小化检测器框预测（f boxMLP的输出）与这些M个框之间差异的损失。与DETR类似，损失涉及匹配预测框和这些M个框的过程，我们在第3.3节中详细介绍。σ = arg minσ∈ΣNN�iLmatch(yi, ˆyσ(i))(1)L(y, ˆy) =N�i=1λfLclass(ci, ˆpσ(i))+1{ci̸=0}(λbLbox(bi, ˆbσ(i))+λeLemb(zi, ˆzσ(i)))(2)Lemb(zi, zj) = ∥zi − ˆzj∥1(3)146080常见的区域提议方法尝试对区域提议进行排序，使更可能是对象的提议首先出现，然而，提议的数量通常很大，排序不精确。因此，我们探索了在训练过程中选择最佳区域的方法。我们考虑了三种选择框的策略：Top-K使用算法的前K个提议。Random-K使用K个随机提议，可能产生质量较低的提议，但鼓励探索。重要性采样依赖于区域提议方法的排序，但也鼓励更多样化的提议。形式上，假设b1，...，bn是一组n个排序的区域提议，其中bi的排名为i。令Xi是一个随机变量，指示是否输出bi。我们将Xi的采样概率设为：Pr(Xi=1)∝−log(i/n)。为确定是否包含一个框，我们从其相应的分布中随机采样。03.2. 对象嵌入任务0在有监督的对象检测训练中，每个框都与对象的类别关联，但在无监督设置中无法获得此信息。因此，为了学习强大的对象嵌入，我们通过单独的编码器网络对每个框区域bi进行编码，并获得用作DETReg嵌入ˆzi的嵌入zi（见图2中的黑色箭头）。可以通过遵循类似BYOL [26]或DINO[7]的引导技术来联合训练产生zi的单独编码网络。然而，为了训练稳定性和减少收敛时间，我们利用一个预训练的自监督模型，其嵌入对许多图像变换具有不变性，例如模糊和颜色扭曲。这里我们主要使用SwAV[6]预训练模型，因为它是预训练图像分类器的最强方法之一，并且具有现成的代码和预训练模型。为了在检测器中预测相应的对象嵌入ˆzi，我们引入了一个额外的MLP f emb：Rd→Rd。0该模型预测与相应的DETR查询嵌入v i 对应的对象嵌入ˆ z i，这鼓励 v i 捕捉对类别预测有用的信息。损失是ˆ z i 和 z i之间的L1损失。03.3. DETReg预训练0在这里，我们正式描述DETReg在预训练期间如何优化定位和嵌入任务。假设我们的区域提议方法返回M个物体提议，用于生成M个边界框bi和物体描述符zi，其中i∈{1, . . . , M}，令yi = (bi,zi)和y = {yi}Mi=1。DETReg被训练成使其N个输出与y对齐。设v1, . . . ,vK表示由DETR计算的图像相关查询嵌入（即DETR解码器的最后一层的输出）。DETReg有三个预测头：f box输出预测的边界框，f cat预测框是否为物体或背景，femb重构物体嵌入描述符。将这些输出表示为：ˆbi = f box(vi), ˆzi = f emb(vi), ˆpi = fcat(vi)，并定义ˆyi = (ˆbi, ˆzi, ˆpi)和ˆy ={ˆyi}Ni=1。在DETR训练之后，我们假设DETR查询的数量N大于M，因此我们填充y以获得N个元组，并为y中的每个框分配一个标签ci∈{0, 1}，以指示它是一个区域提议（ci =1）还是填充提议（ci = 0）；参见图2中的绿色箭头。对于DETR系列的检测器[5,71]，对于标签或预测的顺序没有假设，因此我们首先通过匈牙利二分匹配算法[38]将y中的对象与ˆy中的对象进行匹配。具体来说，我们找到使得y和ˆy之间的最优匹配成本最小的排列σ：0DETReg通过DETReg计算的嵌入（即DETR解码器的最后一层的输出）来计算。DETReg有三个预测头：fbox输出预测的边界框，f cat预测框是否为物体或背景，femb重构物体嵌入描述符。将这些输出表示为：ˆbi = fbox(vi), ˆzi = f emb(vi), ˆpi = f cat(vi)，并定义ˆyi = (ˆbi,ˆzi, ˆpi)和ˆy ={ˆyi}Ni=1。在DETR训练之后，我们假设DETR查询的数量N大于M，因此我们填充y以获得N个元组，并为y中的每个框分配一个标签ci∈{0, 1}，以指示它是一个区域提议（ci =1）还是填充提议（ci =0）；参见图2中的绿色箭头。对于DETR系列的检测器[5,71]，对于标签或预测的顺序没有假设，因此我们首先通过匈牙利二分匹配算法[38]将y中的对象与ˆy中的对象进行匹配。具体来说，我们找到使得y和ˆy之间的最优匹配成本最小的排列σ：0其中，L match是配对匹配成本矩阵，如[5, 71]所定义，ΣN是所有{1 . . .N}的排列集合。使用最优的σ，我们定义损失为：0其中，L class是类别损失，可以通过交叉熵损失或者FocalLoss[40]实现，Lbox基于L1损失和广义交并比（GIoU）损失[50]，最后，我们定义L emb为L1损失：04. 实验0首先，我们描述了我们实验所使用的实现细节和数据集。然后，我们报告了DETReg在完整数据和低数据情况下进行微调时在目标检测任务上的表现，包括少样本学习和半监督学习。最后，我们通过DETReg的消融、分析和可视化结果进行总结。实现。根据第4.5节中所提供的消融结果，我们的默认实验设置如下（详见补充材料）。我们使用SwAV[6]对DETReg的ResNet50骨干进行初始化，SwAV在IN1K上使用多裁剪视图进行了800个epoch的预训练，并在预训练阶段固定。在物体嵌入分支中，f emb和fbox是具有256个隐藏层的MLP模型。DETR15039.560.341.4SwAV [6]39.760.341.7UP-DETR40.560.842.6DETReg41.9+1.461.9+1.144.1+1.5SupervisedDETR30040.861.242.9SwAV [6]42.163.144.5UP-DETR42.863.045.3DETReg43.7+0.963.7+0.746.6+1.3DDETR5044.563.648.7SwAV [6]45.264.049.5UP-DETR44.763.748.6DETReg45.5+0.864.1+0.449.9+1.3146090预训练检测器的Epochs AP AP 50 AP 750监督学习0监督学习0表1. 在MS COCOtrain2017上训练并在val2017上评估的目标检测结果。DETReg和UP-DETR都在IN1K上进行了相当的预训练设置下进行了预训练，而监督和SwAV仅预训练了目标检测器的骨干网络。我们探索了DETR和DeformableDETR（DDETR）两种架构；为了与先前的工作兼容，我们将DETR微调了150/300个时期，将DDETR微调了50个时期。0然后是ReLU [ 44 ]非线性激活函数。f emb 和f box的输出尺寸分别为512和4。f cat实现为具有2个输出的单个全连接层。除非另有说明，我们使用DETReg的Top-K区域选择变体（参见第3.1节），并设置每个图像的K = 30个提议。数据集。我们使用以下数据集：ImageNetIL-SRVC2012（IN1K）数据集包含1000个类别的120万张图像。与先前的工作[ 6 , 10 , 62 , 64]一样，我们使用未标记的IN1K数据进行预训练。与其他工作[27 , 28 , 62]类似，我们使用了IN1K的子集IN100，其中包含约12.5万张图像和100个类别，用于进行几项消融研究。MS COCO [ 41]是一个流行的目标检测基准，包含121K个带有边界框注释的图像，其中80个对象类别的对象被注释。PASCAL VOC [ 18]包含约2万个自然图像，其中包含21个类别的对象注释。为了探索与典型的以对象为中心的基准具有不同视觉属性的数据集，我们使用了Airbus Ship Detection数据集[ 1]，该数据集包含约23.1万个带有船只边界框注释的卫星图像。根据[ 45]的方法，我们将分割掩码转换为边界框，并使用42.5K个图像子集，其中包含3K个测试/验证划分。04.1. 完整数据环境中的目标检测0这些实验测试了当完全注释的数据集可用于微调时，DETReg的性能如何。预训练。我们基于DETR [ 5 ]和DeformableDETR [ 71]检测器预训练了DETReg的两个变体，分别在IN1K和IN100上进行了5和60个时期的预训练，其中预训练计划通过按比例调整UP-DETR使用的计划来等同于更高效的DeformableDETR计划[ 71 ]。0方法 PASCAL VOC Airbus Ship AP AP 50 AP 75 AP AP 50 AP 750监督 59.5 82.6 65.6 79.8 95.8 89.4 SwAV [ 6 ] 61.0 83.068.1 78.3 95.7 88.7 DETReg 63.5 83.3 70.3 81.0 95.9 89.70表2. 在PASCAL VOC和AirbusShip数据上微调的目标检测结果。模型在PASCALVOC的trainval07+2012上进行微调，并在test07上进行评估（左），在Airbus ShipDetection的train集上进行微调，并在3k个测试图像上进行评估（右）。所有模型都基于Deformable DETR [ 71]。粗体数值表示改进≥0.3个AP。0基线。我们将DETReg与几种密切相关的最先进的目标检测预训练方法进行比较：使用SwAV [ 6]骨干网络，完全预训练的UP-DETR [ 16]和监督基线骨干网络。0实验。为了评估DETReg，我们在三个不同的数据集上进行了微调：MS COCO [ 41 ]，PASCAL VOC [ 18 ]和AirbusShip Detection [ 1 ]。我们在MSCOCO上进行了广泛的比较，并使用与[ 16 , 71]中先前报告的相似的训练计划进行微调，使用train2017进行微调和val2017进行评估。在PASCALVOC和Airbus上，我们使用DETReg DeformableDETR版本进行微调，该版本训练速度更快。在PASCALVOC上，我们在trainval07+12上进行了100个时期的微调，在70个时期后降低学习率，并使用test07进行评估。对于Airbus，我们进行了100个时期的微调，在80个时期后降低学习率。结果。表1显示，DETReg在使用DETR和DeformableDETR时始终优于其他预训练策略。例如，与UP-DETR相比，当训练150个时期时，DETReg将COCOAP得分提高了1.4个点，并且实际上在150个时期后超过了300个时期的监督变体。有趣的是，使用DETReg预训练的DETR与监督的DeformableDETR竞争，后者仅比前者多0.8个点（AP），尽管进行了重大的架构修改。表2显示，DETReg在PASCALVOC上的AP得分比SwAV提高了2.5个点，在Airbus上提高了1.2个点。作为参考，[ 45]使用了一个基于ResNet50骨干网络的专门用于船只检测的架构，并利用了像素级注释，在该数据集上获得了76.1的框AP得分，比只使用边界框注释的DETReg低4.9个点。04.2.低数据环境中的目标检测0这些实验测试了当有少量注释数据可用于微调时DETReg的表现。预训练。我们在ImageNet（IN1K）上对基于Deformable DETR [71]的DETReg进行了5个时期的预训练。146100图3.低数据环境中的模型比较。∆AP相对于监督基线的改进，其中x轴显示训练过程中使用的图像总数。我们在所有方法中固定了DeformableDETR架构，并使用不同方法的公开发布的ResNet50权重对其进行微调，使用MS COCOtrain2017进行训练，并在val2017上进行评估。0基线。我们考虑了用于目标检测的ResNet50骨干的最近方法：InstLoc [67]，ReSim [62]和SwAV[6]，对于每种方法，我们使用公开发布的检查点。我们报告与监督变体相比的∆AP。监督变体利用在IN1K上预训练的ResNet50。实验。我们测试了DETReg在有限标记数据（最多1024个标记图像）转移时学到的表示，这些数据是从MSCOCOtrain2017中随机采样的，并使用val2017进行评估。我们将所有方法训练最多2000个时期，或者直到验证性能停止改善。结果。图3显示了结果，其中y轴报告了与监督变体相比的AP差异。结果表明，当在低数据范围内使用DeformableDETR时，DETReg始终优于其他预训练策略。例如，当仅使用256个图像时，DETReg将平均精度（AP）得分提高了4.1个点，而SwAV和ReSim分别为1.1和0.5个点。04.3. Few-Shot目标检测0这些实验测试了DETReg在现有文献中建立的few-shot设置中的表现。预训练。我们在ImageNet（IN1K）上对基于Deformable DETR[71]的DETReg进行了5个时期的预训练。基线。我们将具有监督预训练骨干的DeformableDETR视为最直接的基线，因为其架构和训练策略与DETReg相似。我们还报告了最近的few-shot方法的结果，这些方法利用了不同的基础目标检测器。与我们的工作同时进行，Meta-DETR [69]提出了一种基于DeformableDETR的新方法。然而，与DETReg不同，它使用了ResNet101骨干和单一图像尺度，但我们0模型检测器 Novel AP Novel AP 75 10 30 10 300YOLO-ft-full [35, 47] YOLOv2 3.1 1.7 7.7 6.4 FSRW [35] 5.69.1 4.6 7.606.5 11.1 5.9 10.3 FRCN-ft-full [56] 9.2 12.5 9.2 12.0 MetaDet[58] 7.1 11.3 6.1 8.1 Meta R-CNN [66] 8.7 12.4 6.6 10.8 TFA[56] 10.0 13.7 9.3 13.4 DeFRCN [71] 18.5 22.6 - - DAnA [12]18.6 21.6 17.2 20.30DDETR-ft-full [69] DDETR* 11.7 16.3 12.1 16.7 Meta-DETR[69] 19.0 22.2 19.7 22.80DDETR-ft-full DDETR 23.3 28.4 25.4 31.7 DETReg-ft-full 25.030.0 27.6 33.70DDETR �是[69]中使用的定制的单尺度可变形DETR模型。0表3.在COCO上的few-shot检测评估。我们在60个基类上训练模型，然后在20个新类别上评估模型性能，遵循[56]中使用的数据划分。我们展示了DETReg通过在few-shot数据集上进行简单微调而大幅优于先前的few-shot目标检测器。0为了鼓励统一报告，即使实验设置不完全一致，我们将其结果包含在内。实验。按照目标检测的标准few-shot协议[56]，我们在包含约99K标记图像的60个基类的完整数据上对DETReg进行微调。然后，我们在包含每个类别具有k∈{10，30}个目标实例的平衡集上进行微调。我们使用[56]中的划分，并报告对新的20个类别的性能。结果如表3所示。表4展示了一个极端的few-shot设置，其中DETReg在没有对基类进行中间微调的平衡few-shot集上进行微调。我们考虑仅微调解码器（ft-decoder）和完整模型（ft-full）。结果。表3显示DETReg在使用基类时改进了监督预训练，并在标准few-shot设置上达到了最先进的水平。请注意，DETReg仅使用了简单的微调策略，而其他方法可能包括更复杂的情节式训练。表4显示，即使模型没有在丰富的基类数据上进行训练，DETReg也实现了有竞争力的few-shot性能。作为参考，TFA[56]是一种先前的微调方法，它在丰富的基类数据上进行训练，我们可以看到DETReg在没有来自基类数据的额外监督的情况下胜过它。04.4. 半监督学习0这些实验测试了DETReg与半监督方法的比较，其中在训练过程中使用少量标记数据和大量未标记数据。预训练。我们对DETReg（可变形DETR）进行预训练，训练集为IN100，微调集为MS COCO。146110模型检测器新颖AP 新颖AP 75 10 30 10 300TFA [56]（带基类）FRCN 10.0 13.7 9.3 13.400.03 0.01 0.04 0.02 DDETR-ft-decoder 3.3 10.2 2.7 10.7DETReg-ft-decoder 10.2 17.9 11.1 19.2 DETReg-ft-full 10.618.0 11.6 19.60表4.在没有对COCO基类进行训练的情况下进行少样本目标检测。为了测试DETReg在极少样本情况下的性能，我们进行了只在K-shotCOCO子集上微调DETReg的评估。DETReg优于使用基类数据的TFA [56]等先前方法。0方法检测器 COCO 1% 2% 5% 10%011.31 ± 0.3 15.22 ± 0.32 21.33 ± 0.2 26.34 ± 0.1 SwAV 11.79 ± 0.3 16.02 ±0.4 22.81 ± 0.3 27.79 ± 0.2 ReSim 11.07 ± 0.4 15.26 ± 0.26 21.48 ± 0.1 26.56± 0.3 DETReg 14.58 ± 0.3 18.69 ± 0.2 24.80 ± 0.2 29.12 ± 0.20表5.在COCO上使用k%的标记数据进行目标检测。模型使用k%在train2017上进行训练，然后在val2017上进行评估。0在没有标签的MS COCOtrain2017上进行50个epochs。基线。我们将DETReg与使用IN1K预训练的监督骨干的可变形DETR模型进行比较，这是最直接的基线，因为所有实验都是在相同的架构和训练数据上进行的。我们考虑了最近用于目标检测的ResNet50骨干的预训练方法，如ReSim [62]和SwAV[6]，对于每种方法，我们使用公开发布的检查点。实验。我们在train2017数据的随机k%上对DETReg进行微调，直到收敛（验证性能停止改善）。在每个设置中，我们使用不同的随机种子训练5个不同的模型，并报告均值和标准差。结果。表5显示DETReg优于现有的预训练方法，包括对监督预训练基线的一致改进。我们在补充表9中进行了更广泛的比较，其中还比较了通过辅助损失利用标记和未标记数据的方法[34, 42, 53, 65]。04.5. DETReg分析0本节进一步探讨和证明了主要实验中使用的架构和算法选择。设计消融。表格6检查了DE-TReg中对象定位和对象嵌入任务的贡献。为了量化使用以对象为中心的区域提议的重要性，我们在训练DETReg时随机对图像中的提议框位置进行洗牌，如所示0提议 L emb 冻结BB L class ↓ L box ↓ AP0Shuffle λ e = 0 11.3 .044 32.0 Top-K λ e = 0 9.50 .03743.3 Top-K λ e = 1 8.81 .037 45.1 Top-K λ e = 2 9.14.039 43.8 Top-K λ e = 1 � 8.61 .037 45.40表6. 消融研究。该表对区域提议采样策略、λ emb的值以及是否冻结骨干进行了消融实验，使用在IN100上训练并在MSCOCO上微调的DETReg。将区域提议在图像之间进行洗牌导致11.3的AP下降，L emb 具有一致的性能，冻结骨干不会显著改变性能。0方法 AP AP 50 AP 75 R @1 R @10 R @1000UP-DETR [16] 0.0 0.0 0.0 0.0 0.0 0.4 Rand. Prop. 0.0 0.0 0.0 0.0 0.0 0.8Selective Search [54] 0.2 0.5 0.1 0.2 1.5 10.90我们的ImpSamp 0.7 2.0 0.1 0.3 1.8 9.0 我们的Random-K 0.7 2.4 0.2 0.52.9 11.7 我们的Top-K 1.0 3.1 0.6 0.6 3.6 12.70表7.在MS COCOval2017上进行的无类别目标提议评估。我们考虑了每种方法的前100个提议。我们展示了DETReg比以前的方法更有效地识别对象。0“Proposals”列中的“Shuffle”。其次，为了评估嵌入损失Lemb的贡献，我们评估了具有不同系数λe ∈ {0, 1,2}的DE-TReg。最后，我们验证了在训练过程中冻结骨干网络时性能不会下降，即性能的提升来自于DETReg的核心贡献。所有模型都在IN100上进行了50个epoch的训练，并在MSCOCO上进行了微调。表6证明了我们的设计选择的合理性：将区域提议在图像之间进行洗牌导致了11.3个AP的下降，表明以对象为中心的提议是重要的。我们进一步发现，嵌入损失Lemb在所有设置下都有相对一致的性能改进，AP的变化不超过2，我们选择λe =1基于这些结果。最后，DETReg在冻结骨干编码器和不冻结骨干编码器两种设置下的性能相对一致，两种设置之间的AP差异为0.3。无类别目标检测。我们检查了第3节中讨论的DETReg变体以及区域提议和预训练方法的无类别性能。表7中报告的结果表明，与仅使用SelectiveSearch等其他预训练方法相比，DETReg变体实现了改进的性能，这表明在DETReg模型中将对象嵌入和定位组件耦合可以提高定位能力。此外，我们观察到在这些消融实验中，Top-K区域提议选择策略表现最佳。∥ ∂x∂I ∥∥ ∂y∂I ∥∥ ∂z∂I ∥146120图4. DETReg可视化。我们展示了与输入图像I相关的无监督DETReg检测的梯度范数，分别是对象中心的x坐标，y坐标和特征空间嵌入z。0对不同提议方法的鲁棒性。我们测试了DETReg在使用Selective Search提议和EdgeBox区域提议[72]进行预训练时的性能。具体而言，我们在IN100上进行预训练，并使用2%和10%的随机数据在MSCOCO上进行微调。我们发现这两个变体的性能相似，2%的AP为21.8，21.0，而10%的结果为36.2。DETReg的可视化。图4展示了使用可变形DETR进行无监督边界框预测的DETReg的定性示例。此外，它还显示了与输入图像I相关的x/y边界框中心和对象嵌入的显著性图[52]。前三列显示了关注x/y预测的对象边缘和预测对象嵌入的z。最后一列显示了一个情况，其中背景在嵌入中起到比对象更重要的作用。我们认为这可能是由于基于CNN的编码器关注区域中的纹理而不是形状，如[21]中所讨论的，我们认为进一步探索这些特征是未来工作的一个有趣方向。05. 限制0DETReg的本地化预训练任务使用简单的区域提议方法进行无类别边界框监督[3, 14, 15,54]。尽管表7表明DETReg的性能可以超越这些方法，但DETReg的无类别结果仍远远落后于有监督的对应方法。此外，我们的实验重点是DETR[5]相关的架构，但是DETReg可能也适用于更传统的检测架构，我们将这留作未来工作的一个可能方向。0留待未来工作进一步探索。最后，虽然DETReg提高了训练时间，但基于Transformer的目标检测器仍然需要大量的计算资源进行训练。06. 结论0我们提出了DETReg，一种使用区域先验的无监督预训练方法，用于使用变压器进行目标检测。通过广泛的实证研究，我们展示了DE-TReg在无监督预训练阶段学习的表示，可以改善三个不同数据集和许多设置下两种不同变压器模型的下游性能。我们相信无监督预训练具有积极的社会影响潜力，主要是因为它可以利用未标记的数据，并减少对于像医学成像这样的领域来说非常昂贵的

下载后可阅读完整内容，剩余1页未读，立即下载