基于转换器的模型在少标记数据下的对象检测中更有效

168 浏览量更新于2023-10-16 收藏 733KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1面向对象检测的少注释学习：基于转换器的模型是否更有效？QuentinBouniot*<$Ange' liqueLoesch*RomaricAudigier*Amaury Habrard<$*Univ ersite′P-Saclay，CEA，LIST，F-91120，Palaiseau，France{firstname.lastname} @ cea.fr†Univ ersite´deLyon，UJM-Saint-Etienne，CNRS，IOGS，Atomatoire Hubert Curien UMR 5516，F-42023，Saint-Etienne，France{firstname.lastname} @ univ-st-etienne.fr法国大学研究所摘要对于专门和密集的下游任务，如对象检测，标记数据需要专业知识，并且可能非常昂贵，使得少镜头和半监督模型更具吸引力。虽然在少数镜头设置中，我们观察到基于transformer的对象检测器在类似数量的参数下比基于卷积的两阶段模型表现得更好在本文中，我们提出了一种半监督方法，该方法针对当前最先进的对象检测器Deformable DETR，在使用学生-教师架构的少注释学习设置中，避免了依赖于教师模型生成的伪标签的敏感后处理我们在半监督对象检测基准COCO和Pas- cal VOC上评估了我们的方法，它优于以前的方法，特别是当注释很少时。我们相信，我们的contribu- tions打开新的可能性，以适应类似的对象detec- tion方法在此设置以及。1. 介绍深度学习方法在大量标记数据上训练时非常成功。虽然在大多数情况下收集数据并不困难，但其标记总是耗时且昂贵。例如，标记医学图像需要访问专家知识，而注释密集任务的图像，如自动驾驶中的对象检测和分割，需要经历在感兴趣的对象周围绘制多边形或绑定框的繁琐过程。在我们的工作中考虑了一种更有吸引力的替代方法：少数学习少注释学习1%（1180）1%（1180）标记图像标记图像未标记图像完全监督半监督（UBT）FRCNNDef. DETR发散图1. Faster R-CNN（FRCNN）[26]和Deformable DETR（Def.DETR）[39]，仅使用COCO上1%的标记数据（约1180张图像）。实验详情见第4.1节。在全面监督的情况下，国防部。DETR比FRCNN获得更好的结果。然而，在无偏见教师（UBT）中实施的半监督情况下[23]，Def。DETR不能收敛。仅使用少量标记的示例来指导学习，同时利用大量未标记的数据。这对应于半监督学习（SSL）的特定情况，下文称为少注释学习（FAL）对于目标检测（OD）的任务，文献中处理此设置的方法[15，30，23，35，37，31]都考虑了基于传统卷积网络的目标检测器[26]，其中需要一组特定的后处理算法来工作[14，36]。最近的对象检测器基于使用变压器的编码器-解码器架构[34]，其允许端到端OD而不依赖于该手工制作的流水线[5，39]。但是，它们尚未在SSL上下文中进行测试7576本文的出发点是观察到当前最先进的基于transformer的架构[39]在以下方面比传统的对象检测器表现得更好：数据稀缺的完全监督学习设置，也称为少镜头学习（FSL），用于相同数量的参数。然而，当将其插入最先进的半监督对象检测（SSOD）方法[23]时，我们观察到该模型无法收敛，这意味着当按原样使用时（图1），将文献中的SSL方法应用于基于变压器的对象检测器并不能保证良好的结果。因此，我们提出了一种新的SSL方法量身定制的变压器为基础的架构，以采取优势的变压器的有效性FSL，并升级这些方法的FAL。我们提出的方法在几个FAL基准测试中达到了最先进的水平。更准确地说，我们的贡献总结如下：1）在展示了基于Transformer的检测器使用少量标记数据的强大性能之后，我们提出了动量教学DETR（MT-DETR），这是一种用于SSOD的方法，该方法利用了基于transformer的体系结构的特殊性，并且在FAL设置中优于先前的半监督方法。2）与基于卷积的OD方法相反因此，它消除了敏感的超参数。2. 相关工作2.1. 完全监督的目标检测目标检测是计算机视觉中一个重要且广泛研究的问题[11，10，26，25，22，19，33]。本质上，它结合了目标定位和分类的任务。这是一项密集的任务，需要对图像、对象及其上下文有精确的理解。最流行的OD模型基于全卷积神经网络[11，26，25]。这些方法可以分为两级[11，10，26，19]或一级[25，22，33]检测器。前一种方法是基于区域特征对盒子及其类标签进行预测，例如：从一个区域建议网络（RPN）[26]，而后者作出预测w.r.t.到锚点[20]或可能的对象中心的网格[25，38，33]。它们的性能在很大程度上取决于手工设计的算法，最突出的例子是非最大抑制（NMS）后处理，广泛用于最先进的OD方法[14，3]。最近，已经提出了一种基于使用变换器的编码器-解码器架构的新型这允许使用更简单的流水线进行端到端检测，并且消除了对上述算法的需要。这种架构的训练复杂性随后在Deformable DETR（Def. DETR）[39]，通过将注意力操作改变为可变形注意力，这导致了改进的收敛速度在这项工作中，我们发现，def。DETR是FSL的一个更强的基线，而不是在以前的工作中广泛使用的更流行的Faster- RCNN [26]，这促使我们专注于基于transformer的OD架构。2.2. 半监督学习半监督学习的目标是在训练过程中利用未标记数据和标记数据。在FAL的更具体的情况下，它允许通过利用未标记数据的使用来减少对大量标记数据的需求计算机视觉中的SSL问题历史上首先是针对图像分类任务来解决的，使用深度神经网络取得了重大进展[28，32，24，2，29]。一种流行的方法在这个领域中使用伪标签[17，2，1，29]，通过离线[17]或在线[2，29]从未标记数据的类预测中生成伪标签，然后在地面真值和伪标签的混合上进行训练。方法的另一个类似分支是使用一致性正则化[28，32，16，7]来匹配称为学生的模型的在线版本的预测类分布，与称为教师的模型的不同版本的预测分布，两者都看到输入的两个不同的增强视图根据最近的趋势[29，7]，我们的工作从适应OD的两组方法中汲取灵感，通过训练学生模型来匹配教师模型提出的建议的预测概率分布文献中的目标检测方法主要依赖于教师模型在对未标记数据应用强数据增强后提供的伪标签[15，30，23，35，37，31]。由于问题固有的定位任务，在这些强增强中使用几何变换对于OD [30]特别重要。最近和表现最好的[23，35，31]也通过学生权重的指数移动平均（EMA）[18]更新教师，虽然EMA的使用提高了模型的性能，但我们在工作中建议通过在整个训练过程中应用更新策略来稳定教师，这受到了自我监督学习的最新进展的启发[12，6]。伪标签可以通过使用硬标签[15，30，23，35，37]方法获得，该方法包括将arg max应用于预测，或者通过完全使用预测分布的软标签以往的方法都是依赖于NMS和阈值的置信度得分，即。预测的softmax，由教师模型给出。然而，上述后处理步骤对超参数敏感，并将偏差引入模型，激励其对其预测高度自信，这可能是次优的，特别是当很少有标记数据可用时。77± ± ± ± ±±± ± ± ± ±±}{（c）}j=1LuLuB我B（i，j）j=1u方法参数COCO VOC070.5%（590）1%（1180）5%（5900）10%（11800）5%（250）10%（500）FRCNN+ FPN †42M6. 830. 159.050十六十八47022 23八六零。81184703925.23022默认DETR 40 M8.95 0.51 12.96 0.08 23.59 0.21 28.55 0.08 22.87 0.38 29.03 0.46+2。十二加三。91+5。12+ 4。69+4。四十加三。80表1. Faster-RCNN（FRCNN）[26]与特征金字塔网络（FPN）[19]（SSOD方法中常用的两阶段检测器）和可变形DETR（Def.DETR）[39]，一个最先进的基于transformer的对象检测器，具有相同的ResNet-50骨干模型。针对不同百分比（以及相应的图像数量）的COCO和VOC 07标记的训练数据报告性能。有关实验的更多详细信息，请参见第4.1Def. DETR执行比FRCNN + FPN更好，对于类似数量的参数具有更少的标记数据。†：来自[23]的结果（如果可用），否则来自我们的复制。因此，我们的目标是在这项工作中删除所有这些后处理此外，文献中的SSOD方法已经专门使用两阶段OD架构构建和评估，我们发现它们不像最近基于变压器的检测模型那样在本文中，我们通过FAL的镜头调查SSOD，我们将实验集中在这种环境中，与以前的工作相反，只有有限实验次数3. 一种基于半监督学习的变换器目标检测方法在本节中，我们首先激发我们的主要想法，一个最新的国家的最先进的变压器为基础的OD方法在SSL的上下文中，通过提供几个结果都FSL和FAL设置。然后，我们提出了动量教学DETR（MT-DETR），我们基于变压器的SSOD方法更适合于FAL，如图2所示。更具体地说，我们描述了未标记数据的伪标记的构造，以及虽然它在训练开始时通过了早期的最佳值（在1%的COCO上约17%的mAP），但模型很快就崩溃了。这种发散行为在实践中并不令人满意，甚至更令人满意的是，与Faster-RCNN [26]架构一起使用的相同方法在类似的设置中收敛（它在1%的COCO上实现了约20%的最终mAP）（参见图1）。所有这些都表明，当前最先进的SSOD方法不适用于最近的基于变压器的架构。受这些结果的启发，我们提出了一种SSL方法tailed基于变压器的OD称为动量教学DETR（MT-DETR）。3.2.我们的方法如图2所示，我们的方法由学生-教师架构组成，这对于半监督学习很常见[32，29]。学生和教师模型都是从一个完全监督的模型初始化的，该模型是在少数可用的标记数据上训练的。然后，在半监督训练期间，该方法将一批标记图像Bl={（xl，yl）}Nl 还有一批没有标签的教师模型图像Bu我u Nuvi=1吕氏3.1. 对象检测器如何处理数据稀缺？={xi}i=1。我们定义xi和xi为i la-分别为带标记和未标记图像，yl={ylki=从表1所示的结果中，我们可以看出，L（i，j）L（i，j）kij=1 ∈{{1，2，. . . ，C}×R4}ki作为核心，可变形DETR（Def.DETR）[39]是一种基于变压器的最新检测模型，其性能始终优于FSL中我们建议读者参考4.1节了解所有实现细节。响应于Ki个地面实况类标签和框坐标，最后，Nl和Nu分别是标记的和未标记的批量大小。学生模型通过监督损失Ls和未监督损失L s的加权组合进行更新。有权值λu∈R的监督损失Lu：这些结果促使我们实施Def. DETR在一个国家的最先进的SSOD方法，看看它是如何执行的FAL设置。我们选择了最近的无偏见的老师L（B，B）=1NlLs（B）+λNu Lu（B）.（一）(UBT)[23]，因为它在FAL中的强大结果很容易用提供的代码重现。令人惊讶的是，我们观察到，与def。DETR检测器，模型在所有测试的FAL设置中均不收敛：1%的COCO作为标记数据（即，约1180个标记图像），5%和10%的VOC 07（即，分别为250和500个标记图像甚至下面，我们首先描述监督分支，其使用一批标记数据l来计算监督损失。然后，我们详细介绍了无监督分支，该分支使用一批未标记数据u计算无监督损失。为了计算监督损失，监督分支遵循监督学习，b78L（i，j）{我{l我我J∈X我我{（c）}（i，j）{（c）}，b）}.C我我i=u（i，j）Lmatch（y（i，j），y∈（i，σ（j）=1{c∈l}我我们使用相同的匈牙利算法，ΣL（B）=λL.CLy=标签强标记的图像增强系统背骨回来学生EMABoxMLPPred.类别盒子类类ℒ��+ℒ��未标记图像弱增广骨老师BoxMLP盒停止梯度图2.我们的SSOD动量教学DETR（MT-DETR）方法概述。该方法遵循学生-教师架构，教师通过学生的指数移动平均（EMA）进行更新。EMA的保持率参数遵循余弦调度。在监督分支（虚线和绿色）中，监督损失s是用学生对标记图像的预测计算的。在无监督分支（直线和红色）中，原始的，即。在未处理的情况下，弱增强的未标记图像的教师模型的输出被用作软伪标记，而不应用任何启发式，如NMS或置信度阈值。在通过二分匹配找到最佳对应检测建议后，学生模型从强增强图像中学习，通过无监督损失L u匹配这些伪标签中的类概率分布和边界框。[39]是DETR的改进版本[5]。对于每个图像xl，学生模型推断我，bNl NL ls级焦，cllN预测yL（i，j）我Nj=1L（i，j）布里尔（i，j）Nj=1i=1j=1（i，j）勒勒（i，σi（j））（三）ofboxesbl和它们的相关预测标签log-+1Cl（i，σ<$l（j））我<$=<$}λ<$1<$b（i，j）−b（i，σ<$l（j））<$1它的cl∈RC+1，其中第（C+1）个logit表示-.ll（i，j）无对象（no object，nobody）类然后，匈牙利算法-Rithm从N个元素的所有排列中找到，Cl（i，σi（j））∅}λgiouLgioub（i，j），b（i，σ<$l（j））.预测之间的最优二分匹配σl在上述方程中，我们定义λ类，λ∈1，λgiou∈R为学生模型的yl和地面真值标签yl：匹配成本中的系数和1X指示符σl= arg min σ∈SN卢塞恩湖匹配L（i，j）L（i，σ（j）））的情况。因此函数，使得x，1X（x）= 1当且仅当x。我们的主要贡献是每个标记的图像xl，第j个基础事实yl被关联。i（i，j）求出σl（j）。与对象检测器中使用的损失类似，匈牙利算法中使用的匹配成本匹配同时考虑了类和边界框预测通过焦点损失[20]L焦点的线性组合，基于变压器的OD的无监督损失。在无监督分支中，我们为每个未标记图像xu生成两个不同的视图：弱增强视图xu′和强增强视图xu′′1。然后，老师模型提供软伪标签y u={y u}N为盒子坐标的丢失和广义IoUi（i，j）j=11[27]第27话，一个一个的。这些损失函数是u（i，j）u（i，j）Nj=1、关于CU预测的logits，用于计算监督损失L以及：每个弱增广的未标记图像xu′，和的我s学生模型推断预测u{}u（i，j）u（i，j）Nj=1 从相应的强Aug-ll（i，σ（j））已分割的未标记视图x u′′。λ类 L焦点LL（i，j）L（i，σ（j））偶匹配Transformer检测器偶匹配Transformer检测器={y}}={（c）}）}我我我（y，y，b，cNj=1+179（i，j），b-l布具有最接近伪标签的学生的预测。在匹配成本L匹配以获得最佳排列σu=我NJ（i，j）（i，σ（j））（二）argminσ∈SNL匹配（yu，和，），与+λgiouLgiou.Bl布里尔（i，σ（j））ΣΣ[1]弱增广和强增广在第4.1节中描述。+λ∥ℓ1（i，σ（j））（i，j）180L（i，j）u）=−plogPn=1（i，j）（i，j）（i，σi（j））{u}λ-bu1{u（i，j），buΣΣL无监督损失u，我们遵循一致性规则化范式[4，7，6]。我们训练学生网络来匹配学生预测的类的概率分布与教师提出的软伪标签。我们学习通过最小化由softmax函数归一化的两个类分布输出之间的交叉熵来匹配这些分布。我们分别定义：通过后处理。依赖模型对某些预测的信心可能很棘手。使用全分布使模型不太倾向于对预测高度自信，并迫使模型考虑类之间的关系此外，基于变换器的OD方法中使用的匈牙利算法利用了模型给出的建议的多样性，并受益于模型不会因匹配损失而过度依赖于单个类的的确，ps（k）= softmax（cu）（k）=u（i，j）（k））、二分匹配可以有利于具有更好的损失的建议（i，j）（i，j）C+1exp（cu（n））即使模型对其类不太自信，预测，使使用原始软伪标签更多不（i，j）（k）=softmax（cu（k）学生和教师适用于基于变压器的探测器。为了获得强大而有见地的伪标签，类分布输出，其中c（k）是c，则c∈RC+1.那么交叉熵损失被定义为：C+1学生，教师必须在整个培训过程中更新。我们将在下一节中描述更新过程。LCE（c（i，j））u（i，j）S（i，j）k=1（k）t（i，j）、（五）3.4.更新教师模型为了避免老师监督不力，最后，我们计算无监督损失Lu如：使用保持率α ∈ [0，1]，通过学生权重θ s的指数移动平均（EMA）更新θtNu NLu（Bu）=ελclass sLCE.Cui=1j=1，cuuuθ t←αθ t+（1 − α）θ s。（七）对于α= 1，教师是常数，对于α= 0，其权重是常数。+1Cu（i，σi（j））u1（i，j）u（i，σi（j））和学生的一样因此，有一个权衡-保持速率参数过高和过低之间的差值。启发+1Cu（i，σi（j））我的天Buu（i，σi（j））.（六）通过自监督学习文献[12，6]，我们更新了α遵循从α开始到α结束的余弦调度：对于FAL，我们从标记数据中获得的信息很少。因此，伪标签的质量及其所包含的信息在训练中起着重要的作用3.3.伪标签的构造如上所述，无监督损失u通过学生模型的输出与教师模型的匹配输出之间的交叉熵来考虑类预测。我们使用教师模型输出的softmax作为交叉熵的软伪标签，而不是在取arg max后获得的硬伪标签。遵循DETR哲学[5]，我们给学生从老师那里获得的原始软伪标签I.E.我们去除了所有手工的算法来处理教师输出，即NMS和置信度阈值。这两个后处理步骤都对超参数敏感，并且限制了伪标签的多样性。通过引入偏差来保留最有信心的建议，它们会产生不必要的效果，鼓励模型总是对自己的预测非常有信心。在FAL的情况下，我们只能访问每个类的几个标记示例，模型对于某些类可能不可信，导致它们被提前exp（c）和p，c（k）（四）81α<$αend- （ αend-αstart ） · （ cos （ πk/K ） + 1 ）/2，（8）其中k是当前历元，K是时代这种调度稳定了教师模型，特别是在最后的训练迭代中，使其在训练结束时收敛。4. 实验结果在本节中，我们提出了一个比较研究的结果，我们的方法，以国家的最先进的FAL基准，以及烧蚀研究的最相关的部分。在此之前，我们详细介绍了用于不同实验的数据集、评估4.1. 数据集、评估和培训详情数据集和评估协议为了评估我们提出的方法，我们使用MS-COCO（COCO）[21]和Pascal VOC（VOC）[9]数据集，这些数据集是对象检测的标准，遵循现有工作的设置[15，30，23，35，37，31]。COCO是一个包含80个类的数据集，VOC包含20个类。我们特别关注两个Few Annotation Learning（FAL）设置：在COCO上，我们随机抽取0.5%、1%、5%或10%（再约590、1180、5900和11800张图像），820.7✓ ✓规模∈ [0. 02，0。2]，比率∈ [0. 1、6]Rescale+ Pad0.5translate x∈ [0，0. 25]，平移y∈ [0，0. [25]+平移尺度x∈ [0. 25，0。75]，尺度y∈ [0. 25，0。75]表2.在SSL期间为每个分支使用的不同增强集。水平翻转和调整大小增强遵循标准的监督训练[5，39]。颜色抖动、灰度、高斯模糊和剪切增强遵循无偏教师[23]训练，几何增强（旋转、剪切、重缩放、填充和平移）遵循软教师[35]训练。方法OD拱度Coco-18岁05± 0. 152675± 0。五点三十分。40± 0。05[31]第31话：我的世界96± 0。三十八二十七70± 0。1531. 61± 0。28[23]第23话：我的世界94± 0。二十三二十75± 0。122827± 0。十一点三十一分50± 0。10[35]第三十五章：你是谁？46± 0。393074± 0。八点三十四分。04 ±0. 14MT-DETR（我们的）定义 DETR17.84± 0. 54（+8.89）22.03± 0. 17（+9.07）31.00± 0. 11（+7.41）34.52 ± 0. 07（+5.97）表3.使用不同百分比的标记数据（报告了相应数量的图像）和100%的数据集作为未标记数据，我们提出的方法在ECOCO上的性能（mAP %）。对于我们的方法，我们还指出了改进（绿色和p.p.）w.r.t. FSL基线（参见图11）表1）。训练集（train2017）用作标记集，并将完整训练集用于未标记集（约118k图像）。在val2017上评价性能。在ESP-VOC 07-12上，我们将标记的训练集（VOC 07训练值）限制为5%或10%的随机样本（分别为250和500个标记图像），并使用完整的VOC 12训练值（约11 k图像）作为未标记的训练集。我们引入这种新的设置来评估我们的方法在VOC的FAL设置。我们还将结果与使用完整VOC07训练值标记训练集（5k标记图像）和VOC12训练值作为未标记图像的先前SSOD方法进行了比较标记训练集。根据VOC 07评价性能测试集在所有设置中，使用AP50：95（mAP，以%计）评估指标分别使用COCO和VOC评估代码报告和比较性能训练为了进行公平的比较，使用了在ImageNet [8]上预训练的完全监督的ResNet-50 [13]作为所有方法的基础。对于微调Def. DETR [39]在少量标记数据上，我们在8个GPU上以32个图像的批量大小训练模型，直到验证性能停止增加，即。对于COCO，1%最多2000epoch，5%最多500 epoch， 400 epoch增强系统概率参数受监督分支弱强水平翻转0.5–✓ ✓ ✓调整大小1.0短边∈范围（480，801，32）✓ ✓ ✓颜色抖动0.8（亮度、对比度、饱和度、色调）=（0.4，0.4，0.4，0.1）✓ ✓灰度0.2–✓ ✓高斯模糊0.5σ∈ [0. 一，二。0个字符]✓ ✓切口0.50.3规模∈ [0. 05，0。2]，比率∈ [0. 三三三、规模∈ [0. 02，0。2]，比率∈ [0.05，8]✓ ✓✓ ✓旋转0.3degrees∈[−30，30]✓0.5%（590）1%（1180）5%（5900）10%（11800）STAC [30]即时教学[37]FRCNN +9 .第九条。78十三岁97±二十四岁3828岁64 ±0。83方法OD拱度VOC 07-12表4.我们提出的方法在VOC上的性能（mAP %）与完全标记的VOC 07和未标记的VOC 12相比，与以前的工作，并在新的VOC07-12设置。不同百分比的VOC 07用作标记数据（5%、10%或100%，报告相应数量的图像），完整的VOC 12数据集用作未标记数据。对于我们的方法，我们还指出了改进（绿色和p.p.）w.r.t. FSL基线（参见图11）表1）。[23]第23话我的朋友与我们的方法进行比较[github]：发布后更新的结果[23]取自其官方代码发布3。对于Pascal VOC，对于5%和10%，最多2000个时期。对于半监督学习，我们在 COCO （分别为 PascalVOC）上为50个（分别为250个）未标记数据的epoch训练MT- DETR，其中批量大小为8个GPU上的48个标记图像和48个未标记图像在3个不同的随机子集上再现具有小于100%的标记数据的所有实验2。训练超参数的定义如Def中所述。DETR [39].损失系数设为λclass=2，λμ1= 5，λgiou= 2，λu= 4。按照国防部的训练计划。在DETR中，我们总是在大约80%的训练之后将学习率衰减0.1倍。保持速率参数α遵循从αstart= 0开始的余弦调度。9996到αend= 1，αstart的值根据以前的工作选择[23]。当使用Unbiased Teacher [23]时，我们遵循官方实现3和提供的超参数。增强对于强和弱数据增强，我们遵循以前工作中使用的常见数据增强[30，23，35]。对于弱增广，我们采用随机调整大小和随机水平翻转。我们随机添加颜色抖动，灰度，高斯模糊，CutOut补丁用于强增强，还随机添加重缩放，平移填充，剪切和旋转作为强增强中的几何变换[30]。在监督分支中，图像也使用弱增强和强增强随机增强，而无需遵循Soft Teacher [35]实践的任何几何变换。它帮助学生模型是增强不可知的，以更好地预测来自无监督分支中的非增强图像的伪标签。我们在最困难的设置中删除了受监督分支中的CutOut增强，即0.5%和1%，因为2参见我们的官方资料库。3官方UBT存储库。它可以覆盖仅有的有标签的小盒子，并且是适得其反的。不同增量的所有参数见表2。4.2. COCO和Pascal VOC的FAL结果表3和表4显示了通过我们的方法与文献中先前的方法相比，在CO2-COCO和CO2-VOC 07-12基准上获得的结果（mAP %）。从这两个表中可以看出，我们的方法是唯一一个考虑基于transformer的OD架构（Def.DETR），而不是通常使用的两级架构（FRCNN +FPN）。当我们执行Def. DETR到无偏见的教师[23]（ UBT），我们发现该模型不能收敛于 FAL 设置（c.f。图1）。首先，我们可以从这两个表中看到，我们的方法总是比相应的完全监督的FSL基线提高性能（c.f.表1）。使用我们的方法，我们在数据集的所有标记部分上都优于最先进的结果，并且在注释稀缺时获得更强的结果：全球约+1性能点（p.p.）当使用1K或更少的标记图像时，这在总体性能较低时甚至更为显著。对于具有1%的标记图像的ECO-COCO，我们的方法实现了22.03 mAP的平均值，这大约1.2 p.p.，或者比最先进的UBT提高6%。值得注意的是，在具有10%的标记图像的M-VOC上，我们获得了43.15 mAP的平均性能，对应于2.81 p. p.。或比UBT提高7% 我们注意到，当使用更多标记数据时，我们的方法也优于最先进的方法，例如使用100%标记的VOC07设置，其中我们提高了约1.5 p.p.。关于UBT5%（250）10%（500）100%（5000）STAC [30]FRCNN + FPN––44.64即时教学[37]FRCNN + FPN––50.00[31]第三十一话FRCNN + FPN––53.04无偏见的教师[github]FRCNN + FPN––54.48无偏见的教师FRCNN + FPN三十五98 ±0。71四十34 ±0。9554.61MT-DETR（Ours）Def. DETR三十六95± 0。53（+14.08）四十三15 ± 1。10（+14.12）56.284消融变体EMA调度表NMS置信度保持mAP（%）FT后的余弦常数从头开始0. 5 0. 7 0. 9最好的22.25消融导管Sched.中国21.48消融导管Init.中国16.51消融导管澳门金沙城中心19.85中国10.26消融导管锤石中国17.34中国12.37表5.我们的方法的不同部分的消融研究绿色和粗体列名称表示对性能的正面影响，红色列表示负面影响。余弦调度、微调（FT）后的初始化和原始软伪标签的使用对应于找到的最佳组合。4.3. 消融研究在表5中，我们介绍了我们方法主要部分的消融研究我们在下面回顾了每种消融术。比较了最优调度和最优调度的EMA调度效果。行。我们可以看到，使用余弦调度来逐渐减小EMA保持率参数α导致大约0.7 p.p.的改进，而不是像其他SSL方法中那样使用α的恒定值[23，35，31]。在这种消融中，我们研究了端到端半监督学习[35]在行中的效果。这包括从头开始半监督训练，与行Best中的微调（FT）之后的初始化相比，其中我们根据微调模型在少数标记数据上的权重来初始化学生和教师模型如表5所示，与Soft Teacher [35]相反，从微调的权重开始半监督训练更有效（约5.7p.p.更好），因为教师模型将从训练开始时就为学生提供有用的伪标签删除NMS以避免过滤感兴趣的伪标签和引入偏差的重要性在行Best和行B.NMS之间显示。我们可以看到，与使用其他检测器时的常见做法相反[23，35，31]，NMS的引入导致约2.5 p.p.这就是为什么我们使用原始的伪标签，即。无需任何后处理。引入阈值以过滤掉由具有较差置信度的教师给出的伪标签的效果在行Best和行Thresh中示出。. 我们使用文献中的几个常用值（0.5，0.7和0.9）[29，23，35]测试结果0.7的值似乎给出了阈值化变体之间的最佳最终结果（17.34mAP），但是我们可以看到，最好的阈值是非常敏感的。与Humble Teacher [31]类似，我们还发现，移除置信度阈值以使用所有软伪标签（对应于具有R2的列），会导致更强的结果（22.24mAP），更低的灵敏度和更少的超参数。5. 结论在这项工作中，我们在不同的数据稀缺设置与国家的最先进的基于变压器的对象检测器def进行了实验。DETR [39]并表明它比最流行的两阶段检测器Faster-RCNN [26]和FPN [19]表现令人惊讶的是，我们发现无偏见的教师[23]，一种最先进的SSOD方法，在应用Def时没有收敛。Detr.为了解决这个问题，我们提出了动量教学DETR（MT-DETR），一种基于变压器为OD量身定制的SSL方法，以便利用很少的标记数据来利用其良好的结果我们的方法是基于一个学生-教师架构，并与通常的做法相反，放弃了所有以前使用的手工制作的算法来处理由教师生成的伪标签。这些处理步骤对超参数很敏感，并引入了偏差，导致模型在预测中过于自信。我们表明，我们提出的MT-DETR优于国家的最先进的方法，特别是在FAL设置- tings。未来的工作可能会进一步推动OD中的数据稀缺性，以考虑每个类别的很少标记的示例，并更好地了解如何在这种设置中匹配SSL方法用于图像分类的性能[29]。致谢作者感谢Ievgen Redko富有成效的讨论和校对。这项工作是通过使用Factory-AI超级计算机实现的，该计算机由法兰西岛地区委员会提供财政支持。85引用[1] Eric Arazo ， Diego Ortego ， Paul Albert ， Noel EO'Connor和Kevin McGuinness。深度半监督学习中的伪标记和确认偏差 2020 年国际神经网络联合会议（IJCNN），第1-8页IEEE，2020年。[2] David Berthelot 、 Nicholas Carlini 、 Ian Goodfellow 、Nicolas Papernot 、 Avital Oliver 和 Colin A Raffel 。Mixmatch：半监督学习的整体方法。神经信息处理系统的进展，32，2019。[3] Navaneeth Bodla，Bharat Singh，Rama Chellappa，andLarry S Davis.用一行代码改进目标检测。在IEEE计算机视觉国际会议论文集，第5561-5569页[4] Cristia nBuciluaˇ，RichCaruana，andAle xandruNiculescu-Mizil. 模型压缩。在 Proceedings of the 12th ACMSIGKDD international conference on Knowledge discoveryand data mining，pages 535[5] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测。在欧洲计算机视觉会议上，第213-229页。Springer，2020年。[6] Mathil deCaron ， HugoTouvron ， IshanMisra ， Herve'Je'gou ， Julien Mairal ， Piotr Bojanowski ， and ArmandJoulin.自我监督视觉转换器中的新兴特性。IEEE/CVF计算机视觉国际会议论文集，第9650-9660页，2021年[7] Ting Chen ， Simon Kornblith ， Kevin Swersky ，Mohammad Norouzi，and Geoffrey E Hinton.大的自监督模型是强半监督学习器。神经信息处理系统进展，33：22243[8] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。[9] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams，John Winn，and Andrew Zisserman.pascal视觉对象类（ voc ）的挑战。 International Journal ofComputer Vision，88（2）：303[10] 罗斯·格希克。快速R-CNN。在Proceedings of the IEEEinternational conference on computer vision ，第 1440-1448页，2015中。[11] Ross Girshick，Jeff Donahue，Trevor Darrell和JitendraMalik。丰富的特征层次结构，用于精确的对象检测和语义分割。在 Proceedings of the IEEE conference oncomputer vision and pattern recognition，pages 580[12] Je a n-BastienGrill ， FlorianStrub ， FlorentAltch e´ ，CorentinTallec，Pierre Richemond，Elena Buchatskaya，Carl Doersch ， Bernardo Avila Pires ， Zhaohan Guo ，Mohammad Ghesh- laghi Azar，et al.引导你自己的潜意识自我监督学习的新方法。神经信息处理系统的进展，33：21271[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页86[14] Jan Hosang，Rodrigo Benenson，and Bernt Schiele.学习非最大抑制。在IEEE计算机视觉和模式识别会议论文集，第4507-4515页[15] Jisoo Jeong ， Seungeui Lee ， Jeesoo Kim ， and NojunKwak.基于一致性的对象检测半监督学习。神经信息处理系统，32，2019。[16] Samuli Laine和Timo Aila用于半监督学习的时间集成第五届国际

下载后可阅读完整内容，剩余1页未读，立即下载