无锚与基于锚的半监督目标检测器的有效性及边界框回归的改进性

6 浏览量更新于2023-10-25 收藏 1.2MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9819Unbiased Teacher v2：无锚和基于锚的检测器Yen-Cheng Liu1，Chih-Yao Ma2，Zsolt Kira11佐治亚理工学院，2Meta{ycliu，zkira}@gatech.edu，cyma@fb.com摘要随着半监督目标检测（SS-OD）技术的发展，目标检测器可以利用有限的标记数据和大量的未标记数据来改进。然而，仍然有两个挑战没有解决：（1）没有关于无锚检测器的先前SS-OD工作，以及（2）当伪标记边界框回归时，先前工作是无效的。在本文中，我们提出了Unbiased Teacher v2，它展示了SS-OD方法对无锚检测器的推广，并且还引入了用于无监督回归损失的Listen 2Student机制。具体来说，我们首先提出了一项研究，研究现有的SS-OD方法对无锚检测器的有效性，并发现它们在半监督设置下实现了低得多的性能改善我们还观察到，在无锚检测器中使用的具有中心性的框选择和基于定位的标记在半监督设置下不能很好地工作。另一方面，我们的Listen 2Student机制明确地防止了边界框回归训练中的误导性伪标签;我们专门开发了一种基于教师和学生相对不确定性的新型伪标签选择机制。这个想法有助于在半监督设置中的回归分支的有利改善。我们的方法适用于无锚和基于锚的方法，始终与VOC、COCO标准和COCO附加的最先进方法相比表现良好1. 介绍近年来，深度学习模型在目标检测任务上取得了显着的性能，尽管强大的性能在很大程度上依赖于训练具有大量带有人工标注标签的图像的网络为了减少训练对象检测器的标签监督，已经提出了半监督对象检测（SS-OD）方法，以仅利用有限的标记数据，但更多地利用标记数据。dant未标记的数据，以提高性能[5，9，20，26，38]。现有的最先进的SS-OD方法应用自训练技术，其生成伪标签并强制具有不同增强的未标记数据之间的一致性。尽管有了显著的改进，但仍然存在两个未解决的问题：（1）没有关于无锚检测器的先前SS-OD工作，以及（2）先前的工作在边界框回归的伪标记中无效。首先，无锚检测器最近在对象检测社区中得到了更多的关注[11，15，16，29，30，37，42]，有望实现有竞争力的准确性，计算效率以及对新数据集或环境的潜在推广[37]。尽管有这些进步，现有的SS-OD工作[9，20，26]主要集中在基于锚的探测器上（例如，Faster-RCNN [21]和SSD [19]），但没有经验地验证它们在无锚检测器上的有效性事实上，当我们将最新的最先进的SS-OD方法应用于无锚检测器时，我们观察到，与基于锚的模型的改进相比，无锚模型的改进要小得多（见图1a和表1）。通过第3.2节中提供的广泛分析，我们发现一些在全监督环境中表现良好的高级。例如，中心度分数对于半监督设置下的框选择变得不可靠，并且基于定位的标记方法对于伪标记中的定位噪声不鲁棒。其次，遵循教师-学生框架，现有的SS-OD作品[26，38]应用无监督回归损失，其中伪盒从置信度阈值生成（即，框分数上的阈值）。然而，我们发现这种方法继承了一些可以进一步解决的潜在问题例如，（1）代替使用一个单个度量（例如，为了共同表示四个边界的质量，每个边界的置信度/不确定性应该单独预测;（2）分类分支中的置信度可能无法反映边界预测的质量，9820(a)（b）第（1）款图1.为了改善无监督回归损失，我们提出了（a）Listen2Student，它显式地比较教师和学生之间的预测不确定性，并选择教师具有比学生更低的不确定性的实例然后，我们在这些选定的回归伪标签上强制执行无监督回归损失（2）无锚检测器近年来发展迅速，而在无锚模型上采用伪标记方法与基于锚的检测器相比改进较少回归分支。相反，我们建议预测回归分支上的不确定性，以选择用于边界预测的伪标签;（3）最后，简单地依赖于教师相反，我们建议利用教师和学生之间的相对不确定性来选择边界级伪标签，其中教师具有比学生更低的不确定性。整合这三个组件，我们提出Listen2Student来改善SS-OD任务的无监督回归损失，如图1b所示我们证明，我们提出的方法实现了显着的改进相比，国家的最先进的SS-OD方法时，使用锚的自由和基于锚的检测器在几个SS-OD基准，包括COCO标准，COCO附加，和VOC。我们还提供消融研究，以检查我们的Lis-ten 2Student的有效性。我们将主要贡献总结如下：• 我们展示了我们提出的半监督方法在基于锚和无锚检测器上的推广。据我们所知，我们是第一个检查无锚模型的SS-OD，我们确定的核心问题，在应用SS-OD方法无锚检测器。• 我们明确地删除误导性的回归伪标签的情况下，考虑相对不确定性估计的教师和学生的预测。我们提供了分析，以验证我们的ap-proach的无锚和锚为基础的检测器的有效性。• 基于我们对无锚和基于锚的检测器的实证研究，我们的方法显示出良好的改进，对国家的最先进的方法。与所提出的方法，我们还桥锚无和锚为基础的检测器在半监督设置下的性能差距。2. 相关工作无锚物体探测器。深度学习模型的发展使目标检测任务得到了显著改善。现有的对象检测器包括基于锚的检测器[2，17，19，21，24，32]和无锚探测器[11，13，29，30，40，42]。具体地，基于锚的检测器预测用于预定义锚框的框移位和缩放，并且每个预测框根据其与地面实况框的交并（IoU）得分来标记。基于标签分配（即，将分类标签分配给预测的实例）和前景-背景锚定框的子采样，然后训练模型以执行对象检测。尽管已经取得了显着的成果，但在新数据集上应用基于锚的检测器需要专家调整与锚盒相关的超参数[10]，这限制了适应新数据集或环境的能力[37]。或者，无锚模型通过去除检测模型中预定义的锚框来减轻这些例如，基于关键点的无锚检测器通过将框表示为两个角点[13]、具有四个极值点的中心点[40]以及具有框重量和高度的中心点[39]来消除设计一组锚框的需要。同样，FCOS [29]删除了9821ΣL←supssL我我我θs我我我i i i=1i i=1预定义的锚框并预测分类分数、到四个边界的距离以及每个像素的中心度分数。几项工作通过提出自适应样本选择[37]，使用软标签联合训练中心和分类分支[16]，软选择金字塔级别[41]以及对边界不确定性建模[15]来提高无锚模型的性能。在本文中，我们使用FCOS [29]作为我们的基础无锚模型，表 1. 无偏见教师 [20] 对无锚模型的适应。在无锚模型（FCOS）上应用无偏教师时，性能会降低。方法模型COCO标准百分之零点五百分之一百分之五百分之十百分百[20]第二十话F-RCNN14.3618.3326.6529.5637.90[20]第二十话FCOS10.27（-4.09）14.61（-3.72）23.99（-2.66）28.18（-1.38）38.10因为它是公开的，并广泛用于现有的无锚模型[15，16，37，41]。Ds={xs，ys}Ns 和未标记图像Du={xu}Nu半监督对象检测。近年来，半监督学习在图像分类中得到了迅速的Ex-SSL图像分类工作[1，6，8，12，22，25，28，35，36]在未标记的图像上应用输入增强/扰动和一致性正则化，以改进用有限数量的标记数据训练的模型。启发在培训期间可用。为了解决半监督对象检测，实验[20，26，38]利用伪标记方法。具体来说，这条线的作品包含两个阶段：1）老化阶段和2）相互学习阶段。在老化阶段，利用可用的标记数据，利用标准监督损失训练初始对象检测器，Lsup=L（xs，ys）. 在相互学习阶段，已经提出了利用类似思想以半监督方式训练对象检测器的工作。例如，CSD [9]应用左右一致性损失来加强水平翻转的未标记图像之间的预测一致性。其他一些作品[20，26，27，38]利用伪标签，其中模型迭代地生成未标记数据的伪标签，并将置信预测添加到训练数据中。STAC [26]使用有限数量的标记数据来训练对象检测器，该对象检测器用于在离线的方式。为了改进伪标签的质量预训练的对象检测器最初被复制到学生和教师模型中。然后，在每次训练迭代中，教师模型将弱增强的未标记图像作为输入，并预测边界框，以及框得分高于阈值τ的实例（即，置信度阈值）被选择为伪标签。基于伪标签和相同的未标记图像，但具有更强的增强，计算无监督损失unsup，并将其与监督损失相结合，以训练学生模型θθ+其中Lunsup=<$L（xu，y<$u）。ToInstant-Teaching [38]提出了一种协同校正方案，用于校正两个相同但独立训练的模型之间的错误预测HumbleTeacher [27]应用指数移动平均（EMA）和软伪标签来改进仅在标记数据上训练的模型。Unbiased Teacher [20]提出以在线方式生成伪标签，并通过解决伪标签偏差问题进一步提高伪标签的质量。Soft- Teacher [33]提出了一个简单的背景加权损失和箱方差过滤器，以提高对监督基线的性能。虽然他们可以提高性能的半监督设置，现有的工作只提出了他们的结果基于锚的检测器。因此，我们感兴趣的是研究最先进的方法的推广（即，伪标记），并提高无锚模型的性能，用于半监督对象检测任务。3. 方法3.1. 背景：半监督对象检测和伪标记为了在半监督环境中学习目标检测器，我们假设一组标记图像完善伪标签的质量，教师模型权重（θt）可以通过指数移动平均（EMA）用学生模型权重（θs）进一步更新，如[20]所示。虽然基于伪标记的现有工作[20，26，38]已经对基于锚的检测器（即，Faster-RCNN），目前还不清楚这种方法是否适用于无锚探测器。这促使我们研究其推广到无锚检测器，并且我们提供了我们的发现并表明最先进的SS-OD方法是无效的，因为它主要是针对基于锚的检测器设计的（在第3.2节中）。3.2. 无锚检测器我们以广泛使用的FCOS模型[29]作为研究SS-OD任务的无锚检测器的示例FCOS [29]有三个主要的预测分支：1）用于执行对象类别分类的分类器，2）用于指示成为前地对象中心的概率的中心这些模型通常充分利用卷积层并执行逐像素预测。为了训练模型，地面实况框内的所有像素都被标记为前景，其余像素被标记为背景，并且回归损失和中心度损失仅为通过这些工作，几个半监督目标检测9822中心度中心抽样基于定位课标签标准精密度：0%精密度：10%精密度：32%分类召回率：0%召回率：10%召回率：55%(a)（b）（c）图2. 中心偏差问题的插图。(a)在半监督学习中，基于盒子分数的伪盒子选择比基于分类分数的伪盒子选择效果更差。（b）无锚检测器的框分数[29，37]被定义为中心分数和分类分数的乘积，我们发现（c）伪框的框分数由中心分数主导，这在半监督设置中是不可靠的（更多细节请参见附录）。表2.虽然基于框分数的框选择在全监督设置中导致更高的检测准确率，但它在半监督设置下的表现不如基于分类分数的框选择(a)（ b ）第（1）款图3. 标签分配不可靠的插图。（a）用于改进完全监督的无锚检测器的现有技术，例如中心采样[29]和基于定位的分类标签[16]，对定位噪声的鲁棒性较低（例如，框中心移位），并且这两种技术的逐像素查全率和查准率低于标准标签分配。因此，（b）我们的经验评估表明，标准的标签分配导致更好的结果。表3.虽然中心采样在全监督环境中提高了无锚检测器的性能，但它在半监督环境中降低了性能。来自FCOS的完全监督结果[29]。学习设置。完全监督的结果来自FCOS [29]。不带中心采样带中心采样∆课评分Boxscore全监督37.1038.10+1全监督33.5037.10+3.60半监督17.7914.96-2.83半监督17.7915.12-2.67在这些前台实例中执行。有关无锚探测器的更多详细信息，请参阅FCOS论文[29]。如图Ib和表1所示，我们观察到，与基于锚的检测器相比，简单地将现有的最先进的SS-OD方法[9，20，26]应用于无锚检测器获得了小得多的我们这归因于以下两个因素。中心偏见问题。如图2b和表2所示，我们注意到，在半监督设置中，基于框分数选择伪框的性能比仅依赖于分类分数更差，而FCOS [29]显示使用框分数在全监督设置中产生更好的结果。我们观察到，这是因为一些无锚检测器[29，37]的框分数被定义为分类分数和中心分数的乘积（见图2a），并且基于框分数选择的伪框具有相对较高的中心分数，但分类分数较低（见图2c）。这表明，在伪标记机制中，框分数由中心分数主导。然而，由于在训练中使用的标签的数量有限，中心性分数对于反映预测是否是前期实例是不可靠的，因为没有监督来抑制中心性分支1中的背景实例的中心性分数。因此，这些选定的高中心度伪[1]在广义焦点损失中也有类似的观察[16]。框很可能是背景实例，并且在半监督训练中添加这些假阳性伪框降低了伪标记的有效性，并且还加剧了中心偏差问题。标签分配不可靠。为了提高全监督无锚检测器的性能，一些作品[16，39]提出使用软分类标签，这些标签基于边界框定位进行加权，如图3a所示。类似地，FCOS [29]还提出了一种高级标签分配技术，中心采样，它将靠近对象中心的实例视为前景实例，并使用标准标签分配对模型进行改进，该标准标签分配将地面实况框内的所有实例标记为前景，其余实例标记为背景。尽管上述技术在全监督训练期间改进了无锚检测器，但我们发现它们在半监督训练期间无效甚至有害（参见图3b和表3）。我们假设这是因为伪框可能具有定位噪声（由于框的中心被移位或者框具有不正确的宽度和高度），并且使用中心采样或基于定位的软标签使得逐像素预测被错误地标记为前景（假阳性）或背景（假阴性）。例如，如图3所示，对于具有合理量的定位噪声的该特定示例，中心采样的精度和召回率远低于标准盒子得分X背景前景伪盒9823||−||||−||||−||||−||≤不2S有益STGT老师比较好误导TSGT学生更好(a)（b）第（1）款不能明确地防止回归伪标签中的误导性实例，因为教师仍然可以提供与地面实况方向相矛盾的回归方向类似的观察也发现在以前的工作中知识蒸馏回归任务[3，23]。3.3.2Listen2Student为了解决上述问题，并改善回归图4. （a）有益/误导回归伪标签和（b）Listen 2Student。（a）我们将回归伪标签分类为有益的和误导性的实例，以及（b）我们的Lis-ten 2Student防止了误导性的回归伪标签，从而改进了回归分支。为了缓解中心性偏差问题，我们在有限监督场景中仅基于分类分数（并且忽略中心性分数）选择伪框，因为我们经验性地发现分类分数更可靠地表示预测实例的对象性，特别是以这种方式，假阳性伪标记不太可能妨碍伪标记的有效性，从而提高伪标记的性能。我们还用硬标签训练分类器（即，独热向量）而不是具有框定位加权的软标签。最后，我们不使用中心采样，而是使用标准的标签分配方法，该方法将边界框内的所有元素标记为前景，其余元素标记为背景。3.3. Listen2Student无监督回归损失3.3.1回归置信阈值的局限性虽然置信度阈值已被证明在分类（图像级[25]或框级[20，26，38]）中工作良好，但我们观察到仅依赖于框置信度在回归分支的训练中，采用师生机制，筛选出对回归分支训练有益的实例，剔除误导性直观地说，我们开发了一种新的方法来使用学生和教师之间的相对预测信息;据我们所知，这是第一次超越仅仅使用教师具体而言，如图4所示，边界预测的有益实例被定义为：满足以下条件的实例||dt−dg||≤||ds−dg||其中，d_t是Teacher回归预测，d_s是Student回归预测，d_g是地面实况回归标记。作为比较，回归的误导性实例被表示为满足dtdg>dsdg。回归的不确定性预测。当我们希望使用地面实况标签dg来决定来自教师的预测是否更好，实际上，地面实况标签对于SS-OD不可用。因此，我们提出预测定位不确定性，其与地面实况标签的误差松散相关（即，德维特dg和dsdg）对于未标记的数据。正如所示在图4中，每个边界预测的定位不确定性是通过添加附加分支来导出的，该附加分支具有与边界距离回归分支相同的输出大小定位不确定性分支与边界距离分支联合训练，我们使用负幂对数似然损失（NPLL）[14]2作为回归损失，不能有效地消除误导性的情况下，超级计算机（ds−dg）21S框回归，有几个原因，为什么它不（1）首先，置信度阈值Lreg=ni（我（2δ2+2 logδs）+2 log2π），现有的工作基于框分数选择伪框，其仅反映Faster-RCNN [ 20 ]中对象分类的置信度，并且没有明确的模块估计回归预测的置信度（或不确定性），即，回归分支仅预测边界位置，而没有任何指示普通对象检测器中的定位不确定性的度量。(2)第二，使用一个单一分数（例如，中心度或IoU得分）来共同表示四个预测边界的质量是不准确的，因为在有限监督设置下难以获得具有四个同等精确边界的伪框。(3)最后，与离散对象类别的伪标签不同，实值回归输出是无界的。仅根据教师的信心选择伪框其中，ηi是预测框与地面实况框，δs是学生的预测不确定性。伪标签选择的相对不确定性。通过不确定性估计，我们首先松散地移除学生具有非常小的定位不确定性δs σs的边界。然后，我们提出了一种选择机制，该机制不仅明确考虑教师通过选择有利的实例，其中教师具有比学生更低的局部化不确定性，具有余量σ，2Listen2Student不限于NPLL，其他回归不确定性估计方法[7]也可能适用。中心中心W4边界H距离教师回归定位4 W不确定H阿勒特4W边界H距离定位W学生回归4不确定性H伊比较9824≥无监督回归损失定义为. Σ||d˜i−d˜i||，若δi+σ≤δi联合国粮食计划署我不S不S实施详情。我们的实现基于Detectron 2 [31]。为了训练我们的模型，我们使用学习率为0的SGD优化器。01，每一批都含有Lreg=、（1）0，否则8个标记图像和8个未标记图像，除非另有说明。我们使用无监督损失权重λ u= 3。0和class-其中σ0是教师和学生的本地化不确定性之间的裕度。请注意，无监督回归损失是在边界级别而不是框级别计算的，因此框的某些边界用于计算无监督回归损失，而其他边界则不是。这种机制的核心思想是，教师应该只指导学生的情况下，教师有较低的不确定性比学生，因为它表明，教师有一个潜在的较低的错误。相比之下，对于教师比学生具有更高不确定性的情况，我们不应该强制损失，因为教师可能比学生预测得更糟，从而在这些情况下误导基于这种选择机制，我们可以显式地防止梯度误导的实例降低回归分支的性能。因此，我们的回归分支可以逐步细化，得到更精确的边界预测.值得注意的是，定位不确定性分支是一个单独的分支，仅在训练阶段使用，因此在推理过程中不会引入额外的计算。4. 实验4.1. 设置和实施详细信息实验设置。我们遵循现有半监督对象检测工作中提出的实验设置[20，26]。具体来说，我们使用MS-COCO [18]和PASCAL VOC [4]，并在三个实验场景中检查我们提出的方法，COCO标准，COCO附加和VOC。对于COCO标准，我们随机抽样0。5%、1%、2%、5%和10%的标记训练数据作为标记集，其余数据作为未标记集。对于COCO-附加，我们使用COCO 2017-标记作为标记集，COCO 2017-未标记作为未标记集。我们在COCO 2017-val上对COCO-标准和COCO-附加进行了评估，与之前的工作一样。对于VOC，使用VOC 2007- trainval作为标记集，使用VOC2012-trainval和COCO 20 cls作为未标记集。VOC实验中的所有训练模型都在VOC 2007测试中进行了评估。模型架构。为了检查无锚模型用于半监督对象检测的有效性，我们选择FCOS [29]作为我们的基础无锚模型，因为它在现有的无锚作品中被广泛采用[15，16，37，41]。由于现有的工程主要集中在在基于锚的模型上并使用Faster-RCNN [9，20，26]或SSD [9]，我们还将现有的SS-OD方法[9，20，26]适应于无锚模型（例如，FCOS）。分解阈值τ= 0。5，设σ= 0。1作为教师和学生的定位不确定性与σ s= 0之间的差值。五、我们调整了UnbiasedTeacher中使用的数据增强，并应用了SoftTeacher中使用的尺度抖动[33]，而在训练过程中没有使用任何几何增强，因为我们根据经验发现尺度抖动导致了显着的改善。补充材料中列出了更多细节。4.2. 无锚探测器COCO标准。我们将三种基于锚点的方法（CSD[9]、STAC [26]和Unbiased Teacher [20]）应用于无锚点模型，每种方法运行五次，并报告其均值和方差，如表4所示。在不同的监督程度下，我们的模型始终表现出优于基线方法，当监督水平较低时，改进的差距较大我们对VOC和COCO-附加物的实验也产生了类似的趋势（实验结果见附录4.3. 基于锚点的检测器除了无锚模型的结果，我们还感兴趣的是，我们提出的方法是否可以推广到不同类型的对象检测器。具体来说，我们将我们的无监督回归损失应用于UnbiasedTeacher，并修改回归分支，以预测具有额外分支的定位不确定性，如我们在第3.3节中所做的那样。我们在Faster-RCNN 上检查了我们的 Listen 2Student ，用于COCO标准，VOC和COCO附加，如下所示。COCO标准。如表5所示，与最先进的SS-OD方法[20，27，33]相比，我们的方法在0. 5%到10%的数据被标记。在不同批量下，我们可以保持与现有SS-OD方法的改进差距，并进一步将性能提高到35。在COCO标准10%情况下为08mAP此外，我们还发现，通过使用我们的框架，无锚和基于锚的检测器之间的性能差距减小，这验证了我们提出的Listen2Student到无锚和基于锚的检测器的推广VOC和COCO-附加。为了验证我们的框架是否可以改进使用未标记集合训练的对象检测器，我们还考虑了表7中的VOC和表8中的COCO-附加。使用VOC 07作为标记集，我们的模型可以利用VOC 12来实现56。87mAP，而使用VOC12+COCO20cls作为未标记集合可以进一步改进模型，达到58. 08mAP。上9825†表4.无锚模型（FCOS-ResNet 50）在COCO标准上的实验结果。* 我们重新实施并适应FCOS-ResNet 50。我们随机抽取标记数据，并运行每种方法5次，并报告每个结果的平均值和标准差。我们使用8个标记图像和8个未标记图像来获得本表中列出的所有结果。COCO标准的无锚探测器CSD [9]* 5.76 ±0.55（+0.34）9.23 ± 0.08（+0.80）12.53 ± 0.04（+0.56）18.09 ± 0.08（+1.08）22.06± 0.01（+1.08）STAC [26]* 8.79 ±0.12（+3.37）11.97 ±0.12（+3.54）15.50 ±0.16（+3.53）20.36 ±0.05（+3.35）24.31± 0.02（+3.33）无偏见教师[20]* 10.27 ±0.13（+4.85）14.61 ± 0.10（+6.18）18.70 ± 0.21（+6.73）23.99 ± 0.12（+6.98）28.18± 0.01（+7.20）我们的16.25±0.18（+10.83）22.71±0.42（+14.28）26.03±0.12（+14.06）30.08±0.04（+13.07）32.61±0.03（+11.63）表5.基于COCO标准的锚模型（FasterRCNN-ResNet 50）的实验结果。为了公平比较，我们使批量大小与基线方法一致。：使用标记/未标记批量32/32，*：使用标记/未标记批量8/40，其余结果使用批量8/8。我们随机抽取标记数据，并运行每种方法5次，并报告每个结果的平均值和标准差。基于COCO标准的Anchor探测器STAC [26] 9.78 ±0.53（+2.95）13.97 ±0.35（+4.92）18.25 ±0.25（+5.55）24.38 ±0.12（+5.86）28.64± 0.21（+4.78）谦卑教师[27]-16.96 ±0.38（+7.91） 21.72 ± 0.24（+9.02）27.70 ± 0.15（+9.23）31.61± 0.28（+7.74）即时教学[38]-18.05 ±0.15（+9.00） 22.45 ± 0.15（+9.75）26.75 ± 0.05（+8.28）30.40± 0.05（+6.54）无偏见教师[20] 14.36 ±0.09（+7.53）18.33 ± 0.19（+9.28）22.23 ± 0.21（+9.53）26.65 ± 0.31（+8.18）29.56± 0.24（+5.70）ISMT [34]-18.88 ±0.74（+9.83）22.43 ± 0.56（+9.73）26.37 ± 0.24（+7.90）30.53± 0.52（+6.67）我们的17.51± 0.24（+10.68）21.84± 0.13（+12.79）26.14± 0.01（+13.44）30.06± 0.14（+11.59）33.50± 0.03（+9.64）SoftTeacher [33] 20.46 ±0.39（+11.41）-30.74 ± 0.08（+12.27）34.04± 0.14（+10.18）本港*21.02±0.49（+14.19）24.79±0.30（+15.74）28.23±0.05（+15.53）32.05±0.04（+13.58）35.02±0.02（+11.16）无偏见的教师[20]<$16.94 ±0.23（+10.11）20.75 ± 0.12（+11.72）24.30 ± 0.07（+11.60）28.27 ± 0.11（+9.80）31.50± 0.10（+7.64）我们的<$21.26±0.21（+14.43） 25.40±0.36（+16.35）28.37±0.03（+15.67）31.85±0.09（+13.38）35.08±0.02（+11.22）另一方面，对于COCO 2017-unlabeled set，我们的模型可以对COCO 2017-train训练的对象检测器表现良好，达到44。75mAP。请注意，我们为720k次迭代训练我们的模型，并且不调整推断阈值（与SoftTeacher相同）。更长时间地训练模型或调整推理阈值可能会进一步提高性能。这些结果证实了我们的框架在使用额外的未标记图像改进现有对象检测器方面的有效性。4.4. 无监督回归损失我们比较了这些方法，包括1）我们提出的Lis-ten2Student2）无无监督回归损失，以及3）使用置信度阈值和强制L1损失，如现有作品中所使用的[26，38]。为了进一步了解这些方法如何有助于边界框回归的改进，我们提供了从AP55到表6中每种方法的AP95。值得注意的是，我们只改变了这些方法中的无监督回归损失，并在所有变体中保持剩余的目标函数和修改相同。我们观察到，尽管置信度阈值可以改善更容易的评估指标（例如，AP 55），它不能改善或甚至降低更严格的评估指标的结果（例如， AP 95）。这表明，简单地使用置信度阈值不能防止误导性伪标签降低极其精确的边界预测的性能相比之下，我们的Listen2Student在所有评估指标上都显示出一致的改进，并导致了有利的结果，特别是在这些更严格的评估指标上。这从经验上证实了我们的Listen2Student有助于更精确的边界框预测，因为我们的Listen2Student强制执行边界无监督回归损失，它利用了由百分之零点五百分之一百分之二百分之五百分之十监督5.42 ±0.018.43 ±0.0311.97 ±0.0317.01 ±0.0120.98 ±0.01百分之零点五百分之一百分之二百分之五百分之十监督6.83±0.159.05 0.16±0.1612.70 ±0.1518.47 ±0.2223.86 ±0.81CSD [9]7.41±0.21（+0.58）10.51± 0.06（+1.46）13.93± 0.12（+1.23）18.63± 0.07（+0.16）22.46± 0.08（-1.40）9826表6.无监督回归方法的平均精度（AP）分解。我们还报告了每种无监督回归损失方法相对于没有无监督回归损失的模型的绝对改进。AP55AP60AP65AP 70AP75AP80AP85AP90AP95无回归29.7127.3424.6421.3817.5513.278.333.450.35信心指数持有30.6028.1925.0721.9317.9613.328.223.120.32+0.89+0.85+0.43+0.55+0.41+0.05-0.11-0.33-0.03Listen2Student（我们的）30.7828.5926.1923.0519.6415.6110.475.060.58+1.07+1.25+1.56+1.67+2.09+2.34+2.14+1.61+0.23表7. 基于锚点的模型（Faster-RCNN）的结果VOC。方法标记未标记AP50AP50：95表8. 基于锚点的模型（Faster-RCNN）对COCO附加的结果。* 我们将Soft- Teacher [33]中使用的比例抖动调整为Unbiased Teacher，这导致了显着的改进。监督STAC [26] 77.45 44.64[34] 2016年12月31日即时教学[38]VOC07 VOC1279.20 50.00[27]第二十七话无偏见的教师[20] 80.51 54.48我们的81.29 56.87方法mAP监督40.90CSD [9] 38.52STAC [26] 39.21[27]第二十七话VOC07+无偏见的教师[20] 81.71 55.79我们的82.04 58.08比较各边界预测的不确定性估计限制和未来的工作。虽然我们已经展示了对无锚和基于锚的检测器的改进和推广，但将SSOD方法应用于大规模未标记数据集（例如，OpenImage）仍然是一个挑战。我们还发现，边界预测的定位不确定性估计留下了改进的空间，还有其他挑战，例如未标记数据集中的不可见对象或数据集之间的域转移。虽然这些主题不是本文的重点，但它们值得在未来的研究中探索。5. 结论本文研究了现有的无锚模型的SS-OD方法，并给出了无锚探测器的SS-OD通过对无锚检测器伪标记方法中存在的核心问题的识别和处理，我们的方法可以对现有的方法进行改进。我们进一步预-Listen2Student是一种新的方法，它使用相对的教师/学生不确定性来显式地防止错误引导的回归伪标签，并以边界方式选择有益的回归伪标签。这使得回归分支能够受益于未标记图像的使用。在实验部分中，我们在三个不同的SS-OD任务中检查了每种方法，并提出了一致的改进。我们还提供了一个广泛的研究，以验证我们提出的Listen2Student机制在无锚和基于锚的检测器上的有效性和通用性。关于负面的社会影响，我们认为有必要意识到，在监控系统中使用物体检测技术（不仅仅是我们的方法）存在风险此外，由于这一系列工作依赖于低标签数据进行模型训练，这增加了数据偏向历史弱势群体的风险。6. 致谢Yen-Cheng Liu和Zsolt Kira根据协议HR 0011 -18-S-0044得到了DARPA的[26]第26话46.01[20]第二十话44.06ISMT [34] 77.7549.59[33]第三十三话44.50即时教学[38]VOC1279.0050.80.我们44.75[27]第27话我爱你54.419827引用[1] David Berthelot 、 Nicholas Carlini 、 Ian Goodfellow 、Nicolas Papernot 、 Avital Oliver 和 Colin A Raffel 。Mixmatch：半监督学习的整体方法。神经信息处理系统进展（NeurIPS），第5049-5059页，2019年。3[2] Zhaowei Cai，Quanfu Fan，Rogerio S Feris，and NunoVas-concelos.用于快速目标检测的统一多尺度深度卷积神经网络在2016年欧洲计算机视觉会议（ECCV）的会议记录中2[3] 陈国斌，崔元根，项羽，韩东，和曼-莫汉·钱德拉克.学习有效的目标检测模型与知识蒸馏。神经信息处理系统进展，2017年。5[4] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams，John Winn，and Andrew Zisserman.pascal视觉对象类（ voc ）的挑战。 International Journal ofComputer Vision（IJCV），88（2）：303-338，2010。6[5] Jiyang Gao，Jiang Wang，Shengyang Dai，Li-Jia Li，and Ram Nevatia.注-rcnn：用于半监督对象检测的噪声容忍集成rcnn。在IEEE计算机视觉国际会议（ICCV）的会议记录中，2019年。1[6] Hongyu Guo，Yongyi Mao，and Richong Zhang.混合为局部线性流形外正则化。在AAAI人工智能会议论文集（AAAI），第33卷，第3714-3722页3[7] Yihui He ， Chenchen Zhu ， Jianren Wang ， MariosSavvides，and Xiangyu Zhang.具有不确定性的边界盒回归用于精确的对象检测。在IEEE/CVF计算机视觉和模式识别会议论文集，第2888-2897页，2019年。5[8] 作者：Dan Hendrycks，Norman Mu，Ekin D. Cubuk，Barret Zoph，Justin Gilmer和Balaji Lakshminarayanan。AugMix：一种简单的数据处理方法，用于提高鲁棒性和不确定性。2020年国际学习表征会议（ICLR）论文集。3[9] Jisoo Jeong ， Seungeui Lee ， Jeesoo Kim ， and NojunKwak.基于一致性的半监督学习目标检测。神经信息处理系统进展（NeurIPS），2019年。一、三、四、六、七、八[10] Licheng Jiao，Fan Zhang，Fang Liu，Shuyuan Yang，Lingling Li，Zhihi Feng，and Rong Qu.基于深度学习的物体检测综述IEEE Access，7：128837-128868，2019。2[11] Tao Kong，Fuchun Sun，Huaping Liu，Yunning Jiang，Lei Li，and Jianbo Shi. Foveabox：基于锚点的物体检测。IEEE Transactions on Image Processing，29：7389一、二[12] Samuli Laine和Timo Aila用于半监督学习的时间集成在2017年国际学习表征会议（ICLR）的会议记录中。3[13] 黑律和贾登。Cornernet：将对象检测为成对的关键点。在欧洲计算机视觉会议（ECCV）的论文集，2018。2[14] Youngwan Lee ， Joong-won Hwang ， Hyung-Il Kim ，Kimin Yun，and Joungyoul Park.定位不确定度估计用于无锚对象检测的信息。 arXiv 预印本 arXiv ：2006.15607，2020。5[15] 李翔、王文海、胡晓林、李俊、唐金辉、杨健。广义焦点损失v2：学习用于密集对象检测的可靠定位质量估计。

下载后可阅读完整内容，剩余1页未读，立即下载