基于软教师的端到端半监督目标检测方法及其性能改进

31 浏览量更新于2023-10-13 收藏 1.48MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3060基于软教师的端到端半监督目标检测徐梦德1†*郑章1，2*‡韩虎2‡王建峰2王丽娟2魏芳云2白翔1刘自成21华中科技大学{mdxu，xbai}@ hust.edu.cn，macaroniz1990@gmail.com2Microsoft{zhez，hanhu，jianfw，lijuanw，fawe，zliu} @ microsoft.com摘要本文提出了一种端到端的半监督对象检测方法，与以前的更复杂的多阶段方法。端到端训练在课程期间逐渐提高伪标签质量，并且越来越准确的伪标签反过来有利于对象检测训练。我们还在此框架内提出了两种简单而有效的技术：软教师机制，其中每个未标记的边界框的分类损失由教师网络产生的分类分数加权;盒抖动方法选择可靠的伪盒用于盒回归的学习。在COCO基准上，所提出的方法在var.50.045.040.035.030.025.020.015.010.05.00.01% 5% 10% 100%使用标记数据的比例（%）不同的标记比率，即1%、5%和10%。此外，我们的方法被证明执行也很好，当标记的数据量相对较大。例如，通过利用COCO的123K未标记图像，它可以在最先进的基于Swin Transformer的对象检测器上（测试开发时为58.9 mAP），它仍然可以显著提高检测精度+1.5 mAP，达到60.4 mAP，并将实例分割精度提高+1.2 mAP，达到52.4地图进一步结合Object 365预训练模型，检测准确率达到61.3mAP，实例分割准确率达到53.0mAP，推动了新的最先进水平。代码和模型将在https://github.com/microsoft/SoftTeacher上公开提供。1. 介绍数据很重要。事实上，像ImageNet这样的大数据在很大程度上引发了计算机视觉中深度学习的热潮*同等贡献。†本研究是在徐孟德（Mengde Xu）在MSRA实习时完成的。‡联系人。图1.所提出的基于端到端伪标签的半监督对象检测方法在MS-COCO基准测试中以较大幅度优于STAC [27锡永然而，由于标注过程耗时且昂贵，获取标签可能是瓶颈。这鼓励了学习方法在训练深度神经模型中利用未标记的数据，诸如自监督学习和半监督学习。本文研究半监督学习问题，特别是对象检测。对于半监督对象检测，我们关注的是基于伪标签的方法，这是当前最先进的方法。这些方法[27，36]进行多阶段训练方案，其中第一阶段使用标记数据训练初始检测器，随后是用于未标记数据的伪标记过程和基于伪标记的未注释数据的这些多阶段方法实现了相当好的准确性，然而，最终性能受到由使用少量标记数据训练的初始且可能不准确的检测器生成的伪标签的质量的限制。COCO检测AP监督堆叠我们44.540.939.234.030.726.9 28.624.420.5 20.914.010.03061检测器方法val2017测试开发2017mAP检测贴图遮罩mAP检测贴图遮罩监督57.149.6--HTC++（Swin-L），带单刻度我们59.151.0--我们的60.151.9--监督58.250.558.951.2HTC++（Swin-L），带多尺度我们59.951.960.452.4我们的60.752.561.353.0表1. 在最先进的检测器HTC++（Swin-L）上，我们的方法超越了val 2017和val 2018上的监督学习。test-dev2017. * 表示模型是使用Object365 [24]数据集进行预训练的。为了解决这个问题，我们提出了一个端到端的基于伪标签的半监督对象检测框架，该框架同时对未标记的图像执行伪标记，并在每次迭代时使用这些伪标签以及一些标记的伪标签来训练检测器具体地，以预设比例对标记图像和未标记图像进行随机采样，以形成一个数据批次。在这些图像上应用两个模型，一个进行检测训练，另一个负责为未标记的图像标注伪标签。前者也被称为学生，后者是教师，这是一个指数移动平均线（EMA）的学生模型。这种端到端的方法避免了复杂的多阶段训练方案。此外，它还实现了这种端到端框架的另一个重要好处是，它允许教师模型的更大杠杆作用来指导学生模型的训练，而不是像以前的方法[27，36]那样仅仅提供软教师的方法，提出了实施这一见解。在该方法中，教师模型用于直接评估由学生模型生成的所有框候选，而不是提供“伪框”以将类别标签和回归向量分配给这些学生生成的对这些框候选的直接评估使得能够在学生模型训练中使用更广泛的监督信息。具体地，我们首先通过具有高前景阈值的框候选的检测分数将框候选分类为前景/背景，以确保正伪标签的高精度，如[27]中所示。然而，这种高前景阈值导致许多正框候选被错误地分配为背景。为了解决这个问题，我们建议使用一个可靠性措施来加权每个“背景”框候选人的损失我们的经验发现，一个简单的检测得分所产生的教师模型可以很好地作为可靠性的措施，并在我们的方法中使用我们发现，这种方法measure- sure执行显着优于以前的硬for-地面/背景分配方法（见表2和表3），我们称之为实例化该洞察的另一种方法是通过框抖动方法选择可靠的边界框以用于训练学生该方法首先使伪前景框候选抖动几次。然后根据教师模型具有足够高可靠性的框候选将用于学生的定位分支的训练在MS-COCO对象检测基准[16]上，我们的方法在val2017 上实现了 20.5 mAP ， 30.7 mAP 和 34.0mAP，其中使用更快的R-CNN [22]框架与ResNet-50 [8]和FPN [14]使用1%，5%和10%的标记数据，超过了之前的最佳方法STAC [27]。分别为+6.5、+6.4和+5.4mAP此外，我们还对更具挑战性的设置进行评估，其中标记的数据已经足够大，以训练合理准确的对象检测器。具体地，我们采用完整的COCOtrain2017集合作为标记数据，未标记的2017集合作为未标记数据。在这种设置下，我们将使用ResNet-50和ResNet- 101主干的 Faster R-CNN 方法的监督基线分别提高了+3.6mAP和+3.0mAP此外，在COCOtest-dev 2017上实现58.9 mAP用于对象检测和51.2 mAP用于例如分割的最先进的基于Swin-Transformer [18]的检测器上，所提出的方法仍然可以分别将准确度提高+1.5 mAP和+1.2 mAP，达到60.4mAP和52.4mAP。进一步结合Object365 [24]预训练模型，检测准确率达到61.3mAP，实例分割准确率达到53.0mAP，这是该基准测试的最新技术水平。2. 相关作品图像分类中的半监督学习图像分类中的半监督学习可以大致分为两类：基于一致性的和基于伪标签的。基于一致性的方法[1，23，19，11]3062箱式回归方差过滤器人类人类人类人类弱Aug软老师评分滤波器未标记数据强AugEMA更新NMS后预测Cls的伪框学生L+ L+ L标记数据Reg的伪框图2. 用于半监督对象检测的端到端伪标记框架的概述。未标记图像和标记图像形成训练数据批次。在每次训练迭代中，应用软教师对运行中的弱增强未标记图像执行伪标记。产生两组伪盒：一个用于分类分支，根据前景得分过滤盒子;另一个用于盒子回归分支，根据盒子回归方差过滤盒子。教师模型由学生模型通过指数平均（EMA）方式更新。最终损失是监督检测损失Ls和非监督检测损失Lu的总和。利用未标记的图像来构造正则化损失，其鼓励相同图像的不同扰动以产生类似的预测。有几种方法可以实现扰动，包括扰动模型[1]，增强图像[23]或对抗训练[19]。在[11]中，通过预测不同的训练步骤来组装训练目标。在[29]中，他们通过集成模型本身而不是模型预测，即学生模型的所谓指数平均值（EMA）。伪标签方法[33，7，12]（也称为自训练）通过初始训练的分类模型用伪标签注释未标记的图像，并且检测器通过这些伪标记的图像来改进。与我们专注于对象检测的方法不同，伪标签不必解决在对图像进行分类时分配前景/背景标签和框回归的问题最近，一些工作[32，3，2，26]探索了数据增强在半监督学习中的重要性，这启发我们使用弱增强来生成伪标签，使用强增强来学习检测模型。与图像分类中的半监督学习类似，半监督对象检测方法也有两类：一致性方法[10，28]和伪标签方法[20，36，13，27，31]。我们的方法属于伪标签类别。在[20 ， 36] 中，不同数据增强的预测在 [13] 中，SelectiveNet被训练来选择伪标签。在[31]中，将在未标记图像上检测到的框粘贴到标记图像上，并且对粘贴的标签图像进行定位一致性估计。当图像本身被修改时，在[31]中需要非常彻底的检测过程。在我们的方法中，只有轻量级的检测头进行处理。STAC[27]建议使用弱数据增强进行模型训练，并使用强数据增强进行伪标签。然而，与其他伪标签方法[20，36，13，27，31]一样，它也遵循多阶段训练方案。相比之下，我们的方法是一个端到端的伪标记框架，它避免了复杂的训练过程，也取得了更好的性能。目标检测目标检测的重点是设计高效、准确的检测框架。有两个主流：单级物体检测器[17，21，30]和两级物体探测器[6，22，14，34，35]。这两种方法之间的主要区别在于是否使用级联来过滤大量的对象候选（提议）。理论上，我们的方法与这两种类型的方法兼容然而，为了与半监督对象检测的先前作品[28，27]进行公平比较，我们使用Faster R-CNN [22]作为我们的默认检测框架来说明我们的方法。3. 方法图. 2说明了我们的端到端培训框架的概述有两种模式，一种是学生模式，一种是教师模式。学生模型是通过使用伪框在标记图像和未标记图像上的检测损失来未标记的图像具有两组伪框，它们分别用于驱动分类分支和回归分支的训练。3063LLΣLLLΣLuuLL我--NNΣG我我我BBGΣbΣb活泼地教师模型是学生模型的指数移动平均（EMA）在该端到端框架内，存在两个关键设计：软老师和框抖动。3.1. 端到端伪标签框架我们首先介绍了基于伪标签的半监督对象检测的端到端框架我们的方法遵循师生培训计划。在每次训练迭代中，根据数据采样率sr对标记图像和未标记图像进行随机采样以形成训练数据批次。教师模型被执行以在未标记图像上生成伪框，并且学生模型在具有地面实况的标记图像和具有作为地面实况的伪框的未标记图像两者上被训练。因此，总损失被定义为监督损失和非监督损失的加权和：L=Ls+αLu，（1）其中s和u分别表示标记图像的监督损失和未标记图像的无监督损失，α控制无监督损失的贡献。它们两者都通过训练数据批次中的相应图像数量进行归一化：Nl高于阈值的逻辑框被保留为伪框。为了生成高质量的伪框并促进学生模型的训练，我们借鉴了FixMatch [26]，这是半监督图像分类任务的最新进展。强增广应用于学生模型的检测训练，弱增广用于教师模型的伪标记。理论上，我们的框架适用于主流对象检测器，包括单级对象检测器[15，17，21，30]和两级对象检测器[22，9，5，35，34]。为了与以前的方法进行公平的比较，我们使用Faster R-CNN [22]作为我们的默认检测框架来说明我们的方法。3.2. 软教师检测器的性能取决于伪标记的质量。在实践中，我们发现，使用较高的阈值前景得分过滤出大部分的学生生成的框候选人与低置信度可以实现更好的结果比使用较低的阈值。如表中所示。8时，当阈值设置为0.9时实现最佳性能。然而，虽然严格的标准（较高的阈值）会导致较高的前景精度，但保留的候选框的召回率也会下降=1（Nl i=1NuCLS（Ii）+Lreg（Ii））、（2）快点离开。如图所示。3（a），当前置阈值设置为0.9时，召回率较低，为33%，而准确率达到89%。在这种情况下，如果我们使用=1（Nu i=1CLS（Ii）+Lreg（Ii）），⑶学生生成的框候选者和教师之间的IoU-生成的伪框来分配前景和背景其中Ii指示第i个标记图像，Ii指示第i个标记图像。地面标注，就像一般的对象检测框架一样当提供真实框注释时，一些前景第i个未标记图像，cls是分类损失，reg是盒回归损失，Nl和Nu分别表示标记图像和未标记图像的数量在训练开始时，教师模型和学生模型都被随机初始化。随着训练的进行，教师模型由学生模型不断更新，并且我们遵循教师模型由指数移动平均（EMA）策略更新的常见实践[29，26与采用简单的概率分布作为图像分类中的伪标签相比，创建用于对象检测的伪标签更复杂，因为图像通常包含多个对象，并且对象的注释由位置和类别组成。给定未标记的图像，教师模型用于检测对象，并预测数千个候选框非-框候选将被错误地分配为否定，这可能会阻碍训练并损害性能。为了缓解这个问题，我们提出了一个软教师ap-proach，利用更丰富的信息，从教师模型，由于端到端的框架的灵活性。具体地，我们评估每个学生生成的框候选作为真实背景的可靠性，然后将其用于权衡其背景分类损失。给定两个框集合{bfg}和{bbg}，其中{bfg}表示被标记为前景的框，并且b表示被分配为背景的框，具有可靠加权的未标记图像的分类损失被定义为：FG BGcls1fg bgL=l cls（b，G cls）+ w l cls（b，G cls），N最大抑制（NMS）然后被执行以消除。内部冗余。虽然大多数冗余框是UFGB我i=1JJj=1但是，如果去除了，则仍然留下一些非前景候选。因此，只有前景得分为1RJwj=bg，（5）Nk=1rk1前景得分被定义为所有非背景类别的最大概率。其中cls表示用于分类的（教师生成的）伪框的集合，SLuL（四）30644--我--4K图3. 我们从train2017中随机抽取了10k个未标记的训练图像，根据用10%标记图像训练的模型绘制图形。（a）在不同前景得分阈值下的前景的准确率和召回率（b）IoU与地面实况和框前景得分之间的相关性(c)IoU与地面实况和箱回归方差之间的相关性。中的每个点(b) 以及（c）表示框候选。是第j个背景框候选的可靠性得分，Nfg和Nbg是第j个背景框候选的数量。可以被视为基于IoU的硬否定挖掘，其被Fast R-CNN [6]和Faster R-B b框集合{bfg}和{bbg}。CNN [22]在早期的实施。而反观其他假设表明具有估计可靠性得分r是具有挑战性的。我们凭经验发现，由具有弱增强图像的教师模型产生的背景分数可以很好地用作r的代理指标，并且在我们的端到端训练框架中很容易获得。具体地，给定学生生成的盒子候选，其背景分数可以简单地通过使用教师（BG-T）通过其检测头处理盒子来获得。值得注意的是，该方法与广泛使用的硬否定挖掘方法不同，例如，OHEM [25]或Focal Loss [15]，更像是一种为了比较，我们还检查了其他几个指标：• 学生模型的背景分数（BG-S）：生成背景分数的另一种自然方式是直接使用学生模型的预测• 预测差异（Pred-Diff）：学生模型和教师模型之间的预测差异也是一个可能的指标。在我们的方法中，我们简单地使用两个模型的背景得分之间的差异来定义可靠性得分：更小的IoU与地面事实更有可能是背景。在我们的实验中，我们验证了这两个假设，并将它们命名为IoU和反向IoU。3.3. 盒抖动如图所示。在图3（b）中，框候选的定位准确度和前景分数未示出强正相关，这意味着具有高前景分数的框可能不提供准确的定位信息。这表明根据前景得分选择教师生成的我们引入了一种直观的方法来估计局部化可靠性的候选伪盒通过测量其回归预测的一致性。具体地，给定由教师生成的伪框候选者bi，我们对bi周围的抖动框进行采样，并将抖动框馈送到教师模型，以获得精炼的盒bi，其为公式如下所示BGpS（b）BGpT（b）|,(6)bi=refine（jitte r（bi））.（七）其中pbg和pbg是重复上述过程若干次以收集S T背景类的学生和教师模型。• 交并：地与地之间的契约真值和框候选是前景/背景分配的常用有两一组N个抖动细化的抖动boxesbi，j，并且我们将定位可靠性定义为框回归方差：σ¯ =1Σσ，（8）k=1关于如何使用IoU来衡量的不同假设σkσk=，（9）0的情况。5（h（b）+w（b））框候选是否属于背景。我我在第一假设中，如果框可以与地面实况框之间的IoU小于阈值（例如，0.5），较大的IoU指示框候选人具有较大的作为背景的概率。这其中，σ k是精细抖动框集合的第k个坐标的标准偏差，σk是归一化的σk，h（bi）和w（bi）表示框候选者bi的高度和宽度，关于iv el y。r= 1 −|−3065GGGuNuuCLSuureg1ΣCLSiireg我我盒回归方差越小，表示局部化可靠性越高。然而，计算所有伪框候选的框回归方差在训练期间是难以忍受的。因此，在实践中，我们仅计算前景得分大于0.5的框的可靠性。以这种方式，需要被估计的盒子的数量从每个图像的平均数百个减少到大约17个，并且因此计算成本几乎是可忽略的。在图中。在图3（c）中，我们说明了定位精度与我们的箱回归方差之间的相关性。与前景得分相比，盒回归方差可以更好地衡量定位精度。这促使我们选择盒子回归方差小于阈值的盒子候选者作为伪标签，以在未标记的图像上训练盒子回归分支。给定用于在未标记数据上训练箱回归的伪箱reg，回归损失被公式化为：Nfg（a）（b）（c）（d）图4. 我们的方法的定性结果。(a)（c）是监督基线的结果。(b)，（d）是我们的方法的结果。数据这种设置更具挑战性。它的目标是使用额外的未标记数据来改进大规模标记数据上训练有素的reg1000bfgN（十）Lu=fgBi=1 lreg（bi，Greg），我们在这两种设置上评估我们的方法，并遵循2017年val2017业绩报告其中，bfg是第i个指定为前景的框，Nfg是总数标准平均精密度（mAP）作为评价Ib前景框的数量，l_reg是框回归损失。因此，通过替换Equ。4、Equ。10入Equ。3、未标记图像的损失是：NuL=（L（I，G）+L（I，G））。（十一）ui=1这里我们使用伪盒cls和reg作为损失的输入，以突出在我们的方法中分类和箱回归中使用的伪箱是不同的这一事实。4. 实验4.1. 数据集和评价方案我们在MS-COCO基准上验证了我们的方法[16]。提供了两个训练数据集，train2017集包含118k个标记图像，而 unlabeled2017集包含123k 个未标记图像。此外，还提供了包含5k图像的val2017集在之前的方法[27，28，10]中，有两个用于验证性能的设置：部分标记数据： STAC [27] 首次引入了此设置。train2017集合的1%、5%和10%图像被采样作为标记的训练数据，并且train2017的剩余未采样图像被用作未标记的数据。对于每个协议，STAC提供5个不同的数据折叠，最终性能是所有5个折叠的平均值充分标记数据类型：在这设置，的en-tiretrain 2017用作标记数据，unlabeled 2017用作附加的未标记数据指标.4.2. 实现细节我们使用配备FPN [14]（特征金字塔网络）的FasterR-CNN [22]作为我们的默认检测帧-工作，以评估我们的方法的有效性，和采用ImageNet预训练的ResNet-50 [8]作为骨干。我们的实现和超参数基于MMDetection [4]。由于部分标记数据设置和完全标记数据设置的训练数据量有较大差异，因此两种设置下的训练参数略有不同，我们在补充资料中参考更多细节。4.3. 制度比较在本节中，我们将我们的方法与MS-COCO上以前的最新技术进行比较。我们首先在部分标记数据设置上进行评估，并将我们的方法与STAC进行比较。对于基准测试，我们将我们的方法的监督基线与STAC中报告的结果进行比较，发现它们的表现相似，结果如表所示。二、在这种情况下，我们进一步比较我们的方法与STAC在系统级，我们的方法表明在不同协议中的显著性能改进。具体来说，我们的方法优于STAC当有1%、5%和10%标记数据时，分别为6.5分、6.4分和5.4分。与监督基线相比，我们的方法的定性结果是如图所示。4.第一章然后我们将我们的方法与其他国家的-使用的标记数据比例百分之十百分之一3066××方法百分之一百分之五百分之十监督基线（我们的）监督基线（STAC）[27] STAC我们10个。0±0。269 .第九条。83± 0。23十三岁97±0。3520.46 ±0. 3920块92± 0。1521岁18± 0。20二十四岁38± 0。1230.74 ±0. 08二十六岁94±0。111二十六岁18±0。1228岁64± 0。2134.04 ±0. 14表2.在部分标记数据设置下，在val2017上与STAC进行系统级比较所有结果均为所有5次折叠的平均值对于基准测试，我们还比较了我们的方法和STAC之间的监督基准性能，它们的性能是相似的。方法额外数据集地图[28]第二十八话无标签2017三十七四+1.0三十八。4−-−0→.339岁5 −→39。2+0.841岁1 −−→41.9四十第四十四章.5−→STAC [27]无标签2017自我训练[36]ImageNet+OpenImages我们无标签2017表3. 在使用train2017集的所有数据的设置下与其他最先进技术的比较。特别是，Self-training使用ImageNet（120万张图像）和OpenImages（170万张图像）作为额外的未标记图像，比未标记的2017（123 k张图像）大20。完全标记数据设置中的艺术方法。由于不同工程的监督基线的报告性能不同，我们同时报告了比较方法及其基线的结果。结果示于表中。3 .第三章。我们首先与Proposal Learning [28]和STAC [27]进行比较，它们也使用未标记的2017作为额外的未标记数据。由于更好的超参数和更充分的训练，我们的监督基线取得了比其他方法更好的性能。在较强的基线下，我们的方法仍然显示出比建议学习（+1.0分）和STAC（-0.3分）更大的性能增益（+3.6分）。Self-training [36] 使用 Ima-geNet （ 120 万张图像）和OpenImages（170万张图像）作为额外的未标记数据，这比我们使用的unlabeled 2017（123 k张图像）大20。在具有相似基线性能的情况下，我们的方法在较少的未标记数据下也显示出更好的结果。此外，我们进一步在其他更强的检测器上评估了我们的方法，在val2017集上评估的结果如表所示。4.第一章我们的方法一致地改进，证明不同的检测器的性能由一个显着的利润率。即使在具有Swin-L主干的最先进的检测器HTC++中，我们仍然显示出检测AP的1.8改进此外，我们还报告了test-dev 2017集的结果。如表所示。1，我们的方法将具有Swin-L主干的HTC++在检测上提高了1.5mAP，这是第一个在COCO对象检测基准上超过60 mAP的工作。4.4. 消融研究在本节中，我们将验证我们的关键设计。如果未指定，则所有消融实验均在[27]提供的单个数据折叠上进行，其中包含10%的标记图像3067火车2017集多阶段与端到端。我们将我们的端到端方法与如表5所示的多阶段框架进行比较。通过简单地从多阶段框架切换到我们的端到端框架，性能提高了1.3点通过指数移动平均（EMA）策略用学生模型更新教师模型，我们的方法进一步实现31.2mAP。Soft Teacher和Box Jittering的效果我们消除了软教师和盒抖动的影响。结果示于表中。六、基于我们配备EMA的端到端模型进一步应用盒抖动，性能达到34.2 mAP，比E2E+EMA高3个点。软教师的不同指标。在第节中。3.2，探讨了几种不同的可靠性评估指标。在这里，我们评估了不同的指标，结果如表所示。7 .第一次会议。由教师模型预测的背景分数达到最佳性能。简单地将模型从教师切换到学生会使表现更差。此外，与BG-T相比，IoU和Reearse-IoU的改进可以忽略不计这些结果证明了利用教师模型的必要性。其他超参数的影响。我们研究的超参数在我们的方法中使用的效果。表. 8研究了不同前景分数阈值的影响。当阈值设置为0.9时，可获得最佳性能，阈值越低或越高，性能将显著下降。在表中。9、研究了箱回归方差阈值。表现最好的是3068方法地图mAP@0.5mAP@0.75监督27.144.628.6多级28.747.030.9E2e30.047.432.4E2E+EMA31.248.834.0阈值地图mAP@0.5mAP@0.750.0433.852.336.70.0334.052.536.90.0234.252.637.30.0132.952.235.8检测器骨干方法mAP检测贴图遮罩Faster R-CNNResNet-50监督我们40.944.5（+3.6）--Faster R-CNNResNet-101监督我们43.846.8（+3.0）--HTC++Swin-L监督我们57.159.1（+2.0）49.651.0（+1.4）HTC++（多尺度）Swin-L监督我们58.259.9（+1.7）50.551.9（+1.4）表4.与val2017上的各种监督训练检测器进行比较。整个train2017被用作标记图像，并且unlabeled2017被用作附加的未标记图像。表5. 多阶段与端到端。端到端（E2E）方法优于多级框架。通过指数移动平均（EMA）策略更新教师网络进一步提高了性能。软教师箱形抖动地图 mAP@0.5mAP@0.75✓✓✓31.233.634.248.852.952.634.036.637.3表6.我们研究了软教师和盒抖动技术的影响指示器地图mAP@0.5mAP@0.75w/o体重31.248.834.0IOU31.751.434.2反向IoU31.649.534.1预测差异32.351.034.6BG-S25.944.427.0BG-T33.652.936.6表7.软教师不同指标的比较阈值地图mAP@0.5mAP@0.750.7029.948.632.10.8033.252.835.90.9033.652.936.60.9532.150.634.7表8. 不同前景阈值影响的消融研究。当阈值被设置为0.02时实现。在表中。10时，我们研究了不同数量的抖动盒的影响，当N抖动设置为10时，性能饱和。表9. 根据箱回归方差对不同阈值选择箱回归伪箱的影响进行消融研究。N抖动地图mAP@0.5mAP@0.75534.052.337.01034.252.637.31534.252.537.4表10. 对用于估计箱回归方差的不同数量的抖动箱的影响的消融研究。5. 结论在本文中，我们提出了一个端到端的训练框架，工作的半监督对象检测，摒弃了复杂的多阶段模式采用以前的方法。我们的方法同时提高了检测器和伪标签，利用学生模型进行检测训练，并通过指数移动平均策略在线伪标签的学生模型不断更新在端到端培训中，我们提出了两种简单的技术，即软教师和框抖动，以促进教师模型的有效利用。所提出的框架优于国家的最先进的方法，在MS-COCO基准在部分标记的数据和完全标记的数据设置的大幅度。6. 确认我们要感谢Yue Cao的宝贵意见和讨论;感谢YutongLin和Yixuan Wei对Swin Transformer实验的帮助。本工作得到了国家重点研究与发展计划（No.2018YFB1004600）3069引用[1] Philip Bachman，Ouais Alsharif，and Doina Precup.学习伪合奏。arXiv 预印本arXiv：1412.4864，2014。二、三[2] David Berthelot、Nicholas Carlini、Ekin D Cubuk、AlexKurakin 、 Kihyuk Sohn 、 Han Zhang 和 Colin Raffel 。Remixmatch：具有分布对齐和增强锚定的半监督学习。arXiv预印本arXiv：1911.09785，2019。3[3] David Berthelot 、 Nicholas Carlini 、 Ian Goodfellow 、Nicolas Papernot 、 Avital Oliver 和 Colin Raffel 。Mixmatch：半监督学习的整体方法arXiv预印本arXiv：1905.02249，2019。3[4] Kai Chen，Jiaqi Wang，Jiangmiao Pang，Yuhang Cao，Yu Xiong，Xiaoxiao Li，Shuyang Sun，Wansen Feng，Ziwei Liu，Jiarui Xu，et al.检测：打开mmlab检测工具箱和基准。arXiv预印本arXiv：1906.07155，2019。6[5] Yihong Chen，Zheng Zhang，Yue Cao，Liwei Wang，Stephen Lin，and Han Hu.代表点v2：验证符合物体检测的回归要求。NIPS，2020年。4[6] 罗斯·格希克。快速R-CNN。在ICCV，2015年。三、五[7] Yves Grandvalet，Yoshua Bengio，et al.基于熵最小化的半监督学习。载于CAP，2005年。3[8] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。二、六[9] Han Hu，Jiayuan Gu，Zheng Zhang，Jifeng Dai，andYichen Wei.用于对象检测的关系网络在CVPR，2018年。4[10] Jisoo Jeong ， Seungeui Lee ， Jeesoo Kim ， and NojunKwak.基于一致性的对象检测半监督学习。NIPS，2019年。三、六[11] Samuli Laine和Timo Aila用于半监督学习的时间集成ICLR，2016. 二、三[12] Dong-Hyun Lee等人伪标签：简单高效的深度神经网络半监督学习方法。ICML研讨会，2013年。3[13] 李延东、黄迪、秦丹峰、王立强、龚伯庆。用选择性自我监督自我训练改进对象检测在ECCV，2020年。3[14] 林宗义、彼得·多尔、罗斯·格希克、何启明、巴拉特·哈里哈兰和塞尔日·贝隆吉.用于对象检测的特征金字塔网络。在CVPR，2017年。二、三、六[15] 林宗义、普里亚·戈亚尔、罗斯·格希克、何开明和彼得·多尔·拉尔。密集目标检测的焦面损失。InICCV，2017.四、五[16] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。2014年，在ECCV。二、六[17] Wei Liu ， Dragomir Anguelov ， Dumitru Erhan ，Christian Szegedy ， Scott Reed ， Cheng-Yang Fu ， andAlexander C Berg. Ssd：单发多盒探测器。在ECCV，2016年。三、四3070[18] Ze Liu ， Yutong Lin ， Yue Cao ， Han Hu ， YixuanWei ， Zheng Zhang ， Stephen Lin ， and Baining Guo.Swin变压器：使用移位窗口的分层视觉Transformer。arXiv预印本arXiv：2103.14030，2021。2[19] Takeru Miyato、Shin-ichi Maeda、Masanori Koyama和Shin Ishii。虚拟对抗训练：一种用于监督和半监督学习的正则化方法TPAMI，2018年。二、三[20] Ilij aRadosavo vic ， PiotrDolla´r ， RossGirshick ， GeorgiaGkioxari，and Kaiming He. 数据蒸馏：全方位监督学习。在CVPR，2018年。3[21] Joseph Redmon，Santosh Divvala，Ross Girshick，andAli Farhadi.你只看一次：统一的实时对象检测。在CVPR，2016年。三、四[22] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn：利用区域建议网络进行实时目标检测。2015年，在NIPS中。二三四五六[23] Mehdi Sajjadi、Mehran Javanmardi和Tolga Tasdizen。用于深度半监督学习的随机变换和扰动正则化。arXiv预印本arXiv：1606.04586，2016年。二、三[24] Shuai Shao ， Zeming Li ， Tianyuan Zhang ， ChaoPeng，Gang Yu，Xiangyu Zhang，Jing Li，and JianSun. Objects365：用于对象检测的大规模高质量数据集。在CVPR，2019年。2[25] Abhinav Shrivastava，Abhinav Gupta和Ross Girshick。训练基于区域的对象检测器与在线硬示例挖掘。在CVPR，2016年。5[26] Kihyuk Sohn，David Berthelot，Chun-Liang Li，ZizhaoZhang ， Nicholas Carlini ， Ekin D Cubuk ， AlexKurakin，Han Zhang，and Colin Raffel.Fixmatch：用一致性和信心简化半监督学习。NIPS，2020年。三、四[27] Kihyuk Sohn ， Zizhao Zhang ， Chun-Liang Li ， HanZhang，Chen-Yu Lee，and Tomas Pfister.一个简单的用于对象检测的半监督学习框架。arXiv预印本arXiv：2005.04757，2020。一二三六七[28] Peng Tang，Chetan Ramaiah，Yan Wang，Ran Xu，and Caiming Xiong.用于半监督对象检测的建议学习。在WACV，2021年。三六七[29] 安蒂·塔尔瓦宁和哈里·瓦尔波拉。教师是更好的榜样：加权平均一致性目标改善了半监督深度学习结果。NIPS，2017年。三、四[30] Zhi Tian ， ChunhuaShen ， Hao Chen ， and Tong He.Fcos：完全卷积的一阶段对象检测。在ICCV，2019年。三、四[31] Keze Wang ， Xiaopeng Yan ， Dongyu Zhang ， LeiZhang，and Liang Lin.关于人机合作：用于目标检测的自监督样本挖掘。在CVPR，2018年。3[32] Qizhe Xie ， Zihang Dai ， Eduard Hovy ， Minh-ThangLuong，and Quoc V Le.用于一致性训练的无监督数据增强NIPS，2020年。3[33] Qizhe Xie ， Minh-Thang Luong ， Eduard Hovy ， andQuoc V Le. 用吵闹的学生进行自我训练提高了图像分类。在CVPR，2020年。33071[34] Ze Yang，Shaohui Liu，Han Hu，Liu，and Stephen Lin.Reppoints：用于对象检测的点集表示。在ICCV，2019年。三、四[35] Ze Yang ， Yinghao Xu ， Han Xue ， Zheng Zhang ，Raquel Ur- tasu

下载后可阅读完整内容，剩余1页未读，立即下载