数据不确定性引导的半监督目标检测多阶段学习-王振宇李亚莉*

101 浏览量更新于2024-01-22 收藏 890KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4568数据不确定性引导的半监督目标检测多阶段学习王振宇李亚莉*叶国路方胜金王清华大学{wangzy20，guo-y18}@ mails.tsinghua.edu.cn，{liyali13，fanglu，wgsgj}@tsinghua.edu.cn摘要在本文中，我们深入研究了半监督对象检测，其中利用未标记的图像来突破全监督对象检测的上限。现有的基于伪标签的半监督方法受噪声影响严重，容易过拟合噪声标签，从而不能很好地学习不同的未标记知识。为了解决这个问题，我们提出了一个数据不确定性引导的多阶段学习方法的半监督目标检测。我们综合考虑不同类型的未标记图像，根据其不同的层次，在不同的阶段利用它们，并集成模型从不同的阶段一起产生最终的结果。图像不确定性引导的简单数据选择和区域不确定性引导的RoI重新加权参与多阶段学习，使检测器能够集中于更确定的知识。通过对PASCAL VOC和MS COCO的大量实验，我们证明了我们的方法与基线方法相比表现出色，并且在很大程度上优于它们，VOC超过3%， COCO超过2%1. 介绍随着卷积神经网络（CNN）的成功[19，22]，近年来目标检测方法得到了迅速发展。许多对象检测模型[12，11，36，34，27]在基准数据集上实现了卓越的性能[10，26]。然而，这些模型严重依赖于大量具有完整类别和边界框注释的完全监督数据，这些数据的收集是劳动密集型的。为了解决上述问题，半监督对象检测（SSOD）[37]最近受到了广泛关注它利用大量的未标记数据来提高全监督对象检测的性能，特别是当只有有限的标记数据可用时。目前，许多SSOD方法[33]建立在伪标签*通讯作者（一）（b）第（1）款图1：先前基于伪标签的单阶段训练（a）和我们的多阶段方法（b）的框架。基于图像级不确定性的选择和基于区域级不确定性的重新加权指导我们的多阶段学习以处理伪标签中的噪声。[23] 并采用图1a中的单阶段学习方案。利用预训练的全监督模型对标记图像进行预训练，得到未标记图像的伪标注。这些伪标签被视为未标记数据的基础事实，并与标记数据的注释相结合，以训练SSOD模型。尽管单阶段学习对SSOD有一定的效果，但对未标记数据只进行一次知识挖掘是不够的原因在于噪声固有地附接到伪注释的事实。基于深度学习的模型有可能适合任何训练注释，即使是不正确的注释。当伪注释带有一些错误信息时，检测模型也能够“学习”以适应它们。这种对不正确注释的拟合能力超过了4569学习正确的人。我们称这种现象为激光噪声过拟合问题，这在以前的研究中也得到了证实[1，50，28]。因此，单阶段学习的SSOD模型倾向于拟合具有更多噪声的困难数据，而忽略了具有高置信度的简单标签噪声过拟合的负面影响主要有两方面。一方面，在图像级，具有大量噪声的困难图像在训练期间占优势，使得检测器不灵活地采用具有不同难度水平的未标记数据。另一方面，在区域级别，与现有对象严重重叠但缺乏伪注释的区域包含更多的噪声信息并主导训练，从而导致大量的干扰。将梯度信息转换为SSOD训练。为了解决这个问题，我们描述了噪声标记数据的不确定性，并提出了一个数据不确定性引导的多阶段学习SSOD。在图像级，我们引入了不确定性来指导不同训练阶段的图像选择在实践中，我们首先对具有低不确定性的简单未标记图像执行SSOD训练，然后继续具有高不确定性的困难未标记图像。在这个过程中，我们收集了一个以上的模型，这些模型分别在不同难度的图像中运行。它们合作地专门化所有未标记的图像，因此我们将它们聚集在一起以相互补充进行推理。在区域层次上，我们根据背景区域的相似性和相互重叠来度量背景区域的不确定性。进一步以区域不确定度为指导进行ROI重加权，并将其引入多阶段训练。这种ROI重新加权策略降低了不确定区域的权重，并迫使检测模型更多地关注某些区域。我们的主要贡献可归纳如下：• 提出了一种不确定性引导的多阶段SSOD学习方法。通过基于图像不确定性的选择，我们缓解了不同数据层次上的注意力不平衡，并且能够很好地拟合所有未标记的图像• 我们引入了一个基于区域不确定性的ROI重新加权策略来指导多阶段学习，并帮助检测器专注于更确定的区域。• 在PASCAL VOC和MS COCO数据集上，我们的方法达到了78.6%和42.3%，分别超过了最先进的2.4%和2.2%。2. 相关工作目标检测是计算机视觉中最重要的任务之一。它的目标是从图像中检测对象，预测正确的分类类别，并分配准确的边界框。一般分为两阶段检测法和一阶段检测法。两阶段检测器[12，11，36，8，13]通常产生区域亲-然后对这些建议执行分类和回归，而一级检测器[34，27，35]直接生成边界框预测和区域分类。全监督对象检测（FSOD）最近发展迅速[25，38，5，51]，并在基准数据集中取得了出色的结果[10，26]。然而，FSOD需要实例级注释的数据集，这是昂贵的获得。因此研究了弱监督对象检测（WSOD）[4，41，9，52，43]，因为它只需要图像级注释。然而，与全监督的目标检测方法相比，WSOD未能达到令人满意的结果，这刺激了对SSOD的需求。半监督学习使用标记和未标记的数据来训练模型。近年来出现了许多关于半监督学习的工作，例如基于一致性正则化的方法[21，29，42，30，24]，自训练[49，6，32]，标签传播[53，2]，数据增强[47，3]或熵正则化[18]。虽然半监督学习发展迅速，但它通常针对的是分类或语义分割问题，而不是检测问题.目标检测在本质上是非常困难的，因此现成的半监督方法很难直接应用于目标检测。半监督对象检测（SSOD）的目标是用实例级注释数据和未标记数据来训练检测器例如，[15]利用未标记的数据来扩展检测器识别的类别数量，[54]研究了自我训练和预训练的效果。与它们不同的是，我们主要利用未标记的图像来提高FSOD的性能。目前的SSOD方法一般分为两组。第一种是基于伪标签[45，44，33]。它们通常只执行一次SSOD训练，并且可以避免标签噪声过拟合问题。第二种是借鉴半监督分类方法的思想，使用一致性正则化[16，17]。但它们更适合于一阶段检测器，而在两阶段模型中表现不佳我们的方法建立在伪标签上。3. 方法3.1. 标签噪声过拟合问题对于基于伪标签的SSOD，伪标签被视为未标记图像的地面实况注释，用于训练检测器。标签噪声存在于这些伪标签中，给SSOD训练带来了不确定性。我们观察到，深度学习检测模型容易对噪声标签过拟合，这会损害SSOD训练。为了进一步验证，我们使用VOC 2007 trainval作为标记集和VOC 2012 trainval作为未标记集实现了两次自训练SSOD性能如mAP与训练阶段的关系如图所示。2a.从实证分析中我们可以看出，4570(a)（b）第（1）款图2：检测模型的标签噪声过拟合问题的图示。数据序列为：监督模型-来自第一阶段的半监督模型-来自第二阶段的半监督模型由于额外未标记数据的使用，VOC07测试在第一个SSOD阶段后有所改善，但VOC12训练时有所下降。因此，生成的伪标签的质量下降，导致第二阶段中的测试mAP更差这说明在SSOD训练过程中，模型对测试数据的泛化能力增强，而对训练数据的泛化能力减弱。这种现象源于噪声伪标签。在SSOD训练过程中，噪声伪标签向检测器提供了不确定的监督信号，这引起了过度的关注。SSOD模型试图遵循这些不正确的信息，从而适应噪声标签并放大噪声。我们称之为标签噪声过拟合问题。在图像级，对于带有伪标记的未标记图像，它由一些可以提高性能的正确知识和一些损害训练的不正确噪声组成。如果正确的知识更多，这个图像将有利于模型。我们称这种图像为简单图像，反之亦然。我们提出伪标签的召回率反映了它包含的正确信息，1-精度是噪声的度量有了这个指标，我们分别在VOC07测试的简单或困难图像上评估以前的模型。从图2b中，我们观察到，尽管SSOD模型对测试集的预测更精确，但它对简单图像的预测却会恶化。测试集上较高的mAP主要来自困难图像，这表明该模型过度关注具有更多噪声的困难图像，而忽略了容易的图像，这是标签噪声过度拟合问题的结果因此，该模型在充分利用未标记图像方面存在不足。在区域级别，即使对于上面定义的伪注释相对干净的简单图像，其内的一些在这种情况下，在训练过程中，一些阳性区域被标记为背景探测器算法1多阶段SSOD学习的整体过程。要求：训练阶段数，N培训内容：使用所有标记数据训练FSOD模型设置初始简单数据分数：k=1/N，i=1;i=N;i++do1. 使用所有当前模型预测未标记数据。2. 取所有当前伪标签的交集3. 从未标记的图像中选择前k个简单图像。4. 使用标记和简单的未标记数据训练SSOD模型。5. k=k+1/N测试结束：将所有型号的测试结果进行汇总，以生成ul-估计结果。但它们与任何积极的情况都没有高度重叠这种矛盾导致了这些地区的不确定性。这些噪声区域通常具有较大的损失值，因此在训练期间相对于其他区域占主导地位，这会对性能产生负面影响。3.2. 多阶段学习目前的SSOD方法通常使用未标记的图像一次。由于标签噪声过拟合问题，具有更多噪声的困难图像被赋予更高的重要性，而容易的图像被相对打折。生成单一SSOD模型的单阶段学习难以解决这个问题。因为无论初始监督检测器有多先进，困难图像的伪标签总是容纳更多的噪声并在训练期间占主导地位因此，我们分别利用多个模型来处理简单或困难的数据具体地说，我们首先选择容易标记的在这个训练过程中，大多数数据都相对简单，因此模型将很好地拟合高置信度的简单数据。添加困难图像最后，我们得到了一系列的模型，在不同的难度水平的图像，并在所有这些都可以拟合所有未标记的数据。在推理过程中，我们考虑所有的模型，以充分利用不同的模型的不同能力我们使用加权盒融合[39]来集成所有模型的检测结果。通过这种方式，不同类型的信息得到了综合利用。对于初始模型，它们使用简单的图像进行训练，因此受标签噪声过拟合问题的影响较小由于具有较强的泛化能力和对噪声标签较温和的过拟合，它们在未标记训练集上的预测更具说服力。它们生成的伪标签可以4571m=1我图3：不确定性引导的多阶段学习图。针对SSOD中的未标记图像流，设计了多阶段自训练算法。图像不确定性估计和区域不确定性估计指导多阶段SSOD学习。提供给以后的训练，而不会出现在以前的自我训练方法中的性能降低。上述培训最终形成了一个多阶段的程序。对于特定的训练阶段，更合适的方法是综合先前阶段的所有模型来创建新的伪标签，而不是仅仅依赖于最新的模型。我们考虑了所有随机模型中伪标签的交集交集运算提高了精度，进一步降低了伪标签的不确定性。在交集之后，所有模型在每个伪注释上达成共识，从而产生更高的自信和确定性。整个过程在算法1中。3.3. 不确定性导向训练3.3.1图像不确定性引导选择为了继续我们的方法，我们需要从未标记的数据集中选择简单的图像。由于未标记的图像的注释是不可访问的，因此用于区分图像是否容易的上述召回率/精确率度量是不可用的。我们需要一个替代的度量，应该guarantee的检测模型是更确定的容易比困难的图像。既然我们已经发现了-关于并使检测模型能够确定伪标签中的每个注释。具有小sm的图像被视为困难的图像，并且在前几个阶段被过滤掉这种基于图像不确定性的选择策略引导检测器在更确定的图像上解决标签噪声过拟合问题。3.3.2区域不确定性引导的ROI重新加权在上述训练框架下，我们在初始阶段排除了困难的图像，并通过交集来整合来自不同模型的伪标签。因此，SSOD能够避免具有更多噪声的不确定图像，特别是在初始阶段。但是检测器仍然被具有缺失注释问题的噪声区域分散注意力。为了allevi- ate这一点，我们介绍了我们的不确定性为基础的重新加权策略。细节如图4所示。具体地说，我们说明了区域级的不确定性和重新加权的ROI与他们的不确定性在训练过程中指导。该策略发现不确定的区域，并通过降低权重来降低它们的梯度，以促进更准确和某些区域脱颖而出。根据[46]，几乎不可能的背景ROI（i. e. pseudolabels）{（bbmn，smn）}M在图像Im中，与所有积极的情况重叠，更有可能是其中，BB_mn表示边界框，S_mn是相应的置信度得分，S_mn是模型关于特定对象的确定程度图像内所有边界框的得分的平均值这与图像的难度相对应，如下所示CIMMsm=smn/M（1）m=1上述公式提供了图像不确定性的描述。它会选择探测器更确定的图像错过了注释。在此基础上，我们采用交叉点，联盟（IoU）作为不确定性度量的度量之一。基于重叠的权重计算如下：w=a+（1−a）e−be−c·IoUi（2）其中a、b、c是预定义的参数，IoUi是负RoIi和所有正RoI之间的最大IoU。wi是ROIi的减少的权重。如果一个区域被认为与当前对象具有很高的相似性，但没有被伪标记，我们可以声称它是不确定的。除此之外，不同的人之间的相似之处，4572IJ我并增加不同对象之间的距离。考虑到边界框与其内部的框高度相似，我们采用IoF作为相似性学习的监督信号：yij=I（IoFij>t）或I（IoFji>t）（6）其中I（·）是指示函数，t是预定义的阈值。我们在所有实验中将t设为0.7最终，学习相似性的损失函数定义为：图4：基于不确定性的重新加权流程。计算不同对象之间的相似性、IoU和IoF以获得权重，并将IoF视为相似性学习的地面真值Lsim=yij（1−dij）2+（1−yij）d24. 实验（七）不确定性的一个必要描述应该是不我们应用余弦距离来计算不同ROI之间的相似性设fi表示RoIi的特征。距离（i）e. RoIi和RoIj之间的（相异性）dij是：|fTfj|我们评估了所提出的方法SSOD在PASCAL[10][26 ][27][28][29]对于VOC，我们使用VOC 2007trainval（5，011张图像）作为标记数据，VOC 2012trainval（11，540张图像）作为未标记数据，然后在VOC 2007测试（4，952张图像）上进行评估。对于COCO，我们将COCO 2014验证集的35 k子集称为co-35，将80 k训练集称为co-80，将它们的并集称为co-115。120kdij=我fi（三）来自COCO 2017的未标记图像被称为co-120。我们使用两种设置进行半监督训练：1）co-35 as我们注意到，在RPN之后，在一个大的ROI内有许多小的ROI。这些小ROI通常与大ROI高度相似，但它们不是不确定的，因为它们的类别应该是背景，而不是其他积极的。交叉前景（IoF）可以量化这一现象。我们将余弦距离和IoF结合起来，用于基于最终相似性的不确定性描述：Di=1−maxdij（1−IoFij）（4）J基于最终不确定性的权重如下：w=（a+（1−a）e−be−c1·IoUi）e−be−c2Di（5）其中a，b，c1，c2是预定义的参数。等式5由两项组成，源自于基于重叠的不确定性和基于相似性的不确定性。该产品提供了两个不同的不确定性之间的平衡该公式基于Gompertz函数，这是逻辑函数的一种特殊形式，其中b是一个大值。如果区域是不确定的（ IoUi 和 Di 很小），则其权重接近0，并且其不确定梯度被减小以防止通过网络反向传播随着不确定度的降低，权重迅速增加到1，用于正常训练。但是，噪声知识仍然会损害上述过程，因为原始RoI特征是用噪声标签监督的在SSOD模型中。为了进一步避免噪声丢失注释标签，我们将相似性特征嵌入到全连接层中。目的是缩短距离4573标记集，co-80为未标记集; 2）co-115为标记集，co-120 为未标记集，然后报告 COCO 2014 minival 集（5，000张图像）上的模型性能。所有实验均使用PyTorch [31]和MMDetection [7]实现伪标签是从模型的预测中获得的，这些预测是除非另有说明，否则我们使用基于ResNet50 [14]的Faster RCNN [36]进行两阶段训练。所有其他实验设置与MM检测相同。4.1. 与现有方法的比较PASCAL VOC。我们基于VOC数据集上的两阶段检测器Faster RCNN和一阶段检测器SSD [27]对SSOD进行了比较研究。结果见表 1 。 1. 一、对于更快的RCNN，我们注意到我们的方法显著优于之前的单相SSOD基线模型，这将VOC 07上的全监督模型（FS）的mAP从74.8%提高到75.6%。相比之下，我们基于数据不确定性的多阶段学习实现了78.6%的mAP，并且与基线相比将mAP增加了3%。相比对于产生更准确的伪标签的DD [33]，即使使用相对低质量的伪标签，mAP也增加了2.6%。实验结果表明，该方法对SSOD是非常有效的我们的方法（78.6%）与通过对VOC 0712进行全监督学习获得的上限（81.2%）之间的差距不到3%，这表明我们的方法在未标记数据中学习知识的能力很强。4574表1：PASCAL VOC 2007测试与当前SSOD方法的半监督检测结果以及VOC 07或VOC 0712培训的全监督结果（L：标记数据，Un：未标记数据。）模型骨干方法L联合国地图FSVOC07-74.8FasterRCNNResNet50基线DD[33]我们VOC07VOC07VOC07VOC 12VOC 12VOC1275.676.078.6FSVOC0712-81.2FSVOC07-70.2基线VOC07VOC1271.8SSD300VGG16CSD [16]ISD [17]VOC07VOC07VOC12VOC1272.373.3我们VOC07VOC1274.5FSVOC0712-77.2表2：COCO minival与当前SSOD和FSOD结果的半监督检测结果。*表示性能是在没有集成的多阶段学习之后由最终模型获得的骨干方法L联合国APAP50AP75FS钴-35-31.352.033.0DD钴-35钴-8033.153.335.4我们钴-35钴-8034.855.137.2我们的+DD钴-35钴-8035.255.737.6ResNet50FSDD钴-115钴-115-钴-12037.437.958.160.140.440.8[40]第四十话钴-115钴-12038.459.741.7我们钴-115钴-12040.160.443.7我们的†+DD钴-115钴-12038.959.442.3我们的+DD钴-115钴-12040.361.043.9FS钴-115-39.460.143.1DD钴-115钴-12040.162.143.5ResNet101我们钴-115钴-12042.262.546.1我们的†+DD钴-115钴-12041.261.544.9我们的+DD钴-115钴-12042.362.746.3对于SSD [27]，我们基于不确定性的多阶段学习实现了74.5%的mAP，比单阶段学习的基线高2.7%。与基于一致性的半监督学习（CSD）[16]和基于插值的半监督学习（ISD）[17]相比，检测mAP分别提高了2.2%和1.2%然而，这两种方法在与两阶段检测器结合时表现不佳相比之下，我们的方法始终工作良好的两阶段和一阶段的检测器。可可小姐。我们使用Faster RCNN作为COCO数据集上的基础检测器进行了比较实验。测量检测精度的指标，如AP，AP50、AP75见表1。二、请注意，我们重新制作的DD在co-35/80上的性能比原始纸。对于co-35/80分割，基于ResNet 50骨干的多阶段学习实现了SSOD的34.8%的AP此外，我们将我们的方法与DD相结合，实现了35.2%的AP。与DD相比，实现的AP增加了2.1%，这对于COCO数据集来说非常突出，表3：PASCAL VOC 2007测试的消融研究。(RR：投资回报率重新加权）模型L联合国二--相RR合奏地图VOC07-74.8FasterRCNNVOC07VOC07VOC07VOC 12VOC 12VOC12CCC75.676.177.4VOC07VOC12CCC78.6VOC07-70.2SSD300VOC07VOC07VOC12VOC12C71.872.3VOC07VOC12CC74.5尤其是在半监督的环境中。对于co-115/120分割，我们的方法在coco-115/120 - proposal learning（PL）[40]上也始终优于DD方法和最先进的方法。即使不使用集成来挖掘不同难度级别的知识，我们的最终模型仍然优于 DD 1% 和 PL 0.5% 。使用更强大的特征提取器ResNet101，整体AP进一步提高到42.3%。实验结果验证了我们提出的基于数据不确定性的多阶段学习方法的有效性，以及它超越传统全监督方法上界的强大能力4.2. 消融研究我们对PASCAL VOC进行了消融研究，以分析1）多阶段学习（具体为两阶段），2）RoI重新加权策略，使模型能够专注于某些区域，3）模型集成推理过程中的影响。结果在Tab中。3 .第三章。对于更快的RCNN，两阶段训练比一阶段训练高0.5%。这一改进表明，我们的方法消除了标签噪声过拟合问题，导致性能恶化。RoI重新加权进一步产生1.5% mAP增益，这证实了重新加权迫使探测器进入更确定区域并减少缺失注释噪声效应的能力。结果集成最终提高了mAP ，提高了1.2%。根据以前的研究[48]，当集成模型彼此相似时，模型集成表现不佳。在我们的方法中，集成带来了显着的促进，从而表明来自不同阶段的模型掌握不同难度的图像。对于SSD，由于RoI重新加权不能应用于一级检测器，因此mAP增益稍低。还值得注意的是，集成对SSD检测器的贡献更大，导致2.2%的这是因为一级检测器通常在性能上不如两级检测器，并且很难挖掘出足够的信息。模型具有更多的随机元素，因此从集成中获益更多。• ROI重新加权分析。我们进一步研究了ROI重新加权的效果。我们比较我们的方法与基线4575表4：与基线和软采样相比，RoI重新加权对SSOD的影响。02是模型从阶段0（FS模型）到阶段2的集合结果。相基线软采样ROI重新加权0（FS模型）74.874.874.8175.976.276.6276.176.677.40 ∼277.878.178.6图5：RoI重新加权的说明性示例。左列是缺少注释的伪标签，右列是RR后区域不确定性的热图。蓝色区域对于探测器来说更不确定。在RR之前，所有区域具有相同的权重1.0，而在RR之后，不确定区域被分配较低的权重。和基于重叠的软采样[46]。结果列在选项卡中。四、对于原始的更快的RCNN，mAP在第一阶段从74.8%增加到75.9%，但在第二阶段几乎保持不变。这是因为更快的RCNN很容易被嘈杂的标签误导对于第一阶段，未标记的图像是容易的，伪标签是相对干净的。在这种情况下，Faster RCNN可以获得令人满意的结果。但在第二阶段，由于训练中出现了困难的、有噪声的、未标记的图像，因此训练效果受到严重影响。软采样在一定程度上缓解了缺少注释的问题。但它把区域级不确定性度量仅仅看作是重叠度的函数，这是不够的。以图5中的图像为例。对于第一个，右边的马没有标记，对于第二个，中间的小平面被错过了。共同之处在于，几乎所有背景ROI与正实例共享很少的重叠，并且仅使用基于重叠的度量将权重降低到相同的对于我们基于相似性和重叠度量的方法，如图中5、成功地检测到具有缺失注释问题的不确定区域因此，不确定的梯度表5：不同模型的检测结果。0-2表示模型从阶段0（全监督模型）到阶段2的集成结果。相VOC07测试VOC 07测试（简单）VOC 07测试（困难）0（FS模型）74.886.259.1176.686.762.7277.486.463.81 ∼278.387.365.40 ∼278.687.366.2信息是压抑的，我们的模型能够专注于更确定的区域。最后的模型是更强大的，特别是在第二阶段。• 模型发散分析。我们从多个阶段评估模型的简单或困难的图像，测试集如第3.1节。从Tab 5，我们观察到第一阶段的模型对简单图像表现最好，这表明仅使用简单未标记数据训练的模型专注于某些知识。第二阶段的模型具有最好的泛化能力，因为它使用最大量的数据进行学习。但由于标签噪声过拟合问题，使得模型只重视难数据而忽视易数据，使得模型在易数据上的表现较差。本实验验证了不同阶段的模型在不同难度水平的数据上的体验。由于这两个模型分别针对容易和困难的图像，因此它们是彼此互补的，并且将它们集成带来了很大的改进。我们还注意到，这两个模型已经能够适应所有特定的信息，因此添加FS模型并不能提高简单图像的性能。对于困难的不确定特征，FS模型仍然能够补充一点并增强最终的mAP。4.3. 讨论在之前的实验中，我们进行了两阶段的SSOD训练。在本节中，我们评估我们的方法与更全面的实验，讨论学习过程的效果4.3.1两阶段学习根据算法1，我们的半监督学习在不同阶段均匀地增加未标记图像的数量。在本节中，我们在第一阶段使用不同数量的简单图像执行两阶段SSOD，然后在第二阶段继续使用所有未标记的图像。结果绘制在图6中。当简单图像不太多时，简单图像的比率与第一阶段mAP呈正相关，因为更多的可用未标记数据有助于更强的泛化能力。当易成像率为50%左右时，性能达到最高，接近76.8%mAP. 然后，性能稳步下降时，每-4576图6：具有不同易数据量的两相SSOD，mAP在比率为50%时达到峰值容易图像的百分比继续增加，因为伪标签内的噪声增加，并且标签噪声过拟合问题变得更加严重，因为可以访问更困难的未标记第一阶段模型的能力直接影响第二阶段伪标签的质量最终，当简单图像约为未标记图像总数的一半时，mAP最高上述结果表明，在SSOD设置中，需要仔细考虑用于训练更多的数据并不一定会使裁军特别联大取得更好的成绩。为什么当简单图像约为50%时效果最好？我们使用第3.1节中提出的召回率/精确率指标评估了VOC和COCO的伪标签，发现VOC和COCO中简单图像的比例接近50%即使在数据蒸馏之后[33]，简单数据仍然占大约50%。简单图像是那些包含比噪声更多的正确信息并且对SSOD训练有积极贡献的图像，因此如果所有简单数据都参与第一阶段，我们可以期望最好的性能。对于SSOD设置，标记数据集和未标记数据集共享相同的分布，并且它们的数量比例适中。标记的数据集稍小，但足以训练一个很好的监督检测模型。自然也会收集图片。因此，对于模型以前从未见过的未标记图像，它很容易的可能性应该接近50%。因此，我们断言，在没有任何先验知识的数据集，50%是一个很好的估计容易的图像比例和一个适当的值的实施。4.3.2多个阶段我们将我们的方法扩展到更多的阶段。由于数据集是自然分布的，因此未标记的数据被均匀地划分为不同的阶段。结果见图7。对于VOC数据集，性能从两阶段78.6%略微提高到三阶段78.9%，而四阶段学习图7：VOC07测试和COCO minival上的多阶段半监督学习。不会产生更好的mAP。我们相信，生成两个半监督模型的两阶段学习已经能够充分描述大多数未标记的信息-一个用于简单的确定信息，另一个用于困难的不确定信息。由于信息已经完全编码，我们不需要更多的模型，即。更多的阶段。对于三阶段学习，多一个模型可能会弥补一些缺失的信息。但是当相位继续升高时，现有的模型已经足够提供所有的信息，额外的模型不能提供更多的信息。对于COCO数据集，虽然图像更复杂，但两个阶段也足够，更多的阶段不会带来显著的改善。因此，我们认为两阶段学习是一个很好的选择。5. 结论本文提出了一种新的基于数据不确定性的半监督目标检测多阶段学习方法。多阶段训练方法使模型能够充分利用所有的信息，不确定性描述指导训练过程，使检测器集中在一定的知识。我们展示了我们的方法挖掘未标记知识并实现最先进性能的非凡能力。半监督目标检测是一个具有挑战性的问题，我们将进一步探索如何更有效地利用未标记数据。确认本文的研究得到了国家自然科学基金项目（批准号：61771288）、国家信息科学技术研究中心跨媒体智能技术项目（批准号：BNR2019TD01022）和国家自然科学基金项目（批准号：2019TD01022）的资助。清华大学郭强研究所2019GQG0001我们也感谢华为技术有限公司的资金支持。公司4577引用[1] Devansh Arpit ， Stanislaw K Jastrzebski ， NicolasBallas，David Krueger，Emmanuel Bengio，Maxinder SKanwal ， Tegan Maharaj ， Asja Fischer ， Aaron CCourville ， Yoonne Bengio ， et al. A closer look atmemorization in deep net-works.在ICML，2017年。2[2] 约瑟芬·本吉奥，奥利维耶·德拉洛，尼古拉斯·勒鲁。标签传播和二次准则。（2006年）。11. 2[3] David Berthelot ， Nicholas Carlini ， Ian Goodfellow ，Nicolas Papernot ， Avital Oliver 和 Colin A Raffel 。Mixmatch：半监督学习的整体方法。在神经信息处理系统的进展，第5049-5059页，2019年。2[4] Hakan Bilen和Andrea Vedaldi。弱监督深度检测网络在IEEE计算机视觉和模式识别会议论文集，第2846- 2854页，2016年。2[5] 蔡兆伟和努诺·瓦斯康塞洛斯。Cascade r-cnn：高质量的对象检测和实例分割。IEEE Transactions on PatternAnalysis and Machine Intelligence，第1-1页，2019年。2[6] Olivier Chapelle ， Bernhard Scholkopf ， and AlexanderZien.半监督学习（Chapelle，O.例如，编辑; 2006）[书评 ] 。 IEEE Transactions on Neural Net-works ， 20（3）：542-542，2009. 2[7] Kai Chen，Jiaqi Wang，Jiangmiao Pang，Yuhang Cao，Yu Xiong，Xiaoxiao Li，Shuyang Sun，Wansen Feng，Ziwei Liu，Jiarui Xu，et al. Mmdetection：Open mmlabdetection tool- box and benchmark.arXiv 预印本 arXiv：1906.07155，2019。5[8] 戴继峰，李毅，何开明，孙健。R-fcn：通过基于区域的全卷积网络进行对象检测。神经信息处理系统的进展，第379-387页，2016年。2[9] Ali Diba ， Vivek Sharma ， Ali Pazandeh ， HamedPirsiavash，and Luc Van Gool.弱监督级联卷积网络。在IEEE计算机视觉和模式识别集，第9142[10] Mark Everingham 、 Luc Van Gool 、 Christopher KIWilliams、John Winn和Andrew Zisserman。pascal visualobject classes（pascal visual object classes）国际计算机视觉杂志，88（2）：303-338，2010。一、二、五[11] 罗斯·格希克快速R-CNN。在IEEE国际计算机视觉会议集，第1440-1448页，2015年。一、二[12] Ross Girshick ， Jeff Donahue ， Trevor Darrell ， andJitendra Malik.丰富的特征层次结构，用于精确的对象检测和语义分割。在Proceedings of the IEEE conference oncomputer vision and pattern recognition，pages 580一、二[13] 凯明赫，吉奥吉亚·吉奥萨里，彼得·多尔和罗斯·吉尔希克。面具R-CNN。在IEEE计算机视觉国际会议论文集，第2961-2969页2[14] 何开明，张翔宇，任少卿，孙健。用于图像识别的深度残差学习。进行中-IEEE计算机视觉和模式识别会议，第770-778页，2016年。5[15] Judy Hoffman ， Sergio Guadarrama ， Eric S Tzeng ，Ronghang Hu ， Jeff Donahue ， Ross Girshick ， TrevorDarrell和Kate Saenko。Lsda：通过自适应进行大规模检测。神经信息处理系统进展，第3536-3544页，2014年。2[16] Jisoo Jeong ， Seungeui Lee ， Jeesoo Kim ， and NojunKwak.基于一致性的对象检测半监督学习。神经信息处理系统的进展，第10759-10768页，2019年。第二、六条[17] 郑智秀，维卡斯·维尔马，敏星·贤，朱浩·坎那拉，郭野俊.基于插值的半监督学习目标检测。arXiv预印本arXiv：2006.02158，2020。第二、六条[18] Tarun Kadhi，Girish Varma，Manmohan Chandraker，and CV Jawahar.通用半监督语义分割。在IEEE计算机视觉国际会议论文集，第5259-5270页，2019年。2[19] Alex Krizhevsky，Ilya Sutskever，and Geoffrey E Hinton.使用深度卷积神经网络进行图像网分类。神经信息处理系统的进展，第1097-1105页，2012年。1[20] Alina Kuznetsova ， Hassan Rom， Neil Alldrin ， JasperUi- jlings ， Ivan Krasin ， Jordi Pont-Tuset ， ShahabKamali，Stefan Popov，Matteo Malloci，Tom Duerig，et al. The open images dataset v4 ： Unified imageclassification ， object detection ， and visual relationshipdetection at scale.arXiv 预印本 arXiv ： 1811.00982 ，2018。1[21] Samuli Laine和Timo Aila用于半监督学习的时间集成arXiv预印本arXiv：1610.02242，2016。2[22] YannLeCun，Le'onBottou，YoelmanBengio和PatrickHaffner。应用于文档识别的基于顺应性的学习Proceedings of the IEEE，86（11）：2278-2324，1998.1[23] 李东贤伪标签：用于深度神经网络的简单有效的半监督学习方法。在表征学习挑战研讨会上，ICML，第3卷，2013年。1[24] Xiaomeng Li，Lequan Yu，Hao Chen，Chi-Wing Fu，Lei Xing，and Pheng-Ann Heng.半监督医学图像分割的变换一致 IEEE Transactions on Neural Networks andLearning Systems，2020。2[25] Tsung-YiLin ， Priya Goyal ， Ross Girshick ， KaimingHe，and PiotrDol la'r. 用于密集目标检测的焦面损失。在2017年IEEE计算机视觉国际会议的开幕式2[26]

下载后可阅读完整内容，剩余1页未读，立即下载