基于密集学习的半监督目标检测

95 浏览量更新于2023-10-25 收藏 14.92MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

semi-supervised objection detection (SSOD) methods.48150基于密集学习的半监督目标检测0Binghui Chen 1 , Pengyu Li 1 , Xiang Chen 1 , Biao Wang 1 , Lei Zhang 2 , Xian-Sheng Hua 101 阿里巴巴集团，2 香港理工大学0chenbinghui@bupt.cn, lipengyu007@gmail.com, xchen.cx@alibaba-inc.com, wangbiao225@foxmail.com0cslzhang@comp.polyu.edu.hk, huaxiansheng@gmail.com0摘要0半监督目标检测（SSOD）旨在通过大量无标签数据的帮助来促进目标检测器的训练和部署。尽管已经提出了各种基于自训练和一致性正则化的SSOD方法，但其中大部分是基于锚点的检测器，忽视了在许多实际应用中更需要的无锚点检测器。在本文中，我们打算弥合这一差距，并提出了一种基于DenSeLearning（DSL）的基于无锚点的SSOD算法。具体而言，我们通过引入几种新技术来实现这一目标，包括自适应过滤策略用于分配多级和准确的密集像素级伪标签，聚合教师用于生成稳定和精确的伪标签，以及在尺度和洗牌补丁之间的不确定性一致性正则化项，以提高检测器的泛化能力。在MS-COCO和PASCAL-VOC上进行了大量实验，结果表明我们提出的DSL方法记录了新的最先进的SSOD性能，大幅超越了现有方法。代码可以在以下链接找到：0https://github.com/chenbinghui1/DSL .01. 引言0目标检测（OD）方法的最近快速发展[5, 17,40]在很大程度上归功于大规模和良好注释的数据集，如MS-COCO基准[27]。随着对更强大和准确的检测模型的需求增加，收集和标记更多数据的需求也在增加。然而，对于大规模数据集手动标记类别标签和边界框是一项非常昂贵和繁琐的工作，在实际应用中不具备成本效益。为了解决这个问题，半监督[38,48]和自监督[28]的OD算法，旨在利用大量无标签数据来提高OD的性能，近年来引起了广泛关注。本文重点研究半监督目标检测（SSOD）方法。0图1.基于无锚点的DSL与基于锚点的方法STAC[38]和ISMT[48]的SSOD性能比较。可以观察到，在监督设置下，基于锚点的检测器Faster-RCNN[36]和基于无锚点的检测器FCOS[44]具有类似的基准性能，而我们提出的DSL实现了最先进的SSOD性能，在性能上大幅超越了现有方法。0当前最先进的SSOD方法是基于伪标签的方法[31, 38, 48,51]，其中大部分基于两阶段锚点检测器，如Faster-RCNN[36]。具体而言，它们首先使用教师模型为无标签图像生成伪标签，然后使用带有标记和无标签图像的两阶段锚点检测器进行训练。然而，在实际应用中，基于单阶段无锚点的检测器（例如FCOS[44]）更具吸引力和实用性，因为它们在资源有限的设备上部署起来更容易和高效，除了NMS之外几乎不需要繁重的预/后处理。与Faster-RCNN不同，FCOS的学习是建立在密集特征预测上的，即每个像素都由相应的标签直接监督。在没有预定义锚点和多次优化预测的帮助下，基于无锚点的检测器的学习需要更加细致的引导，特别是在SSOD设置下。不幸的是，关于无锚点SSOD的研究工作很少。48160已经报道了许多基于锚点的目标检测器的性能，如何处理由无锚点检测器预测的密集伪标签仍然是一个具有挑战性的问题。为了解决上述挑战，在本文中，我们提出了一种用于无锚点SSOD的DenSeLearning（DSL）算法。具体而言，为了对密集学习进行仔细的标签引导，我们首先提出了一种自适应过滤（AF）策略，将伪标签细分为背景、前景和可忽略区域三个细粒度部分。然后，我们使用MetaNet对这些伪标签进行了改进，以去除分类误报，这些误报具有更高的预测分数，但实际上是类别中的错误预测。考虑到伪标签的正确性决定了SSOD模型的性能，我们引入了聚合教师（AT）来进一步增强估计的伪标签的稳定性和质量。此外，为了提高模型的泛化能力，我们从洗牌的图像块中学习，并规范化密集特征图的不确定性，使其在图像尺度之间保持一致。本文的主要贡献总结如下：0• 开发了一种简单而有效的DenSeLearning（DSL）方法，以提高SSOD中大规模无标签数据的利用率。据我们所知，这是第一个用于SSOD的无锚点方法。0•提出了自适应过滤（AF）策略，为每个像素分配细粒度的伪标签；引入了聚合教师（AT）来增强估计的伪标签的稳定性和质量；并采用从洗牌的图像块中学习和尺度之间的不确定性一致性规范化来提高模型的泛化性能。0在MS-COCO [27]和PASCAL-VOC[8]上进行的大量实验证明，所提出的DSL方法相对于现有最先进的SSOD方法取得了显著的性能改进。02. 相关工作0最近，随着深度学习技术的快速发展，半监督学习（SSL）在图像分类方面取得了显著进展。SSL旨在利用大量无标签数据学习稳健且有区分度的分类边界。具体而言，[19]中使用自我集成来稳定无标签数据的学习目标。[32]中提出了一种新的条件标签分布的局部平滑度度量，以提高SSL的学习性能。均值教师是01 在本文中，我们采用FCOS [44]作为基线检测器。0在目标检测任务中，半监督目标检测（SSOD）旨在通过使用更大规模的无标签数据来提高目标检测器的性能。由于手动标注目标标签非常昂贵，因此产生无标签数据的伪标签非常有吸引力。在[34，39，52]中，通过合并来自不同数据增强的预测结果来生成伪标签。STAC[38]使用强增强和弱增强进行模型训练，其中强增强仅应用于无标签数据，而弱增强用于生成稳定的伪标签。UBA[31]采用EMA teacher [42]生成更准确的伪标签。ISMT[48]通过NMS将当前伪标签与历史标签融合，并使用多个检测头来提高伪标签的准确性。Instant-Teaching[51]将更强大的增强（如Mixup和Mosaic）组合到训练中。L = Ls + αLu(1)Ls =1Npos�i�h,w(Lcls(Xi,h,w) + 1{p∗h,w∈[0,C−1]}Lreg(Xi,h,w)+1{p∗h,w∈[0,C−1]}Lcenter(Xi,h,w))(2)Lu =1Npos�i�h,w(Lcls(Ui,h,w) + 1{¯p∗h,w∈[0,C−1]}Lreg(Ui,h,w)+1{¯p∗h,w∈[0,C−1]}Lcenter(Ui,h,w))(3)48170图 2. 我们提出的基于 DenSe Learning (DSL) 的 SSOD方法的流程。训练数据包含有标签和无标签的图像。在每个训练迭代中，使用教师模型为弱增强的无标签图像生成伪标签。在基于无锚点的检测器（如 FCOS[44]）中，密集预测的每个空间位置将被分配一个标签，模型的性能对噪声伪标签非常敏感。为了缓解这个问题，提出了自适应滤波策略，将伪标签分为背景、前景和可忽略区域三种类型。此外，存在一些假阳性情况，它们具有较高的分数，但显然是错误的预测。因此，提出了MetaNet来改进这些情况。为了提高模型的泛化能力，对无标签图像进行了补丁洗牌，并在这些图像上应用了一致性正则化。为了提高伪标签的稳定性和质量，通过聚合将学生模型更新到教师模型，称为聚合教师。在获得细粒度的像素级伪标签后，可以通过最终损失函数对检测器进行优化，该损失函数是 L s、L u 和 L scale 的总和。0训练阶段。Humble-Teacher [41]使用大量的提议和软伪标签来处理未标记数据。[22]中为目标检测定制了一种称为 Certainty-aware伪标签的方法。E2E [47]使用软教师机制来训练未标记数据。几乎所有上述方法都是基于锚点的检测器构建的，例如 FasterRCNN，这些方法在资源有限的实际应用中不方便部署。因此，在本文中，我们首次开发了一种无锚点的 SSOD 方法。03. 方法03.1. 初步0为了方便表达，首先为 SSOD任务提供一些符号。假设我们有两组数据，一个有标签的数据集 X = {X i | N l i = 1} 和一个无标签的数据集 U = {U i |N u i = 1}，其中 N l 和 N u分别是有标签和无标签图像的数量，且 N u � Nl。每个有标签的图像都有类别 p � ∈ [0, C - 1]（C是前景类别的数量）的注释和边界框（BBox）的注释 t�。在一张图像中，由 BBox和类别标签注释的每个区域称为一个实例。为了方便起见，我们以无锚点的 FCOS [44] 检测器作为基线，它由ResNet50 [9] 主干网络、FPN [26]颈部和密集头部组成。为了使用有标签和无标签数据进行训练，可以定义整体损失如下：0其中，L s 和 L u 分别表示有监督损失和无监督损失，α是超参数，用于控制无标签数据的贡献。有监督损失和无监督损失都通过每个小批量中正像素的数量进行归一化，如下所示：0其中，N pos 表示一个小批量中正像素的数量，X i,h,w表示第 i 张图像在空间位置 (h, w) 的预测向量，¯ p � h,w表示相应位置 (h, w) 的估计伪标签。L cls、L reg 和 Lcenter 是 FCOS [44] 中使用的默认损失函数。1 {∙}是指示函数，如果条件 {∙} 满足则输出 1，否则输出0。本文提出了一种称为 DenSe Learning (DSL)的算法，用于弥合 SSOD和无锚点检测器之间的差距。我们的 DSL 方法的流程如图 2所示。它主要由自适应滤波（AF）策略、元网络（MetaNet）、聚合教师（AT）和不确定性一致性正则化项组成，下面的章节将详细介绍这些内容。s�i�h,w(1{¯p∗h,w≥0}Lcls(Ui,h,w) + 1{¯p∗h,w∈[0,C−1]}�3.3. MetaNet48180图3.在COCO上使用10％标记数据时，TP+，TP-和BG的分布情况。‘TP+’表示估计的实例与地面真值（GT）具有相同的类别ID，并且BBox的IOU大于0.5。‘TP-’表示估计的实例与GT具有相同的类别ID，但BBox的IOU小于0.5。‘BG’表示估计的实例属于背景或具有错误的类别ID。03.2.自适应过滤策略0FCOS[44]检测器通过引入密集的像素级监督来减少对预定义锚点的依赖性。虽然这对于在实际应用中容易部署是有帮助的，但模型的性能对像素级标签的质量非常敏感。由于SSOD中的预测伪标签无论检测器有多强大都会有噪声，因此对于FCOS的像素级监督应该谨慎处理。为此，我们提出了一种自适应过滤（AF）策略，以精细处理密集学习的伪标签。为了利用无标签数据，我们需要为输出密集张量中的每个像素分配一个伪标签。然而，如图3所示，我们可以看到TP+，TP-和BG实例彼此共存，并且它们的分布更加复杂。如果我们简单地使用单一阈值来定义前景和背景，将会有许多实例被错误地分配标签，导致严重的噪声并损害准确检测器的学习。例如，如果我们将相对较高的阈值0.4用于定义正例实例，将会有许多TP+和TP-错误地分配到背景。相反，如果我们将相对较低的阈值0.1用于定义背景实例，将会有许多BG实例错误地分配到前景。因此，我们建议使用多个阈值{τ1，τ2}将估计的实例分为三个部分：背景，可忽略区域和前景：0¯p�h,w =0前景：[0, ∙ ∙ ∙ , C − 1]ph,w >= τ2，0可忽略区域：[−1]τ1 < ph,w < τ2，0(4)其中，ph,w是位置(h,w)处的预测得分（如果未指定，则为分类得分和中心得分的乘积），¯p�h,w是相应的伪标签。0图4.（a）估计的分类误报实例，它们具有较高的分数，但在类别中明显是错误的预测。（b）我们提出的用于改进实例伪标签的MetaNet。‘√’和‘×’分别表示保留和删除。0与前景和背景区域不同，我们对可忽略的区域的梯度计算和传播进行忽略，如下所示：0Lu = 10Lreg(Ui,h,w)+ 1 { ¯p�h,w ∈ [0 ,C − 1] } Lcenter(Ui,h,w)). (5)0方程4中的τ1用于过滤背景，因此相对容易设置。我们在所有实验中将τ1设置为0.1。τ2用于过滤前景，对于不同的类别来说设置起来更困难。我们建议使用自适应的τk2而不是固定的τ2：0τk2 = (0h,w 1 { ¯p�h,w == k } ph,w Npos ) βτ, (6)0其中，τk2是第k个类别的阈值，β=0.7用于控制对尾部类别的关注程度，τ=0.35作为固定的参考阈值。备注：与基于锚点的检测器不同，无锚点检测器将每个像素预测为背景或前景，并为所有像素计算梯度。然而，对于无标签数据，得分在[τ1，τk2]区间内的实例是嘈杂和混淆的，将它们视为前景或背景会降低检测性能。因此，在无锚点SSOD中，我们应该明确设置多个细粒度的阈值，以识别不仅是背景和前景，还有可忽略的区域。所提出的AF策略可以很好地处理这个问题，并为密集像素分配细粒度和多级标签，如图2所示。我们通过实验证明，AF策略对于无锚点SSOD非常重要。0尽管AF能够提高密集学习的伪标签质量，但仍然存在一些分类误报的实例，它们具有较高的mk =�i fi,kNk,(7)3.4. Aggregated Teacherθ′t = ϵθ′t−1 + (1 − ϵ)θt,(8)the recurrent learning [11, 25, 50] and use a recurrent layeraggregation mechanism as bellow:xl+1 = θl+1[xl + hl] + xl,(9)hl+1 = g2[g1[θl+1[xl + hl]] + hl],(10)48190分数，但是明显是错误的预测，如图4（a）所示。为了处理这些实例，我们采用了一个MetaNet，如图4（b）所示。我们使用ResNet50来实现MetaNet。在DSL训练之前，我们首先将所有标记的实例传递到MetaNet中，并计算以下类别-wise的代理 m k ：0其中 f i,k 是第 i 个实例属于第 k 个类别的 1-D特征向量，N k 是第 k个类别的实例数。在获得类别-wise的代理之后，我们通过计算未标记实例的特征向量与相应类别代理向量之间的余弦距离来改进伪标签。如果距离小于阈值 d = 0.6，我们将该实例的标签从“前景”更改为“可忽略区域”。备注：MetaNet用于修正那些容易出错的实例的预测前景类别标签。它只执行元更新步骤，因此可以以即插即用的方式工作。MetaNet的计算仅涉及标记实例上的类别代理更新，不涉及梯度反向传播，因此速度快，成本与DSL的训练相比可以忽略不计。借助稳定的类别代理的帮助，我们可以成功地去除许多分类误报的实例。0在基于伪标签的方法中，预测的伪标签的稳定性和质量对最终性能至关重要。因此，几乎所有现有的基于锚点的方法[22 , 31 , 41 , 47 , 48]都使用EMA教师来改善未标记数据的伪标签质量。如图5（a）所示，EMA通常以以下方式执行：0其中 ϵ 是平滑超参数，t 表示迭代次数，θ 和 θ ′分别是学生模型和教师模型的参数。EMA更新旨在通过学生模型的集成获得更稳定和强大的教师模型。然而，方程式8中的这种更新可能仍然粗糙和弱，因为它仅在不同迭代中聚合同一层中的参数，而不考虑层间的相关性。为了进一步增强教师模型的能力，受密集聚合机制的启发，我们引入了一个聚合教师（AT），它不仅在时间上进行参数聚合，还在层间进行循环层聚合，如图5（b）所示。具体而言，对于参数聚合，我们仍然采用方程式8中的现有EMA更新。而对于层聚合，为了避免参数过多的问题，我们遵循0图5.（a）EMA教师和（b）我们的聚合教师的示意图。EMA教师仅对参数进行聚合，而我们的聚合教师对参数和层进行聚合。0其中 x l 是CNN中第 l 层的张量，θ l表示相应的卷积参数。h l 是第 l 层的隐藏状态张量，h 1初始化为零。g 1 和 g 2 是用于循环计算的相应的 1 × 1 和3 × 3 Conv 层，在同一阶段内相邻层之间共享参数。� [ ∙ ]表示输入张量‘ ∙ ’和参数‘ �’之间的卷积操作。通过使用循环机制，引入的参数数量可以忽略不计。从方程式9可以看出，当隐藏状态 h l − 1被移除时，它将退化为ResNet的默认残差单元。换句话说，循环层聚合可以很容易地应用于当前的残差CNN模型。此外，由于检测器中的neck和heads非常浅，我们只在backbone上执行层聚合。备注：由于EMA教师中的参数聚合独立处理每一层，层之间的关系可能在聚合过程中被破坏，因此一个聚合层可能与相邻层不配合。因此，在我们的模型中考虑了层聚合。通过明确使用隐藏状态将当前层与前一层连接起来，知识传播将更加稳定和准确。此外，共享的循环层对传播的信息施加了正则化。与EMA教师相比，聚合教师能够为密集学习产生更稳定和准确的伪标签。03.5. 不确定性一致性0通过使用提出的AF、MetaNet和AT，可以获得密集的像素级伪标签，以监督SSOD模型的学习，通过优化损失Lu。为了进一步提高SSOD模型的泛化能力，我们提出在未标记图像上正则化不确定性一致性。从图6可以看出，输入由一对图像组成：强增强和Patch增强图像（Usp）以及相应的下采样图像（Ud）。在生成Ud时，下采样比例设置为r =2。通过PatchShuffle增强，我们沿水平或垂直方向随机裁剪图像，并对这些部分进行洗牌（详细算法可在算法1中找到）。这两个图像都将被输入到我们的检测器中，在不同的尺度级别上生成密集的分数图（在FCOS中，有5个级别，即v∈[1，5]）。为了提高SSOD的泛化性能，我们采用以下正则化损失：Lscale =4�v=1∥pv[Ud] − pv+1[Usp]∥22,(11)48200图6.不同尺度之间的不确定性一致性正则化的示意图。输入图像来自同一未标记图像Ui。04 �0其中pv[U�]表示从图像U�派生的分数图pv。由于下采样比例r=2，pv[Ud]与pv+1[Usp]具有相同的分辨率，并且它们被约束为一致。备注：输出的密集分数图显示了每个像素预测标签的不确定性或可靠性。分数越低，像素属于前景对象的不确定性就越高。数据的不确定性已被广泛用于指示先前工作中的数据重要性[6，10，15，16，45]。在本文中，我们正则化不确定性一致性。PatchShuffle用于减少前景对象对其周围上下文的依赖性，提高模型对上下文变化的鲁棒性。此外，为了确保不同尺度之间的一致输出，定义了L scale以提高模型对对象尺度变化的鲁棒性。到目前为止，我们已经描述了DSL的所有组件，并在图2中显示了整体流程。0算法1：Patch Shuffle0输入：未标记图像U；输出：Patch洗牌图像Up；初始化：U0 = U，总迭代次数J；对于j =0，∙∙∙，J - 1，执行0(1)模式m：从['horizontal'，'vertical']中随机选择一个模式；(2) 归一化尺寸s：从区间[0，1]中随机生成s；(3)根据模式m和归一化尺寸s将Uj切割成两部分；(4)对这两部分进行顺序洗牌，并将它们连接成新的图像ˆUj；(5) Uj+1 = ˆUj；结束04. 实验0数据集和评估指标：我们在流行的目标检测基准数据集上进行实验，包括MS-COCO [27]和PASCAL-VOC[8]。MS-COCO包含超过118k个标记图像，其中有来自80个类别的约850k个实例。此外，还提供了123k个未标记图像用于半监督学习。VOC07包含来自20个类别的5,011个训练图像，而VOC12有11,540个训练图像。在MS-COCO上，我们遵循STAC[38]的设置，并使用部分标记数据和完全标记数据两种协议进行评估。前者随机采样1％、2％、5％和10％的训练数据作为标记数据，并将其余部分视为未标记数据。（对于此协议，我们创建了3个数据折叠，并报告它们的平均结果。）后者使用所有的训练数据作为标记数据，额外的未标记数据作为未标记样本。我们采用平均精度AP50:90（用mAP表示）作为评估指标。对于在PASCAL-VOC07上的实验，按照STAC[38]的做法，我们使用VOC07训练集作为标记数据，将VOC12训练集或与MS-COCO中相同20个类别的图像（用COCO20表示）一起作为未标记数据。我们采用VOC默认的AP50指标和COCO默认的mAP指标作为评估指标。实现细节：我们采用流行的无锚点检测器FCOS[44]作为主干网络，ResNet50 [9]作为骨干网络，FPN[27]作为颈部和密集头部。MS-COCO中的图像被调整大小，使其较短的边为800，如果较长的边小于1,333，则调整为640。PASCAL-VOC中的图像被调整大小，使其较短的边为600，如果较长的边小于1,000，则调整为480。为了公平比较，按照[31,38]的做法，在所有实验中，使用随机翻转作为弱数据增强，而强数据增强包括随机翻转、颜色抖动和cutout。PatchShuffle中的迭代次数J设置为2。对于训练配置，学习率从48210表1. 在MS-COCO [ 27]数据集上竞争方法的mAP性能（%）。使用的协议是部分标记数据。†表示该方法使用较大的批量大小32或40，‡表示在标记数据上应用了强数据增强。注意，†、‡不是STAC [ 38]的默认设置，但它们将改善监督基线和SSOD的性能。'监督'表示仅使用相应的标记数据进行训练，这被设置为SSOD的基准。0方法部署 1% 2% 5% 10%0基于锚点0监督 [ 38 ] 硬 9.05 ± 0.16 12.70 ± 0.15 18.47 ± 0.22 23.86 ± 0.810CSD [ 14 ] 硬 11.12 ± 0.15 14.15 ± 0.13 18.79 ± 0.13 24.50 ± 0.150STAC [ 38 ] 硬 13.97 ± 0.35 18.25 ± 0.25 24.38 ± 0.12 28.64 ± 0.210IT [ 51 ] 硬 16.00 ± 0.20 20.70 ± 0.30 25.50 ± 0.05 29.45 ± 0.150ISMT [ 48 ] 硬 18.88 ± 0.74 22.43 ± 0.56 26.37 ± 0.24 30.53 ± 0.520H0UB † [ 31 ] 硬 20.75 ± 0.12 24.30 ± 0.97 28.27 ± 0.11 31.50 ± 0.100E2E †‡ [ 47 ] 硬 20.46 ± 0.39 - 30.74 ± 0.08 34.04 ± 0.140无锚点监督（我们的）简单 9.53 ± 0.23 11.71 ± 0.26 18.74 ± 0.18 23.70 ± 0.220DSL（我们的）简单 22.03 ± 0.28 25.19 ± 0.37 30.87 ± 0.24 36.22 ± 0.1800.01，并在第16和22个epoch时除以10。最大epoch为24。部分标记协议和完全标记协议的α分别设置为3和1，VOC的α设置为2.5。ε设置为0.99。对于参数τ k2，我们将其设置在[0.25,0.35]范围内。我们所有的实验都基于Pytorch [ 33]和MMDetection [ 7 ]。我们使用8个NVIDIA-V100GPU，每个GPU有32G内存。对于每个GPU，我们从标记集和未标记集中随机采样2个图像，比例为1:1。04.1. 与现有技术的比较0我们将提出的DSL与基于锚点的检测器（如Faster-RCNN [36 ]和SSD [ 29]）进行比较。结果显示在表1、表2和表3中。从表1可以看出，在COCO的部分标记数据协议的监督设置下，我们的无锚点检测器与那些基于锚点的检测器具有相似的基准性能，即1%、2%、5%和10%标记数据分别为9.53 vs.9.05、11.71 vs. 12.70、18.74 vs. 18.47和23.7 vs.23.86。这意味着在使用部分标记数据时，无锚点和基于锚点的SSOD模型是可比较的。应用提出的DSL算法后，SSOD性能在所有协议下都可以显著且一致地改善。DSL在所有竞争方法中都取得了很大的优势，证明了我们方法的有效性和优越性。我们还按照COCO的完全标记数据协议进行了实验，结果显示在表2中。由于这些监督方法的报告性能在原始工作中差异很大，我们将它们的结果与基准结果一起报告，并比较它们的相对性能改进。从表2可以看出，我们的DSL取得了最大的性能提升，即3.6mAP增益。在PASCAL-VOC上的结果列在表3中。我们可以看到，提出的DSL在监督基线以及所有比较方法上都取得了显著的性能改进。0表2. 在MS-COCO [ 27]数据集上竞争方法的mAP性能（%）。使用的协议是完全标记数据。0方法部署 100%0基于锚点0STAC [ 38 ] 硬 37.6 1 . 6 −→ 39.20ISMT [48] 困难 37.8 1.8 → 39.60UB † [31] 困难 40.2 1.1 → 41.30E2E †‡ [47] 困难 40.9 3.6 → 44.50无锚点DSL（我们的）简单 40.2 3.6 → 43.80总之，表1、表2和表3中的结果都证明了我们的DSL方法的有效性。值得一提的是，与基于锚点的方法相比，由于DSL方法在预处理/后处理方面的成本几乎可以忽略不计，因此更容易在实际应用中部署，显示了无锚点SSOD算法的巨大潜在价值。04.2. 消融研究0为了更好地理解提出的DSL方法的工作原理，我们在MS-COCO10%标记数据协议下进行了一系列消融研究。每个组件的有效性。DSL的不同组件的贡献列在表4中。从这个表中可以看出，通过使用AF，性能可以显著提高，从23.7提高到32.2mAP，已经超过了表1中大多数SOTA方法。通过采用MetaNet来改进前景伪标签，性能可以进一步提高到32.5。通过应用AT来鼓励伪标签的稳定性和质量，性能进一步提高到34.5mAP。最后，通过学习洗牌的补丁并约束图像尺度之间的一致性，整体模型变得更加稳健，并展现出更高的准确性，即36.2mAP。表4中的消融研究验证了DSL中每个模块的有效性。关于AF的消融研究。表5显示了我们的AF策略的消融研究。为了证明多个阈值的重要性，我们进行了一次mAP27.128.830.727.534.336.035.636.2nsmAP33.034.135.036.2α1234mAP33.935.436.2fail48220表3. 在PASCAL-VOC [8]数据集上的竞争方法的结果（%）。性能在VOC07测试集上进行评估。0方法部署未标记：VOC12 未标记：VOC12 + COCO200AP 50 AP 50:90 AP 50 AP 50:900基于锚点0有监督 [38] 困难 72.75 42.04 72.75 42.040CSD [14] 困难 74.7 - 75.1 -0STAC [38] 困难 77.45 44.64 79.08 46.010IT [51] 困难 78.3 48.7 79 49.70I0UB † [31] 困难 77.37 48.69 78.82 50.340无锚点有监督（我们的）简单 69.6 45.9 69.6 45.90DSL（我们的）简单 80.7 56.8 82.1 59.80表4. 提出的DSL方法的每个组成部分的有效性。'+'表示通过提出的方法进行训练。0方法 mAP0有监督 23.70+ AF 32.2 + MetaNet32.5 + AT 34.5 +Patch-Shuffle 34.9 +L scale 36.20将单一阈值策略作为参考，如果实例的分数高于阈值，则将其视为前景，否则视为背景。可以看出，单一阈值策略无法达到令人满意的性能。当阈值设置为0.2时，最佳结果仅为30.7mAP，这意味着许多实例被单一阈值错误定义。相比之下，通过使用我们的多级阈值策略，即AF，性能可以显著提高：即使使用固定的τk2 = 0.3，结果也可以提高到36.0mAP；当为每个类别使用自适应的τk2时，可以进一步提高到36.2mAP，显示了我们的AF策略的有效性和重要性。对AT的消融研究。从表6可以看出，层聚合（LA）比EMA获得更高的性能增益，因为它考虑了层间的细粒度关系，而EMA只是简单地独立地聚合了层参数，因此可能破坏了层间的关系。此外，通过同时使用EMA和LA，我们的AT可以进一步提高性能，达到36.2mAP。这意味着参数和层的聚合实际上是互补的。对损失权重α的消融研究。从表7可以看出，性能在α =3附近达到峰值。过大的权重，如α =4，将给模型提供太多使用未标记图像进行训练的机会，从而降低模型的稳定性。讨论。在基于锚点的SSOD中，负/可忽略实例已经通过标签分配器和采样器隐式处理，我们只需要考虑0表5. 自适应滤波的消融研究。0方法单一阈值 AF(固定 τ k 2 ) AF 0.05 0.1 0.2 0.3 0.2 0.3 0.40表6. 聚合教师的消融研究。'LA'表示层聚合。0方法无教师 + EMA + LA AT0表7. 无标签数据的损失权重 α的消融研究。'fail'表示训练损失很容易变为'nan'。0如何通过阈值召回前景实例。相比之下，在无锚SSOD中，由于像素级梯度传播，多级伪标签应该被明确考虑。这可以通过我们的AF策略在表5中得到证明。此外，由于没有预定义的尺度变化锚点的帮助，FPN[27]与密集头在无锚检测器中被广泛使用来解决尺度问题。因此，L scale可以被普遍采用并被视为无锚SSOD中的默认技巧，在表4中验证了其有效性。总之，我们的大部分技术都是通过考虑无锚检测器的特殊特性提出的，我们在本文中的工作是迈向无锚SSOD的第一步。05. 结论0在这篇论文中，我们首次尝试了将SSOD和无锚检测器相结合，并开发了一种基于DSL的SSOD方法。DSL建立在几种新技术的基础上，如自适应滤波、聚合教师和不确定性正则化。我们的实验证明，所提出的DSL在COCO和VOC数据集上的性能远远超过了现有的SSOD方法。我们希望我们的工作能够激发更多关于无锚SSOD方法的深入探索。48230参考文献0[1] Sean Bell, C Lawrence Zitnick, Kavita Bala, and RossGirshick. Inside-outside net: Detecting objects in contextwith skip pooling and recurrent neural networks. InProceedings of the IEEE conference on computer vision andpattern recognition , pages 2874–2883, 2016. 20[2] David Berthelot, Nicholas Carlini, Ian Goodfellow, NicolasPapernot, Avital Oliver, and Colin Raffel. Mixmatch: A holisticapproach to semi-supervised learning. arXiv preprintarXiv:1905.02249 , 2019. 20[3] Zhaowei Cai, Quanfu Fan, Rogerio S Feris, and NunoVasconcelos. A unified multi-scale deep convolutional neuralnetwork for fast object detection. In European conferenceon computer vision , pages 354–370. Springer, 2016. 20[4] Zhaowei Cai and Nuno Vasconcelos. Cascade r-cnn:Delving into high quality object detection. In Proceedings ofthe IEEE conference on computer vision and patternrecognition , pages 6154–6162, 2018. 20[5] Nicolas Carion, Francisco Massa, Gabriel Synnaeve, NicolasUsunier, Alexander Kirillov, and Sergey Zagoruyko. End-to-endobject detection with transformers. In European conference oncomputer vision , pages 213–229. Springer, 2020. 10[6] Binghui Chen and Weihong Deng. Weakly-superviseddeep self-learning for face recognition. In 2016 IEEEInternational Conference on Multimedia and Expo (ICME) ,pages 1–6. IEEE, 2016. 2 , 60[7] Kai Chen, Jiaqi Wang, Jiangmiao Pang, Yuhang Cao, YuXiong, Xiaoxiao Li, Shuyang Sun, Wansen Feng, Ziwei Liu,Jiarui Xu, Zheng Zhang, Dazhi Cheng, Chenchen Zhu,Tianheng Cheng, Qijie Zhao, Buyu Li, Xin Lu, Rui Zhu, YueWu, Jifeng Dai, Jingdong Wang, Jianping Shi, Wanli Ouyang,Chen Change Loy, and Dahua Lin. MMDetection: Openmmlab detection toolbox and benchmark. arXiv preprintarXiv:1906.07155 , 2019. 70[8] Mark Everingham, Luc Van Gool, Christopher KI Williams,John Winn, and Andrew Zisserman. The pascal visual objectclasses (voc) challenge. International journal of computervision , 88(2):303–338, 2010. 2 , 6 , 80[9] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun.深度残差学习用于图像识别.在计算机视觉和模式识别的IEEE会议论文集中，页码770-778，2016年。 3 , 60[10] Jay Heo, Hae Beom Lee, Saehoon Kim, Juho Lee, KwangJoon Kim, Eunho Yang, and Sung Ju Hwang.可靠解释和预测的不确定性感知注意力.arXiv预印本arXiv:1805.09653，2018年。 60[11] Sepp Hochreiter和J¨urgen Schmidhuber. 长短期记忆.神经计算，9(8):1735-1780，1997年。 50[12] Gao Huang

下载后可阅读完整内容，剩余1页未读，立即下载