没有合适的资源?快使用搜索试试~ 我知道了~
145120MUM:混合图像块和非混合特征块用于半监督目标检测0JongMok Kim 1 , 2 JooYoung Jang 1 , 2 Seunghyeon Seo 2 Jisoo Jeong 2 Jongkeun Na 1 Nojun Kwak 201 SNUAILAB,韩国 2 首尔国立大学,韩国0{ win98man, jyjang1090, zzzlssh, soo3553 } @snu.ac.kr, jake.na@snuailab.ai, nojunk@snu.ac.kr0摘要0许多最近的半监督学习(SSL)研究构建了师生架构,并通过来自教师的生成监督信号来训练学生网络。数据增强策略在SSL框架中起着重要作用,因为很难在不丢失标签信息的情况下创建弱强增强的输入对。特别是在将SSL扩展到半监督目标检测(SSOD)时,与图像几何和插值正则化相关的许多强增强方法很难利用,因为它们可能会损害目标检测任务中边界框的位置信息。为了解决这个问题,我们引入了一种简单而有效的数据增强方法,Mix/UnMix(MUM),它为SSOD框架的混合图像块提供非混合特征块。我们提出的方法在特征空间中对混合输入图像块进行重构。因此,MUM可以从非插值伪标签中享受插值正则化效果,并成功生成有意义的弱强对。此外,MUM可以轻松应用于各种SSOD方法之上。在MS-COCO和PASCALVOC数据集上进行的大量实验证明了MUM在所有测试的SSOD基准协议中始终提高了mAP性能。代码发布在https://github.com/JongMokKim/mix-unmix。01. 引言0由于大规模数据集的可用性,深度神经网络在各种计算机视觉任务上取得了很大的进展。为了实现更好和更具普遍性的性能,大量标记数据是不可或缺的,然而这需要大量的人力和时间进行注释[3, 12,31]。与图像分类不同,目标检测需要每个图像的类别标签和位置信息的配对,而不仅仅是图像的类别标签,因此在目标检测中获取足够数量的标记数据更具挑战性。为了解决上述问题,许多最近的研究都致力于在使用少量标记数据训练网络时利用丰富的未标记数据,称为半监督学习(SSL)和半监督目标检测(SSOD)。最近的许多SSL研究都依赖于师生框架,其中教师网络通常是学生的时间集成模型,生成监督信号并用这些信号训练学生网络,如图1所示[23,35]。数据增强在这个框架中起着重要作用,最近的大部分工作都将强增强输入应用于学生模型,而将弱增强应用于教师[33,38]。插值正则化(IR)是一种核心思想是插值输入的输出应该与原始输入的插值输出相似的数据增强技术,最初是为监督学习开发的[46],并成功应用于教师-0本工作得到了韩国政府(MSIT)资助的NRF(2021R1A2C3006659)和IITP(NO.2021-0-01343,人工智能研究生院项目)资助。0图1.SSL的典型师生(伪标签)框架。在充分利用未标记数据时,构建智能的教师和采用适当的数据增强策略以获得弱强对非常重要。0目标检测需要每个图像的类别标签和位置信息的配对,而不仅仅是图像的类别标签,因此在目标检测中获取足够数量的标记数据更具挑战性。为了解决上述问题,许多最近的研究都致力于在使用少量标记数据训练网络时利用丰富的未标记数据,称为半监督学习(SSL)和半监督目标检测(SSOD)。最近的许多SSL研究都依赖于师生框架,其中教师网络通常是学生的时间集成模型,生成监督信号并用这些信号训练学生网络,如图1所示[23,35]。数据增强在这个框架中起着重要作用,最近的大部分工作都将强增强输入应用于学生模型,而将弱增强应用于教师[33,38]。插值正则化(IR)是一种核心思想是插值输入的输出应该与原始输入的插值输出相似的数据增强技术,最初是为监督学习开发的[46],并成功应用于教师-145130图2.Mix/UnMix(MUM)训练系统概述。教师网络生成伪标签,为学生提供监督信号,同时将弱增强和强混合的增强输入注入到教师和学生中。为了利用原始形状图像的监督信号,我们解混混合的特征图块,并将解混后的特征输入到学生网络的检测头中。在每个训练步骤中,通过学生权重的EMA逐渐更新教师网络。为了视觉简洁起见,我们假设批次大小N_T和N_G都等于4。有关超参数N_T和N_G的更多详细信息,请参阅第3节。0SSL的学生框架[6,38]。这是一种聪明的方法,可以生成增强的输入-输出对,而不会丢失太多的上下文信息,并且还可以通过以像素为单位生成插值标签的方式扩展到语义分割[14,20]。然而,在目标检测任务中生成插值标签是具有挑战性的,因为它涉及到多任务学习,包括定位和分类。为了解决这个问题,在本文中,我们提出了一种名为Mix/UnMix(MUM)的方法,它以更高效和更直接的方式利用IR进行目标检测(图2)。MUM通过在批次中混合图像块生成混合图像,并将其作为输入传递给学生网络。然后,从骨干网络提取的特征图被解混回其原始图像几何结构。图块通过混合过程保持其在原始图像中的位置,因此特征图可以通过解混阶段回到其初始位置。因此,学生网络可以从混合图像中学习,而无需插值(混合)标签。对于教师网络,输入图像经过弱增强以生成高度可信的伪标签,就像其他现有方法一样。因此,学生可以在混合和自然遮挡的输入图像中学习鲁棒特征,并在教师的引导下获得自信的伪标签。01混合图像可以被视为一种插值图像,因为它们可以通过使用二进制插值系数进行分块插值生成。0教师网络。我们将Unbiased-Teacher[27]作为可靠的基准进行基准测试,该方法提出了一种用于SSOD的伪标签方法。根据最近SSOD研究的标准实验设置,我们采用Faster-RCNN[30]作为默认架构。为了验证我们算法的优越性,我们在PASCAL VOC [13]和MS-COCO[26]数据集上进行了MUM的测试,遵循[27]中使用的实验协议。MUM在每个实验协议中都取得了对基准方法的性能改进,并在SSOD基准实验中获得了最先进的性能。此外,由于MUM的简单性,在训练阶段增加的计算成本和复杂性可以忽略不计,并且可以作为数据增强方法轻松地插入其他SSOD框架中。我们还通过使用SwinTransformer骨干网络进行了额外的实验,探索了MUM在不同架构上的通用性。此外,我们还测试了MUM在监督的ImageNet分类任务[10]上的性能。我们的主要贡献可以总结如下:0•我们展示了将IR方法应用于基于伪标签的半监督目标检测中的问题,并提出了一种新颖且简单的数据增强方法MUM,它受益于IR。0•通过实验证明我们提出的方法在实验中优于可靠的基准方法,并且在MS-COCO和PASCALVOC数据集上获得了最先进的性能。此外,我们还145140通过在不同的骨干网络SwinTransformer上仍然获得改进的性能,我们展示了我们提出的方法的通用性。0•通过对特征图、类激活图和实验结果的深入分析,我们展示了所提出的MUM与SSOD问题的兼容性。02. 相关工作02.1. 半监督学习0由于半监督学习解决了标注成本和原始数据获取方面的实际问题,在仅使用少量标记数据与大量无标记数据相结合的情况下,已经取得了相当大的进展。大多数SSL方法可以根据如何从无标记原始数据生成监督信号来分为两类:基于一致性的方法[5, 6, 23, 29, 35, 38,42],它为相同但经过不同增强的图像产生一致的预测;伪标签方法[1, 2, 17, 24, 33,43],它使用教师网络的高置信度标签来训练学生网络。如图1所示,在伪标签方法中生成有意义的监督信号,需要配备一个比学生网络更好的教师网络以及一个有效的数据增强方法,用于在相同标签下生成具有不同难度级别的数据。构建教师网络的最常见和有效方法是指数移动平均(EMA)[35],它使用学生网络的时间集合更新教师网络。关于数据增强,UDA [42],ReMixMatch [5]和FixMatch[33]分别应用了RandAugment [9],CTAugment[5]和Cutout[11]作为强大的增强方法,以生成比弱增强方法更难学习的数据,从而产生更有意义的监督信号。插值正则化是SSL中一种高效的数据增强方法,将在第2.3节中进一步讨论。02.2. 半监督目标检测0SSOD在减少目标检测任务中标注成本方面引起了重要关注[18, 19, 27, 34, 39, 44, 47]。CSD[18]将一致性正则化方法,即SSL的主流方法之一,应用于目标检测任务。STAC[34]提出了一个简单的框架,使用无标签数据由固定的教师生成伪标签来训练学生网络。然而,仅使用标记数据训练的固定教师网络不足以生成足够可靠的伪标签。最近的一系列工作通过多阶段训练[39]改进了教师网络及其伪标签,或者通过EMA [27, 44,47]在线更新教师网络,类似于MeanTeacher。0[35]。它导致了一种互补结构,使得教师网络生成对改进学生网络性能有帮助的监督信号,而且教师网络也可以通过EMA更新而变得更强大。Unbiased-Teacher[27]由一个简单的SSOD框架组成,该框架对错误传播具有鲁棒性,使用了EMA和Focal Loss[25]等现有技术。它还使用了强大和弱数据增强,类似于FixMatch[33]。与用于分类任务的SSL相比,SSOD中的数据增强方法要求每个增强图像的几何形状相同,以利用教师网络输出的定位信息作为监督信号。为了克服这个约束,我们提出了MUM,可以多样地改变图像几何形状,并大大减少错误传播。02.3. 基于插值的正则化方法0IR是一种通过预处理输入数据而不注入噪声来推导深度学习网络高性能的方法,近年来一直受到积极研究[4, 7, 11, 15,36, 37, 45,46]。它通过基于归纳偏差对原始样本进行插值来生成新的训练样本;两个原始样本输出的线性组合应该与插值样本的输出相似。Mixup [46],CutMix [45],Mosaic[15]和Cutout[11]是合成和生成训练样本的方法,Manifold Mixup[37]处理的是特征级别的隐藏表示,而不是原始图像。这些方法可以被视为强大的数据增强方法,并且已经有几次尝试将它们应用于SSL和SSOD。ICT[38]通过两个无标签样本的插值预测和插值样本的预测之间的一致性损失来训练网络。MixMatch [6]和ReMixMatch[5]从单个无标签图像的多视图中生成猜测标签,然后通过带有标记训练样本的Mixup [46]进行训练。此外,[14,20]通过使用CutMix [45]生成混合图像,并使用与ICT[38]相同的机制进行训练,将SSL扩展到语义分割。Unbiased-Teacher [27]还使用Cutout[11]作为强大的数据增强。然而,Cutout会导致输入的信息丢失,因为它会删除图像中随机框形区域的像素值。虽然ISD[19]将IR充分应用于SSOD框架中,但它更可以被归类为一种基于一致性的方法。Instant-Teaching [47]将Mixup[46]和Mosaic[15]直接应用于基于伪标签的SSOD框架中,但是背景和物体之间的混合类别的问题仍然没有解决,正如ISD[19]中所提到的。总之,虽然Cutout[11]具有较弱的正则化效果,但Mixup[46]在插值标签生成过程中存在类别模糊问题。受到这些限制的启发,我们提出了MUM,不仅可以避免由插值引起的问题,还可以避免错误传播。(2)145150图3。我们提供了MUM的详细操作,其中图2中的图像和特征被放大。假设N G = N T =4,4个图像形成一组,每个图像被分割成4×4个块。接下来,将每个输入块映射到每个混合掩码的相应位置的混合图像中。与混合阶段类似,从混合特征生成解混特征。请注意,我们在每个训练步骤中随机生成混合掩码,并且解混掩码由混合掩码制作而成。此外,我们提供原始图像的特征以与解混特征进行比较。0插值标签,同时仍然享受IR效果。03. 方法03.1. 初步0问题定义。我们处理半监督目标检测任务,其中给定一组标记数据D s = {(x s i, y s i)} N s i = 1和无标签数据D u = {xu j} N u j = 1进行训练。这里,x,y,N s,Nu分别表示图像,相应的标签,标记和无标签样本的数量。基线。无偏教师[27]是一个精心设计的架构,采用了现有的但具有竞争力的技术,如Focal损失和EMA更新方法。他们通过无偏教师和其自信的伪标签构建了一个稳定的SSOD系统。为了保持以上优势,我们选择它作为我们的基线。按照基线,我们首先通过EMA构建教师网络:0θ t +1 = θ t ∙ δ + θ ∙ (1 − δ),(1)0其中θt,θ和δ分别表示第t步教师的权重,学生的权重和EMA衰减率。由于模型性能对衰减率δ非常敏感,因此设置适当的值使教师优于学生非常重要。我们将进一步讨论在第5节中衰减率δ对系统性能的影响。0在第5节中,我们研究了衰减率δ对系统性能的影响。接下来,我们使用教师网络生成的伪标签来训练学生网络。总的训练损失L由监督损失L s 和无监督损失L u组成,可以描述如下:0L s = �0i L cls ( x s i , y s i ) + L reg ( x , y s i ),0L u = �0i L cls ( x u i , ˆ y u i ) + L reg (x u i , ˆ y u i ),0L = L s + λ u ∙ L u,0其中L cls,L reg,ˆ y u和λu分别表示分类损失,边界框回归损失,由教师给出的无标签图像的伪标签和无监督损失的平衡权重。03.2. 混合图像/解混特征(MUM)0MUM。本节介绍了竞争性数据增强策略MUM(混合图像块和解混特征块),以有效利用无标签数据。与之前的IR方法(如Mixup [46]和CutMix[45])类似,我们从每个输入小批量生成插值样本。我们首先将每个图像分割成NT ×NT个块。同时,我们生成相同形状的NT ×15:+ λ145160算法1 提出的MUM的训练过程要求:(X s,Y s),Xu:图像及其标签对和无标签图像要求:h(∙),λu:损失函数和平衡权重要求:f b,t(∙),fd,t(∙):教师目标检测模型(骨干网络和检测器网络)要求:f b,s(∙),fd,s(∙):学生目标检测模型(骨干网络和检测器网络)要求:m(∙),u(∙):混合和解混函数要求:w(∙),s(∙):弱增强和强增强01: 对于每个 t ∈ [1, max iterations]执行以下操作:2: 准备数据03: A ← w(X s)+ s(X s),B ← w(X u),C ← s(X u)05: P s ← f d,s ( f b,s ( A ))06: L S ← h ( P s , Y s )08: ˆ Y u ← f d,t ( f b,t ( B ))09: 混合图像块和解混合特征块012: P u ← f d,s ( fm )013: L U ← h ( P u , ˆ Y u )014: 计算总损失016: 通过 L T otal 更新 f s ( ∙ ) ,通过 EMA 更新 f t ( ∙ )017: 结束循环0N T用于混合每个图像块并将每个特征块返回到其原始位置。请注意,在混合阶段,所有图像块都应该被使用一次,并保持其在图像空间中的原始几何位置,以便在解混合阶段进行未来重建。为了避免小批量大小对混合的影响,我们预定义了组成一个混合组的图像数量为 N G。例如,假设小批量大小为32, N G = 4,那么它将形成8个组,并且图像将在相应的组内进行平铺和混合。MUM操作的详细示例如图3所示。尽管混合图块使得在图像和特征图中难以识别出对象的边缘或部分,但解混合可以恢复特征的原始位置而不丢失信息。解混合后的特征看起来比原始图像中的特征要差,因为混合图块会导致严重的遮挡,以至于每个特征块只能利用其局部信息。因此,MUM使得学生即使在特征中只有弱线索的情况下也要像老师一样努力进行预测,这与之前的研究[20, 33,42]关于弱强数据增强的理念是一致的。整体SSOD框架。利用MUM,我们设计了如图2所示的SSOD框架。与基线相似0基于伪标签方法和提出的MUM数据增强,我们构建了SSOD框架。将一批未标记的图像应用于弱强增强作为教师和学生网络的输入。用于生成弱强增强的方法与基线[27]相同。此外,对于学生,我们将输入图像块分割并混合以生成混合输入,混合图像的特征图由特征提取器生成。然后解混合混合特征,以恢复所有图块的原始位置。另一方面,教师为没有混合过程的输入生成监督信号。请注意,由于学生网络中的混合-解混合过程,MUM可以通过单个图像的伪标签实现插值正则化效果。包括上述无监督学习过程,整个训练过程在算法1中描述。04. 实验0数据集。我们在两个标准目标检测数据集PASCAL VOC[13]和MS- COCO[26]上评估我们提出的方法,遵循先前SSOD工作[18, 27, 34,47]的主要基准。基准有三个协议:(1)COCO-Standard:我们随机选择COCO2017-train数据集的0.5%、1%、2%、5%和10%作为标记的训练数据,并将剩余数据视为未标记的训练数据。(2)COCO-Additional:我们将整个COCO2017-train数据集用作标记的训练数据,将额外的COCO2017-unlabeled数据集用作未标记的训练数据。(3)VOC:我们使用VOC07-trainval集作为标记的训练数据,使用VOC12-trainval集作为未标记的训练数据。为了研究增加的未标记数据的影响,我们使用COCO20cls[18]作为额外的未标记数据。模型性能在COCO2017-val和VOC07-test上进行测试,以便进行STAC[34]和Unbiased-Teacher[27]的评估。实现细节。我们使用Faster-RCNN [30]与FPN[25]和ResNet-50[16]作为基础网络架构,其特征提取器由ImageNet[10]初始化,遵循Unbiased-Teacher[27]的方法。我们对COCO-Standard、COCO-Additional、VOC和VOC withCOCO20cls分别使用180K、360K、45K和90K次迭代的训练计划。其他训练配置与Detectron2 [41]和Unbiased-Teacher2相同,以进行公平比较。我们使用较低的初始衰减率 δ =0.5,并在与基线[27]中使用的burn-in阶段相同的步骤逐渐增加到0.9996,而不是使用burn-in阶段。MUM有两个超参数:NG 和 N T,分别是形成一组图像的图像数量和每个图像轴上的图块数量。02 代码:https://github.com/facebookresearch/unbiased-teacher74.70-75.1-145170表1. 在MS-COCO数据集上使用COCO-Standard和COCO-Additional协议的实验结果(AP 50:95)。0方法 COCO-Standard COCO-Additional 0.5% 1% 2% 5% 10%0监督 6.83 ± 0.15 9.05 ± 0.16 12.70 ± 0.15 18.47 ± 0.22 23.86 ± 0.81 37.630CSD [18] 7.41 ± 0.21 10.51 ± 0.06 13.93 ± 0.12 18.63 ± 0.07 22.46 ± 0.08 38.820STAC [34] 9.78 ± 0.53 13.97 ± 0.35 18.25 ± 0.25 24.38 ± 0.12 28.64 ± 0.21 39.210即时教学[47] - 18.05 ± 0.15 22.45 ± 0.15 26.75 ± 0.05 30.40 ± 0.05 39.60ISMT [44] - 18.88 ± 0.74 22.43 ± 0.56 26.27 ± 0.24 30.53 ± 0.52 39.60多阶段[39] - - - - - 40.10无偏教师[27] 16.94 ± 0.23 20.75 ± 0.12 24.30 ± 0.07 28.27 ± 0.11 31.50 ± 0.10 41.30MUM(我们的方法)18.54 ± 0.48 21.88 ± 0.12 24.84 ± 0.10 28.52 ± 0.09 31.87 ± 0.30 42.110表2. 与最近的最先进结果相比,PASCALVOC数据集上的实验结果。两个协议都使用VOC07作为标记训练数据集。0方法 未标记的 AP 50 AP 50:950监督 无 72.63 42.130CSD [18]0STAC [34] 77.45 44.640即时教学[47] 78.3 48.70ISMT [44] 77.2 46.20多阶段[39] 77.4 -0无偏教师[27] 77.4 48.70MUM(我们的方法)78.94 50.220CSD [18]0STAC [34] 79.08 46.010即时教学[47] 79.0 49.70ISMT [44] 77.75 49.590无偏教师[27] 78.82 50.340MUM(我们的方法)80.45 52.310我们使用 N G = N T = 4,这是我们在消融研究中找到的。04.1. 结果0MS-COCO。我们首先在MS-COCO数据集上使用COCO-Standard和COCO-Additional两个协议评估我们提出的方法。如表1所示,我们的方法相对于基线[27]获得了约2%p的mAP增益,并超过了所有最近的最先进结果。具体而言,在表1的0.5%协议中,MUM实现了18.54%的mAP,相对于监督结果提高了11.71%p,其性能在1%协议中也与即时教学和ISMT相当(18.05和18.88)。由于MUM生成了许多具有自然遮挡和多样外观的训练样本,因此在标记数据稀缺的情况下(COCO-Standard0.5%和1%),它带来了更多的改进。PascalVOC。接下来,我们在PascalVOC数据集上使用表2中的两个协议测试了提出的MUM方法。与MS-COCO一样,我们的方法始终优于最先进方法,并实现了1�2%p的mAP改进。0相对于监督基线,MUM在AP 50和AP50:95上都有7.82%p和10.18%p的改进。尽管与VOC数据集中的其他研究相比,无偏教师显示出相对较弱的竞争力,但我们的方法仍然大幅超越其他最先进的结果。这些结果表明,我们提出的方法MUM可以在各种数据集上持续改进现有的SSOD。04.2. 消融研究0N G 和 N T 的分析。MUM需要两个超参数:N G 和 NT,它们表示分组和洗牌瓦片的图像数量,以及每个图像轴上的瓦片数量。为了研究这两个超参数的影响,我们在表3中使用 N T ∈ {2, 4, 8, 16} 和 N G ∈ {2, 4, 6, 12} 来检查MUM 的性能。我们发现 N G = N T = 4是一个合适的选择,可以在保持多样的外观和语义信息的同时,几乎不损失几何信息。当 N T增加到8和16时,性能急剧下降,因为瓦片的尺寸变得太小,无法保持正样本的语义信息。我们还观察到随着 N G的增加,性能也会下降。然而,与 N T的情况相比,这种下降可以忽略不计。特别是当 N G进一步增加到4以上时,AP 50:95 稍微下降,但 AP 50稍微增加。我们认为这种现象是因为较大的 N G鼓励网络通过使用更多遮挡图像来更好地区分物体和对物体进行分类(AP 50增加),但它阻止网络获得更准确的边界框位置(AP 50:95减少)。然而,这些性能差异并不显著。SwinTransformer骨干网络。为了进一步研究MUM的普适性,我们将ResNet替换为SwinTransformer,并在COCO-Standard协议下评估性能(表4)。我们使用了与计算复杂性相当的Swin-T,来自开源库timm[40]。我们首先使用Swin骨干网络评估了无偏教师[27]的基线性能。4418.9936.0918.314218.5235.2517.61818.2835.1917.001616.4631.9315.222418.9235.9417.89618.8536.2717.661218.8436.1217.5610%145180表3. 在COCO-Standard1%协议中,NG和NT的不同值的mAP比较。为简单起见,我们将训练步骤和批量大小设置为45K和12。我们使用固定的随机种子来消除随机性。0方法 NG NT AP 50:95 AP 50 AP 750基线 1 1 18.40 34.99 17.480MUM0表4. 在COCO-Standard中,使用SwinTransformer骨干的无偏教师和MUM的mAP比较。为简单起见,我们将训练步骤和批量大小设置为60K和16。我们使用固定的随机种子来消除随机性。+表示我们的实验。0方法 COCO-Standard0监督 10.16 13.43 18.7 23.67 27.410无偏教师 + 15.95 19.8 24 27.88 30.480MUM(我们的方法) 16.52 20.5 24.5 28.35 30.580我们将EMA衰减率设置为经验性找到的值,δ =0.999,因为默认值(0.9996)会导致较差的结果,甚至比监督基线还差。然后,我们将MUM应用于基线配置。在每个协议中,MUM相对于基线实现了约1%的改进。与CNN相比,MUM在Swin中的功效相对较小,因为MUM可能会损害Transformer的长程依赖特性。监督分类。MUM可以在没有任何插值标签的情况下享受正则化效果,因此我们将这个想法扩展到监督分类任务。我们在ImageNet[10]分类任务下进行了额外的实验,采用了监督学习设置。我们按照CutMix[3]的实验协议和训练框架,对比了MUM与普通的ResNet、Cutout、Mixup和CutMix。我们在ResNet的第一层之后对混合特征进行了解混,并将NG和NT设置为SSOD实验中找到的4。如表6所示,MUM在除了CutMix之外的其他方法上表现出色,其top-1错误率为22.39%,这表明MUM也可以作为分类任务的一种通用数据增强方法。与Cutout和Mixup相比,MUM在图像上产生的信息损失要小得多,从而导致更低的错误率。此外,通过微调NG、NT和解混的层位置,仍然有改进的空间。03 代码:https://github.com/clovaai/CutMix-PyTorch0表5. 在COCO-Standard 0.5%上对SwinTransformer进行消融研究。T和T�分别表示默认教师(δ =0.9996)和经验性找到的Swin骨干的改进教师(δ =0.999)。注意,表4中的仅监督AP为10.16。0Cutout MUM T T� 教师 学生0(1) � � 8.27 8.44 (2) � � 15.95 14.68 (3) � � � 14.55 14.22 (4)� � � 16.52 15.380表6. MUM和现有IR方法(Cutout [11]、Mixup [46]和CutMix[45])在监督分类任务中的实验结果。0方法 Top-1 错误率(%) Top-5 错误率(%)0基线 23.68 7.050Cutout [ 11 ] 22.93 6.660Mixup [46] 22.58 6.400CutMix [ 45 ] 21.40 5.920MUM(我们的方法) 22.39 6.4405. 讨论0教师和数据增强。对于基于伪标签的SSOD系统来说,构建一个良好的教师和应用有效的数据增强非常重要,如图1所述。为了分析这两个因素如何影响SSOD系统,我们在表5中比较了构建教师和增强数据的较差和较好方法。 (1)只使用Cutout(较差的增强)和默认的EMA衰减率(较差的教师),教师的性能甚至比学生的性能还差(8.44 →8.27),半监督学习相对于监督学习而言损害了mAP的性能(8.27 vs. 10.16)。 (2,3)如果使用MUM(较好的增强)和控制的EMA衰减率(较好的教师)中的任何一个,半监督学习就会变得有帮助。更好的教师和更好的增强分别导致了5.79和4.39的mAP改进(10.16 vs. 15.95,14.55)。值得注意的是,即使有一个较差的教师,(3)仍然改善了性能,因为MUM生成了难以学习但值得学习的混合输入图像,使得SSOD变得有帮助。最后,同时使用更好的教师和增强方法可以获得最佳性能(16.52)。从实验结果中我们可以确认,在SSOD框架中构建一个良好的教师和数据增强策略的重要性。类激活图(CAM)结果。我们进一步通过比较GradCAM[32]和盒子预测的定性结果来研究MUM相对于无偏教师的优越性,如图4所示。我们使用带有ResNet-50和在COCO-Standard1%上预训练的权重的Faster-RCNN来获得结果。我们发现,MUM更加关注局部区域,而基线试图关注全局特征,这使得具有MUM的网络更好地发现小物体。In this paper, we investigate the pseudo-label-basedSSOD system and propose the Mix/UnMix (MUM) dataaugmentation method, which mixes tiled input images andreassembles feature tiles to generate strongly-augmentedimages, while preserving the semantic information in theimage space. On top of the pseudo-label-based SSODframework, MUM obtains consistent performance improve-ment in SSOD benchmarks and achieves state-of-the-art re-sults. We extend our experiments to a different backbone,Swin Transformer, and also applied MUM to a supervisedImageNet classification task. The experimental results showthat our method is competitive with the existing IR meth-ods and can also be used as a general regularization methodfor general architectures, and general tasks. We also pro-vide Grad-CAM results to give further evidence why MUMworks better. Additionally, we analyze the effect of teachernetwork and data augmentation to properly understand theMUM and SSOD framework. MUM has a weakness in ac-curately locating the prediction box since it splits the objectsand blinds the edges. We believe that generating optimizedmixing masks using saliency map of objects like [21, 22]could solve the above problem, and leave it as future work.145190图4.提供了类激活图(CAM)和框预测结果。从左到右,每列显示原始图像、无偏教师的输出和MUM的输出。从上到下,每行的激活类别分别是长颈鹿、叉子、球类和卡车。0表7. 在COCO-Standard1%协议下,通过各种AP对无偏教师和MUM进行比较。0方法 AP 50:95 AP S AP M AP L0无偏教师[27] 20.70 8.93 21.85 28.070MUM(我们的方法) 21.81 9.86 23.66 27.910例如球类和叉子。此外,MUM通过高度关注每个对象来对卡车和长颈鹿进行分类。这些结果表明,MUM鼓励网络在局部区域提取有意义的特征。表7还提供了定量结果,表明MUM对小物体比大物体更有效。与Cutout的联系。Cutout[11]可以在半监督和监督目标检测任务[8,15,27]中作为强大的数据增强方法使用,通过用随机噪声值替换像素块并在训练图像中生成多样的外观和遮挡。然而,图像中的信息损失是不可避免的,因为它会阻塞一些区域并引入噪声。此外,预测正确标签所必需的图像的语义信息可能会在最坏的情况下丢失。另一方面,我们的方法通过混合不同的图像来创建正对象之间的自然遮挡,类似于Cutout。然而,MUM能够保留输入的语义信息,因为它不会用随机噪声阻塞原始图像,并在特征空间中进行重新组装。图5提供了增强图像的示例,并显示了Cutout和MUM之间的区别。此外,我们按照Detectron2[41]的配置使用Cutout和MUM进行监督目标检测实验,分别获得36.87和38.12的mAP。我们猜测MUM保留信息的特性带来了这些结果。0图5.原始图像、Cutout图像和MUM图像的比较。为了简化和清晰比较,我们假设Cutout的阻塞区域与MUM的混合区域相同,并将NG和N T分别设置为2和4。0在本文中,我们研究了基于伪标签的SSOD系统,并提出了Mix/UnMix(MUM)数据增强方法,该方法将平铺的输入图像混合并重新组装特征块以生成强增强图像,同时保留图像空间中的语义信息。在基于伪标签的SSOD框架之上,MUM在SSOD基准测试中获得了一致的性能改进,并取得了最先进的结果。我们将实验扩展到了不同的骨干网络SwinTransformer,并将MUM应用于监督的ImageNet分类任务。实验结果表明,我们的方法在现有的IR方法中具有竞争力,并且还可以作为一种通用的正则化方法用于通用架构和通用任务。我们还提供了Grad-CAM结果,以进一步证明MUM的有效性。此外,我们分析了教师网络和数据增强对MUM和SSOD框架的影响,以更好地理解它们。MUM在准确定位预测框方面存在弱点,因为它将对象分割并遮挡了边缘。我们相信,使用像[21,22]那样的对象显著性图生成优化的混合掩码可以解决上述问题,并将其作为未来的工作。06. 结论[1] Eric Arazo, Diego Ortego, Paul Albert, Noel E O’Connor,and Kevin McGuinness. Pseudo-labeling and confirmationbias in deep semi-supervised learning. In 2020 InternationalJoint Conference on Neural Networks (IJCNN), pages 1–8.IEEE, 2020. 3145200参考文献0[2] Philip Bachman, Ouais Alsharif, and Doina Precup.伪集成学习。《神经信息处理系统进展》中,27:3365-3373,2014年。30[3] Amy Bearman, Olga Russakovsky, Vittorio Ferrari
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功