没有合适的资源?快使用搜索试试~ 我知道了~
14522基于尺度等效蒸馏的半监督目标检测郭秋山1、姚牧1、陈建宇2、王天奇1、余一舟1、罗平11香港大学2清华大学{qsguo,ymu,tqwang,yzyu,ploo} @ cs.hku.hkjianyuchen@tsinghua.edu.cn摘要最近的半监督对象检测(SS-OD)方法主要基于自训练,即,通过教师模型在未标记的数据上生成硬伪标记作为监督信号。虽然它们取得了一定的成功,但半监督学习中有限的标记数据增加了对象检测的挑战。并结合实验结果分析了这些方法所面临的挑战。我们发现大量的假阴性样本和较差的定位精度缺乏考虑。此外,对象大小和类不平衡的大方差(即,背景和物体之间的极端比例)阻碍了现有技术的表现。此外,我们克服了这些挑战,通过引入一种新的方法,规模等效蒸馏(SED),这是一个简单而有效的端到端的知识蒸馏框架鲁棒大对象大小的变化和类不平衡。与以前的作品相比,SED有几个吸引人的好处。(1)SED采用一致性正则化来处理大规模方差问题。(2)SED算法解决了假阴性样本的噪声问题和定位精度低的问题。(3)重加权策略可以隐式地筛选未标记数据的潜在前景区域,以减少类别不平衡的影响。大量的实验表明,SED始终优于最近的国家的最先进的方法在不同的数据集显着的利润率。例如,当在MS-COCO上使用5%和10%的标记数据时,它1. 介绍深度神经网络在由大规模数据集驱动的监督学习框架下取得了很好的效果,例如ImageNet [5](约128万张标记图像)。然而,与分类不同,对象检测还涉及用边界框定位对象。因此,用于对象检测的注释要昂贵得多,导致标记的数据几乎与分类无关。最近,半监督学习-图1.战略经济对话的总体框架我们的模型提高了尺度等效性,这是至关重要的对象检测器,通过regulizing不同大小的图像之间的一致性。此外,固有的假阴性样本噪声通过自蒸馏来减轻。采用重加权策略来解决严重的类不平衡问题。当阈值设置为0.7时,左侧示例中的鸟是假阴性样本。右例显示了不同大小图像的比例不一致。ing(SSL)分类受到了广泛关注[2,29,33,35],其结 果 与 ImageNet 上 的 完 全 监 督 模 型 相 当 然 而 , 在ImageNet分类上,半监督对象检测(SS-OD)比SSL更具挑战性最近的SS-OD方法通过利用有限的标记数据和大量的未标记数据来提高性能,但是它们遭受对象大小的大变化、大量的假阴性样本和类不平衡问题,如图所示。1.一、对于ImageNet分类模型,对象的尺度在小范围内变化,而MS-COCO数据集[18]的尺度变化在检测器的对象实例中很大。如图2a所示,14523MS-COCO的实例规模为188.4像素,而ImageNet的实例规模为56.7像素(面积的平方根)。 探测器应该与物体的尺度一致,这意味着不同尺寸的图像的预测应该是等效的[27,28]。然而,在SS-OD中,现有技术[19,30,36,39]我们观察到客观性得分的差异,如图2b所示。前地锚与背景锚的比率随着得分距离变大而增加,这意味着模型检测对象实例,而对不同大小的实例是盲的。这种不一致性通常通过多尺度推理集成来缓解,这增加了计算成本并且需要复杂的操作来融合结果。此外,由于假阴性对象实例和较差的定位精度,最近的SS-OD方法[19,29]的性能在高数据场景中是中等的。如图2c所示,当IoU被设置为0.5和0.9时,重新调用分别下降到0.1和0.3,这指示大多数前景实例是假阴性样本。IoU = 0.9时的精度小于0.2,表明边界框的位置不够准确。低于硬阈值的假阴性对象实例会导致识别不一致。另一个障碍是前景和背景样本高度不平衡。对于RetinaNet,前景与背景样本的比例约为1:25,000[17]。由于类别不平衡问题,平等对待所有区域[32]会导致背景样本对梯度的贡献显着,如图4所示。从具有压倒性背景区域的未标记数据中识别前景区域是具有挑战性的。为了克服上述挑战,我们提出了尺度等效蒸馏(SED),这是一种简单而有效的端到端半监督学习框架,用于对象检测。由于尺度是低维语义流形的一个重要因素,我们设计了一种尺度一致性正则化方法,以解决对象尺度变化较大的问题。此外,由于硬伪标签的噪声对识别一致性有不利影响,提出了一种自蒸馏方法来提高泛化性能,而不增加可学习参数。由于类不平衡的问题,压倒性的背景样本削弱了我们的方法的效果。我们实施了一个重新加权策略,专注于不同层次的输出之间的不一致性和教师和学生检测器之间的不一致性。因此,我们的重新加权方法避免了从未标记的数据中显式地选择潜在的前景区域。为了评估SED的有效性,我们对目标检测的基准进行了广泛的实验,Pas.calVOC [7]和MS-COCO [18]。我们的方法超过监督对应超过10 mAP时,使用5%和10%的标记数据的MS-COCO。此外,我们的方法进行了测试与一阶段和两阶段检测器的基础上单一的特征图和特征金字塔。我们的贡献如下:(1)SED施加了一个规模一致性正则化,以克服大规模方差的挑战。(2)SED消除了由假阴性样本和边界盒回归不准确引起的噪声问题(3)重新加权策略可以隐式地从未标记的数据中筛选出潜在的前景区域,以减少类别不平衡的影响。2. 相关作品自我训练。自训练方法首先用标记的数据集训练教师模型,然后为未标记的数据集生成伪标签。最后,学生模型与标记数据和伪标记数据的联合优化。对于分类任务,自训练方法[1,2,29,33]表现良好。然而,在平衡数据集上,半监督对象检测比半监督图像分类更具挑战性一些工作[19,39]有助于缓解伪标签带来的噪声问题。这些方法在两级检测器上附加附加模块,克服了前景和背景分类的过拟合问题,并通过集成方法对硬伪标记进行了细化。然而,基于硬伪标签的方法有一个固有的缺陷,即假阴性对象实例影响识别的一致性,特别是那些分数接近硬阈值的对象实例。Humble Teacher [32]采用软伪标签来避免识别不一致,但平等对待所有区域。由于前景和背景的极端不平衡,两种区域的梯度贡献有很大差异。UBT [19]采用焦点损失来缓解问题。与现有方法不同的是,该方法在线生成未标记数据的软伪标记,并采用重加权策略自动筛选未标记数据的潜在前向区域。一致性正规化。基于一致性的半监督学习使用未标记的数据来稳定输入或权重扰动下的例如,假设同一图像的两个不同视图具有相似的输出。这类方法[20,26,33]不生成伪标签,但约束输出之间的差异,已知这有助于平滑人工折叠[21]。对于SS-OD,CSD [14]应用简单的水平翻转一致性正则化来训练检测器对翻转扰动具有一致性损失微调了预测框的位置,但忽略了对象尺度扰动,这在数据集中更常见。在MS-COCO[18]检测数据集中,最小和最小的尺度是最小的。14524×我我我 我i=1我i=1联系我们1e 37654321= 136.1,= 56.7= 175.9,= 188.4ImageNetCOCO1071051031011011.00.80.60.40.20.00.70.60.50.40.30.20.10.000 200 400 600 800 1000实例大小(a) 实例大小分布1030.0 0.2 0.4 0.6 0.81.0得分距离(b) 分数距离分布0.10.20.30.40.50.60.70.80.9评分(c) AP和ARw.r.t评分图2. (a)对于COCO数据集,所有图像都被调整大小,使得短边具有800个像素,而长边具有小于1333个像素。对于ImageNet数据集,所有图像都被调整为224 224以计算统计数据。对象的比例表示为面积的平方根我们讨论了ImageNet分类和COCO检测任务的典型训练输入大小(b)所有分数都是通过具有FPN和ResNet 50主干的RetinaNet检测器在COCOminival数据集上预测的,该检测器使用10% COCO数据进行训练。分数距离是不同大小的图像预测之间的绝对差异Y轴是每个图像的锚点平均数量(c)我们使用收敛的Faster-RCNN检测器(具有FPN和ResNet 50骨干)预测其余COCO训练数据上的伪标签,使用10% COCO数据进行训练较低的平均查全率和查准率表明,硬伪标签会产生更多的假阴性样本噪声。对象实例的最大10%分别为0.024和0.472。我们的方法规则化不同大小的预测,以解决大规模的变化。此外,自蒸馏[8,10,38]受益于EMA教师[33]的高质量预测,并且可以从软目标的角度被视为预培训。近年来,在大规模数据集(如ImageNet [5]或JFT [31])上预训练骨干,并在包含较少训练数据的目标数据集上微调模型已经成为一种范式。大规模学生的移动平均数。SED的目标是一致地预测输入的尺度变量。在实践中,学生处理强烈增强的未标记图像和调整大小的图像。将弱增强图像输入教师网络以预测软伪标签。尺度一致性损失限制了不同大小图像的输出.同时,软伪标签被设置为强增强图像的目标。最终损失是监督损失和非监督损失的加权和,nu数据集预训练加速收敛,并有助于提高小数据场景中的泛化能力[12,40],L=L监督+(λsLscale+λdLdistill),(1)ns半监督学习的一个极端。Simplified [4]和MOCO [11]已被证明可以构建通用表示,这有助于在半监督学习分类中实现最先进的结果,其中包含10% ImageNet标记的数据。在本文中,我们使用ImageNet预训练骨干作为默认值进行微调,以便在进入低数据状态时更快地收敛和获得更好的结果3. 规模等效蒸馏问题定义。半监督学习介于监督学习和无监督学习之间。更准确地说,我们的模型是用标记集Ds=xs,ysNs和未标记集Du=xuNu训练的,其中x是图像,Ns和Nu是标记和未标记图像的数量。对于每个监督图像xs,注释ys由图像中边界框的位置和类别组成概况. 在训练过程中,标度等效蒸馏由两个分支组成,监督和非监督分支,如图所示3 .第三章。监督分支通过遵循正常过程进行训练,如[17,24]。无监督分支是在教师-学生框架下,其中教师被实现为指数,其中nu,ns是未标记数据和标记数据的批量大小L标度和L蒸馏是标度一致性损失和自蒸馏损失。对于两级检测器,无监督损失应用于RPN和RoI头。3.1. 尺度一致性正则化在不同尺度下识别目标是计算机视觉中的一个基本挑战。提出尺度一致性正则化方法,优化检测器,使其在尺度维度上预测平滑一致。通常,特征金字塔网络(FPN)框架下的主流检测器优于单个特征图计数器,因为多尺度特征表示在语义上是强的。因此,我们以FPN单级检测器为例来说明我们的方法.尺度一致性正则化方法可以推广到两阶段检测器和单特征图检测器.请参照图3、尺度一致性损失使不同尺度下的图像更具体地说,第f个特征层、第r行、第c列和第d个锚框的输出类概率和边界框回归表示为Pf,r,c,d(X)和Rf,r,c,d(X).考虑到内存和计算开销,全前向后F:B我们AP@0.5AP@0.9AR@0.5AR@0.9平均锚钉长度精度召回145252s--−监督损失^���′无监督分支标记数据受监管分支机构图3.我们方法的细节。我们以FPN [16]检测器为例来说明我们的方法。P2-P6 是预测细节,监督分支和非监督分支共享学生模型sg表示教师模型的预测未被梯度优化。对于尺度一致性正则化,损失约束来自不同水平的预测。图像被下采样到1个原始大小。为了处理大尺度变化,s均匀地选自1,2,.,S,它也匹配FPN中特征图的大小和标签分配规则。应该针对对应的级别一致地预测调整大小的图像X和原始图像X准确地说,尺度一致性损失被定义为3.2. 自蒸馏知识蒸馏通过用更强的教师模型预测的软标签代替硬标签监督来提高泛化能力。基于观察,教师模型被实现为检测器的指数移动平均(EMA),这表明产生比学生更好的泛化模型F规模 =DKL(sg(P f(X)),P f′(X))+DKL(sg(P f′(X)),P f(X))+的||Rf(X)−Rf′(X<$)||二、(二)模型[22,33]。教师模型的输入是弱增广的。此外,该模型应该对相似的数据点进行一致的预测。学生模型与强增强图像一起输入,以将标签传播到语义流形空间中的相邻点对于sim-其中f ′等于fs,sg是停止梯度算子. 为了简单起见,在等式中忽略r、c、d坐标。二、对于RPN和单阶段检测器,为了保持一致性,所有锚点都被正则化;甚至其中一些锚点可能没有被正则化。简单地说,强增强仅由颜色变换和Cutout [6]组成,不包含几何变换。自蒸馏损失的公式为根据简单的IOU阈值匹配策略分配标签。在第二阶段检测器框架中,首先通过NMS和Top-K选择对提案进行过滤,这也是监督中的默认操作我distll =DKL(sg(Pi(X′,θt)),Pi(X,θs))+|| sg(Ri(X′,θt))−Ri(X,θs)||二、(三)branch [13,24](通常有1000个提案留给Faster- RCNNFPN)。然后,在调整大小的图像上预测的建议的坐标按比例放大2s来自图像对的建议被简单地连接为用于细化边界框和预测分类分数的新的pro-tagem集。对于Faster-RCNN的第二阶段,提案对的所有预测都以类似的方式通过尺度一致性损失进行正则化二、值得注意的是,在实现两阶段检测器时,RoI-Pooling算子可以从提议对的相同级别提取特征,这与单阶段检测器略有不同。然而,这种操作共享相同的核心思想,即检测器应该是尺度一致的。其中i是第i个锚盒,X′是弱增广的图像,X是强增强图像。P和R表示分类得分和边界框回归,与等式中相同二、缓慢进展的教师模型权重θt在每次迭代时从学生模型权重θ s更新θ t= αθ t+(1 − α)θ s。(四)自蒸馏损失约束RPN和一级检测器的每个锚点,类似于尺度一致性规则化。在两阶段检测器的场景中,所有的建议都被简单地连接为一个新的建议集。类似于尺度一致性正则化,ROI的所有预测都被正则化为等式。3 .第三章。23学生模型456调整尺寸的图像尺度一致性5643强增强EMA更新教师模型2自蒸馏SG重新加权策略弱增强预测格拉德规范学生模型LL14526i=1KL我 我torp′是g=π|pi−p′|,其中C是prob的长度。1071051031011041031021011001011.00.80.60.41011030.0 0.2 0.4 0.6 0.81.0梯度范数1021031040.0 0.2 0.4 0.6 0.81.0梯度范数0.20.00.0 0.2 0.4 0.6 0.81.0梯度范数图4.平均样本是单个图像中的平均锚点数量。香草方法是简单地平等对待所有样品。具有大梯度的样本没有显著贡献,因为样本数量相对较小。我们的重新加权策略侧重于大的分数差异的样本和线性梯度贡献和分数距离之间的关系3.3. 重新加权策略单 阶 段 目 标 检 测 方 法 , 如 RetinaNet [17] 和 RPN[24],在训练过程中面临着极不平衡的类别。由于背景样本太多方法数据LR Iter AP50DGML [34] VOC07+12--78.60大多数客观性得分接近于0。因此,KL-目标和源分布之间的聚散度在方程中。2和Eq。对于大多数锚框,3接近于0。简单地对无监督损失进行平均会导致容易的样本对梯度有显著的贡献,如图4所示。我们的目标是减少相似的未标记的输入之间的差异,特别是对于潜在的前景实例预测高客观分数。换句话说,困难的例子应该比简单的例子对梯度的贡献更大。受梯度协调机制[15]的启发,我们通过梯度范围内的样本数重新加权KL-散度,以建立梯度范数和积分梯度贡献之间的线性关系,如图4所示。具体地,具有概率向量p和目标概率vec之间的KL发散损失的logitz的梯度C我能力向量然后,通过将梯度范围[0,1]均等地分成M个箱来构造直方图。 数量第j个仓中的样本的索引被表示为Rj,并且梯度g所在的仓的索引被定义为idx(g)。最后,我们有N个样本的损失函数UBT [19] VOC 07 +12 0.01 180k 77.37ISMT [36] VOC 07 +12--77.23[39] VOC07+12 0.01 180k 78.30我们的VOC 07 +120.0140k80. 60表1. Pascal VOC 2007测试集的结果。对于所有的半监督方法,Pascal VOC 2012训练集被视为未标记的数据。Iter表示总 的 训 练 迭 代 次 数 。 “-” means that the results or trainingdetails are missing in the source4. 实验数据集。我们主要在具有挑战性的客观检测数据集MS-COCO [18]上验证我们方法的有效性,该数据集包含80个对象类别,约118 k张图像用于训练,5 k张图像用于验证。为了进行公平的比较,我们遵循与先前作品[19,30,32,34,39]相同的实验设置具体而言,有三种实验设置:(1)PASCAL VOC:VOC 07 [7]训练值集用作标记数据集,VOC 12训练值集用作未标记数据集,如所述1Σ D(p′,p)节中3 .第三章。 通过VOC 07测试.(五)集 VOC 07训练值和VOC 12训练值包含5,011Mi=1Ridx(gi)和11,540张图像,结果大约是1:2标记数据与未标记数据的比率(2)COCO标准:由于主要的瓶颈是从背景而不是回归中检测对象,因此在尺度一致性损失和自蒸馏损失中,只有分类损失我们的目标是从有显著差异的样本中解决类不平衡问题的其他方法也可以提高性能。我们随机抽取5%和10%的MS-COCO 2017训练数据作为标记数据集,并将其余训练数据作为未标记数据集。由于COCO训练数据集包含118k个图像并且是类不平衡的,因此某些类别由少于500个实例组成。当数据百分比为0.5%和1%时,这些类别的标记数据集中只有不到5个实例此设置全部后退所有wo重新称重前重后重所有w重新称重前重后重平均样本量累积梯度范数改革后的累积分数标准NL=监督VOC070.0140k74.30STAC [30]VOC07+120.001180k77.4514527方法数据百分比LR迭代阶段5% 10%百分百监督18.47 23.8638.40 0.02180k-STAC [30]24.38(+5.91)28.64(+4.78)-0.01180k两无偏见的教师[19]27.84(+9.37)31.39(+7.53)-0.01180k单个即时教师[39]26.75(+8.28)30.40(+6.54)40.20(+1.80)0.01180k单个[36]第三十六话26.37(+7.90)30.53(+6.67)39.64(+1.24)--单个多阶段学习[34]- -40.30(+1.90)--三我们29岁34. 2016年10月16日(星期四)41岁50(+3.10)0.01180k单个监督- -40.20 0.02270k-STAC [30]- -39.21(-0.99)0.01540k两无偏见的教师[19]- -41.30(+1.10)0.01270k单个我们- -四十三40(+3.20)0.02270k单个表2. MS-COCO 2017 valset上的结果。对于5%和10%方案,结果是5个数据折叠的平均值。阶段是训练阶段的数量例如,STAC有两个阶段:首先训练教师模型进行硬伪标签,然后训练学生模型使用标记和伪标记数据。“-” means that the results or trainingdetails are missing in the source更像是少次学习而不是半监督学习。因此,我们不报告业绩。为了100%[23]第三十三章:你是我的,我是你的!1数据训练设置,整个训练集被用作la-beled数据集,以及额外的123k未标记图像,用作未标记的数据集。该模型在MS-COCO 2017验证集上进行了测试。(3)COCO-35 k:我们使用MS-COCO2014验证集的35 k子集作为标记数据集,使用80 k训练集作为未标记数据集。结果报告在MS-COCO 2014minival set上。实施详情。 在STAC [30]之后,我们使用Faster-RCNN [24]与FPN [16]和ResNet-50骨干作为我们的默认 对 象 检 测 器 。 骨 干 的 权 重 由 相 应 的 ImageNet-Pretrained模型初始化,这是现有作品中的默认设置[14,19,30,39]。主干和主干的第一阶段被冻结,所有BatchNorm层都处于eval模式。弱数据扩充仅包含从(1333,640)到(1333,800)的随机调整大小和随机水平翻转。强数据增强包括随机颜色抖动、灰度、高斯模糊和剪切[6],而没有任何几何增强。更多培训和数据增强详情见附录。4.1. 结果Pascal VOC。在选项卡中。1,我们的方法优于以前的多阶段方法和单阶段方法的大幅度。我们的模型实现了80.6%的AP与6.3%的增益从额外的VOC 2012数据。同时,我们提出的方法需要更少的训练迭代,表明我们的方法是有效的。此外,我们的增强只包含颜色变换,没有任何几何变换或强正则化,例如Mixup[37]和DropBlock [9]。COCO标准。 考虑到整个训练集,表3. MS-COCO 2014微型集的结果。这意味着只使用标记的数据来训练模型Oracle意味着将所有115k图像视为标记数据,并仅使用监督损失进行训练。该方法甚至进一步将强基线提高了3.2 mAP。为了进行公平的比较,学习率和训练迭代在Tab中列出。二、在类不平衡的MS-COCO数据集上,在标记数据与未标记数据的比例从1:1到1:20的不同设置下,我们的方法优于以前的方法请注意,UBT使用Focal Loss来处理地面真值之间的类不平衡问题,而我们采用原始Faster-RCNN实现,标准交叉熵损失。我们的方法侧重于前景和背景之间的不平衡问题,这是在实践中更普遍。特别地,当使用5%和10%标记的MS-COCO数据时,SED相对于监督基线实现了超过10 mAP的改进使用10%的标记数据,SED的性能与完全监督的基线模型相当。COCO-35KMS-COCO 2014 minival set与MS-COCO2017 val set相同。选项卡. 3表明,我们的方法甚至优于只有35k标记数据的Oracle结果,这得益于尺度一致性正则化、自蒸馏和强增强。结果表明,半监督方法可以达到与完全监督方法相当的效果。4.2. 消融研究尺度一致性正则化约束不同图像预测之间14528×表5.对于RetinaNet,实验在具有10%标记训练数据的MS-COCO集上进行。由于DETR的训练时间非常长,我们在Pascal VOC 2007测试集上报告了结果受监督的DETR和我们的DETR都经过了300个epoch的训练。表4.MS-COCO 2017 val set上的消融结果使用10%标记和90%未标记的MS-COCO训练模型范围结果[640,800][300,1200]32.0我们的[640,800]34.0火车2017分裂。SCR代表比例一致性法规,动词化 我们用两种类型的目标测试自蒸馏:硬目标和软目标。尺寸. 通过比较Tab中的第二行4与基线相比,我们发现尺度一致性正则化在没有我们的重新加权策略的情况下提高了约3mAP,天真地平均了锚框和ROI之间的损失虽然存在类不平衡问题,但规模一致性正则化方法是一种很有前途的方法.图2b示出了不同尺寸之间的不一致性得到缓解。软靶自蒸馏优于硬伪标记4.5 mAP以上,说明硬伪标记的质量较差。自蒸馏相对于基线单独获得约6mAP。软目标方法的优点在于较少的假阴性样本和通过知识蒸馏获得的结构信息此外,我们的方法基于软目标是无阈值的,这是简单的,易于转移到其他数据集。重新加权策略侧重于具有较大差异的锚点或RoI对,并将梯度贡献与得分距离之间的关系转换为线性。尺度一致性正则化和软目标自蒸馏的结果分别增加了3.3 mAP和1.6 mAP。对于Faster-RCNN,即使在NMS和Top-K选择操作之后预测ROI,我们的重新加权策略仍然有效,从而增加了前景与背景样本的比例。4.3. 讨论如何将SED扩展到其他检测器。大多数检测器(例如RetinaNet、Faster-RCNN)根据类似的规则将前景标签分配给“锚框”,Intersection-over-Union(IoU)阈值标准。对于单特征图检测器DETR [3],我们根据匈牙利算法匹配不同视图中的输入预测,其中成对匹配代价定义为:Lmatch=DJS(p1,p2)+λLIoU(b1,b2),其中DJS(p1,p2)是概率向量与LIoU之间的JS-散度表6. MS-COCO 2017 val集上的刻度抖动结果。模型使用10%标记和90%未标记的MS- COCO train 2017分裂进行训练范围是短边的范围。结果表明,尺度一致性损失超出了大尺度抖动增强。[25 ]第25话失落根据上述分析,我们的方法可以扩展到RetinaNet和DETR具有不同的骨干。Tab中的结果5表明,我们的方法是有效的不同类别的检测器。与大规模抖动的关系。所提出的尺度一致性正则化比大尺度抖动增强更有效我们的方法的对象是L=L(x)+L(x′)+Lscr(x,x′),而大规模抖动增强的对象是L=L(x)+L(x′),其中x和x′是不同视图下的输入图像。Lscr是尺度一致性损失。我们的方法的约束是强于大规模抖动增强。因此,我们认为局部极小值的参数空间是大尺度抖动的参数空间的子集选项卡. 6还表明,我们的方法鼓励模型收敛,具有较小的generalization误差。与多尺度测试的关系。选项卡. 7表明基线模型受益于NMS集成的多尺度测试(阈值=0.5)。使用10%标记数据训练的模型增加了2.0 mAP,而完全监督模型(100%)获得了1.5 mAP的改进。然而,这种改进来自于不同大小的图像的预测之间的差异此外,集成方法还消耗2。比单标度检验法多5个推断时间我们的方法受益较少,从多尺度测试的结果,建议的规模一致性正则化。该方法显著提高了单尺度测试性能,具有较强的实用价值。尺度一致性正则化中的下采样率如Tab.所示。8,当下采样率被设置为2(即,Sin型号Retina w R50 Retina w R18 DETR w R5023.6 21.5 64.9我们的33.0 31.4 69.3方法SCR自蒸馏 重新称重硬软地图SUP23.86✔26.80✔✔30.10我们✔29.80✔✔31.40✔✔✔29.50✔✔✔34.0014529模型图像尺寸合奏率地图开始端政策地图480 800 1200123.00.9960.9余弦33.0表7. MS-COCO 2017 val set的多尺度测试。小的增益表明检测器一致地预测不同大小的图像,这意味着对尺度方差具有鲁棒性。1.016 21.1表8.COCOvalset 上 的 结果。速率是下采样速率。表9. COCO valset上的结果。Start和End表示初始EMA更新速率和目标速率。余弦策略是余弦退火策略.我们的Step策略只在第一个里程碑迭代中衰减一次。0.80.60.40.2表10.重新加权策略在MS-COCO 2017 val set上的比较结果。Faster-RCNN模型使用10%标记和90%未标记的MS-COCOtrain 2017分裂进行训练。0.02123252 729实例大小OHEM(Online Hard Example Mining)和焦点损失(Focal Loss)。香草方法是训练没有任何图5. Faster-RCNN检测器在MS-COCO训练数据集上的实例大小的CDF。根据标签分配规则计算有效实例的范围秒3.1设置为1。)。性能随着下采样率的增加而变差,这意味着用太小的图像来调节尺度一致性是不太有效的。基于锚的检测器细化了先前的框,这限制了有效的检测尺度范围(理论上从22.6到724.1像素2图5示出了当下采样率被设置为2时,有效范围中的实例的分数最高。所有模型都使用10%的COCO训练数据进行训练,使用RetinaNet与FPN和ResNet-18骨干。8.指数移动平均(EMA)教师比率模型。由方程式4.教师权重以指数移动平均方式更新。EMA更新可以被视为过去模型的平均权重阶级平衡技术Tab中的结果。10表明我们的方法是有效的。5. 结论在这项工作中,我们介绍了一种新的半监督对象检测框架的一致性规则化方法的基础上。我们的尺度一致性正则化克服了大尺度方差的挑战,并显着提高了单尺度测试的性能。此外,SED消除了假阴性样本的负面影响,并通过知识蒸馏从结构信息中受益重新加权策略关注未标记数据的潜在前沿区域,并将关系梯度贡献和得分距离线性化。MS-COCO和Pascal VOC的实验表明,标度等效蒸馏显著改善了α1−α 步骤近似。由于学习率策略是步进的,性能与不同比率的标记数据unla-beled数据,并可以扩展到不同的检测器类。其在每个里程碑时刻将学习速率衰减0.1,在切换学习速率之后,教师的性能劣于学生模型,这导致学生模型的退化。我们在UBT [19]中观察到了相同的现象,它将α设置为0.9996并采用步进学习率策略。为了减轻退化,我们建议在与学习速率相同的里程碑迭代Tab中的结果结果表明,阶跃衰减法和余弦衰减法均优于基线模型。将重加权策略与其他方法进行比较。我们通过替换我们的重新加权来我们的框架是一个整体的方法兼容与其他半监督的方法,如Mixmatch和噪声stud-dent自蒸馏。此外,尺度等效蒸馏框架可以进一步扩展到其他密集预测任务,如实例分割,联合人类解析和后估计。该方法对促进半监督学习的发展,进一步降低标记数据的依赖性,同时又不产生负面的社会影响,具有很大的潜力.谢谢。罗平获香港综合研究基金资助(编号:27208720及17212120).r=1r=2R=4r=8r=16有效范围方法结果[17]第三十二话:我的世界30.131.431.234.0约10%22.9 24.122.526.1(+2.0)2二十六岁10.990.9步骤三十四1100%37.436.838.9(+1.5)425.20.950.95没有一32.014530引用[1] 大卫·贝特洛、尼古拉斯·卡利尼、伊金·D·库布克、亚历克斯·库-拉金、孙奇赫、张涵和科林·拉菲尔。Remix-match:具有分布匹配和增强锚定的半监督学习。2020.2[2] David Berthelot 、 Nicholas Carlini 、 Ian Goodfellow 、Nicolas Papernot 、 Avital Oliver 和 Colin A Raffel 。Mixmatch:半监督学习的整体方法。神经信息处理系统的进展,32,2019。一、二[3] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测在European Conference on Computer Vision中,第213-229页Springer,2020年。7[4] 陈婷,西蒙·科恩布里斯,穆罕默德·诺鲁齐,和葛offrey Hinton.视觉表征对比学习的一个简单框架。在Hal Daume III和Aarti Singh的编辑,Proceedings of the37 th International Conference on Machine Learning ,Proceedings of Machine Learning Research,第119卷,第1597-1607页。PMLR,2020年7月13日至18日。3[5] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议,第248-255页。Ieee,2009年。第1、3条[6] Terrance DeVries和Graham W Taylor。改进的卷积神经网 络 的 正 则 化 。 arXiv 预 印 本 arXiv : 1708.04552 ,2017。四、六[7] Mark Everingham , Luc Van Gool , Christopher KIWilliams,John Winn,and Andrew Zisserman.pascal视觉 对 象 类 ( voc ) 的 挑 战 。 International Journal ofComputer Vision,88(2):303-338,2010。二、五[8] TommasoFurlanello 、 ZacharyLipton 、 MichaelTschannen、Laurent Itti和Anima Anandkumar。再生神经网络。国际机器学习会议,第1607-1616页。PMLR,2018。3[9] Golnaz Ghiasi , Tsung-Yi Lin , and Quoc V Le.Dropblock : 卷 积 网 络 的 正 则 化 方 法 。 arXiv 预 印 本arXiv:1810.12890,2018。6[10] Qiushan Guo , Xinjiang Wang , Yichao Wu , ZhipengYu,Ding Liang,Xiaolin Hu,and Ping Luo.通过协作学习在线知识的提炼.在IEEE/CVF计算机视觉和模式识别会议论文集,第11020-11029页,2020年。3[11] Kaiming He,Haoqi Fan,Yuxin Wu,Saining Xie,andRoss Girshick.用于无监督视觉表示学习的动量对比。在IEEE/CVF计算机视觉和模式识别会议论文集,第9729-9738页3[12] Kai m ingHe,RossGirshick,andPiotrDol la'r. 重新思考imagenet预培训。在IEEE/CVF国际计算机视觉会议,第49183[13] KaimingHe , GeorgiaGkioxari , PiotrDolla'r ,andRossGir-shick.面具R-CNN。在IEEE计算机视觉国际会议论文集,第2961-2969页4[14] Jisoo Jeong , Seungeui Lee , Jeesoo Kim , and NojunKwak.基于一致性的对象检测半监督学习。神经信息处理系统,32:10759-10768,2019。二、六[15] Buyu Li,Yu Liu,and Xiaogang Wang.梯度协调单级检测器。在AAAI人工智能集,第33卷,第85775[16] 林宗义、彼得·多尔、罗斯·格希克、何开明、巴拉特·哈里哈兰和塞尔日·贝隆吉. 用于目标检测的特征金字塔网络。在IEEE计算机视觉和模式识别会议论文集,第2117-2125页,2017年。四、六[17] 林宗义、普里亚·戈亚尔、罗斯·格希克、何开明和彼得·多尔·拉尔。密集目标检测的焦面损失。在IEEE计算机视觉国际会议的论文集,第2980-2988页,2017年二、三、五、八[18] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。Microsoft coco:上下文中的公共对象。欧洲计算机视觉会议,第740Springer,2014. 一、二、五[19] Yen-Cheng Liu ,Chih-Yao Ma ,Zijian He ,Chia-WenKuo, Kan Chen , Peizhao Zhang , Bichen Wu , ZsoltKira,and Peter Vajda.无偏见的教师半监督
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功