没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2255获取更多论文高效单程自蒸馏与ZipfJiajun Liang†,Linze Li,Zhaodong Bing,Borui Zhao,Yao Tang,BoLin,and Haoqiang FanMEGVII技术{梁家军,李林泽,兵照东,赵博瑞,唐耀02,林波,方华琪}@ megvii.com抽象的。自蒸馏在训练过程中利用了自身的非统一软监督,并在没有任何运行时成本的情况下提高了性能。然而,训练过程中的开销往往被忽视,然而在巨型模型时代,减少训练过程中的时间和内存开销变得越来越重要。本文提出了一种有效的自蒸馏方法--Zip f'sLabelSmothing(Zip f ' sLS),它利用网络的动态预测来产生软监督不使用任何对比样本或辅助参数,符合Zipf分布。我们的想法来自于一个经验性的观察,即当网络经过适当的训练后,网络的最终softmax层的输出值,在按大小排序并在样本间平均后,应该遵循一个符合自然语言词频统计中Zip f定律的分布。通过在样本水平上和整个训练期间加强这一属性,我们发现预测精度可以大大提高。 在INAT21细粒度分类数据集上使用ResNet50,与vanilla基线相比,我们的技术实现了+3.61%的准确率增益,并且与之前的标签平滑或自蒸馏策略相比,获得了0.88%的增益。该实现可在https://github.com/megvii-research/zipfls.关键词:知识蒸馏,自蒸馏,标签平滑,图像分类,Zipf1介绍多类分类模型研究的一个主要趋势是用信息量更大的监督信号代替独热编码标签。这种思路见证了伟大的训练技术的扩散,以提高网络的准确性,而无需任何运行时间成本,其中最着名的是知识蒸馏。也许在这个方向上最违反直觉的发现是自蒸馏方法的有效性[7,27自我升华简化了两阶段知识升华框架,通过从自身而不是从预先培训的教师中提取知识,并且仍然arXiv:2207.12980v1 [cs.CV] 2022年7月+v:mala2255获取更多论文2Jiajun Liang等.图1:不同软标签生成方法之间的比较。a)两阶段知识蒸馏方法[7,12]。b)辅助参数[8,13,33]。c)使用存储整个数据集的过去预测的记忆库进行渐进蒸馏[2,14,31]。d)具有两次训练迭代的对比样本[27,29]。e)拉贝尔平滑方法[19,28],使用无信息的手动设计分布。f)有效的一次通过Zipf在不增加推理时间的情况下显著提高了性能。然而,在自我升华的训练过程中的开销往往被忽视,然而在今天图1展示了几种知识蒸馏范式,自蒸馏方法依赖于每个训练样本的额外对比训练实例、辅助参数或中间转储结果,这可能会使训练时间加倍,并带来不可忽略的内存开销。本文的目的是找到有效的技术,产生非均匀的监督信号的信息昂贵的自蒸馏方法。我们构建的起点是观察网络的软最大输出值。对应于最终分类输出的类,通常指Ally具有最高值,但是包含网络对输入图像的理解的重要信息的其他类(我们称之为非目标类)的分数也起着重要作用。我确已发誓,一个性能良好的网络应该在它们对非目标类做出的非零预测值中遵守某些规律。我们假设,蒸馏技术的功效的重要部分来自于将预测分数强制为在“尖锐”(使得最终预测是明确的)和“柔软”(使得类间相关性得到尊重)之间最佳平衡的形状。我们通过发明一种技术来测试这一假设,该技术仅使用网络的动态预测来生成符合我们指定分布的软监督标签+v:mala2255获取更多论文Zipf(a) 不同的网络架构(b)不同的数据集图2:来自a)INAT-21上的不同架构和b)ResNet-50上不同数据集的duly-trained网络的排序softmax分数分布。排序后的softmax值的平均分布(实线)将跟随Zip值的概率-秩关系在双对数图中形成直线。这启发我们设计类似于这种形状的软监管定律,并表明这种简单的策略已经收获甚至超过了许多其他更复杂的蒸馏技术的性能增益。具体来说,我们根据多类别分类网络,并根据Zipfpr−α其中p是不同类的置信度分布,r是我们分类的秩指数(从1开始的整数值),α是控制衰减速率的超参数这个平滑标签的发散被添加为损失项,以补充具有独热编码硬标签的通常交叉熵。选择Zipf事实上,我们通过实验发现,当一个网络被训练到它的收敛状态时,softmax值的排序很好地遵循了这一定律(见图2)。通过明确地强制执行这种分布形状,并从训练的一开始就进行监督,网络的性能会大幅提升。因此,我们提出了一种有效的和通用的即插即用技术的自蒸馏,命名为Zip f的LabelSmothing(Zipf的LS)。 与其他技术相比(见表1),我们的方法具有标签平滑几乎为零的额外成本(在推理或训练期间)的优点,同时强烈保留了自蒸馏的性能增益。概括而言,我们的贡献如下:+v:mala2255获取更多论文4 Jiajun Liang等。表1:不同软标签生成方法之间的比较。 我们的Zip f的标签平滑生成样本级的非均匀软标签,在训练过程中成 本 很 低 。 为 简 单 起 见 , 该 表 仅 显 示 了 TinyImageNet ( Tiny ) 上 ResNet-18 和ImageNet(IMT)上ResNet-50的top1-准确度(Acc)。本文其余部分报告了其他模型和数据集的更全面结果。在ImageNet上使用4个2080Ti GPU进行了内存开销和训练时间测试实验,批量大小为16非-W/OW/OW/OCPUGPU培训微小IMT方法均匀预训练对比辅助内存内存时间ACCACC老师样品参数成本成本时代(增益)(增益)基准线18G6.8G1.82h56.41七十六点四八BAN[7]智能手机18.9G 7.4G2.67h(+2.24)(+0.05)BYOT[33]日本语简体中文18.2G38.5G10.36 小 时 ( +1.43 )(+0.51)PS-KD [14]中国台湾27.4G9.8G2.18小时(+1.81)(+0.18)DDGSD [27]电子邮件:info@jszl.com( +2.11 )(+0.46)CS-KD [29]电子邮件:info@jszl.com6.8G2.86h(+1.97)(+0.30)LS[24]超声波清洗机18G 6.8G1.83h(+0.48)(+0.19)TF-KD [28]电子邮件:info@jszl.com6.8G1.82h(+0.26)(+0.08)Ours苹果苹果18G6.8G1.83h(+2.84)(+0.77)– 我们发现训练好的模型的非目标soft-max值的分布与Zip f的 分 布 很好地拟合 ,可以作为整个 自训练过程的正则 化准则.– 我们提 出 了 一 种 有 效 的 自 升 华 训 练 技 术 , 不 依 赖 于 额 外 的 对比 训 练 实 例 或 辅 助 参 数 。– 我们在模型和数据集的综合组合(包括流行的ResNet和DenseNet模型,CIFAR,ImageNet和INAT分类任务)上验证了我们的方法,并显示出强大的结果。2相关工作2.1标签平滑独热标签是次优的,因为来自多个类的对象出现在同一图像中。标签平滑[24](LS)被提出来平滑硬标签,以防止过度自信的预测并提高分类性能。Müller等[19]发现当使用LS时,特征空间中的类内距离更紧凑,这提高了泛化能力。为了获得非均匀的软标签,Zhang等人。[31]提出了在线标签平滑方法(OLS),通过维护历史预测来获得类的软标签。Yuan等人[28]讨论了学习策略与知识蒸馏的关系,提出了一种无教师知识蒸馏(Tf-KD)方法,该方法比学习策略具有更好的标签平滑已成为当前深度学习社区的最佳实践之一[11],但对非目标类使用统一分布的范例限制了性能的进一步提高。+v:mala2255获取更多论文Zipf2.2知识蒸馏Hinton在[12]中首次提出知识蒸馏,以提供样本级非均匀软标签,而不是强加固定的先验分布。他们证明了近年来的研究主要是从减少师生差异、设计学生友好型建筑等方面探讨如何更好地传递真[16,20],提高蒸馏效率[7,14,27,29],并解释了蒸馏在这项工作中,我们关注的是如何以一种近乎自由的方式传递“黑暗知识”。Furlanello等人[7]提出通过提取具有相同架构的教师网络来提高学生网络的性能。然而,它仍然是一个两阶段的方法,首先培训教师,然后提炼知识给学生。为了减少训练时间,人们提出了许多自蒸馏方法.他们获得软标签监督飞行没有预培训步骤。2.3自蒸馏有两类自蒸馏技术,即辅助参数法[2,8,13,30,33]和对比样品法[14,27,29,31]。辅助模型方法利用额外的分支来获得除了主分支预测之外的额外预测以用于软标签监督,代价是更多的参数开销。例如,通过协作学习的知识蒸馏(KDCL)[8]在同时将输出集成为每个Par-PastorStudent网络的额外软标签监督。另一方面,对比抽样方法以额外的数据扩充、扩大的批量或复杂的抽样策略为代价获得软标签监督。这些例子是数据失真引导的自蒸馏(DDGSD)[27],它从来自同一实例的不同增强视图中获得软标签,以及通过自知识蒸馏(CS-KD)[29]收集来自同一类的其他样本的数据的正则化类预测。如上所述,标签平滑和知识蒸馏是两个获取信息软标签的主要技术然而,标签平滑方法受到统一假设的限制,而知识蒸馏方法需要更多的内存或计算开销。我们的工作旨在改善这些问题。3方法Zipf+v:mala2255获取更多论文6 Jiajun Liang等。图3:整体Zip f的软实验室生成和训练框架工作。 蓝色虚线框概述了软标签生成过程。我们在密集特征图上应用共享分类器,并从密集预测中计算argmax值的数量,这可以为Zip f的law分布生成提供排名信息。 对于计数为零的非发生类,我们赋予它们一致的常数能量。Lzipf是Kullba ck-Leibler的非目标类的预测和zip f的软标签之间的差异,结合硬标签的L CE,为表示学习提供梯度精馏如图3所示,它从网络的动态预测中生成非均匀的监督信号。我们的方法受到以下观察的启发:来自适当训练的网络的softmax输出的值和秩遵循分布,在如图2所示的平均值上回归到Zip f的L a w,这可以在整个训练期间作为softmax预测之前的形状应用。 为了将Zip f的L a w应用于软标签生成,需要输出类别的排序信息。我们提出了密集分类排名,利用本地分类结果排名的类别。最后,KL-差异被测量在非目标类内由en预测和Zip f 的 软 标 签 , 以 提 供 更 多 的 信 息 梯 度 的 表 示 学习。3.1ZipfZipf的law是G.Zipf在语言材料上首先发现的一种经验性的law,它指出一个元素的归一化频率应与该元素的秩成反比。它可以用一个方程来描述+v:mala2255获取更多论文ΣΣKZipf如:f(r)=r−αNr=1 r−αN(一)logf(r)=−αlogr− log(r−α)r=1其中r是元素的秩,N是元素的总数,f是频率,α是控制衰减速率的大于零的常数。一个有趣的发现是,当网络被训练到其收敛状态时,softmax网络的输出遵循Zip f定律[21],并且这种模式始终出现在不同的数据集和模型中,如图2所示。我们可以在设计简单有效的自蒸馏算法之前利用这种形状。 为了生成一个软标签使用Zip f的分布,排序信息在i上的类别是必须的,这是几乎不可能得到的注释。3.2密集分类排序为了实现Zipf分布,我们需要找到一种方法来正确地对输出类别进行排序。简单的想法是直接对样本的softmax预测进行排序,我们称之为基于logit的排名方法。虽然这种方法已经产生了性能增益(如4.4节所示),但我们发现更好地处理顶级类的相对排名是有益的。常见的图像分类卷积网络从图像样本中提取特征图F。然后将全局平均池化(GAP)应用于F。全连接层FC和soft-max操作将输出logitz和最终预测p。如果我们直接在密集特征图F的每个像素上使用FC,则我们不能得到局部分类结果pL:pL= Softmax(FC(F k)),k = 1,2,.,高×宽(2)其中,L只是表示全局预测p和局部预测pL之间的差异的标记。这些预测对图像包含的内容给出了更完整的描述,因为目标类的对象通常只占据图像的一部分我们通过将每个位置的单个前1类识别为投票并将投票汇总到直方图中来考虑这些信息。最后,这些类根据它们在直方图中出现的频率进行排名其余的类将共享相同的最低等级。+v:mala2255获取更多论文Σ.−c−ZipfC普什m=1,m=ypc−(1−β)c=yLLS(x,y)=CQCpβ8 Jiajun Liang等。3.3Zipf图像样本X和标签的Zipf的软标签exp(zc)p=CCm=1,m =y exp(zm)C(三)L(x,y)=D(p)||p)=奥格普·奥格·普什克c=1,c=y非目标类别c的合成Zipf的标签应当遵循Zip f的标签的等式4,具有相应的p=rc−αR(四)−α其中α是控制分布形状的超参数。LCE是具有单热地面实况标签的标准交叉熵损失。组合损失函数如下:Loss(x,y)=LCE(x,y)+λLZipf(x,y)(5)LCE鼓励预测在目标类中是尖锐和自信的,而LZipf则将预测正则化为在非目标类中是软的。λ是控制正则化强度的超参数。与统一标签平滑比较。相对于Lzipf和LLS的非目标对数的梯度显示为:f(x,y)=.0c=y捷克共和国pc−pccy(六)捷克共和国C−1c y标签平滑生成一个软标签,对于所有非平滑标签,目标类和1-C1目标类别的β,其中C是班但是,标签平滑会抑制高排名类的预测或者将低排名类的预测提升到相同水平,因为β是恒定的并且与排名无关,这在概念上是次优的。我们的Zip f 的损失与La Bel Smo相比是等级相关的。 在非目标类中,它鼓励高排名的类保持比低排名的类更大的预测。 Zip f的 线性 分布在我们的实验中显示了对其他秩相关分布(如线性衰减)的经验成功,更多细节见第4. 4节。KLM+v:mala2255获取更多论文Zipf4实验表2:CIFAR 100,TinyImageNet图像分类任务的Top-1准确率(%),具有各种模型架构。我们报告了使用不同随机种子的五次运行的平均值和标准差。香草表示来自标准交叉熵的基线结果,最好的结果用粗体表示,第二好的结果用下划线表示。性能的国家的最先进的方法报告进行比较方法CIFAR100 TinyImageNet CIFAR100 TinyImageNetDenseNet121 ResNet18香草77.86±0.26 60.31±0.36 75.51±0.28 56.41±0.20BAN[7] 78.39±0.14 59.34±0.60 76.96±0.0458.65±0.83BYOT [33]78.93±0.0560.54±0.02 77.15±0.03 57.84±0.15PS-KD [14]78.82±0.10 61.64±0.12 76.74±0.06 58.22±0.17DDGSD [27]78.18±0.02 60.80±0.30 76.48±0.13 58.52±0.12CS-KD [29]78.31±0.4962.04±0.0978.01±0.1358.38±0.38LS[19] 78.12±0.45 61.25±0.18 77.31±0.28 56.89±0.16TF-KD [28]77.68±0.21 60.17±0.57 77.29±0.15 56.67±0.05压缩系数77.38±0.3259.25±0.204.1实验详细信息数据集。我们在不同的图像分类任务中进行实验,以证明我们的方法的有效性和universaliy。特别是,我们使用CI-FAR100 [15]和TinyImageNet1进行小规模分类任务,ImageNet [6]用于大规模分类任务。我们还使用“迷你”训练数据集验证了INAT 21 [25]的细粒度分类性能。培训设置。 我们遵循了最近相关作品[4,8,28,29]和流行的开源作品2中的设置。所有实验都使用MSRA初始化[10],具有0.9动量的SGD优化器,0.1初始学习率,1 e-4权重衰减和标准增强,包括随机裁剪和翻转。对于小规模的CIFAR 100和TinyImageNet数据集,我们使用32 x32大小的输入图像,128批大小,以及在整个200个epoch中的第100和第150个epoch处降低到其先前值的1/10的步长学习率策略。所有小规模实验都是用单个GPU训练的。对于大规模的ImageNet和INAT 21数据集,我们使用224 x224大小的输入图像,256批大小,以及在整个100个epoch中的第30,60和90个epoch中降低到以前值的1/10的步长学习率策略。所有大规模实验都是用4个GPU训练的。超参数我们的方法通常有两个超参数λ和α。λ控制正则化强度,α控制Zipf的分解形状1https://www.kaggle.com/c/tiny-2https://github.com/facebookresearch/pycls+v:mala2255获取更多论文10 Jiajun Liang等.分 布 , 在 所 有 实 验 中 设 置 为 1.0 。 β 仅 推 荐 用 于 CIFAR100 和TinyImageNet等小分辨率数据集,以利用更高分辨率的中间特征图并进行更可靠的排名。详细的超参数消融研究见补充资料。表3:与最先进作品的前1名准确度(%)比较。实验在ImageNet、INAT 21图像 分 类 任 务 上 使 用 ResNet 50 进 行 , 在 CI-FAR 100 、 TinyImageNet 上 使 用DenseNet 121进行。方法CIFAR100 TinyImageNet ImageNet INAT21香草77.8660.3176.4862.43CS-KD [29]78.3162.0476.7865.45LS [19]78.1261.2576.6765.16TF-KD [28]77.6860.1776.5662.61Zipf79.0362.6477.2566.044.2常规图像分类任务首先,我们在CIFAR100数据集和TinyImageNet数据集上进行实验,与其他相关的最先进的方法进行比较,包括自我知识蒸馏方法(BAN [7]),在线知识蒸馏方法(DDGSD [27],CS-KD [29])和标签平滑正则化方法(标签平滑[19],TF-KD [28])。表2显示了基于不同网络架构的每种方法的分类结果。上述方法的所有实验保持相同的设置以进行公平的比较,细节可以在4.1训练设置中看到。对于其他超参数,我们保留其原始设置。与两阶段知识蒸馏的比较。两阶段知识蒸馏方法使用其先前模型的暗知识来提高模型精度。这些方法依赖于预先训练的模型,这意味着它们需要比我们的方法两倍或更多的训练时间。如表2所示,我们在BAN [7]之外取得了很大的优势(一步),特别是,Zipf的LS在CIFAR 100和基于DenseNet 121的TinyImageNet上分别超过BAN [7] 0. 64%和3. 28%。与自蒸馏比较DDGSD和CS-KD作为一类利用对比样本的自蒸馏算法,分别利用实例一致性正则化技术和类一致性正则化技术实现。DDGSD的数据处理或CS-KD的成对样本策略带来了每次训练的双重迭代。 如表2所示,在CIFAR 100和基于ResNet 18的TinyImageNet上,Zip f的LS a分别与DDGSD [27]获得了0. 9%和0. 73%的一致性,而无需更多的训练迭代。BYOT [33]作为另一种带辅助参数的自蒸馏方法,将更深层次的知识挤压到下层网络中。Zip f的LS在Ti n yImageNet上超过了BYOT o B。+v:mala2255获取更多论文Zipf标签平滑正则化(Label Smoothing Regularization)标签平滑[19]是一种手动设计软目标的通用有效正则化方法。在表2中,基 于 ResNet18 和DenseNet121 , Zip f的 LS b 在 TinyImageNet 上 分 别 以 2.36% 和 1.39%的广告率吃了最小值。表4:不同模型架构下ImageNet和INAT 21图像分类任务的前1准确率(增益)(%)。Vanilla表示交叉熵的基线结果,最佳结果以粗体表示架构方法ImageNet INAT21香草ResNet18ResNet50ResNet101ResNeXt50 32x4d标签光滑70.53(+0.06)55.17(+0.86)邮编f香草标签光滑76.67(+0.19)65.16(+2.73)邮编f香草标签光滑78.12(+0.29)67.14(+1.54)邮编f香草标签光滑77.72(+0.18)67.51(+1.15)邮编f香草ResNeXt101 32x8d标签平滑79.69(+0.18)71.52(+1.17)邮编f香草DenseNet121标签光滑75.59(+0.03)64.60(+0.85)邮编fMobileNetV2Vanilla 65.52 55.75标签光滑65.71(+0.19)56.29(+0.54)邮编f4.3大规模和细粒度的图像分类任务与最先进的方法进行比较 我们的方法是一次通过,几乎没有额外的计算或内存成本。标签平滑和TF- KD是与我们最相关的两个工作,如图1和表1所示。如表2所示,CS-KD是除我们之外的小规模数据集上最优越的方法因此,我们进一步比较了我们的方法与CS-KD,标签平滑和TF-KD在大规模和细粒度的数据集。如表3所示,我们的方法显示出更优越的性能,而标签平滑和CS-KD方法已经改善了基线,具有显著的裕度。例如,我们在ImageNet和基于ResNet50的INAT21上分别超过了第二好的方法0.47%和0.59%。各种架构的改进 我们在ImageNet和INAT21上的各种网络架构上评估了我们的方法。不仅考虑了广泛使用的ResNet [9]和ResNeXt [26]系列,而且还考虑了更轻的+v:mala2255获取更多论文12 Jiajun Liang等。架 构 ( 如 MobileNetV2 [22] ) 进 行 评 估 。 表 4 显 示 了 我 们 在 基 于ImageNet和INAT21数据集的各种网络架构上与普通交叉熵训练相比的显著改进。例如,我们的方法在ImageNet和INAT 21上分别将基线提高了0.75%和2.85%。表5:密集分类排名与使用ResNet18在TinyImageNet上进行基于logits的排名CE表示标准交叉熵损失。LR表示使用logits秩。Dense1表示使用最后一个阶段的最后一个密集特征图。密度2指示使用倒数第二阶段方法CE LR密度1密度2顶部-1加速度(%)(增益)香草精56.41基于Logits的价格(+1.70)基于投票的支持率(+2.40)基于投票的支持率 (+2.84)4.4消融研究密集分类排名与基于Logits的排名我们在3.2节中介绍了两个排名指标,基于logits的排名和密集分类排名。虽然与基线相比,基于logits的排名确实提高了性能(如表5第二行所示的1.7%),但我们仍然发现我们的策略,密集分类排名,对于最佳性能是必要的。当我们用来自最后几个特征图的密集投票替换排名时,准确率提高高达2.84%(表5中的最后一行不同分布的比较。我们将logits秩或稠密vote秩约束为0,因为发现为分类任务训练的深度神经网络的输出也遵循该规律。为了证明Zip f的先验性,我们在各种数据集上进行了常数类型、随机类型和十进制类型的分布。如表6所示,Zipf在这些发行版中表现最好。值得注意的是,尽管不如Zip f的分布,但常数分布也适用于非目标分布,其受益于仅正则化不同于正常标签平滑的非目标类。我们推测标签平滑加上目标类可能会损害性能。5讨论Zipf 图图4显示了我们提出的方法与基线方法相比的前5个预测。这些图像分别从ImageNet和INAT21中采样。我们的方法可以做出更合理的预测。不仅前1预测是正确的,而且前5预测中出现了更多相似的概念这导致+v:mala2255获取更多论文Zipf图4:前5名预测可视化的比较。深绿色、浅绿色和红色分别表示地面实况、相似和不相关类别。更多的信息监督和预测,因为更类似的类别出现在Zip f的软标签(薄和过滤器与机油滤清器)的顶部。从来自Zipf的LS的更多信息的软标签, 其 提 供 有 意 义 的 表 示 作 为 网 络的知识蒸馏,以更好地掌握相似类别的概念。表6:不同分布和标签平滑的前1准确度(%)比较。实验在TinyImageNet、ImageNet和INAT21上进行。Zipf是这些发行版中性能最好的分布TinyImageNetImageNetINAT21香草56.4176.4862.43LS56.8976.6765.16恒定58.7677.0965.86随机均匀58.2476.8965.61随机帕累托58.5276.6165.9线性衰减58.3976.8765.86Zipf59.2577.2566.04Zipf的标签平滑实现了更好的泛化表示学习。 我们在TinyImageNet数据集上比较了Zip f的LS技术与交叉熵训练和均匀标签平滑训练。如图所示。5.从Zip f的标签平滑学习的特征空间中的类内距离更紧凑,并且类间距离更分离。Zip f的La bel Sm ooth i ng a c h e v e s better represent tat i on learningfor generalization. 更多关于泛化的讨论在补充中显示非目标类密集分类排序设计。 为了更好地对软标签中的类进行排名,我们利用密集分类排名而不是基于logits的排名。因此,较大的对象是有利的,小对象分类性能可能会降低。在我们的设计中,目标类被排除在LZipf中+v:mala2255获取更多论文14 Jiajun Liang等。图5:T-SNE [17]在TinyImageNet的50个随机采样类上的可视化,用于CE,LabelSmoothing和Zip f的La bel Smoot hing。图图6:CE(a bov e)和Zip fLS(b el o w)之间的小手术结果比较。并仅包含在LCE中,确保目标类提供正确的梯度,而不管对象大小如何。为了验证小对象的性能,我们收集了5个最小的对象,它们来自于每个类3,Zip f的LS仍然优于CE(69. 25% vs 67. 72%)。小物体情况下的凸轮可视化如图6所示限制. Zip f的LS在二进制分类情况下没有帮助,因为L z ipf仅考虑非目标类并且将始终为零。此外,如在方法部分中所提到的,我们利用密集分类排名来获得比基于logit的排名更可靠的排名信息,基于logit的排名仅在图像数据中可用,而在诸如spee ch和语言之类的模型中不可用。 将Zip f的LS工作应用于多模态数据是今后的工作方向。3https://image-net.org/data/bboxes_annotations.tar.gz+v:mala2255获取更多论文拉链f6结论在这项工作中,我们提出了一个有效的和有效的一个通过自蒸馏方法命名为Zip f的La b el Smothing,whi c h不仅产生软标签监督在教师免费的方式一样有效的标签平滑,但也产生非均匀的信息更昂贵的自蒸馏方法。 Zip f的La b el Sm othing始终比统一标签平滑方法和其他无参数的单次自蒸馏方法表现得更好,它可以成为深度学习工具箱中的即插即用自蒸馏技术之一。+v:mala2255获取更多论文16 Jiajun Liang等。引用1. Allen-Zhu,Z.,Li,Y.:深度学习中的集成理解、知识升华和自我升华。arXiv预印本arXiv:2012.09816(2020)2. Bagherinezhad,H.,Horton,M.,Rastegari,M.,Farhadi,A.:标签精炼:通过标签进展改进imagenet分类。arXiv预印本arXiv:1805.02641(2018)3. 拜尔湖,Zhai,X.,Royer,A.,Markeeva,L.阿尼尔河,Kolesnikov,A.:知识的升华:一个好的老师是耐心和始终如一的. arXiv预印本arXiv:2106.05237(2021)4. Chen,D.,中国农业科学院,梅,J.P.,Wang,C.,中国地质大学,冯,Y.,Chen,C.:在线知识蒸馏与不同的同行。在:AAAI人工智能会议论文集。第34卷,第34305. 周,J.H.,Hariharan,B.:论知识升华的功效。在:IEEE/CVF计算机视觉国际会议论文集。pp. 4794-4802(2019)6. 邓,J.,Dong,W.,Socher河,Li,L.J.,Li,K.,李菲菲:Imagenet:一个大规模的分层图像数据库. 2009年IEEE计算机视觉与模式识别会议。pp.248-255. 05 The Lord(2009)7. Furlanello,T.,Lipton,Z.,Tschannen,M.,伊蒂湖,Anandkumar,A.:重生的神经网络上一篇:机器学习国际会议pp. 1607-1616年。PMLR(2018)8. Guo,Q.,王,X.,吴,Y.,Yu,Z.,Liang,D.,中国科学院院士,Hu,X.,Luo,P.:通过协作学习进行在线知识提炼。在:IEEE/CVF计算机视觉和模式识别会议论文集。pp. 110209. 他,K.,张,X.,Ren,S.,Sun,J.:图像识别的深度残差学习(2015)10. 他,K.,张,X.,Ren,S.,Sun,J.:深入研究整流器:在imagenet分类上超越人类水平的性能(2015)11. 他T张志,张洪,张志,谢,J.,Li,M.:用卷积神经网络进行图像分类的技巧包IEEE/CVF计算机视觉和模式识别会议论文集。pp. 55812. Hinton,G.,Vinyals,O.,Dean,J.:在神经网络中提取知识。arXiv预印本arXiv:1503.02531(2015)13. 吉,M.,Shin,S.,Hwang,S.,Park,G.,Moon,I.C.:通过自学来完善自己:通过自我知识蒸馏进行特征细化。IEEE/CVF计算机视觉和模式识别会议论文集。pp. 1066414. 金,K.,Ji,B.,Yoon,D.,Hwang,S.:自我知识的升华与目标的逐步细化。IEEE/CVF计算机视觉国际会议论文集。pp. 656715. 克里热夫斯基,A.,Hinton,G.:从微小的图像中学习多层特征。Tech.多伦多大学代表0,安大略省多伦多市(2009年)16. 妈妈,H.,陈,T.,Hu,T.K.,你C Xie,X.,Wang,Z.:不可原谅的:做一个讨厌的老师,不能教学生。ArXivabs/2105.07381(2021)17. 范 德 马 滕 湖 , Hinton , G. : 使 用 t-sne 可 视 化 数 据 。 Journal of MachineLearning Research9(2008)18. Mirzadeh,S.I.,Farajtabar,M.,Li,A.,Levine,N.,Matsukawa,A.,Ghasemzadeh,H.:通过教师助理提高知识的升华。在:AAAI人工智能会议论文集。第34卷,第5191+v:mala2255获取更多论文拉链f19. Müller,R., Kor nblith,S., Hi nton,G.:什么时候吃点东西有帮助?arXiv预印本arXiv:1906.02629(2019)20. 纽约州帕克市Cha,M.H.,金,D.,Han,B.,等:学习学生友好的教师网络知识蒸馏。神经信息处理系统进展34(2021)21. 作者,D.M.:zip f的law的应用与解释。语言处理和计算自然语言学习的新方法(Newmethodsin22. Sandler,M.,霍华德,A.,Zhu,M.,Zhmoginov,A.,Chen,L.C.:Mobilenetv2:反转残差和线性瓶颈(2019)23. Stanton,S.,Izmailov,P.,Kirichenko,P.,Alemi,A. A.,Wilson,A.G.:知识蒸馏真的有用吗?神经信息处理系统进展34(2021)24. 塞格迪角,Vanhoucke,V.,Ioffe,S.,Shlens,J.,沃伊纳,Z.:重新思考计算机视觉的接收架构。在:IEEE计算机视觉和模式识别会议论文集。pp. 281825. Van Horn,G.,Cole,E.,Beery,S.,Wilber,K.,Belongie,S.,MacAodha,O.:自然世界图像集合的基准标记表示学习在:Proceedings的IEEE/CVF会议上的计算机视觉和模式识别。pp. 1288426. Xie,S., Girshi ck,R., 多尔拉尔山口, Tu,Z.,他,K.:深度神经网络的聚合残差变换27. Xu,T. B.,Liu,C.L.:深度神经网络的数据失真引导自蒸馏。在:AAAI人工智能会议论文集。第33卷,第556528. Yuan,L.,Tay,F.E.,Li,G.,王,T.,Feng,J.:再论通过标签平滑正则化的知识蒸馏。IEEE/CVF计算机视觉和模式识别会议论文集。pp. 390329. Yun,S.,帕克,J.,Lee,K.,Shin,J.:通过自我知识的升华来规范类的预测。在:IEEE/CVF计算机视觉和模式识别会议论文集。pp. 1387630. Zagoruyko,S.,Komodakis,N.:更多地关注注意力:通过注意力转移提高卷积神经网络的性能。arXiv预印本arXiv:1612.03928(2016)31. Zhang,C.B.,Jiang,P.T.,Hou,Q.,魏,Y.,汉,Q,Li,Z.,Cheng,M.M.:深入研究标签平滑。IEEE Transactions on Image Processing30,598432. 张,L.,Bao,C.,Ma,K.:自我升华:迈向高效紧凑的神经网络。IEEEtransactions on pattern analysis and machine intelligence(IEEE模式分析与机器智能汇刊)PP(2021)33. 张,L.,宋杰Gao,A.,陈杰,Bao,C.,Ma,K.:做你自己的老师:通过自蒸馏提高卷积神经网络的性能。IEEE/CVF计算机视觉国际会议论文集。pp. 371334. Zhu,Y.,中国科学院,Wang,Y.:学生定制的知识升华:弥合学生和教师之间的差距。在:IEEE/CVF计算机视觉国际会议论文集。pp. 5057+v:mala2255获取更多论文N补充材料高效单程自蒸馏与ZipfJiajun Liang,Linze Li,Zhaodong Bing,Borui Zhao,Yao Tang,BoLin,Haoqiang FanMEGVII技术{梁家军,李林泽,兵照东,赵博瑞,唐耀02,林波,方华琪}@ megvii.com1对经验观察我们发现,Zip f的先验可以帮助生成非目标类的非均匀监督在一个通道的方式。在本节中,我们提供了一个简单的直觉来解释为什么Zip f的算法应该用于多类分类的预测。我们假设非零网络预测的一个主要来源是随着越来越多的类被打包到有限维特征空间中,类间特征向量不可避免的非正交性。在一个简化的模型中,我们假设每个类对应的决策向量均匀分布在一个高维单位球面上。对于球面上的另一个随机查询向量,当维数足够高时,它们与它的内积呈高斯分布。我们提出了一个实验来验证softmaxGaussianlogits能很好地拟合Zipf定律。如算法1所
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功