没有合适的资源?快使用搜索试试~ 我知道了~
10925ImageNet top-1精度知识提炼:一个好老师是有耐心和始终如一的LucasBe yerXiaohuaZhaiAme' lieRo yerLarisaMark eevaZahanRohanAnilAlexanderKolesnikovGoogle Research,Brain Team{lbeyer,xzhai,akolesnikov}@ google.com摘要计算机视觉中的差异越来越大-大规模模型之间,达到最先进的每80在实际应用中可负担得起的价格和型号在本文中,我们解决这个问题,并显着弥合这两种类型的模型之间的差距通过我们的实证研究,我们的目标并不一定是提出一种新的方法,而是努力确定一个强大而有效的配方,以制作最先进的大规模模型实践中负担得起我们证明,当执行75正确地,知识蒸馏可以是一个强大的工具,在不影响其性能的情况下减小大型模型的尺寸特别是,我们发现,有一些隐式的设计选择,这可能会大大影响蒸馏的有效性。我们的主要贡献是明确识别这些设计选择,这是以前没有在文献中阐述。我们通过全面的实证研究来支持我们的研究结果,证明历元在广泛的视觉数据集上获得了令人信服的结果,特别是为ImageNet获得了最先进的ResNet-50模型,该模型达到了82.8%的top-1准确率。1. 介绍大规模视觉模型目前在计算机视觉的许多最近用于图像分类[6,22,39,41,48],对象检测[7,26]或语义分割[52]的最新模型尽管这些模型令人印象深刻,但由于计算成本高,很少在实践中使用。相反,从业者通常使用更小的模型,如ResNet-50 [22]或Mo- bileNet[14],这些模型运行起来要便宜几个数量级。根据五款BiT机型平等贡献†在奥地利IST攻读博士学位期间,在谷歌工作。在谷歌工作,而在斯科尔泰克博士生。图1.我们证明,当我们耐心地训练大量的epoch并为教师和学生模型(绿线和蓝线)提供一致的图像视图时,蒸馏效果最好这可以与使用预先计算的教师目标(黑线)进行提取的流行设置形成对比,后者的效果要差得多在Tensorflow Hub上,最小的ResNet-50 [11]模型的下载次数明显多于较大的模型。因此,视觉方面的许多最新改进并没有转化为现实世界的应用。为了解决这个问题,我们专注于以下任务:给定一个特定的应用程序和一个大型模型,它的性能非常好,我们的目标是压缩模型到一个更小,更有效的架构,而不牺牲性能。有两种广泛使用的范式针对这一任务:模型修剪[18]和知识修剪[12]。模型修剪通过剥离其部分来减小大型模型该过程在实践中可能是限制性的:首先,它不允许更改模型族,4x一贯教学固定教师功能匹配10926比如从ResNet到MobileNet。第二,可能存在依赖于架构的挑战,例如:如果模型使用组归一化[46],则修剪信道可能导致需要动态地重新平衡信道组。相反,我们专注于知识蒸馏方法,不遭受这些缺点。知识蒸馏背后的想法是这通过迫使学生的预测(或内部激活)与教师的预测相匹配来工作,从而自然地允许作为压缩的一部分的我们密切关注[12]中的原始蒸馏设置,并发现当正确操作时它令人惊讶地有效:我们将蒸馏解释为匹配教师和学生实现的函数的任务,如图2所示。通过这种解释,我们发现了两个原则的知识蒸馏模型压缩。首先,教师和学生应该处理完全相同的输入图像视图,或者更具体地,相同的裁剪和增强。其次,我们希望函数在大量支持点上匹配,以便很好地泛化。使用mixup [51]的积极变体,我们可以在原始图像流形之外生成支持点。考虑到这一点,我们通过实验证明,一致的图像视图、积极的增强和非常长的训练时间表是通过知识蒸馏使模型压缩在实践中工作良好的关键尽管我们的研究结果看起来很简单,但有多种原因可能会阻止研究人员(和从业者)做出我们建议的设计选择。首先,它是诱人的预先计算教师正如我们将展示的,这种固定教师的方法并不奏效。其次,知识蒸馏也常用于不同的环境(除了模型压缩),其中作者推荐不同甚至相反的设计选择[40,48,50],参见图2。第三,知识蒸馏需要大量的epoch来达到最佳性能,这比通常用于监督训练的epoch要多得多。最后,在10米的常规训练中看起来不太理想的选择,最终对长跑来说是最好的,反之亦然。在我们的实证研究中,我们主要集中在压缩来自[22]的大型BiT-ResNet-152 x2,该数据集在ImageNet-21 k数据集[36]上进行了预训练,并根据相关的感兴趣数据集进行我们在一系列中小型数据集上将其提取到标准的 ResNet-50 架 构 [11] ( 但 用 组 归 一 化 取 代 批 归 一化),我们在ImageNet [35]数据集上也取得了非常好的 结 果 : 总 共 有 9600 个 epoch 用 于 蒸 馏 , 我 们 在ImageNet上设置了新的ResNet-50 SOTA 82.8%。这比[22]中的ResNet-50模型好4.4%,好2.2%比文献中最好的ResNet-50模型,它使用更复杂的设置[37]。最后,我们证明了我们的蒸馏配方也工作时,同时压缩和改变模型的家庭,例如。从BiT-ResNet架构到MobileNet架构。2. 实验装置在本节中,我们将介绍本文中使用的实验设置和基准测试。给定一个在特定任务上具有高精度的大规模视觉模型(教师,或T),我们的目标是将这个模型压缩到一个小得多的模型(学生,或S),而不影响其性能。我们的压缩配方依赖于知识蒸馏,如[12]中所介绍的,以及对训练设置中几个关键成分的仔细数据集、指标和评估协议。 我们在五个流行的图像分 类 数 据 集 上 进 行 了 实 验 : flowers 102 [30] , pets[32] , food 101 [20] , sun 397 [47] 和 ILSVRC-2012(“ImageNet”)[ 35 ]。这些数据集跨越了不同的图像分类场景;特别是,它们在类别数量上有所不同,从37到 1000 个 类 别 , 以 及 训 练 图 像 的 总 数 , 从 1020 到1281167个训练图像。这使我们能够在广泛的实际设置中验证我们的蒸馏配方,并确保其稳健性。作为一个指标,我们总是报告分类准确性。对于所有数据集,我们使用验证分割执行设计选择和超参数选择,并报告测试集的这些拆分在附录E中定义。教师和学生模型。在整篇论文中,我们选择使用来自BiT [22]的预训练教师模型,该模型提供了大量在ILSVRC-2012 和 ImageNet-21 k 数 据 集 上 预 训 练 的ResNet模型,具有最先进的准确性。BiT-ResNets和标准ResNets之间唯一的显著区别是它们的使用组归一化层[46]和权重归一化[33],用于代替批量归一化[16]。特 别 是 , 我 们 专 注 于 BiT-M-R152 x2 架 构 : 在ImageNet-21 k上预训练的BiT-ResNet-152 x2(152层,该模型在各种视觉基准测试中表现出出色的性能,并且仍然可以使用它进行广泛的消融研究它的部署非常昂贵(需要比标准ResNet-50多大约10倍的计算),因此有效压缩该模型具有实际重要性。对于学生蒸馏损失。 我们使用教师的pt和学生的ps预测类概率向量之间的KL发散作为蒸馏损失,如最初在[ 12 ]中引入的。我们不使用任何额外的损失条款与尊重10927ΣC××不固定教师独立噪声一致性教学函数匹配S不logit匹配logit匹配S不logit匹配S不logit匹配S不图2.进行知识提炼时各种设计选择的示意图。左:教师接收固定图像,而学生接收随机增强。中左:教师和学生接受独立的图像增强。中右:教师和学生获得一致的图像增强。右:教师和学生接收一致的图像增强,加上输入图像流形通过包括图像对之间的线性段来扩展(称为mixup[51]增强)。到原始数据集KL(pt||ps)= [−pt,ilog ps,i+ pt,ilog pt,i],(1)i∈C其中是一组类。此外,如[12]中所述,我们引入温度参数T,其用于在预测的软最大概率分布之前调整预测的软最大概率分布的熵。在损失计算中使用:psexp(logps)和在计算可行的情况下(我们总共训练了成千上万个模型),我们使用相对较低的输入分辨率,并将输入图像大小调整为128 128大小,除了我们的ImageNet实验,使用标准输入224224分辨率。对于我们所有的实验,我们使用Google Cloud TPU加速器-[19].我们还报告了我们的批量大小,epoch或更新步骤的总数,这允许估计资源重新分配。ptexp(logpt)。任何感兴趣的特定实验的测试要求模型代码和重量是公开的2。培训设置。 为了优化,我们训练模型使用Adam优化器[21]和默认参数,除了初始学习率,这是我们超参数探索的一部分我们使用余弦学习率时间表[27],无需热重启。我们还扫描了所有实验的重量为了稳定训练,我们在梯度的全局L2范数上启用阈值为1.0的梯度裁剪。最后,我们在所有实验中使用批量大小512,除了在ImageNet上训练的模型,我们使用批量大小4096进行训练。对于其余的超参数,我们将在下一节中讨论它们的扫描范围以及相应的实验我们的配方的另一个重要组成部分是混合数据增强策略[51]。特别是,我们在“函数匹配”策略中引入了一个混合变量β分布。除非另有明确说明,否则为了吸引人,我们使用此外,为了使我们的前-3. 模型压缩3.1. 调查“一贯和耐心的教师”假设在这一节中,我们对我们在引言中提出的假设进行了实验验证,并在图2中可视化,即蒸馏在被视为函数匹配时效果最好,即当学生和教师看到输入图像的一致视图时,通过mixup合成地为了确保我们的研究结果是稳健的,我们对四个中小型数据集进行了非常彻底的分析,即Flowers102[30](1020张训练图像),Pets[32](3312张训练图像),Food101[20](约68k张训练图像)和SUN397[47](76k张训练图像)。为了消除任何混淆因素,对于每个单独的蒸馏设置,我们扫描学习率的所有组合{0。0003,0。001,0。003,0。01},重量衰变{1·10−5,3·10−5,1·10−4,3·10−4,1·10−3},和2https://github.com/google-research/big_transfer随机作物插值mixup相同的输入随机作物固定教师预测学生噪声教师噪声随机作物相同的输入10928--1010.10.0110百分之九十百分之八十3百分之七十百分之六十1same/ic,mixsame/rc,mix相同/ic相同/rcind/icfix/ccfix/ic_ensind/rc菲克斯2k 4k 6k 8k 10k历元图3.Flowers102数据集上“一致性”要求的实验验证颜色与图2和第3.1.1节中介绍的不同知识蒸馏设计选择相匹配。注意,虽然固定教师设置实现了显著更低的蒸馏损失,但它们导致学生不能很好地概括。相比之下,一致的教学和功能匹配的方法导致显着更高的学生表现。附录C中报告了更多数据集的相似结果。蒸馏温度为1、2、5、10。在所有报告的图中,我们将每一次运行显示为低不透明度曲线,并突出显示具有最佳最终验证准确性的曲线。我们在附录A中提供了相应的测试精度。3.1.1“一贯”教学的重要性首先,我们证明了一致性准则,即。学生和教师看到相同的视图,是执行蒸馏的唯一方法,该蒸馏在所有数据集上一致地达到学生表现的峰值。对于本研究,我们定义了多个蒸馏配置,这些配置对应于图2中概述的所有四个选项的实例,具有相同的颜色编码:• 固定教师我们探讨了几个选项,其中教师的预测是恒定的给定图像(预先计算的目标)。最简单(也是最糟糕)的方法是fix/rs,其中学生和教师的图像大小都调整为2242px。fix/cc遵循更常见的方法,即对教师使用固定的中心裁剪,对学生使用温和的随机裁剪。FIX/ICENs是一种重数据增强方法,其中教师的预测是1 k个接收作物的平均值,我们验证了这一点学生还使用随机的初始作物。后两种设置类似于“嘈杂学生”论文[ 48 ]中的输入噪声策略• 独立的噪音我们以两种方式实例化这种常见的策略:ind/rc分别为教师和学生计算两个独立的轻度随机作物,而ind/ic使用较重的inception作物。在[40]中使用了类似的设置。• 一贯的教学。在这种方法中,我们随机裁剪图像只有一次,要么与温和的随机裁剪-列车蒸馏损失学生验证准确度蒸馏损失值0.001百分之五十0.0001百分之四十1e-05 02k4k6k8k0.3一万零2k4k6k8k百分之三十一万零10929ping ( same/rc ) 或 heavy inception crop(same/ic),并将此相同的crop用于学生和教师的输入• 功能匹配。 这种方法扩展了一致的教学,通过mixup(混合)扩展图像的输入流形,并再次为学生和教师提供一致的输入。为了简洁起见,我们有时将这种方法称为图3显示了所有这些配置中Flowers102数据集上的10000个epoch训练曲线。这些结果清楚地表明,此外,训练损失表明,对于如此小的数据集,使用固定的教师会导致强烈的过拟合。相比之下,函数匹配在训练集上永远不会达到这种损失,而在验证集上推广得更好。由于空间限制,我们在附录C中显示了其他数据集和训练持续时间的类似结果。3.1.2“耐心”教学的重要性人们可以将蒸馏解释为监督学习的一种变体,其中标签(可能是软的)由强教师模型提供。这在针对单个图像视图(预先)计算教师预测这种方法继承了标准监督学习的所有问题,例如,积极的数据增强可能会扭曲实际图像标签,而不那么积极的增强可能会导致过拟合。然而,如果我们将蒸馏解释为功能匹配,并且至关重要的是,确保为学生和教师提供一致的输入,情况就会发生变化。在这种情况下,我们可以非常积极地进行图像增强:即使10930Flowers1021020 imagesPet373312图片Food10168k图片学生(R50)教师:BiT-M(R152 x2)基线:从头开始(R50)基线:BiT-M转移(R50)100 75908590 70858080 65807075607560707055501千10千100千1百万651003001k3k10k 30k6530 100 300 1k3k5030 100 300 1k 3k培训持续时间[时期]图4.一个人在做蒸馏时需要耐心和一致性。最终,教师将被匹配;这在不同规模的各种数据集上都是如此。如果图像视图过于失真,我们仍将朝着匹配此输入的相关功能因此,我们可以更有机会地进行增强,并通过进行积极的图像增强来避免过拟合,如果是真的,则优化很长时间,直到学生的函数接近教师的我们在图4中以经验证实了我们的直觉,对于每个数据集,我们显示了在训练最佳函数匹配学生(根据验证)期间,对于不同数量的训练时期,测试准确性的演变老师被显示为一条红线,并且总是在比在监督训练设置中使用的时期数量大得多的时期之后最终到达至关重要的是,即使我们优化了100万个历元,也我们还训练和调整了另外两个基线以供参考:使用数据集原始硬标签从头开始训练ResNet-50,以及转移在ImageNet-21 k上预训练的ResNet-50对于这两个基线,我们如3.1节所述,对学习率和权重衰减进行了大量调整。使用原始标签从头开始训练的模型大大超过了我们的学生。转让模式的表现要好得多,但最终也表现出色。值得注意的是,相对较短但通常持续时间为100个时期的训练导致比转移基线差得多的性能总的来说,ResNet-50的学生耐心地和一致地匹配非常强大,但更昂贵的ResNet-152 x2教师全面。3.2. 扩展到ImageNet基于我们从前面章节中的见解,我们现在研究拟议的蒸馏 配方如何扩 展到广泛使 用和更具 挑战性的ImageNet数据集[35]。遵循与之前相同的方案,在图5(左)中,我们报告了在三种蒸馏设置的整个训练过程中的学生准确度曲线:(1)固定教师,(2)一致教学和(3)函数匹配。作为参考,我们的基础教师模型达到了83.0%的top-1准确率。固定教师再次遭受长时间的训练计划,并在600个epoch后开始过度拟合相比之下,一致的教学方法不断提高性能的培训时间增加。由此我们可以得出结论,一致性是在ImageNet上进行蒸馏的关键,类似于之前讨论的中小型数据集的行为。与简单的一致性教学相比,函数匹配在短时间内的表现略差,这可能是由于拟合不足造成的。但是当我们增加训练时间表的长度时,函数匹配的改进变得明显:例如,只有1200个epoch,它能够匹配4800 epoch的一致性教学性能,从而节省75%的计算资源。最后,对于我们实验的最长函数匹配,vanillaResNet-50学生架构在ImageNet上达到了82.31%的top-1准确率3.3. 在不同的输入分辨率到目前为止,我们假设学生和老师都收到相同的标准输入分辨率224px。然而,可以将不同分辨率的图像传递给学生和教师,同时仍然保持一致:一个简单的方法是对原始高分辨率图像进行裁剪,然后为学生和教师调整不同的大小:他们的视图将保持一致,尽管分辨率不同。这种洞察力可以用于从更好,更高分辨率的老师那里学习[22,42],也可以用于训练更小,更快的学生[2]。我们研究两个方向:首先,在[2]之后,我们训练一个ResNet-50学生Sun39776k图片测试准确度[%]109314x一贯教学用洗发水80 808075 7575历元历元历元图5. 左图:三种蒸馏设置在ImageNet上的前1名准确度:(1)固定教师;(2)一致的教学;(3)函数匹配(“FunMatch”)。浅色曲线显示整个训练过程中的准确性,而实心散点图是最终结果。有固定老师的学生最终会饱和并过度适应它。一致的示教和函数匹配都不会表现出过拟合或饱和。中:通过Shampoo预处理降低优化成本; 1200 epoch,能够匹配4800 epoch训练的基线。右:用预先训练的权重初始化学生可以改善短期训练,但对最长的时间表有害。输 入 分 辨 率 为 160px , 同 时 保 持 教 师 分 辨 率 不 变(224px)。这导致模型速度加快两倍,与使用一系列修改[2]在该分辨率下的最佳公布的78.8%相比,该模型仍然达到了显著的80.49%前1准确度(见表1)其次,在[22]之后,我们提取了一个在384px分辨率下微调的教师(并达到83.7%的前1精度),这次保持学生分辨率不变,即。消耗224px的输入图像。与基线教师相比,这提供了适度但持续的全面改善,如表1所示。3.4. 优化:二阶预处理器()提高了训练效率我们观察到,由于长时间的训练计划,优化功效为我们的蒸馏配方创造了“功能匹配”的计算瓶颈。直观地说,我们认为,优化的困难源于这样一个事实,即它是更难适应一个一般的功能与多变量的输出,而不是固定的图像级标签。因此,我们进行了初步探索,是否更强大的优化器可以在我们的任务中做得更好。为此,我们将底层优化器从Adam更改为Shampoo[1],并使用二阶预处理器。在图5(中间)中,我们观察到Shampoo在仅1200个历元内实现了与Adam在4800个历元时达到的相同的测试精度,并且步长开销最小而且,总的来说,我们观察到在所有的实验环境中,亚当都有持续的进步。有关Shampoo优化器的实验细节见附录D。3.5. 优化:良好的初始化可以改善短期运行,但最终会落后受迁移学习文献[10,22]和[37]的启发,良好的初始化能够显着缩短训练成本并获得更好的解决方案,我们尝试使用预训练的BiT-M-ResNet 50权重初始化学生模型,并在图5中显示结果(右)。当蒸馏持续时间较短时,BiT-M初始化提高了2%以上。然而,当训练时间表足够长时,差距就会缩小。我们的观察结果与[10]的结论相似。从1200个时期开始,从头开始提取匹配BiT-M初始化的学生,并稍微超过它4800个时期。3.6. 在不同的模型系列除了为学生和教师使用不同的输入分辨率之外,原则上没有什么可以阻止我们完全使用不同系列的架构,因为我们一贯的耐心教师方法仍然适用于这种设置。这使我们能够有效地从更强大和更复杂的教师(例如合奏)中转移知识,同时保持ResNet50学生的简单架构,但也将大型ResNet模型的最先进性能转移到更有效的架构中,例如。MobileNet。我们通过两个实验证明了这一点。首先,我们使用两个模型作为教师的合奏,并表明这进一步提高了性能。第二,我们培训了MobileNet v3 [13]的学生,并获得迄今为止报道最好的MobileNet v3模型。MobileNet学生。我们使用MobileNet v3(大型)作为4x一贯教学固定教师函数匹配与BiT initImageNet top-1精度10932××SGD亚当关于Mixup百分百百分之八十百分之六十百分之四十百分之二十宠物验证准确性Pets(self)ImageNetSun397食品101百分之八十百分之六十百分之四十百分之二十Sun397验证准确度Sun397(self)ImageNet宠物食品101功能匹配80750%的百分比0 20k 40k 60k更新步骤0%的百分比0 20k 40k 60k更新步骤70历元图6.提取不同数据源的pet和sun397数据集。结果表明,提取完全无关的图像在一定程度上工作,即使最终结果相对较低。在“域内”数据上提取图7.Baseline ResNet-50模型使用标签从头 开始训练,而 不是使用ResNet-152 x2教师。学生,对于大多数实验,我们选择使用GroupNorm(默认为8组)而不是BatchNorm的变体。我们没有使用原始论文中使用的任何训练技巧,我们只是执行函数匹配。我们的学生在300个epoch后达到74.60%,在1200 个 epoch后 达到 76.31%, 从而 得 出最 佳 发布 的MobileeNet v3模型。更多结果见附录A。合奏老师。我们现在尝试一个更好的老师:我们创建一个模型,该模型由224px分辨率的默认老师和上一节中384px分辨率的老师这是一种不同的,但密切相关的,类型的教师,这是显着更强大,但也较慢。在我们尝试的每个持续时间(附录A)中,这个老师3.7. 与文献结果的比较。现在,当我们介绍我们的关键实验时,我们将我们最好的ResNet-50模型与文献中可用的最好的ResNet-50模型进行了比较,见表2。特别是我们将224 224输入分辨率与[11]中的原始ResNet-50模型,在ImageNet-21 k数据集上预训练的BiT-M-ResNet-50 [36]和[37]中的先前最先进模型进行比较。对于160160输入分辨率,我们与[2]中最近的竞争模型进行了我们观察到,我们的蒸馏配方在两种情况下都领先于最先进的性能,并且领先幅度很大。3.8. 提取“域外”数据通过将知识提取视为在本节中,我们将研究这一假设。ImageNet top-1精度10933我们在pets和sun397数据集上进行实验我们使用 我 们 的 蒸 馏 配 方 , 使 用 来 自 food101 和ImageNet数据集的域外图像来蒸馏pets和sun397模型图6总结了我们的结果。首先,我们观察到使用域内数据进行提取效果最好。有些令人惊讶的是,即使图像完全不相关,蒸馏在某种程度上仍然有效,尽管结果会变得更糟。例如,这意味着学生模型可以通过只看到标记为宠物品种的食物图像(柔和地)来学习以大约30%的准确率对宠物 进行 最 后, 如 果蒸 馏 图像 与 实际 的 Pets和ImageNet,或者sun397和ImageNet),那么结果可以和使用“域内”数据一样好(或者几乎一样好)3.9. 使用增强功能为了确保我们观察到的最先进的蒸馏结果不是我们精心调整的训练设置的产物,即非常长的时间表和积极的混合增强,我们训练了相应的基线ResNet-50模型。更具体地说,我们重新使用蒸馏训练设置在ImageNet数据集上进行监督训练,而没有蒸馏损失。为了进一步加强我们的基线,我们还尝试了带有动量的SGD优化器,众所周知,它通常比Adam优化器更适合ImageNet。结果示于图7中。我们观察到,有标签和没有蒸馏损失的训练导致显着更差的结果,并开始过度适应长时间的训练计划。因此,我们得出结论,蒸馏是必要的,使我们的训练配方工作良好。10934表1.不同教师/学生输入分辨率(行)和训练时期数(列)的前1名测试精度实验300 1200 4800 9600T224 →S224 80.30 81.54 82.18 82.31T224 →S160 78.17 79.61不适用80.49T384 →S224 80.46 81.82 82.33 82.644. 相关工作压缩神经网络有许多范例。其中之一是修剪,一般的想法是丢弃训练模型的一部分,同时使其更有效,并且在性能上几乎没有或根本没有损失。模型修剪有许多不同的风格:它可以是非结构化的(即,集中于修剪各个连接)或结构化(即,专注于修剪更大的构建块,例如整个信道)。它也可以带有或不带有额外的微调步骤,或者是迭代的或不是。对这个主题的平衡和公平的讨论超出了本文的范围,所以我们建议感兴趣的读者参考最近的综述作为起点[3,44]。知识蒸馏[12]是一种将知识从一个模型(教师)转移到另一个模型(学生)的技术,通过优化学生模型来匹配教师模型的某些输出(或中间激活)。这种技术用于许多不同的环境中,例如半监督学习[40,48]或甚至自我监督学习[8]。在本文中,我们只考虑知识蒸馏作为一种工具,模型压缩。在许多著作中,例如:[4,34],在学生和教师架构的不同深度/宽度模式下,甚至与其他压缩技术结合[29]。值得注意的是,MEAL[37]提出将大型ResNet教师的集合提取为具有对抗性损失的较小ResNet学生,并取得了很好的结果。我们的工作与压缩知识蒸馏的类似工作的主要区别在于,我们的方法同时是最简单和最好的:我们没有引入任何新的组件,而是发现正确的训练设置足以获得最先进的结果。权重量化[17,25,31,45]和分解-[5,9,23,43]旨在通过用轻量级近似替换大型矩阵运算来加速和减少CNN的内存占用。这条研究路线在很大程度上与这项工作正交,通常可以与本文的方法相结合,特别是在最终模型部署阶段。我们离开探索表2.我们最好的和文献ResNet 模型的比较。该指标是ImageNet测试分割的准确性(正式的valsplit)。模型Arch.Res.精度“Revisiting ResNet”R5016078.8%FunMatch(T224)R50160百分之八十点五原始ResNet [11]R50224百分之七十七点二BiT-M-R50 [22]R50224百分之七十八点四[37]第三十七话R50224百分之八十点七FunMatch(T384+224)R5022482.8%“Revisiting ResNet”R15222482.8%这是未来研究的主题。最后,还有一条工作线,从不同的角度接近我们的目标(紧凑和高性能的模型),通过专注于改变架构并从头开始训练良好的紧凑模型,因此不需要压缩大型模型。一些值得注意的例子包括ResNeXt [49],挤压和激励网络[15]和选择性内核[24],它们提出了改进模型准确性的修改,用于固定的计算预算。这些改进是对本文所解决的研究问题的补充,可以复合。5. 结论我们没有提出一种新的模型压缩方法,而是仔细研究了现有的公共知识提取过程,并确定了如何使其在模型压缩的背景下真正发挥作用。我们的主要发现源于对知识蒸馏的特定解释:我们建议将其视为功能匹配任务。这不是知识蒸馏的典型观点,因为通常它被视为基于我们的解释,我们同时包含三个成分:(i)确保教师和学生总是得到相同的输入,包括噪声,(ii)引入积极的数据增强来丰富输入图像流形(通过mixup)和(iii)使用非常长的训练时间表。尽管我们的配方中的每个组成部分看起来都很微不足道,但我们的实验表明,必须联合应用所有这些组成部分才能获得最佳结果。我们获得了非常强的经验结果,将非常大的模型压缩到更实用的ResNet-50架构中。我们相信,从实用的角度来看,它们是非常有用的,是未来研究压缩大规模模型的一个非常强大的基线。鸣谢。我们感谢Daniel Keysers和Frances Hubis对本文的宝贵反馈;感谢Ilya Tolstikhin和Google Brain团队提供的支持性研究环境。10935引用[1] Rohan Anil,Vineet Gupta,Tomer Koren,Kevin Regan和Yoram Singer。深度学习的可扩展二阶优化。arXiv预印本arXiv:2002.09018,2021。六、十一[2] Irwan Bello , William Fedus , Xianzhi Du , Ekin DCubuk , Aravind Srinivas , Tsung-Yi Lin , JonatheShlens,and Barret Zoph.重新审视重新设置:改进的培训和扩展策略。arXiv预印本arXiv:2103.07579,2021。五六七八[3] Davis Blalock , Jose Javier Gonzalez Ortiz , JonathanFrankle和John Guttag。神经网络修剪的状态是什么arXiv预印本arXiv:2003.03033,2020。8[4] 张贤卓和巴拉斯·哈里哈兰疗效 知识的升华。在2019年计算机视觉国际会议(ICCV)。8[5] Emily Denton、Wojciech Zaremba 、Joan Bruna 、YannLeCun和Rob Fergus。利用卷积网络中的线性结构进行有效评估。神经信息处理系统会议(NeurIPS),2014年。8[6] AlexeyDosovitskiy、LucasBeyer、AlexanderKolesnikov、Dirk Weissenborn、Xiaohua Zhai、ThomasUnterthiner 、 Mostafa Dehghani 、 Matthias Minderer 、Georg Heigold、Syl-vain Gelly、Jakob Uszkoreit和NeilHoulsby。 一张图像值16x16个单词:用于大规模图像识 别 的 变 形 金 刚 。 2021 年 国 际 计 算 机 视 觉 会 议(ICCV)。1[7] Golnaz Ghiasi,Yin Cui,Aravind Srinivas,Rui Qian,Tsung- Yi Lin,Ekin D Cubuk,Quoc V Le,and BarretZoph.简单的复制粘贴是一种强大的数据增强方法,用于实例分割。arXiv预印本arXiv:2012.07177,2020。1[8] Jean-BastienGrill , FlorianStrub , FlorentAltche' ,CorentinTallec,PierreHRichemond,ElenaBuchatskaya , Carl Do- ersch , Bernardo Avila Pires ,Zhaohan Daniel Guo,Moham-mad Gheshlaghi Azar,et al.Bootstrap your own latent : A new approach to self-supervised learning.arXiv 预 印 本 arXiv : 2006.07733 ,2020。8[9] JuliaGusak , MaksymKholiavchenko , EvgenyPonomarev,Larisa Markeeva,Philip Blagoveschensky,Andrzej Cicolski,and Ivan Oseledets.神经网络的自动多级压缩。在IEEE/CVF计算机视觉研讨会国际会议论文集,2019年。8[10] 何凯明,罗斯·格希克,彼得·多尔·拉尔。重新思考imagenet 预 培 训 。 arXiv 预 印 本 arXiv : 1811.08883 ,2018。6[11] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在计算机视觉和模式识别会议(CVPR),2016年。一、二、七、八[12] Geoffrey Hinton Oriol Vinyals和Jeffrey Dean在神经网络中提取知识。NeurIPS深度学习和表示学习研讨会,2015年。一二三八[13] Andrew Howard , Mark Sandler , Grace Chu , Liang-Chieh Chen,Bo Chen,Mingxing Tan,Weijun Wang,Yukun Zhu,Ruoming Pang,Vijay Vasudevan,et al. Searchingfor mo-bilenetv3.在计算机视觉和模式识别会议(CVPR),2019年。610936[14] Andrew G Howard,Menglong Zhu,Bo Chen,Dmitry Kalenichenko , Weijun Wang , TobiasWeyand,Marco An- dreetto,and Hartwig Adam.Mobilenets:用于移动视觉应用的高效卷积神经网络。arXiv预印本arXiv:1704.04861,2017。1[15] J. 胡湖,加-地Shen和G.太阳压缩-激励网络。在计算机视觉和模式识别会议(CVPR)上,第7132-7141页,2018年。8[16] Sergey Ioffe和Christian Szegedy。批量归一化:通过减少内部协变量偏移来加速深度网络训练。2015年国际机器学习会议。2[17] Benoit Jacob 、 Skirmantas Kligys 、 Bo Chen 、MenglongZhu 、 MatthewTang 、 AndrewHoward、Hartwig Adam和Dmitry Kalenichenko。神经网络的量化和训练,有效的整数算术推理。在计算机视觉和模式识别会议(CVPR),第2704-2713页8[18] Steven A.杰诺夫斯基神经网络中的修剪与裁剪。Phys. Rev. A,39,1989年。1[19] Norman P Jouvillage , Cliff Young , NishantPatil , David Patter- son , Gaurav Agrawal ,Raminder Bajwa , Sarah Bates, Suresh Bhatia ,Nan Boden , Al Borchers , et al. In-datacenterperfor- mance analysis of a tensor processing unit.在2017年第44届计算机体系结构年度国际研讨会的会议记录中。3[20] Parneet Kaur Karan Sikka和Ajay Divakaran。结合弱监督学习与网络监督学习的食品图像分类。arXiv预印本arXiv:1712.08730,2017年。二、三[21] Diederik P. Kingma和Jimmy Ba。 亚当:的方法用 于 随 机 优 化 。 国 际 学 习 代 表 大 会(ICLR),2015年。3[22] Alexander Kolesnikov 、 Lucas Beyer 、 XiaohuaZhai 、 Joan Puigcerver 、 Jessica Yung 、 SylvainGelly和Neil Houlsby。大迁移(位):一般视觉表征学习。2020年国际计算机视觉会议(ICCV)一、二、五、六、八
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM Java项目:StudentInfo 数据管理与可视化分析
- pyedgar:Python库简化EDGAR数据交互与文档下载
- Node.js环境下wfdb文件解码与实时数据处理
- phpcms v2.2企业级网站管理系统发布
- 美团饿了么优惠券推广工具-uniapp源码
- 基于红外传感器的会议室实时占用率测量系统
- DenseNet-201预训练模型:图像分类的深度学习工具箱
- Java实现和弦移调工具:Transposer-java
- phpMyFAQ 2.5.1 Beta多国语言版:技术项目源码共享平台
- Python自动化源码实现便捷自动下单功能
- Android天气预报应用:查看多城市详细天气信息
- PHPTML类:简化HTML页面创建的PHP开源工具
- Biovec在蛋白质分析中的应用:预测、结构和可视化
- EfficientNet-b0深度学习工具箱模型在MATLAB中的应用
- 2024年河北省技能大赛数字化设计开发样题解析
- 笔记本USB加湿器:便携式设计解决方案
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功