没有合适的资源?快使用搜索试试~ 我知道了~
12266稀疏ImageNet模型的传输效果如何?Eugenia Iofinova*IST奥地利亚历山德拉·佩斯特*IST奥地利马克·库尔茨神经魔法丹·阿里斯塔IST奥地利神经魔术摘要迁移学习是一个经典的范例,通过它,在大型“上游”数据集上预训练一般来说,在“上游”数据集上的更精确的模型倾向于在“下游”提供更好的传输精度。在这项工作中,我们在ImageNet数据集上训练的卷积神经网络(CNN)的背景下对这种现象进行了深入的研究,这些数据集已经被修剪,也就是说,通过稀疏化它们的连接来压缩。我们考虑在12个标准传输任务的上下文中使用通过应用几种最先进的修剪方法(包括基于幅度的方法、二阶方法、再生长方法、彩票方法和正则化方法)获得的非结构化修剪模型来进行简而言之,我们的研究表明,即使在高稀疏度下,稀疏模型也可以匹配甚至优于密集模型的传输性能 同时,我们观察和分析了不同修剪方法在行为上的显著差异 。 该 代 码 可 在 以 下 网 址 获 得 :https://github.com/IST-DASLab/sparse-imagenet-transfer。1. 介绍深度学习的巨大计算成本导致了学术界和工业界对模型压缩的极大兴趣,模型压缩大致定义为获得与较大模型的准确性相匹配的占用空间较小的模型。模型压缩是一个快速发展的领域,已经研究了几种通用方法,其中修剪和量化是最流行的[18,28]。我们目前的研究集中在权重修剪上,其目标是通过将权重设置为零来移除尽可能多的权重,而不会损失模型的准确性。可以说,权重修剪是历史最丰富的压缩方法[42],目前是一个非常活跃的研究课题[28]。*这些作者的贡献相等。通信地址:{eugenia.iofinova,alexandra.peste} @ ist.ac.at由于这种趋势,出现了一组相当一致的精度基准,用于修剪,以及越来越有效的计算支持[11,20,40,52]。模型压缩的一个主要目标是实现在边缘设备上的部署。这样的设备可能会自然地遇到不同的数据分布,因此很容易问压缩模型将如何执行迁移学习,广义上定义为利用来自一些基线“上游”(“预训练”)任务的信息,以便在“下游”(“微调”)任务上更好地执行。具体来说,我们主要关注一个原型迁移学习设置[36]:从在ImageNet-1 K数据集上训练和压缩的模型开始[60],我们将得到的模型细化到几个不同的目标任务上。在这种情况下,我们ex-amine的问题,如何以及由此产生的稀疏模型转移。我们的动机既有实用性稀疏传输可以为下游模型的推理和训练提供加速,也有分析性,因为我们的目标是揭示稀疏性对结果特征的影响。我们的研究将考虑两种常见的迁移学习变体:完全微调,其中所有未修剪的权重都可以在迁移过程中进行优化,以及线性微调,其中只有模型的最后一个线性层在下游进行微调。虽然两者都很受欢迎,但我们会看到它们会导致不同的结果。我们还使用稀疏感知推理引擎[9]探索了推理时间加速,并首次研究了通过稀疏模型进行线性微调可实现的训练时间加速此外,我们分析了不同的修剪方法和任务特性对传输性能的影响。我们考虑在ImageNet准确性方面表现最好的剪枝方法,大致分为三类。第一种方法是渐进式稀疏化方法,它从一个精确的密集基线开始,逐渐去除权重,然后进行微调。典型的例子是渐进幅度修剪(GMP)[17,22,23,69],它使用绝对权重幅度作为修剪标准。此外,我们研究了WoodFisher修剪[63],它利用二阶信息进行高度准确的修剪。第二类粗糙集由稀疏正则集给出12267特殊任务(细粒度)一般任务(粗粒度)任何修剪策略稀疏正则化AC/DC,STR,RigL渐进性稀疏GMP,WoodFisher线性微调≥⇥全微调在训练过程本身期间执行网络压缩以及可能的网络再生长的大型化训练方法。 性能最佳的方法我们在这里考虑的是软阈值重新参数化(STR)[41]、交替压缩/解压缩训练(AC/DC)[57]和最后一类包括彩票假说(LTH)式方法[5,6,14,15]。这些方法强调稀疏子网络的发现具体来说,我们考虑了LTH转移(LTH-T)[5],它提供了这些方法中最先进的结果。硬件或培训时间限制没有硬件或培训时间限制我们测量了通过这些修剪方法获得的稀疏ImageNet模型的传输精度。我们的主要目标应用程序由12个经典的传输数据集给出,如表2所示,范围从一般数据集到更专业的数据集。 我们主要关注经典的ResNet 50[26]模型,但我们将分析扩展到ResNet 18,ResNet 34和MobileNet-V1 [31],我们还检查了对象检测任务的传输性能。贡献 我们提出了第一个系统的研究如何不同的修剪和转移方法的影响转移性能。我们的主要发现是,稀疏模型可以一致地匹配相应的密集模型在传输任务的准确性然而,这种行为受到以下因素的影响:修剪方法(例如,规则化与渐进修剪),转移方法(完全与线性),模型稀疏性(例如,中等80%与高98%稀疏性)和任务类型(例如,专业化程度)。我们简要概述了我们的主要结论,总结在图1和表1中。对于线性微调,稀疏模型通常与密集模型相匹配,并且可以稍微优于密集模型。然而,这并不适用于所有的修剪方法:基于正则化的方法表现得特别好,即使在高稀疏性(例如,95%)。对于通常提供更高精度的完全微调,稀疏模型也与密集模型竞争,但传输精度与ImageNet预训练任务的精度更紧密相关:因此,稀疏度较低的此外,在这种情况下,我们发现渐进稀疏化方法始终产生具有更高传输精度的模型,相对于正则化方法。我们提供了这种效果的第一个分析,将其与修剪模型的结构特性联系起来此外,我们观察到彩票方法的准确性明显较低,特别是在较高水平的稀疏性,例如。90%,要求用于计算加速。考虑到线性微调和完全微调之间的行为差异,我们发现目前没有一种然而,利用现有的方法,可以一致地实现数量级(约90%)的压缩,而不会损失精度。 反过来图1.概述在选择微调和修剪方法时建议的决策过程,以在修剪模型上进行迁移学习时最大限度地提高性能这些压缩级别可以导致超过3在启用稀疏的运行时上。这表明稀疏传输可能具有重要的实际潜力。2. 背景及相关工作2.1. 稀疏化技术最近,人们对剪枝技术产生了极大的研究兴趣,并且已经提出了数百种不同的稀疏化方法;请参阅[17]和[28]的最新综述以获得全面的阐述。我们将现有的剪枝方法大致分类如下。渐进稀疏化方法从一个精确的密集基线模型开始,并在几个步骤中渐进地去除权重,这些步骤由微调周期分开,旨在恢复精度。一个经典的例子是渐进幅度修剪(GMP)[17,22,23,69],它通过全局或逐层测量的绝对幅度逐步删除权重二阶修剪方法,例如[16,24,42,63,65],用二阶信息增强了这个基本度量,这可以导致相对于GMP,得到的修剪模型的准确性更高正则化方法通常通过稀疏促进机制在模型训练期间应用。这些机制是非常不同的,从`0和`1-正则化的替代物[41,67],到变分方法[53],再到方法[54]。ODS受到压缩感测机制的启发,例如迭代硬采样保持(IHT)[32,33,45,57]。我们还考虑了彩票假设(LTH)方法[14]从一个完全训练的模型开始,通常在单个或多个增量步骤中应用修剪, 然后他们重新开始训练,但仅限于迁移学习任务1226855.2±0.258.4±0.92.4± 0.284.6± 0.158.6±0.191.4± 0.74.7± 0.174.4± 0.193.0± 0.73.9± 0.92.5± 0.160.4± 0.56.6± 0.158.7 ± 0.92.5± 0.184.5±0.160.5 ± 0.191.0 ± 0.74.3±0.73.8± 0.193.0±0.173.8 ±0。92.0 ±0.159.8±0.1满0% 83.6± 0.472.4±0.393.5± 0.186.1 ± 0.190.3±0.297.4± 0。85.6±0.276.2 ±0.395.0± 0.187.3±0.193.4 ±0.164.8 ± 0。84.8±0.273.4 ±0.193.7± 0.185.4 ± 0.290.5±0.297.2± 0.185.1±0.175.7±0.596.1 ±0.187.4 ±0.193.4 ±0.164.0 ±0。94.9±0.372.9± 0.293.9±0.384.8± 0.1 90.0± 0.2 97.1± 0.84.4± 0.275.5±0.496.1 ±0.187.3 ±0.292.7 ±0.363.0±0。表1.相对于密集传输,在80%和90%稀疏度下,线性和完全微调的传输精度最佳。对于每个下游任务,我们提供了所有稀疏方法的最大测试准确度,突出显示了最高准确度。(当置信区间重叠时,我们强调多种方法结果分别在线性和完全微调的五次和三次试验中取平均值。请注意,除了三种情况(全部为全微调)之外,至少有一个稀疏模型与密集基线竞争或优于密集戴面具。训练可以从初始化[14]重新开始,也可以在(The随机掩模初始化组合被认为是“彩票”。在大型数据集(如ImageNet)上获得稳定的结果似乎需要倒带[5,6,15]。上述分类显然是近似的:例如,LTH方法可以被视为渐进稀疏化的特殊情况,其中应用了特定的微调方法。此外,将方法结合起来并不罕见,例如正则化和渐进稀疏化[28]。我们通过考虑每个类别的多种方法,在迁移学习的背景下比较了这些不同方法的有效性据我们所知,这是第一次如此详细的研究。Top-1测试准确度是比较剪枝方法的标准度量我们还采用这种度量标准来检查迁移背景下的准确性,因为不存在这样的研究。然而,我们希望强调最近的工作[29,30,44],该工作研究了修剪模型对输入扰动的鲁棒性,以及修剪对特定数据段准确性的影响。2.2. 迁移学习与稀疏性密集迁移学习。 大量的文学作品已经确定,一般来说,深度学习架构可以很好地转移到较小的(最近的一项研究[39]表明,在分配任务之外,这可能是颠倒的。这些发现扩展到相关的任务,例如对象检测和分割[51]。Kolesnikov等人[35]专注于决定迁移学习成功的因素,以及开发可靠的微调配方。Djolonga等人[10]对此进行了进一步扩展,他们得出结论,增加原始模型和数据集的规模显著改善了分布外和转移性能,尽管对原始准确性的影响很小。Salman等人[61]考虑了对抗鲁棒的ImageNet分类器是否可以在迁移学习中优于标准分类器,并发现这确实是最好的方法。案子我们通过检查稀疏模型和修剪方法来补充这些研究。稀疏迁移学习最早考虑修剪模型传输性能的工作之一是[54],其目标是设计算法,允许在目标任务上传输时对(密集)卷积模型进行修剪([62]对语言模型进行了类似的研究相比之下,我们专注于不同的设置,其中模型已经在上游数据集上稀疏化,并观察到比早期研究更高的稀疏性[54]。最近关于稀疏迁移学习的工作主要集中在通过“彩票假设”(LTH)方法[ 14 ]获得的模型上有几项工作研究了通过此过程获得的模型在不同任务中的Mallya等人。[49]考虑了通过学习特定于任务的掩码来使固定网络适应多个下游任务的相关但不同的问题最近的工作[5]考虑了LTH的传输性能,提出了LTH-T,并发现该方法在中等稀疏度下确保了良好的下游精度高达80%)。我们考虑类似的设置,但研究了更广泛的修剪方法(包括LTH-T)和额外的传输数据集。具体来说,我们是第一个比较LTH-T竞争上游修剪方法。我们观察到,在完全微调时,大多数修剪方法在整个稀疏级别的下游准确性方面始终优于LTH-T,高稀疏的大边缘。3. ImageNet上的稀疏传输3.1. 实验选择迁移学习变体。我们考虑完全微调,其中整个功能集在百分之九十Finetuning稀疏性飞机鸟类加州理工101加州理工学院-256汽车CIFAR-10CIFAR-100DTD花食品-101宠物SUN397线性0%百分之八十49.2 ±0.157.7±0.191.9±0.184.8± 0.153.4±0.191.2±0。74.6± 0.173.5±0.291.6±0.173.2±0.92.6± 0.160.1±0。12269验证原始稀疏方法重新评估标签ImageNetV2(平均值)表2.数据集用作迁移学习的下游任务下游数据集,以及线性微调,其中只有最后一层分类器被微调,在稀疏模型上。在前一种情况下,除了最后的分类层之外,只有原始模型的非零权重被优化,掩码以及批归一化(BN)参数保持固定。我们不考虑在下游任务上从头开始训练和修剪首先,从头开始的训练通常不如相同设置中的(密集)迁移学习准确[36,51]。正如我们的实验所示,从稀疏模型转移通常可以匹配甚至稍微优于从密集模型转移。其次,由于从头开始的训练通常不如转移准确[36],因此从头开始的训练和修剪似乎不太可能优于稀疏转移。我们在附录A中给出了这一主张的证据。这种方法的一个实际优点是不需要针对下游数据集的压缩进行超参数网络架构。我们的研究基于使用ResNet50架构[26]对稀疏传输的深入分析。这种架构具有广泛的实际应用,并在迁移学习的背景下进行了广泛的研究[36,61]。重要的是,它的可压缩性也成为CNN修剪方法的一致基 准 [28] 。 我 们 进 一 步 验 证 了 我 们 在 ResNet18 、ResNet34和MobileNet [31]架构上的一些发现。此外,我们使用YOLOv3架构的变体[59]研究了两个经典对象检测任务MS COCO [46]和Pascal VOC [13]稀疏化方法对于我们的研究,我们选择了修剪方法,为第2.1节中的每种方法类型提供最高的验证精度。对于渐进稀疏化方法,我们使用领先的WoodFisher [63]和渐进幅度修剪(GMP)[17,22,23,69]方法。对于正则化方法,我们考虑领先的软阈值权重重新参数化(STR)[41]和交替压缩/解压缩(AC/DC)[57]方法。此外,我们还包括具有Erdodos-Re ′ nyi-Kernel(ERK)权重密度的与STR和AC/DC相比,RigL将ImageNet上的训练时间表扩展了5倍,并且可以进行稀疏0%密集76.8% 83.1% 72%百分之八十AC/DC百分之七十六点二百分之八十二点九百分之七十一点八STR百分之七十五点五百分之八十一点九百分之七十点三伍德费希尔76.7%83.2%72.3%GMP百分之七十六点四百分之八十二点九71.6%RigL ERK 1x74.8%81.3%百分之七十点二RigL ERK 5x百分之七十五点八81.6%70.6%百分之九十AC/DC百分之七十五点二百分之八十二点二70.6%STR百分之七十四80.9%百分之六十九点一伍德费希尔百分之七十五点一百分之八十二点四71.1%GMP百分之七十四点七81.6%百分之七十点一RigL ERK 1x百分之七十三点二百分之八十67.9%RigL ERK 5x百分之七十五点七百分之八十一点九70.6%百分之九十五AC/DC73.1%80.4%百分之六十八点六STR百分之七十点四百分之七十七点九66.0%伍德费希尔72.0%百分之七十九点八67.6%RigL ERK 1x百分之七十点一百分之七十七点五百分之六十五点五RigL ERK 5x百分之七十四百分之八十点八69.0%表3.我们使用的修剪方法的准确性,在不同的稀疏水平下,在不同的ImageNet验证集上进行评估对大多数优化步骤进行培训。我们考虑标准版本或RigL ( RigL ERK 1x ) 和 具 有 5x 训 练 迭 代 的 变 体(RigL ERK 5x)。最后,对于LTH方法,我们考虑[5]的 LTH-for-Transfer在这个版本中,作者将通过渐进稀疏化方法获得的掩码直接应用于原始训练的ImageNet密集模型,并通过对不同下游任务的全面微调来评估这个掩码模型的传输准确性。我们专注于非结构化修剪,因为这些方法是修剪文献中研究最多的,已经很好地建立了基准,并实现了准确性和压缩之间的最佳权衡。我们在附录J中包含了结构化稀疏模型的完全微调结果,表明在给定固定的上游精度水平的情况下,结构化稀疏模型在传输方面往往不如非结构化稀疏模型。当可用时,我们使用原始的稀疏PyTorch检查点,以及上游模型使用的确切架构。然而,由于STR和RigL模型是使用标签平滑训练的,这已经在[36]为了降低传输精度,我们在ImageNet上使用了这些模型的重新训练版本,没有标签平滑。我们在下面的章节中讨论的结果是针对这些版本的,它们确实表现得更好,特别是在线性微调方面(见附录I)。我们手动将RigL检查点从TensorFlow移植到PyTorch(所有ImageNet结果请参见表3数据集班数训练/测试示例准确性度量SUN397 [66]39719 850 / 19 850Top-1FGVC飞机[48]1006 667 / 3 333每类平均值免费WiFi [1]50032 677 / 8 171Top-1[43]第四十三话1023 060 / 6 084每类平均值[21]第二十一话25715 420 / 15 187每类平均值[37]第三十七话1968 144 / 8 041Top-1CIFAR-10 [38]1050 000 / 10 000Top-1CIFAR-100 [38]10050 000 / 10 000Top-1可描述纹理(DTD)[8]473 760 / 1 880Top-1[55]第55话:我的世界1022 040 / 6 149每类平均值食品-101 [4]10175 750 / 25 250Top-1[56]第56话373 680 / 3 669每类平均值12270下游任务和培训。我们遵循[61]使用表2中描述的12个标准传输基准数据集,这些数据集跨越几个域和大小。我们传递了上游模型的所有参数,除了最后12271错误D、B(全连接)层,其被调整为下游任务中的类的数量,使用Kaiming统一初始化[25],并保持密集。这可能会稍微改变模型的稀疏性,因为在某些情况下,最终层是稀疏的。按照惯例,在讨论稀疏性级别时,我们指的是上游检查点稀疏性。我们在附录B中提供了完整的训练超参数。性能指标。感兴趣的主要数量是每个传输任务的前1验证精度,针对所有修剪模型以及密集基线进行测量。在某些情况下,我们按照该数据集的惯例使用平均每类验证准确度(见表2)。为了确定每种修剪方法的总体“转移潜力”,我们进一步呈现了在下游任务上聚集的结果。由于我们用于迁移学习的数据集具有不同的难度水平,这反映在广泛的迁移精度上,我们为每个下游任务进行计算,并对密集基线上的相对误差增加进行具体来说,如果B是基线密集模型,那么对于每个下游任务D和稀疏模型S,我们将误差的相对增加定义为其中,errD,S是误差校正。响应于在数据集D上训练的模型S的最高验证精度。对于每种修剪方法和稀疏水平,我们报告在所有下游任务上计算的平均值和标准误差。我们还研究了每种方法的计算加速潜力,以及它的准确性。对于推理时间加速,我们的发现与以前的工作一致,例如[11、57、63]。因此,我们将重点关注线性微调情况下的训练时间加速潜力,这通常接近于推理时间加速,因为唯一的区别是分类器层的训练时间。3.2. ImageNet变体的验证精度为了设置基线,我们首先检查原始ImageNet验证集以及该验证集的不同版本的准确性。也就是说,我们使用ImageNet我们还使用了三个不同的ImageNetV2验证集[58],其中具有相似数据分布的新图像基于不同的标准进行收集。我们在表3中报告了这三种变体的平均Ima-geNetV 2准确度。讨论 我们观察到RigL ERK 5x在90%和95%稀疏度的原始验证集上优于所有方法,其次是AC/DC、GMP和WoodFisher。在80%稀疏度下,WoodFisher具有最佳的原始验证准确性,紧随其后的是GMP和AC/DC。然而,尽管RigL ERK 5x和其他方法之间的原始验证准确性存在差距,但验证集的新变体的结果仍然揭示了一些有趣的模式。例如,WoodFisher在80%和80%的情况下优于所有方法,重新评估标签上的稀疏度为90%,其次是AC/DC。对于ImageNetV 2也是如此,其中Wood-Fisher在80%和90%稀疏度上优于所有方法。然而,在95%的稀疏度下,RigL ERK 5x优于所有考虑的方法,包括重新评估的标签和ImageNetV 2,其次是AC/DC。通常,重新评估的标签和ImageNetV2上的准确性与原始图像上的准确性相关良好,这表明表现最好的方法可以很好地3.3. 线性微调接下来,我们研究了不同类型的修剪方法在只有固定表示的“顶部”线性分类器具体来说,我们研究了简单的设置,其中为传输数据集中的所有样本提取预训练模型的最终分类层之前的特征,并将其存储到内存中,以供训练下游线性分类器时使用虽然这种方法通常会导致相对于完全微调的较低精度[36,61],但它具有显著的实际优势。具体而言,可以预先计算特征,这消除了通过预先训练的网络的前向传递在此设置中,我们没有对传输样本应用任何数据增强,而是使用ImageNet上预训练网络的Batch Normalization我们使用具有动量、权重衰减和学习率退火的SGD优化线性分类器,遵循[61]。(The结果通常与在训练期间使用数据扩充或使用不同优化器时获得的结果良好相关[36])。 在第3.6节中,我们展示了在线学习设置中也可以获得训练加速,其中通过骨干网络执行新样本,利用骨干稀疏性。线性微调的结果见图2和附录表C.1。我们将LTH-T方法从本分析中排除,因为它是为完全微调而设计的,并且其在线性场景中的传递精度确实非常低(参见附录表C.1)。总体而言,结果清楚地表明,上游任务上的prun-ing策略的选择可以导致下游任务的绩效显着差异。对于具有细粒度类的专门化下游任务,这些差异更加明显例如,考虑航空器,对于80%稀疏模型,我们看到15%的差距性能最好的稀疏模型(AC/DC和RigL,55%)和性能最差的模型(WoodFisher,40%)之间的前1名测试准确度。根据这一观察结果,我们研究了不同修剪策略的下游任务难度和错误相对增加之间的相关性。为此,我们使用以下两种方法之间的top-1验证准确度差异:12272图2. (top row)在80%稀疏度下所选修剪策略的验证精度。(底行)相对于密集基线的验证误差的平均增加;值越低越好。最好用彩色观看。在密集骨干上进行完整的线性微调,作为下游任务难度的代理。直觉上,完全微调和线性微调之间的小差距表明上游特征是直接可转移的,因此下游任务可以被认为是“容易的”。相反,大的差距将表明预先训练的特征不足以捕获数据的内部表示,使下游任务更加此外,我们将下游任务分类为一般任务(Caltech-101/256、CIFAR-10/100、DTD、SUN 397)和专门任务(飞机、鸟类、汽车、花卉、食物-101、宠物);这与以前的工作类似[36]。图3表明,特殊化的数据集往往具有更高的难度分数。根据这种定义和分类,我们测量了对于每种修剪策略,相对于任务难度,相对误差在密集模型上增加。图3显示了在80%和90%稀疏度下所有修剪方法的行为。有趣的是,我们观察到正则化方法(AC/DC,STR,RigL)的趋势随着任务难度的增加而在密集基线上有所改善,这在更高的稀疏度(90%)下更加明显 。 相 比 之 下 , 渐 进 稀 疏 化 方 法 ( GMP ,WoodFisher)没有显示出类似的行为。这表明,当下游任务更专业或更困难时,正则化修剪方法是线性传输的更好选择(有时甚至超过密集性能)。从稀疏到线性微调的另一个特殊性模型的一个缺点是,稀疏度水平与下游任务的性能并不高度相关例如,对于AC/DC和RigL,这一点很明显,尽管80%和90%稀疏模型之间的ImageNet准确度存在1-2%的差距,但相对于密集基线的相对误差保持相当平坦。对于其他修剪方法也可以观察到类似的趋势。然而,极稀疏的模型(98%)往往表现更差,可能是由于功能删除和退化。总之,我们观察到:1)一些稀疏化方法可以始终匹配甚至有时优于密集模型; 2)基于正则化的方法的传输性能与下游任务难度之间存在相关性;以及3)较高的稀疏性不一定是传输性能的缺点。3.4. 全微调我们现在考虑完整的微调场景。在这里,我们重新初始化最终的分类层并将其固定为密集层,然后微调未修剪的权重,使网络在整个训练过程中保持稀疏。结果总结见图2,详见附录表C.2。类似于线性微调,我们看到大量的性能变化之间的修剪策略时,转移到下游任务。通常,渐进式稀疏化方法(WoodFisher,GMP)倾向于比正则化和彩票方法更好地转移这是一个很大的问题。12273图3.任务难度对线性微调迁移中各种剪枝策略的影响最好用彩色观看。在相同稀疏度水平下测量的测试准确度的推论通常很小,在1-3%的量级与线性微调相反,我们看到随着稀疏性的增加质量下降的一致这并不奇怪,因为完全微调可以利用更密集模型中可用的附加参数来更好地拟合下游数据。然而,渐进式稀疏化方法(GMP和WoodFisher)在80%和90%稀疏度下的这些方法表现出比基于正则化的方法(AC/DC,STR和RigL)更好的性能,这是线性微调结果的直接逆转。然而,对于特定的下游任务,存在可考虑的可变性-虽然WoodFisher和GMP在所有任务中被认为是顶级或接近顶级的执行模型,但其他方法显示出相当大的任务依赖性。例如,虽然AC/DC在12个任务中的3个(SUN 397、Caltech-256和DTD)的不同稀疏度上是最佳性能方法,但与飞机、汽车和CIFAR-10上的最佳性能方法相比,它显示出了可考虑的差距。一般来说,STR在完全微调上的表现最后,RigL ERK 1x的性能与AC/DC大致相当,尽管在ImageNet上的验证精度较低;然而,RigL ERK 5x的扩展训练使传输精度得到了相当大的提高,使RigL ERK 5x几乎与WoodFisher相当,特别是在更高的稀疏度下。这一发现开启了一个有趣的可能性,即扩展训练可能有利于全微调机制中的微调方法。最后,LTH-T在80%稀疏度下表现出相当有竞争力的性能,但随着稀疏度的增加,它在12个数 据 集 中 的 6 个 数 据 集 ( SUN 397 , Caltech-101 ,Caltech-256,由于LTH-T模型主要依赖于将稀疏掩码跨任务中,这表明权重中存在的附加信息,通过其他方法利用,可能是有益的。总之,如果目标是对下游任务执行完全微调,那么渐进稀疏化方法是一个不错的选择。它们在广泛的任务中始终优于正则化方法,并在80%和90%稀疏度下提供3.5. 讨论最后两节的结果显示了修剪方法之间有趣的性能差距,这取决于传输方法。进一步研究,我们通过测量原始ImageNet数据集上稀疏ResNet50主干的训练阶段期间完全修剪掉的卷积滤波器的百分比来检查所得到的修 剪模型 的稀疏结 构。我 们观察 到,AC/DC 在ImageNet训练和修剪过程中有大量通道被完全删除,与其他模型相比,在80%和90%稀疏度下平均多2-4个通道;这导致在完全微调过程中可以训练的特征更少相比之下,GMP和WoodFisher中的稀疏性结构化程度较低,因此可以表达额外的特征,这些特征可以在微调期间利用。我们在附录E中给出了所有方法的确切数字,并在附录J中进一步说明了这一点,在附录J中,我们从具有结构稀疏性的模型中进行了充分的微调。在线性微调的情况下,我们假设有利于AC/DC的准确性逆转可以归因于产生更“健壮”特征的正则化效应。相同的效果似乎存在于95%稀疏度的RigL ERK 5x中,其也具有显著多个完全修剪的过滤器。3.6. 使用线性微调稀疏模型的主要好处之一是,当在稀疏感知运行时执行时,它们可以提供推理加速[11,40,57,63]。对于线性微调,这也意味着训练时间的加速,因为稀疏骨干是固定的,并且仅用于推理。我们在“在线学习”设置中说明了这一点我们首先使用稀疏主干计算相应的特征。然后,我们使用这些特征来训练线性分类器。因此,由于稀疏性,前向传递可以受益于加速。为了测量这些影响,我们将免费提供的稀疏感知DeepSparse CPU推理引擎[9,40]集成到我们的PyTorch管道中。具体来说,我们使用稀疏推理在线特征提取。我们报告了整体训练加速,即下游任务上每个epoch的平均训练时间除以使用密集基线的平均训练时间我们使用批量大小12274建筑修剪YOLOv390%稀疏YOLOv5S75%稀疏度YOLOv5L85%稀疏度COCO Dense64.255.665.4COCO修剪62.453.464.3VOC密集转移86.083.7390.0VOC修剪传输84.081.7289.35表4.从COCO到VOC稀疏传输的准确性图4.平均历元时间与验证准确性的差距,与密集基线的一致性。结果显示了四个不同的下游任务,使用ResNet50 90%稀疏模型的线性微调越低越好;最好用颜色来观察。64和数据增强;否则,超参数与第3.3节中的线性微调实验相同。我们在具有12个核心的Intel E5-1650 CPU上执行,这与最近的笔记本电脑CPU的性能相似。我们报告的加速与相应稀疏骨干模型的推理加速成正比。唯一的区别是优化最后一层的成本,其大小随类的数量而变化。图4显示了四个下游任务的结果,Pets,Flowers,DTD和Caltech-101,其中主干ResNet 50模型具有90%的稀疏性。我们报告了训练速度与验证准确性的差异,与密集基线的一致性。结果表明,使用稀疏主干可以将线性转换的训练时间减少2- 3倍,而不会对验证精度产生。附录D.4中提供了其他编号。4. 扩展ResNet 18/34和MobileNet实验。我们还对在Ima-geNet上训练的ResNet 18、ResNet 34和MobileNetV 1 [31]模型执行了一部分实验。这些结果在很大程度上验证了我们上面的分析,因此推迟到附录。具体来说,基于正则化的方法在线性传输上也匹配或稍微优于密集方法。然而,对于Mo-bileNetV 1,我们观察到稀疏模型仅在较低的稀疏度(高达75%)下才能匹配密集基线传输性能,这可能是由于较低的参数计数。结构化稀疏性实验我们还使用具有结构化稀疏性的模型对ResNet50和MobileNet进行了全面的微调。我们的研究结果(见附录J)表明,与非结构化方法相比,结构化稀疏模型的传输效果往往更差。使用YOLO进行稀疏传输 我们还检查了YOLO V3 [59]和YOLO“V5”[ 64 ]之间的传输性能。用于对象检测的模型,在COCO数据集上训练和修剪[46],然后使用完全微调将其转移到VOC数据集[13]。表4显示了平均精密度(mAP@0.5)的结果。结果显示,原始COCO数据集的准确性与VOC的准确性之间存在很强的相关性,证实了我们的说法。我们在细分设置中观察到了类似的趋势,我们在附录K中进行了介绍。5. 结论和未来工作我们对稀疏模型的传输性能进行了深入的研究,并表明在ImageNet上具有相似精度的修剪方法在用于传输学习时可能具有惊人的不同Top-1精度特别是,基于正则化的方法在线性微调中表现最好;相反,渐进稀疏化方法(如GMP和WoodFisher)在使用完全微调时往往我们的研究的一个局限性是,它只研究了准确性作为迁移学习任务的性能指标。需要进行额外的研究,以设计在线性和完全微调中具有良好性能的修剪策略,并考虑超过Top-1准确性的指标,如偏差和鲁棒性。另一个限制是我们考虑了一组(标准)固定的迁移数据集;我们的研究应该扩展到其他更复杂的迁移学习场景,例如分布迁移[34]。进一步的研究还可以系统地研究其他类型的压缩,如量化和结构化修剪,潜在地与非结构化修剪相结合,这是我们目前研究的重点。未来工作的其他有趣领域将是理解完全微调和线性微调之间的性能差距,并通过利用训练模型中的固定稀疏度来实现稀疏完全微调的训练加速。致谢作者要衷心感谢Christoph Lampert和Nir Scarlet在这项工作的发展过程中进行了富有成效的讨论,并感谢Eldar Kurtic对实验的支持。EI部分得到了FWF DKVGSCO的支持,赠款协议编号为W1260-N35,而AP和DA通过启动赠款805223 ScaleML感谢ERC的慷慨支持。12275引用[1] 作者:Thomas Berg,Jiongxin Liu,Seung Woo Lee,Michelle L.作者:Alexander,David W.Jacobs和Peter N.贝尔胡默尔鸟快照:对鸟类进行大规模的细粒度视觉分类在IEEE/CVF计算机视觉和模式识别会议(CVPR),第2019-2026页,2014年。4[2] LucasB e ye r , Ol ivierJHe´na f f , Al e xanderKolesnikov,Xi- aohuaZhai,andA?ronvandenOord.ImageNet完成了吗arXiv预印本arXiv:2006.07159,2020。5[3] Daniel Bolya,Chong Zhou,Fanyi Xiao,and Yong JaeLee.Yolact:实时实例分割。在ICCV,2019年。22[4] Lukas Bossard、Matthieu Guillaumin和Luc Van Gool。Food-101 -开采随机森林的判别成分。欧洲计算机视觉会议(ECCV),2014。4[5] Tianlong Chen,Jonathan Frankle,Shiyu Chang,SijiaLiu , Yang Zhang , Michael Carbin , and ZhangyangWang.计算机视觉模型中监督和自监督预训练的彩票假设。IEEE/CVF计算机视觉和模式识别会议(CVPR),2021年。二、三、四[6] Tianlong Chen,Jonathan Frankle,Shiyu Chang,SijiaLiu , Yang Zhang , Zhangyang Wang , and MichaelCarbin.预训练BERT网络的彩票假设。arXiv预印本arXiv:2007.12223,2020。二、三[7] Xiangning Chen,Cho-Jui Hsieh,and Boqing Gong. 当视觉转换器在没有预训练或强大的数据增强的情况下优于resnet时。arXiv预印本arXiv:2106.01548,2021。3[8] Mircea Cimpoi , Subhransu Maji , Iasonas Kokkinos ,Sammy Mohamed,and Andrea Vedaldi.描述野外的纹理。在IEEE/CVF计算机视觉和模式识别会议,2014年。4[9] 深度稀疏NeuralMagic DeepSparse推理引擎,2021年。1、7[10] Josip Djolonga,Jessica Yung,Michael Tschannen,RobRomijnders,Lucas Beyer,Alexander Kolesnikov,JoanPuigcerver,Matthias Minderer,Alexander卷积神经网络的鲁棒性和可传递性在IEEE/CVF计算机视觉和模式识别会议,2021年。3[11] 埃里希·埃尔森,马拉·杜坎,特雷弗·盖尔,凯伦·西蒙扬.快速稀疏卷积。 在IEEE/CVF计算机视觉和模式识别会议(CVPR),第14629-14638页一、五、七[12] 乌特库·埃夫奇,特雷弗·盖尔,雅各布·梅尼克,巴勃罗·塞缪尔·卡斯特罗,埃里希·埃尔森.操纵彩票:让所有 的 彩 票 中 奖 。 2020 年 , 国 际 机 器 学 习 会 议(ICML)。二、四[13] Mark Everingham , Luc Van Gool , Christopher KIWilliams,John Winn,and Andrew Zisserman.PASC
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- WebLogic集群配置与管理实战指南
- AIX5.3上安装Weblogic 9.2详细步骤
- 面向对象编程模拟试题详解与解析
- Flex+FMS2.0中文教程:开发流媒体应用的实践指南
- PID调节深入解析:从入门到精通
- 数字水印技术:保护版权的新防线
- 8位数码管显示24小时制数字电子钟程序设计
- Mhdd免费版详细使用教程:硬盘检测与坏道屏蔽
- 操作系统期末复习指南:进程、线程与系统调用详解
- Cognos8性能优化指南:软件参数与报表设计调优
- Cognos8开发入门:从Transformer到ReportStudio
- Cisco 6509交换机配置全面指南
- C#入门:XML基础教程与实例解析
- Matlab振动分析详解:从单自由度到6自由度模型
- Eclipse JDT中的ASTParser详解与核心类介绍
- Java程序员必备资源网站大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功