特征蒸馏装置:一种用于网络压缩的新型特征提取方法

161 浏览量更新于2023-10-11 收藏 625KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11921特征蒸馏装置Byeongho Heo1，3 Jeesoo Kim2 Sangdoo Yun1 Hyojin Park2 Nojun Kwak2 Jin Young Choi3{bhheo，kimjiss0305，jumrun，nojunk，jychoisnu.ac.kr@sangdoo.yun navercorp.com1韩国NAVER Corp Clova AI Research2GSCST，首尔国立大学，韩国3韩国首尔国立大学，ASRI，ECE系摘要本文研究了实现网络压缩的特征提取方法的设计问题，提出了一种新的特征提取方法，该方法通过对特征提取损失的设计来协调教师变换、学生变换、提取特征位置和距离函数等方面的作用。我们提出的压缩损失包括一个新设计的边缘ReLU的特征变换，一个新的蒸馏特征位置，和一个局部L2距离函数，以跳过冗余信息，从而对学生的压缩产生不利影响。在Ima-geNet中，我们提出的方法在ResNet 50中实现了21.65%的前1错误，优于教师网络ResNet 152的性能。我们所提出的方法是evaluated- uated各种任务，如图像分类，目标检测和语义分割，并实现了显着的性能改善，在所有的任务。该代码可在bhheo.github.io/overhaul1. 介绍在许多使用神经网络的机器学习任务中取得了显着进展，研究人员已经开始致力于网络压缩和增强。提出了模型修剪、模型量化和知识提取等方法，使模型规模更小，成本更低。其中，知识蒸馏正在积极探索。知识蒸馏是指在较大网络（教师）的监督下帮助较小网络（学生）的训练过程的方法。与其他压缩方法不同，它可以缩小网络，而不管教师和学生网络之间的结构差异允许架构的灵活性，知识蒸馏正在成为下一代网络的方法这项工作是在作者在Clova AI Research，NAVER corp进行研究实习时完成的图1.蒸馏方法的性能：AT [30]，FT [13]，AB [7]和ImageNet上的建议方法。该图显示了用每种蒸馏方法训练的ResNet50的准确度（%）。请注意，具有78.31%准确率的ResNet152被用作教师。工作压缩Hinton等人[8]提出了一种使用教师网络的softmax输出的知识蒸馏（KD）方法。这种方法可以应用于任何一对网络架构，因为两个输出的尺寸是相同的。然而，高性能教师网络的输出因此，只传输输出类似于用地面事实训练学生，使得输出蒸馏的性能受到限制。为了更好地利用教师网络中包含的信息，已经提出了几种方法来进行特征提取而不是输出提取。FitNets [22]提出了一种方法，鼓励学生网络模仿教师网络的隐藏特征值。虽然特征提取是一种很有前途的方法，但FitNets的性能改进并不显著。在FitNets之后，已经提出了如下的特征提取的变体方法。[30，28]中的方法将特征转换为具有缩减维度的表示，并将其传递给学生。尽管尺寸减小，但据报道，ab-七十八点三一教师（ResNet152）119222. 动机在这一节中，我们研究了实现网络压缩的特征蒸馏方法的设计方面，并提出了我们的方法与前面的方法不同的新方面。首先，我们描述了一个一般形式的损失函数的特征提取。如图2、fea-教师网络的真实性表示为Ft，学生网络的真实性是FYsS.为了配合功能迪-学生网络图2.特征提取的一般训练方案。教师变换Tt、学生变换Ts和距离d的形式因方法而异。提取的特征表示确实导致改进的性能。最近的方法（FT [13]，AB [7]）已被提出来增加蒸馏中传递的信息量。FT [13]使用自动编码器将特征编码为“因子”，AB[7]专注于仅具有正在传输的特征的符号的网络的激活。这两种方法都通过增加传递信息的量而显示出更好的蒸馏性能。然而，FT [13]和AB [7]使教师的特征值变形，这为性能的进一步提高留下了空间。在本文中，我们通过提出一个新的特征蒸馏损失来进一步改进特征蒸馏的性能，该特征蒸馏损失是通过对各种设计方面的研究而设计的：教师变换、学生变换、特征位置和距离函数的提取。我们的方法的目的是转移两个因素的功能。第一个目标是ReLU之后的特征响应的大小，因为它携带了大部分特征信息。第二个是每个神经元的激活状态。最近的研究[20，7]表明，神经元的激活强烈地代表了网络的表达能力，在建模时应予以考虑。为此，我们提出了一个边缘ReLU函数，将蒸馏特征位置改为ReLU的前面，并使用部分L2距离函数跳过不必要信息的蒸馏提出的损失显着提高性能的特征提取。在我们的实验中，我们在各个领域评估了我们提出的方法，包括分类（CIFAR [15]，ImageNet [23]），对象检测（PASCAL VOC [2]）和语义分割（PASCAL VOC）。如图1、在实验中，该方法的性能优于现有的最先进的方法，甚至优于教师模型。mension，Tt和Ts分别，我们变换的特征Ft和Fs。变换后的特征之间的距离d被用作损失函数L_distill。换句话说，特征提取的损失函数被概括为：L蒸馏= d（T t（F t），Ts（F s））。（一）学生网络通过最小化学习损失L distill来训练。理想的是设计蒸馏损失，以便传递所有的特征信息，而不丢失来自教师的任何重要信息。为了实现这一点，我们的目标是设计一个新的功能蒸馏损失，所有重要的教师为了达到这个目的，我们分析了特征蒸馏损失的设计方面。如表1所示，特征蒸馏损失的设计方面被分为4类：教师变换、学生变换、蒸馏特征位置和距离函数。老师变身教师变换Tt将教师的隐藏特征转换为易于转移的形式。它是特征提取的重要组成部分，也是特征提取中信息缺失的主要原因。AT [30]，FSP [28]和Jacobian [26]通过教师变换降低特征向量的维数，导致严重的信息丢失。FT [13]使用由用户确定的压缩比，AB [7]以二进制值的形式利用原始特征，使得两种方法都使用与原始特征不同的特征。除了拟合网[22]，现有方法的大多数教师变换导致蒸馏损失中使用的教师特征中的信息缺失由于特征包括不利信息和有益信息，因此区分它们并避免遗漏有益信息非常重要。在提出的方法中，我们使用一种新的ReLU激活，称为margin ReLU，用于教师转换。在我们的边缘ReLU中，积极（有益）信息被使用而不进行任何转换，而消极（不利）信息被抑制。因此，所提出的方法可以执行蒸馏而不会错过有益的信息。学生变形。通常，学生变换Ts使用与教师变换Tt相同的函数。因此，在AT [30]，FSP [28]，Jacobian [26]和FT [13]，相同数量的信息在两个教师网络TtTtTtDDD不不训练图像SSTs11923块结束提出ConvBatchNormReLUConvReLUBatchNorm方法教师学生蒸馏距离缺失表1.不同种类的特征提取。大多数蒸馏使用教师变换，信息丢失。教师转变和学生转变。FitNets和AB不会降低教师特征的维度，而是使用1×1卷积层作为学生变换来匹配教师的特征维度。在这种情况下，学生的特征尺寸不减小而是增大，因此没有信息丢失。在我们的方法中，我们使用这种非对称格式的转换作为学生的转换。蒸馏特征位置。除了特征变换的类型外，我们还应谨慎地选择特征变换的类型。简单块残余块ConvReLUBatchNorm激活前残留阻滞BatchNorm1x1转换BatchNormReLU金字塔残差块发生蒸馏的阳离子。FitNets使用任意中间层的末端作为蒸馏点，这已经被证明具有很差的性能。我们将具有相同空间大小的一组层称为层组[29，3]。在AT[30]，FSP [28]和雅可比[26]中，蒸馏点位于每个层组的末端，而在FT中，蒸馏点仅位于最后一个层组的末端。这导致了比FitNets更好的结果，但仍然缺乏对教师ReLU激活价值的考虑。ReLU允许有利信息（正面）通过，并过滤掉不利信息（负面）。因此，知识提炼必须在认识到这种信息分解的前提下进行设计在我们的方法中，我们设计了蒸馏损失，将特征放在ReLU函数前面，称为pre-ReLU。正值和负值保留在ReLU前位置，没有任何变形。因此，它适合于蒸馏。距离函数大多数蒸馏方法都是单纯地采用L2或L1距离。然而，在我们的方法中，我们需要根据我们的教师变换和我们在ReLU前位置的蒸馏点设计一个合适的在我们的设计中，pre-ReLU信息从教师转移到学生，但pre-ReLU特征的负值包含不利信息。Pre-ReLU功能的否定值被ReLU激活阻止，并且不被教师网络使用。所有值的转移可能对学生网络产生不利影响。为了解决这个问题，我们提出了一个新的距离函数，称为部分L2距离，它的目的是跳过蒸馏的信息上的一个负区域。图3.蒸馏目标层的位置。我们将最后一个块和第一个ReLU之间的层放置。具体位置因网络架构而异。3. 方法在本节中，我们描述了第2节中概述的蒸馏方法。我们首先描述了蒸馏发生在我们的方法中的位置，然后解释了新设计的损失函数。3.1. 蒸馏位置激活函数是神经网络的重要组成部分。一个神经网络的非线性归因于这个功能。激活函数的类型对模型的性能有很大的影响。在各种激活函数中，校正线性单元（ReLU）[19]用于大多数计算机视觉任务。大多数网络[16，25，27，5，6，29，3，9，24]使用ReLU或与ReLU非常相似的修改版本[18，14]。ReLU只是对正值应用线性映射。对于负值，它会消除这些值并将其固定为零，这可以防止不必要的信息向后返回。通过考虑ReLU的知识蒸馏的精心设计，可以只传输必要的信息。不幸的是，大多数先前的研究没有认真考虑激活函数。我们定义网络的最小单元，例如ResNet [5]中的residual块和VGG [25]中的Conv-ReLU，作为层块。大多数方法中的蒸馏发生在变换变换特征位置信息[22]第二十二话没有一1×1转换中间层L2没有一AT [30]关注关注组结束L2通道变暗FSP [28]相关性相关性组结束L2空间尺寸雅可比矩阵[26]梯度梯度组结束L2通道变暗《金融时报》[13]自动编码器自动编码器组结束L1自动编码11924不2ReLUHeo等人（AB）保证金ReLU教师的价值。Heo等人通过任意标量值设置余量，该标量值不反映教师的权重值。在我们提出的方法中，余量值m被定义为负响应的逐通道期望值，并且余量ReLU使用与输入的每个通道对应的值。针对信道C和教师特征Fi的第i个图4.传统的ReLU的比较，教师trans-forms在Heo等人。[7]我们提出的方法。信道mC的Gin值被设置为期望值，所有训练图像。mC=E[F ] i|Fi<0，i∈C].（三）t t层块的末尾，忽略它是否与ReLU或不。在我们提出的方法中，蒸馏的位置位于第一个ReLU和层块的末端之间这种定位使学生能够在通过ReLU之前到达教师的保存信息。图3描绘了一些架构的蒸馏位置。在简单块[16，25，27，9]和残差块[5]的情况下，蒸馏是在ReLU之前还是之后发生的事实构成了我们提出的方法与其他方法之间的差异然而，对于使用预激活的网络[6，29]，差异更大。由于每个块的末尾没有ReLU，我们的方法必须在下一个块中找到ReLU。在像PyramidNet [3，24]这样的结构中，我们提出的方法可以在1×1卷积层之后到达ReLU。尽管根据以下情况，定位策略可能很复杂建筑，它对性能有着重要的影响。我们的新蒸馏位置显着提高了学生的表现，在我们的实验证明。3.2. 损失函数在第二节的基础上，我们解释了教师变换Tt，学生变换Ts和距离函数，期望值可以在训练过程中直接计算在我们所提出的方法中，边缘ReLUσmC（·）被用作教师变换Tt，并产生学生的目标特征值网络对于学生变换，使用由1× 1卷积层[22，7]和批归一化层组成的回归器现在我们来解释距离函数d。我们提出的方法在ReLU之前传输表示。因此，考虑到ReLU，应该改变距离函数。在教师的特征中，积极响应实际上用于网络，这意味着教师的积极响应应该以其精确值进行传输。但是，消极的回答并不是。对于消极的教师响应，如果学生响应高于目标值，则应该减少，但如果学生响应低于目标值，则不需要增加，因为消极的响应同样会被ReLU阻止，而不对于教师和学生T，S∈RW×H ×C，设张量的第i个分量为Ti，Si∈R.我们的部分L2距离（dp）定义为：.D我们提出的方法。由于教师F是ReLU之前的值，正值有dp（T，S）=WHC0，如果Si≤Ti≤0（4）不教师利用的信息，而负值i（Ti−Si）否则，请执行以下操作。不要。如果教师的价值是正的，学生必须产生与教师相同的价值。反之，如果教师的值为负，学生应产生一个小于零的值，使神经元的激活状态相同。Heo等人 [7]指出，需要保证金才能使学生因此，我们提出了一个教师变换，保持正值，同时给予一个负的利润。σ m（x）= max（x，m）。（二）这里，m是小于零的裕度值我们将此函数命名为margin ReLU。几种类型的教师变换描绘在图。4.Margin ReLU旨在提供一个负边距，这比负边距更容易遵循。其中T是教师特征的位置我们提出的方法使用margin ReLUσmC（x）作为教师变换Tt和由1×1卷积层组成的回归器r（·）作为学生变换Ts，并使用部分L2距离（dp）作为距离函数。蒸馏所提出的方法的损失是：L蒸馏= dp（σ mC（Ft），r（Fs））.（五）我们所提出的方法是作为连续蒸馏进行的，使用蒸馏损失L蒸馏。因此，最终的损失函数是蒸馏损失和任务损失之和损失=L任务+ αL蒸馏。（六）M1−111925任务损失是指由网络的任务指定的损失。用于蒸馏的特征位置在一个空间大小的最后一个块之后并且在ReLU之前，如图2所示。3.在具有32×32输入的网络中，例如CI- FAR[15]，有三个目标层，并且在ImageNet [23]中，目标层的数量为4。3.3. 批次归一化我们进一步研究了知识蒸馏中的批量归一化批量归一化[11]在最近的最近关于批量归一化的研究[10]解释了批量归一化的训练模式和评估模式之间的差异批范数层的每种模式在网络中的作用不同。因此，在进行知识传授时，需要考虑是采用培训模式还是评价模式的教师。通常，学生的特征是逐批标准化的。因此，教师的特征也必须以同样的方式加以规范.换句话说，教师的批量归一化层的模式提取信息为此，我们在1×1卷积层之后附加了一个批量归一化层，并将其用作学生变换，并将教师的知识带入训练模式。因此，我们提出的方法实现了额外的性能改进。这个问题适用于所有知识蒸馏方法，包括所提出的方法。在4.5.3节中，我们对批量标准化问题的各种知识蒸馏方法进行了实证分析4. 实验我们已经评估了我们的蒸馏方法在几个领域的效率。第一个任务是分类问题，这是机器学习中的一个基本问题。由于大多数其他蒸馏方法已经报道了它们在这一领域的性能，我们也将我们的结果与其他人的结果知识蒸馏的性能取决于使用哪种网络架构，教师的表现如何以及使用什么样为了控制其他因素，并作出公平的比较，我们复制了其他方法的算法的基础上，他们的代码和文件。所有实验均在具有PyTorch[21]的NAVER智能机器学习（NSML）[12]平台上实施和评估。4.1. CIFAR 100CIFAR-100 [15]是大多数知识蒸馏方法用于验证其性能的数据集。由50，000张100类图像组成，我们使用CIFAR- 100来比较所有方法的各种设置知识蒸馏要在任何任务中得到实际应用，必须适用于任何网络结构。因此，我们提供利用教师和学生的各种结构进行知识蒸馏的实验结果表. 图2示出了每个实验的设置，诸如用于每个模型的架构、模型大小和压缩率。我们的大多数实验都使用了宽残差网络[29]，因为层数和每层的深度可以很容易地修改。不同类型的体系结构之间的蒸馏也已经用设置（d）、（e）、（f）进行了实验。在（f）的情况下，网络名称相似，但教师基于瓶颈块，学生使用基本块。请注意，（e）和（f）使用经过Mixup增强训练的教师网络PyramidNet-200 [3][31]。所有模型都已经训练了200个epoch，学习率为0.1，在epoch 100和150时乘以0.1。为了从其他方法中产生最佳结果，一些算法[22，13，7]使用输出蒸馏损失[8]以及特征蒸馏损失进行训练。其余的算法在没有输出蒸馏损失的情况下训练时显示出更好的结果。每种方法在每种设置下的结果见表 3 。我们提出的方法在深度和通道压缩（a）、（b）、（c）以及不同架构（d）、（e）、（f）的设置中优于现有技术特别是，在深度压缩（a）的设置中，通过我们提出的方法训练的学生网络优于教师网络。无论压缩率如何，即使在提取到不同类型的网络架构时，所提出的方法也始终显示出良好的性能。请注意，（e）中17.8%的错误率优于WideResidual Network [29]论文因此，我们所提出的方法不仅可以应用于小型网络，也可以应用于大型网络的高性能。4.2. ImageNetCIFAR中32×32的图像尺寸不足以表示真实世界的图像。出于这个原因，我们在ImageNet数据集上进行了实验 [23]，好. ImageNet包含平均大小为469×387的图像，这使我们能够在大图像中验证蒸馏性能。在本文中，我们使用了ILSVRC 2012中的数据集[23]。该数据集由120万张训练图像和5万张验证图像组成。图像被裁剪为224×224的大小用于训练和评估。学生网络被训练了100个epoch，并且在每30个epoch时学习率从0.1乘以0.1开始。为了公平的比较和简单的再现-我们使用PyTorch [21]库中的预训练模型作为教师网络。实验在两对网络上进行。第一种是从ResNet152 [5]蒸馏到ResNet50，第二种是从ResNet50蒸馏在本节中，我们将展示结果三个最新的算法[30，13，7]，这表明11926设置压缩类型教师网络学生网络参数数参数数量压缩表2.在CIFAR-100上使用各种网络架构进行实验设置网络架构表示为WideResNet（深度）-（通道乘法）用于宽残差网络[29]和PyramidNet-（深度）（通道因子）用于PyramidNet [3]。设置老师基线[8]第八话[22]第二十二话AT [30]雅可比矩阵[26]《金融时报》[13]英国[7]提出（一）21.0922.7221.6921.8522.0722.1821.7221.3620.89（b）第（1）款21.0924.8823.4323.9423.8023.7023.4123.1921.98（c）第（1）款21.0927.3226.4726.3026.5626.7125.9126.0224.08（d）其他事项21.0927.6826.7626.3526.6626.6026.2026.0424.44（e）15.5721.0920.9722.1619.2820.5919.0420.4617.80（f）第（1）款15.5722.5821.6823.7919.9323.4919.5320.8918.89表3.各种知识蒸馏方法在CIFAR-100上的性能。测量是分类的错误率（%）。越低越好。‘Baseline’ represents a result without最好的结果在前面的部分。结果示于表4中。我们提出的方法表明，很大的进步。特别是，我们的方法使ResNet50的性能优于ResNet152，这是一个值得注意的成就。此外，它还对最近提出的轻量级体系结构MobileNet进行了改进。在MobileNet的情况下，很难再现论文（29.4）的性能，因为没有报告训练方案，例如训练时期。因此，我们在标准设置中测量了性能。4.3. 对象检测在本节中，我们将我们的方法应用于其他计算机视觉任务。第一个是目标检测，这是最常用的神经网络技术之一由于蒸馏的目的是提高速度，我们将我们提出的方法应用于高速检测器，单次检测器（SSD）[17]。网络在VOC 2007和VOC 2012 [2]训练集的混合上训练，这些训练集广泛用于对象检测。所有模型中的骨干网络都网络已经训练了12万次迭代，批量大小为32。为了显示我们的方法的改进，我们将未经蒸馏训练的SSD设置为基线，在表5中称为“基线”。基于ResNet50[5]或VGG [25]的SSD检测器用作教师网络，以根据教师架构检查性能作为学生网络，使用了基于ResNet18的SSD和基于Mobilenet的SSD lite [9]。老师学生比(a)深度WideResNet 28-4WideResNet 16-45.87M2.77M百分之四十七点二(b)信道WideResNet 28-4WideResNet 28-25.87M1.47M25.0%(c)深度通道WideResNet 28-4WideResNet 16-25.87M0.70M百分之十一点九11927参数数量Top-1Top-5网络（比率）方法误差（%）误差（%）ResNet15260.19M老师21.695.95基线23.726.97[8]第八话22.856.55ResNet5025.56MAT [30]22.756.35(42.5%）《金融时报》[13]22.806.49英国[7]23.476.94提出21.655.83ResNet50 25.56M老师23.847.14基线31.1311.24[8]第八话31.4211.024.23MAT [30]30.4410.67MobileNet（16.5%）《金融时报》[13]30.1210.50英国[7]31.1111.29提出28.759.66表4. ILSVRC 2012验证集的结果。网络在224×224大小下进行训练和评估，采用单次裁剪。已在VOC 2007测试集中评价了检测性能，所有结果见表5。在ResNet 18的情况下，使用ResNet教师的ResNet 18-T1的性能改进大于使用VGG教师的T2。虽然两个学生的架构都超过了基线，但相似结构11928网络参数数方法mAP（%）ResNet 50-SSD 36.7M教师（T1）76.79方法KL发散与教师GT的交叉熵错误率（%）VGG-SSD 26.3M教师（T2）77.50基线71.61基线0.7318 1.0741 27.32ResNet18-SSD 20.0MMobileNet建议-T173.08T2 72.38基线67.58雅可比矩阵[26] 0.7122 1.0495 26.71[13] 0.6872 1.0561 25.91-SSD精简版6.5M建议-T168.54T2 68.45[7] 0.7555 1.1197 26.02拟议数表5. PASCAL VOC 2007测试集[2]中SSD 300 [17]的对象检测结果。结果以平均精度（mAP）表示越高越好。主干参数数方法MiouResNet101 59.3M老师77.39ResNet1816.6M基线71.79(28.0%）提出73.245.8M基线68.44MobileNetV2（9.8%）提出71.36表6.基于PASCAL VOC 2012测试集[2]的DeepLabV3+[1]的语义分割性能的测量是平均交集对并集（mIoU）。表现出较好的知识升华质量在MobileNet的情况下，我们提出的方法显示了一个恒定的per-perception的改善，无论类型的教师。所有实验中的学生模型都经历了性能的改进，这意味着我们的方法可以应用于任何基于SSD的对象检测器。4.4. 语义分割在本节中，我们验证了我们提出的方法在语义分割上的性能。在语义分割上应用扩展是具有挑战性的，因为输出大小比任何其他任务都要大得多我们选择了最新的研究DeepLabV3+ [1]作为我们的语义分割基础模型。基于ResNet101的DeepLabV3+已被用作教师网络，基于 MobileNetV2 [24] 和 ResNet18 [5] 的DeepLabV3+已被用作学生网络。已在PASCAL VOC2012分割[2]数据集上进行了实验。我们还使用了由[4]中的额外注释提供的数据集扩充，如基线页[1]中所示。所有模型都已经训练了50个epoch，学习率时间表与基线文件相同[1]。与我们的检测任务类似，学生网络被初始化为在ImageNet上预先训练的网络，而结果见表6。我们提出的方法显着提高了性能表7.基于CIFAR-100测试集的师生输出相似性分析ResNet18和MobilenetV2特别是以MobileNetV2为例，我们提出的方法在mIoU中提高了近3个点的性能，并有助于减少分割算法的计算我们已经表明，我们提出的方法可以应用于图像分类，目标检测和语义分割。能够应用于许多任务而没有重大变化是特征提取的一个优点，并表明我们提出的方法具有广泛的应用范围。4.5. 分析我们分析了可能的因素，这将导致我们所提出的方法的性能改善第一个分析是教师和学生通过蒸馏学习的输出相似性通过这一点，我们验证了我们的方法如何迫使学生跟随老师。在此之后，我们提供了一个烧蚀研究，我们提出的方法。我们衡量我们提出的方法的每个组成部分对性能的最后，我们讨论了批量规范化模式如何影响知识蒸馏，如3.3节所述所有实验均基于表2的设置（c）。4.5.1师生相似性KD [8]迫使学生的输出与教师的输出输出蒸馏的目的是非常直观的，即，如果一个学生的产出与老师的产出相似，那么他的表现也是相似的。然而，在特征提取的情况下，有必要调查学生的输出如何变化。为了了解学生模仿老师的程度，我们在一致的设置下测量了老师和学生输出的相似性在CIFAR-100的测试集上，我们测量了教师和学生输出之间的KL分歧由于分类性能也有助于减少KL发散，因此还测量了与地面真实值的交叉熵结果见表7。仅在生产的早期阶段应用蒸馏的方法是不可行的。[8]第八话0.70641.075826.47[22]第二十二话0.79931.158526.30AT [30]0.70471.030326.5611929分批定额模式[8]第八话[22]第二十二话AT [30]雅可比矩阵[26]《金融时报》[13]英国[7]提出培养模式26.4726.6126.5626.7125.9126.0224.08评价模式26.4526.9226.4226.7526.1526.3624.54表8.基于CIFAR-100的教师网批量规范化模式分析。表中显示了错误率（%）。第一行显示了在培训模式中教师的批量规范的结果训练，初始蒸馏（FitNets [22]，AB [7]），增加与教师和地面实况的KL分歧。有了这个结果，很难说这些方法的学生网络是模仿他们的教师网络。同时，在Eq.6（KD [8]，AT [30]，Jacobian [26]，FT [13]）以及我们提出的方法减少了KL发散，这意味着教师和学生之间的相似性相对较高。具体来说，我们的方法显示了一个 considerably 高相似性相比，其他连续的paragraph- tion方法。换句话说，我们提出的方法训练学生产生最类似于老师的输出。这种相似性是我们所提出的方法提高性能的主要原因之一。4.5.2消融研究进行烧蚀实验，其中烧蚀组分被逐一添加以测量它们的效果。结果示于表9中。基线是基于块位置末端L2损失的使用preReLU位置的版本（第3.1节）提供了最大的改进，因为它有助于在ReLU之前有效地转移激活边界，同时具有负值和正值第二个改进是通过损失函数（第3.2节）实现的，它可以防止传输小于小负裕度的无用和有害负值批量范数模式（第3.3节）也有助于性能改进。总之，所有提出的组件的组合导致所提出的方法的性能的显著改善。4.5.3批次归一化在第3.3节中，我们提到了与知识表示的批量规范化模式。为了研究这一点，我们测量了不同教师的批量规范层模式时知识蒸馏方法的性能变化。实验结果示于表8中。使用除特征之外的附加信息的蒸馏方法（KD [8]，Jacobian [26]）显示了每种批次标准化模式之间的边际差异AT [30]使用了一个用于蒸馏的减少特征，在评估模式中显示了更好的结果然而，不挤压fea的方法基线+位置（第3.1节）+BN（第3.3节）+损失（第3.2节）误差26.3724.8124.6824.08Diff--1.56-0.13-0.60表9.拟定方法的消融研究。结果以错误率（%）的形式表示。ture（FitNets [22]，FT [13]，AB [7]）在训练模式下始终工作得我们的方法特别是在使用训练模式时显示出实质性的改进。请注意，前面章节中的所有实验都利用了batch-norm层的更好模式，因为每篇论文中都没有提到它。总之，在包括我们的方法在内的许多分析方法中，应仔细选择适当类型的批量归一化。5. 结论我们提出了一种新的知识提取方法，并对经验特征提取方法的各个方面进行了研究。我们发现了预ReLU定位的有效性，并提出了一个新的损失函数来提高特征提取的性能。新的损失函数由教师变换（marginReLU）和新的距离函数（部分L2）组成我们还研究了教师网络中的批量归一化模式，并实现了额外的性能改进。通过实验，我们使用不同的网络在不同的任务中测试了所提出的方法的性能，并证明了所提出的方法大大优于最先进的特征提取。确认这项工作得到了下一代ICD计划的支持，通过由SICT部资助的NRF [2017 M3 C4 A7077582]和ICT研发计划MSIP/IITP[2017-0-00306，户外监控机器人]，我们感谢Clova AI成员的支持，特别是 Nigel Fer- nandez校对手稿，Dongyoon Han提供实施帮助和Jung-Woo Ha提供有见地的评论。我们也感谢NSML团队提供了一个很好的实验平台。11930引用[1] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在欧洲计算机视觉会议（ECCV），2018。[2] Mark Everingham 、 SM Ali Eslami 、 Luc Van Gool 、Christo-pherKIWilliams 、 JohnWinn 和 AndrewZisserman 。 Pascal Visual Object Classes Challenge ： ARetrospective. 国际计算机视觉杂志（ IJCV ）， 111（1）：98[3] Dongyoon Han，Jiwhan Kim和Junmo Kim深层金字塔残余网络。在 IEEE 计算机视觉和模式识别会议（CVPR），2017。[4] Bharath Hariharan、Pablo Arbelaez、Lubomir Bourdev、Subhransu Maji和Jitendra Malik。从反向检测器的语义轮廓2011年国际计算机视觉会议（ICCV）[5] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议（CVPR）中，第770-778页[6] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.深度剩余网络中的身份映射。欧洲计算机视觉会议（ECCV），2016。[7] Byeongho Heo，Minsik Lee，Sangdoo Yun和Jin YoungChoi。通过隐藏神经元形成的激活边界的蒸馏进行知识转移。在AAAI人工智能会议（AAAI），2019年。[8] Geoffrey Hinton Oriol Vinyals和Jeff Dean。蒸馏-在神经网络中学习知识。arXiv预印本arXiv：1503.02531，2015。[9] Andrew G Howard，Menglong Zhu，Bo Chen，DmitryKalenichenko，Weijun Wang，Tobias Weyand，MarcoAn- dreetto，and Hartwig Adam. Mobilenets：用于移动视觉应用的高效卷积神经网络。arXiv预印本arXiv：1704.04861，2017。[10] 谢尔盖·约菲批量重正化：减少批量标准化模型中的小批量依赖。神经信息处理系统进展（NIPS）2017年。[11] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。在2015年的国际机器学习会议（ICML）上[12] Hanjoo Kim ， Minkyu Kim ， Dongjoo Seo ， JinwoongKim ， Heungseok Park ， Soeun Park ， Hyunwoo Jo ，KyungHyun Kim，Youngil Yang，Youngkwan Kim，etal.Nsml：通过一个真实的案例研究来认识arXiv预印本arXiv：1810.09957，2018。[13] Jangho Kim，Seonguk Park，and Nojun Kwak. 复杂网络：通过因子转移进行网络压缩在神经信息处理系统（NIPS）的进展，2018年。[14] 亚历克斯·克列日夫斯基和杰弗里·辛顿基于cifar-10的卷积深度信念网络。未发表的手稿，40（7）：1[15] Alex Krizhevsky，Geoffrey Hinton，等.从微小的图像中学习多层特征。技术报告，Cite- seer，2009年。[16] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。神经信息处理系统进展（NIPS）2012年。[17] Wei Liu ， Dragomir Anguelov ， Dumitru Erhan ，Christian Szegedy ， Scott Reed ， Cheng-Yang Fu ， andAlexander C.伯格。Ssd：单发多盒探测器。在欧洲计算机视觉会议（ECCV），2016年。[18] 安德鲁湖，加-地Awni Y. MaasHannun和Andrew Y.Ng.整流器的非线性改善了神经网络声学模型。ICMLWorkshop on Deep Learning for Audio ， Speech andLanguage Processing，2013。[19] 作者声明：Dr.辛顿修正线性单元改进受限玻尔兹曼机。国际机器学习会议（ICML），2010年。[20] 潘兴元和维韦克·斯里库马尔。整流器网络的表达性。在2016年的国际机器学习会议（ICML）上[21] Adam Paszke、Sam Gross、Soumith Chintala、GregoryChanan、Edward Yang、Zachary DeVito、Zeming Lin、Alban Desmaison、Luca Antiga和Adam Lerer。pytorch中的自动差分。在NIPS研讨会，2017年。[22] Adriana Romero 、 Nicolas Ballas 、 Samira EbrahimiKahou 、 Antoine Chassang 、 Carlo Gatta 和 YoshuaBengio。适合网：细深网的提示. 国际学习代表大会（ICLR），2015年。[23] Olga Russakovsky ， Jia Deng ， Hao Su ， JonathanKrause ， San- jeev Satheesh ， Sean Ma ， ZhihengHuang ， Andrej Karpathy ， Aditya Khosla ， MichaelBernstein，Alexander C.伯格和李飞飞。ImageNet大规模视觉识别挑战

下载后可阅读完整内容，剩余1页未读，立即下载