深度神经网络的低位宽学习及知识蒸馏与网络量化方法

8 浏览量更新于2023-10-16 收藏 630KB PDF 举报

深度神经网络

知识蒸馏

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6435用于学习低位宽深度神经网络的Cuong Pham1 Tuan Hoang2 Thanh-Toan Do11澳大利亚莫纳什大学数据科学与人工智能系2字节跳动monash.edu，bytedance.com@toan.do monash.edu摘要知识蒸馏通过从繁琐的教师模型中提取知识来学习轻量级的学生模型，是学习紧凑的深度神经网络（DNN）的一种有吸引力的方法。最近的工作进一步提高学生网络的性能，利用多个教师网络。然而，大多数现有的基于知识蒸馏的多教师方法使用单独的预先培训的教师。这限制了教师之间的合作学习和师生之间的相互学习网络量化是学习紧凑DNN的另一种有吸引力的方法。然而，大多数现有的网络量化方法的开发和评估没有考虑多教师支持，以提高量化的学生模型的性能。在本文中，我们提出了一个新的框架，杠杆年龄多教师知识蒸馏和网络量化学习低位宽DNN。该方法鼓励量化教师之间的协作学习和量化教师和量化学生之间的相互学习。在学习过程中，在相应的层次上，教师的知识将形成一个重要性感知的共享知识，作为后续层次教师的输入，也用于指导学生。我们在CIFAR-100和ImageNet数据集上的实验结果表明，与其他最先进的方法相比，用我们的方法训练的紧凑量化学生模型取得了有竞争力的结果，在某些情况下，超过了全精度模型。1. 介绍深度卷积神经网络（CNN）在各种计算机视觉任务中取得了巨大的成功然而，CNN通常需要过多的内存和昂贵的计算，资源，限制了它们在许多应用程序中的使用。因此，大量的研究致力于使CNN轻量化，并提高推理效率，为实际应用。一种有效的方法是使用低位宽权重和/或低位宽激活。这种方法不仅可以减少内存占用，而且还可以实现速度的显著增益，因为计算上最昂贵的卷积可以通过逐位操作完成[25]。尽管现有的基于量化的方法[4，24，25，32，虽然量化CNN和全精度CNN之间仍然存在明显的精度差距，特别是在1或2位宽权重和激活的挑战性情况下。使用知识蒸馏的模型压缩是降低DNN的计算成本的另一种有吸引力的方法[10，11，15，20，26]。在知识蒸馏中，一个较小的学生网络被训练成模仿一个笨重的教师网络的行为为了进一步提高学生网络的性能，一些作品[19，22，33]建议从多个教师中提取知识。然而，在这些研究中，教师模型都是单独预先训练的，这限制了教师之间的协作学习.它也限制了学生网络和教师网络之间的相互学习。为了提高紧凑型低位宽学生网络的效率，本文提出了一种新的协作式在协作学习过程中，来自教师的相应层次的知识将被结合起来，形成一个重要性感知的共享知识，随后将被用作下一层教师的输入教师之间的协作学习有望形成有价值的共享知识，并被提炼到学生网络中的相应层。据我们所知，本文是第一个提出这种6436{−}{−}{−}联系我们协作学习，知识升华。值得注意的是，我们新颖的框架设计允许端到端的培训，其中不仅教师和学生网络，而且贡献（即，教师对共享知识的重要性因素也是在学习过程中同样值得注意的是，所提出的框架是灵活的-在我们的框架中可以使用不同的量化函数和不同的为了评估所提出的框架的有效性，我们进行了实验CIFAR-100和ImageNet数据集与AlexNet和ResNet 18架构。结果表明，与以前的作品相比，用我们的框架训练的紧凑的学生模型取得了有竞争力的结果。2. 相关工作我们的工作与文献中的两个主要研究主题密切相关：网络量化和知识蒸馏。网络量化网络量化中的早期工作已经应用了权重量化的基本形式，以直接将权重值约束到二元/三元空间中，而不使用或使用缩放因子，即， 1，1 [6]，α，α [25]，或 α，0，α [18]。自从关-激活化可以显著降低复杂性此外[25，30，34，36]，这个研究课题吸引了更多更多的关注[25，34，36]。在[25，30]中，作者提出将权重和激活二进制化为1，1。然而，与全精度网络相比，精度有相当大的下降。为了解决这个问题，研究了一般化的低位宽量化 [21 ， 36] 在半波高斯量化（HWGQ）[4]中，作者提出了一种实用而简单的均匀量化方法，该方法利用了网络激活和批量归一化的统计数据。在LQ-Nets[34]中，作者提出联合训练量化CNN及其相关的非均匀学习步长量化（LSQ）[7]中的方法使用可训练的间隔值学习均匀量化器。在量化间隔学习（QIL）[14]中，作者引入了一个可训练的量化器，该量化器还执行修剪和裁剪。知识蒸馏（KD）是通过从大型教师模型中提取知识来训练较小网络的常用方法[11]。这背后的基本原理是以分类概率[11]、中间特征表示[1，3，10，26]、注意力图[28]的形式使用额外的监督。知识蒸馏方法在两种不同的设置中将教师网络的知识转移到学生网络：离线和在线。在离线学习中，KD使用固定的预先训练的教师网络将知识传输到学生网络。深度相互学习[35]通过在线在两个同龄学生模型之间的一个阶段训练中进行蒸馏。多教师知识蒸馏。[29]中的方法将多教师学习应用到多任务学习中，其中每个教师对应于一个任务。类似地，[31]中的方法在每个源中训练分类器，并在集成标签空间上统一其分类。[33]中的方法通过平均来自不同预训练教师网络的软目标来平等地考虑来自多个教师的知识在[19]中，作者建议学习预先训练的教师代表的加权组合。与[33，19]不同，在这项工作中，我们提出了一种新的在线蒸馏方法，该方法在将捕获的知识蒸馏到学生网络之前从不同的教师捕获在[22]中，学生网络的最后一个特征图通过不同的非线性层馈送;每个非线性层用于每个教师。训练学生网络和非线性变换，使得这些非线性变换的输出模仿相应教师网络的最后特征图。以前的工作[19，22，33]主要是从一组完全精确的预训练教师模型中学习完全精确的学生模型，而我们专注于学习量化模型。具体来说，我们的目标是从一组具有不同精度的量化教师模型中学习一个此外，与以前的作品[33，19，22]不同，在以前的作品中，教师在培训学生时是固定的，我们的方法使用协作和互动学习同时培训学生和教师。量化+知识升华。一些工作尝试采用知识蒸馏方法来辅助低精度网络的训练过程[2，15，20，23，38]。在Apprentice（AP）[20]中，教师和学生网络使用相应的预训练全精度网络进行初始化。在降低学生网络的精度后，学生网络将使用优化进行微调。由于AP的初始化学生，AP可能会陷入局部最小值的情况下，非常低的位宽量化的学生网络。由于全精度教师网络和低精度学生网络的特征分布之间存在内在差异，因此使用[20]中的固定教师可能会限制知识转移。QKD[15]和引导量化[38]通过联合训练教师和学生模型来缓解在我们的工作中，为了进一步缓解教师和学生模型之间的不同特征分布的问题使用量化的模型将帮助教师获得更合适的知识，量化的学生模型来模仿。6437n我我联系我们∈我KKKKi=1我我我我KKKK不不DD=¨ ¨¨3. 该方法3.1. 拟议框架我们提出了一个新的框架-教师知识蒸馏（CMT-KD），如图1所示，它鼓励教师之间的协作学习。Fk=<$πk<$Q（Ak，bi）S.T. <$π k= 1，π k∈ [0，1]，我教师和学生之间的相互学习。首先，我们提出了一种新颖的多教师协作学习模式。在训练过程中，一组量化的教师之间的协作学习在一定的层上形成有用的重要性感知共享知识，这些知识被提炼到学生网络中的相应层。第二，学生和教师之间的学习过程是以相互学习的方式[35]通过来自教师logitszT和stu的集合logitszdent logitszS.此外，我们的框架设计允许端到端的培训，其中不仅教师和学生网络，而且贡献（即，教师对共享知识的重要性因素同样值得注意的是，所提出的框架是灵活的-不同的在我们的框架中可以使用[1，3，10，26，28]的方法。3.2. 多教师教师模式选择是知识蒸馏的重要环节。在[15]中，作者指出，如果教师和学生之间的能力差距很大，教师的知识可能无法很好地转移到学生身上。为了控制教师的权力，在我们的工作中，我们考虑教师和学生模型，具有相同的架构。然而，教师被量化为更高的不同位宽。来自教师的相应层的知识这就形成了教师之间的合作学习。不同的教师具有不同的能力，因此，他们应该对共享知识做出不同的贡献。为此，对于每个教师来说，控制教师将对共享知识贡献多少知识的重要因素也将是学值得注意的是，学习的重要性其中πk表示教师ith的重要性。去汉-利用（1）中对π的约束，在实现中，在π k值用于计算Fk之前，将softmax函数应用于πk值。通过端到端的训练，同时优化教师和学生的重要性参数π和模型权重3.3. 其他组件3.3.1量化函数量化函数将值x R映射到量化值x q1，q2，.，使用具有精度比特宽度b的量化函数Q，量化值定义为：x= Q（x，b）.（二）已经提出了不同的量化方法[4，7，14，25，34，36]。在本文中，我们考虑半波高斯量化（HWGQ）[4]作为量化器将在我们的框架中使用，这是一种有效且简单的均匀量化方法。为了确定权重和激活，他们首先通过使用单位高斯分布的均匀量化来预先计算最佳值qi。根据权重和激活的方差σ，x的量化值表示为x=σ <$q i.（三）3.3.2基于中间特征的蒸馏教师分享的知识将用于指导学生的学习。设FT和FS为教师的共享特征图和学生的共享特征图在模型的第k层，分别。设为用于中间基于特征的建模的选定层索引。基于中间特征的知识表示损失定义如下Lfeat= D. FT，FS，（4）k∈I因素将鼓励合作学习之间教师产生一个合适的共享知识，学生可以有效地模仿。形式上，给定量化函数Q （ x ， b ），使用 Q（Wi，bi）和Q（Ai，bi）量化第i个教师，其中Wi和Ai表示权重和激活，哪里是距离损失衡量相似性是-补间特征FT和FS。在我们的框架中可以应用不同形式的。在这项工作中，我们考虑两个广泛使用的距离损失，即，[28][29][注意力损失[28]的定义如下具体地，b1是位宽。在第k层索引处的n个教师的对应层的共享kn oFk被公式化如下D在Qk∈I<$Qk<$2QS-QSK2个p、（五）（一）6438KLKLK∥∥K- -SCj=1 |p，其中A j = F（j，：，：）是第j个通道|p, where Aj=F(j,:,:)is the jthchannelKKp我我我K老师2教师学生logits经验逻辑logits层层层教师1组合教师特征图学生特征图特征提取图1：我们提出的用于低位宽DNN的协作多教师知识蒸馏的框架。一组量化的教师之间的协作学习通过重要性在一定层次上形成有用的共享知识参数（π）。LT和LS用于教师和学生之间通过集合逻辑z的相互学习，其中z是计算的。从教师logitszT和学生logitszS中得出。 CE表示交叉熵，KL表示Kullback-Leibler散度。D（. ）表示基于中间特征的提取的损失，其可以是注意力损失或提示损失（FitNet）。其中QS和QS是特征FS的注意力图，并且相互学习[35]在软-k k kS，分别。. p是可以是l1或l2归一化的lp范数函数。对于具有c个通道的特征映射F∈Rc×h×w，注意力映射定义为：||网络的最大输出然而，由于不同网络的输出logit的差异，这种方法可能会损害模型的性能为了解决这个问题，我们采用KDCL-MinLogit[8]，这是一种简单有效的F; . 是元素级绝对函数。在我们的im-我们使用p=2来实现。[26]第26话被抛弃如下DHT=FT−r（FS）<$，（6）教师和学生的逻辑集成方法在特别地，该方法选择最小logit值，每个类别。设zT和zS是组合的教师模型T和学生模型S的logit输出，zT，c和zS，c其中r（. ）是卷积层，其在将学生特征图FS与共享知识教师特征图FT进行比较之前适配学生特征图FS。在我们的方法中，zT，c= zTz T，c1和zS，c=zSz S，c1。元素zi总体logitsz的计算如下内核大小为1 ×1。z=min{z T，c，z S，c}，i=1，2，.， m（7）其中zT，c，zS，c是zT，c和zS，c的第i个元素，并且我我3.3.3师生互学m是类的数量。相互学习的定义如下除了基于中间特征的提炼之外，我们还利用了定义在LKL =T2 × KL（p||pS），（8）logits从网络学习。相互学习允许学生向教师反馈其学习情况这种学习机制鼓励教师和学生同时调整他们的参数，以实现整体学习目标，例如，最小化总损失函数。Q=k∈I是对应于目标类c的zT和zS的元素，1是具有所有1s元素的向量，我们表示[10，26]其中R（. ）卷积层6439不不2不LKL=T × KL（p||（p）、（9）其中KL表示Kullback-Leibler散度，是温度参数。p、pS和pT分别是z、zS和zT的软对数软logit p被定义为p=softmax（z）。不6440L我××L最后，我们提出的分类任务中的协作和相互学习的总体损失被定义为S T S TL=α×（LCE+LCE）+β×（LKL+LKL）+γ× Lfeat，其中，α、β和γ是用于优化的总损失的超参数，CE是使用相应的软logits和地面实况标签计算的标准交叉熵损失。在训练过程中，教师、学生的模型权重和重要因素的权重都得到了提高，教师，即，πk i，k将通过使用梯度下降最小化L4. 实验4.1. 实验装置数据集。我们在CIFAR-100[16]和ImageNet（ILSVRC-2012）[27]数据集上进行了实验。CIFAR-100数据集由100个类组成，共60，000幅图像，其中50，000幅图像用于训练集，10，000ImageNet是一个大规模的数据集，总共有1000个类该数据集包含1。200万张图像用于训练，50，000张图像用于验证，并将其用作我们实验中的测试集。实作详细数据。我们在两个常见的深度神经网络AlexNet [17]和ResNet 18 [9]上评估了我们提出的方法。关于AlexNet，在每个卷积层和每个全连接层之后添加批量归一化层，这与[4，36]所做的工作类似。在所有实验中，类似于以前的作品[34，38]，在训练中，我们使用基本的增强，包括水平翻转，翻转和随机裁剪，分别将ResNet18和AlexNet的图像裁剪为227227和224 224我们使用动量为0的随机梯度下降。9和256的小批量大小。网络模型的学习率lr被设置为0。1和0。01分别用于ResNet和AlexNet表1：使用AlexNet对CIFAR-100数据集进行的消融研究。设置描述见第4.2节。模型位宽前1前5FP75.393.18位75.292.9单个模型6比特74.992.74比特74.992.52比特72.991.9KD（来自FP老师）75.192.8教师平均76.093.8CMT-KD（不含属性）2比特76.593.9CMT-KD（不含ML）75.093.2CMT-KD78.394.4组合式教师4、6、8位79.594.9表2：使用ResNet 18对CIFAR-100数据集进行的消融研究。设置描述见第4.2节。到学生的通信层。具体地，在每个卷积块的最后卷积层处形成共享知识，即，AlexNet教师的第2层、第5层和第7层以及ResNet18教师的第5层、第9层、第13层和第17层同时，当注意力丧失或教师对重要性因素（π）的学习率模型设置为LR/10。当在CIFAR-100上训练ResNet 18模型时，我们训练模型有120个epochs。在50和100个时期之后，学习率下降了10倍训练时FitNet损失用于层和最后一层。4.2. 消融研究壮举. 我们不承认第一ImageNet上的ResNet18模型，我们用100个epochs训练模型在30、60和90个时期之后，学习率下降了10倍。在训练AlexNet模型时，对于CIFAR-100和ImageNet，我们用100个epoch训练模型，并采用余弦学习率衰减。对于1或2位预处理，我们将权重衰减设置为25 e-6精度，并将其设置为1 e-4以获得更高的精度。关于总损失的超参数（10），我们根据经验设置α=1，β=0。五、在我们的实验中，共享知识是在教师的特定层次上形成的，我们对CIFAR-100进行了几项消融研究，ResNet18和AlexNet来证明我们所提出的方法的有效性。对于消融研究，我们将HWGQ量化器[4]用于拟定的 CMT-KD 。此外，对于基于中间特征的蒸馏（feat），最终损失（eq.（10）、注意力损失被利用。我们考虑以下设置。单一型号。我们评估具有不同精度的单个模型（即，全精度、8位、6位、4位和2位（十）L模型位宽前1前5FP72.491.38位70.990.9单个模型6比特70.890.84比特70.790.82比特69.490.5KD（来自FP老师）71.391.6教师平均71.091.6CMT-KD（不含属性）2比特71.891.8CMT-KD（不含ML）70.991.3CMT-KD72.191.96441LCEKL +LLKL精密度）而无需任何蒸馏方法。AlexNet和ResNet18架构的结果分别见表1和表2在AlexNet架构下，实验结果表明，4位、6位、8位模型都取得了相当的效果。这些模型与全精度模型之间存在相当大的差距。这些模型与2位模型之间也存在很大的差距。借助ResNet18架构，8位模型可实现与全精度模型相当的结果。有 6位、4位模型和8位模型之间的小差距。与AlexNet上的观察类似，2位模型和全精度模型之间存在很大的差距。知识的升华源于老师的全精。在这种情况下，我们训练了一个2位学生模型，其知识来自全精度教师，即，表1和表2中的KD（来自FP教师）设置。我们在这里，将遵循[11]，即：当训练学生时，除了交叉熵损失之外，来自教师的softmax输出将被提取到学生。当使用AlexNet时，此设置比量化的单个模型实现更好的性能。使用ResNet18时，此设置可实现与8位单量化模型相当的结果从多个量化教师的集合中进行知识提炼。在这种情况下，我们分别培训了三位具有不同精度的教师，即，4位、6位和8位教师。教师的平均softmax输出被提取到2位学生。这一设置在表1和表2中被记为“普通教师”。值得注意的是，这种设置也在以前的工作中使用[33]。当使用AlexNet时，在top-1精度下，此设置产生2位学生，其实现与量化的单个教师相当的性能然而，它的每一个（ 71 。 0% ）仍低于全精度模型（ 72.4%）。当使用ResNet18时，此设置将提高全精度模型的性能，即，增益为0。7%的前1名和前5名的准确性。合作和相互学习的有效性。我们考虑了拟议框架的不同设置。对于表1和表2中的结果，当训练CMT-KD模型时，我们使用3个教师，即，4位、6位和8位教师。在这些表中，CMT-KD意味着模型是用总损失（10）训练的。CMT-KD（w/o Att）意味着模型使用损失（10）进行训练，但排除了基于中间特征的组件特征。CMT-KD（w/o ML）意味着模型是用损失（10）训练的，但相互学习组件设置AlexNetResNet18（一）Top-172.178.3Top-591.994.4（b）第（1）款Top-171.178.1Top-591.294.3表3：教师人数对CMT-KD 2位学生的影响。数据来自CIFAR-100数据集。(a)使用4位、6位和8位教师。(b)使用4位和8位教师。基于特征的损失然而，这两个组件都是实现最佳结果所必需的，即，CMT-KD。当使用AlexNet时，全精度（FP）模型在top-1精度上略优于所提出的CMT-KD。当使用ResNet 18时，CMT-KD在top-1和top-5准确度上都优于FP模型。实现了显著的增益，即，3%，在top-1精度。值得注意的是，当使用ResNet 18时，CMT-KD显著优于2位单一模型、使用平均教师时的2位模型以及从FP模型提取时的2位模型。这些结果证实了所提出的方法的有效性。组合老师我们还评估了在我们提出的方法中，联合教师在协作学习中的表现，即，由分类器做出的预测对应于图1中的T损失。总体而言，此设置产生最佳结果，除了AlexNet架构的前1精度。它实现了更好的性能比“平均教师”设置。使用ResNet18，该设置明显优于完整的精确模型。这些结果证实了所提出的教师之间的合作学习的有效性教师人数的影响。表3中的结果显示了教师数量对2位CMT-KD学生模型性能的影响。结果表明，使用3个教师（4位，6位和8位）时，使用2个教师（4位和8位）的性能4.3. 与最新技术在本节中，我们将我们提出的方法CMT-KD与最先进的网络量化方法进行比较，包括 LQ-Net [34]，LQW+CAQ [12]，HWGQ [4]和DoReFa-Net [36]。我们还比较了我们的方法和应用蒸馏和量化的方法，包括PQ+TS+Guided [38] ， QKD [15] ， SPEQ [2] 。对于CMT-KD，我们使用三个教师（4位，6位，内容（LST）被排除在外。结果表明，位，和8位教师），以指导学习的紧凑相互学习损失比中间量化的2比特权重（Kw=2）和2比特激活6442L方法AlexNetResNet18Top-1 Top-5 Top-1 Top-5全精度72.491.375.393.1方法AlexNetResNet18Top-1 Top-5 Top-1 Top-5全精度61.883.570.389.5Kw=1，Ka=2LQ-Nets[34]68.790.570.491.2LQW + CAQ[12]69.391.272.191.6HWGQ[4]68.690.871.090.8CMT-KD-FitNet69.991.376.193.7CMT-KD-属性70.491.175.693.5Kw=2，Ka=2PQ+TS+引导[38]64.687.8--LQ-Net[34]69.291.270.891.3LQW + CAQ[12]69.991.372.191.6HWGQ[4]69.490.572.991.9CMT-KD-FitNet70.090.778.794.6CMT-KD-属性72.191.978.394.4表4：CIFAR-100数据集的比较结果我们报告了当FitNet损失或张力损失（Att）用于基于中间CMT-KD采用HWGQ量化器对教师和学生进行量化。HWGQ的结果使用官方发布的代码报告（Ka=2）学生。同时，我们使用2位、4位和8位教师来指导紧凑量化的1位权重（Kw=1）和2位激活（Ka=2）学生的学习我们不考虑1位激活，因为前面的[4，13，25，36]表明激活的1位量化不足以获得良好的性能。CIFAR-100的比较结果。表4显示了AlexNet和ResNet18的不同网络量化方法在CIFAR- 100数据集上的前1和前5分类精度。竞争对手的结果引自[12，38]。我们报告了当 FitNet 损失或注意力损失用于 Eq 中的专长时（十）、这些模型被表示为CMT-KD-FitNet或CMT-KD- Att。量化器HWGQ[4]用于在训练CMT-KD模型时对教师和学生网络进行量化。总体而言，最好的CMT-KD模型优于大多数竞争对手的量化方法。当使用AlexNet时，CMT-KD（适用于FitNet和Att）模型在top-1精度上优于比较的量化方法然而，所提出的模型在top-1精度下实现比FP模型更这可能是由于AlexNet模型的容量限制，该模型仅由5个卷积层组成。当使用ResNet 18时，我们的CMT-KD模型优于全精度模型。特别是当使用2位权重和2位激活时，Kw=1，Ka=2[36]第三十六话49.8-53.4-LQ-Nets[34]55.778.862.684.3HWGQ[4]52.776.359.682.2CMT-KD（HWGQ）56.279.160.683.5Kw=2，Ka=2[36]第三十六话48.371.657.680.8量子密钥分配[15]--67.487.5[38]第三十八话52.577.3--LQ-Net[34]57.480.164.985.9SPEQ[2]59.3-67.4-HWGQ[4，5]58.680.965.186.2CMT-KD（HWGQ）59.281.365.686.5LSQ（带蒸馏）[7]--67.988.1LSQ*（不含蒸馏）--66.787.1CMT-KD（LSQ）59.381.567.887.8表5：ImageNet数据集上的比较结果。CMT-KD将注意力损失用于基于中间特征的蒸馏。 CMT-KD（HWGQ）和CMT-KD（LSQ）分别表示在我们的框架中使用HWGQ[4]和LSQ[7]量化器时的模型。我们在LSQ* 行中报告了未蒸馏的LSQ的实验结果（请参见脚注1）。CMT-KD-FitNet对FP模型的影响为3。4%和1. 前1和前5的准确度分别为5%。同样值得注意的是，所提出的模型显著改进了HWGQ方法[4]，该方法使用HWGQ量化器来量化FP模型，即，当K w=2，Ka=2时，CMT-KD- FitNet优于HWGQ [4]5。8%的top-1精度。ImageNet 上的比较结果。表 5 列出了 AlexNet 和ResNet18不同网络量化方法在ImageNet数据集上的前1和前5分类准确度竞争对手的结果引自相应的论文。在Kw=1和Ka=2时，当使用AlexNet时，所提出的CMT-KD显著优于HWGQ [4]。增益为4。5%和2. 前1和前5的准确度分别为8%。对于ResNet 18，与HWGQ相比，我们在top-1准确度上也提高了1%当Kw=2和Ka=2时，CMT-KD（HWGQ）方法比HWGQ方法[4]的性能好0. 6%，0。AlexNet和ResNet 18的top-1准确率分别为5%由于所提出的框架对量化器是灵活的，我们还在表5中报告了当LSQ[7]量化器用于在我们的框架中对教师和学生网络进行CMT-KD（LSQ）。LSQ是一种量化方法64434位8位6位0.3250.450.400 20 40 60 80 100120时代(a) 层51.00.80 20 40 60 80 100 120时代(b) 层90.350.60.300.40.250.20.200 20 40 60 80 100120时代(c) 层130.00 20 40 60 80 100120时代(d) 层17图2：在训练过程中，CIFAR-100数据集上三个ResNet 18教师（4位，6位，8位）的重要性因素。其中步长是在训练期间学习的。当使用ResNet 18时，给定相同的LSQ量化器实现1，我们的方法CMT-KD（LSQ）可以将LSQ* 的top-1精度提高1。百分之一。然而，我们注意到LSQ[7]中报告的结果略优于CMT-KD（LSQ）。值得注意的是，为了实现报告的结果（67. 9%的前1名和88名。1%top-5），LSQ[7]还使用知识蒸馏将知识从全精度模型提取到量化模型2。对于AlexNet和ResNet 18模型，我们最好的方法CMT-KD（LSQ）与最近的方法SPEQ[2]教师重要性因素（π）的可视化。图2显示了教师和学生使用ResNet18架构时三个教师（4位，6位，8位）的重要性因素。实验在CIFAR-100数据集上进行。可视化的重要性因子位于训练期间ResNet18每个块中的最后一个卷积层，即，第5、9、13、17层。它们也是共享知识形成的层次。图2b显示了最高精度的教师（8位）并不总是对所有层的共享知识做出最高贡献例如，在第9层，6位教师的重要性因子高于8位教师的重要性因子。在最后一个卷积层（即，层17），8位教师支配其他教师，并给出1LSQ的官方源代码不可用。我们采用来自https：//github的非官方实现的LSQ量化器。com/hustzxd/LS Quantization为我们的实验。[2]我们不能成功地重现LSQ [7]中报道的结果。为例如，如果不对LSQ进行蒸馏，我们只能得到66的结果。当使用ResNet 18时，当Kw=2，Ka=2时，top-1准确率为7%，而在[7]中，作者报告了67。6%，在相同的条件下。分享知识的大部分贡献。此外，重要性因子的更新主要在框架的早期训练阶段进行.5. 结论在本文中，我们提出了一种新的方法，通过从多个量化教师中提取知识来学习低位宽DNN模型。我们引入了合作学习的理念，允许教师形成意识到重要性的共享知识，这些知识将用于指导学生。该框架还利用了相互学习的思想，允许教师和学生调整他们的参数，以实现整体目标函数。所提出的框架允许端到端的培训，其中不仅网络参数，而且重要的因素，表明教师的贡献共享知识的同时更新。采用AlexNet和ResNet 18架构的CIFAR-100和ImageNet数据集的实验结果表明，与最先进的方法相比，使用所提出的方法训练的低位宽模型获得了具有竞争力的结果引用[1] 吉米·巴和里奇·卡鲁阿纳深网真的需要深吗？在NIPS，2014。[2] Yoonho Boo ， Sungho Shin ， Jungwook Choi ， andWonyong Sung.随机精度集合：量化深度神经网络的自知识表示。在AAAI，2021年。[3] 尚斗尹珍杨崔炳镐许敏植李。通过隐藏神经元形成的激活边界的蒸馏进行知识转移。在AAAI，2019年。8位6位4位4位8位6位8位6位4位0.3750.4000.3500.3750.3250.3500.3000.3000.2750.2750.2506444[4] 蔡兆伟，何晓东，孙健，努诺. 通过半波高斯量化进行低精度深度学习在CVPR，2017年。[5] 赵伟蔡和努诺·瓦斯康塞洛斯。重新思考混合精度神经网络的可微分搜索在CVPR，2020年。[6] Matthieu Courbariaux ， Yoshua Bengio 和 Jean-PierreDavid。Binaryconnect：在传播过程中使用二进制权重训练深度神经网络。在NIPS，第3123- 3131页[7] 史蒂文·K杰弗里·埃塞尔McKinstry、Deepika Bablani、Rathinakumar Appuswamy和Dharmendra S.莫达学习步长量化。在ICLR，2020年。[8] Qiushan Guo ， Xinjiang Wang ， Yichao Wu ， ZhipengYu，Ding Liang，Xiaolin Hu，and Ping Luo.通过协作学习实现在线知识共享。在CVPR，2020年。[9] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。[10] Byeongho Heo 、 Jeesoo Kim 、 Sangdoo Yun 、 HyojinPark、No- jun Kwak和Jin Young Choi。对特征提取的全面检修。在ICCV，2019年。[11] Geoffrey Hinton Oriol Vinyals和Jeffrey Dean在神经网络中提取知识在NIPS深度学习和表示学习研讨会，2014年。[12] Tuan Hoang，Thanh-Toan Do，Tam V Nguyen和Ngai-Man Cheung。直接量化训练高精度低位宽深度神经网络。在IJCAI，2020年。[13] Itay Hubara、Matthieu Courbariaux、Daniel Soudry、RanEl-Yaniv和Yoshua Bengio。二值化神经网络在NIPS，2016年。[14] Sangil Jung、Changyong Son、Seohyung Lee 、JinwooSon、Jae-Joon Han、Youngjun Kwak、Sung Ju Hwang和Changkyu Choi。学习量化深度网络通过优化量化间隔与任务丢失。在CVPR，2019年。[15] Jangho Kim，Yash Bhalgat，Jinwon Lee，Chirag Patel，and Nojun Kwak. QKD：量化感知知识蒸馏。ArXiv，abs/1911.12491，2019。[16] Alex Krizhevsky，Geoffrey Hinton，等.从微小的图像中学习多层特征。2009年[17] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。NIPS，2012年。[18] 李凤富和刘斌。三重网络在ICLR，2017。[19] Yuang Liu，Wei Zhang，and Jun Wang.自适应多教师多层次知识升华。神经计算，415，2020。[20] Asit Mishra和黛比·马尔学徒：使用知识蒸馏技术来提高低精度网络的精度。在ICLR，2018年。[21] 作者：Edward H. Lee和Boris Murmann。使用对数数据表示的卷积神经网络。CoRR，abs/1603.01025，2016。[22] 朴善国和郭野俊。用于从多个网络聚集知识的知识级集成知识蒸馏在ECAI，2020。[23] Antonio Polino，Razvan Pascanu，and Dan Alistarh.通过蒸馏和量化进行模型压缩在ICLR，2018年。[24] 曲中南、周子木、程云、蒂勒。多比特网络的自适应损失感知量化。在CVPR，2020年。[25] Mohammad Rastegari、Vicente Ordonez、Joseph Redmon和Ali Farhadi。XNOR-Net：使用二进制卷积神经网络的ImageNet分类。在ECCV，2016年。[26] Adriana Romero 、 Nicolas Ballas 、 Samira EbrahimiKahou 、 Antoine Chassang 、 Carlo Gatta 和 YoshuaBengio。Fitnets：薄而深的网的提示。2015年，国际会议[27] OlgaRussakovsky ， Jia Deng ， Hao Su ， JonathanKrause ， San- jeev Satheesh ， Sean Ma ， ZhihengHuang ， Andrej Karpathy ， Aditya Khosla ， MichaelBernstein，et al.图像网大规模视觉识别挑战。IJCV，115（3）：211[28] Zagoruyko Sergey和Komodakis Nikos。更加注意的：通过注意转移提高卷积神经网络的性能。在ICLR，2017。[29] 徐潭、伊人、狄河、秦涛、周钊、刘铁岩。多语言神经机器翻译与知识蒸馏。2019年，在ICLR[30] 唐伟，华刚，王亮。如何训练一个高精度的二进制神经网络？InAAAI，2017.[31] Jayakorn Vongkulbhisal 、 Phongtharin Vinayavekhin 和Marco Visentini-Scarzanella。用蒸馏法统一异构分类器。在CVPR，2019年。[32] 万帝文、沈富民、刘丽、范铸、秦杰、凌少、沈衡涛。卷积神经网络（Convolutional Neural Network），三值输入和二值权重。在ECCV，2018。[33] 善佑、常旭、朝旭、大成涛。从多个教师网络学习。InKDD，2017.[34] Zhongqing Zhang，Jiaolong Yang，Dongqiangzi Ye，andGang Hua.LQ-Nets ： Learned Quantization for HighlyAccurat

下载后可阅读完整内容，剩余1页未读，立即下载