实例关系图-知识蒸馏-鲁棒性-网络结构

115 浏览量更新于2023-10-19 收藏 1.17MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7096基于实例关系图的Yufan LiuYa，Jiajiong Cao*b，Bing Li <$a，Chunfeng Yuan <$a，Weiming Hua，Yangxi Licand Yunqiang Duanca中国科学b蚂蚁金服c国家计算机网络应急技术小组/协调中心摘要知识蒸馏的关键挑战是从教师网络中提取一般的、适度的和足够的知识来指导学生网络。提出了一种新的知识提取实例关系图.该方法建模了实例特征、实例关系和特征空间变换三种知识，而前两种知识是以往方法所忽略的。首先，将实例特征和实例关系分别视为顶点和边，构造IRG，对某个网络层的知识进行建模。其次，IRG变换提出了跨层的特征空间转换它比直接模仿中间层的特征更最后，提示损失函数的目的是迫使学生该方法通过IRG有效地捕获了整个网络的知识，因此对不同的网络结构具有稳定的收敛性和较强的鲁棒性此外，该方法在不同尺度的数据集上显示出优于现有方法的性能。1. 介绍为了追求深度神经网络的高性能，人们提出了更深、更宽的结构，代价是更大的模型尺寸和更长的推理时间。例子包括AlexNet [13，11，2][27][28][29][29][ 29][29]然而，在各种实际应用中，这些网络不能满足实时响应和低存储成本的要求。因此，越来越多的努力投入到*两位作者对本研究的贡献相等。† 通讯作者：李冰（ bli@nlpr.ia.ac.cn ），袁春峰（cfyuan@nlpr.ia.ac.cn）我在Ur9 ¥的T9ach9r•我 .I. Σ.Σ你好CECC施图德9我的祖国(a) （b）我们的方法图1：传统和亲-提出的方法。(a)传统的方法是利用实例特征来引导学生。每个实例都是特征空间中的一个独立点。(b)该方法定义了实例关系图（包含实例特征、实例关系和特征空间变换）作为知识的提炼，用于指导学生学习。模型压缩知识蒸馏[9，26，16，25]是模型压缩最流行的解决方案之一。它利用教师-学生框架从教师网络中提取知识，例如预测概率，以指导学生网络。例如，Hinton等人 [9]利用教师网络的最终预测概率来监督学生网络。Zagoruyko等人。 [26]转移注意力地图从一些中级层中提炼出来教学生。我们将网络的软化输出或中间层特征称为实例特征，因为它们是从样本（也称为实例）独立获得的。然而，传统的知识提取方法存在两个局限性。首先，现有的方法独立地从教师网络中提取实例特征实例关系从未被考虑，但它们有助于减少类内变化并扩大特征空间中的类间差异。此外，基于实例特征的方法通常受到显著的影响。7097当教师和学生使用不同的网络体系结构时，性能不会下降。相反，实例关系对网络变化的鲁棒性更强.例如，来自两个教师网络的相同样本的实例特征可以完全不同，而对于两个教师，来自同一类的样本通常比来自特征空间中的不同类的样本更接近。其次，这些方法只提取教师某些特定层次的输出，没有考虑推理过程。这是一个硬约束学生直接拟合教师的所有这些层的输出。因此，从整个推理过程中提取适度的知识是必要的。针对上述问题，提出了一种基于图的知识提取方法.它在整个网络中提取三种知识。除了广泛使用的实例特征外，还定义了实例关系和特征空间变换两类新知识提出了一种实例具体地，对于DNN层，构造IRG，其中IRG的顶点表示实例特征，并且边缘表示实例关系（如图1（b）所示）。实例关系提供了充分和一般的特征分布信息，并使提取的知识能够指导与教师不同的体系结构的学生网络。为了避免约束过紧，引入了跨层特征空间变换作为第三类知识，并提出了一种IRG变换来建模这类知识。特征空间变换是一种比在中间层对教师的实例特征进行密集拟合更宽松的描述该方法结合了IRG和IRG变换，比现有方法具有最后，分别为IRG和IRG变换设计了两个损失函数。提示损失一起优化，以帮助提高学生模型的性能实验在4个不同的数据集上进行，在不同的师生架构。实验结果表明，该方法在不同的教师网络对上表现出稳定的改善，性能超过最先进的1倍。总之，我们工作的主要贡献有三方面：• 本文首次提出了基于实例特征、实例关系和跨层特征空间转换的知识表示方法。• 提出了一种IRG及其转换模型，用于对所有类型的知识进行建模。实例特征和实例关系分别作为IRG的顶点和边. 特征空间变换自然地表示为从一层到另一层的因此，网络的所有三种知识都可以通过IRGs很好地表示。• 引入不同的提示损失来监督学生网络的训练。他们帮助学生学习保存在IRG中的不同种类的知识。实验结果表明了该方法的优越性。2. 相关工作模型压缩方法主要有两类。第一种是从复杂的训练模型中去除冗余信息，如网络修剪和模型量化。具体地，网络修剪[14，15，8，17，22]旨在删除训练网络的不重要连接，而模型量化方法[5，18，3，23]表示具有较少比特的浮点权重。虽然剪枝和量化方法在低性能损失的情况下获得了高压缩比，但它们并不能改变网络结构。与第一种不同的是，Hinton等人 [9]在师生框架的基础上提出了一个新的概念，称为知识蒸馏方法将知识从受过训练的教师转移到学生网络。最近，它已被应用于许多领域，如图像分类[13]，场景识别[29]和人脸验证[20]。现有的知识提取方法集中于将实例特征从教师传递到学生。例如，Ba等人。 [1]训练学生网络通过在Softmax层之前回归logits来模仿老师。Zhou等人 [30]让学生与教师分享一些较低层次的知识，并同时对他们进行培训，但他们也使用logits作为提炼的知识。为了转移中间层的实例特征，Romero et al.[19]提出了FitNet，它提取了中间层的特征图以及最终输出来教授学生网络。之后，Zagoruyko等人 [26]基于注意力地图定义了注意力转移（AT），以提高学生网络的性能然而，这些方法独立地从教师中提取实例特征，而很少考虑特征空间此外，中间层的实例特征与网络设计密切相关，这对于不同的教师-学生对是不通用的。此外，大多数方法直接教学生适合教师的实例特征，忽略了特征空间转换过程。为了解决这个问题，Yim et al.[24]提出了求解过程流（Flow of Solution Procedure，FSP）来传递教师的推理过程，而不是中间层的结果。 FSP矩阵实际上是内部7098预测i=112122教师网络N1块Nn块Nn+1块Softmax转型学生网络转型LIRG-t转型转型LIRGLlogitsLGTN1'嵌段Nn'块Softmax监督N个n+1'嵌段图2：拟议方法的总体框架。从两个层次产生特征通道，这被视为解决问题的流程然而，FSP矩阵只能在具有相同输出分辨率的两个层之间计算。此外，FSP的计算成本相当高。3. 该方法（一）第11层第12层（b）第（1）款在本节中，首先介绍了然后一个名为图3：IRG的结构。(a)以IRG为例。(b)一个IRG转换的例子。构造了IRG及其变换，一般的，适度的和足够的知识。亚IRG1=（V1，E1）=（{f1（x1）}I，A1），A（i，j）=||f（x）=0||2，i，j=1，...，我，我，（一）其次，研究了IRG及其变换的隐含损失，l l l ilj2是为了利用挖掘出来的知识而制定的。最后，在前面的损失函数的基础上，制定了整体损失，以监督学生网络的训练。所提出的方法的总体框架如图2所示。上面的蓝色网络是教师网络，而下面的橙色网络是学生网络。除了来自地面实况的SoftmaxLossLGT外，还添加了三个监督信号来传递提取的知识，包括LIRG，Llogits和LIRG-t。所有三个信号都是从IRG中导出的，IRG表示某个层的特征空间。具体地说，LIRG用于传递实例特征和实例关系。Llogits表示实例特征，是LIRG的特例。它可以被吸收到LIRG中。LIRG-t提取特征空间变换知识.最终，这三个损失函数组成了多类型其中Vl是表示实例第l层特征，E1是IRG的边集，表示实例关系.特征关系矩阵Al的每个元素表示边缘。并且每个边被定义为两个链接实例的实例特征之间的欧几里德距离，如等式1所示。基于IRG的形式，定义了它的变换。设IRG-tlll2是从第11层到第12 如图3（b）所示，将IRG-tl1l2分解为顶点变换（或称为实例特征变换）是很自然的。Trans（Vl1，Vl2）和边变换（或称实例关系变换）Trans（El1，El2），即IRG-t1112=反式（IRG11，IRG12）=（Trans（V11，V12），Trans（E11，E12））知识（MTK）损失（LMTK），将所有从教师到学生的三种知识。=（Λ11，12，Θ11，12），（二）Λl，l（i，i）=||fl（xi）−fl（xi）||2， i=1，…我，我，3.1. 实例关系图Θl，l为||AL-Al||二、给定I个训练实例x={x}I，令f（x）为1212 2ii=1l i第l层的xi的实例特征，其可以是最终的软化输出[9]或特征图[26]。实例关系被公式化为实例特征的相邻矩阵，称为Al。IRG的示例在图3（a）中示出。然后，构造表示为IRG_1的IRG以表示第1层的特征空间，表示为反式（Vl2，Vl1）反式（El1，El2）...茎层茎层K-2区K'-2区块K-1区K'-1区块块KK'区块logitslogits预测标签7099其中，Trans（·）是变换函数，Λ11、12和Θ11、12分别是顶点变换矩阵和边如等式2中所示，Λ11、Λ12的每个元素表示相同实例xi从一个层到另一个层的实例特征变换。类似地，Θ11，12被定义为两个关系矩阵A11和A12之间的欧几里得距离。71002l，l122师生层1师生层1层1知识的类型。此外，对中间层密集地采用知识蒸馏对学生来说不是适度的约束。因此，顶点差仅用于logits层。因此，本工作中的LIRG如下获得：L（x）=λ·L（x）+λX·||AT− AS||2.(a) LIRG的一对一模式(b) LIRG的一对多模式IRG1logits2LlM∈LMlM2（四）图4：LIRG的两种可能的部署模式。则IRG-tl1l2包含特征空间的知识3.3. IRG转换的损失IRG变换是实例特征空间变换，包括顶点变换，从第11层到第12层的转换。3.2. IRG损失损失LIRG被定义为教师的IRG和学生的IRG。设IRGT为信息和边缘变换。损失L还包括如下两部分：LIRG-t（x）IRG-tLS=Dist（IRG-tT，IRG-tS）第L层的教师网络。同样，IRGIMl1l2l3l4是学生网络中第1M层因为-=Dist（Trans（VT，VT），Trans（VS，VS））（五）l1l 2l 3l 4两个IRG的计算遵循等式1。然后+Dist（Trans（ET，ET），Trans（ES，ES））两个IRG的差异分为顶点Dist（VT，VS）和边的差为||ΛTl1l2-ΛS||2个以上||ΘTl3l4-ΘS||二、L lMl1，l2l3，l42l1，l2l3，l42Dist（ET，ES）.这两个部分都由Euclidean dis-TTL lM具体如下：其中Λ11，12和Θ11，12是教师从第11层到第12层的顶点和边变换，LIRG（x）=Dist（IRGT，IRGS）S SL lM=λ1·Dist（VT，VS）+ λ2·Dist（ET，ES）而Λl3，l4和Θl3，l4一起表示特征空间学生的转变。然后||ΛT− ΛS||2和L lML lMl1，l2l3，l42第十一章（3）ΘTl1，l2 -ΘSl3，l4||2are adopted to evaluate the vertex trans-=λ1·||fT（xi）−fS（xi）||2地层差异和边缘变形差异Li=1+ λ 2·||AT− AS||二、lM2在老师和学生之间。与LIRG类似，还有一个重要因素影响L 1M2注意，λ1和λ2是平衡两项的惩罚系数以往的工作大多只考虑实例特征，通过将λ 2设为零，可以将其视为基于IRG方法的特例。在应用时充分利用LIRG对于一项特定的任务，有两个因素可能会影响绩效。首先，如图4所示，LIRG有两种可能的部署模式。特别是，在一对一模式下，学生的选定层由核心监督LIRG-t。与顶点部分相比，边变换部分消耗更多的具体地说，对于一个顶点数为I的IRG，顶点部分的时间复杂度为O（I），而边部分的时间复杂度为O（I2）.此外，还介绍了顶点变换的知识。并且边缘变换是冗余的。因此，为了有效性，省略了IRG变换损失的边缘部分。最后，得到的IRG变换损失函数公式如下：教师网络的响应层。很明显L IRG-t（x）=||ΛT-ΛSl3，l4||2.（六）当教师和学生共享网络结构时，一对一模式表现最好。另一方面，一对多模式利用教师的最后一层（L）来指导学生的所选层（LM）。以来最后一层通常学习的一般分布数据集，最后一层的IRG与净相关性较低，3.4.多类型知识流失我们定义了一个MTK损失（LMTK）来训练学生网络。它是基于 SoftmaxLossfor Ground Truth （ GT ）（ LGT ）， loss for IRG （ LIRG ）和 loss for IRGtransformation（LIRG-t）的公式，如下所示：LMTK（x）工作设计由于一对多模式提取了更多的gen-一般知识，公式4中的LIRG的公式如下：=LGT （x）+LIRG（x）+λ3·LIRG-t （x）层1层n-1层m-1层n层m…………||层n-1层m-1层n层m71012低这个模式。=LGT（x）+λ1·Llogits（x）第二，Equa中的顶点差Dist（VT，VS）X+λ·||AT− AS2（七）L lM2升||2只有当fT（xi）和fS（xi）具有ML lMlM∈LM相同的特征分辨率和特征通道数。如何-X然而，在大多数（L，lM）下，这不能满足）组合-+λ3·ΛTl1，l2-ΛSl3，l4||2,这表明边缘差异不是一般的l1l2l3l4∈LTran||71029190.59089.58988.58887.5870. 50 050 005 0. 00059190.59089.58988.58887.5870. 50 050 005 0. 0005表1：学生在不同模式下的学习表现。O2O指的是一对一模式，O2M指的是一对多模式。学生/教师：ResNet20-x0.5（88.36）/ResNet20（91.45）（一）（b）第（1）款学生/教师：ResNet 20-x0.5（88.36）/ShuffleNet-x 0.5（91.47）图5：（a）LIRG的性能。 (b)性能LMTK。其中λ1、λ2和λ3是三个惩罚系数，而LM和LTran分别表示IRG及其变换使用MTK损失，可以优化学生网络以从教师网络获取所有三种类型的知识4. 实验4.1. 消融分析在这一部分中，通过实验验证了LIRG和LIRG-t的有效性.详细的实验设置如下。4.1.1实验设置采用CIFAR10 [12]作为消融分析的训练和测试数据集。图像首先填充到36×36，然后裁剪到32×32进行训练。 ResNet20 [6]或者ShuffleNet-x 0.5 [28]被采用作为教师网络，而我们将ResNet 20的通道减少一半，得到名为ResNet20-x0.5的学生网络。请注意，4.1.2LIRG的有效性首先根据实验结果确定了LIRG的超参数。在此基础上，对一对一和一对多两种部署方式进行了比较和分析。(1) 超参数调整。除了系数λ2之外，批量大小也是一个关键的超参数，因为实例关系矩阵，即Al，是由一批实例计算的（见3.1节一个大批量的lsize包含更多的实例关系以及更全面的知识。与此同时，这对学生来说可能是一个更难的正则化。为了实现提取适度知识和提取足够知识之间的权衡，在如图5（a）所示的不同设置下进行实验。可以看出，LIRG在大多数情况下都优于基线和Rocket 根据实验结果，我们选择批量为64，λ 2为0。005为LIRG为其余的文件。(2) 一对一模式和一对多模式的性能分析。在一对一模式下，教师的一个层O2O 1层89.83O2O三层89.89O2O 5层89.50O2M 1层89.83O2M三层90.21O2M 5层89.93(a)Eltwise1（b）Eltwise5（c）Eltwise8（d）Eltwise9图6：教师网络不同层的特征可视化。层的学生IRG（如图4（a）所示）。对于一对多模式，最后一层实验是在不同的配置下进行的两种模式。结果示于表1中。例如，“O2 M 3layer”（一对多模式，3层）是指教师的最后一个Elwise层（Elwise 9）被选择来监督学生的最后3个Elwise层（Elwise 7 -9）的情况，而“O2O 3layer”（一对一模式，3层）是指教师的最后3个Elwise层分别监督学生的相应3层的情况。活泼地根据结果，一对一模式和一对多模式都显著优于基线，而一对多模式持续优于一对一模式。图6显示了教师在不同层的特征图。可以观察到，更深的层学习更多的判别和一般特征，最后一个具有最佳判别力的Elwise层是最适合学生网络的监督。因此，一对多模式总是从教师此外，一对多模式对师生对的变化更鲁棒。如表1所示，当教师网络从ResNet 20更改为ShuffleNet-x 0. 5时，一对一模式的性能下降，而一对多模式的性能相当稳定。这是因为Elwise9学习了数据集的一般分布，这与网络架构的关系较小相反，较浅层的特征空间（如Elwise7）与网络架构密切相关。因此，当教师的设计与学生的设计完全不同时，一对一模式表现得更差128火箭64基线3216128火箭64基线3216精度O2O 1层89.87 O2O 3层90.03O2O 5层89.65O2M 1层89.87 O2M 3层90.28O2M 5层90.02精度7103表2：不同方法的模型性能。括号中标记了相对于最佳竞争方法的性能增益CIFAR10CIFAR100粗CIFAR100罚款基线88.3672.5159.88KD89.0973.0360.21FSP89.2173.1860.46在89.1573.1560.58火箭†89.3573.3960.88LIRG90.28（0.93）74.32（0.93）61.93（1.05）LMT K90.69（1.34）74.64（1.25）62.25（1.37）老师91.4578.4068.42一对多模式。在本文的其余部分，L IRG始终采用“O2M 3layer”模式，超出基线1。百分之九十二4.1.3LIRG-t的有效性IRG中除了存储实例特征和实例关系外，IRG的转换也是一种重要的知识类型。因此，将LIRG-t和LIRG组合以获得LMTK。通过比较LIRG和LMTK的性能，验证了LIRG-t(1) 超参数调整。与LIRG一样，LIRG-t的调节强度受批量和λ3的控制.这两个因素与准确度之间的关系与LIRG相比，LIRG-t对批量大小和惩罚因子的敏感性较低.因此，需要有限的时间来找到L MT K的适当λ 3。因此，根据图5（b）中的结果，我们选择批量为64，λ3为0。005为LIRG-t为其余的文件。(2) LIRG-t 的性能分析. LIRG-t考虑多对层的变换特别是，对于ResNet20，三对层被用作监督，其中每一个都表示在特定特征图分辨率下的特征空间变换。通过这种方式，整体L IRG-t从网络的开始到结束推进了特征学习过程，从而增强了模型性能。如图5所示，LMTK连续优于LIRG，这表明LIRG-t的有效性。特别是，L MTK达到90的精度。CI-FAR 10上的69%，获得0的性能增益。41%（2。33%）超过LIRG（基线）。此外，如图8所示，在LIRG-t的帮助下，LMTK在测试损失和准确度上显示出更稳定的这是因为LIRG-t考虑了网络的全局信息流，是一个更温和的约束。4.2. 性能比较在本节中，我们将所提出的方法与4种最先进的方法进行了比较，包括KD[9]，FSP[24]，AT[26]和[30][31][32][33][34][35][36][37][38][39][3 首先，在 CI-FAR 10、CIFAR 100-coarse和CIFAR 100-fine上评估了不同方法的性能。其次，通过不同的师生配对实验，对方法在网络结构上的泛化能力进行了评价。最后，我们特别在ImageNet和CIFAR 10的一个子集CIFAR10-small上进行了实验，以显示所提出的方法在不同尺度数据集上的优越性。详细的实验设置如下。4.2.1实验设置CIFAR 10、CIFAR 100 [12]、ImageNet [4]和CIFAR 10-小的用于性能评估。请注意，随机抽取10%的CIFAR10以获得CIFAR 10- small。两种类型的教师网络和三种类型的学生网络用于性能评估。具体来说，ResNet 20和ShuffleNet-x 0.5 [28]是两个教师。除了ResNet 20-x0.5之外，ResNet 20- x0.375和ResNet 14-x0.5也是可能的学生网络。ResNet 14-x0.5是通过从ResNet 20-x0.5减少3个残差块而获得的，而ResNet 20-x0.375具有0的情况。ResNet20的3754.2.2CIFAR10和CIFAR100的评价CIFAR10和CIFAR100是两个典型的知识蒸馏评价数据集。在本节中，ResNet 20和ResNet 20-x0.5分别用作教师网络和学生网络。当训练网络时，CIFAR10（CIFAR100）的图像首先被填充为36×36，然后被裁剪为32×32。此外，培训-考试司严格遵守官方议定书。根据表2中的结果，所提出的方法显著优于所有竞争方法。具体来说，L IRG比最好的竞争方法Rocket高出0. 93%比1。05%，在不同的数据集。通过将IRG和IRG变换都转化为迭代，L MTK的性能优于Rocket，从1. 25%比1。百分之三十七。由于火箭的性能增益超过基线为0。77%，1。0%，所提出的方法（1。60%比2。43%）使此性能增益加倍。我们把显著的性能改进归因于LMTK以前的方法只考虑知识的一个子集例如，KD、AT和Rocket只从教师中提取实例因此，这些竞争方法都是我们方法的特例。此外，他们都没有使用实例关系作为提炼的知识。实验表明，实例关系不仅能从教师那里提取足够的知识，而且使知识提取过程对网络设计具有更强的鲁棒性。此外，损失函数7104(a)KD（b）AT（c）FSP（d）Rocket（e）LMTK图7：Elwise9层不同方法的特性可视化每种颜色代表一个类别，最好用颜色来查看表3：不同师生对的模型表现。请注意，Rocket†采用logits作为提取的知识，并共享教师和学生的较低层因此，Rocket的型号尺寸比报道的稍大括号中的数字显示了与最佳竞争方法相比的性能提高。数据集教师网学生网.基线KDFSP在火箭†LIRGLMT K老师CIFAR10ResNet20（1.06M）ResNet20-x0.5（0.28M）88.3689.0989.1789.2989.4590.28（0.93）90.69（1.34）91.45ResNet20（1.06M）ResNet14-x0.5（0.18M）86.6587.0187.2387.1287.5388.55（1.02）89.08（1.55）91.45ResNet20（1.06M）ResNet20-x0.375（0.16M）86.5487.2387.1187.3987.6788.52（0.85）89.01（1.34）91.45ShuffleNet-x0.5（0.94M）ResNet20-x0.5（0.28M）88.3689.1289.0789.0589.2290.29（1.07）90.65（1.43）91.47CIFAR 100-粗ResNet20（1.06M）ResNet20-x0.5（0.28M）72.5173.0373.1873.1573.3974.32（0.93）74.64（1.25）78.40ResNet20（1.06M）ResNet14-x0.5（0.18M）68.5568.7668.7368.6969.0769.94（0.87）70.18（1.11）78.40ResNet20（1.06M）ResNet20-x0.375（0.16M）66.7266.9867.0767.2267.4568.26（0.81）68.57（1.12）78.40ShuffleNet-x0.5（0.94M）ResNet20-x0.5（0.28M）72.5172.9672.8772.9973.2774.22（0.95）74.56（1.29）78.69CIFAR 10-罚款ResNet20（1.06M）ResNet20-x0.5（0.28M）59.8860.2160.4660.5860.8861.93（1.05）62.25（1.37）68.42ResNet20（1.06M）ResNet14-x0.5（0.18M）56.2356.4456.3456.2656.5557.44（0.89）57.68（1.13）68.42ResNet20（1.06M）ResNet20-x0.375（0.16M）53.8754.0954.2454.3854.5255.37（0.85）55.66（1.14）68.42ShuffleNet-x0.5（0.94M）ResNet20-x0.5（0.28M）59.8860.1560.2360.3160.9761.83（0.86）62.06（1.09）68.67L、MT、K都是经过精心设计的，从而在提取的知识的通用性、充分性和适度性之间取得了很好的平衡。因此，LIRG和LIRG-t是互补的，可以提高系统的协调性能图7显示了Elwise 9层的分布学生网络的不同方法。L-MT-K方法的特征空间比其他方法的特征空间更可分离，特别是在类边界上。此外，不同的类很好地聚类，具有较小的类内变化和较大的类间变化。LMTK利用教师网络中的三种知识，使其能够学习更紧凑和有区别的表示。相反，传统的方法只利用单一类型的知识，学生网络的表达能力有限。4.2.3对不同网络的评估在这一小节中，不同的教师-学生对探索。实验结果报告于表3中。在不同的网络设置下，该方法的性能持续优于其他方法。我们发现，网络设计的鲁棒性与提取知识的类型有关。首先，有些方法对师生对的变化更敏感。例如，当教师和学生具有不同的网络架构时，FSP和AT的性能较差。这是因为FSP和AT提取了与网络相关的知识。FSP提取特征空间转换知识，AT提取中间层的注意力与网络相关的知识很难从老师变成了一个拥有不同网络设计的学生第二，KD、Rocket、LIRG和LMTK对师生对的变化相对更稳健。例如，虽然ResNet 20和ShuffleNet-x0.5具有完全不同的架构，但当教师网络发生变化时，所有四种方法都能稳定地执行这是因为这些方法利用的知识与网络体系结构并不密切相关具体来说，KD和Rocket提取教师的预测类概率，而LIRG学习实例关系。由于类概率和学习的实例关系通常是稳定的，KD、Rocket和LIRG能够对网络变化鲁棒地工作。而L、MT、K三种类型的知识也对不同的网络具有鲁棒性当其中一种类型（例如，特征转换类型）工作得稍差时，其他两种类型仍然表现良好。因此，整体性能不会显著降低。4.2.4CIFAR 10-small和ImageNet的评测为了探索该方法在不同规模数据集上的有效性，在CIFAR 10-small和ImageNet上进行了实验。根据表4中的结果，L IRG和L MTK都持续优于竞争方法，尤其是在CIFAR 10-small上。CIFAR 10-小型。对于现实世界的应用程序，通常有有限的标记图像在手。要以评估模型在小规模数据集上的性能。因此，CIFAR 10-small通过从训练集CIFAR 10中随机选择10%的样本来构建。然后7105表4：CIFAR 10-small和ImageNet上的模型性能我们随机选择10%的训练实例，次，并报告平均性能。数据集教师网学生网.基线KDFSP在火箭†LIRGLMT K老师CIFAR 10-小型ResNet20ResNet14-x0.555.5359.2960.1159.9862.2364.87 （2.64）66.04（3.81）91.45ResNet20ResNet20-x0.37557.3262.8363.2163.5264.1466.96 （2.82）68.16（4.02）91.45ImageNetResNet101-v2ResNet1870.8371.4371.2871.5871.9372.68 （0.75）73.06（1.13）78.05ResNet101-v2ResNext2674.8975.6075.6275.7376.1676.87 （0.71）77.18（1.02）78.05(a)（b）第（1）款图8：测试损失和准确度比较。所有学生网络都是在 CIFAR 10-small 上训练的，CIFAR 10测试集上的准确度见表4. 请注意，教师网络仍然在CIFAR 10的完整训练集上进行训练。根据结果，性能增益（括号中的数字）是原来的CIFAR10设置的三倍我们将其归因于提取所提出的方法的足够知识的能力以前的作品从教师网络的独立实例中提取知识。因此，他们的知识量与训练样本的数量N成正比。当训练样本很少时，知识是非常有限的LIRG和LMTK通过挖掘IRG中存储的N个实例特征和N2个实例关系，从教师那里提取更多的知识ImageNet. 在ImageNet上进行了实验，结果表明该方法在大规模数据集上的有效性由于ImageNet由数百万张高分辨率图像组成，因此ResNet 101-v2被用作教师网络，而ResNet 18和ResNext-26被引入作为学生。为了训练，图像首先被调整为299 ×299随机裁剪为224 ×224。如图3所示，LIRG和LMTK的性能优于竞争方法，巨大的利润。实验结果表明，该方法在大规模数据集上是4.2.5复杂性分析由于所提出的方法计算IRG和IRG变换，因此需要额外的训练时间和GPU内存。在这一部分中，对算法的复杂度进行了分析。根据实验结果，在不同的实验设置下，额外的资源成本是有限的。特别是，额外的时间和内存与批次大小和特征通道数成正比。换句话说，一旦批量大小和特征通道固定，额外的训练时间和GPU内存就是一个常数。具体来说，对于CIFAR 10，培训一名学生需要3-4个小时，LMTK，而Rocket的典型时间为1.2小时，基线的典型时间约为1小时。对于Ima-geNet，与一周的基线过程相比，LMTK只需要大约4个小时。另一方面，CIFAR10和ImageNet的额外 GPU内存成本约为100M因此，所提出的方法可以很容易地部署到现实世界的应用程序与一点额外的训练资源成本，但显着的性能增益。虽然引入了额外的损失函数，但所提出的方法与最佳竞争方法相比，收敛时间相近或更少。如图8所示，在相同的训练配置下，与Rocket相比，L IRG和LMTK 都实现了更低的测试损失和更高的准确性。此外，由于L IRG-t引入了特征空间变换这一适度知识，LMTK具有更稳定的收敛性.5. 结论我们发现，知识可以分为三种类型：实例特征、实例关系和特征空间变换。然而，最近的作品只集中在实例功能。本文定义了一个实例关系图（IRG），以保持所有类型的知识.提出了基于IRG的知识提炼方法，并给出了不同知识类型对应的提示损失函数，以优化学生网络。实验证明，该方法对师生结构变化具有较强的鲁棒性此外，它在大规模和小规模数据集上都显示出优于现有方法的性能谢谢。这项工作得到了国家重点研发计划的部分支持。 2017YFB1002801和2016QY01W0106）、国家自然科学基金（Nos.U1803119、U1736106、61751212、61721004、61772225和61876100），国家自然科学基金会-基础研究通用技术合作基金（批准号：U1636218）、中国科学院前沿科学重点研究项目（批准号：QYZDJ-SSW-JSC 040）、北京市自然科学基金（Nos. JQ18018、L172051、L182058）和中科院对外合作重点项目。李冰还得到了中国科学院青年创新促进会的支持。7106引用[1] J. Ba和R.卡鲁阿纳深网真的需要深吗？神经信息处理系统的进展，第2654-2662页，2014年[2] Ballester和R. M.阿劳霍。论googlenet和alexnet应用于草图的性能。在AAAI，第1124-1128页[3] M.库尔巴里奥岛Hubara，D.苏德里河El-Yaniv，以及Y.本吉奥。二进制神经网络：训练深度神经网络，权重和激活限制为 +1 或 -1 。 arXiv 预印本 arXiv ：1602.02830，2016。[4] J. Deng，W.东河，巴西-地索赫尔湖J. Li，K. Li和L.飞飞。Imagenet：一个大规模的分层图像数据库。在计算机视觉和模式识别，2009年。CVPR 2009。IEEE会议，第248-255页。Ieee，2009年。[5] S. 汉，H. Mao和W. J·达利深度压缩：使用修剪、训练量化和霍夫曼编码压缩深度神经网络。arXiv预印本arXiv：1510.00149，2015。[6] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。CoRR，abs/1512.03385，2015。[7] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在 Proceedings of the IEEE conference oncomputer vision and pattern recognition，pages 770[8] Y.他，X。zhang和J.太阳用于加速非常深的神经网络的通道修剪。在国际计算机视觉会议（ICCV），第2卷，2017年。[9] G. Hinton，O.Vinyals和J.Dean. 在神经网络中提取arXiv预印本arXiv：1503.02531，2015。[10] G. Huang，Z.柳湖，加-地Van Der Maaten和K.Q. 温伯格密集连接的卷积网络。在CVPR，第1卷，第3页，2017年。[11] F. N.扬多拉，S。汉，M。W.莫斯基维茨K.阿什拉夫，W。J.达利和K.库茨Squeezenet：Alexnet级精度，参数减少50倍，模型大小为0.5 mb。arXiv预印本arXiv：1602.07360，2016.[12] A.克里热夫斯基河Nair和G.辛顿Cifar-10和cifar- 100数据集。网址：https：//www.cn.cnCS.多伦多edu/kriz/cifar.html（3月10日）1，2016），2009.[13] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。在神经信息处理系统的进展，第1097-1105页[14] H. Li，长穗条锈菌A.卡达夫岛Durdanovic，H. Samet和H. P·格拉夫修剪过滤器以实现高效的卷积。arXiv预印本arXiv：1608.08710，2016。[15] Z. Liu，J. Li，Z. Shen，G. Huang，S. Yan和C.张某通过网络瘦身学习高效的卷积网络。在计算机视觉（ICCV），2017年IEEE国际会议上，第2755-2763页。IEEE，2017年。[16] L.卢，M. Guo和S.肾小规模公路网的知识提炼。在声学，语音和信号处理（ICASSP），2017年IEEE国际会议上，第4820-4824页。IEEE，2017年。[17] J. - H. Luo和J. Wu.一种基于

下载后可阅读完整内容，剩余1页未读，立即下载