KDCL：一种高效的在线知识蒸馏方法

59 浏览量更新于2023-10-23 收藏 1.36MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1Student1分享取消共享2栅极X取消共享1学生2基于协作学习的郭秋山1、王新江2、吴义超2、余志鹏2、丁亮2、胡晓林3、罗平4、1北京邮电大学2商汤科技集团有限公司3清华大学4香港大学qsguo@bupt.edu.cnxlhu@mail.tsinghua.edu.cnpluo@cs.hku.hk{wangxinjiang，wuyichao，yuzhipeng，liangding}@ sensetime.com摘要这项工作提出了一种高效而有效的在线知识蒸馏方法，称为KDCL，它能够持续提高具有不同学习能力的深度神经网络（DNN）的泛化能力。与现有的两阶段知识蒸馏方法不同，现有的两阶段知识蒸馏方法预先训练具有大容量的DNN作为“教师”，然后将教师的知识单向地（即，单向），KDCL将所有DNN视为（a）基准(c)一(b)DMLX1X2学生2（d）KDCL计算，和吸引人的泛化能力。具体地说，我们精心设计了多种方法，通过有效地融合学生的预测和扭曲输入图像来生成软目标作为监督。广泛的实验表明，KDCL一致地提高了不同数据集上的所有例如，当使用KDCL 一起训练时， ResNet-50 和 MobileNetV 2 在ImageNet上实现了78.2%和 74.0%的top-1准确率，分别比我们还验证了使用KDCL预训练的模型可以很好地转移到MS COCO数据集上的对象检测和语义分割。例如，FPN检测器改进了0.9%mAP。1. 介绍知识提炼[10]通常被表述为“教师-学生”学习环境。它能够提高紧凑的“学生”深度神经网络的性能，因为“教师”网络的表示可以用作结构化知识来指导学生的训练。预测（例如，软目标）可以被学生容易地学习，并且鼓励其比从头开始训练的更好地概括然而，在这方面，图1：（a）[10]从静态预训练教师对学生的模式(b)学生可以在[32]中互相学习。(c)[15]采用多分支设计建立教师。大门是为了把所有的树枝都系在一起。(d)KDCL始终从所有学生产生的软目标中获得额外的信息，优于现有的方法。每个模型的输入分别随机扭曲，以增加其泛化能力。当在ImageNet上使用KDCL训练模型对时，由于ResNet-18的知识，ResNet-18提高了1.9%，ResNet-50提高了1.0%。在传统的离线知识蒸馏框架中，教师首先被预先训练然后被固定，这意味着知识只能从教师转移到学生（即，单向），如图所示。1a.在线蒸馏方法[32，15]更有吸引力，因为训练过程被简化为单个阶段，并且所有网络都被视为学生。这些方法合并了所有学生网络的训练过程，使他们能够从彼此那里获得额外的知识。学生直接从深度相互学习（DML）[32]中其他学生的预测中学习，如图所1b.然而，学生的输出可能是多样的，相互冲突，甚至与地面真理。当模型间性能差异较大时，该方法对性能较高的模型不利11020学生X老师XStudent1Logit合奏LogitLogit LogitLogit合奏LogitLogitLogit11021曼斯。[15]（ONE）提出的另一种方法是在动态建立教师的同时训练多分支网络，如图所示1c. 尽管如此，这种方法是不灵活的，因为网络被迫共享较低的层和知识转移只发生在一个单一的模型，而不是其他模型的上层，限制了额外的知识和性能。门模块不是高质量软目标的保证。自蒸馏[6]表明，将一个融合的教师模型蒸馏成一个具有相同网络架构的学生模型，与教师相比，可以进一步提高泛化能力。自蒸馏和在线蒸馏的功效使我们产生以下问题：我们是否可以在一级蒸馏框架中使用一个小网络来改进具有更大容量的模型？在这项工作中，我们提出了一种新的在线知识蒸馏方法，通过协作学习。在KDCL中，具有不同能力的学生网络协同学习1d.高质量的软目标监督的目的是指导学生与显着的表现差距一致收敛，更高的泛化能力和较小的方差输入扰动在数据域。主要的挑战是产生软目标监督，可以提高所有学生的表现与高信心，有不同的学习能力或显着的性能差距。当模型的输出中存在多样性时，集成往往会产生更好的结果[14]。因此，我们建议通过在线方式将学生的输出与地面实况的信息仔细组合来生成高质量的软目标监督。此外，我们还提出了通过在验证集上测量模型来估计泛化误差。在验证集上生成具有较强泛化能力的软目标为了提高对输入数据域扰动的不变性，软目标应鼓励学生用类似的失真输入图像进行类似的因此，学生被馈送与图像，这是单独扰动从相同的输入，和软目标的输出组合和融合的信息的数据增强。在这种情况下，进一步利用模型集成的好处。为了评估 KDCL 的效果，我们对图像分类基准CIFAR-100 [13]和ImageNet-2012 [4]进行了广泛的实验。我们证明，使用KDCL，成对训练的ResNet-50 [8]和 ResNet-18 实现了 77.8% 和 73.1% 的 val 准确度。ResNet- 18的性能比基线高出1.9%，ResNet-50由于ResNet-18的额外知识而获得了1.0%的改进我们还验证了使用KDCL很好地转移到COCO数据集上的对象检测和语义分割[17]。我们的贡献如下。设计了一种新的基于协作学习的知识提取流水线不同学习能力的模型可以从协作训练中受益。设计了一系列的模型集成方法，在一个一阶段在线知识蒸馏框架中动态生成高质量的软目标。通过知识传递和对不同畸变图像的输出进行融合，增强了对输入域扰动的不变性。2. 相关工作[2，10]提倡神经网络的知识转移，以将知识从教师提取到学生。一个明显的方法是让学生模仿教师模型的输出[2]提出通过惩罚学生和教师之间的logits差异来改进浅层网络。[10]通过最小化其输出分类概率的Kullback-Leibler（KL）发散损失来实现知识蒸馏知识结构在前人工作的基础上，提出了许多方法来挖掘教师更多的信息。[20]通过进一步利用中间隐藏层的特征呃。[31]定义了与蒸馏相结合的附加注意力信息。[18]通过距离方向和角度方向损失来挖掘数据示例的相互关系。[23]建立了雅可比匹配和蒸馏之间的等价关系。[9]通过路由将更准确的信息传递到决策边界。最近几篇关于自升华的论文[29，3，6，28]表明，收敛的教师模型监督具有相同体系结构的学生模型可以提高教师的泛化能力。与模仿复杂模型不同的是，KDCL在学习中涉及所有网络，并通过融合学生的信息提供提示。KDCL算法在不增加中间层损失的情况下，降低了模型优化的难度协作学习在在线蒸馏框架下，学生在培训过程中模仿教师. DML [32]建议同龄学生相互学习通过每对学生之间的交叉熵损失。共蒸馏[1]类似于DML，而它通过在更新足够多的步骤后增加蒸馏损失来迫使学生网络保持其多样性更长时间。受自升华思想的启发，提出了训练目标网络的多分支变量，以建立动态的强教师。ONE [15]构建多个分支分类器并训练门控制器以对齐教师的预测。CLNN [22]促进了每个人···110222图2：通过协作学习（KDCL）进行知识蒸馏的概述。我们输入图像失真分别为每个网络，以增加对数据域中扰动的不变性。KDCL动态整合所有学生产生的软目标，以持续提高学生。h（x，）表示随机失真，是随机种子。分支的分层多分支设计，并建议相应地缩放梯度与上述方法通过平均logits生成软目标不同软目标也被设计为在输入数据域中改进不变性。我们的工作也与网络集成方法有关。多数投票，堆叠生成[27]，GASEN [33]和超级学习者[12]，例如，请选择可靠的预测。Dropout [24]，Drop- Connection[26]和Stochastic Depth [11]通常在训练期间创建具有共享权重的指数，然后在测试时对其进行平均。该方法注重融合学生信息，保证软目标质量，提高学生的泛化能力。3. 面向知识传播的协作学习3.1. 背景知识升华就是在教师网络的监督下优化学生网络.更准确地说，损失是教师网络和学生网络的软化输出的KL散度，如[10]所定义的教师模型教师Top-1学生前1名ResNet-3473.570.8ResNet-5076.571.2ResNet-10177.971.4表1：ImageNet-2012验证集上的Top-1准确度。第二列是预训练的教师模型的性能，第三列是使用KD损失训练的学生模型准确度。学生在硬目标的监督下获得了70.1%的准确率。学生和教师的logit为zs和zt。则q=softmax（zs/T）和软目标p=softmax（zt/T）。一个高素质的教师对于优化一个好学生至关重要。如果教师没有得到很好的优化，并提供嘈杂的监督，软目标和地面实况相互冲突的风险变得很高。我们使用ResNet-18 [8]作为ImageNet数据集的学生模型来评估教师质量的影响。所有的教师模型和学生模型都被训练了100个epoch。在选项卡中。1、比较同一学生网络在不同教师模式下的性能。当教师规模对学生来说不是太大时，教师的绩效会提高，从而通过成为更好的预测者为学生提供更好的3.2. 我们的方法1ΣnLKD=i=1T KL（pi， qi），（1）概况. 我们建议KDCL以在线方式自动生成软目标，如图2所示二、该框架可以被视为一个超级网络，其中n是批量，T是温度参数，p和q表示教师网络和学生网络产生的软化概率分布。我们注意到多个单独的子网络。对原始图像分别用不同的随机种子进行增强，生成软目标对所有网络进行我们提出增强Logits 1损失L1ceS1L1KDLogits 2集合逻辑L2ceL2S2KDLogits mLmKDSMLmce网络m网络2网络1输入n11023−LKDj，ij，iCEt），提出了一系列软目标的生成方法，保证了不同能力的学生都能从协作学习中受益，增强了网络对输入扰动的不变性。注意，所有模型都可以独立预测，因此改进不会招致额外的测试计算成本。损失函数通过KD损失将软目标的知识提取到各个子网络中，以提高泛化性能。所有的子网络都是从头开始训练的。使用标准的交叉熵损失，所有网络都使用多任务损失函数进行端到端训练ΣmL=i+λLi，（2）i=1KDCL-MinLogit。KDCL-Linear在训练过程中会引起另一个优化问题，而我们希望网络集成是有效的。作为替代方案，我们提出了KDCL-MinLogit方法来生成软目标。logit值之间的差异决定了softmax函数产生的概率分布。因此，输出概率表示为p=softmax （ z ） =softmax （ z−zc ），（6）其中zc是对应于logit中的目标类c的元素。定义zc=z zc，则z c的第c个元素为0对于所有子网。当logit中的其他元素为-越小，与独热标签的交叉熵损失将减小。然后，生成教师logit的一种简洁方法是选择矩阵Z c的每行的最小元素，其可以定义为Zc=（zc，zc，.，zc）。更多前-其中，LKD是学习的输出与学习的输出之间的KL散度凹痕和软目标，λ是权衡权重。KDCL-Naive。在我们的框架中，所有的模型都是学习模型，通过组合模型的输出来生成监督。假设有m个子网络，第k个子网络的logit被定义为zk。教师logitzt表示为：zt=h（z1，z2，.， zm），（3）其中h是产生与学生的logit更高质量的logit比较的函数。假设训练样本和测试样本遵循相同的分布，在训练集上损失较少的模型预测鼓励学生更快地收敛。一种简单的组合方法是选择logit，1 2 m准确地说，教师logit可以表示为zt，j= min{Zc|i= 1，2，… m}，（7）其中zt，j是软目标zt的第j个元素，Zc是Zc中第j行第i列的元素。这种方法与主流的深度学习框架兼容KDCL-General。具有较强概括能力的教师通常指导学生更好地收敛对验证数据集的性能可以被视为泛化能力的一种衡量因此，我们建议找到m个组件网络的最佳集成来逼近一般教师。我们从训练集中随机选取N个示例来构建验证集Dv和分量网络的预测是一致的。通过加权平均来组合。重量应满足所有学生中交叉熵损失最小，wi∈[0，1]（i=1，2，.，m）和Mi=1 wi=1。在这可以被定义为zt= zk，k= arg minLCE（zi，y）， ⑷我其中，y是独热标签，并且LCE是标准交叉熵损失。KDCL-线性。单纯的组合容易实现，但教师逻辑素质不够。公司简介设置，我们专注于测量泛化能力，因此，讨论的是概率而不是logit。输入x的泛化误差定义为E（x）=（f（x）−2（8）其中f（x）是目标类别的预测概率，t是基础事实。集成网络的泛化误差可以表示为Linear将教师logit定义为子网络logit的最佳线性组合，这是一种简单但有用的信息融合。找出最佳线性组合可以看作是一个优化问题。 Let矩阵Z=（zT; zT;. ; zT）。矩阵Z的每一列表示：∫。ΣmE=i=1ΣmΣmΣ2wifi（x）−t p（x）dx（九）1 2m=wiwjCij，发送学生的logit。这个问题可以用如下：i=1j=1其中p（x）是数据分布，Cij表示为∫最小LCE（αTZ，y），取决于α∈RmΣmi=1αi=1，αi≥0（5）Cij=（fi（x）11024≈N−t）（fj（x）−t）p（x）dx1ΣN（十）当量5是一个凸优化问题，很容易解决。k=1（fi（xk）−t）（fj（xk）−t）11025CCIJM××一般来说，数据的分布是未知的或难以处理的。因此，经验分布被适配为近似值。根据等式9和对权重的约束，最优权重w可以通过La- grange乘法器如下求解：w=0m−1j=1kj、（11）KMi=1m−1j=1ij其中wk是最优权重w的第k个元素，C-1是C的逆矩阵的第i行和第j列的值。测量泛化误差会导致很小的计算成本，并且由于小的学习率，几步更新神经网络的参数不会急剧改变输出。因此，我们更新了每个训练时期之后的最优权重向量w。此外，在没有任何先验知识的情况下，我们假设所有的COM-表2：ImageNet上的Top-1准确率（%）。所有的模型都用我们的训练过程重新实现，以便进行公平的比较。增益表示组件学生网络改进的总和。ONE和CLNN与不同的网络结构不兼容。因此，仅比较ResNet-18的准确性。分量网络在初始化中具有相等的权重1，软目标是加权平均概率分布。不变的协作学习。为了提高对数据域中的扰动的不变性，我们生成相同的软目标的所有学生与类似的失真图像喂养因此，我们随机抽样im-对每个子网络采用相同的数据增强策略，并将知识与上述集成方法融合。该方法增加了训练数据的数量和多样性。在知道额外的训练数据的情况下，软目标鼓励子网络具有较低的泛化误差。4. 实验在本节中，我们进行了一系列实验来评估我们在图像分类基准上的训练机制，并在COCO数据集[17]上进行转移实验，COCO数据集是对象检测和分割领域中广泛使用的基准。4.1. ImageNet上的结果在ImageNet上的实验中，我们分析了我们基于学生对ResNet-50和ResNet-18生成软目标的方法的有效性，并在ImageNet上评估了一系列网络架构。数据集和训练细节。ImageNet数据集包含1000个对象类，约128万张图像用于训练，50，000张图像用于验证。我们从训练集中分离出20，000张图像，每个类20个样本，作为KDCL-General子网络泛化能力的验证集因此，原始验证集被视为测试集。我们遵循ResNet训练程序。学习速率从0.1开始，在5之后线性升温至0.8香草71.290.011.7M一个[15]72.290.629.5MKDCL MobileNetV2x1.2七十二9九十8十六岁4M[22]第二十二话72.490.740.5MKDCL ResNet-50七十三。191.2三十七2M表3：ImageNet上的Top-1和Top-5准确率（%）。主干是ResNet-18。ONE用3个分支（Res4块）训练，CLNN具有4个头的分层设计。对于KDCL，ResNet-18使用对等网络进行训练。时代我们将权重衰减设置为0.0001，批量大小设置为2048，动量设置为0.9。所有的ResNet模型都训练了200个epoch，在60、120和180 epoch时，学习率下降了0.1 。 As a default, the MobileNetV2 [21] models areoptimized for 300 epochs by stochastic gradi- ent descent(SGD) with a warm-up learning rate to 0.8 and decay it by0.1 at 90, 180 and 270 epoch.我们应用比例和纵横比增强以及光度失真[25]。在测试期间，图像被缩放到256256后面跟着224224中心作物。定量比较。选项卡. 2显示ImageNet上的前1名准确率。KD表示知识蒸馏[10]。DML代表深度相互学习[32]。ONE [15]和CLNN [22]是自蒸馏方法，与不同的网络结构不兼容。因此，仅比较ResNet-18的准确性。从选项卡中的结果。2、我们可以做以下几点重要的观察。DML可以为紧凑模型生成适当的软目标，但当存在显著的性能差距时会损害复杂模型，因为紧凑模型的预测与复杂模型和地面实况相冲突。KDCL-Linear的性能优于KDCL-Naive，因为它具有更高质量方法ResNet-50ResNet-18增益香草76.871.20[10]第10话76.872.10.9[32]第三十二话75.871.7-0.5一个[15]-72.2-KDCL-Naive77.572.92.4KDCL-线性七十七。8七十三。1二、9方法Top-1Top-5Params11026的软目标。11027××型号1 Top-1型号2 Top-1方法0.80.60.40.20.0虎猫土豆泥豚鼠台灯晴雨表短号Band Aid枕斧绿蜥蜴图3：ResNet-50和ResNet-18在ImageNet验证集部分类别上的比较网络12345前1名（%）70.171.371.6171.7571.87表4：不同子网在ImageNet验证集上的比较结果。MBV2是MobileNetV2 的缩写。 MBV2x0.5 表示宽度乘数为 0.5 。ResNet-50* 和 ResNet-18* 训练 100 个 epoch 。 MBV2* 和MBV2x0.5* 被训练200个时期。KDCL-MinLogit可以更有效，性能与KDCL-Linear相当。KDCL-General的结果是不够好，因为不精确的估计。集成预测的权重在每个历元而不是每次迭代中更新以节省计算成本，因此生成的软目标不如KDCL-Linear和KDCL-MinLogit。在ONE [15]和CLNN [22]的设置之后，共享低级层以保存参数。将多个分支组合起来，相当于多个相同的网络。为了公平的比较，我们选择了一个单一的模型作为对等网络的参数比多分支架构。我们的方法超越了复杂的一门控制器预测可学习的en-prologits和精心设计的CLNN与分层结构，如表所示。3 .第三章。结果表明，由于多分支设计，ONE和CLNN受到了额外知识的限制。我们提出的方法适用于各种架构。因此，我们对复紧对和紧紧对进行了实验。选项卡. 4显示，更紧凑的模型MobileNetV2 0. 5可以为MobileNetV 2，ResNet-18甚至ResNet-50提供提示，因为紧凑模型可以在某些样本上击败复杂模型，如图所示。3.第三章。0. 5与1.9M参数有助于提高ResNet-50与25.6M。事实证明，我们的方法适用于以下情况：表5：KDCL受益于集成更多的子网络。所有网络都是ResNet-18，以防止网络性能差异的影响。模型RES-50 RES-18 MBV2 MBV 2x0.5 增益香草76.871.272.064.80KDCL78岁2七十三。574岁066岁。97 .第一次会议。8表6：ImageNet上的Top-1准确率（%）。ResNet-50在三个紧凑模型的基础上得到了显著的改进模型长时间的训练运行可以通过随机扭曲训练图像来提供更多种类的软目标来提高精度。因此，ResNet- 50和ResNet-18的top-1准确率在另外100个训练epoch中进一步提高了0.8%和1.0%。加入更多模特。主要的实验表明，使用两个子网络的良好效果。我们还证明，集成更多的模型通常会提供更好的准确性。选项卡. 结果表明，将两个子网络组合在一起可以显著地优于基线模型。KDCL的规模以及更多的子网络，但随着网络的增加，增益下降。我们推测，强系综网络和自适应网络之间的相互信息随着系综规模的增大而在ImageNet上利用不同容量的神经网络进一步进行了实验。选项卡. 图6显示ResNet-50利用来自三个紧凑模型的知识实现了78.2%的top-1准确度4.2. CIFAR结果ResNet-50ResNet-18精度MBV272.0MBV 2x0.564.8香草MBV2七十三。1MBV 2x0.566.2线性MBV2七十三。1MBV 2x0.566岁。3MinLogitResNet-1871.2MBV 2x0.564.8香草ResNet-1871.8MBV 2x0.5*六十五6线性ResNet-1871.2MBV272.0香草ResNet-1872.1MBV 2 *七十二8线性ResNet-18七十二2MBV 2 *七十二8MinLogitResNet-5076.8MBV 2x0.564.8香草ResNet-5077.5MBV 2x0.5*67岁1线性ResNet-50七十七。7MBV 2x0.5*66.8MinLogitResNet-50*76.5ResNet-18*71.2香草ResNet-50*76.8ResNet-18*72.0线性ResNet-50*七十七。0ResNet-18*七十二1MinLogit11028数据集和训练细节。 CIFAR-100包括32×32彩色图像，包含100个类别。数据集11029×方法ICLResNet-32Accc %WRN-16-2Accc %增益脊椎型框地图掩模地图ResNet-18（基线）更快32.2-ResNet-18（我们的）更快三十三岁。1-ResNet-18（基线）掩码33.430.7ResNet-18（Our）口罩三十四031岁3KDCL-Naive√73.774.86.4KDCL-Naive73.874.96.6KDCL-线性√73.474.65.9KDCL-线性73.674.96.4KDCL-MinLogit√73.074.15.0KDCL-MinLogit73.574.66.0KDCL-一般√74.075.27.1KDCL-一般74岁375. 57 .第一次会议。7表7：我们的生成蒸馏方法在CIFAR-100数据集上的比较和消融结果。ICL是不变协同学习。我们仅报告ResNet-32的准确性，因为ONE和CLNN与WRN-16-2不兼容。被分成具有50，000个图像的训练集和具有10，000个图像的测试集。对于KDCL-General，我们从训练集中分离出所有模型都训练了200个epoch，学习率从0.1开始，学习率下降了0.1 在 100 和 150 个时期。我们将权重衰减设置为0.0005，批量大小设置为128，动量设置为0.9。所有的训练图像都用4个像素填充，并且从填充的图像或其水平翻转中随机采样32 32裁剪。温度T和λ分别为2和1sepa。非常地准确度计算为5次运行的中位数。知识蒸馏缓解了过度拟合。 Tab的第二行和第三行。结果表明，学生模型对知识的提炼具有更广泛的适用性，甚至超过了教师模型。对于蒸馏（表2第2行）7）从Wide-ResNet-16 [30]（加宽因子为2（WRN-16-2））到ResNet-32，我们观察到学生网络ResNet-32在训练集上的准确率为 93.37%，落后于教师网络WRN-16-2的99.39%，而测试误差低于WRN-16-2。这一现象说明知识蒸馏可以缓解过拟合现象.定量比较。由于有效的学习机制和端到端的训练方式，我们提出的大多数方法都优于DML。11030表8：COCO 2017验证集的平均精度（AP），使用预训练的ResNet-18 。所有模型都用作 Faster-RCNN [19] ， Mask-RCNN [7]基于FPN [16]的主干。ImageNet上的结果。我们推测CIFAR-100训练集上交叉熵损失较小的软目标会导致过拟合，就像一个热门标签一样。KDCL-General根据验证集上的最优加权平均值，通过更通用的教师模型显著提高了性能。这一结果证明，我们的方法可以进一步提高知识蒸馏的能力，以减轻过拟合。当数据量有限时，拟合能力和泛化能力之间存在一个折衷。表1中的消融研究7表明，不变的协作学习是有前途的。这种改进来自于不同畸变图像的信息融合，共享的软目标也鼓励子网络在相似的输入下相似地输出。4.3. 迁移学习数据集和训练细节。我们遵循常用的实践[19，7]将40k验证集划分为35k和5k子集。包含80k图像的训练集和35k子集用于训练。用极小值集表示的5k子集来验证我们的结果。所有模型都在8个GPU上训练了14个时期，每个GPU上有4张图像。学习率从0.04开始，在9和12个时期下降0.1重量衰减为0.0001，动量为0.9。为了充分利用模型的容量，所有批归一化层都处于同步模式，并且没有权重被冻结。我们使用ROI- Align [7]替换ROI-Pooling，以获得更好的默认结果。结果选项卡. 8报告了对象检测和实例分割在标准AP度量上的验证集性能（对应于IOU的平均AP，从0.5到0.95，步长为0.05）。基于在使用KDCL训练的ResNet-18上，检测头的性能超出基线0.9%。我们提出的学习机制也带来了0.6%的实例分割的改进。这些改进来自于更有力的概括。总之，这组实验具有多阶段参数更新。观察到一个有趣的现象，KDCL-MinLogit和KDCL-Linear比KDCL-Naive更差，这与KDCL-Naive冲突。证明了我们的学习机制所引起的改进可以在广泛的任务和数据集上实现香草69.972.202蒸馏1 [10]73.372.23.41蒸馏2 [10]69.974.52.3[32]第三十二话73.374.86.0一个[15]73.6--[22]第二十二话73.4--1103111032引用[1] Rohan Anil，Gabriel Pereyra，Alexandre Passos，RobertOr- mandi，George E Dahl，and Geoffrey E Hinton.大规模分布式神经网络的在线训练. arXiv预印本arXiv：1804.03235，2018。2[2] 吉米·巴和里奇·卡鲁阿纳深网真的需要深吗？神经信息处理系统的进展，第2654-2662页，2014年。2[3] Hessam Bagherinezhad 、 Maxwell Horton 、 MohammadRastegari和Ali Farhadi。标签精炼厂：通过标签进展改进图像基因组分类。arXiv预印本arXiv：1805.02641，2018。2[4] J. Deng，W.东河，巴西-地索赫尔湖J. Li，K. Li和L.飞飞。ImageNet：一个大规模的分层图像数据库。在IEEE计算机视觉和模式识别会议（CVPR），2009年。2[5] Terrance DeVries和Graham W Taylor。改进的卷积神经网络的正则化。 arXiv 预印本 arXiv ： 1708.04552 ，2017。8[6] Tommaso Furlanello ， Zachary C Lipton ， MichaelTschan-nen，Laurent Itti，and Anima Anandkumar.重生的神经网络arXiv预印本arXiv：1805.04770，2018。2[7] 何凯明、乔治亚·吉克萨里、彼得·多勒和罗斯·吉尔希克。面具R-CNN。2017年10月在IEEE计算机视觉国际会议（ICCV）上发表。7[8] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议（CVPR）中，第770-778页，2016年。二、三[9] Byeongho Heo，Minsik Lee，Sangdoo Yun和Jin YoungChoi。支持决策边界的对抗样本知识提取。在AAAI人工智能会议论文集，第33卷，第3771- 3778页2[10] Geoffrey Hinton Oriol Vinyals和Jeff Dean。提取神经网络中的知识。arXiv预印本arXiv：1503.02531，2015。一二三五七[11] Gao Huang，Yu Sun，Zhuang Liu，Daniel Sedra，andKilian Q Weinberger.深度随机的深度网络。欧洲计算机视觉会议，第646施普林格，2016年。3[12] ChengJu，Aur e'lienBibaut，andMarkvanderLaan. 集成方法与深度卷积神经网络用于图像分类的相对性能应用统计学杂志，45（15）：2800-2818，2018。3[13] 亚历克斯·克里热夫斯基从微小的图像中学习多层特征。2009. 2[14] Ludmila I Kuncheva和Christopher J Whitaker.分类器集成中的多样性度量及其与集成精度的关系机器学习，51（2）：181-207，2003年。2[15] 徐澜，朱夏天，龚少刚。通过即时本地集成进行知识蒸馏第32届神经信息处理系统国际会议论文集，第7528-7538页。Curran Associates Inc. 2018. 一、二、五、六、七[16] Tsung-Yi Lin ， Piotr Dollar ， Ross Girshick ， KaimingHe，Bharath Hariharan，and Serge Belongie.用于对象检测的特征金字塔网络。在IEEE计算机视觉和模式识别会议（CVPR），2017年7月。7[17] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。欧洲计算机视觉会议，第740Springer，2014. 二、五[18] Wonpyo Park，Dongju Kim，Yan Lu，and Minsu Cho.相关知识的提炼。在IEEE计算机视觉和模式识别会议（CVPR）上，2019年6月。2[19] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn：利用区域建议网络进行实时目标检测。神经信息处理系统的进展，第91-99页，2015年。7[20] Adriana Romero 、 Nicolas Ballas 、 Samira EbrahimiKahou 、 Antoine Chassang 、 Carlo Gatta 和 YoshuaBengio。Fitnets：薄而深的网的提示。arXiv预印本arXiv：1412.6550，2014。2[21] Mark Sandler 、 Andrew Howard 、 Menglong Zhu 、Andrey Zh- moginov和Liang-Chieh Chen。Mobilenetv2：反演残差和线性瓶颈。在IEEE计算机视觉和模式识别会议（CVPR），第4510-4520页5[22] 宋国聪和柴伟。深度神经网络的协作学习。神经信息处理系统的进展，第1832-1841页，2018年。二五六七[23] Suraj Srinivas和Francois Fleuret。知识转移与雅可比匹配。在Jennifer Dy和Andreas Krause编辑的Proceedingsofthe35thInternationalConferenceonMachineLearning ，第 80 卷 Proceedings of Machine LearningResearch，第4723-4731页瑞典斯德哥尔摩，2018年7月10日至15日。PMLR。2[24] Nitish Srivastava，Geoffrey Hinton，Alex Krizhevsky，Ilya Sutskever，and Ruslan Salakhutdinov.Dropout：防止神经网络过拟合的简单机器学习研究杂志，15（1）：1929-1958，2014。3[25] Christian Szegedy ， Wei Liu ， Yangqing Jia ， PierreSermanet ， Scott Reed ， Dragomir Anguelov ， DumitruErhan，Vincent Vanhoucke，and Andrew Rabinovich.更深的回旋。在 IEEE 计算机视觉和模式识别会议（CVPR），第1-9页，2015。5[26] Li Wan，Matthew Zeiler，Sixin Zhang，Yann Le Cun，and Rob Fergus.使用drop- connect的神经网络正则化。机器学习国际会议，第1058-1066页，2013年。3[27] 大卫·H·沃伯特。堆叠泛化。神经网络，5（2）：241-259，1992年。3[28] 杨成林、谢灵犀、苏驰和艾伦·L。尤尔。快照蒸馏：一代师生优化。在IEEE计算机视觉和模式识别会议（CVPR）上，2019年6月。2[29] Junho Yim，Donggyu Joo，Jihoon Bae，and Junmo Kim.知识升华的礼物：快速优化，网络11033最小化和迁移学习。在IEEE计算机视觉和模式识别会议（CVPR），第4133-4141页2[30] Sergey Zagoruyko和Nikos Komodakis广泛的残余网络。arXiv预印本arXiv：1605.07146，2016。7[31] Sergey Zagoruyko和Nikos Komodakis更加注意的：通过注意转移提高卷积神经网络的性能。在ICLR，2017。2[32] Ying Zhang，Tao Xiang，Timothy M Hospedales，andHuchuan Lu.深度相互学习。在IEEE计算机视觉和模式识别会议（CVPR）中，第4320-4328页，2018年。一、二、五、七[33] Zhi-Hua Zhou，Jianxin Wu，and Wei Tang.集成神经网络：多个可能比所有更好人工智能，137（1-2）：239-263，2002。3

下载后可阅读完整内容，剩余1页未读，立即下载