自蒸馏：提高卷积神经网络性能的训练框架

118 浏览量更新于2023-10-12 收藏 1.43MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3713做自己的老师：利用自蒸馏提高卷积神经网络的性能张林峰1宋杰波3高安妮3陈经纬4鲍成龙2马凯生1马1清华大学跨学科信息科学研究院2清华大学丘氏数学科学中心3清华大学跨学科信息核心技术4海思{zhang-lf19，kaisheng，clbao}@ mail.tsinghua.edu.cn{songjb，gaoan}@ iiisct.com，jean. hisilicon.com摘要卷积神经网络在各种应用场景中得到了广泛的应用。为了将应用在本文中，我们提出了一个通用的训练框架命名为自蒸馏，显着提高性能（准确性）的卷积神经网络通过缩小而不是扩大它的网络的大小。与传统的知识抽取--网络间的知识转换方法不同，该方法迫使学生神经网络逼近预先训练好的教师神经网络的softmax层输出，所提出的自蒸馏框架在网络本身中提取知识。网络首先被划分为几个部分。然后，网络中较深部分的知识被挤压到较浅的部分。实验进一步证明了所提出的自蒸馏框架的泛化：平均精度提高2.65%，最低为ResNeXt的0.61%，最高为VGG 19的4.07%。此外，它还可以在资源有限的边缘设备上提供深度方向可扩展推理我们的代码已在Github5上发布。5https://github.com/ArchipLab-LinfengZhang/pytorch-自蒸馏。6本文得到了北京人工智能研究院跨学科信息核心技术研究所和中关村海华前沿信息技术研究院的支持。*通讯作者。1. 介绍在卷积神经网络的帮助下，图像分类[22，34]，对象检测[28]和语义分割[7，40]等应用正在以前所未有的速度发展。然而，在一些要求不能容忍错误的应用中，例如自动驾驶和医学图像分析，预测和分析精度需要进一步提高，同时需要更短的响应时间。这给当前的卷积神经网络带来了巨大的挑战。传统的方法集中在提高性能或减少计算资源（因此响应时间）。一方面，例如，ResNet 150或甚至更大的ResNet 1000已经被提出来改善非常有限的性能裕度，但具有巨大的计算代价。另一方面，由于与最佳效果网络相比，预定义的性能损失，已经提出了各种技术来减少计算量和存储量，以匹配硬件实现带来的这些技术包括轻量级网络设计[19，16]，prun- ing [12，13]和量化[5，31]。知识蒸馏（KD）[15]是实现模型压缩的可用方法之一，作为一种流行的压缩方法，知识蒸馏[15]的灵感来自于教师向学生的知识转移其关键策略是将紧凑的学生模型定位为近似过参数化的教师模型。因此，学生模型可以获得显著的绩效提升，有时甚至比教师模型更好通过用紧凑的学生模型替换过度参数化的教师模型，可以实现高压缩和快速加速。然而，荣耀伴随着遗留的问题。第一个挫折是知识转移效率低，这意味着学生的知识转移效率低，3714图1.传统蒸馏和建议的自蒸馏之间的训练复杂度、训练时间和准确度的比较（在CIFAR100上报告）。ELS几乎不利用教师模型的所有知识。一个杰出的学生模式比它的教师模式表现得更好，仍然罕见。另一个障碍是如何设计和培养合适的教师模型。现有的教师模型提炼框架需要大量的努力和实验来找到最佳的教师模型架构，这需要相对较长的时间。如图1所示，为了训练紧凑的模型以实现尽可能高的精度并克服传统蒸馏的缺点，我们提出了一种新的自蒸馏框架。我们提出了一个一步自学习框架，它的训练直接指向学生模型，而不是传统的蒸馏中的两个步骤，即首先训练一个大的教师模型，然后从教师模型中提取知识到学生模型。提出的自蒸馏方法不仅需要更少的训练时间（在CI-FAR 100上从26.98小时缩短到5.87小时，训练时间缩短了4.6倍），而且可以实现更高的准确率（从传统的训练方法的79.33%提高到ResNet 50上的81.04%）。综上所述，本文主要贡献如下：• 自蒸馏可以在不增加任何费用的情况下大幅提高卷积神经网络的性能响应时间。平均获得2.65%的准确度提升，从ResNeXt 中的 0.61% 最小到VGG19 中的4.07% 最大。• 自蒸馏提供了在不同深度可执行的单个神经网络，允许自适应资源有限的边缘设备上的准确性-效率权衡。• 在两种数据集上对五种卷积神经网络进行了实验，以证明该技术的推广性。本文的其余部分组织如下。第二节介绍了自蒸馏的相关工作。第三节阐述了自蒸馏的公式和细节。第四节给出了在五种卷积网络和两种数据集上的实验结果。第5节解释了自蒸馏起作用的原因。最后，在第六部分给出了结论。2. 相关工作知识提炼：知识蒸馏是模型压缩中使用的最流行的技术之一[4，15]。为了提高学生模型的学习效率，人们提出了大量的方法Romero等人首先提出了FitNet，其中提出了提示学习的概念，旨在缩小学生和教师特征图之间的距离[32]。Agoruyko等人 [42]从注意机制的角度考虑了这个问题，试图将注意区域的特征对齐。此外，一些研究人员将知识蒸馏扩展到生成对抗问题[33，27]。在其他领域，知识蒸馏也显示出其潜力。Furlanello等人交互式地将经过验证的学生模型吸收到教师模型组中，从而获得了对测试数据更好的泛化能力[9]。Bagherinezhad等人将知识表示应用于数据论证，将标签的数值增加到更高的熵[2]。Papernot等人将知识蒸馏视为防御对抗性攻击的工具[30]，Gupta等人将知识蒸馏视为防御对抗性攻击的工具[31]。使用相同的方法，在不同模态的数据之间传递知识[10]。如上所示，一般来说，教师模型和学生模型分别以各自的方式工作，并且知识转移在不同模型之间流动。相比之下，学生3715图2.该图显示了配备有所提出的自蒸馏的ResNet的细节。(i)ResNet根据深度分为四个部分。（ii）在每个部分之后设置额外的瓶颈层和全连接层，其构成多个分类器。㈢所有分类器都可以独立使用，但准确度和响应时间不同（iv）每个分类器在所描绘的三种监督下训练。(v)虚线下的部分可以在推理中删除。和教师模型在我们提出的自蒸馏方法来自相同的卷积神经网络。自适应计算：一些研究人员倾向于选择性地跳过几个计算过程以消除冗余。他们的工作可以从三个不同的角度来见证：层、通道和图像。跳过神经网络中的一些层。Huang等人提出了训练中的随机逐层退出[18]。一些研究人员将这一想法扩展到推理。 Wang等人 Wu等人通过引入基于当前输入的附加控制器模块或门控函数，进一步将逐层丢弃从训练扩展到推理[37，36]。逐层丢弃解决方案的另一个扩展是设计早期退出的预测分支，以减少推理中的平均执行深度[17，1，35，23]。跳过神经网络中的某些通道。Yu等人提出了可切换的批量归一化来动态调整推理中的通道[39]。跳过当前输入图像中不太重要的像素。受神经网络应该专注于输入数据的关键细节[3]的直觉启发，强化学习和深度学习算法被用来在输入图像被馈送到卷积神经网络之前识别输入图像中像素的重要性[29，8]。深度监督：深度监督是基于这样的观察，即在高度区分特征上训练的分类器可以提高推理性能[24]。为了解决梯度消失的问题，增加了额外的监督来直接训练隐藏层。例如，在图像分类[24]、目标检测[26，25，28]和医学图像分割[40，7]等任务中观察到显著的性能增益。在建议中采用的多分类器架构，自蒸馏框架类似于深度监督网络[24]。自蒸馏方法的主要区别在于它通过蒸馏而不是单纯的标签来训练浅层分类器，从而显著提高了分类器的精度。3. 自蒸馏在本节中，我们提出了如图2所示的自蒸馏我们用以下思维方式构建自我蒸馏框架：首先，根据目标卷积神经网络的深度和原始结构将其划分为若干个浅层段。例如，ResNet50根据ResBlocks划分为4个部分。其次，在每个浅段之后设置分类器，结合瓶颈[14]层和全连通层，这两个层仅用于训练，并且可以在推理中去除。增加瓶颈层的主要考虑是减轻各浅分类器之间的影响，并增加来自提示的L2而在训练阶段，通过从最深的部分中提取，将具有相应分类器的所有浅部分训练为学生模型，在概念上可以将其视为教师模型。为了提高学生模型的性能，在训练过程中引入了三种损失• 损失来源一：从标签到最深分类器的交叉熵损失，以及所有浅类的交叉熵损失。筛选器它是用训练数据集的标签和每个分类器的softmax层的输出计算的。通过这种方式，隐藏在数据集中的知识直接从标签引入到所有分类器。3716Cii=1i=1ǁi=1神经网络基线分类器1/4分类器2/4分类器3/4分类器4/4合奏VGG19（BN）64.4763.5967.0468.0367.7368.54ResNet1877.0967.8574.5778.2378.6479.67ResNet5077.6868.2374.2175.2380.5681.04ResNet10177.9869.4577.2981.1781.2382.03ResNet15279.2168.8478.7281.4381.6182.29ResNeXt29-881.2971.1579.0081.4881.5181.90WideResNet20-879.7668.8578.1580.9880.9281.38WideResNet44-879.9372.5481.1581.9682.0982.61WideResNet28-1280.0771.2180.8681.5881.5982.09PyramidNet101-24081.1269.2378.1580.9882.3083.51表1.CIFAR100上的准确度（%）实验结果（红色标记的数字低于其基线）。神经网络基线分类器1/4分类器2/4分类器3/4分类器4/4合奏VGG19（BN）70.3542.5355.8571.0772.4573.03ResNet1868.1241.2651.9462.2969.8468.93ResNet5073.5643.9558.4772.8475.2474.73表2.在ImageNet上测试前1名的准确率（%）（红色标记的数字低于其基线）。• 损失来源2：KL（Kullback-Leibler）发散损失，老师KL分歧是COM-学生之间使用softmax输出，exp（zc/T）qi=cexp（zc/T）（一）J J教师，并介绍了每个softmax层这里z是全连接层之后的输出。 qc∈浅分类器通过引入KL散度，RM是i我分类器的第一类概率θc/C。 T，哪个自我升华框架影响教师作品，最深的一个，每个浅分类器。• 损失来源3：L2提示丢失。它可以通过计算最深分类器和每个浅分类器的特征图之间的L2损失来获得。更好。通过L2损失，将特征映射中的隐性知识引入到每个浅分类器由于所有新添加的层（图2中虚线下的部分）仅在训练期间应用，因此它们在推理期间不会产生影响。在推理过程中添加这些部件为能量受限边缘设备的动态推理提供了另一种选择3.1. 制剂给定来自M个类的N个样本X={xi}N，我们将对应的标签集表示为Y={yi}M，yi∈通常设置为1，表示蒸发温度[15]。T越大，概率分布越软。3.2. 训练方法在自蒸馏中，除了最深分类器之外的每个分类器θi/C的监督两个超参数α和λ用于平衡它们。（1−α）·CrossEntropy（qi，y）（2）第一个来源是用qi和标签Y计算的交叉熵损失。注意，qi表示分类器θ i/C的softmax层α·KL（qi，qC）（3）第二个来源是qi和qC之间的Kullback-Leibler散度。我们的目标是使浅层分类器接近最深层分类器，这表明了蒸馏的监督。请注意，qC表示最深分类器的softmax层{1、2、…M}。分类器（建议的自蒸馏具有在整个网络中的多个分类器λ·λFi2-FC2（四）网络表示为Θ ={θi/C}C，其中C表示最后的监督来自最深层次的暗示-卷积神经网络中分类器的数量。在每个分类器之后设置softmax层sifier。提示被定义为教师模型的输出隐藏层，其目的是引导学生模型3717教师模型学生模型基线KD [15][32]第三十二话[42]第四十二话[43]第四十三话我们的方法ResNet152ResNet1877.0977.7978.2178.5477.5478.64ResNet152ResNet5077.6879.3380.1379.3578.3180.56WideResNet44-8WideResNet20-879.7679.8080.4880.6579.9180.92WideResNet44-8WideResNet28-1280.0780.9580.5381.4680.4381.58表3.在CIFAR100上与传统蒸馏的准确度（%）比较。神经网络方法分类器1/4分类器2/4分类器3/4分类器4/4合奏ResNet18DSN67.2373.8077.7578.3879.27我们的方法67.8574.5778.2378.6479.67ResNet50DSN67.8773.8074.5480.2780.67我们的方法68.2374.2175.2380.5681.04ResNet101DSN68.1775.4380.9881.0181.72我们的方法69.4577.2981.1781.2382.03ResNet152DSN67.6077.0481.0681.3581.83我们的方法68.8478.7281.4381.6182.29表4.在CIFAR100上与深度监督网络[24]的准确性（%）比较学习[32]。它的工作原理是减少浅层分类器和深层分类器中特征图之间的距离。但是，由于不同深度的特征图我们没有使用卷积层[32]，而是使用瓶颈架构，这对模型的性能产生了积极影响。注意，Fi和FC分别表示分类器θi中的特征和最深分类器θC中的特征。总而言之，整个神经网络的损失函数由每个分类器的损失函数组成，可以写为：ΣC4.1. 基准数据集CIFAR100：CIFAR100数据集[21]由微小的（32x32像素）RGB图像组成。它有100个类，训练集包含50K图像，测试集包含10K图像。调整神经网络的核大小和步长以适应微小图像的大小。ImageNet ： ImageNet 2012 分类数据集 [6] 根据WordNet由1000个类组成。每一个类别都由成千上万的图像描述。我们调整它们的大小256x256像素的RGB图像。请注意，ImageNet报告的准确性是在验证集上计算的。4.2. 与标准培训在CIFAR100和ImageNet上的实验结果如下：损失=我ΣC=我损失i.（1−α）·交叉熵（qi，y）Σ（五）分别见表1和表2。通过简单地将每个分类器中的softmax层的加权输出相加，可以获得一个完整的结果。可以观察到，（i）所有的神经网络都从自蒸馏中受益，在CIFAR100中增加了2.65%，+α·KL（qi，qC）+λ·||Fi−FC||注意，最深分类器的λ和α为零，这意味着最深分类器4. 实验我们在五个卷积神经网络（ ResNet [14] ，WideResNet [41] ， Pyramid ResNet [11] ， ResNeXt[38]，VGG [34]）和两个数据集（CIFAR100 [21]，ImageNet [6]）上评估了自蒸馏。在训练过程中使用了学习率衰减、 l2 所有的实验都是在 GPU 设备上用PyTorch实现的。ImageNet平均2.02%。(ii)神经网络的深度越深，它们获得的性能改善就越多，例如，ResNet101中增加了4.05%，ResNet18中增加了2.58%。(iii)一般来说，朴素增强在CIFAR100上有效，但对ImageNet的影响较小，有时甚至是负面影响，这可能是由于与CIFAR100相比，浅层分类器的准确率下降较大。(iv)分类器4.3. 与蒸馏相比表3在CIFAR100数据集上比较了自蒸馏与五种传统蒸馏方法的结果。223718神经网络属性基线分类器1/4分类器2/4分类器3/4分类器4/4合奏ResNet18精度77.0967.2373.8077.7578.3879.27加速度1.00X3.11X1.87倍1.30倍1.00X0.93倍ResNet50精度77.6867.8773.8074.5480.2780.67加速度1.00X4.64倍2.20倍1.23倍1.00X0.93倍ResNet101精度77.9868.1775.4380.9881.0181.72加速度1.00X9.00倍4.27倍1.11X1.00X0.96XResNet152精度79.2168.8478.2281.4381.6182.29加速度1.00X13.36X4.29倍1.07倍1.00X0.98X表5.ResNet在CIFAR100上的加速和准确性（%）在这里，我们重点关注当学生模型具有相同的计算量和存储量时，每种方法的准确性提升。从表3中，我们得出以下观察：(i)蒸馏方法的所有性能都优于直接训练的学生网络。（ii）自蒸馏法虽然自升华框架的一个显著优点是它不需要额外的老师。相比之下，传统的教师培训需要先设计和训练一个过参数化的教师模型设计一个高质量的教师模型需要大量的实验来找到最佳的深度和架构。此外，训练过度参数化的教师模型需要更长的时间。这些问题可以直接在自升华中避免，其中教师和学生模型都是其自身的子部分如图1所示，与其他蒸馏方法相比，自蒸馏可以实现4.6倍的训练时间加速。4.4. 与深度监督网络深度监督网络与自蒸馏的主要区别在于自蒸馏是从最深层分类器的蒸馏中训练出浅分类器而不是标签。这些优势可以在实验中看到，如表4所示，它比较了在CIFAR100上通过深度监督或自蒸馏训练的ResNet观察结果可总结如下：（i）在每个分类器中，自蒸馏优于深度监督。(ii)浅分类器从自我蒸馏中获益更多。这些现象的原因很容易理解。在自蒸馏中，（i）增加额外的瓶颈层以检测分类器特定的特征，避免浅分类器和深分类器之间的冲突。(ii)在训练浅层分类器时，采用蒸馏方法代替标签来提高性能。（iii）更好的浅层分类器可以获得更多的区分特征，这反过来增强了深层分类器的性能。4.5. 用于自适应推理的可缩放深度最近，一种流行的加速卷积神经网络的解决方案是设计一个可扩展的网络，这意味着神经网络的深度或宽度可以根据应用需求动态变化例如，在响应时间比准确性更重要的场景中，可以在运行时放弃一些层或通道以加速[39]。通过共享骨干网络，在资源有限的边缘设备上，推理中的自适应精度-加速权衡成为可能，这意味着可以根据实际中的动态精度需求在应用如表5中可以观察到的，（i）四分之三的神经网络通过分类器3/4优于其基线，平均加速比为1.2X。在2/4分类器的情况下，可以实现3.16倍的加速比，准确率损失为3.3%。(ii)由于不同的分类器共享一个骨干网络，最深的三个分类器的合并可以带来平均0.67%的准确率提高，而计算代价仅为0.05%。图3.对平坦和尖锐极小值之间差异的直观解释[20]。5. 讨论和未来的工作在本节中，我们将从平坦最小值、消失梯度、3719和区别特征，这将是未来工程的一部分，以进一步改善。图4.训练精度和损失随高斯噪声增加的比较：用自蒸馏训练的模型更能容忍噪声平坦最小值。自蒸馏可以帮助模型收敛到平坦的最小值，图像本身具有泛化的特点。人们普遍认为，尽管浅层神经网络（例如，AlexNet）也可以在训练集上实现几乎零损失，它们在测试集上或在实际应用中的性能远远落后于过参数化神经网络（例如，ResNet）[20]。Keskar等人提出的解释是，过参数模型可能更容易收敛到平坦的最小值，而浅层神经网络更容易陷入尖锐的最小值，这对数据的偏差很敏感[20]。图3直观地解释了平坦和尖锐最小值之间的差异X轴表示模型在一个维度上的参数。Y轴是损失函数的值。这两条曲线表示训练集和测试集上的损失曲线这两个极小值（x1表示平坦的最小值，x2表示尖锐的最小值）都可以在训练集（y0）上实现极小的损失不幸的是，训练集和测试集不是独立的，相同分布。而在测试中，x1和x2仍然被用来找到测试曲线中的最小值y1和y2，这导致尖锐的最小值曲线中的严重偏差（y2-y 0远大于y1 -y 0）。受Zhang等人工作的启发。[43]，我们进行了以下实验，以证明所提出的自蒸馏框架可以收敛到平坦的最小值。首先在CIFAR100数据集上训练了两个18层的ResNet，一个具有自蒸馏，另一个没有。然后将高斯噪声添加到两个模型的参数中，然后获得它们在训练集上的熵损失和预测精度，并绘制在图4中。如图4（a）中所示，在用自蒸馏训练的模型中，训练集准确度保持在非常高的水平，其中噪声水平以高斯噪声的标准差表示，保持增加，而在没有自蒸馏的模型中，训练准确度严重下降在图4（b）中可以获得相同的观察结果和结论，其中训练损失作为度量。基于上述观察，我们得出结论，用自蒸馏训练的模型更平坦。根据来自图3的结论，用自蒸馏训练的模型对参数的扰动更具鲁棒性。请注意，自蒸馏ResNet中使用了4/4分类器进行公平比较。综上所述，未经自蒸馏训练的模型对高斯噪声更加敏感这些实验结果支持了我们的观点，即自蒸馏有助于模型找到平坦的最小值，允许更好的泛化性能。自升华防止了模型的梯度消失问题. 由于消失梯度问题，非常深的神经网络很难训练，尽管它们表现出更好的泛化性能。在自蒸馏中，对神经网络的监督被注入到不同的深度。它继承了DSN [24]在一定程度上解决梯度消失问题的能力由于Lee等人的工作。[24]已经给出了数学上的证明，我们进行了以下实验来支持它。图5.逐层梯度的统计。训练两个18层的ResNet，其中一个配备了自蒸馏，另一个没有。我们计算每个卷积层中梯度的平均大小，如图5所示。据观察，3720具有自蒸馏的模型的梯度（图5（a））大于没有自蒸馏的模型的梯度（图5（b）），特别是在第一和第二ResBlock中。图6.四个分类器中特征分布的PCA（主成分分析）可视化在自蒸馏过程中，使用更深层次的分类器来提取更有区别的特征。由于自蒸馏中存在多个分类器，因此可以计算和分析每个分类器的特征，以说明它们的判别原理。如图6所示，在CIFAR100上训练的WideResNet上的实验被用来比较不同分类器的特征图6可视化了不同分类器中特征的距离。首先，很明显，分类器越深，观察到的集群越集中。此外，如图6（a，b）所示，浅分类器中的距离变化比图6（c，d）所示的深分类器中的距离变化更严重分类器SSE*SSB**SSE/SSB精度分类器1/420.851.0819.2171.21分类器2/48.691.157.5480.86分类器3/411.421.876.0881.58分类器4/411.742.055.7381.59*SSE：误差平方和。**SSB：组间平方和。表6.在WideResNet 28 -12上测量每个分类器的分类可分性和准确性（%）。表6进一步总结了每个分类器的排序可分性 SSE代表误差平方和，SSB是组间平方和的缩写。SSE越小，聚类越密集。此外，随着SSB的增长，集群变得更加具有鉴别力在这里，我们使用SSE/SSB来评估模型的不同能力。它越小，分类器越清晰。从表6中可以看出，SSE/SSB随着分类器的深入而减小。总之，分类器中的鉴别特征图越多，模型实现的准确度越高Future Works自动调整新引入的超参数。为了平衡交叉熵、KL发散和提示损失的损失，引入两个超参数λ和α通过实验中，我们发现这两个超参数对性能有影响。由于计算机资源有限，我们还没有做彻底的调查。在不久的将来，可以使用学习率衰减或动量启发算法来探索用自蒸馏法求出的平坦极小值是理想的吗？另一个未探索的领域是，我们在训练过程中发现了一个现象，即在自蒸馏收敛后，使用传统的训练方法继续训练最深分类器可以将性能从0.3%进一步提高到0.7%，这在本文的所有表中都没有包括。尽管浅层分类器有助于找到平坦的最小值，但在训练的最后阶段，它们也会阻止最深层分类器收敛。在多种训练方法之间交替切换可能会进一步帮助收敛。6. 结论我们提出了一种新的训练技术，称为自蒸馏，并通过与深度监督网络和以前的蒸馏方法进行比较，显示了它的优势。这种技术放弃了以前的蒸馏方法所需的额外教师模型，并提供了一个自适应的深度架构，在运行时的时间精度权衡。并从平坦极小、梯度和判别特征等方面探讨了自蒸馏的原理。自蒸馏更像是一种提高模型性能的训练技术，而不是一种压缩或加速模型的方法虽然以前的研究大多集中在不同模型之间的知识转移，我们相信，知识转移的方法内的一个模型，如自蒸馏也是非常有前途的。引用[1] Manuel Amthor，Erik Roeley，and Joachim Denzler. 具有动态时间预算的深度神经网络2016年英国机器视觉会议[2] Hessam Bagherinezhad 、 Maxwell Horton 、 MohammadRastegari和Ali Farhadi。标签精炼厂：通过标签进展改进图像分类。2018年欧洲计算机视觉会议3721[3] Dzmitry Bahdanau，Kyunhyun Cho，Yoshua Bengio.通过联合学习对齐和翻译的神经机器翻译。2015年医学图像计算和计算机辅助干预国际会议[4] 克里斯蒂安·布西卢、里奇·卡鲁阿纳和亚历山德鲁·尼古列斯库-米兹尔。模型压缩。第12届ACM SIGKDD知识发现和数据挖掘国际会议集，第535-541页。ACM，2006年。[5] Matthieu Courbariaux ， Yoshua Bengio 和 Jean-PierreDavid。Binaryconnect：在传播过程中使用二进制权重训练深度神经网络。神经信息处理系统的进展，第3123-3131页，2015年[6] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。在计算机视觉和模式识别，第248-255页。Ieee，2009年。[7] 七斗，陈昊，金月明，余乐泉，秦静，恒平安。基于深度监督网络的CT肝脏自动分割在医学图像计算和计算机辅助干预国际会议上，第149-157页。施普林格，2016年。[8] 傅建龙，郑和良，陶梅。看得更近些，看得更清楚：用于细粒度图像识别的递归注意卷积神经网络。在IEEE计算机视觉和模式识别会议论文集，第2卷，第3页，2017年。[9] Tommaso Furlanello ， Zachary C Lipton ， MichaelTschan-nen，Laurent Itti，and Anima Anandkumar.重生的神经网络在2018年国际机器学习会议上。[10] Saurabh Gupta，Judy Hoffman，and Jitendra Malik.监督转移的交叉模态提取。在计算机视觉和模式识别中，第2827-2836页[11] Dongyoon Han，Jiwhan Kim和Junmo Kim深层金字塔残余网络。在 Computer Vision and Pattern Recognition（CVPR），2017 IEEE Conference on，第6307-6315页中。IEEE，2017年。[12] Song Han，Huizi Mao，and William J Dally.深度压缩：使用修剪、训练量化和霍夫曼编码压缩深度神经网络。2016年。[13] Song Han，Jeff Pool，John Tran，and William Dally.学习权值和连接以实现高效的神经网络。神经信息处理系统的进展，第1135-1143页，2015年[14] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[15] Geoffrey Hinton Oriol Vinyals和Jeff Dean。在神经网络中提取知识。在神经信息处理系统的进展，2014年。[16] Andrew G Howard，Menglong Zhu，Bo Chen，DmitryKalenichenko，Weijun Wang，Tobias Weyand，MarcoAn- dreetto，and Hartwig Adam. Mobilenets：用于移动视觉应用的高效卷积神经网络。在计算机视觉和模式识别（CVPR），2017年IEEE会议上，2017年。[17] Gao Huang ， Danlu Chen ， Tianhong Li ， Felix Wu ，Laurens van der Maaten，and Kilian Q Weinberger.多尺度密集网络用于资源有效的图像分类。2017年医学图像计算和计算机辅助干预国际会议[18] Gao Huang，Yu Sun，Zhuang Liu，Daniel Sedra，andKilian Q Weinberger.深度随机的深度网络。在欧洲计算机视觉会议上，第646-661页。施普林格，2016年。[19] Forrest N Iandola、Song Han、Matthew W Moskewicz、Khalid Ashraf 、 William J Dally 和 Kurt Keutzer 。Squeezenet：Alexnet级别的精度，参数减少50倍，…0.5mb模型大小。在2016年国际学习代表会议上[20] Nitish Shirish Keskar ， Dheevatsa Mudigere ， JorgeNocedal，Mikhail Smelyanskiy，and Ping Tak Peter Tang.关于深度学习的大批量训练：泛化差距和尖锐的最小值。在2017年国际学习代表会议上[21] 亚历克斯·克列日夫斯基和杰弗里·辛顿从微小的图像中学习多层特征。技术报告，Cite- seer，2009年。[22] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。神经信息处理系统的进展，第1097-1105页，2012年[23] Jason Kuen，Xiangfei Kong，Zhe Lin，Gang Wang，Jianx-iong Yin，Simon See和Yap-Peng Tan。用于卷积网络中成本可调推理和改进的正则化的随机下采样。在IEEE计算机视觉和模式识别会议集，第7929-7938页[24] Chen-Yu Lee ， Saining Xie ， Patrick Gallagher ，Zhengyou Zhang，and Zhuowen Tu.深度监督网络。人工智能和统计，第562-570页[25] 林宗义、彼得·多尔、罗斯·格希克、何启明、巴拉特·哈里哈兰和塞尔日·贝隆吉.用于对象检测的特征金字塔网络。在IEEE计算机视觉和模式识别会议论文集，第1卷，第4页，2017年。[26] Tsung-YiLin ， Priyal Goyal ， Ross Girshick ， KaimingHe，and PiotrDoll a'r. 密集目标检测的焦面损失。IEEE关于模式分析和机器智能的交易，2018。[27] Peiye Liu ， Wu Liu ， Huadong Ma ， Tao Mei ， andMingoo Seok. Ktan：知识转移对抗网络。在人工智能进步协会，2019年。[28] Wei Liu ， Dragomir Anguelov ， Dumitru Erhan ，Christian Szegedy ， Scott Reed ， Cheng-Yang Fu ， andAlexander C Berg. Ssd：单发多盒探测器。在欧洲计算机视觉会议上，第21-37页。施普林格，2016年。[29] Volodymyr Mnih，Nicolas Heess，Alex Graves，et al.视觉注意力的再流模型。神经信息处理系统的进展，第2204-2212页，2014年[30] Nicolas Papernot、Patrick McDaniel、Xi Wu 、SomeshJha和Ananthram Swami。蒸馏作为对深度神经网络的不利扰动的防御2016年3722安全与隐私研讨会，第582-597页。IEEE，2016.[31] Mohammad Rastegari、Vicente Ordonez、Joseph Redmon和Ali Farhadi。Xnor-net：使用二元卷积神经网络的Imagenet分类。欧洲计算机视觉会议，第525-542页施普林格，2016年。[32] Adriana Romero 、 Nicolas Ballas 、 Samira EbrahimiKahou 、 Antoine Chassang 、 Carlo Gatta 和 YoshuaBengio。适合网：细深网的提示.在2015年国际学习代表会议上[33] Zhiqiang Shen ， Zhankui He ， and Xiangyang Xue.Meal：通过对抗学习实现多模型集成。在人工智能进步协会，2019年。[34] Karen Simonyan和Andrew Zisserman用于大规模图像识别的非常深的卷积网络。2015年。[35] Andreas Veit和Serge Belongie。具有自适应推理图的卷积网络。在2018年欧洲计算机视觉会议[36] Xin Wang，Fisher Yu，Zi-Yi Dou，Trevor Darrell，andJoseph E Gonzalez. Skipnet：学习卷积网络中的动态路由。在欧洲计算机视觉会议（ECCV）的会议记录中，第409-424页，2018年。[37] Zuxuan Wu ， Tushar Nagarajan ， Abhishek Kumar ，Steven Rennie，Larry S Davis，Kristen Grauman，andRogerio Feris.Blockdrop：残差网络中的动态推理路径。在IEEE计算机视觉和模式识别会议论文集，第8817-8826页[38] 谢赛宁、罗斯·吉希克、彼得·多尔·拉尔、朱奥文·图和何开明。深度神经网络的聚合残差变换。在计算机视觉和模式识别（CVPR），2017年IEEE会议上，第5987-5995页。IEEE，2017年。[39] Jiahui Yu，Linjie Yang，Ning Xu，Jianchao Yang，andThomas Huang.可精简的神经网络在2019年国际学习代表会议[40] 余乐泉，杨欣，陈昊，秦静，恒平安。基于混合残差连接的三维磁共振图像前列腺自动分割体积卷积网络在人工智能进步协会，第66-72页[41] Sergey Zagoruyko和Nikos Komodakis广泛的残余网络。2016年英国机器视觉会议[42] Sergey Zagoruyko和Nikos Komodakis更加注意的：通过注意转移提高卷积神经网络的性能。在2017年国际学习代表会议上[43] Ying Zhang，Tao Xiang，Timothy M Hospedales，andHuchuan Lu.深度相互学习。在IEEE计算机视觉和模式识别会议集，第4320-4328页

下载后可阅读完整内容，剩余1页未读，立即下载