神经网络压缩的贝叶斯优化框架

36 浏览量更新于2023-10-11 收藏 737KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1神经网络压缩Xingchen MaJia，Amal Rannen TrikiJia，Maxim Bermana，Christians Sagonasb，JacquesCaliJia，and Matthew B.布拉施科a鲁汶大学bOnfidoc蓝棱镜摘要神经网络压缩是部署神经网络的一个重要步骤，其中速度是非常重要的，或在有限的内存设备上。有必要调整压缩参数，以便实现大小和性能之间的这通常通过优化验证数据集的损失来完成，该验证数据集应该足够大以近似真实风险，从而产生足够的泛化能力。然而，使用一个完整的验证集可能是计算昂贵的。在这项工作中，我们开发了一个通用的贝叶斯优化框架，用于优化基于U-统计量计算的函数我们通过贝叶斯优化框架从统计数据中传播高斯不确定性，从而产生一种方法，该方法给出了结果的概率近似证书。然后，我们将其应用于神经网络压缩中的参数选择。可以被写为U统计的压缩对象通常基于经验风险和深度判别模型的知识蒸馏。我们在VGG和ResNet模型上展示了我们的方法，并且所得到的系统可以在标准桌面机器上在几分钟内找到相对高维参数化的最佳压缩参数1. 介绍在过去的六年里，神经网络在实际应用中有了爆炸式的发展通常，网络越大，性能越高这意味着，在开发过程中，神经网络的构建通常是为了填补可用的*同等贡献†作者目前隶属于Deepmind。[3]这位合著者在英国Onfido工作期间，对本研究项目的贡献完全来自于他。在高性能计算环境中的计算资源。然而，在部署时，更低的功率使用或更便宜的计算组件意味着必须以降低的计算成本实现相同的性能。这导致了神经网络压缩领域的不断发展[15，10]。在这项工作中，我们提出了一个用于神经网络压缩的贝叶斯优化（BO）框架[2]，其中有几个新的贡献有助于压缩过程的速度和准确性：1. 使用BO的神经网络压缩，使用新的目标，允许快速近似评估质量标准。这使得能够通过压缩算法的参数空间进行更快的搜索。基于U-统计量，我们可以证明这些质量度量的有限样本估计具有高斯分布，使得通过BO中使用的高斯过程（GP）模型传播它们的不确定性是兼容的。2. BO（[2，44]）的一种新的采集函数，直接优化了概率近似标准，该标准包含了我们对由有效的二次采样质量测量产生的不确定性的测量。我们表明，这种采集功能提高了计算性能，具有自然的收敛参数，易于设置，是一个引人注目的下降，在替代目前采用BO的主要我们在两个环境中展示我们的框架：（i）最大限度地减少风险;以及（ii）知识提取框架，其中训练压缩网络以产生与未压缩输出类似的输出。在每种设置中，我们都证明了我们的框架可以在几分钟内计算出（在BO中使用的概率模型下）近似最优的压缩，包括ResNet 18，ResNet 50和VGG-16（第4节）。10274102752. 相关工作近年来，随着对设备上计算的需求的增长，网络压缩压缩的应用很多，例如物联网、自动驾驶汽车和边缘计算。已经开发了多种压缩方法，但它们通常可分为两组：参数数目减少和存储大小减少方法。在第一类技术中，目标是以最小的性能损失减少网络中非零参数的数量，例如通过权重调整。在[11]中，作者建议首先训练网络，删除小于给定阈值的权重，然后重新训练简化的网络。 [27]考虑了贝叶斯稀疏性对权重的先验约束。然后，根据证据下界，对权值的参数近似后分布的变分参数随后使用近似后验来修剪训练所需的神经元。在[53]中，根据分类前对倒数第二层的影响选择修剪权重，使用特征排名技术进行测量。低秩分解是减少深度神经网络参数数量的另一种有效方法。压缩是通过将卷积层和全连接层的参数替换为它们的低秩近似值来实现的一种简单的基于分解的压缩层的方式（例如，完全连接）是通过将奇异值分解（SVD）应用于权重矩阵[6]。通过构建滤波器可以近似为较小数字的线性组合的思想[39]，[17]提出将满秩滤波器分解为秩1滤波器基的组合。类似地，在[24]中，卷积被近似为四个卷积的组合，其中小内核是通过采用正则多元（CP）分解产生的上述方法的缺点是找到最佳低秩近似是不适定问题。为了克服这一点，[46]提出了一种总是存在的低秩分解，并允许一个封闭形式的解决方案。虽然以前的方法实现了良好的压缩率，而不牺牲不同目标问题的准确性，但它们仅适用于浅层网络，而不考虑层激活的统计数据。在大型数据集上训练的更深网络中应用低秩分解的第一次尝试之一在[55]中提出。为此，引入了一种新的非对称分解方法，该方法包括特征图重构。最近，[54]受到鲁棒主成分分析[3]的启发同样地，[28]通过提出一个自适应压缩算法来解决域自适应压缩的问题秩约束回归问题，其中承认一个封闭形式的解决方案。[35]提出在滤波器组上使用低秩分解，以便减小网络的大小和计算复杂性，并将其应用于深度模型。最后，一些作品结合修剪或稀疏方法和低秩分解。除了[54]之外，在最近的一项工作中，[7]通过首先修剪然后选择组件的核心集来压缩卷积网络，以基于数据的方式重新训练，从而减少所需的重新训练量尺寸缩减方法将权重减小并降低其精度以减少内存使用。目标是找到保持网络性能的最低精度水平。该操作还可以允许权重共享，因为量化可以具有增加相等权重的数量的效果[10]将量化与修剪和霍夫曼编码相结合，以提高效率。作者还使用了权重共享，但对共享权重进行了微调，以抵消容量的降低[50]使用在[33]中引入的软权重共享的版本来在单个再训练过程中实现量化和修剪[27]还通过向模型注入噪声来处理量化和修剪，从后验中修剪所需的精度。最近，一些工作提出使用自适应量化。[20]通过最小化损失函数的变化引入了逐层精度选择，而[36]提出使用蒸馏损失直接训练较小的模型，其中权重的精度限于给定的一组水平。在大多数被引用的作品中，模型选择是通过网格搜索使用一个有效的验证集来完成的。虽然它很容易实现，但这样的搜索在时间和资源上是非常昂贵的。此外，这将搜索限制为整个模型的非常小数量的参数，因为具有阈值、目标秩或每层比特宽度将使得该搜索对于大多数最近的架构是不可行的。最近，已经考虑了有效的模型选择的问题。[48]介绍了使用BO解决模型压缩问题作者定义的目标函数，以最小化之间的加权差的误差验证集和网络的权重稀疏。预期的改善被用作获取函数。由于验证误差的计算是昂贵的，这种方法可能无法有效地扩展到更大的网络。最近，[4]使用具有应用感知目标和预期改进的BO作为获取函数。虽然来自应用的约束的定义减少了要设置的超参数的数量，但是该方法仍然依赖于先前固定的BO迭代次数，并且缺乏自适应停止准则。贝叶斯优化（BO）是一种基于利用待优化函数的测量值不断更新概率模型的优化框架。给予10276{}X × YQLRθ θL一组待优化的参数，BO对目标进行黑盒调用，用新信息更新概率模型，并选择下一个点使用采集函数进行评估，该采集函数结合了概率模型下函数值的期望和不确定性的信息[2，8，23]。所采用的模型通常是GP[38]，因为它具有良好的统计和计算特性，并且目前定义了黑盒优化的最新技术尽管GP可以以相对简单的方式对高斯观测噪声进行建模，但大多数可用的BO包都没有实现对目标函数测量中的变化噪声进行建模的能力[47，29，44，5，49]。因此，在对收敛到无噪声过程的最优值的过程进行建模时，使用对目标函数的有噪声近似使用验证误差的完整估计的计算瓶颈仍然存在。本文基于这样的观察，即神经网络压缩的自然对象每个都可以表示为一个量，其最小方差无偏估计量是U统计量[16，41]。这包括验证误差的二次抽样估计和基于知识蒸馏的训练（第2节）。[15]。数理统计的结果保证了这些量的有限样本估计的渐近高斯分布，方差已知[41]。该方差项又可以被包括在BO中用于模型选择的GP模型在这样做时，我们能够在比使用网格搜索或具有完整验证集的BO在计算上可行的维度高得多的维度上高效地选择可能近似最佳的（在BO中使用的概率模型下）压缩参数3. 基于贝叶斯优化的神经网络压缩让我们考虑神经网络压缩问题。给定一个神经网络f，将输入空间X映射到在训练集（x i，y i）i=1. n，i.i.d. 从分布P（x，y）中抽取的样本。我们假设要压缩的网络fθ具有很好的泛化能力，并且我们有兴趣找到一个性能类似于fθ的压缩版本fθθ。我们在这项工作中考虑的问题是选择压缩超参数θBO已被应用于机器学习中的超参数搜索[18，44]，但据我们所知，它只是开始被探索用于神经网络压缩的参数搜索，例如。48. 为了能够应用BO框架，我们首先需要定义我们想要最大化的目标。在压缩过程中，两个量是感兴趣的：（i）压缩网络的质量：最终，我们的目标是获得一个泛化能力和原始网络一样好的网络。由于真正的风险是无法接近的，我们需要一个函数来衡量压缩网络的质量fθ，或者在感兴趣的任务的性能方面，或者在压缩网络的输出与原始网络的输出的保真度方面。在本文的其余部分中，我们将这些度量称为质量函数，表示为（fθ）用于性能测量，（fθ，f）用于忠诚度的衡量标准(ii)得到的网络的大小：压缩的目的是最小化压缩后的网络的大小。网络相对于原始的。这里我们考虑两个度量：压缩比R（f <$θ，f <$），表示参数数量或压缩的大小的比率。网络除以参数的数量或原始网络的大小，或其倒数，压缩率我们将简单地表示为R（f~θ，f*）−1。超参数选择问题可以形式化为两个优化问题问题取决于目标应用，人们可能希望在给定目标压缩率的情况下最大化质量，或者在给定目标质量的情况下最大化压缩率使用拉格朗日乘子γ或κ，并且不失一般性，这些约束优化问题可以写成如下输出空间Y，压缩过程是泛函˜ ˜∗−1其将f变换为f~θ，其具有更小的尺寸或更小的arg maxγQ（fθ）+R（fθ，f）（二）参数的数量超参数向量θ通常决定了最终网络的大小。例如，当通过修剪方法进行压缩时，它可以是阈值，或者当通过SVD或其他基于低秩分解的方法进行压缩时，它可以是秩。原始网络的训练通常旨在最小化风险（f）=E（x，y）<$P[<$（f（x），y）]。由于真实的风险是不可接近的，所以用经验风险来近似1Σnθ联系我们JQ（θ）或者，arg min κ（f~，f *）+R（f~，f*）。（三）θ联系我们JL（θ）在下面的段落中，我们将首先讨论质量或保真度测量的选择，然后为BO引入新的采集函数，以便找到所考虑目标的可能近似最优解3.1. 忠实度测量Rn（f）=ni=1 f（xi），yi）（1）在本节中，我们考虑保真度的两种变体-1我们强调，我们在这项工作中感兴趣的速度的增加是为了参数选择。其他作品考虑推理速度[9]，并以正交的方式实现我们的方法。确保：（i）风险，（ii）学生-教师（或知识蒸馏）策略[15]。这些目标使压缩的设置，其中（i）一个完全监督的训练集是10277≫RRR√Q−Lθ-LLL可用，以及（ii）一组未标记图像（或生成模型）可用。在监督学习中，质量的自然度量是经验风险（等式1）。（1）），其假定足够大的标记数据集以接近真实风险。即使这样一组数据是可用的，在优化过程的内环中使用完整的这是基于随机梯度下降的方法在神经网络优化中的流行的基础。在神经网络压缩的情况下，压缩算法本身可以涉及非连续的、不可微的操作（例如，阈值权重为零），这意味着基于梯度的方法是不适用。然而，在BO框架内，我们可以考虑多个子采样估计，其中n m，n是训练集中可用样本的总数。即使在m = 1的特殊情况下，这也形成了的无偏（尽管方差很高）估计量。真实（非经验）风险（f）。此外，根据U-统计量理论，有限样本估计量f_m（f）具有渐近高斯分布，其标准差可以很好地估计的经验标准偏差{f（xi，yi））}i=1. mdi videdbym[16，41]。学生-教师策略[15]可能有利于神经网络压缩的风险，因为不需要标记数据。原则上，仅需要来自边际分布P（x）的样本这可以通过绘制足够大的有限数据样本来实现，代替真实边缘分布的自举近似，近似边缘分布的GAN或VAE等。在实践中，后者的战略，使访问无限数量的独立样本的近似的边际分布。知识蒸馏框架-可以使用与上述经验风险相同的公式计算。在本节中，我们开发了两个保真度测量。这些都是在功能的背景下自然考虑的最小化由于BO经常在最大化的上下文中表示，我们可以考虑（f〜θ）=（f〜θ，f*），并且我们将分析等式（1）的优化。（2）在续集中3.2. 一种新的不确定观测贝叶斯优化捕获函数我们现在考虑当J（θ）只能用高斯噪声近似观察时，使用BO最大化目标J（θ）的一般问题，如在J（θ）可以通过解析表达式和U统计量之和估计的情况下，如前一节所考虑的。我们在这里开发了一种用于BO的新的采集函数，以及当在到全局最优值的一定距离内的概率超过阈值时终止优化的收敛标准（6））。BO是一个黑盒优化的原则框架，它应用具有量化不确定性的代理函数来估计应该探索的搜索空间的区域然后，该框架不断地评估更昂贵的（2）在这些方面进行优化。最受欢迎的变体采用GP来近似真实函数，其以封闭形式给出不确定性估计，并且目前定义了没有梯度信息的黑盒优化的最新技术[2，8]。目前， BO 使用几种获取函数，例如改进概率（PI）、预期改进（EI）、置信下限和置信上限、熵搜索和知识梯度[2，8]。在[23]中提出的改进概率是最经典的研究成果。功最小化位置函数并计算arg maxθµθ−J（θ）−θσθ用于ExP [（f（x），f（x））]（4）探索-开发折衷参数ξ >0，其中μθ和σθ是GP下θ的均值和标准差，θθ是函数值最高的参数。对于一些损失函数如果我们考虑特殊情况其中是平方欧几里得损失，（4）是加权L2函数范数的平方[12，37]到目前为止，[2]。2.3.1]。在噪声观测情况下修正捕获函数的几种策略µθ−µθˆ −ξJ（θ）已被提出包括arg maxθ。为cσ2+σ2˜∗˜∗2∗˜2θθˆL（fθ，f）：=Ex<$P（<$fθ（x）−f（x）2）=ffθ2，P（五）一些参数c >0[23，等式24]（18）]或估算在无噪声情况下导出的获取函数[8，Sec.5]。在（f~θ，f*）定义了这个的正则度量函数范数对于Lipschitz连续损失（大多数在神经网络训练中常用的损失，包括交叉熵损失），这立即产生了一个界限，作为推广函数的f<$θ的推广误差f *在（f~θ，f *）中单调的误差。因此，最小化（f~θ，f *）也控制了f~θ的泛化误差。在风险的情况下，结果是一阶U统计量和有限样本估计具有高斯分布，其中[2]参见补充材料，以获得这个界限的明确推导其次，我们得到一个更自然的解决方案，结合噪声的不确定性，也借给一个替代的解释PI和EI中引入的ESTA参数。我们建议优化我们的目标，以找到解决方案的语义p（J（θ）−J（θ）<δ）≥1−ε（6）对于用户提供的δ和ε，3，其中θε是J的全局优化器。这一标准密切反映了PAC的语义-3在实践中，ε可以固定为某个小值，例如10−3，而δ可以10278ˆθθ∈H+WθˆC+Cioθˆθ˜2由Valiant [51]引入，但在优化设置中，其中概率的概念是高斯过程模型下的贝叶斯后验概率：p由GP替代项的最新估计值定义。由于在BO中采用GP模型，因此J（θ*）−J（θ）−δ为（12）的右边由（7）限定，这意味着（6）在（12）为真时成立。与其他提出的标准（如固定迭代次数或<$θi−θi+1<$≤ε [26]。如果我们专门收购高斯分布的随机变量。而且我们函数的情况下，σ2θ =σ θ（θ~=0，我们重新计算可以导出（cf.[1，等式（10）]），该变量为负（即，θ（近似正确）等于p（J（θ*）−J（θ）<δ）=1−Φ。θ改善概率（PI）。在PI的特殊情况类似的停止准则已经从后悔最小化的角度进行了分析，显示出有利的特性[32]。我们还注意到Eq.（11）可以自然地插入作为在预期改进获取函数的构造中使用的正态分布[31，19]。即使σ2+σ2−2σθθθ∗θˆˆ∗（七）不同的获取函数是优选的，等式（2）：（11）可以定期使用，以测试收敛到最佳其中，Φ是标准正态变量的CDF，μθ是在θ处评估的GP模型的均值，σ2是GP模型在θ处的方差，σθθ是点θ和θ之间GP的方差。以观测值为条件的均值和（协）方差[38，等式（2.22）-（2.24）]）：满足等式（6）中描述的语义。3.3. 参数编码现有技术的压缩算法通常结合−1μθ=K（θ，Θ）[K（Θ，Θ）+μn]y，（8）低秩分解[6，28，46]和稀疏性[11，27]。这些参数中的每一个自然具有从零到零的范围。σ2=k（θ，θ）−K（θ，Θ）[K（Θ，Θ）+Σn]−1K（Θ，θ），（九）在低秩分解的情况下，矩阵/张量的最大秩，或者零稀疏到某个最大值en-σθˆθ∗ =k（θ，θ）−K（θ，Θ）[K（Θ，Θ）+K]−1K（Θ，θ）。（十）编码网络的完全稀疏化（即，将所有值设置为零）。在每种情况下，第i个参数的参数范围可以被编码在某个已知范围[0，i_max]中。其中K是协方差矩阵，Θ是先前观察到的点的集合，Ση是噪声矩阵，4γ是噪声目标的向量，并且k是GP中使用的核。我们将θθ取为在以下条件下到目前为止我们访问过的点的GP。我们的获取函数将固定此值，并搜索使公式（7）最小化的θ的估计值下一点由下式给出：重新规范化这些坐标中的每一个是有用的，BO过程将在域θ上优化[0，1]d，用于d维参数化。由于我们的框架有利地扩展到压缩算法的更高维参数化，因此这使得能够例如：为网络的每层选择不同的秩参数（参见，表1）。在SVD和张量分解中使用的秩参数A（GP，θP）=a rgmax.µθ˜−µθˆ−δ.（十一）位置方法是整数，在我们的实验中，我们使用PACθσ2+σ2−2σθˆθ˜缩放方案首先，为了使压缩真正工作，我们应该约束压缩算法中使用的秩参数。对于SVD，我们需要这些量中的每一个都可以用低COM来确定GP模型下的推定成本（方程式（8）-（10））。一旦计算出θi+1：=APAC（GP，θi），我们就找到了一个新的点θi+1来（近似）估计，或者我们可以计算出θi的概率近似证明通过表明与原始层相比，压缩层具有更少的权重层中的权重的原始数量是 HW ，并且压缩层中的数量是HK+KW=（H+W）K，因此这个最大秩是HW，其中H和W是我们所处的矩阵的高度和宽度。压缩号码。可以减少r orff进一步增加到HK+KW−K，事实上，1− ε ≤1− Φε。µθi+1−µθ−δ。（十二）一个等价的分解，其中第二个矩阵是2θi+1 +σ2−2σθi+1上三角形[52，等式（5.4.1）]。对于张量分解方法，该最大秩是kCiCo，其中k是卷积核高度（我们假设宽度与σn10279固定为常数或在每次迭代时设置为当前最佳候选值μθθ，以概率方式保证返回的值对于全局最优值的某个百分比是最优的。4在用独立样本估计J（θ）的情况下，这将是一个对角矩阵，其方差由U统计量估计量确定其高度），Ci和Co分别是输入和输出通道。然后，在压缩模型之前，我们使用第一步中计算的每层最大秩将参数变换为位于[0，1]10280×表1. 每个模型中的压缩参数数。表2.使用不同方法压缩ResNet184. 实验在本节中，我们将展示我们的方法与第4.1节中最先进的优化方法相比的速度。然后，我们证明了知识蒸馏提供了计算优势，而不会降低准确性（表3和表4，以及表5）。4.2）。节中4.3我们证明了我们的方法在压缩性能方面与文献中最先进的方法相匹配，并且在Sec. 4.4我们表明，我们的优化策略的最优性属性可以导致启发性的荟萃分析。我们在几个代表性网络上评估了我们提出的方法，包括3层全连接网络（FC 3），ResNet 18，ResNet 50[13]和VGG-16 [42]。的FC 3的网络结构为784-1000-1000-10，我们使用MNIST数据集[25]从头开始训练它预训练的ResNet 18、ResNet50和VGG-16从PyTorch中的模型动物园下载[34]。在压缩FC 3的情况下，我们将SVD应用于[6]中提出的全连接层。在压缩ResNet18、ResNet50的情况下，我们应用在[46]在卷积层上在压缩VGG-16的情况下，我们分别在卷积层和全连接层对于ResNets，我们只压缩内核大小为3 3的卷积层。每个压缩器中的参数数量选择方法列于表1。对于所有实验，我们设置BO收敛参数δ=0。05，ε=0。GP使用Matern 5/2内核[30]，参数由最大似然法设置。为求取函数范数，我们一直使用50个样本作为抽样数目，因为这可平衡计算成本及GP模型的要求，详情可参阅补充资料。在下面的所有表格中，列显示了压缩比，前1名和前5名的准确率，以及算法收敛所需的时间。我们报告了特定γ的10次不同运行的平均值。使用相应数据集的完整验证集计算前1和前5精度：对于FC3，我们使用来自MNIST的10000个测试图像，对于ResNet和VGG，我们使用来自ILSVRC2012的50000个验证图像。4.1. Resnet18上不同模型选择方法的比较在这个实验中，我们考虑压缩Resnet18。我们将我们的方法与“Fabolas”方法[ 22 ]进行了比较我们还比较了随机搜索，它可以66646260585654520.600 0.625 0.650 0.675 0.700 0.725 0.7501 -压缩比图1. 不同方法在低维搜索空间中具有竞争力。表. 2显示结果。我们不仅比法波拉斯快得多，菲格。1表明我们帕累托支配的其他方法w.r.t.完整验证集的前1准确度。在我们的方法的性能比Fabolas差的零假设下，Wilcoxon符号秩检验给出的p值等于0.0008，显著性水平为α=0。05，因此我们拒绝零假设。4.2. 知识蒸馏作为风险的代理一个自然的问题是，是否知识蒸馏目标与L2损失（方程。（5））是网络压缩中风险的良好代理。图图2和图3示出了估计的范数与前1错误率之间的关系。使用来自ILSVRC2012 [40]的5000个随机验证图像获得前1个错误率，并且使用来自相应训练集的1000个随机样本估计范数。我们还估计了不同层中的范数，并在不同的列中显示这些结果例如，在图的第一列中。2，如果估计范数大于50，则top- 1错误率接近1.0，这意味着压缩后，原始模型中的信息完全丢失。我们看到，top-1误差与函数范数之间的关系是单调的，在此阈值下甚至接近线性。这证明了我们使用函数范数作为深度神经网络压缩的保真度标准的合理性为了进一步验证，我们还将压缩结果与FC3的知识蒸馏目标（表3）和风险目标（表4）进行了比较。结果表明，使用函数范数与使用前1错误率作为保真度项的情况具有相当的性能，具有耗时少、要求高的优点方法随机S我们法博拉前1精度模型FC3VGG-16ResNet18ResNet50参数316916γ比top1时间比top1时间比top1时间（%）（%）（s）（%）（%）（s）（%）（%）（s）0.832.156.81264 30.260.43931631.260.211200.933.959.81351 30.761.63824934.262.212771.034.958.21126 32.761.84687634.362.91378102811.00.80.60.40.2层：池520 4060函数范数层：FC625 50 75100125函数范数5个时期，使用动量0.9和学习率1 e-4的随机梯度下降（SGD），每个时期减少10个因子。其次，我们应用我们的算法的另一个通道，使用SVD压缩微调模型的全连接层，它有3个参数。一次优化大约需要10分钟。同样，在压缩之后，我们对压缩后的模型进行微调，并使用带有动量的SGD作为优化器。我们使用循环学习率[43]作为我们的学习率策略，图2. 估计标准与ResNet 50中的Top-1错误。学习率从1 e-7到1 e-4不等最后，我们将我们的方法应用到这个微调过的模型上，1.00.80.60.4层：FC65001000函数范数层：FC7100 200函数范数层：FC850 100函数范数（没有微调）。根据双目标函数选择目标压缩比的最佳γ（补充材料中的细节）。表5给出了不同压缩阶段的前1和前5精度。较在[10]中修剪模型，我们的SVD压缩模型的评估对于fc6快2倍以上，对于 fc7相当，对于fc8快20倍图3. 估计标准与VGG-16中的Top-1错误。不执行标记数据。这进一步提高了我们使用函数范数压缩预训练模型的信心表3.使用SVD和知识蒸馏保真度项压缩FC3。#W是压缩层中的参数的数量。γ#W比率（%）前1名（%）时间0.0010.05M2.6267.9710.330.0020.05M2.6267.999.250.0050.06M3.0976.2213.730.0100.21M11.9697.8071.190.0200.36M20.1297.7879.54原始1.79M10098.20表4. 使用SVD和top-1错误对FC 3进行压缩。#W是压缩层中参数的数量。γ#W比率（%）前1名（%）时间0.90.16M8.6997.74181.171.00.17M9.2397.73378.651.10.20M11.2097.73365.53原始1.79M10098.204.3. VGG 16在本节中，我们证明了我们的方法找到的压缩参数与VGG-16 [10]上报告的最新压缩结果相比是有利的。我们首先应用我们的方法使用张量分解来压缩VGG-16的卷积层，张量分解具有13个参数。之后，我们对压缩模型进行微调表5.压缩的VGG-16的前1和前5准确度（%），以及压缩比（%）。参见第4.3详情网络前1名前5名比率原款68.50 88.68 100张量分解（td）69.11 88.69-td + svd 68.69 88.41 9.31td + svd+剪枝68.16 88.15 7.4Han等人[10] 68.66 89.12 7.54.4. γ参数分析在本节中，我们经验性地分析了压缩与压缩的作用。方程中的精度参数γ2以及该参数如何影响压缩比、总时间以及前1和前5的准确率。表6和7分别示出了ResNet18和ResNet50的压缩结果。从这些表中可以清楚地看出，总压缩比随γ单调增加。当压缩ResNet 18和ResNet 50时，如果γ大于0.0005，则压缩模型的top-1和top-5准确率与γ = 0的情况非常相似。0005，除了所需的总时间更长。如果γ太小，则top- 1和top-5准确率太低而不可接受因此我们不报告γ 0的结果<。00006这种现象在压缩FC3时也存在（参见图1）。表3）。从这些表中，我们得出结论，γ存在一个合理的范围来压缩特定模型，并具有预期的压缩精度权衡行为。表6和表7仅示出了微调之前的压缩模型的性能。经过几个时期的微调（限制秩等于压缩模型，因此不增加模型的大小），性能可以大幅提高。例如，在SEC。4.3、第一次压缩后无top1错误率top1错误率10282表6.使用低秩分解在ResNet18上进行压缩#W是压缩层中的参数的数量。γ#W比top-1top-5时间0.000061.08M17.1936.8165.72172.00.000081.26M20.1345.4972.68188.90.00011.75M27.9058.1882.16248.10.00032.67M42.6567.3387.61365.60.00053.15M50.2168.1688.15515.0原始6.27M10069.7689.08表7.使用低秩分解在ResNet50上进行压缩#W是压缩层中的参数的数量。(a) ResNet18（b）ResNet50图5.针对不同γ的逐块压缩。γ#W比top-1top-5时间方程中的目标函数2是一个权衡之间0.000062.03M17.9648.9373.51815.4压缩比和保真度项。当γ很小时，0.000082.99M26.4570.1689.73855.3保真度项的重要性很小，因此允许它0.00013.12M27.6071.2090.33804.6在不显著影响目标的情况下0.00033.89M34.3474.1691.961802.6功能BO在PAC下收敛所需的时间0.00054.48M39.5574.8392.282204.9这是一个很大的问题，因为当γ很大时，原始11.32M10076.1392.86优化将更加努力地寻找好的参数，使标准项变小。(a)ResNet18（b）ResNet50图4.不同γ和不同模型的压缩比、总时间、前1准确率、微调后，前1和前5的准确率分别比原性能下降了8.64%和5.67%，经过5次微调后，前1的准确率从59.86%提高到69.11%，前5的准确率从83.01%提高到88.69%。相似的是，经过第二次微调后，前1名的准确率从65.41%提高到68.69%，前5名的准确率从87.17%提高到88.41%。将微调扩展到压缩框架中以显著的额外计算为代价增加了总体准确度这可以作为一个后-最佳模型上的处理步骤（更快），如第二节所示4.3的压缩函数，或者作为压缩函数的一部分以生成f~θinBO的内环。我们把这些策略的进一步研究留给未来的工作。在图4中，我们示出了具有不同γ设置的性能的图形比较。例如，在图。如图4（b）所示，我们观察到，当γ小时，压缩比以及前1和前5的准确率存在更大的我们可以这样解释这个结果我们分析了ResNet中不同块的压缩统计数据图1A和1B 中的箱线图。图 5 （ a ）和 5 （ b ）分别示出了ResNet18和ResNet50的每块压缩比。每个图具有4个不同的γ，并且每个框使用10个不同的运行来计算。压缩比随着块的深度而减小，这表明更深的块具有更多的冗余信息。这与[21，6，11]中关于压缩卷积层的报告结果一致第二个观察结果是，较深的块在压缩比方面具有比浅块更小的可变性，潜在地指示由不同优化运行中的每一个编码的稳定5. 结论在这项工作中，我们已经开发了一个原则，快速，灵活的框架，优化神经网络压缩参数。我们已经证明了它在一系列最先进的神经网络模型上的实用性，包括多个ResNet架构，以及在压缩步骤期间具有可变监督量的两种不同设置：（i）使用经验风险的完全监督优化和（ii）基于知识蒸馏框架的仅使用未标记样本的设置在所有设置中，该框架都能在几分钟内获得最佳解决方案，比竞争方法快了几个数量级。软件将在发布时发布确认X射线衍射仪和M.B.B.获得Onfido的支持。A.R.T.M.B.和M.B.B.感谢FWO（grant G0A2716N）、AmazonResearch Award 、 NVIDIA GPU grant 和 Facebook AIResearch Partnership的支持。10283引用[1] 放大图片作者：Wacha Bounliphone，Eugene Belilovsky.Blaschko，Ioannis Antonoglou，and Arthur Gretton.生成模型中模型选择的相对相似性检验在2016年学习代表国际会议论文集。5[2] Eric Brochu，Vlad M.科拉和南多·德·弗雷塔斯昂贵成本函数的贝叶斯优化教程，应用于主动用户建模和分层强化学习。CoRR，abs/1012.2599，2010年。一、三、四[3] Emmanuel J Cande` s，Xiaodong Li，Yi Ma，and JohnWright.稳健主成分分析Journal of the ACM（JACM），58（3）：11，2011. 2[4] Changan Chen ，Frederick Tung ，Naveen Vedula， andGreg Mori. 约束感知深度神经网络压缩。在欧洲计算机视觉会议（ECCV）的会议记录中，第400-415页，2018年。2[5] 安托万·卡利、康斯坦丁诺斯·查齐利杰鲁迪斯、费德里科·阿尔洛卡蒂和让·巴蒂斯特·穆雷。Limbo：一个用于高斯过程建模和数据高效优化的灵活高性能库。TheJournal of Open Source Software ， 3 （ 26 ）： 545 ，2018。3[6] Emily Denton、Wojciech Zaremba、Joan Bruna、YannLeCun和Rob Fergus。利用卷积网络中的线性结构进行有效评估。神经信息处理系统进展，2014年。二五六八[7] Abhimanyu Dubey ， Moitreya Chatterjee ， and NarendraAhuja.基于核集的神经网络压缩。在欧洲计算机视觉会议（ECCV）的会议记录中，第454-470页，2018年。2[8] 彼得岛弗雷泽贝叶斯优化教程。 CoRR ，abs/1807.02811，2018。三、四[9] Song Han，Xingyu Liu，Huizi Mao，Jing Pu，ArdavanPe-Peng，Mark A Horowitz，and William J Dally. Eie：基于压缩深度神经网络的高效推理引擎。 2016 年ACM/IEEE 第 43 届计算机体系结构国际研讨会（ISCA），第243-254页。IEEE，2016. 3[10] Song Han，Huizi Mao，and William J. Dally深度压缩：使用修剪、训练量化和霍夫曼编码压缩深度神经网络。在2016年学习代表国际会议论文集。一、二、七[11] Song Han、Jeff Pool、John Tran和William J.Dally 学习权值和连接以获得高效的神经网络。神经信息处理系统的进展，2015年6月。二、五、八[12] 艾瑟尔 · 海兹温克尔加权空间在数学百科全书。Springer，1987年。4[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE Conferenceon Computer Vision and Pattern Recognition，第770-778页，2016中。6[14] Philipp Hennig和Christian J Schmidt。信息有效全局优化的熵搜索。Journal of Machine Learning Research，13（Jun）：1809-1837，2012。6[15] Geoffrey Hinton Oriol Vinyals和Jeff Dean。在神经网络中提取知识。神经信息处理系统的进展，深度学习研讨会，2015年。一、三、四[16] 瓦西里·赫夫丁有界随机变量和的概率不等式。美国统计协会杂志，58（301）：13-30，1963。三、四[17] Max Jaderberg Andrea Vedaldi和Andrew Zisserman加速具有低秩扩展的卷积神经网络。2014年英国机器视觉会议。2[18] RodolpheJenatton ，CedricArchambeau，Ja vierGonza'lez，andMatthias Seeger.具有树结构依赖关系的贝叶斯优化。在Doina Precup和Yee Whye Teh，编辑，第34届机器学习国际会议论文集，机器学习研究论文集第70卷，第1655-1664页，2017年。3[19] Donald R. Jones，Matthias Schonlau，and William J.韦尔奇昂贵的黑箱函数的有效全局优化。Journal of GlobalOptimization，13（4）：4555[20] Soroosh Khoram和Jing Li。神经网络的自适应量化2018.2[21] Yong-Deok Kim，Eunhyeok Park，Sungjoo Yoo，TaelimChoi，Lu Yang，an

下载后可阅读完整内容，剩余1页未读，立即下载