深度卷积网络压缩：级联投影方法的高效性与优势

142 浏览量更新于2023-10-17 收藏 1.3MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

10715级联投影：端到端网络压缩和加速罗切斯特理工blm2144@rit.edu罗切斯特理工andreas. rit.edu摘要我们提出了一种用于深度卷积神经网络压缩的数据驱动方法，该方法可实现高精度、高吞吐量和低内存要求。当前的网络压缩方法要么找到需要更多的分类器的特征的低秩分解，要么通过修剪整个滤波器通道来仅选择特征的子集。我们提出了级联投影（CaP）压缩方法，该方法基于低秩投影将连续层的输出和输入滤波器通道投影到统一的低维空间。我们优化了投影，以最大限度地减少分类损失和压缩和未压缩网络中下一层特征之间为了解决这个非凸优化问题，我们提出了一种新的优化方法的代理矩阵使用反向传播和随机梯度下降（SGD）的几何约束。我们的级联投影方法在网络压缩的所有关键领域都有改进：精度高、占用内存少、参数计数少、处理速度快。所提出的CaP方法证明了压缩VGG16和ResNet网络的最新结果，计算数量减少了4倍以上，并且在微调前后ImageNet数据集1. 介绍由于深度网络的有效性及其在移动和嵌入式设备上的潜在应用，深度神经网络的压缩正在受到关注。今天开发的强大的深度网络往往是过度参数化的[9]，需要大量的内存和计算资源[3]。因此，有效的网络压缩减少了处理图像所需的计算和内存数量，使深度神经网络的应用更加广泛。网络压缩的方法可以分为四种类型，基于量化，稀疏化，因子化和修剪。在这项工作中，我们利用先进的-图1.在单个CNN层上可视化表示网络压缩方法。顶行：具有增加内存的重投影步骤的因式分解压缩。中间行：删除单个过滤器的修剪压缩。底行：提出的CaP方法，其形成滤波器的线性组合而不需要重新投影。阶段的分解和修剪方法，因为它们是最流行的。量化方法通过使用混合精度算法和哈希码来加速深度网络并减少存储[4，6，13]。然而，它们中的大多数需要混合精度算法，这在标准硬件上并不总是可用的。稀疏化方法消除了对网络影响最小的节点之间的单个连接，然而，它们并不适合当前的应用，因为大多数神经网络库都没有针对稀疏卷积操作进行优化，并且无法实现显着的加速。因式分解方法[10，29，33，55]通过因式分解网络内核来减少计算，通常通过将大内核拆分为一系列具有较小滤波器的卷积。这些方法的缺点是由于中间卷积运算而增加了这样的内存需求给移动应用带来了问题，因为移动应用最需要网络加速。修剪方法[13，19，35，37，39，44，54，56]通过删除整个卷积10716过滤器和下一层过滤器中的相应通道。它们不需要特征图重投影，但在消除整个滤波器通道时会丢弃大量信息。本文提出了级联投影（CascadedProjection，CaP）压缩方法，该方法结合了因子分解方法优越的重构能力和剪枝方法的多层级联压缩。CaP不是像修剪方法那样选择特征的子集，而是形成保留更多信息的原始特征然而，与因子分解方法不同，CaP将下一层中的内核带到低维特征空间，因此不需要用于重投影的额外存储器。图1提供了三种方法之间差异的直观表示：因式分解（顶行）重新投影到更高维空间并增加分类，修剪（中间行）屏蔽滤波器并消除它们的通道，并且我们提出的CaP方法（底行）将滤波器组合到更小的数目而不重新投影。我们的结果表明，通过形成基于线性组合的过滤器，本文的主要贡献如下：1. 我们提出了CaP压缩方法，该方法找到特征内核的低维投影，并级联投影以压缩下一层内核的输入2. 我们引入代理矩阵投影反向传播，这是第一种使用标准反向传播和随机梯度下降的端到端训练来优化每层压缩投影的方法3. 我们的优化方法允许我们使用一个新的损失函数，该函数将重建损失与分类损失相结合，以找到更好的解决方案。4. CaP方法是第一个同时优化残差网络所有层的压缩投影的方法。5. 我们的研究结果表明，CaP压缩网络实现了最先进的精度，同时减少了网络2. 相关工作网络压缩和加速的目标是减少在深度网络中执行的参数和计算的数量，而不牺牲准确性。网络修剪的早期工作可以追溯到20世纪90年代[14]。然而，直到深度卷积网络变得普遍[31，32，43]并且网络参数的冗余变得明显，[9]的文件。最近的工作旨在开发需要更少资源的更小的网络架构[20，25，42]。量化技术[4，6，13，28]使用仅在最先进的GPU上可用的整数或混合精度运算 [38]。这些方法减少了网络参数所需的计算它们可以与其他方法一起使用以进一步加速压缩网络，如[30]中所做的那样。网络稀疏化[36]，有时被称为非结构化修剪，通过施加稀疏性约束来减少深度网络中的连接数量。[21]中的工作建议将稀疏网络重新铸造成单独的操作组，其中每层中的滤波器仅连接到输入通道的子集。在[52]中，k-means聚类用于鼓励特征之间的相似性，以帮助压缩。然而，这些方法需要从头开始训练网络，这是不实用或有效的。滤波因子分解方法以增加用于存储中间特征图的存储器负载最初的工作集中在将三维卷积核分解成三个可分离的一维滤波器[10，29]。在[33]中，CP分解用于将卷积层分解为复杂度较低的五层。最近[55]进行了信道分解，发现卷积滤波器在每层中的投影，使得不对称的重新投影误差最小化。通道修剪方法[35，37，39，44，56]去除了用于网络压缩的整个特征内核在[13]中，基于它们的幅度修剪核，假设低幅度的核向网络提供的信息很少Li等[35]提出了一个类似的修剪技术的基础上核统计。He等人[19]提出了基于最小化各层重构误差的Luo等人[37]进一步扩展了[19]中的概念，以修剪对下一层的重构具有最小影响的滤波器。Yu等人[54]提出了神经元重要性分数传播（NISP）算法，根据神经元对最终特征表示的贡献计算每个神经元的重要性，并修剪为最终特征表示提供最少信息的特征通道。其他最近的工作集中在寻找最佳的功能，修剪和更多的功能，从网络的每一层中删除的最佳数量。这一点很重要，因为每一层中执行的修剪量通常是任意设置的，或者是通过大量实验设置的。在[53，54]中，作者提出了基于统计测量的自动修剪架构方法。在[18，24]中，提出了使用强化学习来学习最优网络的方法，10717我我F工作压缩架构。已经做了额外的工作来减少深度网络最后一层的参数数量[5]，但是全连接层只占总计算量的一小部分。3. 级联投影法在本节中，我们将深入讨论CaP压缩和加速方法。我们首先介绍了应用于单层时的投影压缩，并解释了CaP与之前的滤波器分解方法之间的关系CaP压缩的主要目标之一是消除因子分解方法中执行的特征重投影步骤。为了实现这一点，CaP通过将当前层中的压缩扩展到下一层中的内核的输入，将它们投影到相同的低维空间，如图2所示。接下来，我们证明，通过一些修改，CaP压缩方法可以同时优化残差网络中所有层的投影[15]。最后，我们介绍了CaP方法的核心组件，这是我们新的端到端优化方法，它使用标准的反向传播和随机梯度下降来优化层压缩投影。图2.使用CaP方法压缩CNN层的视觉表示，以分别使用投影Pi和PT压缩当前层和下一层中的滤波器Wi和Wi+1。在非线性G（·）之后计算下一层中的重构误差。按图层i，输出要素使用标准正交投影矩阵Pi表示为（ci+1×r×1×1）维的四维张量. 基于最小化重建损失的层i的最优投影P_i被给出为：联系我们3.1. 问题定义在卷积网络中，如顶行Pi=argmin？Oi−（IiWiPi+biPi）Pi？F（二）Pi图2，第i层将dimen的4-张量Ii作为输入，其中·2是弗罗贝尼的标准sion（n×ci×hi×wi），其中n是图像的数量（最小-批量大小）输入到网络中，ci是通道数在输入中，wi和hi是输入的高度和宽度输入与一组滤波器W1进行卷积，受[55]的启发，我们改变了我们的优化标准，以最小化下一层输入的重建损失。这导致优化：表示为维数为（c）的4张量×c×k×k），其中T¨2i+1iPi=argmin<$G（Oi）−G（（Ii<$Wi<$Pi+bi<$Pi）<$Pi）<$Fci+1是核的数量，k是空间维度Pi的内核，通常为3个像素。在许多网络中，（三）是附加偏置bi，尺寸为（ci+1×1×1×1），添加到输出的每个通道。更正式地说，CNN的第i层的卷积运算如下：Oi=Ii<$Wi+bi（1）其中（*）是卷积算子。下一层的输入是通过将非线性应用于输出来计算的Ii+1=G（Oi），其中G（·）通常是ReLU[40]。网络压缩旨在减少文件数量，以使网络的分类精度受到最小的影响。在这项工作中，我们找到了一个投影Pi，它通过最小化重建误差和分类损失将特征映射到低维空间，如本节其余部分所述。3.2. 单层投影压缩我们首先介绍如何使用基于投影的压缩来压缩网络的单层为了-非线性的加入使得这一点更加困难。优化问题在[55]中，问题被放松并使用广义SVD [12，49，50]解决。我们的级联投影方法基于下面描述的端到端方法。3.3. 级联投影压缩分解方法，包括上面讨论的单层投影压缩，由于将特征重新投影到高维空间所需的附加卷积操作，因此效率低下修剪方法通过移除与修剪的滤波器相关联的所有通道来避免重新投影。CaP采用了一种更强大的方法，通过投影形成内核的线性组合，而不需要因子分解方法的额外内存要求。根据图2中的图表，我们考虑两个连续的卷积层，标记为i和i+1，分别具有内核Wi，Wi+1和偏置bi，bi+1。的10718我我我i+1我i+1我我我我F我i ii+1层i的输入是Ii，而层i+1的输出是层i+2的输入，由Ii+2表示并在下面给出Ii+2=G（G（Ii<$Wi+bi）<$Wi+1+bi+1）（4）在将我们的压缩表示替换为上面的层i的重投影之后，我们得到：Ii+2=G（G（（Ii<$Wi<$Pi+bi<$Pi）<$PT）<$Wi+1+bi+1）（5）为了避免将低维特征重新投影回具有P T的高维空间，我们寻求两个投影。第一个PO，它捕获了最优的较低的di-3.4. 混合损失基于梯度的优化的好处是可以改变损失函数以最小化重建和分类误差。先前的方法集中在修剪每个层时基于重建误差最小化[19，37]或分类[54]的度量。我们建议使用标准交叉熵分类损失L类和重建损失LR的组合，如图2所示。层i的重构损耗被给出为：当前层中的特征的三维表示而第二个PI将下一层的内核LR（i）= II+2-G（G（Ii我的朋友伊斯坦堡岛我+bP））PTW+b）102（九）到低维空间。这一提法导致投影算子的优化问题：我我我i+1i+1 F{PI，PO}=argminIPI、POI+2−G（G（（IiWiPO用于优化第i被给定为我i（6）L（i）=LR（i）+γL类（10）+biPO））PIWi+1+ bi+1）2i iF为了使问题易于处理，我们对投影施加两个我们要求它们是标准正交的，并且彼此是转置的：PI=（PO）T。其中γ是允许在训练期间调整每个损失的影响的混合参数通过使用这两种损失的组合，我们得到一个压缩网络，主要是-在具有表示的特征的同时保持分类精度。对于本工作的剩余部分，我们将PO和PI替换为包含最大量的分别为Pi和Pi这些约束条件使得优化问题通过减少参数变得更加可行搜索空间为每个层的单个投影算子。原始网络的信息。3.5. 压缩多分支网络P= argmin我Pi，Pi∈On×mIi+2−G（G（（Ii（七）多分支网络因其出色的性能而受到欢迎，并以多种形式出现，如In-+bi<$Pi））<$PT<$Wi+1+bi+1）<$2ception networks [46，47，45]，残差网络（ResNets）我们使用第3.6节中讨论的投影算子的新数据驱动优化方法来解决每个层的单个投影算子的优化问题。3.3.1核压缩和松弛一旦投影优化完成，我们将当前层中的内核和偏置替换为投影值WO=WiPi和bO=biPi分别为[15]和密集网络（DenseNets）[22]等。我们主要专注于将CaP网络压缩应用于ResNets，但我们的方法可以与其他多分支网络集成。我们选择ResNet架构有两个原因。首先，ResNets在产生最先进的结果方面有着良好的记录[15，16]。其次，跳过连接与网络压缩一起工作得很好，因为它们允许通过网络传播信息，而不考虑各个层内的压缩过程我我活泼地我们还将下一层中的内核替换为它们的输入压缩版本WI=PT<$Wi+1。因此，在本发明中，我们对ResNet压缩的CaP修改如图3所示。在我们的方法中，我们不改变Ii+2=G（G（（Ii<$WO+bO））<$WI+bi+1）（8）因此，我们不压缩每个卷积层图2描绘了滤波器WI下一层剩余块，如[37]所做在[35，54]修剪中使用投影PT压缩，因此小于原始网络中的内核。利用压缩的内核W0和W1导致两倍的10719对剩余连接执行，但我们不影响它们，因为修剪这些层具有很大的负面影响影响网络我我比传统的因式分解方法更快，压制的中间层（第一层和最后一层除外在内核投影之后，我们执行了一轮额外的训练，其中只有压缩的内核被优化。我们把这个步骤称为核松弛，因为我们允许核找到更好的最优解在我们的投影优化步骤之后。我们计算ResNets中的重建误差，输出的每个残差块，如图所示。3，与单分支网络相比，我们计算下一层的重建误差，如图所示。2.通过计算跳过连接后的重建误差，我们在投影优化中利用跳过连接中的信息。10720我我图3.使用混合损失同时优化ResNet18网络每层的投影的图示，该混合损失包括每层中的分类损失和重建损失，用于中间监督。我们不改变残差块输出的结构，因此我们不影响残差连接，并且我们不压缩每个残差块中最后一个卷积层的输出3.5.1同步层压缩大多数网络压缩方法应用贪婪逐层压缩方案，其中一次压缩或修剪一层。然而，这种逐层的网络压缩方法可能会导致次优结果[54]。我们现在提出一个版本的CaP，其中所有层都同时优化。这种方法允许后一层帮助引导前一层的投影，并使整个网络的总重建误差最小化。在我们的实验中，我们发现，同时优化的投影矩阵有风险变得不稳定，当我们压缩一个以上的层在每个残留块。为了克服这个问题，我们将具有多于一个可压缩层的剩余块中的投影的训练在第一轮中，奇数层的投影被优化，并且在第二轮中，偶数层投影被优化。此外，我们发现在最后一层使用重建损失并不能为网络提供足够的监督因此，我们通过最小化每层的归一化重建损失之和来为每层引入深度监督，由下式给出：ΣN3.6. 反投影优化在本节中，我们提出了一种端到端代理矩阵投影（PMaP）优化方法，该方法是使用具有随机梯度下降（SGD）的反向传播对投影进行迭代优化。该方法通过将反向传播与几何约束相结合，有效地优化了网络压缩。在我们的框架中，我们限制投影算子是正交的，因此满足PiTPi=I。（n×m）个实值正交矩阵On×m构成一个光滑流形，称为格拉斯曼流形. 那里Grassmann流形上的优化方法有很多种，其中大部分包括迭代优化和收缩方法[7，1，48，2，51]。使用CaP压缩，每个层的投影取决于所有先前层中的投影，从而在跨层的优化中添加依赖性。在多个独立Grassmann流形上的优化问题的研究方面，目前还很少有人做Huang等人. [23]在训练过程中，使用[26，27]中开发的结构化线性代数层的反向传播方法对神经网络的权重施加正交约束受这些工作的启发，我们利用类似的方法，而不是优化每个投影矩阵argminP∈PLR（i）+γL类（十一）直接地，我们对每个层i使用代理矩阵Xi变换Φ（·）使得Φ（X）=P。ii=0 i i其中Pi是第i层的投影，N是层的总数我们概述了我们的方法，找到一个解决方案，上述优化使用迭代反向传播接下来。我们得到了投影每个代理矩阵Xi到草地上最近的位置Mann流形，使得Xi=Ui<$iVT，其中Ui和VT是正交矩阵，<$i是奇异矩阵10721我i，2我拉吉吉价值观到Grassmann流形上最近位置的投影执行为Φ（Xi）= UiVT=Pi。在训练期间，投影矩阵Pi不直接更新;相反，代理参数Xi基于损失相对于Ui的偏导数更新，并且VL乌鲁岛LVi分别的偏导数在[26，27]中使用链式规则推导出关于代理参数Xi的损失L，并由下式给出.L=U2.KT◦.ΣΣVTΣVTXi我我我iVisym阿斯图里岛图4.重建误差图（垂直轴）（十二）其中Asym是矩阵A的对称部分，Asym= 1（AT+A）.由于Φ（Xi）=UiVT，损耗不依赖于矩阵Φi。因此，Δ L=0，并且等式（12）变为：网络每层（右轴）的压缩范围（左轴）。当早期层被压缩时，重建误差较低。.L=U2.KT◦.ΣΣVTΣVT（13）Xi我我我iVi我sym以上内容使我们能够使用反向传播和SGD优化网络每层的压缩投影算子。我们的方法首次允许使用标准深度学习框架进行端到端网络压缩。4. 实验我们首先对VGG16网络的独立层压缩进行实验然后，我们对所提出的CaP算法进行了一系列消融研究，以确定算法的每个步骤对压缩网络最终精度的影响我们来-通过压缩VGG16网络，使浮点运算减少4倍以上，从而将CaP转换为其他最先进的方法。最后，我们提出了我们的实验与不同级别的压缩ResNet架构，与18或50层，训练的CIFAR10数据集。所有实验都是在运行Ubuntu 16.04的工作站上使用PyTorch 0.4[41] 进行的该工作站拥有 Intel i5-65003.20GHz CPU，15 GB RAM和NVIDIA Titan V GPU。4.1. 分层实验在这些实验中，我们研究了网络的每一层如何受到不断增加的压缩量的影响。我们使用CaP对每一层独立地执行滤波器压缩，同时使所有其他层不压缩。我们考虑了每个层的压缩范围，从5%到99%，并将结果显示在图4. 该图显示了两个趋势。首先，直到70%的压缩，重构误差才增加很多，这表明每层中的大部分参数图5.网络每层（右轴）的压缩范围（左轴）的分类精度（垂直轴）图。在网络中任何地方的单层中进行大量压缩时，分类精度都不会受到影响。是多余的，并且可以在不损失太多精度的情况下减少。第二个趋势是网络深层（右轴）的每个压缩级别的重建误差增加在图5中，我们绘制了每个层的每个压缩级别网络对于大范围的压缩相对不受影响，尽管存在由图4所示的压缩引入的显著量的重构误差。4.2. CaP消融实验我们运行了额外的实验来确定我们算法的投影优化和核松弛步骤的贡献。我们首先在CIFAR100数据集上训练ResNet18网络，并实现了78.23%的基线准确率。然后，我们仅使用部分CaP方法将网络压缩到原始大小的50%，以评估不同组件的影响。我们在表1中给出了这些结果。我们还从头开始训练了一个压缩版本的ResNet18，训练了350个epoch，为com提供了一个基线和10722ResNet18网络当在原始ResNet18网络上仅执行投影这种损失的分类精度下降到0.76%后，内核放松。相比之下，当优化的投影被随机投影取代并且只执行核松弛训练时，准确率下降了1.96%，分类错误增加了2.5倍。这些结果表明，投影优化是我们的网络压缩算法的一个重要方面，这两个步骤的组合优于从头开始训练压缩网络。ResNet18网络变体精度ResNet18未压缩（上限）78.23从零开始77.22仅使用投影的CaP压缩76.65随机投影的CaP &内核松弛76.27具有投影核松弛的77.47表1.对在CIFAR100数据集上训练的ResNet18网络进行压缩的CaP方法的网络压缩消融研究。(Bold数字是最好的）。图6.相对于基线，CIFAR10上的分类准确性下降，压缩方法（CaP，PCAS [53]，PFEC [35]和LPF [24]）在ResNet18（顶部）和ResNet50（底部）上的一系列压缩级别。4.3. CIFAR 10我们使用在CIFAR10数据集上训练的ResNet18和ResNet50进行了两组实验我们来-表2.使用在CIFAR10上训练的ResNet56和ResNet110的基于修剪和因子分解的方法比较CaPFT表示微调。(Bold数字是最好的）。* [54]中仅报告了准确度的相对下降，而没有基线准确度。使用不同的压缩水平按压18层和50层ResNet，并将CaP的准确性相对下降与其他最先进的方法进行比较[53，35，24]。我们在图6中绘制了ResNet18和ResNet50的分类准确度下降对于这两种网络，CaP方法优于其他方法的全范围压缩。在表2中，我们呈现了ResNet56和ResNet110的分类准确度，其中每个残差块被压缩为使用CaP具有少50%的 FLOP我们将CaP获得的结果与[17，18，35，54，19]的结果进行比较，其中网络受到类似的压缩比。我们报告的准确性结果与微调和不微调，包括基线性能的COM-的。微调的结果通常更好，除了过拟合的情况。然而，长时间的微调可能会掩盖通过重新训练网络过滤器远离压缩结果的压缩算法。没有微调的CaP方法的结果是基于具有重构损失的压缩滤波器上的投影优化和核松弛，而微调结果是基于网络中所有层的混合损失通过额外的一轮训练ResNet方法FTFLOPs%应计/基数PFEC [35]N72.491.31 /93.04[19]第十九话N50.090.90 /92.80[第17话N47.492.26 /93.59AMC [18]N50.090.1/92.8帽N50.292.92/93.5156PFEC [35]Y72.493.06 /93.04NISP [54]Y57.4（-0.03）*[19]第十九话Y50.091.80 /92.80[第17话Y47.493.35 /93.59AMC [18]Y50.091.9/92.8DCP [56]Y35.093.7/93.6帽Y50.293.22 /93.51PFEC [35]N61.492.94 /93.53MIL [11]N65.893.44 /93.63[第17话N59.293.38 /93.68110帽N50.193.95/94.29PFEC [35]Y61.493.30 /93.53NISP [54]Y56.3（-0.18）*[第17话Y59.293.86 /93.6810723方法参数内存（Mb）FLOPsGPU加速前5名准确度/基线VGG16 [43]（基线）14.71M3.3930.9B189.9[29]第二十九话---1.01*80.02 /89.9不对称[55个]5.11M3.903.7B1.55*86.06 /89.9[19]第十九话7.48M1.356.8B2.5*82.0/89.9CaP（基于[19] arch）7.48M1.356.8B3.0586.57 /90.38CaP优化7.93M1.116.8B3.4488.23/90.38表3.基于修剪和因子分解的方法的网络压缩结果，无需微调。由于不同的模型和框架，每种方法的基线VGG16网络的前5名精度略有不同（粗体数字最好）。用 * 标记的结果来自[19]。方法记忆（兆字节）FLOPs前5名Acc./基线VGG 16 [43]3.3930.9B89.9[19]第十九话1.356.8B88.1COBLA [34]4.217.7B88.9/89.9塔克[30]4.966.3B89.4/89.9[19]第十九话1.356.8B88.9/89.9ThiNet-2 [37]1.446.7B88.86 /90.01帽1.116.8B89.39 /90.38表4.基于修剪和因子分解的方法的网络压缩结果，(Bold数字是最好的）。4.4. 使用ImageNet我们压缩了在Ima-geNet 2012 [8]上训练的VGG 16网络，并将CaP的结果与其他最先进的方法进行了比较。我们分别在表3和表4中给出了两组结果，未进行微调和进行微调。在ImageNet上进行微调是时间密集型的，需要大量的计算能力。这对于用户没有足够的资源来重新训练压缩网络的许多应用来说是一个在表3中，我们比较了CaP与因子分解和Prun- ing方法，所有方法都没有微调。正如预期的那样，因子化方法由于其额外的中间特征图而遭受增加的存储器负载。[19]中的通道修剪方法显著减少了内存消耗，但在没有微调的情况下，[55]中的因子分解方法表现不佳。我们提出了两组CaP算法的结果，每个层的压缩程度不同。为了匹配[19]中使用的架构，我们将第1-7层压缩到其原始大小的33%，并将第8-10层中的过滤器压缩到其原始大小的50%，而其余层保持未压缩。我们还使用了CaP方法和基于分层训练实验选择的压缩架构。表3中的结果表明，所提出的CaP压缩实现了比因子分解或修剪方法更高的加速比和更高的在表4中，我们比较了CaP与最先进的网络，工作压缩方法，所有与微调。未压缩的VGG16结果来自[43]。我们包括在ImageNet数据集上从头开始训练VGG16的压缩版本的结果，如[19]中所报告的。我们将CaP与两种因子分解方法[34，30]和两种修剪方法[19]，[37]的结果进行比较。这两种因子化方法都实现了令人印象深刻的分类精度，但这是以增加内存消耗为代价的。剪枝方法在保持高分类精度的同时，降低了网络的FLOP和内存消耗。然而，它们严重依赖微调来实现高精度。最后，我们提供了在每一层优化的CaP压缩结果。我们的研究结果表明，CaP算法给出了最先进的结果，具有最大的内存消耗减少，并优于修剪方法的前5名的准确性。5. 结论在本文中，我们提出了级联投影，这是一种端到端的可训练网络压缩框架，可以优化每一层的压缩。我们的CaP方法以最小化重建误差和最大化分类精度的方式CaP方法是网络压缩领域中第一个使用反向传播和SGD优化网络层的低维投影的方法，使用我们提出的代理矩阵投影优化方法。当CaP方法用于压缩在标准数据集上训练的标准网络架构时，与修剪和因子分解方法CaP公式的一个附带好处是，它可以使用标准的深度学习框架和硬件来执行在未来的工作中，CaP方法可以与其他方法（如量化和哈希）相结合，以进一步加速深度网络。10724引用[1] P. A.阿布西尔河Mahony和R.坟墓矩阵流形上的优化算法。普林斯顿大学出版社，2009年。[2] P. A. Absil和J.马利克流形上的类投影收缩SIAM Journalon Optimization，22（1）：135[3] A. Canziani，A. Paszke和E. Culurciello。深度神经网络模型的实际应用分析。 arXiv 预印本 arXiv ：1605.07678，2016年。[4] W. Chen，J. Wilson，S. Tyree，K. Weinberger和Y.尘用散列技巧压缩神经网络在国际机器学习会议（ICML）（ICML）的Proceedings中，第2285-2294页[5] Y. Cheng，F. X.于河，巴西-地S. Feris，S.库马尔A.Choudhary和S.- F.昌循环投影深度网络中参数冗余的探索。在IEEE计算机视觉国际会议（ICCV）的会议记录中，第2857-2865页[6] M. Courbariaux，Y. Bengio和J.大卫。用低精度乘法训练深度神经网络。在 2014 年国际机器学习会议（ICML）研讨会上[7] J. P. Cunningham和Z.Ghahramani 线性降维：调查、见解和概括。Journal of Machine Learning Research，16（1）：2859[8] J. Deng，W.东河，巴西-地索赫尔湖J. Li，K. Li和L.飞飞。Imagenet：一个大规模的分层图像数据库。在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，第248-255页[9] M.德尼尔湾沙基比湖Dinh，N. De Freitas等人深度学习中的预测参数。神经信息处理系统进展（NIPS），第2148-2156页，2013年。[10] E. L. Denton，W. Zaremba，J. Bruna，Y. LeCun和R.费格斯。利用卷积网络中的线性结构进行有效评估。在神经信息处理系统（NIPS）中，第1269[11] X.董，黄，Y. Yang和S.燕.多即少：一个更复杂的网络，具有更低的推理复杂性。 IEEE InternationalConference on Computer Vision（ICCV），2017年。[12] J. C. Gower ， G.B. Dijksterhuis 等人 Procrustesproblems，第30卷。牛津大学出版社，2004年。[13] S.汉，H. Mao和W. J·达利深度压缩：使用修剪、训练量化和霍夫曼编码压缩深度神经网络。国际学习代表大会（ICLR），2015年。[14] B. Hassibi和D. G.鹳鸟用于网络修剪的二阶导数：最佳脑外科医生。神经信息处理系统的进展（NIPS，第164-171页[15] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在 Proceedings of the IEEE conference onComputer Vision and Pattern Recognition（CVPR），第770-778页[16] K.他，X。Zhang，S. Ren和J. Sun.深度剩余网络中的身份映射。在IEEE欧洲计算机视觉会议（ECCV）的会议记录中，第630- 645页。施普林格，2016年。[17] Y.他，G.康，X.董，Y. Fu和Y.杨用于加速深度卷积神经网络的软滤波器修剪在2018年人工智能国际联合会议（IJCAI）[18] Y. He，J. Lin，Z. Liu，H.王湖，澳-地J. Li和S.韩Amc：Automl，用于移动设备上的模型压缩和加速。在欧洲计算机视觉会议（ECCV）的会议记录中，第784-800页[19] Y.他，X。zhang和J.太阳用于加速非常深的神经网络的通道修剪。在IEEE计算机视觉国际会议（ICCV）的会议记录中，2017年10月。[20] A.G.Howard ， M.Zhu ， B.Chen ，中国粘蝇D.Kalenichenko，W.小王，T. Weyand，M. Andreetto和H. Adam. Mobilenets：用于移动视觉应用的高效卷积神经网络。arXiv预印本arXiv：1704.04861，2017。[21] G. Huang，S.柳湖，加-地van der Maaten和K.Q. 温伯格Condensenet：一个高效的密集网络，使用学习的群卷积。在IEEE计算机视觉和模式识别会议（CVPR），2018年6月[22] G. Huang，Z.Liu，K.Q. Weinberger和L.范德马滕。密集连接的卷积网络。在IEEE计算机视觉和模式识别会议（CVPR）论文集，第1卷，第3页，2017年。[23] L. Huang，X.刘湾，澳-地Lang、A. W. Yu，Y. Wang和B.李正交权重归一化：深度神经网络中多个相关Stiefel流形上的优化问题的求解。 arXiv 预印本 arXiv ：1709.06079，2017。[24] Q. Huang，K. Zhou，S.你和你。诺伊曼学习修剪卷积神经网络中的过滤器。在IEEE计算机视觉应用冬季会议（WACV）上，第709-718页，2018年[25] F. N.扬多拉，S。汉，M。W.莫斯基维茨K.阿什拉夫，W。J.达利和K.库茨Squeezenet：Alexnet级精度，参数减少50倍，…0.5 mb模型大小。arXiv预印本arXiv：1602.07360，2016.[26] C.约内斯库岛Vantzos和C.斯明奇塞斯库具有结构层的深度网络的矩阵反向传播。 IEEE InternationalConference on Computer Vision（ICCV），2015。[27] C. 约内斯库岛Vantzos和C.斯明奇塞斯库通过矩阵反向传播训练arXiv预印本arXiv：1509.07838，2015年。[28] B.雅各布，S。克利吉斯湾Chen，M. Zhu，M. Tang，A.霍华德H. Adam和D.卡列尼琴科量化和训练神经网络以实现高效的仅整数算术推理。 arXiv 预印本 arXiv ：1712.05877，2017。[29] M. Jaderberg，A. Vedaldi和A.齐瑟曼。加速具有低秩扩展的卷积神经网络。英国机器视觉会议（BMVC），2014年。[30] Y.-- D. Kim，E.帕克，S。刘，T。崔湖，澳-地Yang和D.信压缩深度卷积神经网络以实现快速10725和低功率移动应用。国际学习表征会议（ICLR），2016年。[31] A. 克里热夫斯基从微小的图像中学习多层特征技术报告，多伦多大学计算机科学系，2009年。[32] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。 Advances in Neural InformationProcessing Systems（NIPS），25：1097[33] 列别捷夫， Y. 加宁 M. 拉库巴， I. Oseledets，和V. Lempitsky加速卷积神经网络-使用微调的cp分解。arXiv预印本arXiv：1412.6553，2014。[34] C. Li和C.理查德·施基于约束优化的深度神经网络低秩逼近。在 IEEE 欧洲计算机视觉会议（ ECCV ）的Proceedings中，第732-747页[35] H. Li，长穗条锈菌A.卡达夫岛Durdanovic，H. Samet和H. P·格拉夫修剪过滤器以实现高效的卷积。国际学习表征会议（ International Conference on LearningRepresentations，ICLR），2016。[36] B. Liu，M. Wang，H. Foroosh，M. Tappen和M.彭斯基稀疏卷积神经网络。在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，第806-814页[37] J. - H. Luo，J. Wu，and W.是林书Thinet：一种用于深度神经网络压缩的滤波器级压缩方法。在IEEE国际计算机视觉会议（ICCV）的会议记录中，2017年10月。[38] S. Markidis，S. W. Der Chien，E.洛雷岛B. Peng和J. S.维特Nvidia张量核心可编程性，性能精确。arXiv预印本arXiv：1803.04014，2018。[39] P. Molchanov，S. Tyree，T. Karras，T. Aila和J.考茨修剪卷积神经网络以实现资源高效推理。在2017年国际学习表征会议（ICLR）的会议记录中[40] V. Nair和G. E.辛顿校正线性单元改进了受限玻尔兹曼机。在国际机器学习会议（ICML）的会议记录中，第807[41] A. Paszke，S.格罗斯，S。钦塔拉湾Chanan、E.杨，Z.De Vito，Z. Lin，L.德迈松湖Antiga和A. Lerer pytorch中的自动微分。在NIPS-W，2017年。[42] J. Redmon和A.法哈迪。Yolov3：增量改进。arXiv，2018年。[43] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。国际学习代表会议（ICLR），2015年。[44] S. Srinivas和R.维·巴布深度神经网络的无数据参数修剪英国机器视觉会议（BMVC），2015年。[45] C.塞格迪，S。约菲，V. Vanhoucke，和A. A.阿莱米起始 -v4 ，起始 -resnet 和剩余连接对学习的影响。在AAAI，第4卷，第12页，2017年。[46] C.塞格迪W.刘先生，Y.贾，P.Se

下载后可阅读完整内容，剩余1页未读，立即下载