卷积神经网络中的过滤器修剪方法与性能的比较（CIFAR-10数据集）

60 浏览量更新于2023-10-18 收藏 696KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

106661.00.90.80.70.60204060801 0204060800.5100时代时代CFD一Bt -RePrt -标准特斯特斯E- RePr- 标准列车火车00RePr：卷积滤波器Aaditya PrakashBrandeis大学aprakash@brandeis.edu詹姆斯·斯托勒·布兰代斯大学storer@brandeis.eduDinei Florencio，Cha Zhang微软研究院{dinei，chazhang}@microsoft.com摘要1.0一个训练良好的卷积神经网络可以很容易地被修剪，而不会有明显的性能损失。这是因为网络网络架构的创新，如跳跃/密集连接和Inception单元，在一定程度上缓解了这个问题，但这些改进带来了运行时计算和内存需求的增加。我们试图从另一个角度解决这个问题-不是通过改变网络结构，而是通过改变训练方法。我们表明，通过暂时修剪，然后恢复模型的过滤器的一个子集，并循环重复这一过程，重叠的学习功能减少，产生改进的我们表明，现有的模型修剪标准不是最佳的选择过滤器修剪在这种情况下，并引入过滤器间的正交性作为排名0.90.80.70.60.5图1：使用标准方案和我们的方法（CIFAR- 10上的RePr），在100个epoch上使用32个过滤器的三层ConvNet的性能。阴影区域表示仅训练部分网络的时间段左：训练精度，右：测试精度。注释[A-F]在第4节中讨论。修剪过滤器[7，8，6，9，10，11]，而不是单个参数[12]，以实现模型压缩。这些修剪方法中的大多数能够丢弃大量的滤波器，而性能仅略有损失用于确定表达不足的过滤器的标准。我们的方法既适用于普通卷积网络，也适用于更复杂的现代架构，并提高了各种任务的性能，特别是在应用于较小的网络时。1. 介绍卷积神经网络在各种计算机视觉任务中取得了最先进的成果[1，2]。这种成功很大程度上归功于一种新颖的、特定于任务的网络架构的创新[3，4]。尽管网络设计各不相同，但相同的核心优化技术在任务中使用。这些技术将每个单独的权重视为自己的实体，并独立地更新它们。在开发专门为卷积网络设计的训练过程方面取得了有限的进展，其中滤波器是网络的基本单元。滤波器不是单个权重参数，而是空间核的堆栈。由于模型通常是过度参数化的，因此经过训练的卷积网络将包含冗余滤波器[5，6]。这一点从以下的普遍做法中可以看出：的模型。然而，具有较少过滤器的模型可以-不要从头开始训练，以实现已修剪为大致相同大小的大型模型的性能[6，11，13]。标准的训练过程倾向于学习具有无关的和不可打印的过滤器的模型，即使对于没有任何多余容量的体系结构也是如此。这表明卷积神经网络（ConvNets）的训练还有改进的空间。为此，我们提出了一种训练方案，在标准训练的一些迭代之后，我们选择模型过滤器的一个子集暂时丢弃。在对简化的网络进行额外的训练之后，我们重新引入之前丢弃的过滤器，使用新的权重进行初始化，并继续标准训练。我们观察到，在重新引入下降的过滤器之后，模型能够实现比下降之前更高的性能。重复应用此过程获得的模型优于通过标准训练获得的模型，如图1所示，并在第4节中讨论。我们在各种任务和各种类型的卷积网络中观察到这种改进。这种训练过程能够在选择过滤器的一系列可能的标准中产生改进精度10667下降，并且通过仔细选择分级标准可以实现进一步的增益。根据最近的假说[14]，过度参数化网络的相对成功可能主要是由于初始子网络的丰富性我们的方法旨在保留成功的子网络，同时允许重新初始化不太有用的过滤器。除了我们新颖的训练策略之外，我们工作的第二我们的实验表明，永久过滤器修剪的标准技术是subop-timal在我们的设置，我们提出了一个替代的度量，可以有效地计算，并给出了显着的性能改善我们提出了一个基于卷积层内的滤波器间正交性的度量，并表明该度量在我们的训练策略的背景下优于用于网络修剪的最先进的滤波器重要性排名方法。我们观察到，即使是小的、参数化不足的网络也倾向于学习冗余的滤波器，这表明滤波器冗余不仅仅是过度参数化的结果，也是由于训练无效。我们的目标是减少过滤器的冗余，增加表达能力的Con- vNets，我们通过改变训练方案，而不是模型架构来实现这一点。2. 相关工作训练方案许多变化的训练范式已被提出，以减少过度拟合和改善-证明泛化。Dropout [15]广泛用于训练深度网络。通过随机丢弃神经元，它阻止了特征检测器的共同适应。通过删除激活的子集可以实现类似的效果[16]。Wu等[15]通过卷积激活的概率池化将随机丢弃的思想扩展到卷积神经网络。另一种形式的随机训练建议随机丢弃整个层[17]，迫使模型在各个层中学习类似的特征，以防止极端过拟合。相比之下，我们的技术鼓励模型使用特征的线性韩等人[18]提出了密集-稀疏-密集（DSD），一种类似的训练方案，其中他们在训练中应用权重正则化来鼓励稀疏权重的发展，随后删除正则化以恢复密集权重。虽然DSD在单独参数的水平上工作，但我们的方法是专门设计用于卷积滤波器的。寻找最不显著的神经元/权重的兴趣有很长的历史。LeCun [19] and Hassibietal. [20]表明，使用包含二阶导数的Hessian函数计算Hessian是昂贵的，因此没有被广泛使用。Hanetal. [12]表明权的范数仍然是有效的排序准则，并产生稀疏模型。稀疏模型不能转化为更快的推理，但作为神经元排名标准，它们是有效的。Hu等人[21]探索激活中的平均零百分比（APoZ），并使用数据驱动的阈值来确定截止值。Molchanov等人[9]推荐损失函数的泰勒展开式中的第二项。我们提供了详细的比较，并在第5节中展示了使用这些指标与我们的训练方案的结果。3. 正交特征的动机卷积滤波器的特征被定义为来自滤波器的各个内核的激活的逐点和。如果一个特征有助于提高模型的泛化能力，那么它就被认为是有用的。泛化能力差的模型通常具有的特征总体上在激活空间中捕获有限的方向[22]。另一方面，如果模型对于一个微不足道的ConvNet，我们可以通过分析跨层特征的相关性并将其聚类到组中来计算最大表达过滤器[23]。然而，该方案对于现实世界应用中使用或者，一个计算上可行的选项是在标准SGD训练中使用的损失函数中添加正则化项，这鼓励激活的协方差最小化，但这仅对模型性能产生有限的改善[24，5]。一种类似的方法，其中正则化项反而鼓励滤波器权重的正交性，也产生了边际改进[25，26，27，28]。Shang等人[29]所发现的低电平滤波器是以相反的相位复制的强制滤波器正交将使这种重复最小化，而不改变激活函数。除了在性能和推广方面的改进，Saxeet al. [30]表明权值的正交性也改善了训练过程中网络收敛的稳定性。[28，31]的作者进一步证明了正交权重对网络有效训练的价值。正交初始化是递归神经网络的常见做法，因为它们对初始条件的敏感性增加[32]，但它在某种程度上已经不再适合ConvNets。这些因素塑造了我们鼓励ConvNet中特征正交性的动机，并形成了我们排名标准的基础。由于特征依赖于输入数据，因此确定其正交性需要计算整个训练集的统计数据，因此是禁止的。相反，我们计算滤波器权重的正交性作为替代。我们的实验表明，鼓励权重正交通过一个regu，10668^^0滤波器i= 0，1，..32相关矩阵161.0140.812100.680.4640.220.05 4 3 2 10准确度下降（%）培训效率低下，而不是过度参数化。给定一个经过训练的模型，我们可以通过移除（zer-roing out）每个过滤器并测量测试集上准确度的下降来评估每个过滤器对模型性能的贡献我们将这个过滤器重要性的度量称为我们对模型中的每个过滤器独立执行此评估，并在图2（右）中绘制准确度下降的最图2：左：在CIFAR-10上训练的ConvNet的两层激活的典型相关分析。右：通过一次删除一个过滤器评估模型时精度变化的差异。细化项不足以促进捕获输入数据目录的全部空间的特征的开发我们的方法删除重叠过滤器作为一个隐式正则化，并导致更好的正交性的过滤器，而不妨碍模型收敛。我们使用典型相关分析[33]（CCA）来研究单层中特征的重叠。CCA发现的线性组合的随机变量，显示最大的相关性与对方。这是一个有用的工具，以确定如果学习的功能是重叠的，在他们的representational能力。Li等[34]将相关性分析应用于过滤器激活，以表明大多数著名的ConvNet架构都学习类似的表示。Raghu等人[35]将CCA与SVD相结合，以执行来自各个层的激活的奇异值的他们表明，增加模型的深度并不总是导致模型的维度相应增加，这是由于几个层在相关方向上我们问一个更基本的问题-如何相关的激活从不同的过滤器在一个单一的层？在像VGG-16这样的过参数化网络中，它有几个卷积层，每个卷积层有512个滤波器，因此大多数滤波器激活都是高度相关的。因此，VGG-16已被证明很容易修剪-超过50% 的滤波器可以被丢弃，同时保持整个网络的性能[9，34]。这对于明显较小的卷积网络也是如此吗？它不适合数据集？我们将考虑一个简单的网络，它有两个卷积层，每个卷积层有32个滤波器，最后有一个softmax层。在CIFAR- 10上训练该模型100个epoch，退火学习率导致测试集准确率为58。2%，远低于93。VGG-16实现了5%。在VGG-16的情况下，我们可能会认为滤波器之间的相关性仅仅是过度参数化的伪影。模型-数据集没有足够高的维数来要求每个特征彼此正交。另一方面，我们的小网络显然未能捕获训练数据的完整特征空间，因此其过滤器之间的任何相关性都是由于第二层过滤器的贡献小于1%，活泼和第一层过滤器，有一个长尾。一些滤波器很重要，贡献了4%以上的精度，但大多数滤波器都在1%左右。这意味着，即使是一个微小的和性能不佳的网络可以过滤修剪与-严重的性能损失。该模型没有有效地分配过滤器来捕获必要特征的更广泛表示。图2（左）显示了两层滤波器激活（CCA）线性组合的相关性。很明显，在两个层中，过滤器激活之间存在显著相关性，其中几个过滤器激活接近于1的近乎完美的相关性（亮黄色-低斑点□）。第二层（右上角对角线）与第一层（右下角）有更多的特征重叠对于随机正交矩阵，任何大于0的值。3（比深蓝色浅□）是异常。如果线性组合扩展到核函数[36]或奇异值[35]，则激活更加相关。无论如何，可以说卷积滤波器的标准训练不会最大化网络的代表性潜力。4. 我们的培训计划：RePr我们通过循环删除冗余过滤器，重新训练网络，重新初始化删除的过滤器，并重复修改训练过程我们将每个滤波器（3D张量）视为一个单元，并将其表示为一个长向量-（f）.设M表示具有F个滤波器展开的模型在L层上。设F表示F个滤子的子集，MF表示完全网络，而MF−F^de-注意没有F过滤器的子网络。我们的训练方案在训练完整网络（MF）和子网（MF-F^）之间交替。这引入了两个超参数。首先是在切换之前训练每个网络的迭代次数;对于整个网络，设为S1，对于子网络，设为S2这些必须是非平凡的值，以便每个网络都能学习以改进先前网络的结果。第二个超参数是重复该交替方案的总次数;设为N。该值在超出一定范围时影响最小，不需要调整。我们的算法中最重要的部分是用于对过滤器进行排名的设R为度量，层1层2滤波器i = 0，1，.. 32过滤器计数10669^^^^^ ^您的位置：n将某个数值引用到过滤器。这可以是权重的范数或其梯度或我们的度量-层中的滤波器间正交性。在这里，我们提出了我们的算法不可知的度量的选择。当应用于我们的训练方案时，滤波器重要性的最合理选择会导致标准训练的改善（参见消融研究6）。我们的训练方案在宏观层面上运行，而不是权重更新规则。因此，它不能替代SGD或其他自适应方法，如Adam [37]和RmsProp [38]。我们的方案适用于任何可用的优化器，并显示出全面的改进。然而，如果使用具有参数特定学习率的优化器（如Adam），则必须重新初始化与作为修剪过滤器（F）。相应的批量归一化[39]参数（γβ）也必须重新初始化。为此，对我们的培训计划与标准培训进行了比较一个共同的优化器。我们重新初始化过滤器（F），使其与被丢弃之前的值和未修剪过滤器的当前值（F-F）正交。我们对同一层的滤波器的权重使用QR分解来找到零空间，并使用它来找到正交初始化点。我们的算法是训练插入重新初始化和Pr uning -RePr（发音：Reaper）。我们在算法1中总结了我们的训练方案。算法1：RePr训练方案对于N次迭代，对于S1迭代，3培训全网：MF4端5计算度量：R（f）<$f∈F6设F是F的底部p%，使用R（f）对于S2迭代，8Train子网工作：MF−F^9端部10重新初始化过滤器（F）s.t. F F11（及其训练特定参数12来自BatchNorm和Adam，如适用）13端部我们使用一个浅层模型来分析我们的训练方案的动态及其对训练/测试精度的影响。浅模型将使计算每个过滤器的贪婪Oracle排名变得可行。这将使我们能够单独了解培训方案的影响，而不会由于排名标准的影响而混淆结果。我们在第8节中提供了更大更深卷积网络的结果。考虑一个n层vanilla ConvNet，没有跳过或密集连接，每个都有X过滤器，如下所示：Img −→CXCONV（X）→ CXU−→FC −→Softmax我们将该体系结构表示为Cn（X）。因此，C3（32）具有96个滤波器，并且当使用学习率为0的SGD训练时。01，测试准确率达到73%。图1显示了训练集（左）和测试集（右）的准确度训练图在这个例子中，我们使用RePr训练方案，其中S1=20，S2=10，N=3，p%= 30和排名标准R作为一个贪婪的甲骨文。我们从训练集中排除了一个单独的5K图像验证集来计算Oracle排名。在训练图中，注释-[A]显示过滤器首次修剪的点注释[C]标记了模型在这一点上的测试精度。[C]的测试准确度下降低于[A]的训练准确度，这并不奇怪，因为大多数模型都过拟合训练集。然而，[D]处的测试精度与[C]相同，但此时模型仅具有70%的滤波器。这并不是一个令人惊讶的结果，因为对过滤器修剪的研究表明，在较低的修剪率下，即使不是全部，也可以恢复大部分性能[9]。令人惊讶的是，在[E]处的测试准确度显著高于点[C]，[E]是在重新引入修剪滤波器之后仅几个时期。点[C]和点[E]是相同容量的网络，在[E]处的较高精度不是由于模型收敛。在标准训练（橙色线）中，测试准确度在此期间不会改变。不幸的是，先增长网络，然后修剪[40，41]的模型，在另一个增长阶段停止了，这会产生更好的性能。在他们的辩护中，这种技术违背了通过修剪获得更小网络的目的。然而，如果我们继续RePr训练另外两次迭代，我们会看到点[F]仍然是原始过滤器的70%。产生与点[E]（100%）相当的精度模型的大小。我们可以从图中观察到的另一个现象是RePr模型的训练精度较低，这意味着模型上的某种形式的正则化。这在图4（右）中是明显的，图4示出了具有大量迭代（N=28）的RePr虽然较高的测试精度的边际效益迅速减少，但训练和测试精度之间的泛化差距显着减少5. 我们的度量：滤波器间正交性搜索对最不重要过滤器进行排序的度量的目标有两个方面-（1）计算贪婪Oracle对于大型网络在计算上是不可行的，以及（2）贪婪Oracle可能不是最佳标准。如果捕获唯一方向的滤波器，因此不能被其他滤波器的线性组合替换，则具有较低的贡献，10670标准72.1随机73.4活动74.1[21]第二十一话[19]第十九话泰勒[9] 74.3黑森州[19] 74.4重量[12] 74.6Oracle 76.0ℓΣ准确性，先知将删除该过滤器。在随后的重新初始化和训练中，我们可能不会得到相同的方向集。由激活模式捕获的方向表达了深度网络的容量[42]。制作正交特征将最大化捕获的方向，从而最大化网络的表现力。在一个紧密相连的随机Hessian梯度APoZ激活泰勒重量OrthoCIFAR-10-C3（32）1.00.80.60.40.20.00.00.20.40.60.81.0相关性-秩Ortho76.4层，正交权重导致正交特征，甚至[32]在ReLU的存在下。然而，如何计算卷积层的正交性尚不清楚。卷积层由分组为空间内核的参数组成，并稀疏地共享传入的在考虑正交性时，是否应考虑单个卷积层促进初始化权重为正交的理论是基于密集连接层（FC层），流行的深度学习库遵循该指南1，将卷积层视为一个巨大的向量，不考虑稀疏连接。最近一次研究图3：左：各种指标值与greedy Oracle准确度值的Pearson相关系数。中：使用各种度量的过滤器等级的Pearson相关系数，其中等级来自贪婪Oracle右：使用标准训练和RePr训练的CIFAR-10测试准确性，其中各种度量1.00.90.80.70.6卷积滤波器的正交性描述于 [三十一]0.5203040506070809010011001002003004005006000时代时代但是它们的动机是非常深的网络（10K层）的收敛，而不是特征的正交性。我们的实证研究表明，强烈的偏好，要求正交性的个别过滤器在一个层（过滤器层内），而不是个别内核。核大小为k×k的滤波器通常是形状为k×k×c的3D张量，其中c是传入激活中的通道数。将这个张量展平为一个大小为kkc的一维向量，并将其记为f。令J表示层中过滤器的数量，其中∈L，L是ConvNet中的层数设W是一个矩阵，单独的行是层1的平坦滤波器（f）。设W=W/||W||表示归一化权重。然后，在一个层的滤波器f的可伸缩性的度量，如下面的等式所示，计算Δ f（由Of表示）。图4：左：使用不同百分比的过滤器进行RePr训练修剪过显示从epoch 20开始的5个epoch的平均测试精度，以获得更好的可见性。右图：RePR多次迭代的边际收益-CIFAR-10上的训练和测试准确性比其他人更敏感。与早期层相比，我们的方法从更深层修剪了更多的过滤器。这与给定网络中每个滤波器的贡献分布一致（图2右侧）。我们度量的计算不需要Hessian [19]的逆或二阶导数[20]的昂贵计算，并且对于任何大小的网络都是可行的。最昂贵的计算是L矩阵乘积，图形处理器的大小为J×J，但GPU是为快速矩阵乘法设计尽管如此，我们的方法比计算权重或激活的范数或平均零百分比（APoZ）。P=|公司简介Of=P[f]-我|（一）（二）考虑到过滤器的可选择性，一个明显的-我们的问题是，向损失函数添加软惩罚是否会改善这种训练？一些研究人员[25，26，27]报告了由于JiangJiangP [i]是一个大小为J[i] ×J [i] 的矩阵，P[i]表示P的第i行。滤波器f的一行P的非对角元素表示与图1中的所有其他滤波器的角度（方向重叠）。与f相同的层。当其他过滤器与给定的过滤器正交时，行的和最小。如果这个值在网络中的所有过滤器中最大，我们将过滤器排名为最不重要（因此受到修剪）。当我们在单层上计算过滤器的度量时，排名是在网络中的所有过滤器上计算的我们不强制每层排名，因为这需要为每个层学习超参数p%，并且某些层是1tensorflow：ops/init ops.py#L543 pytorch：nn/init.py#L350在用于特定任务模型我们通过将λP加入损失函数进行了实验，但我们没有看到任何改善。软正则化惩罚所有过滤器并改变损失面以鼓励权重中的随机正交性而不提高表现力。6. 消融研究修剪标准的比较我们测量我们的指标与Oracle的相关性来回答这个问题- 替代品有多好是我们对过滤器重要性排序的度量。我们的指标（以下称为Ortho）与Oracle的Pearson相关性为0。三十八岁。这不是精度相关性-值不标准百分之十百分之二十百分之三十百分之四十百分之五十百分之六十7010671然而，当我们将其与其他已知指标进行比较时，它是最接近的。Molchanov等人[9]报告斯皮尔曼相关的标准（泰勒）与贪婪的甲骨文在0。七十三。我们在早期观察到泰勒排名的相似数字，但随着模型的收敛，相关性显着降低。这是由于来自已收敛的滤波器的低梯度值。5.55.04.54.03.5亚当动量SGD优化器10 15 20 25 30S1和S2泰勒度量是活化度和梯度的乘积在学习的早期阶段，高梯度与重要的过滤器相关，但当模型收敛时，低梯度并不一定意味着不那么突出的权重。它可以过滤器已经收敛到一个有用的特征图5：左：使用各种优化器对RePr训练方案的影响。右：使用不同S1/S2值的结果为清楚起见，这些实验仅显示S1= S2的结果这对模型的总体误差没有贡献，或者卡在鞍点。在正常激活情况下，这种关系正好相反。因此，通过将这些条款相乘，希望达到一种平衡。但我们的实验表明，在完全收敛的模型中，低梯度支配高激活。因此，随着模型收敛，泰勒项将具有较低值，并且将不再与低效滤波器相关。虽然相关性0 2040 60时代1.00.90.80.70.60.580 1000 2040时代60 801.00.90.80.70.60.5100表示度量是预测精度的替代品，更重要的是测量滤波器秩的相关性。值和秩的相关性可能不相同，并且与秩的相关性是确定较弱滤波器的更有意义的测量。Ortho的相关性为0的情况。58对甲骨文时，衡量了排名的过滤器。其他指标使用秩显示非常差的相关性。图3（左和中）显示了Oracle中各种指标的相关性图。右侧表图3中的“”显示了CIFAR-10上各种等级度量的测试准确性。从表中可以明显看出，与标准训练和其他排名标准相比，正交性排名导致准确性的显著提高。我们训练方案中的一个关键因素是在每个修剪阶段修剪的过滤器的百分比（p%）。它的行为类似于Dropout参数，并影响模型的训练时间和泛化能力（请参见图：4）.一般来说，修剪百分比越高，性能越好。然而，超过30%，业绩并不显著。高达50%，模型似乎从滤器的跌落中恢复除此之外，训练并不稳定，有时模型无法收敛。RePr迭代次数我们的实验表明，RePr过程的每次重复都具有递减的收益，因此应该限制为个位数（参见图4（右））。类似于密集-稀疏-密集[18]和重生网络[43]，我们观察到对于大多数网络，两到三次迭代足以实现最大收益。优化器和S1/S2图5（左）显示了使用不同优化器时改进的差异。我们的模型图6：具有32个过滤器的三层ConvNet的测试精度每个超过100个时期使用标准方案和我们的方法-在CIFAR-10上的RePr。阴影区域表示仅对网络的一部分进行RePr训练的时间段。左：固定学习率时间表为0。1，0。01和0。右：周期为50Epochs的循环学习率，幅度为0.005，起始LR为0.001。与大多数知名的优化器配合使用。Adam和Momentum的表现比SGD更好，因为它们在训练中增加了我们对S1和S2的不同值进行了实验，如果它们中的任何一个足够大，模型暂时收敛，学习率调度具有固定学习率的SGD通常不会产生最佳模型性能。相反，在训练过程中逐渐退火学习率可以产生具有更高测试精度的模型。 ResNet 、DenseNet、Inception的最新结果都是按照预定的学习率计划报告的然而，选择精确的学习率计划本身就是一个超参数，需要针对每个模型进行专门调整。循环学习率[44]可以提供更强的性能，而无需对精确的学习率计划进行详尽的调整。图6显示了我们的训练技术与固定时间表学习率方案和循环学习率结合应用时的比较。我们的培训计划没有受到使用这些计划的影响，与标准培训相比，改进仍然很明显。7. 蒸馏与蒸馏我们的方法，RePr和知识蒸馏（KD）都是提高紧凑模型性能的技术，测试-RePr测试-标准固定时间表学习率LR = 0.1LR = 0.01LR = 0.001测试-RePr测试-标准循环学习率余弦，周期为50 epoch测试准确度RePr -标准精度精度10672n蒸馏与离子UT蒸馏维索测试准确度RePr -标准0.5760.4540.3320.2103 4 5 79 11 1317 25每个过滤器有32个过滤器的vanilla ConvNet中的层数0.1图8：使用RePr的准确性优于标准序列-n0.0在许多分层网络上运行Vanilla ConvNets [C（32）]0 20 40 60 80 100 0 20 40 60 80 100时代标准培训RePr模型（Ortho）RePr模型（Oracle）图7：标准训练和RePr训练中滤波器（Ortho-sum - eq 2）正交性的比较（有和没有知识蒸馏）。较低的值表示较少的重叠过滤器。垂直虚线表示过滤器脱落。C3（32）标准品KD RePr KD+RePrCIFAR-10CIFAR-100表1：知识蒸馏与RePr埃尔斯RePr减少了过滤器表示的重叠，KD从更大的网络中提取信息。我们提出了一个简短的技术比较，并表明它们可以结合起来，以实现更好的性能。RePr使用滤波器间正交性重复地丢弃在权重方向上具有最多重叠的滤波器，如等式2所示。因此，我们预计该值将在训练期间随着时间的推移逐渐降低。图7（左）显示了在三种训练方案下整个网络上该值的总和。我们展示了两种不同过滤器排名标准的RePr-Ortho和Oracle。使用Ortho排名的RePr训练方案具有最低的Ortho总和并不奇怪，但令人惊讶的是，与标准训练相比，使用Oracle排名的RePr训练一旦模型开始收敛，基于Oracle排名的最不重要的过滤器就是重叠最多的过滤器。去掉这些过滤器可以提高测试精度（图3右侧的表格）。这种改进是否与知识蒸馏的改进来自同一个来源知识蒸馏（KD）是一种经过充分验证的训练紧凑模型的方法。与标准训练相比，使用来自教师和地面真实信号的软logits，模型收敛到更好的最优值。如果我们将KD应用于相同的三个实验（见图7，右），我们看到所有模型都具有显著更大的正交和。即使是RePr（Ortho）模型也很难降低总和，因为该模型被强烈引导收敛到特定的解决方案。这表明，由于KD的这种改善不是由于减少滤波器重叠。因此，使用这两种技术的模型应该受益于更好的泛化。事实上，这是因为组合模型的性能明显优于CIFAR-10上的ResNet-20基线各种培训计划原创我们[1]实施DSD[18个国家]禁令[四十三]RePr权重RePrOrtho8.78.47.88.27.76.9表2：使用各种技术的测试误差比较。如表1所示的任何一种型号。8. 结果我们在不同的ConvNets上展示了我们的训练方案RePr的性能，以及我们的排名标准，过滤器间正交性，正交性[45，1，46，47，48]。对于所提供的所有结果，RePr参数为：S1= 20，S2= 10，p%= 30，并且具有三次迭代，N = 3。我们将我们的训练方案与表2中的其他类似方案（如BAN和DSD）进行比较。所有三个方案都经过三次迭代训练，即：N=3。所有模型都以类似的学习率计划和初始化训练了 150 个 epoch 。 DSD 和 RePr（Weights）执行大致相同的功能-通过幅度引导模型稀疏化，区别在于DSD 作用于单个权重，而 RePr（Weights）作用于整个过滤器。因此，我们观察到这些技术之间的相似性能。RePr（Ortho）优于其他技术，并且与需要N个完整训练周期的BAN相比，训练成本要低得多。与现代架构相比，vanilla ConvNets在分配其特征表示方面表现出明显更低的效率。因此，与现代架构相比，我们发现我们的方法在应用于vanilla ConvNets时有更大的改进。表3显示了CIFAR 10 100的测试误差。与DenseNet或ResNet相比，具有32个过滤器的VanillaCNN具有较高的误差，但它们的推理时间明显更快。RePr训练将vanilla CNN的相对准确度在CIFAR-10上提高了8%，在CIFAR-100上提高了25%基线DenseNet和ResNet模型的性能仍然优于用RePr训练的普通CNN，但这些模型的推理成本是前者的两倍多。为了比较，我们还考虑了一个只有5层的简化DenseNet模型，它与3层vanilla Con- vNet具有相似的推理时间该模型的参数要少得多（系数权重OracleOrthoConv权10673层参数（×000）INF. 时间（相对）CIFAR-100Std RePr Std RePrImageNet标准RePr培训相对香草CNN [32过滤器/层]3201.027.923.652.841.88661.726.819.550.936.8131132.526.620.651.037.9181593.328.222.551.939.5DenseNet [k=12]51.70.939.436.243.540.94010168.06.86.226.425.2100 6968 43.95.35.6 22.2 22.1ResNet20 269 1.7 8.46.932.631.1324642.27.46.131.430.11101727 7.1 6.35.427.526.4182小行星28945.65.126.0二十五点三表3：使用标准训练与RePr训练的各种ConvNet的Cifar-10Cifar-100上的测试误差比较INF. 时间显示单次传递的推理时间。所有时间测量都是相对于具有三层的Vanilla CNN的。参数计数不包括最后一个全连接层。的11倍）比vanilla ConvNet，导致更高的错误率，但我们选择均衡推理时间而不是参数计数，这是由于推断时间在许多实际应用中的重要性图8显示了具有不同深度的vanilla CNN的更多结果。Vanilla CNN开始过拟合数据，因为大多数过滤器都收敛到类似的表示。我们的训练方案迫使它们是不同的，这减少了过拟合（图4-右）。这在使用CIFAR-10的18层vanilla CNN与3层CNN相比通过RePr训练，18层模型显示出较低的测试误差。RePr还能够提高ResNet和浅DenseNet的性能。这种改进在CIFAR-100上更大，CIFAR-100是100类分类，因此是更困难的任务，需要更专业的过滤器。同样，我们的训练方案在ImageNet（一个1000路分类问题）上显示出更大的相对改进。表4显示了使用标准训练和RePr训练的各种Con-vNet在ImageNet [ 49 ]上的前1个测试误差。RePr应用三次（N=3），并且该表显示了每轮之后的误差。我们试图用建议的超参数尽可能接近地复制已知模型的结果，并且在所报告的重新计算的±1%以内结果。有关训练和超参数的更多细节，请参见在补充材料中提供。每一个后续的RePr导致改进的性能与显着的减少回报。改进在没有跳过连接的架构中更为明显，如Inception v1和VGG，并且具有较低的基线性能。我们的模型改进了使用类似ConvNets的其他计算机视觉任务。我们提供了一个小样本，Inceptionv131.1129.4128.4728.01-11.07 Inceptionv2 27.60 27.15 26.95 26.80-2.99表4：在RePr的各个阶段，ImageNet上不同模型的测试误差（Top-1）比较N=1、N=2、N=3是每轮RePr后的结果。结果来自视觉问题回答和物体检测任务。这两项任务都涉及使用ConvNets来提取特征，RePr改进了它们的基线结果。对于COCO [ 50 ]上的对象检测，使用特征金字塔网络[51]和ResNet-50，mAP从38提高。2到423 .第三章。对于VQAv 1上的视觉问题回答，使用VQA-LSTM-CNN模型[52]，开放式问题的准确率从60提高到60。3%至64。百分之六。9. 结论我们已经引入了RePr，这是一种训练范式，它循环地丢弃并重新学习一定比例的最少表达的过滤器。在丢弃这些滤波器之后，修剪的子模型能够使用剩余的参数重新捕获丢失的特征我们表明，一个减少的模型需要重新引入过滤器之前的训练，并仔细选择这个训练，ING持续时间导致大量的收益。我们还证明，这个过程可以重复收益递减。受先前研究的启发，该研究强调了卷积神经网络学习的特征表示中的无效性，我们进一步引入了一种新的过滤器间我们的训练方法是能够显着提高性能，在欠参数化的网络，通过确保有效地利用有限的容量，和性能增益是复杂的知识蒸馏。即使在复杂的情况下，过度参数化的网络架构，我们的方法是能够提高性能在各种任务。10. 确认第一作者感谢NVIDIA和Google捐赠硬件资源，部分用于本研究。他还要感谢尼克·莫兰、所罗门·加伯和瑞安·马库斯提出的有益意见。模型培训N=1N=2N=3变化ResNet-1830.4128.6827.8727.31-11.35ResNet-3427.5026.4926.0625.80-6.59ResNet-5023.6722.7922.5122.37-5.81ResNet-10122.4021.7021.5121.40-4.67ResNet-15221.5120.9920.7920.71-3.86VGG-1631.3027.7626.4525.50-22.7510674引用[1] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。2016 IEEE计算机视觉和模式识别会议（CVPR），2016。1、7[2] 放大图片创作者：林宗毅， Priya Goyal ， Ross B.Girshick，Kaiming He，andPiotrDoll a'r. 用于密集对象检测的焦面损失。IEEE关于模式分析和机器智能的交易，2018。1[3] KaimingHe，Geo r giaGkioxari，PiotrDol la'r，andRossB.娘娘腔。面具R-CNN。2017年IEEE计算机视觉国际会议（ICCV），2017年。1[4] Olaf Ronneberger，Philipp Fischer，and Thomas Brox.U-网：用于生物医学图像分割的卷积网络在MICCAI，2015年。1[5] 迈克尔科格斯韦尔Faruk 艾哈迈德罗斯 B. 女孩C. 劳伦斯·齐特尼克和德鲁夫·巴特拉通过解相关表示减少ICLR，abs/1511.06068，2016. 一、二[6] Hao Li，Asim Kadav，Igor Durdanovic，Hanan Samet，and Hans Peter Graf.修剪过滤器以实现高效的卷积。ICLR，abs/1608.08710，2017. 1[7] Yihui He，Xiangyu Zhang，and Jian Sun.用于加速深度神经网络的通道修剪。2017年IEEE国际计算机视觉会议（ICCV），2017年。1[8] Sajid Anwar，Kyuyeon Hwang，and Wonyong Sung.深度卷积神经网络的结构化修剪。JETC，2017年。1[9] Pavlo Molchanov，Stephen Tyree，Tero Karras，TimoAila，and Jan Kautz.修剪卷积神经网络以实现资源有效的迁移学习。ICLR，abs/1611.06440，2017. 一、二、三、四、五、六[10] Zhuang Liu，Jianguo Li，Zhiqiang Shen，Gao Huang，Shoumeng Yan，and Changshui Zhang.通过网络瘦身学习高效的卷积网络。2017年IEEE计算机视觉国际会议（ICCV），2017年。1[11] Jian-Hao Luo，Jianxin Wu，and Weiyao Lin. Thinet：一种用于深度神经网络压缩的过滤器级修剪方法。2017年IEEE国际计算机视觉会议（ICCV），2017年。1[12] Song Han，Huizi Mao，and William J. Dally深度压缩：压缩深度神经网络与p

下载后可阅读完整内容，剩余1页未读，立即下载