卷积神经网络中的过滤器级稀疏性研究及其影响

112 浏览量更新于2023-10-20 收藏 1.29MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1卷积神经网络Dushyant Mehta1，3 Kwang In Kim2 Christian Theobalt1，31MPI For Informatics2 UNIST3萨尔信息学院摘要我们研究了卷积神经网络（CNN）中出现的过滤器级稀疏性，这些CNN采用批量归一化和ReLU激活，并使用自适应梯度下降技术和L2正则化或权重衰减进行训练。我们进行了广泛的实验研究铸造我们的初步研究结果的假设和结论的机制，潜在的紧急过滤器水平稀疏。这项研究允许新的洞察 perfor- mance 差距obeserved之间的自适应和非自适应梯度下降方法在实践中。此外，分析训练策略和超参数对稀疏性的影响，为设计CNN训练策略提供了实用建议，使我们能够探索特征选择性、网络容量和泛化性能之间的权衡。最后，我们证明了隐式稀疏性可以用于神经网络加速，比显式稀疏化/修剪方法更好，而不需要修改典型的训练管道1. 介绍在这项工作中，我们证明了滤波器1级稀疏性出现在某些类型的前馈卷积神经网络中。在使用批量归一化和ReLU激活的网络中，在训练后，观察到某些过滤器不会对任何输入激活。重要的是，稀疏性出现在非稀疏性诱导正则化器（如L2和权重衰减（WD））的存在下，并在正则化被移除时消失。我们研究了这种稀疏性如何在不同的超参数设置下表现出来，并提出了一个实验支持的假设，这种新兴的稀疏性的原因，以及我们的研究结果的影响我们发现，SGD的自适应风味产生更高程度的稀疏性比（m）SGD，与L2正则化和重量衰减（WD）。此外，L2正则化导致自适应方法比权重衰减具有更高程度的稀疏性。此外，我们还发现，小批量、网络规模和任务难度等看似无关的因素影响稀疏度这些发现对于当代试图解释（m）SGD和适应性变体之间的性能差距非常重要。任何解释SGD和自适应变体之间性能差距的理论和实践探索都应该考虑使用自适应方法时网络容量的这种无意减少，这与测试精度和泛化差距相互影响。同期的工作[27]也观察到Adam在ReLU网络中引入了过滤器稀疏性，但缺乏对原因的彻底调查。通过系统的实验研究，我们假设稀疏性的出现是正则化器（L2或WD）的不成比例的相对影响的直接结果，即来自ReLU网络的主要训练对象的梯度。多个因素以先前已知和未知的方式微妙地影响正则化器的相对影响，并且用于训练神经网络的各种超参数和设计选择通过这些因素相互作用以影响涌现稀疏性的程度。我们表明，理解这些设计选择的影响会产生有用且易于控制的稀疏性，可以利用稀疏性来实现相当大的神经网络加速，而无需交易泛化性能，也无需任何显式修剪[18，13]或稀疏化[14]步骤。隐式稀疏化过程可以在CIFAR 10/100上从VGG-16中删除70-80%的卷积滤波器，远远超过[13]，并且在ImageNet上与VGG-11的[14]相当。2. 在CNN中观察滤波器稀疏性我们从我们最初实验的设置开始，并提出我们的主要发现。在随后的章节中，我们将进一步探讨滤波器稀疏性的表现，并提出一个实验支持的关于原因的假设。2.1. 安装和维护我们的基本设置由一个7层卷积网络组成，其中有2个完全连接的层，如图1所示1滤波器是指与参数相关的权重和非线性，共同的特征，作为一个整体。我们使用过滤器和功能互换整个文件。这项工作由ERC Consolidator Grant 4DRepLy（770784）资助。520521图1. BasicNet：本文研究的基本卷积网络的结构。我们将各个卷积层称为 C1-7 。这里显示的全连接头用于 CI-FAR10/100和ObjectNet 3D [26]实验，而TinyImageNet和ImageNet使用了不同的全连接结构网络结构受到VGG [23]的启发，但更紧凑。在本文的其余部分，我们将此网络称为BasicNet。我们使用各种梯度下降ap-proaches，一个小批量大小为40，与方法特定的基本学习率为250个时期，并按比例缩小学习率的10个额外的75个时期。我们在CI-FAR 10和CIFAR100上训练[12]，使用归一化图像和随机水平翻转。Xavier初始化[6]用于网络权重，并为ReLU提供适当的增益。基本学习率和其他超参数如下：Adam（1e-3，β1 =0.9， β2 =0.99， β 1 =1e-8 ），Adadelta （1.0 ，ρ=0.9，β 2 =1e-6），SGD（0.1，动量=0.9），Adagrad（1e-2）。Pytorch [21]用于训练，我们研究了改变正则化的数量和类型对稀疏程度和测试误差的影响。L2正则化与权重衰减：我们区分了L2正则化和权重衰减。对于参数θ和正则化超参数1> λ≥0，权重衰减在更新步骤之后基于主目标的梯度将θ乘以（1−λ）而对于L2正则化，将λθ添加到来自主目标的梯度λL（θ），并使用此和计算更新步长。见[16]详细讨论。量化特征稀疏度：我们以两种方式测量学习到的特征稀疏度，即按特征激活和按特征规模。对于激活稀疏性，对于每个特征，我们将最大池化应用于整个特征平面上的绝对激活，并且如果该值在整个训练语料库中不超过10- 12，则认为该对于尺度稀疏性，我们考虑批范数中学习的仿射变换的尺度γ[8]层.批量归一化使用额外的学习尺度γ和偏置β，将每个归一化卷积输出xi转换为yi=γxi+β。如果满足以下条件，则我们认为某个特征无效|γ|为特征小于10−3。解释将要素归因此，标记为无效不影响测试误差，这确保了我们所选择的阈值的有效性。阈值的选择是有目的的保守，并且对于更高的特征激活，观察到类似的稀疏性阈值为10−4，以及更高|γ|阈值为10- 2。2.2. 主要的发现表1示出了通过激活（Act.）而对于BasicNet，则按尺度（γ）。仅考虑卷积特征。以下是从实验中观察到的主要结果及其提出的问题。这些将在第3节中进一步讨论。1)：突现稀疏性依赖于L2正则化或权重衰减的强度。在没有正则化的情况下没有观察到稀疏性这告诉了我们什么关于稀疏化的原因，以及稀疏性如何在层间表现出来？2)：无论正则化器的类型（L2或权重衰减）如何，自适应方法（Adam，Adagrad，Adadelta）都比SGD学习更稀疏的表示为相当水平的测试误差，亚当表现出最稀疏和最敏感的L2正则化参数之间的研究。具有L2的Adam看到CIFAR10修剪了大约70%的特征，而SGD对于相当的性能没有显示出稀疏性，CIFAR100具有类似的趋势，以及当使用权重衰减时。SGD和自适应方法之间稀疏性差异的原因是什么？我们将重点了解SGD和Adam之间的差异。3)：SGD具有与L2正则化和权重衰减（对于更高的正则化值）相当的稀疏性水平，而对于Adam，L2显示出比权重衰减更高的稀疏性（在CIFAR10上为70% vs40%，在CIFAR100上为47% vs 3% 为什么L2正则化的Adam的稀疏性与权重衰减之间存在显着差异？4)从CIFAR10的简单10类分类问题移动到CIFAR100的相对较难的100类分类问题时，稀疏程度降低。稀疏程度的任务依赖性告诉我们稀疏的起源是什么3. 突现稀疏性的详细研究稀疏性的可能原因：前一节中表1的分析表明，正则化子（L2或权重衰减）很可能是稀疏性的原因，稀疏性水平的差异可归因于L2正则化子与更新机制的特定交互（以及缺乏权重衰减的交互）。自适应梯度方法（Adam）和SGD之间的差异可能还归因于两者之间学习表示的性质差异这可以解释亚当在重量衰减的情况下看到的更高的稀疏性分层稀疏性：为了探索正则化器在稀疏化过程中的作用，我们从稀疏性的分层分解对于每个亚当和SGD，我们将-522i=1表1.在CI-FAR 10/100上训练的BasicNet中的卷积滤波器稀疏性，用于正则化和梯度下降方法的不同组合。所示为无用/不活动卷积滤波器的百分比，如通过激活与训练相关性测量的pus（max act. < 10- 12）和学习的BatchNorm量表（|γ|<10-03），平均超过3次运行。每个优化器的最低测试错误突出显示，稀疏性（绿色）或缺乏稀疏性(red)最佳和接近最佳的配置通过文本颜色指示。L2：L2正则化，WD：权重衰减（使用与学习率计划相同的缩放计划进行调整）。请注意，对于具有动量的SGD，L2和WD不相等[16]。CIFAR100.下表按比例显示稀疏度（|γ|<10- 3）的每个卷积层。对于两个优化器-正则化器配对，我们从表1中选择配置，最低的测试错误，也产生稀疏的功能。对于SGD，稀疏程度对于较早的层较高，并且对于较晚的层降低。从C1-C6，L2和重量衰减的趋势保持不变。请注意，C7的稀疏性较高可能是由于它与后面的全连接层的交互。亚当的稀疏性表现出类似的趋势，从早到中间层，从中间到后面的层增加稀疏。与显式特征稀疏化惊人的相似性：在Adam的情况下，所显示的分层稀疏趋势与显式特征稀疏化方法中所见的趋势相似（参见[15]中的表8中的网络精简[14]）。如果我们显式地修剪掉满足|10 −3稀疏性标准，我们仍然看到测试集上相对较高的性能，即使有90%的卷积，|<10−3sparsity criteria, westill see a relatively high performance on the test set evenwith 90% of the convo-删除了常规参数。Network Slimming [14]在BatchNorm尺度（γ）上使用显式稀疏约束。Adam的涌现逐层稀疏趋势与显式尺度稀疏趋势的相似性我们考虑层C6，图2显示了随着CIFAR100上的训练进展，学习偏差和尺度的分布的演变我们考虑Adam的低L2正则化值1 e-5和较高的L2正则化值1 e-4较低的正则化值不会引起稀疏性，这将有助于揭示底层过程，而不会受到稀疏化过程的干扰。特征选择性假设：从图2中，Adam和SGD学习的特征性质之间的差异变得更加清晰。对于零均值，单位方差BatchNorm输出{xi}N一个特定的卷积表2中的L2正则化和权重衰减，内核，其中N是训练语料库的大小，由于使用ReLU，梯度仅针对那些xi>−β/γ的数据点。SGD和Adam（L2：1 e-5）都学习到了C6层的正γs，但是Adam的βs是负的这意味着Adam学习的所有功能（L2：1 e-5）在这一层中激活≤来自训练语料库的激活的一半，而SGD具有激活超过一半的训练语料库的大量特征，即，亚当在这一层学习更多的选择性特征。的特征仅针对训练语料库的小子集激活，并且因此不太频繁地看到来自主目标的梯度更新，继续由正则化器作用如果正则化足够强（Adam with L2：1 e-4在图。2），或者梯度更新不够频繁（特征选择性太强），则特征可能被完全修剪掉。后来的层学习更多选择性有限元分析的倾向L2CIFAR10CIFAR100%稀疏度测试误差%稀疏度测试误差法令通过γ法令通过γSGD2e-031e-035e-042e-041e-041e-05054279000054279000030.921.816.313.111.810.511.369234000069234000064.847.142.138.837.439.040.1亚当[11]1e-022e-031e-031e-041e-051e-0608288857148243858683704824021.314.713.110.510.710.911.0878277475008581764750069.742.739.036.640.640.540.3阿达德尔塔[29]1e-022e-031e-035e-042e-041e-04979289824019792898240136.820.616.713.611.39889826131988982613184.153.246.339.135.435.910.2阿达格拉德[5]2e-021e-025e-031e-031e-0475655627075655628011.311.211.311.913.6885924108859251063.337.235.937.342.1WDCIFAR10CIFAR100%稀疏度测试误差%稀疏度测试误差法令通过γ法令通过γSGD1e-021e-035e-042e-041e-04100278001002780090.021.615.813.3100234001002340099.047.641.939.412.437.7亚当[11]1e-021e-035e-042e-0410090816010090816082.327.818.113.410081591610081591698.055.343.337.3523表2.从在CIFAR 100上训练的BasicNet中修剪的分层%过滤器，基于|γ|<10- 3标准。还示出了修剪前和修剪后测试误差，以及修剪的卷积参数的百分比。C1-C7表示卷积层1-7，parantheses中的数字表示每层的特征总数。平均3次运行。颜色和突出显示指示最佳和接近最佳的测试误差，如表1所示CIFAR 10的相应表格参见补充文件%稀疏度（按γ或%过滤器修剪）%参数已修剪（4649664）修剪测试错误火车损失测试损失测试ErrC1（六十四）C2（128）C3（128）C4（256）C5（256）C6（512）C7（512）总（1856）亚当L2：1e-3 1.06 1.41 39.0 56474368729185769539.3L2：1e-4 0.10 1.98 36.6 4120933346755477436.6WD：2e-40.34 1.56 37.3 55203421626162737.3WD：1e-40.08 1.76 36.2 384000053436.2SGDL2：1e-3 1.49 1.78 47.1 8241332933618233447.1L2：5e-4 0.89 1.69 42.1 643332024442.1WD：1e-31.49 1.79 47.6 8243312833617233447.6WD：5e-40.89 1.69 41.9 662142014441.9图2. Adam和SGD的BasicNet层C6的学习尺度（γ，顶行）和偏差（β，底行）随着训练的进行而演变。亚当有明显的负面偏见，而SGD既有正面偏见，也有负面偏见。对于正尺度值，如Adam和SGD所示，这在Adam的情况下转化为更大的特征选择性当使用更强的正则化时，这转化为更高程度的稀疏化。注意Adam L2：1 e-4的最终尺度分布与[14]与Adam的实验可以解释与SGD相比，后面的层中所见的更高程度的稀疏性。了解Adam中出现比SGD更高的特征选择性的原因，并验证其他自适应梯度下降风味是否也表现出更高的特征选择性，这对于未来的研究仍然是开放的。量化特征选择性：类似于激活的特征稀疏性，我们将最大池应用于整个特征平面上的特征对于特定的特征，我们考虑在整个训练语料库上的这些池化激活，并通过在整个训练语料库上的池化激活的最大值将它们然后，我们考虑这个标准化的合并值超过阈值10- 3的训练语料库的百分比。我们524将此百分比称为功能特征与文献[19]中采用的选择性度量不同，我们的选择性度量是类不可知的。在图3中，我们比较了在CIFAR100上使用Adam和SGD每层学习的特征的“通用性”，无论是低正则化值还是高正则化值。对于低正则化的情况，我们看到在C6和C7中，Adam和SGD都学习了选择性特征，Adam 对 C6 的选择性明显更高（蓝色条向左移动）。当移动到更高的正则化值时，L2与Adam耦合的不成比例的更强正则化效果变得更加清晰。C6中SGD的选择性基本上不受影响，而Adam看到大部分（64%）特征失活（0%普遍性）。525图3. 分层特征选择性CIFAR 100的特征通用性，使用Adam和SGD。X轴表示普遍性，Y轴（×10）表示具有该普遍性水平的特征分数对于后面的层，Adam倾向于学习比SGD更少的通用特征，这些特征被正则化器修剪请注意图之间Y轴刻度的差异参阅补充CIFAR10类似分析的文件类似地，对于C7，选择性模式在从较低正则化移动到较高正则化时保持相同，但Adam看到了更严重的特征失活。L2正则化器与Adam的相互作用：接下来，我们考虑L2正则化器与Adam的作用。重量衰减我们研究了L2正则化的行为在低梯度制度不同的优化。图4显示了L2正则化与ADAM更新方程的耦合产生了比权重衰减或L2正则化与SGD更快的衰减，即使对于较小的正则化值也是如此。这是看到频繁更新的参数与没有看到频繁更新或看到较低幅度梯度的参数之间的正则化差异的附加来源它表现为某些自适应梯度下降方法。任务对应于学习特征的选择性的降低，修剪以降低[30]。在表1中，对于从CIFAR10移动到CIFAR100的所有梯度下降方法，确实观察到了这一点。对于使用L2正则化的Adam，CIFAR 10上的70%稀疏度在CIFAR100上下降到47%，并且在ImageNet上完全消失（见表5）。在表7和表8中，VGG-16的类似趋势是明显的在图5中，请注意随着任务难度的增加，BasicNet由于任务难度无法与类的数量完全解耦，因此我们基于ObjectNet3D [26]中30个对象类的灰度渲染设计了一个合成实验。我们构建了两组相同的50k64×64像素渲染，一个有一个干净的背景（BG），另一个有一个杂乱的BG。我们训练BasicNet，小批量大小为40，可以看到，正如预期的那样，干净的BG集的稀疏性（70%）比更困难的杂乱集（57%）高得多。看到代表性图像的补充文档和所选对象类的列表。4. 相关工作L2正则化与亚当的体重下降：[16]第16话：亚当L2正则化导致来自主目标的具有频繁和/或大幅度梯度的参数比看到不频繁和/或小幅度梯度的参数被正则化得更少。虽然重量衰减被提议作为一个假定的修复，我们表明，有两个不同的方面要考虑。第一个是由于更新频率而导致的有效正则化更新频率较低的参数在每次实际更新时会比更新频率较高的参数看到更多的正则化步骤。由于亚当倾向于学习更多的选择性特征，这种差异即使在重量衰减的情况下也会持续存在第二个方面是由于L2正则化与Adam的耦合，对于看到低/罕见梯度的特征，正则化中的额外差异。可推广神经网络特征的属性：Dinh et al.[4]表明，最小值的几何形状对于重新参数化不是不变的，因此最小值的平坦性可能不指示泛化性能[9]，或者可能需要对于重新参数化不变的其他度量。Morcos等人[19]基于广泛的实验评估，建议良好的泛化能力与学习特征的选择性降低有关。他们进一步表明，与选择性较低的单位相比，个别选择性单位在任务的整体表现中并没有发挥很大的作用。他们将选择性特征的切除与神经网络特征修剪文献中采用的算法联系起来，526图4.正则化对标量值的作用，对于一系列正则化值，存在从mean=0，std=10−5正态分布中提取的模拟低梯度。前100次迭代的梯度取自均值=0，标准差=10−3的正态分布，以模拟过渡到低梯度状态，而不是直接从低梯度状态开始。SGD（动量=0.9）的学习率为0.1，ADAM的学习率为1 e-3。我们在补充文档中显示了其他自适应梯度下降方法的类似图删除不会显著影响整体准确性的数据[18，13]。Zhouet al.[30]关于特征选择性的出现和较差的泛化性能之间的联系，我们持一致意见。他们进一步表明，类特定特征的消融不会显著影响整体准确性，但特定类可能会受到显著影响。我们表明，选择性功能的出现在亚当，和增加倾向修剪所述选择性功能时，使用L2正则化提出了一个直接的权衡泛化性能和网络容量的从业者使用亚当必须知道。对自适应梯度下降的观察：一些工作已经注意到自适应梯度下降方法的泛化性能比SGD差。Keskar等人[10]建议通过在训练时从ADAM切换到SGD来利用ADAM的更快初始收敛Reddi等人[22]指出，用于所有自适应梯度方法的过去平方梯度的指数移动平均值对于收敛是有问题的，特别是对于不频繁更新的特征。这种短期记忆可能是图4中Adam（和其他自适应梯度方法）所见的选择性特征加速修剪的原因，并且预计所观察到的稀疏程度将随着 AMSGrad 而下降，AMSGrad跟踪平方梯度的长期历史。特征修剪/稀疏化：在各种显式过滤器级稀疏化算法和方法中[13，24，7，25，18，20，14，28]，一些[28，14]使用Batch Norm中的学习尺度参数γ，用于在过滤器上实施稀疏性。Ye等人。[28]认为BatchNorm使特征重要性不太容易受到缩放重新参数化的影响，并且学习的尺度参数（γ）可以用作特征重要性的指标我们发现，亚当与L2正则化，由于其隐式修剪的特征选择性的基础上的特征，使它成为一个有吸引力的替代显式稀疏/修剪方法。选择性特征消融和明确fea之间的联系-真修剪也建立在先前的工作[19，30]。5. 进一步的实验我们在各种数据集和网络架构上进行了额外的实验，以证明前面几节中开发的直觉是普遍的。此外，我们通过分析各种超参数对稀疏性程度的影响来提供额外的支持。我们还将不同网络在不同数据集上的涌现稀疏性与显式稀疏化方法的涌现稀疏性进行了比较。数据集：除了CIFAR10和CIFAR100之外，我们还考虑了TinyImageNet [2]，这是ImageNet [3]的200类子集，图像大小为64×64像素。同样的训练增强方案用于Tiny-ImageNet是CIFAR 10/100。我们还在ImageNet上进行了广泛的实验。图像大小调整为256×256像素。训练时使用大小为224×224像素的随机裁剪，并结合随机水平翻转。对于测试，不使用增强，并且遵循1-作物评价方案。网络架构：的卷积BasicNet的结构在任务之间保持不变，而全连接（fc）结构在任务之间变化。我们将使用Batch Norm和ReLU在fc层之间使用。对于CIFAR 10/100，我们在最后一个卷积层之后使用全局平均池（GAP），fc结构为[256][10]/[256][100]，如图1所示。对于TinyImagenet，我们再次使用GAP，然后是[512][256][200]。在ImageNet上，我们使用平均池，内核大小为5，步幅为4，后跟[4096][2048][1000]。对于VGG-11/16，CIFAR 10/100我们使用[512][10]/[512][100]。对于TinyImageNet，我们使用[512][256][200]，对于ImageNet，我们使用[23]中的结构。对于VGG-19，在CIFAR 10/100上，我们使用与[14]相同的fc除非明确说明，否则我们将使用Adam，L2正则化为1 e-4，批量大小为40。当比较不同的批量大小时，我们确保相同的训练迭代次数。527图5. 针对CIFAR 10、CIFAR 100和TinyImagenet的BasicNet的层C4-C7绘制的特征通用性（1 -选择性）。CIFAR的批量为40/160，TinyImagenet的批量为40/120。5.1. 超参数分析在第3节（图3和图2）中，我们已经确定了亚当的稀疏性的出现与特征选择性相关，我们研究了各种超参数对稀疏性的影响。Mini-Batch大小的影响：图5显示了不同Mini-Batch大小的CIFAR和TinyImageNet上BasicNet对于每个数据集，请注意随着批量大小的增加，选择性特征明显增加然而，较大的mini-batch大小并不能提高特征选择性，而是通过提供更频繁的更新来防止选择性特征被修剪掉。这使得小批量大小成为控制网络容量（多少特征被修剪，这影响速度和性能）和泛化能力（多少选择性特征被保留，这可以用于控制过拟合）之间的权衡的关键旋钮。我们在数据集和网络中看到，增加小批量大小会导致稀疏性降低（表3，4，5，7，8，9，10）。网络能力：任务的“难度”与网络的学习能力有关。在前面的部分中，我们直接操纵了任务难度，在这里，我们将-表6中BasicNet的侧面变化，以研究网络容量的复杂性影响。我们将图1中的架构表示为“64- 1x”，并考虑两种变体：'64-0.5x'在第一个卷积层中有64个特征，其余卷积层中有BasicNet的一半特征，'32-0.25x'在第一个通道中有32个特征，其余卷积层中有四分之一的特征。维护层。FC头保持不变。在表6中，我们看到随着网络宽度的减小，稀疏度的程度不断降低此外，请注意从CIFAR10移动到CIFAR100时稀疏度的降低表3.使用Adam和L2正则化训练的CIFAR 10/100上的BasicNet稀疏变化CIFAR 10CIFAR 100批大小火车损失测试损失测试Err%备件。通过γ火车损失测试损失测试Err%备件。通过γL2：1e-32040800.430.290.180.450.410.4015.213.112.28283801.621.060.531.631.411.4845.339.037.1797667L2：1e-42040801600.170.060.020.010.360.430.500.5511.110.510.110.6707066610.690.100.020.011.391.982.212.3235.236.641.144.357463529表4.在Tiny-ImageNet上训练的BasicNet的卷积滤波器稀疏性，具有不同的minibatch大小。批大小火车损失Val损失前1瓦尔·厄前5瓦尔·厄%备件。通过γSGD400.02 2.6345.022.70201.05 2.1347.722.863亚当400.16 2.9648.424.7481200.01 2.4848.827.426表5.ImageNet上BasicNet的卷积滤波器稀疏性批大小火车损失Val损失前1瓦尔·厄前5瓦尔·厄%稀疏度通过γ642.05 1.5838.015.90.22561.63 1.3532.912.50.0表6.改变BasicNet中特征数量的效果净产量CIFAR 10CIFAR 100火车损失测试损失测试Err%备件。通过γ火车损失测试损失测试Err%备件。通过γ64-1x0.06 0.43 10.5700.10 1.98 36.64664-0.5x 0.10 0.41 11.0510.11 2.19 39.81032-0.25x 0.22 0.44 13.4230.51 2.05 43.405.2. 与显式特征稀疏/剪枝方法的比较对于VGG-16，我们比较了在CIFAR-10上训练的网络，Adam使用不同的小批量与Li等人的手工方法。[13]第10段。类似于调整[14]中的显式稀疏化超参数，可以改变小批量大小以找到具有可接受水平的测试性能的稀疏表示。我们从表7中可以看到，当使用160的批量大小进行训练时，83%的特征可以被修剪掉，并导致比修剪的 37% 的特征更好的性能 [13] 。对于528ImageNet上的VGG-11（表9），通过简单地将小批量大小从90改变到60，卷积529表7.CIFAR 10上VGG-16的γ分层稀疏%，100.还显示了手工制作的稀疏结构[13]CIFAR 10CIFAR 100Conv层#Conv壮举.亚当，L2：1 e-4Li etal. [13个国家]亚当，L2：1 e-4B：40乙：八十乙：一百六十B：40乙：八十乙：一百六十C1C2C3C4C5C6C7C8C9C10C11C12C136464128128256256256512512512512512512641850124671829597979899990047540668096979798999900516366379969796989899500000005050505050504942901026448695969898981040055127490939798985885432770559493969996%Feat. 修剪86848337766969测试错误7.27.06.56.629.228.127.8表 8.在 VGG-16 上通过 γ 进行稀疏性，在 TinyImageNet 和ImageNet上进行训练还示出了修剪前和修剪后的前1个/前5个单一作物验证误差。修剪使用|γ|<10- 3标准。TinyImageNet#Conv壮举. 修剪预剪枝后剪枝top1top5top1top5L2：1e-4，B：20L2：1e-4，B：403016人（71%）2571（61%）45.146.721.424.445.146.721.424.4ImageNetL2：1e-4，B：4029229.93 10.41 29.91 10.41表9.在ImageNet上训练的VGG-11中，不同小批量大小对稀疏性的影响（γ）。网络结构与[14]相同* 表示修剪#Conv壮举. 修剪预剪枝后剪枝top1top5top1top5亚当，L2：1 e-4，B：90亚当，L2：1 e-4，B：607114030.5031.7610.6511.5330.47 10.6411.5131.73[14]刘等[15]8529.1631.38美元 *-表10.在VGG-19上通过γ进行稀疏，在CIFAR 10/100上训练。还显示了修剪后测试错误。与Liu等人的显式稀疏化方法相比[14个]CIFAR 10CIFAR 100亚当，L2：1e-4Liu etal. [14个]亚当，L2：1 e-4刘等乙：六十四乙：五百一十二乙：六十四乙：五百一十二al. [14个]%Feat. 修剪858170756250测试错误7.16.96.329.928.826.7修剪的特征从71个减少到140个。这与[13]的显式稀疏化方法修剪的特征数量在相同的范围内，并且给出了可比较的对于CIFAR 10和CIFAR 100上的VGG-19（表10），我们再次看到改变小批量大小控制稀疏程度对于我们考虑的可以调整小批量大小或其他超参数，以进一步权衡稀疏性与准确性，并达到与[14]相当的稀疏准确性点。5306. 讨论和未来工作我们的研究结果与轶事中已知且知之甚少的用Leaky ReLU [17]来改善它是无效的，因为它没有解决根本原因。BasicNet with Leaky ReLU (negativeslope of 0.01) on CIFAR-100 only marginally reducesthe extent of sparsity in the case of Adam with L2: 10−4(41% feature sparsity vs. 47% with ReLU).降低BN参数γ的学习率更有效（33%稀疏度）。参见补充文件中的表2、表3。我们的工作为今后的调查开辟了几条途径。理解为什么使用Adam（和其他自适应方法）学习的特征比使用（m）SGD更具选择性，可以进一步阐明自适应方法和SGD之间的实际差异。此外，我们的见解将引导从业者更加意识到网络容量和表面下的泛化之间的隐含此外，我们表明，亚当与L2正则化工程开箱即用的加速神经网络的作品，是一个强大的基线，为未来的努力过滤稀疏化加速方法。7. 结论我们通过大量的实验表明，CNN中出现滤波器级稀疏性的根本原因可能是与主要目标的梯度相比，参数的不成比例的正则化（L2或权重衰减）。我们确定了各种因素如何影响稀疏的程度，通过微妙的方式与正则化过程的相互作用。我们发现，自适应梯度更新在涌现稀疏性中起着至关重要的作用（与SGD相反），Adam不仅表现出更高的稀疏性，而且稀疏性的程度也与小批量大小有很强我们发现，这是由于亚当倾向于学习更多的选择性特征，以及L2正则化与低梯度机制中的自适应更新相互作用的额外加速。由于其针对选择性特征，紧急稀疏性可以用于根据任务设置在网络容量，性能和泛化能力之间进行权衡，并且常见的超参数（如minibatch size）允许对其进行直接控制。我们利用这种细粒度的控制，并表明亚当与L2正则化可以是一个有吸引力的替代显式网络瘦身方法，以加快CNN的测试时间性能，而无需对流行框架支持的传统神经网络训练管道进行任何工具更改。531引用[1] CS231n 卷积神经网络用于视觉识别。http://cs231n.github.io/neural-networks-1/.[2] 微型图像网视觉识别挑战。网址：http：//tiny-imagenet.herokuapp.com/[3] J. 邓，W。东河，巴西-地索赫尔湖J. Li，K.Li和L.飞飞ImageNet：一个大规模的分层图像数据库。2009年CVPR09中[4] Laurent Dinh、Razvan Pascanu、Samy Bengio和YoshuaBengio。尖锐极小值可以推广到深度网络。ICML，2017。[5] John Duchi，Elad Hazan，and Yoram Singer.在线学习和随机优化的自适应次梯度方法。第12卷，第2121-2159页[6] 泽维尔·格洛特和约舒亚·本吉奥了解训练深度前馈神经网络的困难。第十三届人工智能和统计，第249-256页，2010年[7] Hengyuan Hu，Rui Peng，Yu-Wing Tai，and Chi-KeungTang.网络修整：数据驱动的神经元修剪方法实现高效的深度架构。arXiv预印本arXiv：1607.03250，2016。[8] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。在Proc.ICML，第32卷，2015中。[9] Nitish Shirish Keskar ， Dheevatsa Mudigere ， JorgeNocedal，Mikhail Smelyanskiy，and Ping Tak Peter Tang.关于深度学习的大批量训练：泛化差距和尖锐的最小值。在ICLR，2017。[10] Nitish Shirish Keskar和Richard Socher。通过从adam切换到sgd来提高arXiv预印本arXiv：1712.07628，2017。[11] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。[12] 亚历克斯·克列日夫斯基和杰弗里·辛顿从微小的图像中学习多层特征。2009年[13] Hao Li，Asim Kadav，Igor Durdanovic，Hanan Samet，and Hans Peter Graf.修剪过滤器以实现高效的卷积。在ICLR，2017。[14] Zhuang Liu，Jianguo Li，Zhiqiang Shen，Gao Huang，Shoumeng Yan，and Changshui Zhang.通过网络瘦身学习高效的卷积网络。在计算机视觉（ICCV），2017年IEEE国际会议上，第2755-2763页IEEE，2017年。[15] Zhuang Liu，Mingjie Sun，Tinghui Zhou，Gao Huang，and Trevor Darrell.重新思考网络修剪的价值。2019年，在ICLR[16] 伊利亚·罗希洛夫和弗兰克·哈特。修正亚当中arXiv预印本arXiv：1711.05101，2017。[17] Andrew L Maas、Awni Y Hannun和Andrew Y Ng。整流器的非线性改善了神经网络声学模型。在Proc.ICML，第30卷，第3页，2013中。[18] Pavlo Molchanov，Stephen Tyree，Tero Karras，TimoAila，and Jan Kautz.修剪卷积神经网络以实现资源高效推理。2017年。[19] Ari S Morc

下载后可阅读完整内容，剩余1页未读，立即下载