LCS：自适应实时网络压缩，高效推理，任意压缩水平"(20characters)

153 浏览量更新于2023-10-16 收藏 883KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

3818LCS：学习可压缩子空间，用于推理时的高效，自适应，实时网络压缩埃尔维斯·努涅斯*†加州大学洛杉矶elvis. ucla.eduMaxwell Horton*苹果mchorton@apple.com阿尼什帕布苹果anishprabhu@apple.com阿努拉格·兰詹苹果anuragr@apple.comAliFarhadi苹果afarhadi@apple.com穆罕默德·拉斯特加里·阿普尔mrastegari@apple.com摘要在将深度神经网络（DNN）部署到设备时，传统上假设可用的计算资源（计算、存储器和功率）保持静态。然而，现实世界的计算系统并不总是提供稳定的资源保证。当来自其他进程的负载很高或可用内存很低时，需要节省计算资源。在这项工作中，我们提出了一个训练过程，以产生DNN，可以实时压缩到任意压缩水平完全在设备上。这使得能够部署能够有效地适应其主机设备我们将这个问题表述为学习一个自适应可压缩的网络子空间，其中一端是优化的准确性，另一端是效率。我们的子空间模型在改变压缩级别时不需要重新校准或重新训练。此外，我们的通用培训框架适用于多种形式的压缩。我们目前的结果为非结构化稀疏，结构化稀疏，和量化的各种 architec-tures。我们提出的模型，需要一个单一的额外副本的网络参数，以及模型，不需要额外的参数。这两种模型都允许在很宽的范围内以任何压缩级别进行操作（例如，ImageNet上ResNet18的结构化稀疏度为0%至90%）。在每个压缩级别，我们的模型实现的准确度与针对该特定压缩级别优化的基线模型相当。据我们所知，我们的方法是第一个实现自适应设备上网络压缩的方法，几乎没有计算开销。*同等贡献。电子邮件：mchorton@apple.com†在苹果公司实习期间完成的工作。1. 介绍深度神经网络模型被部署到各种计算平台，包括手机、平板电脑和手表[5]。这些模型通常被设计为包含固定的资源预算，但是设备上可用的计算来自其他进程的计算负担以及电池寿命可能会影响模型的资源可用性。自适应调整推理时间负载超出了传统神经网络的能力，传统神经网络设计有固定的架构和固定的资源使用。提供准确性-效率权衡的问题的简单方法是训练不同大小的多个神经多个网络存储在设备上，并在需要时加载到内存中。在设计高效架构方面有广泛的研究，这些架构可以用不同的然而，使用多个网络来提供准确性-效率权衡也有一些缺点：（1）它需要训练和部署多个网络（这引起训练时间计算负担和设备上存储负担），（2）它需要在部署之前指定所有压缩级别，以及（3）它需要在改变压缩级别时将新网络加载到存储器中，这禁止在存储器受限的边缘设备上进行实时模型切换。以前的方法，如网络瘦身[31]和通用瘦身[30]，通过训练单个网络来解决结构化稀疏性设置中的第一个问题，该网络在改变修剪的通道数量时表现良好。然而，这些方法需要在部署之前为每个准确性-效率配置重新校准Batch- Norm [11]统计数据.这就要求用户提前知道每一个压缩级别如果r（可用资源可压缩子空间1）模型查询CPURAM3820| || |表1：我们的方法具有线性子空间（LCS+L）和点子空间（LCS+P），LEC [16]，NS [31]和US [30]。请注意，“自适应”是指任何压缩级别的部署后压缩。r表示网络参数的数量，b表示BatchNorm参数的数量，n表示不支持任意压缩级别的模型的压缩级别的数量。LCS+PLCS+LLECNS美国无再培训44844无标准重新校准44888自适应44888存储的参数|R|2 |R|n|R||+ n|B |b||+ n|B |b|图2：参数开销（MB），用于为0%稀疏度和给定压缩级别之间的每个可能的稀疏度配置存储一组额外的预校准BatchNorm统计信息。我们的方法通过消除存储BatchNorm统计信息的需要来避免这种开销（第3.5节）。更多详情请参见附录A.2。[10，19，9]或网络中的块的数量[23]。在Once For All[3]中，避免了单独训练单独网络的需要相反，训练单个大型网络，然后查询子网。我们在两个方面与这些方法不同。首先，我们自适应地压缩设备上的数据（在部署之前不指定压缩级别以前的工作需要在部署之前训练单独的网络（或者在Once For All的情况下，查询压缩网络的更大模型其次，我们不需要为每个压缩级别部署一[20]中出现了一种用于可变位宽的后训练量化的方法，但它依赖于校准数据，并且不能在低计算边缘设备上运行。因此，压缩水平必须在部署前指定。他们还提出了一种量化感知训练可变位宽的方法，但他们的大多数结果保持激活位宽固定，而我们改变了它。培训感知压缩：最近的作品训练a单个神经网络，可以在推理时配置为以不同的压缩级别执行这些方法最接近我们的工作.在学习有效卷积（LEC）[16]中，作者训练了一个网络，然后以不同的结构稀疏率对其进行微调。其他方法训练一组权重，以在通道被修剪时表现良好，但需要在每个稀疏级别重新校准（或抢先存储）BatchNorm [11]统计数据这些方法包括网络瘦身（NS）[31]和通用瘦身（US）[30]。类似的方法通过存储BatchNorm统计数据的额外副本[6，29]或通过重新校准BatchNorm统计数据[13]来训练单个网络在各种量化我们与这些方法的不同之处在于，重新校准或存储BatchNorm统计数据（第3.5节），并允许在推理时自适应选择任何压缩级别，这两项之前都没有完成（表1）。此外，我们避免了在每个所需的压缩级别上存储BatchNorms的开销.图2演示了为每个可能的压缩级别存储BatchNorm参数的大量开销。请注意，[31]通过仅存储几组BatchNorm统计信息来避免这种存储开销。然而，这具有仅允许少数精度-效率配置的缺点，这如第1节中所解释的是有问题的请注意，在量化的情况下，为每个压缩级别存储BatchNorm统计数据是可行的，因为有少量离散数量的压缩级别可供选择（例如，不同的位宽）。我们包括一些初步的量化实验，以表明我们的一般方法适用于这种压缩方法，但我们指出，避免BatchNorm存储成本在这种情况下是不必要的。注意我们的方法广泛适用于各种压缩方法，而以前的工作都集中在一个单一的压缩方法。其他训练后压缩方法：其他工作已经研究了训练后压缩。在[17]中，提出了一种用于将32位模型压缩为3821⇡2⇡⇡2-22⌘-8位，但尚未在低位机制中进行评估。它涉及运行均衡步骤并假设Conv-BatchNorm-ReLU网络结构。相关的训练后压缩方法在[8]中示出，其示出了量化和稀疏性的结果。然而，他们的稀疏方法需要轻量级训练阶段。我们与这些方法的不同之处在于，在不对网络结构进行假设的情况下，为稀疏性和量化提供实时部署后压缩。神经网络子空间：学习神经网络子空间的思想在[27]中引入（尽管在[2]中同时引入了另一个公式）。多组网络权重被视为单纯形的角，并且优化过程更新这些角以找到权重空间中的区域，在该区域中，单纯形内的点对应于精确的网络。这种方法被证明可以产生具有改进的精度和校准的模型。3. 可压缩子空间3.1. 可压缩线我们的方法包括训练神经网络子空间[27]它包含一系列网络，每个网络都有不同的准确性-效率权衡。我们改写了[27]的子空间公式，以训练一端具有高精度解，另一端具有高效率解的线性子空间。为了学习可压缩子空间，我们选择一个模型架构，并将其权重集合表示为r。我们随机初始化两组网络权重，r1和r2，以定义子空间的端点。我们的网络子空间跨越r1和r2之间的直线，定义为r（R）=Rr1+（1r2，其中，[2011- 01 -22]，0↵1<↵21.一、换句话说，通过改变我们的子-空间参数r，n，我们可以在一组权重r，n（n）中获得，通过插值。我们现在调整子空间，使得一端（例如，↵1）产生高度压缩的网络，但是另一端（例如，图2）产生高度精确的网络。中间值（例如，（1+2）/2）应表现出适度的压缩。换句话说，调整[101，102]允许我们沿着子空间移动，我们希望不同-沿着我们的子空间进入点，以表现出不同的精度-效率权衡。为了实现这一点，我们引入了一个函数，它决定了压缩网络的程度工作在0，以及压缩函数f（r，r），其每-形成压缩。为了训练我们的子空间，我们首先通过随机选择一些k[k1，k2]来对子空间中的位置进行采样，产生一个权重为rk（k）的网络。然后我们计算网络的压缩系数，它决定了网络的压缩程度。Fi-最后，f压缩网络，获得具有权函数f（r（），（））. 然后我们用它执行一个标准的向前和向后梯度下降过程，将梯度反向传播到r1和r2。我们继续以这种方式训练，直到收敛。一旦我们的模型经过训练，用户就可以在设备上部署r1和r2，更改压缩在实时级别中，用户首先确定设备上有多少资源可用这一步取决于应用程序，可能涉及查看电流的量，当前可用内存或当前CPU负载。用户根据当前可用的资源选择压缩级别100。根据该量，用户计算出与所需压缩水平相对应的适当的Δ0=Δ-1（Δ0）值。接下来，用户计算压缩的网络f（r（0），0）。使用此网络，直到用户需要新的压缩级别注意在我们所有的实验中，计算f与网络前向传递的成本相比可以忽略不计（见A.1节3.2. 可压缩点在第3.1节中，我们讨论了将子空间表示为权重空间中由两个端点连接的线。该公式需要额外的存储资源来部署子空间（表1），因为存储了网络权重的额外副本。对于许多成本有效的计算设备，该开销可能是显著的。为了消除这种需要，我们建议训练一个退化的子空间与一个sin-权重空间中的角点（而不是两个端点）。我们仍然使用[1，2]来控制压缩比，但我们的子空间由一组权重r（） =r参数化。压缩后的权值不再表示为f（r（），r（））f（r，n（n））. 这对应于在每个转发期间应用不同级别的压缩过去的该方法仍然产生模型的子空间，在这个意义上，对于每个值，我们得到一个不同的压缩网络f（r，f（r））。然而，我们不再使用线性子空间的不同端点来专门化一个子空间的一端用于精确性，另一端用于效率。相反，我们调节一组网络权重，以容忍不同程度的压缩。3.3. 子空间参数当训练我们的可压缩子空间时，我们需要在每次迭代训练时对子空间参数进行在[30]中，提出了一种“三明治方法”，用于训练不同水平的结构稀疏性。该方法涉及执行n轮向前和向后在每次迭代的训练中通过一轮使用最大最小稀疏水平，另一轮使用最小稀疏水平，其余n2轮使用随机选择的稀疏水平。在所有n轮向前和3822！2-！--2个|- ||-||-||- |向后传递时，应用梯度更新。为了将这种方法结合到我们的算法中，我们引入了一个随机函数，n：n[n1，n2]n，其中n表示随机函数的状态（例如，随机数发生器的内部状态）。对于每一批培训，我们都对[0，1]n从n。我们执行n使用压缩网络的前向和后向传递f（r（i），（i）），对于i1、… n，其中n是n的第i个元素。然后，应用梯度更新在大多数实验中，我们省略了三明治规则（通过设置n=1），因为我们发现与增加的训练成本相比，好处是微不足道的。然而，当与[30]在结构化稀疏设置中进行比较时，我们使用n= 4的三明治规则，我们发现准确性的提高更显着。我们的整体算法的概述是在图- ure 1。接下来，我们详细介绍我们的压缩方法f。3.4. 压缩方法我们用三种不同的公式来实验我们的压缩函数f（r，r）。这些对应于非结构化稀疏性、结构化稀疏性和量化。在我们的非结构化稀疏性实验中，我们的压缩函数f（r，n）是TopK稀疏性[32]，它从每个层中修剪了具有最小绝对值的权重的一小部分（我们忽略输入和输出层）。我们的压缩水平计算器是（） =1。我们的随机采样函数n沿着区间[1，2]均匀地对单个值进行采样。我们尝试不同的设置[101，102]对应的宽-稀疏度区域和高稀疏度区域。实验详情见第4节在我们的结构化稀疏性实验中，我们的压缩函数f（r，r）保留了每层中输入和输出通道的1/3部分，并删除了其余部分（我们忽略了第一层中的输入通道和最后一层中的输出通道）。我们的压缩级别计算器（）：[1，2][a，b]是唯一的仿射变换，其范围和范围。这里，[a，b]是宽度其中a和b是最小值和最大值的因子范围保留的通道的μ m分数（有关模型特定的参数设置，请参见第4）。我们的随机采样函数n采样n=4个值为[a，b，U（a，b），U（a，b）]，其中U（a，b）在范围[a，b]内均匀采样。这选择反映了[30]中使用的在量化实验中，我们的压缩函数f（r，r）是仿射量化，如[12]所述。我们的压缩水平计算器是（）=2+6。我们的随机采样函数rn在集合1/6，2/6，.上均匀地采样单个rn值，6/6。这对应于具有位宽3至8的训练。我们避免较低的位宽，以规避我们遇到在基线上。图3：在测试期间，使用TopK非结构化稀疏性训练的模型的观察到的分批平均值μm和存储的BatchNorm平均值μ m的分析模特们都使用不同的目标稀疏度进行训练，并使用各种推理时间稀疏度进行评估。（a）-（b）：微粒子跨所有层的μ m。（c）-（d）：µ适用于单个层。（e）-（f）：相关性为-之间的一个平均数µ测试和测试集错误。注意在(b)以及（d），稀疏度为0和0。493产生几乎相同的结果，因此这些曲线重叠。3.5. 避免BatchNorm重新校准以前训练可压缩网络的工作需要额外的训练步骤来校准BatchNorm[11]统计在每个压缩级别[30，31]。这使得两种方法无法在展开后任意细粒度压缩水平下进行评价（表1）。我们力求消除重新校准或储存统计数据的需要。为了理解在以前的工作中需要重新校准，请回忆BatchNorm层存储输入的每通道均值μ和inputs，输入，需要重新校准步骤来校正µ以及当网络被调整时被破坏的R2和R2。破坏统计数据的调整包括应用稀疏性和量子化。在图3中，我们分析了两个模型的BatchNorm统计数据的不准确性，这两个模型使用特定的非结构化稀疏性水平进行训练，并使用各种推理时间非结构化稀疏性水平进行测试。我们计算出在CIFAR-10 [14]上cPreResNet 20[7]模型的测试时期期间，存储的BatchNorm平均值μ和批次μ的真实平均值之间的差异在图3a和图3b中，我们显示了平均绝对差（MAD）的分布在模型的所有层中，模型具有较低的批次-3823⇥| - ||- |2个在与训练时目标稀疏度匹配的稀疏度水平附近评估时的范数误差应用不匹配的稀疏水平将这些误差的分布从0偏移。在图3c和图3d中，我们示出了每个BatchNorm层的测试集上的μµm。在各层中，当稀疏匹配训练。在图3e和图3f中，我们显示了µ的平均值µm和相应的测试集精度，用于各种级别的推理时间稀疏性。我们发现BatchNorm中错误的增加与准确性的降低相关类似分析结构化稀疏性和量化。因此，BatchNorm层的存储统计信息在推理时间压缩期间可能变得不准确，这可能导致准确性降低。为了避免对BatchNorm的需求，我们调整了我们的网络以使用GroupNorm [28]。这在g组通道上而不是跨批次计算替代归一化。它不需要维护各批输入的平均值和方差的运行平均值，因此如果网络发生变化，则不会损坏存储的GroupNorm 通常使用 g=32 个组，但它也包括InstanceNorm [26]（其中g=c，其中c是通道数）作为特殊情况。我们在结构化稀疏性实验中使用g=c，因为改变的数量NEL是动态确定的，并且不总是可被32整除。对于所有其他实验，我们使用g1，8，32，取决于附录A.6中讨论的架构。4. 实验我们目前的结果在非结构化稀疏性，结构化稀疏性和量化领域。我们在Nvidia GPU上使用Pytorch [18]进行训练。在CIFAR-10 [14]上，我们使用[16]提供的开源代码的PyTorch版本中提供的ResNet 20 [7]的预激活版本进行了实验。我们将其缩写为我们还在ImageNet [4]数据集上实验了各种架构。特别是，我们使用标准卷积神经网络（CNN）架构：ResNet 18 [7]和VGG 19 [21];轻量级CNN：MnasNet-B1[22] 、 MobileNetV 2 [19] 、 MobileNetV 3-Small 和MobileNetV 3-Large [9]; 和 vision Transformer 型号：[24][25][26][27][28][29][29][29]所有模型都使用224 224的输入分辨率进行训练。我们的基准模型精度是最高的-见附录A.5。我们为 cPreResNet20 训练了 200 个 epoch ，为ImageNet CNN训练了90个epoch。我们遵循超参数选择，[27]对于我们的方法和基线（尽管我们没有使用它们描述的正则化），一些依赖于架构的参数在附录A.5中详细描述。对于transformer模型，我们训练了300个epoch，并遵循[24]中的超参数设置。我们的基准线为每个拱门-图4：我们使用线性子空间（LCS+L+GN）和点子空间（LCS+P+GN）与针对特定TopK目标训练的网络进行非结构化稀疏性比较。TopK目标是指在训练期间保持未修剪的权重的分数。图5：与针对特定TopK目标训练的网络相比，我们使用线性子空间（ LCS+L+GN ）和点子空间（LCS+P+GN）进行非结构化稀疏性的方法结构总是使用与我们自己的方法相同的训练超参数4.1. 非结构稀疏性我们在图4中展示了使用MobileNetV2和ResNet18的方法的结果。对于MobileNetV2，我们使用3824----[0]的范围。025，1]，对应于宽稀疏性训练方案，而对于ResNet 18，我们使用[0. 005，0。05]，对应于高稀疏性训练机制（因为ResNet 18是过度参数化的，我们在高稀疏性范围内操作，以使准确性-效率权衡更清晰）。1附录A.6中提供了额外的超参数详细信息。我们的方法在这两种情况下都实现了很强的准确性-效率权衡我们的线子空间（LCS+L+GN）实现了较高的精度，在高稀疏度，在低稀疏度较低的精度为代价。据我们所知，有效的，自适应的，实时的压缩还没有被认真探索的非结构化稀疏。因此，我们的基线是经过训练以在特定TopK稀疏水平下执行的网络，并且每个网络都在各种稀疏目标下进行评估。这些方法在目标稀疏度附近的精度达到峰值，但在更高的稀疏度下急剧下降我们在图5中展示了使用变压器架构的方法的其他结果 Transformers 包含 Lay- erNorm [1] 而不是BatchNorm，后者不需要重新校准。因此，在这种情况下，我们不需要修改归一化层。和以前一样，我们的方法在各种稀疏水平上产生了很强的精度-效率权衡我们的LCS+L+LN方法相对于LCS+P+LN在DeiT模型上表现不佳，但在高稀疏度下仍然获得比基线更强的结果。我们假设，在这种情况下，学习更少参数的好处超过了增加容量的好处，但我们将更多的调查留给未来的工作。在附录A.9中，我们提供了模型的运行时特征。我们还介绍了使用cPreResNet 20、ResNet 18、VGG 19、Mnas-Net、MobileNetV 3-Small和MobileNetV 3-Large的宽稀疏区域的结果;此外，我们使用DeiT-Ti和DeiT-S显示了高稀疏度区域的结果。4.2. 结构稀疏我们在图6中展示了使用结构化稀疏性的方法的结果对于所有结构化稀疏性实验，我们使用[0，1]的范围。我们使用宽度因子范围的[0。25，1]对于VGG19和ResNet18。讨论的在3.5节中，我们使用了GroupNorm的一个特例[28]。称为InstanceNorm [26]，因为网络中的信道数量不同。我们使用LayerNorm进行了初步实验，但InstanceNorm在我们的情况下取得了更强的结果。在结构稀疏的情况下，过滤器能够专门化而不需要额外的网络权重副本，因为一些过滤器仅在模型被轻微修剪时使用。因此，我们只1在非结构化设置中，我们不压缩模型的第一层和最后一层。因此，压缩模型的稀疏率可能不完全是1-1。图6：我们使用线性子空间（LCS+L+IN）和点子空间（LCS+P+IN）与三明治和离散相比的结构化稀疏方法。当使用LCS+L+IN时，创建InstanceNorm参数的额外副本，因为网络权重的额外副本是不必要的。我们在表2中提供了一个表格，展示了结构化稀疏模型的更多超参数详情请参见附录A.7。据我们所知，有效的，自适应的，实时的压缩还没有被探索之前的结构化稀疏。因此，我们将我们的方法与两个基线进行比较，这些基线训练网络在不同的稀疏性水平上运行。在第一种方法中，我们表示为离散，我们以四个离散宽度因子0训练网络。25，0。5，0。75，1。在第二种方法中，我们称之为三明治，我们使用三明治规则训练网络（3.3节）。在测试时，两种方法都在任意稀疏度下进行评估。我们不对这两种方法进行BatchNorm校准请注意，我们的基线与NS和US类似，但我们的基线在没有BatchNorm校准的情况下以任意宽度因子运行。用我们的方法训练的模型表现出一个很强的精度-效率权衡。相比之下，三明治产生的权衡在中间达到峰值。我们假设，这是由于三明治规则训练公式，其中稀疏水平随机抽样。这可能会导致BatchNorm统计信息在稀疏范围的中间附近更加准确（平均而言）。离散产生的权衡包含峰和谷。此方法仅在离散宽度因子为0时进行训练。25，0。50，0。75，1，并在这些稀疏性比在稀疏性，它没有明确训练产生更强的准确性。在初步的实验与变压器，我们发现，自适应压缩结构稀疏性没有收敛到高精度。我们假设这可能由于所述3825表2：结构化稀疏性的特征。请注意，特定架构和稀疏级别的模型都具有相同的内存、FLOPS和运行时，因此我们只报告一个值。测试是在Mac- Book Pro（16英寸，2019）上进行的，配备2.6 GHz 6核英特尔酷睿i7处理器和16 GB 2667 MHz DDR4 RAM。内存消耗是指当前执行模型中模型权重的大小。稀疏度（%）043.49160.61474.65585.61493.491cPreResNet20（CIFAR-10）FLOPS（106）内存（MB）运行时间（ms）33.750.873.1319.070.492.6413.290.342.098.550.221.834.850.121.642.20.061.28Acc（LCS+P+IN）87.5186.0784.4682.0278.3975.96Acc（LCS+L+IN）88.4986.2284.5481.9278.7375.25Acc（三明治）70.6283.1381.1162.1840.0421.81访问（离散）72.8775.4657.0970.0716.8619.76稀疏度（%）0.042.9159.8973.8884.8992.91ResNet18（ImageNet）FLOPS（106）内存（MB）运行时间（ms）1814.146.7245.851042.6626.6730.34736.4218.7422.51483.1612.214.31282.897.069.84135.613.316.02Acc（LCS+P+IN）63.3260.2157.4253.7748.7544.62Acc（LCS+L+IN）63.9359.6656.8453.0048.1144.14Acc（三明治）58.9160.3953.7644.7222.518.34访问（离散）50.6357.5822.9348.520.841.34稀疏度（%）0.043.2860.3574.3785.3593.28VGG19（ImageNet）FLOPS（106）内存（MB）运行时间（ms）19533.5282.12388.4911008.5646.58246.817656.4832.56172.644911.3321.04105.772773.112.0360.01241.815.5229.55Acc（LCS+P+IN）66.7764.4762.1158.3553.4549.5Acc（LCS+L+IN）66.9763.7961.4257.5752.6649.11Acc（三明治）36.2743.9942.1736.520.427.07访问（离散）34.0544.9118.4436.260.570.14图7：我们使用线性子空间（LCS+L+GN）和点子空间（LCS+P+GN）进行量化的方法，与针对特定位宽目标训练的网络进行比较。在[15]中，但我们将更多的研究留给未来的工作。有关使用MnasNet、Mo-bileNetV 2、MobileNetV 3-Small和MobileNetV 3-Large的结果以及速度和内存使用特性，请参见附录A.9。4.3. 量化我们还提供了初步的实验定量。注意，在量化设置中，存在少量离散压缩级别。因此，它通常是-在模型部署之前，简单地为所有所需的参数设置因此，我们在这种设置下进行实验的主要目的是描述我们的方法在除修剪之外的另一种压缩技术下的行为，并验证我们的方法的多功能性。我们在图7中展示了我们的方法的结果，与在固定位宽下训练并在各种位宽下评估的基线模型进行了培训详情见附录A.8通常，基线在训练时的位宽处实现高精度，而在其他位宽处降低精度。相比之下，我们使用线性子空间（LCS+L+GN）的方法在所有位宽下都实现了高精度，匹配或超过针对目标位宽训练的单个网络的精度。在VGG19的情况下，我们发现我们的准确性甚至超过了基线。我们认为，部分增长是由于Group-Norm在该网络上与BatchNorm的兼容性得到了改善（ResNets不会发生有关ResNet18结果和模型的内存使用特性，请参见附录A.9。5. 结论提出了一种学习神经网络可压缩子空间的方法.我们的方法产生了一个模型，可以部署在设备上，并用于高效，自适应，实时模型压缩。我们的模型可以在部署后实时压缩到任何压缩级别，无需重新训练，也无需在部署前指定压缩级别。此外，我们的LCS+P方法不会产生参数开销。我们表明，我们的通用算法优于基线的非结构化稀疏性和结构化稀疏性的域。我们证明，它是灵活的，足以适用于量化。我们的可压缩子空间产生了几个积极的现实世界的影响。配备我们的模型的设备可以动态地调整其能源消耗，根据设备的可用资源有效地压缩模型此外，我们的方法避免了训练针对多个设备定制的多个模型的需要越来越大的DNN对于较旧的设备和具有较低计算的设备是不可访问的，并且针对每个设备的硬件约束的训练模型将是极其昂贵的。使用我们的方法，用户可以训练一个单一的模型，并有效地压缩它到一个特定的设备确认我们感谢Hanlin Goh和Barry Theobald提供的有用的点评反馈。3826引用[1] Jimmy Ba，Jamie Ryan Kiros和Geoffrey E.辛顿层归一化。ArXiv，abs/1607.06450，2016年。[2] 格雷戈里·本顿，韦斯利·马多克斯，萨娜·洛特菲，安德鲁·戈登·威尔逊.模式连接体积和快速集成的损失面单形。Marina Meila和Tong Zhang编辑，Proceedings of the38 th International Conference on Machine Learning，第139 卷 Proceedings of Machine Learning Research ，第769PMLR，2021年7月18日[3] Han Cai，Chuang Gan，Tianzhe Wang，Zhekai Zhang，and Song Han.一次性：训练一个网络并使其专业化以实现高效部署。在2020年国际学习代表会议上[4] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页[5] Sauptik Dhar ， Junyao Guo ， Jiayi Liu ， SamarthTripathi，Un- mesh Kurup，and Mohak Shah.设备上机器学习：算法和学习理论的观点。arXiv预印本arXiv：1911.00623，2019。[6] Luis Guerra ， Bohan Zhuang ， Ian Reid ， and TomDrummond.可切换精度神经网络。arXiv预印本arXiv：2002.02815，2020。[7] 何开明、X. Zhang，Shaoqing Ren，and Jian Sun.用于图像识别的深度残差学习。2016年IEEE计算机视觉和模式识别会议（CVPR），第770-778页[8] Maxwell Horton ， Yanzi Jin ， Ali Farhadi ， andMohammad Rastegari.逐层无数据CNN压缩。CoRR，abs/2011.09058，2020。[9] Andrew Howard ， Mark Sandler ， Grace Chu ， Liang-Chieh Chen，Bo Chen，Mingxing Tan，Weijun Wang，Yukun Zhu，Ruoming Pang，Vijay Vasudevan，et al.搜索mobilenetv 3.在IEEE/CVF计算机视觉国际会议论文集，第1314-1324页[10] Andrew G Howard，Menglong Zhu，Bo Chen，DmitryKalenichenko，Weijun Wang，Tobias Weyand，MarcoAn- dreetto，and Hartwig Adam. Mobilenets：用于移动视觉应用的高效卷积神经网络。arXiv预印本arXiv：1704.04861，2017。[11] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。在International Conference on Machine Learning ，第 448-456页PMLR，2015.[12] Benoit Jacob，Skirmantas Kligys，Bo Chen，MenglongZhu ， Matthew Tang ， Andrew G. Howard ， HartwigAdam，Dmitry Kalenichenko.神经网络的量化和训练，用于高效的仅整数算术推理。2018 IEEE/CVF计算机视觉和模式识别会议，第2704-2713页[13] Qing Jin，Linjie Yang，and Zhenyu Liao. Adabit：具有自适应位宽的神经网络量化。在IEEE/CVF计算机视觉和模式识别会议论文集，第2146-2156页，2020年[14] 亚历克斯·克里热夫斯基从微小的图像中学习多层特征。技术报告，2009年。[15] Yang Lin ， Tanyu Zhang ， Peiqin Sun ， Zheng Li ，Shuchang Zhou. Fq-vit：完全量化的视觉Transformer，无需重新训练。ArXiv，abs/2111.13824，2021。[16] Zhuang Liu，Jianguo Li，Zhiqiang Shen，Gao Huang，Shoumeng Yan，and Changshui Zhang.通过网络瘦身学习高效的卷积网络。2017年IEEE计算机视觉国际会议（ICCV），第2755-2763页[17] Markus Nagel、Mart van Baalen、Tijmen Blankevoort和Max Welling。通过权重均衡和偏差校正实现无数据量化。2019 IEEE/CVF计算机视觉国际会议（ICCV），第1325-1334页，2019年。[18] Adam Paszke 、 Sam Gross 、 Francisco Massa 、 AdamLerer 、 James Bradbury 、 Gregory Chanan 、 TrevorKilleen 、 Zeming Lin 、 Natalia Gimelshein 、 LucaAntiga 、 Alban Desmaison 、 Andreas Kopf 、 EdwardYang 、 Zachary DeVito 、 Martin Rai son 、 AlykhanTejani 、 Sasank Chilamkurthy 、 Benoit Steiner 、 LuFang、Junjie Bai和Soumith Chintala。Pytorch：一个操作风格的高性能深度学习库。 In H.Wallach ， H.Larochelle、A. B e ygelzime r、F. d'Alc he´-Buc，E. Fox和 R. Garnett ，编辑， Advances in Neural InformationProcessing Systems 32 ，第 8024Curran Asso- ciates ，Inc.，2019年。[19] Mark Sandler 、 Andrew Howard 、 Menglong Zhu 、Andrey Zh- moginov和Liang-Chieh Chen。Mobilenetv2：反演残差和线性瓶颈。在IEEE计算机视觉和模式识别会议论文集，第4510-4520页[20] Moran Shkolnik ， Brian Chmiel ， Ron Banner ， GilShomron ， Yury Nahshan ， Alex Bronstein ， and UriWeiser.鲁棒量化：一种模式统治一切。In H. 拉罗谢尔M.兰扎托河哈德塞尔M. F. Balcan和H.林，编辑，神经信息处理系统的进展，第 33卷，第 5308-5317 页。Curran Associates，Inc. 2020年。[21] Karen Simonyan和Andrew Zisserman用于大规模图像识别的非常深的卷积网络。 arXiv 预印本 arXiv ：1409.1556，2014。[22] Mingxing Tan ， Bo Chen ， Ruoming Pang ， VijayVasudevan，Mark Sandler，Andrew Howard，and QuocV Le. Mnas- net：面向移动设备的平台感知神经架构搜索。在IEEE/CVF计算机视觉和模式识别会议论文集，第2820-2828页[23] Mingxing Tan and Quoc Le.EfficientNet：重新思考卷积神经网络的模型缩放。在Kamalika Chaudhuri和RuslanSalakhutdinov ，编辑， Proceedings of the 36 thInternational Conference on Machine Learning，第97卷，Proceedings of Machine Learning Research，第6105-6114页。PMLR，2019年6月9日[24] Hugo Touvron 、 Matthieu Cord 、 Matthijs Douze 、FranciscoMassa 、 AlexandreSablayrolles 和 HerveJegou。训练数据高效的图像转换器通过注意力蒸馏。Marina Meila和Tong Zhang编辑，第38届机器学习国际会议的会议论文集

下载后可阅读完整内容，剩余1页未读，立即下载