增强贝叶斯压缩方法的动态码本网络量化

110 浏览量更新于2023-10-19 收藏 766KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6946通过深度强化学习袁欣1，2，3，刘欣，任亮亮1，2，3，刘欣，陆继文1，2，3 <$，周杰1，2，31清华大学2清华大学智能技术与系统国家重点实验室3北京国家信息科学技术{yuanx16，renll16}@ mails.tsinghua.edu.cn;{lujiwen，jzhou}@tsinghua.edu.cn摘要在本文中，我们提出了一种增强的贝叶斯压缩方法，通过强化学习来灵活地压缩深度网络与现有的贝叶斯压缩方法不同，该方法在训练过程中不能显式地执行量化权重，我们的方法在每一层中学习灵活的码本，以获得最佳的网络量化。为了动态调整码本的状态，我们采用了Actor-Critic网络来与原始的深度网络协作。与大多数现有的网络量化方法不同，我们的EBC在量化后不需要重新训练过程。实验结果表明，该方法在MNIST、CIFAR和ImageNet上获得了低比特精度，且精度下降可以接受。1. 介绍深度神经网络（DNN）在各种机器学习任务中实现了显着的准确性提高，例如图像分类[35，52]，语音识别[14]和自然语言处理[53]。最近的研究进展进一步表明，DNN在这些任务上的性能可以从增加网络深度和宽度中受益[19，24]。尽管取得了成功，但由于计算和硬件资源的高成本，大尺寸DNN难以部署在诸如移动设备和嵌入式系统的为了解决这个问题，近年来提出了一些深度网络压缩方法，以减少参数冗余和有效定点精度。现有的网络压缩方法大多集中在剪枝和量化上。网络修剪[17，16]旨在从神经网络中永久删除冗余的权重参数，神经元或滤波器。例如，[18，16]根据绝对值*表示平等贡献†通讯作者。电话：+86-21- 6668888传真：+86-21 -6668888-1-0.500.51(a) 原始模型（b）EBC模型图1.提出了增强贝叶斯压缩（EBC）方法的主要思想EBC的目标是在每一层中学习灵活的码本，以实现最佳的网络量化。在我们的EBC训练之后，（a）中的原始模型权重具有如（b）中所示的新分布，其可以直接量化为具有受约束的量化误差影响的码本值。权重值，这可能无法确定确实对整体计算有很大贡献的权重。网络量化[18，59，28]已被提出用于降低权重、激活或甚至梯度的位精度。例如，[18]采用了一种传统的网络量化方法。然而，这些方法由于量化误差而遭受精度损失，并且依赖于量化之后的高度计算性的重新训练。还有一些其他的工作涉及CNN效率的提高，这些工作已经在以前的工作中进行了研究[27，22，58，23]。例如，[25，49]提出使用二进制权重和激活，其受益于通过位计数操作的小存储和高效计算。另一种流行的变体是深度可分离卷积[50]，它将一个分离的卷积核应用于每个通道，然后在所有通道上进行逐点卷积[10，22，58]。这些方法中的大多数专注于为标准空间卷积找到一个有效的替代方案，从而从头开始学习压缩网络。最近，已经提出了一些压缩方法[42，55，45，46]来修剪网络并减少6947从贝叶斯的角度来看，位精度的权重。这些贝叶斯方法利用变分贝叶斯近似的优点，通过惩罚复杂模型自动减少参数冗余，其中变分后验不确定性用于确定哪些位是重要的，并获得最佳的有效位精度。尽管贝叶斯奖金，这样的方法不能明确地执行的模型权重量化的基础上，低比特码本在训练过程中，通常不能实现高的量化压缩比。在本文中，我们提出了一种增强的贝叶斯压缩（EBC）方法，通过强化学习来灵活地压缩深度网络。我们给参数赋值-s到码本值的以下准则：（1）将权重分配给由具有最高概率的代理控制的量化值。(2)在智能体估计的分布下，输入和输出激活高度相关。如图1所示，我们强制网络在EBC训练后实现具有低方差的灵活码本代替需要所有数据作为输入并且不能从GMM模型导出特征图的概率的EM与SWS等其他基于GMM的贝叶斯压缩方法仅从参数分布中学习先验知识，并在忽略输入数据（或特征）的情况下计算分类器梯度不同，该方法利用强化学习（RL）与原始网络参数和特征图共同调整权值分布的个数和参数例如，在稀疏输入的情况下，SWS很难训练，因为梯度以及初始参数都是非零值。我们的方法在量化后不需要重新训练步骤。实验结果表明，我们的方法在使用不同深度网络的三个广泛使用的数据集（MNIST，CIFAR-10，ImageNet）上获得了低位精度，并且精度损失可接受2. 相关工作深度网络压缩：近年来，深度网络压缩在降低计算成本和内存需求以使深度神经网络可移植方面引起了极大的兴趣。例如，Gong et al.[13]用向量量化技术解决了AlexNet的存储问题。Han等人[17]提出了一种深度压缩方法，该方法结合了修剪[18]，量化和霍夫曼编码以获得更好的压缩效果。在以前的作品中已经研究了计算密集度较低的卷积中的效率最近提出的BinaryConnect [11]使用二进制权重和活动将DNN压缩了32倍这种方法的优点是存储空间小，计算效率高，对小数据集没有明显的精度损失。在此之后，提出了一系列方法[25，49，26]来训练具有低精度权重和低精度激活的CNN。LBP-CNN [29]提出了一种可分离卷积来冻结空间卷积，并仅学习逐点卷积。另一个广泛应用的示例是深度方向可分离卷积，其将单独的卷积核应用于每个通道，然后在所有通道上进行逐点卷积。ResNext [19]，MobileNet [22]和Xcep [10]采用群卷积和深度可分离卷积作为标准空间卷积的替代方案ShuffleNet [58]集成了深度卷积，逐点群卷积和通道洗牌以进一步加速。除了找到有效的替代者，动态网络执行已经在以前的作品中进行了研究[8，39，47]。一些条件计算方法[1，5，6，41]在学习的策略下激活网络的一部分。从贝叶斯的角度来看，修剪和降低权重的位精度在最近获得了更多的关注。t年，压缩后仍能保持较高的精度。稀疏VD [45]在全连接层和卷积层中都导致了极其稀疏的解决方案。贝叶斯压缩[42]被提议通过组稀疏性约束来修剪整个神经元或滤波器。结构化贝叶斯Pruning [46]扩展了稀疏VD，它在组稀疏约束下修剪整个神经元或过滤器。软权重共享（SWS）[55]是一种量化和修剪网络的贝叶斯方法，它涉及高斯混合模型，并自动折叠不必要的混合成分。 SWS从数据中学习先验知识，而我们的方法显式地使用RL与原始网络合作，以实现更灵活的码本学习。大多数贝叶斯压缩方法在训练过程中不能显式地对低比特码本进行量化，这通常需要高比特精度。强化学习：近年来，强化学习（R-L）[43，44，15，56，51，2，57，9，48，33]在各种机器学习应用中取得了显著的成功。例如，Mnih等人 [43，44]提出了一种深度强化学习模型，直接从高维感官中学习控制Cao et al. [9]提出了一种具有深度强化学习的注意力感知人脸幻觉框架，以通过充分利用图像的全局相互依赖性来顺序地发现关注的补丁并执行面部部分增强。Kong等人[33]提出了一种协作式多智能体深度强化学习方法，用于联合定位对象，而不是单个智能体检测。Liang等人[40]提出了一种深度变分结构强化学习6948n=1D从贝叶斯的角度来看在变分推理中，证据下限（ELBO）LELBO= −（LE+LC）被最大化，以在数据和模型的短描述长度之间进行最佳权衡。根据最小描述长度（MDL）原则，最优的，如果它可以最小化模型复杂性的描述（LC）和模型与数据之间的失配（LE）的组合成本贝叶斯方法研究变分推理和MDL原理的等价性基于信息论的基本定理。假设我们有一个包含N对对象的数据集QD（xn，yn）N. 设p（D|w）=Ni=1 p（y i|x i，w）be a pa-图2.我们提出的EBC方法的框架，其中骨干CNN网络和Actor-Critic网络协作学习灵活的码本。在骨干网的每一层中，执行者网络获取状态值并输出一个动作，由评论者网络进行评估以更新码本。框架来检测具有有向语义动作图的视觉关系和属性。最近的工作搜索模型的并行学习大大提高了神经网络的性能。NAS [61]旨在搜索性能超过许多手工制作的体系结构的可转移网络块。N2 N [3]集成强化学习-在给定输入xi的情况下，预测输出y i的随机化模型以及参数w，我们通常对它有一些先验知识p（w）。在贝叶斯学习中，我们感兴趣的是后验p（w| D）=p（D|w）p（w）/p（D），这对于许多模型来说是难以处理的。利用变分推理来近似后验分布p（w|D）参数分布qφ（w）。变分参数φ是通过最小化Kullback-Leibler发散来优化的，其表示为DKL（q φ（w））||p（w|D））的情况。最小化这种KL发散可以通过最大化上述ELBO来近似执行，ELBO也称为L（φ）=LD（φ）− D KL（q φ（w）||（w））（1）ΣN频道选择。AMC [20]利用强化学习进行深度压缩策略，具有更高的压缩率。LD（φ）=n=1E qφ（w）[log p（y n|x n，w）]（2）在保持准确性的同时提高了分辨率，优于传统的基于规则的压缩策略。强化学习中的状态、动作、奖励和转换的概念也激励我们利用强化学习的思想进行贝叶斯压缩。与以往的工作相比，EBC优化了两个ac-精确度和低位精度，无需任何进一步的重新训练其中（1）中的变分下界及其梯度无法计算。一些现有的方法[45，42]使用重新参数化技巧来获得预期对数似然的无偏、可区分、基于小批量的Monte Carlo估计：步骤或额外的系统计算过载。3. 方法LSGVB（φ）=NMMm=1logp（ym|xm，f（φ，m））（3）在本节中，我们首先从贝叶斯的角度描述深度网络压缩框架。然后，我们提出了贝叶斯压缩方法的深度强化学习。我们通过强化学习将贝叶斯压缩问题映射到策略优化问题最后，我们引入actor-critic网络与原有网络协同工作，并对EBC方法进行了优化，使其能够灵活压缩。3.1. 贝叶斯压缩贝叶斯压缩旨在修剪深度网络，降低权重的位精度，同时保持高精度。贝叶斯方法[42，55，45，46]搜索最佳模型结构，并通过参数上的不确定后验确定每层所需的位精度。不像以前的作品使用重新参数化技巧[7]为了减少随机ELBO梯度估计器的方差，我们从强化学习的角度重新表述了这个棘手的问题。我们提供了贝叶斯压缩中的ELBO和强化学习中的预期回报之间的高我们专注于计算期望的梯度，以进一步减少无偏加强估计的方差。3.2. 基于深度再增强学习让我们重新考虑参数化模型p（D，w）=p（D|w）p（w）和估计的后验q（w|（三）从强化的角度。我们把w赋给码本值c i满足以下标准：（1）权重被分配给由代理k控制的量化值c k，卷积网络......行动者网络评论家网络6949在外层ΦtΦ输入输出θIttt最大的可能性。(2)输入和输出激活在由第i个代理估计的分布下高度相关具体来说，分配给零的权重可以被视为在EBC框架中被修剪。.q（w |D）P（w l∈ c i| D）p（w l|c i）（1−EDC（F l，F l）），如果i= 0在我们的增强贝叶斯压缩框架中，由于每个层在训练过程中具有灵活的代理数量，因此策略梯度会受到方差增加的我们提出了一个Actor-Critic算法，如图2所示，与原始网络合作，并通过批评者改善策略梯度，以减轻强化估计器的高方差演员-塞林p（w l|c i）EDC（F 1，F 1∫出来），否则，（四）Critic旨在通过一个critic来改进策略，结合了Q学习和策略梯度的优点。演员-批判性算法[32]学习策略函数πθ（一个集合其中p（w l|c i）1N（w l|c i，z2）dz，l是索引动作概率输出）和值函数V（s）|zi|iΦ层和C（F1，F1）是一个函数，用于测量相应的（对某个状态的评估）同时和相互作用-在外层每个单元的输入和输出之间的关系。在我们的组织里。对于给定的一对状态和动作，在步骤t采样实验中，我们简单地取C（F1，F1）=F1（F1）T.从π θ（a|s），算法将V拟合到采样的奖励in out in out对于时间步长T= 1，2，.，t，我们记为Dt和w t作为第t批数据和相应的模型权重-在培训过程中，分别。我们对权重w1，w2，.，在深度神经网络中，它是一个马尔可夫决策过程。参数化模型p（D，w）和估计后验q（w| D）可以很容易地分解为条件分布乘积。总和。然后，评估定义如下：Aπ=r（st，at）+γVπ（s′）−Vπ（st）（8）其中γ是折扣参数。目标J（θ）的梯度可表示为：ΣθJ（θ）=|st）Aπ（st，at）（9）不p（D，w）=p（ D）YTt=2p（w t|w t−1，Dt）p（w1|D）（5）请注意，当我们在没有特定声明的情况下提到“网络”时执行器网络根据分配的权重确定分布类似地，我们考虑近似的后验复发率-具体如下：YT以及每层的输入和输出特征图之间的相关性。执行器网络协作以估计权重的最佳量化值同时，低方差值被强制确保q φ（w| D）= q φ（w1| D）t=2qφ（w t|w t−1，Dt）（6）网络权重紧密地分布在量化值周围。因此，在EBC训练结束后，可以直接用量化值代替权重qφ（w t|w t−1，Dt）<$P（w l，t∈ci|Dt，w t−1）p（w l，t|c i）（1−EDC（F l，Fl ））的情况下，如果i= 0UE没有显著的准确度下降，然后在量化之后摆脱大量的重新训练步骤。我们将演员网络表示为π，其参数为-不进不出（7）θp（w l，t|c i）EDC（F1，F1），否则，我们将每个码本c i公式化为代理，其中c i表示由该层中的第i个代理获得的码本值。我们将c0固定为零，以便涉及稍后讨论的修剪准则。对于第i个智能体，我们还公式化了一个掩码函数mi来对权重和激活进行分组在每一层。具体地，我们将值设置为1，其中P（wl∈ c i）的相应值|D）是最大值，我们得到一个与P（wl∈c i）大小相同的掩码m i| D）。在RL的每一步中，代理观察en的状态。执行一个动作并获得奖励，其目的是最大化预期的奖励总和因此，在EBC训练之后，该方法强制低方差的大多数权重非常紧密地分布在量化目标值周围，并且因此可以被相应的以θ表示。状态函数将原始网络w、掩码函数m和相关函数C的权重编码为具有较低维度的统计向量它将权重wt和在步骤t被mi掩蔽的特征Ft作为输入，其表示为：st=χ（wt，Ft）（10）在我们的实验中，我们将状态函数定义为miwt和miC（（Ft）in，（Ft）out）的平均值和标准差，以及当前小批量的平均分类损失。然后，主体vi的行动者网络产生一个连续的动作：π i（s t）=[c i，z i，lr i]，i = 0，2，.，其中，c.6950不i和z i是码本量化值，t t响应值而不显著损失准确性。方差LRi是重要性参数。值得注意的是，6951不不zπ1不2由于分配给c0的权重被修剪，所以通过屏蔽它来始终保持c0除了自适应的码本值，我们的EBC框架允许灵活的码本数量为了实现这个目标，我们定义了两个独立的操作{删除节点，添加node}，在每次训练结束时，纪在第l层中使用αl上的阈值作为准则er相当于删除分配权重比率低的agent：算法1：EBC输入：训练步数T;训练集X;状态函数χ;折扣因子γ;输出：模型权重w，行动者网络的策略参数θ和批评者网络的价值参数Φ。初始化w、θ、Φ//第i对于t= 1到T，做||m (i)||1 ≤α（十二）采样一批数据xp∈X对状态向量进行编码：st=χ（wt，Fp）nl−1nll更准确地说，（12）将权重的稀疏性指定为-I t// actor network输出一个action更新码本值：ct=πθ（st）我我签给一个代理人。此外，对于第l层，我们使用阈值，βl作为将一个具有大的代理分成两个的标准：max（i）（i） ≥βl（13）我通过反向传播更新模型参数w// update critic network计算rewardrt using（14）计算（15）并使用（16）更新Φ// update actor network在我们的实验中，和β保持相同的值-对一批数据xq∈X和q/=p进行采样Ql l对状态向量进行编码：st+1=x（wt，Ft）UE分别跨层。然后我们重新初始化电话+1我电话+1码本值ci为ci±zi准确地说，（13）强制将分配给代理的权重的方差限制在阈值以下。其中zi表示方差。在我们的E-计算aj=πθ（sj ）使用（17）更新θ端使用（12）和（13）BC框架，国家-行动对的长期回报与负精度的累积递减量有关cydrop（−（acct−acct+1）=acc）和KL发散近似我们将步骤中的即时奖励定义为：我们更新网络Φ的参数如下：tp（w t|w t−1，Dt−1）Φ= Φ−µ直径（Φ）（十六）10 -12-2016（2016-05- 05 01：01：00）我q（wt|Wt−1，D）+Brachacc（14）Φ∂Φ累计值Rt′ΣTt=t′ γt−t′r+我们更新参数θ以输出具有最大Q值的动作，其公式为：γ T− t′ log p（D|w）。评论家网络使用函数QΦ由Φ参数化以近似Q值。<$QΦ（st+1，at+1）<$πθ（st+1）UE功能。对于每个代理，评论家网络只在最后一层输出一个值来评估动作。θ=θ−µθa∂θ|a=πθ（s）（17）回想演员网络的第三输出lri，该参数实际上是表示每个层以及每个峰值的重要性的学习乘数。这是由量化误差对精度的影响在各层和各层内的峰值之间变化通过利用（14）中的学习乘法器，我们提出的EBC可以被优化用于将网络的所有层一起量化以获得灵活的最佳对于深度神经网络，这是可行的，因为逐层量化位精确优化需要相对于层数的指数时间复杂度。为了训练Actor-Critic网络，我们首先通过最小化时间差（TD）学习误差来将关于评论网络Φ的优化问题公式化为：minL（Φ）=Es，a（QΦ（st，at）−rt−γQΦ（st+1，at+1）2Φ在每个epoch的EBC训练期间，我们根据Actor-Critic网络更新码本值和重要性参数，同时保持每个码本的长度在完成一个epoch的训练之后，通过添加或删除每层中的代理来更新码本长度算法1总结了我们的EBC的学习过程。4. 实验我们在三个不同的数据集上进行了实验，包括MNIST [36]，CIFAR-10 [34]和ImageNet [12]，以证明我们方法的有效性。对于MNIST，我们将我们的EBC应用于LeNet [37]，并将我们的EBC获得的结果与最新的最先进的网络进行(15)压缩方法对于CIFAR-10，我们应用了EBC不=6952不[18] [19]S.对于ImageNet，我们将EBC应用于ResNet-18 [19]并报告了结果。4.1. 实现细节我们以迭代的方式训练EBC，其中原始网络和演员-评论家网络协同训练。Actor-Critic算法是在小批量上运行的，在我们的实验中，每一步都是一个小批量。我们将状态函数χ定义为平均值和标准值，miwt和miC（（Ft）in，（Ft）out）的偏差，以及当前小批量上的平均分类损失其将输入编码为具有5个元素的状态向量。（12）和（13）中的阈值α和β分别设置为1 e-3和0.3。我们实验中的演员网络是一个双层长短期记忆（LSTM）网络，每层有20个单元。我们将评论家网络指定为一个简单的神经网络，具有一个隐藏层和10个隐藏单元。我们使用Adam优化器[30]，学习率为0.001，折扣为γ（设置为0.95）来训练Actor-Critic网络。我们使用Pytorch库在Python中实现了我们的方法，并在具有11GB VRAM的GeForce GTX 1080 Ti GPU上进行了所有实验。在训练过程中，EBC摆脱了现有贝叶斯压缩方法使用的KL发散项的预热[54]策略，因为演员网络输出lri自动确定重要性参数，这有助于避免不良局部最优。在网络训练阶段结束时，我们通过Actor-Critic网络为每一层获得不同长度的码本我们采用了一个量化步骤，通过分配权重到他们的近t码书值，然后删除演员-评论家网络。在完成EBC的训练过程后，我们直接使用压缩网络进行推理，而不需要Actor-Critic网络。4.2. MNIST上的结果MNIST [36]是一个手写数字数据库，广泛用于实验评估机器学习方法。我们通过减去训练集的平均值并除以标准差来进行图像预处理。遵循与[42]相同的设置，我们在两个模型上演示了我们的方法：LeNet-300-100 [37]和LeNet-5。LeNet-300-100是一个具有三个完全连接层的前馈神经网络。LeNet-5是一个传统的CNN模型，由4个可学习层组成，包括2个卷积层和2个全连接层。对于LeNet-300-100和LeNet- 5，我们使用标准SGD方法训练全精度模型20个epoch，以获得原始的top-1测试误差1。6%和0。9%。所提出的EBC方法既可以应用于精细，调整预先训练的网络并训练网络表1.使用LeNet-300-100的数据集结果，显示了前1个测试误差、未修剪权重的百分比和每个参数的Original是未压缩的预训练模型。DC对应于深度压缩方法[17]，DNS对应于[16]的方法，SWS对应于[55]的软权重共享，稀疏VD对应于[45]的变分丢弃方法，BC指[42]中贝叶斯压缩中的BC-GHS版本，BNN指[25]中的二值化神经网络方法检测误差（%）|w=0|（%）比特|W|原始1.610032DC1.68.08-9DNS2.01.8−SWS1.94.33稀疏VD1.82.28-14BC1.80.610-13BNN2.4−1EBC1.81.62表2.使用LeNet-5的数据集结果，显示了前1个测试误差，未修剪权重的百分比和每个参数的位精度。Original是未压缩的预训练模型。DC对应于深度压缩方法[17]，DNS对应于[16]的方法，SWS对应于[55]的软权重共享，稀疏VD对应于[45]的变分丢弃方法，BC指[42]中贝叶斯压缩中的BC-GHS版本，BNN指[25]中的二值化神经网络方法检测误差（%）|w=0|（%）比特|w|原始0.910032DC0.78.010-13DNS0.90.9−SWS1.033稀疏VD1.00.78-13BC1.00.610-14BNN1.2−1EBC1.00.72从无到有在MNIST上，我们使用EBC从头开始训练LeNet-300-100和LeNet-5，其中所有权重都是随机初始化的。批量大小为128，总epoch为200。图3显示了在前100个epoch期间原始LeNet-5和压缩LeNet-5我们在这里将原始模型表示为由我们的EBC训练的模型，而没有量化到码本。我们发现，在最初的几个时期，压缩模型的精度下降了很多量化后的原始模型。随着时代的增加，原始模型与Actor- Critic Network合作收敛，并强制执行每层的权重，695310.50试验损失（原始模型）测试损耗（压缩模型）0 20 40 60 80100时代1009080706050测试精度（原始模型）试验精度（压缩模型）0 20 40 60 80 100表3.使用VGG-16在数据集CIFAR-10上的结果，显示了前1个测试误差、未修剪权重的百分比和每个参数的位精度。Original是未压缩的预训练模型。BC是指[42]中贝叶斯压缩中的BC-GNJ版本，BNN是指[25]中的二值化神经网络方法检验误差（%）|w/=0|（%）比特|W|原订8.4 100 32BC 8.6 6.7 5-11(a) 试验损失(b) 试验精度BNN 10.2 − 1图3.O型和O型之间的测试损失和准确度比较原始LeNet-5和MNIST数据集上前100个epoch期间的压缩LeNet-5。EBC 8.8 8.0 3-4表4.数据集CIFAR-10使用和ResNet-18的结果21.510.510090807060显示了前1个测试误差、未修剪权重的百分比Original是未压缩的预训练模型。BC是指[42]中贝叶斯压缩中的BC-GNJ版本，BNN是指[25]|w=0|00 50 100 150 200时代500 50 100 150 200时代方法检测误差（%）|W|（%）比特(a)试验损失比较（b）试验准确度图4.原始VGG-16和压缩VGG-16在CIFAR-10数据集上的前200个历元期间的测试损失和准确度比较。紧密地分布在由演员网络给出的量化值在完成EBC训练后，我们得到了一个可以直接量化的网络（量化为0意味着修剪），而不会有明显的准确性下降，量化模型可以直接应用于分类任务，而不需要微调。表1和表2显示了与最先进的压缩方法相比的结果。我们将表中的原始模型表示为表中的预训练LeNet模型我们的方法实现了一个非常低的位精度与一个小的精度损失（0。2%和0。1%）。LeNet-300-100和LeNet-5每层的代理确定的码本长度在EBC收敛后对于所有层都是3（2bit）我们还将我们的EBC与BNN进行了比较，BNN在LeNet-300-100和Theano训练的LeNet-5上将权重极度量化为结果表明，由于量化值固定，BNN的精度下降幅度比我们的要大。4.3. CIFAR-10结果我们在CIFAR-10数据集[34]上使用VGG-16 [52]和ResNet-18[19]证明了VGG-16有13个卷积层和更多的参数，ResNet- 18是ResNet的18层版本，它有批量标准化层和快捷连接。我们使用标准SGD方法训练全精度模型200个e-pochs，以获得原始的top-1测试误差7。1%和6。百分之八为了帮助EBC训练更快地收敛，我们对两个模型的100个时代使用亚当和获得顶部-15.biggest 6%和14。CIFAR-10分别为7%。图4显示了原始VGG-16和压缩VGG-16之间的测试损失和准确性的比较，即使在最初的几个时期也保持一致，因为使用预训练模型加速了收敛。表3和表4显示了与贝叶斯压缩相比的结果我们的方法实现了较低的比特精度比贝叶斯压缩与一个小的准确性损失（0。VGG-16和1. 4%用于ResNet-18）。VGG-16每层代理确定的码本长度范围为5 - 11（3-4位），而ResNet-18的范围为7-13（3-4位）。4.4. ImageNet上的结果ImageNet是一个涵盖1,000个视觉识别类别的大型数据集。它在训练集中包含超过120万张图像，在验证集中包含50K张图像。对于该数据集，我们报告了Top-1和Top-5验证准确度。在这个数据集上，我们将我们的EBC与最近提出的低比特方法进行了比较：BWN[49]、TWN [38]、TTQ [60]证明了灵活码本的有效性。我们不能直接比较相关的贝叶斯方法，因为作者没有在图像上报告结果试验损失（原始模型）测试损耗（压缩模型）测试精度（原始模型）试验精度（压缩模型）损耗值损耗值测试精度测试精度原始6.810032BC7.54.45-17BNN10.8−1SWS8.37.33EBC7.23.53-46954公司简介EBC模型conv5原始模型conv7conv3conv5conv7-100-50050100-2000-100010002000- 400-2000200400(a) 预训练模型的分布。表5.使用ResNet-18在ImageNet数据集上的结果，显示了top-1和top-5验证错误，未修剪权重的百分比和每个参数的位精度。Original是未压缩的预训练模型。方法确认误差（前1/前5）（%）位原订案文31.6/11.3BWN 39.2/17.0 1TWN 34.5/14.0 2TTQ 34.1/13.8SWS（I）34.2/13.5EBC 31.8/11.4-5 0 5-1-0.5 0 0.5 1电话：+86-10- 5555555传真： +86-10 -(b) EBC训练模型在epoch 100时的分布。-2-1 0 1 2-1-0.5 0 0.5 14.5. 可视化图5显示了第200个epoch时预训练VGG-16、第100个epoch时EBC训练模型和第200个epoch时EBC训练模型的conv 3层、conv 5层和conv 7层中权重分布的可视化。我们看到每个峰的权重分布更紧密×10- 5电话：+86-10- 5555555传真：+86-10-5555555随着EBC训练时期的增加。(c)EBC训练模型在epoch 200的分布。图5. CIFAR-10上预训练的VGG-16在第200个epoch（从上到下）、EBC训练的模型在第100个epoch和EBC训练的模型在第200个epoch的conv 3、conv 5和conv 7层（从左到右）中的权重分布的可视化。图6.原始图像的可视化，分别显示EBC模型和原始模型（VGG-16）的conv 3，conv 5和conv 7层的特征图所呈现的特征图在通道上被平均。Genet.我们使用标准SGD方法训练了100个epoch的全精度模型，以获得原始的top- 1和top-5验证误差31.6%和11.3%。结果总结于表5中。我们看到，我们的EBC训练模型具有灵活的位精度，在ImageNet上的性能优于我们还通过计算卷积层产生的平均特征图来可视化EBC模型的功能，因为CNN的空间特征图显示了网络的焦点，从而影响了给定图像的最终分类结果。结果示于图6中。从图中可以看出，压缩层的特征图非常接近原始层的特征图，即使模型权重大幅降低5. 结论在本文中，我们提出了一种增强的强化学习方法，通过强化学习灵活地压缩深度网络。与原始网络合作的Actor-Critic网络被用来学习每层中的灵活码本，以获得最佳的网络量化。使用我们的EBC方法，模型在三个数据集上的实验结果证明了该方法的有效性。确认这项工作得到了中国国家重点研究发展计划（2016YFB1001001）的部分支持，国家自然科学基金（61672306、U1713214、61572271）的部分支持，深圳市基础研究基金（课题安排）（JCYJ201704121706）的部分支持02564.6955引用[1] A.Almahairi，N.巴拉斯T.库伊曼斯，Y. 小郑：H. Larochelle，和A. C.考维尔动态容量网络。在ICML，第2549-2558页[2] H. B. Ammar、E. Eaton，P. Ruvolo，and M. Taylor.策略梯度方法的在线多任务学习。在ICML，第1206-1214页[3] A.阿肖克河Rhinehart，F. Beainy和K. M.喜谷N2N学习：通过策略梯度强化学习进行网络到网络压缩。ICLR，abs/1709.06030，2017.[4] F. Bastien，P. Lamblin，R. Pascanu，J. Bergstra，I.好家伙，A. Bergeron，N.布沙尔D.沃德-法利，Y.本吉奥。 Theano：新功能和速度改进。arXiv预印本arXiv：1211.5590，2012年。[5] E. Bengio，P. Bacon，J. Pineau和D.准备用于更快模型的神经网络条件计算。CoRR，abs/1511.06297，2015。[6] Y. Bengio，N. Le'onard和A. C. 考维尔通过随机神经元估计或CoRR，abs/1308.3432，2013。[7] A.布卢姆，N. Haghtalab和A. D. Procaccia 变分丢弃和局部重新参数化技巧。在NIPS，第2575-2583页[8] T. Bolukbasi，J. Wang，O. Dekel和V. Saligrama.用于快速测试时间预测的自适应神经网络。 CoRR ， ab-s/1702.07811，2017年。[9] Q. 曹湖，加-地Lin，Y.Shi，X.Liang和G.李通过深度强化学习实现注意感知的人脸幻觉在CVPR中，第690-698页[10] F.胆Xception：使用深度可分离卷积的深度学习。在CVPR中，第1800-1807页[11] M. Courbariaux，Y. Bengio和J.大卫Binaryconnect：在传播过程中使用二进制权重训练深度神经网络。在NIPS，第3123-3131页[12] J. Deng，W.东河，巴西-地索赫尔湖Li，K. Li和F.李Ima-genet：一个大规模的分层图像数据库。CVPR，第248-255页[13] Y.贡湖，澳-地Liu，M. Yang和L. D.布尔德夫使用矢量量化压缩深度卷积网络。CoRR，abs/1412.6115，2014年。[14] A. Graves和N.贾特利用递归神经网络进行端到端语音在ICML，第1764- 1772页[15] S. Gu，T.利利克拉普岛Sutskever和S.莱文基于模型加速的持续深度q学习。在ICML，第2829-2838页[16] Y. Guo，中国古猿A.Yao和Y.尘高效动态网络手术在NIPS，第1379-1387页[17] S.汉，H. Mao和W. J·达利深度压缩：利用修剪、训练量化和哈夫曼编码压缩深度神经网络。 CoRR ，abs/1510.00149，2015年。[18] S. Han，J. Pool，J. Tran和W. J·达利学习有效神经网络的权重和连接。CoR-R，abs/1506.02626，2015。[19] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年[20] Y. He，J. Lin，Z. Liu，H.王湖，加-地Li和S.韩AMC：移动设备上模型压缩和加速的自动化。参见ECCV，第815-832页[21] S. Hochreiter和J.施密特胡博长短期记忆。神经计算，9（8）：1735[22] A. G. Howard，M.Zhu，B.Chen，中国粘蝇D.Kalenichenko，W.小王，T. Weyand，M. Andreetto和H. Adam. Mobilenets：用于移动视觉应用的高效卷积神经网络。 CoRR ，abs/1704.04861，2017。[23] G. Huang，S.柳湖，加-地van der Maaten和K. Q.温伯格。冷凝网：使用学习的群卷积的高效密集网。CoRR，abs/1711.09224，2017。[24] G. Huang，Z.柳湖，加-地van der Maaten和K.Q. 温伯格密集连接的卷积网络。在CVPR中，第2261-2269页[25] I.胡巴拉M. Courbariaux，D.苏德里河El-Yaniv，以及Y. 本吉奥。二值化神经网络在NIPS，第4107[26] I.胡巴拉M. Courbariaux，D.苏德里河El-Yaniv，以及Y.本吉奥。量化神经网络：用低精度权重和激活训练神经网络。CoRR，abs/1609.07061，2016。[27] F. N. Iandola，M. W.莫斯基维茨K.阿什拉夫S.汉，W。J.达利和K.库茨Squeezenet：Alexnet级别的精度，参数减少50倍，模型大小为1mb。CoRR，abs/1602.07360，2016。[28] B.雅各布，S。克利吉斯湾Chen，M. Zhu，M. Tang，A.G. Howard，H. Adam和D.卡列尼琴科神经网络的量化和训练，有效的整数算术推理。 CoRR ，abs/1712.05877，2017。[29] F. Juefei-Xu，V. N. Boddeti和M. Savvides。局部二进制卷积神经网络。在CVPR中，第4284-4293页，2017年。[30] D

下载后可阅读完整内容，剩余1页未读，立即下载