基于图神经网络的自动模型压缩

126 浏览量更新于2023-10-13 收藏 845KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6362用于神经网络剪枝的自动图编解码器俞思兴爱荷华州立大学yusx@iastate.edu达姆施塔特工业大学arya. tu-darmstadt.de爱荷华州立大学jannesari@iastate.edu摘要模型压缩旨在将深度神经网络（DNN）部署在具有有限计算和存储资源的移动设备上。然而，大多数现有的模型压缩方法依赖于手动定义的规则，这需要领域的专业知识。DNN本质上是计算图，其包含丰富的结构信息。在本文中，我们的目标是找到一个合适的压缩策略从DNNs的结构信息。提出了一种结合图神经网络和强化学习的自动图编码解码模型压缩方法。我们将目标DNN建模为图，并使用GNN自动学习DNN我们将我们的方法与基于规则的DNN嵌入模型压缩方法进行了比较，以显示我们的方法的有效性。结果表明，我们基于学习的DNN嵌入以更少的搜索步骤实现了更好的性能和更高的压缩比我们在过度参数化和移动友好的DNN上评估了我们的方法在过度参数化的DNN上，例如ResNet-56，我们的方法比手工制作和基于学习的方法的性能好4。36%和2。准确率分别提高56%。此外，在MobileNet-v2上，我们实现了比最先进的方法更高的压缩比，仅为0。93%的准确性损失。1. 介绍随着对在边缘设备（例如，移动电话、机器人、自动驾驶汽车等），其通常具有有限的存储和计算能力，因此模型压缩技术对于高效的DNN部署变得至关重要。网络修剪[10，11，32]，因子分解[46，38]，知识分解倾斜[36，34，16]和参数量化[10，49，19]是最知名的模型压缩技术。然而，这些方法严重依赖于由专家定义的手工制作的规则，需要广泛的时间量，并且可能不一定导致完全压缩的模型。最近，自动模型压缩[14，49，27]获得了发展势头。例如，Wang等人[49]提出了一种贝叶斯自动模型压缩方法，该方法以一次性方式训练，以找到合理的量化策略。He et al. [14]提出了一种基于强化学习（RL）的自动模型压缩方法。然而，当表示DNN时，它们依赖于手动定义的DNN嵌入向量（例如，使用独热向量来表征DNNDNN本质上表示为深度学习框架中的计算图，例如TensorFlow [1]和PyTorch [35]。组成一个计算图许多原语操作（例如，加、减、乘），其中边是运算而节点是中间计算结果（即，DNN中的特征图）。这种丰富的结构表示可以有效地描绘DNN隐藏层的状态。此外，计算图通常包含重复的结构模式，这是由于多次使用同一组原语操作。因此，我们的目标是通过提取计算图中容易获得的结构信息来识别DNN隐藏层的冗余和修剪在本文中，我们提出了一种基于图的自动图编码器-解码器模型压缩（AGMC）方法，该方法结合了图卷积网络（GCN）[21，53，52]和强化学习（RL）[25，45，43]来学习DNN的压缩策略，而无需专家知识。图编码器-解码器旨在学习DNN的层嵌入。基于GCN的图编码器从其结构信息学习DNN表示，并且解码器将表示解码为隐藏层嵌入。RL代理将隐层嵌入作为环境状态，寻找每个隐层的剪枝率，并生成相应的压缩候选模型。最后，我们评估候选压缩模型的性能，并提供一个奖励值作为反馈给RL代理。通过利用DNN6363∈∈为了提供建议压缩策略的真实信息，我们的方法成功地应用了网络修剪，并在各种DNN上取得了出色的结果，例如ResNet [12]，VGG-16 [44]，MobileNet [17，39]和ShuffleNet [54，29]。从本质上讲，本文做出了以下贡献：• 提出了一种基于计算图结构的自动层嵌入算法• 提出了一种基于GCN和RL的信道自动剪枝方法.• 各种DNN模型的最新模型修剪结果2. 背景和相关工作随着使用人工智能使边缘设备变得更智能的需求不断增加，高效的深度神经网络设计比以往任何时候都更加重要因此，已经引入了各种有效的网络来降低这种网络的计算MobileNet- v1/v2 [17，39]，ShuffleNet-v1/v2 [54，29]，DiCENet [31]和CondenseNet [18]是引入自定义卷积块以提高整体效率的显着努力。此外，神经架构搜索（NAS）[55，6，4，30]方法还尝试通过在给定目标硬件平台的约束的情况下搜索最优神经网络结构来生成有效的DNN。在本文的背景下，我们讨论了以前的研究与模型压缩，特别是网络修剪和GCN在模型压缩中的应用在下文中，我们将简要概述这些方法。模型压缩。大量先前的工作集中在模型压缩技术上，例如知识蒸馏[36，34，16]，参数量化[10，49，19]，因式分解[46，38]和网络修剪[10，11，32]。由于DNN通常是过度参数化的，因此网络修剪是最广泛使用的模型压缩技术之一，其已经取得了出色的结果并且可以显着缩小模型大小[2]。它通过两种不同的方法消除了每个DNN层中的一部分参数和计算：（1）细粒度剪枝和（2）结构化剪枝。细粒度修剪[10]针对权重张量中的单个不重要元素。另一方面，结构化修剪[24]试图修剪整个权重张量块，例如通道，行，列和块。虽然细粒度修剪可以以最小的精度损失实现高压缩率，但它们导致不规则的稀疏模式，需要专门的硬件加速器[20，9]来实现任何加速。可替代地，使用结构化修剪导致定期修剪的权重，并且可以在商品上使用硬件.在本文中，我们特别关注结构化修剪。经验修剪策略是均匀的，浅的和深的[15，24]。统一策略统一地设置压缩比。浅策略和深策略分别积极地修剪浅层和深层。这种手工制作的经验策略严重依赖于手动定义的规则，并且可能不会导致最佳压缩策略。其他专注于通道修剪的手工方法是SPP[48]，FP[24]和RNP [26]。SPP通过分析每个层来修剪DNN，并测量重构误差以确定修剪比率。FP评估单层修剪的性能并估计每层的敏感性具有较低灵敏度的层被更积极地修剪RNP引入了一种基于RL的方法，并将所有卷积信道分为四组进行训练。传统的网络修剪方法主要依赖于手工和基于规则的策略，需要人工努力和领域专业知识。此外，这样的方法可能不一定提供完全压缩的模型。最近，已经提出了基于RL的自动网络修剪方法[51，14，27]。Liu等人。[27]提出了一种基于ADMM的[3]结构化权重修剪方法和一种创新的额外纯化步骤，用于进一步降低权重He等人[14]提出了用于网络修剪的AutoML，它利用RL来预测压缩策略，但他们仍然使用手工制作的规则（11个固定特征）来表示DNN，并忽略计算图中丰富的结构信息。图神经网络。GNN及其变体[22，40]成功地应用于从图中学习拓扑信息。例如，它们已经成功地应用于节点分类、链接预测和图分类。此外，基于图的NAS方法[8，42，5]将DNN建模为计算图，并从基于图的搜索空间中找到最佳DNN结构。这些方法启发我们使用基于GCN的图编码器来学习DNN嵌入。3. 方法为了修剪给定的DNN，我们首先将DNN建模为计算图，并引入了基于GCN的图编码器来学习DNN然后，解码器将 g_in 解码为层嵌入S ， i=一、二、……T，其中T是隐藏层的数量。由于我们的目标是通过预测每个隐藏层的修剪比率来压缩DNN，因此RL代理将层状态S作为环境状态来搜索隐藏层的修剪策略ai A，i = 1，2，…T.然后，修剪的DNN图1描绘了我们的方法的概述。在下文中，我们将解释简化计算的细节6364∈OOO关于我们N∈图1.自动图编解码器模型压缩（AGMC）的工作流程图，图编码器-解码器，和RL代理在我们的方法。3.1. DNN的简化图形表示DNN的计算图表示由许多原语操作（例如，加、减、乘），其中边是运算而节点是中间结果（即，特征图）。因此，一个典型的计算图可能涉及数十亿个原始操作[12]，这使得直接使用该图进行分析是不现实的。为了简化图形表示，一个基于LSTM [47]的解码器，将DNN的表示解码3.2.1基于GCN的图形编码器GCN通过聚合来自邻居节点的节点特征来嵌入图消息传递函数可以被公式化如下：hl+1=Σ1Wl hl，（2）我们选择常用的机器学习操作作为原始操作O={n×nconv，Relu，BatchNorm，其中licijj∈Nith th(Max/平均）池化、填充、拆分}。如此简单-hi是GCN的l con中i。简化可以显著地降低图的复杂性，并且还保留重要的结构信息。形式上，我们将给定的DNN建模为单源单宿计算图G=（V，E，），其中V是节点集，E是边集，并且是原始操作集。具有边类型的每个有向边与中的基元操作相关联。图2（a）示出了使用对应于两个边类型的两个原语操作=11conv、33conv的简化计算图背后的思想。计算图G表示由基元构成的复合运算在O中的操作：y=assemble （ conv3 （ conv1 （ x ））， conv3（conv1（x）（1）图2（b）显示了为ResNet块构建计算图的另一个示例，其中包含具有四个输出通道的1×1卷积层和其中，c i是常数系数，Ni是节点i邻居，W 1是GNN的可学习权重矩阵。虽然标准GCN及其变体旨在学习图中的节点嵌入，但我们的目标是学习整个图表示。因此，我们需要从节点嵌入中获取图形表示。实现这一点的最常用机制之一是使用图平均池（等式4），其对节点嵌入进行平均。图形编码器被公式化为等式3。对计算图进行嵌入，得到节点嵌入矩阵H。然后，图平均池从节点嵌入读取图表示gH=GCN编码器（G）∈RN×d，（3）g=1Σh，（4）3×3卷积层，具有三个输出通道。Al-Nii=1虽然不同的层具有不同的计算图，但是它们通常共享相似的结构。3.2. 自动图形编解码器我们引入了一个基于GCN的图编码器-解码器来自动学习目标DNN的隐藏层的嵌入。基于GCN的图编码器嵌入图并学习DNN我们还推出其中H = h i，i = l，2，… N是节点嵌入矩阵，h i是第i个节点的嵌入，N是图中节点的总数，d是嵌入大小。3.2.2解码器解码器旨在学习RL代理的DNN隐藏层由于RL环境中的状态向量由先前的状态和当前的状态向量确定。6365∈∈∈图2.简化计算图。(a)一个简化的计算图的例子。(b)构建ResNet块的简化计算图[12]动作（修剪比率），解码器将前一s1=LSTM解码器（g），（5）st=LSTMdecoder（st−1，at−1）（6）对于第t个隐藏层，我们使用前一个隐藏层的特征st−1和压缩策略at−1（RL代理选择的动作）来计算环境。州。3.3. 使用强化学习的我们利用强化学习来有效地找到最佳的剪枝率。在下文中，我们描述了我们的强化学习设置的细节。环境状态。与使用固定手工层嵌入作为环境状态的现有基于RL的模型压缩方法相比，我们使用由图编码器-解码器生成的DNN层嵌入SRT×1×d作为环境状态。行动空间。由RL代理做出的动作是连续空间内的修剪比率。具体地，RL代理将层嵌入SRT×d作为环境状态，并预测相应的剪枝率ai∈ A，i = 1，2，…， T，其中ai∈ [0，1）。奖励功能。我们根据RL代理制定的剪枝比率对DNN进行剪枝，并使用压缩模型的性能回报函数在等式7中定义。Rerr=−误差，（7）其中Error是验证集上压缩DNN深度确定性策略梯度（DDPG）。各种RL策略旨在在连续的动作空间内搜索，例如最近策略优化（PPO）[41]和深度确定性策略梯度（DDPG）[25]。与AMC [14]方法类似，我们选择DDPG作为RL策略，以进行公平的比较并排除RL策略对实验结果的影响。通过这种方式，我们可以证明我们基于学习的嵌入与手工规则相比的优越性DDPG代理的搜索过程可以用公式表示如下：g∈R1×d=GraphEncoder（G），（8）S∈RT×1×d=解码器（g），（9）A∈RT×1×1=MLP（S），（10）其中G是计算图，g是图表示，S是环境状态，并且MLP是多层感知器神经网络。图编码器嵌入图G并学习DNN表示g，解码器将g解码为隐藏层嵌入s i S，i=1，2，..，T.最后，RL代理以S为环境状态，使用MLP来投影嵌入为隐层剪枝比ai∈ A，i = 1，2，.， T.3.3.1动作重缩放我们使用的奖励函数为模型大小和FLOPs减少提供了很小或没有奖励。没有任何约束（例如，FLOPs或#parameters），RL代理倾向于搜索微小的压缩比。因此，为了获得期望的模型大小减小，我们应用算法1来调整动作空间α。从本质上讲，算法1根据原始比例计算我们仍然需要减少的大小。第1-2行计算总模型大小（例如，FLOPs和#parameters）W所有并且减小的尺寸W减小。如果减小的大小小于期望的模型大小减小d，则算法将重新缩放修剪比率以补偿差异6366−Σ----−Σ×× × × ××2W减少=tWtatd W减少。第4-7行涉及重新缩放过程，并且第5-7行中的for循环根据与期望的模型大小减小的差异来调整每个层的修剪比率。最后，在第7行中，我们用上限amax截断修剪比率。算法一：为所需的模型尺寸缩减输入：动作a=a0，…a T、动作的上限a max、模型大小（#FLOPs/#Parameters等）每个隐藏层W=W0，.，W T，以及所需的模型尺寸减小d输出：重新缩放后的动作a′1Wall=tWΣtRL设置。演员网络μ和评论家网络Q有两个隐藏层，每个层有300个单元。µ我们使用τ= 0。01，为软目标更新。在前25集中，我们的代理人使用随机操作进行搜索然后，它继续搜索具有指数衰减噪声的300集图形编码器是具有50个单元的隐藏特征大小和11个单元的DNN数据集。我们使用CIFAR- 10进行了实验[23]，CIFAR-100 [23日] 和 ILSVRC-2012（图像-geNet）[37]数据集。为了加速CIFAR-10/100上的搜索过程，我们将训练集分为15K和5K图像。我们使用15K训练集来快速微调候选模型和剩余的5K图像作为vali-3如果W减少 d，则4d静止=d W减少5，其中i = 1，2，… 没做6ai+ =（drest*（ai/ tat））/Wi7a′i=min（amax，ai）8 返回a'4. 实验结果我们通过在几个卷积网络上执行FLOPs约束的结构化修剪来ResNet- 20/56 [12]和VGG-16 [44]）和移动友好的 DNN （例如， MobileNet-v1/v2 [17 ， 39] 和ShuffelNet-v1/v2 [54，29]）。为了显示我们方法的优越性，我们将我们的方法与不同类别的各种现有方法进行了比较，例如：• 统一的、浅的和深的经验政策[15，24]。• 手工通道缩减方法，如SPP[48]、FP [24]和RNP[26]。• 基于正则化的方法，如MorphNet [7]和SSL [50]。• 基于RL的AutoML方法，例如手动定义DNN层嵌入的自动模型压缩方法AMC [14]，以及不利用任何层嵌入的具有强化学习（RS）的随机搜索。• 其他修剪方法，如DSA [33]和重新思考[28]。最后，我们展示了在GPU平台上压缩模型的推理加速和dation集合来计算奖励函数。在ILSVRC- 2012数据集中，我们从训练集中分离出5K个图像作为验证集来计算奖励。ILSVRC-2012数据集的验证准确度对压缩非常敏感，因为在高压缩比的情况下，准确度在没有微调的情况下显著因此，RL代理无法获得有价值的奖励。作为一种补救措施，我们将ILSVRC-2012数据集的修剪分解为几个阶段，并为每个搜索事件添加一个微调时期。例如，为了获得与原始网络相比的49%FLOPs模型70%FLOPs 70%FLOPs= 49% FLOP）。4.1. DNN嵌入与现有方法[27，14]相比，层嵌入对于我们基于学习的自动网络修剪方法是必不可少的。在下文中，我们分析比较了使用我们的DNN图嵌入与现有方法的有效性。基于学习的VS手动定义的层嵌入。我们比较AGMC与AMC [14]，其中手动限定11特征与每层相关的嵌入向量st=（t，n，c，h，w，stride，k，FLOP s（t），rdered，rest，at−1），其中t是层id，内核的维度是nCKk，输入为cHW. FLOPs（t）是层t的FLOPs。Reduced是在先前层中减少的FLOP的总数，并且最后rest是在前面的层中剩余的FLOP的数量。我们认为，这样一个严格的层嵌入可能会错过重要的信息，如每个隐藏层中的参数的数量，这是只适用于一个给定的DNN。在AGMC中，图形编码器-解码器从DNN结构信息学习层状态。因此，它不6367密度（#非零重量/ #总重量）∈1.030二十五点八20十五点六100.450步长ncH（W）FLOPs减少了t 1把我们所有的0.2图3.单个AMC层嵌入、整体AMC和AGMC层嵌入的错误率比较。我们的方法实现了大约2倍的错误率。0.00 2 4 6 8 10 12 14 16 18隐藏层需要专业知识，适用于各种DNN。由于AMC已经定义了11个特征来表示卷积层，因此我们还将基于学习的嵌入大小设置为 11 （即，SRT×11）。我们评估了我们基于学习的嵌入和AMC手工嵌入在用CIFAR-10数据集预训练的ResNet-20上图3显示了50% FLOPs ResNet-20下AMC层嵌入的空间分解评估使用stride作为唯一的层嵌入，我们得到一个错误率 31%，因为很难区分不同的层。然而，将步幅与过滤器的数量n相结合将错误率降低到18%。因此，将所有特征结合起来会导致10。2%的误差幅度。另一方面，我们基于学习的层嵌入实现了5的错误率。38%，超过手动定义的层嵌入的两倍。基于学习的VS没有嵌入。我们比较AGMC与随机搜索（RS）没有层嵌入。我们将RS设置的所有隐藏层设置为固定的独热向量作为RL代理然后，我们利用DDPG强化学习代理来搜索ResNet-20/56的剪枝率。ResNet在其块之间具有剩余连接，这指示剩余连接块之间的相等通道大小。我们选择删除所有的残余连接，以避免共享修剪率之间的残余连接层和学习每个隐藏层如图4所示，与ResNet-20 上的RS 相比，AGMC 特别是，AGMC使我们能够找到更少的情节，更高的准确性，和更多的FLOPs减少的压缩模型此外，通过进一步的逐层分析，我们观察到AGMC倾向于均匀地修剪每一层，并且修剪比比RS更稳定。这样的观察与统一修剪策略[24]一致，其认为统一策略可以产生更好的修剪。图4.在ResNet-20上使用随机搜索比较不同层的AGMC剪枝稳定性随机搜索使用200集和300集，实现了71%和88%的压缩网络。41%的验证准确度。AGMC搜索50集和100集，验证准确率为93。8%，94。6%。因此，AGMC实现了更高的压缩比，具有相当少的发作。939291908988870 10 20 30 40 50 60 70 80 90 100降低FLOPs %图5.不同FLOPs约束下ResNet-56上随机搜索和AGMC的验证精度比较。此外，我们在不同的FLOPs约束下修剪了ResNet-56。ResNet-56包含56个卷积层，这比ResNet-20更深入，更具有挑战性。图5描绘了在不同修剪比率下的验证准确度。在所有情况下，AGMC优于RS，因为更多的FLOP被修剪。例如，在FLOPs减少10%的情况下，AGMC和RS的性能几乎相同。然而，90%的FLOPs减少，AGMC超过RS的大幅度。图形编码器的通用性。AGMC采用基于GCN的图编码器来嵌入DNN拓扑结构。由于我们在相同的规则下将DNN建模为图，因此在一个DNN上训练的图编码器也应该在其他类似的DNN上实现类似的良好性能因此，我们研究了AGMC是否已经学习了结构。我们的50集我们的100集随机搜索200集随机搜索300集AGMC随机搜索前1错误%Val. ACC.6368±ResNet-56的结构模式，同时执行通道修剪。我们将经过训练的AGMC转移到ResNet-20，这是一个类似的网络。在搜索ResNet-20的剪枝率时，我们只更新了解码器参数，而不需要图编码器和RL代理在ResNet-20上进行了100次搜索，FLOPs减少了50%，AGMC的结果从ResNet- 56转移，并获得了92的验证准确率。08%，这与在ResNet-20上训练的AGMC相似，具有94. 6%的验证准确度。4.2. 过参数化DNN剪枝我们在ResNet-20/32/44/56/110和VGG-16上评估了AGMC，这些通常被认为是过度参数化的DNN。这种深度和紧凑的网络涉及数十亿个参数，导致高存储器消耗。因此，将它们部署在具有有限计算和功率预算的边缘设备上具有挑战性。我们通过利用RL代理来搜索每个卷积层的修剪比率，对过参数化的DNN执行FLOP约束的修剪。然而，ResNet具有残余连接，残余连接层之间不同的剪枝率会导致特征图维度不匹配.为了克服这个问题，我们在剩余连接层之间共享修剪比率。此外，我们遵循与DSA [33]中相同的实验设置，因为它对修剪结果具有显著影响例如，微调时期的数量是关键因素之一，其中较大的值导致较高的测试准确度，但具有额外的时间和资源的成本表1报告了AGMC的结果，与现有的修剪方法相比，过参数化的网络。我们的方法优于经验政策[15，24]的大幅度与7。ResNet上的准确率提高42%- 20和4。36%在ResNet-56上。与基于RL的方法AMC [ 14 ]相比，AGMC实现了5. 02%和2. ResNet-20和ResNet-56的准确率提高了56%。此外，与基于规则的修剪方法相比，AGMC修剪的网络产生了更少的准确性损失[7，28，13，33]。此外，我们在ResNet-56上记录了300集的RL搜索时间。在RTX 8000 GPU上完成剪枝率的整个搜索需要（320 30）对于在ILSVRC-2012数据集上训练的VGG-16模型，我们将AGMC与手工制作的通道减少方法（即，[24]和RNP [26]）和AMC [14]。结果表明，AGMC比所有的基线方法都好很多。4.3. 移动友好的DNN剪枝我们进一步评估了AGMC对移动友好的DNN，如MobileNet-v1/v2 [17 ， 39] 和 ShuffleNet-v1/v2 [54 ，29]。与使用标准卷积层不同，移动友好的DNN设计了定制的卷积层。表1.在ResNet-20/ 32/ 44/ 56/ 110和VGG-16上FLOPs约束压缩的修剪策略比较[44]。ResNet家族在CIFAR-10上训练，VGG-16在ImageNet（ILSVRC-2012）数据集上训练模型方法FLOPs测试Acc.%∆ Acc.深百分之五十79.6-12.13浅百分之五十83.2-8.53ResNet20均匀百分之五十84-7.73SSL百分之五十二89.78-2.39MorphNet百分之四十八90.1-2.07重新思考百分之六十91.07-1.34SFP百分之五十八90.83-1.37DSA百分之五十91.38-0.79AMC百分之五十86.4-5.33AGMC百分之五十91.42-0.31均匀百分之五十87.5-5.89深百分之五十88.4-4.99ResNet56SSL百分之四十七91.22-1.90MorphNet百分之五十二91.55-1.57重新思考百分之五十93.07-0.73SFP百分之五十92.26-1.33AMC百分之五十90.2-3.19AGMC百分之五十92.76-0.63FP百分之二十55.9-14.6VGG-16RNPSPP百分之二十百分之二十66.9268.2-3.58-2.3AMC百分之二十69.1-1.4AGMC百分之二十70.35-0.15ResNet110Rs百分之五十87.26-6.42AGMC百分之五十93.08-0.6ResNet44Rs百分之88.14-4.966369五十AGMC百分之五十92.28-0.82ResNet32Rs百分之五十89.57-3.06AGMC百分之五十90.96-1.67通过使用卷积块来减少参数，从而在边缘设备上实现更好的性能例如，MobileNet-vl块将传统卷积拆分为一对逐点卷积和逐深度卷积。在MobileNet-v1的基础上，MobileNet-v2增加了一个额外的线性扩展层，并引入了剩余连接。为了保持移动友好的DNN的特性，我们已经为它们开发了特定的修剪策略。MobileNet-v1. MobileNet-v1块包含一个深度卷积和一个逐点卷积，而不是将它们分开，我们将两个卷积放在一起查看，只删除逐点卷积。由于深度卷积仅在一个输入通道上操作，并且6370表2. MobileNet-v1/v2和ShuffleNet-v1/v2上FLOPs约束压缩的剪枝策略比较。MobileNet-v1/v2是在ImageNet（ILSVRC-2012）数据集上训练的，ShuffleNet-v1/v2是在CIFAR-100数据集上训练的。FLOP列表示压缩模型和原始模型的FLOP之间的比率。模型方法FLOPs测试Acc.∆ Acc.%MobileNet-v1[第17话]第17AMC[14]百分之五十六百分之四十一百分之四十68.1066.9068.90-2。5-3.7-1.7AGMC百分之四十69.40-1.2制服[39]69.80-2MobileNet-v2AMC[14]AGMC百分之七十70.8070.87-1-0.93ShuffleNet-v1RsAGMC百分之六十百分之六十63.7065.26-4。94-3.38ShuffleNet-v2RsAGMC百分之六十百分之六十65.7466.28-3。11-2.57修剪该滤波器将导致相应信道的信息丢失。表3.使用AGMC的修剪模型的延迟和GPU存储器使用我们在CIFAR-10和VGG-16上分析了ResNet-20/56，并在ImageNet数据集上分析了MobileNet-v1。模型FLOPs延迟GPU内存MobileNet-v1100%FLOPs40%FLOPs11.02ms10.52ms17MB14MBVGG-16100%FLOPs20%FLOPs20.52ms16.82ms528MB387MBResNet-56100%FLOPs50%FLOPs0.52ms0.48ms3.4MB1.8MResNet-20100%FLOPs50%FLOPs0.32ms0.30ms1.1MB565KB卷积层，加速并行设备如GPU上的推理。我们计算了修剪模型的推理速度，并与原始模型进行了比较。我们使用批量大小32，并且在CIFAR-10和ILSVRC-2012数据集上测试如表3所示，由AGMC修剪的模型实现了无表GPU存储器减少。例如，对于VGG-16，MobileNet-v2. 与MobileNet-v1类似，我们修剪线性扩展层和逐点卷积层。由于剩余连接在线性扩展层之间，因此我们共享线性扩展层ShuffleNet-v1/v2. ShuffleNet 使用包含深度和逐点卷积、通道混洗、线性扩展和残差连接的块。为了避免下采样时的尺寸不匹配，我们一起考虑Shuf-fleNet块并在块内执行通道修剪。在ShuffleNet块中，我们不修剪扩展层（块的输出层），只修剪逐点过滤器。移动友好网络的结果如表2所示。在MobileNet-v1/v2上，将AGMC算法与统一剪枝策略和基于RL的AMC算法进行了比较。与统一策略（统一设置压缩比）相比，AGMC实现了更高的压缩比，只有1。2%的测试精度损失。此外，我们的高效层嵌入在MobileNet-v1和MobileNet-v2上的性能优于AMC，具有相同的目标FLOP 。同样，我们的方法成功地修剪了 40% 的ShuffleNet-v1/v2 FLOP，并获得了比随机搜索更4.4. 推理加速和内存节省在这里，我们讨论了压缩的ResNet-20/56，VGG-16和MobileNet-v1在Nvidia RTX 2080 Ti GPU上的推理速度。AGMC对以下对象执行通道修剪6371原始模型的GPU内存使用量为528 MB，因为它具有密集层，其第一个密集层包含 25088 个神经元。20%FLOPs的VGG-16与修剪卷积层显着减少了特征图的大小输入到密集层，采取141 MB的内存比原来少。此外，在不损失太多测试精度的情况下，AGMC修剪的所有模型都获得了显着的推理加速。例如，20%FLOPs VGG-16实现1。ImageNet数据集上的22倍5. 结论本文提出了一种自动图编码解码模型压缩（AGMC），它结合图卷积网络和强化学习自动探索网络压缩策略。据我们所知，这是将DNN建模为计算图以增强模型压缩的第一项工作。此外，我们对过度参数化和移动友好的DNN进行了全面的实验。在实验中，我们展示了我们基于学习的DNN嵌入的优越性。通过从DNN的结构信息学习DNN在过度参数化的情况下，例如ResNet-56，我们的方法击败了所有基线，仅损失了0.63%的准确率。此外，AGMC成功压缩了移动友好的DNN，这些DNN已经很紧凑了。例如，在MobileNet-V1中，我们实现了比基线更高的压缩比，精度损失仅为1.2%。6372引用[1] Martin Abadi ， Paul Barham ， Jianmin Chen ， ZhifengChen ， Andy Davis ， Jeffrey Dean ， Matthieu Devin ，Sanjay Ghe-mawat ， Geoffrey Irving ， Michael Isard ，Manjunath Kudlur ， Josh Levenberg ， Rajat Monga ，Sherry Moore，Derek G.Mur-ray，Benoit Steiner，PaulTucker ， Vijay Vasudevan ， Pete War-den ， MartinWicke，Yuan Yu，and Xiaoqiang Zheng.十- sorflow：一个大规模机器学习系统。在第12届USENIX操作系统设计和实现研讨会（OSDI 16），第265-283页，2016年。1[2] Cody Blakeney，Yan Yan，and Ziliang Zong. 修剪是压缩吗？：通过网络层相似性研究剪枝WACV，第903-911页，2020。2[3] Stephen Boyd、Neal Parikh、Eric Chu、Borja Peleato和Jonathan Eckstein。通过乘子交替方向法的分布式优化和统计学习。Found. 趋势马赫数学习. ，3（1）：12011年。2[4] Yukang Chen， Gaofeng Meng ，Qian Zhang ，ShimingXiang，Chang Huang，Lisen Mu，and Xinggang Wang.强化进化神经结构搜索。CVPR，第4787-4796页2[5] 放大图片作者： Thomas Chau ， Mohamed S.Abdelfattah 、 Royson Lee、 Hyeji Kim 和 Nicholas D. 巷BRP-NAS：使用gcns的基于预测的NAS。2021. 2[6] 杨高、洪阳、张鹏、周川、岳虎。Graphnas：图形神经架构搜索与强化学习。arXiv：学习，2019年。2[7] Ariel Gordon、Elad Eban、Ofir Nachum、Bo Chen、HaoWu、Tien-Ju Yang和Edward Choi。MorphNet：深度网络的快速简单资源约束结构学习。在2018年IEEE/CVF计算机视觉和模式识别会议上，第1586-1595页UT，2018年6月。美国电气与电子工程师协会。五、七[8] 郭勇，尹正，谭明奎，陈奇，剑尘，赵沛林，黄俊洲。NAT：神经架构Transformer，用于精确和紧凑的架构。在Proc. of the Advances in Neural Information ProcessingSystems，第32卷，第737-748页Curran Associates，Inc.2019. 2[9] Song Han，Junlong Kang，Huizi Mao，Yiming Hu，XinLi，Yubin Li，Dongliang Xie，Hong Luo，Song Yao，Yu Wang，Huaxin Yang，and（Bill）J.威廉·达利ESE：FPGA 上的高效稀疏 LSTM 语音识别引擎。 Proc.ACM/SIGDA国际专题讨论会可编程门阵列，第75-84页，2017年。2[10] Song Han，Huizi Mao，and J.威廉·达利深度压缩：利用剪枝、训练量化和霍夫曼编码压缩深度神经网络。2015年学习表征国际。一、二[11] Babak Hassibi和G.大卫·斯托克用于网络修剪的二阶导数：最佳脑外科医生。NIPS，第164-171页，1992年。一、二[12] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。第770- 778页，2016年。二三四五[13] 杨和、康国良、董宣义、傅彦伟、杨毅。用于加速深度卷积神经网络的软滤波器修剪。在20世纪的诉讼中第七届人工智能国际联合会议，第2234-2240页，瑞典斯德哥尔摩，2018年7月。国际人工智能组织联合会议7[14] Yihui He ，Ji Lin ，Zhijian Liu ，Hanrui Wang， Li-JiaLi，and Song Han. Amc：Automl用于移动设备上的模型压缩和加速。欧洲计算机视觉会议（ECCV），第784-800页，2018年。一、二、四、五、七、八[15] Yihui He，Xiangyu Zhang，and Jian Sun.用于加速深度神经网络的通道修剪。IEEEInternational Conference onComputer Vision，第1389-1397页，2017年。二、五、七[16] E. Geoffrey Hinton Oriol Vinyals和Jeffrey Dean在神经网络中扩散知识。CoRR，2015年。一、二[17] Andrew G. Howard，Menglong Zhu，Bo Chen，DmitryKalenichenko，Weijun Wang，Tobias Weyand，MarcoAn- dreetto，and Hartwig Adam. Mobilenets：用于移动视觉应用的高效卷积神经网络CoRR，abs/1704.04861，2017。二、五、七、八[18] Gao Huang，Shichen Liu，Laurens Van der Maaten，andKilian Q Weinberger.冷凝网：一个有效的密集使用学习组卷积。在 Proc. of the IEEE conference on computervision and pattern recognition，pages 2752-2761，2018中。2[19] Benoit Jacob、Skirmantas Kligys、Bo Chen、MenglongZhu、Matthew Tang、Andrew Howard、Hartwig Adam和Dmitry Kalenichenko。神经网络的量化和训练，有效的整数算术推理。在proc 的IEEE计算机视觉和模式识别会议，第2704-2713页，2018年。一、二[20] Houxiang Ji，Linghao Song，Li Jiang，Hai Halen Li，and Yiran Chen. Recom

下载后可阅读完整内容，剩余1页未读，立即下载