没有合适的资源?快使用搜索试试~ 我知道了~
1AdaBits:具有自适应位宽的Qing Jin李青字节跳动jinqingking@gmail.com杨林杰字节跳动linjie. bytedance.com振宇廖贵公司liaozhenyu2004@gmail.com摘要具有自适应配置的深度神经网络由于这些模型在具有不同资源预算的平台上的即时和灵活部署而获得了越来越多的关注。在本文中,我们研究了一种新的选项,以实现这一目标,使自适应位宽的权重和激活模型。我们首先研究了自适应比特宽度训练量化模型的好处和挑战,然后实验了几种方法,包括直接自适应,渐进训练和联合训练。我们发现,联合训练是能够产生类似的性能的自适应模型作为个人模型。我们还提出了一种新的技术,命名为可切换限幅电平(S-CL),以进一步提高量化模型在最低位宽。通过将我们提出的技术应用于包括Mo- bileNet V1/V2和ResNet 50在内的一系列模型,我们证明了权重和激活的位宽是自适应可执行深度神经网络的一个新选项,为改进准确性-效率权衡以及根据实际应用中的平台约束进行即时适应提供了独特的机会。1. 介绍深度学习的最新发展使深度神经网络能够在呈现不同资源约束的各种平台上应用。例如,便携式设备上流行的TikTok和Snapchat等移动应用程序对响应延迟和能耗提出了严格的要求,而嵌入自动驾驶车辆中的视觉识别系统[13,40]对快速准确的预测要求更高。此外,对于应用便携式测试系统的医疗应用[22,53],实施有效的模型将加快诊断过程,为医生和患者节省时间问题不同版本的软件系统。为了在所有这些具有完全不同需求的场景下服务于应用程序,可以手动[14,15,16,37]或自动地设计针对不同资源萌芽量身定制的不同模型。通过神经结构搜索[39,56,57]。这种策略对于具有固定约束组合的最佳权衡是有益的,但并不经济,因为它需要对这些模型中的每一个进行耗时的训练和基准测试,这阻止了即时适应以支持不同的场景。为了解决这个问题,最近的工作集中在训练一个灵活和可扩展。例如,[49]提出了一种方法,其中通道的数量可以通过改变每个层中的宽度乘数 受这项工作的启发,[3]将深度,宽度和内核大小的自适应集成在一起,并通过渐进式训练在性能和效率之间实现更好的权衡。[48]采用了相同的策略,但使用了同步训练算法来提高预测精度。令人惊讶的是,尽管上述方法实现了自适应部署的期望灵活性,但权重和中间激活的位宽作为另一自由度在先前的工作中几乎被忽略。假设我们可以在推理过程中自适应地选择神经网络的位宽而无需进一步训练,这将为更强大的模型压缩和加速提供明显的机会以MobileNet V2为例,与全精度将模型大小压缩约4。74倍,并将BitOP减少14。25×1,同时将模型的通道数按宽度乘数0缩放。35×仅将模型尺寸缩小2。06×,并将FLOPs减少5。十倍。此外,如[18]所示,6位MobileNet V2 demon-strates比全精度对应物提高了预测能力,同时将通道数减少到0。35倍会严重损害其性能[37]。变得更加如果考虑到其他约束例如存储器成本、延迟和能耗,则会形成对比。Addi-如果考虑到其他因素,由于硬件老化、电池条件以及*同等贡献。青锦在字节跳动实习时工作就完成了。1根据IEEE标准754,浮点数用23位尾数表示,本文通过用23位定点乘法近似浮点乘法的有效位运算,简化了分析。21462147自适应位宽通常适用于深度神经网络的大多数关键构建块,包括耗时的卷积层和全连接层。同时,自适应部署也将引入可忽略的计算,如[49]所述。图1示出了具有自适应位宽的量化的基本概念乍一看,自适应位宽可能是微不足道和方便的,因为具有不同精度的权重和激活如果是这样,在某些特定精度下训练的模型将能够在其他位宽下直接提供良好的性能。然而,正如我们将在下文中看到的,这种简单的方法是不适用的,因为在神经网络中的位宽的收缩或扩大期间,重要的信息将丢失。渐进地训练具有不同比特宽度的量化模型的甚至更谨慎的方法不能实现最佳性能,因为微调过程破坏了模型的重要属性,因此当量化回到原始比特宽度时显著地降低了模型的验证准确性。所有上述证据表明,具有自适应位宽的量化并不像它可能出现的那样是免费的午餐,而是更微妙,涉及需要精心设计的技术的新机制 本文尝试对这一问题进行研究,并研究了训练适应不同要求的量化神经网络的具体方法。我们利用最先进的基于学习的量化方法尺度调整训练[18]作为个体精度量化的基线方案。我们发现,通过对限幅电平参数进行关键处理的联合量化方法产生的自适应模型[6]能够在几个位宽上实现与单独精度模型相当的性能。对削波电平的处理称为可切换削波电平(S-CL). S-CL适应高精度量化的大激活值,并防止低精度情况下的限幅电平通过一些实证分析,我们发现不必要的大限幅电平可能会导致较大的量化误差,并影响量化模型的性能,尤其是在最低精度时。据我们所知,这项工作是第一个解决这个问题的量化模型与自适应位宽。本文的结构安排如下。在总结了第2节中的一些相关工作之后,我们首先回顾了我们整个研究中采用的尺度调整训练(SAT)[18]的最新工作。 在第4节中,我们首先说明了自适应位宽量化的潜在好处和挑战.然后,我们提出了一种新的技术称为切换裁剪水平的基础上分析的一些基线结果的联合训练方法。在第5节中,我们展示了使用所提出的技术,自适应模型可以在不同的比特宽度和广泛的型号,包括MobileNet V1/V2和ResNet 50。2. 相关工作神经网络量化神经网络量化自最近深度学习蓬勃发展的时代开始以来一直在研究,包括二进制化[1,7,8,36],量化[20,51,54]和集成方法[55]。最初,在整个网络内部采用统一的精度量化,其中所有层共享相同的位宽[17,19,28,31,32,33,46,52]。最近的工作采用神经架构搜索方法进行模型量化,该方法实现了混合精度策略,其中不同的位宽被分配给不同的层或甚至通道[10,26,41,42,44]。[18]分析了神经网络量化的 有 效训 练 问题, 并提 出了 一种 尺度 调整 训练(SAT)技术,实现了最先进的性能。然而,开发适用于不同位宽的单一模型的可能性仍然没有得到很好的研究,并且仍然不清楚如何实现这一目的。神经结构搜索神经结构搜索(NAS)在最近的研究中越来越受欢迎[4,21,24,27,34,43,45,56]。具体而言,搜索策略被用于优化神经网络的其他方面,例如自动调整各种训练超参数,包括激活函数[35]和数据增强[9]。NAS算法也有利于其他任务,例如生成对抗网络[11],对象检测[5]和分割[23]。如上所述,神经结构搜索方法的量化也积极研究在最近的文献。然而,NAS在计算上是昂贵的,并且通常需要耗时的重新训练或微调。最近的工作通过一次性架构搜索在很大程度上减少了搜索时间[2,38]。然而,由此产生的模型仍然是不灵活的,禁止他们的应用程序中的自适应场景。通常,传统的NAS方法更适合于在特定资源约束下优化单个模型。自适应神经网络与NAS不同但相关,[49]提出用不同的宽度乘数同时训练单个模型,以实现对不同应用需求的即时适应。沿着这条路线,[3]探索了同时调整宽度,深度和内核大小,通过渐进式训练在相同的计算约束下实现更好的预测准确性。[48]将类似的策略扩展到大尺寸模型,并进一步采用NAS算法来发现更好的模型。然而,这些方法在其策略中忽略了具有不同比特宽度的量化选项,使得具有自适应比特宽度的量化成为一个开放的问题。2148奥特斯火车部署b1 b2 b3b4GPUGPU火车部署b1 b2 b3 b4GPU推理开关推理图1.根据计算预算部署具有不同位宽的神经网络左图:针对每个场景单独训练具有不同位宽的几个量化模型右:训练一个采用自适应位宽量化的单一模型,并根据设备条件在实际应用中切换到合适的位宽。3. 重新审视量表调整训练(SAT)量化通常伴随着性能退化,因为与全精度对应物相比,模型容量显著降低。然而,最近的一项研究[18]表明,很大一部分准确性下降是由低效的训练引起的,其中基于学习的量化可能充当正则化,实际上提供了提高泛化能力的机会。 其核心思想是量化模型通常在其权重中强制较大的方差,这在训练过程中带来过拟合问题。基于这一发现,[18]提出了一种简单而有效的方法,称为尺度调整训练(SAT),它将权重缩小到一个健康的水平,用于网络优化。具体地,恒定缩放通过以下方式应用于没有BN的线性层的量化权重:4. 自适应位宽在本节中,我们首先研究自适应位宽量化的优点和我们解释了直接适应和渐进量化作为两个直接的方法,实现这一目标,但结果不令人满意。然后,我们提出了一种新的联合量化方法来处理的挑战,并实现相同的水平perfor-曼斯与自适应模型相比,单独的模型。4.1. 优势与挑战神经网络量化提供了显着减少模型大小,延迟和能耗。 训练可在不同位宽执行的单个量化模型为灵活和自适应部署提供了很好的机会,因为具有更大位宽的模型仍然是可执行的。∗Qij=1nVAR[Q]Qij(一)比那些具有较小位宽的更好的性能实际上,对于MobileNet V1/V2,将位宽从4 bit更改为其中,Qij是量化权重,并且n_out是量化权重的数量。这一层的输出神经元。通过与名为参数化限幅激活(PACT)[6]的量化方法相结合,SAT有助于更有效的训练,使量化模型的性能一致且明显优于传统量化技术,有时甚至超过其全精度对应物。由于用于神经网络量化的众多算法,很难(如果不是不可能的话)针对自适应位宽问题用不同的量化算法进行实验。为此,我们采用了PACT算法与SAT技术,它提供了最先进的性能,神经网络量化,在我们所有的实验。为了简洁起见,我们将这种方法称为SAT。8bit可以将模型尺寸放大1. 7×和BitOP通过3 .第三章。2倍,而预测精度可以变化1. 百分之五在SAT的ImageNet数据集上[18]。由此我们可以可以看出,在量化模型的准确性和效率在下文中,我们将首先研究两种直接的自适应位宽,这将揭示这个问题的一些关键挑战4.1.1修改的DoReFa方案在进行更详细的分析之前,我们想强调一个在具有自适应位宽的量化模型中遇到的明显困难。采用DoReFa方案[51]GPU21492bit3bit4bity= quant( x)K^^一1.0用Eq.(二)1.0用Eq.(三)0.8 0.80.6 0.6y y0.4 0.40.2 0.20.0 0.00.0 0.2 0.4 0.6 0.81.0X0.0 0.2 0.4 0.6 0.8 1.0X图2.两种量化方案的比较:原始方案(等式10)(2))和修改的方案(等式(2))。(三))。在用于权重量化的原始SAT方法中,其中权重被量化为q(x)=1,ax,(2)4.1.2直接适应我们首先研究在一个位宽上训练的量化模型是否可以直接用于其他位宽。这由于具有不同位宽的权重的值可能彼此接近,因此廉价的方法是可行的。检查这里,·表示舍入到最接近的整数,并且a等于2k-1,其中k是量化比特的数量然而,如图2所示,这样的方案并不这对于具有自适应位宽的量化是实用的,因为在量化到不同位宽的权重之间没有直接映射,从而禁用量化模型从位宽到较低位宽的直接转换它需要存储全精度权重,并且在模型部署期间需要针对不同的位宽重复量化过程。 这显著地增加了存储模型的大小,并且极大地限制了模型的应用。为了适应量化模型的简单转换,我们修改方案以使用由下式给出的量化函数q(x)=1min. ,^ax,,^a−1<$(3)这里,<$·<$表示地板舍入函数,a等于其中k是量化比特的数量这个泉--调整功能与原始DoReFa方案,并应给出类似的量化模型的性能。此外,如图2所示,它通过直接丢弃权重中的低位来实现从较高位宽到较低位宽的直接适配。 我们用下面的定理来表示这个容量,这个定理很容易证明。定理1对[0,1]中的任意x和任意两个正整数a>b,2ax在下文中,我们首先利用原始DoReFa方案来探索具有自适应位宽的量化,并与SAT方法进行比较[18]。在第5节中将提供使用原始方案和修改方案的更多实验结果。如果这种方法是可行的,我们通过将位宽调整为几种不同的设置来评估ResNet50在ImageNet上的验证准确性,其中原始权重在最低或最高位宽下进行训练(在这种情况下分别为2位和4位 如先前的研究[18]所示,具有不同位宽的量化需要权重和激活的方差的差异,如图3所示。因此,在一个位宽上训练的网络在另一个位宽上评估时遭受层统计的不匹配为了缓解这个问题,我们应用[47]中引入的批量范数(BN)校准来校准批量归一化层中的统计数据,以进行合理的比较。表1中列出了具有和不具有BN校准的结果,以及使用SAT在相同位宽下训练和评估的模型的性能。结果表明,没有BN校准,在一个比特上训练的模型在另一个比特上显着退化。通过BN校准,在2位上训练的模型成功地保持了在较大位上的性能,但仍然不如直接在较大位上训练所获得的结果;此外,在4位上训练的模型在较小位上严重退化。总之,由于训练和评估设置的差异,以不同位宽训练和评估的模型不适合于量化模型的自适应部署。 特别地,当量化到较低精度时,用较大位宽训练的模型遭受更严重的性能退化,而用较小位宽训练限制了部署在较高精度上的模型的潜力。4.1.3渐进量化上述分析表明,具有自适应位宽的量化不能直接从模型中获得2bit3bit4bity= quant( x)21501.6量化对权重1.10量化对激活1.51.081.41.061.31.21.041.11.021.01.002 3 4 5 6 78的比特数2 3 4 5 6 7 8的比特图3.不同位宽下量化对权值方差和激活的影响当比特宽度变小时,量化权重和激活两者的方差变大。模型4位3比特2比特升序位宽76.373.429.5降位宽度73.973.673.5[第十八话]76.375.973.3表1.直接自适应在不同位宽的2位和4位上训练的模型,有和没有批量范数校准。 结果是ImageNet上ResNet50的前1验证准确度(%)。用单独的位宽训练。在本节中,我们将研究渐进式训练的可能性,其中量化模型按顺序在多个位宽上进行训练它可以以两种方式进行,其中用于训练的位宽可以逐渐增加或减少。 我们对ImageNet上的ResNet50使用这两种方法进行了实验。对于任一种情况,我们使用以最高(最低)位宽单独训练的模型作为初始点,其以第二高(最低)位宽微调,并且以下一位宽进一步微调。 我们继续这个微调过程,直到所有的位宽正在考虑处理。对于微调的每个阶段,采用与用于训练个体量化的那些相同的超参数最后,对不同位宽下的最终模型进行了BN校准,以进行合理的比较. 结果示于表2中。在表2中,首先用2比特训练并用递增比特宽度微调的模型在最后4比特处实现了良好的结果,但在较低比特上被破坏首先用4比特训练并用递减比特宽度微调的模型仅实现比在表1中的多个比特上直接应用2比特模型稍好的性能,这不保留较高的3比特和4比特的性能上述结果表明,渐进式训练可能会向训练的预训练模型引入不期望的扰动,这会损害其原始性能。 这表明渐进式训练方法仍然不适用于具有自适应位宽的模型。表2. ImageNet上ResNet 50的递增/递减位宽的渐进量化结果。结果为前1位验证准确度(%)。模型8位6位 5比特4位香草AdaBits72.472.572.170.8[第十八话]72.672.371.971.3表3. Vanilla AdaBits与MobileNet V1在Ima-geNet上的结果,具有四个位宽。结果为前1位验证准确度(%)。4.2. 联合量化上述结果表明,顺序训练不保留先前训练的位宽中的模型特征,这表明应该联合优化不同位宽的模型权重。具体来说,我们采用了一种类似于可瘦身神经网络的联合训练方法[49]。而不是训练模型具有不同的通道数,我们同时训练模型在不同的位宽与共享的权重。此外,如上所述,具有不同比特宽度的量化导致量化权重和激活的不同方差 基于此,我们采用了[49]中介绍的可切换批量归一化技术。我们将此方法称为Vanilla AdaBits,其性能如表3所示。可以看出,用所有位宽训练的模型实现与单独训练的模型相当的性能,这验证了这种方法的有效性然而,对于4位的最低位宽,仍然存在性能差距,其为0。比单独训练的模型低5%这是不期望的,需要进行进一步的改进在SAT采用的PACT算法中,每一层的激活将首先被学习参数α裁剪(Q)(W)(问)(x)模型4位3比特2比特4 bit Trained(wo/BNcalib)76.367.10.32 bit Trained(wo/BNcalib)41.148.773.34 bit Trained(w/ BNcalib)76.373.220.32151相对量化误差(%)2MobileNet V1在ImageNet(SAT)上141210864而对于较低的位宽,它随着限幅电平的增加而显著增加。基于图4的结果,Vanilla Adabit学习的限幅电平可能会显著增加最低4位的量化误差,但不会对其他位宽的量化误差产生太大影响。注意,这仅仅是定性分析,并且图5中所示的量化误差与训练网络中的量化误差不成比例。0 5 10 15 20 2540层数3530图4.在不同层中裁剪训练模型的级别单独使用不同的位宽(实线)或使用Vanilla AdaBits(虚线)训练。请注意,层的裁剪级别是指该层输出的裁剪级别的最后一层的输出不被限幅。50命名为限幅电平,然后量化为离散数。具体地,激活值x首先被裁剪到区间[0,α],然后缩放、量化和重新缩放以产生量化值q,如下:x=1|X|−|x−α|+αα(5a)q=αq。 x˜Σ(5b)2.5 5.0 7.5 10.012.515.017.520.0图5.合成层不同位宽的相对量化误差与限幅电平α之间的关系点表示在不同比特宽度处用于最小量化误差的α的最优值。K α4.2.1可切换限幅电平请注意,在PACT的原始论文[6]中,作者发 现 不 同 的 位 宽 导 致 不 同 的 限 幅 电 平 。 在 VanillaAdaBits中,共享不同位宽的限幅水平,这可能潜在地干扰网络的优化过程为了理解在最低位宽下退化的潜在机制,我们绘制了来自不同位宽单独训练的模型中不同层的裁剪水平如图4所示,限幅水平与位宽强相关。对于单独训练的模型,更高的位宽导致更大的裁剪水平值。 在Vanilla Adabit模型中,学习到的限幅水平往往小于高精度情况下的限幅水平,但大于来自具有最低位宽的模型的限幅水平。为了理解量化误差和限幅电平之间的关系,我们使用具有1000个输入神经元的合成线性层来研究特性,其中权重从N(0,1/1000)中采样,激活从区间[0,1]上的均匀分布中采样。对于每个位宽,权重和激活的乘积被馈送到ReLU函数以获得具有不同限幅水平的量化输出。相对误差为-计算全精度输出和量化输出之间的差值 我们将该量化误差相对于图5中的限幅水平绘制。它表明不同的位宽具有不同的行为。对于更高的限幅电平,量化误差仅随着限幅电平的增加而缓慢上述观察结果表明,促进每个位宽的适当限幅电平可能是AdaBits模型的最佳性能的关键因素如果不是不可能的话,一组共享限幅电平很难满足不同位宽的要求。为此,我们提出了一个简单的处理剪切水平,命名为可切换剪切水平(S-CL),采用独立的剪切水平,在每一层不同的位宽。在具有自适应位宽的量化模型的训练期间,S-CL切换到所有层中的每个位宽的对应的裁剪级别集合。 这避免了限幅电平参数受到其他比特宽度的干扰,特别是由当前比特宽度的太大或太小限幅电平引入的不期望的量化误差。 以这种方式,可以缓解使用Vanilla Ad比特的最低比特宽度上的性能退化问题。S-CL的模型大小几乎没有变化,小于0的部分可以忽略不计。1‰。例如,限幅水平与其他可训练参数的字节大 小 比 为 0 。 0246 ‰ 适 用 于 MobileNet V1 , 0 。MobileNet V2为0588 ‰,0084‰的ResNet50。同时,S-CL几乎没有引入运行时开销。在用所需的位宽重新配置模型之后,它变成正常的网络以在没有额外的延迟和存储器成本的情况下运行。这些优点使它成为一个非常实用和经济的解决方案的自适应位宽的问题。8位4比特6比特香草AdaBits(8 6 5 4)5比特8位5比特6位4位2520151021525. 实验我们在ImageNet分类任务上评估了我们的AdaBits算法,并将所得模型与使用不同位宽单独量化的模型进行了在此基础上,分析了Ad- aBits模型中不同层次的裁剪程度最后,我们给出了讨论,并提出了一些未来的工作。5.1. ImageNet分类为了检验我们提出的方法,我们使用自适应位宽对使用AdaBits算法在ImageNet数据集上对其进行了评估。我们遵循与SAT [18]相同的量化策略,首先训练全精度模型,然后将其用作训练量化模型的初始化预训练和微调之间共享相同的训练超参数和设置,包括初始学习率,学习率调度器,权重衰减,epoch数量,优化器,批量大小等。模型的输入图像被设置为无符号8位整数(uint8),并且不应用标准化(既不贬低也不规范化)。对于第一层和最后一层,权重以位宽8 [6]量化,而最后一层的输入以与其他层相同的精度量化。同时,最后的全连接层和批归一化层中的偏置不被量化。为了进行公平的比较,我们采用与SAT相同的超参数[18]。 学习率被初始化为0.05,并在每次迭代中使用余弦学习率调度器[25]更新总共150个epoch,无需重新启动。参数由SGD优化器更新,Nesterov动量,动量权重为0.9,无阻尼。重量衰减设置为4 ×10−5。对于MobileNet V1/V2,批量大小设置为2048,而对于ResNet 50,则为1024。的采用[12]中建议的预热策略,通过每次迭代线性增加学习率到更大的值(批量大小/256×0. 05)在使用余弦退火调度器之前的前五个时期。输入图像随机裁剪为224×224,水平随机翻转,保持为8位无符号整数,未应用标准化 此外,我们使用全精度模型,权重作为初始点来微调量化模型。这 些 模 型 的 结 果 总 结 在 表 4 中 , 其 中 我 们 列 出 了ImageNet分类任务的 Top-1准确率,以及模型大小和BitOP。 我们展示了MobileNet V1/V2和ResNet 50的原始DoReFa方案的结果,以及MobileNet V1/V2的第4.1.1节中描述的修改方案的结果。我们不包括ResNet50的修改方案的结果,因为我们发现这种设置中的2位模型不收敛。 我们使用前缀AB-来表示使用AdaBits量化的模型。SAT方法的结果[18]也作为参考报告,其基于我们的知识呈现了模型量化的最新性能我们发现,我们的方法是能够实现几乎相同的性能,为所有的模型在所有的位宽使用原始方案的个人量化。 与表2中具 有 递 增 位 宽 的 渐 进 量 化 相 比 , ResNet 50 上 的AdaBits ap-proach显著提高了最低2位的性能。 与比特宽度递减的渐进量化相比,AdaBits将精度提高了2。4位ResNet50和2. 在3位ResNet50上分别为2%与VanillaAdaBits相比,我们使用S-CL的最终方法将最低4位的性能提高了0。3%的Mo-bileNet V1与原来的计划。对于修改方案的模型,AdaBits也达到了与单个模型相似的性能。修改后的方案的好处是,它允许从较高的位宽到较低的位宽的直接适应,这只需要存储最高位宽的量化权重,以大大减少模型的大小。原始方案的AdaBits模型仍然需要存储全精度权重,以便在每个位宽中产生我们的研究结果证明,自适应位宽是自适应模型的一个额外选项,它能够进一步改善深度神经网络的效率和准确性之间的权衡。5.2. 限幅电平图示为了理解S-CL的影响,我们将AB-MobileNetV1中不同层的削波电平与图6中的原始方案进行了可视化。 我们发现不同的位宽确实会导致不同的限幅电平值,这通常遵循的顺序是,较大的位具有相对较大的限幅电平,如在各个模型中。通过将限幅电平私有化到不同的位宽,可以针对不同的位宽选择不同的限幅电平的最优值,并且可以改善模型的优化MobileNet V1 on ImageNet(AdaBits)161412108640 5 10 15 20 25层数图6.从AB-MobileNet V1剪切不同层中的级别8位5比特6比特4比特2153独立量化(SAT)自适应位宽方案名称位宽大小Top-1 Acc.名称大小Top-1 Acc.BitOPMobileNet V1 8 bit 4.10MB 72.6MobileNet V1 6 bit 3.34MB 72.3MobileNet V1 5 bit 2.96MB 71.9AB-MobileNet V1[8,6,5,4]位FP72.4(-0.2) 36.40 B72.4(0.1)72.1(0.2)MobileNet V1 4位2.58 MB 71.3 71.1(-0.2) 9.67 B原始MobileNet V2 8 bit 3.44MB 72.5MobileNet V2 6 bit 2.92MB 72.3MobileNet V2 5 bit 2.66MB 72.0AB-MobileNet V2[8,6,5,4]位FP72.6(0.1)11.17 B72.1(0.1) 7.99 BMobileNet V2 4位2.40 MB 71.1 70.8(-0.3) 5.39 BResNet504位13.34 MB76.3AB-ResNet5076.1(-0.2) 71.81 BResNet503比特10.55兆字节75.9[4,3,2]位FP 75.8(-0.1) 43.75 BResNet502比特7.75兆字节73.373.2(-0.1)23.71 BMobileNet V18位4.10 MB72.672.3(-0.3)36.40 BMobileNet V1 6 bit 3.34MB 72.4MobileNet V1 5 bit 2.96MB 72.2AB-MobileNet V1[8,6,5,4]位4.35兆字节72.3(-0.1) 20.81 B72.0(-0.2)14.68 B改性MobileNet V1 4位2.58 MB 70.5 70.4(-0.1) 9.67 BMobileNet V2 8 bit 3.44MB 72.7MobileNet V2 6 bit 2.92MB 72.5MobileNet V2 5 bit 2.66MB 72.1AB-MobileNet V2[8,6,5,4]位3.83兆字节72.3(-0.4) 19.25 B72.3(-0.2)11.17 B72.0(-0.1)7.99 BMobileNet V2 4 bit 2.40 MB 70.3 70.3(0.0) 5.39 B表4.在ImageNet上比较单个量化和AdaBits量化对MobileNet V1/V2和ResNet 50的前1验证准确度(%)注意,我们使用两种量化方案来比较我们的AdaBits与SAT基线模型,其中“原始”表示原始DoReFa方案,“修改”表示等式2中的修改方案。其使得能够从8位模型产生用于较低位宽的权重6. 讨论和未来工作本文提出的自适应位宽方法表明,量化模型的位宽是自适应模型除通道数、深度、核大小和分辨率外的一个额外的自由度。以前的工作[18,47]证明了将训练的自适应模型用于神经架构搜索算法的可能性,基于该算法,可以在预定义的资源约束下发现改进的架构。这表明我们可能能够采用具有自适应位宽的量化模型来搜索每个层或通道中的位宽,以实现混合精度量化[10,44,42,41,26]。 另一方面,向通道编号、深度、内核大小和分辨率的列表中添加位宽扩大了自适应模型的设计空间,这可以实现更强大的自适应模型并促进更多真实世界的应用,例如面部对齐[30,50]和压缩成像系统[29]。AdaBits与其他量化方法的评估是另一个未来的工作。由于神经网络量化算法众多,本文只选取了一种最先进的算法SAT来验证自适应位宽的有效性。由于我们的联合训练方法是通用的,并且可以与任何基于量化感知训练的量化算法相结合,我们相信通过结合其他量化方法可以实现类似的结果2154我们的AdaBits算法。7. 结论在本文中,我们研究了为深度神经网络自适应配置位宽的可能性在研究了几种基线方法后,我们提出了一种联合训练方法来优化量化模型中所有选定的位宽另一种称为可切换限幅电平的处理被提出来将限幅电平参数私有化到每个位宽,并且消除不同位宽之间的不期望的干扰最终的AdaBits方法实现了与单独使用不同位宽量化的模型相似的精度,适用于各种模型,包括ImageNet数据集上的MobileNet V1/V2和ResNet 50。这种新的自适应模型拓宽了设计动态模型的选择范围,使其能够即时适应不同的硬件和资源约束。8. 确认作者希望与加州大学戴维斯分校的陈浩教授和加州大学伯克利分校的马毅教授进行宝贵的讨论他们还要感谢来自字节跳动公司的Hongyi Zhang、YangyueWan、Xiaochen Lian和Xiaojie Jin来自约翰霍普金斯大学的李英伟和梅洁如,以及来自匹兹堡大学的董朝生进行技术讨论。2155引用[1] Yu Bai,Yu-Xiang Wang,and Edo Liberty.Proxquant:通过邻近算子量 化 的 神经 网 络。 arXiv 预 印本 arXiv :1810.00861,2018。2[2] Gabriel Bender , Pieter-Jan Kindermans , BarretZoph,Vijay Vasudevan,and Quoc Le.理解和简化一次性架构搜索。在机器学习国际会议上,第549-558页,2018年。2[3] 韩才、闯乾、宋涵。一劳永逸:训练一个网络并使其专业化以实现高效部署。 arXiv预印本arXiv:1908.09791,2019。一、二[4] 韩才、朱立庚、宋涵。Proxylessnas:在目标任务和硬件 上 直 接 进 行神 经 结 构 搜 索 。 arXiv 预 印 本 arXiv :1812.00332,2018。2[5] Yukang Chen,Tong Yang,Xiangyu Zhang,GaofengMeng,Chunhong Pan,and Jian Sun.Detnas:用于对象检 测 的 主 干 搜 索 arXiv 预 印 本 arXiv : 1903.10979 ,2019。2[6] JungwookChoi,ZhuoWang,SwagathVenkataramani , Pierce I-Jen Chuang , VijayalakshmiSrinivasan,and Kailash Gopalakrishnan. Pact:量化神经网 络 的 参 数 化 裁 剪 激 活 。arXiv 预 印 本 arXiv :1805.06085,2018。二三六七[7] Matthieu Courbariaux , Yoshua Bengio 和 Jean-PierreDavid。Binaryconnect:在传播过程中使用二进制权重训练深度神经网络。神经信息处理系统的进展,第3123-3131页,2015年2[8] MatthieuCourbariaux、Itay Hubara 、Daniel Soudry、Ran El-Yaniv和Yoshua Bengio。二进制神经网络:训练权重和激活限制为+1或-1的深度神经网络。arXiv预印本arXiv:1602.02830,2016。2[9] Ekin D Cubuk,Barret Zoph,Dandelion Mane,VijayVasude-van,and Quoc V Le.Autoaugment:从数据中学习增强策略arXiv预印本arXiv:1805.09501,2018。2[10] 艾 哈 迈 德 ·T. Elthakeb , Prannoy Pilligundla ,FatemehSadat Mireshghallah , Amir Yazdanbakhsh ,Sicun Gao,and Hadi Esmaeilzadeh. Releq:神经网络深度 量 化 的 自 动 强 化 学 习 方 法 。 arXiv 预 印 本 arXiv :1811.01704,2018。二、八[11] Xinyu Gong , Shiyu Chang , Yifan Jiang , andZhangyang Wang. Autogan:生成式对抗网络的神经架构搜索。arXiv预印本arXiv:1908.03835,2019。2[12] Priya Goyal , Piotr Dollár , Ross Girshick , PieterNoord-huis , Lukasz Wesolowski , Aapo Kyrola ,Andrew Tulloch , Yangqing Jia , and Kaiming He. 准确、大的小批量sgd:1小时内训练imagenet。arXiv预印本arXiv:1706.02677,2017。7[13] Sorin Grigorescu,Bogdan Trasnea,Tiberiu Cocias,andGigelMacesanu.用于自动驾驶的深度学习技术的调查。Journal of Field Robotics,2019。1[14] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习在Proceedings of theIEEEconferenceoncomputervisionandpatternrecognition,第770-778页12156[15] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.深度剩余网络中的身份映射在欧洲计算机视觉会议上,第630-645页施普林格,2016年。1[16] Andrew G Howard,Menglong Zhu,Bo Chen,DmitryKalenichenko , Weijun Wang , Tobias Weyand ,Marco An-dreetto,and Hartwig Adam. Mobilenets:用于移动视觉应用的高效卷积神经网络。arXiv预印本arXiv:1704.04861,2017。1[17] Benoit Jacob 、 Skirmantas Kligys 、 Bo Chen 、MenglongZhu 、 Matthew Tang 、 Andrew Howard 、Hartwig Adam和Dmitry Kalenichenko。神经网络的量化和训练,有效的整数算术推理。在IEEE计算机视觉和模式识别会议论文集,第2704-2713页,2018年。2[18] Qing Jin,Linjie Yang,and Zhenyu Liao.神经网络量化的有效训练。 arXiv预印本arXiv:1912.10207,2019。一二三四五七八[19] 冷聪、窦泽生、李昊、朱圣火、容瑾。极低比特神经网络:用admm挤出最后一点。第三十二届AAAI人工智能会议,2018。2[20] Fengfu Li,Bo Zhang,and Bin Liu.三重网络arXiv预印本arXiv:1605.04711,2016。2[21] 李英伟,金晓杰,梅洁如,连晓晨,杨林杰,谢慈航,俞启航,周玉银,白松,阿兰·尤耶. Autonl:Neural architecture search for lightweight non-localnetworks in mobile vision. 在2020年的次级任务中。2[22] 李英伟,朱卓屯,周玉银,夏英达,沈伟,艾略特·K.Fish
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功