没有合适的资源?快使用搜索试试~ 我知道了~
3869无数据每通道静态输入量化Edouard Yvinec1,2,Arnaud Dapogny2,Matthieu Cord1,Kevin Bailly1,2SorbonneUniv ersite'1,CNRS,ISIR,f-75005,4PlaceJussieu75005Paris,France Datakalab2,114 boulevard Malesherbes,75017 Paris,Franceey@datakalab.com摘要计算昂贵的神经网络在计算机视觉中无处不在,并且用于有效推理的解决方案这种解决方案的实例包括定量化,即,将处理值(权重和输入)从浮点转换为整数,例如,int8或int4。同时,隐私问题的兴起促使人们研究侵入性较小的加速方法,例如预训练模型权重和激活的无数据量化。先前的方法或者利用统计信息来以静态方式推导激活的标量范围和缩放因子,或者动态地针对每个层的每个输入动态地调整该范围(也称为激活):后者通常以明显较慢的推断为代价而更准确。在这项工作中,我们认为,静态输入量化可以达到动态方法的精度水平,通过每通道输入量化方案,允许一个更精细地保持跨通道动态。我们通过对多个计算机视觉问题(例如,ImageNet分类,PascalVOC对象检测以及CityScapes语义分割),所提出的方法,被称为SPIQ,实现了与静态级别推理速度的动态方法相媲美的准确性,在每个基准上都显着优于最先进的量化方法。1. 介绍在边缘设备上部署最先进的深度神经网络(DNN)变得越来越困难。虽然边缘计算最近受到了更多的关注,但出于隐私[30]和环境可持续性问题[22]的动机,DNN已经变得更加昂贵。然而,存在几种旨在减少这种负担的技术,其中包括量化。如[14]中所定义的,量化包括将一组连续变量映射到一组有限值,例如:int8,int4或三进制,以便压缩逐位表示。量化趋势可以通过数据使用和范围校准来区分。第一,由-10的量化引入的近似需要调整,以保持原始, 模型的最终精度。 我们可以表演- 使用真实的训练数据,称为数据驱动量化[17,23,32,16]。虽然这样的方法可以提供较低的逐位表示,但它们在计算上是昂贵的,并且使用起来不太方便 另一方面,当在没有重新训练的情况下执行量化时,它通常被称为训练后量化(PTQ)或无数据量化[3,12,37,27,6]。 这种方法对于隐私和安全是强制性的应用是方便的。这项工作旨在通过重新思考输入量化来缩小无数据量化和数据驱动量化之间的差距。第二,为了确定投入,必须估计其分布范围。在无数据量化中,每个层的输入基于从已经训练的参数确定的统计数据(静态量化)[27]或基于基于在推理时基于每个样本实时计算的统计数据(动态量化)[31]进行量化。后者通常以较慢的推理为代价提供显着更高的准确性,在低位表示上更是如此虽然大多数关于无数据量化的研究[2,3,5,12,13,37,27]因此,除了每通道权重量化之外,来自[2]的这是由于在矩阵乘积的求和中需要重新缩放每个项。我们详细说明并解决这个问题,以实现真正的每通道量化的权重和激活。与标准静态量化相比,所提出的方法在如图1所示的精度方面提供了很大的好处。此外,我们表明,每通道的输入范围估计允许更严格的建模的全精度分布相比,每一个例子,动态的方法。我们称这种方法为SPIQ,代表静态P通道输入量化。3870int8 int6 int8 int6 int4 int8 int6 int4 int8 int6 int4 int8 int6 int4EfficientNet MobileNet ResNet DenseNet图1. 归因于输入和激活量化的准确度下降的图示。我们执行[27]中定义的输入量化以及SPIQ(我们的),但保留DFQ量化权重值,即应用每个张量权重量化。结果表明,输入量化对网络精度的保持至关重要,特别是在已经紧凑的设计中(例如,MobileNet和EfficientNet)。在所有测试配置上,SPIQ显著改善了DFQ[27]。在实践中,我们表明,SPIQ显着提高了静态和动态的方法。它还在各种基准测试中超越了当前最先进的无数据量化技术,包括图像分类、对象检测和几个位宽的语义分割2. 相关工作2.1. 量化正如Gray和Neuhoff在[15]中指出的那样,量化作为一种将连续值转换为离散值的压缩方法,具有悠久的历史。四舍五入和截断是最常见的例子。如[14]中所讨论的,量化方法被分类为数据驱动[17,20,23,32,8,16]或无数据[2,3,5,12,13,37,27,6]。数据驱动的方法已被证明工作得非常好,尽管连续优化问题的粗略近似。然而,重新训练模型的成本限制了这些解决方案在推理引擎中的使用,并且通常用于机器学习即服务(MLaaS)[28]。此外,随着隐私关注的增加,特别是在医疗服务中[35],无数据方法变得非常重要。然而,这样的方法通常以较低的准确度为代价。2.2. 无数据量化无数据量化的重要性在最近的调查中有更详细的讨论[14]。大多数无数据方法专注于减轻量化过程导致的准确度下降。例如,DFQ[27]建议平衡重量分布,为了减少量化引起的偏置,他们还提出了第一个静态输入量化方法,该方法基于存储在批量归一化层参数中的学习统计数据。在SQuant[6]中,作者提出通过改变隐式目标函数来进一步改进权重量化。更正式地,舍入标量权重使标量量化权重与原始权重之间的均方误差最小化。SQuant最小化十个值而不是标量值之间的误差的绝对和。类似地,大多数无数据方法[2,3,5,12,13,37,27]2.3. 输入量化在这项工作中,我们强调了输入量化的重要性,特别是对于已经紧凑的体系结构,如MobileNet [29]和EfficientNet [33],如前所示。输入量化的标准方法,在[27]中介绍,后者在[6,36]中使用,包括静态估计每个层的粗略变化范围。该静态方法的参数在量化期间一次性计算,然后在推断期间固定:这提供了最佳的推理速度,但是由于输入范围的粗略建模而以较低的精度为代价。其他工作,如[2],将相同的每通道量化应用于权重和激活。不幸的是,这导致了不切实际的推论。因此,它们需要用于权重和输入的每个组合的浮点缩放因子这就是为什么在这里或在实践中不考虑不过,3871D×−L→ −∩D›→ ⌊ ⌉⌊·⌉D∈∈-∈l⊙Il−Il∈∈{||}∈{||}LLL,的。Wb−1=(2-1)、,−∈LIl、、、、、、sllIlsWlL+×Il在这项工作中,我们认为,一个重要的部分,交流-精度损失来自输入(和激活)量化。分别应用于I l和,Il,×,Wl。因此,s I根据这些观察结果,我们提出了SPIQ,一种通过实现每通道输入量化方案来达到动态方法的准确度水平的方法,该方法3. 方法设F:D<$→Rno是定义在域D <$Rni和输出空间Rno上的前馈神经网络。 由层f l执行的操作,对于l ∈{1,. . . ,L},由相应的权重张量W l∈ Anl−1 ×nl定义必须是缩放整个输入的单个标量值张量类似于权重缩放因子s W1,基于分布对比例的支持来计算输入比例s 11。然而,在无数据量化的情况下,我们为了规避这个限制,我们可以应用静态或动态激活量化方案。静态输入量化:目标是计算其中,在全连接层的情况下,A仅为R静态Il∈R基于Il的最大值的估计在k k卷积层的情况下为Rk×k。我们注意到Il是全连接层fl的输入。让我们考虑量子化算子Q:R [ β ; β]N,它将实值映射到一组有界的整数值,其中β=2b−11,b定义了目标表示的位宽。标准量化算子定义为Q:xx/s x其中是舍入操作,并且Sx是缩放因子。然后,量化层fq被定义为:在域上。假设BN层在fl之前,我们可以断言,E[I1]n=βn,V[I1]n=γn(3)其中,βRnl−1和γRnl−1分别是BN层的中心矢量参数和尺度矢量参数。因此,可以通过搜索输出通道上的最大值来导出域上的Il的最大值,并且我们得到,<$→Q−1(Q(I)×Q(W))=ss,Il,×,Wl,maxi∈Ilfrom D{|我|}maxn{βn+λ×<$γn}静态ll lI IIWIsllsWl(一)2b−1−12b−11=sIR(四)其中是元素乘积。sII和s WI的值分别取决于I I和W I上可用的信息。在权张量Wldur的情况在量化过程中,所有的信息都是可用的。因此,s Wl的值 由W l导出其中λ是灵敏度参数。这种量化方法在推理时不需要额外的计算,而只是引入了一个非常粗略的、静态的每层缩放因子。动态输入量化:目标是计算为了缩放标量权重值分布,[−β;β]。 有两个量化选项。首先,nl动态Il基于推断的输入Il,以输出通道权重量化,在这种情况下sW∈R推理时的开销计算。因此是Lmax{|我|}N维向量,并且每个输出通道(或神经元)被独立地缩放。第二,每层(或每层)i∈Il2b−1−1=sdynamic∈R(5)张量)量化,其中,是缩放整个权重张量W1的标量值。 形式上,如果注意,W通道是每通道量化张量,W层maxiI Ii的计算在每个推断处执行,这增加了显著的计算开销(参见第4.3节)。然而,缩放因子L每层量化张量,LmaxiIIi必然比静态情况下更紧因此具有较低的量化误差。 尽管如此,我们认为中国台湾W频道钨层nln∈N{|W|}=(2b−11)Wlmax w∈Wl{|W|}n ∈{1,…,n l}由于每个通道的重新缩放,可以设计更严格的静态输入量化方案。3.2.每通道静态输入量化哪里n是第nWl柱(二)对应于第n个我们定义缩放向量s通道R nl−1 使用BN层。从形式上讲,层神经元3.1.静态和动态输入量化maxi∈Infrom D{|我|}2b−1−1βn+λ×λγn2b−1−1=. s通道双稳态(六)来自等式1的s11的定义引入了维数,其中s通道∈Rnl−1。 然而,我们再也无法语义约束 我们需要将s I应用于两个I I(Il执行如等式1所述的去量化,有n个l-1通道),我是我是WlsWlL,即如果s ll是矢量维度问题的原因。 从形式上讲,缩放矢量-那么sll需要维数nl−1和nl,SSWLΣ、L≈3872tors通道可以应用于II,但不能应用于激活3873Lf:I›→sWlIl.,、,,WIl静态L我,,sllsWlLIl(f(I))=l−1snLIlmax m{|Wn,m|/sm}Ill−smLM<$≤<$Il−sIlL静态¨LIlIW−sIsW,,¨¨ ¨ ¨¨n,m使用标准量化运算符的型坯Il×Wl.为了解决这个限制,我们建议将量化分解为两个步骤。首先,我们更新W 1,使得它将重新缩放s 11的逆应用于输入11和最初由W 1定义的操作。然后我们注意到,4. 实验4.1. 数据集和实施详细信息我们验证了三个具有挑战性的计算机视觉任务所提出的方法。首先,在图像分类方面,我们W通道=diag(s通道)×W(七)考虑ImageNet [9]。 其次,在目标检测方面,我们在Pascal VOC 2012上进行实验[11]。第三、其中diag是对角矩阵中的向量的变换。其次,我们将新值W通道缩放为单个权重张量。因此,等式1变为:在图像分割上,我们使用CityScapes数据集[7]。在我们的实验中,我们在ImageNet上解决了MobileNets[29], ResNets[18], EfficientNets[33]和DenseNets[19]的挑战性压缩。对于Pascal VOC对象Ql声道LIls通道×信道Ls信道L(八)检测挑战我们使用SSD[24]架构。在CityScapes上,我们使用DeepLab V3+[4]。ResNet、DenseNet、MobileNet和EfficientNet for Ima-换句话说,计算每个通道的输入范围和通道的缩放因子,并将其折叠在Wl内(等式7)。这允许我们仅在量化之前重新缩放输入I1,从而规避在第3.1节中引入的维度约束。此外,与量化相比,这允许我们减少误差,因为每个输出通道(或神经元)变为:geNet来自Tensorflow模型动物园[1]。在对象检测中,我们使用[25]中的MobileNet主干测试了SSD模型。最后,在图像语义分割中,DeepLab V3+模型来自[10]。网络预训练的权重为每个任务提供标准的基线精度。SPIQ和量化基线使用Numpy实现。结果是使用qnnnLL我...WSMWn,m/sm,LIl(九)英特尔酷睿i9- 9900 K CPU和RTX 3090 GPU。其中sm是s通道的第m个值,Wn,m是来自[21]的权重值的值(与OCS[37]和SQNRII坐标n,m。此外,我们从公式6中推导出,[26])。为了与最先进的无数据量化方法进行比较,我们采用了更复杂我是Il,我是,量子化算子从SQuant[6]使用我们自己的im-(十)这是一项认真执行的工作,sIlsIl换句话说,对于每通道方法,输入上的量化误差较低。然而,该方法还通过在权重张量Wl中折叠输入尺度来改变权重量化。静态方法和每通道静态方法之间的区别在于分母maxm{|W|/sm}。 根据定义,我们具有sm≤s静态,并且Wl的标量值Wn,m可能与原始论文的结果一致。4.2. 超参数设置所提出的方法仅需要一个超参数λ,其设置输入的缩放值中的标准偏差的数量,如等式6中所定义的。在DFQ[27]中,作者建议基于高斯先验和目标,将静态输入量化设置为λ=6我,我,ln,m保持在99以上。99%的输入值未被限幅。 Intu-当且仅当Wl和对应的Im都具有接近零的范围时,可以取消。我们推断,所提出的方法的结果在一个较低的量化误差平均,即。λ的值决定了期望输入分布的支持度换句话说,大的值λ几乎不引起异常值,但是许多小的值将以非常粗略的方式被量化。另一方面,小值λEI∈D IW−sWs通道IWS信道通道我会导致许多输入离群值,这些离群值将被裁剪,但会导致较小输入的细粒度量化。我们凭经验评估-我是我sWs通道?(十一)静电的,I,,W,?S静态我SW找出λ的最佳值,并在图2中报告我们的结果。 我们观察到位宽(int4,...)比神经网络架构对λ值更重要:这提供了一个直观的优越性能的建议SPIQ量化方案的参考静态方法。在下文中,我们表明SPIQ在经验上也优于动态方法,这反过来又允许显着改善当前最先进的方法。表示越小,λ的最优值越低。这是以下事实的结果:较小的位宽可以表示较少的值,同时仍然需要精细地量化小输入值。为了简单起见,我们对所有架构使用公共的λ值,并定义λ=b,例如在int8中我们使用λ=8,在int4中我们使用λ=4。LL×(2b−1−1)m=1我们进行了超参数设置以及com-≤EI∈D3874ImageNet top 1精度ResNet50 MobileNet DenseNet EfficientNet80.0080.0060.00 60.0040.00 40.0020.00 20.000.002 4 68λ值W8/A80.002 4 6 8λ值W8/A4图2.超参数λ对使用朴素每通道量化在int8中量化的权重的top1准确性的影响,以及在我们的输入量化协议中使用int8或int4量化的输入,在ResNet 50,MobileNet V2,DenseNet 121和EfficientNet B0上进行分类。表1.使用静态(与SPIQ相同的运行时)和动态方法量化的不同架构的ImageNet验证集上的推理时间比较我们报告使用建议的静态方法引起的升压。方法ResNetMobNet V2DenseNetEffNet B0动态SPIQ79s63s50年代41年代93s77s59秒51秒提振百分之二十点二18.0%百分之十七点二百分之十三点六表2. 在ImageNet上使用ResNet 50比较最先进的无数据后训练量化技术我们区分需要数据生成(无DG)的方法。在SPIQ中,权重量化方法是SQuant。方法无危险品w比特a位精度ResNet 50基线-323276.15DFQ[27]✓8875.45ZeroQ[3]✗8875.89DSG[36]✗8875.87GDFQ[34]✗8875.71SQuant[6]✓8876.04SPIQ + SQuant✓8876.15DFQ[27]✓440.10ZeroQ[3]✗447.75DSG[36]✗4423.10GDFQ[34]✗4455.65SQuant[6]✓4468.60SPIQ + SQuant✓4469.704.3. 与静态和动态基线的比较图3显示了静态、动态和SPIQ方法在输入和激活的位宽精度方面的比较。给定int8中用[21]量化的权重,我们观察到动态方法提供的准确性提高,ImageNet top 1精度3875静态1例如,在W8/A3中的DenseNet 121上(int8权重和int 3激活),我们观察到15的改进。38分。 这是由于对来自动态方法的每个输入的自适应缩放。尽管如此,所提出的每通道设法进一步提高动态方法的准确在同一个例子中,SPIQ分别在静态和动态基线上增加了46,39和31,01个动态和SPIQ方法实现类似结果的唯一架构是Mo- bileNet V2,而在W8/A6中量化的EfficientNet B 0上,SPIQ优于动态方法30。35分。这些结果是SPIQ对每个特定通道进行更严格量化的结果。此外,在推理速度方面,如表1所示,SPIQ方法系统地优于动态方法。例如,在MobileNet V2上,提出的方法实现了18%的推理速度。这对应于在推理过程中调整每个输入的缩放参数的成本。因此,SPIQ提供了静态方法的推理速度,并具有与动态方法相当或更高的精度。在下面的部分中,我们比较了SPIQ的性能与其他无数据量化算法。4.4. 与最新技术水平的表 2 列 出 了 几 种 无 数 据 量 化 方 法 在 ImageNet 上ResNet 50的不同量化配置上的性能我们根据数据生成(DG)的使用情况对方法进行分类。与所提出的方法相比,这种要求是耗时的,所提出的方法花费不到一秒的时间来对模型进行建模,而几个反向传播通道花费几分钟并且微调几个小时。尽管如此,我们证明,建议的输入量化使我们能够实现优于其他结果3876806040200806040200806040200SPIQResNet 50静止型动态DenseNet 121SPIQ静止型动态SPIQ静止型动态SPIQ静止型动态8060402002 3 4 5 6 7 82 3 4 5 6 7 82 3 4 5 6 7 82 3 4 5 6 7 8输入/激活量化输入/激活量化图3. SPIQ与静态和动态输入量化之间的比较。权重量化固定为8位,我们将输入位范围从int2(三进制量化)改变为int8。我们报告了ResNet 50、MobileNet V2、EfficientNet B0和DenseNet 121在ImageNet上的前1名准确率。表 3. 在 ImageNet 上 使 用 MobileNet V2 、 DenseNet 121 和EfficientNet B0比较最先进的无数据后训练量化技术。 我们专注于无数据的后训练量化方法,不涉及反向传播。在SPIQ中,权重量化方法是SQuant。方法没有BPw比特a位精度MobileNet V2基线-323271.80DFQ[27]✓8870.92SQuant[6]✓8871.68SPIQ + SQuant✓8871.79DFQ[27]✓6645.84SQuant[6]✓6655.38SPIQ + SQuant✓6663.24DenseNet 121基线-323275.00DFQ[27]✓8874.75[37]第三十七话✓8874.10SQuant[6]✓8874.70SPIQ + SQuant✓8875.00DFQ[27]✓440.10[37]第三十七话✓440.10SQuant[6]✓4447.14SPIQ + SQuant✓4451.83EfficientNet B0基线-323277.10DFQ[27]✓8846.43SQuant[6]✓8876.93SPIQ + SQuant✓8877.02DFQ[27]✓6620.29SQuant[6]✓6654.51SPIQ + SQuant✓6674.67无数据量化协议。具体来说,在int8中,精度几乎达到全精度(浮点数32)精度,而在int4中,我们将精度下降了14。56%,与单独的SQuant相比,68. 与GDFQ相比,5%[34]。这证实了在量化之前将输入缩放应用于权重(第3.2节中的等式8)即使在低精度下也不会损害权重总体而言,该方法在此基准测试中达到了显着的精度。表4. CityScapes数据集上语义分割的性能(mIoU)。方法W4/A4 W6/A6 W8/A8-DeepLab V3+基线---70.71DFQ +静态6.5145.7170.11-DFQ +动态7.5166.6570.22-SQuant +静态7.6966.7770.21-SQuant +动态28.8766.9870.42-SQuant + SPIQ36.1468.6970.66-表5.使用SSD MobileNet对Pascal VOC 2012数据集进行对象检测的性能(mAP)。方法W4/A4 W6/A6 W8/A8-SSD MobileNet基线---68.56DFQ +静态3.9453.5267.91-DFQ +动态15.9562.3167.52-SQuant +静态14.9861.2968.43-SQuant +动态35.4766.7268.56-SQuant + SPIQ37.8868.0168.56-为了进一步验证SPIQ的效率,在表3中,我们报告了DenseNet 121,EfficientNet和MobileNet V2的结果所考虑的架构,特别是MobileNet V2和EfficientNet,甚至比ResNet更具挑战性,即使在相对较大的表示形式(如int6)中也能在不降低精度的情况下进行重构。我们只关注最先进的方法(没有数据生成)OCS [37]、DFQ [27]和SQuant [6]。我们观察到一个更强的输入量化方法的巨大好处,SPIQ提高了7。86%的准确率,SQuant和17。在int6中,比MobileNet V2上的DFQ高4%结果在Int6中的EfficientNet B0上更令人印象深刻,因为SPIQ将准确率提高了20。16%的SQuant和31. 比DFQ高59%。与OCS相比,在DenseNet 121上,所提出的方法将准确率提高了8。百分之七十四尽管如此,无数据量化在int4量化中仍有改进的空间,在已经高效的架构上,如MobileNet V2和EfficientNet B0。在下面的部分中,我们建议将这些值得注意的结果推广到其他具有挑战性的任务。ImageNet top 1精度3877图4. SPIQ输出的量化范围的分布,ResNet 50的3个不同层的输入上的动态和静态基线。静态基线是恒定的,而动态和SPIQ分别取决于输入样本和通道。计算出的范围越低(越靠近每个子图的左侧)越好。与静态和动态方法相比,SPIQ通常允许更紧密地适应原始输入分布。4.5. 其他应用语 义 分 割 : 在 表 4 中 , 我 们 报 告 了 SPIQ 方 法 在CityScapes数据集的图像语义分割任务上的性能。动态方法仍然提供比静态基线更高的精度,这是由于其对每个输入的自适应缩放而不管权重量化过程。尽管如此,由于每个通道的输入更精细的量化,SPIQ设法进一步提高了动态方法的准确性,达到了68等结果。W6A6中的69mIoU这证实了前面的两个主要结果:第一,SPIQ提供了最高的准确性,同时保留静态输入量化的推理时间的好处其次,当与强权重量化协议结合使用时,SPIQ实现了最先进的性能,并显着提高了低位表示(int4)的准确性。更准确地说,我们提高了29。是DeepLab V3+的63%目标检测:在表5中,我们报告了SPIQ方法在PascalVOC 2012数据集的对象检测上的性能。动态输入量化在精度方面优于静态基线,但以运行时间为代价。尽管如此,SPIQ还是设法将mAP进一步提高了2。41分。这是在所有位宽配置中适合于网络每层的每个输入通道的细粒度量化的结果。这些结果证实了我们的两个主要结果:SPIQ提供了最高的平均平均精度(mAP)在所有的量化配置相比,静态和动态的方法,从int8到低位int4。此外,SPIQ方法实现了更高的mAP比其他国家的最先进的量化方案,只集中在提高权重量化。这些结果结束了我们的经验验证SPIQ。5. 讨论经验直觉:图4所示为使用静态和动态方法以及SPIQ计算的样本缩放范围的比较。它源于这些方法的定义,即范围越接近0(在图4子图的左侧此外,虽然静态范围在所有示例和通道中是相同的,但是动态方法以及SPIQ分别根据这两个因素而变化。我们观察到,静态方法并不是在所有情况下都与输入分布紧密相关.动态方法允许在每个场景中进行更严格的适应。此外,根据输入示例(图4的第一行),SPIQ通常比动态方法更严格(最明显的是例如,层15,其中利用SPIQ计算的范围低得多,并且在较小程度上,层2)。此外,使用一个固定示例(图4的第二行)改变输入通道表明,使用SPIQ计算的范围通常比使用动态方法计算的范围更紧图5还示出了如何在某些信道(例如,层2的信道32),则动态方法努力平衡整个量化范围的值。相比之下,SPIQ定性地允许更好地保留特征图细节,这反过来又提高了准确性。因此,我们认为,如果必须在每个示例和每个通道量化之间进行选择,后者将更相关。但是,为什么3878Resnet 50 Layer #2 Resnet 50 Layer #37通道#1通道#12通道#32通道#1频道#45频道#232图5.量化(静态、动态和SPIQ)ResNet 50的不同特征映射通道的图示关于设计每通道动态量化的可能性:通过简单地组合等式5和等式6,可以在数学上执行每通道动态量化。然而,在实践中,除了在每个推断步骤处的激活量化之外,这将需要执行权重量化。这将是非常耗时的,特别是当处理具有比输入张量更大的权重张量的全连接层时。此外,这将需要以全精度而不是低位精度存储权重值,这消除了量化的好处之一即存储器占用减少。因此,虽然每通道动态量化在理论上是可行的,但在实践中,人们必须在每示例和每通道建模之间进行选择,因为将两者结合是非常不实用的。我们表明,每通道导致更好的性能。6. 结论在这项工作中,我们强调了当前训练后量化方法的局限性,认为量化每一层的输入对成功的PTQ至关重要此外,我们表明,每通道范围估计允许更严格的全精度分布建模,例如。与每个示例的动态方法相比。因此我们提出了SPIQ,一种新颖的静态输入量化方法,它以无数据的方式利用输入的每通道量化。我们的经验表明,SPIQ实现了更好的速度比。除了显著地改进跨广泛应用和神经网络架构的现有技术水平的方法之外,该方法还比静态和动态输入方法两者具有更高的精度折衷。局限性和未来工作:对于无数据加速来说,非常低的位表示仍然是一项极具挑战性的任务。在诸如二进制或三进制量化的情况下,所提出的方法将大大受益于微调。使用与[36,34]类似的方法获得的生成数据可以更好地了解输入分布并改善输入量化的尺度估计。致谢这 项 工 作 得 到 了 法 国 国 家 研 究 和 技 术 协 会(ANRT)、公司Datakalab(CIFRE公约C20/1396)和法国国家机构(ANR)(FacIL,项目ANR-17-CE 33 -0002)的支持根据GENCI的分配2022-AD 011013384,本工作获得了IDRIS HPC资源的访问权限。静态动态SPIQ动态静态SPIQ3879引用[1] Mart 'ın Abadi,Ashish Agarwal,Paul Barham,EugeneBrevdo,Zhifeng Chen,Craig Citro,Greg S Corrado,Andy Davis , Jeffrey Dean , Matthieu Devin , et al.Tensorflow:异构分布式系统上的大规模机器学习。arXiv预印本arXiv:1603.04467,2016。[2] Ron Banner,Yury Nahshan,and Daniel Soudry.后训练4位量化的卷积网络,用于快速部署.在NeurIPS,第7950-7958页[3] 蔡耀辉,姚哲伟,董震,阿米尔·戈拉米,迈克尔·W·马奥尼和库尔特·库茨。Zeroq:一种新颖的零拍量化框架。在CVPR中,第13169[4] Liang-Chieh Chen,Yukun Zhu,George Papandreou,Florian Schroff,and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。参见ECCV,第801-818页[5] Yoni Choukroun,Eli Kravchik,Fan Yang,and PavelKisilev.神经网络的低比特量化,用于高效推理。在ICCV研讨会,第3009-3018页[6] 郭聪等Squant:通过对角Hessian近似的动态无数据量化。ICLR,2022.[7] Marius Cordts , Mohamed Omran , Sebastian Ramos ,Timo Rehfeld,Markus Enzweiler,Rodrigo Benenson,Uwe Franke,Stefan Roth,and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在CVPR,第3213-3223页[8] Matthieu Courbariaux , Yoshua Bengio 和 Jean-PierreDavid。Binaryconnect:在传播过程中使用二进制权重训练深度神经网络。NeurIPS,第3123-3131页,2015年[9] J. Deng,W.董,等ImageNet:一个大规模的层次化图像数据库。CVPR,2009。[10] ZakirovEmil.Mobilenet-SSD-Keras 。 https : //github.com/bonlime/keras-deeplab-v3-plus,2018.[11] M.埃弗灵厄姆湖,澳-地凡古尔角,澳-地K. I.威廉斯,J.Winn 和 A. 齐 瑟 曼 。 PASCAL Visual Object ClassesChallenge2012(VOC2012)http://www.pascal-network.org/challenges/VOC/voc2012/workshop/index.html, 2012年。[12] Jun Fang , Ali Shafiee , Hamzah Abdel-Aziz , DavidThorsley,Georgios Georgiadis,and Joseph H Hassoun.深度神经网络的后训练分段线性量化。见《欧洲法院判例汇编》,第69-86页。Springer,2020年。[13] Sahaj Garg,Anirudh Jain,Joe Lou,and Mitchell Nah-Kazakhstan.神经网络量化的混杂权衡。arXiv预印本arXiv:2102.06366,2021。[14] Amir Gholami , Sehoon Kim , Zhen Dong , ZheweiYao,Michael W Mahoney和Kurt Keutzer。有效神经网络 推 理 的 量 化 方 法 综 述 arXiv 预 印 本 arXiv :2103.13630,2021。[15] Robert M.作者声明:David L. 诺伊霍夫量化。IEEEtransactions on information theory,44(6):2325[16] Philipp Gysel,Mohammad Motamedi,and Soheil Ghiasi.卷积神经网络的面向硬件近似。ICLR研讨会,2016年。3880[17] 菲利普·吉塞尔,乔恩·皮门特尔,默罕默德·莫塔梅迪,还有苏·吉亚西. Ristretto:实证研究的框架卷积神经 网络 中的 资源 高效 推理 。IEEE transactions onneural networks and learning systems,29(11):5784[18] 何开明,张翔宇,等.用于图像识别的深度残差学习。CVPR,第770-778页,2016年[19] Gao Huang,Zhuang Liu,Laurens Van Der Maaten,andKilian Q Weinberger.密集连接的卷积网络。在CVPR中,第4700-4708页[20] Itay Hubara 、 Matthieu Courbariaux 、 Daniel Soudry 、Ran El-Yaniv 和 Yoshua Bengio 。 二 值 化 神 经 网 络NeurIPS,29,2016.[21] Raghuraman Krishnamoorthi量化深度卷积网络以实现高效推理:白皮书。arXiv预印本arXiv:1806.08342,2018。[22] 李猛,于理,司鹏波,张艳华。利用移动边缘计算和无线网络虚拟化实现绿色机器对机器通信。IEEE通信杂志,56(5):148[23] ZhouhanLin,MatthieuCourbariaux,RolandMemisevic,and Yoonge Bengio.具有少量乘法的神经网络。arXiv预印本arXiv:1510.03009,2015年。[24] Wei Liu , Dragomir Anguelov , Dumitru Erhan ,Christian Szegedy , Scott Reed ,Cheng-Yang Fu ,andAlexander C Berg. Ssd:单发多盒探测器。在ECCV中,第21-37页。施普林格,2016年。[25] Soni ManishMobilenet-SSD-Keras。https://github.com/ManishSoni1908/Mobilenet-ssd-keras,2019.[26] Eldad Meller,Alexander Finkelstein,Uri Almog,andMark Grobman.相同的,相同的,但不同的:通过权值分解恢复神经网络量化误差。在ICML,第4486-4495页[27] Markus Nagel,Mart van Baalen,等.通过权重均衡和偏差校正实现无数据在ICCV,第1325-1334页[28] Mauro Ribeiro , Katarina Grolinger , and Miriam AMCapretz. Mlaas:机器学习即服务。见国际刑事司法协助委员会,第896-902页。IEEE,2015年。[29] Mark Sandler,Andrew Howard,et al.Mobilenetv2:反向残差和线性瓶颈。在CVPR中,第4510[30] Weisong Shi和Schahram Dustdar。边缘计算的承诺。Computer,49(5):78[31] Ximeng Sun , Rameswar Panda , Chun-Fu RichardChen,Aude Oliva,Rogerio Feris,and Kate Saenko.动态网络量化,有效的视频推理.在ICCV,第7375-7385页[32] ShyamA Tailor , JavierFernando-Marques , andNicholas D Lane.学位定量:图神经网络的量化感知训练。ICLR,2021年。[33] Mingxing Tan
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IEEE 14总线系统Simulink模型开发指南与案例研究
- STLinkV2.J16.S4固件更新与应用指南
- Java并发处理的实用示例分析
- Linux下简化部署与日志查看的Shell脚本工具
- Maven增量编译技术详解及应用示例
- MyEclipse 2021.5.24a最新版本发布
- Indore探索前端代码库使用指南与开发环境搭建
- 电子技术基础数字部分PPT课件第六版康华光
- MySQL 8.0.25版本可视化安装包详细介绍
- 易语言实现主流搜索引擎快速集成
- 使用asyncio-sse包装器实现服务器事件推送简易指南
- Java高级开发工程师面试要点总结
- R语言项目ClearningData-Proj1的数据处理
- VFP成本费用计算系统源码及论文全面解析
- Qt5与C++打造书籍管理系统教程
- React 应用入门:开发、测试及生产部署教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功