没有合适的资源?快使用搜索试试~ 我知道了~
量化神经网络的STE变体和加性噪声退火算法对QNN的训练影响的研究
470用STE变量训练量化神经网络:加性噪声退火算法Matteo Spallanzani1*Gian Paolo Leonardi2Luca Benini1,31瑞士苏黎世州信息技术与电气技术学院2意大利特伦托大学数学系3Dipartimento di Ingegneria Elettrica e dell摘要量化神经网络的训练是一个不可微的优化问题,因为权值和特征是由分段常数函数输出的。标准解决方案是应用直通估计器(STE),在推断和梯度计算步骤期间使用不同的函数。在文献中已经提出了几种STE变体,旨在最大限度地提高训练网络的任务精度。在本文中,我们分析了STE变体,并研究了它们对QNN训练的影响。我们首先观察到,大多数这样的变体可以建模为阶梯函数的随机调节;虽然这种直观的解释并不新鲜,但我们严格的讨论推广到了其他变体。然后,我们分析了混合不同正则化的QNN,发现需要对每个层映射进行适当的同步平滑,以保证逐点合成收敛到目标不连续函数。基于这些理论见解,我们提出了加性噪声退火(ANA),一种新的算法来训练QNN,包括标准STE及其变体作为特殊情况。当在CIFAR-10图像分类基准上测试ANA时,我们发现对任务准确性的主要影响不是由于规则的定性形状,而是根据理论结果,网络中使用的不同STE变体的适当同步。1. 介绍深度学习在过去十年中在从计算机视觉到自然语言处理的广泛领域中迅速发展[3,8]。然而,使其普及需要在嵌入式或边缘设备上部署深度神经网络在具有有限存储、内存和处理能力的计算系统上。这些限制与典型的要求*通讯作者:spmatteo@ethz.chDNN需要数百万甚至数十亿的参数和操作来提供其性能。微型机器学习(TinyML)的研究已经朝着在资源受限的设备上部署DNN迈出了相当大的步伐。第一类技术旨在使DNN在每个参数的准确性或每个操作的准确性方面更有效[22,23]。我们将这些技术称为拓扑优化,因为它们通过改变DNN的结构来实现更高的模型第二类方法集中在派生模型上,这些模型利用目标部署平台的属性这些与硬件相关的优化包括硬件友好的激活函数[18],权重聚类和权重tensor分解[7,13,28]以及QNN [10]。QNN使用降低精度的整数操作数来满足存储要求,并利用嵌入式和边缘平台的整数运算相对于其浮点对应物,QNN通常会导致任务准确性下降[11]。已经提出了几种策略来抵消这一缺点,从改变目标QNN的拓扑结构[16,30],通过在同一网络内混合不同的数据表示和精度[17,24],到学习所然而,理解如何通过对量化操作数建模的不连续函数传播梯度仍然是QNN训练中的关键问题。&分段常数函数的经典导数在所有连续点处为零,而其分布导数是狄拉克三角形的因此,不能直接应用反向传播算法来训练QNN。这个问题的标准解决方案是将所谓的STE应用于目标QNN中的所有不连续函数[2,9]。应用STE相当于在学习迭代的向前和向后步骤期间使用两个不同的函数471···}n+x→q+(q−q)H(x).0kk−1θ.›→θ−∈∈≥Θ,Q[−其中第二个是可微的。更换功能的选择并不唯一。先前的研究表明,使用STE替换计算的替代梯度是所谓的人口损失的下降方向,并且选择适当的向后函数是必要的,以确保收敛到损失景观的局部最小值[15,27]。文献中提出了几种STE变体,旨在最大限度地提高训练QNN的任务准确性[5,17,26]。值得注意的是,通过不可微性传播梯度的问题也与尖峰神经网络(SNN)有关[20,26]。事实上,SNN训练算法的研究已经提出了类似于STE的替代梯度。特别是,Whet-stone 方法提供了一种从DNN训练SNN的解决方案[20]:该方法逐渐将DNN转换为在GitHub1上可用。本文的组织如下:在第2节中,我们介绍所需的术语和证明的理论结果;在第3节中,我们描述ANA;在第4节中,我们描述我们的实验设计,并讨论其结果;最后,在第5节中,我们总结了我们的研究结果。2. 分析STE变体2.1. 量化器和STE给定整数K≥2,量化级别的集合Q:={q0· · ·qK-1}<$R和集合Θ:={θ1<<<<θK−1R的阈值,我们定义一个K-量化器成为阶梯函数σΘ,Q:R →Q通过在训练期间将DNN的激活函数退火到Heaviside阶跃函数来生成SNN退火遵循启发式调度,其中激活越接近输入,退火越快类似的软到硬退火也被提出来使用自动编码器将图像压缩成二进制表示[1]。这些动态STE变体添加到为QNN提出的静态变体中。是否有可能得出静态和动态STE变体的统一描述它们对QNN训练有什么影响?在这里,K−1θkk=1H+:R→{0,1}x0,如果x θ,1,如果θ≤x,(一)(二)主要贡献在本文中,我们提出了一个理论框架,以统一的方式来描述STE变体。具体而言,我们为QNN研究领域做出了以下贡献:• 我们观察到,与文献中提出的几种STE变体相关联的后向函数可以表示为处理噪声输入的量化器的期望值;这种解释起源于许多STE变体家族;• 我们分析了将STE的动态变量应用于QNN的问题,引入了合成收敛的新概念;• 我们介绍了ANA,一种新的训练QNN的算法,包括标准STE及其变体(静态和动态)作为特例;• 当将ANA应用于CIFAR-10图像分类基准时,我们观察到STE后向函数的定性形状对最终精度的影响充其量是微小的;相反,我们观察到使用动态STE变量的QNN中的调节的适当同步对于保证收敛是必不可少的;再现我们的实验的代码是(参数)He一个viside函数。注意,H+本身是一个2-量子化子。为了方便起见,我们将K-量化器的仓 定 义 为 量 化 级 别 的 反 像 : I k : = σ −1 ( { qk })。在实际应用中,对于某个整数精度B1,K被设为等于2B,存在一个偏移量zZ和一个量子数θR+,使得 q0=z θ,θ k=qk=(z+k)θ,其中k=1,. . .、K1。这种简化允许在硬件高效的地板和裁剪操作方面重写(1),产生线性B比特量化器:σΘ,Q(x)=σ z,σ z(x)=σclip(x/σ z,z,z+K1)。 z通常选择为0(无符号B位线性量化器)或2B−1(带符号B位线性量化器)。当K(分别为B)的精确值不可靠时,如果可以从上下文推断,我们将简单地使用术语量化器(分别为线性量化器)。当不影响公开的清晰度时,我们也将删除下标以提高可读性。量化器是分段常数函数:它们的经典导数在阈值处不存在,并且在箱的内部为零。这种可微性的缺乏对于反向传播是破坏性的,并且在理论上会阻止QNN的基于梯度的训练。STE可以被看作是一种技术,通过用可微的1 https : //github.com/pulp-platform/quantlab/tree/ANA−4720≤→→ →→∗→∈∈∈∈−−DX0×≥⊂≥⊆⊆≥⊆√−√0√≡≡≡≡或几乎任何地方的可微函数σ_i,然后在i v e处计算deriv。我们将STE目 标 命名为σ,将STE正则化命名为σ。 用于He与H +相比的示例替换函数包括硬S形σ_( x ) : =max{0 , min{ x + 1 / 2 ,1 } } , 裁 剪 的 ReLU σ_ ( x ) :=max{0,min{ x + 1 / 2,1}},我们有σλ(x):=(μλσ)(x)0,如果x a(λ),=x−a(λ),如果a(λ) x b(λ),b(λ)−a(λ)(三)max{0,min{x,1}},并且ReLUσ(x)=max{0,x}。2.2. 统一STE变体考虑一个不连续函数σ:R →R。我们说一个函数σλ:R→R是一个相应的参数正则化,如果对每个λ∈R+,σλ∈C1(R)(或Lipschitz,因而几乎处处可微),并且limλ→0σλ(x)=σ(x),其中λ∈R+是参数1,如果b(λ)≤x,其导数(Dμ λσ)(x)=μ λ(x)。由于α(λ),β(λ)0作为λ0,µ λδ0(中心为零的狄拉克δ)是分布意义上的,σ λ σ是点态意义上的,这是正则函数定义所要求的。这一讨论如何与STE相一致?如果我们设置控制规范化程度。这是基本的表明,期望算子作为一个卷积,将一个不连续的函数变成一个可微的,无论是在经典意义上或分布意义上。在下文中,我们将重载μ来表示R上的绝对连续概率测度和相应的概率密度函数。1.提案 令σ:RQ是K量子化器。设ν是一个概率密度为μ的实随机变量 对于任何值ν′R,我们定义函数σν′(x):=σ(x ν′)。 然后又道:(i) Eμ[σν(x)]=(μ<$σ)(x),<$x∈R;因此我们定义Eµ[σν]:=µσ;(ii) 若μ W1,1(R),则Eμ[σν]是可微的,其导数是有界的,连续的,且满足dEμ[σν]=Dμσ;(iii) 如果μ ∈ BV(R),则D Eμ[σ ν]= Dμ <$σ几乎每个-其中,并且它有界于<$σ <$∞|Dµ|(R)。换句话说,该命题指出,我们可以通过将其与概率密度μ满足μ W1,1(R)(例如,三角分布、正态分布和logistic分布)或较弱的μ分布BV(R)(例如,在一个紧凑的区间上的均匀分布)。注意,对于常见的零均值分布(如均匀分布、三角分布、正态分布和对数分布),噪声密度是一个偶函数(µ(ν)=µ(ν)α(λ)1/2和β(λ)1/2 3,σ λ是裁剪后的ReLU。同样,如果我们设置α(λ)0和β(λ)1/2 3,σ λ是硬S形。同样的原则也可以适用于为了得到[5,17]中提出的H+的分段多项式正则化(对应于三角噪声分布),以及误差函数(在正常噪声的情况下)和逻辑函数(在逻辑噪声的情况下)。所有这些函数都可以被看作是Heaviside的正则化,这并不是新的观察结果[20,26];然而,命题1推广到更广泛的正则化类。2.3. 动态STE和成分趋同在这一小节中,我们考虑用可以随时间演变的STE变体来调节QNN的问题。首先,我们将设置描述任意神经网络的形式;在定义量化层映射的组合之后,我们将定义正则化层映射的组合;最后,我们将定义组合收敛的概念并简要讨论其含义设L2为层数的整数. 给定一个整数输入大小n01,设X0Rn0 是输入空间. 对于每个l = 1,. - 是的- 是的,L,定义整数层大小nA1、特征空间XARnl、权重矩阵空间WARnl×nl−1、偏置向量空间BARnl和参数空间MA:=WABA。对于每个l = 1,. - 是的- 是的,L,给定固定的mA=(WA,bA)MA,定义第l层地图<$ml:=σA<$Sml(4)作为仿射映射的合成我们可以通过考虑参数密度将正则化函数的概念与随机设置联系起来SML:XA−1→Rnl(五)µλ。 作为一个例子,考虑均匀分布,其平均值α(λ)和标准差β(λ)依赖于λ,使得当λ → 0时α(λ)和β(λ)趋于零。这分布具有密度μλ(ν)=χ[a(λ),b(λ)](ν)/(b(λ)−a(λ)),其中a(λ):= α(λ)3β(λ),b(λ):=α(λ)+3β(λ)。设目标量化器为σ=H+,xA−1<$→WAxA−1+bA=:sA,元素映射σA:Rnl→XAsA<$→ σA(sA)=(σA,1(sA,1),. -是的-是的,σA,nl(sA,nl))′=:xA,(六)∈473→^×··×◦l llL∈ AA联系我们λl-−→其中函数σA,il:RR,iA=1,. -是的-是的 ,nA,是激活函数。激活函数被假定为非恒定和非递减的。对于图层映射,l =1、. - 是的- 是的,L-1,则至少存在一个激活函数另外我们假设的收敛速度rA( λ),l=1,.- 是的- 是的,L是给定的,使得对于每个ε>0σ−1(εrA(λ))−−→0,(15)λ→0σA,il是非线性的(例如,有界函数)。无论是在σ−1(1−εrA(λ))− −→0,(16)λl理论和应用中,通常假定σL是恒等函数G iv enl<$∈{1,. -是的-是的 ,L},我们定义m∈A<$:=(m1,. -是的-是的,mA<$)为从MA<$:=M1MA<$获取的收集ive参数。我们定义一个网络图递归如下:λ→01 −σλl(0)0,(17)λ→0并且,对于l=2,.- 是的- 是的,L,公司简介:=m,rA−1(λ)−−→0.(十八)第十一章(七)σ−1(1−εr(λ))λ→0公司简介 :=ml◦ 公司简介 l−1 ,l = 2,. -是的- 是的,L.λlA考虑一个网络图ΦmL使得其所有激活然后,对于任何给定的x0∈X0,我们有函数σA,i1,iA=1,. -是的-是的 ,nA,l=1,. -是的-是的,L-1是x(2). 对于每个l = 1,. - 是的- 是的,L − 1,令σ λl:R → Rλl,A-−→ 0,n = 1,. - 是的- 是的,L.(十九)是(2)的参数正则化,其中正则化pa-rA(λ)λ→0λA=λA(λ)>0,σλ:Rnl →Rnlbe the如果(11)-(18)成立,则我们说,正则化σ,l=Lσ λ l的分量式应用。类似于(4),我们定义l阶正则化的Layer 映射为 λl , ml:=σλlSML. 类 似 于(7),我们将重新正则化的网络映射定义为λl1、. - 是的- 是的,L满足合成收敛假设。换句话说,该定理指出,参数正则化应该在数量上收敛得更快,Φλ≤ 1,m≤1:=λ1,m1,(八)层映射更接近输入。尽管这一结果描述了正则化网络如何处理信息,Φ λl,ml:=λl,ml<$Φ λl−1,ml−1,l=2,. -是的-是的 ,L .给定x0∈X0,我们定义xA:=Φm l(x0),l=1,. -是的-是的,L ,(9)是x0的量化特征,xλ, A:=Φλ ,m(x0),l=1,. -是的-是的,L .(十)是x0的正则化特征 我们感兴趣的是理解在σλl的演化的条件下,正则化特征xλl,A对应于量化特征xA。我们记得收敛速度是并且不能解释正则化梯度(在[ 27 ]中被称为“粗梯度 ” ) 和 种 群 损 失 梯 度 之 间 的 相 干 性 事 实 上 ,Whetstone方法使用“退火时间表”,其中在进行到后面的层之前,在较早的2.4. STE目标和STE法规之间的联系考虑输入x到量化器(1)。 当x是遵循分布μλ的附加噪声时,对第k个量化级别进行采样的概率为pk=正+ +连续非减函数r:R0→R0sat-证明limλ→0r(λ)= 0。定理2. 考虑由下式参数化的网络图(7):mL=(m1,m2,. -是的-是的,mL)∈M^L,并使用Heaviside474−0Lλl→00L+0μ λ,x(σ−1(q k))=μ λ,x(I k),其中μ λ,x(A):=μ λ(Ax),A(是R上的Borelσ-代数)。当μ λ是零均值、单峰噪声分布时,选择模式量化l ev elqk′ =argmaxqk∈Qµλ,x(Ik)返回H+作为其活化功能。考虑一个正则化的网络图(8),使得对于l=l,. -是的-是的,L1.H ~+的正则化σλ和正则化参数λ A满足下列条件:λA−λ→−→0 0;(11)σλ(s)−−→H(s),εs∈R;(12)σλl是严格递增的;(13)0≤ σ λl(s)≤ 1,σ s ∈ R.(十四)与将原始σ直接应用于x的值相同。这一点-“”是对所指内容的更正式的定义在[ 9 ]中称为3. ANA算法考虑第2节的主要命题:• 在处理随机输入时,不同的STE调节可以建模为相应的STE目标的期望值;475LSD≥0S≥L× →∈L←S−L←∇L←13:retur nΦ(吨)x−α(λl)+6β(λl),如果x∈[α(λ)−6β(λ),α(λ)),6β2(λl)-(x−α(λl))2一一一∼• 假设在给定的前馈网络中,控制参数STE调节的噪声分布可以动态地演化,通过强制组合收敛假设,我们可以保证调节的组合逐点收敛于STE目标的组合;特殊情况。我们还编码了第三个超参数,这在算法1中没有明确报告:前向计算策略。给定使用量化器(1)的层映射,我们允许前向传递使用重新量化的量化器r的期望值Eμλ[σν]、模式qk′ 为argmaxqk∈Q(pk:=μλl,x(Ik)),或随机抽样• STE目标和STE正则化可以被看作是根据两种不同策略操作的相同随机函数:前向传递中的模式和后向传递中的期望。基于这些观察,我们提出了ANA,其伪码在算法1中列出。 它接受输入初始化为m_n(0)的STE-regularised网络工作图(8);qk′((p0,. -是的-是的 ,p K−1),1).我们将这些策略分别命名为期望、模式(或确定性抽样)和随机(或随机抽样).4. 实验结果4.1. 方法和实验设计调度映射元组(l,t)分光器L在正规化进程中,CIFAR-10是一个流行的小数据集,用于图像分类,fication [14]. 它包含60kRGB编码的图像,λ A;训练数据集=((x(1),y(1)),. . .,(x(N),y(N),N1为整数个数据点;损失函数分为十个语义类。它由每个类包含5k图像的训练分区和验证组成。:XLXLR+;学习率ηR+;一个整数T e1训练时期的数量。例程set noise从调度中执行查找,而例程optim计算参数更新。训练迭代的总次数是T:=Te N。当然,可以执行小批量随机梯度下降(SGD)(小批量大小大于1)而不是普通SGD。算法1输入:Φ(0),S,D,L,η,Te每个类包含1k作为参考,我们使用了一个简单的全前馈网络-使用五个卷积层和三个线性层,受VGG拓扑家族的启发[21];因此,L=8。 我们将所有权重和特征量化为三元,除了最后一层,我们保留了在浮点格式一致的共同文献实践[4,6]。在每个实验单元中,我们训练网络500使用小批量的256张图像,交叉熵输出量:λL,mLΦλL,m(T)损失函数,初始学习率为10−3的ADAM优化器在400个epoch后下降到10−4。用途:设置噪音,优化1:t←02:forte←1:Tedo3:对于D中的(x,y′),4:t←t+15:forl←1:Ldo6:λA设定噪声(,l,t)7:结束8:y←Φλ<$L,m<$(t−1)(x)d推论我们的实验设计包括六个自由度-dom(DoF):噪声类型、静态均值、静态方差、衰减间隔、衰减幂律、正演计算策略。我们将在以下段落中详细说明其目的。噪声类型是用于实例化μλl,l=1,.的参数分布族。-是的-是的,L1.一、 我们考虑了四种噪声类型:均匀噪声、三角噪声、正态噪声和对数噪声. 我们用分布密度的均值α(λ A)和标准差β(λ A)来参数化分布密度μ λ l:9:g(t)m(吨)(y,y′)d反向传播(t−1)χ[α(λl)−3β(λl),α(λl)+√3β(λl)](x)十:mLoptim(mL,g(t),η,t)d更新端µλl(x)=;2 3β(λA)√十一:端λL,mL如果x∈/[α(λ)−<$6β(λ),α(λ)+6β(λ)),一一一µ十二:√A√λl6β2(λl)一一一<$$> α(λl)+<$6β(λl)−x,如果x∈[α(λ),α(λ)+<$6β(λ));(µ λ1,. -是的- 是的 ,µ λL)的参数概率测量,(x)=ANA的第一个超参数是集合L476−1+e−lβ(λle2β2(λl)(x)=0;正则化层映射m,l = 1,. - 是的- 是的,L.l2πβ(λ)11A第二个超参数是随着训练算法的进展,规则的演变该超参数被编码在调度S中,并由µλl(x)=x−α(λl)eβ(λl).x−α(λ)<$2第5-7行。请注意,静态计划也是允许的,β( λA).477−--..Σ≤ ≤≥一..Σ注意,所有这些分布都是单峰的,并且具有相对于平均值对称的密度。此外,请注意,均匀分布和三角分布为了比较使用紧支撑和非紧支撑密度获得的正则化,我们将非紧支撑测度μ1视为等价的2.如果他们有一个坚实的支持措施,相同的平均值和95%的总概率质量µ1在µ2的支持下下跌。噪声时间表定义了测量值μλl,l=1,. . .,L1随时间演化。这一演化过程由形状参数α(λA),β(λA)控制。按面值-衰减间隔DoF是一个分类变量,定义了各种测量值μλl的退火范围如何相互关联:• 同样的开始: tA,start对于所有层都是相同的,但是tA−1,end0和定律决定了衰变的速度。我们实验设计的最后一个自由度是前向自由度fα,A( λ(t))=( λ(t))dα,l计算策略 如第3节所述,它是一个A A=max.0,mintA,end − ttA,end− tA,startdα,l、1(二十)三元分类变量,允许以下选项:期望模式随机完整的超参数搜索网格将由384种配置组成。但是,我们可以避免探索对于某个0t A,start0,因为将其设置为零相当于没有正则化,因此在整个训练过程中梯度为零,导致目标网络不被有学习的能力当静态方差DoF被设置为假时,我们假设每个分布μλl从某个初始分布μλ(0)退火到最终分布μλ(T)=δ0,这是一个以零为中心的狄拉克δ。对于每个分布,我们定义两个时刻0≤tA,开始 tA,结束≤T,使得µλ ( t )=µλ ( 0 ),0≤t≤tA ,start和µλ ( t )=µλ ( T ),tA ,end≤t T.我们称这个序列为t,开始,。. .,t A,结束µ λ l的退火范围。我们没有考虑静态方差变量与期望向前计算策略相结合的情况。实际上,相对于非塌陷噪声分布计算的特征和权重的期望值可能与相对于塌陷噪声分布计算的值有很大不同;因此,在部署时突然去除噪声可能会破坏正则化网络学习的函数关系这一观察使我们能够从96个使用动态噪声、静态变化和期望向前计算策略的实验单元中削减额外的32个,以及从12个使用静态噪声分布的单元中削减4个479∼∼∼−(一)(b)第(1)款图1. ANA使用静态噪声时间表结合不同前向计算策略的性能:随机1a,模式1b。不同的噪声类型使用不同的颜色报告:均匀(蓝色),三角形(绿色),正常(红色),逻辑(黄色)。为了给我们的测量值分配置信区间,我们使用CIFAR-10训练分区上的五重交叉验证来评估每个超参数配置。4.2. 结果讨论静态噪声时间表(即,不对分布μλ1至δ0进行平均的时间表)代表我们比较的基线图1a、1b显示,与随机前向计算策略(82%)相比,使用模式前向计算策略(86%)具有较小的优势。部分地,该优点是由于前一策略对在时期400发生的学习速率降低的更高灵敏度。一般来说,噪声类型对任务的影响可以忽略不计精度使用随机向前计算策略时有一个例外:使用均匀噪声产生的结果比其他分布略差。我们开始我们的分析动态噪声时间表考虑的期望向前计算策略。从图2a中可以看出,在均匀噪声分布下,最佳收敛是在以下条件下实现的:Tition和相同起始衰减间隔策略(79%准确度),当使用同相衰减幂律时,与渐进衰减幂律相反,具有轻微的优势然而,相对于静态噪声计划基线的精度下降是不可忽略的(7%)。相同的结束衰减间隔策略仅在训练期间的稍后时刻开始使较早层中的噪声测量退火,而较晚层的测量已经收敛,从而打破定理2的假设:实际上,我们看到ANA的对应配置导致这批实验单元的最差性能。如图2b、2c、2d所示,这些观察结果也得到了三角形、正态和logistic分布的证实。对于静态噪声时间表情况,噪声类型对精度没有重大影响。到目前为止,实验证据表明,噪音类型不是最相关的变量。因此,我们将噪声类型固定为均匀,并分析了前向计算策略的影响。图3a示出了当在推断过程中使用随机采样时,ANA在不同时间表下的性能我们可以看到,随机抽样结合分区衰减范围策略可以提高4%的准确性。虽然随机抽样似乎可以减轻退化-由于与相同末端衰减间隔策略相关的不适当调度,该策略在该批实验单元中仍然是最差的。使用确定性采样与分区衰减间隔策略相结合,似乎可以用使用静态时间表训练的网络来填补空白,如图3b所示。我们观察到,静态噪声时间表的(小)优势是由于在时期400发生的学习率降低;在所选的动态时间表噪声时间表,正则化噪声分布是一个-由历元350接近,防止梯度调谐除了最后一层之外的所有层的参数。然而,这两种噪声时间表产生相同的精度,直到学习率降低。5. 结论在训练量化神经网络时,通过不连续性来消除梯度仍然是一个关键问题。在本文中,我们提供了一个统一的框架来推理STE及其变体。我们正式展示了如何随机正则化可以用来获得整个家庭的STE变体。此外,我们还分析了如何使用动态STE变量来正则化不连续网络,并展示了如何正确同步它们以确保在推理过程中收敛到目标函数。我们在CIFAR-10基准上的实验强调,对准确性的主要影响不是由于正则化器的定性形状,而是由于在不同层使用的STE变体480(一)(b)第(1)款(c)第(1)款(d)其他事项图2.使用动态噪声调度的ANA在期望前向计算策略和不同噪声类型下的性能:均匀2a,三角形2b,正态2c,logistic2d。每个图报告多个时间表:衰减间隔:相同的开始(绿色),相同的结束(红色),分区(黄色),重叠(蓝色);衰减幂律:均匀(连续),渐进(虚线)。(一)(b)第(1)款图3.在均匀噪声类型和不同前向计算策略下使用动态噪声调度的ANA性能:随机3a,模式3b。每个图报告多个时间表:衰减间隔:相同的开始(绿色),相同的结束(红色),分区(黄色),重叠(蓝色);衰减幂律:均匀(连续),渐进(虚线)。呃 。 特 别 是 , 我 们 观 察 到 一 个 显 着 的correspondondence- dence之间的预测定理2和不同的动态噪声时间表的emperfusion性能。实际上,相对于较晚层延迟较早层中的正则化分布的退火导致巨大的精度退化。注意,当噪声分布被退火到狄拉克该观察结果意味着当使用有效分区衰减间隔策略时,朝向上游节点的梯度传播可以在训练期间早期中断。因此,ANA可用于降低QNN训练中反向传递的计算成本,可能有利于片上训练。致谢我们感谢ISCRA倡议下的CINECA奖,以表彰其提供的高性能计算资源和支持。481引用[1] E. Agustsson,F.Mentzer,M.查嫩湖卡维杰利,R.蒂莫夫特湖Benini和L.范古尔用于端到端学习可压缩表示的软到硬矢量量化。第31届神经信息处理系统会议论文集(NIPS 2017)。神经信息处理系统(NIPS),2017。2[2] Y. Bengio,N. Le'onard和A. 考维尔估计或传播梯度通过随机神经元的条件计算,2013年。1[3] T. B.布朗湾Mann,N. Ryder,M.苏比亚,J. D.作者 : J. J. J. J. 萨 斯 特 里 A.Askell , S.Agarwal ,A.Herbert-Voss , G.M. Krueger , T. 亨 尼 根 河Child,A. Ramesh,D. Ziegler,J. Wu,C.温特角Hesse , M. Chen , 中 国 山 茱 萸 E. Sigler , M.Litwin,S.格雷湾Chess,J. Clark,C. Berner,S.McCandlish,A.拉德福岛Sutskever和D.亲爱的语言模型是很少机会的学习者。在第34届神经信息处理系统会议(NeurIPS 2020)。神经信息处理系统,2020。1[4] J. 崔 , S 。 文 卡 塔 拉 马 尼 河 谷 斯 里 尼 瓦 桑 湾Gopalakr- ishnan,Z. Wang和P. Chuang.精确高效的2位量化神经网络.在第二届系统和机器学习会议(SysML 2019)上。系统和机器学习会议,2019年。一、五[5] L. 邓 鹏, 焦鹏 , 裴杰 ,Z. Wu 和 G.李GXNOR-Net:在统一的离散化框架下训练具有三重权重和激活的深度神经网络,而无需全精度分类。神经网络,100:49-58,2018。二、三[6] S. K. Esser,J. L. McKinstry,D.巴布拉尼河Ap-puswamy和D.S. 莫达学习步长量化。2020年国际学习表征会议(ICLR 2020)国际学习表征会议(ICLR),2020年。一、五[7] S.汉,H. Mao和W. J·达利深度压缩:使用修剪、训练量化和霍夫曼编码压缩深度神经网络2016年国际学习表征会议(ICLR 2016)国际学习表征会议(ICLR),2016年。1[8] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残差学习。在2016年IEEE/CVF计算机视觉和模式识别会议(CVPR 2016)上。IEEE,2016.1[9] I.胡巴拉M. Courbariaux,D.苏德里河El-Yaniv和Y.本吉奥。二值化神经网络在Pro-第30届神经信息处理系统会议(NIPS 2016)。神经信息处理系统(NIPS),2016年。1、4[10] I.胡巴拉M. Courbariaux,D.苏德里河El-Yaniv和Y.本吉奥。量化神经网络:用低精度权重和激活训练 神 经 网 络 。 Journal of Machine LearningResearch,18:11[11] B.雅各布,S。克利吉斯湾Chen,M. Zhu,M.Tang,A. Howard,H. Adam和D.卡列尼琴科神经网络的量化和训练,用于有效的仅整数算术推理。在2018年IEEE/CVF计算机视觉和模式识别会议(CVPR 2018)上。IEEE,2018年。1[12] S. R.贾恩A. Gural,M. Wu和C. H. Dick.训练量化阈值,用于深度神经网络的准确和有效的定点推理在第三届机器学习与系统会议(MLSys 2020)上。2020年机器学习与系统会议。1[13] T. G. Kolda和B. W.巴德张量分解及其应用。SIAMReview,第4551[14] A. 克 里 热 夫 斯 基 河 Nair 和 G.E. 辛 顿www.cs.toronto.edu/https://www.example.com2014.5[15] H. Li,S.De,Z.Xu,C.Studer,H.Samet和T.金斯坦。训练量化网:更深层次的理解。第31届神经信息处理系统会议(NIPS 2017)论文集。神经信息处理系统(NIPS),2017。2[16] X.林角,澳-地Zhao和W.锅精确的二元卷积神经网络。第31届神经信息处理系统会议(NIPS2017)论文集。神经信息处理系统(NIPS),2017。1[17] Z.刘湾,澳-地吴,W. Luo,X.杨,W.刘和K T.程双实数网络:通过改进的表示能力和先进的训练算法来增强1位CNN的性能。2018年Springer,2018. 一、二、三[18] V. Nair和G. E.辛顿修正线性单元改进受限玻尔兹曼 机 。 第 27 届 国 际 机 器 学 习 会 议MLResearchPress,2010. 1[19] Y. Netzer,T. Wang,中国山核桃A. Coates,A.比萨科湾Wu,和A. Y. Ng.使用无监督特征学习读取自然图像中的数字。深度学习和无监督特征学习4822011年。神经信息处理系统(NIPS),2011年。14[20] W. 塞韦拉角M. 葡萄园河Dellana,S.J. Verzi,以及J. B. Aimone使用Whetstone方法训练深度神经网络进行二元通信。Nature Machine Intelligence,1:86-94,2019。二、三、四[21] K. Simonyan和A.齐瑟曼。用于大规模图像识别的非常深的卷积网络。第三届国际学习表征会议(ICLR 2015)ICLR,2015年。5[22] M. Tan和Q. V. Le. EfficientNet:重新思考卷积神经 网 络 的 第 36 届 机 器 学 习 国 际 会 议MLResearchPress,2019. 1[23] M.坦河,巴西-地Pang和Q. V. Le. EfficientDet:可扩展且高效的对象检测。2020年IEEE/CVF计算机视觉和模式识别会议(CVPR 2020)。IEEE,2020年。1[24] M. vanBaalen,C.路易索斯湾内格尔河阿里·阿姆贾德Y. Wang,T. Blankevoort和M.威林贝叶斯比特:统一量化和修剪。第34届神经信息处理系统会议(NeurIPS 2020)神经信息处理系统(NIPS),2020年。1[25] P. Warden Speech Commands:a dataset for limited-vocabulary speech recognition,2018. 14[26] J. Wu,L. Deng,G. Li、J.Zhu和L.石训练高性能脉 冲 神 经 网 络 的 时 空 反 向 传 播 。 Frontiers inNeuroscience,12:1-12,2018。二、三[27] P. Yin,J. Lyu,S. Zhang,S. Osher,Y. Qi和J.Xin.理解训练激活量化神经网络中的直通估计器。在2019年国际学习代表会议(ICLR 2019)上。2019年国际学习表征会议(ICLR)。二、四[28] X. 张,J.Zou,K.He和J.太阳加速用于分类和检测的非常深的卷积网络IEEE Transactions on PatternAnalysis and Machine Intelligence,2016。1[29] Y. Zhang , N. 苏 达 湖 Lai 和 V. Chandra 。 HelloEdge:微控制器上的关键字识别,2017年。14[30] B.庄C.沈,M。坦湖,澳-地Liu和我。里德用于精确图像分类和语义分割的结构化二进制神经网络。2019年IEEE/CVF计算机视觉和模式识别会议(CVPR 2019
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功