训练二值神经网络的自适应直通估计器

2 浏览量更新于2023-10-26 收藏 12.21MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

Huu LeRasmus Kjær HøierChe-Tsung LinChristopher ZachChalmers University of Technology, Gothenburg, Swedenhuul,hier,chetsung,zach@chalmers.seminw ℓ(w)s.t. w ∈ {−1, 1}d,(1)= minw∈{−1,1}d E(x,y)∼pdata [ψ(f(x, w), y)] ,(2)4600AdaSTE：一种用于训练二值神经网络的自适应直通估计器0摘要0我们提出了一种用于训练具有二值权重的深度神经网络（DNNs）的新算法。特别地，我们首先将训练二值神经网络（BiNNs）的问题转化为一个双层优化实例，并随后构建该双层程序的灵活松弛。所得到的训练方法与几种现有的训练BiNNs的方法具有算法上的简单性，特别是与BinaryConnect和随后的方法中成功使用的直通梯度估计器相似。实际上，我们提出的方法可以被解释为原始直通估计器的一种自适应变体，在误差传播的反向传递中有条件地（但不总是）充当线性映射。实验结果表明，与现有方法相比，我们的新算法具有良好的性能。01. 引言0将深度神经网络（DNNs）部署到计算硬件（如移动设备和物联网设备）上，这些设备具有有限的计算和存储资源，这在实践中变得越来越重要，因此专门用于量化DNNs的训练方法已成为近年来的重要研究课题[9]。在这项工作中，我们特别关注的是具有二值权重（限制为{ +1 , − 1}）的DNNs的特殊情况，因为在这种设置下，推断时的计算主要减少到简单的加法和减法。从非常抽象的角度来看，学习这种二值权重神经网络（BiNNs）的任务可以被形式化为一个具有二值约束的优化程序，即01 这项工作得到了由Knut和Alice Wallenberg基金会资助的WallenbergAI、Autonomous Systems和Software Program（WASP）的部分支持。0其中 d 是底层参数（即所有网络权重）的维度， p data是训练分布， ψ是训练损失（如交叉熵或平方欧氏误差损失）。 f ( x ; w )是具有权重 w 对输入 x的DNN的预测。在实践中，需要解决参数维度 d非常大的问题设置（例如具有多个层的深度神经网络）。然而，解决上述程序中的二值约束是一个具有挑战性的任务，这是由于底层优化问题的组合和不可微性质。鉴于大型训练数据集，（随机）梯度下降法获得（1）的最小化器是非常可取的。已经提出了各种技术来解决上述困难，并将（1）转化为可微分的替代方案。一般的方法是引入实值的“潜在”权重 θ ∈ R d，通过符号函数（或其可微分的替代函数）生成有效权重w = sgn( θ )。其中一种最简单但非常成功的用于训练BiNNs的算法称为BinaryConnect[10]，它基于直通估计器（STE），在形成梯度时完全忽略符号映射（因此，更新 θ 是基于 � w ℓ ( w ) 而不是 � θ ℓ(sgn( θ ))）。尽管这一初步看起来似乎没有理由，但BinaryConnect的效果出奇地好，并且仍然是一个有效的基准方法进行比较。最近，镜像下降方法[30]（特别是熵下降算法[7]）中的距离映射选择的灵活性为BinaryConnect-like方法提供了一些理论基础[3]（也参见第3.2节）。在这项工作中，我们提出了一种用于训练二值神经网络的新框架。特别地，我们首先将（1）中的训练问题形式化为一个双层优化任务，随后使用最优值重构进行松弛。此外，我们提出了一种计算有意义的梯度替代方案来更新网络参数。所得到的方法与BinaryConnect非常相似，但利用了直通梯度估计器的自适应变体：符号函数4610图1. 自适应直通估计示例，当s = tanh时。ℓ'是传入的反向传播误差信号。左：θ ≈ 0。有限差分斜率(ˆw - w�)/β非常接近tanh的导数。中：θ �0 ∧ ℓ' < 0。几乎消失的tanh导数被放大，tanh变得“泄漏”。右：θ � 0 ∧ ℓ' > 0。在这种情况下没有梯度“放大”。θ � 0的情况是对称的。0当条件替换为合适的线性但数据相关映射时，图1说明了tanh映射的基本原理：根据传入的误差信号，tanh引起的消失梯度被非消失的有限差分替代。最后，我们指出我们提出的方法可以被视为使用数据相关和可变距离类似映射的镜像下降方法。02. 相关工作0探索权重量化的实际动机是减少部署（在某些情况下是训练）神经网络的计算成本。这在边缘计算和物联网设备[9]的情况下尤为有吸引力。即使保留激活z的浮点精度，使用二值化权重矩阵W意味着普遍存在的乘积Wz可以降低为更便宜的浮点值的加法和减法。早在1990年代初，[14,43]使用完全本地学习规则通过节点扰动计算层内目标来训练BiNNs。为了避免节点扰动的有限可扩展性，[37]改用可微的符号函数的替代品来计算梯度。最近，在对抗攻击[5]的背景下，使用可微的替代品在反向传播中被称为反向传播可微近似（BPDA）。然而，同样的原则是许多网络量化方法的核心，尤其是梯度估计的STE。最近的方法主要集中在STE的变体上。在计算前向传播时，一组实值（潜在）权重被二值化，但在反向传播过程中，使用恒等映射作为其可微替代品（这实际上使STE成为BPDA的一种特殊情况）。然后使用计算得到的梯度来更新潜在权重。STE是由Hinton（并归功于Krizhevsky）在2012年的视频讲座中提出的[19]。随后，它被用于训练具有二值激活的网络[8]，以及用于训练具有二值权重（和浮点激活）的BinaryConnect（BC）模型[10]。BinaryConnect还使用了0启发式方法，如剪裁潜在权重和使用批量归一化[22]（包括在输出层使用）来改善基于STE的训练性能。[47]进一步分析了直通估计器的起源，将其追溯到Rosenblatt对感知机的早期工作[35,36]。STE还应用于训练完全二值化的神经网络（例如[21]）。此外，Rastegari等人[34]使用STE来训练完全二值化和混合精度网络，并通过引入层和通道级的缩放因子来提高性能。一系列有趣的研究[13,42]探索了将STE调整为学习量化映射的参数（例如量化步长和位宽，受到内存预算的限制）。0随后的方法专注于为具有二值权重的网络推导出类似但不太启发式的学习算法。ProxQuant（PQ）[6]，ProximalMean-Field（PMF）[2]，MirrorDescent（MD）[3]和Rotated Binary NeuralNetworks（RBNN）[26]将具有二值权重的DNN的训练任务形式化为约束优化问题，并提出了用于在实值潜在权重和二值化权重之间转换的不同转换函数。这些方法的一个共同特点是它们属于同伦方法的类别，通过逐渐退火的转换映射。Qin等人[33]引入了一种新的技术，用于在前向传播中最小化信息损失（由二值化引起），并通过在反向传播过程中使用逐渐退火的tanh函数作为可微替代品以及精心选择的梯度剪辑计划来解决梯度误差。与早期研究类似，[18]没有引入潜在的实值权重，而是直接使用专门为BiNNs设计的基于动量的优化器来更新二值权重。一些作者通过变分方法[1,27,29,40]来处理量化神经网络的训练。其中，Bayes-BiNN[29]特别有竞争力：它不是优化二值权重，而是通过采用贝叶斯学习规则[24]和Gumbel-softmax技巧[23,28]来学习伯努利分布的参数（因此需要一个逆温度参数将具体分布转换为伯努利分布）。w(t+1) ← arg minw∈∆ w⊤ℓ′(w(t)) + 1ηDKL(w∥w(t))(3)w(t+1)j∝ w(t)j e−ηℓ′(w(t))j.(4)3.3. ProxQuantproxλϕ(θ) = arg minθ′ λϕ(θ′) + 12∥θ′ − θ∥2,(6)ϕ(θ) =dj=1 min {|θj − 1|, |θj + 1|} .(7)θ(t+1) ← proxλ(t)ϕθ(t) − ηℓ′(θ(t)) ,(8)minθ ℓ(w∗)s.t. w∗ = arg minw E(w; θ)(9)4620有关权重量化的其他调查，请参阅综述论文[16,32]以及[11]的第III节。关于常用于训练BiNNs的各种特定技术的功效的综述，请参阅[4]。03. 背景0在澄清一些数学符号后，我们总结了镜像下降方法（及其用于训练BiNNs的方法）和Prox-Quant方法，以便更好地建立与我们提出的方法之间的相似性和差异。03.1. 符号0形式约束，如 w ∈ C ，可以写成函数形式 ı C ( w )。我们使用 ⊙ 表示逐元素乘法，使用 �表示逐元素除法。函数 ℓ 在 w 处的导数写作 ℓ ′ ( w )。许多映射都是分段可微的但连续的。因此，在这些情况下， ℓ ′ ( w )是子导数或超导数中的一个合适元素。我们在一些变量名上方使用箭头（特别是 � β）以强调这是一个向量而不是标量。出于同样的原因，我们使用例如 �s 和 � sgn 来表示标量映射 s （或 sgn）的向量化形式，该向量化形式逐元素应用。03.2. 镜像下降0简而言之，镜像下降[7,30]通过最小化目标函数的一阶正则化替代了最常见的二次正则化（导致梯度下降方法），而采用了更一般的Bregman散度来惩罚与先前迭代的大偏差。主要动机是加速一阶方法的收敛，但它也可以产生非常优雅的方法，如熵下降算法，其中所使用的基于（取反的）香农熵的Bregman散度与KL散度相同。当优化限制在概率单纯形 ∆中的未知数时，熵下降是非常自然的。该算法重复更新的形式为0带有相关一阶最优性条件0将 w 重新参数化为 w = σ ( 是软argmax函数， σ ( u ) j =0j ′ e u j ′ , 得到0有趣的是，镜像下降通过绕过内部导数修改了链式法则，因为更新是基于0ℓ ′ ( σ ( θ ( t ) )) 而不是 d dθ ℓ ( σ ( θ ( t ) ))，就像常规梯度下降一样。因此，镜像下降是证明直通估计器的一种方式。熵下降算法在[3]中被利用来训练具有二进制（以及通常的量化）权重的网络。软argmax函数 σ逐渐向硬argmax映射进行修改，以最终获得严格量化的权重。0ProxQuant [6]基于以下观察结果：直通梯度估计器通过对偶平均方法与近端算子相关联。对于函数 ϕ，近端算子是以下最小二乘正则化优化问题的解，0其中 λ > 0 控制正则化强度。如果 ϕ是一个凸且下半连续的映射，那么右边的最小化问题的解是唯一的，prox λϕ是一个合适的函数（在许多凸优化方法中起着关键作用）。ProxQuant使用非凸映射来表示 ϕ，这在近端步骤中比凸情况更为罕见（例如，参见[41]中的另一个例子）。为了训练具有二进制权重的DNNs，将 ϕ选择为W形函数。0ϕ有2d个孤立的全局最小值，因此不是凸函数。请注意，只要θ中的所有元素都非零，prox λϕ ( θ)就是唯一定义的。网络权重根据以下方式更新0正则化权重λ(t)通过一个退火计划逐渐增加，这使得ProxQuant成为一种同伦方法的实例：只有当λ(t)的值足够大时，才能获得严格量化的权重。04. 自适应直通估计器0在本节中，我们提出了一种解决(1)中给出的优化问题的新方法。通过对底层双层最小化问题进行重构和放松，最初受到对DNNs的对比Hebbian学习的启发[38,45,49]，并且是所提出方法的核心。04.1. 双层优化问题0我们首先将原始问题(1)重写为以下双层最小化程序Etanh(w; θ) = − 1τj H12(1 − wj) − w⊤θ(10)Ehard-tanh(w; θ) =12τ ∥w∥2 − w⊤θ + ı[−1,1]d(w),(11)E(w; θ) = −w⊤θ + G(w)(12)E(w; θ) =j G(wj) − wjθj .(13)minθ,w ℓ(w)s.t.(w; θ)minw′(w′; θ).(15)minθ,w ℓ(w)s.t. E(wj; θj) ≤ minw′j E(w′j; θj),(16)E(wj; θj) := G(wj) − wjθj.(17)minθ,w ℓ(w) +�j1βj�E(wj; θj)−minw′j E(w′j; θj)�. (18)L(θ) = ℓ(w∗) − (w∗)⊤ℓ′(w∗)+�j minwj�wjℓ′j(w∗) + 1βj E(wj; θj)�−�j minwj�1βj E(wj; θj)�,(19)ˆwj := arg minwj βjℓ′j(w∗)wj + E(wj; θj).(20)ˆw = ⃗s θ − ⃗β ⊙ ℓ′(w∗) .(21)4630其中E(w;θ)可以是任何偏爱w*为二进制的函数。E的两个经典选择如下0其中H是伯努利随机变量的香农熵，H(u) = − u log u − (1 − u ) log(1 − u )。给定θ，对于E tanh，最小化器w*是tanh映射，w* j = tanh( θ j /τ)，而第二个选项产生了硬tanh映射，w* j = Π [ − 1 , 1] ( θ j /τ )。τ >0是一个参数，用于控制这些映射近似符号函数sgn( θ)的程度。为了应用基于梯度的学习方法，我们要求E对所有w都关于θ可微。在上述例子中，我们有∂0∂θ E ( w ; θ ) = − w。对于我们的目的来说，假设E的形式如下0对于一个从下方有界的强制函数G。也就是说，w和θ只通过它们的（可分离的）内积相互作用。此外，我们只需要假设G是完全可分离的，G(w) = �0j G ( w j )，因为每个潜在权重θ j可以独立地映射到其二值化的替代物w j（这是大多数工作的基本假设，但在[17]中明确偏离）。因此，下面假设的E的一般形式为0因此，在这种设置下，解w* = (w*1, . . . , w*d) �0是逐元素给出的0w* j = arg min w j G ( w j ) − w j θ j . (14)04.2. 通过最优值重构进行放松0最优值重构（例如[31,48]），这是一种在双层优化中常用的重构方法，允许我们将双层问题(9)重写为以下形式0观察到(9)式中外部目标函数中的w*被一个新的未知数w替代，而(9)式中的困难等式约束被一个稍微简单的不等式约束替代。由于(13)式中E的可分离性质，引入每个元素wj的不等式约束是有利的。因此，我们得到0其中 E （与 j 无关）定义为0第一步使我们可以通过为不等式约束固定正拉格朗日乘子来直接放松 (16)0我们通过参数化非负乘子 β − 1 j 来表示，其中 β j > 0，这在下面会很方便。由于我们对基于梯度的方法感兴趣，我们将通常高度非凸的“损失” ℓ（包括目标损失和网络引起的映射）替换为其在 w �处的线性化，即 ℓ ( w � ) + ( w − w � ) � ℓ ′ ( w � )。请注意，w � = arg min w E ( w ; θ )是DNN中使用的有效权重，理想情况下接近于 � sgn( θ )。总体而言，我们得到了以下放松的目标，以训练具有二进制权重的网络0使用上述线性化的目标损失将与第4.3节中的扰动链规则相连接。内部最小化问题的解决方案如下0w � j = arg min w j E ( w j ; θ j ) 和0ˆ w = ( ˆ w 1 , . . . , ˆ w d ) � 是基于包含外部损失 ℓ的局部（一阶）行为的扰动目标。w � 和 ˆ w都隐式地依赖于当前的 θ 值，而 ˆ w则依赖于选择的“步长”向量 � β := ( β j ) d j =1，其中每个 β j > 0 。如果 E ( ∙ ; θ ) 在 w = w �处连续，则 lim β j → 0 + ˆ w j = w � j 。此外，如果 E的形式如 (12) 中所示，则 ˆ w 的计算与 w �一样容易（证明见补充材料）0命题 1. 令 E ( w ; θ ) = G ( w ) − w � θ 且 w � = arg minw E ( w ; θ ) ，可以明确地表示为 w � = �s ( θ ) 。那么0所有有趣的选择 E 都会导致高效的前向映射s（例如之前给出的选择 E tanh 和 E hard-tanh 会导致tanh 和 hard tanh 函数）。04.3. 更新潜在权重 θ0对于固定的 � β = ( β 1 , . . . , β d ) � 且 β j > 0 的选择，目标函数L ( θ ) 在 (19)中是一个嵌套的最小化实例，具有“min-min-max”结构。在某些情况下，可以通过以下方式获得纯粹的“min-min-min”实例Q(θ; θ(t)) =�j1βj�E( ˆwj; θj) − E(w∗j ; θj)�+12η∥θ − θ(t)∥2,(22)θ(t+1) = arg minθQ(θ; θ(t)) = θ(t)−η w∗− ˆw ⊘⃗β (23)− ddβj s θ(t)j− βjℓ′j(w∗)βj=0+(24)1βj�w∗j − ˆwjβj→0+→− ddβ s(θ(t)j− βjℓ′j(w∗))��βj=0+j ℓ(s(θ(t))).(25)1βj w∗j − ˆwj= ℓ′j(w∗)s′ θ(t)j− γjℓ′j(w∗)(26)�w∗j − ˆwj= 1β w∗j − s(θ(t)j− βℓ′j(w∗)) ,(27)1βj w∗j − ˆwj= ℓ′j(w∗)s′ θ(t)j− βjℓ′j(w∗) .(28)6:ˆw ← ⃗s θ(t) − ⃗β(t) ⊙ ℓ′(w∗)�7:θ(t+1) ← θ(t) − η(t)(w∗ − ˆw) ⊘ ⃗β(t)�E(w; θ) = 1+µ2 ∥w∥2 − w⊤θ − µ(1+α)∥w∥1 + ı[−1,1]d(w),(29)E(wj; θj) = 1+µ2 w2j − wjθj − µ(1+α)|wj| + ı[−1,1](wj).(30)4640对偶性[49]，但在实践中这并不是必要的。设 θ ( t ) 是迭代t 的当前解，那么我们用以下局部模型来确定新的迭代 θ ( t+1)0其中 w � = �s ( θ ( t ) ) 且 ˆ w = �s ( θ ( t ) − � β ⊙ ℓ ′ ( w� )) ，分别在 θ ( t ) 处计算的有效权重及其扰动实例。 Q中的最后一项对偏离 θ ( t ) 进行正则化， η扮演学习率的角色。最小化 Q ( θ ; θ ( t ) ) 相对于 θ的结果是梯度下降式的更新0对于假设的 E 形式（在（12）中给出），( w � − ˆ w ) � � β的每个元素，即 ( w � j − ˆ w j ) /β j，对应于以下有限差分近似（使用向后差分）0其中间距参数 h j = β j ℓ ′ j ( w � ) 。如果 s至少是单侧可微的，那么可以证明这些有限差分收敛到由链式法则给出的导数，当 β j → 0 + [48] 时，0= ℓ ′ j ( s ( θ ( t ) j )) s ′ ( θ ( t ) j ) = d0对于非无穷小的 β j > 0，有限差分斜率 ( w � j − ˆ w j ) /β j对应于扰动的链式法则，0（回想一下 w � = s ( θ ( t ) )），其中内部导数在扰动的参数 θ ( t ) − �γ ⊙ ℓ ′ ( w � )处进行评估，其中 �γ ∈ [0，� β ]。这是由于均值定理。此外，如果每个 β j 是映射的临界点0β → 10然后通过使用商规则很容易看出 �γ = � β ，因此0此外，（26）中的关系可以解释为镜像下降的一个特例（回顾第3.2节），如补充材料所示。总的来说，上述意味着我们可以相对自由地选择 s ′ 的实际评估位置。由于 s自然上是一个“压缩”函数，将其限制在有界区间 [−1，1] 内，使用 s ′的基于梯度的训练通常会遇到梯度消失问题。使用双层规划的放松重构允许我们选择 β j以获得所需的下降方向，如第4.5节中所述。得到的基于梯度的训练方法总结如算法1所示。该算法被陈述为完全批量方法，但是从 p data中绘制的小批量的随机变体的扩展是直接的。在下一节中，我们将讨论我们对 E的选择以及如何在每次迭代中选择合适的间距参数 � β ( t ) > 0。由于 � β ( t ) 是根据 θ ( t )的值自适应选择的0将 R 映射到有界区间 [−1，1] ，使用 s ′的基于梯度的训练通常会遇到梯度消失问题。使用双层规划的放松重构允许我们选择 β j以获得所需的下降方向，如第4.5节中所述。得到的基于梯度的训练方法总结如算法1所示。该算法被陈述为完全批量方法，但是从 p data中绘制的小批量的随机变体的扩展是直接的。在下一节中，我们将讨论我们对 E的选择以及如何在每次迭代中选择合适的间距参数 � β ( t ) > 0。由于 � β ( t ) 是根据 θ ( t )的值自适应选择的0并且 ℓ ′ ( w � )用于扰动链式法则，我们将得到自适应直通估计器（AdaSTE）训练方法。在补充材料中，我们强调了它与ProxQuant和镜像下降训练的关系（并讨论了收敛性质）。0算法1 AdaSTE训练方法。01: 初始化 θ (0)，选择学习率 η ( t )，t = 1，...02: 对于 t = 1，...执行3: w � ← �s ( θ ( t ) )0 w � )05: 使用 (38) 确定 � β ( t )08: 结束循环04.4. 我们对内部目标 E 的选择0在本节中，我们将指定我们对 E 的选择（从而确定映射 �s: θ→ arg min w E(w; θ)）。E tanh 和 Ehard-tanh（第4.1节）是直接的选择，但存在一个问题，即当超参数τ − 1 →∞时，引起的arg-min映射与符号函数完全一致。我们感兴趣的是内部目标E，它对于有限值的超参数选择产生完美的量化映射。受ProxQuant[6]中使用的双井代价的启发，我们设计E如下，0其中 µ > 0 且 α ∈ (0 , 1)是自由参数。注意，对于固定的θ，E在w上只是分段凸的，但在w j 上是完全可分的0通过代数运算，我们得到了以下的闭式表达式 ˆ w j（其中我们将ℓ ′缩写为ℓ ′( w �)），ˆwj = arg minwj βjℓ′jwj + E(wj; θj)= Π[−1,1]� ˜θj + µ(1 + α) sgn(˜θj)1 + µ�,(31)�⃗s(θ) = Π[−1,1]d�θ + µ(1 + α) ⃗sgn(θ)1 + µ�.(32)|θj| + µ(1 + α)1 + µ≥ 1 ⇐⇒ |θj| + µ(1 + α) ≥ 1 + µ⇐⇒ |θj| + αµ ≥ 1,(33)1βj w∗j − ˆwj=1βjsgn(θj) − sgn(θj − βjℓ′j)(34)̸supβj>θj/ℓ′j1βj |w∗j − ˆwj| = 2ℓ′jθj.(35)βj =1|ℓ′j| max{2, |θj|}(36)(38)4650图2. 给定α = 1 / 100和三个不同的µ值时，映射w � = s ( θ )的图形0其中 ˜ θ j := θ j − β j ℓ ′ j。换句话说，对于我们选择的E，正向映射�s : θ �→ w � = s ( θ)如下0这个映射的分段线性图在图2中进行了说明，其中α = 1 /100，µ有三个不同的选择。假设给定α ∈ (0 , 1)，那么�s (θ )只取{− 1 , 1 }d中的值，即使对于有限的µ也是如此，因为0这意味着任何θ j 都被映射为+1或-1，当 µ ≥ 1/α时（在这种情况下，µ和α的确切值并不重要）。因此，我们可以选择从一开始就使用严格的二进制权重进行训练，或者通过调整α或µ来使用一种拓扑方法进行训练。这两种选择都可以得到有竞争力的结果，而基于拓扑的方法在某些情况下具有小的优势，如第5节所示。04.5. β的自适应选择0如第4.3节所示，我们可以通过适当选择β j >0来引导修改的链式规则，以确定适当的下降方向。注意，参数向量θ中的每个元素θ j 都有自己的β j值。下面我们描述当α和µ满足µα ≥ 1时如何选择βj。在这种设置下，我们始终有w � j = sgn( θ j ) ∈ {− 1 , 1}，以及ˆ w j = � sgn( θ j − β j ℓ ′ j ( w � )) ∈ {− 1 , 1}（我们忽略了θ j = 0或θ j − β j ℓ ′ j ( w � ) =0的理论可能性）。我们的目标是选择β j >0，使得由反向差分引起的斜率1 β j ( w � j − ˆ w j )0尽可能接近ℓ ′ j ( w � )。以下我们将ℓ ′ ( w � )缩写为ℓ′。由于sgn是一个几乎处处为零的导数为零的递增阶跃函数，它的有限差分逼近0要么在区间[0，s max]内，要么在[-s max，0]内，其中smax ≥ 0（取决于θ j和ℓ ′ j）。特别地，如果θ j ℓ ′ j ≤0，则对于所有β j ≥ 0和s max = 0，有sgn(θ j) = sgn(θ j -β j ℓ ′ j)。另一方面，如果θ j ℓ ′ j > 0，则对于β j > θ j /ℓ ′j，有sgn(θ j - β j ℓ ′ j) ≠ sgn(θ j)。0如果θ j接近于0，则右侧可能会变得任意大（反映了sgn在0处导数不存在的情况）。假设 ( w � j − ˆ w j ) /β j应该最大程度地像一个直通估计器行为（即 | w � j − ˆ w j | /β j≤ | ℓ ′ j |，这也可以看作是一种梯度剪裁的形式），我们选择0为了保证01 β j | w � j − ˆ w j | ≤ 2 β j ≤ 2 | 02 = | ℓ ′ j | . (37)0总的来说，我们得到了以下简单的规则来为给定的 θ 和 ℓ ′分配每个 β j ：0β j ←0� 10| ℓ ′ j | max { 2 , | θ j |} if θ j ℓ ′ j01 否则。0在另一种情况下，选择 β j = 1 是任意的，因为对于所有的β > 0 ，( w � j − ˆ w j ) /β = 0 。请注意，在(38)中，当 θj ℓ ′ j > 0 时，将 β j 分配到( w � j − ˆ w j ) /β j，从而将其转换为一个缩放的直通估计器；否则，用于更新θ j的有效梯度为零（与链式法则一致）。在补充材料中，我们讨论了 µα < 1 的设置，这在某些情况下会得到不同的 β j表达式。然而，在我们的所有实验中，我们都使用了(38)。05. 实验结果0在本节中，我们展示了几个实验结果，以验证我们提出的方法的性能，并将其与现有算法进行比较，这些算法在我们特定的问题设置下达到了最先进的性能。如上所述，我们只考虑具有完全二值化权重和实值激活的网络的训练。2https://github.com/intellhave/AdaSTE3https://github.com/team-approx-bayes/BayesBiNN4https://github.com/kartikgupta-at-anu/md-bnn4660实现 CIFAR-10 CIFAR-100 TinyImageNet0VGG-16 ResNet-18 VGG-16 ResNet-18 ResNet-180完全精度 ( † ) 93.33 94.84 71.50 76.31 58.350BinaryConnect (*) 89.75 ± 0.26 91.92 ± 0.23 54.61 ± 2.37 68.67 ± 0.7 -0BinaryConnect ( † ) 89.04 91.64 59.13 72.14 49.650ProxQuant( † ) 90.11 92.32 55.10 68.35 49.970PMF( † ) 91.40 93.24 64.71 71.56 51.520MD-softmax ( † ) 90.47 91.28 56.25 68.49 46.520MD-softmax-s ( † ) 91.30 93.28 63.97 72.18 51.810MD-softmax-s (*) 91.39 ± 0.30 93.10 ± 0.17 64.42 ± 0.37 71.87 ± 0.25 -0MD-tanh ( † ) 91.64 92.27 61.31 72.13 54.620MD-tanh-s ( † ) 91.53 93.18 61.69 72.18 52.320MD-tanh-s (*) 91.40 ± 0.30 93.23 ± 0.15 62.93 ± 0.60 71.96 ± 0.18 -0BayesBiNN (*) 90.68 ± 0.07 92.28 ± 0.09 65.92 ± 0.18 70.33 ± 0.25 54.220AdaSTE (无退火) (*) 92.16 ± 0.16 93.96 ± 0.14 68.46 ± 0.18 73.90 ± 0.20 53.490AdaSTE（带退火）(*) 92.37 ± 0.09 94.11 ± 0.08 69.28 ± 0.17 75.03 ± 0.35 54.920表1. 不同方法的分类（测试）准确率。(*)表示实验使用不同的随机种子运行了5次（TinyImageNet除外）。( †)表示结果是从[3]中报告的数字获得的。0根据之前的研究[3,6,29]，我们在实验中将分类作为主要任务。特别地，我们评估算法在两个网络架构ResNet-18和VGG16上的性能。这些网络在CIFAR10、CIFAR100和TinyImageNet200[25]数据集上进行训练和评估。我们将我们的算法与包括BinaryConnect (BC) [10]、ProxQuant (PQ) [6]、ProximalMean-Field (PMF) [2]、BayesBiNN [29]以及几个MirrorDescent (MD)[3]的变体在内的最先进方法进行比较。我们采用与我们进行比较的方法相同的标准数据增强和归一化（更多实验设置的详细信息请参考我们的补充材料）。我们的方法2是基于Pytorch实现的，并且基于BayesBiNN作者发布的软件框架进行开发3（有关我们的实现和额外的Imagenette[20]结果的更多详细信息，请参考补充材料）。05.1. 分类准确率0在表1中，我们报告了所考虑方法得到的测试准确率。对于PQ、PMF以及MD的不稳定版本，以及完全精度的参考网络，我们使用[3]中报告的测试准确率。对于BC，MD的稳定变体（即MD-softmax-s和MD-tanh-s），我们通过运行作者发布的源代码4（使用默认推荐的超参数）进行5次不同的随机初始化，报告均值和标准差。0从这些运行中获得的结果。对于BayesBiNN，我们也采用相同的策略（BayesBiNN的超参数可以在补充材料中找到），只是对于Tiny-ImageNet数据集，我们只报告了一次运行的结果（由于较长的训练时间）。我们使用两种设置来报告我们方法的结果：0• 不带退火：我们固定α = 0.01和µ = 10α0• 带退火：我们还使用α =0.01，并将初始值µ设置为µ（0）=1.0，然后在每个epoch后将µ按γ的倍数增加，即µ（t）←γµ（t−1）。选择γ使得µ在≈200个epoch后达到1/α。0图2说明了选择µ对θ的形状的影响。表1证明了我们提出的算法取得了最先进的结果。请注意，即使没有退火µ（尽管退火会稍微但一致地提高测试准确率），我们的结果仍然具有很高的竞争力。因此，我们得出结论，即AdaSTE可以作为BinaryConnect的直接替代品使用，而无需退火（因此没有额外的超参数）。请注意，我们报告的所有结果都是在训练500个epoch后获得的。在补充材料中，我们将展示如果模型训练更多的epoch，BayesBiNN和AdaSTE的准确率会更高。05.2. 损失和准确率的演变0我们进一步研究算法在训练过程中的行为。特别是训练损失和测试准确率的演变是感兴趣的，因为这些量是实际感兴趣的。在图3中，我们绘制了我们的方法与BC、MD（使用tanh映射）相比获得的测试准确率。02550751001251501752002040608002550751001251501752002040608002550751001251501752000.51.01.502550751001251501752000.51.01.52.0In this work we propose AdaSTE, an easy-to-implementreplacement for the straight-through gradient estimator, andwe demonstrate its benefits for training DNNs with strictlybinary weights. One clear limitation in this work is, thatwe focus on the binary weight but real-valued activationsscenario, which is a highly useful setting, but still preventslow-level implementations using only xor and bit count op-erations. Extending AdaSTE to binary activations seemsstraightforward, but will be more difficult to justify theo-retically, and we expect training to be more challenging inpractice. One obvious further shortcoming is our restrictionto purely binary quantization levels, in particular to the set{+1, −1}. Generalizing the approach to arbitrary quantiza-tion levels can be done in several ways, e.g. by extendingthe W-shaped cost E in (30) to more minima or by movingto higher dimensions (e.g. by modeling parameters in theprobability simplex).Since weight quantization is one option to regulatethe Lipschitz property of a DNNs’ forward mapping (andalso its expressive power), the impact of weight quantiza-tion [12, 39] (and more generally DNN model compres-sion [15, 46]) on adve

下载后可阅读完整内容，剩余1页未读，立即下载