神经网络参数量化方法的优化算法的研究

15 浏览量更新于2023-10-13 收藏 812KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1用于神经网络量化的Thalaiyasingam Ajanthan* 1，Puneet K. Dokania2，Richard Hartley1，and Philip H. S.托21澳大利亚国立大学2牛津大学摘要通过量化参数来压缩大型神经网络（NN），同时保持性能是非常理想的，因为它减少了内存和时间复杂性。在这项工作中，我们投NN量化作为一个离散的标记问题，并通过检查松弛，我们设计了一个有效的迭代优化过程，涉及随机梯度下降，然后投影。我们证明了我们简单的投影梯度下降法，事实上，相当于一个近端版本的著名的平均场方法。这些发现将使几十年来对MRF优化的理论研究能够用于设计更好的网络量化方案。我们在标准分类数据集（MNIST，CIFAR10/100，TinyImageNet）上的实验表明，我们的算法获得了完全量化的网络，其精度非常接近浮点参考网络。1. 介绍尽管深度神经网络取得了成功，但它们被高度过度参数化，导致过多的计算和内存需求。通过量化参数来压缩这样的大型网络，同时保持性能，对于实时应用或资源有限的设备是非常期望的。在神经网络（NN）量化中，目标是学习网络，同时限制参数从表示量化级别的小离散集合（通常是二进制）中取值这可以用公式表示为离散标签问题，其中每个可学习参数从离散集合中获取标签，并且学习目标是找到使经验损失最小化的标签配置。这是一个极具挑战性的离散优化问题，因为标签配置的数量随着网络中参数的数量呈指数增长，并且损失函数是高度非凸的。近20年来，类似的大规模离散拉[1]部分工作是在牛津大学完成在马尔可夫随机场（MRF）优化的背景下，扩口问题已经被广泛研究，并且已经开发了许多有效的近似算法[2，6，11，31，41，42]。在这项工作中，我们从MRF优化的丰富文献中获得灵感，并基于流行的平均场方法[42]设计了一种有效的近似算法用于NN量化。具体来说，我们首先制定NN量化作为一个离散的标签问题。然后，我们放松离散解空间凸多面体，并介绍了一种算法迭代优化的损失函数的一阶泰勒近似的多面体。这种方法是一种（随机）梯度下降法，在每次迭代时具有额外的投影步骤对于一个特定的选择的投影，我们表明，我们的方法是等效的一个proximal-mal版本的著名的平均场方法。此外，我们还证明了在一定条件下，我们的算法对流行的BinaryConnect算法[10]具有NN量化的MRF观点开辟了许多跨学科的研究方向。事实上，我们的方法代表了最简单的情况下，假设NN参数是相互独立的然而，人们可以潜在地模拟二阶甚至高阶参数之间的相互作用，并使用在MRF优化文献中开发和充分研究的高效推理算法因此，我们相信，许多这样的算法可以转置到这个框架，以设计更好的网络量化方案。此外，与现有的NN量化方法[21，35]相比，我们量化了网络中的所有可学习参数（包括偏差），并且我们的公式可以无缝扩展到二进制量化级别。我们评估了我们的算法在MNIST，CIFAR-10/100和TinyImageNet分类数据集上的优点，这些数据集具有卷积和残差架构。我们的实验表明，我们的算法得到的量化网络产生的精度非常接近浮点同行，同时始终优于直接可比的基线。我们的代码可在https://github.com/tajanthan/pmf上获得。48714872i=12. 神经网络量化神经网络（NN）量化是学习神经网络参数限制到一个小的离散集表示量化水平的问题。这主要依赖于这样的假设，即NN的过参数化使得可以获得与浮点网络具有相当性能的量化网络。本问题，我们从MRF优化文献[5，9，42]中获得灵感。特别是，我们首先放松离散的解决方案空间的凸多面体，然后迭代优化的一阶近似的损失超过多面体。我们的方法，如随后所示，属于（随机）梯度下降法的类，并适用于任何损失函数。接下来，我们详细描述这些弛豫和相关的优化。结束，给定数据集D={xi，yi}n问题可以写成：Σn，NN量化2.2.解空间回想一下，Q是d个实值参数的有限集合minW∈Qm L（w;D）：=i=1n（w;（xi，yi））.（一）Q的元素将由λ ∈ {1，. . .，d}。这里，（·）是由标准损失函数组成的输入输出映射（例如交叉熵损失），w是m维参数向量，并且Q具有|Q|=d是一个前-Q的替代表示是通过d维向量q，其中元素qλ∈ Q。元素w ∈ Q可以根据指示变量uλ∈ {0，1}写成表示量化级别的定义的离散集合（例如，Σdλ=1 qλuλ，假设qλ具有Q={-1，1}或Q={-1，0，1}）。由方程式（1）我们寻求一个完全量化的网络，其中包括偏置的所有可学习参数都被量化。这与之前的方法[10，35]相反，在之前的方法中，网络的某些部分没有被量化（例如，偏置和最后一层参数）。值1.用V表示这样的d-向量的大小为d的集合其中单个1分量（IRd的标准基的元素）充当Q的元素的指示向量。明确地，向量uj∈IRd在集合V中，如果Σd2.1.作为离散标记的λ=1uj：λ=1且uj：λ∈{0，1}<$λ∈{1，. . . ，d}。NN量化（1）自然地采取离散标记问题的形式，其中每个可学习参数wj从离散集合Q中取标签qλ。特别地，Eq.（1）直接涉及MRF优化问题[23]，其中随机变量对应于权重w的集合，类似地，所有参数的向量w∈ Qm可以使用指示变量表示如下。设uj ：λ∈{0，1}为指示变量，其中uj ：λ=1当且仅当wj=qλ∈ Q.对于任意的j∈ {1，，. . .，m}，我们可以写标签集为Q，能量函数为L（w）。我们称关于管理成果框架的简要概述见附录A。MRF的一个重要部分是wj= Σdλ=1uj：λqλ=.Σuj，q哪里uj∈ V。（二）能量函数取决于随机变量之间的相互作用。在将问题建模为MRF时，重点是能量函数的形式（例如，子模块性）以及交互的形式（集团），因为这两个方面都决定了最终优化的复杂性。在NNs的情况下，能量函数（即，损失）是函数的组合例如，初始层的参数通过函数使用Eq.（2）属于Q. 那个...对于所有参数的 w ，可以写为矩阵 - 向量积，w=uq其中u∈Vm。（三）这里，u={uj：λ}被认为是一个m×d矩阵（每行uj，对于j∈ {1，. . .，m}是V的元素）。注意，在集合V_m和Q_m之间存在一一对应关系。代入Eq. （3）在NN量化中，目标（1）导致变量从w到u的变化为：minL（w;D）= minL（uq; D）。（四）MmW∈Qu∈V混合物. 因此，能量函数不具有显式分解事实上，优化Eq.（1）直接由于以下固有问题而难以处理[26，32]：1. 解空间是离散的，具有指数级多个可行点（m为m的百万级2. 损失函数是高度非凸的并且不满足任何规则性条件（例如，子模块化）。3. 损失函数没有显式分解（对应于邻域结构）。即使上述变量变化将问题从m维空间转换到md维空间，集合Qm和Vm的基数是相同的。二元约束 uj ：λ∈{0，1}与非共维x损失函数L（·）一起使问题成为NP-困难的[32]。放松. 通过将二元约束放宽到uj ：λ∈[0，1]，而不是uj：λ∈{0，1}，我们得到了集合Vm的卷积x壳m。最小化Eq.（4）可以在m而不是Vm上进行。具体来说，我们定义这阻碍了任何现成的离散优化算法的使用。为了解决上述.w=4873n =z∈IRdΣλzλ= 1Σ.（五）zλ ≥0，λ4874这是嵌入在IRd中的标准（d−1）维单形，∆的顶点是V中的点。类似地，笛卡尔积Vm是Vm的凸包，而Vm又是Vm的顶点。单形∆将被称为概率单形，因为元素u ∈ ∆可以被认为（形式上）是有限集合{1，. . . ，d}。值uλ是选择离散参数w = qλ∈ Q的概率。通过这种概率解释，可以验证uq = Eu[w]，参数w的向量的期望值，其中每个wj具有由u j定义的独立概率分布。现在，松弛优化可以写为：minL（u;D）：=L（uq;D），（6）的参数空间，并讨论的条件时，这种优化将导致一个量化的解决方案在w空间，这是我们的主要目标。随机梯度下降（SGD）1[37]是优化神经网络的实际选择方法。在本节中，我们将SGD解释为一个近似方法，这将有助于稍后显示其与我们最终算法的差异。特别是，SGD（或梯度下降）可以被解释为迭代地最小化由近端项增加的损失函数的一阶泰勒近似[33]。在我们的例子中，目标函数与SGD相同，但可行点现在被约束为形成凸多面体。因此，在每次迭代k处，一阶目标可以写为：u∈mk+1好吧Kkk¨2u= argminL（ u）+ g，u−u+“u−u”，这个问题的最小值一般将小于等式（1）的最小值。（四）、然而，如果u∈ Vm，则u∈m= argminu∈m.Σu，η gk−uk2η+u2/2，（7）损失函数L（u）与原始损失值相同函数L（w）。此外，u从Vmtom转化为将w从Qm松弛到凸其中η>0是学习速率，并且gk：=uL~k是L~ k关于区域[qmin，qmax]m. 给你qmin 和qMax 代表tou在uk处评估。在不受约束的情况下，通过设置-将关于u的导数设为零，可以验证分别是最小和最大量化实际上，u∈∆m是一个过参数化表示上述公式导致标准SGD更新的w ∈[q min，qmax]m，且映射u→w=uq是auk+1=uk− ηgk。对于约束优化（如我们的情况（7）），很自然地使用的随机版本多对一满射映射当d= 2时，(two量化级别），映射是一对一的，并且主观. 此外，它可以表明，任何本地最小-预测梯度下降（PGD）[38]。具体地，在迭代点k处，投影的随机梯度更新可以是：Eq的最小值（6）（松弛u-空间）也是[qmin，qmax]m（松弛w-空间）中损失的局部极小，写为：uk+1 =Pm.ukΣ- ηgk、（8）反之亦然（命题2.1）。这实质上意味着变量从w到u的变化不会改变优化问题，并且可以通过在u空间中优化来获得w空间中的局部最小值提案2.1. 设f（w）：[qmin，qmax]m→IR是一个函数， w 是 [qmin ， qmax]m 中的一个点，使得 w=g（u）=uq.则u是f∈ g在m中的局部极小值其中P∆m（·）表示到多面体∆m的投影。尽管这种类型的问题可以使用无投影算法[3，13，27]进行优化，但通过依赖PGD，我们可以使用任何现成的一阶优化算法（例如，Adam [24]）。此外，对于特定的投影选择，我们证明了PGD更新等价于平均场方法的近似版本当且仅当w是f在[q]中的局部极小min，qmax]m.2.3.1多胞形投影证据函数g：∆m→[qmin，qmaxm是满射的到∆m的投影可以分解为m个独立的连续和仿射。这也是一个开放的地图。由此，结果很容易得出。最后，我们要指出的是，从w空间移动到u空间时使用的松弛在MRF优化文献中得到了很好的研究，并已被用于证明解的质量界限[9，25]。在NN量化的情况下，除了到平均场的连接3），我们相信，这种松弛允许explo- ration，这将是有用的随机设置。2.3. 一阶近似与优化在这里，我们讨论L~（u）在er∆m上的优化，讨论我们的优化方案如何允许在4875D维概率单形的投影的目标函数（7）对于每个j也是可分离的。因此，为了标记方便，不失一般性，我们假设m= 1。现在，对于给定的更新参数 uk+1=uk−ηgk （其中uk+1∈IRd ），我们讨论投影到概率单形的三种方法。这些投影的图示如图11所示。1.一、在本节中，为了简洁起见，我们也忽略上标k+ 1。欧几里德投影（Sparsemax）。投影到欧氏空间中的集合的标准方法是通过sparsemax[30]。给定标量β >0（通常β= 1），1SGD和梯度下降之间的区别在于，在前一种情况下，梯度是使用随机预言来近似的。4876图1：w和u-空间的插图，不同的投影，以及当m= 1时使用softmax的探索。这里，单形的每个顶点对应于w-空间中的离散量化水平，并且单形基于其顶点关联被划分。给定一个不可行点 u，它通过 softmax （或sparsemax）投影到单纯形上，当β → ∞时，投影点将向相关顶点移动。sparsemax相当于找到最接近βu的点u，即u=sparsem ax（βu）=argminz−βu2.（九）z∈顾名思义，这个投影很可能会碰到单纯形2的边界，从而在每次迭代中都得到稀疏解（u）。详情请参阅[30]。随着β的增加，投影点向顶点移动。我们的目标是在w空间中获得一个量化的解，它等价于获得一个作为单形Δ的顶点的解u。下面我们提供了使用softmax和单调增加的β计划来实现这一目标的理由，而不是sparsemax或hardmax投影。回想一下，将可行点放宽到位于单纯形图中的主要原因是为了简化优化问题，希望优化该重新定义将导致更好的解决方案。然而，在 hardmax 和sparsemax投影的情况下，有效解空间被限制为顶点集V（无松弛）或单纯形的边界（极小的子集）。这样的限制阻碍了对单丛的探索，并且没有充分利用弛豫的潜力。相比之下，softmax允许在整个simplex上进行探索，并且β的单调增加计划确保解决方案逐渐接近顶点。这种解释在图1中示出。1.一、基于Softmax的熵视图。事实上，softmax可以被认为是到顶点集合V的“噪声”投影，其中噪声由超参数β控制。我们现在通过为softmax投影提供基于熵的视图来证实这种解释。引理2.1。设u=softmax（βu∈），u∈IRd，β > 0。然后，u=argmax+1H（z），（12）Hardmax投影hardmax投影映射agiv enunu=hardmax（u~），（10） .其中H（z）=−z∈Σdλ=1βz λlog z λ是熵。uλ=1如果λ=argmaxu~µµ∈Q0否则对于λ ∈{1，. . . ，d}。证据这可以通过写出拉格朗日量并将导数设置为零来证明。Softmax投影。我们现在讨论softmax projection，它将一个点投影到simple的内部，从而得到稠密的解决方案。给定标量β >0，softmax投影为：u=tmax（βu~）的s，（11）softmax投影转换为目标函数（12）中的熵项，并且对于较小的β值，它允许迭代过程探索优化景观。我们相信，在随机环境中，这种探索行为是至关重要的，尤其是在早期阶段uλ=λexp（βu<$λ）μ∈Qexp（βu<$μ）λ ∈ {1，. . . ，d}。的训练。此外，我们的实证结果验证了这一假设，即使用softmax投影的PGD相对容易训练，并且与即使在欧几里得意义上近似，softmax与sparsemax[30]共享许多期望的性质（例如，它提供了u~的相对阶），并且当β → ∞时，投影点朝向顶点移动。2.3.2使用Softmax进行探索和量化上面讨论的所有投影都是有效的，因为投影点位于单纯形中。然而，在这方面，[2]除非βu在投影到x平面上时在π中，这是罕见的。4877其他 PGD 变体。注意，当β → ∞ 时，熵项消失，softmax接近hardmax。注意，在优化文献中已经广泛研究了通过超参数（在我们的情况下为β）约束解空间，其中一个例子是障碍方法[7]。此外，即使基于softmax的PGD更新产生等式（1）的近似解。（7）在SEC。3.我们证明了它在理论上等价于平均场方法的一个近似48783. 基于Softmax的PGD作为近端平均场基于softmax的PGD更新。然后，这里我们讨论基于softmax的PGD和众所周知的平均场方法[42]。没错uk+1 =argminηLk（u）−u∈∆.Σuk，u1-H（u）。（十五）β我们证明了更新uk+1= softmax（β（uk− ηgk））证据第一个显示实际上是修正均值的精确定点更新ηLk（u）−.Σuk，u.=− u，uk-ηg中文（简体）场目标函数这种联系弥补了MRF优化和NN量化文学之间。现在我们开始简单回顾平均场方法，然后继续我们的证明。平均场方法附录A中提供了一个独立的概述，但这里我们回顾一下重要的细节。给定能量（或损失）函数L（w）和形式为P（w）的相应概率分布e−L（W）/Z，平均场近似P（w）使用完全-除了常数项（不包含u的项）之外。然后从引理2.1推导出证明。目标函数Eq.（15）基本上与平均场对象iv e（13）对于Lk（w）（注意Eu[Lk（w）]=Lk（uq）=Lk，uq直到常数项）e相同，除了项Luk，uq。事实上，这是一个近端的term. 注意，它是余弦相似度，但从强制接近的损失因此，它鼓励结果uk+1更接近当前点uk及其in-1。因子分解分布U（w）=QmU（w）. 这里j=1j j分布U是通过最小化KL-散度KL（UNOPS）. 请注意，从u∈m的概率解释（见第二节）。2.2），对于每个j∈ {1，. . .，m}，概率Uj（wj=qλ）=uj ：λ。因此，可以使用变量u∈m来表示方向U，因此，平均场目标可以写为：argmin KL（u_P）= argminEu[L（w）]−H（u），（13）相对于损失项的注量由学习速率η。由于梯度估计在我们的情况下是随机的，因此非常需要这样的近端项，因为它鼓励更新进行平滑过渡。此外，负熵项充当凸正则化子，当β → ∞时，其影响变为可忽略，更新导致二元标号u∈Vm.此外，方程中的熵项（15）捕捉u∈mu∈m参数之间的依赖性。编码依赖-其中，Eu[·]是u上的期望，H（u）是熵。实际上，平均场在物理学中已经得到了广泛的研究MRF文献，其中能量函数L（w）在变量w的小子集上分解。这导致 KL-发散的有效最小化，因为期望Eu[L（w）]可以被有效地计算。然而，在标准神经网络中，函数L（w）没有显式的因子分解，并且KL-散度的直接最小化不是直接的。为了简化NN损失函数，可以使用其一阶泰勒近似来近似它，该近似完全丢弃NN参数之间的相互作用。在定理3.1中，我们证明了我们的基于softmax的PGD迭代地将平均场的近似版本应用于L（w）的一阶近似。在迭代k处，令L_k（w）是L（w）的一阶泰勒逼近。然后，由于L_k（w）中的参数之间没有相互作用，并且它是线性的，因此我们的近似平均场对象ive具有封闭形式的解，这正是基于softmax的PGD更新。以下定理分别适用于每个uj∈n的更新，因此也适用于相应参数wj的更新。定理3.1. 设L（u）：λ→IR是定义在多胞形λ的开邻域中的可微函数，uk是λ中的一点.设g k是L（u）在uk处的梯度，然而，完全因式分解分布的熵可能可以用更复杂的熵（例如树结构熵）代替，遵循[36]的思想。此外，还可以用一个高阶近似来代替Lk这种探索超出了本文的范围。备注。注意，我们的更新（15）可以被解释为熵罚方法，并且当熵被选择为镜像映射时，它在精神上类似于镜像下降算法（参见第二节）。[8]的4.3）。事实上，在每个迭代中，我们的算法和镜像下降都用负熵项来增强梯度下降目标，并在多面体上进行优化。然而，与镜像下降相比，我们的更新额外地构成了一个近端项和一个退火超参数β，这使得我们能够逐渐强制执行离散解。因此，要使用镜像下降，需要理解使用自适应镜像映射（依赖于β）的效果。然而，探索镜像下降的潜力是很有趣的，它可以让我们得到我们算法的不同变体近端平均场（PMF）。我们的PMF算法的优选实施例类似于基于softmax的PGD。Al-出租m1总结了我们的方法。然而，与现有方法[21]类似，我们引入了辅助变量u~∈IRm×d，并对它们执行梯度下降，将损失函数L~与映射的tmax函数的s组合克尔克湾kku~into∆m. 实际上，这解决了优化问题：且L（u）=L（u）+u−u，g一阶近似L在UK的模拟。设β和η（学习率）为正常数，uk+1= softmax（β（uk−ηgk）），（14）minu∈IRm×d L（softmax（βu）;D）.（十七）4879W.W~W~.u~算法1近端平均场（PMF）要求：K，b，{ηk}，ρ>1，D，L~确保：w*∈Qm算法2BinaryConnect（BC）的一次迭代[10]Require：wk，ηW，D，L1：wk←sign（wk）投影1：u<$0∈IRm×d，β<$1<$2：gk←WL（w;D）|WW=Wk梯度w.r.t. W2：对于k ←0，. . . ，K do3：gkKWW~.W=Wk梯度w。r. t. w3：uk←softmax（βuk）Projection（Eq.（11））4：wk+1<$wk−ηWgk梯度下降4：Db={（xi，yi）}b D对小批次进行采样i=1。5：gk←uL~（u;Db）。W.r.t.梯度uatuku6：gk←gk你好.u=ukGradientw.r. t. u~atuk是我们的PICM方法的不可行点和可行点uuuu=uk7：uk+1←uk−ηkgk梯度下降（Gradientdescentonu）分别为方便起见，我们总结了一次迭代算法2中的BC。现在，我们展示了更新步骤8：β ←ρ β增加β第九章：端10：w←hardmax（uK）q量化（等式10）（10））以这种方式，在未约束的域IRm×d上而不是在域Δ m上进行优化。与现有的方法相比，这不是必需的，但从经验上讲，它提高了性能。最后，由于β可以never be ∞，为了确保完全量化的网络，使用hardmax执行最终量化。由于当 β → ∞ 时 softmax 接近hardmax ，因此 Al- 出租 m1 的不动点对应于具有hardmax投影的PGD然而，由于softmax的探索允许我们的算法收敛到固定点，并具有更好的验证误差，如实验所示。3.1. 近端ICM作为特殊情况对于PGD，如果使用hardmax而不是softmax投影，则结果更新与迭代条件模式（ICM）的近端版本相同[5]。事实上，根据引理2.1的证明，可以证明更新 uk+1= hardmax（ uk−ηgk）产生以下等式的不动点：在BC和PICM中是等同的。3.1号提案考虑BC和PICM，q=[-1，1]T且ηW>0。F或迭代k>0，如果w~k=u~kq，则，1. BC中的投影：wk=sign（w~k）以及PICM：uk=hardmax（uk）满足wk=ukq.2. 设PICM的学习率为ηu= ηW/2，则BC和PICM中梯度下降步骤后的更新点满足wk+1=uk+1q。Pr oof. 情况（1）是简单地应用wk=ukq，而情况（2）可以通过将wk写为uk的函数，然后应用链式法则来解决。参见附录B。由于hardmax是不可微分运算，因此不定义在iveu/u~=hardmax/u~处的偏导数iv。然而，为了允许反向传播，我们根据符号函数编写hardmax，并使用直通估计器[17]来允许类似于二进制卷积的梯度流。详情请参见附录B.1。4. 相关工作有很多关于NN量化的工作集中在不同的方面，例如量化参数[10]、激活参数[11]、激活参数[12]和激活参数[13]。minu∈mη。gk，u−.Σuk，u.（十八）举几个例子，例如，损失感知量化[20]、损失感知量化[18]和用于专用硬件的量化[12在这里，我们给出一个请注意，这与ICM目标8月完全相同。由近端术语表示。在这种情况下，u∈ Vm<$m，这意味着可行域被限制为多面体 <$m 的顶点。由于softmax在β →∞时接近hardmax，这是近似平均场的一个特例3.2. BinaryConnect作为近端ICM在本节中，考虑二进制神经网络，即，Q={−1，1}，非随机设置，我们证明了邻近迭代条件模式（PICM）算法等效于流行的BinaryConnect（BC）方法[10]。在这些算法中，在两个不同的空间中计算梯度，因此为了减轻任何差异，我们假设使用完整的数据集计算梯度。设w~∈IRm和w∈Qm是B C的不可行点和可行点。类似地，u~∈IRm×d和u∈Vm∆m←g4880最新作品的简要摘要和全面的调查，我们请读者参考[15]。在这项工作中，我们考虑了参数量化，它可以被视为一种后处理方案[14]，也可以被纳入学习过程。流行的方法[10，21]属于后一类，并使用某种形式的投影随机梯度下降来优化约束问题与投影相反，量化也可以使用惩罚项[4，43]来实施。尽管我们的方法是基于投影梯度下降的，但通过在u空间中进行优化，我们提供了理论上的基于平均场的视线和桥梁之间的差距NN量化和MRF优化文献。相比之下，变分方法也可以用于量化，其中的想法是学习贝叶斯框架中的网络参数的后验概率。4881数据集图像 # class Train / Val. BKMNIST28× 281050k / 10k 100 20kCIFAR-1032× 321045k/5k128 100kCIFAR-10032× 3210045k/5k128 100kTinyImageNet64 ×64200100k / 10k 128 100k表1：实验设置。这里，b是批量大小，K是用于所有方法的迭代总数。在这一系列方法中，可以通过量化先验[1]或使用学习后验的MAP估计[40]来获得量化网络有趣的是，学习的后验分布可用于估计模型的不确定性，进而确定每个网络参数所需的精度[29]。请注意，即使在我们看似不同的方法中，我们也会学习参数的概率分布（参见第二节）。2.2），理解贝叶斯方法和我们的算法之间的联系将是有趣的。5. 实验由于神经网络二进制化是最流行的量化[10，35]，我们将量化级别设置为二进制，即，Q={−1，1}。然而，我们的公式适用于任何预定义的一组量化级别，在训练时提供足够的资源我们想指出的是，我们删除了所有可学习的参数，这意味着所有量化算法的内存都比浮点算法少32我们在具有卷积和残差架构的MNIST，CIFAR-10，CIFAR-100和TinyImageNet3分类数据集上评估了我们的近端平均场（PMF）算法，并与BC方法[10]和最新算法ProxQuant（PQ）[4]进行了比较。请注意，BC和PQ构成与PMF最接近且可直接比较的基线。此外，通过放松一些约束，已经基于BC开发了许多其他方法，例如，逐层标量[35]，并且我们相信，类似的扩展也可以使用我们的方法。我们的研究结果表明，通过PMF获得的二进制网络产生的精度非常接近浮点同行，同时始终优于基线。5.1. 实验装置数据集及其相应的实验设置的细节在表1中给出。在所有实验中，标准多类交叉熵损失被最小化。MNIST使用LeNet-300和LeNet-5进行测试，其中前者由三个全连接（FC）层3https://tiny-imagenet.herokuapp.com/而后者由两个卷积层和两个FC层组成。对于CIFAR和TinyImageNet，使用适用于CIFAR数据集的VGG-16[39]和ResNet-18[16]架构。特别是，对于CIFAR实验，类似于[28]，VGG-16的FC层的大小设置为512，并且没有采用dropout层。对于TinyImageNet，ResNet-18的第一个卷积层的步幅设置为2以处理图像大小[19]。在所有模型中，使用了批量归一化[22]（没有可学习的参数）和ReLU非线性。除了MNIST之外，使用标准数据扩充（即，随机裁剪和水平翻转）并且权重衰减被设置为0。0001除非另有说明。对于所有算法，使用验证集4交叉验证诸如优化器和学习速率（以及其调度）的超参数，并且在补充材料中给出所选择的参数。对于具有sparsemax的PMF和PGD，算法1中的增长率ρ（用于增加β的乘法因子）在1之间交叉验证。01和1。2，并且在补充中给出了每个实验的选择值。此外，由于BC的原始实现没有二进制化所有可学习参数，为了公平比较，我们基于公开可用的代码5在我们的实验设置中实现BC。然而，对于PQ，我们使用原始代码6，即，对于PQ，偏置和最后一层参数不被二进制化。所有方法都是从随机初始化训练的，并且为每个方法选择具有最佳验证精度的模型。我们的算法在PyTorch中实现[34]。5.2. 结果表2中报告了我们算法的所有版本的测试集上的分类准确度（ top-1 ），即 PMF 、 PGD （这是具有sparsemax投影的PGD）和PICM、基线BC和PQ以及浮点参考网络（ REF ）。 CIFAR-10 和具有 ResNet-18 的CIFAR-100的训练曲线示于图2中。二、请注意，我们的PMF算法始终比其他二值化方法产生更好的结果，并且对于全浮点参考网络的性能退化是最小的，特别是对于小数据集。对于较大的数据集（例如，CIFAR-100），二进制化ResNet-18导致比VGG-16小得多的退化。PMF相对于BC、PICM和PGD的优异性能经验性地验证了以下假设：通过softmax执行此外，即使PICM和BC在非随机设置中理论上是等效的，PICM在我们所有的实验中产生稍微更好的精度我们推测这是由于4对于TinyImageNet，由于测试集的地面真值标签不可用，验证集用于交叉验证和测试。5 https://github.com/itayhubara/BinaryNet。PyTorch6https://github.com/allenbai01/ProxQuant4882数据集建筑REF（Float）BC[10]PQ[4]我们参考-PMFCIFAR-100表2：不同方法在测试集上的分类准确度。请注意，我们的PMF算法始终比其他二进制化方法产生更好的结果，并且对全浮点网络（最后一列）的性能下降最小，特别是对于小数据集。对于较大的数据集（例如，CIFAR-100），二进制化ResNet-18导致比VGG-16小得多的退化。尽管PICM和BC在非随机设置中理论上是等效的，但PICM产生的精度略好。请注意，除了PQ之外，所有二进制化方法在测试时所需的内存都比单精度浮点网络少32倍。4.03.53.02.52.01.51.00.50.00 50 100 150 200 250300历元806040200 50 100 150 200 250300历元4.03.53.02.52.01.51.00.50.0参考BCPQPICMPGDPMF0 50 100 150 200 250300历元7060504030201000 50 100 150 200 250 300历元图2：使用ResNet-18的CIFAR-10（前两个）和CIFAR-100（后两个）的训练曲线。对于量化方法，验证精度总是用量化的网络来测量具体而言，对于PMF和PGD，在评估之前应用hardmax投影。值得注意的是，验证精度图清楚地说明了PMF和PGD的探索阶段，在此期间精度最差。然而，一旦β“足够大”，曲线就非常类似于高精度参考网络，同时产生非常高的精度。此外，与BC和PICM相比，其他方法的噪声较小，这表明在凸域上优化的有用性。在PICM中，训练是在更大的网络上执行的（即，在U空间中）。为进一步巩固业连系的推行，我们在这里引用原始论文中报道的准确性。在[10]中，CIFAR-10的top-1精度与修改的VGG型网络是90。百分之十在相同的设置中，即使使用额外的逐层标量（二进制权重网络（BWN）[35]），相应的精度也是90。百分之十二关于网络量化的全面结果，我们请读者参考[15]的表5请注意，在上述所有情况下，所有层中的最后一个层参数和偏置都没有被二进制化。6. 讨论在这项工作中，我们制定了NN量化作为一个离散的标签问题，并引入了一个投影随机梯度下降算法来优化它。通过将我们的方法显示为近端平均场方法，我们还提供了MRF优化视角，NN量化这种联系开辟了有趣的研究方向，主要是考虑神经网络参数之间的依赖性，以获得更好的网络量化方案。此外，我们的PMF方法在网络参数上学习概率分布因此，我们相信，探索贝叶斯方法和我们的算法之间的联系是有趣的，这可能会推动这两个领域的研究7. 确认这项工作得到了ERC资助ERC- 2012-AdG 321162-HELIOS ， EPSRC 资助 Seebibyte EP/M013774/1 ，EPSRC/MURI资助EP/N 019474/1和澳大利亚研究委员会机器人视觉卓越中心（项目编号CE 140100016）的支持。我们还要感谢皇家工程学院、FiveAI、澳大利亚国家计算基础设施和英伟达（GPU捐赠）。参考BCPQPICMPGDPMF训练损失参考BCPQPICMPGDPMF验证精度训练损失PICMPGDPMFLeNet-300九十八55九十八05九十八13九十八18九十八2198.24+0。31MNISTLeNet-5九十九。39九十九。30九十九。27九十九。31九十九。2899.44-0。05VGG-16九十三0186岁。40九十1188岁9688岁4890.51+2。50ResNet-1894 6491. 6092.3292.0292. 6092.73+1。91验证精度4883引用[1] J. Achterhold，J.M. Kohler，A.Schmeink和T.吉恩温变分网络量化。ICLR，2018年。7[2] Thalaiyasingam Ajanthan。计算机视觉中马尔可夫随机场的优化。博士论文，澳大利亚国立大学，2017年。1[3] Thalaiyasingam Ajanthan 、 Alban Desmaison 、 RudyBunel、Mathieu Salzmann、Philip HS Torr和M PawanKumar.密集CRF的有效线性规划。CVPR，2017年。3[4] Yu Bai，Yu-Xiang Wang，and Edo Liberty.Proxquant：通过邻近算子量化的神经网络ICLR，2019。六七八[5] 朱利安·贝萨格关于脏图片的统计分析皇家统计学会杂志。，1986年。二、六[6] 安德鲁·布莱克，普什米特·科利，卡斯滕·罗瑟。马尔可夫随机场的视觉和图像处理。Mit Press，2011. 1[7] 斯蒂芬·博伊德和利文·范登伯格。凸优化。剑桥大学出版社，2009年。4[8] 是巴斯蒂安·布贝克。最佳化：演算法与[20] Itay Hubara、Matthieu Courbariaux、Daniel Soudry、RanEl-Yaniv和Yoshua Bengio。二值化神经网络NIPS，2016年。6[21] Itay Hubara、Matthieu Courbariaux、Daniel Soudry、RanEl-Yaniv和Yoshua Bengio。量化神经网络：用低精度权重和激活训练神经网络。JMLR，2017。一、五、六[22] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。ICML，2015.7[23] R. Kindermann和J. L.斯奈尔马尔可夫随机场及其应用。美国数学学会，1980年。2[24] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。ICLR，2015年。3[25] 乔恩·克莱因伯格和伊娃·塔多斯具有成对关系的分类问题的近似算法：矩阵标号和马尔可夫随机场。ACM杂志，2002年。3[26] Vladimir Kolmogorov和Ramin Zabin。什么样的能量函数可以通过图形切割最小化？PAMI，2004年。2[27] Simon Lacoste-Julien，Martin Jaggi，Mark Schmidt，and完成。基金会和Tr结束审查，2015年。5机器学习-帕特里克·普莱彻块坐标Frank-Wolfe优化结构支持向量机。 ICML，2012年。3[9] Chandra Chekuri，Sanjeev Khanna，Joseph Naor，andLeonid Zosin.度量标号问题的线性规划公式和近似算法

下载后可阅读完整内容，剩余1页未读，立即下载