二进制化权重和激活的网络分解方法用于图像分类和语义分割

176 浏览量更新于2023-10-18 收藏 681KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

413−用于精确图像分类和语义分割的庄博涵1沈春华1谭明奎2刘玲巧1伊恩·里德11澳大利亚阿德莱德2华南理工摘要在本文中，我们建议使用二进制化权重和激活来训练卷积神经网络（CNN），从而产生专门用于功率容量和计算资源有限的移动设备的量化模型。之前关于量化CNN的工作试图使用一组离散值来近似浮点信息，我们称之为值近似，但通常假设与全精度网络相同的架构。然而，我们采取了一种新的“结构近似”的观点来量化，这是很有可能的，一个不同的架构可能会更好的最佳性能。特别是，我们提出了一个“网络分解”的策略，称为组网，我们把网络分成组。通过这种方式，可以通过聚合一组同质二进制分支来有效地重构每个全精度组。此外，我们还学习了群体之间的有效此外，建议的Group-Net显示出较强的通用性，以其他任务。例如，我们通过将丰富的上下文嵌入到二进制结构中来扩展Group-Net以实现高度准确的语义分割。分类和语义分割任务的实验表明，所提出的方法优于各种流行的架构。特别是，我们在准确性和主要计算节省方面优于1. 介绍设计更深更宽的卷积神经网络已经在许多机器学习任务中取得了重大突破，例如图像分类[17，26]，对象检测[40，41]和对象分割[7，34]。然而，精确的深度模型通常需要数十亿的FLOP，这使得深度模型在资源受限的移动平台上运行许多实时应用是不可行的。到*C. 沈是通讯作者。为了解决这个问题，许多现有工作集中于网络修剪[18，28，54]、低比特量化[24，53]和/或有效的架构设计[8，21]。其中，量化方法用低位宽的定点整数表示权重和激活，因此点积可以通过几个XNOR-popcount逐位操作来计算两位的XNOR仅需要单个逻辑门，而不是使用数百个浮点乘法单元[10，14]。二进制化[22，39]是一种极端的量化方法，其中权重和激活都由单个位表示，+1或1。在本文中，我们的目标是从量化和有效的架构设计的角度来设计高精度的二进制神经网络（BNN）。现有的量化方法主要可以分为两类。第一类方法寻求设计更有效的优化算法来找到量化权重的更好的局部最小值。这些作品要么引入知识蒸馏[35，38，53]，要么使用损失意识目标[19，20]。第二类方法集中于改进量化函数[4，48，51]。为了保持良好的性能，必须学习离散值与其浮点值之间的适当映射。然而，设计量化函数是非常重要的，特别是对于BNN，因为量化函数通常是不可微的，并且梯度只能粗略地近似。上述两类方法属于值近似，其试图通过保留原始网络的大部分表示能力来调整权重和/或激活。然而，数值逼近方法有一个天然的局限性，即它仅仅是一种局部逼近.此外，这些方法往往缺乏对一般任务的适应能力。给定特定任务的预训练模型，量化误差将不可避免地发生，并且最终性能可能会受到影响。在本文中，我们试图探索第三类称为结构近似。主要目标是重新设计一个二进制架构，可以直接匹配的浮点模型的能力。特别是，我们提出了一个结构-414××··×−该方法利用二进制神经网络（Group-Net）对全精度模型进行分组，并用一组并行的二进制基来逼近浮点结构的模型。通过这种方式，可以比值近似方法更好地保留更高级别的结构此外，依赖于所提出的结构化模型，我们能够根据不同的任务设计灵活的二进制结构，并利用特定于任务的信息或结构来补偿量化损失并促进训练。例如，当将Group-Net从图像分类转移到语义分割时，我们受到Atrous空间金字塔池（ASPP）结构的激励[5]。在DeepLab v3 [6]和v3+[7]中，ASPP仅应用于提取的特征的顶部，而骨干网络中的每个块只能采用一个atrous速率。相比之下，我们建议在骨干网络中的并行二进制基上直接应用不同的atrous速率，这相当于将ASPP吸收到特征提取阶段。因此，我们显着提高了语义分割的性能，而不会增加二进制卷积的计算复杂度。一般来说，将基于先前值近似的量化方法扩展到更具挑战性的任务，例如语义分割（或其他一般的计算机视觉任务）是不平凡的。然而，正如将要展示的，我们的Group-Net可以很容易地扩展到其他任务。然而，值得一提的是，价值逼近与结构逼近是相辅相成的，而不是相互矛盾的.换句话说，两者都很重要，应该被利用来获得高度准确的BNN。我们的方法也受到那些节能架构设计方法[8，21，23，49]的激励，这些方法寻求用计算有效的卷积运算（即，可分离卷积，11卷积）。然而，我们建议从量化的角度为专用硬件设计二进制网络架构我们强调，虽然大多数现有的量化工作集中在直接量化的全精度架构，在这个时间点，我们开始探索替代架构，应更适合处理二进制权重和激活。特别地，除了将每个组分解成几个二进制基之外，我们还建议通过引入融合门来学习每个组之间的连接。此外，Group-Net可以通过神经架构搜索方法进一步改进[37，55，56]。我们的贡献总结如下：我们建议从结构近似的角度来设计精确的BNN结构。具体来说，我们将网络分成几组，并使用一组二进制基来近似每组。我们还提出了自动学习的分解，通过在-产生软连接。所提出的Group-Net具有很强的灵活性，可以很容易地扩展到其他任务。例如，在本文中，我们提出了二进制并行Atrous卷积（BPAC），它将丰富的多尺度上下文嵌入到BNN中，以实现准确的语义分割。与仅使用Group-Net相比，使用BPAC的Group-Net显著提高了性能，同时保持了复杂性我们基于ResNet在ImageNet和PASCAL VOC数据集上评估我们的模型。大量的实验表明，所提出的Group-Net实现了最先进的准确性和计算复杂性之间的权衡。我们将在后续的文章中回顾一些相关的工作网络量化：最近对在嵌入式设备上实现定点深度神经网络的需求不断增加，推动了网络量化的研究。文献[4，22，29，39，51，53]中广泛探讨了使用低位宽离散值来近似实值BNN [22，39]建议将权重和激活都约束为二进制值（即，+1和1），其中乘法累加可以由纯粹的xnor（）和popcount（）操作代替。为了在准确性和复杂性之间进行权衡，[13，15，27，47]提出递归地执行残差量化并产生一系列具有递减幅度尺度的二进制张量。然而，多个二进制化是顺序的过程，不能被重复。在[29]中，Lin等人提出在向前传播期间使用二进制基的线性组合来近似浮点张量。这启发了我们的方法的各个方面，但与所有这些局部张量近似不同的是，我们还直接从结构近似的角度设计BNN。高效的架构设计：近年来，人们对设计高效建筑的兴趣日益浓厚，自然像GoogLeNet [45]和SqueezeNet [23]这样的高效模型设计提出将3 × 3卷积核替换为1 × 1大小，以降低复杂性，同时增加深度和准确性。此外，可分离卷积在Inception方法中也被证明是有效的[44，46]。Xception[8]、Mo-bileNet [21，43]和ShuffleNet [49]将这一思想进一步推广为依赖可分离卷积，以生成节能网络结构。为了避免手工设计，神经架构搜索[30，31，37，55，56]已经被探索用于自动模型设计。2. 方法大多数以前的文献都集中在通过设计精确的二值化函数来进行值逼近，···415我··我·我白俄罗斯ba布雷布x-≤（Kc cwhwh）+Kcwh··×××权重和激活（例如，多个二进制化[13，15，27，29，47]）。在本文中，我们试图从“结构近似”的角度对CNN的权重和激活进行在下文中，我们首先给出问题的定义和关于二值化的一些基本知识。2.1.然后，在Sec。2.2，我们解释了我们的二进制架构设计策略。最后，在第2.3，我们描述了如何利用特定于任务的属性来推广我们的语义分割方法2.1. 问题定义对于卷积层，我们分别定义输入x∈Rcin×win×hin，权重滤波器w∈Rc×w ×h和输出y∈Rcout×wout×hout。权重的二进制化：根据[39]，我们近似分解和分组分解在第二节。2.2.1和Sec. 2.2.2分别。在此之后，我们将提出一种新的策略，自动分解在秒。2.2.3.2.2.1分层二元分解二进制分解的关键挑战是如何重新构造或近似浮点结构。最简单的方法是以逐层的方式进行近似。设B（）是二进制卷积层，并且bw是第i个基的二进制化权重图在图1（c）中，我们示出了单个块的逐层特征重构具体来说，对于每一层，我们的目标是使用一组二进制化的齐次分支F（）来拟合全精度结构，给定浮点输入张量x：通过二进制权重滤波器bw和缩放因子α∈R+来计算浮点权重w，使得w<$αbw，其中bw为F（x）=ΣKi=1λiBi（x）=ΣKi=1λi（bwsign（x）），（3）w和α的符号计算绝对值本文对白亮一般来说，sign（）是不可微的，因此我们采用直通估计量[1]（STE）来近似梯度计算。形式上，向前和向后过程可以给出如下：正向：bw= sign（w），其中λ i是按位运算xnor（·）和popcount（·），K是分支数，λi是待确定的组合系数。在训练过程中，结构是固定的，每个二进制卷积核bw为以及λi直接用端到端优化来更新。比例标量可以被吸收到批量正常-∂ℓ ∂ℓ向后：=w其中，n是损失。bw你好，（一）在推理的时候。请注意，等式中的所有Bi（3）具有与原始浮点计数器相同的拓扑。每个二进制分支给出一个粗略的近似激活的二值化：对于激活二值化，我们利用分段多项式函数来近似[33]中的符号函数。向前和向后可以写为：正向：ba= sign（x），并且所有的近似被聚集以实现对原始全精度卷积层的更精确的重构注意，当K= 1时，它对应于直接二进制化浮点卷积层（图1）。（b）款。然而，有了更多的分支（一个更大的K），我们是前-向后：=一·X，预计将实现更精确的近似，2+ 2x：−1≤x0<（二）复杂的转换。其中a=122x：0 x <1.0：否则在推理过程中，齐次K基是可并行的，因此该结构是硬件友好的。这将显著提高推理的速度2.2. 结构化二元网络分解在本文中，我们试图设计一个新的结构表示的网络的量化。首先，请注意，计算机中的浮点数是由固定数量的二进制数字表示的。受此启发，我们建议将网络分解为二进制结构，而不是直接通过“值分解”进行量化具体而言，按位XNOR操作和位计数可以由当前一代CPU以64并行执行[33，39]。我们只需要计算K个二进制卷积和K个全精度加法。因此，卷积层的加速比σ可以计算为：cincoutwhwinhinσ=1，inoutinout出去服务于其代表性。具体来说，给定浮点残差网络Φ6464cinwhwinhin=·.（四）对于N个块，我们将Φ分解为P个二进制片段，[F1，...，其中Fi（）可以是任何二进制结构。注意，每个Fi（）可以不同。一个很自然的问题出现了：我们能否找到一些简单的方法来分解具有二元结构的网络，以便能够精确地保持其可表示性？为了回答这个问题，我们在这里，探讨了F（·）的两种结构，即分层结构Kcinwhwinhin+64wouthout我们以ResNet中的一个层为例。如果我们设置c=256，h= 33，w in=hin=wout=hout= 28，K=5，则加速比可达12.45。但在实践中，每个分支可以并行实现。而实际的加速比也受到内存读取和线程通信过程的影响。·416convconvconv·联系我们···（一）（b）第（1）款B（乙）B（乙）（c）第（1）款B（）1B（）K（图1：基线二进制化方法和拟议的逐层二进制分解概述。我们采用具有两个卷积层的一个残差块进行说明。为了方便起见，我们省略了批量归一化和非线性。(a)：浮点残差块。(b)：全精度块的直接二值化。(c)：等式中的逐层二进制分解其中，我们使用一组二进制卷积层B（·）来近似浮点卷积层。将Gi（）设置为基本残差块[17]，（a）在图2（a）中。考虑到剩余架构，我们可以分解F（x）通过扩展等式（3）作为：ΣKF（x）= λiGi（x），（5）i=1H（）1K图2：所提出的分组式二进制分解策略的图示。我们取两个剩余块进行描述。(a)：浮点残差块. (b)：方程中的基本逐组二元分解其中，我们用二进制块G（·）的线性组合来近似整个块。(c)我们用齐次二元基H（·）来近似整个群，其中每个群由几个块组成。这对应于Eq. （六）、2.2.2分组二元分解其中λi是要学习的组合系数。由方程式（5）中，我们使用齐次二元基的线性组合来近似一个群，其中每个基Gi是一个二值化块。通过这种方式，我们有效地保持了每个基中的原始残差结构，以保持网络容量。如图所示。4.3.1中，分组分解策略比简单的分层近似执行得好得多。此外，分组近似是灵活的。我们现在分析每个组可能包含不同数量的块的情况。假设我们将网络划分为P个组，并且遵循一个简单的规则，即每个组必须包括一个或多个完整的剩余构建块。对于第p个群，我们考虑块集T Tp−1+ 1，...，Tp，其中如果p = 1，则索引Tp−1= 0。我们可以扩展Eq。（5）分成多块格式：ΣK在逐层方法中，我们用F（xTp−1+1）=λiHi（x），i=1（六）二进制层的多个分支。注意每个分支将TpTp−1Tp−1+1会产生一定的误差，误差可能会...=i=1λiGi（Gi（. （Gi（xTp−1+ 1））. ））的情况下，由于多个分支的聚集，因此，这种策略可能会产生严重的量化误差，并在反向传播过程中带来较大的梯度偏差。为了缓解上述问题，我们进一步提出了一种更灵活的分解策略，称为分组二元分解，以保留更多的结构信息在近似。为了探索组结构分解，我们首先考虑一个简单的情况下，每个组只包括一个块。然后，逐层近似策略可以很容易地扩展到组的情况下。如图2（b），类似于逐层情况，每个浮点组被分解为多个二进制组。然而，每个组Gi（）是由若干二进制卷积和浮点逐元素运算（即，ReLU、AddTensor）。比如我们可以其中H（）是图1所示的后续块的级联。第2段（c）分段。基于F（），我们可以有效地构造一个网络，通过堆叠这些组，每个组可以由一个或多个块组成。不同于当量（5），我们进一步在每个基础上暴露一个新的维度，即块的数量。这大大增加了结构空间和分解的灵活性。我们在SEC中展示了几种可能的连接。S1在补充文件中，并进一步描述如何学习分解在第。2.2.3.2.2.3学习动态分解这是一个很大的挑战，涉及到EQ。（六）、请注意，convconvB（B（乙）B（）B（）（1B（）B（）…G（GB（）B（）B（）B（）1克雷蒂安…………B（乙）B（乙）B（乙）B（乙）（c）417网络有N个块，可能的连接数为2N。显然，在训练期间列举所有可能的结构在此，我们建议418-11-1个-11-1·我我−−我我·联系我们K通过动态地学习分解的结构来解决这个问题。我们引入融合门作为块G（）之间的软连接。为此，我们首先将第n个块的第i个分支的输入定义为：Cn= sigmoid（θn），(a) 传统的离散点扩张卷积。浮点特征映射3x3Conv，膨胀率=2输出⊛我我n n n−1n −1Xi =Ci<$Gi（xi）ΣK（七）+ （1 −Cn）λ Gn−1（xn−1），签署多重膨胀分解ijj jj=1其中θ∈RK是一个可学习的参数向量，Cn是一个门标量，而ε是Hadamard积。融合门二元特征图⊕- 一个⊕一比一一比一3x3转换率=1-13x3转换率=21总和输出图3：两个相邻模块之间的软连接示意图。为了方便起见，我们只说明了一个分支的融合策略。这里，分支输入xn是两条路径的加权组合。第一条路径是在第（n1）块，这是一个直连接相应的第i分支的输出。第二条路径是第（n1）个块的聚合输出。详细结构示于图1中。3.第三章。这样，我们使更多的信息流入分支，并增加梯度路径，以提高BNN的收敛性。(b) 二进制并行Atrous卷积（BinaryParallelAtrousConvolution，BPAC）图4：传统扩张卷积和BPAC之间的比较。为了表达方便，该组只有一个卷积层。卷积运算是卷积运算，XNOR计数运算是 (a)：原始浮点膨胀卷积。 (b)：我们将浮点atrous卷积分解为二元基的组合我们将每个二进制分支的输出特征相加作为最终表示。对于这样的层，所提出的方法可以构造具有相同结构的多个二进制atrous卷积分支，并从它们聚集结果。然而，我们选择不这样做，而是提出一种替代策略：备注：对于极端情况，ΣKi=1Cn =0，对每个分支使用不同的扩张率。如此则模型可以利用多尺度信息作为副产品当量（7）将被简化为Eq。这意味着我们独立地近似第（n-1）个和第n个块当Cn=K网络分支分解。应当注意该方案与我i=1，方程式（7）与Eq. （6）设H（·）朴素二元分支分解这个想法被说明了是两个连续的块和近似组如图。我们称这种策略为二进制并行AtrousΣN整体有趣的是，当Cn=NK，它对应于-卷积（BPAC）。n=1i=1在Eq中设置H（）（6）形成一个完整的网络，直接集成K二进制模型。2.3. 语义分割的扩展在所提出的方法中传达的关键信息是，虽然每个二进制分支具有有限的建模能力，但将它们聚合在一起会产生强大的模型。在本节中，我们将展示这一原则可以应用于图像分类以外的任务。特别是，我们认为语义分割，可以被视为一个密集的像素分类问题。在最先进的语义分割网络中，atrous卷积层[6]是一个重要的构建块，它以一定的膨胀率执行卷积。直接适用在本文中，我们使用与[6]相同的ResNet主干，7]，其中输出步幅=8，其中最后两个块采用无卷积。在BPAC，我们保持利率=二、三、……K，K +1和比率= 6，7，...， K +4，K +5，最后两个区块中的K个碱基。有趣的是，将在SEC中显示。4.4，我们的策略带来了这么多的好处，使用五个二进制基与BPAC实现了类似的性能作为原来的全精度网络，尽管它节省了相当大的计算成本。3. 讨论复杂性分析：表1中显示了各种量化方法在复杂性和存储方面的综合比较。例如，在先前的状态中-Gn111摄氏度1C1Gn1B（乙）B（乙）B()B（乙）11B（乙）B（乙）克雷蒂安B（乙）B（乙）克雷蒂安.....……a11一个12一名13一名14一个15一个16一名17一名21一名22一名23一个24一个25一名26一名27一名31一台32一名33一名34一名35一名36一台37一名41一台42一名43一名44一个45一名46一名47一名51一名52一名53一名54一名55一名56一名5711岁W1213岁以下二十一世纪W22W231-11-11-11-11-111-111-111-1-11-11-1-1-11-111111-1-11-11-1-111-1-1-1-11-11-111419K ×BMJ 联系我们JJ····−- ----×××W 联系我们√K2√−2（b）、（8）表1：不同量化方法的计算复杂度和存储比较F：全精度，B：二进制，QK：K位量化。模型权重激活操作内存节约计算节省全精度DNNFF+、-、×11[22，39]BBXNOR-popcount∼32×∼64×[9、20]BF+，-∼32×∼2×[50，52]QKF+、-、×∼32K×<2×[35、48、51、53]QKQK+、-、×∼32K×<64K2×[13、15、27、29、47]K×BK×B+、-、XNOR-popcount∼32K×<64K2×集团网K×（B，B）+、-、XNOR-popcount∼32K×<64×K最先进的二进制模型ABC-Net [29]，每个卷积层使用K个权重基和K个激活基来近似，这需要计算K2次二进制卷积。相比之下，我们只需要近似几个具有K个结构基的群。如报告中所述4.2，我们节省了大约K倍的计算复杂度，同时仍然达到了相当的Top-1精度。由于我们使用K个结构基，因此与全精度对应物相比，参数的数量增加了K但由于所有权值都是二进制的，我们仍然节省了32/K倍的内存带宽。对于我们的方法，每个组之间存在元素操作，因此节省的计算复杂度略低于64。分组网络与定点方法的差异：所提出的具有K个基的分组网络与K位定点方法不同[35，48，51，53]。我们首先展示了如何通过按位运算来计算定点权重和激活之间的内积。令权向量w ∈ RM由向量i1，1，i= 1，.，K.假设我们也-将激活设置为K位。类似地，激活x可以通过ba1，1 M，j= 1，...，K.然后，卷积可以写为：K−1K−1总之，与K位固定点方法相比，K基群网只需K个计算复杂度，节省（21）/K累加器带宽。即使是K位定点量化也需要更多的存储器带宽来将信号馈送到SRAM或寄存器中。Group-net与多种二进制化方法的区别：在ABC-Net [29]中，从全精度权重/激活中获得二进制权重/激活基的线性组合，而无需直接学习。相反，我们直接设计二进制网络结构，其中二进制权重是端到端优化的。[13，15，27，47]提出递归地近似残差，并获得对应于不同量化尺度的一系列二进制映射。然而，这是一个连续的过程，不能重复。所有多重二值化方法都属于局部张量近似。与数值逼近不同，我们提出了一种结构逼近的方法来模拟全精度网络。此外，基于张量的方法被严格设计为局部值近似，并且很难相应地推广到此外，我们的结构分解策略实现了比张量级近似更好的性能，如SEC所示4.3.1. 更多讨论QK（wT）QK（x）=i=0时i+jw aI jj=0在SEC。补充文件中的S2。4. 实验其中Qk（·）是量化函数1。在推理过程中，它需要首先通过查找量化来获得每个比特的编码ba，间隔然后，它计算并求和K2次xnor（）和popcount（）。算法复杂度为O（K2）.注意，单个输出的输出范围应为[（2K 1）2M，（2K 1）2M].在合约中，我们通过sign（x）直接得到ba。更多-因为我们只需要计算K次xnor（）和popcount（）（参见等式2）。算法复杂度为O（k），因此算法的复杂度为O（K）。对于二进制卷积，它的输出范围是-1，1。因此，求和后每个元素的取值范围是[KM，KM]，其中不同值的数量比不动点方法少得多1为简单起见，本文只考虑均匀量化。我们定义了几种比较方法如下：LBD：它实现了第2节中描述的逐层二进制分解策略。2.2.1. Group-Net：它实现了完整的模型，学习了第二节中描述的软连接。2.2.3.遵循双实网[32，33]，我们应用捷径绕过每个二进制卷积以提高收敛性。集团网络 **：基于Group-Net，我们将11下采样卷积保持为与[2，33]相似的全精度。4.1. 实现细节如[4，39，51，53]所示，我们将所有卷积层的权重和激活值进行了调整，除了第一层和最后一层具有全精度。在所有ImageNet实验中，训练图像的大小调整为256 256，并从图像或其水平方向随机采样224 224裁剪420·→·×→→∼××√√翻转，减去每像素平均值。在我们的实现中，我们不使用我们使用简单的单一作物测试进行标准评估。未使用偏倚项。我们首先将全精度模型预训练为初始化，Tanh（）作为非线性，并微调二进制对应物。我们使用Adam [25]进行优化。为了训练所有二进制网络，mini-batch大小和权重衰减分别设置为256和0。学习率从5e-4开始，在第30和40个时期通过乘以0.1衰减两次。我们总共训练了50个epoch。在[4，53]之后，由于二值化本身可以被视为正则化，因此没有使用dropout。我们将层重新排序应用于网络：SignConvReLU BN。在卷积后插入ReLU（）对于收敛很重要。我们的模拟实现是基于Pytorch [36].4.2. ImageNet评估该方法在ImageNet（ILSVRC 2012）[42]数据集上进行了评估。 ImageNet是一个大规模的数据集，拥有来自1K类别的120万张训练图像和50K张验证图像。测试了几个代表性网络： ResNet-18 [17] 、 ResNet-34 和ResNet-50。如第3、二进制方法和定点方法在计算复杂度和存储消耗上有很大的不同。因此，我们将所提出的方法分别与表2中的二进制神经网络和表3中的定点方法进行4.2.1与二元神经网络的由于我们采用二进制权重和二进制激活，因此我们直接与之前最先进的二进制方法进行比较，包括BNN[22] ， XNOR-Net [39] ， Bi-Real Net [33] 和 ABC-Net[29]。我们在表2中报告了结果，并总结了以下几点。1）：Group-Net最具可比性的基线是ABC-Net。正如SEC中所讨论的那样。3，与ABC-Net相比，我们节省了相当多的计算复杂性，同时仍然实现了更好的性能。与直接二值化网络相比，Group-Net实现了更好的性能，但需要K倍的存储和复杂性。然而，K同质基地可以很容易地在真正的芯片上并行化。总之，我们的方法实现了计算复杂度和预测精度之间的最佳权衡。2）：通过比较Group-Net**（5个碱基）和Group-Net（8个碱基），我们可以观察到相当的性能。它使保持11下采样层到全精度对于保持性能至关重要。3）：对于ResNet-50中的瓶颈结构，我们发现比ResNet-18和ResNet-34中使用具有3 3卷积的基本块的对应物更大的量化误差。[3]也有类似的说法我们假设这是这主要归因于瓶颈中的1×1卷积原因是1×1滤波器仅限于两种状态（1或-1），它们的学习能力非常有限。更重要的是，瓶颈结构显著减少了过滤器的数量，这意味着梯度路径大大减少。换句话说，它阻止了通过BNN的梯度流。尽管瓶颈结构可以促进全精度训练，但它确实需要在BNN中重新设计。为了增加梯度路径，应移除11个卷积。4.2.2与固定点方法的比较由于我们使用K个二进制群基，我们将我们的方法与至少K位不动点方法进行比较。在表3中，我们将我们的方法与最先进的定点方法DoReFa-Net [51]、SYQ[12]和LQ-Nets [48]进行了比较。如SEC中所述。 3，K二进制化在资源消耗方面比K位宽量化更优越。在这里，我们设置K=4。DOREFA-Net和LQ-Net使用2位权重和2位激活。SYQ采用二进制权重和8位激活。所有比较结果均直接引自相关论文. LQ-Nets是目前性能最好的定点方法，其激活具有长尾分布。我们可以观察到，Group-Net需要更少的内存带宽，同时仍然实现与LQ-Net相当的准确性。4.3. 消融研究由于篇幅有限，我们在第二节提供了更多的实验。补充材料中的S1。4.3.1分层与分组二元分解我们在表4中探索了逐层和逐组设计策略之间的差异。通过比较结果，我们发现Group-Net在Top- 1准确率上优于LBD 7.2%。注意，LBD方法可以被视为一种张量近似，其与[13，15，27，29，47]中的多个二值化方法具有相似性，并且在第13，15，27，29，473 .第三章。它强烈地表明了采用分组分解策略以获得有希望的结果的必要性。我们推测，这一显着的增益部分是由于保留块结构的二进制基地。同时也证明了除了设计精确的二值化函数外，设计合适的神经网络结构也是必不可少的。4.4. PASCAL VOC我们在PASCAL VOC 2012语义分割基准[11]上评估了所提出的方法，该基准包含20个前景对象类和一个背景类。原始数据集包含1，464（训练），1，449（验证）和1，456（测试）图像。数据集通过[16]中的额外注释进行了扩展，得到了10，582张训练图像。性能以平均421表2：在ImageNet上使用ResNet-18、ResNet-34和ResNet-50与最先进的二进制模型进行比较。所有的比较结果均直接引自原文。指标是Top-1和Top-5准确度。模型充分BNNXNOR双实网ABC-Net（25个碱基）Group-Net（5个基地）Group-Net**（5个碱基）Group-Net（8个基地）ResNet-18前1%69.742.251.256.465.064.867.067.5前5%89.467.173.279.585.985.787.588.0ResNet-34前1%73.2--62.268.468.570.571.8前5%91.4--83.988.288.089.390.4ResNet-50前1%76.0---70.169.571.272.8前5%92.9---89.788.290.090.5表3：与ImageNet上ResNet-18最先进的定点模型的比较。指标是Top-1和Top-5准确度。模型W一前1名（%）前5名（%）全精度323269.789.4Group-Net**（4个基地）1166.386.6Group-Net（4个基地）1164.285.6LQ-Net [48]2264.985.9[51]第五十一话2262.684.4SYQ [12]1862.984.6表4：在ImageNet上使用ResNet-18与Group-Net和LBD进行比较。指标是Top-1和Top-5准确度。模型基地前1%前5%全精度169.789.4集团网564.885.7LBD557.679.7表5：PASCAL VOC 2012验证集的性能。模型Miou∆全精度64.9-LQ-Net（3-bit）62.52.4ResNet-18、FCN-32集团网60.54.4Group-Net + BPAC63.81.1Group-Net** + BPAC65.1-0.2全精度67.3-LQ-Net（3-bit）65.12.2ResNet-18、FCN-16集团网62.74.6Group-Net + BPAC66.31.0Group-Net** + BPAC67.7-0.4全精度72.7-LQ-Net（3-bit）70.42.3ResNet-34、FCN-32集团网68.24.5Group-Net + BPAC71.21.5Group-Net** + BPAC72.8-0.1全精度73.1-LQ-Net（3-bit）70.72.4ResNet-50、FCN-32集团网67.25.9Group-Net + BPAC70.42.7Group-Net** + BPAC71.02.1像素交并（mIOU）超过21个类。我们的实验基于原始FCN [34]。对于FCN-32和FCN-16，我们使用atrous卷积调整ResNet中最后2个块的膨胀率，使输出步幅等于8。我们首先在ImageNet数据集上预训练二进制骨干网络，并在PAS-CAL VOC上对其进行微调在微调过程中，我们使用Adam，初始学习率= 1 e-4，权重衰减= 1e-5，批量大小=16。在实验中，我们设定了基的数目K= 5。我们总共训练了40个epoch，并将学习率衰减了一个fac-在20和30个时期的10倍。我们不添加任何辅助损耗和ASPP。我们根据经验观察到，在最后两个块中的膨胀率（4，8）下的全精度主要结果见表5。从结果中，我们可以观察到，当所有的基地使用相同的膨胀率，有一个很大的性能差距与全精度对应。这种性能下降与表2中ImageNet数据集的分类结果一致。结果表明，特征对分割性能有很大影响。更重要的此外，我们还使用具有3位权重和3位激活的固定点LQ-Nets对骨干网络进行了优化。与LQ-Nets相比，我们可以实现相当的性能，同时节省相当的复杂性。此外，我们可以观察到基于 ResNet-34 的 Group-Net + BPAC 甚至超过了ResNet-50上的同类产品。这表明广泛使用的瓶颈结构不适合BNN，如第2节所述。第4.2.1条。我们在SEC中提供更多分析。在补充文件中的S3。5. 结论在本文中，我们已经开始探索具有二进制权重和激活的高效准确的CNN架构具体来说，我们建议将全精度网络直接我们还提出了自动学习分解。实验结果证明了该方法在ImageNet分类任务上的有效性此外，我们还将Group-Net从图像分类任务推广到语义分割，并在PASCAL VOC上取得了良好的性能。我们在CPU上实现了异构多分支结构，并在测试时推理上取得了很好的加速效果。鸣谢L.刘是ARC DECRA奖学金DE170101259的部分支持。M.国家自然科学基金（NSFC）61602185，广东省引进创新创业团队项目2017ZT07X183部分资助。422引用[1] Y. Bengio，N. L e'onard和A. 考维尔通过条件计算的随机神经元估计或传播 arXiv 预印本 arXiv ： 1308.3432 ，2013。3[2] J. Bethge，M. Bornstein，A. Loy，H. Yang和C. Meinel从头开始训练竞争性二元神经网络。arXiv预印本arXiv：1812.01965，2018。6[3] J. Bethge，H. 杨角，澳-地 Bartz和C. Meinel 学习训练一个二元神经网络。arXiv预印本arXiv：1809.10463，2018。7[4] Z. Cai，X. He，J. Sun，and N.瓦斯康塞洛斯通过半波高斯量化实现低精度深度学习。正在进行IEEE会议对比可见光帕特识别，第5918- 5926页，2017。一、二、六、七[5] L- C. Chen，G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。Deeplab：使用深度卷积网络、atrous卷积和完全连接的crfs进行语义图像分割。IEEE transactionson pattern analysis and machine intelligence，40（4）：834-848，2018。2[6] L- C. Chen，G.帕潘德里欧F. Schroff和H. Adam.重新思考语义图像分割的无环卷积。arXiv预印本arXiv：1706.05587，2017. 二、五[7] L- C. Chen，Y.Zhu，G.帕潘德里欧F.Schroff和H.Adam.一种用于序列图像分割的带可分离卷积的编码器-解码器。Proc. Eur.配置文件可见，2018年。一、二、五[8] F.胆Xception：使用深度可分离卷积的深度学习。在proc IEEE会议Comp. 目视帕特识别，第1251-1258页，2017年。一、二[9] M. Courbariaux，Y.Bengio和J.P. 大卫Binaryconnect：在传播过程中使用二进制权重训练深度神经网络。在proc Adv. 神经信息过程系统，第3123-3131页6[10] A.埃利亚尔符合ieee-754语义的面积有效浮点加法器和乘法器在现场可编程技术（FPT），2014年国际会议上，第131-138页美国电气与电子工程师协会。1[11] M.埃弗灵厄姆湖，澳-地凡古尔角，澳-地K.威廉斯，J.Winn和A.齐瑟曼。pascal视觉对象类（voc）的挑战。Int. J.Comp.目视，88（2）：303-338，2010. 7[12] J. Faraone，N.弗雷泽，M。Blott和P. H.梁Syq：学习对称量化以实现高效的深度神经网络。正在进行IEEE会议对比可见光帕特识别，2018年。七、八[13] J. Fromm，S. Patel和M.菲力普斯卷积神经网络中的异构位宽二值化。在Proc. Adv. Neural Inf.过程系统，2018年。二三六七[14] G.戈文杜湖Zhuo，S. Choi和V. Prasanna基于fpga的高性能浮点运算分析。并行和分布式处理研讨会，2004年。前-首席执行官。第18届国际，第149页。IEEE，2004年。1[15] Y. Guo，中国古猿A. Yao，H. Zhao和Y.尘网络草图：利用深cnn中的二元结构。在proc IEEE会议Comp. 目视帕特识别，第5955二三六七[16] B. 哈里哈兰山口阿贝湖。 Bourd ev，S. Maji和J. 马力。从反向检测器的语义轮廓。欧洲药典配置文件可见，2011年。7423[17] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。正在进行

下载后可阅读完整内容，剩余1页未读，立即下载