没有合适的资源?快使用搜索试试~ 我知道了~
43215681AR2AR层l层l+1ⓈW1B=BatchNorm签署的1 BXB一个2B输入滤波器CI-BCNNBXnor-NetWB2层l+1按通道相互作用-6BatchNorm签署A′1BW一二元卷积神经网络的逐层交互学习王紫薇1,2,3,陆继文1,2,3,陶晨欣1,周杰1,2,3,田齐41清华大学自动化系2智能技术与系统国家重点实验室3北京国家信息科学技术研究中心4华为诺亚wang-zw18@mails.tsinghua.edu.cn; lujiwen@tsinghua.edu.cn;tcx16@mails.tsinghua.edu.cn;jzhou@tsinghua.edu.cn;tian. huawei.com摘要层l层l+1在本文中,我们提出了一个通道式的相互作用,基于二进制卷积神经网络学习方法(CI-BCNN)进行有效推理。传统方法在二进制卷积中应用xnor和bitcount操作,具有显著的量化误差,与其全精度对应物相比,其通常在二进制特征图中获得不一致的符号,并导致显著的信息丢失。相比之下,我们的CI-BCNN挖掘通道交互,通过它提供先验知识来减轻二进制特征图中符号的不一致性,并在推理过程中保留输入样本的信息。具体地说,我们通过再增强学习模型挖掘通道交互,并通过交互比特计数函数在中间特征图上施加通道先验。在CIFAR-10和ImageNet数据集上进行的大量实验表明,我们的方法比最先进的二进制卷积神经网络具有更少的计算和存储成本。XR全精度二进制1r=-0.6 -0.30.4-0.5 -0.9 -0.50.9-1.00.12R-11-11111-11-1 -11-1 -1 -11-11批次标准12R-11-1-111-11111-111-1-11-11. 介绍深度卷积神经网络已经在各种视觉应用中实现了最先进的性能,例如物体检测[10,33,22],跟踪[13,28,1],人脸识别[10,33,22][38,29,7]和许多其他人。然而,由于巨大的计算和存储成本,在便携式设备中部署深度卷积神经网络进行推理仍然受到限制。此外,在经过良好训练的模型的参数中表现出高度的重复性[5]。因此,希望设计具有更少参数和更轻架构的深度卷积神经网络以进行有效推理。最近,已经提出了几种神经网络压缩方法,包括修剪[9,21,12],量化,35-131-1-11-311-1输出11-1不一致的迹象-11A′2-1纠正标志图1.实值神经网络(顶部),Xnor-Net(黄色框)和我们的CI-BCNN(绿色框)中的卷积运算。由于异或非产生的量化误差,和比特计数操作,Xnor-Net通常输出二进制特征映射,与全精度映射(红色圆圈)相比,这些映射具有不一致的符号我们的CI-BCNN根据通道交互提供先验知识,以纠正不一致的符号(蓝色圆圈),这保留了中间特征图的信息(最佳颜色)。[23,17,8],低秩分解[6,39,43]和ef-建筑设计[18,15,26]。 在这些冰毒中-W一-0.9 -0.30.20.10.1-0.8 -1.0 -0.80.1-0.1-0.50.1-0.90.70.9-0.1 -0.10.70.60.8-0.3 -0.1 -0.80.30.8R-0.40.80.50.80.60.90.8-0.10.9-1.7 -0.1 -0.4-0.80.21.1-0.40.41.7-3.0 -0.1 -0.6-1.50.42.2-0.70.73.21.11.6-1.10.60.2-0.3-0.70-1.4-1 -1111-1 -1 -11-1-11-111-1 -1111-1 -1 -1111.82.4-1.21.20.6-0.1-0.60.4-1.6-55-1-113-11535-131-1-11-3-5-1-1-113-115-1-1 -1-111-1114321569网络量化表示用于更快处理和更少存储器消耗的受限带宽中的神经网络的参数。具有二元权重的神经网络用累加代替乘法累加运算[3,42,14],以节省存储成本并加速计算。然而,实值计算仍然是计算昂贵的。为了解决这个问题,具有二进制权重和激活的神经网络用xnor和bitcount操作代替乘法累加[32,23,24]。然而,应用xnor和bitcount操作会导致并积累显著的量化误差,这通常会导致二进制特征映射与其全精度映射相比符号不一致。二进制神经网络中的信息丢失解释了与实值神经网络相比的显著性能下降,特别是在ImageNet等大规模数据集中进行评估时[4]。在本文中,我们提出了一种CI-BCNN方法来学习具有通道交互的二元神经网络,以实现有效的推理。与现有的直接应用xnor和bitcount操作的方法不同,我们的方法根据挖掘的通道交互来学习交互的bitcount。基于通道间相互作用提供的先验知识对二值特征图中的不一致符号进行校正,从而在二值神经网络的前向传播中保持输入图像的信息。更具体地说,我们采用强化学习模型来学习每个卷积层的有向非循环图,它代表隐式通道交互。我们通过调整原始比特数的输出来获得交互比特数,使其与图形所产生的效果一致。我们同时训练二进制卷积神经网络和图的结构。图1描绘了我们的CI-BCNN和传统二进制神经网络之间的比较,其中二进制特征图中的不一致符号根据通道交互进行校正。在CIFAR-10 [19]和ImageNet数据集上的实验表明,我们的CI-BCNN在各种网络架构上的表现都比大多数最先进的二进制神经网络好得多。2. 相关工作网络量化:网络量化由于可以降低网络复杂度,便于广泛应用,在机器学习和计算机视觉领域引起了广泛的兴趣。现有的方法可以分为两类:权重量化的神经网络[3,32,42,14]与两个权重的神经网络和激活[32,17,23,24]。 深度神经网络中的权重量化方法节省存储开销,用累加代替原来的乘累加,实现快速处理。库尔-巴里奥等。二进制化的实值权重通过刚性符号函数,并在小数据集上获得了足够高的精度。Rastegari等人用比例因子近似二值化的实值权重以提高精度。Zhang等人根据权重的分布训练权重的自适应量化器,最小化量化误差,同时保持与逐位操作兼容。Hou等人应用泰勒展开来减小量化扰动带来的损失,并提出一种近似牛顿算法来寻找量化策略的最优解。Em-验证研究表明,表示权重的更宽带宽导致与全精度对应物相当的性能,提出了三进制和其他多位量化方法[44,36,25]以获得更好的性能。然而,由于存在累积操作,实值激活阻止实质性加速。在后一种情况下,权重和激活都被量化,从而取代乘-累加通过XNOR和比特计数操作,导致计算复杂性小得多。Rastegari等人和Hubaraet al.提出了权重和激活都被二进制化的神经网络,应用XNOR和比特计数操作来取代乘法累加以获得可观的加速。Lin等在权重和激活二分化中使用了更多的基,特别是在大规模数据集上提高了性能。Liu等在二值化前将连续块的实值激活与单位捷径连接起来,以增强网络的表示能力。他们还使用了一种新的训练算法来准确地反向传播梯度。然而,应用xnor和bitcount操作导致并累积量化误差,导致严重的信息丢失,这是由于与其实值对应物相比,二进制特征图中的符号不一致。深度强化学习:深度强化学习的目的是学习决策问题的策略,在玩游戏[27,34],对象检测[30,31],视觉跟踪[27,34]中获得了有希望的结果。[16,35,40,41]和许多其他人。近年来,强化学习被用于网络压缩. Lin等采用策略梯度模型判断特征图的重要性,并根据输入图像和当前特征图自适应地对网络进行修剪,以充分保留网络的能力。Ashok等人通过去除冗余层并缩小剩余层的大小,将大型教师网络缩小为小型学生网络He等人通过利用强化学习模型对网络架构空间进行有效采样,以便在没有预定义管道的情况下自动压缩模型。在本文中,我们扩展了强化学习模型,以挖掘具有双4321570B˜不tsStststsB不RtsFFR没有二值化误差的输入样本的信息:s,ijs,ijtst,ij2BrR rrttsBrBRB该算法通过对xnor和bitcount操作引起的不一致符号进行校正,并在位计数操作,假设并不总是成立,如图1所示。近似解在A1中的符号与符号(A1)不一致,因此方程Br前向传播过程3. 方法在本节中,我们首先简要介绍具有二进制权重和激活的神经网络,它们是有效的,但在中间特征映射中存在不一致的符号。然后我们通过交互的比特数来呈现施加通道交互的细节。最后,我们提出了一个策略梯度模型来挖掘渠道间的交互作用.3.1. 二进制神经网络(1)远离最优状态。 此外,错误是AC-跨层累积,并导致输入图像在前向传播中的严重信息丢失 我们的目标是通过校正Al中不一致的符号来最小化每层中Al和sign(Al)之间的差异。3.2. 交互比特数与全精度乘法相比,应用xnor运算会带来显著的量化误差。此外,原始比特计数累积误差,这通常在特征图中输出与其实值对应物相比不一致的符号。经验表明,过滤器之间存在隐式依赖关系,通过这种依赖关系,可靠的过滤器可以被称为过滤器。设Wl∈Rwl×hl是实值权重,提供先验以补偿由XNOR引起的误差AL ∈Rwl×hl是l和比特计数操作。相互作用的比特数修改ra ath给定L层CNN模型中的卷积层,其中(wl,hl)和(wl,hl)表示原始bitcount如下:f fa a第l层的滤波器和特征图。 AL载有─普尔=pl+δl(pl不)(2)Al=Wl<$Al−1其中上标l表示相应的变量在L卷积层中。pl和pl是整数其中,卷积表示标准卷积,激活s,ijt,ij为了简单起见省略了层为了获得神经由第i行中的原始bitcount输出的像素值和受指导的(学生)特征图F1中的第j列网络具有更少的计算和存储成本,在前向传播中,使用xnor和bitcount操作[32]来替换乘法累加:Al=sign(Wl<$Al−1)和指导性(教师)特征图Ft。ps,ij是由交互比特计数输出的对应像素值δl表示从Fl施加到Fl上的干涉函数。bb blwl×hllwl×hl为了防止网络遭受繁重的计算,为了减少交互比特数的开销,我们简单地设计了δl其中Wb∈{+1,−1}f f和Ab∈{+1,−1}a ats分别是第l层的二进制权重和激活,活泼地表示逐元素的二进制乘积表示-作为离散函数。我们划分像素在F l中,|K L|当考虑到-使其与Fl的相互作用。Kl是奇数,因此,在二进制神经网络中执行XNOR和比特计数操作S存在相互作用,如果ts保持接近零,没有足够的其中,bitcount用于计算每个卷积中的XNOR操作的结果。sign表示将大于1的数映射为1的符号函数t,ij信息. δl的最大输出1 −|K L|如下获得KL否则为负一。二值化卷积神经网络的目标-δ l(p l)=(tst ,ij2ts+k)·ts·[U0N0],(3)|K l|最小化二进制和实数之间的距离Lt,ij∈(p k,p k+1],k=0,1.,|− 1|− 1有价值的特征图,使得信息损失最小,其写法如下:其中pk是kth的起源区间值范围分析-Lmin||2||22(一)教师特征图Ft的标题。 N0是最大值,Wl,AR bl−1BFl的值范围,这对于中的所有特征图都是相同同一层。U0表示单位像素修改其中优化是NP难的,等价的等式Al=sign(Al)。常规方法获得近似解Wl= sign(Wl)和Al−1=sign(Al−1),假设:到N0,这是手动设置,以决定先验的重要性。[U0N0]表示大于U0N0的最小整数。同时,Kl可以是负整数平均值-学生和教师的特征图是负的,sign(Al)<$ sign( sign(W l)<$ sign(Al−1))l1−|KL|R rr相关 我们有|Kts|从2ts选择 [U0N0]到l l−1|−1升|−1l=sign(sign(Wr)<$sign(Ar))然而,由于XNOR中发生的量化误差,如果p4321571ts[U0N0]表示δts函数的输出,表示F1对F1的影响不同。S t4321572ts我ees东、西esK我是伊斯是tse我e,d我ts是e、c我tse我et,ijts6(p)) 1LLeiL创建创建和重新分配Kl层索引l上的间距Sl:LS=Sl×Sle il=1其中Sl被定义为存在矩阵Wl∈{1,0}cl×cl和c 代表通道数,第l 层. 对于元素wl在W1中,它等于1创建和删除(一)重新分配L如果存在从第t个到第s个信道的定向交互,则该定向交互等于零。CI-BCNN中的零矩阵等价于传统的二进制卷积神经网络而没有信道交互。奇异空间S1由奇整数奇异矩阵W1在L ltst,ij0-1本文用有限个离散数限制空间,当W l∈ {±3,±5,±7,.,±(2K +1)}c× c,其中KKL =-3是0 0tsL -288-9696288是表示动作空间大小的超参数pt,ij- 一零一在我们的实现中,元素wl在西部,被缩放到lKl|−1| −1K ts = 3ts·这 是一种规范化的方法,它可以衡量-288-9696288|Kl|2K0Kl = 11-5-4-3-2-1012345相应的相互作用的结果。行动:行动集合A是行动ts(b)第(1)款存在空间Al和不存在空间Al跨越所有层,呃。Al由三个组成集合组成:Al表示边图2.基于挖掘图的状态转换和交互位数的说明(a)图挖掘的示例e e,c创建,Al用于边缘删除,{unchange}用于重新创建。我们创建边,重新分配Kl 并删除不同保持存在不变量。Al描绘了所有可能的奇数通道,直到最终确定图形结构(最佳颜色)。Wl中的整数对于现有边。 此外,我们停止(b)通过阶梯函数根据教师特征图中的像素值快速计算图对交互比特数的影响,其中 N0 = 288, U0在示例中设置为0.001。3.3. 基于策略梯度的逐层交互挖掘当图收敛或达到最大步数时,整个操作集描述为:A =(Al × Al) {stop}i=1L通道间的相互作用被定义为通道间图中的边,表示为存在和不连续。边缘的存在证明了边缘的存在-=((Ali=1Le,d{unchange})× Al)两个连接节点之间的相干性,如果相干性足够显著,则用1表示,否则用0表示。如果存在相关性,则边的不相关性意味着起始节点对结束节点施加的影响。因为将教师特征图的值范围划分为更多的区间代表通道关系的更大影响,所以我们通过以下方式来描述影响:克湖挖掘通道交互可以被视为马尔可夫决策过程(MDP),定义为M ={S,A,T(S,A),R(S,A)}. 在每一步中,代理都需要图2示出了阶段转换的示例,动作和一种快速的方式来实现交互的比特计数。′过渡函数:T(S,A)→ S是跃迁一个函数,它显示了将旧状态转换为新状态的概率。T是在定义状态和动作空间之后构造的,其是所有卷积层中的两个过渡函数的直积,T1用于存在变换,T1用于不连续变化:T( S,A)=创建、删除或取消更改边以修改e e ei=1伊伊图中边的存在性以及分配Dif-T1表示为存在转移矩阵W1∈Kl的平均值e et代表所有l的各种不同的能力,Lts现有的边缘。代理迭代地修改结构[0,1]c×c,其元素wl表示概率-将来自第i个通道的有向边连接到以最大化获得的奖励,直到收敛或达到步长的上限。第j个,归一化为i、jLet,ij=1时。我们C1C1C3C1C1C1C3C4C3C4C3C4C2C5C2C5C2C5C3C2C4C5C4C2C1C3C4C2C5C5创建A.A.LWLT1(S1,A1)×T1(S1,A1,S1,A1)4321573e状态:状态空间S表示图在所有卷积层中的当前结构,其表示为存在空间Sl和卷积的直积。根据以下规则选择操作:(1) 创建:存在矩阵ρ的密度被定义为存在矩阵中1的比率当4321574etet,ijLeset是它et我它我W|W它,它s,ijt,ijs,ijl=1选择元素w′ll=LL存在矩阵的密度比超参数ρmax稀疏,如果采样策略基于设定阈值h,当损失没有明显变化时,没有收益。rp旨在确保教师特征图比学生特征图信息量更大,在Wl选择元素wl边缘没有提供了可靠的先验 因为像素携带更多的-被连接。(2) 删除:概率的删除是式-形成通常被激活或停用显着,我们预计教师特征图中的平均绝对值高于学生特征图中的对应值。饰W′l=Norm([−log w l]),其中et et,ijcl×clNorm表示确保′||1= 1。||1=1. 创造和毁灭的可能性负相关,因为连接代表边缘断开的趋势同时,Wl中的低概率的差异很小,只能用它们的幂指数来表示,所以我们用对数来表示删除的可能性。 如果采样策略我们采用编码器-解码器RNN用于策略网络,工作,它获取图W l的当前状态W l作为输入,而输出转换矩阵W1和W2, 对于二进制卷积层。图3显示了使用策略网络训练我们的CI-BCNN的总体框架。我们利用REINFORCE算法[37]来优化策略网络。目标是在整个CI-BCNN学习过程中最大化预期回报Σ[γr(s,a)](5)et,ijinWet.(3) 不变:我们保持不变πθτ=1ττ τ如果没有创建或删除发生。对于影响部分,我们用影响矩阵Wl∈[-1,1]c×c来参数化Tl,并根据阶梯函数在Al其中θ表示策略网络中的参数,πrep-对所选策略表示不满。T代表每个训练批次的采样时间,γ是折扣因子。根据策略梯度方法,我们计算目标的期望梯度如下:问题:Llit,tstsl它,它·[2] |K0w l|]+1](4)<$θZ = −Eπ[r τ(s τ,a τ)<$θlog p(a τ|sτ)](6)应用Monte-Carlo抽样方法得到了近似的最后,我们采取行动停止终止目前当策略网络收敛或达到最大步长时,通道交互挖掘的时期。奖励功能:轮次τ中的奖励函数R(S,A)建模如下:r(sτ,aτ)=rc(sτ,aτ)+rp(sτ,aτ)C(sτ)−C(sτ+1)由于所有可能的状态都难以穷尽,因此存在匹配的梯度。同时,p(a τ|s τ)被用于探索边存在性和不连续性的作用所纠缠,不连续性选择的概率是确定的和非确定的.可微的为了反向传播梯度,我们将优化问题近似为另一个可简化的问题(在补充材料中制定)。=sgn(|C(sτ)− C(sτ+1)|− h)|C(sτ) − C(sτ+1)|4. 实验1ΣL+ NLt,ij||p l(sτ +1)|− |p l(sτ +1)|− |p l(sτ+1)|(sτ+1)||在本节中,我们在两个数据集上评估了我们的方法l=1t,si、jt,ijs,ij对于图像分类: CIFAR-10和ImageNet。 我们其中C(sτ)表示在轮次τ中挖掘的图下用于预测的二元神经网络的交叉熵损失,并且h是正阈值,其值为首先介绍了我们的CI-BCNN的实现细节,并通过玩具示例说明了CI-BCNN的有效性和直观逻辑。后来我们调查了-手动分配。pl(sτ+1)和pl(sτ+1)表示消融研究和比较学生和教师特征图的第i行和第j列中的像素值,其通过与在轮t +1中挖掘的图的交互比特计数来输出。N代表二进制神经网络中特征图的总像素数。提出的CI-BCNN与最先进的二进制神经元,网络的准确性。最后,通过与其他方法的比较,分析了该方法在推理过程中的存储和计算复杂度.网络,相当于特,s1.4.1. 实现细节不K|p最大Z(θ)=E|ΣΣ4321575奖励函数的物理意义是:由两个术语组成。rc鼓励施加在二进制神经网络上的图,以减少分类中的交叉熵如果减少或增加的交叉熵损失大于,则代理获得奖励+1或-1我 们 在 CIFAR-10 数 据 集 上 使 用 VGG-small [42] 和ResNet 20 架 构 训 练 了 我 们 的 CI-BCNN 。 我 们 在ImageNet数据集上的实验中为提出的CI-BCNN使用了ResNet 18和ResNet 34。我们反复地4321576et它16图形修改编码解码C1层lC1C3C4 C3过渡C4C211C5C211C5{Sl−1,Sl−1}e我{Sl,e我{Sl+1,Sl+1}e我Wetl−1W它l−1WetLW它LWl+1L+1etW它C1层l+1C1C3C4C3过渡C4Hl−1HLHL+1Hl−1HlHl+1C2C511C2 C5图3.培训CI-BCNN的总体框架左边部分是策略网络,由编码器和解码器组成编码器以每层的状态作为输入,解码器根据隐变量输出相应的转移矩阵右边的部分代表二进制神经网络中的图,其中第l个卷积层基于转换矩阵W1和W2(最佳颜色)。训练二进制神经网络和代理,以在我们的CI-BCNN中挖掘通道交互。在二值神经网络的训练中,权值被二值化为实值权值乘以每个核的绝对平均值的符号。我们遵循XNOR-net [32]中的建议,以保持第一层和最后一层的权重为实值。我们使用Adam优化器进行批量大小为128的所有实验。对于CIFAR- 10上的实验,我们运行了100个epoch。初始学习率设置为0.001,并通过乘以0.1衰减在第50和第90纪元。在ImageNet的训练中,我们将初始学习率设置为0.001,在总共40个epoch中的第20个和第30个epoch中乘以0.1,ResNet18.学习率从0.005开始,在第40和60个周期中下降了10倍 ResNet34的80个epoch。在完成训练时,我们冻结了所有约束权重为-1和+1的卷积层,并重新训练BatchNorm层1个epoch以吸收缩放因子。在训练策略网络时,我们为编码器应用了两个卷积层和一个全连接层,并使用了一个全连接层和两个解卷积层。RNN的每个模块中的解码器的逻辑层 我们使用了cl矩阵的大小为16×16表示状态和转移矩阵在第l层的内存节省和计算加速。我们设置超参数U0,ρ max,K0和α为0。010 1 2和0001,与现有技术的方法进行比较4.2. 玩具实例提出的CI-BCNN的思想是挖掘通道之间的相关图,以纠正由xnor和bitcount操作引起的二进制特征映射中的我们在MNIST数据集上进行了简单的实验[20],以证明我们直觉思维的正确性。渠道互动的有效性:我们-图4.二进制卷积层中10个通道之间相关系数的平方较深的颜色表示较高的相关性,蓝色框显示了我们的策略梯度网络挖掘的连接在通道之间存在隐含的相关性,提供了用于消除显著量化误差的先验,该量化误差导致中间特征图中像素值的符号不一致。通过我们的政策梯度网络,我们可以挖掘渠道之间的关系。为了验证我们的想法,我们为CI-BCNN设计了具有两个卷积层和一个全连接层的架构。图4显示了二进制卷积层中不同通道之间相关系数的平方,其中颜色越深表示相关性越高。蓝色方框代表我们的策略网络学习到的通道交互。可以看出,我们的模型挖掘了最重要的相关性,而没有不相关的通道,这为交互的比特数提供了可靠的先验。交互比特计数的有效性:我们的交互比特计数利用通道交互来提供用于恢复二进制特征图中的原始符号的我们期望二值特征图中更多的像素与全精度特征图具有相同的符号,以便在推断过程中保留输入图像的信息4321577表1.比较不同层中符号一致的像素比例以及CI-BCNN的相应精度Conv2Conv3Acc.(%)比库特0的情况。62380的情况。6061九十九。01交互比特数0的情况。66380的情况。6244九十九。10恩塞 表1显示了交互位数的影响通过二进制层中具有一致符号的像素的比率和分类准确度。量化误差随着层的深度而累积,因为与Conv2层相比,Conv3层我们的线人-log10ρma(a) 变化的ρmaxlog10 U0(b) 变化U0BCNN增加了比率,这得益于交互比特数提供的先验。4.3. 性能分析为了研究通道交互对中间特征图的影响,我们使用不同的存在矩阵ρ的最大密度和单位像素修改率U0进行了消融研究。我们报告了使用ResNet18架构的ImageNet数据集上的分类前1和前5的准确率。表演w.r.t.存在矩阵的最大密度ρ:存在矩阵的密度ρ定义为矩阵中1的比例,其为正与超参数ρmax相关。存在矩阵的更高密度表示在交互比特计数中更多的通道交互。通过在策略网络的训练中改变ρmax的值,我们可以控制存在矩阵的最终密度ρmax对性能的影响如图5(a)所示中等密度为遭受不一致符号的特征图提供了可靠的先验高密度分配图中具有不可信先验的多余低密度未能考虑先验,这是无法减轻不一致的迹象,在二进制特征图所造成的xnor和bitcount操作。表演w.r.t.单位像素修改U0的比率:交互比特计数中较大的U0代表更显著的修改,导致对于由信道交互提供的先验知识的更高重要性。与从输入图像获得的后验信息相比,先验知识在分类图5(b)显示了性能与不同U0的关系。介质U0为二值化的神经网络提供先验知识,该先验知识与从输入图像学习的后验相结合。大U0在特征图上强制执行太强的先验,忽略了从输入样本中获得的知识。相反,小U0不能对中间特征图施加情感先验,这些中间特征图遭受不一致的符号。4.4. 与最先进方法的在本节中,我们将CI-BCNN的性能与现有方法(包括BNN [17])进行了比较,图5.图像上的前1和前5分类精度在ResNet 18架构中的CI-BCNN的geNet数据集,其中(a)变化ρmax和(b)变化U0。变量用它们的对数表示。表2.CIFAR-10的分类准确度(%)与VGG-small和ResNet 20中最先进的方法的比较方法VGG-small ResNet 20位宽(W/A)全精度32/ 32九十三2092. 10BC三十二分之一九十10−TTQ2/ 32−91. 13HWGQ二分之一92. 50−LQ-Net二分之一九十三4088岁40BNN1/1个89岁。90−Xnor-Net1/1个89岁。80−CI-BCNN1/1个92.4791.10BC [3],BWN [32],Xnor-Net [32],Bi-Real-Net [24],ABC-Net [23]、LQ-Nets [42]、SYQ [8] HWGQ [2]和TTQ [44]通过CIFAR-10和ImageNet数据集上图像分类任务的各种架构。与CIFAR-10比较:CIFAR-10数据集由60,000张大小为32×32的图像组成,分为10类。我们应用了50,000张图像作为训练集剩下的10,000个作为测试集我们在图像的每一侧填充4个像素,并将其随机裁剪为32×32的大小。 与此同时,我们将所有图像缩放并偏向于范围[-1,1]。 我们比较了VGG的准确性精度精度4321578small [42]和ResNet20通过不同的方法量化表2示出了结果。比较清楚地表明,提出的CI-BCNN优于现有的神经网络与一位的权重和激活一个相当大的margin。我们的方法甚至可以与HWGQ和TTQ相媲美,HWGQ具有2位激活,TTQ具有2位权重,VGG-small和ResNet 20架构中分别具有实值激活。ImageNet上的比较:ImageNet(ILSVRC 12)包含大约1。来自1,000个类别的200万个训练和50K验证图像。ImageNet更具挑战性,因为它的规模大,多样性高。 其次是偏置减法ap的数据增强,在CIFAR-10中,从尺寸调整后的图像中随机裁剪出一个224×224的区域用于训练,432157964表3.ImageNet上的分类准确率(%)与ResNet18和ResNet34中最先进的方法的比较4.5. 复杂性分析方法位宽ResNet18 ResNet34我们分析了计算和存储的复杂性,比较了双实网,Xnor-Net和全精度网络,以显示在推理过程中节省内存和加速。存储器使用由网络参数的存储来表示,其被计算为32位时间实值参数和1位时间二进制参数的总和。我们使用FLOPs来衡量计算复杂度,遵循[11]中的计算方法。由于当前一代CPU可以在一个块中并行执行64个二元运算,因此总FLOP被计算为浮点乘法的数目加1 二进制乘法的数量。 结果表4.ResNet18和ResNet34中不同方法的存储成本和FLOP比较374.第374章一夜情1 Mbit1. 81× 109第三十三章. 7 Mbit1. 67 ×108在表4中用我们的实现设置进行了说明。所提出的CI-BCNN通过以下方式节省存储成本11个国家。17 × 1603倍,计算速度提高了11. 75×和20。在上述架构中,与全精度网络 在CI-BCNN中,存储开销由于附加参数仅为二元存在矩阵和离散不连续矩阵,ResNet18ResNet3433 .第三十三章6 Mbit1. 63 ×10833.第三十三章5 Mbit1.54 ×108第697章一夜情3. 66 ×10943.第四十三章 1. 98 ×10843.第四十三章7 Mbit1.93 ×10843. honeymoon 5 Mbit1. 82 ×108存储在低位。同时,额外的计算成本是由相互作用的比特数造成的,与标准的二进制卷积相比,这是微不足道的。相反,我们的CI-BCNN节省了计算和存储成本,因为与Xnor-Net相比,权重和激活的比例因子被移除,并且实值精度更高。256 为了进行推理,我们使用了224×224中心裁剪从图像。 正如[24]中所示,为了进一步提高二进制神经网络的性能,我们在相邻的卷积层中使用了额外的捷径来进一步改进我们的CI-BCNN。我们将我们的CI-BCNN与ResNet 18和ResNet34架构中最先进的网络量化方法进行了比较,并在表3中报告了前1和前5的准确度,其中CI-BCNN(add)表示我们的二进制神经网络,其中应用了额外的快捷方式[24]。Bi-Real-Net通过添加更多快捷方式和使用更准确的梯度进行训练,在具有二进制权重和激活的神经网络中实现了出色的性能。然而,Bi-Real-Net未能考虑xnor和bitcount操作引起的量化误差,这导致二进制特征图中的符号不一致,并导致严重的信息丢失。CI-BCNN通过交互的比特计数和挖掘的通道交互在推理期间保留输入样本的信息。ImageNet数据集上的实验显示了由通道交互指导的交互位数的优越性。此外,CI-BCNN获得了更高的精度相比,HWGQ和BWN,它采用两个比特和双比特激活。简而言之,CI-BCNN比具有二进制权重和激活的最先进的神经网络更具竞争力。与Bi-Real-Net相比,不使用额外快捷方式中的模拟和批量归一化。一般来说,CI-BCNN需要更少的内存使用和更少的FLOP。5. 结论在本文中,我们提出了一种称为CI-BCNN的二进制卷积神经网络方法,用于有效的推理。提出的CI-BCNN通过策略梯度挖掘通道之间的图结构,并通过交互位数施加通道间的交互,通过该交互位数校正二值特征图中的不一致符号,并在推理过程中保留输入图像的信息。大量的实验结果证明了该方法的有效性。确认这 项 工 作 部 分 得 到 了 国 家 重 点 研 究 发 展 计 划2016YFB1001001的支持,部分得到了国家自然科学基金 61822603 、 U1813218 、 U1713214 、 61672306 的 支持,基金61572271,部分由深圳市基础研究基金(课题安排)资助JCYJ20170412170602564。全精度(W/A)32/ 32top-169岁。30top-589岁。20top-1七十三。30top-591. 30BWN三十二分之一六十岁。8083岁00六十岁。8083岁00TTQ2/ 3266岁。6087岁20−−HWGQ二分之一五十九6082岁20六十四30八十五70LQ-Net二分之一62. 6084. 3066岁。6086岁。90SYQ二分之一55. 4078岁60−−BNN1/ 1个四十二2067岁10−−4321580引用[1] Luca Bertinetto 、 Jack Valmadre 、 Joao F Henriques 、Andrea Vedaldi和Philip HS Torr。用于对象跟踪的全卷积连体网络。在ECCV,第850-865页,2016年。[2] Zhaowei Cai , Xiaodong He , Jian Sun , and NunoVasconce-洛斯通过半波高斯量化进行低精度深度学习在CVPR中,第5406-5414页[3] Matthieu Courbariaux、Yoshua Bengio和Jean-Pierre大卫Binaryconnect:在传播过程中使用二进制权重训练深度神经网络。在NIPS,第3123- 3131页[4] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,还有李飞飞Imagenet:一个大规模的分层图像数据库。CVPR,第248-255页[5] Misha Denil,Babak Shakibi,Laurent Dinh,Nando DeFre-itas等人深度学习中的参数预测。NIPS,第2148-2156页,2013年[6] Emily L Denton,Wojciech Zaremba,Joan Bruna,Yann Le-和Rob Fergus。利用卷积网络中的线性结构进行有效评估。NIPS,第1269-1277页,2014年[7] 丁长兴、陶大成。干-支系综卷积神经网络用于基于视频的人脸识别。TPAMI,40(4):1002[8] 朱利安 法拉尼 尼古拉斯 弗雷泽 米凯拉 Blott,以及Philip HW Leong. Syq:为有效的深度神经网络学习对称量化。在CVPR中,第4300- 4309页[9] Song Han,Huizi Mao,and William J Dally. 深度com-压缩:使用修剪、训练量化和霍夫曼编码压缩深度神经网络。arXiv预印本arXiv:1510.00149,2015。[10] Kaiming He,Geor gia Gkioxari,Piotr Dolla'r,and RossGir-真恶心。面具R-CNN。在ICCV,第2980[11] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。CVPR,第770-778页,2016年[12] Yihui He,Xiangyu Zhang,and Jian Sun. 信道修剪来加速深度神经网络。在ICCV,第2卷,2017年。[13] Seunhoon Hong , Tackgeun You , Suha Kwak , andBohyung韩利用卷积神经网络学习判别显著图进行在线跟踪。在ICML,第597-606页[14] Lu Hou,Quanming Yao,and James T Kwok.损失-深 度 网 络 的 感 知 二 值 化 。 arXiv 预 印 本 arXiv :1611.01600,2016年。[15] 安德鲁·G·霍华德,朱梦龙,陈波,德米特里作者:王伟军,托比亚斯·韦安德,马可·安德烈托,哈特维希·亚当.Mobilenets:用于移动视觉应用的高效卷积神经网络arXiv预印本arXiv:1704.04861,2017。[16] 陈煌,西蒙·露西,德瓦·拉曼南。学习具有深度特征级联的自适应跟踪策略在ICCV,第105[17] Itay Hubara 、 Matthieu Courbariaux 、 Daniel Soudry 、Ran El-Yaniv 和 Yoshua Bengio 。 二 值 化 神 经 网 络 在NIPS,第4107-4115页4321581[18] ForrestNIandola 、 SongHan 、 MatthewWMoskewicz 、 Khalid Ashraf 、 William J Dally 和 KurtKeutzer。Squeezenet:Alexnet级精度,参数减少50倍 , …0.5 mb 模 型 大 小 。 arXiv 预 印 本 arXiv :1602.07360,2016.[19] 亚历克斯·克列日夫斯基和杰弗里·辛顿 学习多个
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功