没有合适的资源?快使用搜索试试~ 我知道了~
12299ˆˆHODEC:一种高效的高阶DE组合卷积神经网络美国罗格斯大学电气与计算机工程系{妙.阴.阳.穗.万兆.阳.孝.藏.玉.公}@ rutgers.edu,博.元@ soe.rutgers.edu摘要高阶分解是紧凑卷积神经网络(CNN)的一种广泛使用的模型压缩方法。然而,许多现有的解决方案,虽然可以有效地减少CNN模型的大小,是非常困难的,带来可观的节省计算成本,特别是当压缩比不是巨大的,从而导致严重的计算效率低下的问题。为了克服这一挑战,在本文中,我们提出了有效的高阶分解卷积(HODEC)。通过对计算效率低下的根本原因和缓解策略进行系统的探索,我们开发了一种新的分解和计算效率高的执行方案,使计算和存储成本的同时降低。为了证明HODEC的有效性,我们在不同的数据集上对各种CNN模型进行了经验评估。HODEC显示一贯出色的 压缩 和加 速性 能。 对于 CIFAR-10数据 集上 的ResNet-56压缩,HODEC比基线模型减少了67%的参数和62%的FLOP,精度提高了1.17%。对于ImageNet数据集上的ResNet-50压缩, HODEC实现了63%的FLOPs减少,精度比未压缩模型提高了0.31%。1. 介绍深度神经网络(DNN)已被广泛应用于各种基础和下游计算机视觉任务,如图像分类[11],对象检测[30],动作识别[44],超分辨率[15],地震信号分析[28]和信道解码[18]。考虑到现代大规模神经网络固有的高计算和存储成本,近年来提出并发展了许多模型压缩方法。例如,通过分别在神经元级和比特级探索和去除模型冗余,[1,9,10,13,16,21,22,35,43]zization [4,14,23,29,33]是可以有效地减少DNN模型大小同时保持高任务准确性的流行方法。通过张量分解进行DNN压缩。或者,DNN模型的冗余也可以在网络拓扑级别上表现出来并进一步减少在这种哲学和观察的推动下,高阶张量分解,一种探索DNN模型多维低秩性的技术,近年来被提出并通过将原始大规模权重矩阵和/或权重张量分解为一组小张量核,基于张量分解的压缩可以显著减小神经网络大小。值得注意的是,如在许多先前的作品[2,3,24,26,37-张量训练(TT)及其变体张量环(TR)[25,45]可以为各种递归神经网络(RNN)实现超高压缩比(超过1,000)。显然,这种出色的压缩性能对于设计和生产紧凑的DNN模型非常有吸引力。计算效率的限制。尽管先进的TT和TR分解方法在减少模型大小方面具有非常有前途的潜力,但它们存在严重的计算效率低下的问题,特别是当旨在加速计算密集型卷积神经网络(CNN)时。具体而言,当CNN模型被分解为TT或TR格式时,尽管其权重参数的总数确实显著减少,但相应的计算成本(也称为,浮点运算每秒(FLOPs))并没有相应地被保存,并且有时如果仅允许适度的压缩比来保持准确性,则它甚至会增加。例如,当使用经典的TT分解[7,24]来分解卷积层时,使用2.02的压缩比设置TT格式CNN模型甚至会比原始未压缩网络的计算成本高出约五倍。因此,考虑1)CNN是非常基本的神经网络模型,在实践中已经非常普遍地部署; 2)巨大的计算机视觉-12300ÿ一R一个Pj·¨¨PP我,j张量XsPRI1Id,respectiv ely,wherejIj进一步整形以形成期望的输出向量yPR0。任务,例如,目标检测和运动预测是对时间非常敏感的应用,并且高度要求实时处理和加速;这种张量分解方法的计算效率问题如果不能得到很好的解决,将严重阻碍其在许多实际应用中的进一步广泛应用。技术预览和贡献。为了克服这种严重的计算效率低下的挑战,先进的张量分解CNN,在本文中,我们提出研究和开发高效的高阶张量DE-合成卷积(HODEC)。通过对经典TT格式卷积的低效率的根本原因和缓解策略进行系统分析和探索,我们进一步提出并开发了新的分解和执行方案,以实现计算高效的TT格式卷积层1。作为一种插件,这种新的张量分解层可以直接用于CNN模型中,并带来同步重建。黑体大写字母和黑体书法字母,例如,a,A和。此外,我们使用非黑体字母和括号中的索引来表示条目.例如,Api1,,idq表示d阶张量A的第pi1,,idq项.张量收缩。考虑两个张量APN1<$N2<$M和BPRM<$N3<$N4。当A的第三维与B的第一维相匹配时,ABMCpn1,n2,n3,n4q “A p n 1,n 2,m q B p m,n3,n 4 q. (一)M张量序列分解给定一个张量RN1Nd,如果每个元素计算为R0,R e,Rd减少计算和存储成本。总体而言,本文的贡献总结如下:• 我们系统地研究和分析了Api1,id,,idqr0,rd,rdG1pr0,i1,r1qG2pr1,i2,r2q·Gdprd<$1,id,rdq,(2)计算效率低下的原因是,函数TT格式卷积。 然后,我们确定和其中tGjPRRj'1NjRjud被称为TT核心,开发一系列策略,可以进一步缓解这个问题,降低计算成本。• 基于我们的分析所获得的理解,我们进一步提出并开发了计算高效的TT格式卷积层的新的分解和执行方案,该方案在计算成本和内存消耗方面具有非常显着的降低。R0,R1,,R d是TT秩。 注意这里的R0和Rd总是等于1。值得注意的是,利用这种TT格式,原始爆炸存储复杂度被降低到由TT秩确定的线性复杂度。TT格式矩阵向量乘法。考虑一个矩阵WRI=0,输入向量xRI。当分解该矩阵并将相应的矩阵向量乘法转换为TT格式时,原始W和x首先被整形并转置为d阶权张量WPRI1O1IdOd和一个d阶输入结果表明,HODEC可以始终优于DjOJ“O。然后张量化的W可以被分解。现有的修剪和低秩矩阵/张量分解方法。对于CIFAR- 10数据集上的ResNet-56,使用HODEC可以减少67%的模型参数和62%的FLOP,精度为1.17%。用Eq. 2,以及相应的TT-格式矩阵-向量乘法被执行为[24]:Yspo1,i 1,o 1,r 1 q i i ooo比基线有明显增加。对于ResNet-50在ImageNet数据集上,HODEC可以实现63%的FLOP减少,精度比未计算的提高0.31%压制模型r0,rée,rdi1,rée,idGdprd′1,id,od,rdqXspi1,,idq,(三)其中,YsPRO1Od是输出张量r,可以是2. 背景和动机通知tGjPRRj′1IjOjRjud四阶TT核2.1. 预赛记法。在本文中,向量、矩阵和张量用黑体小写字母表示,1由于篇幅的限制,本文只给出了有效的TT格式卷积。TT的其他变体,例如计算高效的TR格式卷积,可以以类似的方式导出。TT格式卷积层(TT-CONV)。 如[7]中所示,经典TT-CONV层上的执行基本上建立在等式(1)中描述的TT格式矩阵向量乘法上。3 .第三章。具体来说,考虑具有4阶权重张量WPRK<$K<$I<$O的卷积层;当其与3阶输入张量XPRM<$N<$I卷积时,原始输出张量YPRM1<$N1<$O• 我们在不同的数据集上对各种CNN模型进行了经验评估,实验结果表明,12301˚P2MGSˆˆ你ˆYpm,n,oqk1MmXsG2.2. 对计算效率低下的挑战4.03.02.01.00.0百分之三十百分之四十百分之五十参数减少百分之六十百分之七十图1.经典TT-CONV层的计算方案。这里,矩形表示矩阵,立方体表示任意高阶张量(不限于3阶张量)。明确计算为:图2.当 使 用 传统 的 TT-CONV 和 我 们 提出 的 HODEC 时 ,ResNet-18中layer3.0.conv1的FLOPs与参数减少。可以看出,传统的TT-CONV(“经典”)层导致比未压缩模型(“基线”)更高的FLOP消耗;而建议的HODEC(“我们的”)可以带来相当大的计算节省(见放大框)。11克朗K I其中m1和M1哪里表示卷积运算。当通过TT分解压缩卷积层时,首先通过将原始输入张量X中的所有平坦化的补丁连接起来来构造新矩阵XRM1N1K2I,如下所示:1到目前为止,所有现有的TT分解CNN都采用等式中描述的计算方案。8、进行模型推理。不幸的是,尽管模型的大小确实可以通过张量分解来减小,正如我们稍后将分析的那样,计算成本并没有相应地减少。 为了简化分析过程中的符号,我们首先假设I和O是均匀因式分解的,即, I1“I 2““I d“I m和O 1“O 2“O d“O m。Xpm,n,i qk1`Kpk2<$1 q`K2 pi<$1qq,(五)同时不失一般性,我们还假设TT-秩的所有元素都相等,并将它们表示为 R1并且同时通过将原始权重张量W整形为以下来获得新的权重矩阵WPRK2II IOWpk1,k2,i,oq“W p k 1 ` K p k 2 <$1 q ` K p i <$1 q,o q。(六)然后,在Eq. 4等价于矩阵乘法Y“XW。 通过进一步将X和W重塑和转置为张量XsP如Eq中所述。8,TT-CONV层的计算方案的第一步是和0之间的contrac- tion,其中FLOP的消耗数量是IdK2RM1N1。从第二计算步骤开始中间结果和j之间的收 缩 , 其 中 j0 , FLOP 计 数 在 每 一 步 之 后 由Id′j`1OjR2M1N1增长,因为GRM1N1K2I1Id和WPRK2I1O 1IdOd,TT-CONV层上的计算可以转换为TT格式矩阵-向量乘法的堆栈为:Yspm1,n1,o,,oqj的TT秩不再是1。 因此TT-CONV层的总体计算复杂度是OpdRmaxpRIm,K2qmaxpI,OqM1N1q. 较未压缩的CONV层具有OpIOK2M1N1qCOM-1个dÿKÿKÿG0pr0,k1,k2,r1q假设的复杂性,我们之后的FLOP消费因此TT分解可以更高。比如说,考虑具有Ik1G1pr1,i1,o1,r2q??Gdprd,id,od,rd`1 qXpm,n,k1,k2,i1,e ee e,i dq.(7)根据Eq. 1,上述逐元素格式计算可以简化为张量收缩:Ys“X s G 0 G 1 G d.(八)44、O3284、K3、R8. 虽然这样分解设置可以带来2个权重参数的减少,所需的FLOP数量增加到8 M;而对应的原始未压缩层仅消耗3个。6MFLOPS。换句话说,该示例分解的TT-CONV层表现出模型大小的2减小,而FLOP增加超过2,从而导致严重的计算效率低下。109基线古典我们1083.02.01.0百分之四十百分之五十百分之六十浮点数Xpm,n,i qW pk1,k2,i,o q,12302`中国ąą的BPjjJJMMMGM(a) 原始TT格式计算(b)朴素分解(c)我们的建议FLOPs(一)(图3.不同的TT-CONV方案。(a)TT-CONV原件(b)将每个Gj分解为Aj和Bj。(c)拆分tAju和tBju。M和N是省略的简单符号。请注意,这里FLOP是针对一个Gj或一对Aj和Bj所涉及的计算进行计数的。3. 提出的高效TT-CONV解决方案为了解决和克服现有TT格式卷积层的这种计算效率低下的挑战,在本节中,我们建议对这种效率低下的根本原因进行系统分析,然后探索重要的设计旋钮以进一步开发高效的TT-CONV解决方案。具体而言,我们将分析和回答以下五个重要问题。问题1:为什么现有的TT-CONV执行方案导致这种计算效率低下?分析. 如图1所示,现有的计算机问题2:我们应该如何提高TT-CONV层的计算效率?分析. 如前所述,TT-CONV层的计算效率低是由于中间层始终保持(d1)阶大尺度张量的现象造成的。从低秩分析的角度来看,这种保序现象的根本原因并没有完全分解。具体来说,如图所示。1、常规TTde-WPRK2I1O1IdOd的合成仅捕获Ij O之间的相关性J二价,二价Oj`1 尺寸和Ij`1TT-CONV 层 上 的 计 算 是 作 为 pd`3q 阶 输 入 张 量XsPRM1N1K2I1Id与pd`1q4阶输入张量之间的连续张量收缩进行的。对芯进行分JJG而Ij维之间的潜在相关性和Oj维尚未探讨,但只是简单地假设为满秩。因此,对于每个Gj,对于j0,其两个分量维度Ij和Oj为总是捆绑在一起,从而导致订单剩余j0,它们总是包含两个分量维数-如Ij和Oj。因此,根据方程中描述的计算方案,1和等式8,在张量收缩的每一步之后,输入中间结果的两个分量维度,如Ij和Rj′ 1,被连续和消除,并且两个新的分量维度,作为O和R,将以输出的形式出现中间结果T j的问题。我们的提案。基于上述分析,我们提出进一步分解TT-核心j以探索I j和O j维度之间潜在的低秩相关性。 更具体地,如图1B 所示。 3(b),每个T T-核心GjPRRj<$Ij<$Oj<$Rj`1还可以进一步的,J J张量化为两个新的张量核PRRjIjRj1和中间结果。 因此,中间结果1jTT-CONV计算的每一步所涉及的张量总是(d1)阶张量,从而导致高计算成本。具体地说,如图3( a ) 所 示 , 在 第 j 步 , 输 入 中 间 结 果TjPRM1<$N1<$I jIdO1 Oj<$1 <$Rj是将与张量核G j收缩的(d`1)阶张量;而相应的输出中间结果仍然是(d` 1)阶张量张量Tj`1PRM1N1Ij`1IdO1OjRj`1.JRRjOjRj`1。 正如其显式分解格式所表明的那样,所提出的附加因式分解被设计成在连续张量收缩期间解耦涉及Ij和Oj维的计算。问题3:对于tAju和tBju,合适的张量收缩模是什么?分析. 如上所述,分解原始T T核的动机是Gjud张量考虑“和“,这个或-核心集tAu和tBujder-remaining现象意味着TT-CONV计算的每一步总是涉及O pId′j`1Oj′1RM1N1q复杂度的输入和Op Id ′ j ` 1O j ′ 1 R M 1 N 1 q复杂度的输出。提高计算效率。然而,仅仅简单地将每个Gj用其对应的Aj和Bj对来替换不能带来预期的计算结果。OpId'jOjRM1N1q完成。很明显,这是一个对比。具体来说,如图所示。3(b)因为相应地产生的计算成本是非常巨大的。这种直接替换将使张量收缩-PRRjIjOjRj`1。注意,对于大多数G我O是为了避免订单剩余12303ĎGutG uWBP中国tAu“tB uG不tAutB uG ABRXSXPGPXPjjJJjtBjPRRd`jOjRd`j`1ud而不涉及其中ZPRM1<$N1<$Rd是该阶段的输出和其中YPRDjJDtG uS11(a) 朴素分解123456781234567 8输入通道0.30.20.10(b) 我们的建议123456781234567 8输入通道0.30.20.10TT-CONV层的成本然而,从模型压缩的角度来看这是因为作为一种低秩近似方法,分解为j已经为原始权重张量引入了不可避免的近似误差。简单地在张量核j上执行附加分解将进一步聚集近似效应,导致相当大的信息损失,图4.在ResNet-32中对卷积层使用两阶段分解和一阶段分解的近似误差比较在这里,该层的每个分量核滤波器的近似误差被可视化。相同的压缩比为2。对于这两种情况,均设置为1kHz用AjPRRj<$Ij <$Rj1表示 和一个用jRj1<$Oj<$Rj`1压缩的压缩,这两个压缩后的中间结果将使I j和R j维下降,但得到O j和R j`1维,因此仍然存在保序问题并且不能享受计算节省。我们的提案。基于这样的观察,为了真正降低计算成本,我们建议重新安排张量收缩的顺序最终影响整个压缩模型的精度性能。换句话说,即使这两个分解阶段可以实现其单个阶段的最佳逼近性能,两个局部最优方法的组合也不一定带来全局最优解。特别是考虑到原始权值张量多维信息对于直接的多级分解来说,以令人满意的性能来识别和捕获多维低秩是非常具有挑战性的我们的提案。为了最大限度地保留原始未压缩权重张量中的重要信息,我们建议执行一级分解。具体来说,我们的目标是直接去-把tAu和tBu分成两组图3(c)说明了我们提出的方案的关键思想将W_I_ij在这里,建议的TT-CONV 层 由 三 个 阶 段 组 成 , 即 Contract-in , CoreConvolution和Contract-out。具体来说,所有张量核j仅涉及收缩阶段中的连续张量收缩,如下:Z11jd1.我们相信这种单级端到端的decom-位置策略更适合于此,因为它可以利用原始权值的完整和全局信息,从而最小化信息损失并减小逼近误差。图4验证了我们对ResNet-32一层的示例权重张量的假设 可以看出,为了获得相同大小的 张量核tAju和tBju,同时,所有张量核j只参与收缩阶段中的张量收缩操作如下:YsMNO1OdY Z问题5:在新的收缩方案中,0应该如何正确处理?分析. 如问题3的分析中所述,我们提出的新的分解和收缩方案取代了原始的tGjud由两组新的张量核试验 AutBu最终期望的输出张量,2是核心卷积阶段将在后面讨论如示于图3.本文提出的重调度收缩方案可以带来实际的计算代价降低。 这是因为通过将j和j分成两个不同的阶段,I j维将在收缩阶段期间收缩和消除,并且因此减少了该阶段中的中间结果j的张量或阶数,从而导致计算成本的显著节省。问题4:什么是正确的方式来实现亲-提出了进一步的分解,从j到j和j?分析. 如上所述,每个4阶张量核G_j(j≠0)可进一步分解为t ~w ~ o ~ 3阶jj1和jj1具有不同的对比度,阶段。在这种情况下,剩余张量核0RR0<$K <$K<$R1仍然可以作为第一个张量核与输入张量一起收缩。然而,这种策略具有与经典TT-CONV执行方案必须通过数据重复操作将RMNI放大到RM1N1K2I1Id(参见等式(五)。显然,该操作导致巨大的存储器开销,因为它近似地导致输入张量大小增加K2倍;然而,由于需要确保卷积函数的数学等价性,这种成本对于经典的TT-CONV计算是不可避免的。张量分量Aj和Bj,以减少计算量我们的提案。当然,当A和B都 是输出通道输出通道单级分解带来比其两级对应物低得多的近似误差。是一种重塑版的12304jjr2:Z<$X;1RZZA“Opp` `q qjOpqjSXXCZp p ppptA u tB uC q“ZZBZ ZCtAutB uGCPXTT分解签约核心卷积外判图5.提出了计算高效的TT-CONV(HODEC)的总体分解格式和执行方案算法1HODEC卷积核的总体计算方案。 不同于传统输入:TT-核tAjud,tBjud和C,输入张量X,因子分解输入通道rI1,r ′,Ids;输出:输出张量Y;1:X_r_ESHAPE(X,r_M,N,I_1,I_d_s);3:对于j 1到d,执行承包4:1TENSORCENTRACT(1, j);第五章: 端02 -02刘晓波02- 02刘晓波(1、 );核心卷积7:对于j 1到d,执行外包8:2TENSORCENTRACT(2, j);第九章: 端10:Y= R ESHAPE(Z2,rM1,N1,Os).在我们提出的有效TT-CONV的张量收缩方案中,可以避免对输入张量进行如示于图5,我们可以将RRdRd`1KK,作为我们提出的方案中原始0的新符号,放置在TT-CONV层的执行方案中的jd和jd通过这种安排,整个计算的第一张量收缩涉及代替,从而显着减少内存消耗。请注意,由于需要进行检查-TT-CONV层,新的计算方案包括三个单独的阶段,即,收缩,核心卷积和收缩,其详细信息在算法1.一、如示于图2,这种新的计算方案可以为FLOP计数带来显著的节省。一般来说,我们的TT格式的计算复杂度可以从IOK2M1N1减少到IR OR K2R2MN,从而确保了同时的计算复杂度。在模型尺寸和计算成本上都有很大的节省。训练高精度。 为了获得所提出的有效的基于TT-CONV的CNN模型,一种直接的方法是简单地对未压缩的模型执行这种新的TT-CONV分解,然后对其进行微调。然而,由于潜在的高分解误差和模型的增加的深度,这种直接分解和微调策略可能遭受显著的性能降级。为了充分获得这种计算高效的TT格式卷积的好处并提高性能,受[43]中逐渐施加约束的想法的激励,我们提出并开发了一个类似的训练框架,该框架为我们的高效TT-CONV解决方案定制。具体来说,我们首先以满秩格式训练原始未压缩模型,并逐渐将TT秩施加到权重张量上。考虑以下培训目标:等价性,和它的输入1之间的运算不再是张量收缩,而是一个显式的标准卷积:最小值ΔpWq,S.T. tt-rankpWqRp,(十二)Z2式中,ω是损失函数,PRI1IdK2O1Od在我们提出的TT-CONV计算方案中,我们将其命名为核心卷积总体分解执行方案。基于上述五个分析结果,我们现在可以总结并形式化计算高效的TT格式卷积层的分解和表示方案。 如示于图5、描述在算法1中,原始的4-D权重张量被分解为两组3-D张量核加上一个4-D分量。是我们建议的W的重排序张量(见图1)。5),和R1R0,R1,,R2d'1是每个TT核的期望TT秩。我们利用交替方向增广拉格朗日(ADAL)算法[5,8]来有效地解决这个问题。之后,我们将经过良好训练的未压缩模型分解为所提出的高效TT格式,然后用几个时期对其进行微调,以进一步最小化重复次数。j,j,.在算法2中总结了整个训练过程。12305算法2用于高精度训练的1:def训练(w,tt形状,tt等级,tau,2:密集时期,tt时期):3: #使用ADAL训练 原始模型4:训练密集(w,tau,dense epochs)5:#分解为TT−格式6:tt核=致密到tt(w)93.092.091.090.089.0(一)百分之七十百分之六十百分之五十百分之四十百分之三十(b)第(1)款7:#重新训练压缩的TT−格式模型30% 50% 70%参数减少30% 50% 70%参数减少8: 训练tt(tt核心,tt时期)9:deftrain dense(w,τ,epochs):10:u,v = zeros(w.shape),Tensor(w)11:forein range(epochs):12:x,y =样本数据()13:是=模型预测(w,x)14:损失=交叉熵(y,y)15:v=截断tt秩(w+u)16:loss+=tau*norm(w−v +u,p=2)17:loss.backward()18:u += w−v4. 实验为了评估所提出的高效TT格式卷积的性能,我们在CIFAR-10和ImageNet数据集上对不同的CNN模型进行了压缩实验。在CIFAR-10数据集上,评估的模型是ResNet-32和ResNet-56。在ImageNet数据集上,选择ResNet-18和ResNet-50进行评估。超参数设置。在所有实验中,优化器被设置为动量SGD。对于ResNet-32和ResNet-56模型,学习率设置为0.01,每45个epoch乘以0.1。对于ResNet-18和ResNet-50模型,学习率设置为0.001。4.1. CIFAR-10的性能ResNet-32。如表1所示,当压缩ResNet-32时,模型参数减少65%,FLOP减少60%,我们提出的HODEC可以提供93.05%的top-1准确度,甚至比基线未压缩模型模型高0.56%;而现有的TT格式卷积[7]即使可以实现50%的 模型 大 小减 少, 也 会遭 受 显著 的 计算 开销(500% FLOP增加)同时,与现有的剪枝方法相比,HODEC具有更高的FLOPs减少和更高的精度。ResNet-56. 我们的方法在压缩ResNet-56时也显示出有希望的性能。具体而言,HODEC享有1.17%的前1精度提高了未压缩的基线,甚至高FLOPs减少62%。与最先进的修剪[31]和低秩矩阵分解[17,36]相比,我们的解决方案能够以更高的准确度实现更高的FLOP减少我们的经典Top-1 Acc.(%)FLOPS减少12306一个PCPGPXrP图6. (a)我们的HODEC和经典的TT- CONV在CIFAR-10数据集上从头开始训练压缩的ResNet-32模型的比较。(b)FLOPs减少曲线w.r.t. ResNet-18中layer3.0.conv1的多阶d的参数减少率4.2. ImageNet上的性能ResNet-18。表2总结了ImageNet数据集上的压缩性能。可以看出,在用于压缩ResNet-18的不同方法中,我们的HODEC在top-1和top-5准确度上的准确度下降最小,同时实现了最高的FLOP降低。ResNet-50. 当压缩ResNet-50时,与基线未压缩模型相比,所提出的HODEC可以分别带来0.31%和0.29%的top-1和top-5精度增加,FLOPs减少63%。与最先进的剪枝和低秩矩阵分解方法相比,我们的解决方案具有近1%的top-1精度和10%的FLOPs减少。此外,HODEC还通过提供几乎高2%的top-1准确性以及类似的FLOP减少率,优于最先进的张量分解解决方案[274.3. 消融研究使用核心卷积的准确性优势。如图5,我们提出的HODEC在收缩和收缩阶段之间执行核心卷积,而不是像经典的TT-CONV那样在开始时执行(见图5)。1)。除了计算成本的节省,我们假设这样的安排也可以带来好处的精度提高。这是因为现在不执行与包含核信息的RRdRd`1KK的核卷积,直到所有的输入都被执行。把包含信道信息的张量核,即,JRRj'1IjRj 包含Ij通道,与RMN I1Id. 与在开始时直接执行与0RR0KKR1的卷积而不完全利用输入信道信息的常规TT-CONV相比,HODEC的计算方案可能能够更好地保留和利用重要的空间信息,从而提供更好的性能。为了验证这一假设,我们比较了使用HODEC和传统TT-CONV之间的这里没有预先训练的模型或训练操作-12307ÓÓ模型压缩方法Top-1 Acc. (%)FLOPs参数。基线压缩ResNet-32反思[20]修剪N/A92.56N/A百分之三十百分之三十FGM [12]修剪92.6392.82+0.19百分之五十三N/ASCOP修剪92.6692.13-0.53百分之五十六百分之五十六宽[34]张量环92.4990.30-2.19N/A百分之八十[7,24]第24话经典TT92.4988.30-4.19✕百分之八十HODEC(我们的)拟议的TT92.4991.28-1.21百分之七十二百分之八十HODEC(我们的)拟议的TT92.4993.05+0.56百分之六十百分之六十五ResNet-56[19]第十九话修剪93.2693.17-0.09百分之五十百分之四十二SCOP [32]修剪93.7093.64-0.06百分之五十六百分之五十六NPPM [6]修剪93.0493.40+0.36百分之五十N/ACHIP [31]修剪93.2694.16+0.75百分之四十七百分之四十三TRP [36]低秩矩阵93.1492.63-0.51百分之六十N/ACC [17]低秩矩阵93.3393.64+0.31百分之五十二百分之四十八[7,24]第24话经典TT93.0491.14-1.90✕百分之五十HODEC(我们的)拟议的TT93.0494.20+1.16百分之六十二百分之六十七表1.在CIFAR-10数据集上压缩CNN模型的性能比较模型压缩Top-1 Acc. (%)前5名(%)FLOPs方法基线压缩机∆基线压缩机∆ResNet-18FGM [12]修剪70.2868.41-1.8789.6388.48-1.15百分之四十二SCOP [32]修剪69.7668.62-1.1489.0888.45-0.63百分之四十五TRP [36]低秩矩阵69.1065.51-3.5988.9486.74-2.20百分之六十稳定[27]Tucker-CP 69.7669.07-0.6989.0888.93-0.15百分之六十七HODEC(我们的)建议TT 69.7669.15-0.6189.0888.99-0.09百分之六十八ResNet-50FGM [12]修剪76.1575.59-0.5692.8792.63-0.24百分之四十二12308中国[19]第十九话修剪76.1574.98-1.1792.8792.33-0.54百分之四十四SCOP [32]修剪76.1575.26-0.8992.8792.53-0.34百分之五十五NPPM [6]修剪76.1575.96-0.1992.8792.75-0.12百分之五十六CHIP [31]修剪76.1576.150.0092.8792.91+0.04百分之四十九TRP [36]低秩矩阵75.9074.06-1.8492.7092.07-0.63百分之四十五CC [17]低秩矩阵76.1575.59-0.5692.8792.64-0.23百分之五十三稳定[27]Tucker-CP 76.1374.66-1.4792.8792.16-0.71百分之六十二HODEC(我们的)建议TT 76.1376.44+0.3192.8793.16+0.29百分之六十三表2.在ImageNet数据集上压缩CNN模型的性能比较最小化技术用于公平比较。图6(a)显示了精度与压缩比的关系曲线可以看出,HODEC在CIFAR-10数据集上从相同的随机初始化的ResNet-32模型进行训练时,提供了比经典TT-CONV高近2%的准确度,从而证明了使用核心卷积的好处D的影响力。在所提出的HODEC中,可以通过使用不同的d(阶数)来改变整形图6(b)示出了针对示例层(ResNet中的layer3.0.conv1)的具有不同d的第18段)。可以看出,较大的d可以略微降低FLOP减少,但变化不大。5. 结论在本文中,我们提出了HODEC,一个有效的高阶分解卷积解决方案的基础上TT格式,它可以同时提供高FLOPs和参数减少。实验结果表明,HODEC在压缩和加速多个数据集上的各种CNN模型方面表现出最先进的性能。确认这项工作得到了美国国家科学基金会的部分支持,资助号为CCF-1955909。12309引用[1] Chunhua Deng,Yang Sui,Siyu Liao,Xuehai Qian,and Bo Yuan. Gospa:一个高能效、高性能、全局优化的稀疏卷积神经网络加速器。2021年ACM/IEEE第48届计算机体系结构国际研讨会(ISCA),第1110-1123页。IEEE,2021。1[2] Chunhua Deng,Fangxuan Sun,Xuehai Qian,Jun Lin,Zhongfeng Wang,and Bo Yuan. Tie:用于深度神经网络的基于十元训练的节能推理引擎。在Proceedings ofthe46thInternationalSymposiumonComputerArchitecture,第264-278页,2019年。1[3] Chunhua Deng,Miao Yin,Xiao-Yang Liu,XiaodongWang,and Bo Yuan.张量奇异值分解的高性能硬件架构。在IEEE/ACM计算机辅助设计国际会议(ICCAD)中,第1-6页。IEEE,2019。1[4] 董震,姚哲伟,阿米尔·戈拉米,迈克尔·W·马-哈尼,库 尔 特 · 库 兹 尔 .Hawq : Hessian aware quantization ofneural networks with mixed-precision.在IEEE/CVF计算机视觉国际会议论文集,第293-302页,2019年。1[5] Silvia Gandy,Benjamin Recht,和Isao Yamada.通过凸优 化 实 现 张 量 完 备 化 和 低 秩 张 量 恢 复 。 InverseProblems,27(2):025010,2011. 6[6] 高尚乾,黄飞虎,蔡卫东,黄恒。通过性能最大化进行网络修剪。在IEEE/CVF计算机视觉和模式识别会议论文集,第9270-9280页,2021年。8[7] TimurGaripov , DmitryPodoprikhin , AlexanderNovikov,and Dmitry Vetrov. 终极张量化:压缩卷积层和FC层。arXiv预印本arXiv:1611.03214,2016。一、二、七、八[8] 唐纳德·戈德法布和秦志伟。鲁棒的低秩张量恢复:模型 和 算 法 。 SIAM Journal on Matrix Analysis andApplications,35(1):225-253,2014。6[9] Song Han,Huizi Mao,and William J Dally.深度压缩:使用修剪、训练量化和霍夫曼编码压缩深度神经网络。arXiv预印本arXiv:1510.00149,2015。1[10] Song Han,Jeff Pool,John Tran,and William Dally.学习权值和连接,以实现高效的神经网络。神经信息处理系统进展,28:1135-1143,2015。1[11] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。IEEE/CVF计算机视觉和模式识别会议论文集,第770-778页,2016年。1[12] 杨鹤、刘平、王紫薇、胡芷兰、易阳。用于深度卷积神经 网 络 加 速 的 通 过 几 何 中 值 的 滤 波 器 修 剪 。 在IEEE/CVF计算机视觉和模式识别会议论文集,第4340-4349页,2019年。8[13] 黄绍义、徐东宽、伊恩·颜、张颂恩、李冰冰、陈世扬、谢咪咪、刘航、丁彩文。稀疏渐进蒸馏:解决了-在预训练和微调范式下拟合。arXiv预印本arXiv:2110.08190,2021。1[14] Benoit Jacob、Skirmantas Kligys、Bo Chen、MenglongZhu、Matthew Tang、Andrew Howard、Hartwig Adam和Dmitry Kalenichenko。神经网络的量化和训练,有效的整数算术推理。在IEEE/CVF计算机视觉和模式识别会议论文集,第2704-2713页,2018年。1[15] Chri s tianLedig , LucasTheis , FerencHus za'r , Jo seCaballero , Andrew Cunningham , Alejandro Acosta ,Andrew Aitken,Alykhan Tejani,Johannes Totz,ZehanWang,et al.使用生成式对抗网络的照片级真实感单幅图像超分辨率。在IEEE/CVF计算机视觉和模式识别会议论文集,第4681-4690页1[16] Hao Li,Asim Kadav,Igor Durdanovic,Hanan Samet,and Hans Peter Graf.修剪过滤器以实现高效的卷积。arXiv预印本arXiv:1608.08710,2016。1[17] Yuchao Li,Shaohui Lin,Jianzhuang Liu,Qixiang Ye,Mengdi Wang,Fei Chao,Fan Yang,Jincheng Ma,QiTian,and Rongrong Ji.通过协作压缩实现紧凑的cnns。在IEEE/CVF计算机视觉和模式识别会议论文集,第6438- 6447页,2021年。七、八[18] 廖思宇,邓春华,缪寅,袁伯。Dual- bly残差神经解码器:低复杂度高性能信道解码。在AAAI人工智能会议论文集,第35卷,第8574-8582页,2021年。1[19] Mingbao Lin , Rongrong Ji , Yan Wang , YichenZhang , Baochang Zhang , Yonghong Tian , and LingShao. Hrank : 使 用 高 秩 特
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IEEE 14总线系统Simulink模型开发指南与案例研究
- STLinkV2.J16.S4固件更新与应用指南
- Java并发处理的实用示例分析
- Linux下简化部署与日志查看的Shell脚本工具
- Maven增量编译技术详解及应用示例
- MyEclipse 2021.5.24a最新版本发布
- Indore探索前端代码库使用指南与开发环境搭建
- 电子技术基础数字部分PPT课件第六版康华光
- MySQL 8.0.25版本可视化安装包详细介绍
- 易语言实现主流搜索引擎快速集成
- 使用asyncio-sse包装器实现服务器事件推送简易指南
- Java高级开发工程师面试要点总结
- R语言项目ClearningData-Proj1的数据处理
- VFP成本费用计算系统源码及论文全面解析
- Qt5与C++打造书籍管理系统教程
- React 应用入门:开发、测试及生产部署教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功