没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2277获取更多论文大型语言模型的参数有效稀疏性微调Yuchao Li, Fuli Luo, Chuanqi Tan, Mengdi Wang,黄松芳,沈莉,白俊杰阿里巴巴集团{莱茵.莱科,lfl 259702,传祺.tcq,滴豆.wmd,松芳.hsf,litan.ls,j.bai} @ alibaba-inc.com摘要方法额外列车需要数据重要性标准随着语言模型中参数数量的急剧增加,稀疏性方法在压缩和加速语言模型方面受到越来越多的虽然大多数研究都集中在如何在保持压缩模型性能的同时准确保留适当的权重,但在压缩大规模语言模型时,稀疏训练的计算开销和内存占用方面存在挑战为了解决这个问题,我们提出了一种参数高效稀疏训练(PST)方法,以减少下游任务中稀疏感知训练过程中可训练参数的数量具体来说,我们首先结合无数据和数据驱动的标准,以有效和准确地衡量权重的重要性。在此基础上,我们研究了数据驱动权重重要性的内在冗余性,并得出了数据驱动权重重要性的两个显著特征:低秩性和结构性。在此基础上,引入两组小矩阵来计算权重的数据驱动重要性,而不是使用原始的大重要性得分矩阵,从而使稀疏训练资源有效和参数有效。不同网络的实验(即BERT,RoBERTa和GPT-2)在几十个数据集上的测试表明,尽管只训练了少量的参数,PST的性能与以前的稀疏方法相当或更好。例如,与传统的稀疏方法相比,我们的PST只需要1.5%的可训练参数就可以在BERT上实现相当的性能。1介绍自然语言处理中的许多应用都遵循一种范式,即首先预训练一个大型语言模型,然后将其微调到多个下游任务。尽管其取得了巨大的成功,但这种具有数百万到数十亿参数的大规模语言模型在微调下游数据集以及推理阶段中需要巨大的内存占用和计算开销,这阻止了它们直接应用于各种任务。参数MaP0×X|W|MvP1×V-WV-GPST0的情况。0110. 02× ✓|W|+AB+R+C表1:不同稀疏性方法之间的比较。MaP和MvP分别代表了代表性的无数据和数据驱动方法。W表示权重,G表示相应的梯度。A、B、R和C表示我们提出的小矩阵。我们简化了重要性标准,以便进行清晰的分析。为了减轻语言模型推理中的计算和记忆负担,一个有前途的方向是prun- ing [McCarleyet al. ,2019;Zhang和He,2020],其独立地重新移动不重要的权重/通道/层以减少计算和存储器开销。其中,非结构化剪枝,即稀疏性,因为它可以实现更高的压缩比,具有竞争力的性能,被广泛研究。以前的稀疏性方法提出了各种标准来计算每个权重的重 要 性 , 可 以 大 致 分 为 两 类 , 无 数 据 [Hanet al. ,2015;Tanakaet al. , 2020] 和 数 据 驱 动 [Sanhet al. ,2020;Wang等人,2020a]。 比较结果见表1。无数据准则方法基于权重本身计算权重的重要性,而不涉及任何数据,例如幅度修剪(MaP)[Hanet al. ,2015]。尽管无数据准则具有较高的计算和分类效率,但它们忽略了每个权重的作用在不同的下游任务中变化很大,这导致模型性能下降。典型的数据驱动的准则方法侧重于设计精确的重要性准则来计算基于特定数据集的重要性分数,这被证明是成功的,在不降低性能的情况下减少了语言模型的计算推理成本然而,这些数据驱动的标准引入了额外的计算和可训练参数来获得重要性度量,这显著增加了稀疏感知训练期间的内存例如,移动修剪(MvP)[Sanhet al. ,2020]通过将权重与其梯度相乘来计算重要性,因此需要额外的内存来节省重要性。arXiv:2205.11005v1 [cs.AI] 2022年5月+v:mala2277获取更多论文|W|Top-v⊙运动修剪(数据驱动)STop-v可训练参数冻结参数激活10×⊙=得分矩阵,其大小与权重相同。GraSP [Wanget al. ,2020 a]引入了额外的计算开销来计算Hessian-Gradient乘积。在本文中,我们提出了一种参数有效的稀疏训练(PST)方法,以减少参与权重重要性计算的参数的数量,它可以解决稀疏训练中的资源需求问题,同时计算准确的重要性得分。考虑到无数据准则的效率和数据驱动准则的准确性,采用了两者的结合,以发挥两者的优势之后,为了减少幅度修剪(无数据)× =公司简介额外可训练参数的数量,即由数据驱动标准引入的重要性分数,基于以下两个基本观察,• Low-rankness:我们基于以前的工作分析了权重和Gra-rank的秩,并观察到它们都具有极低的秩,这意味着重要性得分矩阵的秩(公司简介参数有效的稀疏训练|W + UV|+的×++的BCA RTop-v×+ ×⊙=VXWUMY权重和梯度矩阵)也很小。因此,它可以由一组秩分解矩阵(即,表1和图2中的A和B ①的人。• 结构性:我们研究稀疏权重的分布,并观察到一般情况下某些行/列的重要性低于其他行/列的现象,这启发我们引入一组小矩阵来衡量每行/列的重要性。(即,表1和图2中的R和C。第一章引入两组小矩阵分别表示数据驱动的重要性分数中的低秩性和结构性。在特定的下游任务的重要性分数的计算重新制定这些小矩阵。通过替换,数据驱动准则计算的资源需求显著减少。此外,我们通过用低秩分解表示权重的更新来进一步减少可训练参数的数量,该分解优化了一组低秩矩阵而不是权重来捕获它的变化。我们的贡献可概括如下:• 我们提出了参数有效的稀疏训练(PST)方法,它减少了大型语言模型稀疏训练的可训练参数的数量,从而以参数有效的方式优化了微调和推理• 我们利用数据驱动的重要性分数中的低秩和结构性,从而用几个小矩阵代替它这就引出了一个新的研究领域,即如何压缩重要性分数的冗余度以有效地获得权重的重要性。• 大量的实验证明了我们的方法在各种典型的预训练大型语言模型(例如,BERT 、RoBERTa和GPT-2)。特别是,与以前的作品相比,PST获得了98.5%的可训练参数节省与0.12的平均得分提高GLUE。图1:幅度修剪、运动修剪和PST方法的框架。幅度修剪仅优化权重W,并且移动修剪同时优化权重W和重要性分数S以计算稀疏二进制掩码M。在我们的PST方法中,权重的更新被两个小矩阵(U和V)代替,数据驱动的重要性得分被分解为两组小矩阵(即,A、B和R、C)。2相关作品参数高效微调。参数高效微调通过优化各种轻量级模块而不是原始预训练权重来减少可训练参数的数量。例如,[Houlsbyet al. ,2019]引入了具有少量参数的可训练适配器,以实现参数有效的微调。[Lesteret al. ,2021]提出了有效的即时调整,其仅优化了小的任务特定向量。[Heet al. ,2021]提出了一个统一的框架,该框架采用了来自先前工作的多个模块。此外,[Guoet al. ,2020]提出仅更新可训练向量中的少量元素以进行参数有效的微调。[Huet al. ,2021]引入了两个低秩矩阵来近似参数更新。然而,通过这些方法产生的微调模型具有与预训练模型相同的权重数,这仍然导致推理时与之不同的是,本文提出了一种参数有效的稀疏训练方法,在训练过程中对语言模型中的重要权值进行剪枝,降低了网络推理的资源需求。参数有效推理。存在几种流行的语言模型压缩技术,例如,剪枝、量化和低秩分解。其中,pruning被广泛使用,它减少了网络推理中的参数数量。结构化修剪直接重 新 移 动 结 构 化 权 重 ( 例 如 , , attention heads[McCarleyetal. ,2019]、通道[Wanget al. ,2020 b]或层[Zhang和He,2020])来压缩和加速大型语言+v:mala2277获取更多论文∈Ⓢ∈Ⓢ∈联系我们∈.=δL||−Ⓢ||ΣδWδWδWδWDLΣ−δW||||∈∈δW模型相比之下,非结构化修剪,即稀疏性,独立地删除各个不重要的权重。以前的工作提出了各种标准来选择无关紧要的权重进行修剪,例如绝对权重[Gordonetal. ,2020]、泰勒近似[Molchanovet al. ,2019],hessian梯 度 产 品 [Wanget al. , 2020a] 和 无 数 据 显 著 性 评 分[Tanakaet al. ,2020]。然而,这些方法或者提出计算高效的重要性准则,但是导致更差的网络性能(即,幅度修剪),或者设计可能需要巨大计算开销的精确重要性准则(即,移动pruning和GraSP)。与这些方法不同的是,我们的方法利用了权重重要性矩阵的内在冗余,并提出了参数有效的稀疏训练,以获得更好的稀疏网络,具有更低的资源需求。3该方法3.1预赛我们首先建立了分析稀疏方法的一般符号。通常,对于权重矩阵W,RN×K,一种网络稀疏策略,引入了重要性得分SRn×k来确定应该删除哪些权重。基于S,二进制掩码M0,1n×k可以是gener-用于计算Y=(WM)X,其中YRn×m和XRk×m分别是该层的输出和输入。表示Hadamard乘积。一种常见的策略是基于重要性得分S来保持权重W的top-v。因此,我们定义一个函数f(S,v),它选择S中的v个最大值来生成二进制掩码M:(a) 注意查询层(b)注意输出层(c)FFN输入层(d)FFN输出层图2:对于每个图,右边的子图是稀疏度为90%时SST-2上BERT第一个块中二进制掩码M的可视化。左边的子图是列(蓝色)和行(橙色)的相应稀疏分布。X轴表示稀疏率,Y轴表示稀疏率属于每个区间的列/行的百分比。分别受《论语》的启发,,2020;Zhanget al. ,2021],我们可以直接通过SGD优化重要性得分,以获得数据驱动的重要性得分,因此第t步的重要性得分重写为:不S(t)=W(t)α()(i)W(i),(3)δWi=1其中α是权衡无数据和数据驱动重要性得分的超参数。对于无数据重要性分数Mi,j =f(S,v)i、j一、S i,j在top-v中,0,否则。(一)W(t),它不需要任何额外的参数,这是资源有效的。所以,我们只考虑压缩-在这项工作中,我们专注于迭代稀疏训练,重新移动不重要的权重并更新重要性数据驱动的重要性分数−α不i=1(δL)(i) W(i)一步步得分已有的方法证明,这种策略可以使网络从稀疏性造成的信息丢失中恢复过来因此,语言模型微调的优化过程是:vminL(W = f(S,v); D),s.t.≤1− p(2)实现参数高效的稀疏训练。低品。我们知道,rank(W <$δL)≤rank(W)= rank(δL),这意味着数据驱动的重要性得分的排名取决于W和δL的排名。先前的工作[Hu etal. [2021]证明了梯度W、S恩纳克重量δL具有低的内在等级,甚至可以是哪里是观察到的数据集,表示损失函数-tion,并且p表示目标压缩比。S的更新依赖于各种稀疏策略.例如,运动修剪[Sanhet al. ,2020]使用S(t)=语言模型中的一个或两个 故,《易经》之卦。数据驱动的重要性得分矩阵接近于权重矩阵的秩。现有文献[Oymaket al. ,2019;Liet al. ,2021]表明,在神经网络中,训练的大权重W往往自然具有近似的低秩不i=1(δL)(i) W(i)计算重要性分数。重量结构。根据这一点,我们可以推导出数据驱动的重要性得分也具有较低的内在排名. 因此,在本发明中,3.2参数有效的稀疏训练如[Zhaoet al. ,2020]和[Zhanget al. ,2021],由可训练重要性分数生成的最终二进制掩码类似于由幅度修剪直接产生的二进制掩码,并且它们之间的差异取决于特定数据集。这意味着每个权重的重要性取决于其绝对值及其在下游任务中的作用。 因此,我们提出了一个新的重要性得分S(t)=W(t)+S(t),其中W(t)和S(t)表示第t步权重的无数据和数据驱动的重要性我们引入两个小的低秩矩阵ARn×r1和BRr1×k来表示数据驱动的重要性得分的低固有秩部分,其中r1是控制重要性得分的可训练参数的数量的为了使每个权重的数据驱动重要性得分在开始时相同,A和B用高斯初始化和零初始化重新初始化,并且直接由SGD优化结构化。通常,稀疏方法在没有任何约束的情况下去除权重,这意味着稀疏结果(二进制掩码M)的分布是不可控的。+v:mala2277获取更多论文∈∈ΣΣ−Ⓢ∈∈联系我们联系我们联系我们|Ⓢ|(0)(0)D2δWJ然而,如图所示2、由重要性得分S生成的二值掩码M具有明显的结构模式。例如,图中的右子图图2(a)示出了存在具有极少保留权重的许多行。为了量化这种现象,我们先计算二进制M中每一列/行的稀疏比,然后将稀疏比分成若干区间,计算稀疏比属于相应区间的列和行的百分比,图中左侧子图。图2(a)表明,大约有30%的行中的所有权重都被删除,而大多数列具有类似908886840.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9稀疏比(a) MRPC939291908988870.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9稀疏比(b) SST-2稀疏比相比之下,图2(b)显示大多数列具有非常高的稀疏率。因此,我们得出结论,列/行的权重在重要性上显著不同在此基础上,我们提出了两个结构重要性得分矩阵RRn×1和CR1×k来衡量每一列/行在权重中的重要性。他们的更新是:图3:不同稀疏方法之间的比较,BERT基上的稀疏比。4实验4.1评估设置数据集和主干模型。我们用BERT进行实验[Devlin etal. ,2019],RoBERTa [Liu et al. ,2019年],t kR(t)=[(δL)(i)W(i)]δWi=0j =0:,j,(四)和GPT-2 [Radfordet al. ,2019年]在各种下游任务对于BERT和RoBERTa,我们使用GLUE基准[Wanget al. 2018年]进行评估。对于GPT-2,我们评估它t nC(t)=−[(δL)(i)<$W(i)],在E2E、DART和WebNLG上。实施细节。对于BERT基地,我们设置批量大小=总之,数据驱动的重要性分数变为:δS(t)=α1A(t)B(t)+α2(R(t)+C(t)),(5)其中α1和α2分别是权衡低秩和结构重要性得分的超参数为了进一步减少稀疏训练的资源需求,我们遵循[Hu et al. ,2021]通过用低秩分解W(t)=W(0)+βU(t)V( t)表示来约束权重的更新,其中URn×r2,VRr2×k和r2控制权重的可训练参数。因此,我们方法中的重要性得分为:32并在学习速率上执行超参数搜索3e-5、5e-5、1e-4、5e-4 QNLI、SST-2、CoLA、STS-B、MRPC、RTE和epoch10、20关于MNLI,QQP。此外,我们对RoBERTa使用16的批量大小,以及对学习率1 e-5,2 e-5,3e-5,5e-5的超参数搜索。 Epoch搜索空间与BERT基相同。对于GPT-2,我们使用8个批次大小和1 e-4的初始学习率训练模型5个epoch。在训练时,我们使用AdamW优化器和线性学习率调度器。所有模型都使用预先训练的权重进行初始化。我们遵循[Zhuand Gupta,2018]使用立方稀疏调度。我们还添加了几个步骤,S(t)为|W(0)+βU (t)V(吨)|+α1A(吨)B(t)+α2(R(吨)+C(t))的。( 六)训练开始时的热身(10%的训练步数)和训练结束时的冷却(30%的训练步数),基于此,每层的计算变为:(1)A(0)A(0)A(|W(0)+βU(t)V(t)|(七)经验上改进了性能,尤其是在高稀疏度区域中。 对于PST,我们设置β=α1=α2= 1和r1=r2= 8。1+α 1 A(t)B(t)+α 2(R(t)+C(t)),v)]X.应该注意的是,在微调之后,所有权重被最终确定,并且推断过程将是Y = W X,其中W是稀疏的,W =[(W(0)+βU(t)V(t))f(W(0)+β U(t)V(t)+ α1A(t)B(t)+ α2(R(t)+C(t)),v)]。因此,推理过程是参数和资源有效的。我们稀疏训练的优化过程是:4.2结果伯特和罗伯塔。表2显示,我们的方法实现了可训练参数的最大减少,具有与以前的方法相同或更好的性能。我们通过预先训练的权重的绝对值来初始化重要性得分,以进行运动修剪,以避免获得糟糕的性能。例如,我们实现0。73个平均值-minU、V、A、B、R、C(2)(2)(3)(|W+ βUV|当稀疏率为90%时,在RoBERTa上具有98.9%的可训练参数节省的年龄分数改善很大更多-+α1ABLow−`Rankxnessv+α(R+C),v);),St`ructuednexss(八)此外,我们观察到,在低稀疏率(50%)下,相对于微调的稠密模型,MaP优于其他方法,几乎没有或没有损失。然而,当增加S.T. nk ≤ 1 −p稀疏率达到90%,取得了明显的性能无论是BERT还是ROBERTA。相反,我们的方法此外,我们的方法中可训练参数的数量地图MvPPSTFT地图MVPPSTFTAcc.Acc.i=0j =0+v:mala2277获取更多论文是(n+k)<$(r1+r2+ 1),当r1和r2很小时,它比原来的数2<$n<$k1我们的代码可以在https://github.com/alibaba/AliceMind/tree/main/S4/PST和https://github.com/yuchaoli/PST。+v:mala2277获取更多论文∗模型方法稀疏性比可训练参数MNLIQQPQNLISST-2可乐STS-BMRPC RTEAvg.微调0%的百分比110.00M84.7287.8091.4993.0058.5588.6889.4562.8282.06地图百分之五十110.00M83.5887.8091.4790.9460.1189.7890.7367.1582.70MVP百分之五十194.93M82.2687.3390.8390.8357.6689.4391.0667.1582.07BERT基PST百分之五十2.91M80.9785.7789.7791.2857.6084.6390.7267.8781.08地图百分之九十110.00M79.7582.8385.0687.0440.7481.7282.7854.8774.35MVP百分之九十194.93M80.0685.3786.5387.0440.4684.3584.2858.8475.87L0Regu百分之九十194.93M77.9081.90-------PST百分之九十2.91M76.7383.9386.0388.6542.4981.7085.5762.8275.99微调滤波器0%的百分比125.00M87.6091.9092.8094.8063.6091.2090.2078.7086.40ROBERTa碱地图MVP百分之九十百分之九十125.00M209.93M80.8581.4084.9086.4285.7087.1388.9989.6819.1338.1283.5885.8583.8285.7155.2356.3272.7876.33PST百分之九十2.91M76.7083.8387.2690.0238.0884.9487.3460.2976.06微调滤波器0%的百分比355.00M90.2092.2094.7096.4068.0092.4090.9086.6088.90RoberTa大型地图MVP百分之九十百分之九十355.00M682.36M79.3782.9183.2985.9485.8388.2789.6890.8314.9432.5080.2184.2082.7785.2058.1259.9371.7876.22PST百分之九十7.77M81.4085.2187.6490.8339.2984.9587.0759.2176.95表2:在GLUE基准测试中使用BERTbase和RoBERTalarge的不同网络稀疏性方法的结果。表示先前作品中发表的数字。粗体数字表示相同稀疏度下的最佳结果。方法稀疏性比可训练参数BleuE2e遇到NISTBleuDART遇到之三BleuWebNLG遇到之三微调0%的百分比354.92M68.3646.418.6646.000.390.4647.600.390.50地图百分之九十354.92M68.4246.088.6444.720.370.5037.380.300.64MVP百分之九十656.91M69.2446.368.7345.110.370.5038.320.320.63PST百分之九十7.77M70.0446.518.8145.270.370.4944.570.340.53表3:使用不同方法在E2 E、DART和WebNLG上的 GPT-2中等性能对于除TER之外的所有指标,越高越好。PST在低稀疏率下表现不佳,但在较高稀疏率下获得比其 他 方 法 更 好 的 性 能 , 如 图 3 所 示 。 同 时 , 虽 然RoBERTa在微调后的性能优于BERT对于这种情况,我们发现Roberta具有较小的de-(a) MRPCR2R14816488.42 88.53 88.76888.65 88.65 88.531688.76 88.99 87.96(b) SST-2错 误 学 习 率 比 BERT 在 下 游 任 务 上 更 高 , 这 表 明RoBERTA比BERT更依赖于预先训练的权重稀疏方法使某些权值成为零。RoBERTa中的这些权重变化可能会对下游任务产生更大的影响。我们必须注意到,这不是一个常见的现象,在模型压缩领域,较大的模型通常比较小的模型更稳定[Liet al. ,2020]。R2R14816484.07 84.88 85.52885.86 85.57 85.761686.45 86.75 86.21+v:mala2277获取更多论文谷丙转氨酶2 我们进一步验证了我们的方法也可以在NLG模型上获胜如表3所示,我们的PST实现了最佳性能,同时在三个下游任务中训练了极少量特别是,与MvP相结合,我们获得了6.25 BLEU的改进,同时节省了WebNLG上98.8%的可训练参数。4.3消融研究重要性得分。 重要性评分法的设计在我们提议的PST中发挥关键作用。将无数据和数据驱动的重要性得分相结合,并根据数据驱动的重要性得分的低秩性和结构性将其分解为两组小矩阵准确地说,我们在表5中比较了BERT基础上的七个不同的重要性分数。 我们调整r1和r2来制造所有的冰毒-表4:具有不同秩r1和r2的BERT基的比较。ODS具有相同数量的可训练参数。结果表明,所提出的重要性得分在各种下游任务中达到最佳性能。此外,与2号线和3号线相比,结构性比低等级对重要性评分更重要。排名r1和r2。表4显示了秩r1和r2的影响。我们观察到,虽然模型性能随着秩的增加而增加,但更高并不一定更好。当一个秩较低时(即,r1= 4或r2= 4)时,另一个秩的增加将提高模型的精度。但是当一个秩足够大时(即,r1= 16或r2= 16),增加另一个并不一定能提高模型性能。这表明也可以搜索秩r1和r2,以探索针对不同下游任务的最合适的配置。4.4分析稀疏权重的分布 图图4(a)示出了MaP、MvP的剩余权重的分布的概述+v:mala2277获取更多论文地图MvPPSTS(重要性评分)QNLISST-2可乐STS-BMRPCRTEAvg.|W (0)(0)(0)(0)+βUV |+ α 1 AB + α 2(R + C)86.0388.6542.4981.785.5762.8274.5485.6188.4232.6078.8083.4461.0171.65|W+βUV |+ α 1 AB85.5888.1937.7181.6785.3462.8273.55|W+βUV |+ α 2(R + C)85.8388.1937.6680.0884.9661.3773.02|W+ β紫外线|α1AB+α 2(R+C)85.4887.5032.9080.5284.9562.8272.36α1AB83.5684.6322.0269.8481.6654.1565.98α2(R+C)85.1087.2734.9381.5085.1261.7372.61表5:在具有相同数量的可训练参数的不同重要性分数的BERT基础上的比较(p = 90%)。8.0%百分之六点零百分之四点零百分之二点零0.0%-0.2-0.1 0. 0重量0.1 0.284.584.083.583.082.582.00 2 4 6 8 10层84.584.083.583.082.582.00 2 4 6 8 10层(a)稀疏权重的分布(b)地图中的分数和权重(a) 注意查询图层8786858483(b) 注意力输出层84.584.083.583.082.5820 2 4 6 8 10 层82.00 2 4 6 8 10层(c) (d)PST中的分数和权重(c) FFN输入层(d) FFN输出层图 4 : MaP 、 MvP 和 PST 的 稀 疏 权 重 的 分 布 , 恢 复 ( p=90%)。和PST分别位于同一层,稀疏率为90%。与倾向于移除接近零的权重的MaP和移除具有较大值的权重的MvP相比,PST具有更平滑的分布,其同时保持具有较大值和较小值的权重。图4(b)(c)(d)分别显示了相对于MaP、MvP和PST的重要性分数的权重。修剪后的权重和剩余权重分别为灰色和蓝色点。我们观察到PST反映了无数据(MaP)和数据驱动(MvP)方法的特征MaP根据权重的绝对值计算权重的重要性得分,因此显示了V形曲线。MvP删除任何权重,而不管其绝对值(零除外)。而PST不仅考虑了权重的绝对值,而且保留了权重的低绝对值,因此表现为两种分布的组合。二进制掩码的相似性。我们使用汉明距离来计算不同方法之间的二进制掩码M的相似性。图5显示PST的稀疏二进制掩码M比MvP更接近MaP,这意味着无数据重要性分数在PST中占更大的比例。此外,如图5(c)和图5(d)所示,当层图5:分别在MaP、MvP和PST之间的二进制掩码M的相似性(p= 90%)。在FFN模块中,结果表明,随着层次的加深,PST逐渐降低了无数据重要性分数的影响。然而,随着层深度的增加,MvP和PST之间的相似性在FFN模块的输入层中增加,而在FFN模块的输出层中减小。这表明PST的重要性得分在输出层中探索了不同于MaP和MvP的新信息五、结论在 本 文 中 , 我 们 提 出 了 一 个 参 数 有 效 的 稀 疏 训 练(PST)方法,以减少可训练的参数的数量和资源需求的稀疏意识微调的大型语言模型。我们首先结合无数据和数据驱动的标准来计算权重的重要性。然后我们发现两个特征(即,低秩性和结构性),因此引入两组参数有效矩阵来代替原有的大重要性得分矩阵。在多种语言模型上的大量实验表明,PST在减少稀疏微调的计算复杂度和资源需求方面是有效的。Map-PSTMvP-PST地图-MvPMap-PSTMvP-PSTMap-MvPMap-PSTMvP-PST地图-MvP%Map-PSTMvP-PSTMap-MvP%%%%+v:mala2277获取更多论文引用[Devlin et al. Jacob Devlin,Ming-Wei Chang,Ken- tonLee,and Kristina Toutanova. Bert:深度双向转换器的语言理解预训练。在计算语言学协会北美分会2019年会议论文集:人类语言技术,第1卷(长论文和短论文),第4171-4186页[Gordon et al. Mitchell A Gordon,Kevin Duh和NicholasAndrews。压缩bert:研究权重修剪对迁移学习的影响。计算语言学协会,第143页,2020年。[Guo et al. Demi Guo,Alexander M Rush,and Yoon Kim.参 数 有 效 的 迁 移 学 习 。 arXiv 预 印 本 arXiv :2012.07463,2020。[Han et al. ,2015] Song Han,Huizi Mao,and William JDally.深度压缩:压缩深度神经网络-使用修剪,训练量 化 和 霍 夫 曼 编 码 。 arXiv 预 印 本 arXiv :1510.00149,2015年。[He et al. Junxian He , Chunting Zhou , Xuzhe Ma ,Taylor Berg-Kirkpatrick,and Graham Neubig.迈向参数 有 效 迁 移 学 习 的 统 一 观 点 arXiv 预 印 本 arXiv :2110.04366,2021。[Houlsby et al. Neil Houlsby,Andrei Giurgiu,Stanis-lawJastrzebski,Bruna Morrone,Quentin De Laroussilhe,Andrea Gesmundo , Mona Attariyan , and SylvainGelly.nlp的参数有效迁移学习。国际机器学习会议,第2790- 2799页。PMLR,2019年。[Hu et al. Edward J Hu,Yelong Shen,Phillip Wallis,Zeyuan Allen-Zhu , Yuanzhi Li , Shean Wang , LuWang,and Weizhu Chen. Lora:大型语言模型的低阶适应。arXiv预印本arXiv:2106.09685,2021。[Lester et al. Brian Lester , Rami Al-Rfou 和 NoahConstant。缩放功能可实现高效的参数快速调整。arXiv预印本arXiv:2104.08691,2021。[Li et al. Zhuohan Li,Eric Wallace,Sheng Shen,KevinLin,Kurt Keutzer,Dan Klein,and Joey Gonzalez.训练大,然后压缩:重新考虑模型大小,以有效训练和推断变压器。在ICML,第5958-5968页[Li et al. Yuchao Li , Shaohui Lin , Jianzhuang Liu ,Qixiang Ye,Mengdi Wang,Fei Chao,Fan Yang,Jincheng Ma,Qi Tian,and Rongrong Ji.通过协作压缩实现紧凑的cnns。在IEEE/CVF计算机视觉和模式识别会议论文集,第6438-6447页[Liu et al. Yinhan Liu,Myle Ott,Naman Goyal,JingfeiDu,Mandar Joshi,Danqi Chen,Omer Levy,MikeLewis,LukeZettlemoyer,andVeselinStoyanov.Roberta:一种鲁棒优化的bert预训练方法。arXiv预印本arXiv:1907.11692,2019。[McCarleyetal., 2019]JSMcCarley , RishavChakravarti,and Avirup Sil.基于bert的ques问答模型arXiv预印本arXiv:1910.06360,2019。[Molchanov et al. 2019] Pavlo Molchanov,Arun Mallya,Stephen Tyree,Iuri Frosio和Jan Kautz。神经网络剪枝的重要性估计。在IEEE/CVF计算机视觉和模式识别会议论文集,第11264-11272页[Oymak et al. Samet Oymak , Zalan Fabian , MingchenLi,and Mahdi Soltanolkotabi.通过利用雅可比矩阵的低秩结构来保证神经网络的一般化。arXiv预印本arXiv:1906.05392,2019。[Radford et al. Alec Radford,Jeffrey Wu,Rewon Child,David Luan,Dario Amodei,Ilya Sutskever等人。语言模型是无监督的多任务学习者。OpenAI博客,1(8):9,2019。[Sanh et al. Victor Sanh,Thomas Wolf和Alexan- der MRush。运动修剪:通过微调自适应稀疏。在神经信息处理系统的进展,2020年。[Tanaka et al. [2020年] Hongori Tanaka,Daniel Kunin,Daniel L Yandong和Surya Ganguli。通过迭代保存突触流来修剪没有任何数据的神经网络。神经信息处理系统的进展,33,2020。[Wang et al. Alex Wang , Amanpreet Singh , JulianMichael,Felix Hill,Omer Levy和Samuel Bowman。Glue:用于自然语言理解的多任务基准测试和分析平台。2018年EMNLP研讨会论文集BlackboxNLP:分析和解释NLP的神经网络,2018年。[Wang et al. Chaoqi Wang,Guodong Zhang,and RogerGrosse.在训练之前通过保持梯度流来挑选中奖彩票。在2020年国际学习代表会议上[Wang et al. [2020 b]王伟,杰里米·沃尔文德,陶磊。大型语言模型的结构化修剪。2020年自然语言处理经验方法会议论文集,2020年。[Zhang and He,2020] Minjia Zhang and Yuxiong He.基于transformer的语言模型的加速训练,具有渐进的层丢弃。神经信息处理系统的进展,33,2020。[Zhang et al. Yuxin Zhang,Mingbao Lin,Fei Chao,YanWang,Yongjian Wu,Feiyue Huang,Mingliang Xu,Yonghong Tian,and Rongrong Ji.彩票累积奖金存在于预先训练的模型中。arXiv:2104.08700,2021。[Zhao et al. ,2020] Mengjie Zhao,Tao Lin,Fei Mi,Martin Jaggi,andHinrichSc hütze. 掩蔽是预训练语言模型的一种有效替代方法arXiv预印本arXiv:2004.12406,2020。[Zhu和Gupta,2018] Michael H Zhu和Suyog Gupta。修剪,还是不修剪:探索修剪模型压缩的功效。2018年学习代表国际会议
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功