生成式预训练语言模型的量化压缩方法的探索与优化

8 浏览量更新于2023-12-01 收藏 1.64MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文××生成式预训练语言模型的量化压缩陶超凡1、鲁厚2、张伟2、尚立峰2、姜欣2、刘群2、罗平1、倪黄11香港大学2华为诺亚ong@eee.hku.hkpluo@cs.hku.hkcftao@connect.hku.hk{houlu3，zhangwei379，shang.lifeng，jiang.xin，qun.liu}@ huawei.com摘要生成式预训练语言模型（PLM）规模的不断扩大极大地增加了对模型压缩的需求。尽管有各种方法来压缩BERT或其变体，但很少有人尝试压缩生成式PLM，并且潜在的困难仍然不清楚。在本文中，我们对生成式PLM进行了量化压缩.我们发现，以前的量化方法失败的生成任务，由于同质字嵌入所造成的减少容量，和不同的权重分布。相应地，我们提出了一个令牌级对比蒸馏学习可区分的词嵌入，和一个模块明智的动态缩放，使量化器适应不同的模块。各种任务的实证结果表明，我们提出的方法优于国家的最先进的压缩方法生成PLM的一个明确的保证金。与全精度模型的性能相当压缩率 GPT-2和BART上。1介绍基于transformer的生成预训练语言模型（PLM）显示出强大的多任务和少镜头学习能力，并在各种任务上实现了可评价的性能（Radford和Narasimhan，2018; Brown et al. ，2020; Lewis等人，2020; Raffel et al. ，2020; Chen等人，2021年）。然而，由于大量的参数和逐个令牌的生成过程，它们通常在计算和存储方面都是昂贵的。已经提出了许多方法来压缩PLM，但大多集中在理解任务，如BERT的句子分类（Lan et al. ，2019; Sun et al. ，2020b; Jiao etal. ， 2020; Shen 等人， 2020; Hou 等人，2020）。最近的工作尝试使用张量分解来压缩GPT-2 （ Edalati et al. ， 2021 ）和知识蒸馏（Song et al. 2020年），但压缩图1：量化GPT-2的性能与不同的权重位宽和8位激活，使用不同的方法。右图仔细观察了LAQ。实现的比率比BERT小得多。然而，潜在的困难仍不清楚。在本文中，我们首先探索压缩生成PLM的量化参数从全精度到低位。我们发现，直接apply- plying以前的量化方法设计的BERT或计算机视觉任务生成PLM导致性能不佳。图1显示，随着权重位宽的减小，性能急剧下降为了研究量化生成PLM的难度，我们发现，由于量化导致的容量减少，学习的嵌入往往是同质的，难以区分，而权重分布在不同的模块和不同的Transformer层之间也有很大由于生成PLM的顺序从左到右预测的性质，这些问题被进一步放大，因为量化误差将随时间累积。为了缓解上述问题，我们提出了一个令牌级的对比蒸馏对比令牌，使词嵌入可区分。此外，我们提出了一个模块的动态缩放量化器，以更好地适应不同的模块。在语言建模、下一个话语预测和摘要方面的实验结果表明，与全精度基线相比，我们的量化GPT和BART（简称Quant-GPT和QuantBART）在8/4位权重下实现了相当的性能，并且只有轻微的差异。arXiv：2203.10705v1 [cs.CL] 2022年3月+v：mala2277获取更多论文×−−n∇nnn{− −·· −···}下降为2位的重量，而超过13小。QuantGPT在语言建模方面也明显优于以前总结起来，我们的主要贡献是：1）我们发现生成式PLM由于词嵌入的同质性和权重分布的难以识别。2）提出了令牌级的对比蒸馏和模块级的动态缩放，使词嵌入更有区别，量化器分别适应不同的模块。3)各种任务的实证结果表明，我们的方法的有效性2生成式预训练语言模型的量化困难在本节中，我们将展示直接使用传统量化方法训练低比特生成预训练模型的挑战性。在深入研究细节之前，我们首先回顾了量子化的必要背景。2.1网络量化在本文中，我们应用量化感知训练（Courbariaux et al. ，2015）到生成PLM。具体地，将向量化的全精度权重表示为w，每个前向传播首先通过正的裁剪因子α裁剪权重，然后将裁剪后的权重量化为b比特，wq=α·Q（clip（w，−α，α）/α），（1）其中Q是量化函数，其将clip（w，α，α）/α中的每个条目映射到均匀离散值1，n-1，，1，0，1，，n-1，1的集合中的其最接近的量化值，其中n=2b-11. 然后我们计算损失l（wq），wq. 在反向传播过程中，我们使用梯度-关于量化权重的输入l（wq）作为Straight-Through-Estimate（Bengio et al. ，2013），以由于Q（·）的不可微性而更新全精度权重w。良好的限幅因子预期通过限幅来考虑大部分全精度权重，即，对数据密集分布的范围进行量化，减少量化误差。为了解决这个问题，PACT（Choi et al. ，2018）学习参数化的限幅因子，并且获得比设置固定限幅因子更好的结果。 LSQ （ Esseret al. ， 2020 ）学习步长α/n，但需要仔细的初始化和梯度更新。在实践中，遵循 BERT 量化的先前工作（Zhang et al. ，2020; Bai et al. ，2021），我们使用逐层量化（即，每个权重矩阵中的元素有一个限幅因子），并且行量化（即，每个词嵌入一个剪切因子）。对自注意后的激活和元素大多为正的GeLU函数采用非对称均匀量化，对其他激活采用对称均匀量化我们不量化层规范化层，跳过连接，由于小的计算开销的偏见。2.2难点分析我们比较了以下代表性的定量方法，包括（i）LAQ（Zhang et al. ，2020）;（ii）PACT（Choi et al. ，2018）和LSQ（Esser et al. ，2020年））用于计算机视觉任务，生成预训练模型，GPT-2。图1显示了不同权重位宽下的性能，随着位宽的减小，性能急剧下降，特别是对于PACT和LSQ。在下文中，我们通过实证调查词嵌入和模型参数的性质，研究了量化生成PLM困难的潜在原因同质词嵌入。我们首先从不同模型的在图2中，我们直观地比较了相同尺度下全精度模型和量化模型的词嵌入分布可以看出，全精度模型的词嵌入是分散的可辨别的，而先前量化方法PACT、LSQ和LAQ中的词嵌入学习聚类的且较不易辨别的同质词嵌入我们推测这是由GPT的顺序计算性质引起的。具体而言，与并行计算所有标记的表示的BERT不同，GPT以从左到右的顺序计算每个标记，并且在先前标记中产生的量化误差将传递给未来标记，使得学习信号随着时间的推移而变得更嘈杂，并且最终信息量更少的词嵌入。同质词嵌入的直接结果可以反映在图3中。通过比较图2和图3，我们可以发现，量化模型的词嵌入同质程度越高，依赖性越少+v：mala2277获取更多论文−(a) 全精度（b）PACT。（c）生活质量。LAQ。（e）我国。图二：T-SNE可视化最常见的500字嵌入，全精度和不同的2位量化模型在PTB数据集上训练。不同方法的嵌入表现出不同程度的同质性。图3：表示句子中所有标记对的表示之间、全精度模型和在PTB数据集上训练的2位量化模型之间的余弦相似性的矩阵。使用GPT-2的最后一个解码器层处的令牌表示。更多可视化可参见附录C.3。在不同的令牌之间保持。正如我们在3.1节中所讨论的，我们提出了一个令牌级对比学习来缓解这个问题。与PACT、LSQ和LAQ相比，我们的方法不仅在量化网络和全精度网络之间对齐了令牌表示（即，对角线框），而且还捕获不同令牌之间的依赖性（非对角线框）。更多可视化可参见附录C.3。不可区分的词嵌入和捕获上下文化依赖性的能力差也使得像PACT和LSQ这样的方法更有可能生成不正确的标记，例如，不合逻辑和重复的文本（第4.4节）。不同的重量分布。除了学习的词嵌入，我们还研究了全精度模型中的权重分布。图4显示了12层全精度GPT-2的权重分布与离群值高度偏斜。这导致难以通过启发式方法或甚至通过梯度下降学习α的PACT来估计量化器的限幅因子α。具体来说，在PACT中，α的近似梯度仅依赖于绝对值大于α的权重。该解忽略了[α，α]中权重的影响，并且严重依赖于α的初始化。图4显示了不正确的初始化以及不准确的梯度(a) 在第4层。（b）在层4处的wg图4：12层全精度GPT-2的第4层前馈网络中的多头注意力模块和第二线性层中的输出投影矩阵wo和wg其他层中的其他模块呈现类似的模式。垂直线表示由PACT和我们的方法学习的剪切因子。黑色曲线示出了通过核密度估计的估计的分布。对限幅因子的估计往往使PACT的学习α过大，并且不能对限幅范围内的大多数权重提供精细的分辨率。随着时间的推移，量化误差adjaculated，使这个问题更加严重。在这项工作中，我们重新参数化的限幅因子，使量化器自适应的Transformer层中的每个模块，并考虑两个权重的限幅范围外和内时，估计的梯度限幅因子。正如将在3.2节中讨论的那样，我们提出了一种模块化的动态缩放，以降低限幅因子+v：mala2277获取更多论文−S我不是∈LL我不是我不是···LL我LSΣΣ−ǁ ǁǁ ǁ我不是我不是我我S我S∈||∈改进的梯度估计，其还考虑来自量化网络的令牌表示在[α，α]内的权重。图4显示了通过我们的方法学习的裁剪因子为大多数权重提供了更好的分辨率。3该方法基于第2.2节中的观察，我们提出了一种量化方法，该方法利用令牌级对比蒸馏来使单词嵌入可区分（第3.1节），并采用模块式动态缩放调整来学习更好的裁剪因子（第3.2节）。ti←mqti+（1 −m）h，（3）其中m[0，1）是控制令牌表示的平滑度的动量系数此外，我们使用了一个额外的蒸馏损失dist超过logits。对于第i个令牌ti，假设量化和全精度网络的logit为zs，ztR|V|其中V是词汇量。dist是用软交叉计算的熵损失：nLdist= − <$ztlog（zs）。（四）3.1代币级对比蒸馏所提出的令牌级对比蒸馏在令牌之间而不是序列序列之间进行对比，以学习每个令牌的可区分表示。受Baevski等人（2020）的启发，该方法使用同一话语的不同位置处的话语内表示作为语音特征学习的否定，对于量化网络的每个令牌，我们使用来自全精度教师网络的相同令牌的表示作为其肯定，而相同序列中的其他令牌的表示作为否定（图5）。受He et al.（2020）的启发，该算法使用动量编码器来实现更一致的表示，我们构建了一个存储库来存储来自量化网络的动量令牌表示。在计算对比蒸馏损失时，我们使用廉价的索引操作从内存库中加载负样本的表示。具体来说，我们使用上标s和t分别表示量化的学生网络和全精度教师网络。将长度为n的输入令牌序列记为（t1，t2，，tn）.对于第i个令牌ti，假设它的最后一个Transformer层的隐藏状态来自量化和全精度网络线性投影到（hs，ht）Rd，并且qs是存储体中hs的平滑表示将i表示为标记i的采样阴性的指数，标记i的标记水平对比蒸馏损失表示为标记i的标记水平对比蒸馏损失。长度为n序列可以表示为i=1因此，总的训练损失是L=λL+ Ldist，（5）其中λ是默认设置为0.1的权衡因子。直觉上，对于量化网络中的每个令牌-工作时，dist只鼓励它模仿教师网络的相应标记，而dist不仅将其拉向积极的一面，而且还将其从消极的一面推开。通过这种方式，学习者帮助学生从教师的表征中捕获更多的信息，这也是Tian等人在理论上讨论的。（2019年）。所提出的令牌级对比蒸馏对性能至关重要，并且优于序列级对应物（如将在第5.1.1节中以实例示出的）。我们推测这是因为（i）令牌级对比度解决了低比特量化中的同质单词嵌入问题（图2）;（ii）与语音类似，自然语言的顺序也是顺序的，而不是像图像一样的空间;（iii）自我注意机制允许其他令牌学习在所研究的令牌上上下文化的表示，并且这些顺序否定比来自批处理序列的否定更难，从而允许更有效的表示学习。3.2模块相关动态缩放基于第2.2节中对不同权重分布的观察，我们根据统计特性提出了一种简单而有效的动态缩放方法。ns tL=logexp（s（qti，hti）/τ）exp（s（qs，ht）/τ）、（二）每个模块的权重。具体来说，直接学习原始削波因子αi=1j∈Sit tj作为PACT，我们转而学习新的缩放因子γ，其中s（x，y）=xTy计算余弦simi-其与平均重量magni相乘larity和τX y是固定的温度参数。tudewu1 得到削波因子α：然后我们更新tokenti的表示在内存中，移动平均值为α=γ·第一章（6）Q+v：mala2277获取更多论文nn+v：mala2277获取更多论文拉在一起推开ǁ· ǁ| | ≥−−−n∂γn−[−w+Q（u）]<$w<$1，−α≤w≤α，（7）4.1设置全精度教师网代币级对比蒸馏……ℓ��“She said ……tokenize嵌入式TransformerTransformer嵌入…第1层层L层……输入序列索引更新令牌存储库……ℓ��嵌入式TransformerTransformer嵌入层层1层L层我...我...量化学生网络Logit蒸馏图5：所提出的方法的训练工作流程。对于量化网络中的每个令牌，我们计算（i）令牌级对比蒸馏损失，其中正令牌和负令牌是从全精度教师网络中选择嵌入层和Transformer层中的所有权值都使用所提出的模块相关动态缩放进行量化。方法比特数（W-E-A）大小(MB)（↓）WikiText2PPL（↓）PTBPPL（↓）WikiText103PPL（↓）人物聊天累积（%）（↑）-全精度474.914.4814.7214.1977.01公约8-8-8121.417.4916.1116.7674.73LSQ8-8-8121.416.7515.4315.2475.28LAQ8-8-8121.416.9115.8715.8876.02QuantGPT8-8-8121.415.3114.9014.5876.12公约4-4-862.419.2320.1720.1525.13LSQ4-4-862.478.9979.7675.1245.10LAQ4-4-862.417.1216.5516.9171.71QuantGPT4-4-862.415.5514.9515.3176.57公约2-2-833.0173.02189.13171.035.52LSQ2-2-833.0847.54544.981470.865.54LAQ2-2-833.019.1518.2518.9771.36QuantGPT2-2-833.017.3016.1216.9874.78表1：在WikiText 2、PTB和WikiText 103数据集的测试集上的语言建模的结果，以及在Persona-Chat数据集的验证集上的下一个“#Bits (W-E-A)” represents the bit-width for weights of Transformer layers, wordembedding, and其中1表示L1范数。将尺度γ初始化为1，不仅简化了初始化，而且保证了初始裁剪因子α不会偏离全精度权值太远，而不管权值分布的多样性此外，我们还设计了一个比PACT更精确的比例因子梯度估计（Choiet al. ，2018）。先前的PACT仅通过绝对值大于剪切因子（即wα）的权重反向相反，我们还考虑裁剪范围内的权重（即，|α）为：|<α) as:直觉上，限幅因子的更新应该受到[α，α]外部和内部权重的影响，因为α控制两者的量化误差，即，当限幅因子较大时，[α，α ]外的权值量化误差较小，[ α，α]内的权值量化误差较大。我们对方程中γ的梯度作了新的估计（7）考虑了[α，α]内外的权重。此外，由于标度梯度与平均值成比例，因此所提出的标度比PACT对权重的变化分布不太敏感重量大小为100W。=布里尔<$lQ（u）<$w<$1，w−α<4实验∂lwqn∂γ∂wqα布里尔wqnQ（u）<$w<$1，w> α任务和模型。在本节中，我们评估我们提出的量化方法的有效性其中l是总训练损失，u=clip（w，α，α）/α，（一）. 详细推导见附录A。在两种生成性预训练模型上对三种生成性任务进行测试。具体来说，我们执行建议的量化方法上+v：mala2277获取更多论文×GPT-2上的语言建模和下一个话语预测任务（Radford和Narasimhan，2018），以及使用BART的抽象摘要（Lewiset al. ，2020），并将结果模型称为Quant-GPT和QuantBART。对GPT-2或BART解码器的最后一层的隐藏状态执行令牌级对比蒸馏有关数据集和模型架构的更多详细信息，请参见附录B.1和B.2。实施细节。对于我们提出的方法的每个下游任务，我们首先使用 GPT-2 和 BART 的huggingface1的预训练检查点微调全精度网络。然后我们使用这个微调的网络作为全精度教师网络并初始化量化的学生网络。我们使用8个基于Pytorch框架的V100GPU来每个任务的详细超参数可参见附录B.3。比较方法。由于很少有压缩生成PLM的尝试，我们自实现三个基线量化方法 PACT（Choi et al. ，2018），LSQ（Esser et al. ，2020）和LAQ（Hou和Kwok，2018）进行比较。有关这些方法的详细信息见附录B.4。4.2语言建模语言建模的任务是预测单词序列的概率分布。对于语言建模，我们在Wiki-Text 2上进行了实验（ Merity et al. ， 2016 ）、 Penn Treebank（ PTB ）（ Mikolov and Zweig ， 2012 ）和WikiText103（Mer-ity et al. ，2016）。我们使用困惑度（PPL）来评估语言建模的性能。与全精度模型比较。从表1中可以看出，所提出的具有8位权重的方法的性能与PTB和WikiText103上的全精度对应物相当，而在WikiText2上略有下降当位宽从8减小到4时，观察到稍微更严重的性能下降，在WikiText2和WikiText103上下降约1个PPL点，在PTB上小于0.1个PPL点当权重的位宽进一步降低到2时，我们的方法平均有2个PPL点下降，但实现了14.4的模型大小减少。与其他量化方法的比较从表1中可以看出，我们的方法优于PACT、LSQ1http://huggingface.co/models和LAQ的所有位宽和任务。随着位宽从8减小到4，LSQ的PPL大大增加，LSQ的平均PPL增加了5倍以上。随着位宽进一步减小到2，LSQ和PACT在所有数据集上都失败，尽管它们在BERT上的理解任务上表现良好（Bai et al. ，2021年）。我们推测这是因为虽然PACT和LSQ都有可学习的参数，但生成PLM的累积量化误差使得通过梯度下降更新这些参数不太稳定。另一方面，建议模块明智的动态缩放的问题。方法大小(MB)(↓）WikiText2PPL（↓）PTBPPL（↓）WikiText103PPL（↓）全精度474.9（1.0x）14.414.613.9KnGPT2332.0（1.4x）--20.5蒸馏GPT2LightPAFF329.6（1.4x）268.0（1.8x）-18.8-22.821.116.4我们的（8-8-8）121.4（3.9x）15.314.914.6我们的（4-4-8）62.4（7.6x）15.615.015.3我们的（2-2-8）33.0（14.4x）17.316.117.0表2：我们提出的定量化方法与其他GPT-2压片方法之间的比较与其他压缩方法的比较在表2中，我们将我们的量化方法与最近的GPT-2压缩方法进行了比较，包括张量分解方法KnGPT 2（Edalatietal. ，2021），以及蒸馏方法Distil-GPT 2和LightPAFF（Song et al. ，2020）。从比较中，我们的方法优于其他方面的模型大小和性能，即使当权重被压缩到只有2位。4.3下一个话语预测下一个话语预测的任务是在给定对话上下文的情况下预测下一个话语。它测试生成模型的语言理解能力。对于这项任务，我们使用一个大规模的对话数据集，人物聊天（张等人。，2018）。从表1中可以看出，与全精度基线相比，所有量化方法都会导致明显的性能下降，即使在8位设置下也是如此。随着量化变得更加积极，即当比特宽度变小时，PACT和LAQ的性能下降更明显。特别地，LSQ对于2位权重发散，并且其准确度仅为5%，这并不比随机猜测好，因为存在20个类。+v：mala2277获取更多论文4.4抽象摘要摘要旨在生成一个简洁的摘要，捕捉源文章的主要思想。我们在XSum（Narayanet al. ，2018年），其地面事实总结是高度抽象的，对许多提取策略具有挑战性。ROUGE 1、2、L用于评估该任务的性能。方法比特数（W-E-A）大小(MB)(↓）XSum度量R1（↑）R2（↑）RL（↑）-全精度532.040.7518.1033.05公约8-8-8138.139.1616.6031.60LSQ8-8-8138.139.0916.7231.56LAQ8-8-8138.139.1016.7431.65QuantBART8-8-8138.140.2517.7832.70公约4-4-872.432.6811.5226.03LSQ4-4-872.438.9416.4831.46LAQ4-4-872.439.0316.6831.63QuantBART4-4-872.440.2417.7132.69公约2-2-839.67.761.306.96LSQ2-2-839.637.0914.8829.76LAQ2-2-839.637.4815.2730.13QuantBART2-2-839.639.1516.7231.72表3：XSum数据集测试集的抽象总结结果，量化BART。表3显示了抽象总结的结果可以看出，我们的方法不断优于其他方法再次与一个明确的Margin。附录C.2中生成的不同方法总结示例表明，QuantBART生成的总结符合逻辑且简洁，而PACT生成的总结具有重复文本。5讨论5.1对比学习5.1.1负采样如图6所示，我们详细讨论了如何在对比学习中选择负样本。具体来说，我们将我们的方法与令牌级对比学习的变体进行了比较，这些变体从（a）全精度和量化网络（fp+quan）中的其他令牌的表示中选择每个令牌的负样本。）;（b）量化网络中的其它令牌的表示（quan.仅）;以及（c）对于每次训练迭代随机地使用整个词汇表（全局）。此外，我们通过将相同序列的表征拉在一起，并推开不同序列的表征，(a) fp+quan。（b）quan。只.(c)global.（d）分批进行。图6：负采样的四种变体。-采样方法WikiText2 PTBWikiText103-QuantGPT17.3016.1216.98fp+quan。17.3816.5117.13Tok-level泉。只17.3516.5417.15全球17.7116.6317.55序列级批内（bz=32）17.6219.2318.97批内（bz=16）17.4817.1118.16表4：2位权重阴性采样的消融研究，“bz”表示批量。“Tok”和“Seq”分别是标记和序列的缩写。从教师网络输入（批量）。序列的表示被定义为序列中所有标记的表示的平均值从表4，“fp+quan”。和“权”。only”的性能比QuantGPT差，后者使用其他标记的全精度表示作为负样本。这表明来自未完全训练的量化网络的令牌“global” “in-batch” 有趣的是，与计算机视觉中的批量负采样相反（Chen et al. ，2020），我们发现通过将批量大小从32减少到16来减少阴性样本的数量略微提高了性能。5.1.2阴性样本在图7中，我们在PTB数据集上绘制了2位QuantGPT的PPL，其中具有不同数量的负+v：mala2277获取更多论文L我不是L（h）我不是图7：图8的效果：2位QuantGPT中负sam-的比例因子数。请。训练损失训练时间(sec/iter）（↓）存储器(MB)（↓）PPL（↓）左侧远端0.611470016.93Ldist+λL0.671483916.12表5：标记级对比学习的效率研究结果在2位GPT-2上的PTB数据集上报告。“sec/iter”表示每次迭代所需的时间，单位为秒。内存表示每设备的GPU消耗。样品我们绘制了5次独立运行的平均结果和标准差。可以看出，随着负样本数量的增加，性能逐渐改善和收敛图7还示出了使用移动平均表示（在等式（1）中的q（3））具有更好的性能比使用方程（1）中的立即表示s。（3）），因为更平滑，更令牌的一致表示5.1.3对比损失的培训成本在表5中，我们报告了在PTB数据集上训练GPT-2模型的训练速度和数据消耗，有和没有提出的令牌级对比损失。批量大小设置为每个设备4个，可以通过使用具有更大内存的GPU或减少样本的序列长度来增加。可以看出，在提出的令牌级对比度损失的情况下，性能明显提高，仅稍微较慢的训练速度和更多的内存消耗。5.1.4对比损失的表征在表6中，我们比较了不同的表示以执行对比损失。第一解码器层），随后是线性变换。从表6来看，而不是“解码器优先”。一个可能的原因是最后解码器块的隐藏状态包含来自所有先前层的丰富信息（Xionget al. ，2020）。由于抽象摘要的实验是在BART上进行的，它具有编码器和解码器层，我们还研究了“编码器最后”和“编码器第一”的对比度损失在编码器上的消融中，在源输入（arti- cles）而不是目标输入（summaries）上计算对比度损失根据表6，5.2动态标度图8显示了2位GPT-2模型中不同模块的学习缩放γ可以看出，不同模块的缩放变化很大，验证了模块动态缩放的必要性。此外，我们还研究了所提出的动态缩放和方程中梯度的新估计的效果。（7）具有两个变体：1）仅dist，其去除了令牌级对比学习;以及2）我们的具有PACT的算法，其去除了对比学习，并且使用PACT估计梯度，其仅考虑绝对值大于裁剪因子α的权重。如表7所示，如果没有对比学习来学习标记的可区分表示，性能会变差。当使用PACT来估计所提出的缩放的梯度时，性能显著下降，特别是对于WikiText103数据集，验证了新梯度估计的有效性。6相关工作生成式预训练语言模型的压缩。一些早期的探索压缩了生成式预训练语言模型。KnGPT2（Edalati et al. ，2021）应用Kro-necker分解来压缩GPT。Dis-tilGPT 22将12层GPT-2提炼为6层GPT-2，在推理过程中速度快了一倍光-PAFF（Song et al. ，2020）提出了一种蒸馏方法，该方法的训练损失是学生模型的最大似然损失与教师和学生模型输出之间的KL偏差的组合SpAtten（Wang et al. ，2021）提出了一种算法和体系结构协同设计的稀疏模型，该模型去除了无信息2https://transformer.huggingface.co/model/distil-gpt2+v：mala2277获取更多论文L-WikiText2PTBWikiText103人物聊天XSum度量PPL（↓）PPL（↓）PPL（↓）累积（%）（↑）R1（↑）R2（↑）RL（↑）最后译码器17.3016.1216.9874.7839.1516.7231.72译码器优先18.0216.6117.2574.7539.1116.7031.62最后编码器----38.9116.7231.67编码器优先----38.8716.7031.56表6：2位设置中的对比度损失率的“方法WikiText2PTBWikiText103QuantGPT17.3016.1216.98仅限L区我们的PACT17.8520.0316.9317.7817.7825.54表7：在语言建模任务上使用2位GPT-2学习代币和注意头像。与这些方法相比，我们不仅从生成任务的性质出发研究了压缩的困难，而且研究了解码器和编码器-解码器生成模型。预训练语言模型的量化。量化通过用低位表示来表示32位浮点参数来压缩模型，并且由于其不需要设计新的模型架构而被广泛用于各种领域已经有许多尝试来验证特定于任务的BERT模型（Zafrir et al. ，2019; Shen et al. ，2020; Zadeh等人，2020），在自然语言理解任务上仅有可忽略的性能下降。最近的作品（Zhanget al. ，2020; Bai et al. ，2021）甚至将权重位宽向下推低至1比特。尽管BERT模型的这些方法取得了成功，但对可再生PLM的尝试很少，潜在的困难仍然不清楚。对比学习对比学习在BYOL（Grill et al. ，2020）和SimSiam（Chen和He，2021）。对比表示法（Tian etal. ，2019）通过最大化它们之间的互信息，将知识从教师网络提取到学生网络与我们的令牌级对比蒸馏最接近的工作是Wav2vec 2.0（Baevski et al. ，2020），其在语音学习中使用不同位置处的话语中表示作为否定。除了模态和任务的不同之外，我们的方法也不同于他们的方法：（1）模型：我们对模型参数和激活进行了建模，而他们没有;（2）表示：对于每个样本，我们使用全精度和量化网络的输出作为其两个视图，而他们使用量化和上下文表示。(3)损失：我们以自回归的方式计算所有令牌的损失，而它们只以非自回归的方式计算掩码令牌。7结论本文研究了生成PLM的低位量化。我们发现生成式PLM量化的困难为了缓解这两个问题，我们提出了令牌级对比学习，以学习更多可区分的令牌嵌入，以及模块依赖旨在将相似样本的表示推到一起，同时将不同样本的表示分开。并且广泛用于各种领域中的大规模自监督学习（Chenet al. ，2020; Sun etal. ， 2020a; Baevski et al. ， 2020; Huang etal. ，2022）和多模态学习（Radford et al. ，2021; Jia et al. ，2021年）。Simplified（Chenet al. ，2020）直接使用其他批内样品作为底片，需要足够 MoCo（Heet al. ，2020）在队列中保持大量负样本，并使用移动平均密钥编码器来提高一致性。对比动态缩放以实现更精确的量化。语言建模，下一个话语预测和摘要摘要的大量实验我们希望我们的工作揭示了在未来的探索生成PLM的压缩。确认这项工作得到了一般研究基金（GRF）项目17206020的部分支持，以及香港特别行政区新兴智能系统人工智能芯片中心ACCESS的部分支持。+v：mala2277获取更多论文引用AlexeiBaevski ， HenryZhou ， AbdelrahmanMohamed ， and Michael Auli. 2020. wav2vec2.0：语音表示的自监督神经信息处理系统进展，第33卷。Haoli Bai，Wei Zhang，Lu Hou，Lifeng Shang，Jing Jin，Xin Jiang，Qun Liu，Michael Lyu，andIrwin King.2021. Binarybert：推动bert量化的极限。在计算语言学上。约瑟芬·本吉奥，尼古拉斯·莱昂纳德，亚伦·库维尔。2013.通过随机神经元估计或传播梯度以进行条件计算。技术报告arXiv：1308.3432。Tom B Brown ， Benjamin Mann ， Nick Ryder ，MelanieSubbiah ， JaredKaplan ， PrafullaDhariwal，Arvind Neelakantan，Pranav Shyam，Girish Sastry，Amanda Askell，et al. 2020.语言模型是少数成功的学习者。神经信息处理系统。Cong Chen ，Chaofan Tao，and Ngai Wong. 2021.Litegt：高效且轻量级的图形转换器。第30届ACM信息知识管理国际会议论文集，第161TingChen ， SimonKornblith ， MohammadNorouzi，and Geoffrey Hinton.2020年。视觉表征对比学习的一个简单框架国际机器学习会议，第1597-1607页。陈新蕾和何开明。2021.探索简单的连体表征学习。在IEEE/CVF计算机视觉和模式识别上，第15750JungwookChoi，ZhuoWang，SwagathVenkataramani，PierceI-JenChuang，VijayalakshmiSrinivasan，andKailashGopalakrishnan.2018. Pact：量化神经网络的参数化裁剪激活。预印本arXiv：1805.06085。马蒂厄·库尔巴里奥，约瑟芬·本吉奥，让-皮埃尔·大卫。2015. Binaryconnect：在传播过程中使用二进制权重训练深度神经网络。神经信息处理系统进展，第3123Ali Edalati 、 Marzieh Tahaei 、 Ahmad Rashid 、Vahid Par- tovi Nia 、 James J Clark 和 MehdiRezagholizadeh 。 2021. gpt 压缩的克罗内克分解。神经信息处理系统进展。Steven K Esser ， Jeffrey L McKinstry ， DeepikaBablani ， RathinakumarAppuswamy ， andDharmendra S.Modha 2020.已学习步长量化。在学习代表国际会议上。Jean-Bastien Grill，Florian Strub，Florent Altché，Corentin Tallec ， Pierre H Richemond ， ElenaBuchatskaya ， Carl Doersch ， Bernardo AvilaPires ， ZhaohanDanielGuo ， MohammadGheshlaghiAzar，et al. 2020. Bootstrap Your OwnLatent ： A New Approach to Self-SupervisedLearning. 神经信息处理系统。Kaiming He ， Haoqi Fan ， Yuxin Wu ， SainingXie，and Ross Girshick. 2020. 用于无监督视觉表征学习的动量对比。在IEEE/CVF计算机视觉和模式识别会议上，第9729丹·亨德里克斯和凯文·金佩尔。 2016. 高斯误差线性单位（ gelus ）。技术报告 arXiv ：1606.08415。杰弗里·辛顿，奥里尔·维尼亚，杰夫·迪恩. 2015.在神经网络中提取知识。技术报告 arXiv ：1503.02531。鲁侯，黄志奇，尚立峰，姜欣，小陈，刘群。2020.Dynabert：具有自适应宽度和深度的动态bert。神经信息处理系统进展，第33卷。Lu Hou和James T.阿郭2018.深度网络的损失感知权重量化。在国际学习代表上。卢厚，姚全明，詹姆斯T.阿郭2017.深度网络的损失感知二值化。在国际学习表征上。Wenyong Huang，Zhenhe Zhang，Yu Ting Yeung，Xin Jiang，and Qun Liu.2022. Spiral：用于语音预训练的自监督扰动不变表示学习。在国际学习代表上。Chao Jia，Y

下载后可阅读完整内容，剩余1页未读，立即下载