参数高效语言模型调优：UNIPELT框架与多PELT方法混合取得优异效果

10 浏览量更新于2023-12-01 收藏 542KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文UNI PELT：参数高效语言模型调优YuningMao1张，LambertMathias2，RuiHou2，AmjadAlmahairi2，Hao Ma2，Jiawei Han1，Wen-Tau Yih2，Madian Khabsa21University of Illinois Urbana-Champaign2Facebook AI1{yuningm2，hanj}@illinois.edu2 {mathiasl，rayhou，aalmah，haom，scottyih，mkhabsa}@fb.com摘要预训练语言模型的常规微调调整所有模型参数，并为每个下游任务存储完整的模型副本，随着模型大小变大，这变得越来越不可能。最近的参数有效的语言模型调整（PELT）方法设法匹配微调的性能与少得多的可训练参数，并执行特别好时，训练数据是有限的。然而，不同的PELT方法在同一任务上的表现可能相当不同，为特定任务选择最合适的方法并非易事，特别是考虑到快速增长的新PELT方法和下游任务的数量。鉴于模型的多样性和模型选择的困难，我们提出了一个统一的框架，UNIPELT，它将不同的PELT 方法作为子模块，并学习激活最适合当前数据的方法或任务设置。值得注意的是，在GLUE基准测试中，UNI PELT与最佳的单个PELT方法相比，始终实现1~ 3 pt的增益，它结合了甚至优于不同设置下的微调此外，当在每个任务上单独使用其所有子模块时，UNIPELT通常超过上限，这表明多个PELT方法的混合可能固有地比单个方法更有效。11介绍作为预先训练的语言模型（PLM）（Devlinetal. ，2019; Brown et al. ，2020）变得越来越大，执行传统的微调变得越来越不可行，在传统的微调中，每个任务修改模型参数的单独的复制为了解决这一问题，近年来出现了一股关于交际有效语言的研究热潮这些工作是在Facebook AI实习期间完成的1工作正在进行中。模型调整（PELT），即如何用较少的可训练参数有效地调整PLM。一条工作线提出仅调整参数的一小部分，例如顶层（Leeet al. ，2019 ）或偏倚项（ Ben Zaken et al. ， 2021年）。其他研究通过冻结整个PLM并添加少量额外的可训练参数（Houlsby et al. ，2019;Li and Liang，2021; Lester et al. ，2021; Guo etal. ，2021; Hu et al. ，2021年）。现有的PELT研究通常旨在用尽可能少的可训练参数实现与传统微调相当的性能，这已经取得了重大进展-在大多数最近的方法中使用的任务特定的可训练参数（Lester et al. ，2021;Guo et al. ，2021年）与PLM的总参数（1%）相比几乎可以忽略不计。一个更令人困惑但几乎没有研究的问题是，是否可以实现更好的性能比微调较少的参数。最近的研究（He etal. ， 2021; Li and Liang ， 2021; KarimiMahabadi et al. ，2021）发现，当训练数据有限时，一些PELT方法可能比微调更有效，这可能是由于过拟合的风险降低。然而，正如我们在分析实验中发现的那样，各种PELT方法可能表现出不同的特征，并且在同一任务上表现得相当不同，这使得为特定任务选择最合适的方法变得非常重要，特别是考虑到快速增长的新PELT方法以及下游任务。鉴于PELT方法的不同性能和选择最佳方法的成本，我们提出了一个统一的PELT框架，命名为UNI PELT，它将不同的PELT方法作为子模块，并学习动态激活最适合当前数据或任务设置的子模块。因此，不再需要模型选择，并且在不同的设置下实现了始终如一的更好激活arXiv：2110.07577v1[cs.CL] 2021年10月+v：mala2277获取更多论文上下∈ × ∈×在UNI PELT中，每个子模块的权重由门控机制控制，门控机制学习偏向（分配更多权重给）在给定任务上表现良好的子模块此外，由于每个子模块引入的参数数量通常很少，因此组合多种方法会导致参数效率的损失可以忽略不计我们选择两种PELT方法作为我们实验的代表-适配器调谐（Houlsbyet al. ，2019年）和前缀调整（李和梁，2021年），因为它们（及其扩展）在很大程度上代表了迄今为止最流行的PELT方法。2在高级别上，适配器调优通过将瓶颈层插入PLM的每个Transformer层来增加模型深度，而前缀调优通过在多头关注之前将连续向量（虚拟令牌）前置到每个Transformer层的输入来增加模型宽度在这两种方法中，PLM的原始参数都被冻结，只有新添加的参数才被更新。我们对通用语言理解评估（GLUE）基准进行了广泛的实验（Wang et al. ，2019）。实验结果表明，在各种场景下，UNI PELT比单独使用每种方法都更有效，鲁棒性更好。具体而言，UNI PELT始终将其整合的最佳子模块提高1至3个点，甚至优于微调，在不同设置下实现了GLUE基准测试的最佳平均性能。更值得注意的是，当在每个任务上单独使用所有子模块时，UNIPELT经常超过上限，这表明UNIPELT成功地学习在不同设置下利用不同子模块并保持（接近）最佳性能。UNI PELT优于上限的事实也表明PELT方法的混合可能本质上比单一方法更有效。捐款. (1)我们在同一测试平台下对两种有代表性的PELT方法进行了分析实验，并提出了有价值的发现。（2）我们提出了一个统一的PELT框架，它可以将多个PELT方法合并为子模块，并自动学习激活最适合给定任务的子模块，而无需模型选择。(3)我们提出的框架实现了更好的性能比微调和PELT的方法，它结合了在胶水板凳-2我们计划在下一个版本中加入更多的方法在不同的设置下标记，参数效率的损失可以忽略不计2预赛2.1PELT方法w/o附加参数PLM通常用作特征提取器，其中仅对顶层或预测头进行微调（Lee et al. ，2019）。然而，这样的微调方法通常导致退化模型性能，其比微调所有参数差得多（ Lee et al. ， 2019;Pfeiffer et al. ，2021年）。最近的方法BitFit（Ben Zaken et al. ，2021），其仅微调模型的偏置项，在训练数据有限时实现与微调相当的性能。在极端形式中，GPT-3等模型使用的上下文提示（Brown et al. ，2020）不涉及任何参数调整，而仅仅是作为模型输入提供的少量演示。2.2PELT方法w/附加参数或者，一些方法固定整个PLM并引入少量新的可训练参数。这一类别中值得注意的例子包括适配器调谐（Houlsby et al. ，2019）及其扩展（ Pfeiffer et al. ， 2021; Karimi Mahabadietal. ，2021; Mahabadi et al. ，2021年），前缀调谐（李和梁，2021年）及其扩展（莱斯特等人，2021）和添加剂方法（Zhang et al. ，2020; Guo et al. ，2021; Hu et al. ，2021年）。接下来，我们将更详细地介绍这些方法（主要是初级版本），以便于介绍我们提出的框架。图示如图所示。1、更好的理解适配器调谐。适配器调谐（Houlsby等人，2019）是微调的轻量级替代方案，它在PLM的每个Transformer层中的前馈网络瓶颈层由向下+向上投影对组成，该投影对缩小并恢复令牌隐藏状态的大小。在数学上，如果我们将前馈网络的输出（在剩余连接层归一化之后）表示为hFN ，其中隐藏大小为Dhidden，瓶颈大小为Dmid，则瓶颈层的输出（hA）为：hA= W |φ（W |hFN），（1）其中WdownDhiddenDmid，WupDmidDhidden，φ是非线性激活函数，并且为了简洁起见省略了偏置项的参数+v：mala2277获取更多论文我∗∗∈ ×∗∗我∈ × ∈×我上下在层标准化中，有时也根据特定的适配器变体来微调最终的预测适配器调整已被证明与微调相当，有时在低资源环境中表现出更好的有效性（He et al. ，2021年）。后来的研究将适配器调谐扩展到多语言（ Pfeiffer et al. ， 2021 ）和多任务（Karimi Ma-habadiet al. ，2021）设置，或进一步减少可训练参数（Mahabadi et al. ，2021年），它可以很容易地纳入U NI PELT作为替代香草适配器调整。前缀调谐。前缀调整（Li和Liang，2021）将许多特定于任务的可训练向量预先添加到每个Transformer层中的多头注意力的输入中，就好像它们是虚拟令牌一样，这允许原始令牌在多头注意力期间参与具体地，我们将前缀长度表示为L，并且将i的隐藏状态表示为L。在多头之前的Transformer层k中的th令牌请注意，K。对于每个hk，i≤L，存在对应的可训练向量Ek，嵌入矩阵图1：UNIPELT在一个TransE. hi（i > L）的其余部分是原始标记的隐藏状态（在实际的自然语言输入中），它取决于前一个Transformer层k−1的输出：前一层。U NI PELT的每个子模块由一个门控功能控制。可训练参数为绿色。Q、K、V和P分别表示查询、键、值和前缀。hk= .杨永如果i≤L，（二更）在模型输入中，iPLM（hk−1），如果i>L。为了允许更多的表现力，嵌入矩阵E由两层前馈网络重新参数化：EJ= W |φ（W | E）、（3）其中ED隐藏左，右下 D隐藏 D中，W上 D中D隐藏N层2，N层表示Transformer层的数量。该网络的参数在训练完成后可以被丢弃，并且仅留下N层L2前缀向量（具有大小为D的隐藏）以被前置到N层Transformer中的每一层中的多头注意力的键和值状态。前缀调整最初用于自然语言生成，我们将其调整为理解任务。请注意，前缀调整不同于基于前缀的微调方法（Schick和Schütze，2021;Gao等人，2014）。（1）基于前缀的微调不是参数有效的，因为它更新所有模型参数，而前缀微调仅更新前缀嵌入矩阵E。(2)提示符仅用于添加到前缀调整中的每个Transformer层（存储为不同的向量）。（3）基于前缀的微调通常利用精心设计的自然语言提示，而前缀微调使用连续提示（虚拟令牌）。前缀调谐的后续方法，称为前缀调谐（Lester et al. ，2021），通过将前缀限制在第一层，进一步减少了任务特定的参数，但仅在非常大的模型大小（数十亿个总参数）的情况下才有竞争力，因此在我们的研究中没有考虑。加法方法。加性PELT方法将微调后的模型参数视为预训练参数θpre-trained和任务特定差异δtask的附加，其中θpre-trained是固定的，并且在顶部添加新的模型参数（子）集（ θtask=θpre-trained+δtask）。有各种方法来参数化任务特定差异δ 任务，导致不同的加法方法，如LoRA（Hu et al. ，2021）、diff修剪（Guo et al. ，2021）和侧调谐（Zhang et al. ，2020）。我们计划在下一个版本中将加法方法纳入 UNIPELT。添加规范适配器调谐+HA上投影栅极向下投影hFN添加规范hF前馈添加规范多头注意栅极PKK PVV前缀调谐h在Q+v：mala2277获取更多论文M|M|G我我G ∈G--3统一PELT方法3.1任务制定假设有一个大型PLM，由于计算或存储成本的原因，它的大小无法直接进行微调，那么假设我们有一个PELT方法列表{mi}，其可训练参数为negli-激活，然后缩放其输出：hA=GAhA+hF。（四）直观地说，适配器调谐子模块是有效地绕过，如果0。同样，对于前缀调谐，我们设计了一个门控函数GP∈（0，1），应用于前缀合格（即，|M i||M|），我们的目标是设计--向量Ek与原始向量的一个统一的PELT框架，作为子模块，并学习动态激活（适当时增加）不同子模块的权重-代币完好：hk= .GPEk如果i≤L，（五）在不同的场景下吃，这样一个人可以在模型的有效性和鲁棒性方面都取得了令人满意的结果，而无需单独尝试每种方法3.2该方法在我们的分析实验中，我们观察到不同的PELT方法表现出不同的特征，并在同一任务上表现得相当不同例如，前缀调优通常在自然语言推理任务中表现此外，如图所示。1、第二。 2、不同的PELT方法通常涉及PLM架构的不同部分（例如：在用于前缀调谐的多头注意之前和用于适配器调谐的前馈层之后），使得组合多个PELT方法而不（直接）相互干扰是可行的。根据上述两个观察，我们提出了一个统一的PELT框架，UNI PELT，它采用了一种混合的方法，将多个PELT方法作为子模块。在高层次上，UNI PELT学习激活（增加权重）最适合当前任务或特定数据样本的子模块，并停用（降低权重）其余模块。门控机制。为了实现子模块激活（去激活）的细粒度控制，我们为每个Transformer层中的每个子模块添加一个可训练门（见图10）。①的人。理想情况下，如果子模块mi对给定的数据或任务设置有用，则mi的门输出将为高，使得mi在当前设置中扮演更重要的具体地，对于适配器调谐，在前馈网络和适配器调谐子模块之间存在残差连接，该残差连接将适配器输入（归一化之前）hF和输出hA相加作为其最终输出：hA=hA+hF。我们设计了一个门函数A（0，1），它使用带有sigmoid的前馈网络通过其直接输入hFN来估计适配器调谐的重要性iPLM（hk−1），如果i>L。以这种方式，如果前缀调谐子模块的门输出为低，则前缀的影响将被选通函数 P 由Transformer 层输入 h 与另一个前馈网络估计。尽管UNI PELT看起来很简单，但我们注意到，统一的方法在不同的场景下工作得很好是不平凡的。如在我们的实验和先前的研究中所观察到的，将不同的PELT方法天真地组合为混合体可能导致比使用单独的方法更差的性能（Hu et al. ，2021年）。4实验4.1实验装置任务设置。我们对通用语言理解评估（GLUE）基准进行了广泛的实验（Wang etal. ，2019），其涉及四种类型的自然语言理解任务，包括语言可接受性（CoLA）、情感分析（ SST-2 ）、相似性和副短语任务（MRPC、STS-B、QQP）以及自然语言推理（MNLI、QNLI、RTE）。WNLI在先前的研究之后被省略（Houlsby et al. ，2019; Devlin etal. ， 2019; He et al. ， 2021; Ben Za-kenet al.#20201;，因为它具有对抗性。数据设置。我们首先考虑训练数据有限的低资源集。我们对每个任务的训练集的一个小子集进行采样，大小为K=100，500，1000。由于无法向GLUE负责人提交大量运行板（2次提交/天），我们在训练集上取1，000个样本作为开发集，以选择最佳检查点，并按照He等人（2021）使用原始开发集作为测试集。具体地说，我们随机地用种子s打乱训练集，将前K个样本作为新的训练集，将接下来的1，000个样本作为定义集。为了减少随机方差，我们+v：mala2277获取更多论文----用5个随机种子对数据进行混洗，并报告平均性能。3接下来，我们考虑一个高资源设置，其中每个任务都使用整个训练集，并记录GLUE开发集上的最佳性能比较方法。我们主要比较U NI PELT与传统的微调和PELT的方法，U NI PELT纳入，即适配器调整（Houlsby等人。，2019年）和前缀调谐（李和梁，2021年）。我们还比较了基线，UNI PELT-NoGate，其中子模块简单地一起使用，没有门控。实施细节。在实验中，我们使用BERT基作为主要模型我们采用Adapter-Hub（Pfeiffer etal. ，2020），基于HuggingFace Transformers的库（Wolf et al. ，2019），作为我们的代码库。我们在相同的代码库中重新实现了其他子模块，以确保所有比较方法的公平比较。我们在很大程度上遵循AdapterHub推荐的超参数，并出于实际考虑，在不同的任务中保持相同具体来说，我们将输入长度设置为128，训练批大小设置为16。我们将epoch的数量设置为50，以确保不同设置下的所有方法都得到良好的训练。我们采用早期停止，并将耐心设置为10个非增长时期。根据先前的研究，我们将微调和适配器调整的学习速率设置为2 e-5和1 e-4（Pfeiffer et al. ，2020; Heet al. ，2021年）。我们从开发集上的{1 e-4，2 e-4，5e-4}调整前缀调整和UNIPELT的学习速率，并将它们的学习速率分别设置为我们设置前缀长度L=10，适配器瓶颈大小Dmid=48。4.2单个PELT方法的分析在表1中，我们显示了GLUE基准测试与各种大小的训练数据的比较结果。可以看出，虽然不同方法在8个任务上的平均性能有时是相似的，但在某些设置下，差异是相当显著的，并且在特定任务上可以高达5~9分（例如，，STS-B和MNLI，K=500），即使排除一些方法无法学习的情况（例如，QQPK=100上的前缀调谐）。接下来，我们将详细了解3我们使用s=111，222，333，444，555作为数据种子，并使用相同的种子（s=42）进行模型训练。我们还通过固定数据进行了另一组实验，使用5种不同的随机种子进行模型训练，其结果是相似的。UNI PELT的子模块单独使用时。适配器调谐分析自适应调整的性能相对稳定-与在不同任务或训练数据大小上一致的微调相比，没有明显更好或更差的一般来说，在大多数情况下，适配器调谐比微调我们没有观察到适配器调谐在低资源设置中始终优于微调，如在先前的研究中那样（He等人，，2021），可能是因为他们调整了每个任务的模型超参数，这在现实世界的应用中可能是计算上禁止的例如，适配器调谐Dmid的瓶颈大小从{64，128，256}在 He 等人（ 2021 ）中，而在 UNI PELT 中Dmid=48，其涉及较少的参数并且在整个范围内是固定的。任务另一个区别是，我们只在每个Transformer层中添加一个适配器子模块，这与添加两个适配器子模块相当，但使用了一半的参数（Pfeiffer et al. ，2021年）。另一方面，有一些任务（例如：，STS-B），无论训练数据的大小如何，适配器调谐都大大优于前缀调谐，这表明在某些情况下，应该倾向于适配器调谐而不是前缀调谐。前缀调谐分析。对于前缀调整，我们观察到当训练数据有限时，它有时无法有效地学习（例如，SST-2上的K=100，QQP上的K=500），导致性能不令人满意和（或）不同运行之间的巨大差异。在一项同期研究中也观察到了类似的现象（Gu et al. 2021年），在少数镜头的微调。总的来说，当具有非常有限的训练数据（K=100，500）时，前缀调谐表现不佳，并且当K达到1000时，变得与微调以及适配器调谐另一方面，前缀调优在某些任务上表现得特别好，例如具有各种大小的训练数据的自然语言推理（QNLI和MNLI），这表明学习激活（分配更多权重）这些任务的前缀调优的混合方法可能会产生不错的结果。4.3关于UNI PELT现在让我们转向我们提出的框架UNI PELT的有效性，它将现有的PELT方法作为子模块。低资源性能。我们观察到，UNI PELT始终实现最佳性能-+v：mala2277获取更多论文--方法SST-2MRPC可乐RTEQNLISTS-BMNLIQQPAvg.[K=100]开发性能微调81.78 1. 1481.96 0.3717.91 3. 3058.15美元5870.02 5.0974.07 6. 51 45.08 3. 7361.65美元3161.33 1.80适配器调谐81.89 1. 1881.56 0.342.19 4. 3853.92 1.0172.710。65 77.32 1. 54 41.39 3. 4062.40美元2959.17 1.00前缀调谐66.24 12. 0381.22 0.000.00 0。0057.14 1.1272.36 2.68五十七点六九分0242.53 2. 2415.75 0. 1649.12 1.65UNI PELT80.54 1. 8981.880。6916.53 8. 5357.90 1.4773.52 0.5579.14美元9745.39 0. 8465.05 0. 9062.50 1.30[K= 100]测试性能微调79.61 4. 2581.810。3516.56 4. 3455.88 1.645.25美元9474.07 6. 51 42.56 3. 4360.41美元4260.02 1.84适配器调谐80.48 2. 94八十一点四192.02 4. 0452.78 0.2772.25 0.4977.32 1. 54 38.81 3. 6460.88 4. 0058.24 0.99前缀调谐60.87十二. 4781.22 0.000.00 0。0055.96 2.0071.91 2.69五十七点六九分0240.58 2. 4915.68 0. 1247.99 1.77UNI PELT77.22 3. 7581.86 0.7014.42 10.2455.52 2.1672.26 0.8979.14美元9742.59 1. 2063.411. 4460.80 1.53[K=500]偏差性能微调87.010。7183.49 0.4238.42 2. 5363.07 1.5478.03 1.1684.96 1. 1959.30美元3569.511. 3270.47 0.39适配器调谐85.86 0. 80八十三点零。6239.13美元7863.52 1.9878.39 1.4683.52 0. 33 52.60 2. 2969.40美元1569.43 0.75前缀调谐86.72 1. 4683.27 1.5541.47 3. 79六十六点零八分8378.97 1.3479.75 1. 49 61.17 0. 9854.64 25.9469.01 3.35UNI PELT86.63 1. 3583.59 0.3343.59 2. 5965.12 1.6479.53 1.3484.53 0. 4860.15美元3169.09 2. 1071.53 0.73[K= 500]测试性能微调85.67 0. 9783.34 0.5536.47 2. 6959.64美元10七十七点半4984.96 1. 19 55.84 0. 8568.23 1. 3968.93 0.65适配器调谐84.54 1. 3782.53 0.3638.65 3. 9759.35美元09七十七点三十九分。8483.52 0. 33 50.04 1. 7268.12 0. 9568.02 0.77前缀调谐83.65 0. 6982.96 1.6338.16美元2563.18美元7078.50 1.1279.75 1. 49 58.06 1. 0454.34 25.9167.32美元42UNI PELT84.84 0. 2883.25 0.5139.84 5. 0163.32 1.7278.36 1.0684.53 0. 4856.08美元2668.14 1. 3969.79 1.02[K=1000]开发性能微调87.79 0. 82八万五4843.59 2. 4764.90 2.0179.59 1.4186.39 0. 34 64.88 0. 8072.14美元50七十三点零四分。31适配器调谐87.310。9884.8104343.67 1. 4365.62 0.93八十点三四6785.52 0. 2960.36美元5971.24 0. 96七十二点三十六分46前缀调谐87.86 1. 2384.00 1.4945.60 2. 7468.87 1.0380.93 0.8282.38 1. 25六十六点零八分30六十九点零八分77七十三点十分。58UNI PELT87.88 1. 1385.98 1.0146.17 3. 4667.36 0.8281.36 0.8486.82 0. 2366.19美元5671.26 0. 9574.13 0.61[K= 1000]测试性能微调86.54 1. 0184.87 0.6443.26美元6062.31 2.1079.03 1.1186.39 0. 34 61.95 1. 20七十一点零九分。7771.93 0.37适配器调谐85.60 0。6384.49 0.6042.33 1. 9861.811. 5779.68 0.2385.52 0. 29 57.86 2. 4470.32 0. 7170.95 0.55前缀调谐八十五点零九分9983.66 1.8244.07 2. 9066.71 2.72八十点三四7082.38 1. 25 63.59 1. 1268.58 0. 3571.810。52UNI PELT86.17 0. 3785.86 1.0544.33 3. 5564.9119280.65 0.5786.82 0. 23 62.17 0. 9969.95 0. 9072.610。53表1：K=100、500、1000个训练样本的GLUE基准测试结果。评估指标为CoLA的Matthew我们报告五个随机种子的平均性能，标准差作为下标。每个设置下的最佳和第二最佳方法是粗体和下划线。培训规模max（{mi}）UNIPELTK=10058.8660.80K=50069.6969.79K= 100072.5872.61表2：当在每个任务上取其子模块的最佳性能时，UNI在开发集和测试集上，无论训练样本的数量如何，在8个GLUE任务上取平均值时的mance这样的结果表明，我们的混合方法的优势，模型的有+v：mala2277获取更多论文效性和泛化能力。增益通常比性能最好的子模块高1~3个点（单独使用时）。此外，当使用100/500/1，000个样本进行训练时，UNIPELT在8个任务中的6/8/7个任务上表现最好或第二好，并且从不执行在不同任务的任何设置中都是最差的，这表明UNI PELT非常健壮，并且在不同的场景下都能可靠地执行。当训练样本较少时， UNIPELT的改进通常较大，这表明UNIPELT在低资源状态下表现得特别好。特别是，在适配器调整和前缀调整都无法学习的任务中，例如CoLA（K=100），UNI PELT设法实现接近微调的性能UNI PELT与上限。在表2中，我们显示了在每个任务上取其子模块的最佳性能时，UNIPELT和上限的比较。也许令人惊讶的是， UNIPELT的表现甚至比上限更好（尽管有时略高），这表明UNI PELT成功地学会了杠杆作用不同的子模块并保持（接近）op。+v：mala2277获取更多论文方法SST-2MRPCCoLARTEQNLISTS-BMNLIQQP平均值[K=all]最佳性能胶水Dev微调91.6390.9462.0866.4389.9589.7683.2387.3582.67适配器调谐91.8689.8661.5171.8490.5588.6383.1486.7883.02前缀调谐90.9491.2955.3776.9090.3987.1981.1583.3082.07UNI PELT-NoGate91.7490.1858.6371.1290.3088.7681.5883.3681.96UNI PELT91.8690.2861.1571.8490.7788.8683.4186.7483.12表3：当使用所有训练样本时，GLUE基准的结果不同设置下的最佳性能UNI PELT优于上限的事实也表明PELT方法的混合可能内在地优于单一方法。高资源性能。在表3中，我们比较了使用所有训练样本时不同方法在GLUE开发集上的性能。UNI PELT再次实现了最佳的整体性能，尽管收益不如低资源环境中那么显著。此外，简单地将多个PELT方法组合而不进行门控可能效果不佳-尽管U NI PELT-NoGate在每个任务中的表现都不会最差，但其整体性能相当差，这表明更仔细地混合PELT方法对于实现更好的4.4UNI PELT的效率参数效率。表4列出了不同PELT方法中可训练参数一个总的趋势是，最近PELT方法中的可训练参数一直在不断减少。例如，对于适配器调谐，用于实现GLUE上的竞争性能的任务特定参数的数量已经减少到0.047%（Mahabadi etal. ，2021）从3.6%的初级版本（Houlsby etal. ，2019）。前缀调优（Li和Liang，2021）通常涉及0.1%到1%的附加参数，而其后继的前缀调优（Lester et al. ，2021年）对于大多数型号尺寸达到0.01%以下。由于最近PELT方法中的可训练参数几乎可以忽略不计，因此组合多个方法不会导致参数效率的显著损失。UNI PELT仍然有1%的可训练参数，其中其子模块前缀调谐和适配器调谐分别使用0.17%和0.81%。该数量可以进一步减少（例如，，0.1%），如果使用这两种方法的更参数有效的变体，其可以是方法#参数适配器调谐扩展0.047% ~ 3.6%前缀调整扩展0.01% ~ 2%BitFit（Ben Zaken et al. ，2021）0.01% ~ 0.09%的差异修剪（Guo et al. ，2021年）0.5%LoRA（Hu et al. ，2021年）0.01%U NI PELT0.17%+0.81%=0.98%表4：不同PELT方法中的可训练参数的数量。组合多种方法导致参数效率的微小损失，因为每种方法中的可训练参数可以忽略不计。很容易与当前框架中使用的vanilla版本交换训练和推理效率。我们观察到，将多个PELT方法合并到UNI PELT中不会受到较慢的训练。UNI PELT也具有与基线方法相当的推理速度。对于每种方法，开发集（1，000个样品）的评估时间为3~4秒。5相关工作PLM的参数有效调整。由于在实践中为每个下游任务训练和存储大型PLM的完整副本是不可行的，因此如何使用少量可训练参数有效地调整PLM变得至关重要。现有的PELT方法可以很大程度上分为两类，根据是否引入新的可训练参数。具体地，可以训练模型参数的子集，诸如预测头（Lee et al. ，2019）和偏倚项（Ben Zaken et al. ，2021），或将任务特定的参数引入PLM的不同部分，例如在多头注意力之前（Li和Liang，2021）或在前馈层之后（Houlsby等人，2021）。，2019）。随着PELT方法的数量不断增加，UNI PELT的目的是更好地理解和利用不同方法的差异，而不是提出另一种方法。+v：mala2277获取更多论文混合专家。UNI PELT还涉及涉及涉及高容量网络并在给定不同输入的情况下激活网络的不同部分的方法。一个值得注意的例子是专家混合（MoE）（Shazeer et al. ，2017; Hazimehetal. ，2021），其维护一组专家（神经网络）和一个或多个可训练门以选择特定于每个输入示例的专家组合。尽管在概念上相似，但UNIPELT与MoE在以下几个方面不同：（1）UNIPELT中的子模块不像MoE那样通过求和显式地组合，而是按顺序组合，并且相互直接影响。(2)“专家”在U NI PELT中是异质和多样的，而在MoE方法中通常是同质或相同的(3)每个子模块的重要性在 UNIPELT 估计 indi-vidually，而不是由一个共享的门使用相同的6结论在本文中，我们提出了一个统一的框架，将不同的PELT方法作为子模块，并学习自动激活最合适的子模块，为给定的数据或任务设置。我们提出的框架始终执行传统的微调以及它在不同的设置下包含的子模块，并且当在每个任务上单独使用每个子模块的最佳性能时，经常超过上限。我们的研究结果表明，多种PELT方法的混合可能是有利的，在模型的有效性和鲁棒性方面，参数效率的损失可以忽略不计对于未来的工作，我们将对现有的PELT方法进行更多的分析实验，并将更多的方法纳入我们的框架。我们还将尝试更好地理解和解释各种PELT方法在不同场景下的性能差异确认我们感谢 Xiang Lisa Li 、 Hai Ye 、 RabeehKarimi Mahabadi和Liyuan Liu提供的有益讨论和反馈。引用埃拉德·本·扎肯，肖利·拉夫福格尔，约阿夫·金伯格. 2021. Bitfit：对基于transformer的掩码语言模型进行简单的参数高效微调。arXiv电子版，第arXivTom B Brown ， Benjamin Mann ， Nick Ryder ，MelanieSubbiah ， JaredKaplan ， PrafullaDhariwal，Arvind Neelakantan，Pranav Shyam，Girish Sastry，Amanda Askell，et al. 2020.语言模型是少数成功的学习者。arXiv预印本arXiv：2005.14165。Jacob Devlin，Ming-Wei Chang，Wendon Lee，andKristina Toutanova. 2019. BERT：语言理解的深度双向转换器的预训练。在计算语言学协会北美分会2019年会议论文集：人类语言技术，第1卷（长论文和短论文），第4171-4186页，明尼阿波利斯，明尼苏达州。计算语言学协会。高天宇，亚当·费舍尔，陈丹琪。2021. 使预先训练的语言模型更好地用于少数学习者。在Proceedings of the 59th Annual Meetings of theAssociation for Computational Linguistics and the11th International Joint Conference on NaturalLanguage Processing（Volume 1：Long Papers）中，第3816计算语言学协会Yuxian Gu ， Xu Han ， Zhiyuan Liu ， and MinlieHuang. 2021. PPT：预先训练的快速调整，用于少量学习。arXiv预印本arXiv：2109.04332。Demi Guo，Alexander Rush，and Yoon Kim. 2021.参数有效的迁移学习。在计算语言学协会第59届年会和自然语言处理第11届国际联合会议的会议记录（第1卷：长文），第4884计算语言学协会HusseinHazimeh ， ZheZhao ， AakankshaChowdhery，Maheswaran Sathiamoorthy，YihuaChen，Rahul Mazumder，Lichan Hong，and EdH Chi.2021. Dselect-k：在多任务学习中应用专家混合的可区分选择。 arXiv 预印本 arXiv ：2106.03760。Ruidan He ， Linlin Liu ， Hai Ye ， Qingyu Tan ，Bosheng Ding ， Liying Cheng ， Jiawei Low ，Lidong Bing，and Luo Si. 2021. 基于适配器的预训练语言模型调整的有效性。在Proceeding

下载后可阅读完整内容，剩余1页未读，立即下载