噪声助力微调预训练语言模型

183 浏览量更新于2023-12-01 收藏 18.76MB PDF 举报

预训练语言模型

性能提升

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

0NoisyTune：一点噪声可以帮助您更好地微调预训练语言模型0Chuhan Wu† Fangzhao Wu‡ Tao Qi† Yongfeng Huang† Xing Xie‡0† 清华大学电子工程系，中国北京100084 ‡ 微软亚洲研究院，中国北京100080{wuchuhan15，wufangzhao，taoqi.qt}@gmail.comyfhuang@tsinghua.edu.cn，xingx@microsoft.com0摘要0有效地微调预训练语言模型（PLMs）对于它们在下游任务中的成功至关重要。然而，PLMs可能存在过度拟合预训练信号的风险，并且下游任务与预训练任务之间存在一些差距。对于朴素微调方法来说，克服预训练和下游任务之间的障碍，以及域之间的差距，可能是困难的，这导致性能不佳。在本文中，我们提出了一种非常简单但非常有效的方法，名为NoisyTune，它可以在微调之前向PLMs的参数添加一些噪声。具体而言，我们提出了一种矩阵化的扰动方法，根据不同参数矩阵的标准差添加不同强度的均匀噪声，以考虑PLMs中不同类型参数的不同特性。在GLUE英语基准和XTREME多语言基准上进行了大量实验，结果表明NoisyTune可以在许多下游任务中持续提高不同PLMs的性能。01 引言0近年来，预训练语言模型（PLMs）在自然语言处理（NLP）领域取得了巨大成功（Qiu等，2020年）。许多PLMs，如BERT（Devlin等，2019年）和RoBERTa（Liu等，2019年），在阅读理解、机器翻译和文本分类等各种应用中发挥了关键作用（Dong等，2019年）。此外，像XLM（Conneau和Lample，2019年）和Unicoder（Huang等，2019年）这样的跨语言预训练语言模型甚至可以生成跨语言可迁移的语言表示，以普遍处理不同语言的下游任务。如何有效地微调PLMs以更好地支持下游任务是一个重要的研究问题（Zheng等，2021a年）。除了使用下游标记数据对PLMs进行朴素微调外0任务，许多研究探索更有效和鲁棒的PLM微调方法（Chen等，2020年；Jiang等，2020年；Lee等，2020年；Aghajanyan等，2021年；Zhang等，2021年；Xu等，2021年）。例如，Chen等（2020年）提出了一种RecAdam方法，该方法添加了一个惩罚项来最小化微调模型与预训练模型之间的L2距离，其中惩罚强度在微调过程中是时变的。Lee等（2020年）提出了一种Mixout方法，将模型参数的部分部分随机替换为其原始预训练权重。这些微调方法主要关注防止PLMs在下游任务中过度拟合有限的标记数据。然而，PLMs在自监督预训练任务中已经训练得很好，它们很难克服预训练和下游任务之间的障碍以及微调过程中域之间的差距（Roberts等，2020年），尤其是当下游任务中的标记数据不足时，这可能导致性能不佳。0在本文中，我们提出了一种非常简单但非常有效的方法，名为NoisyTune，可以帮助更好地微调预训练语言模型（PLMs）以用于下游任务。NoisyTune的关键思想是在微调之前向PLMs参数添加少量噪声，这可以帮助防止它们过度拟合预训练任务中的信号，并减小预训练和下游任务之间的差距。由于PLMs中的不同类型的参数可能具有不同的特性，我们提出了一种矩阵化的扰动方法，根据不同参数矩阵的标准差添加不同强度的均匀噪声以实现更好的适应性。我们在两个广泛使用的自然语言处理基准上进行了实验，分别是GLUE（Wang等，2018年）用于英语理解和XTREME（Hu等，2020年）用于多语言理解。结果表明，NoisyTune在许多下游自然语言处理任务中始终提升了不同PLMs的性能。0arXiv：2202.12024v1[cs.CL]2022年2月24日0+v：mala2277获取更多论文one is GLUE (Wang et al., 2018), which is a bench-mark for English language understanding that con-tains tasks like natural language inference, senti-ment analysis and sentence similarity evaluation.The second one is XTREME (Hu et al., 2020),which is a benchmark for multilingual languageunderstanding. It covers 40 languages and containsfour groups of tasks, including sentence classiﬁca-tion, structured prediction, sentence retrieval andquestion answering. More details of these bench-marks can refer to their original papers and ofﬁcialwebsites. Since the test labels of GLUE are notreleased, following (Bao et al., 2020) we reportresults on the dev set of GLUE. The XTREMEresults are evaluated on the test set. The hyperpa-rameter λ is 0.15 on GLUE and is 0.1 on XTREME.The detailed hyperparameter settings are in the ap-pendix. Following (Zheng et al., 2021b), in sen-tence retrieval tasks we ﬁrst train the models on theXNLI dataset, and then use the average of tokenrepresentations produced by the hidden layer thatyields the best performance. In order not to harmthe alignment of token embeddings across differ-ent languages, We do not add noise to the tokenembeddings in multilingual PLMs. We repeat ex-periments 5 times with different random seeds andreport the average scores.On the GLUE benchmark, we compare directlyﬁnetuning the base version of BERT (Devlin et al.,2019), XLNET (Yang et al., 2019), RoBERTa (Liuet al., 2019) and ELECTRA (Clark et al., 2020) aswell as ﬁnetuning them after applying NoisyTune.On the XTREME benchmark, we compare bothbase and large versions of XLM-R (Conneau et al.,2020) and their variants processed by NoisyTune.The results on the two benchmarks are shown inTables 1 and 2, respectively. On the XTREMEdatasets, we report two types of results, i.e., zero-shot crosslingual transfer from English to otherlanguages or learning models on both English andtranslated data. From the results, we can see thatNoisyTune can consistently improve the perfor-mance of different PLMs on different tasks. In ad-dition, the performance improvement on relativelysmall datasets is usually larger (e.g., RTE, CoLAand WNLI). This indicates that when labeled train-ing data in downstream tasks is not redundant, itmay be more difﬁcult to well adapt PLMs to down-stream tasks from the parameter space well tuned in+v:mala2277获取更多论文02 NoisyTune0在本节中，我们介绍了我们提出的Noisy-Tune方法，该方法通过添加噪声来扰动PLM，以实现更有效的微调。由于PLM的参数在预训练任务中经过良好调整，并且可能过度拟合自我监督信号，当下游任务中的标记数据相对有限时，它们可能难以适应。受到duelingbandits机制（Yue和Joachims，2009）的启发，该机制为模型添加随机性以进行探索，我们探索在微调之前向PLM添加噪声以“探索”其他参数空间，以减少过度拟合预训练任务的问题。我们将PLM中的参数矩阵（或标量/向量）表示为[W1，W2，...，WN]，其中N是参数类型的数量。在许多噪声训练方法中，添加到参数的噪声遵循相同的分布（LeCun等人，2015）。然而，PLM中的不同参数矩阵具有非常不同的特性。例如，自注意参数和前馈网络参数通常具有非常不同的属性（Wang等人，2020）。因此，全局噪声的添加可能不是保持良好模型效用的最佳选择。为了解决这个挑战，我们提出了一种矩阵级扰动方法，根据参数矩阵的方差添加不同强度的噪声。我们将参数矩阵Wi的扰动版本表示为˜Wi，计算如下：0˜Wi = Wi + U（-λ02λ02）* std（Wi），（1）0其中std代表标准差，函数U（a，b）表示从a到b的均匀分布噪声，λ是控制相对噪声强度的超参数。1通过这种方式，具有较高方差的参数将添加更强的噪声。此外，在一些PLM中存在常数矩阵，例如RoBERTa中的令牌类型嵌入（Liu等人，2019）。它们不会被扰动，因为它们的标准差为0。这将确保这些常数矩阵不会被额外的噪声意外激活。03 实验03.1 数据集和实验设置01注意，U（a，b）是一个与Wi具有相同形状的矩阵，而不是一个标量。03.2 性能评估ModelMNLIQNLIQQPRTESSTMRPCCoLASTSWNLIAccAccAccAccAccAccMCCPCCAccAvg.BERT84.491.590.967.793.087.158.189.454.479.6BERT+NoisyTune84.791.891.268.893.488.059.090.156.180.3XLNET86.691.691.272.994.488.159.689.657.581.3XLNET+NoisyTune86.991.991.473.894.788.660.190.058.681.8RoBERTa87.592.791.777.194.590.162.990.859.282.9RoBERTa+NoisyTune87.893.191.978.894.990.663.691.160.383.6ELECTRA88.492.991.775.294.988.264.290.162.083.1ELECTRA+NoisyTune88.793.292.176.495.288.764.990.563.483.7Table 1: Results of different methods on the GLUE dev set.ModelSentence PairStructured PredictionSentence RetrievalQuestion AnsweringXNLIPAWS-XPOSNERBUCCTatoebaXQuADMLQATyDiQAMetricsAccAccF1F1AccAccF1/EMF1/EMF1/EMAvg.Fine-tune multilingual model on English training set (Cross-lingual Transfer)XLM-Rbase74.884.875.561.677.673.871.9/56.665.2/47.055.5/38.470.0XLM-Rbase+NoisyTune75.285.176.062.178.274.572.3/57.165.5/47.456.0/39.270.5XLM-Rlarge79.086.372.762.379.276.076.2/60.471.4/53.065.0/45.072.4XLM-Rlarge+NoisyTune79.386.573.563.279.976.876.7/61.071.9/53.665.4/45.673.0Fine-tune multilingual model on all training sets (Translate-Train-All)XLM-Rbase78.588.276.262.679.679.475.0/61.567.8/50.163.8/47.673.3XLM-Rbase+NoisyTune78.988.676.863.180.079.875.4/61.868.0/50.464.1/48.173.7XLM-Rlarge82.390.377.367.382.582.780.0/65.672.9/54.466.3/47.676.4XLM-Rlarge+NoisyTune82.590.577.867.982.983.080.4/66.173.3/54.966.8/48.276.8Table 2: Results of different methods on the XTREMRE test set.BERTXLNETRoBERTaELECTRA75.077.079.081.083.085.0GLUE Average Scorew/o noise+ global Gaussian noise+ global uniform noise+ matrix-wise Gaussian noise+ matrix-wise uniform noiseFigure 1: Inﬂuence of different noise types.pretraining tasks. Thus, properly perturbing PLMswith noise can explore different parameter spacesand meanwhile keep useful knowledge encoded inpretraining tasks.3.3Inﬂuence of Noise TypeNext, we study the inﬂuence of using differentkinds of noise on NoisyTune. We compare ﬁvemethods, including (1) basic method without noise;(2) Gaussian noise with a global distribution; (3)uniform noise with a global distribution; (4) matrix-wise Gaussian noise; (5) matrix-wise uniform noise.The results on GLUE are shown in Fig. 1. We ﬁndthat adding global noise with same distributions tothe PLM parameters will harm the model perfor-15172160.066.072.078.084.090.00检查点0准确率0BERT基础BERT基础+NoisyTune0图2：NoisyTune对微调的影响。0这是因为不同的参数矩阵具有非常不同的分布，简单地添加全局噪声是不合适的。此外，我们发现一个有趣的现象，即添加均匀噪声比使用高斯噪声更好。这可能是因为高斯噪声具有更大的范围，一些异常值可能会影响模型性能。因此，我们更喜欢在我们的NoisyTune方法中使用矩阵级别的均匀噪声。03.4 NoisyTune分析0然后我们分析NoisyTune对微调的影响。我们在MRPC数据集上展示了带有或不带有NoisyTune的BERT模型的准确率。0+v:mala2277获取更多论文0.00.20.40.60.81.01.21.4 -2 -101279.081.083.085.000 2 4 6 8 训练检查点0参数L1范数变化01e-6 MRPC00 1 2 3 4 5 6 7 8 训练检查点0参数L1范数变化01e-6 STS-B0query（无NoisyTune）query（有NoisyTune）0key（无NoisyTune）key（有NoisyTune）0value（无NoisyTune）value（有NoisyTune）0dense（无NoisyTune）dense（有NoisyTune）0all（无NoisyTune）all（有NoisyTune）0图3：微调过程中不同参数的L1范数的相对变化。0BERT XLNET RoBERTa ELECTRA 77.00GLUE平均分数0RecAdam RecAdam +NoisyTune Mixout Mixout+ NoisyTune0图4：NoisyTune可以通过与它们结合来增强许多PLM微调方法。0图2：两个相邻检查点之间的间隔为50次迭代。我们发现NoisyTune可以在不同的微调步骤中持续改善PLMs。这可能是因为扰动的PLMs在过拟合预训练任务方面风险较低，并且具有更好的泛化能力。为了进一步研究NoisyTune对模型微调的影响，我们在MRPC和STS-B上展示了BERT模型不同类型参数的L1范数的相对变化。由于我们添加的噪声是零均值的，绝对参数L1范数不会发生太大变化。然而，我们可以看到当应用NoisyTune时，L1范数的相对变化变小，这表明模型在收敛过程中采用了更小的步伐。这意味着直接微调PLMs可能需要更多的更新来适应下游任务，这可能是由于预训练任务的过拟合造成的。02 我们在其他数据集上观察到类似的现象。3在不同的数据集上，参数L1范数的演化可能会有所不同，而整体范数变化的规模通常会变小。0以及它们与下游任务之间的差距。我们的NoisyTune方法提供了一种简单的方法来缓解这个问题，以增强PLM微调。03.5 授权其他微调方法0我们的NoisyTune方法还有潜力增强其他PLM微调技术。我们比较了原始的RecAdam（Chen等，2020年）和Mixout（Lee等，2020年）方法及其与NoisyTune结合的变体的性能。结果如图4所示。我们发现将NoisyTune与现有的PLM微调技术结合可以进一步提高性能。这是因为NoisyTune旨在解决预训练信号的过拟合问题，而这些方法旨在防止下游任务的过拟合，因此它们可以通过NoisyTune来增强模型性能。04 结论0在本文中，我们提出了一种非常简单但有效的方法，名为NoisyTune，在微调之前向PLMs添加一些噪声，以提高从预训练任务到下游任务的可传递性。在NoisyTune中，我们提出了一种矩阵级扰动方法，根据PLMs中不同参数矩阵的方差添加不同强度的噪声，这可以考虑到不同类型参数的不同特征。在单语GLUE基准测试和多语言XTREME基准测试上进行了大量实验证明NoisyTune可以持续改善各种下游任务中不同PLMs的性能。0+v:mala2277获取更多论文0参考文献0Armen Aghajanyan, Akshat Shrivastava, AnchitGupta, Naman Goyal, Luke Zettlemoyer, and SonalGupta. 2021. 通过减少表示崩溃来改进微调. 在ICLR上.0Hangbo Bao, Li Dong, Furu Wei, Wenhui Wang, NanYang, Xiaodong Liu, Yu Wang, Jianfeng Gao, SonghaoPiao, Ming Zhou等. 2020. Unilmv2:伪掩码语言模型用于统一的语言模型预训练. 在ICML上,页码642-652. PMLR.0Sanyuan Chen, Yutai Hou, Yiming Cui, Wanxiang Che,Ting Liu, and Xiangzhan Yu. 2020. 回忆与学习:使用较少遗忘的方式微调深度预训练语言模型.在EMNLP上, 页码7870-7881.0Kevin Clark, Minh-Thang Luong, Quoc V. Le, andChristopher D. Manning. 2020. ELECTRA:将文本编码器作为判别器而不是生成器进行预训练.在ICLR上.0Alexis Conneau, Kartikay Khandelwal, Naman Goyal,Vishrav Chaudhary, Guillaume Wenzek, FranciscoGuzmán, Edouard Grave, Myle Ott, Luke Zettlemoyer,and Veselin Stoyanov. 2020.无监督的大规模跨语言表示学习. 在ACL上,页码8440-8451.0Alexis Conneau and Guillaume Lample. 2019.跨语言语言模型预训练. 在NIPS上, 卷32,页码7059-7069.0Jacob Devlin, Ming-Wei Chang, Kenton Lee, andKristina Toutanova. 2019. BERT:深度双向转换器的预训练. 在NAACL-HLT上,页码4171-4186.0Li Dong, Nan Yang, Wenhui Wang, Furu Wei,Xiaodong Liu, Yu Wang, Jianfeng Gao, Ming Zhou,and Hsiao-Wuen Hon. 2019.统一的语言模型预训练用于自然语言理解和生成.在NIPS上, 页码13063-13075.0Junjie Hu, Sebastian Ruder, Aditya Siddhant, GrahamNeubig, Orhan Firat, and Melvin Johnson. 2020.Xtreme:一个用于评估跨语言泛化能力的大规模多任务基准.在ICML上, 页码4411-4421. PMLR.0Haoyang Huang, Yaobo Liang, Nan Duan, Ming Gong,Linjun Shou, Daxin Jiang, and Ming Zhou. 2019.Unicoder:通过多语言跨任务预训练实现的通用语言编码器.在EMNLP-IJCNLP上, 页码2485-2494.0Haoming Jiang, Pengcheng He, Weizhu Chen,Xiaodong Liu, Jianfeng Gao, and Tuo Zhao. 2020.SMART:通过原则性正则化优化实现鲁棒且高效的预训练自然语言模型微调. 在ACL上, 页码2177-2190.0Yann LeCun, Yoshua Bengio, and Geoffrey Hinton.2015. 深度学习. 《自然》, 521(7553):436-444.0Cheolhyoung Lee, Kyunghyun Cho, and Wanmo Kang. 2020.Mixout: 一种有效的正则化方法用于微调大规模预训练语言模型.在ICLR上.0Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du,Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis,Luke Zettlemoyer, and Veselin Stoyanov. 2019.Roberta: 一种经过优化的鲁棒BERT预训练方法.arXiv预印本arXiv:1907.11692.0Xipeng Qiu, Tianxiang Sun, Yige Xu, Yunfan Shao,Ning Dai, and Xuanjing Huang. 2020.预训练模型在自然语言处理中的应用: 一项调研.《中国科学: 技术科学》, 页码1-26.0Adam Roberts, Colin Raffel, and Noam Shazeer.2020. 你能将多少知识装入语言模型的参数中?在EMNLP上, 页码5418-5426.0Alex Wang, Amanpreet Singh, Julian Michael, FelixHill, Omer Levy, and Samuel Bowman. 2018. GLUE:一个用于自然语言理解的多任务基准和分析平台.在BlackboxNLP上, 页码353-355.0Sinong Wang, Belinda Z Li, Madian Khabsa, Han Fang,and Hao Ma. 2020. Linformer:具有线性复杂度的自注意力.arXiv预印本arXiv:2006.04768.0Runxin Xu, Fuli Luo, Zhiyuan Zhang, Chuanqi Tan,Baobao Chang, Songfang Huang, and Fei Huang.2021. 在大型语言模型中培养一个孩子:迈向有效和可推广的微调. 在EMNLP上, 页码9514-9528.0Zhilin Yang, Zihang Dai, Yiming Yang, JaimeCarbonell, Russ R Salakhutdinov和Quoc V Le. 2019.XLNet：用于语言理解的广义自回归预训练。在NeurIPS中，页码5753-5763。0Yisong Yue和Thorsten Joachims. 2009.交互式优化信息检索系统作为对决式多臂老虎机问题。在ICML中，页码1201-1208。0Tianyi Zhang, Felix Wu, Arzoo Katiyar, Kilian QWeinberger和Yoav Artzi. 2021.重新审视少样本BERT微调。在ICLR中。0Bo Zheng, Li Dong, Shaohan Huang, Wenhui Wang,Zewen Chi, Saksham Singhal, Wanxiang Che, Ting Liu,Xia Song, and Furu Wei. 2021a.一致性正则化用于跨语言微调。在ACL-IJCNLP中，页码3403-3417。0Bo Zheng, Li Dong, Shaohan Huang, Wenhui Wang,Zewen Chi, Saksham Singhal, Wanxiang Che, Ting Liu,Xia Song, and Furu Wei. 2021b.一致性正则化用于跨语言微调。在ACL中，页码3403-3417。0+v:mala2277获取更多论文0.000.050.100.150.200.250.3075.077.079.081.083.085.00A 附录0A.1 实验环境0我们的实验在一台云Linux服务器上进行，使用Ubuntu 16.04操作系统。代码使用Python3.8.10编写，使用pytorch框架1.9.0和最新的huggingface transformers库。GPU类型为NvidiaTeslaA100，具有40GB的GPU内存，我们使用8个GPU进行并行实验。0A.2 超参数设置0我们工作中超参数的搜索范围列在表3中。0超参数范围0学习率{7e-6，1e-5，2e-5，3e-5}，迭代轮数{3，5，7，10，15，20}，批量大小{8，16，32}，噪声强度{0，0.05，0.1，0.15，0.2，0.25，0.3}0表3：我们实验中不同超参数的搜索范围。0A.3 超参数分析0我们研究了相对噪声强度λ对模型性能的影响。平均0GLUE得分与不同λ值的关系显示在图5中。我们发现，当λ的值在0.1和0.15之间时，性能提升最大。这表明较小的噪声尺度无法有效地探索良好的参数空间，而较大的噪声尺度也会导致性能不佳，因为预训练阶段的编码知识变得不准确。0GLUE平均得分0BERTXLNETRoBERTaELECTRA0图5：噪声强度λ的影响。0+v:mala2277获取更多论文

下载后可阅读完整内容，剩余1页未读，立即下载