灵活的BERT多任务框架：迭代开发与资源节约

187 浏览量更新于2023-12-01 收藏 1.13MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文一种灵活的BERT服务田文魏剑伟齐胜桓何小米，XiaoAI团队{weitianwen,qijianwei,heshenghuan}@xiaomi.com摘要我们提出了一个有效的基于BERT的多任务（MT）框架，特别适合于迭代和增量开发的任务。建议的框架是基于部分微调的想法，即。只微调BERT的一些顶层，而保持其他层冻结。对于每个任务，我们使用部分微调独立训练单任务（ST）模型。然后利用知识蒸馏法对每个ST模型中的这些压缩的ST模型最后被合并到一个MT模型中，使得前者的冻结层在任务之间共享。我们在8个GLUE任务上验证了我们的方法，证明它能够实现完全微调方法的99.6%的性能，同时减少高达三分之二的开销。1介绍在这项工作中，我们探索 BERT 的策略（Devlin et al. ，2019）在以下两个约束下服务于多个任务：1）存储器和计算资源是有限的。在移动电话等边缘设备上，这通常是一个硬约束。在本地GPU站和基于云的服务器上，这个约束并不那么困难，但仍然需要减少计算开销以降低服务成本。2)预计这些任务将是模块化的，并经常更新。当一个任务被更新时，系统应该能够快速适应任务修改，使得其他任务不受影响。这是迭代和增量开发下应用程序（例如AI助手）的典型情况。BERT的服务原则上有两种策略：单任务服务和多任务服务。在单任务服务中，为每个任务训练和部署一个独立通常，这些模型是通过微调平等贡献。它们是预先训练好的BERT的副本，并且彼此完全不同。单任务服务具有灵活和模块化的优点，因为任务模型之间没有依赖性。缺点是它在内存使用和计算方面的效率低下，因为参数和计算都没有在任务之间共享或重用在多任务服务中，一个单一的多任务模型被训练和部署用于所有任务。该模型通常使用多任务学习（MTL）进行训练（Caruana，1997;Ruder，2017）。与单任务服务器相比，多任务服务器的计算效率更高，并且由于其共享机制而占用的内存更少。然而，它的缺点在于，对一个任务进行的任何修改通常会影响其他任务。本文的主要贡献是提出了一个BERT服务的框架，该框架能够同时实现单任务服务的灵活性我们的方法是基于部分微调的思想，即根据任务只微调BERT的一些最顶层，并保持其余的底层冻结。微调的层是特定于任务的，可以在每个任务的基础上更新。底部的冻结层扮演特征提取器的角色，可以在任务之间共享。2相关工作使用BERT的标准做法是微调，即，在下游任务的训练语料库上调整整个模型参数，使得模型适合于该特定任务（Devlin etal. ，2019）。还有一种替代的基于特征的方法，由ELMo使用（Peterset al. ，2018）。在后一种方法中，预训练模型被视为具有冻结参数的特征提取器。在下游任务的学习过程中，我们提供了一个固定的或可学习的组合，arXiv：2107.05377v2 [cs.CL] 2022年3+v：mala2277获取更多论文不∈TLQNLIRTEQQPMNLISST-2MRPC可乐STS-B185.960.386.177.191.677.238.784.8288.363.588.380.891.980.640.086.1389.965.389.082.591.284.645.387.3490.769.089.783.392.084.348.6八十八点二5九十一点零七十一点五90.184.092.2八十九点七51.3八十八点三6九十一点二七十一点一九十点三八十四点二九十三点一86.853.186.47九十一点三70.0九十点五八十三点九九十三点零87.551.5八十八点六8九十一点五70.890.6八十四点五九十二点八88.0五十五点二八十八点九9九十一点六70.8九十点七84.0九十二点五87.7五十四点七八十八点八10九十一点七69.7九十一点一八十四点五九十三点零87.3五十五点零八十八点七11九十一点七70.4九十一点一八十四点五九十三点一88.2五十四点七八十九点一12九十一点六69.7九十一点一八十四点六九十三点四88.2五十四点七八十八点八表1：通过部分微调获得的GLUE数据集的Dev结果。参数L表示微调的Transformer层的数量。对于每个数据集和每个L值，我们总是使用不同的初始化运行实验5次，并报告获得的每列中的最佳结果以粗体突出显示。阴影数字表示它们达到了该列最佳结果的99%。可以看出，虽然微调更多层通常会导致更好的性能，但这样做的好处会减少回报。也许令人惊讶的是，对于RTE、MRPC和CoLA，是部分微调，大约一半的层被冻结，得到了最好的结果。将模型已经表明，微调方法在任务性能方面通常优于BERT的基于特征的方法（Devlin etal. ，2019; Peters et al. ，2019）。这两种方法之间的自然中间地带是部分微调，即。只微调BERT的一些最顶层，同时保持其余的底层冻结。这种方法已经在（ Houlsby et al. ， 2019; Merchantet al. ，2020），其中作者观察到仅微调顶层几乎可以实现对几个GLUE任务进行完全微调的性能。局部微调的方法本质上是将BERT的底层视为特征提取器。冻结底层的权重是一个明智的想法，因为之前的研究表明，BERT产生的中间层表示是最可转移的，而顶层表示更面向任务（Wang et al. ，2019a; Tenney et al. ，2019b，a; Liu et al. ，2019a; Merchant et al. ，2020）。值得注意的是，Merchant et al. （2020）表明，微调主要影响顶层的权重，而底层的权重不会改变太多。 Liu等人（2019年a）表明，使用在BERT的冻结中间层表示上训练的线性模型，可以在许多探测任务上实现3方法在下文中，我们用所有目标任务的集合来表示我们总是使用BERT的12层未封装版本作为预训练的语言模型1。所提出的框架具有由三个步骤组成的管道（图1）：1）单任务部分微调; 2）单任务知识蒸馏;3) 模型合并。我们在下面详细介绍这些步骤。3.1单任务部分微调在第一步中，我们为每个任务部分微调BERT的独立副本要微调的确切层数L是一个超参数，并且可以在任务之间变化我们建议在Nmin≤L≤Nmax范围内对每个任务进行不同L值的实验，并选择一个提供最佳验证性能的任务。施加搜索范围[Nmin，Nmax]的目的是保证最小程度的参数共享。在接下来的GLUE任务实验中（见4.3节），我们设置Nmin= 4，Nmax=10。这一步产生了一个单任务模型的集合，如图1（a）所示。我们将把它们称为单任务教师模型，因为它们是知识的提炼，以进一步减少复杂性和计算开销。3.2单任务知识蒸馏由于任务之间没有交互，因此可以为每个任务单独执行知识提取（KD）过程原则上，BERT的任何现有 KD 方法（ Wang et al. ， 2020;Aguilar et al. ，2020; Sun et al. ，2019a; Jiaoetal. ，2020; Xu et al. ，2020a）适合我们的需要。在初步实验中，我们发现，只要学生模型被正确初始化，香草知识蒸馏（ Hinton etal. ，2015年）可以像那些更复杂的方法一样高效。假设任务τ的教师模型在顶部包含L（τ）个微调层，在底部包含12 − L（τ）个冻结层。我们的目标是1模型检查点从https下载：//storage.googleapis.com/bert_models/2018_10_18/uncased_L-12_H-768_A-12.zip。+v：mala2277获取更多论文任务1f. t.层12任务2f. t.层12任务1任务2任务1f. t.层11f. t.层10f. t.层9f. t.层8f. t.层7f. t.层6f. t.层5层4层3层2层1f. t.层11f. t.层10f. t.层9层8层7层6层5层4层3层2层1K.D.合并(a) 教师模型（b）学生模型（c）最终多任务模型图1：所提出的方法的流水线。(a)对于每个任务，我们单独训练一个特定于任务的模型，并进行部分微调，即只更新预训练模型的一些最顶层（蓝色和红色块）的权重，而其余部分保持冻结（灰色块）。（b）我们在教师模型的任务特定层上为每个任务独立地执行知识蒸馏(c)学生模型被合并到一个MT模型中，以便可以共享前者的冻结层。以将前者压缩成更小的l（τ）层模块。所提出的初始化方案非常简单：我们使用教师相应层的权重初始化学生模型更准确地说，让Ns表示学生中的层数（包括冻结层和任务特定层），其中Ns12。我们建议从教师的最底层N层初始化学生类似的方法也已用于（Sanh et al. ，2019年），其中学生通过从教师处取出两层中的一层来初始化。l（τ）的值，即任务τ的学生模型中特定于任务的层数，决定了该任务的最终内存和3.3模型融合在最后一步中，我们将单任务学生模型合并为一个多任务模型（图1（c）），以便可以共享冻结层为了实现这一点，将权重从多个模型检查点加载到一个计算图中就足够了。4实验在本节中，我们将我们的模型的性能和效率与八个GLUE任务的各种基线进行比较（Wanget al. ，2019 b）。有关这些任务的更多详细信息，请参见附录A。4.1度量除CoLA和STS-B外，GLUE任务的性能指标均准确。我们对CoLA使用Matthews相关，对STS-B使用Pearson相关。为了测量参数和计算效率，我们引入了为所有八个任务执行推理所需的转换器层的对于在我们的实验中研究的模型，实际的内存使用和计算开销是近似线性的关于这个数字。它在表2的标题中被命名为4.2基线基线模型/方法可分为4类：没有KD的任务在这一类别中只有一种方法，即单个任务完全微调的标准实践，为每个任务创建单独的与KD的单一任务。这类方法为每个任务建立单独的模型，但采用一定的知识提取方法将每个任务模型压缩成6层模型。KD方法包括（Hinton et al. ，2015; Xu等人，2020b; Sanh etal. ，2019; Turc et al. ，2019; Sunet al. ，2019b;Jiao et al. ，2020; Wang等人，2020）。多任务学习。该类别包括两个版本的MT-DNN（Liuet al. ，2019b，2020），这两个都产生一个单一的多任务模型。1)MT-DNN（完整）针对所有八项任务进行联合训练任务2蒸馏层蒸馏层蒸馏层蒸馏层蒸馏层蒸馏层蒸馏层层8层7层6层5层4层3层2层1层4层3层2层1蒸馏层蒸馏层蒸馏层层8层7层6层5层4层3层2层1+v：mala2277获取更多论文×QNLIRTEQQPMNLISST-2MRPC可乐STS-BAvg.层开销全微调九十一点六六十九点七九十一点一八十四点六九十三点四八十八点二五十四点七八十八点八八十二点八12 ×896（100%）DistillBERT[b]Vanilla-KD[c]PD-BERT[d]BERT-PKD[e]BERT-of-Theseus[f]TinyBERT[g] MiniLM[h]89.288.089.088.489.5九十点五88.459.964.966.766.568.2七十二点二66.588.588.189.188.489.690.688.482.280.183.081.382.383.581.391.390.591.191.391.591.691.3八十七点五86.287.285.7八十九点零八十八点四85.751.345.1- 四十五点五51.142.845.586.984.9-86.2八十八点七-86.279.678.5-79.281.2-79.26 ×86 ×86 ×86 ×86 ×86 ×86 ×848人（50.0%）48人（50.0%）48人（50.0%）48人（50.0%）48人（50.0%）48人（50.0%）48人（50.0%）MT-DNN（full）[j]MT-DNN（LOO）[k]九十一点一69.7八十点九60.687.666.5八十四点四56.7九十三点五79.2八十七点四74.251.310.286.872.9八十二点九-12 ×1-12人（12.5%）-我们的（KD-1）我们的（KD-2）我们的（KD-3）86.488.690.266.164.666.8九十一点零九十一点三九十一点二77.581.782.990.7九十二点七九十二点七85.186.388.036.444.050.088.3八十八点六八十八点九77.479.781.37+1×87+2×87+3×815人（15.6%）23人（24.0%）31人（32.3%）我们的（不含KD）九十一点七（2，10）七十一点五（7，5）九十一点一（2，10）八十四点五（四、八）九十三点一（6，6）八十九点七（7，5）五十五点二（四、八）八十八点九（四、八）八十三点二7+ 6067人（69.8%）我们的（混合）90.2（二、三）七十一点五（7，5）九十一点零（2，1）82.9（4，3）九十二点七（6，2）88.0（7，3）五十五点二（四、八）八十八点三（4，1）八十二点五7+ 2633人（34.3%）表2：我们的方法和各种基线之间的性能和开销比较（更多细节请参见第4.2在开发集上评估性能为了获得标记为“我们的”的结果每列中的最佳结果以粗体突出显示。阴影数字表示它们达到了完全微调基线的99%结果[b]来自Sanh et al. ，2019）;[c]-[f]来自（Xu et al. ，2020 b）;[g]-[h]来自（Wang et al. ，2020）;[j]-[k]由我们用来自（Liu et al. ，2020）。圆括号（x，y）表示合并之前的底层任务模型由x个冻结层和y个特定于任务的层（微调或知识提取）组成在“层”列中，符号7 + 2 8意味着在最终的多任务模型中，8个任务中的每个任务有7个共享冻结层和2个任务特定层。它对应于所有任务都事先已知的理想场景。2)MT-DNN（LOO），其中该模型在7个可用任务上进行联合然后，使用冻结的预训练权重来训练“未知”任务的输出层灵活的多任务。我们的模型在各种效率约束下。我们的（w/o KD）意味着没有知识蒸馏应用于任务模型。根据第3.1节中描述的标准选择每个任务的微调层的数量。我们的（KD-n）意味着应用知识蒸馏，使得每个任务的学生模型包含正好n个特定于任务的层。对于Ours（混合），我们根据向任务添加更多层的边际效益（就任务性能指标而言）来确定每个任务的特定于任务的层的更准确地说，对于每个任务，我们不断添加任务特定的层，只要这样做的边际效益不小于预定阈值c。在表2中，我们报告了c=1的结果。0。结果与+v：mala2277获取更多论文c的其他值可以在附录D中找到。4.3结果结果总结于表2中。从表中可以看出，所提出的方法Ours（混合）优于所有KD方法，同时更有效。与单任务完全微调基线相比，我们的方法减少了约三分之二的总开销，同时实现了99.6%的性能。我们观察到MT-DNN（完整）以最低的开销实现了最佳的平均性能。然而，它的性能优势主要来自于对单个任务（RTE）的一次大的提升，而不是对所有任务的一致改进。事实上，我们看到由于任务干扰，MT-DNN（完整）在QQP和STS-B上的性能下降，这是 MTL 的一个已知问题（ Caruana ， 1997;Bingel和Sogaard，2017; Alonso和Plank，2017;Wu等人。，2020）。从我们的角度来看，MT-DNN的最大缺点是它假设提前完全了解所有目标任务。从MT-DNN（LOO）的结果中，我们观察到MT-DNN在HAN中有困难+v：mala2277获取更多论文如果模型不允许重新训练，则执行新任务。5讨论5.1优势所提出的架构的一个主要优点是其灵活性。首先，不同的任务可以被馈送来自BERT的不同层的表示，其封装了不同级别的语言信息（Liuet al. ，2019 a）。这种灵活性有利于任务性能和效率。例如，在QQP上，我们实现了91.0的准确度，仅用一个特定于任务的层（连接到冻结主干模型的第二第二，我们的体系结构明确允许将不均衡的资源分配给不同的任务。我们在任务之间重新分配了资源（混合），从而提高了性能和效率。第三，我们的框架不损害系统的模块化设计。该模型可以在每个任务的基础上直接更新。5.2限制我们的方法的主要限制是，对于每个下游任务，与传统方法相比，尽管成本在实践中可以说是可控的即在单个Nvidia Tesla V100 GPU上，每个任务通常需要2或3天，因此不应忽视过度的计算负载。另一个限制是，虽然整体计算开销减少，但我们的模型的服务延迟随着任务数量的增加而恶化，并且最终可能比单个任务基线更差。这是因为在推理过程中，直到模型完成了所有任务的计算，才能得到任何一个任务的在这方面，我们的方法可能不适合那些需要非常低的服务延迟的应用，例如。be-低10 ms。尽管如此，我们在附录E中报告了一个工业用例，其中我们的多任务模型服务于21个任务，同时实现了低至32 ms（第99百分位数）的延迟5.3与基于适配器的方法的基于适配器的方法（Houlsby et al. ，2019;Pfeiffer et al. #20200;属于另一个？这类微调方法也是参数有效的。基本上，基于适配器的方法为每个下游任务引入一个可训练的任务特定的“适配器”模块。这个模块通常是轻量级的，只包含几个参数，并插入到骨干模型（例如BERT）的层之间（或层然而，即使骨干模型的参数可以在任务之间共享，由于每个任务模型中的内部数据流被特定于任务的适配器修改的事实，用于推理的计算不能。因此，基于适配器的方法在计算上不是高效的，并且需要为每个任务执行单独的完全前向传递。由于参数和计算效率都是我们的目标，基于适配器的方法无法与我们的方法相比。6结论我们已经提出了我们的框架，旨在提供高效和灵活的基于BERT的多任务服务。我们已经在八个GLUE数据集上证明了所提出的方法具有很强的性能和效率。我们发布了代码2，希望它能在成本敏感的应用中促进BERT引用Gustavo Aguilar，Yuan Ling，Yu Zhang，BenjaminYao，Xing Fan，and Chenlei Guo.2020. 从内部表征中提炼知识。在第三十四届AAAI人工智能会议，AAAI 2020，第三十二届人工智能创新应用会议，IAAI 2020，第十届AAAI人工智能教育进展研讨会，EAAI 2020，美国纽约州纽约市，2020年2月7日至12日，第73507357. Press.赫克托·阿隆索和芭芭拉·普兰克。2017. 什么时候多任务学习是有效的？在变化的数据条件下的语义序列预测。在计算语言学协会欧洲分会第15次会议的会议记录中：2001 - 2011，长文，第44-53页，西班牙巴伦西亚。计算语言学协会。Luisa Bentivogli ， Peter Clark ， Ido Dagan ， andDanilo Giampiccolo. 2009年pascal第五章认识文本蕴涵的挑战。在战术小组。Joachim Bingel和Anders Sogaard。2017. 识别多任务学习的有益任务关系2https://github.com/DandyQi/CentraBert+v：mala2277获取更多论文深度神经网络。在计算语言学协会欧洲分会第15次会议的会议记录中，第164-169页，瓦伦西亚，西班牙。计算语言学协会。瑞奇 · 卡鲁阿纳 1997. 多任务学习。 MachineLearning，28（1）：41-75. 00000。Daniel Cer 、 Mona Diab 、 Eneko Agirre 、 IñigoLopez-Gazpio 和 Lucia Specia 。 2017. SemEval-2017任务1：语义文本相似性多语言和跨语言重点评估。在第 11 届语义评估国际研讨会（SemEval-2017）中，第1计算语言学协会。Z. Chen，H. Zhang，X. Zhang和L.赵2018. QuoraQuestion Pair。Jacob Devlin，Ming-Wei Chang，Wendon Lee，andKristina Toutanova. 2019. BERT：语言理解的深度双向转换器的预训练。在计算语言学协会北美分会2019年会议论文集：人类语言技术，第1卷（长论文和短论文），第4171-4186页，明尼阿波利斯，明尼苏达州。计算语言学协会。William B.多兰和克里斯·布洛克特。2005. 自动构建一个语义释义语料库。第三届释义国际研讨会（IWP2005）。杰弗里·辛顿，奥里尔·维尼亚，杰弗里·迪恩. 2015.在神经网络中提取知识。在NIPS深度学习和表示学习研讨会上。NeilHoulsby ， AndreiGiurgiu ， StanislawJastrzebski ， BrunaMorrone ， QuentinDeLaroussilhe，AndreaGesmundo，MonaAttariyan，and Sylvain Gelly. 2019. NLP的参数有效迁移学习。第36届国际机器学习会议论文集，机器学习研究论文集第97卷，第2790-2799页。PMLR。Xiaoqi Jiao ， Yichun Yin ， Lifeng Shang ， XinJiang，Xiao Chen，Linlin Li，Fang Wang，andQun Liu. 2020. TinyBERT：提炼BERT以实现自然语言理解。在计算语言学协会的调查结果：EMNLP 2020，第4163-4174页，在线。计算语言学协会。海克特·莱韦斯克，欧内斯特·戴维斯，还有利奥拉·摩根·斯特恩. 2012. winograd schema挑战第十三届国际知识表示与推理。纳尔逊F。放大图片创作者：John W. Peters，andNoah A.史密斯2019年a。语言知识与语境表示。在2019年计算语言学协会北美分会会议论文集：人类语言技术，第1卷（长和短纸张），第1073-1094页，明尼苏达州明尼阿波利斯市。计算语言学协会。刘晓东，何鹏程，陈伟柱，高剑锋. 2019年b. 用于自然语言理解的多任务深度神经网络。计算语言学协会第57届年会论文集，第4487-4496页，意大利弗洛朗斯。计算语言学协会。Xiaodong Liu，Yu Wang，Jianshu Ji，Hao Cheng，Xueyun Zhu，Emmanuel Awa，Pengcheng He，Weizhu Chen，Hoifung Poon，Guihong Cao，andJianfeng Gao. 2020. 微软用于理解自然语言的多任务深度神经网络工具包。在计算语言学协会第58届年会的会议记录中：系统演示，第118-126页，在线。计算语言学协会。Amil Merchant，Elahe Rahimtoroghi，Ellie Pavlick和Ian Tenney。2020. BERT在微调时会发生什么？在第三届BlackboxNLP研讨会上分析和解释NLP神经网络，第33-44页，在线。计算语言学协会。Matthew Peters ， Mark Neumann ， Mohit Iyyer ，Matt Gardner，Christopher Clark，Wendon Lee，and Luke Zettlemoyer. 2018. 深层语境化的词表示。在2018年计算语言学协会北美分会会议论文集：人类语言技术，第1卷（长文），第2227-2237页计算语言学协会。马修·E Peters，Sebastian Ruder，and Noah A.史密斯2019. 调还是不调？使预先训练的表示适应不同的任务。在第四届NLP表示学习研讨会（RepL4 NLP-2019）的进行中，第7-14页，意大利弗洛朗斯。计算语言学协会。Jonas Pfeiffer，Andreas Rücklé，Clifton Poth，Aish-waryaKamath，Iv anVulic' ，SebastianRuder，KyunhyunCho，和IrynaGurevych.2020.AdapterHub：一个用于适配transformer的框架。在2020年自然语言处理中的EM-pesticide方法会议论文集：系统演示，第46-54页，在线。计算语言学协会。Alec Radford，Karthik Narasimhan，Tim Salimans和Ilya Sutskever。2018.通过生成性预训练提高语言理解能力。PranavRajpurkar ， JianZhang ， KonstantinLopyrev，and Percy Liang.2016. Squad ：100，000+文本机器理解问题。+v：mala2277获取更多论文塞巴斯蒂安·鲁德 2017. 深度神经网络中的多任务学习概述。CoRR，绝对值/1706.05098。Victor Sanh，Lysandre Debut，Julien Chaumond，and Thomas Wolf. 2019. Distilbert 是 bert的精简版：更小、更快、更便宜、更轻。CoRR，绝对值/1910.01108。Richard Socher，Alex Perelygin，Jean Wu，JasonChuang，Christopher D. Manning，Andrew Ng，and Christopher Potts. 2013. 情感树库递归深度模型。在 Proceedings of the 2013 Conference onEmpiricalMethodsinNaturalLanguageProcessing，第1631-1642页，西雅图，华盛顿，美国。计算语言学协会。Siqi Sun ， Yu Cheng ， Zhe Gan ， and JingjingLiu.2019年a。BERT模型压缩的患者知识提取。在2019年自然语言处理经验方法会议和第九届自然语言处理国际联合会议（EMNLP-IJCNLP）的会议中，第4323-4332页，中国香港。计算语言学协会。Siqi Sun ， Yu Cheng ， Zhe Gan ， and JingjingLiu.2019年b. BERT模型压缩的患者知识提取。在2019年自然语言处理经验方法会议和第九届自然语言处理国际联合会议（EMNLP-IJCNLP）的会议中，第4323-4332页，中国香港。计算语言学协会。伊恩·坦尼，迪潘詹·达斯，艾莉·帕夫利克. 2019年a 。 BERT 重新发现了经典的 NLP 管道。在Proceedings of the 57th Annual Meeting of theAssociation for Computational Linguistics ，pages4593计算语言学协会Ian Tenney ， Patrick Xia ， Berlin Chen ， AlexWang ， Adam Poliak ， R Thomas McCoy ，Najalam Kim ， Benjamin Van Durme ， SamBowman，Dipanjan Das，and Ellie Pavlick.2019年b. 你从上下文中学到了什么？在语境化的词表示中探索句子结构。在学习表征上。Iulia Turc ， Ming-Wei Chang ， Wendon Lee ， andKristina Toutanova.2019. 读得好的学生学得更好：关于预训练紧凑模型。作者：王立军，杨胡拉，夏志华，拉哈文德拉·帕帕加里， R. Thomas McCoy ， Roma Patel ，Najalan Kim ， Ian Tenney ， Yinghui Huang ，Katherin Yu ， Shuning Jin ， Berlin Chen ，Benjamin Van Durme ， Edouard Grave ， ElliePavlick，and Samuel R.弓箭手。2019年a。你能告诉我怎么过芝麻街吗？超越语言建模的高级预训练。在计算语言学协会第57届年会的会议记录中，第4465-4476页，意大利佛罗伦萨。计算语言学协会。亚历克斯·王，阿曼普利特·辛格，朱利安·迈克尔，费-里克斯·希尔，奥默·利维和塞缪尔·鲍曼。2018. GLUE：一个用于自然语言理解的多任务基准测试和分析平台。在2018年EMNLP研讨会Black- boxNLP：分析和解释NLP的神经网络，第353-355页，比利时布鲁塞尔。计算语言学协会。Alex Wang ， Amanpreet Singh ， Julian Michael ，Felix Hill，Omer Levy，and Samuel R Bowman.2019年b. Glue：用于自然语言理解的多任务基准测试和分析在第七届国际学习表征会议上，ICLR 2019。Wenhui Wang，Furu Wei，Li Dong，Hangbo Bao，Nan Yang，and Ming Zhou. 2020. Minilm：深度自我注意蒸馏，用于预训练变压器的。在神经信息处理系统的进展33：神经信息处理系统2020年年会，NeurIPS 2020，2020年12月6日至12日，虚拟。A. Warstadt，A. Singh和S. R.鲍曼2018.语言可接受性的核心。Adina Williams ， Nikita Nangia ， and SamuelBowman. 2018. 一个广泛覆盖的挑战语料库的句子理解通过推理。在计算语言学协会北美分会2018年会议的继续：人类语言技术，第1卷（长文），第1112-1122页，新奥尔良，路易斯安那州。计算语言学协会。Sen Wu，Hongyang R Zhang，and Christopher Ré.2020.理解和改善多任务学习中的信息传递。arXiv预印本arXiv：2005.00944。徐灿文、周望春树、陶戈、魏福如、周明。2020年a。BERT-of-theseus：用逐步模块替换的方法压缩BERT。在2020年自然语言处理经验方法会议（EMNLP）中，第7859计算语言学协会徐灿文、周望春树、陶戈、魏福如、周明。2020年b。BERT-of-theseus：用逐步模块替换的方法压缩BERT。在2020年自然语言处理经验方法会议（EMNLP）中，第7859计算语言学协会+v：mala2277获取更多论文≤∈T≤≤补充材料A关于胶水任务GLUE基准测试包括以下数据集：• QNLI（QuestionNaturalLanguageInference）数据集来源于（Rajpurkaretal. ，2016）。这是一个二元分类任务，其中一个例子是（问题，句子）的形式，目标是预测句子是否包含对问题的正确回答（Wang et al. ，2018）。• RTE（RecognizingTextualEndailment）。一个类似于MNLI的二元蕴涵任务，但训练数据要少得多（Bentivogli et al. ，2009）。• QQP（Quora Question Pairs）是一种二元分类任务，其目标是确定Quora上提出的两个问题在语义上是否等价（Chen etal. ，2018）。• MNLI （ Multi-Genre Natural LanguageInference）。给定一对句子，目标是预测第二个句子相对于第一个句子是否是蕴涵、矛盾或中性（ Williams et al. ，2018）。• 斯坦福情绪树库（ Stanford SentimentTreebank）一个二进制单句分类任务，其目标是预测电影评论的情感（积极或消极）（Socheret al. ，2013）。• MRPC（微软研究院释义核心）。一个二元分类任务，其目标是预测两个句子在语义上是否等价（ Dolan 和 Brockett ，2005）。• 语言可接受性语料库（ Corpus ofLinguistic Acceptability）一个二元单句分类任务，其目标是预测一个英语句子在语言学上是否“可接受”（Warstadt et al. ，2018）。• STS-B（语义文本相似性基准）。一个回归任务，其目标是预测两个句子在语义意义方面是否相似，如通过1到5的分数所测量的（Cer et al. ，2017年）。• WNLI（Winograd NLI）.该数据集来自（Levesque et al. ，2012）。我们在我们的实验中排除了这个任务，遵循（Devlinet al. ，2019; Radfordet al. ，2018）。数据集火车DevQNLI108k5.4kRTE2.5k0.3kQQP363K40kMNLI392k9.8kSST-267k0.8kMRPC3.5k0.4k可乐8.5k1.0kSTS-B5.7k1.5k表3：GLUE数据集中用于训练和开发的示例数量B超参数本文提出的方法为每个任务τ引入了两个新的超参数，即教师的微调层数L（τ）和学生的知识提取层数l（τ）。如果资源允许，这两个超参数应该为每个任务单独调优。如3.1节所介绍的，我们建议将L限制在4L（τ）10的范围内。至于确定最终任务特定开销的l（τ），我们施加l（τ）3。由于我们总是首先确定L（τ），因此我们不需要对（L（τ），l（τ））的每个组合进行实验。将这些结合在一起，我们的方法需要大约10倍的训练时间（L为7，L为3），而传统的全微调方法。在我们的实验中使用的常规超参数（例如，学习速率、小批量大小等）总结在表4中。C详细实验结果在上面图2的箱形图中，我们报告了从预训练的BERT和教师初始化的学生模型可以清楚地看到，后一种初始化方案通常优于前一种此外，我们还观察到，虽然增加特定于任务的层的数量可以提高性能，但这样做的边际效益在不同的任务之间是不同的+v：mala2277获取更多论文超参数值学习率2 e-5批量大小32时期3、4、5优化者亚当重量衰减率0.01β10.9β20.999E1e-6表4：我们实验中使用的超参数。我们主要遵循（Devlin et al. ，2019）。值得注意的是，对于QQP和STS-B，只有一个特定任务层的学生模型能够达到教师表现的99%。D性能-效率权衡在图5中，我们报告了我们的方法在不同c值下的性能，其中c被定义为每个任务特定层应该带来的最小边际效益（根据任务性能度量）（见第4.2节）。E工业应用我们已经在小AI的话语理解应用中实现了我们的框架，小米开发的单语言（中文）商业AI助手我们灵活的多任务模型构成了话语理解系统的主体，该系统每天处理超过1亿个用户查询，峰值吞吐量接近每秒 4000 个查询（QPS）。对于每个用户查询，话语理解系统执行各种任务，包括情感识别，不连贯检测，域分类，意图分类，命名实体recog-nation，插槽填充等，由于工作量大，这些任务是由许多不同的团队开发和维护由于AI助手本身处于迭代/增量开发中，其话语理解系统经历频繁更新3：• 更新训练语料库，例如，当新的训练样本变得可用或一些错误标记的样本被纠正或删除时。[3]对于任何特定的任务来说，不一定是频繁的，但是如果我们把系统看作一个整体的话，它是普遍频繁的。• 重新定义现有任务。例如，当需要更细粒度的意图分类时，我们可能需要重新定义现有的意图标签或引入新的标签。• 引入新任务。当AI助

下载后可阅读完整内容，剩余1页未读，立即下载