神经语言模型中的预训练与微调：方法和理论分析

164 浏览量更新于2023-11-30 收藏 595KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文神经语言模型DavidGrangierGoogle，Mountain View，CAgrangier@google.com丹·伊特尔加利福尼亚州帕洛阿尔托市斯坦福大学daniter@stanford.edu摘要这项工作将语言模型自适应与机器学习理论的概念我们考虑具有大的域外集和小的域内集的训练设置。我们推导出在任一集合上训练模型的好处如何取决于集合的大小和它们的底层分布之间的距离。我们分析了在域内微调之前的域外预训练如何比任何一种解决方案都独立地实现更好的泛化。最后，我们提出了如何适应技术的基础上的数据选择，如重要性抽样，智能数据选择和影响力的功能，可以在一个共同的框架，突出他们的相似性，也是他们的细微差别。1介绍在大型通用训练集上训练的神经语言模型（LM）-超过十亿句（Kaplan et al. ，2020年;Roziewski和Kozoburowski，2021年）-已被证明在适应语言建模和其他下游任务的更小，特定的目标领域方面是有效的（Bommasani等人，2012年）。，2021年）。神经LM适应通常通过精细调谐来执行（Devlin等人，，2018; Liu etal. ，2019; Raffelet al. ，2019; Radford et al. ，2019），数据选择（ van der Wees et al. ，2017）或它们的组合（Wang et al. ，2018;Aharoni and Goldberg ， 2020; Gururangan etal. ，2020）。然而，预训练数据的微调和重新加权之间的权衡还没有得到很好的理解，需要一个理论框架来推理这些方法的泛化性能在本文中，我们将语言模型自适应与机器学习理论的概念联系起来。我们的推导支持过去的经验观察：已经观察到，域外预训练集的大小对于在Google实习期间完成的工作域泛化（Raffel et al. ，2019; Devlinet al. ，2018年），或者域适应在预训练数据中很好地表示的域上更有效（ Radford et al. ，2019）。我们的研究考虑了一个训练设置与一个大的域外集和一个小的域内集。作为第一个贡献，我们得出了在任一集合上训练模型的好处如何取决于集合的大小和它们的底层分布之间的距离我们还揭示了微调如何被视为一种正则化方法，可以实现比仅在任一集合上训练更好的权衡。LM自适应的数据选择研究主要来自智能选择（ Moore 和 Lewis ， 2010; Axelrod 等人，2011）。，2011）。该方法检查域外训练数据，以强调被域内模型认为比域外模型更可能的子集。虽然直观，这种方法与统计估计的联系是不明确的，这使得研究其对概括误差的影响变得另一类选择方法源于影响函数（ Koh 和 Liang ， 2017; Wang 等人，2017）。，2021），其估计来自域外训练示例的模型更新是否与域内更新对齐。这种方法更有原则性，其对泛化误差的影响也更容易研究。在这项工作中，作为第二个贡献，我们展示了如何智能选择和影响函数的方法是连接在神经LM的情况特别是，我们证明了它们都可以从重要性抽样（Owen，2013）中推导出来，这是一种经典的，经过充分研究的统计估计技术。我们的论文的其余部分组织如下。首先，我们提出了理论上的权衡域内和域外训练。我们强调了域内和域外训练集的相对大小的重要性，arXiv：2109.10274v2 [cs.CL] 2022年3月+v：mala2277获取更多论文−logP（y;θ）=logP（y|y;θ）i∈Dn1D1CITD它们的底层分布之间的距离。我们还介绍了如何微调有限数量的更新可以被看作是一个训练方法正则化相对于域外先验。最后，我们提出了一个统一的框架下的数据选择方法。2神经语言建模语言建模是指自然语言的生成建模（Manningand Schutze，1999）。通常，自然语言被表示为来自有限词汇表的符号序列。例如，语言可以表示为字符序列、单词序列或替代单位。神经语言模型（ LM ）分解文本 y=（y1，. . . y n），asnI11i=1其中Pθ将参数向量θ与过去的标记序列yi-1映射到词汇表上的概率分布上不同类型的神经体系结构已被用于神经语言建模。用于LM的大多数架构在估计相同序列中的连续令牌的概率时将来自中间步骤的中间计算重新用于下一步骤流行的架构包括递归神经网络（Mikolov et al. ，2010; Sundermeyer et al. ，2012）、卷积网络（Dauphin et al. ，2017）和 Transformer 网络（ Vaswani et al. ， 2017;Radford et al. ，2019）。神经LM的参数向量θΘ通过使用随机梯度下降的变体在从真实分布采样的训练集D上最大化对数似然从同一分布中抽样的保留集的对数似然人们经常报告困惑，指数负平均对数似然每个令牌。条件线性模型对给定条件输入x的文本y的分布进行建模。logP（y|x;θ）=logP（yi|yi−1，x;θ）摘要，其中（x，y）对是对应的文章和摘要（见et al. ，2017年）。对于条件和常规LM，训练数据的大小对于实现低保持困惑度是重要的。这对于具有有限可用训练数据的领域是一个障碍。这个问题导致了各种模型适应方法。这些方法利用大量的通用训练数据D以及来自感兴趣领域的少量目标领域训练数据T。微调是一种流行的自适应方法，其在两个阶段中训练神经语言模型，首先最大化类属集合D的似然（预训练），然后优化目标域集合T的似然（微调）。作为微调的替代方案，一些方法考虑利用小目标域训练集来识别和强调较大通用训练集中的类似数据。这些强调方法可以单独使用，也可以与微调结合使用。强调方法包括重要性抽样、对比数据选择和影响函数。本文表明，这些方法3培训战略本节首先考察领域内培训，即当训练和测试数据从相同的分布中采样时。然后，它研究域外训练，即当训练和测试数据分布不同时。最后，它检查了域内微调之后的域外预训练对于这三种情况，我们分解的损失依赖于经典的概念，从学习理论和研究的权衡，在每个设置。3.1领域内培训给定从分布中采样的训练集D，学习LM通常旨在最小化D的负对数似然，也称为交叉熵损失，即，1Σi=1这种类型的模型用于翻译，L（θ;D）= −|D|y∈D logP（y|θ）=yE [−logP（y|θ）]。（x，y）对是源和目标语言（Koehn，2009; Bahdanau et al. ，2015年）或这种经验风险是有限风险的平均值，集合D，它充当期望的代理+v：mala2277获取更多论文ΣθDLDLDLD·|Dθ∈Θ·|D−·|DD不D不∈DLLD在真实的、不可用的分布P（y| D），L（θ; D）= −logP（y|θ）P（y| D）y∈在研究这种权衡时，需要记住神经网络的两个重要属性。普适近似定理（ Lecun ，1987;Funahashi，1989）意味着，=EyD[−log P（y|θ）]，对于任何近似误差和任何分布D，则存在容量设置C（k，D），在该容量设置下，其中，分布真实的预期损失由分布P（）的熵限定，即L（θ; D）≥LH（D）=H（P（·|（D））因为H（P（））= minqEy <$D[ logq（y）]。具有所选参数化的神经网络的最佳似然与熵之间的差距称为近似误差Lapp（D，Θ）= min L（θ; D）− H（P（·|D））。这个缺口解释了P（）一般不能由来自由Θ跨越的所选族的参数化函数表示的事实。除了近似误差之外，还应该考虑估计误差，以说明人们依赖于来自有限集合D的经验风险，Lest（D，Θ，D）=L（θD;D）−minL（θ;D）其中θD= arg minθ∈Θ（θ;D）。因此，θD的损失分解为（Bottou和Bousquet，2007）（一）其中这三项分别说明了所选神经结构和有限训练集D的内在不确定性。近似误差app（，Θ）取决于所选模型族Θ。它可以通过选择更有表现力的家族来减少，即具有更大容量、更大θ的神经架构，估计误差est（，Θ，D）取决于所选模型族Θ和训练数据D的大小。对于相同的训练集大小，增加模型容量将导致更高的估计误差，但在更大的训练集上训练将减少估计误差。因此，对于给定的训练集大小，需要选择容量以识别两种错误类型之间的良好权衡。一个误差为-低的神经网络θ C（θ，），即：100%>0，100%s.t.Lapp（D，C）≤0.通俗地说，通用近似属性意味着对于足够大的电容设置，近似误差可以变得任意低。统计一致性属性意味着，对于任何n，nJ>0，存在训练集大小N（n，D），使得从D采样大小N（n，nJ，D）的训练集将导致估计误差小于nJ，概率为1-n，0.001 ， 0.0001， 0.00001 ， 0.000001 ，0.00000t，P（D<$DN：Lest（D，Θ，D）<<$J）= 1−1通俗地说，统计一致性原则意味着对于足够大的训练集，获得低于任何正值的估计误差的概率可以任意接近1。普遍近似和一致性意味着，在渐近的情况下（即D的大小趋于无穷大），方程中的最后两项。1可以是任意接近零与适当的模型容量（高概率）。在这种情况下，似然（θDi）等于具有适当模型容量的固有熵。3.2域外培训本节考虑一个设置，其中需要一个领域中的专用语言模型和两个训练集是可用的：从不同于专用领域的通用领域采样的小训练集T和从不同于专用领域的通用领域采样的大训练集D在这种情况下，最简单的选择是单独在T或D仅在小集合T上训练会导致泛化损失L（θT; T）=LH（T）+Lapp（T，Θ）+Lest（T，Θ，T）其中θT= arg minθ∈Θ（θ;T）与前一节相同。在较大集合D上的训练导致L（θD; T）=LH（T）+Lapp（T，Θ）+Lest（T，Θ，D）。L（θD; D）=LH（ D）+ Lapp（ D，Θ）+ Lest（ D，Θ，D）+v：mala2277获取更多论文−不TDLTDTDLTTD−DDLTDL∈L → LLTD|两个因素对于比较这两个选项是重要的：相对于类属集合D的大小的专门集合T的大小以及分布之间的相似性。当和由于分布是相同的，D和T是从相同的分布中采样的，并且在较大的训练集D上训练模型是有利的。对于恒定容量，该选项将获得较低的估计误差。当改变容量时，人们可能会确定一个设置，该设置在等式的复合损失中具有甚至（1）具有较大的训练集D。当分布和不同时，D的大小是固定的，T的大小决定了选择哪一个。统计一致性意味着est（，Θ，T）将随着T的大小的增长而概率收敛到零。这意味着当T的大小大于N（N）时，（，Θ，D），），则在T上训练导致比在D上训练更好的泛化损失的概率高于1 -是的当分布和不同时，两个分布之间的Kull-back定理1θD损失的推广上有界，（二更）概率为100%。这个界限证明了直觉，如果给定两个通用域和J之间的选择，则在具有最低KL分歧的一个上训练，将导致更好的渐近行为。这个界限的证明在附录A中给出。3.3微调多任务学习针对域自适应的微调在小的域内集合上训练模型，从在大的域外集合上训练的模型的参数初始化优化。从形式上讲，微调最大限度地减少了（θ;T）几步T上的损失，从θ D=arg minθΘ（θ;D）开始优化。该策略隐含地针对T和D上的经验损失之间的权衡。该折衷由微调步骤的数量nft控制。步骤少意味着所识别的参数θft在D上实现低损耗，而步骤多表示参数在T上实现低损耗。这个策略利用了正则化效应，早期停止（Caruana et al. ，2001），即通过梯度下降找到的解保证在以初始化为中心的欧几里得球中，其半径随着步骤的数量而增长（Grangier和Bengio，2008），即θft−θD其中λ是指（最大）学习速率，gmax是更新范数的上限当θ（θ;D）是一个光滑函数时，θft和θD之间的小距离保证了损耗（θft;D）接近最佳值（θD;D）函数，例如Lipschitz函数。对于基本的微调设置，已经引入了几个变量。一些方法（De-vlinet al. ，2018; Liu etal. ，2019; Raffel et al. ，2019）考虑使一些参数不被调整或冻结，这是这些权重的正则化的极端情况，惩罚与初始化的任何偏差。其他方法考虑引入用于微调的新的（未正则化的）权重，通常被称为适配器层（Houlsbyetal. ， 2019; Stickland et al. ， 2019; Pfeiffer etal. ， 2020 ）。其他形式的正则化，如dropout，也被认为是与微调（Miceli Barone etal. ，2017年）。微调中正则化强度的选择在计算上是高效的，因为它连续访问来自最正则化模型的优化路径（仅在D上训练的θD，Sec. 3.2）到非正则化θT（第3.2节）。3.1）。与显式正则化方法相比，这更有效，包括多任务学习（Caruana，1998; Collobert和Weston，2008;Pilault等人，2009）。，2021），即，优化L multiple（θ; T，D，α）= L（θ; T）+ α L（θ; D）.4数据选择数据选择旨在通过选择或赋予某些数据点更强的权重来改善域外训练。这些点的识别旨在强调域外示例，这些域外示例对模型的影响类似于域内训练示例的影响。我们研究了三个独立提出的选择方法，重要性抽样，对比数据选择和影响函数。我们证明了这些方法都是通过加权对数似然训练来训练模型的，（θ;D，T，w）=1w（y; ，）logP（yθ）|D|y∈D100%>0，100%s.t.你好，nL（θD; T） ≤H（ T）+KL（ T， D）+λ+v：mala2277获取更多论文T DΣLTD⊂LTL−|T-D|不LLestImpP（y|D）LT D但是引入它们的权重W（yi）具有不同的理由。尽管存在这些差异，我们从D.它依赖于身份表明这些方法在神经网络的特定情况下产生了令人惊讶的相似选择权重L（θ;T）=EyT [−log P（y|θ）]语言模型数据选择特别适合于域外训练分布和检验=−logP（y|θ）P（y| T）y∈=−log P（y|θ）P（y| T）P（y| D）y∈分布有很大的KL分歧，但域外训练集很大。在这种情况下，对在非-=EyD [−w（y; T，D）log P（y|θ）]由于KL差异较大，域数据较差其中w（y;T，D）= P（y|（1）假设全在T和 D，见Eq。（二）、当这个KL迪-端口D，即P（y|D）n ∈ n，P（y| D）>0. 在实际操作中，收敛大而域外数据丰富，数据选择方法提出选择域外数据DTD的子集。理想地，在这样的子集（θ，DT）上的训练损失将是泛化损失的更好代理在T，L（θ，T）上的训练损失比在整个集合D，L（θ，D）上的训练损失大。然而，选择涉及到一个微妙的权衡。一方面，数据选择是有吸引力的，因为它一个人无法接触到和而是有限样本T和D。通过重要性抽样，我们可以考虑（θi）的两个替代估计量，或者是T上的经验风险，（θ;T）=1logP（y θ）|不|y∈T或D上的重要性加权交叉熵的平均值，即用更接近测试域的另一个集合替换训练集。另一方面，这个训练集较小，这增加了esti的影响。L杂质（θ;D，T，w）= 1w（y;，）logP（yθ）|y ∈D|y∈D信息错误。此外，数据选择是不完美的，因为目标域分布仅通过小的目标训练集T已知。这一部分依次介绍了重要性抽样、对比数据选择和影响函数，并将它们连接成一个框架。4.1重要抽样虽然智能选择也称为对比数据选择更常见（ Moore 和 Lewis ， 2010; Wang et al. ，2018），我们首先研究了重要性抽样，因为这种方法将指导我们对其他选择方法的理解。重要性抽样是一种通用的统计技术（Owen，2013）。在我们的例子中，它可以用来估计T上的交叉熵损失的期望，同时可以访问sam。其中，w是来自列车的权重w的估计值设置D和T。这两个估计量之间的权衡取决于T和D的相对大小、权重w的不平衡以及它们的估计质量w。当模型的推广误差L（θimp（D，T）;T）θimp（D，T）=argminim p（θ;D，T，w）θ小于通过极小化（θ;T）即经典经验风险最小化选取θT的推广误差。此错误分解为，L（θimp（D，T）; T）=LH（T）+Lapp（T，Θ）+Limp（T，Θ，D，T）。我们进一步将估计误差分解为两项，Lest（T，Θ，D，T）=Lest/w（T，D，Θ，D）+Lest/w（T，Θ，D，T）其中，est/w（i，Θ，D）指的是由D的有限大小导致的估计误差，假设访问真实重要性权重，并且+v：mala2277获取更多论文θLTTD|不|DT D·|不LL|LDTD是样本均值，且vari-y∈D| |LTLT|DΣw D，T（y）=w（y;T，D）.ǁ −ǁSnZ||Σ∈est/w∈ （，Θ，D，T）隔离了由w的估计产生的残差。我们有Lest/w（ T， D，Θ，D）=L（θimp（D，D）;D）−minL（θ;T），建模实际上是识别模型以从来自分布和的有限样本估计在该比例P（y）和P（y）中的概率的问题判别分类器也与估计该比率相关，因为Lest/w（T，Θ，D，T）=L（θimp（D，T）;D）−L（θimp（D，T）;D）w（y; ，）P（T |y）。P（D）|年）的事实上，乘法常数（先验比）其中θimp（D，D）=argminθ imp（θ;D，T，wθ）第一项取决于D的大小和权重的不平衡。例如，如果权重主要集中在D的小子集上，则该估计误差将是高的。如果该子集小于T，则估计误差从Limp（θ;D，T，w）将高于从这并不重要，因为将加权损失乘以正常数对优化没有影响当使用LM估计重要性权重时，可以通过对在D上预训练的模型进行微调来估计P（）。调谐步数nft控制θftθD。当nft=0，w_（？）=1时，重要性抽样（θ;T）。有效样本量的概念被定义为量化这种影响（Kish，1965）。它是通过检查n个独立随机变量Zi与均值μZ和方差σ2，Sw=μiwiZi。损失对应于（θ，D）。随着nft的增长，估计值P（y θft）可能过拟合，并将大部分概率质量分配给T中样本周围的小邻域。权重将依次都集中在这个小区里，麦Z该方差为2012年2月2日我iwi使重要性抽样损失的最小值接近于T上经验损失的最小值。因此，微调语言模型，σSw=（Σ w）2σZ估计重要性权重允许支持-这可以与σ2=1σ2相比，加重的箱子。这意味着加权和方差与未加权情况的方差匹配，在域内和域外经验损失最小化第3.2节。在接下来的部分中，我们将估计的重要性抽样权重称为（中文）2我Imp假设损失在和上具有可比较的均值和方差，仅当，（w）2n e=w2 |D||不|哪里W=1y Dw（y）和w2为12Dance 的的权超过D.这意味估计误差中的第一项是est/w（，Θ，D，T），与经典经验风险当T很小时，最小化不幸的是，第二个估计误差项由于估计了重要性权重，因此当T变得更小时， est/wθ（，Θ，D，T）变得更w（y;T，D）=P（y| T）数据具有挑战性重要性抽样已用于各种应用的模型训练：提高训练速度（ Johnson 和 Guestrin ， 2018;Katharopoulos和Fleuret，2018）或适应不断变化的训练分布（Mahmood等人，2018）。，2014; Metelli et al. ，2018）。重要性抽样很少用于修改语言模型的训练分布（ Foster etal. ， 2010 年 ;Fernandez 和 Downey ， 2018年），因为智能选择方法更常见。4.2智能选择智能选择（Moore和Lewis，2010; Ax-elrodetal. ，2011）和对比数据选择，其扩展到神经网络（ van der Weeset al. ， 2017; Wang etal. ，2018年），已经在语言建模文献中引入。我们表明，这些方法是密切相关的重要抽样，即使他们的原始文件当TP（y）很小。人们可以注意到，没有提到这个链接。我Wne=2我.+v：mala2277获取更多论文<$L（θ，D，T）=−b（y）logP（y|θ）D、T{|−|}Σ−||不|D|||D、TP（y |x，θ D）D，|D|−智能选择根据域内LM和域外LM之间的对数奇数从域外数据集中选择训练样本。通常，通过将平均对数奇数与阈值τ进行比较来对每个句子进行二元判定，IntSel IntSelD、Ty∈D哪里b国际塞尔（y）是定义当I logP（y θ T）logP（y θ D）> τ。与重要性采样相似，权重被二值化，即，该条件概率的比率不同于源自重要性采样的联合概率的比率，即，Limp（θ;D，T，wθ）=1P（x，y| T）log P（yx，θ）。|D|y∈DP（x，y| D）当P（x）=P（x）以来二值化决策当然是出于方便，因为当引入智能选择时，大多数n-gram LM训练包不支持加权似然优化。二值化还具有由于在小集合T上的过拟合而从大logP（y θT）向下加权极端正的权重值的优点。最近，智能选择已经扩展到神经模型（vander Wees et al. ，2017; Wang et al. ，2018）。对比数据选择（Wang et al. ，2018）建议从logP（y θD）微调域内模型logP（y θT），并且还观察到选择分数可以有效地从容量比最终训练模型小得多的模型中估计。动态选择（van der Wees et al. ，2017）提出随着训练的进行增加选择阈值τt，逐渐从通用训练过渡到域内训练。神经网络的这种逐渐适应与课程学习有关（Bengio et al. ，2009），其研究在模型训练期间对示例和任务的排序。智能选择方法已经应用于无条件模型（语言建模）和条件模型（机器翻译）。在有条件的情况下，智能选择计算bIntSel（ x，y）= I，log wIntSel（ x，y）> τ，因此，智能选择的公式化忽略了条件情况下输入差异的域失配。该公式与去噪目标一致（Wang et al. ，2018），其假设D包含标签噪声，在这种情况下的误译。4.3影响函数如上所述，重要性采样和智能选择权重可以通过将来自基础模型的对数概率这种微调的使用将智能选择与影响函数和梯度对齐技术相连接。影响函数（Koh和Liang，2017年;Pinghui等人。，2020年）已被用作诊断工具，以识别支持或与给定的测试标签相矛盾的训练实例。当目标是在其训练更新增加来自不同域的集合T的可能性的通用训练集合D中找到实例时，该任务与训练数据的选择训练点y对测试点的影响yJ定义为I（y，yJ）=<$l（yJ;θ）TH−1<$l（y;θ）∂θθ∂θ其中l（y，θ）是指具有参数θ的模型在y处的损失，Hθ是指在θ处的模型损失的Hessian。这个量可以通过考虑在训练期间减少点y的权重对yJ处的测试损失的影响来导出。如果我们将训练样本的权重增加1/2，D、TD、T其中 wIntSel（x，y）= P（y|x，θT）。θ= min1l（z;θ）+l（y;θ）z∈Db（ y）= I log w（ y）> τ。IntSel、ImpD、TD、T、wimp（ x，D、TP（x，y|T）P（x，y|D）=P（x|T）P（x|D）wIntSelD、T（x，y）。θ+v：mala2277获取更多论文.... H.|∂θT D|DP（y）∂′∼∈.=−Hθ（y;θ）∂θ...不D∂θ.-λ E<$I（y，YJ）<$+ O. θ− θ从（Cook和Weisberg，1982），我们得出，当然，这个关系只在以下情况下成立：θD，∂ϵ-1l。其中对于精细的-.调音该关系允许估计在移除时测试损失的减少（此处为T）与（xJ，yJ）上的测试损失组合，我们得到从D中训练具有积极影响的样本，这也是智能数据选择的目标θ l（y′;θD，c）布吕格θ l（y′;θ）T=−−1 l（y;θ）θ∂θ该策略已应用于标签噪声滤波-这与上面介绍的影响的表达相匹配。现在我们将影响力与前面关于重要性抽样和对比数据选择的章节联系起来。我们考虑具有权重θD的LM，在通用训练集D上训练。其在θD处的一阶泰勒展开式为：logP（y θD+θ）=logP（y|θ D）+θTg（y;θ D）+O. 第1002章：一个人的世界（3）等人，2018）和域适应（Wang et al. ，2021年）。4.4比较数据选择方法我们的分析结合了重要性抽样、对比数据选择和影响函数。在实践中，对比数据选择是最流行的与影响函数不同，对比数据选择权重依赖于对域内数据T进行多个步骤的通用模型的微调。这有两个影响。对其中g（y;θD）=θ logP（y|θ）。 θ=θD .如果一方面对比数据选择权重在D上预训练的模型在T上通过以学习率λ执行梯度下降的单步进行微调，我们得到可以更可靠，更接近理想权重w（yi）=P（yi|T）。另一方面，多步骤增加了过拟合到T的风险。在θ= θ− λL（T;θ）。首先用数据选择在对T进行微调之前，这可能会有所帮助-=θD+λEyT [g（y;θD）]。有效地限制了T对所选数据的影响，增加了细调的互补效应，在这种情况下，两个模型的对数奇数具有以下泰勒展开，logP（y|θ T）−log P（y|θ D）ing（Iter和Grangier，2021）。对比数据选择法与重要抽样法的主要区别在于加权二值化。这种二进制化还=λE关于我们g（yJ;θD）Tg（y;θD）+O。θ D− θ T有两个相反的效果。在积极的方面，它具有正则化器，因为与未量化的权重相比，二进制权重不太可能反映特定于T的统计数据从消极的方面来说，如果我们假设模型当Hθ=1时，我们有logP（y|θ T）− log P（y|θ D）=2T TT T当使用牛顿式更新对模型进行微调时，可能会放弃Hessian假设（Boyd和Vandenberghe，2014）。上述关系意味着点y D对集合T的负平均影响也对应于第4.1节中介绍的估计重要性权重的对数，即低权重可以共同表示大部分加权交叉熵。将对比数据选择解释为重要性采样的正则化版本打开了探索更复杂的正则化的大门，例如使用较低的容量模型或不同的输入特征来估计选择权重。5结论这项工作的重点是领域适应神经语言建模。它比较了在大型域外语料库上训练的模型与在小型域内语料库上训练的模型的泛化特性它显示了如何微调，最常见的方法，神经LMlogwimp（y）=D、T-λ EI（y，y） +O关于我们ΣJ Σ.θ−θ。2D不Σ=0θ=θDc=0∂θθ=θDθ=θDing（Koh和Liang，2017），阶级再平衡（Renθ=θD+v：mala2277获取更多论文自适应可以实现比任一解决方案更好的折衷。然后，我们专注于通过数据选择技术，即技术，以强调在域外的训练集的域内数据的适应。我们表明，常用的技术，对比数据的选择和影响函数的选择，都可以从重要性抽样。我们的分析目前假设纯语言建模设置，即针对域外和域内数据的高对数似然训练的自回归模型。在未来，我们希望将我们对域自适应技术的分析扩展到流行的环境（Bommasaniet al. ，2021），其中模型训练将对域外数据的语言建模和对域内数据的不同最终任务相结合。我们的理论工作也提出了经验问题。智能选择中重要性抽样权重的二值化是一种简单的方差减少技术，更复杂的替代方案可能在经验上是有益的。影响函数和重要性抽样之间的联系表明，重要性抽样权重低于1的示例对域内似然性仅具有这种矛盾建议扩大影响力分数，以考虑单次更新以外的影响。确认我们感谢Wei Wang、Bowen Liang、KelvinGuu和Nicolas Le Roux的建议和意见。引用罗伊·阿哈罗尼和约阿夫·戈德堡2020.预训练语言模型中的非监督域簇。 arXiv 预印本 arXiv ：2004.02105。Amittai Axelrod，Xiaodong He，and Jianfeng Gao.2011. 通过伪域内数据选择的域自适应。在Proceedings of the 2011 Conference on EmpiricalMethods in Natural Language Processing，第355-362页计算语言学协会.德米特里 · 巴赫达瑙，赵京铉，和尤恩 · 本吉奥.2015. 神经机器翻译通过联合学习来对齐和翻译。在2015年5月7日至9日在美国加利福尼亚州圣地亚哥举行的第三届国际学习表示会议ICLR2015中，会议跟踪程序。约瑟芬·本吉奥、杰罗姆·卢拉杜尔、罗南·科洛伯特和杰森 · 韦斯顿。 2009. 课程学习。在Proceedings of the 26th Annual InternationalConference on Machine Learning，ICML 2009，Montreal ， Quebec ， Canada ， June 14-18 ，2009 ，卷 382 ofACM International ConferenceProceeding Series，第41-48页中。ACM。放大图片作者：Rishi Bommasani，Drew A.放大图片创作者： Michael S. 作者： Bernstein ，Jeannette Bohg ， Antoine Bosselut ， EmmaBrunskill，Erik Brynjolfsson，Shya- mal Buch，Dallas Card ， Rodrigo Castellon ， Ni- ladriChatterji，Annie S.作者：陈，Kathleen Creel，Jared Quincy Davis ， Dorottya Demszky ， ChrisDon- ahue，Moussa Doumbouya，Esin Durmus，Ste- fano Ermon ， John Etchemendy ， KawinEthayarajh ， Li Fei-Fei ， Chelsea Finn ， TrevorGale，Lauren Gille- spie，Karan Goel，Noah D.作者：Peter Hen- derson，John Hewitt，Daniel E.黄晶，洪珍妮，许凯尔，托马斯·伊卡尔，萨希尔·贾恩，丹·朱拉夫斯基，普拉秋莎·卡普里，西达斯·卡拉姆-切蒂，杰夫·基林，费雷什特·哈尼，奥马尔·卡特卜，庞伟高，马克·S.Krass，Ranjay Krishna ， Rohith Kuditipudi 等人， 2021年。基础模型。CoRR，绝对值/2108.07258。莱昂·博图和奥利维尔·布斯凯。2007. 大规模学习的权衡。在 Advances in Neu- ral InformationProcessing Systems 20 中， Proceedings of theTwenty-FirstAnnualConferenceonNeuralInformation Processing Systems ， Vancouver ，British Columbia ， Canada ， December 3-6 ，2007，第161-168页。Curran Associates，Inc.斯蒂芬·P·博伊德和利文·范登伯格。2014年。凸优化。北京：清华大学出版社.瑞奇·卡鲁阿纳 1998. 多任务学习。在SebastianThrun 和 Lorien Y. Pratt ， editors ， Learning toLearn，pages 95-133. 斯普林格。里奇·卡鲁阿纳史蒂夫·劳伦斯和李·贾尔斯2001.神经网络中的过拟合：反向传播、共轭梯度和早期停止。神经信息处理系统进展，第402罗南·科洛伯特和杰森·韦斯顿。2008.自然语言处理的统一架构：具有多任务学习的深度神经网络在第25届机器学习国际会议上，第160丹尼斯·库克和桑福德·韦斯伯格。1982. 回归中的残差和影响。纽约：查普曼和霍尔。扬 ·N Dauphin ， Angela Fan ， Michael Auli ， andDavid Grangier. 2017. 使用门控卷积网络进行语言建模。在Proceedings of the 34 th InternationalConference on Machine Learning- ing ， ICML2017 ， Sydney， NSW ， Australia ， 6-11 August2017 中， Proceedings of Machine LearningResearch第70卷，第933-941页PMLR。+v：mala2277获取更多论文Jacob Devlin ， Ming-Wei Chang ， Wendon Lee ，and Kristina Toutanova. 2018. BERT：语言理解的深度双向转换器的预训练。CoRR，绝对值/1810.04805。杰瑞德·费尔南德斯和道格·唐尼2018. 为RNN语言模型采样信息训练数据。在ACL 2018会议记录中，学生研究研讨会，第9计算语言学协会。乔治·福斯特，西里尔·古特，罗兰·库恩。2010. 统计机器翻译领域自适应的判别实例加权。在Proceedings of the 2010 Conference on EmpiricalMethods in Natural Language Processing，第451-459页，Cambridge，MA中。计算语言学协会。船桥健一1989.连续映射的神经网络近似实现。Neural networks，2（3）：183D. Grangier和S. 本吉奥。 2008. 一个判别式的基于核的模型来对文本查询中的图像进行排名。IEEETransactionsonPatternAnalysisandMachine Intelligence（TPAMI）Suchin Gururangan ， Ana Marasovic ， SwabhaSwayamdipta ， Kyle Lo ， Iz Beltagy ， DougDowney ， and Noah A. 史密斯 2020. Don’t stoppretraining:CoRR，abs/2004.10964。NeilHoulsby ， AndreiGiurgiu ， StanislawJastrzebski ， BrunaMorrone ， QuentindeLaroussilhe，AndreaGesmundo，MonaAttariyan，and Sylvain Gelly. 2019. NLP的参数有效迁移学习。CoRR，abs/1902.00751。Dan Iter和David Grangier。2021.论区域适应数据选择和微调的复杂性。arXiv，2109.07591。泰勒B约翰逊和卡洛斯Guestrin。2018.通过稳健的近似重要性采样更快地训练深度模型。神经信息处理系统进展，31：7265杰瑞德·卡普兰，山姆·麦克坎德利什，汤姆·亨尼根，汤姆·B·布朗，本杰明·切斯，雷温·柴尔德，斯科特·格雷，亚历克·雷德福，杰弗里·吴和达里奥·阿莫代。2020.神经语言模型的标度律。arXiv预印本arXiv：2001.08361。安杰洛斯·凯塔罗普洛斯和弗朗索瓦·弗勒雷2018.并非所有的样本都是平等的：重要性采样的深度学习。国际

下载后可阅读完整内容，剩余1页未读，立即下载