神经机器翻译中的持续学习和灾难性遗忘问题

142 浏览量更新于2023-12-01 收藏 766KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文超越持续学习克服灾难性遗忘：神经机器翻译邵晨泽1，2，杨锋1，2，1智能信息处理中国科学院计算技术研究所（ICT/CAS）2中国科学院大学{shaochenze18z，fengyang}@ict.ac.cn摘要神经网络在从动态数据分布中顺序学习多个任务时，往往会逐渐忘记先前学习的知识。这个问题被称为catastrophic遗忘，这是神经网络持续学习的一个基本挑战。在这项工作中，我们观察到，catastrophic遗忘不仅发生在持续学习，而且还影响到传统的静态训练。神经网络，特别是神经机器翻译模型，即使从静态训练集学习，也会遭受catastrophic遗忘。具体而言，最终模型对训练样本的关注不平衡，其中最近暴露的样本比早期样本吸引更多的关注。其根本原因是训练样本在每个模型中没有得到均衡训练，因此我们将此问题命名为不均衡训练。为了缓解这个问题，我们提出了补充在线知识分发（COKD），它使用动态更新的教师模型训练特定的数据订单迭代提供补充知识的学生模型。多个机器翻译任务的实验结果表明，我们的方法成功地解决了不平衡的训练问题，并取得了实质性的改善强基线系统。11介绍在过去的几年里，神经机器翻译（NMT）在许多基准数据集上取得了令人印象深刻的翻译性能（Cho et al. ，2014; Sutskever等人，2014; Bahdanau等人，2014; Vaswani et al. ，2017年）。在领域自适应任务中，我们有大规模的域外数据来提高域内翻译性能，经常采用持续学习，也称为微调，以通讯作者：杨峰1代码可在https://github.com/ictnlp/COKD上获得。将域外知识转移到域内（Luong和Manning，2015 b）。在微调之后，模型在域内翻译中表现良好，但是在域外翻译中存在显著的性能下降，因为它“忘记”了先前学习的知识。这种现象被称为灾难性遗忘（McCloskey和Cohen，1989; French，1999），并引起了很多关注（Goodfellow et al. ，2013; Kirkpatricket al. ，2017; Li and Hoiem，2017; Lee et al. ，2017年）。在这项工作中，我们观察到灾难性遗忘不仅发生在持续学习中，而且也影响了传统的静态训练。具体而言，最终模型对训练样本的关注不均衡在训练结束时，最近暴露的样本吸引了更多的注意力，并且往往具有较低的损失，而较早的样本部分地被模型遗忘，并且具有较高的损失。简而言之，训练样本从模型中得到不平衡的关注，这主要取决于模型最后看到训练样本的时间（即，最后一个训练时期的数据顺序）。这种现象的根本原因是小批量梯度下降（Lecun et al. ，1998年），也就是说，我们不同时使用所有的训练样本来训练模型，而是将它们分成小批次。因此，训练样本在每个更新步骤中都没有得到平衡训练，因此我们将此问题命名为不平衡训练。这个问题在某些任务中不太严重（例如，图像分类和文本分类），但它对NMT具有重大影响，因为机器翻译是一项具有挑战性的任务，包含许多翻译规则，这些规则在训练过程中很容易被遗忘此外，我们发现，不平衡的训练问题是特别严重的，不可忽视的低资源的机器翻译。为了证明不平衡训练问题确实会影响模型的准确性，我们首先回顾了一种广泛使用的称为检查点平均技术的技术，该技术已被证明是有效的。arXiv：2203.03910v1 [cs.CL] 2022年3+v：mala2277获取更多论文Σ|Σ||V||关于我们ΣΣ它在提高模型精度方面是有效的，但其内部机制尚未完全了解。我们从灾难性遗忘的角度进行了分析，发现他们的成功可以归因于不平衡训练的成功我们还注意到，检查点平均有一些局限性，留下了进一步改进的空间。受检查点平均算法利用检查点的互补性来提高模型精度的启发，本文提出了互补在线知识分发（COKD）算法来解决非均衡训练问题。由于模型容易忘记从早期样本中学习到的知识，COKD的主要思想是构建互补的教师来重新提供这些被遗忘的知识给学生。具体来说，我们将训练集划分为相互排斥的子集，并将它们按特定的顺序进行重组，以训练学生和教师。我们以在线方式执行COKD，教师在飞行中更新以满足学生的需求在训练学生学习某个子集时，教师总是可以为学生提供关于其他子集的补充知识，从而防止学生发生灾难性的遗忘。多机器翻译任务的实验结果特别是在受不平衡训练影响严重的低资源翻译任务上，我们的方法特别有效，平均将基线模型提高了约2个BLEU点。总之，我们的贡献有三个方面：• 我们观察到不平衡训练的问题，即训练样本从模型中获得不平衡的注意力。我们发现，NMT，特别是低资源的翻译任务，严重影响不平衡的训练。• 我们重新思考了广泛使用的检查点平均技术，并从不平衡训练的角度解释了它的成功，这也证明了不平衡训练问题确实影响了模型的准确性。• 本文提出了一种在线知识补充提取方法，该方法可以有效地缓解训练不平衡的问题，提高翻译质量。2背景2.1知识蒸馏知识蒸馏（Hinton et al. ，2015）是一类将知识从预先训练的教师网络转移到学生网络的方法。假设我们正在用类训练分类器p（yx;θ），并且我们可以访问预训练的教师q（yx）。知识蒸馏不是最小化地面实况标签和模型输出概率之间的交叉熵损失，而是使用教师模型预测q（y x）作为软目标并最小化损失：|V|LKD（θ）= −q（y = k|x）× log p（y =k|x; θ）。k=1（一）在神经机器翻译中，标准的训练目标是交叉熵损失，它使负对数似然最小化，如下所示：不LNLL（θ）= −log（p（yt|y< t，X，θ）），（2）t=1其中X=x1，.， xN 且Y=y1，...，yT是源句和目标句，re-estimate。Kim和Rush（2016）提出在每个解码步骤训练学生模型来模仿教师不|V|L Word-KD（θ）= −q（yt= k|y< t，X）×t=1k=1logp（yt=k|y< t，X，θ）。（3）传统的离线知识提取只允许学生从静态的预先训练的教师模型中学习。相反，在线知识蒸馏从零开始培训教师并动态更新他们，因此学生在培训过程中从不同的教师那里学习Zhang等人（2018）首先通过同时训练对等模型克服了离线限制，并在对等模型之间的一个阶段训练中进行了在线蒸馏。由于相互学习需要训练多个网络，Zhu et al. （2018）; Song和Chai（2018）提出使用单个多分支网络进行在线知识蒸馏，将每个分支视为学生，将分支的集合视为教师。多分支架构随后成为主流，+v：mala2277获取更多论文×在线知识蒸馏（Guo et al. ，2020; Chen等人，2020;Wu和Gong，2020）。此外，Furlanello等人（2018）进行了迭代自蒸馏，其中学生网络在网络图方面与教师相同。在每次新的迭代中，在前一次迭代的监督下，从头开始训练一个新的相同模型。在 NMT 中， Wei et al.（2019）从训练路径中选择最佳检查点作为教师，指导训练过程以获得更好的性能。2.2灾难性遗忘灾难性遗忘是许多机器学习模型在连续学习过程中面临的一个问题，因为模型在接受新任务训练时往往会忘记以前学习过的知识（McCloskey和Cohen，1989）。一类典型的方法，以减轻灾难性的遗忘是基于正则化约束模型参数的更新。Goodfellow等人（2013）经验性地发现，辍学规则化可以有效地缓解灾难性遗忘现象。Kirkpatrick等人（2017）提出了弹性权重合并，它实现了修改后的正则化项，对前一任务中重要参数的更新施加了约束Leeet al. （ 2017 ）提出了 drop-transfer ，这是dropout的一种变体，它将关闭节点的权重向量降低到在前一个任务中学习的权重，而不是零向量。学习而不忘记（ LWF ）（ Li 和Hoiem，2017）是与我们的工作最相关的方法它们只使用新的任务数据来训练网络，但通过从预先训练的模型中提取知识来保留原始功能也有一些努力来解决灾难性的遗忘问题，为本地适应 NMT 。大卫· 柯克帕特里克等人（2017）; Thompson et al. （2019）增加了正则化项来约束参数的更新。Dakwale和Monz（2017）提出最小化一般域模型和微调模型预测之间的KL-分歧。曾等人（2018）; Gu etal. （2019）引入了一个区分器，以保留域共享功能。 Liang 等人（ 2021 ） ; Gu et al.（2021）在微调期间修复了重要参数，以保持通用域性能。Gu和Feng（2020）从模块和参数的角度研究了灾难性遗忘的原因。3不平衡训练在得出任何结论之前，我们首先在三个不同的任务上进行实验，即图像分类，文本分类和机器翻译，以表明不平衡训练的问题确实存在。对于图像分类，我们在 CIFAR-10 和CIFAR-100（Krizhevsky，2009）上进行了实验，这两个实验都包含50，000/10，000个训练/测试图像，32 32像素从10/100类中提取。对于文本分类，我们在AG-News上进行了实验，其中包含从4个类中提取的120，000/7，600个训练/测试句子。对于机器翻译，我们在三个翻译任务上进行实验：WMT 14英语-德语（En-De），IWSLT 15英语-越南语（En-Vi）和WMT 17英语-土耳其语（En-Tr）。我们使用ResNet-32网络（ He et al. ， 2016 ）用于图像分类，VDCNN网络（Conneau et al. ，2017）用于文本分类和Transformer-base（Vaswani et al. ，2017）用于机器翻译。所有模型都使用交叉熵损失进行训练我们建议读者参考附录A和第6.1节了解详细配置。我们训练模型直到收敛，然后取最后一个检查点，以最后一个训练时期的数据顺序计算训练样本的损失如果存在不平衡训练的问题，那么在epoch结束时的训练样本（最近暴露于模型）将倾向于具有较低的损失。相比之下，开始时的训练样本往往会有更高的损失。对于定量分析，我们使用数据顺序和损失之间的Spearman相关系数来衡量不平衡训练的程度。具体来说，我们根据它们在最后一个训练时期中出现的顺序为训练数据集中的每个批次分配一个batch-id，其中batchi是第i个训练批次。我们禁用正则化技术，如dropout和标签平滑，并计算每个批次的损失。采用batch-id与损失之间的相关系数来衡量训练不均衡的程度，较大的负相关系数表明问题严重。图1显示了batch-id和损失之间的关系通过比较这六个数据集的损失曲线和相关系数，我们得到以下三个主要观察结果。训练不均衡的问题确实存在。在我们实验中的六个数据集中，只有+v：mala2277获取更多论文−−−−图1：三种不同类型任务的batch-id和loss之间的关系斯皮尔曼相关系数（corr）显示在图表的右上角。Batch-idi表示最后一个epoch中的第i个训练批次。x轴中的Batch-id被归一化为[0，1]。图像分类：CIFAR-10和CIFAR-100;文本分类：AG-News;机器翻译：WMT 14 En-De、IWSLT 15 En-Vi和WMT 17 En-Tr。CIFAR-10 具有正相关系数。两个数据集（即，AG-News和WMT 14 En-De）具有较小的负相关系数。三个数据集（即，CIFAR-100、IWSLT 15 En-Vi和WMT 17 En-Tr）具有明显的损失下降因此，我们可以得出结论，不平衡的训练问题是存在的，但影响的程度不同。不平衡训练与任务复杂性有关在复杂的任务中，直觉的不平衡训练更容易发生，在学习大量新知识的过程中，以前学过的知识可能很容易被遗忘比较这两个图像分类数据集，CIFAR-10和CIFAR-100具有相同的数据集大小，但类别数量不同。复杂任务CIFAR-100的相关系数为0。29，而CIFAR-10的相关系数为0。01.文本分类任务只包含4个类，相关系数很小，为0。04.机器翻译通常被认为是一个具有指数搜索空间和大量翻译规则的复杂任务值得注意的是，WMT 17 En-Tr具有最大的相关系数0。64岁这些结果与我们的直觉一致，即不平衡训练对机器翻译等复杂任务的影响更大。低资源的翻译受到不平衡的培训。比较三个机器翻译数据集，不平衡训练问题对低资源数据集（即，IWSLT 15 En-Vi和 WMT 17 En-Tr），其中高资源数据集WMT 14 En-De受影响较小。为了消除语言的影响，我们从WMT14 En-De数据集中随机选择10万个句子进行训练，以模拟低资源场景。我们在附录B中给出了损失曲线，其中相应的相关系数为0。第63章也支持这个结论这是违反直觉的，因为当有许多训练样本时，早期的样本似乎更容易被遗忘。实际上，如图1所示，损失曲线通常在开始时不那么对于高资源数据集，大多数样本几乎“同样被遗忘”，并且只有最后几个相比之下，低资源数据集的几乎整个损失曲线是陡峭的，因此由于不平衡的训练，模型可能同时过拟合最近的样本和欠拟合早期样本。因此，在低资源机器翻译中，训练不均衡的问题更加严重，+v：mala2277获取更多论文TS由于优化器的动量，最终损失增加。在CIFAR-100、IWSLT 15 En-Vi和WMT 17 En-Tr上，尽管它们的损失曲线通常向下，但它们都在检查点平均的改进非常有限。这些结果证实了我们的假设，也表明不平衡的训练问题确实影响模型的准确性。最后这种不正常的现象其实是与我们的结论一致因为莫-在adam优化器中，模型更新的影响不限于当前步骤。优化器以动量的形式保留梯度，这将影响接下来几步的梯度更新因此，动量的影响在最后几个训练步骤中没有完全释放，所以最终损失上升。4检查点平均检查点平均直接取最后几个检查点的参数的平均值作为最终模型，是NMT中广泛使用的技术（ Junczys-Dowmunt et al. ， 2016;Vaswaniet al. ，2017年）。平均检查点的性能通常优于任何单个检查点。然而，就我们所知，它的内部机制还没有完全被理解。在这一节中，我们从不平衡训练的角度来分析检查点平均法的成功虽然训练样本在每个检查点上受到的关注是不平衡的，但这种不平衡在不同的检查点之间是不同的。如果我们将不平衡训练理解为每个检查点上的噪声随机变量通过对检查点进行平均，减少了随机噪声的方差，从而缓解了训练不平衡的问题。基于上述分析，我们提出以下假设，并通过实验进行验证。假设检查点平均通过缓解不平衡训练的问题来提高模型性能。实验我们在六个数据集上进行实验，研究检查点平均和不平衡训练之间的关系。我们平均过去五个历元检查点，并将其性能与最佳单个检查点进行比较。表1报告了模型性能以及六个数据集的相关系数。我们可以看到，检查点平均在不平衡训练问题严重的数据集上实现了相当大的改进。在相关系数较小的数据集上，图像分类文本分类CIFAR-100.01百分之九十三点五一百分之九十三点四七CIFAR-100-0.2970.89%71.36%AG新闻-0.0491.61%91.70%机器翻译WMT14 En-De-0.0727.2927.45IWSLT15 En-Vi-0.4728.5229.08WMT17 En-Tr-0.6412.7913.42表1：六个数据集的测试集上的模型性能。对于分类任务，我们报告Top-1精度。对于翻译任务，我们报告 BLEU 分数。 Corr 是第 3 节中计算的Spearman相关系数。Best和Ave分别代表最佳和平均检查点性能虽然检查点平均可以缓解不平衡训练问题并提高模型性能，但它也有一些局限性，其成功与否在很大程度上取决于检查点间隔的经验选择。如果检查点间隔很小，则i.i.d.平衡不成立，因此不平衡不能有效消除，甚至可能变得更强（附录C）。如果检查点间隔很大，则检查点可能不位于相同的参数空间中5方法在本节中，我们提出了补充在线知识蒸馏（COKD），以减轻不平衡的培训问题。我们应用知识蒸馏与动态更新的补充教师重新提供遗忘的知识的学生模型。5.1补充教师本文首先介绍了复合型教师队伍的建设。假设我们有n个教师模型1：n，学生模型是，教师模型和学生模型都是随机初始化的。我们希望教师模型应该动态更新，以便它们始终与学生互补。而学生数据集Corr最好Ave+v：mala2277获取更多论文DDD不SDTDO·O·D dd.OD联系我们STD ddΣ ΣΣL−不S从新的训练样本中学习，并逐渐忘记早期的样本，教师模型应该重新提供忘记的知识给学生。回想一下，模型根据训练的数据顺序对不同的训练样本给予不平衡的因此，获得补充教师的一个自然方法是培训不同数据顺序的教师具体来说，在每个epoch中，我们将训练数据集划分为n+1互互斥拆分（1，2，...，n+1）。学生模型顺序地从1至n+1，其中教师模型的数据顺序不同。我们使用排序函数O（i，t）来表示教师Ti在时间t的训练数据。在教师模型1：n分别从数据分割O（1：n，t）中学习之后，学生从t和教师中学习。为了使教师与学生互补，排序函数（，t）应该覆盖除t之外的所有数据分割。为了确保每个教师都可以访问整个训练数据，排序函数（i，）还应该覆盖所有数据分割。幸运的是，我们发现O的简单赋值满足上述要求：（i，t）=i + t，i + t≤n+1。（四）i+t−n−1，i+t> n+1其中i1，2，...，n和t1，2，...，n+1。在此分配下，教师i仅使用从学生偏移i的数据分割，这确保所有教师与学生互补并且可以访问整个训练集。5.2补充培训n个互补教师的知识可以通过词级知识蒸馏传递给学生算法1COKD输入：训练集D，教师数n输出：学生模型S1：随机初始化学生和教师1：n2：虽然不收敛做3：将D随机分成n+1个子集（1，2，...，n+1）4：对于t=1至n+1，5：对于i=1到n，6：在DO（i，t）上训练Ti7：根据等式6在Dt上训练S8：对于i=1至n，Ti← S9：返回学生模型S两种知识，缓解训练不均衡的问题。然而，这种方法是基于知识的升华，知识是单向地从教师转移到学生。虽然学生可以从均衡的训练中受益，但这些补充教师也为学生设定了上限，并阻止其表现得更好。为了克服这一限制，我们遵循双向知识转移的基本思想，其中知识也从学生转移到教师（Zhang et al. ，2018; Zhu et al. ，2018）。我们使用一个简单的重新初始化方法来实现双向知识转移。在每个epoch结束时，我们用学生模型的参数重新初始化教师模型Ti← S， i ∈ {1，2，.， n}。（七）通过重新初始化，学生和教师在每个时期开始时完全相同。这样一来，学生和老师不|V|nKD（θ）=qi（yt= k|y

下载后可阅读完整内容，剩余1页未读，立即下载