混合样本数据扩充方法AdMix用于神经机器翻译的提高的20字中文标题：AdMix：神经机器翻译的混合样本数据扩充方法

16 浏览量更新于2023-11-04 收藏 509KB PDF 举报

神经机器翻译

自然语言处理

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文AdMix：一种用于神经机器翻译的混合样本数据扩充方法常进，邱世贵，肖妮妮，郝佳苏州大学计算机科学与技术学院人工智能研究所{cjin，sgqiu，nnxiaoxiao，hjia} @ stu.suda.edu.cn，摘要在神经机器翻译（NMT）中，数据增强方法（如回译）已经证明了它们在提高翻译性能方面的有效性。在本文中，我们提出了一种新的数据增强方法NMT，这是独立于任何额外的训练数据。我们的方法AdMix由两部分组成：1）将微弱的离散噪声（词替换、词丢弃、词交换）引入到原始句子对中以形成增强样本; 2）通过将增强样本与训练语料库中的原始样本软混合来生成新的合成训练数据。在三个不同规模的翻译数据集上的实验表明，AdMix取得了显着的改善（1.0到2.7 BLEU点）在强Transformer基线上。当与其他数据扩充技术（例如，反向翻译），我们的方法可以得到进一步的改进。1介绍数据扩充是用于通过添加已经存在的数据的略微修改的副本或从现有数据新创建的合成数据来增加数据量的技术[Li等人，，2021]。这些方法可以显著提高深度学习方法的准确性。对于图像分类任务，有各种数据增强方法，如随机旋转、镜像、裁剪和剪切[Krizhevskyet al. ，2012; DeVries和Taylor，2017]。然而，由于自然语言的离散性，自然语言处理（NLP）任务中的通用数据增强技术尚未得到彻底的探索[Wei和Zou，2019; Gao等人，2019]。，2019]。根据增强数据的多样性，Li et al.[2021]将数据增强方法分为三类，包括释义、噪声和采样。具体而言，的基于释义的方法是生成语义上与原始样本相似的增强样本。回译[Sennrichet al. [2016年10月26日]是一个典型的解释-∗联系作者的方法来翻译单语数据的逆翻译模型。反向翻译方法虽然有效，但在目标语单语数据有限的情况下变得不适用。基于采样的方法掌握原始数据的分布，以采样新的数据点作为增强数据。对于这种类型的方法，常见的方法是使用预训练的语言模型来生成标记的增强句子[Anaby-Tavoret al. ，2020; Kumaret al. ，2020]。最后一类是基于噪声的，在保证有效性的前提下加入离散或连续的噪声。基于噪声的方法主要有单词删除、单词替换、单词交换和混淆等，由于这些方法简单有效，本文重点介绍了这些方法。然而，先前提出的基于噪声的方法具有其局限性。例如，将微弱的离散噪声（包括单词替换、单词丢弃和单词交换）注入到句子中产生具有有限多样性的句子。Guo et al.[2020]提出了Mixup的序列水平变体[Zhanget al. ，2017]。尽管它的有效性，这种方法是较少的解释和更困难的离散噪声为基础的方法。在本文中，我们提出了一种新的数据增强方法的神经机器翻译任务。我们的方法，AdMix，首先引入适量的离散噪声来获得增强样本，然后通过从 Dirichlet（α，. . .，α）分布。一旦这些增强的句子被混合，我们使用剩余连接将混合样本与它们的原始样本通过从Beta（β，β）分布采样的第二个随机凸组合进行组合。通过这种方式，我们获得了最终的合成样品。为了验证该方法的有效性，我们在 IWSLT14 德英、 LDC 中英和WMT14英德翻译任务上进行了实验实验结果表明，我们的方法在不同尺度的数据集上产生了显着的改善。我们强调我们在三个方面的贡献• 我们提出了一种简单但有效的策略来提高NMT的性能，该策略将原始句子与其离散转换的句子线性插值以生成新的合成训练数据。• 在三个翻译基准上的实验表明，arXiv：2205.04686v1 [cs.CL] 2022年5月+v：mala2277获取更多论文图1：所提出的方法AdMix的说明，该方法将原始句子与其离散转换的句子线性插值以生成合成训练样本。虚线表示原始句子的数据流，实线表示合成句子的数据我们的方法在各种强基线上实现了显著的改进。• 我们的方法可以与其他数据增强技术相结合，以产生进一步的改进。2相关工作大量的数据增强方法已经被支持，噪声的强度不足以改变输入句子的意义，但它们可能会导致特定单词的词汇意义丢失。因此，它影响了源方句子和目标方句子之间的对应。基于离散噪声的方法的另一个问题是其操作的有限多样性Cheng等人[2018]简单地将高斯噪声添加到句子中的所有单词嵌入中，以模拟可能的扰动类型式最近提出的，我们将提出几个相关的工作。ΣE[ x′]= E[ x]+σ，σ N0，σ2 I 、（1）NMT的数据增强我我一个流行的研究是回译[Sennrichet al. ，2016 a]，其基于反向翻译模型的条件概率分布来生成合成样本。但是反向翻译需要训练一个反向翻译模型，这通常会消耗巨大的计算资源。另一种类似的方法是自我训练[Heet al. ，2020年]，它用与模型预测配对的未标记数据来增强原始标记数据集。与回译不同，它使用源端单语数据生成伪平行句。自训练避免了训练反向翻译模型的需要，但它也不适用于有限的单语数据的情况。基于噪声的方法也是常见的数据增强技术。这些方法不仅易于使用，而且还可以提高模型的鲁棒性[Miyatoet al. ，2017]。Artetxe et al.[2017]随机选择句子中的几个单词并交换它们的位置。Lample等人[2018]以概率p随机删除源句子中的每个单词，以帮助训练无监督NMT模型。Xie et al.[2017]用占位符标记随机替换单词。与Xie et al.[2017]类似，Wang et al.[2018]提出了一种方法，用词汇表中的其他单词随机替换源句子和目标句子中的单词虽然微弱离散其中，矢量σ 2是从具有方差σ2的高斯分布中采样的。σ是超参数。此方法也不能保证保持语义。除了上述方法之外，还有一种数据增强方法最近引起了很多关注Mixup数据增强技术首先由Zhang等人在图像分类中提出。[2017年]。Hendrycks等人[2020]提出了一种称为AugMix的高级Mixup受这项工作的启发，Guo等人[2020]提出了Mixup的序列级变体如Guo等人[2020]所述，从训练集中采样一对训练示例（x1，y1）和（x2，y2）。这些合成句是：x =λx1+（1−λ）x2，y=λy1+（1−λ）y2。λ是从Beta（β，β）分布中得出的，它由超参数β控制。不同于Guo et al. [2020]，Cheng et al. [2020]首先建立它们的对抗样本，然后通过在对抗样本之间插值来生成新的合成样本。虽然Cheng et al.[2020]保证原句语义的不变性+v：mala2277获取更多论文噪声噪声1与 Guo et al.[2020] ，他们需要一个额外的语言模型（LM）来生成对抗样本。与这些研究相比，我们的方法不需要额外的资源，并且生成的合成样本比Mixup方法更具有可解释性。3混合螺旋在我们的方法AdMix中，目标是生成新的合成算法1AdMix伪代码1：输入：模型p，损失L，句子xorig，yorig，操作={替换，丢弃，交换}2：函数AdMix（xorig，yorig，k= 3，α= 1，β= 1）：3：用零填充xad，yad4：样品混合重量（w1，w2，...，（wk）Dirichlet（α，α，. . .，α）5：对于每个i∈[1，k]训练示例如图1所示。将其应用于源序列和靶序列两者以构建新的合成序列。i噪声i噪声 =操作[i]（x原始）=操作[i]（yorig）样本，用作增强翻译对，培训目的。这意味着我们的方法只影响NMT的训练过程，而不改变其推理过程。AdMix分为两个阶段：离散噪声和数据混合，详细描述如下。3.1离散噪声在这个阶段，我们引入适量的离散噪声，以获得几个增强的样本。设X∈Rs×V，Y∈Rt×V分别表示长度为s的源序列和长度为t的目标序列V表示词汇量给定一对训练样本（X，Y），在集合中，我们执行单词替换（WR），单词交换对源语句和目标语句分别进行字删除（WS）、字删除（WD）操作以获得（X wr，Y wr）、（X ws，Yws）、（X wd，Y wd）。例如，我们交换x1和x3的位置，用x ′替换x1，并分别删除WS，WR，WD句子中的x2（见图1）。在实践中，为了确保噪声量与句子长度l成比例，我们设置了一个超参数γ。对于WS和WR操作，改变的字的数量是n=γ 1。对于WD操作，我们以概率γ随机删除句子中的每个单词。3.2数据混合在得到增广语句后，我们首先分别得到它们的嵌入序列：（E[Xwr]，E[Ywr]），8：xad+=wi·Embedding（xi）9： yad+=wi·Em b e dding（yi10：结束11： xorig=嵌入（xorig）12：yorig=嵌入（yorig）13：样本权重m <$Beta（β，β）14 ： Interpolatexadmix=mxad+ （ 1−m ）xorig15 ： Interpolateyadmix=myad+ （ 1−m ）yorig16：returnxadmix，yadmix17：结束功能18：xadmix，yadmix= AdMix（xorig，yorig）19：损失输出：L（p（y|x orig; y orig））+ λ JS（p（y|x orig; y orig）; p（y|x混合; y混合））相同的输入句子。由于在AdMix操作之后，句子的语义大致保留，因此我们可以通过鼓励模型在原始样本和合成样本之间做出类似的预测来将Jensen-Shannon散度损失纳入训练目标。为此，我们最小化原始样本（x，y）及其增广变量的后验分布之间的Jensen-Shannon散度（xadmix，yadmix）.培训目标可以写为：L=Lce （ x ， y ） +λJS （ porig;padmix ），（4）电子邮件（E[Xws]，E[Yws]），（E[Xwd]，E[Ywd]）。受Hendrycks et al.[2020]的启发，我们选择使用elementwisecon-Lce= −logP（y i|x; y

下载后可阅读完整内容，剩余1页未读，立即下载