没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2277获取更多论文→→X›→ Y|学习推广到更多:神经机器翻译中的连续语义增强Wei Xiangpeng <$,Heng Yu< $,Yue Hu<$,§,Rongxiang Weng<$,WeihuaLuo <$,Jun Xie<$,RongJin<$†中国杭州阿里巴巴达摩院机器智能技术实验室中国科学院信息工程研究所,北京,中国§中国科学院大学网络安全学院pemywei@gmail.comhttps://github.com/pemywei/csanmt摘要有监督神经机器翻译(NMT)的主要任务是从一组平行句子对中学习生成以源输入为条件的目标句子,从而生成一个能够推广 到 未 知 实 例 的 模 型 。 然 而 , 它 是common- monly观察到的模型的泛化性能是高度影响的并行训练中使用的数据量。虽然数据扩充被广泛用于丰富训练数据,但传统的离散操作方法无法生成多样化和忠实的训练样本。在本文中,我们提出了一种 新 的 数 据 扩 充 范 式 -- 连 续 语 义 扩 充( Continuous Semantic Augmentation ,CSANMT),它在每个训练实例中增加一个邻接语义区域,该区域可以覆盖相同含义下的足够多的文字表达。我们在丰富资源和低资源环境下进行了广泛的实验,涉及各种语言对,包括WMT 14英语{德语,法 语 } , NIST 中 国 英 语 和 多 个 低 资 源IWITONS翻译任务。所提供的实验证据表明,CSANMT在现有的增强技术中设置了一个新的性能水平,大大提高了最先进的技术水平。11介绍神经机器翻译(NMT)是自然语言处理中的核心主题之一,其目的是以源输入为条件生成目标语言的单词序列(Sutskever et al. ,2014;Cho等人,2014; Wuet al. ,2016; Vaswani etal. ,2017年)。在公共监督设置中,训练目标是使用并行数据学习从源空间到目标空间的变换:f(y x; Θ)这样,NMT模型有望1核心代码见附录E。能够在大规模训练数据的帮助下推广到看不见的实例,这对资源有限的场景提出了很大的挑战为了解决这个问题,已经有各种方法,已经被开发为利用丰富的未标记数据来增强有限的标记数据(Sen nrichet al. ,2016a; Chenget al. ,2016; He等人,2016; Hoang et al. ,2018年; Edmund et al. ,2018; Heet al. ,2020;Song 等 人 , 2019 ) 。 例 如 , 回 译 ( BT )(Sennrich et al. ,2016 a)利用目标端的单语语料合成大规模的伪并行语料,并将其与真实的并行语料结合起来进行机器翻译。另一个研究方向是引入对抗性输入,以提高NMT模型对 小 扰 动 的 泛 化 能 力 ( Iyyer et al. , 2015;Fadaee等人,2017; Wang et al. ,2018; Chenget al. ,2018; Gao et al. ,2019)。虽然这些方法显著提高了翻译质量,但我们认为,在离散空间中增加观察到的训练数据固有地具有两个主要局限性。首先,离散空间中的增强训练实例缺乏多样性。我们仍然以BT为例,它通常使用波束搜索 ( Sennrichet al. , 2016a ) 或 贪 婪 搜 索(Lample et al. ,2018 a,c)为每个目标单语句子生成合成源句子。上述两种搜索策略都识别了最大后验(MAP)输出(Edmont et al. ,2018),因此在模糊的情况下倾向于最频繁的一个。Edmund等人(2018)提出了一种从输出分布中取样的策略来解决这个问题,但这种方法通常会产生低质量的合成数据 虽然一些扩展 (Wang et al. ,2018; Imamura et al. ,2018; Khayrallah et al. ,2020; Nguyen et al. ,2020)用多个字面形式来扩充每个训练实例,但是它们仍然不能覆盖相同含义下的足够的变体第二,很难在DIS中增加文本arXiv:2204.06812v1 [cs.CL] 2022年4月+v:mala2277获取更多论文XY--∈ X YX›→ Y|n=1.Σt=1|Σ|·C{}保留其原有的意义。在自然语言处理的上下文中,诸如添加、删除、重新排序和/或替换原始句子中的单词的离散操作通常导致语义的显著变化为了解决这个问题,Gao et al.(2019)和Cheng et al.(2020)通过插值嵌入,将单词替换为在相同上下文中使用语言模型预测的其他单词。这些技术虽然有效,但仅限于词级操作,无法执行整个句子的转换,例如通过重新措辞原始句子来产生另一个句子,以便它们具有相同的含义。在 本 文 中 , 我 们 提 出 了 连 续 语 义 增 强(CSANMT),一种新的数据增强范式NMT,以减轻上述两个限制。CSA NMT的原理是从语义保持的连续空间中产生不同的训练数据。具体地说,(1)我们首先通过切向对比训练语义编码器,它鼓励每个训练实例支持连续空间中的邻接语义区域,并将该区域的切点作为语义等价的临界状态这是由最近的工作所做的有趣的观察所激发的,该观察表明连续空间中的向量可以容易地覆盖相同意义下的足够的变量(Wei et al. ,2020a)。(2)然后,我们引入了一个混合高斯递归链(MGRC)算法,从相邻的语义区域的向量集群进行采样。(3)每个采样向量最终纳入解码器通过开发一个广播集成网络,这是不可知的模型架构。因此,将离散句子转换到连续空间可以有效地扩大训练数据空间,从而提高NMT模型的泛化能力。我们在各种机器翻译任务上评估了我们的框架,包括WMT 14英语-德语/法语,NIST中文-英语和多个IWP 4任务。具体来说,CSA NMT在WMT 14英语-德语任务上以30.94BLEU得分在现有增强技术中设置了新的技术水平。此外,我们的方法可以实现与基线模型相当的性能 , 仅 使 用 25% 的 训 练 数 据 。 这 表 明 CSANMT具有很大的潜力,可以在很少的数据下获得良好的结果此外,CSA NMT证明了一致性在 低 资 源 情 况 下 , 对 强 基 线 的 改 进 , 如IWSLT 14英语-德语和IWSLT 17英语-法语。2框架问题定义假设和是两个数据空间,分别覆盖源语言和目标语言中所有可能的单词序列。我们表示(x,y)(、)作为一对具有相同含义的两个句子,其中x={x1,x2,., x T}是具有T个标记的源句子,并且y=y1,y2,.,yT′是具有Tj标记的目标句。序列到序列模型通常用于神经机器翻译,其目的是学习从源空间到目标空间的转换:f(y x; Θ),使用并行数据。形式上,给定一组观察到的句子对=(x(n),y(n))N,训练目标是最大化对数似然:J ml e(Θ)=E ( x , y ) <$ClogP(y|x;Θ)。(一)对 数概 率通 常分 解为 :logP ( y x;Θ)=T′logP(y ty< t,x; Θ),其中Θ是一组可训练参数,y< t是时间步长t之前的部分序列。然而,在神经机器翻译的一般监督设置中存在一个主要问题,即由于获取并行数据的代价,训练实例的数量这使得学习NMT模型很难很好地推广到看不见的传统的数据增强方法通过对未标记(或已标记)的数据进行离散操作来生成更多的训练样本,例如反向翻译或随机替换一个词,这通常会遇到语义偏差和缺乏多样性的问题。2.1持续语义增强我们提出了一种用于神经机器翻译的新型数据增 强 范 式 , 称 为 连 续 语 义 增 强 ( CSANMT),以更好地将模型的能力推广到看不见的实例。我们采用Transformer(Vaswani etal. ,2017)模型作为主干,框架如图1所示。在该架构中,额外的语义编码器将源X和目标句子y分别转换为实值向量rx=rj(x; ΘJ)和ry=rj(y; ΘJ),其中rj(; ΘJ)是由Θ j(除Θ之外的参数)参数化的语义编码器的前向函数。+v:mala2277获取更多论文R∈X Y·R {}ǁ −ǁΣ·BCΣ输出概率Softmax解码器添加规范前馈添加规范编码器多头关注添加规范Feed广播前向一体化添加规范多头注意添加规范屏蔽多头注意力位置编码语义编码器位置编码图1:CSA NMT的框架。定义1.神经机器翻译的源语言和目标语言之间存在一个通用的语义空间,该语义空间由语义编码器建立。 它定义了一个前向函数,将离散的句子映射成连续的向量,满足:(x,y)(,):r x=r y。此外,语义空间中的邻接语义区域ν(r x,r y)描述了以每个观察到的句子对(x,y)为中心的足够的字面表达变体。在我们的场景中,我们首先从邻接语义区域中采样一系列向量(表示为)以增强当前训练实例,即=r(1),r(2),., r∈(K),其中r∈(k)v(r x,r y).K是决定采样向量数量的超参数。然后,每个样本r(k)通过广播集成网络被集成到生成过程ot=W1rt(k)+W2ot+b,(2)其中0t是自注意模块在位置t处的输出。 最后,Eq中的训练目标图2:为句子对(x(i),y(i))制定邻接语义区域的示意图。(2) 如何快速有效地从相邻序列区域中获取样本。在本节的其余部分,我们分别介绍了这两个问题的解决方案。切线对比学习我们从分析邻接语义区域的几何解释开始。示意图如图2所示。令(x(i),y(i))和(x(j),y(j))是从训练语料库中随机采样的两个实例。对于(x(i),y(i)),ad-jacency语义区域v(rx(i),ry(i))被定义为分别以rx(i)和ry(i)为中心的两个闭球的并集. 两者的半径balls是d=r x(i)ry(i)2,也被认为是-作为确定语义等价的松弛变量。潜在的解释是,与rx(i)(或ry(i))的距离不超过d的向量在语义上等同于rx(i)和ry(i)。 使ν(rx(i),ry(i))符合解释,我们采用类似的方法,在(Zheng et al. ,2019; Wei et al. ,2021)以利用切向对比度来优化语义编码器。具体来说,我们通过在当前实例和同一训练批中的其他实例之间应用凸插值来和切点(即,边界上的点)被认为是语义等价的临界状态。培训目标如下:我的天r(i),r(i),(1) 能够提高Jctl(Θ′)=E(x㈠) ,y(i) )日志是的。RXx(i)y、,ry(i)公司简介Jmle(Θ)=E(x,y)<$C,r<$(k). logP(y|x,r(k);Θ).(三)|B|=.是的。Ry(i),ry'(j)+es。rx(i),rx'(j)但是,通过用来自邻接语义区域的不同样本来扩充训练实例(x,y)jj/=i(四)该模型有望推广到更多不可见的实例。为此,我们必须考虑这样两个问题:(1)如何优化语义编码器,使其为每个观察到的训练对产生有意义的邻接语义区域。其中表示从训练语料库中随机选择的一批句子对,s()是计算两个向量之间负样本rx′(j)和ry′(j)被设计为如下形式:∈R+v:mala2277获取更多论文RWxR≤−←R {}Ⓢ−SR←R - -| |−||RNWⓈⓈⓈ−联系我们k−1i=1N算法1MGRC采样输入:训练实例(x,y)的表示,即rx和ry。输出:一组增强样本R={r},r(2)、...、r(K)}1:规范化r中每个元素的重要性,r= ryr:=|r|-min(|r|)最大值(|r|)−min(|r|)2:设k=1,ω(1)<$N(0,diag(W2)),r<$(1)=r+ω(1)<$图3:拟定M GRC采样的几何图。rx和ry分别是源句子x和目标句子y的表示。为了构造增强样本,一个直的-(ry−rx)3:将样本集初始化为=r(1)。4:当k(K1)5:k k+ 16:计算 的 电流比例向量:ω(k)前瞻性的想法是:(1)变换r=ry-rx 的 范 数 或 方 向,公式化为ωrxr (例如,黑色虚线箭头),其中每个元素ωi∈[−1,1],以及(2) 将rx(或ry)和变换ω<$r<$组合为rx=rx+ωr(即,红色的虚线是(W)。插值:D∈p(ω|ω(1),ω(2),., ω(k−1),根据等式(六)、7:计算当前样本:r(k)=r+ω(k)(ryrx)。8:r(k).9:结束时混合高斯分布如下:ω(k)p(ω|ω(1),ω(2),.,ω(k−1)),p= ηN。0,diag(W2)rx'(j)=rx(i)+λx(rx(j)-rx(i) ),λx(d′xy,1],(五)+(1.0−η)NR∫1k−1ω(i),1,.(六)ry'(j)=ry(i)+λy(ry(j)-ry(i) ),λyD∈(d′,1],k−1i=1其中dJx=<$r x(i)−r x(j)<$2,dJy=<$r y(i)−ry(j)<$2。 在Eq. (5)当DJx和DJy分别大于d时建立,否则该框架将递归链和剔除抽样机制具体地说,我们首先规范化的重要性,每一个层面的rWr=|r|-min(|r|),操作|·|以rx′(j) =rx(j)和ry′(j) =ry(j). 根据这种设计,第i个训练实例的邻接语义区域可以通过以下方式完全建立:在同一批训练中插值各种实例我们遵循Wei etal.(2021)在训练过程中自适应调整λx(或λy)的值,详细信息请参考原始论文为了从训练实例(x,y)的邻接语义区域中获得增强数据,我们引入了一种混合高斯递归链 ( Mixed Gaussian Recurrent Chain , 简 称MGRC)算法来设计一种高效的采样策略。如图3所示,我们首先将偏置向量r=ryrx根据预定义的尺度向量ω,即ωr,其中是元素的乘积运算。然后,我们构造了一个新的样本r_∞=r+ω,r表示增加当前实例,其中r是rx或ry。因此,采样策略的目标变成找到一组尺度向量,即ω ω( 1 ),ω(2),.,ω(K)。直觉上,我们可以认为ω遵循普适或高斯形式的分布,尽管后者在我们的经验中证明了更好的结果。形式上,我们设计max(r)min(r)向量中每个元素的绝对值,意味着元素的值越大,它提供的信息就越多。因此(0,diag(2))将抽样范围限定在相邻语义区域的一个子空间内,拒绝从无信息的维度进行另外,(1k−1ω(i),1)模拟了一个递归链,它生成一个合理的向量序列,其中当前向量依赖于先前向量。这种设计的原因是,我们期望,p在方程。(6)随着样本数的增加,可以成为平稳分布,这说明每个训练实例的多样性不是无限的η是平衡上述两种高斯形式的重要性的超参数。为了更清楚地呈现,算法1总结了采样过程。2.2训练和推理在我们的方法中的训练目标是等式中的Jmle(Θ)的组合。(3)和等式(3)中的 Jctl(ΘJ)。(四)、在实践中,我们介绍了一个两阶段的训练过程与小批量损失。首先,我们使用特定于任务的数据从头开始训练语义编码器,即Θj=argmaxΘ′ J ctl(ΘJ)。(一)−∼+v:mala2277获取更多论文→∗→→→·|→→→−联系我们→联系我们方法#参数。有效的.MT02Mt03MT04Mt05Mt08Avg.Transformer,base(我们的实现)84M45.0945.6345.0746.5945.8436.1843.86反向翻译(Sennrich et al. ,2016年a)84M46.7147.2246.8647.3646.6536.6944.96SwitchOut(Wang et al. ,2018年)84M46.1346.7245.6947.0846.1936.4744.43SemAug(Wei et al. 、2020年a)86M---49.1549.2140.94-AdvAug(Cheng et al. ,2020年)-49.2649.0347.9648.8649.8839.6347.07CSA NMT,碱96M50.4649.6548.8449.8050.4041.6348.06表1:Zh En翻译的BLEU评分[%]。“参数。“表示参数的数量(M=百万)。““表示通过我们的实现获得的结果,我们在反向翻译期间为每个目标构建多个伪源,而是引入额外的单语语料库(Wei et al. 2020a),以进行更公平的比较。其次,我们通过最大化对数似然来优化编码器 - 解 码 器 模 型 , 即 , θ max=argmaxΘJmle(Θ),并且同时以小的学习速率微调语义编码器。在推理过程中,目标词的序列是自回归生成的,这几乎与香草Transformer(Vaswaniet al. ,2017年)。一个主要的区别是,我们的方法包含了用于生成的输入序列的语义向量:y t=argmaxytP(y< t,x,r x; Θ),其中r x= y t(x; ΘJ)。该模块是插件式的,并且与模型架构无关3实验我们首先将CSA NMT应用于NIST汉语-英语(Zh En)、WMT 14英语-德语(En De)和英语-法语(En Fr)任务,并进行了广泛的分析,以更好地理解所提出的方法。然后,我们将我们的方法的能力推广到低资源的IWPLAN任务。3.1设置数据集。对于Zh En任务,考虑了LDC语料库,其由1.25 M句子对组成,分别包含27.9M中文单词和34.5M英文单词。NIST 2006数据集用作选择最佳模型的验证集,NIST 2002( MT02 ) 、 2003 ( MT03 ) 、 2004(MT04)、2005(MT05)、2008(MT08)用作测试集。对于En De任务,我们使用流行的WMT 14数据集,该数据集由大约450万个用 于 训 练 的 句 子 对 组 成 。 我 们 选 择newstest2013作为验证集,newstest2014作为 测试集 。对于En Fr任务,我们使用了由36M句子对组成的更大的WMT14数 据集 。使 用 {newstest 2012,2013}的组合进行模型选择,并在newstest2014上报告实验结果。指附录A了解更多详情。培训详情。我们在Transformer之上实现我们的方法(Vaswani et al. ,2017年)。语义编码器是一个4层的Transformer编码器,其隐藏大小与骨干模型相同。遵循Beca-bert(Reimers和Gurevych,2019),我们将所有位置的输出平均为序列级表示。用于在第二训练阶段微调SEMANIC编码器的学习速率被设置为1e5。所有实验都在8个V100 GPU上进行。我们累积了8次迭代的梯度,并用一批大约65K的令牌更新模型。 M GRC抽样中的超参数K和η在K的范围内在验证集上进行调整十,二十,四十,八十和η0。15,0。30,0。45,0。六,零。75,0。九十。公司现采用国际所有三个任务的默认设置为K = 40,η = 0。当η = 0时,对于Zh→En和En→De两者,均为6。45为En→Fr。为了评估,对于En→De以及En→Fr,波束尺寸和长度惩罚被设置为4和0.6,而对于Zh→En任务,波束尺寸和长度惩罚被设置为5和1.03.2主要结果Zh En的结果。表1显示了中文到英文翻译任务的结果。从结果中,我们可以得出结论,我们的方法优于现有的增强策略,如反向翻译(Sennrich et al. ,2016a; Wei et al. ,2020a)和切换(Wang et al. ,2018)大幅度(高达3.63BLEU),这验证了连续空间中的增强比具有离散操纵的方法更有效。与在嵌入空间中替换单词的方法相比(Cheng et al. ,2020年),我们的方法还展示了优越的性能,这表明具有连续语义的并行级增强在泛化到不可见实例方面效果更好此外,与普通的Transformer相比,我们的方法始终+v:mala2277获取更多论文→ →∗→→→→→∼Wnum.的令牌型号WMT 2014 En→DeWMT 2014 En→Fr#Params.BLEUSacreBLEU#Params.BLEUSacreBLEUTransformer,base(我们的实现)62M27.6726.867M40.5338.5Transformer,big(我们的实现)213M28.7927.72.22亿42.3640.3反向翻译(Sennrich et al. ,2016年a)213M29.2528.22.22亿41.7339.7SwitchOut(Wang et al. ,2018年)213M29.1828.12.22亿41.6239.6SemAug(Wei et al. 、2020年a)221M30.29-230M42.92-AdvAug(Cheng et al. ,2020年)†65M29.57----数据多样化(Nguyen et al. ,2020年)†1260米30.70-†1332M43.70-CSA NMT,碱74M30.1629.280M42.4040.3CSA NMT,大265M30.9429.8274M43.6841.6表2:WMT 14 En De和En Fr任务的BLEU评分[%]。“ ” indicates the results obtained by our implementation,我们进一步与增加参数数量的基线进行比较,并研究了配备更强基线(例如)的C SA NMT的性能。 深和规模的变压器(奥特等人,,2018; Wang et al. ,2019; Wei et al. 2020b),在第二。三点三(a) NISTZh→En(b) WMT14En→De(c) WMT14En→Fr(d)η的影响。图4:K和η对验证集的影响。(a)、(b)和(c)描绘了具有不同K在Zh→En、En→De和En→Fr上分别是一个线性关系。(d)展示了不同η值的性能。在五个测试集上实现了有希望的改进从表2中可以看出,我们的方法始终优于现有方法(Sennrich et al. ,2016a; Wangetal. ,2018; Wei et al. ,2020a; Cheng et al. ,2020年),在En De和En Fr任务上产生显著增益(0.65 1.76 BLEU)。一个例外是Nguyen等人(2020)通过多个前向和后向NMT模型实现了与我们相当的结果此外,我们观察到CSA NMT在基本设置的En De任务上给出30.16 BLEU,显著优于普通Transformer,2.49蓝色点。我们的方法通过配备更宽的架构产生0.68 BLEU的进一步改进,证明了比标准Transformer高2.15 BLEU的优越性类似可以为En→Fr任务绘制观察结果。3.3分析K和η的影响。图4示出了MGRC采样中的超参数K和η如何影响翻译质量。从图4(a)-4(c),我们可以观察到,逐渐增加样本的数量显著地改善了BLEU分数,这表明K=10和K=40之间的大的差距。然而,分配较大的值(例如,80)到K不会导致所有三个任务之间的进一步改善。 我们推测其原因有两个:(1)每个训练样本的多样性不是无限的,因此随着K的增加,M GRC饱和是不可避免的。(2)MGRC采样与缩放项目(即,r)可以退化到在同一位置遍历这促使我们在未来的工作中设计更复杂的出租。在我们的实验中,我们默认设置K=40,以实现训练效率和翻译质量之间的平衡。图4(d)显示了η对验证集的影响,其在采样过程中平衡了两种高斯形式的重要性。设置η=0。6在Zh→En和En→De任务上都实现了最佳结果,并且η=0。45在En→Fr任务上持续优于其他值词汇多样性与语义忠实性。我们展示了词汇多样性(通过TTR =num.各种类型的,+v:mala2277获取更多论文→→→→32282420160.00 0.25 0.50 0.75 1.00训练数据图5:不同比例的训练数据的离散和连续增强之间的比较ZhTTRDeFrBLEURT评分Zh De Fr人类7.58%22.08%百分之十三点九八---译6.95%20.32%11.76%0.5700.6350.696CSA NMT百分之七点一三21.26%百分之十二点九一0.5810.6840.739表 4 : 由 Human , vanilla Transformer ( 写 作Trans.),和CSA NMT。“Human” translations meanthe 耐用性测试集的结果参见附录D#目的采样Bleu模型Bleu号决定速度1默认切线CTL默认MGRC30.16变压器底座27.67参考23默认切线CTLMGRC w/o recurrent chain默认切向CTL MGRC(带均匀分布)29.6429.780.62×表5:MGRC取样和切向连接表3:语义编码器变体的效果。表4中的术语和机器翻译的语义忠实度(由BLEURT测量,考虑人类翻译作为参考)。显然,CSA NMT实质上弥合了人类翻译与机器翻译之间的词汇差异。同时,CSA NMT在保持翻译语义方面比Transformer有更好的表现.我们直观地将所有数据集上BLEU分数的显著增加归因于这两个因素。我们还研究了CSANMT对噪声输入的鲁棒性和干扰效应,详见附录D。语义编码器的效果。我们介绍了两种变体的语义编码器,调查其性能的恩德验证集。具体地说,(1)我们去除了额外的语义编码器,并通过对vanilla句子编码器的输出序列进行平均来构造语义级表示(2)我们将默认的4层语义编码器替换为大型预训练模型(PTM)(即,XLM-R(Conneau et al. ,2020))。结果报告于表3中。比较第2行和第3行,我们可以得出结论,一个额外的语义编码器是必要的,以构建不同语言之间的通用连续空间。此外,当大PTM被纳入,我们的方法产生进一步的改进,但它会导致大量的计算开销。离散增广与连续增广的比较。进行详细比较,En→De验证集上的传统学习为了比较不同增强方法之间的差异,我们渐进地 增 加 训 练 数 据 , 以 分 析 它 们 在 En Detranslation上的性能。如图5所示,我们的方法在每个子集上都明显优于反向翻译方法,无论是 否 有 额 外 的 单 语 数 据 ( Sen nrichet al.2016a)。这些结果证明了我们的方法比离散增强方法在推广到具有相同观测数据点集的不可见实例上的能力更强。令人鼓舞的是,我们的方法在只有25%的训练数据的情况下实现了与基线模型相当的性能,这表明我们的方法具有很大的潜力,可以在非常少的数据情况下实现良好的结果。MGRC抽样和切线对比学习的效果。为了更好地理解MGRC采样和切线对比学习的有效性,我们在表5中进行了详细的消融研究。具有不同目标或抽样策略的四种变体的详细信息见附录C。从结果中可以看出,去除递归依赖和用均匀分布代替高斯形式都使翻译质量下降,但前者下降幅度更大。我们还尝试了其他形式的训练目标,如变分推理和余弦相似性,以优化语义编码器。然而,BLEU评分显著下降。培训成本和融合。 图6我们反向翻译+单声道。回译基线BLEU(%)默认4层语义编码器30.160.95×4变分推理高斯抽样28.07删除额外的语义编码器28.71将PTM作为语义编码器31.101.0×5余弦相似度默认MGRC28.19+v:mala2277获取更多论文CSANMT反向平移Transformer→→→→32型号参数。恩→德En→FrTransformer(Vaswani et al. ,2017年)†213 M28.4041.80Transformer(我们的实施方案))213M 28.79 42.3628Transformer(我们的实施例, 10层) 265 M29.0842.49CSA NMT 265 M30.94 43.68Scale Trans.(Ott et al. ,2018)<$210M29.3043.2024D EEP(Wang et al. ,2019年)350万30.2643.24M SC(Wei et al. ,2020 b)<$512 M30.56-我们的CSANMT,Scale Trans.(Ott et al. ,2018年)263M31.3744.1220D EEP(Wang et al. ,2019年)405万31.35-M SC(Wei et al. ,2020 b)566百万 31.49-160.0 2.5 5.0 7.5 10.0迭代次数(x10000)图6:WMT14英语德语测试集上的BLEU曲线。请注意,反向转换是从普通Transformer初始化的。9075604530<1[1,10)[10,50)[50,200)[200,500)【500、1000】【 1000,10000】>=10000词频图7:vanilla Transformer和CSA NMT对不同频率单词的预测准确率的比较显示了训练期间BLEU分数的演变。很明显,我们的方法在每次迭代中的性能都比普通的Transformer和反向翻译方法好(除了前10K次预热迭代,由于K倍过采样,前一次迭代比后两次迭代获得的唯一训练数据更少)。对于普通的Transformer,BLEU分数在约52K迭代时达到其峰值。相比之下,CSA NMT和反向平移方法都需要75K更新才能收敛。换句话说,CSA NMT比vanilla Trans- former多花费44%的训练成本,这是由于使NMT模型与增强的训练实例收敛的这与反向翻译方法相同。单词预测精度。 图7说明了频繁词和罕见词的预测准确性。正如预期的那样,CSA NMT比vanilla Transformer更好地推广到稀有词,并且词预测准确率的差距高达16%。这表明NMT模型通过连续的语义增强消除了稀有词的概率低估附加参数和强表6:英语-德语(En De)和英语-法语(En Fr)任务的WMT 14测试集的BLEU评分[%]。上标†表示数字来自论文报告,其他数字基于我们的运行。“-”表 示 由 于 GPU 资 源 的 限 制 而 省 略 的 结 果 。 “10layers” means that we construct the基线。与普通Transformer相比,CSA NMT涉及大约20%的附加参数。在本节中,我们将进一步对比增加参数数量的基线,并研究配备更强基线(例如, 深和规模的变压器(奥特等人,,2018; Wang et al. ,2019; Wei et al. ,2020 b))。从表6中的WMT 14测试集的结果中,我们可以观察到,在相同数量的参数下,CSANMT仍然优于普通Transformer(超过1.2BLEU),这表明附加参数不是改进的关键。此外,CSA NMT至少0.9 BLEU增益配备了更强大的基线。 例如,秤Transformer(Ottet al. ,2018年),最初在En De任务中给出29.3 BLEU,现在通过我们的持续语义增强策略给出31.37 BLEU。值得一提的是,我们的方法可以帮助模型实现进一步的改进,即使它们足够强大。3.4 低资源机器翻译我们进一步概括了建议的CSANMT的能力数据集和模型配置的详细信息可参见附录B。表7显示了不同模型的结果与普通的Transformer相比,提出的CSA NMT分别将两个任务的BLEU分数提高了2.7和2.9分。TransformerCSANMT82.28479.279.680.574.673.666.568.265.953.855.650.345.630.430.9BLEU(%)词汇准确率(%)+v:mala2277获取更多论文模型英德英法Transformer28.6435.8回译29.4536.3CSA NMT31.2938.6表7:IWITOS任务的BLEU评分[%]。为了更公平的比较,所有的模型都是我们自己用同一个主干实现的,回译时没有引入单语外语料。这一结果表明,连续语义增强的声明丰富了具有非常有限的观察实例的4相关工作数 据 增 强 ( DA ) ( Eddom et al. , 2018;Kobayashi , 2018;Gaoetal., 2019年 ;Khayrallah等 人 , 2020; Pham et al. ,2021)已被广泛用于神经机器翻译。最流行的一 种 是 回 译 家 族 ( Sennrichet al. , 2016a;Nguyen et al. ,2020),其利用目标到源模型将单语目标句子翻译回源语言。此外,通过单词替换或嵌入插值来构建具有不同文字形式的对抗性训练实例(Wang et al. ,2018; Chengetal. ,2020)有利于提高NMT模型的泛化性能。邻 近 风 险 最 小 化 ( VRM ) ( Chapelleetal. ,2000)是数据扩充的另一原理,其中DA被形式化为从观测实例的邻近分布中提取附加伪样本。通常,根据数据集(或任务)的特征,例如颜色(比例,混合)增强,人工定义每 个 训 练 实 例 的 邻 近 区 域 ( Si-monyan 和Zisserman , 2014; Krizhevsky et al. , 2012;Zhang et al. ,2018年)在计算机视觉和对抗增强与流形邻居(Ng et al. ,2020; Cheng等人2021年,在NLP?我们的方法涉及VRM,涉及与相邻语义区域作为每个训练实例的附近句子表征学习是一个很好的研究领域,有几十种方法(Kiroset al. ,2015; Cer等人,2018;Yang et al. ,2018)。近年来,建立在大型预训 练 模 型 上 的 方 法 ( Devlin et al. , 2019;Conneau et al. ,2020年)已被广泛用于学习句子 级 表 示 ( Reimers 和 Gurevych , 2019 年 ;Huang等人,2019年)。,2019; Yang et al. ,2019)。我们工 作 也 涉 及 到 旨 在 学 习 普 遍 表 示 的 方 法(Zhang et al. ,2016; Schwenk and Douze,2017; Yang et al. ,2021)中的多个语义等价的句子。 在这种背景下,对比学习已经成为NLP中的一种流行范式(Kong et al. ,2020;Clark等人,2020; Gao et al. ,2021年)。最相关 的 工 作 是 Wei et al. ( 2021 ) 和 Chiet al.(2021),他们建议通过对比目标将跨语言句子转换为共享向量5结论我们提出了一种新的数据增强范例CSANMT,它涉及到一个相邻的SEMANTIC区域作为附近的流形为每个训练实例。该方法有望在训练数据非常有限的情况下,在泛化下生成更多不可见的实例。C-SANMT的主要组成部分是切向对比学习和混合高斯回流链采样。在资源丰富和低资源机器翻译任务上的实验证明了该方法的有效性在未来的工作中,我们希望进一步研究多语言对齐情景和大规模单语言数据相结合的邻区风险最小化问题,并将其发展为纯数据增强器与普通Transformer融合致谢我们要感谢所有的匿名重新观众(在ARR 10月和ARR 12月)有用的评论。我们还要感谢杨宝松和刘达一恒的有益建议和宝贵帮助。引用Mikel Artetxe,Gorka Labaka,Eneko Agirre,andKyunhyun Cho. 2018. 无监督神经机器翻译。在国际学习代表上。Daniel Cer 、 Yinfei Yang 、 Sheng-yi Kong 、 NanHua、Nicole Limtiaco、Rhomni St. John、NoahConstant 、 MarioGuajardo-Cespedes 、 SteveYuan、Chris Tar、Yun-Hsuan Sung、Brian Strope和 Ray Kurzweil 。 2018. 通 用 句 子
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++标准程序库:权威指南
- Java解惑:奇数判断误区与改进方法
- C++编程必读:20种设计模式详解与实战
- LM3S8962微控制器数据手册
- 51单片机C语言实战教程:从入门到精通
- Spring3.0权威指南:JavaEE6实战
- Win32多线程程序设计详解
- Lucene2.9.1开发全攻略:从环境配置到索引创建
- 内存虚拟硬盘技术:提升电脑速度的秘密武器
- Java操作数据库:保存与显示图片到数据库及页面
- ISO14001:2004环境管理体系要求详解
- ShopExV4.8二次开发详解
- 企业形象与产品推广一站式网站建设技术方案揭秘
- Shopex二次开发:触发器与控制器重定向技术详解
- FPGA开发实战指南:创新设计与进阶技巧
- ShopExV4.8二次开发入门:解决升级问题与功能扩展
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功