神经机器翻译中的去噪实体预训练方法DEEP：改进命名实体翻译的研究

31 浏览量更新于2023-12-01 收藏 989KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2277获取更多论文DEEP：用于神经机器翻译的去噪实体预训练胡俊杰1，林宏明3，赵京铉2，格雷厄姆·诺伊比格31威斯康星大学麦迪逊分校2，纽约大学3，卡内基梅隆大学www.example.comjunjie.hu @ wisc.edu，kyunghyun. nyu.edu，{hiroakih，gneubig}@cs.cmu.edu摘要已经表明，机器翻译模型通常为训练语料库中不常见的命名实体生成较差的翻译。早期的命名实体翻译方法主要集中在语音翻译上，忽略了翻译的句子语境，在领域和语言覆盖范围上都有局限性。为了解决这个限制，我们提出了DEEP，一种DE噪声实体P再训练方法，它利用大量的单语数据和知识库来提高句子内的命名实体翻译准确性。此外，我们还研究了一种多任务学习策略，该策略在实体增强的单语数据和并行数据上对预训练的神经机器翻译模型进行微调，以进一步改进实体翻译。在三种语言对上的实验结果表明，与强去噪自动编码基线相比，DEEP导致了显著的改进，对于英语-俄语翻译，增益高达1.3BLEU和高达9.2实体准确度点。1介绍命名实体的正确翻译对于准确传达许多领域的文本内容至关重要，例如新闻或科普文本（ Knight 和 Graehl ， 1998;Al-Onaizan 和Knight，2002 a，b）。此外，越来越多的新命名实体（例如，人名、位置）每天都出现，因此这些实体中的许多可能不存在于传统上用于训练MT系统的并行数据因此，即使是最先进的 MT系统也难以进行实体翻译。例如，Laubli et al.（2020）指出，一个据称已经达到人类平等的汉英新闻翻译系统在准确翻译实体方面仍然远远落后于人类翻译人员，并且在跨域转移或新兴实体的情况下，这个问题将进一步正因为如此，已经提出了一些方法，专门解决翻译实体的问题正如Liu（2015）所指出的，早期关于命名实体翻译的研究主要集中在基于规则的方法（Wan和Verspoor，1998），统计对齐方法（Huang et al. ，2003，2004）和Web挖掘方法（Huang等人，2005; Wu andChang，2007; Yang et al. ，2009）。然而，这些方法有两个主要问题。首先，由于它们通常在句子中没有任何上下文的情况下翻译单个命名实体，这使得难以使用上下文来解决实体中的歧义。此外，实体的翻译通常在实体识别然后翻译的两步过程中执行，这使翻译流水线复杂化并且可能导致级联错误（Huang et al. ，2003，2004; Chenet al. ，2013）。在本文中，我们专注于一个简单而有效的方法，提高命名实体翻译的上下文中。具体来说，我们这样做是通过开发一个数据增强方法，利用两个数据源：单语数据从目标语言和实体信息从知识库（KB）。我们的方法还采用了一种预训练和微调神经机器翻译（NMT）模型的程序，该程序被许多最近的作品所使用（Luong和Manning，2015; Neubig和Hu，2018; Song等人，2018年）。，2019;Liu et al. ，2020）。特别地，使用单语言数据来改善低资源和中等资源语言的翻译的预训练方法主要依赖于去噪自动编码目标，其试图重建文本的部分（Song et al. ，2019）或整个句子（Liu et al. ，2020），而不特别区分句子中的命名实体和其他功能词。相比之下，我们的方法利用实体链接器来识别单语言句子中的实体跨度，并将它们链接到包含以下内容的KB（例如 Wikidata （ Vrandec i cand Krötzsch ，2014））：arXiv：2111.07393v1 [cs.CL] 2021年11月+v：mala2277获取更多论文（）下一页∑∈D（·）（·）与DEEP进行[深]卡拉什卡尔，萨拉托夫和乌里扬诺夫斯克。你知道我的意思吗？多任务微调[MT] 这些新形式的商店已在克拉斯诺亚尔斯克、萨拉托夫和乌里扬诺夫斯克开业。[深]卡拉什卡尔，萨拉托夫和乌里扬诺夫斯克。你知道我的意思吗？实体识别和链接你知道我的意思吗？斯拉瑟诺代塔勒Krasnagar（Q3646）语言标签说明英语俄罗斯南部克拉斯诺亚尔斯克地区首府俄语我是说，我的朋友，* 电子邮件地址乌里扬诺夫斯克（Q5627）语言标签...英语乌里扬诺夫斯克.俄罗斯别担心...* *萨拉托夫（Q5332）语言标签...English萨拉托夫... 俄罗斯卡拉* *图1：我们的方法的一般工作流程。句子中的实体被提取并链接到维基数据，其中包括许多语言的翻译。DEEP使用噪声函数KB，它用翻译替换实体进行预训练。 DEEP也可以在多任务学习方式的微调过程中使用。获取这些实体的多语言翻译然后，我们通过将提取的实体跨度替换为它们在定义如下：LDAE（D，） =∈D��（ | （）; ），（1）知识库和预训练我们的NMT模型，以从噪声句子中重建原始句子。为了进一步提高实体翻译准确性并避免忘记从预训练中学习到的知识，我们还研究了一种多任务学习策略，该策略使用单语言数据上的去噪任务和并行数据上的翻译任务来微调在英语-俄语、英语-乌克兰语和英语-尼泊尔语翻译的实验中，DEEP在实体翻译准确性方面优于强去噪自动编码基线，并获得了与BLEU相当或略好的整体翻译准确性细粒度分析表明，我们的多任务微调策略提高了微调数据中不存在的实体2去噪自动编码（DAE）给出一组用于预训练的单语文本片段，即，��首先，序列到序列去噪自动编码器被预训练以从其被噪声函数f（·）破坏的噪声版本重建文本片段f（·）。形式上，DAE的目标是其中，k表示模型的学习参数。为了简化符号，我们在其余部分中删除了该公式包括MT数据增强的几个不同的先前工作，例如单语数据复制（Currey et al. ，2017），其中��是恒等函数，反向翻译（Sennrich et al. ，2016），其中��是向后平移模型，以及启发式噪声函数（Song et al. ，2019; Lewis et al. ，2020; Liu etal. ，2020），其根据手动设计的算法随机采样噪声。特别地，作为我们的基线，我们专注于mBART方法（Liu et al. ，2020），这是一种最近流行的方法，其中在每个文本段上顺序地使用两种类型的启发式噪声函数。第一个噪声函数随机屏蔽每个句子中的文本跨度。具体而言，首先从泊松分布（ = 0. 35），并且也随机地对跨度的开始位置进行采样。选定的文本范围将被掩码标记替换重复这个第二个噪声函数是以一定的概率对每个文本片段中的句子顺序进行静音。+v：mala2277获取更多论文∑（）下一页（）∈D（）下一页DDDDD，即，��∈D |��|=（��，��）∈D�� 最大值（|��|）的。|��|).3去噪实体预训练我们的方法采用了神经机器翻译的预训练和微调过程首先，我们应用实体链接器来识别单语语料库中的实体，并将它们链接到知识库（第3.1节）。然后，我们利用知识库中的实体翻译来创建用于预训练的噪声代码转换数据（§3.2）。最后，我们研究了一种多任务学习策略，以进一步提高低频实体的翻译（§3.3）。3.1实体识别和链接这一部分的目标是识别每个单语段中的实体并获得它们的翻译。为此，我们使用 Wikidata（Vrandec i candKrötzsch，2014），这是一个涵盖9400万实体的多语言知识库[1]每个实体都以维基百科条目存在的不同语言的表面形式表示。因此，将目标语言段中的实体提及链接到维基数据中的实体，允许我们获得该实体的多语言翻译，即，��源语言。例如，在图1的第二个框中，俄语中的命名实体替换后，我们创建一个噪声代码切换段，显式地包括在目标语言的上下文中的命名实体的翻译。对于包含较少实体的一些片段，它们的代码切换片段可以与它们类似，这潜在地导致更容易的去噪任务。因此，我们进一步将噪声添加到这些代码切换段。为此，如果被替换的实体跨度的单词计数小于片段中单词计数的一小部分（35%），则我们随机屏蔽其他非实体单词，以确保约35%的单词在噪声片段中被替换或屏蔽最后，我们遵循刘等人。（2020）随机排列句子顺序，- 是的然后，我们训练一个序列到序列模型，以从其噪声代码转换的句子中重建原始句子，如下所示：∀�� ∈��, ∃�� ∈KB : ��=surface(��, KB),�� ∈��LDEEP（D， KB）=∈D��（ | （，KB））其中表示的一组多语言表面形式。我们可以将translate操作定义为： =lookup，它只是在源语言中查找的表面形式。请注意，此策略依赖于这样一个事实，即较高资源语言的翻译包括在，我们在实验中采用了英语。然而，在一般情况下，3.3多任务微调在预训练之后，我们继续在用于机器翻译的并行语料库∑LMT（D）=（，）∈D涵盖所有感兴趣的语言对于实体记录-我们使用SLING（Ringgaard et al. ，2017），2它为维基百科中可用的任意语言构建了实体链接器。3.2 基于权限的数据增强从知识库中获得实体翻译后，我们试图将这些翻译显式地合并到单语句子中进行预训练。为此，我们设计了一个基于实体的噪声函数，该函数接收句子的噪声和KB，即，你好，KB。首先，我们将句子中所有检测到的实体跨度替换为它们从KB中的翻译：为了避免忘记从预训练阶段学习到的实体信息，我们研究了一种多任务学习策略，通过单语数据上的预训练目标和并行数据上的翻译目标来由于单语段是比句子更长的文本序列，尺寸和大小通常，噪声比噪声大，简单地将两个数据连接起来进行多任务微调会导致偏向于对较长的序列进行去噪，而不是实际翻译句子。为了平衡这两个任务，在每个时期，我们随机抽样一个子，replace（KB， KB）= swap（KB��，KB）其中swap（）函数交换单语语段集DJ总S U。但我不能。关于D在那里，等于一个实体跨越了一个在另一个中，它的翻译在另一个中，然后，我们检查多任务微调如下-低点：1统计数据截至2021年6月14日。2https://github.com/google/sling。L多任务=LMT （D））+L预训练（D）（4）（ |（三+v：mala2277获取更多论文L→→→→→浪令牌段类型实体计数NRu7.75亿1.8M1.4M337M123英国315M654K五二四千140M149Ne19M26K17K2M34浪火车Dev测试PF /FPT /T类型计数类型计数恩如23.5万3.0K 3.0K 百分之八十八百分之九十四百分之八十八百分之九十一英屋200K 2.3K 2.5K 百分之八十七百分之九十四百分之九十一百分之九十四表1：用于预训练的俄语（Ru），乌克兰语（Uk）和尼泊尔语（Ne）的维基百科语料库统计数据。表示512个子字序列中实体跨度的平均子字计数其中预训练目标Pre-train是DAE或DEEP，其中DEEP具有知识库的附加输入请注意，对于单语数据的采样策略，我们将多任务微调设置中的批量大小加倍到单任务微调设置中的批量大小。因此，我们确保模型在单任务和多任务设置中对相同数量的并行数据进行微调，并且多任务设置的收益主要来自单语数据上的额外任务。为了在微调期间区分任务，我们将源句子或噪声片段中的开始令牌（“[BOS]”）替换为用于翻译或去噪任务的对应任务令牌（即，我们通过开始标记嵌入来初始化额外的任务嵌入，并将这些任务嵌入附加到编码器的单词嵌入矩阵中。4实验环境预训练数据：我们对三种语言对进行实验：英语-俄语，英语-乌克兰语和英语-尼泊尔语。我们使用维基百科文章作为预训练的单语数据，并在表1中报告数据统计。我们使用与Liuet al.（2020）相同的符号模型对文本进行标记，并在512个子词的序列上进行训练。微调测试数据：我们使用WMT18中英俄翻译任务的新闻网站数据进行微调，并评估WMT18新闻领域测试数据的性能。对于英语-乌克兰语，我们使用 OPUS repository（Tiedemann，2012）中2020年7月的TED演讲稿进行微调和测试。对于英语-尼泊尔语翻译，我们使用Guzmán等人（2019）中的FLO-RES数据集，并遵循论文表2显示了数据统计-表2：用于微调的并行训练/开发/测试数据的统计。PF/F（PT/T）下的Type和Count显示预训练数据所覆盖的细化（测试）数据中实体类型和计数的百分比用于微调的并行数据。请注意，从表2的最后四列中，预训练数据中的实体覆盖了微调和测试数据中至少87%的实体类型和91%的实体计数，除了En-Ne对。架构：我们使用标准的序列到序列的Transformer模型（Vaswani et al. ，2017），每个层用于编码器和解码器。我们使用512的隐藏单位大小和12个注意力头。继Liu et al.（2020），我们在编码器和解码器的顶部添加了一个额外的层-归一化层，以使训练稳定在FP 16精度。我们使用相同的cycepiece模型和刘等人的词汇表。（2020年）。比较方法：我们比较了单任务和多任务设置中的方法，如下所示：• 随机MT：我们包括与没有预训练的随机初始化模型的比较，并为每个翻译任务微调模型• DAE MT：我们使用Liu等人的两个噪声函数通过DAE预训练模型。（2020）并为每个翻译任务微调模型。• DEEP MT：我们使用我们提出的DEEP目标预训练模型，并在翻译任务上微调• DAE DAE+MT：我们通过DAE目标预训练模型，并为DAE任务和转换任务微调模型。• DEEP DEEP+MT：我们通过DEEP目标预训练模型，并为DEEP任务和翻译任务微调模型。学习解码：我们首先使用Liu et al.（2020）中的默认参数对所有模型进行50K步的预训练，除了我们使用较小的一批64个文本片段，每个片段有 512个子字。我们使用亚当优化器（Adam= 1 e-6，2=0.98）和多项式学习率衰减+v：mala2277获取更多论文最大步长为500K的调度所有模型都在一个TPUv3（128GB）上进行了大约12小时的50K步的预训练。 3然后，我们重置学习率调度器，并继续在MT并行数据上对预训练模型进行4万步的微调。在单任务设置中，我们将每个批次中的最大令牌数设置为65，536，在多任务设置中，将批次大小设置为两倍。我们使用2,500步热身来达到最大学习-预训练→Finetune En-Uk En-Ru En-NeRandom→ MT 17.1 15.0 7.7DAE→ MT 19.5 18.5 10.5深度→山地19.4 18.5 11.2DAE→ DAE+MT19.718.911.6深海→深海+MT19.7 19.611.5表3：单任务和多任务设置中的BLEU。使用率为3e-5，并使用0.3脱落和0.2标签平滑训练后，我们使用波束搜索，波束大小为5，并在Liu等人的评估后在BLEU中报告结果。（2020年）。5讨论5.1语料库评价在表3中，我们比较了三种语言对测试数据的BLEU方面的所有方法。首先，我们发现所有的预训练方法都显著优于随机基线。特别是，我们的DEEP方法获得了3.5 BLEU点在单一任务设置中用于低资源En-Ne翻译。其次，我们观察到多任务微调策略比单任务微调对所有语言对的改进在多任务设置中，我们的DEEP方法比用于En-Ru翻译的DAE方法高出1.3个BLEU点值得注意的是，在多任务微调过程开始时，DEEP获得的BLEU分数高于DAE，但随着微调步骤的延长，两种方法之间的差距会缩小（参见附录A）。一个可能的原因是，由DEEP训练的模型受益于预训练数据中的实体翻译，并在微调阶段开始时获得良好的翻译随着多任务微调过程的进行，由DAE和DEEP训练的模型在翻译整个句子时更多地依赖于翻译任务而不是因此，根据BLEU可能无法清楚地评估实体翻译的数量5.2实体翻译准确性由于像BLEU这样的语料库级别的指标可能不一定能揭示命名实体翻译的微妙之处，因此在本节中，我们通过实体翻译精度执行细粒度评估，该实体翻译精度计算实体正确的比例3如图4所示，预先训练了5万步的模型提供了相当好的初始化。预训练→Finetune En-Uk En-Ru En-Ne随机→MT 49.5 31.1 20.9DAE→ MT 56.7 37.7 26.0深度→山地57.7 40.628.6DAE→ DAE+MT 58.8 47.2 27.9深海→深海+MT61.9 56.428.3表4：单任务和多任务设置中的实体翻译准确性。直接翻译成假设。具体来说，我们首先使用SLING为每对参考和假设提取实体然后，我们将实体的翻译准确度计算为在假设中正确提及正确实体的比例，然后进行宏观平均以获得平均实体翻译准确度。我们在表4中显示了结果。首先，我们的方法在单任务和多任务设置中的表现明显优于其他基线。特别是，DEEP的收益对于En-Uk和En-Ru翻译来说非常明显。一个可能的原因是，从预训练数据中提取的俄罗斯或乌克兰实体在微调和测试数据中具有相对较高的实体覆盖率，如表2所示。但是，SLING可能不会像在其他语言中那样检测到尼泊尔语中的那么多实体我们相信，未来在低资源语言中实体链接方面的进展可能会进一步提高DEEP的性能。我们把它作为我们未来的工作。5.3实体翻译精度的细粒度分析在本节中，我们将使用我们的方法进一步分析对不同类别实体的影响。实体组在微调上的性能模型在不同阶段（预训练、微调和测试）比其他实体更频繁地暴露于某些实体，这就提出了一个问题：+v：mala2277获取更多论文→→随机MTDAE MT迪普山DAE DAE + MTDEEP DEEP + MT7060504030201005 10152025303540微调步骤。（x 1000）PFT数据中的实体。4030201005 10152025303540微调步骤。（x 1000）PT数据中的实体。504030201005 10152025303540微调步骤。（x 1000）FT数据中的实体。图2：俄罗斯不同实体集的实体翻译准确性得分。PFT、PT、FT数据对应于出现在（i）预训练、微调和测试数据，（ii）仅预训练和测试数据，（iii）仅微调和测试数据中的实体在每个阶段受曝光影响的实体翻译？为了回答这个问题，我们将测试数据中出现的实体分为三组：• PFT：出现在预训练、微调和测试数据中的实体• PT：仅在预训练和测试数据中的实体• FT：仅在微调和测试数据中的实体我们在图2中显示了每个组在微调步骤中的英语到俄语实体翻译准确性得分。总体而言，出现在微调数据中的实体（PFT，FT）的准确性更高，这是由于暴露于微调数据。我们提出的方法在单任务和多任务设置中始终优于基线同行精度的差异在早期微调步骤中特别大，这表明我们的方法在具有很少微调数据的较低资源设置中的实用性多任务微调的效果对于PT中的实体最为显著。多任务微调不断地将模型暴露给预训练数据，从而防止模型忘记从PT学习的实体翻译。根据实体频率的性能：我们进一步分析了使用上述每组中的实体频率的实体翻译准确性得分。这为如何翻译频繁或罕见的实体提供了一个更细粒度的视角。为了做到这一点，我们从一个具有40K步微调的检查点中提取俄罗斯假设，根据每个数据中的频率将三个数据（即PFT，PT，FT然后，我们计算实体翻译精度，通过将它们与相应句子中的参考实体进行比较来确定每个仓。图3示出了来自随机MT（即，没有预训练）的每个预训练方法对测试数据的准确度增益，通过预训练和微调数据中的实体频率箱进行分组。注意，最左边的列和最下面的行分别表示PT、FT如前所述，所提出的方法在大多数频率段上改进得更多，在微调数据中不太频繁的实体上具有更大的差异这种趋势在多任务变体（DEEP DEEP + MT）中观察到更明显，其中收益主要来自从未出现在微调数据中的实体（即最左边的列）。因此，使用DEEP的多任务学习可以防止模型忘记在预训练时学习的实体翻译乌克兰语和尼泊尔语的分析结果在Ap-彭萨科拉湾5.4优化对DEEP微调数据大小与实体转换的影响：虽然DEEP主要侧重于低资源环境中的应用，但资源更多的评估为此，我们扩展了英语-俄语翻译的微调数据，其中有来自ParaCrawl的400万个句子对（Bañón et al. ，2020），从网页收集的并行数据。虽然网页可能包含新闻文本，但ParaCrawl数据涵盖更一般的领域。我们在组合数据上微调模型，并使用BLEU和实体翻译准确性进行评估表5显示了不同微调数据大小的模型比较。当使用预训练方法初始化模型时，我们平均实体翻译准确度+v：mala2277获取更多论文9.310.913.9-3.83.313.213.31.7-2.1-10.23.916.012.44.213.57.812.7-2.03.57.00.09.30.03.30.06.011.615.53.02.419.718.06.0-0.1-5.39.315.915.07.415.79.715.59.20.910.07.111.10.03.3100.044.317.127.11.44.650.434.915.23.31.232.427.721.96.918.732.032.39.43.312.428.623.10.0-3.3100.0Bleu实体翻译准确性（22440，569372）40（8424、22440）20(2948，8424] 0（2，2948）200 40频段来自Finetuning数据的binDAEMT带来的收益频段来自Finetuning数据的bin使用DEEPMT获得增益频段来自Finetuning数据的bin深度增益深度+MT图3：每个模型从Random→ MT获得的实体翻译准确度。方法0.24M 4.25MBLEU Acc.BLEU Acc.随机→MT 15.0 31.1 15.7 39.4DAE→ MT 18.5 37.7 16.3 53.7深度→山地18.5 40.6 17.2 53.9表5：不同微调数据大小的模型比较。右边的结果是在对新闻评论和ParaCrawl数据进行微调后获得的。观察到BLEU分数下降，实体翻译准确性分数增加。一方面，这部分是由于我们的微调数据（新闻）和ParaCrawl之间的域差异。无论如何，在所有测试设置中，DEEP始终预训练步骤与实体翻译：由于DEEP利用了实体增强的单语言数据，因此随着预训练步骤的增加，由DEEP训练的模型在不同的上下文中重新访问更多的实体为了分析在预训练阶段学习命名实体翻译的效率，我们关注的问题是：命名实体翻译需要多少预训练步骤？为了研究这个问题，我们从各个预训练步骤中提取由DEEP训练的保存检查点，并在检查点上应用单任务微调策略，再进行40K步。我们在图4中绘制了测试数据的实体翻译准确度和BLEU。我们发现，在25K步骤的检查点已经实现了相当的实体翻译精度相对于在150K步骤的检查点。这表明，DEEP可以有效地学习早在25K步的实体翻译。此外，BLEU和实体翻译19401838361734163215300 25 50 100 150 200预训练步骤（x 1000）图4：针对变量预训练步骤进行微调后的英语到俄语BLEU和实体翻译准确度得分。对40K步执行微调。随着预训练步数增加到20万步，准确性不断提高。5.5定性分析在本节中，我们选择了两个包含仅出现在预训练和测试数据中的实体的示例第一个示例包含三个位置名称。我们发现，单任务DAE训练的模型预测错误的地方，提供了错误的信息，在翻译的句子。此外，由多任务DAE训练的模型仅复制英文命名实体（即，“相比之下，我们的方法在单任务和多任务设置中预测了“Kraskirar“的正确翻译在第二个例子中，虽然我们的方法在单任务设置中对所有实体的预测都是错误的，但模型生成的结果是部分正确的。来自预训练数据的频率箱。实体翻译准确性Bleu+v：mala2277获取更多论文ⓍⓍⓍⓍⓍⓍSrc：这些新形式的商店已经在克拉斯诺亚尔斯克、萨拉托夫和乌里扬诺夫斯克开业。Ref：P a k i s t a n ， P a k i s t a n ， P a k i s t a n .1 我是说，我是说，我是说。2 我是说，我是说。3 萨拉托夫和乌里扬诺夫斯克的克拉斯诺亚尔斯克。第4章你是我的朋友，我是你的朋友。Src：在巴尔瑙尔，KrasnoarmeyskiyProspekt的新沥青 Ref：Baghdad，Baghdad1 你知道吗？2 你好，诺维沃，卡克拉克拉普普拉我洛斯佩普拉-3 Krasnoarmey Prospekt，в ы р а р н аул，нов ый н а Krasnoarmey Prospekt，в ы р а н и в а р а н а у л ий Krasnoarmeski.第四章，你必须要有一个好的开始。表6：命名实体翻译的四种预训练方法之间的质量比较。DAE→MT，DEP2：DEEP→MT，DEP3：DAE→DAE+ MT，DEP4：DEEP→DEEP+ MT。例如，翻译成请注意，多任务设置中的DEEP翻译了正确的实体相比之下，多任务DAE方法产生的翻译字面意思是 “ 巴尔瑙尔（Barnaul），新的神话（Myth），克拉斯诺亚尔斯克（ Krasnoarmey Prospekt ），生长（Grow）克拉斯诺亚尔斯克。”,6相关工作命名实体翻译已经被广泛研究了几十年（ Arbabi et al. ， 1994; Knight 和 Graehl ，1998）。早期的研究集中在基于规则的方法，使用音素或字形（万和Verspoor，1998年; Al-Onaizan和骑士，2002年b），统计方法，对齐实体在平行语料库（黄等。，2003，2004;Zhang et al. ，2005）和建立在搜索引擎之上的Web挖掘方法（Huang et al. ，2005; Wu andChang，2007; Yang et al. ，2009）。最近，神经模型已被应用于命名实体翻译。Finchet al.（2016）;Hadj Ameur et al.（2017）;Grund-kiewiczand Heafield（2018）使用神经机器翻译来音译命名实体。 Ugawa 等人（2018）;Torregrosa等人（2020）将命名实体标签集成到神经机器翻译模型中。在本文中，在不改变模型体系结构的情况下，我们专注于数据增强方法，以改善上下文中的名称实体翻译神经机器翻译的预训练在低资源和中等资源的语言翻译中已经被许多最近的研究所证明是有效的。作品（Conneau和Lample，2019; Song et al. ，2019; Liu et al. ，2020; Lin等人，2020年），其中提出了不同的预训练目标，以利用大量的单语数据进行翻译。这些方法采用去噪自动编码框架，其包括在用于MT的单语言数据上的数据增强中的若干不同工作（Lambert etal. ， 2011; Cur-reyet al. ， 2017; Sennrich etal. ，2016; Hu et al. ，2019）。然而，在预训练期间的命名实体翻译是探索不足。我们通过集成命名实体识别并链接到神经机器翻译的预训练来填补这一此外，虽然最近的工作表明，继续微调具有相同预训练目标的预训练编码器可以改善语言理解任务（Gururangan et al. ，2020年），这种微调范式尚未被探索用于序列到序列模型的预训练。此外，以前关于机器翻译多任务学习的工作集中在语言建模上（Gulcehre et al. ，2015; Zhang andZong，2016;Domhan and Hieber，2017; Zhou et al. ，2019年），而我们在这项工作中研究了一种基于实体的去噪任务的多任务微调策略，并证明了命名实体翻译的实质性改进。7结论在本文中，我们提出了一种基于实体的神经机器翻译预训练方法。我们的方法提高了命名实体翻译的准确性，以及BLEU得分强去噪自动编码基线在单任务和多任务设置。尽管有效，但未来可以考虑几个具有挑战性和有前途的方向。首先，最近的工作集成知识图（赵等。，2020 a，b）在+v：mala2277获取更多论文神经机器翻译已经显示出有希望的结果。我们的方法将实体链接到一个多语言的知识库，其中包含丰富的信息，如实体描述，关系链接，别名的实体。如何利用这些丰富的数据源来解决实体歧义有待进一步研究.其次，对域内文本数据的预训练模型进行微调是改进跨域实体翻译的潜在方法。引用亚瑟·奥奈赞和凯文·奈特2002年a。命名实体翻译。在HLT 2002的会议记录中，第122亚瑟·奥奈赞和凯文·奈特2002年b。使用单语和双语资源。在ACL 2002会议记录中，第400- 408页。M.阿尔巴比河，巴西-地M.菲施塔尔，V.C. Cheng和E. Bart.1994年。阿拉伯名字音译算法。IBMJournal of Research and Development，38（2）：183-194.Marta Bañón，Pinzhen Chen，Barry Haddow，Ken-neth Heafield ， Hieu Hoang ， Miquel Esplà-Gomis ， Mikel L. Forcada ， Amir Kamran ，Faheem Kirefu ， Philipp Koehn ， Sergio OrtizRojas，Leopoldo Pla Sempere、Gema Ramírez-Sánchez 、 Elsa Sar- rías 、 Marek Strelec 、 BrianThompson 、 William Waites 、 Dion Wiggins 和Jaume Zaragoza。2020. ParaCrawl：Web规模的并行corpora采集。在ACL 2020会议记录中，第4555- 4567页。陈玉凤，宗承庆，苏克毅。2013年。识别和对齐双语命名实体的联合模型。 ComputationalLinguistics，39（2）：229亚历克西斯·康诺和纪尧姆·兰普尔。2019. 跨语言语言模型预训练.在神经IPS的进展，第32卷。安娜·柯里，安东尼奥·瓦莱里奥·米切利·巴隆，还有肯尼思·希菲尔德。2017. 复制的单语数据改进了低资源神经机器翻译。第二届机器翻译会议论文集，第148托拜厄斯·多姆汉和菲利克斯·希伯。2017. 通过多任务学习使用目标侧单语数据进行神经机器翻译。在EMNLP 2017会议记录中，第1500安德鲁·芬奇，刘乐茂，王晓林，住田荣一郎。2016. 机器音译的目标双向神经模型。第六届命名实体研讨会论文集，第78罗曼·格伦德凯维奇和肯尼斯·希菲尔德2018. 命名实体音译的神经机器翻译技术。第七届命名实体研讨会论文集，第89Caglar Gulcehre ， Orhan Firat ， Kelvin Xu ，Kyunghyun Cho，Loic Barrault，Huei-Chi Lin，Fethi Bougares ， Holger Schwenk ， and YoongeBengio. 2015. 单语语料库在神经机器翻译中的应用。Corr.苏钦Gururang an ，AnaMaraso vic' ，SwabhaSwayamdipta ， Kyle Lo ， Iz Beltagy ，Doug Downey，and Noah A.史密斯2020. Don’tstop pretraining:在ACL 2020会议记录中，第8342Francisco Guzmán，Peng-Jen Chen，Myle Ott，JuanPino ， Guillaume Lample ， Philipp Koehn ，Vishrav Chaudhary ， and Marc'Aurelio Ranzato.2019. 低资源机器翻译的在EMNLP-IJCNLP 2019会议记录中，第6098Mohamed Seghir Hadj Ameur 、 Farid Meziane 和Ahmed Guessoum。2017. 使用基于注意力的编码解码器模型的阿拉伯语机器翻译。 ProcediaComputer Science，117：287Junjie Hu ，Mengzhou Xia ， Graham Neubig ， andJaime Carbonell. 2019. 神经机器翻译中词汇归纳的领域适应。在ACL 2019的程序中，第2989Fei Huang，Stephan Vogel，Alex Waibel. 2003. 基于多特征代价最小化的命名实体双语等价自动抽取。 ACL2003年多语言和混合语言命名实体识别研讨会论文集，第9Fei Huang，Stephan Vogel，Alex Waibel. 2004. 结合语音和语义相似性改进命名实体翻译。在HLT-NAACL 2004的会议记录中，第281Fei Huang，Ying Zhang，and Stephan Vogel. 2005.从网络语料库中挖掘关键短语翻译。在HLT-EMNLP 2005会议记录中，第483- 490页。凯文·奈特和乔纳森·格雷尔1998. 机器翻译。Computational Linguistics，24（4）：599-612.Patrik Lambert ， Holger Schwenk ， ChristopheServan，and Sadaf Abdul-Rauf. 2011. 基于单语数据的翻译模型自适应研究。第六届统计机器翻译研讨会论文集，第284Samuel Laubli，Sheila Castilho，Graham Neubig，Rico Sennrich，Qinlan Shen，and Antonio Toral.2020.语言翻译中评估人机对等性的一组建议JAIR，67.+v：mala2277获取更多论文Mike Lewis，Yinhan Liu，Naman戈亚尔，Mar-jan Ghazvininejad ， Abdelrahman Mohamed ，Omer Levy ， Veselin Stoyanov ， and LukeZettlemoyer. 2020. BART：用于自然语言生成、翻译和理解的去噪序列到序列预。在ACL 2020会议记录中，第7871林泽辉，潘晓，王明轩，邱喜鹏，冯江涛，周浩，李磊。2020. 利用对齐信息预训练多语言神经机器翻译。在EMNLP 2020会议记录中，第2649刘英。2015. 命名实体翻译的技术分析。在ISCI2015会议记录中，第2028-2037页。Yinhan Liu，Jiatao Gu，Naman Goyal，Xian Li，Sergey Eddom ， Marjan Ghazvininejad ， MikeLewis，and Luke Zettlemoyer. 2020. 用于神经机器翻译的多语言去噪预训练。TACL，8：726-742。Minh-Thang Luong和Christopher D.曼宁2015年。斯坦福神经机器翻译系统的spo-ken语言域。2015年，在Iwavelet。Graham Neubig和Junjie Hu。2018年神经机器翻译快速适应新语言。在EMNLP 2018会议记录中，第875Michael Ringgaard ， Rahu

下载后可阅读完整内容，剩余1页未读，立即下载