迁移学习的零镜头翻译半监督方法

31 浏览量更新于2024-01-27 收藏 1.07MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

$$- -$$- -$沙特国王大学学报TLSPG：基于迁移学习的零镜头翻译半监督Amit Kumar，Rajesh Kumar Mundotiya Mundotiya，Ajay Pratap，Anil Kumar Singh计算机科学与工程系，印度理工学院（BHU），印度北方邦瓦拉纳西221005阿提奇莱因福奥文章历史记录：收到2021年2022年2月15日修订2022年3月7日接受2022年3月25日在线提供保留字：机器翻译Zero-shot翻译迁移学习半监督A B S T R A C T近年来，机器翻译（MT）取得了长足的进步，但由于缺乏低资源（有时甚至是零资源）语言的并行语料库，它仍然面临数据稀缺的然而，迁移学习（TL）是低资源机器翻译系统广泛使用的方向之一，以克服这个问题。为这些语言创建并行语料库是处理数据稀缺的另一种方法，但成本高，耗时且费力。为了避免上述并行语料库形成的局限性，我们提出了一种基于TL的零镜头机器翻译系统的半监督伪语料库生成（TLSPG）方法。它利用低资源语言对和零资源语言对之间的相关性，通过TL方法生成伪语料库。在我们的实验中，这种相关性有助于提高零激发MT系统的性能在零资源语言对上的实验表明，我们的方法有效地优于现有的最先进的模型，为Bhojpuri！印地语，Magah i！印地语，印地语！Bhojpuri和印地语！马加希，分别。版权所有©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍机器翻译（MT）是一种用于将一种语言转换为另一种语言的自动翻译系统，由于其贡献而在自然语言处理（NLP）研究界获得了全世界的关注（Sutskever et al.，2014年）。统计机器翻译（SMT）和神经机器翻译（NMT）是MT用于语言翻译的两种最广泛使用的架构与传统的 MT 系统（ Abercrombie ， 2016;Hurskainen 和Tiedemann，2017）不同，SMT是一个由语言和翻译模型组成的对数线性框架（Koehn，2009），而NMT是一个基于端到端神经网络的编码器-解码器模型，使用概率方法预测单词序列的可能性。编码器为输入句子生成上下文向量，解码器解码这些向量以生成目标序列。Bahdanau等人（2014）在编码器中引入了一种注意力机制，用于对包含更好的句子上下文向量的单词赋予更多权重（Bahdanau等人， 2014年）。基于注意机制，NMT已经有了许多改进，如Transformer*通讯作者。电子邮件地址：iitbhu.ac.in（A.Kumar），rajeshkm.rs. cse16@iitbhu.ac.in（韩国Mundotiya ）， ajay. iitbhu.ac.in （ A.Pratap ）， aksingh. cse@iitbhu.ac.in （ A.K.Singh）。（ Vaswani 等人， 2017 ）、 BART （ Lewis 等人， 2020 ）和mBART（Liu等人，2020年，近年来。这两种MT模型都需要一个庞大的并行语料库。NMT通过引入各种技术（诸如回译（back-translation））在处理巨大并行资源的需求方面取得了成功（Edmund 等人， 2018 ），域适应（Chu和Wang，2018）和微调（Dabre等人，2019年）的报告。NMT涵盖了高资源语言（HRL）和低资源语言（LRL）的许多翻译范围。这里，HRL是大量可用于训练模型的德语英语和法语英语）。相比之下，LRL是其中训练数据不足以更好地学习句子之间的上下文的语言对（例如，尼泊尔语印地语、马拉地语印地语）。训练数据不足是NMT提高LRL翻译质量的障碍，导致上下文缺失和罕见词问题。Sennrich等人介绍的一些技术。（2016）和Fei et al. （2021）处理这些问题。当训练数据的可用性几乎为零时，MT所面临的问题变得更具挑战性我们称这种问题为零资源问题（ZRP），如图所示。1.一、翻译这种零资源语言对的技术被称为Zero-Shot翻译（ZST）。零资源语言对的一些示例是Magahi印地语、Bhojpuri印地语和俄语印地语（Ojha等人，2020年）。为这些语言创建并行语料库是一个耗时且昂贵的过程https://doi.org/10.1016/j.jksuci.2022.03.0081319-1578/©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一个在CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comA. 放大图片作者：A.Pratap等人沙特国王大学学报6553- -$$$- -$许多语言专家的手工参与。已经在支持零资源语言对的翻译的NMT上完成了若干工作-例如，多语言和基于语言的翻译（Firat等人，2016;Johnson等人，2017年; Lu等人，2018年;刘例如，2020年）。由于包含多种语言，多语言模型通常以更好的方式进行概括（Dabre等人，2020年）。然而，有时这对于形态丰富的语言是无效的，这是由于形态复杂性的差异。基于主元的机器翻译也是产生零资源语言对译文的传统方法之一。然而，通过基于语法的方法训练模型会导致流畅性问题（Nasution等人，2017年）。为了解决ZST的上述问题，我们提出了一种基于迁移学习的半监督伪语料库生成（TLSPG）方法用于零资源语言的翻译，该方法使用半监督学习来利用低资源和零资源语言对之间的所提出的TLSPG方法的动机是Kumar等人的工作。（2020）建立在SMT和NMT的混合架构上。TLSPG通过利用低资源和零资源语言对之间的相关性来生成伪语料库，并使用迁移学习（TL）以半监督的方式学习句子的上下文。与基于多语言的ZST中的多个HRL和LRL不同，我们只使用单个LRL并行语料库来开发零资源语言的机器翻译系统。我们展示了尼泊尔语（NE ）印地语（HI），Bhojpuri（BHO）印地语（HI）和Magahi（MAG）印地语（HI）语言对的实验。在我们的实验中，尼泊尔语印地语被用来生成零资源语言对（Bhojpuri印地语和Magahi印地语），通过TL利用它们的相关性。所有被证明的语言主要在南亚国家使用。ZST的应用可以支持不同的领域，例如智能医疗保健（Mutal等人，2019; Skianis等人， 2020 ），军事和国防（ Klavans 等人， 2018 ），金融（Ghaddar和Langlais，2020）和电子商务（Calixto等人， 2017年）。例如，使用开发的模型可以Fig. 1. MT中的零资源问题表1语言之间的关联性特征语言语系脚本语序Bhojpuri印度雅利安梵文S-O-V印地语印度雅利安梵文S-O-V马加希印度雅利安梵文S-O-V尼泊尔印度雅利安梵文S-O-V注：- S：主语，O：宾语，V：动词。表2句子示例。语言句子我的心在天上，我的心在天上。印地语Axi meM parametSvara ne AkASa Ora pqWvI kI sqRti kI. MagahijirI sA bolalUz wo alabala bake lagalA.尼泊尔gretara noedA vestako kAlo bAxala Gatne nAma liiraheko CENA.注：-所有语言都通过WX表示（Diwakar等人， 2010年）。有助于消除医疗保健领域中执业医师和当地语言使用者之间的交流障碍（Stickland等人， 2021年）。基于表1中描述的共同特征，Bhojpuri语、Magahi语、尼泊尔语和印地语被认为是相关语言。此外，表2中给出的句子示例基于书写脚本、单词排序和语言家族中的共同性证明了上述考虑的语言之间的相关性具体而言，本文的贡献总结如下：提出了ZST的TLSPG方法，以克服现有NMT模型的并行数据限制。与现有的基于多语言的ZST模型（Firat等人，2016; Johnson等人，2017年; Liu等人，2020），所提出的方法利用单个LRL对的相关性作为半监督TL技术，通过实证分析来提高性能和有效性。此外，通过在综合生成的数据的不同子样本上训练模型并与文献中可用的其他最先进技术进行比较，执行统计显著性分析并测量鲁棒性其余的文件是组织如下：密切相关的作品在第2节进行审查。第3节中讨论了问题公式化和建议模型。实验数据集和设置在第4节中给出。获得的结果和相应分析见第5节。最后，第6节结束了这项工作。2. 相关工作在本节中，我们将仔细回顾表3中所示的现有ZST系统。Firat etal.（2016）提出了一种用于多路多语言NMT模型的微调算法来翻译零资源语言对（Firat et al.，2016年）。Johnson等人（2017）将所有训练数据输入到单个NMT引擎中并训练模型（Johnson等人，2017年）。在Sestorain等人的工作中，（2018），作者展示了一个由强化和双重学习组成的零射击系统。在Lakew等人的工作中。（2018），作者提出了一种基于单语数据的多语言NMT，并证明了自学习技术通过使用双语平行语料库进行训练，提高了多语言零射击方向的效率。Lu等人（2018）展示了一种多语言编码器-解码器NMT架构，该架构具有用于执行直接ZST的显式神经中间语言（Lu等人， 2018年）。●●●A. 放大图片作者：A.Pratap等人沙特国王大学学报6554- -$attn<$softmaxpd软最大值Pham等人（2019年）通过在标准IWITH2017多语言基准上为12种语言对设置“语言链”来设计一个设置（Pham等人，2019年）的报告。Hokamp等人（2019）为ZST提供了一个多语言MT系统，该系统基于WMT 2019共享并行任务数据集训练的110个独特的翻译方向，并通过在TED演讲多并行数据集中为零镜头对创建黄金集进行评估（Hokamp等人， 2019年）的报告。Gu等人（2019）通过定量分析源语言和解码句子之间的互信息来解决退化问题（Gu等人， 2019年）的报告。阿里瓦扎甘等人（2019b ）对在 250 亿个示例上训练的 103 种语言进行了零射击实验（Arivazhagan等人，2019年b）。Arivazhagan等人（2019 a）提出了一种辅助损失，迫使模型学习源语言不变表示，以提高泛化能力（Arivazhagan等人，2019年a）。Al-Shedivat和Parikh（2019）专注于ZST泛化，并提出了一种基于一致协议的零镜头翻译学习方法（Al-Shedivat和Parikh，2019）。Zhang等人（2020）证明了反向翻译的可行性，以允许大规模ZST并在多语言数据集上进行实验（Zhang等人， 2020年）。Kumar等人（2020）提出了一个基于双语的ZST系统，用于Bhojpuri 印地语和 Magahi 印地语语言对（ Kumar 等人， 2020年）。它基于无监督域自适应方法。Liu 等人（2020 ）提出了mBART-一种序列到序列去噪自动编码器，使用BART目标在许多语言的大规模单语语料库上进行预训练（Liu等人，2020年）。Lakew等人（2021）提出了一种新的零激发NMT方法，该方法包括三个阶段：初始化、增强和训练，用于构建零激发对的自学习循环（Lakew等人， 2021年）。如上所述，用于ZST的大多数现有方法主要是多语言NMT模型的结果，并且专门针对HRL和LRL的组合进行训练，以提高零镜头语言的翻译质量。平行语料库的不足阻碍了ZST系统的开发。与现有的方法相比，本文提出的基于目标语言的方法在不借助目标语言的情况下，充分利用了目标语言对之间的相关性，对零镜头语言对的识别能力有了显著的提高3. 基于迁移学习的半监督伪语料库生成本节讨论我们提出的处理ZRP的模型的框架。我们提出了一个基于迁移学习的框架，并将其命名为基于迁移学习的半监督伪语料库生成（TLSPG）方法。它包括三个模块：基于transformer的半监督学习（TSL），基于Moses的半监督学习（MSL）和基于TL的伪语料库生成。TSL和MSL模块基于半监督学习对零资源语言对的模型进行预训练。基于TL的伪语料库生成模块通过预训练的TSL和MSL模块生成零资源语言对的并行对齐语料库。然后将相关语言的平行语料与伪语料库生成的数据进行合并，并通过基于Transformer或Moses的翻译系统训练翻译模型，生成合成3.1. TSLTSL是一种基于通过Transformer架构训练NMT模型的半监督迁移学习方法。我们用五个编码器和解码器堆栈来训练Transformer。为了弥补ZST中训练语言对的不足，TSL以零资源相关的语言对作为输入来训练转换器。在训练之前，TSL通过无监督分词器对训练句子进行预处理为了训练模型，生成的子词标记以子词嵌入的形式被添加到位置编码中，并作为输入被提供给编码器和解码器层，如图2所示。TSL计算Trans-former中的注意力，如下所示：.Q KT！K其中Q、K、V和dk分别表示从输入序列生成的查询、键、值和键的维度用于训练基于Transformer的NMT模型的交叉熵损失函数Lr定义如下：表3密切相关的现有模式的比较概览。机器翻译技术类型训练模型零资源语言对双语多语言Finetuning枢轴神经Firat等人（2016年）UU格鲁！FRSestorain等人（2018）ULSTMES $FR，ES $RU，RU $FRJohnson等人（2017）ULSTMPT！ESES！JA，EN${BE，RU，UK}Lakew等人（2018）UURNN和TransformerIT $ROLu等人（2018）ULSTMFR $RU，ES $ZH，ES $FRPham等人（2019）UTransformerEN $RO，DE $IT，EN $NL，NL $IT，DE $RO，NL $ROHokamp等人（ 2019）UTransformerCS，DE，FI，GU，KK，LT，RU，TR，ZH，FR（88个方向）Gu等人（2019）UTransformerDE！IT，DE！NL，A R！RU，A R！ZH，RU！ZHArivazhagan等人（2019 b）UTransformerDE！FR，BE！如，怡！德，弗！ZH，嗨！FI，RU！FIArivazhagan et al. （2019 a）UUUTransformerDE $FRAl-Shedivat andParikh（2019）UULSTMES $DE，ES $FR，DE$FR Zhang et al. （2020）UUUTransformerOPUS-100Kumar et al. （2020）UTransformerBHO $HI，MAG$HILiu等人（2020）UUmBARTNL $EN，AR $EN，NL $DELakew等人（2021）UUUTransformerAZ $EN，BE $EN，GL $EN，SK $EN注：EN：英语，英语：西班牙语，DE：德语，FR：法国，RU：俄语，PT：葡萄牙语，JA：日语，ZH：中国人，GU：Gujarati，HI：印地语，IT：意大利语，RO：罗马尼亚语，BHO：Bhojpuri，MAG：Magahi，BE：白俄罗斯人，英国：乌克兰语，CS：捷克，荷兰：荷兰语，FI：芬兰语，KK：哈萨克语，LT：立陶宛，TR：土耳其语，AR：阿拉伯语，亚利桑那州：阿塞拜疆，GL：加利西亚，SK：GRU：Gated Recurrent Unit，LSTM：Long Short-Term Memory，RNN：Recurrent Neural Network。A. 放大图片作者：A.Pratap等人沙特国王大学学报6555XMXð Þ ð j Þ！！！X！！11我我我我Lr¼-Xr;Yrp^Xr;Yrlog10PYrjXr;2Moses解码器上的总体MSL解码器对预测的目标令牌进行解码然后对标记化的其中，Xr和Yr分别是属于零激发相关训练语言对Dr的源句子和目标句子。此外，委员会认为，p^<$Xr;Yr<$是Xr的黄金分布。softmax函数用于预测序列和最终靶序列。MSL如下计算源输入句子f的最佳目标翻译ebest：eargmaxp e f将预测的子字嵌入转换成概率，最好¼埃什季什ð4Þ定义如下：pYtexpYt;3expYj第1页1/4argmaxepfjepLMe;哪里pLM e和p f e分别是语言和翻译模型。一个基于短语的对数线性MSL模型将p {\displaystylep}分解为pfIjeI如下所示（Koehn，2009年）：11其中，M表示I已知的唯一字的总数，在时间步长t处生成的子字向量Yt的模型。解码器对预测的目标概率进行解码，将它们传递给波束搜索（图 2）的情况。波束搜索给出最佳预测的目标侧子字令牌。然后，对预测的目标侧子词标记执行去标记化对于预测，我们将零资源测试句子作为模型的输入。最后，我们得到ZST模型作为TSL方法的输出。3.2. MSLMSL是依赖于经由Moses训练基于短语的SMT系统的半监督TL方法（Koehn等人，2007）框架。为了填补ZST中训练语言对的空白，MSL将相关的语言对作为输入来训练Moses，如图所示。3.第三章。在训练之前，MSL通过Moses tokenizer对训练句子进行预处理，并将句子长度限制为80MSL是一个基于Moses的（对数线性）框架，它依赖于两个模块：语言和翻译。KenLM （Heafield ，2011）在相关语言对的目标侧单语语料库上训练语言模型翻译模型由短语翻译概率和失真概率组成。对于翻译，MSL使用GIZA++（Och和Ney，2003）在相关语言的平行语料库上进行训练我们训练pfIjeIY/fjedstart-end-1-1;5其中，I是从f断开的短语数量fi;f是短语翻译概率，di：f是失真概率，starti是位置源输入短语的第一个单词的位置，其翻译为第i个目标短语，并且endi是该源短语的最后一个单词的位置。最后，为了检验模型，我们给出了零资源测试数据作为输入进行预测，并得到基于Moses的ZST模型作为输出。3.3. 基于TL的伪语料库生成在本节中，我们将讨论基于预训练的TSL和MSL模型的伪语料库生成方法。图4展示了采用TLSPG方法的伪语料库生成模块。TLSPG首先将预训练的TSL或MSL模型应用于零资源语言对的目标端单语数据，以生成预测的源端单语句子。然后，零资源语言对的目标方单语句子和预测的源方单语句子都在源目标方向上对齐。TLSPG将生成的对齐后的并行数据与相关语言对的源目标并行语料库进行合并，以创建零资源语言对的合成源目标并行语料库。3.4. 模型训练在本节中，我们将讨论最终ZST模型的训练。我们通过Transformer和Moses模型训练最终的ZST。对于Transformer，我们定义交叉熵损失函数来训练ZST模型如下：LZST¼-Xsyn;Ysyn2Dsynp^Xsyn;Ysynlog10PYsynjXsyn;6其中，Xsyn和Ysyn表示属于合成生成训练语料库的源和目标合成生成平行句子Dsyn，分别。此外，p^<$Xsyn;Ysyn是X syn的黄金分布。对于Moses，我们使用等式中定义的相同目标函数。（4）用于合成生成语料。为了得到最终的ZST模型，我们在伪生成语料库上训练翻译模型，其变化如下：图二. 零资源语言对的TSL。TSL生成语料库架构上的Transformer模型训练：我们在基于TSL生成的合成语料库上训练Transformer，采用五层编码器和解码器来训练源目标ZST模型。基于MSL生成语料库架构的Moses训练：我们使用6-gram KenLM语言模型训练基于MSL生成的合成语料库上的Moses，以训练源目标ZST模型。1/1A. 放大图片作者：A.Pratap等人沙特国王大学学报6556！！$！！！！$- -$- -$图三. 零资源语言对的MSL。见图4。TLSPG方法。基于MSL生成语料库架构的C Transformer训练：我们在基于MSL生成的合成语料库上训练Transformer，该合成语料库具有五层编码器和解码器来训练源目标ZST模型。基于 TSL 生成语料库架构的 D Moses 训练：我们使用 6-gramKenLM语言模型训练基于TSL生成的合成语料库上的Moses，以训练Source Target ZST模型。4. 数据和实验设置在本节中，我们将讨论执行模型和分析结果所需的数据集和实验设置4.1. 数据准备我们评估我们提出的模型上的两种语言对（四个翻译方向）：印地语Bhojpuri，Bhojpuri印地语，Hin- di Magahi和Magahi印地语。由于所有使用的语言对都没有训练数据，因此我们采用尼泊尔语印地语平行语料库的模型训练进行半监督TL学习。尼泊尔语-印地语平行语料库的训练和开发数据集是从WMT 2019类似语言共享任务中获得的（Barrault等人， 2019），Opus（Tiedemann，2012）和TDIL 1。此外，LoResMT 2020 2共享任务提供了单语语料库以及Ojha等人的开发和测试集。（2020年）。表4总结了数据统计。所有数据集都使用SentencePiece 3tokenizer进行预处理。该模型学习5000个合并操作，并将源和目标词汇限制为Transformer架构中最频繁的5000个标记。4.2. 实验装置本部分讨论训练TLSPG和基线模型所需的实验设置，如下所示：第1页 http://www.tdil-dc.in/index.php? lang=en4.2.1. TLSPG对于TSL ，我们使用基于Transformer 体系结构的NMT 模型Transformer已经在开源Fairseq工具包上进行了培训和评估（Ott等人， 2019年）的报告。为了更好地进行比较，我们使用Kumar etal.（2020）的默认参数对模型进行了训练，如表5对于MSL，我们使用Moses4，一个基于短语的统计MT模型。我们使用GIZA++和KenLM分别训练摩西的翻译和语言模型。此外，还采用GIZA++进行了基于马尔可夫模型的短语对齐.我们还使用Mert进行最小错误率训练，即，来调整模型。我们在 1 到 6-gram 的不同设置上训练KenLM，并在我们的实验中考虑6-gram来进行模型的关键在伪语料库生成模块中，Trans- former和Moses在与TSL和MSL模型中描述的相同设置上进行训练4.2.2. 基线我们使用mBART（Liu等人， 2020），这是一种最先进的多语言和零触发MT方法，用于比较我们提出的TLSPG模型。我们采用来自预训练的mbart：cc 25的多语言NMT方法的NE $ HI组件（Liu等人，2020）模型，以直接评估它的BHO HI和MAG HI测试集在零杆条件下，由于NE HI，BHO HI和MAG HI语言对之间的相似性。除了mBART，我们还将模型性能与Kumar等人的工作进行了比较。（2020）在相同的训练和测试数据集上。5. 结果和分析我们在三个指标上评估我们的模型：BLEU（Papineni等人，200 2）、chrF2（Popovicc′ ，201 5）和TER（Snover etal.， 2006年）。为了计算每个指标，我们使用SacreBLEU（Post，2018）工具。从表6中列出的不同模型上的每个度量的获得的分数，我们看到所提出的方法在所有三个度量中以更宽的裕度优于现有的最每个指标的报告分数也显示了彼此之间的许多相关性。我们可以得出结论，基于Moses的系统性能优于Transformer。相关性（Relatedness）2https://sites.google.com/view/loresmt/loresmt-2020网站https://github.com/google/sentencepiece3http://www.statmt.org/moses/A. 放大图片作者：A.Pratap等人沙特国王大学学报6557！X！！！！！你好22表4语料库统计的描述。语言类型句子NE$ HI**培训136991开发3000HI*培训473605BHO* 培训91131MAG* 培训148606发展500测试500MAG$ HI**开发500测试500*单语数据。**并行数据。表5用于训练TSL模型的实验装置。参数值型号Transformer编码器和解码器层5编码器嵌入维度512解码器嵌入维度512编码器注意头2解码器注意头2辍学率0.4注意力缺失0.2优化器亚当学习率调度器逆sqrt学习率1 e-3最低学习率1 e-9亚当-贝塔（0.9，0.98）epochs数量Bhojpuri语、Magahi语、尼泊尔语和印地语共享的因素说明了基于Moses的系统由于它们的相似性，HI MAG分别与mBART模型比较改进背后的一个可能原因是语言对之间的高度相关性5.2. TLSPG的影响我们提出的方法TLSPG，得到了32：43的改进;18： 34; 6： 36和4： 96 BLEU点为BHO HI，MAG HI、HI BHO和HI MAG分别与mBART模型比较。我们看到，我们提出的方法优于国家的最先进的模型具有很大的利润。这表明，相关性可以在改善ZST系统中发挥重要作用。除了这些改进，我们还注意到X HI和HI X（其中X是BHO和MAG）之间的BLEU变化很大。BLEU在改变语言方向时的如此大的变化取决于下一节中描述的语言的复杂性。5.3. 语言之间的相关性在这一部分中，我们对语言的相关性因素进行了实证分析，以分析分数的大幅提高。我们使用基于语料库的方法， SSNGLMScore（Mundotiya等人，2021），以衡量语言之间的相似性（相关性）。5.3.1. 我们使用Mundotiya等人（2021）给出的相似性度量，称为SSNGLMScore，来衡量语言之间的相关性。语言，定义如下：nSSG;H¼评分H1其中SS代表n元语言模型分数的缩放和SSGH-最小值SSLMTL;;;源语言（Bhojpuri语、Magahi语和尼泊尔语）和目标语言MSSGH¼; 2008年（印地语）在我们的情况下遵循类似的句子结构。因此，在本发明中，Moses生成两种语言中具有相同结构的短语，并执行短语翻译。因此，短语翻译增强了基于Moses的系统的性能5.1. TSL和MSL的影响在不使用伪语料库生成方法的情况下，TLSPG中的TSL和MSL在BH O！HI分别是MAG上的2019和2013BLEU！嗨，分别是，H2和H1BLEU！BHO分别为，最大直径（mm）LMTL直径-最小直径（mm）LMTL直径其中，LM和TL分别代表语言模型和测试语言。此外，GLM（尼泊尔语，Bhojpuri，印地语，Magahi）和n是测试语言HTL（尼泊尔语，Bhojpuri，印地语，Magahi）中的句子总数。我们在表4中描述的单语语料库上使用6-gram KenLM模型训练G。在每个语言H上测试每个语言模型G并报告分数。表7列出了Bhojpuri语、Magahi语、尼泊尔语和印地语彼此之间的跨语言相似性得分。表7中的值表明语言之间的关系有多密切。它表6不同语言对的实验结果。语言对得分mBARTKumar et al. （2020）MSLTSLABCD博杰普尔岛！印地语BLEU2.63 19.532.7817.8019.4435.0619.4932.940.46 - 0.53 0.56 0.58 0.57 0.59 0.572016年12月31日至2016年12月31日玛加岛！印地语BLEU3.5013.71 16.67 12.58 14.9420.5416.1421.840.43 - 0.44 0.43 0.46 0.43 0.49 0.482016年12月31日印地语！博杰普里BLEU0.162.54 1.16 2.61 3.78 4.77 2.566.520.08 - 0.16 0.15 0.17 0.24 0.16 0.252019年12月31日至2019年12月31日后面！MagahiBLEU0.193.16 1.17 2.89 3.183.502.395.150.07 - 0.16 0.14 0.17 0.22 0.15 0.241.000 - 1.376 1.027 1.023 1.025 0.896答：Transformer模型训练TSL生成的语料库架构。B：Moses在MSL上的训练生成了语料库架构。C：MSL生成语料库架构上的Transformer训练。D：Moses在TSL上的训练生成了语料库架构。;;A. 放大图片作者：A.Pratap等人沙特国王大学学报6558！！！！表7SSNGLMS核心。评分BHOMAGNE嗨BHO-0.30150.28230.2996MAG0.3015-0.36350.3366NE0.28230.3635-0.4845嗨0.29960.33660.4845-表8熵和类型与令牌比率。零资源语言的模型，如表6所示。我们看到了Hind I的表演！Bhojpuri接近Hind i！马加希模特儿们为我！Bhojpuri和Hindi！Magahi是由将迁移学习方法应用于印地语尼泊尔语汇率此外，根据表8，尼泊尔语在形态上比Bhojpuri和Magahi更复杂印地语Bhojpuri和印地语Magahi的最初一对翻译是印地语尼泊尔语，尼泊尔语作为目标语言，这降低了MT性能（Mi等人，2020年）。语言之间的复杂性损害了Bhojpuri和Magahi的可传递参数。因此，蓝色的从经验上证明了语言之间的相关性，这些语言显示出与表6中描述的结果高度相关。语言之间的这种关系有助于我们提出的后面的人之间的争吵！Bhojpuri 和 Hind i！马加希很近。Bhojpur i得分更高的原因！印地语比Magah i！印地语是一种不发音的语言，图五、 BLEU分数和Bhojpur i训练数据子样本之间的比较！印地语图六、 BLEU分数与Magah i训练数据子样本之间的比较！印地语语言熵类型与令牌比率印地语5.14740.0361尼泊尔5.61400.1221Bhojpuri4.96580.0527马加希5.14800.0531A. 放大图片作者：A.Pratap等人沙特国王大学学报6559！！！！！表9使用LSTM代替Transformer的实验。LSSLAlstm Clstm Dlstm博杰普尔岛！印地语蓝色16.718.41 17.2129.430.54 0.57 0.56 0.552006 - 2007年期间玛加岛！印地语BLEU11.012.2815.1018.410.46 0.48 0.482009年12月31日印地语！博杰普里·布鲁2.52 2.91 2.515.480.12 0.15 0.11 0.192009年12月31日后面！MagahiBLEU2.91 2.99 2.285.090.16 0.16 0.15 0.191.121 1.027 0.899ALSTM：LSSL生成语料库架构上的LSTM模型训练CLSTM：在MSL生成的语料库架构上进行LSTM训练DLSTM：Moses在LSSL生成语料库架构上的训练Magahi和Bhojpuri与尼泊尔语。因此，我们在下面的章节中分析词汇表外。5.4. 词汇表外的影响词汇表外（Out-of-vocabulary）是测试数据中存在但训练数据中不存在的单词的集合为什么Bho- jpur i得分更高！印地语比Magah i！印地语更像是一种语言，在Magahi测试数据中发送的数据比Bhojpuri测试数据中发送的数据更少。由于我们使用尼泊尔语印地语作为训练数据，因为它与Bhojpuri印地语和Magahi印地语语言对的相关性，我们计算了源语言之间的词汇量比率，例如尼泊尔语和Bhojpuri之间，以及尼泊尔语和Magahi之间为此，我们使用Bhojpuri和Magahi的测试数据对尼泊尔语的训练数据进行集合运算关于尼泊尔语，Bhojpuri语的词汇外比率我们发现， Magahi 有 3.16 倍以上的词汇表相比，Bhojpuri。因此，这就是Bhojpuri印地语的BLEU分数比Magahi印地语更好的原因，尽管Magahi比Bhojpuri更类似于尼泊尔语。5.5. 语言复杂性我们的研究主要包括形态上不同的语言。为了将我们的发现与语言的形态丰富性相关联，我们使用了基于语料库的复杂性量表。5.5.1. 语言的词熵单词的平均信息含量由熵表示（Bentz和Alikaniotis，2016）。对于具有更广泛的单词形式的语言，该度量将更高，即，语言学习更多的细节到词的结构，而不是一个短语或句子结构。表10熟练度和流畅度量表。量表理解流利度1没有不可理解的2小意思不流利3非本族意义4最好的意思5所有的意义完美无瑕表11人体评估总结。模型BHO！嗨MAG！嗨嗨！BHO嗨！MAG一NS-1AA4.023.052.183.48AF3.002.122.163.12NS-2AA3.983.052.323.78AF2.782.982.043.56协议KA0.7250.9500.7300.687KF0.6900.9870.7100.642BNS-1AA3.363.912.043.12AF2.702.922.042.34NS-2AA3.394.021.964.24AF2.643.021.922.16协议KA0.8120.6720.7250.540KF0.7500.7200.6800.610CNS-1AA4.083.702.002.85AF3.423.282.092.18NS-2AA3.963.642.222.34AF3.063.192.262.08协议KA0.7520.8000.5120.462KF0.6120.6000.5750.587DNS-1AA3.373.002.322.40AF2.732.792.421.96NS-2AA3.403.342.142.56AF2.632.612.142.10协议KA0.8000.7450.6370.437KF0.7500.7120.6500.512注-AA：平均熟练度，AF：平均流利度，KA：评价者间一致性充分性Kappa系数，KF：评价者间一致性流利性Kappa系数，NS-1：母语者-1，NS-2：母语者-2。A. 放大图片作者：A.Pratap等人沙特国王大学学报65601/4fgð Þ¼ð 2 Þ 2X！！！！！X设C是从词汇Z中提取的文本v 1;v 2;.. . ;v k尺寸k。此外，让单词类型概率根据vZ的pvPrvC分布。用Shannon（1948）方法计算了词类型的平均信息量如下所示KHC-pvjlog2pvj：209第1页具有较高值的熵指示具有高词汇丰富度的语言，如表8所示。印地语Bho- jpuri和印地语Magahi的翻译方向是由低到高词汇丰富的语言。因此，与源语言相比，目标语言的高词汇丰富度降低了模型的性能。博吉普里分数在统计学上不显著，我们还计算了下一节中描述的我们在单词水平上评估类型与标记比率以确定形态复杂性（Mundotiya等人，2021年）。5.5.

下载后可阅读完整内容，剩余1页未读，立即下载