没有合适的资源?快使用搜索试试~ 我知道了~
航空NMT系统实现与后处理工具对TDIL旅游语料库的分析
沙特国王大学学报详细分析了航空NMT系统的实现以及航空后处理工具对TDIL旅游语料库Saptarshi PaulBagh,Bishul Shyam Purkhyastha计算机科学系,阿萨姆大学,Silchar,Silchar,阿萨姆邦,印度阿提奇莱因福奥文章历史记录:收到2020年2021年1月3日修订2021年1月22日接受在线预订2021年关键词:航空NMT翻译准确性A B S T R A C T使用SMT和NMT为孟加拉语和其他印度语言实现的有能力的MT系统经常使用机器翻译系统的性能是由领域知识来调节的,这些领域知识直接来自于提供用于训练模型的指南的并行语料库在过去的几年里,使用各种NMT模型的系统已经取得了惊人的成果像谷歌和微软这样的组织已经从SMT模式转向NMT模式。在本 文 中 , 我 们 比 较 了 未 开 发 的 航 空 领 域 与 标 准 领 域 的 实 现 , 其 语 料 库 是 从 TDIL(https://tdil.meity.gov.in/)下载的,也有一个后处理工具对TDIL的旅游语料库的影响。该实现是使用OpenNMT完成的。开发并实现了英语到孟加拉语航空平行语料库,并使用多种后处理和预处理工具,以获得预期的结果。开发的航空后处理工具在TDIL旅游语料库上进行了应用,以测试该工具在非航空但相似的语料库上的有效性结果分析包括比较BLEU评分航空领域的BLEU得分和旅游领域的BLEU得分在应用前和后处理工具之前和之后版权所有©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍人类不是一座孤岛。作为一种社会性动物,人类倾向于为了一系列的需求而相互交流。能够相互交流使其成为多个领域中最受欢迎的人类活动。地理距离、不同文化和其他因素(如需求)等问题导致了几种语言的发展。它们更好地被称为自然语言,是句子的组合,由单词和底层语法组成。与其他领域一样,语言也让研究人员感兴趣。科学家、语言学家和研究人员对在不同和相似的语言之间建立联系自然语言的研究翻译工作,*通讯作者。电子邮件地址:paulsaptarshi@yahoo.co.in(新加坡)Paul)。沙特国王大学负责同行审查两种独立的语言需要人类翻译和自然语言翻译人员掌握并制定两种语言的规则。由人类翻译员完成翻译的问题人工翻译仍然是许多人的首选,因为它产生了最好的翻译质量。机器翻译,更好地称为MT,减少了人类翻译的问题。它还在人工辅助翻译中发挥作用。结果是通过机器翻译模型实现机器翻译系统已被证明是非常有用的,因为它们有助于不同自然语言使用者之间的交流,并使其成为一项更容易的任务。机器翻译技术在许多领域逐渐变得越来越重要;例如航空航天,医疗和其他重要领域。免费的机器翻译技术可以处理多种语言,并且易于使用。多种语言和领域可供用户选择当机器翻译技术无法处理航空等专业领域时,其问题和挑战就暴露出来了计算机辅助翻译系统对人类来说是最有效的。这些方法使人类能够同时利用机器翻译技术和人类的专业知识。这种混合方法还允许对MT技术的结果使用后处理工具这允许https://doi.org/10.1016/j.jksuci.2021.01.0161319-1578/©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。制作和主办:Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comS.保罗和B。Shyam Purkhyastha沙特国王大学学报5031用于MT输出的校正。目前的机器翻译技术只受到训练语料的通用性和语言规则的限制。最近的神经和统计技术在翻译中的应用完全依赖于训练语料库。NMT模型学习平行语料库中包含的基本思想。非通用和专业领域包括生物技术,航空,航天等。这些技术语料库包含数百个OutOf Vocabulary短语。有趣的是,这些专业领域在很大程度上都没有翻译成印度语言,例如在人类和机器翻译领域的孟加拉语。主要的挑战是为孟加拉语等印度语言建立平行语料库,因为没有标准的语料库和数据库存在。在这篇研究论文中,我们将着手航空领域的NMT翻译模型的实现方式,并详细分析结果。我们还将分析为航空领域开发的后处理工具 对 TDIL 旅 游 领 域 的 影 响 。 神 经 机 器 翻 译 ( Neural MachineTranslation , NMT ) 由 Kalchbrenner and Blunsom ( 2013 ) ,Sutskever et al.(2014)和Cho et al.(2014)提出。最近,MT系统的组织和领导者,Google(Wu等人,2016)和Systran(Crego等人,2016年,他们搬到了NMT。与SMT相比NMT的优势和灵活性在于它能够从思想向量中学习,思想向量是通过为源文本的每个单词添加适当的权重而创建的。NMT研究包括Mistryet al.(2017)的研究。 它强调将整个句子作为一个单元嵌入使其完整。神经系统通常通过使用经过验证的编码器-解码器系统将源语言的文本翻译成目标语言的文本。编码器采用嵌入方法将输入文本序列编码为机器可读的固定长度矢量表示。解码器是一个递归神经网络,需要预测目标语言中的序列,在一个单词的基础上,应该对应于输入向量。编码器-解码器的训练是在损失计算完成后通过称为教师强制的方法完成的。解码器负责生成所需语言的序列。论文的组织结构可以被认为是:第2节列出了印度语言中重要的NMT和SMT作品,他们的BLEU分数和作品参考。它还列出了在航空领域的语言对中执行的详细工作作者。第三节讨论人工神经网络、词表示、词嵌入和词汇生成。 第4节讨论了整个体系结构。第五部分是语料库的管理。第六节详细讨论了语料库的预处理。第7节涉及模型的训练和验证。在第八节中,我们讨论了编码器和解码器的详细工作机制。在第9节中,对结果进行了详细的讨论和分析。第10节论述了工作的结论和实际意义。2. 相关工作如前所述,在采取这项研究举措之前,没有观察到涉及任何印度语言的航空领域的翻译工作。这项研究是第一个已知的工作,冒险进入翻译领域,预处理和后处理航空领域的句子,任何印度语言,(英语孟加拉语在我们的情况下)。在英语和印度语言之间进行了多项工作,如旅游,医疗和农业文化领域,使用统计和神经方法。让我们来看看其中的一些和他们的结果在BLEU分数方面涉及印度语言的SMT和NMT的重要现有工作可以总结如下表1。所有上述工作都使用了TDIL/圣经或自行创建的语料库,以获得印度语言的结果。所观察到的主要缺陷是,没有一家公司涉足航空/航天领域。航空领域与所有其他技术领域一样,需要特别注意,因为它主要由OOV短语,短语和句子组成。我们在航空和自然语言处理领域的研究和出版工作试图解决其他人遗留的这一缺陷,特别是如表2所示的英语-孟加拉语对。用于非印度语言航空的NLP系统和工具包括TUAM AVIATION(Isabelle和Bourbeau,1985;Paul和Purkhyastha,2018),用于从法语翻译到英语。BOE-ING(Paul and Purkhyastha,2018; Clarkand Harrison,2008)和空客(Paul and Purkhyastha,2018)分别使用了使用BLUE和AMRIT等NLP功能的工具这些工具是独立的,并没有解决真空遗留下来的翻译系统,可以翻译航空句子从一种语言到另一种。我们的工作解决了这个问题,并导致一个完整的包,解决问题的航空语料库和非航空语料库,如旅游,其中共享许多功能的航空语料库。3. 人工神经网络人工神经网络被设计用于模拟人体神经元的功能。人工智能创造的模型旨在通过实例进行学习。 该模型基于它通过所使用的会话获得的知识,然后训练它,预计将做出输出预测Abiodun等人,(Abiodun等人,2018年)。SMT基于n-gram,而神经方法基于递归神经网络或ANN将一种语言的脚本翻译为另一种语言。神经系统是一个典型的例子,即它将输入序列逐词嵌入到一个代表整个句子的固定长度的思维向量中。隐藏层中的神经元(在LSTM-500隐藏层的情况下)负责将思维向量转换为可以由解码器(另一个RNN)解码的形式。3.1. 表示文字文本序列由单词组成,单词需要改变并以可以作为LSTM-RNN编码器/解码器输入的格式呈现。可以使用许多方法来实现它,其中单词嵌入方法用于我们的实现,如下所述。3.2. 单词嵌入一个词编码是一个向量,每个索引为0,对应于特定的词,我们有索引1。因此,特定单词具有唯一的嵌入向量,并且可以用数字表示。索引分配的词汇表的每一个字都为源序列写在一个特定的语言,也为目标语言(我们的情况下孟加拉语)。现在看看OpenNMT的一部分,其中嵌入了源语言和目标语言,我们看到以下内容:S.保罗和B。Shyam Purkhyastha沙特国王大学学报5032表1涉及印度语言的重要NMT和SMT工作。使用的配对语言评分法02 The Dog(2002)19.96基于中间语言的方法印度孟买IIT CSE部门,基于IMT的机器翻译系统和语言分歧,国际机器翻译杂志(JMT),第一卷。17,pp.1-9英语-孟加拉语(二零零九年)Bleu21.67PBSMT基于英语孟加拉语短语的SMT。德国萨尔大学计算语言学系02The Dog(2010)蓝色13.0417.34SMT(MOSES)CSE系,Jadavpur大学,T.D singh和S.Bandopadhyay,Manipuri-English SMT系统使用形态学和依赖关系。(SSST-4会议录,第四届统计翻译中的句法和结构研讨会,COLING 2010,北京,第100页)。(第83-91段)02 The Dog(2012)26.02英语-孟加拉语(二零一三年)Bleu28.67PBSMTA. 辛格河阿加瓦尔河基于Dalal建模短语的英语-印地语统计机器翻译系统国际工程科学与技术研究评论杂志,卷。号1第3页。45SMT一种基于规则的英语到孟加拉语机器翻译的高级方法,CSE的Adak Deptt,Kalyani大学,WB,印度,计算机科学工程参考书目,ISSN:2231-5403 [在线]04爱的力量Love'sLove(2014)02 The Dog(2016)Dogri-English印度语-英语(2017)英语-印地语蓝色25.0229.72蓝色22.2625.09蓝色27.53PBSMT Baruah K.K,Das P,Hannan A,sharma Sikhar. Kumar Assamese-English Bilingual Machine Translation,国际自然语言计算期刊,第一卷。号33页73SMT(MOSES)英语-Dogri翻译系统使用MOSES,Deptt of CS and IT University of Jammu,India.Avinash Singh,Asmeet Kour,SJamwal Shubhnandan.计算机科学中的循环卷。号1第1页。(45印度理工学院孟买CSE的PBSMT部门,处理OOV单词,P。丹加瓦尔河Chatterjee,A.米什拉A.昆丘坦河沙阿,P. Bhattacharjee(Proceedings of 9th workshop on SMT,ACL,Maryland USA,pp. (第90-96段)27.62因数化SMTNIT-M CDAC-M英语-印地语平均句子长度平均句子长度20平均句子长度15平均句子长度10蓝色23.2520.64蓝色54.2352.4851.9648.23CSE NMT-Mizoram的OpenNMT部门,Amarnath Pathak和Partha Pakray“印度语言的神经机器翻译”,[2191026 X-智能系统杂志]印度语言的神经机器翻译2018CSE NMT-Mizoram的OpenNMT部门,Amarnath Pathak和Partha Pakray“印度语言的神经机器翻译”,[2191026 X-智能系统杂志]印度语言的神经机器翻译2018英语-古吉拉特语(2020年)印地语-英语Google机器翻译引擎Babylon机器翻译引擎Microsoft Bing机器翻译引擎蓝色40.33蓝色344133OpenNMTLSTR-RNNGoogle BabylonMS-Bing基于注意力的印度语神经机器翻译系统Parth Shah,Uka Tarsadia University Bardoli,Indiaparthpunita@yahoo.in, Vishvajit BakrolaUka Tarsadia University Bardoli,Indiavishvajit. utu.ac.in‘‘Assessing表2在印度语言的NLP和航空领域的研究工作论文名称NLP工具在民用航空中的应用,一个调查。调查航空领域NLP工具的调查和识别(结果:航空领域所有NLP应用的列表。没有找到印度语言的作品)International Journal of Advanced Research inComputer Science,Volume 9,No. 2. 2018年3 - 4月,ISSN:0976+5697,第110英语到孟加拉语的音译工具,用于印度民航中常见的OOV单词双语(英语到孟加拉语)技术电子词典航空OOV词面向机器翻译和语料库创建的航空OOV词处理Database-MySQL,HTTPservercombinationDatabase-MySQL,UTF-8 unicode,WAMP frontendPython编程首个已知的英语-孟加拉语航空OOV词音译工具的设计与实现首个英语-孟加拉语航空短语电子词典语料库创建工具孟加拉语翻译辅助工具的设计与开发高级数据库管理系统杂志,ISSN:2393-International Journal of Engineering and AdvancedTechnology(IJEAT)ISSN:2249 -印度计算机科学与工程杂志(IJCSE),第11卷第5期2020年S.保罗和B。Shyam Purkhyastha沙特国王大学学报5033即,为36,012个英语单词和50,362个孟加拉语单词创建等于1的填充索引。3.2.1. 词汇创造在为每个唯一的源语言和目标语言单词分配唯一索引的过程中创建词汇表。在我们的例子中,词汇表可以从OpenNMT代码的以下部分中观察到对于英语,即源语言,词汇量为36,012,对于目标语言孟加拉语,词汇量为50362。让我们看一下一个示例词汇表,为序列中的英语单词创建一个嵌入向量:“The airport is far away”,我们有一个大小为12的小词汇表集,在表3和图。1 .一、因此,通过对句子“the airport is far away”中每个单词的嵌入方法,我们得到了一个向量,其中只有关于词汇的特定索引(如表3和图1所示)被放置为这种嵌入方法被推广到两种语言中的所有句子。4. 航空领域的NMT实施和整个系统的概述表3涉及航空词汇的示例词汇。飞机0的1为2机场酒店3ILS 4为5泳道6远7离开8黄色9<开始> 10<结束> 11了解确切的需求和可用的资源是任何好的研究工作或项目的第一步为了实施航空NMT系统,最需要的资源是英语到孟加拉语的航空平行语料库,并且它在任何地方都完全不存在。创建这种平行语料库的主要挑战是考虑大量的OOV单词和航空相关短语。除了翻译语料库外,还需要一个英语-孟加拉语音译语料库。这个音译语料库在适当的时候充当了航空电子词典(Paul,2019)开发的数据中心,空中交通管制短语的后处理工具(Paul和Purkhyastha,2020)和航空词汇外单位的后处理工具(Paul和Purkhyasta,2019)以及创建航空句子的预处理工具(Paul和Purkaystha,2020)。决定要找到Fig. 1. 单词嵌入的例子。S.保罗和B。Shyam Purkhyastha沙特国王大学学报5034模型的翻译准确度(TA),将扣除所获得的输出的BLEU分数然后,为了确定航空用语转换器工具(Paul和Purkhyasta,2020)和OOV音译工具(Paul和Purkhyasta,2019)的效果,两者都将应用于输出文件。再次计算该处理后文件为了计算航空后处理工具的有效性,这两个工具将再次应用于TDIL旅游语料库的输出文件,然后将比较后处理和非后处理旅游领域BLEU分数的TA。要开发的完整系统如图所示。 二、5. 语料库管理航空事故和事故报告)。TDIL旅游语料库是我们评估目的所需的,卫生,农业和一般TDIL语料库也通过适当的官方渠道下载,并与我们的工作进行比较,因为TDIL语料库是标准的。表4描述了研究工作中使用的所有语料库的细节(图4)。( 3):表4我们项目中使用的语料库的详细信息航空平行语料库由以下来源构建:印度机场管理局(https:aai.aero/hi/system/files/resources/ ) 、 民 航 总 局 ( http :dgca.nic.in/accident/reports/contents_acc_rep.html)、国家航空航天局-航空安全报告系统(https://asrs.arc. nasa.gov/)和欧洲事故和事 件 报 告 系 统 协 调 中 心 ( https://ec.europa.eu/jrc/en/scientific-tool/eccairs-european-central-repository-语料库)孟加拉语50,362图二. 整个系统的概述。域语言词汇量并列句旅游业(TDIL)英语20,00611,977孟加拉语28,463卫生(TDIL)英语18,32114,985孟加拉语20,584农业(TDIL)英语10,3854,001孟加拉语13,634一般(TDIL)英语68324,350孟加拉语8783航空(我们的研究英语36,01225,000S.保罗和B。Shyam Purkhyastha沙特国王大学学报5035在OpenNMT中运行相应的语料库时确定词汇量,而OOV单词的数量是用文本分析工具确定的(表5)。6. TDIL和航空语料库预处理在OpenNMT中运行并行语料库之前,我们对航空英语转孟加拉语语料库、英语转孟加拉语旅游语料库和其他TDIL语料库进行了预处理。每个语料库用于创建各自的NMT模型,并计算其BLEU评分。旅游领域被用作基准来评估航空模型的工作效率。它还被用来评估航空后处理工具的有效性,以及它们对旅游领域翻译准确性的影响。对于所有的语料库,虽然对于英语和孟加拉语都进行了规范化和标记化,但只需要对英语句子进行真大小写虽然孟加拉语中没有小写和小写的概念,所以孟加拉语不需要真正的大小写。见图4。是用来显示一步一步的预处理的所有英语-孟加拉语语料库(TDIL和航空)。6.1. 逐步解释预处理保持身材 4记住,让我们来看看详细的一步一步的解释预处理,进行了TDIL和航空语料库。步骤1:以下是执行的英文文本预处理命令(规范化和标记化)。(图 5.)图3.第三章。项目中使用的平行语料库的快照S.保罗和B。Shyam Purkhyastha沙特国王大学学报5036表5语料库的OOV词/专有名词计数4.tgt-val.txt培训和验证文件,语料库)第2步:对于标记孟加拉语文本,使用indic_nlp_library,我们遵循图中给出的“ScriptsPre_Processing.ipynb”。 六、第三步:我们将英语和孟加拉语合并到一个名为Preprocessed.xlsx的Excel文件中(我们修剪Excel单元格以删除句子开头和结尾的多余空间)第四步:使用Sklearn工具包,我们将预处理的文件拆分为:(拆分比例为75%训练,25%)1.src-train.txt2.tgt-train.txt7. 训练和验证语料库为了在OpenNMT中训练模型,我们使用以下命令(图1)。 7):见图4。 并行语料库的预处理步骤。域并列句近似OOV单词/专有名词/等。第五步:预处理使用以下命令:旅游业(TDIL)11,977800卫生(TDIL)14,9851100农业(TDIL)4,0011060一般(TDIL)4,350600航空(我们的研究25,0001200S.保罗和B。Shyam Purkhyastha沙特国王大学学报5037图五.英文文本的预处理命令。S.保罗和B。Shyam Purkhyastha沙特国王大学学报5038见图6。 孟加拉语文本的标记化。见图7。 训练模型的命令。S.保罗和B。Shyam Purkhyastha沙特国王大学学报5039OpenNMT系统在运行命令时计算源和目标词汇表的大小,然后在开始训练模型之前嵌入它们。7.1. 验证为了验证和测试,语料库被划分如下(75%训练语料库和25%测试/测试语料库)1.src-val.txt(源验证)2.pred_validation.txt(机器预计产量/机器OpenNMT编码器转换源语句,并负责将输入序列汇总为单元格状态向量(图1)。 8)。图 9对于句子“ 发动机被关闭” ,输入源句子中的各个单词以多 个连 续 的时 间 步长 被 馈送 到 编码 器 中, 整 个 句子 被 转换 成一 个隐 藏 形式 , 其 中编 码 器的 最 终状 态 被设 置 为解 码 器的 初始状态。8.2.由解码器解码器基于词汇表,根据接收到的训练来预测输出单词序列两个唯一的索引用于句首和句尾。英语-孟加拉语语料库有助于形成词汇图中显示了英语句子翻译输出)‘‘Engines were shut down” is decoded as in Bengali্রর বন3. tgt-val.txt(目标验证/人工翻译语料库)以下命令用于验证模型:编码器-解码器对的“编码器解码器”。在教学阶段进行的培训有助于解码。给定思想向量,为了产生输出序列,解码器必须预测孟加拉语的整个输出序列。举个例子:英文顺序/输入=预期孟加拉语序列/输出=“”孟加拉语字符串“你好”8. 编码器-解码器的基本工作机制8.1. 编码器编码OpenNMT的编码器是一个具有500个隐藏层的LSTM递归神经编码器用于将输入句子中的每个单词添加到输入向量中。在让我们把hi ci看作是阶段向量,其中i =阶段,所以让我们看看句子是如何一步一步解码的。步骤1:将英语句子编码为思维向量:步骤2:生成输出序列,逐字:见图8。 模型的验证S.保罗和B。Shyam Purkhyastha沙特国王大学学报5040见图9。 示例编码和训练。解码过程可以总结如下:(a) 在解码过程中,一次生成一个单词。所以解码器是在循环中调用的。解码器一次只处理一个时间步。(b) 解码器的初始状态被设置为编码器的最终状态(c) 在解码步骤t = 0期间,解码器的初始输入总是SOS > token。(d) 在每个时间步长期间,解码器的状态被保留。(e) 保留的状态始终被设置为下一个时间步的初始状态。(f) 在每个时间步长期间,前一步的预测输出被馈送作为输入。环路是破碎通过的解码器当它预测EOS >代币9. 结果及其分析OpenNMT对corpuses执行的迭代次数是10,000的倍数也就是说,每个迭代组由10,000个单独的迭代组成。为旅游和航空领域创建的NMT模型会创建输出文件,然后再次使用航空后处理工具。这些文件受到称为BLEU的机器评估系统的影响。 BLEU分数允许我们比较应用后处理工具前后输出文件的翻译准确率。此外,与其他TDIL语料库获得的BLEU分数的比较给了我们一个想法,我们的语料库和后处理工具是多么好。9.1. BLEU分数BLEU是一种免费、开源、高效的评估技术。BLEU是统计和神经机器翻译方法中最受欢迎的评估技术之一。9.1.1. 航空模型为了找到任何领域的BLEU分数,我们需要将机器翻译的文件目标文件与人工翻译的目标文件进行比较。为了计算BLEU分数,使用以下命令S.保罗和B。Shyam Purkhyastha沙特国王大学学报5041见图10。 航空模型的蓝色得分图 10我们可以看到命令的结果和BLEU分数。接下来,为了了解这两个后处理工具的效果,我们将它们应用到输出文件上,并再次计算BLEU分数这样做的命令如下:从上面的图中可以明显看出,后处理的avi- ation输出文件显示出更高的准确度发现TA的差异9.1.2. TDIL旅游模式9.1.2.1. 为什么是旅游领域?问题是,为什么选择TDILTOURISM域与航空域进行比较通过以下两点可以找到答案:a) 旅游领域是一个标准的英语-孟加拉语语料库,已从印度政府网站https://tdil.meity.gov.in/下载。所以创建它的NMT模型并将其BLEU评分与我们的航空语料库进行比较是一个很好的实践。b) 旅游领域与航空领域有许多共同点,因为两个语料库都有共同的多个OOV词,如机场,飞机和专有名词的名称。因此,为了测试航空后处理工具在其他语料库上的有效性,旅游领域经历了与航空领域相同的过程,并确定了其BLUE得分并计算了TA的上升。9.1.2.2. 旅游领域是如何实施的?与航空领域一样,旅游机器翻译系统也是通过旅游语料库对模型进行训练和验证而实现的。根据需要,语料库被分成几个部分,用于训练和验证。培训和验证文件分为源文件和目标文件(表6)。训练和验证文件分别以85%和15%的比例分割9.1.2.3. 计算旅游模型的BLEU分数:OpenNMT以10,000的倍数执行迭代Tourism模型创建名为"pred_validation. txt“的输出文件通过BLEU MET进行TA计算的输出文件旅游领域的BLEU得分为35.31见图11。处理后航空领域的BLEU评分。S.保罗和B。Shyam Purkhyastha沙特国王大学学报5042表6旅游领域文件结构与拆分。语料库文件名百分比接 下 来 , 将 两 个 航 空 后 处 理 工 具 应 用 于 旅 游 领 域"pred_validation.txt“的结果由此获得的新文件被命名为旅游语料库txt smBen.txt训练文件Train_Source。txtTrain_Target。txt11,977 10010,180 85发 现 pred_validation1.txt 的 BLEU 得 分 为 35.47 , 而"pred_validation.txt“的BLEU得分TA的差异被认为是(+0.16),这被认为是相当令人满意的,考虑到旅游领域是一个不同的领域。确认/测试文件表7BLEU评分比较。src-val.txt 1797 15tgt-val.txt9.2. 两个航空后处理工具的作用:应用于航空领域和旅游领域输出文件的两个后处理工具如下:域评分的比较应用后处理工具应用后处理工具1. 用于处理航空OOV单词(包括专有名词)的音译工具(Paul和Purkhyasta,2019)2. 用于航空用语的用语转换工具(Paul航空39.97 40.58旅游35.31 35.47和Purkhyastha,2020年)据观察,在航空和旅游领域的输出文件中,许多单独的词汇单元,短语,专有名词和独特的结构单元仍然没有翻译和音译。翻译准确性(即TA)会受到影响,最终降低BLEU分数。为了提高翻译剧本的技术援助和质量,提倡使用两种后处理工具在任何人工辅助翻译工作中,后处理工具都是手动应用的,以便实现更好的翻译准确性。在我们的工作中,这两种工具也都手动应用于输出文件,以获得更好的准确性。9.2.1. 后处理工具应 用 两 种 后 处 理 工 具 ( Paul 和 Purkhyasta , 2020; Paul 和Purkhyasta,2019)的效果可以通过从后处理文件中获得的BLEU评分看出(图12)。表7给出了从图1和图2获得的后处理文件和非后处理文件的清晰比较。10、11、13和14。见图12。 比较航空和后处理航空输出文件的BLEU分数。航空邮政处理工具可以对旅游领域输出文件产生积极影响,并提高其TA,因为旅游和航空语料库共享共同的名称,例如国家,州,城市,河流,海洋,位置。常见的OOV单词,如ETA,ETD,跑道,停机坪,航空公司名称,飞机和相关术语,如巴士,出租车,火车,渡轮。这样的话图十三. 计算旅游领域的BLEU分数。S.保罗和B。Shyam Purkhyastha沙特国王大学学报5043图十四岁为后处理的Tourism输出文件计算BLEU分数图十五岁获得的BLEU分数的图形表示可以很容易地被工具加工,从而导致TA的正增加(+0.16%)(图15)。9.2.2. 所开发模型为了比较任何性能,我们需要某些标准基准。为了了解我们的航空语料库的性能,我们在OpenNMT中运行了TDIL语料库,并计算了它们的分数以设定基准。在比较了BLEU分数之后,我们的航空语料库和后处理的航空和旅游语料库,我们有下表:为了更好和详细地理解航空领域的BLEU评估,相应的输出文件和后处理的输出文件如图1和2所示。 16和17号。上述数字(Fig. 16和17)向我们展示了航空和后处理输出文件的详细的1-gram、2-gram、3-gram和4-gram描述(表8)。如果我们看看整个工作,我们可以列出神经机器翻译系统在航空领域的优势如下:翻译模型基于NMT方法,使其成为能够产生高TA结果的最新系统之一。NMT系统补充了后处理工具,使我们能够行使人工辅助机器翻译的选择该功能使系统能够比任何现有系统更好地展示结果。这是唯一已知的工作在任何印度语言的机器翻译的航空部门。通过与标准TDIL语料库的比较,该系统得到了较好的结果。图十六岁航空输出文件的BLEU评分评估●●●S.保罗和B。Shyam Purkhyastha沙特国王大学学报5044图十七岁后处理航空文件的BLEU评分评估表8TDIL和航空模型的BLEU分数。领域并行句子获得的BLEU评分飞机维修手册的翻译。此外,上述作品可以扩展到英语和其他印度语言。旅游业(TDIL)旅游(TDIL)后处理与我们的2个工具-1.航空OOV单词转换工具和2.航空用语转换工具35.4710.1. 实际影响印度和国外的机场在规模和数量上都在增长保健(东帝汶发展和工业公司)农业(TDIL)4001 6.92一般事务(TDIL)航空25 000 39.98贝尔。许多机场现在有多个航站楼和许多登机口。乘客可能会发现,在这些巨大的陌生区域中穿行,然后处理排队和延误,航空经过后处理与我们的2个工具-1. 航空OOV单词转换工具和2.航空用语转换工具10.结论和实际影响40.58这通常会导致取消。乘客往往不得不处理这个狭窄的时间框架,并感到不知所措。对于不熟悉母语的乘客来说,这些问题被放大了,可能会感到困惑和迷路。更大的问题是,如果乘客错过了英语广播,不熟悉当地的语言,由于几个原因,所提出的方法在航空领域显示出有希望的结果它似乎工作得很好,因为专门的语料库已经建立了牢记机场,航空公司,航线和技术术语的独特的话,该方法的成功也归功于电子词典、预处理工具和两个分别用于对语料和输出进行预处理和后处理的后处理工具目前研究的不足之处在于语料库的规模虽然所有印度机场和主要国际机场的名称都已包括在内,但世界各地所有机场的名称及其IATA和ICAO代码仍将包括在语料库中。在航空中,航班的路线具有由字母数字组合组成的独特名称,其也未被包括在语料库中。未来的研究可能包括尝试将该领域从航空扩展到航空航天。最好扩大语料库的规模,将所有机场名称及其空运协会/国际民航组织代码包括在内为了使语料库更具技术性,可以列入导航和监视仪器。这些可以解决前面提到的缺点。这项工作的有趣的扩展,可以说服在未来包括一个单独的语料库的发展,只是为了解决语言。登机口的变化在机场是很常见的,用外语宣布这一点可能是一个很大的挑战。航班信息显示板经常显示信息,如预计到达时间和预计离开时间,当地语言的登机口号码。在这种情况下,具有英语或孟加拉语知识的乘客可以使用所讨论的工作提供的翻译服务来找到他们的方式。印度和斯里兰卡的MRO基础设施正在增加,对熟练工人的需求也在增加孟加拉语是印度和孟加拉国使用最广泛的语言之一,潜在的孟加拉语候选人将发现这项工作的应用最有用。会说孟加拉语的候选人加入地勤人员培训机构和机场服务提供商将发现这项工作的实际意义相当方便和有益。孟加拉语是世界上使用最广泛的语言之一(2.06亿),在印度和孟加拉国得到官方承认,并在许多国家广泛使用根据人口统计,孟加拉语(Bangla aka Bengali)是世界上第七大使用最多的语言因此,说孟加拉语的旅行者会发现这项工作的实际意义非常有用。S.保罗和B。Shyam Purkhyastha沙特国王大学学报5045竞争利益作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作。引用Abiodun,O. I.,Jantan,A.,Omolara,A.E.,达达K.V.Mohamed,N.A.,阿尔沙德,H.,2018年人工神经网络应用的最新进展:综述。赫利扬周,K.,Merrienboer,B.v.,Bahdanau,D.,本焦,Y.,2014年。神经机器翻译的性质arXiv预印本arXiv:1409.1259。彼得·克拉克,菲尔·哈里森,2008年9月22日至24日。波音在:WA 98124,ACL,STEP263-276,威尼斯,意大利。Crego,J.,金,J.,克莱因,G.,Rebollo,A.,杨,K.,Akhanov,J.S.,例如,2016.PURPORAN的纯神经机器翻译系统。Corr. abs/1610.05540。http://dgca.nic.in/accident/reports/contents_acc_rep.htmlhttps://asrs.arc.nasa.gov/https://ec.europa.eu/jrc/en/scientific-tool/eccairs-european-central-repository-www.example.comhttps://www.aai.aero/hi/system/files/resources/Pierre Isabelle,Laurent Bourbeau,January-March 1985. TAUM-AVIATION:它的技术特点和一些实验结果。Comput.语言学家11(1),18-27。Kalchbrenner,N.,Blunsom,P.,2013.循环连续翻译模型。在:Yarowsky,D.,鲍德温,T.,Korhonen,A.,Livescu,K.,Bethard,S.(编),2013年自然语言处理经验方法会议论文集。计算机语言学协会,西雅图,第1700 -1709页。Mistry,J.G.,维尔玛,A.,Bhattacharyya,P.,2017.文献综述:神经机器翻译研究。印度语言技术解决方案资源中心(CFILT)。保罗,Saptarshi,2019年。双语(英语到孟加拉语)技术电子词典航空OOV单词。Int. J.Eng. Adv. Technol. 9(2)。Saptarshi paul,Bipul shyam purkhyastha,March-April-2018.民用航空中使用的NLP工具:调查。Int. J. Adv. Res. Comput. Sci. 9(2)。Saptarshi Paul,Bishul shyam Purkhyastha,2020年9月10日至12日。一个NLP工具,用 于将ATC 短 语从 英语
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功