机器翻译发展综述及人工智能技术进展

148 浏览量更新于2024-01-22 收藏 1.06MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

工程18（2022）143研究人工智能综述机器翻译的进展王海峰a，吴华a，何忠军a，黄良b，肯尼思·沃德·丘奇ba百度公司，邮编：100193b百度研究，美国阿提奇莱因福奥文章历史记录：收到2020年2021年1月30日修订2021年3月29日接受2021年7月14日在线提供保留字：机器翻译神经网络机器翻译同声翻译A B S T R A C T经过70多年的发展，机器翻译取得了巨大的成就。特别是近年来，随着神经机器翻译（NMT）的出现，翻译质量有了很大的提高。本文首先回顾了机器翻译的发展历史，从基于规则的机器翻译到基于实例的机器翻译和统计机器翻译。然后，我们更详细地介绍了NMT，包括基本框架和当前占主导地位的框架，Transformer，以及多语言翻译模型来处理数据稀疏问题。此外，我们还介绍了最先进的同声翻译方法，可在翻译质量和延迟之间实现然后，我们描述了机器翻译的各种产品和应用。最后，我们简要讨论了该领域面临的挑战和未来的研究方向。©2021 THE COUNTORS.Elsevier LTD代表中国工程院出版，高等教育出版社有限公司。这是一篇CC BY-NC-ND许可下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）中找到。1. 机器翻译（MT）的历史机器翻译是研究如何使用计算机从一种语言翻译成另一种语言。MT的概念最早由Warren Weaver于1947年提出[1]，就在第一台计算机，电子数值积分器和计算机研制出来一年从此，机器翻译被认为是自然语言处理领域最具挑战性的任务之一。就方法论而言，机器翻译的方法主要分为两类：基于规则的方法和基于语料库的方法。从机器翻译的概念首次提出到20世纪90年代，基于规则的方法一直占据主导地位。基于规则的机器翻译（RBMT）方法使用双语词典和手动编写的规则将源语言文本翻译成目标语言文本。然而，手动编写规则是劳动密集型的。此外，规则很难维护，也很难从一个领域转移到另一个领域，从一种语言转移到另一种语言。因此，基于规则的系统很难扩展到开放域翻译和多语言翻译。MT系统最初主要是为军事应用而设计的。1954年，乔治城大学与现在著名的计算机制造商国际商业公司*通讯作者。电子邮件地址：wanghaifeng@baidu.com（H. Wang）。IBM公司首次用IBM-701计算机完成了俄英机器翻译实验，证明机器翻译的梦想已经成为现实。在1954年的演示之后，机器翻译成为了十多年的热门话题，但在1966年自动语言处理咨询委员会（ALPAC）的报告中，热潮突然结束了。在那份对机器翻译持怀疑态度的报告之后，机器翻译的研究经费被大幅削减，机器翻译的工作变得非常困难。今天占主导地位的科学协会，计算语言学协会（ACL），最初在1962年被命名为机器翻译和计算语言学协会，在繁荣时期;然而，它在1968年从它的名字中删除了“MT”，在ALPAC报告之后的萧条时期。与此同时，机器翻译研究者继续尝试提高翻译质量。1965年，NLP研究人员举办了第一届国际计算语言学会议，重点是基于规则的解析和翻译。从20世纪70年代开始，RBMT方法变得更加成熟。1978年，最早的机器翻译公司之一，CITRAN推出了一个商业翻译系统，这是当时商业上成功的基于规则的系统的最著名的例子之一。谷歌使用的服务，直到2007年。随着双语语料库的出现，基于语料库的方法在2000年后成为主流。基于语料库的机器翻译方法主要有三种：基于实例的机器翻译（EBMT）、统计机器翻译（SMT）和神经机器翻译（NMT）。在20世纪80年代中期，EBMT被提议翻译https://doi.org/10.1016/j.eng.2021.03.0232095-8099/©2021 THE COMEORS.由爱思唯尔有限公司代表中国工程院和高等教育出版社有限公司出版。这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可从ScienceDirect获取目录列表工程杂志首页：www.elsevier.com/locate/engH. Wang，H.Wu，Z.He等人工程18（2022）143144通过从双语语料库中检索相似的句子对来检索源文本[3]。如果能检索到相似的句子对，EBMT方法的翻译结果是高质量的。然而，EBMT方法的翻译覆盖率低，因为双语语料库不能覆盖所有的语言现象的语言对。因此，EBMT方法通常用于计算机辅助翻译系统。1990年，Brown等人[4]提出了SMT的思想，即机器自动从大量数据中学习翻译知识，而不是依赖人类专家编写规则。这个想法在1993年被更正式地表述为五种不同的SMT模型[5]。SMT方法由于其复杂性和RBMT在20世纪80年代和90年代的商业应用中的主导地位，当时没有被广泛采用。然而，随着统计方法的出现，另一个NLP会议-自然语言处理会议中的经验方法-于1996年开始，旨在汇集来自一系列不同学科的经验方法，包括语言学中基于语料库的方法和工程学中的信息论[6]。1999年，研究人员在约翰霍普金斯大学举办了一个夏季研讨会，他们复制了五个IBM模型，并发布了一个名为埃及的SMT工具包，大大降低了SMT的门槛。基于单词的SMT工具包GIZA和GIZA++随后发布[8]。2003年，提出了基于短语的SMT方法[9]，进一步提高了翻译质量。基于基于短语的SMT方法，开源系统如之后，SMT方法被广泛采用，因为这些可用的工具包。2006年，Google推出了基于短语的SMT方法的互联网翻译服务。微软和百度等其他公司也在随后几年推出了翻译服务。应该注意的是，单个模型很难处理各种翻译请求;因此，实际系统通常使用混合方法[11]，将不同的MT模型集成在一起，以提高翻译性能。受到SMT模型成功的鼓舞，许多研究人员提出了新的模型来进一步提高SMT方法的性能，包括引入形态信息的因子化SMT模型[12]，分层SMT模型[13]以及基于语法的SMT模型，其中解析树位于源端和/或目标端[14虽然SMT方法的使用大大改善了transla，为了提高翻译质量，这种方法采用对数线性模型来集成多个手动设计的组件，例如翻译模型、语言模型和重排序模型，这通常导致远距离语言对的严重重排序问题随着深度学习技术在语音、视觉等领域的快速发展，研究人员开始将深度学习技术应用于机器翻译。2014年，Bahdanau et al.[18]Sutskever et al.[19]提出了端到端的神经网络翻译模型，并主要使用术语NMT的基本思想是将源语言映射成一个密集的语义表示，然后利用注意机制生成译文同时，Dong etal.[20]提出了一个基于NMT的多语言翻译框架，被认为是NMT史上多语言翻译的突破性论文2015年，百度部署了全球首个大规模NMT系统[21]。2016年，谷歌也推出了NMT系统[22]，随后其他公司也发布了NMT系统。因此，自2014年首次提出以来，NMT仅用了约一年时间就部署到网上，而SMT系统应用于网上服务则花了约16年时间。在此之后，提出了卷积序列到序列翻译模型 [23] 和Transformer模型[24]，这再次显着提高了翻译质量。这个伟大机器翻译的改进引发了关于机器翻译是否与人工翻译一样好的广泛讨论。NMT的巨大成功吸引了许多研究人员，他们开发了各种方法，如非自回归模型[25，26]，无监督NMT模型[27，28]和NMT预训练模型[29]，旨在提高多语言翻译质量和翻译效率。随着语音技术和机器翻译的发展，同声翻译成为机器翻译的另一个发展方向口语翻译或语音翻译的探索始于1983年在国际电信联盟博览会上展示的小型实验性自动翻译系统。随后，1988年开发了一个名为SpeechTrans的语音到语音（S2S）翻译系统[31]，并被认为是语音翻译中的重要里程碑式系统[32]。在接下来的二十年里，特别是自1991年成立语音翻译高级研究联盟以来，令人印象深刻的语音翻译系统已经开发出来，从领域有限和词汇有限的系统[33-与此同时，2004年举办的国际口语翻译研讨会（IWITOS）再次推动了语音翻译系统的发展[39]。随着NMT和神经语音识别的出现，新的ST系统旨在实现同声传译的自动化，其中翻译系统与源语言语音同时进行翻译同声传译对人类来说是非常具有挑战性和因此，全世界合格的同声传译人员数量有限。此外，同声传译通常以两人或两人以上的团队工作，每15-30分钟交换一次位置此外，有限的记忆力迫使人类口译员经常忽略源内容[41]。因此，迫切需要开发同声传译技术，以减轻口译员的负担，并使同声传译服务更容易获得和负担得起。为此，作为早期工作，Wang等人[42]提出了一种基于神经网络的方法，将流式语音分成适当的片段，以提高语音翻译质量。Ma等人。[43]开发了一个非常简单但有效的这项技术首次实现了可控延迟，并重新激发了NLP社区对ST的兴趣。已经加入了这方面的研究，百度等公司的商业产品已经服务于数百个会议。这种新的兴趣导致在ACL 2020上举办了第一次自动同声翻译研讨会，并在 2020 年国际口语翻译会议（IWITAL）上开设了一个新的ST轨道2. 神经机器翻译近年来，NMT有了很大的改进[44，45]。一个典型的NMT模型包含两个组件：编码器网络将源句子映射到一个实值向量，解码器网络从中产生翻译。这个过程类似于人类NMT模型首先“阅读”整个源句子，然后，基于对句子的与以往的RBMT等方法相比H. Wang，H.Wu，Z.He等人工程18（2022）143145¼fg12TxYð·ÞX1XX12Ty1/1阿利什蒂与SMT相比，NMT不需要人为设计的规则和特征。NMT是一个端到端的框架，它直接从训练语料库中学习语义表示和翻译知识。由于这些优点，NMT现在是主要的方法在MT社区。在本节中，我们首先介绍NMT模型及其关键组件，包括基于基本递归神经网络（RNN）的模型及其改进，以及将目标词链接到具有不同权重的所有源词。注意机制显著提高了翻译质量，使NMT成为机器翻译史上的一项突破性技术。2.1.2. 双向编码代替单向编码器，一些方法采用双向编码器。具体地说，双向编码器从左到右和从右到右计算隐藏状态。最先进的NMT架构，Transformer。接下来，我们描述多行-讨论了回译、向左方向，例如！h¼f！h1;！h2;.. . ;！hTxg和←h←← ←充分利用数据的基于文本的翻译及方法比如多任务学习和通用模型，NMT。然后介绍了ST的最新进展，包括h;h;. h. 然后将隐藏状态连接为h¼. 快！h1;←h;！h2;←h2;· ··;！hT;←hT 因此，隐藏状态级联模型，流水线自动语音识别（ ASR ），MT 和文本到语音（TTS），以及直接建模语音识别和MT的端到端2.1. NMT模型典型的NMT模型是基于标准RNN或其替代方案[18，19]构建的。给定一个源句子x<$fx1;x2;：;x Txg（其中T x是x的长度），编码器RNN将x压缩到隐藏状态h<$fh1;h2;. ;hTxg如下：ht¼g ht-1;xt;h1其中g是网络的激活函数;ht和xt分别是时间t时的隐藏状态和源令牌;t是时间步长;h是一组模型参数。在基本模型中，编码器将最后一个隐藏状态hTx作为源语句的表示然后，解码器RNN产生如下翻译：Typyj xpytjyt;c 2t1/2其中y<$fy;y;.. . ;y g是目标句子，p（y| X）是反式-同时包含了源句的历史信息和未来信息，这再次提高了翻译质量。2.1.3. Gated recurrent unit门控递归单元（GRU）是传统简单激活函数的替代方案。GRU类似于长短期记忆（LSTM）[46]，但效率更高。GRU和LSTM都允许网络学习长距离依赖性，而不会受到梯度消失问题的影响[47]。NMT的初步实验表明，与传统SMT相比，NMT有显著的改善。然而，早期的NMT模型仍然存在弱点，例如词汇表（OOV）问题，翻译不足和解码速度慢。为了克服这些问题，He等人。[48]提出将统计特征，如短语表，n元语言模型和长度惩罚纳入NMT。沿着这个方向，研究人员从SMT借鉴了想法，并将其纳入NMT丰富的功能，如覆盖范围[49]，对齐协议[50]，语法信息[51Sennrich等人。[57]使用压缩算法字节对编码[58]进行分词，将开放式词汇表压缩为固定大小的子是y的长度，c是从y生成的向量，隐藏状态h，y，t是目标词，y<，t，f，y1; y2;. ; y t-1g包含已经生成的目标词。标准RNN模型的弱点之一是信息在网络传输过程中迅速衰减;因此，对于长句，翻译质量会严重下降。为了克服这个问题，Bahdanau等人[18]提出了三种新的改进，这些改进被广泛用于NMT模型。下文将逐一介绍这些情况2.1.1. 注意力机制当生成目标词时，不是使用最后的隐藏状态hTx来表示源句子，而是注意力机制计算目标标记与所有源词之间的关联，并评估关联有多强。Txct¼atj h j 30第1页其中ct是上下文向量，hj是源词xj，j是x的词索引，tj是话该方法简单、高效，因此被广泛应用于网络机器翻译中，用于解决无目的词和生僻词的翻译问题。除了RNN，研究人员还提出了其他模型架构。基于RNN的NMT的一个弱点是缺乏并行化能力，因为当前单词的计算依赖于之前的单词。卷积神经网络（CNN）通常用于计算机视觉，已被引入NMT[23]。与RNN相比，卷积网络在具有短路径的序列上创建分层表示，以捕获长距离依赖关系，这使得在训练过程中计算完全并行化受CNN NMT方法的启发，Vaswani等人[24]提出了一种名为Transformer的新型网络，它完全基于注意力机制，没有任何递归或卷积。在该方法中有三种注意力：编码器自注意力、解码器掩蔽注意力和研究人员提出了一种新的缩放点积方法来表示这些类型的注意力。.QKT！目标词yt和hj，其计算如下：pdaexpéetj其中，Q、K和V分别是查询向量、键向量和值向量。4tj¼PTx 经验epd是比例因子;K T是K的转置。更具体来说，对于每个单词，模型创建三个向量--一个查询其中etj是被参数化为前馈神经网络的比对模型，i是x的字索引：事实上，注意力机制类似于“对齐”这个词SMT中使用的“部件”。SMT中的词对齐是一种向量、键向量和值向量-通过将单词嵌入乘以不同的参数度量。注意力的作用是计算值的加权和，作为将被传输到下一层的输出。此外，研究人员还提出了一种多头注意力机制。注意：Q;K;V≤softmaxV5H. Wang，H.Wu，Z.He等人工程18（2022）143146ðÞ吉吉× ð- -M吉吉MMMY多头接头1;.. . ; head MW O6其中M是头数，头m/4注意力QWQ;KWK;VWV 1≤m≤M表示不同关注空间，和WQ，WK，WV，和WO是参数矩阵功能对于资源丰富的语言，例如中文和英文，可以收集数十亿个句子对来训练MT模型;然而，对于资源贫乏的语言对，例如此外，部署多语种翻译系统M mConcat head 1;.. . ;头部M把所有的头连在一起。与递归和卷积网络相比，Trans- former具有更强的并行化和表示能力;因此，它不仅在MT中实现了最先进的性能，而且在许多其他NLP任务中也实现了最先进的性能，例如最近众所周知的预训练模型：来自trans-former的双向编码器表示（BERT）[59]和通过知识集成的增强表示（ERNIE）[60]。上述模型是自回归模型，其中每个输出的单词取决于以前的输出.这种设置限制了解码过程中模型Gu等人[25]提出了一种非自回归Transformer（NAT），可以并行生成靶序列不pyjxltjx;/·pytjx;/7t1/2其中T是目标句子的长度，其用条件分布pL T x建模;f是一组模型参数。与自回归模型不同，自回归模型在生成特殊标记句尾（/s>）时停止解码，非自回归模型在生成特殊标记句尾（/s>）时停止解码。自回归模型必须首先预测具有pLTx的靶序列的长度;虽然NAT在解码过程中实现了显著的加速，但翻译质量大大降低。主要的原因可能是它不建模字依赖性，这对翻译改进至关重要。在解码效率的鼓舞下，研究人员提出了许多方法来改进非自回归模型，包括知识蒸馏[61]，模仿学习[26]和课程学习[62]。2.2. 多语种翻译不同的语言具有不同的形态和结构，这使得语言之间的翻译成为一项艰巨的任务-不仅对于机器翻译，而且对于人类专家。例如，汉语和英语是主谓宾语言，而日语和韩语是主谓宾语言。在进行中日互译时，通常需要进行远程排序此外，汉语是孤立语，词形变化少，而日语是孤立语，词形变化丰富。所有这些差异使得多语言机器翻译特别困难。数据驱动的机器翻译方法（即SMT或NMT）试图从大量并行数据中学习翻译知识。一般来说，训练数据量的增加会提高翻译质量。Koehn和Knowles[63]表明，当英语-西班牙语翻译的训练词汇从40万增加到3.857亿时不幸的是，世界上大多数语言缺乏并行数据，因此被称为“资源贫乏”的语言。由于数据稀疏问题，为这些语言构建NMT系统是一个巨大的挑战。根据互联网世界统计，全球十大语言（英语、中文、西班牙语、阿拉伯语、葡萄牙语、印尼语/马来语、法语、日语、俄语和德语）在互联网上的用户数量约占互联网用户总数的77%。其中，英语和中文用户分别占25.9%和19.4%，而所有其他语言用户的总和仅占23.1%。为花费很大。如果我们假设将在N种语言之间执行翻译（N是语言的数量），则通常需要为每个翻译方向构建翻译模型（例如，汉英和英汉是两个翻译方向）。在这种情况下，有必要建立N语言的N N1翻译模型。随着NMT模型的成功，研究人员一直在寻找新的方法来克服上述挑战。一般来说，多语言翻译有两种方法：充分利用数据的方法和改进NMT模型的方法。由于资源贫乏语言之间的多语言翻译缺乏训练数据，因此可以直观地看出，收集更多的训练数据，并充分利用这些数据的潜力。与平行语料库相比，单语语料库更容易获得。在NMT中，单语语料库通常用于训练数据增强。一种广泛使用的方法是回译[64，65]，其主要思想是首先在小型并行语料库上训练标准NMT模型目标语言中的句子）到另一侧，以便生成可用于重新训练翻译模型的“伪双语语料库”。在极端情况下，可能根本没有平行语料库。为了解决这个问题，非监督翻译方法被提出来构建仅基于源和目标单语语料库的翻译系统。Lample等人。[66]提出将不同语言中的句子映射到相同的潜在空间，并通过重构句子来学习翻译。Artetxe等人。[67]使用改进的SMT模型来初始化无监督NMT模型，以进一步提高翻译质量。 Song 等人。 [29] ， Conneau 和Lample[68]，Ren等人。[69]提出了一种无监督的NMT模型来利用预训练方法。另一个研究方向是利用资源丰富的语言来改善资源贫乏的语言的翻译。这种方法可以追溯到SMT时代。最广泛使用的方法是基于语言的翻译，其中使用高资源语言作为枢轴语言，在低资源语言对之间建立桥梁[70]。例如，为了开发中德翻译系统，可以选择英语作为中心语言，因为存在大量可用的中英和英德并行数据。最简单的基于主语句的翻译方法是转换方法，它使用两个级联的翻译系统[71，72]：源-主语句翻译系统，它将源语句翻译成主语句;以及源-目标翻译系统，它将主语句翻译成目标语句。由于该方法易于实现，因此在实际系统中得到了广泛的应用。该方法的缺点是级联系统存在误差传播问题。Wu和Wang[73，74]以及Cohn和Lapata[75]提出了一种三角测量方法，通过从源-主元和源-目标翻译模型中归纳出源-目标翻译模型来学习短语级翻译知识NMT方法利用资源丰富的语言，通过使用统一模型来提高资源贫乏语言的翻译质量传统的机器翻译方法需要为每个语言对和每个任务提供单独的翻译模型，而NMT可以在通用模型中跨不同任务翻译多种语言。一般来说，这种研究可以分为三种类型：一对多，多对一，和多对多。H. Wang，H.Wu，Z.He等人工程18（2022）143147不许多（M2M），取决于源端和目标端的语言数量Dong等人[20]提出了一种多语言NMT的多任务学习方法如图 1表明，通过与共享编码器共享源表示，该模型可以充分利用跨不同语言对的源语言语料库。这种方法为探索将一种源语言翻译成多种目标语言的问题提供了一个统一的框架。为了在N种语言之间部署翻译系统，模型只需要训练N个编码器。Luong等人。[76]将该框架扩展到多任务，包括翻译，解析和图像字幕。Zoph和Knight[77]提出了一种多对一NMT模型，该模型在目标端共享解码器Firat等人[78]使用不同的编码器和解码器，具有用于M2M翻译的共享注意Johnson等人[79]提出了一种简单的方法，将所有语言放在一起训练单个编码器-解码器模型来执行多语言翻译。研究人员在源句的开头添加了一个特殊的标记，以表明它被翻译成哪种目标语言。这种方法允许NMT模型学习语言学上相似语言的共享表示[80]，因此NMT模型架构没有变化。考虑到语言的多样性，Tan等人[81]研究了如何将语言分组为多个聚类，并为每个聚类训练单个NMT模型。在实际系统中，通常使用混合翻译方法，其在考虑翻译效率、部署成本等的同时结合上述方法。由于技术的进步，目前的翻译系统可以支持数百种语言之间的翻译。Arivazhagan等人[82]提出了一种用于大规模多语言MT的方法，该方法可以训练一个具有超过500亿个参数的单一模型，250亿个句子对，从103种语言到英语。Fan等人。[83]提出了一种M2M-100模型，该模型在以下方面进行训练：7.5 10亿个句子对，可以在100种语言之间进行任何一对翻译。2.3. 同声翻译ST旨在实现高质量的实时翻译，并尽可能缩短源语言语音和翻译输出之间的延迟在整句翻译中（第2.1节），每个目标词y t 使用整个源来预测第十句。然而，在ST中，必须同时（一）源语句（源语句）ST的研究分为两大类：级联（流水线）方法和端到端方法。2.3.1. 同步S2S翻译流水线一个典型的级联ST系统包括一个ASR系统，它将源语音转录成源流文本，一个MT系统，它执行从源文本到目标文本的翻译，最后，一个TTS系统，以生成目标语言语音，如图所示。二、实际上，TTS系统是可选的，取决于不同应用场景下输出的是文本还是语音。如前所述，ST中最大的挑战之一是以低延迟实现高翻译质量流ASR输出没有分割边界，而传统的MT系统将具有清晰边界的句子作为输入。因此，在ASR的输出和MT的输入之间存在如果在交付足够的源内容之前开始翻译，则翻译质量会降低。然而，等待太多的源字会增加延迟。一般来说，最近的两种工作将ASR输出分成用于下游MT系统的适当段：考虑固定长度上下文的固定策略和动态获得源段的自适应策略。固定策略是遵循独立于上下文的预定义计划的硬策略这种策略基于固定长度对源文本进行分段[43，84]。Ma等人[43]在前缀到前缀架构下提出了一个简单的wait-k策略，其中k是模型首先读取的单词数量，然后Fig. 1.用于一对多翻译的多任务学习NMT框架的说明。A1;A2;·· ·;AZ是目标语言的注意; TY1;TY2;·· ·;TYZ是目标语言; Z是目标语言的数量; sTYz<$1≤ z ≤ Z <$1是解码侧的隐藏状态。H. Wang，H.Wu，Z.He等人工程18（2022）143148≤≤图二、级联ST系统的框架与源句子的其余部分同时翻译;也就是说，输出总是在输入之后的k个单词。这一策略受到了人类同声传译的启发，他们通常在演讲者演讲后几秒钟开始翻译，并在演讲者结束后延迟几秒钟完成翻译。例如，如果k=2，则使用前两个源词预测第一目标词，使用前三个源词和所生成的目标词预测第二目标词，等等。更形式上，马etal.[四十三]使用的源前缀fx1; x2;. ; x qtg而不是整个源句来预测yt ：pytjyt;x≤qt，其中qt是单调非减函数，表示当预测y t时由编码器处理的源字的数量。一般来说，q（t）可以用来表示任意策略。 q（t）为常数时有两种特殊情况：①q（t）=| X|②q（t）= 0，其中q（t）是不依赖于任何源信息的“oracle”。应该是，在任何情况下，0 q（t）|X|对于所有T。这类政策简单易行。然而，它们没有动态地考虑合适的上下文信息，并且通常导致翻译准确性的降低。自适应策略学习根据动态上下文信息进行源文本分割。这种策略要么使用特定的模型来分块流式源文本[85-自适应方法比固定方法更灵活受人类口译员使用的组块策略的启发，Zhang等人。[92]提出了一种新的方法来检测ST的有意义单元。流式源文本被动态分割成可以独立翻译的片段，这确保了以低延迟生成高质量的翻译。然而，增量TTS是一个研究较少的问题。现有的TTS系统在获取文本中的所有单词后生成语音，这导致了高延迟。为了减少延迟，有必要增量地生成语音。传统的增量TTS方法是基于隐马尔可夫模型[93这些模型需要语言特征的完整上下文标签，其中每个组件单独训练和调整。最近的研究利用了神经网络的力量[98，99]。 Yanagita等人。[98]提出了一种基于分段的TTS，每次合成一个分段。Ma等人。[99]提出了一种神经增量词级TTS。如图3所示，该想法基于两个观察：①依赖性非常局部;以及②音频播放本质上是固有的顺序的，并且可以与音频生成同时进行-即，可以在生成后续文本的同时播放音频片段。总而言之，该方法在接收到前两个单词之后开始生成第一个单词的频谱图;该频谱图被馈送到声码器中以生成第一个单词的波形，该波形也被立即播放它很容易实现ST的级联框架然而，在这方面，该框架存在几个问题。例如，由于并行性要求，三个组件中的每一个都应该是同时的（流式或增量处理）。此外，每个组件的错误沿着流水线向下传播。ASR系统中的一个字错误可能使翻译结果不可接受。因此，需要开发更鲁棒的语音翻译系统。2.3.2. 走向端到端ST最终目标是开发端到端的ST技术，以便源语言语音可以同时翻译成目标语言，而无需像级联方法那样经过中间阶段。这种思想不仅可以减少错误在当前流水线中的传播，而且可以提高系统的效率。然而，同时实现端到端翻译和并行性是极具挑战性的。此外，端到端ST模型的训练数据非常稀缺。现有的训练数据仅包含数百小时的演讲，其中大部分用于对于从方法论的角度来看，将语音识别和翻译整合到一个统一的框架中并不是一件小事。端到端ST是一项尖端技术。Bansal等人。[105]提供了第一个证据，证明端到端语音翻译可以在不使用任何源传输的情况下实现。已有研究采用预训练或多任务学习来提高翻译质量。这些研究要么应用在ASR数据上训练的预训练编码器[105]，要么利用文本翻译来改善语音翻译[106Liu等人。[109]使用知识蒸馏方法通过转移MT模型中的知识来改进端到端ST模型。然而，这些方法中的不同任务不能彼此共享信息。为了缓解这个问题，一些研究提出了两阶段模型[110Liu等人。[113]提出了一种交互式端到端ST模型，可以交互式地进行语音识别和MT，从而提高这两项任务的性能。最近的研究也解决了直接S2S翻译的问题[114，115]。然而，由于有限的训练数据和语音识别和MT集成到一个统一的框架的复杂性，目前的端到端ST方法的性能还不能满足实际的要求。目前，大多数实际的ST系统使用级联方法，因为它们可以容易地部署并且可以生成高质量的翻译。Xiong等人[104]报告了管道ST系统与人工口译员之间的比较，经验范围为3至7年。他们发现，人类口译员通常会跳过不重要的信息，以保持合理的耳声跨度，这可能会导致充分性的损失，但提供了更短的滞后时间，而ST系统产生了更充分的翻译。Shimizu等人[100]表明，经验较少的口译员在口译过程中会丢失细节。这些研究表明，同声传译仍然是一项艰巨的任务，无论是人类口译员和机器翻译系统。3. MT的应用机器翻译以其低成本、高效率、高质量的特点已经广泛应用于各个领域。在中国，典型的人工翻译成本为每个字符0.1至0.5 CNY，取决于译者图 4显示了百度翻译中前八个领域的翻译分布，H. Wang，H.Wu，Z.He等人工程18（2022）143149图三.全句TTS与增量TTS。k1和k2分别是用于频谱图和波生成的前视窗口大小。图四、百度翻译的翻译分发支持超过200种语言之间的任何对之间的翻译，并支持每天翻译超过1000亿个字符的查询。3.1. 文本翻译文本翻译是机器翻译应用中最常见的形式下面是文本翻译的一些典型应用(1) 网页翻译。随着全球化进程的加快，人们越来越需要快速获取外语信息。虽然雇用人工翻译人员翻译大量网页既昂贵又耗时，但机器翻译提供了一种方便的方式来查看外语网页。用户只需复制/粘贴网页内容或输入统一资源定位符（URL），即可阅读自己语言的网页。(2) 科学文献翻译。研究人员、工程师和研究生等用户经常使用机器翻译阅读他们自己语言的论文和专利等科学文献，或将他们的工作翻译成其他语言。例如，为了应对2019 冠状病毒病（COVID-19），生物医学领域的翻译正在迅速增长。科学文献通常包含许多术语。借助领域自适应技术，翻译模型可以首先使用大型训练语料库进行预训练，然后在少量域内数据上进行微调以进一步改进。此外，格式化文档翻译用于翻译各种文档，如PowerPoint、Excel、Word和便携式文档格式（PDF），同时保留字体大小和字体颜色等格式信息(3) 电子商务翻译。机器翻译广泛应用于跨国在线贸易。在机器翻译的帮助下，卖家可以有效地将他们的网站，产品信息和手册翻译成外国语言，而买家可以轻松地购买来自世界各地的产品。机器翻译还用于客户服务，以提高服务质量和效率。(4) 学习语言。目前的机器翻译系统通常提供丰富的功能，包括翻译、高质量词典、句子对示例等。因此，用户可以方便地确定单词或短语的含义，并学习如何使用学生用户经常输入一整段用于理解阅读，并使用句子对示例来帮助他们的写作。除了文本翻译之外，基于人工智能技术的最新进展，图像翻译和语音翻译已被广泛用于实际应用中。3.2. 图像平移图像翻译结合了计算机视觉和机器翻译，因为它将图像作为输入，然后将其翻译成目标语言。(1) 多语言图像字幕。这种类型的机器翻译，描述图片的内容，并执行视觉问答，近年来已被广泛研究[116多语言图像翻译借鉴了NMT的思想，编码器的输入是图像，解码器的输出由于该模型可以为同一张图片生成不同的语言，因此该功能对语言研究非常有帮助(2) 光学字符识别翻译。这种形式的机器翻译首先识别图片中的字符，然后执行H. Wang，H.Wu，Z.He等人工程18（2022）143150翻译并将其呈现以替换原始源文本。此功能对于在国外旅行时翻译菜单、街道名牌、产品说明等非常有用。随着最近对文档图像的文本和布局信息联合建模的研究[119]，MT也可用于翻译扫描文档，同时保持原始格式信息。3.3. 语音翻译语音翻译结合了语音处理和机器翻译，它以源语言的语音作为输入，并生成目标语言的文本或语音作为输出。(1) 同声传译。如2.3节所述，最近在ST方面取得了很大进展，使许多产品能够提供ST服务。语音到文本（S2T）翻译将ASR输出和翻译脚本投影到单个屏幕上，以方便用户然而，屏幕上有限的空间通常只能显示一种语言对的脚本。因此，很难将S2T扩展到多种语言。S2S翻译通过允许听众通过他们的手机收听目标语音来解决这个问题。因此，来自不同国家的用户可以选择收听他们的母语或他们喜欢的任何其他语言ST系统目前广泛用于国际会议。由于COVID-19大流行，更多的会议正在虚拟地举行-即在线。ST已集成到在线会议系统中，以提供实时翻译。此外，用户还可以使用ST插件以自己的语言观看外国视频，如电影和讲座(2) 便携式翻译设备。这些设备能够进行语音翻译，近年来受到用户的广泛青睐。它们易于携带和使用，适用于许多场景，包括语言学习，海外旅行和商务谈判。MT也可以用于诗歌生成[120]和中国对联生成。机器翻译模型以前一行为4. 挑战和未来方向虽然机器翻译已经取得了很大的进步，但总有改进的余地。在统计机器翻译研讨会（Workshop on Statistical Machine Translation）等会议上，有时会有人提出机器比人类翻译更好。某些度量（即，BLEU、单词错误率（WER）、显式排序翻译评估指标（METEOR）[121-一个好的译文至少应具备两个特点：充分和通顺。目前，NMT方法在特定的文本翻译场景下，可以为某些语言对和领域提供非常高的充分性和流畅性，但是，这些方法还远远不够完美，特别是在ST场景下。许多方面仍有待改进。首先，需要新的评估指标来评估真正重要的东西。例如，人类口译员在执行同声传译时并不试图翻译所有内容。重要的是要知道什么时候需要说什么说吧。人类口译员知道什么时候需要加快速度，什么时候可以慢慢来。他们知道什么需要强调，什么可以省略。然而，机器翻译系统翻译一切，不知道如何省略不重要的部分，以减少延迟。此外，强调在翻译中很重要;翻译应该反映源中存在的强调。近年来，研究者们开始研究如何利用声学线索来识别重音并将其翻译成目标语[124除了语音信息，说话者的身体语言（和韵律）清楚地表明说话者何时强调特定的点（而不是不同的点）;然而，很难将翻译与说话者的身体语言同步。演讲者经常提到幻灯片;但是同样，很难将翻译与幻灯片同步。虽然BLEU和WER等指标奖励完整性，但许多其他方面有助于良好的翻译：延迟，强调，同步，理解等。这些指标都没有奖励这些方面。前端ASR系统不仅应捕获单词，还应捕获会对下游步骤（包括翻译和语音合成）产生影响的强调。我们需要开发一种系统，它可以奖励那些强调需要强调的内容的系统，同时惩罚那些翻译不应该翻译的琐碎部分的系统。第二，MT的鲁棒性需要进一步提高。有时候，源语言中的一个微小的变化--比如一个单词或标点符号--会导致译文的巨大变化。然而，人类具有很强的容错能力，这使他们能够灵活地处理各种不规范的语言现象和错误，有时甚至会无意识地纠正它们。鲁棒的MT系统在实际应用中至关重要。开发可解释的MT方法可能是一种可能的解决方案。第三，NMT方法在资源贫乏的语言对和领域中面临严重的数据稀疏问题。目前的机器翻译系统经常使用数千万甚至数亿个句子对数据进行训练。否则，翻译质量会很差。然而，人类只能从少量样本中学习。虽然已经提出了许多数据增强方法，多任务学习方法和预训练方法来缓解这个问题，但如何提高资源贫乏语言对的翻译质量仍然是一个悬而未决的问题。综上所述，要实现高质量的MT还有很长的路要走。有必要开发新的方法，可以结合符号规则，知识和神经网络，以进一步提高翻译质量。幸运的是，机器翻译在实际应用中的使用不断提供更多的数据，促进了新的机器翻译方法的快速发展。遵守道德操守准则王海峰、吴华、何忠军、黄亮和Kenneth Ward Church声明他们没有利益冲突或财务冲突需要披露。引用[1] 韦弗W.翻译. Mach Transl Lang1955;14：15-23.[2] Hutchins J. ALPAC：The（in）Famous Report. In：Nirenburg S，Somers HL，WilksYA，editors.机器翻译中的阅读。剑桥：麻省理工学院出版社.[3] 长尾湾利用类比原则进行日英机械翻译的框架。In：Elithorn A，Banerji R，editors.在：国际北约人工智能和人类智能研讨会论文集。纽约市：Elsevier North-Holland，Inc.，1984年。p. 173比80[4] BrownPF，Cocke J，Della Pietra SA，Della Pietra VJ，Jelinek F，LaffeineJD，et al. 机器翻译的统计方法。计算机语言学家1990;16（2）：79-85.[5] Brown PF，Della Pietra

下载后可阅读完整内容，剩余1页未读，立即下载