统计后编辑技术在多引擎融合翻译系统中的应用研究

34 浏览量更新于2024-08-26 收藏 1.13MB PDF 举报

“面向多引擎融合技术的统计后编辑方法研究，通过将统计后编辑方法融入机器翻译系统，实现了串行结构的多引擎融合，旨在提升翻译的适应性和质量。该方法涉及利用系统生成的译文建立中文平行语料库，训练翻译模型和语言模型，并运用短语表和N-gram文本进行统计后编辑翻译引擎的解码。” 在机器翻译领域，多引擎融合技术是一种提高翻译准确性和流畅性的策略，它通过结合多个翻译引擎的优点来克服单一系统的局限性。本文中提到的“串行结构多引擎融合”技术，是将多个翻译引擎的结果按顺序整合，每个引擎可以基于前一个引擎的输出进行优化，从而达到更佳的整体翻译效果。统计后编辑（SPE）是一种针对机器翻译结果进行修正的方法，它依赖于统计学原理，通过对大量已有的翻译数据（即平行语料库）进行学习，找出并修正翻译中的错误或不恰当之处。在这个研究中，研究人员首先从规则为基础的机器翻译系统（RBMT）生成的译文中提取数据，这些译文被用作新的源语言材料，构建了中文平行语料库。然后，利用这些语料库训练出更适应实际翻译需求的翻译模型和语言模型。翻译模型负责理解源语言句子的含义，并生成目标语言的对应表达，而语言模型则负责保证生成的译文在语法和语义上的合理性。在训练过程中，短语表和N-gram文本起到了关键作用。短语表存储了一定长度的固定搭配，帮助模型更好地捕捉语言的多词表达；N-gram文本则考虑了上下文的连续性，使得模型能够更准确地预测下一个词的概率。通过这种方法，统计后编辑翻译引擎能够在解码过程中根据这些模型的指导进行更智能的决策，以提高最终译文的质量。文章对这种方法进行了综合性能评估，虽然具体结果未在摘要中详述，但可以推断，其改进了翻译的准确性和自然度。此外，作者还提出了未来的工作计划，可能包括进一步优化模型参数、扩大平行语料库规模或探索更高效的融合策略，以持续提升机器翻译的性能。这项研究展示了如何通过统计后编辑技术改进多引擎融合的机器翻译系统，为提高自动翻译的质量提供了一条有效路径。这种方法对于处理大量文本翻译任务，尤其是在专业领域，具有显著的实用价值。

第06期

李响等：面向多引擎融合技术的统计后编辑方法研究

第06期

591

面向多引擎融合技术的统计后编辑方法研究

李响，胡小鹏，袁琦

（中国电子信息产业发展研究院，北京，100048）

摘要：

本文介绍了我单位研发的机器翻译系统融入统计后编辑方法后实现串行结构多引擎融

合技术

，

该方法的目的是解决翻译领域适应性的问题

，

矫正规则为主导的系统翻译结果

，

提高

翻译译文的质量

。

其中包括提取系统生成的译文作为源语言构建中文平行语料库

，

然后采用统

计的方法训练翻译模型和语言模型

，

抽取短语表和N -gram文本用于统计后编辑翻译引擎的解

码

。

文中给出了该方法综合性能评价

，

最后给出下一步工作设想

。

关键词：

串行结构多引擎融合

；

统计后编辑

；

翻译模型

；

语言模型

中图分类号：

TP391

文献标识码：

文章编号：

2095-8412 (2015) 06-591-06

工业技术创新

URL

http//www.china-iti.com

DOI

10.14103/j.issn.2095-8412.2015.06.004

工业技术创新

第02卷第06期 2015年12月

Industrial Technology Innovation

Vol.02 No.06 Dec.2015

Research on Statistical Post Editing Method for

Multi- Engine Fusion Technology

Xiang Li, Xiaopeng Hu, Qi Yuan

( China Center for Information Industry Development, Beijing, 100048, China)

Abstract:

This paper introduces the machine translation system is developed by our company, which

integrates the SPE (statistical post editing) method to achieve multi-engine fusion technology. The purpose

of this method is to solve the problem of adaptive translation, and to improve the quality of translation. It

includes the text of the RBMT system generated by the source language is used to construct the Chinese

parallel corpus, and then use the statistical method to train translation model and language model, and then

extract the phrase table and N-gram text for the SPE translation engine decoding. This paper also presents

a comprehensive performance evaluation, and finally provides a vision for the future work.

Key words:

Multi-engine fusion technology based on serial structure; Statistical post editing; Translation

model; Language model

引言

近年来，在机器翻译领域，统计机器翻译与

规则机器翻译被视为互为竞争的范式。基于规则

的方法优势在于可以很准确地描述语言特征规

律，符合理性思维；而基于统计的方法可以缓解

知识获取的瓶颈问题。然而，人们逐渐意识到基

于统计与规则的方式存在着一定的互补性

[1 ]

，包

括在词汇选择、长距离搭配方面。在这种环境背

景下，基于规则为主导的机器翻译（RB M T）系

统为基础，融入S P E （统计后编辑）的串行多引

擎融合的技术应运而生，该方法可以实现翻译系

统的领域适应性，是机器翻译适应领域多样性的

主要解决方案之一。

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38742124

粉丝: 3
资源: 897

统计后编辑技术在多引擎融合翻译系统中的应用研究

面向文本的本体学习

Python-一个建模于YahooPipes的python流处理引擎

面向深度学习的多模态融合技术研究综述_何俊.pdf

面向复杂装备状态表征的信息融合方法和技术

研究复杂装备多域状态空间特征的低维完备表示方法，构建面向装备性态监测可信表征的稀疏时序数据信息融合与统一治理技术。

研究生系列教材:多传感器数据融合及其应用pdf

面向自动驾驶多模态感知的激光雷达-相机融合框架

面向复杂装备状态表征的信息融合

java 面向对象，汽车销售统计

面向无人车远程遥控的人机协同共驾关键技术研究

最新资源