1
英汉双向规则主导型混合机器翻译系统
胡小鹏,袁 琦,耿鑫辉
中国电子信息产业发展研究院 北京 100048
E-mail:huxp@ccidtrans.com
摘要:本文介绍了我院研发的语言学知识模型与统计方法相结合的英汉双向规则主导型混合机器翻译系统
的结构设计,其中包括从平行和可比语料库提取术语和翻译模板,从三元组可比语料库提取本族英语多词
表达(MWEs)。文中给出了该实用型混合机器翻译系统的综合性能评价,例举了系统的典型应用,最后
给出下一步工作设想。
关键词:规则主导型混合机器翻译;数据驱动的统计方法;语言学知识模型;混合术语提取
An English-Chinese Bi-Directional Hybrid Machine
Translation System Guided by RBMT
HU Xiao-peng, YUAN Qi, GENG Xin-hui
China Center for Information Industry Development, Beijing 100048, China
E-mail:huxp@ccidtrans.com
Abstract:This paper first reviews several typical techniques most commonly used and the most promising ones
in the R&D of HMT guided by RBMT. It then gives a more detailed description of the various data-driven
statistical approaches adopted by a practical English-Chinese bi-directional HMT system guided by RBMT that
integrates linguistic knowledge models and statistical approaches developed by CCID. Such approaches include
extracting glossaries, terminologies and translation templates from parallel and comparable corpora and
extracting MWEs in native English from three-tuple comparable corpora. This paper also presents a
comprehensive performance evaluation of this practical HMT system, illustrates typical applications of the system,
and finally provides a vision for the future work.
Keywords:hybrid machine translation guided by RBMT
,
data-driven statistical approaches
,
linguistic
knowledge models
,
hybrid terminology extraction approach
1 引言
统计机器翻译已经有 20 多年的历史,其中大约前十年的时间统计机器翻译和规则机器
翻译被视为互为竞争的范式。然而在后十年,人们对两种方法相结合的趋势产生越来越大的
兴趣。这是因为纯统计的和纯规则的范式都有很强的局限性,同时也存在互补性。比如,对
于短语和短距离搭配,统计系统的翻译往往是出奇的好,但是在选择长距离搭配词汇时它们
常常失败,原因是基于 N-gram 的语言模型忽略了词汇的长距离搭配。相比之下,对于规则
系统,尽管词汇选择较差,但是如果分析器对句子做出正确的分析,其输出往往是出奇的好
[1]。另一方面,它们在应用上也有互补性,统计翻译系统在论坛、常见问答(FQAs)和用
户生成内容(UGC)等社交媒体翻译方面具有优势,而规则系统在技术文档、报告、在线
帮助和用户界面等翻译方面具有优势。甚至已有企业通过一套系统性的标准指南为用户确定
翻译引擎最佳解决方案[2]。正如 2014 年 4 月哥德堡召开的混合机器翻译研讨会上 Reinhard
Rapp 等人指出的,“鉴于统计和规则系统之间的互补性,它们间的界限已经收窄,目前机器