RBMT引导的英汉双向混合机翻译系统设计与性能评估

91 浏览量更新于2024-08-26 收藏 519KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

本文主要探讨了一种由规则主导型机器翻译(RBMT)指导的英汉双向混合机器翻译系统。该系统由中国电子信息产业发展研究院开发，结合了语言学知识模型和数据驱动的统计方法。核心内容包括系统的设计框架和技术细节。首先，系统的设计注重规则的引导作用，即在翻译过程中，规则起到了关键的控制和优化作用。这涉及到了从平行语料库和可比语料库中精细地提取术语和翻译模板，这些资源对于确保翻译的准确性和一致性至关重要。平行语料库提供了源语言和目标语言的对应文本，而可比语料库则允许比较不同语言之间的表达方式，帮助系统学习和模仿母语英语中的多词表达(MWEs)，如固定搭配或习语。数据驱动的统计方法在这个系统中扮演了重要角色，它通过分析大量语料库数据，学习词汇之间的翻译模式和偏好。这些方法有助于提高翻译的质量，尤其是在处理未见于规则中的新句型或表达时，统计模型能基于类似上下文的模式进行推测。语言学知识模型则是另一个关键技术组件，它融入了对语言结构、语义和语用的深入理解，使得系统能够更准确地处理复杂的语言现象，如长距离依赖、多义词选择等。这种结合规则和统计的方法，使得混合机器翻译系统在保持灵活性的同时，也具备了较高的翻译精确度。论文详细展示了系统在实际应用中的综合性能评估，包括翻译准确率、流畅性、一致性等方面的量化指标。通过实例展示了该系统的成功应用，证明了其在跨语言交流中的实用价值。最后，作者还提出了未来的研究方向，可能会探索如何进一步优化规则与统计的结合，提升系统的智能水平，以及如何扩大术语库和多词表达的学习范围，以适应更多领域的翻译需求。这篇论文为规则主导型混合机器翻译技术的发展提供了一个具体而深入的实践案例，展示了如何有效地利用语言学知识和统计方法来提升机器翻译的质量和效率，对于推动机器翻译技术的进步具有重要的理论和实际意义。

资源详情

资源推荐

英汉双向规则主导型混合机器翻译系统

胡小鹏，袁琦，耿鑫辉

中国电子信息产业发展研究院北京 100048

E-mail：huxp@ccidtrans.com

摘要：本文介绍了我院研发的语言学知识模型与统计方法相结合的英汉双向规则主导型混合机器翻译系统

的结构设计，其中包括从平行和可比语料库提取术语和翻译模板，从三元组可比语料库提取本族英语多词

表达（MWEs）。文中给出了该实用型混合机器翻译系统的综合性能评价，例举了系统的典型应用，最后

给出下一步工作设想。

关键词：规则主导型混合机器翻译；数据驱动的统计方法；语言学知识模型；混合术语提取

An English-Chinese Bi-Directional Hybrid Machine

Translation System Guided by RBMT

HU Xiao-peng, YUAN Qi, GENG Xin-hui

China Center for Information Industry Development, Beijing 100048, China

E-mail：huxp@ccidtrans.com

Abstract：This paper first reviews several typical techniques most commonly used and the most promising ones

in the R&D of HMT guided by RBMT. It then gives a more detailed description of the various data-driven

statistical approaches adopted by a practical English-Chinese bi-directional HMT system guided by RBMT that

integrates linguistic knowledge models and statistical approaches developed by CCID. Such approaches include

extracting glossaries, terminologies and translation templates from parallel and comparable corpora and

extracting MWEs in native English from three-tuple comparable corpora. This paper also presents a

comprehensive performance evaluation of this practical HMT system, illustrates typical applications of the system,

and finally provides a vision for the future work.

Keywords：hybrid machine translation guided by RBMT

，

data-driven statistical approaches

，

linguistic

knowledge models

，

hybrid terminology extraction approach

1 引言

统计机器翻译已经有 20 多年的历史，其中大约前十年的时间统计机器翻译和规则机器

翻译被视为互为竞争的范式。然而在后十年，人们对两种方法相结合的趋势产生越来越大的

兴趣。这是因为纯统计的和纯规则的范式都有很强的局限性，同时也存在互补性。比如，对

于短语和短距离搭配，统计系统的翻译往往是出奇的好，但是在选择长距离搭配词汇时它们

常常失败，原因是基于 N-gram 的语言模型忽略了词汇的长距离搭配。相比之下，对于规则

系统，尽管词汇选择较差，但是如果分析器对句子做出正确的分析，其输出往往是出奇的好

[1]。另一方面，它们在应用上也有互补性，统计翻译系统在论坛、常见问答（FQAs）和用

户生成内容（UGC）等社交媒体翻译方面具有优势，而规则系统在技术文档、报告、在线

帮助和用户界面等翻译方面具有优势。甚至已有企业通过一套系统性的标准指南为用户确定

翻译引擎最佳解决方案[2]。正如 2014 年 4 月哥德堡召开的混合机器翻译研讨会上 Reinhard

Rapp 等人指出的，“鉴于统计和规则系统之间的互补性，它们间的界限已经收窄，目前机器

下载后可阅读完整内容，剩余9页未读，立即下载

weixin_38707826

粉丝: 5
资源: 907

RBMT引导的英汉双向混合机翻译系统设计与性能评估

住宅电池管理Matlab工具（RBMT）.zip

请问机器翻译从广义上讲分为哪几类每一类都分别有哪些模块组成，请分别举例说明其主要特点及工作原理

请问机器翻译从广义上讲，分为哪几类？每一类都分别由哪些模块组成？请分别举例说明其主要特点及工作原理

MD与MT什么区别？

基于大模型技术的算力产业监测服务平台设计

This_honeypot_supports_Telnet_and_SSH_two_protocol_FF-Pot.zip

吉他谱_What I've Done - Linkin Park.pdf

吉他谱_Too sweet - Hozier.pdf

Linux使用的一些笔记，包括shell命令，软件，一些实用的网站的整理_Linux_note.zip

基于ssm的机房预约系统设计与实现.docx

app执行Linux命令_app-Linux-.zip

吉他谱_Would - Alice in Chains.pdf

吉他谱_Yellow Ledbetter - Pearl Jam.pdf

基于ssm的个性化影片推荐系统设计与实现.docx

Java项目-基于SSM+Jsp的网上医院预约挂号系统的设计与实现（源码+数据库脚本+部署视频+代码讲解视频+全套软件）

基于javaweb的图书管理系统源代码+数据库+使用说明

idea插件开发的第四天-完善JSON工具-jsonTool打包结果

Linux_Shell_命令汇总_Linux-Command-Summary.zip

c1900-universalk9-npe-mz.SPA.151-2.T0a.bin

基于ssm的病人跟踪治疗信息管理系统设计与实现.docx

最新资源