提升MWE提取与对齐准确率:基于语义模板与统计的方法
需积分: 25 136 浏览量
更新于2024-09-07
收藏 589KB PDF 举报
"这篇论文探讨了如何从英中可比语料库中自动提取和对齐多词表达(MWE),以改善机器翻译系统、跨语言检索和数据挖掘的效果。研究提出结合语义模板和统计工具的方法,通过计算词语间的相似度来扩大MWE的覆盖范围,并利用GIZA对齐算法提取对译的中文MWE。通过统计互译概率,选择最优的英汉MWE互译对,实验结果证明这种方法提高了MWE提取和对齐的准确性。此外,文章还指出了平行语料库在处理MWE互译对时的不足,如‘扭斜’现象和新词捕获问题,强调了可比语料库的重要性,尤其是三元组可比语料库在解决这些问题上的优势。"
这篇论文专注于多词表达(MWEs)的研究,这是自然语言处理领域中的关键元素,对提升机器翻译系统性能至关重要。MWEs包括固定短语、习语和专业术语等,它们的准确识别和翻译对于翻译质量和跨语言应用有直接影响。论文指出,传统的平行语料库在处理MWE互译对时存在两个主要问题:一是目标语的“扭斜”现象,即中式英语的出现,这影响了翻译的地道性;二是难以捕获未登录词(新词)及其对译词,这对处理快速发展的词汇和术语至关重要。
为了解决这些问题,研究者提出了一个创新的解决方案,即使用基于语义模板和统计工具的结合方法,从三元组可比语料库中提取MWE。这种三元组可比语料库由本族英语、中式英语和中文文本组成,旨在通过比较本族英语和中式英语的差异,减少“扭斜”现象,提供更高质量的MWE互译对。论文中提到的GIZA对齐算法是一种常用的统计机器翻译工具,用于在不同语言之间建立词汇对应关系,有助于提取对译的中文MWE。
此外,论文还强调了统计互译概率信息的重要性,通过计算这些概率,可以选择最有可能正确的英汉MWE互译对。实验结果证实了这种方法的有效性,提高了MWE提取和对齐的准确率。同时,使用可比语料库不仅有利于机器翻译,还能帮助提高人工翻译的质量,因为它允许对不同语言描述同一事件的多种方式进行比较和学习。
这篇论文通过提出新的方法和技术,为提高MWE处理和跨语言处理的效率提供了新的思路,尤其是在处理中式英语和新词对译方面,为自然语言处理领域的研究和发展做出了贡献。
2019-09-08 上传
104 浏览量
111 浏览量
142 浏览量
109 浏览量
148 浏览量
133 浏览量
150 浏览量
170 浏览量
weixin_38744153
- 粉丝: 348
- 资源: 2万+
最新资源
- deeplearning_week2_shallowNeuralNetwork.zip
- TP_integrador_COM
- Project-2-Crud-App
- 基于python获取2019-nCoV疫情实时追踪数据.rar
- distro-walls:voidlinux的壁纸合集
- 鲜湿型方便馄饨商业计划书
- mycomputerbrokelmao
- yanyi-dictionary:言绎俄语词典
- matlab开发-MandelbrotsetandJuliaset
- 神卓互联网络通信测试工具
- Coachella New Tab Theme-crx插件
- wiki:文档所在的地方!
- 5quared.github.io
- 美国管理科技公司商业计划书
- teletextc64:适用于Commodore C64的BBC Micro的Mode 7的仿真器
- Semana-Omnistack8.0