提升MWE提取与对齐准确率:基于语义模板与统计的方法

需积分: 25 3 下载量 136 浏览量 更新于2024-09-07 收藏 589KB PDF 举报
"这篇论文探讨了如何从英中可比语料库中自动提取和对齐多词表达(MWE),以改善机器翻译系统、跨语言检索和数据挖掘的效果。研究提出结合语义模板和统计工具的方法,通过计算词语间的相似度来扩大MWE的覆盖范围,并利用GIZA对齐算法提取对译的中文MWE。通过统计互译概率,选择最优的英汉MWE互译对,实验结果证明这种方法提高了MWE提取和对齐的准确性。此外,文章还指出了平行语料库在处理MWE互译对时的不足,如‘扭斜’现象和新词捕获问题,强调了可比语料库的重要性,尤其是三元组可比语料库在解决这些问题上的优势。" 这篇论文专注于多词表达(MWEs)的研究,这是自然语言处理领域中的关键元素,对提升机器翻译系统性能至关重要。MWEs包括固定短语、习语和专业术语等,它们的准确识别和翻译对于翻译质量和跨语言应用有直接影响。论文指出,传统的平行语料库在处理MWE互译对时存在两个主要问题:一是目标语的“扭斜”现象,即中式英语的出现,这影响了翻译的地道性;二是难以捕获未登录词(新词)及其对译词,这对处理快速发展的词汇和术语至关重要。 为了解决这些问题,研究者提出了一个创新的解决方案,即使用基于语义模板和统计工具的结合方法,从三元组可比语料库中提取MWE。这种三元组可比语料库由本族英语、中式英语和中文文本组成,旨在通过比较本族英语和中式英语的差异,减少“扭斜”现象,提供更高质量的MWE互译对。论文中提到的GIZA对齐算法是一种常用的统计机器翻译工具,用于在不同语言之间建立词汇对应关系,有助于提取对译的中文MWE。 此外,论文还强调了统计互译概率信息的重要性,通过计算这些概率,可以选择最有可能正确的英汉MWE互译对。实验结果证实了这种方法的有效性,提高了MWE提取和对齐的准确率。同时,使用可比语料库不仅有利于机器翻译,还能帮助提高人工翻译的质量,因为它允许对不同语言描述同一事件的多种方式进行比较和学习。 这篇论文通过提出新的方法和技术,为提高MWE处理和跨语言处理的效率提供了新的思路,尤其是在处理中式英语和新词对译方面,为自然语言处理领域的研究和发展做出了贡献。