自动机器翻译评估方法:BLEU-2001

需积分: 0 0 下载量 191 浏览量 更新于2024-08-05 收藏 307KB PDF 举报
本文档是Kishore Papineni、Salim Roukos、Todd Ward和Wei-Jing Zhu在2002年10月发表的文章《BLEU:机器翻译自动评估的一种方法》。该研究主要关注在人工智能领域,特别是机器翻译(Machine Translation)的质量评估问题。传统的机器翻译评估通常依赖于人工审阅,这既耗时又昂贵,且无法重复利用人力。为了解决这一问题,作者提出了一种名为BLEU(Bilingual Evaluation Understudy)的自动化评估方法。 BLEU是一种快速、经济且语言独立的评估指标,它通过比较机器翻译结果与参考译文之间的n-gram(连续词组)匹配度来量化翻译质量。n-gram是衡量文本相似性的基本单位,短的n-gram可以捕捉到词汇和短语的重复模式,长的n-gram则可以反映句子结构。BLEU的计算过程涉及对候选翻译和参考译文的精确率(Precision)、召回率(Recall)以及加权的整体得分,从而给出一个0到1之间的分数,1表示完全匹配。 文章强调了BLEU方法的优点:首先,相比于耗时的人工评估,BLEU可以在短时间内得出大量翻译系统的评价结果;其次,由于其不依赖于特定语言,因此具有广泛的应用性,适用于不同语言的机器翻译系统;最后,每一轮评估的成本相对较低,可以作为大规模评估实验中的有效工具。 该论文共获得了4,872次引用,显示出其在机器翻译评估领域的影响力。作者们来自IBM T.J. Watson Research Center,他们在文中提供了详细的算法描述和实施步骤,并分享了他们上传到ResearchGate的资源,以便于后续学者进行讨论、统计分析和作者简介查询。 Papineni等人的BLEU方法是机器翻译领域的一个里程碑,它引入了一种客观且实用的自动化评估手段,极大地推动了该领域内评估标准的发展和效率提升。