正向贪心解码算法在树串句法翻译模型中的应用

需积分: 9 190 浏览量更新于2024-08-12 收藏 1.32MB PDF 举报

"这篇论文是2007年发表在东南大学学报自然科学版上的科研成果，主要讨论了树串句法统计翻译模型中的正向贪心解码算法。研究目的是利用句法信息来提高机器翻译的质量和效率。文中提出的算法以对数线性模型为基础，结合翻译模型概率、语言模型概率和空译文罚分作为特征函数，通过贪心搜索策略改进译文。在IWSLT2004数据集上进行了实验，并用BLEU指标评估结果，显示正向贪心解码算法在翻译质量和速度上优于反向解码算法，尤其适合树串统计翻译模型。关键词包括统计机器翻译、句法、贪心解码。" 本文深入探讨了一种用于统计机器翻译的创新算法——正向贪心解码算法，特别是在树串句法统计翻译模型的背景下。传统的机器翻译模型往往忽视了句法结构的作用，而本文所提算法则强调句法信息在翻译过程中的重要性。对数线性模型被选作整体框架，这是因为这种模型能够灵活地融合多种特征，如翻译模型概率，这考虑了源句到目标句的概率；语言模型概率，关注目标语言的流畅性；以及空译文罚分，用于惩罚无意义或不完整的译文。在解码过程中，该算法首先生成初步的译文，然后通过对句法分析树的遍历和迭代来逐步优化译文质量。这一过程的关键在于如何准确地评估和改进译文片断，即如何打分。作者对此进行了深入研究，以确保译文在句法结构上的正确性和合理性。实验部分，研究者在IWSLT2004数据集上运行了该算法，并使用BLEU（Bilingual Evaluation Understudy）作为评价标准，这是一个广泛使用的自动评估机器翻译质量的方法。实验结果表明，正向贪心解码算法在翻译效果和速度方面都优于反向解码算法，这证实了该算法能更有效地利用句法结构信息，对于树串统计翻译模型尤其适用。总结来说，这篇论文为机器翻译领域提供了一个利用句法信息的新视角，正向贪心解码算法的提出不仅提高了翻译质量，还提升了解码速度，具有很高的学术价值和实践意义。未来的研究可能继续探索如何进一步优化解码策略，以及如何将句法分析与其他自然语言处理技术相结合，以实现更高级别的翻译自动化。

第

３７

卷第

５

期

２００７

年

９

月

东南大学学报

（

自然科学版

）

ＪＯＵＲＮＡＬＯＦＳＯＵＴＨＥＡＳＴＵＮＩＶＥＲＳＩＴＹ（ＮａｔｕｒａｌＳｃｉｅｎｃｅＥｄｉｔｉｏｎ）

Ｖｏｌ３７Ｎｏ５

Ｓｅｐｔ．２００７

树串句法统计翻译模型的正向贪心解码算法

薛永增

李

生

赵铁军

杨沐昀

（

哈尔滨工业大学语言语音教育部微软重点实验室

，

哈尔滨

１５０００１）

摘要

：

为了有效利用句法信息指导翻译过程

，

提出了基于贪心搜索的树串句法统计翻译模型的

正向解码算法

．

该算法以对数线性模型为整体框架

，

采用翻译模型概率

、

语言模型概率和空译文

罚分作为特征函数

．

在解码过程中首先生成初始译文

，

然后通过遍历句法分析树反复迭代来改进

译文

．

重点研究了解码过程中译文片断的打分方法

．

实验在

ＩＷＳＬＴ２００４

数据集上进行并采用

ＢＬＥＵ

方法评价翻译结果

．

实验结果表明正向贪心解码算法在翻译质量和速度上均好于现有的

反向解码算法

，

这说明正向贪心解码算法能够更为有效地利用句法结构信息

，

更适合于树串统

计翻译模型

．

关键词

：

统计机器翻译

；

句法

；

贪心

；

解码

中图分类号

：ＴＰ３９１２　　

文献标识码

：Ａ　　

文章编号

：１００１－０５０５（２００７）０５０８０３０５

Ｇｒｅｅｄｙｄｉｒｅｃｔｄｅｃｏｄｉｎｇａｌｇｏｒｉｔｈｍ

ｆｏｒｓｙｎｔａｘｂａｓｅｄｔｒｅｅｔｏｓｔｒｉｎｇｓｔａｔｉｓｔｉｃａｌｔｒａｎｓｌａｔｉｏｎｍｏｄｅｌ

ＸｕｅＹｏｎｇｚｅｎｇ　ＬｉＳｈｅｎｇ　ＺｈａｏＴｉｅｊｕｎ　ＹａｎｇＭｕｙｕｎ

（ＭＯＥＭＳＫｅｙＬａｂｏｒａｔｏｒｙｏｆＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇａｎｄＳｐｅｅｃｈ，ＨａｒｂｉｎＩｎｓｔｉｔｕｔｅｏｆＴｅｃｈｎｏｌｏｇｙ，Ｈａｒｂｉｎ１５０００１，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：Ｉｎｏｒｄｅｒｔｏｅｆｆｅｃｔｉｖｅｌｙｄｉｒｅｃｔｔｈｅｔｒａｎｓｌａｔｉｏｎｐｒｏｃｅｓｓｂｙｓｙｎｔａｘｉｎｆｏｒｍａｔｉｏｎ，ａｇｒｅｅｄｙｄｉｒｅｃｔ

ｄｅｃｏｄｉｎｇａｌｇｏｒｉｔｈｍｉｓｐｒｏｐｏｓｅｄｆｏｒｔｈｅｓｙｎｔａｘｂａｓｅｄｔｒｅｅｔｏｓｔｒｉｎｇｓｔａｔｉｓｔｉｃａｌｔｒａｎｓｌａｔｉｏｎｍｏｄｅｌ．Ｔｈｅ

ｌｏｇｌｉｎｅａｒｍｏｄｅｌｉｓａｄｏｐｔｅｄａｓｔｈｅｆｒａｍｅｗｏｒｋａｎｄｔｈｅｆｅａｔｕｒｅｆｕｎｃｔｉｏｎｓａｒｅｄｅｆｉｎｅｄｕｐｏｎｔｈｅｔｒａｎｓｌａ

ｔｉｏｎｍｏｄｅｌｐｒｏｂａｂｉｌｉｔｙ

，ｔｈｅｌａｎｇｕａｇｅｍｏｄｅｌｐｒｏｂａｂｉｌｉｔｙａｎｄｔｈｅｎｕｌｌｔｒａｎｓｌａｔｉｏｎｐｅｎａｌｔｙ．Ｔｈｅｄｅｃｏｄｅｒ

ｆｉｒｓｔｌｙｇｅｎｅｒａｔｅｓｔｈｅｉｎｉｔｉａｌｔｒａｎｓｌａｔｉｏｎｇｌｏｓｓ，ａｎｄｔｈｅｎｉｍｐｒｏｖｅｓｔｈｅｇｌｏｓｓｂｙｉｔｅｒａｔｉｖｅｌｙｔｒａｖｅｒｓｉｎｇｔｈｅ

ｐａｒｓｅｔｒｅｅ．Ｔｈｅｓｃｏｒｉｎｇｍｅｔｈｏｄｓｆｏｒｔｒａｎｓｌａｔｉｏｎｓｅｇｍｅｎｔｓａｒｅｄｅｓｃｒｉｂｅｄ．Ｔｈｅｅｘｐｅｒｉｍｅｎｔｗａｓｃａｒｒｉｅｄ

ｏｕｔｏｎＩＷＳＬＴ２００４ｄａｔａｓｅｔ．ＴｈｅｔｒａｎｓｌａｔｉｏｎｒｅｓｕｌｔｓｗｅｒｅｅｖａｌｕａｔｅｄｂｙｔｈｅＢＬＥＵｍｅｔｒｉｃｓ．Ｅｘｐｅｒｉ

ｍｅｎｔａｌｒｅｓｕｌｔｓｓｈｏｗｔｈａｔｔｈｅｇｒｅｅｄｙｄｉｒｅｃｔｄｅｃｏｄｉｎｇａｌｇｏｒｉｔｈｍｇｉｖｅｓｂｅｔｔｅｒｒｅｓｕｌｔｓｔｈａｎｔｈｅｃｕｒｒｅｎｔｒｅ

ｖｅｒｓｅｄｅｃｏｄｉｎｇａｌｇｏｒｉｔｈｍｏｎｔｒａｎｓｌａｔｉｏｎｑｕａｌｉｔｙａｎｄｓｐｅｅｄ．Ｔｈｉｓｍｅａｎｓｔｈａｔｔｈｅｇｒｅｅｄｙｄｉｒｅｃｔｄｅｃｏ

ｄｉｎｇａｌｇｏｒｉｔｈｍｃａｎｍａｋｅｍｏｒｅｅｆｆｉｃｉｅｎｔｕｓｅｏｆｓｙｎｔａｃｔｉｃａｌｉｎｆｏｒｍａｔｉｏｎ，ｔｈｕｓｉｓｍｏｒｅｓｕｉｔａｂｌｅｆｏｒｔｈｅ

ｔｒｅｅｔｏｓｔｒｉｎｇｓｔａｔｉｓｔｉｃａｌｔｒａｎｓｌａｔｉｏｎｍｏｄｅｌ．

Ｋｅｙｗｏｒｄｓ：ｓｔａｔｉｓｔｉｃａｌｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎ；ｓｙｎｔａｘ；ｇｒｅｅｄｙ；ｄｅｃｏｄｉｎｇ

收稿日期

：２００７０３０５．

基金项目

：

国家高技术研究计划

（８６３

计划

）

资助项目

（２００６ＡＡ０１０１０８）．

作者简介

：

薛永增

（１９７７—），

男

，

博士生

，ｘｙｚ＠ｍｔｌａｂ．ｈｉｔ．ｅｄｕ．ｃｎ；

李生

（

联系人

），

男

，

教授

，

博士生导师

，ｌｉｓｈｅｎｇ＠ｈｉｔ．ｅｄｕ．

ｃｎ．

树串句法统计翻译模型

［１２］

是基于语言学句

法树

，

以词为翻译单元的统计翻译模型

．

由于只在

一种语言中引入句法树结构

，

在一定程度上避免了

树树统计翻译模型

［３５］

中普遍存在的不同语言句

法树异构问题

，

能够更加灵活地刻画翻译过程

，

具

有一定的优势

．

但是

，

树串统计翻译模型的翻译实验却没有

得出令人满意的结果

［６］

．

本文作者认为原因在于

翻译过程构建在噪声通道模型框架下

，

导致解码方

向与模型方向相反

，

即从源语言句子生成目标语言

句法树结构

（

本文称为反向解码

）．

这就要从简单

的结构生成复杂的结构

，

需要补充跨语言结构信

息

，

既要完成

２

种语言间的转换又要完成目标语言

句法分析

，

大大增加了解码难度

．

另一方面

，

句法树

结构没有得到充分利用

，

结构信息主要用于译文句

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38581405

粉丝: 2
资源: 947

正向贪心解码算法在树串句法翻译模型中的应用

树-串句法统计翻译模型的正向解码算法 (2008年)

基于句法的统计翻译模型.pdf

正向解码算法在句法统计翻译模型中的应用

基于短语的机器翻译的短语句法类别序列模型

论文研究-常用统计翻译模型在口语汉英翻译中的比较研究.pdf

句法统计翻译模型：改善机器翻译的策略

语义/句法/情节模型在统计翻译中的应用探索

哈萨克语句法分析：PCFG模型与Viterbi算法的应用

音素串编辑距离优化的随机段模型解码算法提升语音识别性能

句法统计机器翻译问题探讨与解决方案

最新资源