统计方法提取大规模语料库中的汉语切分候选序列

需积分: 6 1 下载量 159 浏览量 更新于2024-09-19 收藏 209KB PDF 举报
本文档探讨了一种基于统计的方法来从大规模单语语料库中抽取中文短语(Chunk)候选。该研究是构建基于实例的机器翻译模型中的关键任务之一,因为有效的短语抽取能够显著提高翻译质量,尤其是在处理语言结构复杂度较高的汉语时。 首先,作者们从原始语料库中提取了大量N-gram(直到20-gram),这是一个基本的预处理步骤,用于捕捉词语之间的频繁搭配和模式。这一步骤的重要性在于,短语通常由连续的词或子词组成,N-gram分析有助于发现这些潜在的短语结构。 然后,文中提出了两种新的快速统计子串缩减(Fast Statistical Substring Reduction,FSSR)算法。这两个算法利用频率信息来评估N-gram的有效性,通过删除出现频率较低、对短语识别贡献不大的部分,大大减少了N-gram集合的大小,效率极高,时间复杂度达到O(n),这意味着它们可以在保持高效的同时,将N-gram集压缩至原有大小的50%左右。 最后,作者们采用互信息(Mutual Information)这一统计量作为衡量标准,从已缩减的N-gram集合中进一步筛选出具有更高关联性的短语候选。互信息是一种量化两个随机变量之间依赖关系的指标,对于短语的结构和上下文关联性有很好的反映。通过这种方法,作者们可以得到一组既具有语言学意义又在实际语料中频繁出现的高质量中文短语候选。 这项研究提供了一种有效且高效的策略,通过结合大语料库分析、统计优化和信息论方法,为中文短语抽取这一自然语言处理任务提供了新的视角。这对于改进机器翻译系统,特别是针对汉语这样的多变和丰富的语言,具有重要的理论价值和实际应用潜力。