信息处理技术
基于词典和统计的语料库词汇级对齐算法
1)
刘小虎 吴 葳 李 生 赵铁军 蔡萌
( 哈尔滨工业大学计算机科学与工程系, 哈尔滨 150001)
鞠 英 杰
( 黑龙江大学信息管理 系, 哈尔滨 150080)
收稿日期: 1996 年 6 月 3 日
作者简介: 刘小虎, 男, 1970 年生。哈尔滨工业大学计算机系博士生, 主要研究方向为机器翻译。研制开发
了达雅翻译工作站。
1) 本项研究得到国家 863 基金( 863- 306- 03- 06- 3) 的资助。
摘要
语料库词汇一级的对齐, 对于充分发挥语料库的作用意义重大。本文对汉英句子一级对
齐的语料库, 提出了借助于词典和语料库统计信息的有效 的对齐算法。首先利用 词典的词的译文
及其同义词在目标语中寻找对齐; 其次利 用汉语词汇与英语单 词的共现统计信息以最大的互信息
寻找对齐词汇以及相邻短语。实践证明该方法是行之有效的。
关键词
语料库 词汇级对齐 共现概率
Aligning Algorithm for a Corpus at Word Level
Based on Dictionary and Statistics
Liu Xiaohu
,
Wu Wei
,
Li Sheng
,
Zhao Tiejun and Cai Meng
(Dep art ment of Comp ut er S cience and E ngine ering , H arbin Institute of T echnology , H arbin 150001)
Ju Yingjie
( Depar tment of I nf ormat ion M anag ement, H eil ongj ian g Univ ersity , H ar bin 150080)
Abstract A ligning the bilingual co rpus at w or d lev el is ver y impor tant to take the adv ant ages of
cor pus. T his paper pr esents an efficient alig ning alg or ithm for a co rpus aligned at sentence level,
using t he lex ical info rmat ion and statistic info rmat ion
.
F ir st
,
the infor mation of dictionar y and the-
sa ur us is used. Second, the mutual infor mation betw een Chinese w o rds( or adjacent phra ses ) and
English wo rds
(
o f adjacent phr ases
)
is used
.
O ur ex periments has pro ved t his metho d to be effec-
tiv e.
Keyword cor pus
,
align at w or d lev el
,
pr obability of co ncur rence
1 引 言
近年来, 语料库方法越来越受到人们的重视, 同时人们也不断地认识到不经过加工的“生
第 16 卷 第 1 期
1997 年 2 月
情 报 学 报
V ol. 16,
№
1
F ebr uary
, 1997