第 39 卷 第 8 期 中国水运 Vol. 39 No. 8
2018 年 8 月 CHINA WATER TRANSPORT Aug. 2018
1 收稿日期:2019.11.11 修订日期:
基金项目:国家自然科学基金(61662040, 61562049);云南省自然科学基金面上项目(2016FB101)
† 通信作者:周兰江,E-mail:915090822@qq.com
文章编号:
融入多特征的汉-老双语对齐方法
1
贾善崇
1
,周兰江
1
,张建安
1
,周枫
1
(1. 昆明理工大学 信息工程与自动化学院,云南 昆明 650504)
摘 要:随着东盟与中国的经贸日益增加,语言作为两个国家交流的重要渠道,通过人工智能来解决双语问题,也
正成为一门重要的研究。双语平行语料库的构建,是人工智能中自然语言处理的核心任务之一。双语语料库构建的
核心之一是对齐,而句子对齐又是构建对齐语料库的基本任务。本文主要参考其他较为成熟的句子对齐方法,重点
的针对老挝语与中文的句子上下文信息,从句子所含动词、名词、形容词等词序进行句子对齐方法的研究。实验中
所采用的方法主要应用了 Bi-LSTM 算法,使用这个算法来处理序列模型相关的问题。该算法在对齐的篇章级语料
中的提取对齐句子有较好的表现。
关键词:老-汉双语句子对齐;句子对齐;平行语料库;Bi-LSTM
中图分类号:TP391.9 文献标志码:A
Chinese-Lao Bilingual Alignment Method with Multiple Features
JIA Shan-chong1,Zhou Lan-jiang1,ZHANG Jian-an1,ZHOU Feng1
(1. Kunming University of Science and Technology, Faculty of Information Engineering and Automation, Kunming,Yunnan,650504,
China)
Abstract: With the increasing economic and trade relations between ASEAN and China, language as an important channel
for exchanges between the two countries, through artificial intelligence to solve bilingual problems, is also becoming an
important research. The construction of bilingual parallel corpus is one of the core tasks of natural language processing in
artificial intelligence. One of the cores of bilingual corpus construction is alignment, and sentence alignment is the basic
task of building aligned corpora. This paper mainly refers to other more mature sentence alignment methods, focusing on
the sentence context information of Lao and Chinese, and studying the sentence alignment method from the verbs, nouns,
adjectives and other words in the sentence. The method used in the experiment mainly applied the Bi-LSTM algorithm,
which was used to deal with the problems related to the sequence model. The algorithm has better performance in
extracting aligned sentences in aligned text-level corpora.
Key words: Chinese-LAO double statement alignment;sentence alignment;parallel corpus;Bi-LSTM
0 引 言
随着机器翻译以及机器辅助翻译的大规模应
用,机器翻译得到了极大程度的认可,但是在一些
小的语种上,研究还没有展开,亦或者是刚起步,
没有得到很好的发展。
双语语料库则为自然语言处理研究领域提供重
要的语言资源,双语语料库的关键特点就是对齐,
即在两种不同语言之间找到互为翻译的原文以及译
文。其中,对齐的范围也比较宽泛,有篇章级对齐,
句子级对齐以及短语对齐等。而构建句子级的对齐
语料是构建平行语料库的基本任务之一。近些年,
随着一带一路的发展,中国与东盟的经贸合作日益
增加,但由于语言的不通,这也极大程度的阻碍了
其发展。当前,老挝语方面的自然语言处理研究还
处于初期,老汉双语对齐语料库的建立,对中老两
国的进一步沟通有着深远的意义。本文主要讨论汉
老双语的对齐方法研究。如下表 1: