老-汉双语对齐研究：多特征与Bi-LSTM算法的应用

82 浏览量更新于2024-08-26 收藏 1.07MB PDF 举报

"融入多特征的汉-老双语对齐方法" 在自然语言处理领域，双语平行语料库的构建对于机器翻译、信息检索、跨语言信息抽取等多个任务至关重要。双语对齐是构建这样的语料库的关键步骤，它涉及到在两种语言之间找到对应的内容。"融入多特征的汉-老双语对齐方法"这篇研究论文专注于解决汉语与老挝语之间的句子对齐问题，这在两国日益增强的经济与文化交流背景下显得尤为重要。论文指出，句子对齐通常需要考虑多种特征，包括词汇、语法和上下文信息。对于汉语和老挝语这对语言，由于它们在词序和表达方式上的差异，传统的对齐方法可能无法有效地捕获它们之间的对应关系。因此，研究者们提出了一个融合多特征的对齐策略，特别关注句子中的动词、名词和形容词等关键词汇的顺序。在实验中，研究者采用了双向长短期记忆网络（Bi-LSTM）算法，这是一种深度学习模型，擅长处理序列数据，能够捕捉上下文中的长期依赖关系。Bi-LSTM在处理篇章级别的语料对齐时表现出色，能有效识别和匹配不同语言间的相似句子结构。关键词如"老-汉双语句子对齐"、"句子对齐"、"平行语料库"和"Bi-LSTM"揭示了研究的核心内容。"老-汉双语句子对齐"指的是在汉语和老挝语之间进行句子级别的对应；"句子对齐"是研究的具体技术手段，旨在找出两种语言中意义对应的句子；"平行语料库"是研究的目标，它是构建机器翻译系统和其他自然语言处理应用的基础；"Bi-LSTM"是用于实现这一目标的深度学习模型，利用其能力来处理双语对齐的复杂性。中图分类号"TP391.9"表明这是计算机科学技术下的一个子领域，而"文献标志码：A"则暗示这篇论文属于学术研究类，具有较高的理论和实践价值。这项工作为解决汉语与老挝语之间的双语对齐问题提供了新的视角和方法，有助于促进两国之间的信息交流和理解。

第 39 卷第 8 期中国水运 Vol. 39 No. 8

2018 年 8 月 CHINA WATER TRANSPORT Aug. 2018

1 收稿日期：2019.11.11 修订日期：

基金项目：国家自然科学基金（61662040, 61562049）；云南省自然科学基金面上项目(2016FB101)

† 通信作者：周兰江，E-mail：915090822@qq.com

文章编号：

融入多特征的汉-老双语对齐方法

贾善崇

，周兰江

，张建安

，周枫

（1. 昆明理工大学信息工程与自动化学院，云南昆明 650504）

摘要：随着东盟与中国的经贸日益增加，语言作为两个国家交流的重要渠道，通过人工智能来解决双语问题，也

正成为一门重要的研究。双语平行语料库的构建，是人工智能中自然语言处理的核心任务之一。双语语料库构建的

核心之一是对齐，而句子对齐又是构建对齐语料库的基本任务。本文主要参考其他较为成熟的句子对齐方法，重点

的针对老挝语与中文的句子上下文信息，从句子所含动词、名词、形容词等词序进行句子对齐方法的研究。实验中

所采用的方法主要应用了 Bi-LSTM 算法，使用这个算法来处理序列模型相关的问题。该算法在对齐的篇章级语料

中的提取对齐句子有较好的表现。

关键词：老-汉双语句子对齐；句子对齐；平行语料库；Bi-LSTM

中图分类号：TP391.9 文献标志码：A

Chinese-Lao Bilingual Alignment Method with Multiple Features

JIA Shan-chong1，Zhou Lan-jiang1，ZHANG Jian-an1，ZHOU Feng1

(1. Kunming University of Science and Technology, Faculty of Information Engineering and Automation, Kunming，Yunnan,650504,

China)

Abstract: With the increasing economic and trade relations between ASEAN and China, language as an important channel

for exchanges between the two countries, through artificial intelligence to solve bilingual problems, is also becoming an

important research. The construction of bilingual parallel corpus is one of the core tasks of natural language processing in

artificial intelligence. One of the cores of bilingual corpus construction is alignment, and sentence alignment is the basic

task of building aligned corpora. This paper mainly refers to other more mature sentence alignment methods, focusing on

the sentence context information of Lao and Chinese, and studying the sentence alignment method from the verbs, nouns,

adjectives and other words in the sentence. The method used in the experiment mainly applied the Bi-LSTM algorithm,

which was used to deal with the problems related to the sequence model. The algorithm has better performance in

extracting aligned sentences in aligned text-level corpora.

Key words: Chinese-LAO double statement alignment;sentence alignment;parallel corpus;Bi-LSTM

0 引言

随着机器翻译以及机器辅助翻译的大规模应

用，机器翻译得到了极大程度的认可，但是在一些

小的语种上，研究还没有展开，亦或者是刚起步，

没有得到很好的发展。

双语语料库则为自然语言处理研究领域提供重

要的语言资源，双语语料库的关键特点就是对齐，

即在两种不同语言之间找到互为翻译的原文以及译

文。其中，对齐的范围也比较宽泛，有篇章级对齐，

句子级对齐以及短语对齐等。而构建句子级的对齐

语料是构建平行语料库的基本任务之一。近些年，

随着一带一路的发展，中国与东盟的经贸合作日益

增加，但由于语言的不通，这也极大程度的阻碍了

其发展。当前，老挝语方面的自然语言处理研究还

处于初期，老汉双语对齐语料库的建立，对中老两

国的进一步沟通有着深远的意义。本文主要讨论汉

老双语的对齐方法研究。如下表 1：

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38618315

粉丝: 1

老-汉双语对齐研究：多特征与Bi-LSTM算法的应用

华尔街日报沙中英文双语对齐资源

纳西-汉语双语词语对齐算法：融合特征约束提升21.9%准确率

Soft Cross-lingual Syntax Projection for Dependency Parsing

探索：崭新机器翻译策略与双语信息处理

【技术翻译创新方法】：利用先进技术简化翻译过程

序列-序列模型在机器翻译中的应用

多语言文本分析的艺术：LDA模型的多语种挑战与机遇

中文BU65170文档多语言支持：国际化策略的实战指南

【Swing国际化与本地化】：创建多语言支持的Java应用程序

【FUJITSU SOFTUNE国际化_本地化深度解析】：多语言支持与字符编码策略

最新资源