扭转缺陷：构建与剖析中英三元组可比语料库提升NLP应用

101 浏览量更新于2024-08-29 收藏 416KB PDF 举报

构建和剖析中英三元组可比语料库是一项关键的自然语言处理技术研究，其主要目标是解决中英平行语料库中存在的翻译腔导致的语言模型扭曲问题。这种扭曲影响了机器翻译和跨语言检索等系统的性能，因为它们依赖于这些语料库来学习和理解两种语言之间的对应关系。传统的平行语料库，如纯中文与英文的对照文本，往往在翻译过程中引入了非自然的语言结构，即所谓的“翻译腔”，这使得机器学习到的语言模型并不完全符合母语者的语言习惯。因此，训练出的系统在处理母语表达时可能会出现不准确或不符合预期的问题。本文提出了一种创新方法，即构建和剖析中英三元组可比语料库。这种语料库由三个元素组成：本族英语、中式英语和标准中文，旨在通过比较这三种形式的语言，更准确地反映语言的自然分布和变化。研究采用了可比语料库技术和自动语言剖析，结合统计和规则分析，对本族英语和中式英语进行深入剖析，识别出语言的异同和过渡模式。具体来说，研究过程包括： 1. 数据采集：收集包含不同语言风格的文本数据，确保三元组中各部分的代表性。 2. 数据处理：利用自动语言剖析技术，如词性标注、句法分析等，对三元组中的文本进行细致的分解和解析。 3. 统计分析：通过计算n-元词串的频率和分布，了解语言模式的偏移情况。n-元词串是一种连续的词语序列，有助于揭示语言结构的变化。 4. 关键词簇提取：通过聚类分析找出词汇的共现模式，这些共现模式反映了语言在翻译过程中的转移和融合现象。 5. 基于本族语言模型的资源挖掘：利用自动抽取技术，从分析结果中提取出对机器翻译等应用有帮助的双语资源，优化语言模型，提高系统的准确性和流畅度。构建和剖析中英三元组可比语料库的研究不仅提高了机器翻译系统的性能，也为其他自然语言处理任务提供了更加准确和贴近母语的语言模型，从而推动了跨语言技术的整体发展。通过这种方法，研究者能够更好地理解和模仿人类在多语言环境下的语言转换过程，使得人工智能系统在处理多语言交互时更加自然和有效。

构建和剖析中英三元组可比语料库

Building and Profiling Chinese-English 3-tuple comparable corpora

胡小鹏１袁琦１耿鑫辉１朱姝１

Hu Xiaopeng Yuan Qi Geng Xinhui Zhu Shu

1.中国电子信息产业发展研究院，北京 100044

1. China Center for Information Industry Development (CCID) , Beijing 100044, China

摘要

由于受到翻译腔的影响，中英平行语料库存在固有的扭斜的语言模型。显然，用这样的语

料库训练的机器翻译、跨语言检索等自然语言处理系统也承袭了扭斜的语言模型，严重影

响到应用系统的性能。为了克服平行语料库固有的缺陷，本文提出了构建和剖析中英三元

组可比语料库的技术研究。这项研究采用可比语料库和语言自动剖析技术，使用统计和规

则相结合的方法，对由本族英语、中式英语和标准中文三元素所组成的三元组可比语料库

中的本族英语和中式英语进行统计分析。在此基础上，利用 n-元词串、关键词簇等自动抽

取技术挖掘基于本族语言模型的双语资源，实现改进和发展机器翻译等自然语言处理应

用。

关键词：三元组可比语料库；语言迁移；自动语言剖析；n 元词串

Abstract

There exists inherent skewed language model in Chinese-English parallel corpus due to the

influence of translationese. Obviously, natural language processing systems trained with these

corpora, including machine translation and cross-language information retrieval, will inherit the

skewed language model, thus seriously degrading the performance of applications. To fix the

inherent defaults in parallel corpus, this article proposes a technical research on building and

profiling Chinese-English 3-tuple comparable corpora. The study adopts comparable corpora and

automatic language profiling technologies and applies a combined method of statistics and rules

for statistical analysis on native English and Chinglish in 3-tuple comparable corpora that consists

of native English, Chinglish and standard Chinese. Based on this, automatic extraction

technologies, such as n-grams and key clusters, are used in the mining of native-language-based

bilingual resources to improve and develop natural language processing applications such as

machine translation.

Key word: 3-tuple comparable corpora; language transfer; automatic language profiling

；

n-grams

基金项目：国家自然科学基金（No.61172101，No.61172102）；

作者简介：胡小鹏，男，博士，研究方向：自然语言处理、机器翻译，E-mail：huxp@ccidtrans.com；袁琦，

男，研究员；耿鑫辉，男，高级工程师；朱姝，女，硕士。

下载后可阅读完整内容，剩余7页未读，立即下载

weixin_38601878

粉丝: 7
资源: 960

扭转缺陷：构建与剖析中英三元组可比语料库提升NLP应用

论文研究-三元组可比语料库自动剖析技术研究与应用.pdf

中英平行语料库

三元组可比语料库自动剖析技术研究与应用

以SCI论文的要求写一下语料库构建评价指标

掌握语料库的构建和分析方法，能够应用相关工具对语料库进行分析和处理，实验步骤

以SCI论文的要求写一下语料库构建评价指标都有哪些，哪些可以实用与实体关系标注

语料库和训练好的语料库有什么不同?

语料库构建存在哪些关键问题

如何导入自然语言语料库

aiml中文语料库下载

最新资源