兰卡斯特汉语语料库(LCMC)：对比研究与建设概述

需积分: 10 174 浏览量更新于2024-09-18 收藏 223KB PDF 举报

"本文详细介绍了‘兰卡斯特汉语语料库’(LCMC)，这是一个由肖忠华博士创建的，按照英国英语语料库FLOB模式建立的现代汉语平衡语料库，旨在支持汉语与英语的对比研究以及汉语本身的研究。LCMC包含100万词次的现代汉语书面语，涵盖了15个文体类型，样本主要出版于1991、1992年。语料库的构建考虑了对比研究的需求，因此在FLOB的取样模式基础上进行了微调，如将‘西部和历险小说’替换为‘武侠小说’。" 在深入探讨LCMC之前，首先理解什么是语料库。语料库是一种大规模的、结构化的、代表性的语言数据集合，用于语言学研究、自然语言处理(NLP)和机器学习等领域。LCMC，全称为Lancaster Corpus of Mandarin Chinese，是一个专为汉语研究设计的语料库，其核心特点是平衡性，意味着它包含了不同来源、不同文体的文本，以提供全面的语言使用情况。 LCMC的创建受到了FLOB（Freiburg-LOBCorpusofBritishEnglish）的启发，FLOB是一个大型的英国英语语料库。为了实现对比研究的目的，LCMC在规模和取样策略上参照了FLOB，但鉴于汉语的特殊性和可用资源的限制，它选择了100万词次作为初始规模，并且侧重于1991、1992年的文本，以与FLOB的出版年份相对应。在文体类型的选取上，LCMC覆盖了新闻、科学、技术、广告、法律等多种领域，确保了语料的多样性和代表性。其中的一个调整是将FLOB中的“西部和历险小说”替换为更适合中国文化的“武侠小说”，这反映了语料库在反映特定文化背景时所做的适应。 LCMC的建立对汉语研究具有重要意义。它可以支持对比分析，帮助研究人员了解英汉语法、词汇和表达方式的异同，从而推动跨语言研究。此外，对于汉语本身的深入研究，如语义、句法、修辞等方面，LCMC提供了大量真实语境下的数据，有助于揭示语言规律。在实际应用中，LCMC不仅可用于学术研究，还可能应用于教学材料开发、翻译工具的改进、语音识别系统训练等。由于其公开性，研究者和开发者可以免费获取并利用这些数据，促进汉语相关的技术创新和发展。 LCMC是汉语语料库领域的一个重要贡献，它的建立和完善对于推动汉语研究、增进对汉语语言特性的理解和提升NLP技术在汉语处理中的性能都起到了关键作用。通过持续更新和扩大规模，LCMC将继续为全球的汉语研究和应用提供宝贵的资源。

“兰卡斯特汉语语料库”介绍

许家金

（北京外国语大学中国外语教育研究中心，北京 100089，北京）

提要：本文介绍“兰卡斯特汉语语料库”（简称 LCMC）的取样方案、文本构成、标注体系和应用方面的概

况。该语料库是依照英国英语语料库 FLOB 的取样方案和规模创建的可比汉语语料库，适合开展英、汉语

对比研究，同时也适合汉语研究。

关键词：汉语语料库；LCMC；对比研究

1.0 前言

“兰卡斯特汉语语料库”（The Lancaster Corpus of Mandarin Chinese，简称 LCMC）

系旅英学者肖忠华博士创建的现代汉语平衡语料库。该语料库严格按照 FLOB

（Freiburg-LOB Corpus of British English）模式编制，它的建成有助于开展基于语料库的

汉语单语或汉英（英汉）双语对比研究及汉语研究。

2.0 LCMC 语料库概况

LCMC 语料库是一个 100 万词次（按每 1.6 个汉字对应一个英文单词折算）的现代汉

语书面语通用型平衡语料库。起先建立时，它是作为英国经社研究委员会资助项目

Contrasting Tense and Aspect in English and Chinese 的部分成果。肖忠华最初的设想是

要将其建成同 FLOB 和 FROWN 对应的现代汉语语料库。筹建这样的一个语料库的另一个

动因是：尽管已经有很多汉语语料库存在，但却没有一个完全免费对公众开放的平衡的汉语

语料库

。

2.1 取样模式与文本收集

考虑到 LCMC 主要做对比研究之用，肖忠华创建语料库之初就确定了对比的对象。一

方面，在短期内想要建成像 BNC 那样的逾亿词次的语料库并不现实。另一方面，要建立同

LOB 和 Brown 平行的语料库的问题在于很难找到 1961 年前后材料的电子文本。于是，最

后对比目标被锁定在语料出版年份主要是 1991、1992 年的 100 万词次的 FLOB 上。鉴于

同时还有与 FLOB 对应的美国英语语料库 Frown 的存在，LCMC 建成以后也可与美国英语

进行比较。最后，确定下来的方案是按 FLOB 的构建模式，从 15 个文体类型（见表 1）中

选取 500 篇 2,000 词左右的样本。样本的出版日期基本在 1991 年前后。

LCMC 的筹建基本上是严格按照 FLOB 的取样模式进行，只在两个方面做了微调。

第一、FLOB 的取样范畴中，肖忠华将 FLOB 中第 N 类样本的“西部和历险小说”改成“武

侠小说”。一方面由于中国没有所谓的“西部小说”，另一方面，“武侠小说”和“西部和历险小说”

从内容性质上同属一类，且在中国这一类小说中数量众多，因此有充足理由将其收入 LCMC

中。

表 1：LCMC 取样范畴表

代码取样类型代码取样类型

新闻报道

学术、科技

社论

一般小说

新闻评论

侦探小说

下载后可阅读完整内容，剩余4页未读，立即下载

fj959802

粉丝: 0
资源: 1

兰卡斯特汉语语料库(LCMC)：对比研究与建设概述

自然语言处理语料库标注集以及符号说明

ace各个版本下载地址

新闻分类语料

香港城市大学语料库；微软亚洲研究院语料库；北京大学语料库；

人民日报语料库（中文分词语料库）

情感语料库

基于语料库的标准航海通信用语教学模式初探 (2012年)

Reuters21578语料库

reuters21578语料库

垃圾邮件语料库

最新资源