兰卡斯特汉语语料库(LCMC):对比研究与建设概述
需积分: 10 199 浏览量
更新于2024-09-18
收藏 223KB PDF 举报
"本文详细介绍了‘兰卡斯特汉语语料库’(LCMC),这是一个由肖忠华博士创建的,按照英国英语语料库FLOB模式建立的现代汉语平衡语料库,旨在支持汉语与英语的对比研究以及汉语本身的研究。LCMC包含100万词次的现代汉语书面语,涵盖了15个文体类型,样本主要出版于1991、1992年。语料库的构建考虑了对比研究的需求,因此在FLOB的取样模式基础上进行了微调,如将‘西部和历险小说’替换为‘武侠小说’。"
在深入探讨LCMC之前,首先理解什么是语料库。语料库是一种大规模的、结构化的、代表性的语言数据集合,用于语言学研究、自然语言处理(NLP)和机器学习等领域。LCMC,全称为Lancaster Corpus of Mandarin Chinese,是一个专为汉语研究设计的语料库,其核心特点是平衡性,意味着它包含了不同来源、不同文体的文本,以提供全面的语言使用情况。
LCMC的创建受到了FLOB(Freiburg-LOBCorpusofBritishEnglish)的启发,FLOB是一个大型的英国英语语料库。为了实现对比研究的目的,LCMC在规模和取样策略上参照了FLOB,但鉴于汉语的特殊性和可用资源的限制,它选择了100万词次作为初始规模,并且侧重于1991、1992年的文本,以与FLOB的出版年份相对应。
在文体类型的选取上,LCMC覆盖了新闻、科学、技术、广告、法律等多种领域,确保了语料的多样性和代表性。其中的一个调整是将FLOB中的“西部和历险小说”替换为更适合中国文化的“武侠小说”,这反映了语料库在反映特定文化背景时所做的适应。
LCMC的建立对汉语研究具有重要意义。它可以支持对比分析,帮助研究人员了解英汉语法、词汇和表达方式的异同,从而推动跨语言研究。此外,对于汉语本身的深入研究,如语义、句法、修辞等方面,LCMC提供了大量真实语境下的数据,有助于揭示语言规律。
在实际应用中,LCMC不仅可用于学术研究,还可能应用于教学材料开发、翻译工具的改进、语音识别系统训练等。由于其公开性,研究者和开发者可以免费获取并利用这些数据,促进汉语相关的技术创新和发展。
LCMC是汉语语料库领域的一个重要贡献,它的建立和完善对于推动汉语研究、增进对汉语语言特性的理解和提升NLP技术在汉语处理中的性能都起到了关键作用。通过持续更新和扩大规模,LCMC将继续为全球的汉语研究和应用提供宝贵的资源。
162 浏览量
108 浏览量
188 浏览量
2021-04-27 上传
2017-12-02 上传
2021-01-18 上传
fj959802
- 粉丝: 0
- 资源: 1
最新资源
- oracle11gx64安装包
- 易语言-易语言使用OpenCV水位识别
- maven 仓库 e-j jia包
- y7k-smashbros:Y7K Smashbros
- complex-theory-code-master_路径规划_TIN_不规则三角网_性能分析_曲面.zip
- audio-buffer-from:从任何源数据创建音频缓冲区
- CQMFB的设计,matlab低通滤波器源码,matlab
- standard-controls:用于带有标准库的控件的 Bower 组件
- express-trailing-slash:Express中间件,用于将URL重定向而无需将斜杠尾随斜杠转换为相同的URL
- 单片机C语言实例-1个18B20 温度传感器 数码管显示.zip
- 基于ssm+vue+WEB的文学网的设计与实现.zip
- 江苏电信翼粉团方案.zip运营、文案策划资料打包下载
- 用于创建虚拟LEGO模型的CAD程序-C/C++开发
- MPPT_mppt扰动观察法_扰动观察_并网逆变器_光伏.zip
- chapter23,pso粒子群算法matlab源码,matlab源码怎么用
- inject-github-pr