探索布朗语料库:美国英语首个大型文本语料库
版权申诉
34 浏览量
更新于2024-11-18
收藏 9.09MB 7Z 举报
资源摘要信息:"布朗语料库(Brown Corpus)是计算机语言学和自然语言处理领域的一个基础资源。它是由布朗大学语言学系的W. Nelson Francis和Henry Kučera于1963-1964年创建的,是美国英语的第一个大规模的、系统化的文本语料库。布朗语料库包含了来自不同领域的、经过手工标注的文本,包括报纸、书籍、政府文件等,总计约含有1,014,312个单词。这个语料库对研究语言学和英语的各个领域有着重要意义,尤其对于语言建模、词汇频率分析、语言规律研究等方面提供了丰富的研究材料。
布朗语料库最初是按主题分类的,共分为15个主要类别,包括新闻报道、学术文章、小说等,每类包含约500个文本样本。语料库中的每个单词都经过了词性标注(POS tagging),这是一种为词汇分配语法类别(名词、动词、形容词等)的过程,这对于理解语言结构至关重要。
随着语料库的发展,布朗语料库也经历了不同的格式和技术处理。最开始的版本是以纸带形式存在,随后发展为电子形式,并开始使用计算机可读的格式。其后,布朗语料库被转换成了TEI(Text Encoding Initiative)/XML格式,这是一种标准化的标记语言,用于编码各种复杂的文本数据,确保了语料库的可扩展性和互操作性。这种转换不仅便于语料库的计算机处理和分析,同时也使得跨数据库的比较和互操作成为可能。
OLiA(Ontology-based Linguistic Annotation)是布朗语料库中的另一项重要技术,它为语料库提供了一种基于本体的词类注释方法。通过OLiA,语料库中的文本数据可以被链接到一个词汇本体中,这使得词汇的聚合查询和数据共享成为可能,极大地提高了研究者对语料库的使用效率。
布朗语料库在相关领域产生了深远的影响,并推动了后续更多语料库的建立。其中最为著名的是由Lancaster大学和Oxford University Press合作创建的LOB语料库(Lancaster-Oslo/Bergen Corpus),它是英国英语的对应版本,使得英美英语的比较研究成为可能。
为了进一步研究和分析布朗语料库,研究人员和学生可以访问包含原始文本和转换文本的压缩包文件,文件名称为“Brown Corpus.7z”。这个压缩包可以通过适当的解压缩工具打开,并允许用户获取到语料库的所有数据,从而进行语言学研究、词频分析、语法分析等学术工作。"
2584 浏览量
4057 浏览量
111 浏览量
2584 浏览量
853 浏览量
点击了解资源详情
125 浏览量
183 浏览量
点击了解资源详情
BryanDing
- 粉丝: 312
- 资源: 5577
最新资源
- ePass3000GM驱动安装程序
- 红色热气球风景主题单页网站模板
- generator-jas
- typescout:TypeScript类型搜索器
- 完美的音调
- Texture.zip
- SSA+CNN分类算法实现
- wikibase-docker::spouting_whale:Wikibase和周围服务的Docker映像和示例撰写文件
- 企业文化建设调查问卷
- 淘常州网分类导航
- PMA通信协议分析及仿真软件
- Gmail emotional labor-crx插件
- djecommerce:https://github.comjustdjango如何
- WALL-E:高效而简单的强化学习研究框架的代码库
- galImage2Ascii:将图像转换为ASCII格式
- OkSimple:OkSimple:强大而简单的网络库