探索布朗语料库：美国英语首个大型文本语料库

版权申诉

34 浏览量更新于2024-11-18 收藏 9.09MB 7Z 举报

资源摘要信息:"布朗语料库（Brown Corpus）是计算机语言学和自然语言处理领域的一个基础资源。它是由布朗大学语言学系的W. Nelson Francis和Henry Kučera于1963-1964年创建的，是美国英语的第一个大规模的、系统化的文本语料库。布朗语料库包含了来自不同领域的、经过手工标注的文本，包括报纸、书籍、政府文件等，总计约含有1,014,312个单词。这个语料库对研究语言学和英语的各个领域有着重要意义，尤其对于语言建模、词汇频率分析、语言规律研究等方面提供了丰富的研究材料。布朗语料库最初是按主题分类的，共分为15个主要类别，包括新闻报道、学术文章、小说等，每类包含约500个文本样本。语料库中的每个单词都经过了词性标注（POS tagging），这是一种为词汇分配语法类别（名词、动词、形容词等）的过程，这对于理解语言结构至关重要。随着语料库的发展，布朗语料库也经历了不同的格式和技术处理。最开始的版本是以纸带形式存在，随后发展为电子形式，并开始使用计算机可读的格式。其后，布朗语料库被转换成了TEI（Text Encoding Initiative）/XML格式，这是一种标准化的标记语言，用于编码各种复杂的文本数据，确保了语料库的可扩展性和互操作性。这种转换不仅便于语料库的计算机处理和分析，同时也使得跨数据库的比较和互操作成为可能。 OLiA（Ontology-based Linguistic Annotation）是布朗语料库中的另一项重要技术，它为语料库提供了一种基于本体的词类注释方法。通过OLiA，语料库中的文本数据可以被链接到一个词汇本体中，这使得词汇的聚合查询和数据共享成为可能，极大地提高了研究者对语料库的使用效率。布朗语料库在相关领域产生了深远的影响，并推动了后续更多语料库的建立。其中最为著名的是由Lancaster大学和Oxford University Press合作创建的LOB语料库（Lancaster-Oslo/Bergen Corpus），它是英国英语的对应版本，使得英美英语的比较研究成为可能。为了进一步研究和分析布朗语料库，研究人员和学生可以访问包含原始文本和转换文本的压缩包文件，文件名称为“Brown Corpus.7z”。这个压缩包可以通过适当的解压缩工具打开，并允许用户获取到语料库的所有数据，从而进行语言学研究、词频分析、语法分析等学术工作。"

资源目录

收起资源包目录