英国国家语料库:代表20世纪后期英式英语的压缩评估基准

需积分: 12 2 下载量 37 浏览量 更新于2024-09-11 收藏 24KB DOC 举报
"英国国家语料库(British National Corpus, BNC)是一个重要的语言研究资源,它是一个包含1亿单词的样本集合,涵盖了20世纪后期英国英语的广泛代表,包括书面和口语形式。BNC旨在提供一个全面的样本,反映出英国各地、各年龄段、不同兴趣群体以及不同社会阶层的语言使用。书面部分占90%,其中包括来自各种来源的文本,如地区和全国性报纸、专业期刊、学术书籍、通俗小说、私人信件和报告、学校和大学论文等。口语部分占10%,由志愿者在多种情境下记录的非正式对话和不同场合的语音样本组成,这些对话涉及正式商务会议、政府会议、广播节目和电话访谈等。 BNC的编码遵循Text Encoding Initiative(TEI)的标准,以便于计算机处理,特别关注CLAWS(Computerized Language Analysis Workbench)等自动分词工具的输出。这个语料库的设计目标不仅在于评估语言变化和模式,也是研究者测试和比较不同压缩方法的理想平台,因为其庞大的规模提供了丰富的数据供压缩算法进行实验。 BNC XMLEdition,发布于2007年,是该语料库的一个更新版本,可能包含了更多元化的数据和改进的技术支持。它对于语言学家、教育工作者、计算机科学家和那些研究语言演变、文体分析、机器翻译或自然语言处理等领域的人来说,都是极其宝贵的资源。此外,BNC还与许多关于无损压缩和一般压缩方法的研究紧密相关,研究人员可以利用其详尽的资料来验证和完善自己的理论和技术。" 在这个网站上,你可以找到详细的测试结果,包括不同压缩方法对BNC数据的处理效果,这有助于评估算法的效率和性能。同时,该站点还提供了关于各种语料库的描述、压缩方法的解释,以及与BNC相关的研究论文和报告,为相关领域的学术交流和技术创新提供了丰富的资源。如果你对无损压缩技术或者如何利用BNC进行语言学研究感兴趣,这里无疑是一个不可或缺的起点。"