没有合适的资源?快使用搜索试试~ 我知道了~
首页词汇坐标模型:语料库文本处理的新策略
本文主要探讨的是"基于词汇坐标的语料库文本处理模型:原理及方法",该研究发表于2012年的《河南师范大学学报(自然科学版)》。文章由刘国兵和刘瑞两位作者共同撰写,关注的核心内容是将传统的语料库处理方式引入到词汇坐标体系中,以此实现从字母字符串到数字序列的高效映射。这种方法革新了传统的语料库检索模式,对于处理超大型语料库具有重要意义。 词汇坐标思想的核心在于,它将文本中的每个词汇转换为唯一的数字标识,这样做的目的是为了简化数据结构,提高检索效率。通过这种映射,文本处理模型能够快速定位和检索特定词汇出现的位置,这对于大规模文本分析尤其有用,尤其是在验证语言学理论、分析语言规律以及发现文本中的复杂性方面。 文章指出,自20世纪80年代末语料库语言学兴起以来,它已经成为语言研究不可或缺的工具。传统的语言材料仓库和数据库虽然存储语言材料,但语料库的独特之处在于它以文本为基本单位,利用统计和计算手段进行深入研究。检索分析和统计计算在这里扮演着关键角色,它们使得研究人员能够从海量文本中提取有价值的信息,进而支持基于信息统计的语言学研究。 基于词汇坐标的语料库文本处理模型是现代信息技术与语言学研究相结合的产物,它在处理和分析大型语料库时展现出了显著的优势,对于推动语言学研究的定量和系统化发展具有重要价值。通过本文,读者可以深入了解这一创新技术如何改变传统语料库处理方式,并了解其在实际应用中的潜力和前景。
资源详情
资源推荐
第 40 卷 第 4 期
2012 年 7 月
河南师范大学学报(自然科学版)
Journal o
f
Henan Normal Universit
y
(N atural Science Edition)
Vol .40 No .4 乙
Jul
y
.2012
文章编号 :1000 - 2367(2012)04 -0133 - 04
基 于 词汇 坐 标 的 语 料 库 文 本 处 理 模 型 :原 理 及 方 法
刘国兵
1
,刘 瑞
2
(1 .河南师范大学 外国语学院语料库研发中心 ,河南 新乡 453007 ;2 .中州大学 外国语学院 ,郑州 450000)
摘 要 :
介绍基于词汇坐标的语料库文本处理模型 ,并对英语文本词汇坐标思想进行详细阐述 .对语料库文本
进行词汇坐标化处理从本质上讲就是从字母串到数字串的映射实现过程 .基于词汇坐标的文本处理模型改变了传
统的语料库检索模式 ,从一定程度上适应了当前超大型语料库建设的需要 .
关键词 :
语料库 ;词汇坐标 ;文本处理
中图分类号 :
TP391 ;H08
文献标志码 :
A
语料库语言学自上个世纪 80 年代末兴起以来 ,在世界范围内得以飞速发展 .时至今日 ,语料库研究方法已经渗透到语言
研究的各个领域 ,就连一直对语料库语言学持反对态度的乔姆斯基学派也不得不承认 ,语料库的方法能够对很多语言学理论
进行验证
[1]
.语料库使语言学家能够对大规模真实文本实现自动化分析 ,从而为揭示自然语言的更多规律和复杂性提供了可
能
[2]
.语料库 ,简而言之就是加工处理后存放在计算机中并能够利用软件进行检索的语言材料的仓库 .当然 ,语料库不同于通
常意义上的语言材料仓库和数据库 ,它与后者有着本质的区别 ,很多学者如 McEnery
[3]
,Mason
[4]
等对此都进行过详细介绍 ,
这里不再赘述 .不管是世界上建成的第一个机读语料库美国布朗语料库 ,还是目前正在建设或业已建成的超大型语料库 ,其
存放语言材料的基本形式都是文本 .也就是说 ,语料库是以一个个文本为单位存在的 .语料库语言学以大量文本作为开展语
言研究的唯一数据来源 ,研究者通过检索文本获取语言信息 ,从而使知识在基于信息统计的基础上得到合理解释 ,这是语料
库语言学研究的根本出发点 .
检索分析与统计计算是进行语料库语言学研究的重要方法和手段 ,也是获取语言信息最重要的途径之一 ,所以很多人认
为 ,语料库语言学是基于统计和计算的量化研究
[5]
.在这一基本框架下 ,大规模的文本收集 、储存 、检索以及分析就成了语料
库研究者关注的重点 ,也成为近几年来该领域研究的热点
[6]
.对于大型语料库特别是目前各国正在规划建设的超大型机读语
料库来说 ,入库文本的前期处理及后期管理问题 ,已经成为建库设计的关键环节 .随着计算机技术的发展 ,语料库库容以及语
料存放空间的限制已成为历史 ,理论上可以为语料库提供无限的储存空间 .语料库语言学研究者也有一种共识 ,就是语料库
越大 ,所反映的语言事实也就越全面 、越客观
[7]
.目前网络资源的日益丰富加速了动态语料库的建设 ,所以想象不到将来的语
料库会有多大 .在这种情况下 ,亟需对过去传统的语料库文本处理技术加以改进 ,设计和开发新的文本处理模型 ,以适应超大
型机读语料库建设的需要 .
1 词汇坐标原理
语料库语言学研究的对象是自然语言 .对自然语言的文本进行切词和标注的过程 ,实际上是从一种符号串到另一种符号
串的映射过程 .根据映射规律对其进行建模 ,是实现这种映射的核心问题
[8]
.对语料库文本进行词汇坐标化处理从本质上讲
就是从字母串到数字串的映射实现过程 .北京外国语大学李文中教授最初提出词汇坐标这一概念 ,其主要目的是通过对语料
库文本的坐标化处理 ,改变传统的“面向文本”处理模式 ,从而提高计算机处理和检索文本的速度与效率 .计算机具有极高的
数字敏感性 ,对数字的处理效率和运算速度要远远高于对字符的处理 ,而语料库是以大量字符形式存在的成千上万个文本的
集合 .所以 ,如何将字符转化为数字 ,实现语料库文本的数字化处理 ,成为提高文本处理速度的关键 .英文文本都是由有限的
单词组成 ,且常用词汇重复率极高 .可以想象 ,如果计算机在处理文本时能够以简便的方式记录每个单词 (包括标点)及其在
文本中出现的位置 ,用数字加以标记并在硬盘中驻留标示信息 ,那么这个驻留文件就实现了文本的数字化 ,同时也实现了对
字符文本的有效压缩 .计算机在对文本处理时 ,单单处理驻留文件就可以了 .这样以来 ,将大大提高计算机处理文本的速度和
收稿日期 :2012‐02‐10
基金项目 :教育部人文社科项目(12YJC740062)
作者简介 :刘国兵(1978 - ) ,男 ,河南滑县人 ,河南师范大学讲师 ,在读博士 ,研究方向 :语料库语言学 .
下载后可阅读完整内容,剩余3页未读,立即下载
weixin_38517095
- 粉丝: 4
- 资源: 936
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++多态实现机制详解:虚函数与早期绑定
- Java多线程与异常处理详解
- 校园导游系统:无向图实现最短路径探索
- SQL2005彻底删除指南:避免重装失败
- GTD时间管理法:提升效率与组织生活的关键
- Python进制转换全攻略:从10进制到16进制
- 商丘物流业区位优势探究:发展战略与机遇
- C语言实训:简单计算器程序设计
- Oracle SQL命令大全:用户管理、权限操作与查询
- Struts2配置详解与示例
- C#编程规范与最佳实践
- C语言面试常见问题解析
- 超声波测距技术详解:电路与程序设计
- 反激开关电源设计:UC3844与TL431优化稳压
- Cisco路由器配置全攻略
- SQLServer 2005 CTE递归教程:创建员工层级结构
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功