GB/T13715-92现代汉语分词规范在信息处理中的应用
需积分: 5 73 浏览量
更新于2024-10-18
收藏 273KB PDF 举报
"13715-1992信息处理用现代汉语分词规范"
本文档详细介绍了1992年中国国家标准局发布的《信息处理用现代汉语分词规范》(GB/T13715-92),该规范旨在为现代汉语的分词提供标准化的指导原则,以促进信息处理的规范化和不同汉语信息处理系统之间的兼容性。
1. 分词原则与适用范围:
规范的主要内容是规定现代汉语的分词规则,以满足信息处理的需求。这包括对汉语信息处理的规范化要求,以及确保在各种汉语信息处理系统之间实现良好的兼容性。这一规范适用于所有汉语信息处理领域,其他行业和相关学科也可参考使用。各领域可以根据自身特殊需求,进一步细化和补充这些规定。
2. 引用标准与术语定义:
标准引用了GB 12200《汉语信息处理词汇》,并定义了关键术语:
- 汉语信息处理:指计算机对汉语的音、形、义等信息进行处理的活动。
- 词:最小的能独立运用的语言单位。
- 词组:由两个或以上词按一定语法规则组成的有意义的语言单位。
- 分词单位:用于汉语信息处理的基本单位,包括规范中的词和词组。
3. 分词方法与规则:
- 分词单位标记:使用下划线“__”来表示分词单位。
- 分隔标记:空格或特定标点符号如句号、逗号、顿号等,用于分隔分词单位。
- 字、二字词、三字词,以及紧密结合、使用稳定的词组被视为分词单位。
- 四字成语和结合紧密的四字词组被视为分词单位。
- 五字及以上谚语、格言等,若分开后不影响原有意义,也应作为分词单位。
4. 示例:
文档提供了多个示例,如“国家技术监督局”,“对不起”,“自行车”,“社会主义”,“欣欣向荣”等,说明如何根据规则进行分词。
这份规范对于理解和实施现代汉语的信息处理分词工作至关重要,是确保数据处理准确性和系统间兼容性的基础。它不仅规定了基本的分词规则,还考虑到了汉语语言的复杂性和多样性,从而为计算机处理汉语信息提供了统一的标准。
2022-11-23 上传
2022-04-26 上传
2019-09-10 上传
2016-01-07 上传
2021-09-18 上传
2021-08-07 上传
2021-09-26 上传
2021-09-11 上传
valuety
- 粉丝: 0
- 资源: 1
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍