GB/T13715-92现代汉语分词规范在信息处理中的应用

需积分: 5 195 浏览量更新于2024-10-18 收藏 273KB PDF 举报

"13715-1992信息处理用现代汉语分词规范" 本文档详细介绍了1992年中国国家标准局发布的《信息处理用现代汉语分词规范》（GB/T13715-92），该规范旨在为现代汉语的分词提供标准化的指导原则，以促进信息处理的规范化和不同汉语信息处理系统之间的兼容性。 1. 分词原则与适用范围：规范的主要内容是规定现代汉语的分词规则，以满足信息处理的需求。这包括对汉语信息处理的规范化要求，以及确保在各种汉语信息处理系统之间实现良好的兼容性。这一规范适用于所有汉语信息处理领域，其他行业和相关学科也可参考使用。各领域可以根据自身特殊需求，进一步细化和补充这些规定。 2. 引用标准与术语定义：标准引用了GB 12200《汉语信息处理词汇》，并定义了关键术语： - 汉语信息处理：指计算机对汉语的音、形、义等信息进行处理的活动。 - 词：最小的能独立运用的语言单位。 - 词组：由两个或以上词按一定语法规则组成的有意义的语言单位。 - 分词单位：用于汉语信息处理的基本单位，包括规范中的词和词组。 3. 分词方法与规则： - 分词单位标记：使用下划线“__”来表示分词单位。 - 分隔标记：空格或特定标点符号如句号、逗号、顿号等，用于分隔分词单位。 - 字、二字词、三字词，以及紧密结合、使用稳定的词组被视为分词单位。 - 四字成语和结合紧密的四字词组被视为分词单位。 - 五字及以上谚语、格言等，若分开后不影响原有意义，也应作为分词单位。 4. 示例：文档提供了多个示例，如“国家技术监督局”，“对不起”，“自行车”，“社会主义”，“欣欣向荣”等，说明如何根据规则进行分词。这份规范对于理解和实施现代汉语的信息处理分词工作至关重要，是确保数据处理准确性和系统间兼容性的基础。它不仅规定了基本的分词规则，还考虑到了汉语语言的复杂性和多样性，从而为计算机处理汉语信息提供了统一的标准。

valuety

粉丝: 0

GB/T13715-92现代汉语分词规范在信息处理中的应用

信息处理用现代汉语分词规范.html

知识图谱自动构建在线云平台-web protege汉语版.pdf

互联网数据挖掘课程 北大NLP课程-自然语言处理系列课程 第04章 自然语言处理基础 共64页.pdf

论文研究-现代汉语“V N”序列关系的平行处理.pdf

Jcseg-开发帮助文档.pdf

ch07 词法分析.pdf

一种高效的中文电子词表数据结构.pdf

一种基于循环神经网络的古文断句方法.pdf

行业文档-设计装置-汉语言文学中字频统计教学展示架.zip

中文情感分析-情感词库

最新资源

互联网数据挖掘课程北大NLP课程-自然语言处理系列课程第04章自然语言处理基础共64页.pdf