GB/T13715-92现代汉语分词规范在信息处理中的应用

需积分: 5 5 下载量 73 浏览量 更新于2024-10-18 收藏 273KB PDF 举报
"13715-1992信息处理用现代汉语分词规范" 本文档详细介绍了1992年中国国家标准局发布的《信息处理用现代汉语分词规范》(GB/T13715-92),该规范旨在为现代汉语的分词提供标准化的指导原则,以促进信息处理的规范化和不同汉语信息处理系统之间的兼容性。 1. 分词原则与适用范围: 规范的主要内容是规定现代汉语的分词规则,以满足信息处理的需求。这包括对汉语信息处理的规范化要求,以及确保在各种汉语信息处理系统之间实现良好的兼容性。这一规范适用于所有汉语信息处理领域,其他行业和相关学科也可参考使用。各领域可以根据自身特殊需求,进一步细化和补充这些规定。 2. 引用标准与术语定义: 标准引用了GB 12200《汉语信息处理词汇》,并定义了关键术语: - 汉语信息处理:指计算机对汉语的音、形、义等信息进行处理的活动。 - 词:最小的能独立运用的语言单位。 - 词组:由两个或以上词按一定语法规则组成的有意义的语言单位。 - 分词单位:用于汉语信息处理的基本单位,包括规范中的词和词组。 3. 分词方法与规则: - 分词单位标记:使用下划线“__”来表示分词单位。 - 分隔标记:空格或特定标点符号如句号、逗号、顿号等,用于分隔分词单位。 - 字、二字词、三字词,以及紧密结合、使用稳定的词组被视为分词单位。 - 四字成语和结合紧密的四字词组被视为分词单位。 - 五字及以上谚语、格言等,若分开后不影响原有意义,也应作为分词单位。 4. 示例: 文档提供了多个示例,如“国家技术监督局”,“对不起”,“自行车”,“社会主义”,“欣欣向荣”等,说明如何根据规则进行分词。 这份规范对于理解和实施现代汉语的信息处理分词工作至关重要,是确保数据处理准确性和系统间兼容性的基础。它不仅规定了基本的分词规则,还考虑到了汉语语言的复杂性和多样性,从而为计算机处理汉语信息提供了统一的标准。