汉语信息处理：词类标记规范及标准

需积分: 10 128 浏览量更新于2024-09-11 收藏 463KB PDF 举报

"信息处理用现代汉语词类标记规范" 这篇文档是关于《信息处理用现代汉语词类标记规范》的国家标准，旨在为汉语信息处理提供一套统一的词类标记代码，以便于计算机处理汉语的形、音、义等信息。该规范由中华人民共和国国家质量监督检验检疫总局发布，并由中国国家标准化管理委员会管理。 1. 范围该规范适用于所有涉及现代汉语信息处理的场景，如文本分析、自然语言处理、机器翻译等，同时也可作为现代汉语教学和研究的参考依据。 2. 术语和定义 - 汉语信息处理（CIP）：指的是利用计算机技术处理汉语的形状、发音、意义等相关信息。 - 切分单位：在信息处理中，被视作具有特定语法功能的基本单位，包括词、短语以及特定的习用语、缩略语等。 - 词类（POS）：词的语法分类，基于其在句子中的语法功能。 - 标记（Tag）：用代码形式表示文本中切分单位的类别。 3. 总则 - 切分单位的范围：不仅限于词，还包括短语和其他特定结构，如习用语、缩略语等。 - 词类划分原则：参考了多位著名语言学家的语法体系，并主要依据语法功能来划分词类。 - 标记代码原则：标记代码通常取自英文术语的首字母或特定字母，例如“名词”标记为“n”，“数词”标记为“m”。 4. 词类及其他切分单位分类和标记代码表这部分内容未在提供的摘要中详细列出，但在完整的标准中会包含具体的词类划分和对应的标记代码，例如名词(n)、动词(v)、形容词(a)、数词(m)等，这些代码用于标记文本中的不同词性，便于计算机进行后续的处理和分析。这份规范对于提高汉语信息处理的准确性和效率至关重要，它为处理汉语的复杂性提供了统一的标准，有助于推动汉语在数字化时代的广泛应用和发展。

商域无疆

粉丝: 387
资源: 12

汉语信息处理：词类标记规范及标准

17信息处理用现代汉语词类标记规范_修订_靳光瑾1

国标863词性标注集

请从现代语言学的角度，详细分析阐述语言系统及其知识模型

自然语言处理词性分析

c语言简单词法分析器的实现 编写的分析程序能够正确识别输入的C语言源程序中的单词符号； 2、识别出的单词以<种别码，值>的形式保存； 3、对于源程序中的词法错误，能够做出简单的错误处理，给出简单的错误提醒。

用Python进行文本分析时，如何判断不同类型的关键词

3、使用基于词的三元文法计算句子“Four yellow pencils”。 训练语料: Two red pencils Three green pencils Four blue pencils Five beautiful little bird 基于词类的N-gram模型： P(n |num, adj) P(adj |num, adj) P(n |adj, adj) P(pencils | n ) P(birds | n ) …

java如何使用hanlp

最新资源

c语言简单词法分析器的实现编写的分析程序能够正确识别输入的C语言源程序中的单词符号； 2、识别出的单词以<种别码，值>的形式保存； 3、对于源程序中的词法错误，能够做出简单的错误处理，给出简单的错误提醒。

3、使用基于词的三元文法计算句子“Four yellow pencils”。训练语料: Two red pencils Three green pencils Four blue pencils Five beautiful little bird 基于词类的N-gram模型： P(n |num, adj) P(adj |num, adj) P(n |adj, adj) P(pencils | n ) P(birds | n ) …