汉语词性标注详解：小标记集与规范升级

需积分: 44 192 浏览量更新于2024-07-19 收藏 295KB PDF 举报

本文主要介绍了中文词性标注的相关概念和技术细节。词性标注是自然语言处理（NLP）中的一个重要环节，它通过分析文本中的词汇，为其分配相应的语法角色，如名词、动词、形容词等。《现代汉语语法信息词典》是标注的基础参考，它提供了26个基本词类标记，包括常见的名词、动词、形容词等，以及一些特殊的类别，如数词、量词、区别词等。然而，为了满足更精细的分析和特定领域的研究需求，文章提出增加了三个扩展标记集： 1. 专有名词分类：区分了人名（nr）、地名（ns）、团体机关单位名称（nt）和其他专有名词（nz），这对于命名实体识别（NER）尤其重要，有助于精确识别和追踪具体的人、地、机构等。 2. 语素子类标记：对词性进行了进一步细分，如名语素（Ng）、动语素（Vg）、形容语素（Ag）和时语素（Tg）等，这有助于深入理解词汇的构成和功能。同样，动词和形容词也分别细分为名动词（vn）、名形词（an）、副动词（vd）和副形词（ad），突出它们在句子结构中的特殊作用。 3. 规范的多元性：该规范旨在兼顾多个目标，既适应语言信息处理和语料库语言学的研究，也能支持传统语言学研究；同时，既考虑了计算机自动化处理的效率，也便于人工校对，确保标注的准确性。文章还提及了北京大学计算语言学研究所对大规模语料库加工的实践，他们不仅关注词语切分，还结合词性标注，进行了一系列语料库建设工作，如短语自动识别和树库构建。1999年的《现代汉语语料库加工规范》（征求意见稿）反映了这一努力，体现了对现代汉语处理技术的持续改进和标准化。中文词性标注是自然语言处理的重要组成部分，其细致的分类和规范化有助于提高文本理解和分析的精确度，对于各种语言研究和应用领域都具有重要意义。

亚洲/ns, 海南岛/ns，太湖/ns，白洋淀/ns, 俄罗斯/ns，哈萨克斯坦/ns，

彼得堡/ns，伏尔加格勒/ns

① 国名不论长短，作为一个切分单位。

中国/ns，中华人民共和国/ns，日本国/ns，美利坚合众国/ns，美国/ns

Δ② 地名后有“省”、“市”、“县”、“区”、“乡”、“镇”、“村”、“旗”、“州”、“都”、

“府”、“道”等单字的行政区划名称时，不切分开，作为一个切分单位。

四川省/ns，天津市/ns，景德镇市/ns，沙市市/ns，牡丹江市/ns，正定县/ns，

海淀区/ns, 通州区/ns，东升乡/ns，双桥镇/ns 南化村/ns，华盛顿州/ns，

俄亥俄州/ns，东京都/ns，大阪府/ns，北海道/ns，长野县/ns，开封府/ns，

宣城县/ns

Δ③ 地名后的行政区划有两个以上的汉字，则将地名同行政区划名称切开，不过要将

地名同行政区划名称用方括号括起来，并标以 ns。

[芜湖/ns 专区/n]ns，[宣城/ns 地区/n]ns，[内蒙古/ns 自治区/n]ns，

[宁夏/ns 回族/nz 自治区/n]ns， [深圳/ns 特区/n]ns，

[厦门/ns 经济/n 特区/n]ns， [香港/ns 特别/a 行政区/n]ns，

[香港/ns 特区/n]ns， [华盛顿/ns 特区/n]ns,

[广西/ns 环江/ns 毛南族/nz 自治县/n]ns，

[青海/ns 果洛/ns 藏族/nz 自治州/n]ns

④ 地名后有表示地形地貌的一个字的普通名词，如“江、河、山、洋、海、岛、峰、

湖”等，不予切分。

鸭绿江/ns，亚马逊河/ns, 喜马拉雅山/ns, 珠穆朗玛峰/ns，地中海/ns，

大西洋/ns，洞庭湖/ns，塞普路斯岛/ns

Δ⑤ 地名后接的表示地形地貌的普通名词若有两个以上汉字，则应切开。也要将地名

同该普通名词用方括号括起来，并标以 ns。

[台湾/ns 海峡/n]ns， [华北/ns 平原/n]ns， [帕米尔/ns 高原/n]ns，

[南沙/ns 群岛/n]ns， [京东/ns 大/a 峡谷/n]ns [横断/b 山脉/n]ns

⑥ 地名后有表示自然区划的一个字的普通名词，如“ 街，路，道，巷，里，町，

庄，村，弄，堡”等，不予切分。

中关村/ns，长安街/ns，学院路/ns，景德镇/ns, 吴家堡/ns,

庞各庄/ns，三元里/ns，彼得堡/ns, 北菜市巷/ns,

Δ⑦ 地名后接的表示自然区划的普通名词若有两个以上汉字，则应切开。也要将地名

同自然区划名词用方括号括起来，并标以 ns。

[米市/ns 大街/n]ns, [蒋家/nz 胡同/n]ns, [陶然亭/ns 公园/n]ns

⑧ 大小地名相连时的标注方式为：

北京市/ns 海淀区/ns 海淀镇/ns [南/f 大街/n]ns [蒋家/nz 胡同/n]ns 24/m 号

Δ⑶ 团体、机构、组织的专有名称: nt

① 团体、机构、组织的专有名称若作为名词登录在语法词典中，则直接标注为

nt。

联合国/nt，中共中央/nt，国务院/nt，北京大学/nt

② 大多数团体、机构、组织的专有名称一般是短语型的，较长，且含有地名或人

名等专名，不会登录在语法词典中，本规范规定先切分，再组合，加方括号标注

为nt。

[中国/ns 计算机/n 学会/n]nt， [香港/ns 钟表业/n 总会/n]nt,

[烟台/ns 大学/n]nt, [合肥/ns 师范/n 学院/n]nt，

[北京/ns 图书馆/n]nt, [富士通/nz 株式会社/n]nt,

[香山/ns 植物园/n]nt, [安娜/nz 美容院/n]nt，

[上海/ns 手表/n 厂/n]nt， [永和/nz 烧饼铺/n]nt，

[北京/ns 国安/nz 队/n]nt，北京队/nt，雷锋班/nt

注：“北京队”、“雷锋班”作为“词”，“厂”同“手表”切开，而“铺”同“烧饼”合

剩余18页未读，继续阅读

weixin_41808886

粉丝: 0
资源: 1

汉语词性标注详解：小标记集与规范升级

SVMTool在中文词性标注中的应用与优化

CRFs模型在中文词性标注中的应用与效果

CRFs模型在中文词性标注中的应用与优势

中文词性标注源码

nltk中文词性标注

perl实现的中文词性标注

中文词性标注学习训练算法

java实现的中文词性标注算法

基于条件随机场（CRFs）的中文词性标注方法

基于条件随机场_CRFs_的中文词性标注方法

最新资源