没有合适的资源?快使用搜索试试~ 我知道了~
首页基于条件随机场(CRFs)的中文词性标注方法
基于条件随机场(CRFs)的中文词性标注方法
5星 · 超过95%的资源 需积分: 0 38 下载量 132 浏览量
更新于2023-03-03
评论 1
收藏 345KB PDF 举报
本文提出一种基于CRFs 模型的中文词性标注方法。该方法利用CRFs 模型能够添加任意特征的优点,在使用词的上下文信息的同时,针对兼类词和未登录词添加了新的统计特征。在《人民日报》1 月份语料库上进行的封闭测试和开放测试中,该方法的标注准确率分别为98. 56 %和96. 60 %。
资源详情
资源评论
资源推荐
计算机科学 2006Vo1.33No.10
基 于条件随机场 (CRFs)的 中文词性标 注方法
洪铭材 张 阔 唐 杰 李涓子
(清华大学计算机 系知识工程组 北京 100084)
摘 要 本文提 出一种基于 CRFs模型的 中文词性标注 方法。该方 法利 用 CRFs模 型能够添加任意特 征的优 点,在
使用词的上下文信息的同时 ,针对兼类词 和未登 录词添加 了新的统计特征 。在《人 民日报》1月份语 料库上进 行的封
闭测试和开放 测试中,该方 法的标 注准确率分别为 98.56 和 96.6o%。
关键词 词性标注,条件随机场 ,维特比解码
A Chinese Part-of-speech Tagging Approach Using Conditional Random Fields
HONG Ming-Cai ZHANG Kuo TANG Jie LI Juan-Zi
(Knowledge Engineering Lab,DCST,Tsinghua Univ.,Beijing 100084)
Abstract This paper presents a new approach to part-of-speech(POS)tagging for Chinese texts using conditional ran—
dora fields(CRFs).To take advantage of the ability of using arbitrary features as input in CRFs,not only contexts of
words are exploited,but also are new statistical features adopted for multiple-category and out_of_v0cabu1ary words.
Closed and open tests conducted on People Daily dataset obtain POS tagging accuracies of 98.56 and 96.60 。re—
spectively.
Keywords Part—of-speech tagging,Conditional random fields(CRFs),Viterbi decoding
1 引言
词性标注是 自然语言处理的重要 内容之一,是其他信息
处理技术的基础,被广 泛地应用于机 器翻译 、文字识 别、语 音
识别、信息检索等领域。目前基于统计的词性标注方法得到
了广泛的应 用并取得 了很 好的效果 。
在基于统计方法的词性 标注 中,对兼 类词 和未登 录词 的
标注是 两个需要解 决 的问题 。对 于兼 类词 ,可 以根据该词 的
上下文信息来确 定该 词 在句 子 中的唯 一词性 。对于 未 登 录
词,能够获取关于该词的信息相对较少 ,可以根据词的上下文
信息以及词 的构词特点来确定其词性。在基于隐马尔可夫
(HMM)模型的词 性标 注方 法 中,通 常假 设中心词 的词 性 只
与它前面的 t/个词有关 ,而 与它后面 的词无 关。这个假 设在
词性标注任务中并不符合实际。最大熵模型 (MEMM)能够
充分利用词的上下文信息,但是存在着“label bias” ]的弱点。
本文 使 用 条 件 随 机 场 (Conditional Random Fields,
CRFs)_1]进行中文 的词性标 注 。CRFs通过 建立概 率模 型来
进行序列数据的标 注。与最 大熵 模 型一样 ,CRFs是 指数形
式的模型 ,具有很强 的推理能力 ,并且 能够 使用 复杂 、有 重叠
性和非独立的特征进行训练和推理。目前 CRFs在信息抽
取、命名实体识别、词组识别、语音句子边界识别等领域都表
现出很好的性能 。本文 利用 CRFs的特点 ,在进行词 性标 注
时不但利用了词的上下文信息作为特征,而且充分利用了训
练集的统计信息作为特征,为兼类词的标注提供 了更多的特
征信息。同时根据汉语的构词特点,使用词的后缀信息作为
特征,在标注未登录词时起到 了很好 的效果 。
本文使用 PFR《人民 日报》标注语料库作为实验数据。
实验结果表明,基 于 CRFs的中文词性标 注方法 取得 了很好
的标注正确率,其 封 闭测试 和开放 测试 的准确 率分别 为 98.
56 和 96.6O ,兼类词 和未登 录词 的标 注也 取得 了很好 的
结 果。
文章的组织结构如下:第 2节介绍 中文词性 标注 的相 关
工作;第 3节阐述 CRFs理论及其 训练 方法;使用 CRFs进 行
中文词性标注的方法将在第 4节中介绍;第 5节是实验结果
和实验分析;最后是对 本文 的概 括以及对未来工作 的展望 。
2 相关 工作
诃陛是词 的句法 功能 类别 。在 各 种 自然语 言处理 过程
中,几乎都有一个词性标注的阶段。因此,词性标注的正确率
将直接影响到后续的分析处 理结果 。基于其 很高 的重 要性 ,
词性标注一直是自然语言处理的重要内容 。词性标注的方法
大致可以分为 3类 :
①基于规则的方法 。基于规则 的方法 是最早提 出的词性
标注方法,它手工编制包含繁杂的语法和/或语义信息的词典
和规则系统 这种方法 不仅费 时费力 ,而且 带有 很大 的主观
性 ,难 以保证规则的一 致性 。更 大的问题是处理歧义 长句 、生
词、不规范句子 的能力非常脆弱 ,词性标 注准确率不高 。
②基于变换的方法 。该 方法 由 Eric Bill提出,用于 标注
英语的词性,其基本思 想是利 用一个 带词 性标 注的语 料库来
例示实现设计好的模板 ,从一 个 已标 注词 性 的语料库 中统 计
每个词最可能的词性标记,然后用该标记标注训练语料库,称
为初始标注,然后通 过规则 学习 的方法 获取 新的规 则。在 进
洪铭材 硕士生,研究 方向为信息抽取 、信息检索;张 阔 博士生,研究方向为信息抽取、语义网络;唐 杰 博士生,研究方向为信息抽取 、语
义 网络 、信息集 成;李涓子 副教 授,研究方 向为 自然语言处理 、语义 网络 。
·
148 ·
维普资讯 http://www.cqvip.com
jiangtinghaha
- 粉丝: 3
- 资源: 9
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
- SPC统计方法基础知识.pptx
- MW全能培训汽轮机调节保安系统PPT教学课件.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论2