【免费】基于条件随机场（CRFs）的中文词性标注方法 - CSDN文库

中文词性标注

5星 · 超过95%的资源需积分: 0 132 浏览量更新于2023-03-03 评论 1 收藏 345KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

资源详情

资源评论

资源推荐

计算机科学２００６Ｖｏ１．３３Ｎｏ．１０　

基于条件随机场（ＣＲＦｓ）的中文词性标注方法　

洪铭材张阔唐杰李涓子　

（清华大学计算机系知识工程组　北京１０００８４）　

摘要本文提出一种基于ＣＲＦｓ模型的中文词性标注方法。该方法利用ＣＲＦｓ模型能够添加任意特征的优点，在　

使用词的上下文信息的同时，针对兼类词和未登录词添加了新的统计特征。在《人民日报》１月份语料库上进行的封　

闭测试和开放测试中，该方法的标注准确率分别为９８．５６　和９６．６ｏ％。　

关键词词性标注，条件随机场，维特比解码　

Ａ　Ｃｈｉｎｅｓｅ　Ｐａｒｔ－ｏｆ－ｓｐｅｅｃｈ　Ｔａｇｇｉｎｇ　Ａｐｐｒｏａｃｈ　Ｕｓｉｎｇ　Ｃｏｎｄｉｔｉｏｎａｌ　Ｒａｎｄｏｍ　Ｆｉｅｌｄｓ　

ＨＯＮＧ　Ｍｉｎｇ－Ｃａｉ　ＺＨＡＮＧ　Ｋｕｏ　ＴＡＮＧ　Ｊｉｅ　ＬＩ　Ｊｕａｎ－Ｚｉ　

（Ｋｎｏｗｌｅｄｇｅ　Ｅｎｇｉｎｅｅｒｉｎｇ　Ｌａｂ，ＤＣＳＴ，Ｔｓｉｎｇｈｕａ　Ｕｎｉｖ．，Ｂｅｉｊｉｎｇ　１０００８４）　

Ａｂｓｔｒａｃｔ　Ｔｈｉｓ　ｐａｐｅｒ　ｐｒｅｓｅｎｔｓ　ａ　ｎｅｗ　ａｐｐｒｏａｃｈ　ｔｏ　ｐａｒｔ－ｏｆ－ｓｐｅｅｃｈ（ＰＯＳ）ｔａｇｇｉｎｇ　ｆｏｒ　Ｃｈｉｎｅｓｅ　ｔｅｘｔｓ　ｕｓｉｎｇ　ｃｏｎｄｉｔｉｏｎａｌ　ｒａｎ—　

ｄｏｒａ　ｆｉｅｌｄｓ（ＣＲＦｓ）．Ｔｏ　ｔａｋｅ　ａｄｖａｎｔａｇｅ　ｏｆ　ｔｈｅ　ａｂｉｌｉｔｙ　ｏｆ　ｕｓｉｎｇ　ａｒｂｉｔｒａｒｙ　ｆｅａｔｕｒｅｓ　ａｓ　ｉｎｐｕｔ　ｉｎ　ＣＲＦｓ，ｎｏｔ　ｏｎｌｙ　ｃｏｎｔｅｘｔｓ　ｏｆ　

ｗｏｒｄｓ　ａｒｅ　ｅｘｐｌｏｉｔｅｄ，ｂｕｔ　ａｌｓｏ　ａｒｅ　ｎｅｗ　ｓｔａｔｉｓｔｉｃａｌ　ｆｅａｔｕｒｅｓ　ａｄｏｐｔｅｄ　ｆｏｒ　ｍｕｌｔｉｐｌｅ－ｃａｔｅｇｏｒｙ　ａｎｄ　ｏｕｔ＿ｏｆ＿ｖ０ｃａｂｕ１ａｒｙ　ｗｏｒｄｓ．　

Ｃｌｏｓｅｄ　ａｎｄ　ｏｐｅｎ　ｔｅｓｔｓ　ｃｏｎｄｕｃｔｅｄ　ｏｎ　Ｐｅｏｐｌｅ　Ｄａｉｌｙ　ｄａｔａｓｅｔ　ｏｂｔａｉｎ　ＰＯＳ　ｔａｇｇｉｎｇ　ａｃｃｕｒａｃｉｅｓ　ｏｆ　９８．５６　ａｎｄ　９６．６０　。ｒｅ—　

ｓｐｅｃｔｉｖｅｌｙ．　

Ｋｅｙｗｏｒｄｓ　Ｐａｒｔ—ｏｆ－ｓｐｅｅｃｈ　ｔａｇｇｉｎｇ，Ｃｏｎｄｉｔｉｏｎａｌ　ｒａｎｄｏｍ　ｆｉｅｌｄｓ（ＣＲＦｓ），Ｖｉｔｅｒｂｉ　ｄｅｃｏｄｉｎｇ　

１　引言　

词性标注是自然语言处理的重要内容之一，是其他信息　

处理技术的基础，被广泛地应用于机器翻译、文字识别、语音　

识别、信息检索等领域。目前基于统计的词性标注方法得到　

了广泛的应用并取得了很好的效果。　

在基于统计方法的词性标注中，对兼类词和未登录词的　

标注是两个需要解决的问题。对于兼类词，可以根据该词的　

上下文信息来确定该词在句子中的唯一词性。对于未登录　

词，能够获取关于该词的信息相对较少，可以根据词的上下文　

信息以及词的构词特点来确定其词性。在基于隐马尔可夫　

（ＨＭＭ）模型的词性标注方法中，通常假设中心词的词性只　

与它前面的ｔ／个词有关，而与它后面的词无关。这个假设在　

词性标注任务中并不符合实际。最大熵模型（ＭＥＭＭ）能够　

充分利用词的上下文信息，但是存在着“ｌａｂｅｌ　ｂｉａｓ”　］的弱点。　

本文使用条件随机场（Ｃｏｎｄｉｔｉｏｎａｌ　Ｒａｎｄｏｍ　Ｆｉｅｌｄｓ，　

ＣＲＦｓ）＿１］进行中文的词性标注。ＣＲＦｓ通过建立概率模型来　

进行序列数据的标注。与最大熵模型一样，ＣＲＦｓ是指数形　

式的模型，具有很强的推理能力，并且能够使用复杂、有重叠　

性和非独立的特征进行训练和推理。目前ＣＲＦｓ在信息抽　

取、命名实体识别、词组识别、语音句子边界识别等领域都表　

现出很好的性能。本文利用ＣＲＦｓ的特点，在进行词性标注　

时不但利用了词的上下文信息作为特征，而且充分利用了训　

练集的统计信息作为特征，为兼类词的标注提供了更多的特　

征信息。同时根据汉语的构词特点，使用词的后缀信息作为　

特征，在标注未登录词时起到了很好的效果。　

本文使用ＰＦＲ《人民日报》标注语料库作为实验数据。　

实验结果表明，基于ＣＲＦｓ的中文词性标注方法取得了很好　

的标注正确率，其封闭测试和开放测试的准确率分别为９８．　

５６　和９６．６Ｏ　，兼类词和未登录词的标注也取得了很好的　

结果。　

文章的组织结构如下：第２节介绍中文词性标注的相关　

工作；第３节阐述ＣＲＦｓ理论及其训练方法；使用ＣＲＦｓ进行　

中文词性标注的方法将在第４节中介绍；第５节是实验结果　

和实验分析；最后是对本文的概括以及对未来工作的展望。　

２相关工作　

诃陛是词的句法功能类别。在各种自然语言处理过程　

中，几乎都有一个词性标注的阶段。因此，词性标注的正确率　

将直接影响到后续的分析处理结果。基于其很高的重要性，　

词性标注一直是自然语言处理的重要内容。词性标注的方法　

大致可以分为３类：　

①基于规则的方法。基于规则的方法是最早提出的词性　

标注方法，它手工编制包含繁杂的语法和／或语义信息的词典　

和规则系统　这种方法不仅费时费力，而且带有很大的主观　

性，难以保证规则的一致性。更大的问题是处理歧义长句、生　

词、不规范句子的能力非常脆弱，词性标注准确率不高。　

②基于变换的方法。该方法由Ｅｒｉｃ　Ｂｉｌｌ提出，用于标注　

英语的词性，其基本思想是利用一个带词性标注的语料库来　

例示实现设计好的模板，从一个已标注词性的语料库中统计　

每个词最可能的词性标记，然后用该标记标注训练语料库，称　

为初始标注，然后通过规则学习的方法获取新的规则。在进　

洪铭材硕士生，研究方向为信息抽取、信息检索；张阔博士生，研究方向为信息抽取、语义网络；唐杰博士生，研究方向为信息抽取、语　

义网络、信息集成；李涓子副教授，研究方向为自然语言处理、语义网络。　

·

１４８ ·　

维普资讯 http://www.cqvip.com

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余4页未读，立即下载

评论2

user090223

2012-09-16

看不懂啊！太专业了。

jiangtinghaha

粉丝: 3
资源: 9

会员权益专享

图片转文字

全年可省5，000元立即开通

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈