语料库驱动的汉语短语语义搭配规则自动生成方法

需积分: 9 158 浏览量更新于2024-08-11 收藏 447KB PDF 举报

本文主要探讨了"基于关联规则挖掘的汉语语义搭配规则获取方法"，发表于2007年5月的厦门大学学报(自然科学版)第46卷第3期。作者郑旭玲、周昌乐棒、李堂秋和陈毅东针对自然语言处理系统在短语分析中的词汇排歧和结构排歧问题，提出了创新性的解决策略。他们利用《知网》这一语义知识资源，结合标注了句法语义信息的汉语短语熟语料库，应用数据挖掘中的元规则制导的交叉层关联规则挖掘技术，自动探索汉语短语的潜在语义搭配规律。这种方法首先通过大规模的文本挖掘，找出词语之间频繁出现的搭配模式，形成潜在的关联规则。然后，通过对统计结果进行分析和优选，生成一套完整的语义搭配规则库。这种方法的优势在于，它能够自动学习和提炼语境中的语义信息，有助于解决机器翻译、信息检索和文本分类等自然语言处理任务中的歧义问题，提升分析的准确性和效率。研究者强调，对于汉语这种意合语言，传统的词法和语法分析不足以消除歧义，引入语义搭配规则显得尤为重要。通过构建语义搭配规则库，不仅可以优化短语分析的准确性，还可以推动汉语词和句子研究的深入，从而整体提高汉语文本分析的质量。尽管近年来已有WordNet、FrameNet、HowNet等计算机用语义词典的构建，但在语义搭配规则库的建设上，特别是自动化的获取方法方面，仍有待进一步发展。论文作者试图通过利用语料库挖掘技术突破这一瓶颈，以实现汉语短语语义搭配规则的自动化获取，这在当时是一个创新且具有实际应用价值的研究方向。通过实验验证，这种方法显示出良好的可行性，为汉语短语的自动分析提供了有效的支持和指导。

第

卷第

期

2007

年

月

厦门大学学报(自然科学版)

No.3

May 2007

lournal

Xiamen

University

CNatural

Science)

基于关联规则挖掘的汉语语义

搭配规则获取方法

郑旭玲，周昌乐棒，李堂秋，陈毅东

(厦门大学计算机科学系，福建厦门

361005)

摘要:针对自然语言处理系统在短语分析时的词汇排歧和结构排歧需要，本文提出了一种基于语料库的汉语短语语义

搭配规则自动获取方法.该方法以《知网》为语义知识资源，在标注了句法语义信息的汉语短语熟语料库基础上，先采用

数据挖掘中元规则制导的交叉层关联规则挖掘方法，自动发现汉语短语的语义搭配规律，再根据统计结果自动优选后生

成语义搭配规则库.实验结果表明该方法是切实可行的.运用该方法自动获取的语义搭配规则具有较好的排歧效果.

关键词:语义规则;语料库

关联规贝

;

知网

中图分类号

:TP39

文献标识码

在机器翻译、信息检索、文本分类等诸多自然语言

处理系统中，短语分析都是至关重要的一个环节，其分

析质量的优劣直接影响系统的最终性能.歧义现象的

存在给短语自动分析设置了巨大的元法回避的障碍.

仅仅依靠词法和语法知识来消解短语分析中大量存在

的词汇歧义和结构歧义是远远不够的.尤其是在分析

像汉语这样形态特征较少而内涵却极为丰富的"意合"

语言的短语时，更需要引入"具有什么语义的词语可以

相互组合、以怎样的方式组合成怎样的短语"这样的语

义搭配规则知识.另一方面，对汉语短语的语义搭配规

则的研究，不仅能为短语分析提供有效指导，从而提高

短语结构和语义分析的正确率，而且还能辐射对汉语

词和句子的研究，促进汉语文本分析质量的全面改善.

然而，这方面研究面临语义知识的形式化表示和语义

搭配规则库的构造两大瓶颈问题.

近些年来，国内外在构建语义知识表示体系的工

程实践方面取得了不少成果，开发出

WordNet

、

FrameNet

、

Hownet[IJ

等计算机用语义词典.相比之

下，语义搭配规则库的构造相对薄弱些.詹卫东

[2J

、俞

士坟

[3J

、董振东和董强

[4J

等人对汉语短语的语义规则

作了大规模的系统研究，并取得了一些成果.但这些规

则主要是通过基于直觉的方法获得的，其准确性和完

备性比较难以保证.

我们的研究工作是尝试利用语料库来自动获取汉

语短语的语义搭配规则，从而验证已有的基于直觉的

收稿日期:

2006-10-08

基金项目:国家自然科学基金

(60373080)

资助

骨通讯作者

:dozero@xmu.

edu.

文章编号

:0438-0479(2007)03-0331-06

语义搭配规则和发现新的语义搭配规则.

语义搭配规则获取系统的架构

基于语料库的方法利用计算机对语料进行统计归

纳，既减少了语言知识描述系统掏造中的主观性，又降

低了语言学家的工作难度和强度.故我们的系统采用

基于语料库的方法，其架构及工作流程如图

所示.

我们的系统采用《知网》的语义知识表示体系

[IJ

初始语料库是一个由大量真实文本中抽取的实例组成

的汉语短语生语料库.首先，依据语言学家提供的初始

语言知识，对其进行人-机交互的半自动加工，标注上

各短语中每个词语的词性、义项

[IJ

和词语间的句法结

图

Fig. 1

The

work flow of Chinese semantic collocation

rules acquisition system

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38564718

粉丝: 5
资源: 916

语料库驱动的汉语短语语义搭配规则自动生成方法

简述基于短语结构树的语义角色标注方法与基于依存关系树的语义角色标注方法之间的核心差异

现代汉语语义词典 下载

基于语法规则的方法代码生成

基于成分结构的语义角色标注和基于依存结构的语义角色标注有什么区别

基于模板分类和基于语义分类

基于transformer的语义分割方法

基于深度学习的图像语义分割算法研究论

基于知识图谱的问答系统中基于语义解析的分类方法由谁提出，核心思想是什么，重要有哪几种？

NLP会用到协同过滤或关联规则算法吗

基于深度学习的图像语义分割算法研究

最新资源

现代汉语语义词典下载