汉语复合名词短语语义知识库构建与自动识别研究

需积分: 0 30 浏览量更新于2024-08-05 收藏 1.15MB PDF 举报

本文主要探讨了汉语复合名词短语在语言学分析和中文信息处理领域的核心地位，由于其广泛的使用、独特的结构和复杂的内部语义，这些短语一直是学者们关注的焦点。然而，国内在复合名词短语相关的语言资源方面存在显著的不足，特别是对于包含动词的复合名词短语的研究几乎是空白，而且现有的知识库大多缺乏上下文语境，无法提供句子级别的语义信息。为了填补这一研究空白，作者张文敏、李华勇和邵艳秋教授合作，从多个领域搜集了大量的文本数据，构建了一套全新的语义关系体系。他们着重标注了复合名词短语在句子中的边界，以及短语内部各成分间的语义关联，总计包含了27007条带有时句信息的复合名词短语。这项工作旨在创建一个规模可观且语境丰富的复合名词语义关系知识库，这对于理解和处理汉语复合名词短语的自动分析具有重要意义。在知识库构建完成后，作者对数据进行了详细的统计分析，揭示了其结构和语义特征的分布情况。接着，他们使用基础模型对这个知识库进行了实验，旨在实现复合名词短语的自动定界（即确定其在句子中的位置）和语义分类。实验结果显示了构建知识库在实际应用中的可行性，同时也提出了未来改进的方向，如提高模型的准确性和鲁棒性，以及如何更好地结合上下文信息进行语义理解。本文的研究成果不仅有助于填补国内复合名词短语语义研究的空白，也为中文自然语言处理技术的发展提供了宝贵的数据支持。通过关键词“汉语复合名词短语”、“语义关系体系”和“定界识别”，读者可以快速了解本文的核心研究内容和价值。该研究具有重要的理论意义和实用价值，对于语言学家、计算机科学家以及自然语言处理领域的研究人员来说，都是不可忽视的一篇研究论文。

*收稿日期：定稿日期：

通讯作者：邵艳秋

基金项目：国家自然科学基金项目（61872402）；教育部人文社科规划基金项目(17YJAZH068)；北京语言大学校级项目（中央高校基本科研业务费

专项资金）（18ZDJ03）

作者简介：张文敏（1993—），女，硕士研究，计算语言学；李华勇（1994—），男，硕士研究生，计算语言学；邵艳秋（1970—），女，教授，计算

语言学。

汉语复合名词短语语义关系知识库构建与自动识别研究

张文敏

，李华勇

，邵艳秋

（1.北京语言大学信息科学学院，北京 100083）

摘要：汉语复合名词短语因其使用范围广泛、结构独特、内部语义复杂的特点，一直是语言学分析和中文信息处理领域的

重要研究对象。国内关于复合名词短语的语言资源极其匮乏，且现有知识库只研究名名复合形式的短语，包含动词的复合名词短

语的知识库构建仍处于空白阶段，同时现有的复合名词短语知识库大部分脱离了语境，没有句子级别的信息。针对这一现状，该

文从多个领域搜集语料，建立了一套新的语义关系体系，标注构建了一个具有相当规模的带有句子信息的复合名词语义关系知识

库。该库的标注重点是标注句子中复合名词短语的边界以及短语内部成分之间的语义关系，总共收录 27007 条句子。该文对标注

后的知识库做了详细的计量统计分析。最后基于标注得到的知识库，该文使用基线模型对复合名词短语进行了自动定界和语义分

类实验，并对实验结果和未来可能的改进方向做了总结分析。

关键词：汉语复合名词短语；语义关系体系；定界识别

中图分类号：TP391 文献标识码：A

Chinese Compound Noun Phrases Semantic Relations Knowledge Base

Construction and Auto Recognition

ZHANG Wenmin

，LI Huayong

，SHAO Yanqiu

(1.Information Science School, Beijing Language and Culture University, Beijing 100083,China)

Abstract: Chinese compound noun phrases are characterized by their wide range of use, unique syntactic structure and complex internal

semantics, which has always been an important research object in the field of linguistic analysis and Chinese information processing. The

language resources of compound noun phrases are extremely scarce in China, and the existing knowledge base only studies

noun-compound phrases, while the construction of a knowledge base containing compound noun phrases with verbs is still in the blank

stage. At the same time, most of the existing knowledge bases of compound noun phrases are out of context and have no information at

sentence level. In accordance with the present condition, this paper collects corpus from many fields, a new semantic relation system is

established. In addition, a compound noun semantic relation knowledge base with sentence information is constructed by annotation. The

focus of the library is to mark the boundary of compound noun phrases in sentences and the semantic relationship between the internal

components of the phrases. A total of 27007 sentences are collected. This paper makes a detailed statistical analysis of the annotated

knowledge base. Finally, based on the annotated knowledge base, this paper uses the baseline model to carry out automatic delimitation and

semantic classification experiments for compound noun phrases, and summarizes the experimental results and possible improvement

directions in the future.

Key words: Chinese compound noun phrases; Semantic Relational System; Delimitation recognition

0. 引言

复合名词短语在日常生活中应用广泛，在语言使

用中占有较大比重。据 Leonard

[1]

统计，近两个世纪以

来，在小说体散文中使用名词复合短语的次数呈现稳

定持续增长的态势，同时名词复合短语的种类也有显

著的增长。且其语法结构较为独特,语义关系较为复杂，

因此在语言分析中扮演着非常重要的角色，通过对它

的定界识别和语义分类可以有效改善句子语义分析的

质量，进行信息的准确抽取。

对于复合名词短语的研究，国外很早就有相关的

语义关系体系的建设研究，关于短语的边界识别和语

义分析，也相对于国内而言较为成熟，大概有

[2-9]

等。

国内以往对汉语基本名词短语的研究，主要是基

于边界识别和自动释义，而针对短语内部构成成分之

间的语义关系体系建设却相对较少，目前较完整的是

刘鹏远

[10]

针对名名复合形式短语语义知识库的构建，

但该文只是单纯从语言学角度进行了语义分类，做了

一些初步的统计分析，并没有将包含动词的复合名词

短语纳入研究范围，且抽取得到的复合名词短语脱离

语境，缺少句子级别的信息。目前也没有在句子中进

行复合名词短语自动定界和语义关系分类的研究工作。

针对国内对于复合名词短语语义知识库构建相对

薄弱的特点，我们参照北京大学《现代汉语语义词典》

的语义类别标签并结合语料的实际情况建立一个语义

下载后可阅读完整内容，剩余7页未读，立即下载

高工-老罗

粉丝: 25
资源: 314

汉语复合名词短语语义知识库构建与自动识别研究

中文基本复合名词短语语义关系体系及知识库构建

维吾尔语基本KP短语自动识别研究

基于蒙古语名词语义网的同形词歧义消除研究

哈萨克语树库构建技术研究

自动与半自动知识抽取：构建知识库的新途径

知识库构建的选释偏好的获取方法

文档领域概念提取与知识图构建技术研究

AutoPhrase：大规模文本语料库的自动化短语挖掘

知识图谱：发展、构建与未来趋势

【常见问题诊断】：聊天机器人语义识别问题的诊断与解决之道

最新资源