*收稿日期: 定稿日期:
通讯作者:邵艳秋
基金项目:国家自然科学基金项目(61872402);教育部人文社科规划基金项目(17YJAZH068);北京语言大学校级项目(中央高校基本科研业务费
专项资金)(18ZDJ03)
作者简介:张文敏(1993—),女,硕士研究,计算语言学;李华勇(1994—),男,硕士研究生,计算语言学;邵艳秋(1970—),女,教授,计算
语言学。
汉语复合名词短语语义关系知识库构建与自动识别研究
*
张文敏
1
,李华勇
1
,邵艳秋
1
(1.北京语言大学 信息科学学院,北京 100083)
摘 要:汉语复合名词短语因其使用范围广泛、结构独特、内部语义复杂的特点,一直是语言学分析和中文信息处理领域的
重要研究对象。国内关于复合名词短语的语言资源极其匮乏,且现有知识库只研究名名复合形式的短语,包含动词的复合名词短
语的知识库构建仍处于空白阶段,同时现有的复合名词短语知识库大部分脱离了语境,没有句子级别的信息。针对这一现状,该
文从多个领域搜集语料,建立了一套新的语义关系体系,标注构建了一个具有相当规模的带有句子信息的复合名词语义关系知识
库。该库的标注重点是标注句子中复合名词短语的边界以及短语内部成分之间的语义关系,总共收录 27007 条句子。该文对标注
后的知识库做了详细的计量统计分析。最后基于标注得到的知识库,该文使用基线模型对复合名词短语进行了自动定界和语义分
类实验,并对实验结果和未来可能的改进方向做了总结分析。
关键词:汉语复合名词短语;语义关系体系;定界识别
中图分类号:TP391 文献标识码:A
Chinese Compound Noun Phrases Semantic Relations Knowledge Base
Construction and Auto Recognition
ZHANG Wenmin
1
,LI Huayong
1
,SHAO Yanqiu
1
(1.Information Science School, Beijing Language and Culture University, Beijing 100083,China)
Abstract: Chinese compound noun phrases are characterized by their wide range of use, unique syntactic structure and complex internal
semantics, which has always been an important research object in the field of linguistic analysis and Chinese information processing. The
language resources of compound noun phrases are extremely scarce in China, and the existing knowledge base only studies
noun-compound phrases, while the construction of a knowledge base containing compound noun phrases with verbs is still in the blank
stage. At the same time, most of the existing knowledge bases of compound noun phrases are out of context and have no information at
sentence level. In accordance with the present condition, this paper collects corpus from many fields, a new semantic relation system is
established. In addition, a compound noun semantic relation knowledge base with sentence information is constructed by annotation. The
focus of the library is to mark the boundary of compound noun phrases in sentences and the semantic relationship between the internal
components of the phrases. A total of 27007 sentences are collected. This paper makes a detailed statistical analysis of the annotated
knowledge base. Finally, based on the annotated knowledge base, this paper uses the baseline model to carry out automatic delimitation and
semantic classification experiments for compound noun phrases, and summarizes the experimental results and possible improvement
directions in the future.
Key words: Chinese compound noun phrases; Semantic Relational System; Delimitation recognition
0. 引言
复合名词短语在日常生活中应用广泛,在语言使
用中占有较大比重。据 Leonard
[1]
统计,近两个世纪以
来,在小说体散文中使用名词复合短语的次数呈现稳
定持续增长的态势,同时名词复合短语的种类也有显
著的增长。且其语法结构较为独特,语义关系较为复杂,
因此在语言分析中扮演着非常重要的角色,通过对它
的定界识别和语义分类可以有效改善句子语义分析的
质量,进行信息的准确抽取。
对于复合名词短语的研究,国外很早就有相关的
语义关系体系的建设研究,关于短语的边界识别和语
义分析,也相对于国内而言较为成熟,大概有
[2-9]
等。
国内以往对汉语基本名词短语的研究,主要是基
于边界识别和自动释义,而针对短语内部构成成分之
间的语义关系体系建设却相对较少,目前较完整的是
刘鹏远
[10]
针对名名复合形式短语语义知识库的构建,
但该文只是单纯从语言学角度进行了语义分类,做了
一些初步的统计分析,并没有将包含动词的复合名词
短语纳入研究范围,且抽取得到的复合名词短语脱离
语境,缺少句子级别的信息。目前也没有在句子中进
行复合名词短语自动定界和语义关系分类的研究工作。
针对国内对于复合名词短语语义知识库构建相对
薄弱的特点,我们参照北京大学《现代汉语语义词典》
的语义类别标签并结合语料的实际情况建立一个语义