基于部件扩展的领域本体术语抽取研究

需积分: 0 130 浏览量更新于2024-08-05 收藏 607KB PDF 举报

"领域本体术语抽取研究" 本文主要探讨了如何有效地抽取多字词的领域本体术语，以提高本体构建的质量。研究提出了基于部件扩展的本体术语抽取方法，该方法利用词语的部件特性，特别是它们在特定领域的聚合性和词性特征。首先，通过领域词频比较抽取部件；接着，依据术语长度、词性构成和内部结合度等条件，设计扩展规则将部件组合成候选术语；最后，通过上下文关联信息和语境信息来筛选出真正的本体术语。在实验部分，这种方法在IT领域的数据集上进行了测试，结果显示其准确率为83.5%，召回率为87%，相比基准方法提高了2.5个百分点。然而，部件抽取的准确性依赖于平衡语料库，因此部件的质量直接影响术语抽取的效果。尽管存在这一局限性，实验结果证明了该方法的有效性，对本体学习和本体构建具有积极的意义。本体，特别是在大数据时代，对于知识检索、知识工程等领域的重要性不言而喻。然而，构建和维护本体的难度限制了相关领域的发展。因此，本体术语抽取成为了解决这一问题的关键步骤。术语在本体中扮演着至关重要的角色，它是概念的实例化表示，尤其在特定领域内，多词型术语通常富含领域知识。本文中提到的本体术语特指领域本体中的核心术语，因此，抽取这些术语对于构建高质量的领域本体至关重要。相关工作方面，本体术语抽取已经有许多研究，包括基于规则的方法和基于统计的方法等。这些方法各有优缺点，但本研究提出的部件扩展方法旨在更精确地捕捉领域术语的特征，从而提升抽取的准确性。本文的研究为本体构建提供了一种新的、有效的工具，对于促进信息高速运作，以及解决大数据时代下的知识组织和检索问题具有实际应用价值。未来的研究可能进一步优化部件抽取策略，以减少对外部资源的依赖，并探索更复杂语境下的术语识别技术。

总第 242 期 2014 年第 1 期

XIANDAI TUSHU QINGBAO JISHU 43

领域本体术语抽取研究

汤青

吕学强

，

李卓

施水才

1, 2

（北京信息科技大学网络文化与数字传播北京市重点实验室北京 100101）

（北京拓尔思信息技术股份有限公司北京 100101）

摘要：【目的】尽可能多地抽取多字词本体术语，以保证本体构建的质量。【方法】提出基于部件扩展的本体术

语抽取方法。利用部件的领域聚合性和词性特征，采用领域词频比较的方法抽取部件；考虑术语长度、术语词

性构成以及术语内部结合度等因素，设计合理的扩展规则对部件扩展以形成候选术语；利用上下文关联信息、

语境信息从候选术语集中筛选出本体术语。【结果】利用该方法在 IT 领域实验数据集上进行测试，实验结果准

确率为 83.5%，召回率为 87%，准确率相比 Baseline 方法要高出 2.5 个百分点。【局限】部件抽取方法需要借助

于平衡语料库，部件的质量直接影响术语抽取效果。【结论】实验结果表明该方法是有效的，对本体学习、本体

构建具有积极意义。

关键词：本体术语术语抽取术语部件部件扩展

分类号：TP391.1

1 引言

随着大数据时代的到来，如何将网络上的海量数

据形成一个互相关联的网络以实现信息的高速运作的

问题，推动着基于本体的知识检索、知识工程等领域

的快速发展。但本体在构建和维护上的困难制约着这

些依赖于本体的相关领域的发展。本体是概念模型的

明确规范说明

[1]

，是概念间的关系模型，因而概念是

本体中最重要的组成部分之一。而术语在国家标准规

范 GB/T 19101-2003

《建立术语语料库的一般原则与

方法》中被定义为“特定专业领域中一般概念的词语

指称”

[2]

，它作为概念的一种描述，可以用于表示概

念的实例。故本体术语抽取成为本体构建的首要工作，

对本体学习以及基于本体的应用技术的发展具有重要

意义。

本文中“本体”指的是领域本体，所以，本体术

语不是一般意义上的术语，而是领域内的核心术语。

本体术语具有很强的领域性，主要以极具领域内涵的

多词型术语为主。本文从术语在语料上的分布特征、

术语形成的方式等方面进行分析，提出了基于部件扩

展的本体术语抽取方法。

2 相关工作

本体术语抽取是本体构建的基础，也是知识抽取

等信息技术中的关键步骤。目前，本体术语抽取研究

采用的方法有基于规则的方法

[3]

、基于统计的方法

[4]

、

基于规则与统计相结合的混合方法

[5]

。其中，混合方

法是当前本体术语抽取的主流方法。

2010 年，Yang 等

[6]

提出一种不依赖领域特征的术

语抽取方法，根据边界分隔符抽取候选术语，借助领

域相关句与领域术语之间的相互强化关系抽取领域术

语，但边界分隔符的准确获取本身就是一个难点。2011

年，章成志

[7]

提出多层术语度的一体化术语抽取方法，

并提出了句子术语度的概念，将术语所在句子的所有

词语均作为训练特征，用 CRF 识别术语，但该方法依

赖于大量训练数据。2012 年，Lee 等

[8]

提出了一种不

收稿日期：2013-09-27

收修改稿日期：2013-11-22

*本文系国家自然科学基金项目“基于本体的专利自动标引研究”（项目编号：61271304）和北京市教委科技发展计划重点项目暨北京

市自然科学基金 B 类重点项目“面向领域的互联网多模态信息精准搜索方法研究”（项目编号：KZ201311232037）的研究成果之一。

下载后可阅读完整内容，剩余7页未读，立即下载

航知道

粉丝: 32

基于部件扩展的领域本体术语抽取研究

基于文本挖掘的领域本体半自动构建方法研究_以教学设计学科领域本体建设为例.pdf

基于互信息与词语共现的领域术语自动抽取方法研究 (2013年)

论文研究-一种面向术语抽取的短语过滤技术.pdf

基于深度学习的领域本体构建研究——以汽车领域为例.pdf

基于领域本体的知识整合浅析.doc

基于本体的专利摘要知识抽取球

基于网站结构的领域本体学习方法PPT学习教案.pptx

论文研究-基于领域的本体半自动化构建研究 .pdf

"深度学习与统计信息驱动的领域术语自动抽取技术研究

自动抽取中文领域术语的高效混合策略：90.64%准确率

最新资源