中文专利开放实体关系抽取：基于马尔可夫逻辑网的组块层次方法

166 浏览量更新于2024-08-27 1 收藏 120KB PDF 举报

本文主要探讨了面向中文专利的开放式实体关系抽取（Open Entity Relation Extraction, OER）这一前沿领域。传统实体关系抽取方法通常依赖于预先定义的关系类型和规则，这对于处理大规模文本数据并不适用。然而，随着开放式信息抽取技术的发展，尤其是在英文文献中的广泛应用，该研究着重于解决中文专利文本中实体关系抽取的问题。研究者以马尔可夫逻辑网（Markov Logic Net, MLN）为核心，结合组块层次标注（Block-based Annotation）策略来进行开放式实体关系抽取。这种方法的优势在于，通过将句子分解为可管理的组块，降低了对句子理解的复杂性，使得外层和内层组块能够被统一处理，从而减少了人工规则制定的工作量。这种方法避免了对每个关系类型的单独设计，具有更好的扩展性和适应性。实验结果显示，在相同的特征条件下，基于马尔可夫逻辑网的关系抽取相较于支持向量机（Support Vector Machine, SVM）表现更为出色。特别是对于外层和内层组块的识别，使用MLN能够分别达到77.92%和69.20%的F值，这显示出其在抽取实体关系上的高效性能。该研究还得到了国家“十二五”科技支撑计划项目（No.2012BAH14F00）和国家自然科学基金项目（No.61073123）的支持，证明了其理论价值和实际应用前景。研究团队由赵奇猛、王裴岩、冯好国和蔡东风四位专家组成，他们分别在自然语言处理、语义分析和人工智能等领域有着深厚的学术背景和实践经验，他们的合作为中文专利领域的开放式实体关系抽取提供了有力的技术支持。这篇论文旨在填补中文专利开放式实体关系抽取研究的空白，通过马尔可夫逻辑网的运用，提升中文大规模文本数据的处理能力，为后续的专利信息检索、知识图谱构建等应用场景提供有效工具。未来，随着自然语言处理技术的进一步发展，这一成果有望推动中文信息抽取技术的整体进步。

Computer Engineering and Applications 计算机工程与应用

基金项目：国家"十二五"科技支撑计划项目 (No.2012BAH14F00);国家自然科学基金项目(No.61073123)。

作者简介：赵奇猛(1988－),男,硕士研究生,研究方向：自然语言处理；王裴岩(1983－),男,博士研究生,讲师,研究方向：自然语言

处理；冯好国(1975－),男,硕士研究生,研究方向：语义分析；蔡东风(1958－),男,博士,博士生导师、教授,研究方向：

人工智能。E-mail: zhaomeng1123@126.com

面向中文专利的开放式实体关系抽取研究

赵奇猛,王裴岩,冯好国,蔡东风

ZHAO Qimeng, WANG Peiyan, FENG Haoguo, CAI Dongfeng

沈阳航空航天大学知识工程研究中心,辽宁沈阳 110136

Research Center for Knowledge Engineering, Shenyang Aerospace University, Shenyang 110136, China

ZHAO Qimeng, WANG Peiyan, FENG Haoguo, CAI Dongfeng. Research on Chinese-patents-oriented open

entity relation extraction. Computer Engineering and Applications

Abstract：The main goal of information extraction is to transform unstructured or semi-structured texts into

structured information, in which entity relation extraction is a major task. In general, traditional methods require

pre-specified relation types. But pre-defined rules and manual labels are not adaptive to massive texts. Recently,

open information extraction can solve the problems properly. In contrast with the significant achievements con-

cerning English and other Western languages, research on Chinese open relation extraction is quite scarce. In this

paper, the hierarchical Chinese open entity relation extraction approach is proposed that applies Markov Logic

Networks on the base of both external and internal chunk-tags. The experiment results reveal that the origin of

chunks can simplify the understanding of sentences, and both layers can be handled consistently so that engineer-

ing efforts are reduced. And on the same conditions, MLN can perform better than SVM, in which the F-score of

external and internal layers can reach 77.92% and 69.20% respectively.

Key words：chinese patents dependency treebank; open entity relation extraction; MLN; SVM

摘要：针对传统实体关系抽取需要预先指定关系类型和制定抽取规则等无法胜任大规模文本的情况，开

放式信息抽取(Open Information Extraction, OIE）在以英语为代表的西方语言中取得了重大进展，但

对于汉语的研究却显得不足。为此，研究了在组块层次标注基础上应用马尔可夫逻辑网分层次进行中文专

利开放式实体关系抽取的方法。实验表明：以组块为出发点降低了对句子理解的难度，外层和内层组块可

以统一处理，减少了工程代价;而且在相同特征条件下与 SVM 相比，基于马尔可夫逻辑网的关系抽取效果

更理想，外层和内层识别结果的 F 值分别可达到 77.92%和 69.20%。

关键词：中文专利依存树库；开放式实体关系抽取；Markov 逻辑网；支持向量机

文献标志码: A 中图分类号: TP391 doi:10.3778/j.issn.1002-8331.1305-0162

1 引言

机器阅读旨在从大规模、非结构化文本中自动

抽取知识，并将其应用到问答等任务中，一直是人

工智能的主要目标

[1]

。

目前作为机器阅读手段之一的信息抽取大多

关注于抽取二元实体之间的语义关系，David

[2]

认为

动词至多作用于二元，若用一阶逻辑来形式化表式

实体关系，那么多元关系可以通过多个二元谓词表

示，在一阶逻辑形式意义表达的基础上，可以方便

的进行深层推理。如“橙汁富含维他命 C，维他命

C 防止疾病”用一阶逻辑可表示为“富含(橙汁，维

他命 C)∧防止(维他命 C，疾病 )” ，通过推理可得

到“防止(橙汁，疾病)”的隐含关系。

传统的信息抽取需要预先定义所有的关系类

下载后可阅读完整内容，剩余7页未读，立即下载

weixin_38638647

粉丝: 7

中文专利开放实体关系抽取：基于马尔可夫逻辑网的组块层次方法

无指导的开放式中文实体关系抽取

基于依存分析的开放式中文实体关系抽取方法.pdf

面向中文开放领域的多元实体关系抽取研究.pdf

面向招投标领域的远程监督实体关系抽取研究

依存分析驱动的开放式中文实体关系抽取

深度学习实体关系抽取研究综述.pdf

电子病历命名实体识别和实体关系抽取研究综述-杨锦锋

开放式关系抽取研究进展综述论文集

基于Deep Belief Nets的中文名实体关系抽取研究

基于三支决策的实体关系抽取研究

最新资源