中文专利SAO结构关系抽取：词法与词向量特征的对比研究

需积分: 0 117 浏览量更新于2024-08-05 收藏 1.24MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

本文主要探讨了"面向中文专利SAO结构抽取的文本特征比较研究"这一主题，由饶齐、王裴岩和张桂平在沈阳航空航天大学知识工程研究中心合作完成。他们的研究是基于中国专利文本中的SAO（Semantic Analysis Object，语义分析对象）结构实体关系抽取问题，这是一种关键的自然语言处理任务，对于挖掘和理解专利信息具有重要意义。他们采用支持向量机（Support Vector Machines, SVM）这一机器学习方法来进行实验，SVM以其强大的非线性建模能力而闻名，特别适合处理文本数据中的复杂关系。研究中，作者着重对比了几种重要的文本特征的有效性： 1. 基本词法信息：这是最基础的特征，包括词性标注、词形还原、词干提取等，这些信息对于识别实体和理解它们之间的关系至关重要。实验结果显示，基本词法信息对关系抽取的性能提升明显，显示出其在SAO结构抽取中的核心作用。 2. 实体间距离信息：通过分析实体在文本中的相对位置，研究人员探索了这种空间信息是否能提升关系抽取的准确性。然而，实验结果显示，尽管实体间距离对关系预测有一定的辅助作用，但并未显著改善关系抽取的整体效果。 3. 最短路径闭包树句法信息：这是利用句法分析来捕捉句子内部的结构和语义关系的一种尝试。然而，研究发现句法信息对SAO结构关系抽取的影响并不显著，可能是因为专利文本的特定结构和词汇选择可能使简单的句法规则难以捕捉到所有关系。 4. 词向量信息：词向量是近年来在NLP领域流行的表示方法，它将词语映射到高维向量空间，保留了词语的语义和上下文信息。实验验证了词向量在SAO结构关系抽取中的可行性和潜在价值，它能够提供更丰富的语义信息，有助于提高关系抽取的精度。该研究不仅提供了中文专利SAO结构关系抽取中不同特征的有效性评估，还揭示了词法信息在关系抽取中的关键作用，以及词向量作为新兴技术在解决这类问题上的潜力。这项工作对于改进专利文本的自动化处理和信息提取系统具有实际应用价值。

资源详情

资源推荐

349

国家“十二五”科技支撑计划项目(2012BAH14F00)资助

收稿日期: 20140727; 修回日期: 2014023; 网络出版日期: 201428

北京大学学报(自然科学版) 第 51 卷第 2 期 2015 年 3 月

Acta Scientiarum Naturalium Universitatis Pekinensis, Vol. 51, No. 2 (Mar. 2015)

doi: 10.13209/j.0479-8023.2015.049

面向中文专利 SAO 结构抽取的文本特征比较研究

饶齐王裴岩张桂平

†

沈阳航空航天大学知识工程研究中心, 沈阳 110136; † 通信作者, E-mail: zgp@ge-soft.com

摘要针对中文专利文本中 SAO 结构实体关系抽取问题, 使用支持向量机的机器学习方法进行关系抽取实

验, 分别对基本词法信息、实体间距离信息、最短路径闭包树句法信息以及词向量信息等特征的有效性进行

验证分析。实验结果表明, 基本的词法信息能够明显提高关系抽取性能, 而句法信息没有显著提高关系抽取

效果。此外, 也验证了词向量在 SAO 结构关系抽取中的可行性。

关键词 SAO 结构; 关系抽取; 特征有效性; 词向量

中图分类号 TP391

Text Feature Analysis on SAO Structure Extraction

from Chinese Patent Literatures

RAO Qi, WANG Peiyan, ZHANG Guiping

†

Knowledge Engineering Research Center, Shenyang Aerospace University, Shenyang 110136;

† Corresponding author, E-mail: zgp@ge-soft.com

Abstract In order to resolve the problem of SAO-based relation extraction from Chinese patent literatures, a

series of experiments were implemented by using Support Vector Machines. It focused on the analysis of the

validity of basic lexical information, syntactic information such as the shortest path enclosed tree, and distance

features used in related works. The results show that simple lexical features can contribute to a good performance,

while syntactic features cannot bring a remarkable improvement. Moreover, the feasibility of a new representation

of words, word embeddings, is validated on SAO-based relation extraction.

Key words SAO structure; relation extraction; effectiveness of features; word distributed representation

专利文献作为主要的技术承载体, 对于科学技

术创新有很高的参考价值。近年来, 自然语言处理

的相关技术广泛应用于专利文献分析处理领域。基

于 SAO 结构的功能函数表示法

[1]

的专利定性分析

技术在专利文献分析中应用较广, 可以从发明的用

途、原理、材料、结构和方法等方面解析专利的内

容。SAO 结构抽取作为专利定性分析方法的基础,

其抽取质量对于后续分析应用(如专利相似度计

算

[2]

、专利侵权分析

[3]

等)有直接影响。

SAO 结构(Subject-Action-Object), 源自发明问

题解决理论

[4]

(theory of inventive problem solving,

TIPS), 是表示问题解决方法的基本功能函数单

元。其中主体 S 和客体 O 表示系统中的部件实体,

通常由名词或名词性短语构成, 行为 A 表示实体之

间的操作或关系, 一般由句子中的动词充当。

例句所述数据源被设计为用于输出

要发送的数据比特流。

以上例句中, “所述数据源”是主体 S, “要发送

的数据比特流”是客体 O, “输出”表示主体与客体之

间功能关系的 Action, 抽取出的 SAO 结构用三元

组的形式表示为“(所述数据源, 输出, 要发送的数

据比特流)”。面向专利的 SAO 结构抽取, 是从专利

文本中抽取出(Subject, Action, Object)实体关系三

元组, 其中 Subject 对应于实体 1, Object 对应于实

下载后可阅读完整内容，剩余7页未读，立即下载

忧伤的石一

粉丝: 28
资源: 332

中文专利SAO结构关系抽取：词法与词向量特征的对比研究

基于专利SAO链的技术预见方法研究--以工业机器人领域为例.pdf

sao_eq71.zip_71sao_com__71sao_com_blte_eq71_www.71.com.comsao_ww

StarCat_11.3.rar_MATLAB star catalog_SAO星表_sao_starcat 星表_星表

SAO-CNN-BiGRU-Attention

H266 SAO滤波

sao explorer

svac sao的代码在哪可以下载

项目中bo，dto，vo，sao

南邮811数据结构整理

h265码流slice header解析的c代码

1、请按照正常呼叫流程的TUP信令关系在下图中画出NO.7信令流程。条件：NO.7信令采用成组发送方式，被叫空闲，话毕被叫先挂机。（可能用到的No.7信令消息：IAI、IAM、SAO、SAM、CBK 、ACM、RLG、ANC、CLF、GRQ ）

目标检测国内外研究现状

halcon缺陷检测例程

JCTVC-BO77/C147/D122/E049

saoimage exe

matlab自抗扰控制算例示例怎么找

最新资源