专利主题提取：语义角色标注新方法

8 浏览量更新于2024-08-29 收藏 1024KB PDF 举报

"基于语义角色标注的专利主题提取研究" 本文主要探讨了在专利文献信息挖掘中，如何利用语义角色标注（Semantic Role Labeling, SRL）技术来改进专利文献的主题自动提取方法。传统的专利文本分析通常依赖人工标注或预定义模板，而本文提出了一种新的自动化策略，它能够提高分析的效率和准确性。首先，针对专利文献中常见的复杂长句，文章介绍了自动拆分简化句的技术。这种方法旨在通过拆分长句，将其转化为结构更清晰、语义更明确的简短句子，以便后续进行语义角色标注。这一过程对于处理那些包含多个从句和嵌套结构的句子至关重要，因为它降低了语义解析的复杂性。接着，文章阐述了对简化句进行语义角色标注的步骤。SRL系统会识别出句子中的谓词（如动词、名词或形容词）及其相关的语义角色，如动作执行者、受事者、时间、地点等，这些信息对于理解句子的深层含义至关重要。在专利文献中，这样的标注有助于揭示关键的技术特征和创新点。最后，作者提出结合简化句的语义信息和自建的带语义框架的常用词表进行主题信息抽取。这个词表包含了一些预定义的语义类别，它们与专利主题相关，如技术领域、发明目标、关键组件等。通过匹配和分析简化句中的标注信息，可以有效地抽取出专利文献中的关键主题，为信息检索、专利分析和决策提供支持。此外，文中提到了这一研究的实际应用价值，表明这种方法可以处理海量的专利文献，提升信息提取的效率，对于科研人员和知识产权从业者来说具有很高的实用价值。同时，它也是对现有专利文本分析方法的补充和完善，有助于推动自然语言处理技术在专利领域的应用。 "基于语义角色标注的专利主题提取研究"不仅涉及了自然语言处理的基础技术——语义角色标注，还涵盖了专利文献处理的特殊挑战，如复杂长句的处理和主题信息的高效抽取。这项工作对于提升专利信息挖掘的自动化水平和精确度具有积极的贡献，并为后续的科研工作提供了理论基础和技术借鉴。

第５８卷第１９期　２０１４年１０月

基于语义角色标注的专利主题提取研究



■

孟令恩　李颖　何彦青　屈鹏　王惠临

［摘　要］主题自动提取对于专利文献的信息挖掘具有重要的意义。引入语义角色标注信息来辅助自动

提取专利文献主题，区别于已有的专利文本分析平台所采用的人工标注或模板方式。为了改善专利文献的语

义角色标注，首先描述将专利文献长句自动拆分成简化句的方法；其次，对简化句进行语义角色标注；最后，综

合利用简化句语义信息以及自建带语义框架的常用词表，对专利文献进行主题信息抽取，获得必要信息，从而

证实本研究的实用价值。

［关键词］语义角色标注　简化句　主题抽取　专利文献

［分类号］ＴＰ３９１

　　ＤＯＩ：１０．１３２６６／ｊ．ｉｓｓｎ．０２５２－３１１６．２０１４．１９．００３



本文系国家自然科学基金项目“面向专利文献的统计机器翻译语境分析”（项目编号：６１３０３１５２）和中日国际合作项目“面向科技文献的日汉

双向实用型机器翻译合作研究”（项目编号：２０１４ＤＦＡ１１３５０）研究成果之一。

［作者简介］孟令恩，中国科学技术信息研究所硕士研究生；李颖，中国科学技术信息研究所副研究员，通讯作者，Ｅ

ｍａｉｌ：ｌｉｙｉｎｇ＠ｉｓｔｉｃ．ａｃ．ｃｎ；何

彦青，中国科学技术信息研究所副研究员；屈鹏，中国科学技术信息研究所助理研究员；王惠临，中国科学技术信息研究所研究员，博士。

收稿日期：２０１４－０７－２４　修回日期：２０１４－０９－０４　本文起止页码：１９－２４　本文责任编辑：刘远颖

１　引　言

　　语义角色标注

［１］

（ｓｅｍａｎｔｉｃｒｏｌｅｌａｂｅｌｉｎｇ，简称

ＳＲＬ），是浅层语义分析的一种实现方式，可以标注语

句中某些短语为给定谓词（ｐｒｅｄｉｃａｔｅ，即动词、名词、形

容词等）的语义角色，这些成分作为谓词的参数（ａｒｇｕ

ｍｅｎｔ）被赋予一定的语义含义。ＳＲＬ可应用于问答系

统

［２］

、指代消解

［３］

、信息检索

［４］

、机器翻译

［５］

等自然语

言处理。广义而言，ＳＲＬ有助于加深计算机对语言信

息资源的语义理解，对促进自然语言处理技术的整体

发展具有重要意义；就专利文献的语义化服务而言，基

于ＳＲＬ的主题（ｔｏｐｉｃ）抽取，在海量文献的自动化处理

方面，被给予了极大关注。

　　然而，专利文献包含大量的复杂长句，这些复杂的

长句常常具有多重嵌套的句子结构，各种从句出现频

繁，此类的复杂长句对语义角色标注提出了严峻的挑

战。已有语义角色标注工具对于专利文献中复杂长句

的标注效果较差。目前，主流的语义角色标注研究集

中于使用各种基于统计的机器学习模型，利用多种语

言学特征进行语义角色的识别和分类。本研究采用的

方法为专利文献长句的简化处理，以提高专利文献语

义角色标注的效果。本文将首先论证语义角色标注过

程中将长句拆分成简化句的必要性，描述将专利文献

长句拆分成简化句的方法；随后对简化句进行语义角

色标注；最后，综合利用简化句的语义信息以及构建的

带语义框架的常用词表，对专利文献进行主题信息抽

取，获得必要信息，从而证实本研究的实用价值。

２　相关工作

　　语义角色标注的语料库通常可以分成两种：一是

以

ＦｒａｍｅＮｅｔ

［６］

为表征的辞典型语料库，另有ＶｅｒｂＮｅｔ

［７］

等；另一种是以ＰｒｏｐＢａｎｋ

［８］

为代表的应用型语料库。

因为ＰｒｏｐＢａｎｋ较ＦｒａｍｅＮｅｔ而言，语义角色类型少，可

以消除数据稀疏的影响，而且语法信息丰富，可以被语

义分析使用，本文对专利文献的语义角色标注全程采

用

ＰｒｏｐＢａｎｋ规定的语义角色标签进行标记和实验。

　　ＰｒｏｐＢａｎｋ中的语义角色共分两大类：一类为核心

语义角色———ＡＲＧ０－ＡＲＧ５；另一类为修饰性语义角

色———ＡＲＧＭ。通常，ＡＲＧ０表示谓词动作的施事，

ＡＲＧ１表示谓词动作的受事，ＡＲＧ２－ＡＲＧ５在不同的

语义框架中具有不同的含义。以“ｔｒａｄｅ”的谓词语义

框架为例，当ｔｒａｄｅ表示含义为“交换”的时候，其中的

ＡＲＧ０表示支配交换的角色，ＡＲＧ１表示被交换的东

西。ＡＲＧ２表示其他交换者，ＡＲＧ３表示交换时价格、

费用、代价等，ＡＲＧ４表示交换的受益者，见图１。

　　修饰性语义角色有１３种，通过在ＡＲＧＭ后附加子

类型标记来修饰。例如：ＡＲＧＭ

ＬＯＣ标识语句中动作

９１

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38628953

粉丝: 6
资源: 926

专利主题提取：语义角色标注新方法

基于改进BERT算法的专利实体抽取研究—以石墨烯为例.docx

基于语义角色标注的专利技术-效应矩阵构建新方法

专利文献主题提取：语义角色标注的创新策略

专利文本中语义角色标注的改进与应用

基于深度学习的专利自分类模型设计.pdf

中文专利侵权检测研究综述.docx

互联网语义内容生成和管理的理论与方法研究由清华大学完成该.pdf

基于多源异构数据的中医药知识图谱构建与应用研究+人工智能+知识图谱+预训练模型

发明专利申请的参考范文

TRIZ理论驱动的专利功能信息自动化标注法

最新资源