中文专利自动引文标注技术

需积分: 0 123 浏览量更新于2024-08-05 收藏 235KB PDF 举报

这篇文献主要探讨了自动标注中文专利中引文信息的方法，包括专利、标准、学术论文和其他专著四类引用信息的识别。作者姜春涛通过模式匹配和机器学习两种技术来实现这一目标。文章首先介绍了研究目的，即自动标注中文专利文本中的各类引用信息，这对于专利信息挖掘、现有技术搜索、专利自动分类以及科学计量学等领域具有重要意义。由于专利正文中的引文信息通常未被检索报告完全覆盖，因此自动提取这些信息具有很高的实用价值。在方法论上，对于专利、标准和其他专著的引用，采用了模式匹配的方法进行标注，这种方法依赖于对大量专利文件的人工分析来建立识别模式。而对于学术论文的引用，采用了两阶段的机器学习方法，首先自动检测含有引用的句子，然后从中提取六类文献特征信息。实验结果显示，10层交叉验证下，专利引用的标注精确度和查全度均达到100%，标准引用的精确度为92%，查全度为94%，其他专著引用的精确度和查全度分别为80%和71%。在标注学术论文引用时，第一阶段的精确度和查全度分别为95.7%和96.0%，第二阶段分别为95.3%和94.9%。这表明模式匹配方法在标注专利和标准引用方面的性能较高，而机器学习方法在处理学术论文引用时也表现出较好的平均性能。然而，该研究也存在局限性，比如模式匹配方法需要大量的人工分析工作，并且训练数据规模相对较小。尽管如此，该研究仍展示了运用模式匹配和机器学习方法在自动标注专利引文信息上的潜力和有效性，对于未来的研究提供了有益的参考。关键词涉及专利引用、文献提取、专利标注、模式匹配、条件随机场和信息提取，这表明该研究主要关注的是如何利用计算机技术自动处理专利文献中的引用信息，以提高信息处理的效率和准确性。分类号为TP393，表明该研究属于计算机科学技术领域，具体是信息处理技术的子领域。这篇文献为专利信息自动处理提供了一种新的技术和方法，有助于提升专利分析和检索的效率。

总第 263 期 2015 年第 10 期

通讯作者: 姜春涛, ORCID: 0000-0001-8332-7858, E-mail: spring_surge@126.com。

XIANDAI TUSHU QINGBAO JISHU 81

自动标注中文专利的引文信息

姜春涛

(南京大学计算机科学与技术系南京 210023)

(江苏省专利信息服务中心南京 210008)

摘要: 【目的】自动标注嵌入中文专利文本中的专利、标准、学术论文、其他专著 4 类引用信息。【方法】对于

专利、标准和其他专著的引用, 应用模式匹配的方法标注; 对于学术论文的引用, 应用由两阶段构成的机器学习

方法标注, 自动检测含有引用的句子, 并从中自动提取 6 类文献特征信息。【结果】10 层交叉验证的结果表明:

专利引用标注的精确度和查全度均为 100%, 标准引用标注的精确度和查全度分别达到 92%和 94%, 而其他专著

引用标注的精确度和查全度分别达到 80%和 71%; 标注学术论文引用的精确度和查全度在阶段一分别为 95.7%

和 96.0%, 阶段二分别为 95.3%和 94.9%。【局限】模式匹配方法需要人工分析大量的专利文件, 训练数据规模相

对较小。【结论】运用模式匹配方法标注专利、标准引用的性能高于 92%; 运用机器学习方法标注学术论文引用

的平均性能达到 95%。

关键词: 专利引用文献提取专利标注模式匹配条件随机场信息提取

分类号: TP393

1 引言

在专利信息挖掘的背景下, 专利的引文信息作为

衡量专利申请贡献程度的基础, 对相关领域的研究具

有重要的促进作用: 如现有技术搜索

[1]

(Prior Art Search),

专利自动分类

[2]

, 科学计量学

[3]

(Scientometrics)等。然

而, 除了检索报告人工列举的引文信息, 专利文件的

正文主体(专利说明书)包含更多没有被检索报告列出

的引文信息, 如文献[1]指出一篇专利有可能包括上百

个引用文献, 而检索报告中所列出的引用文献却很少

超过 10 篇。因此, 从专利说明书中自动提取所引用的

文献信息是十分必要的, 而且极具价值

[4]

。

许多学者

[4-5]

都指出基于专利引文信息提取的研

究工作还十分有限, 需要更多深入的研究克服两方面

的挑战: 所引用的专利文献书写形式的多样性及缺乏

标准性; 由于自然语言的歧义性和书写格式的多变性,

提取所引用的非专利文献信息要比专利文献信息更加

难以处理。尽管已有研究

[1,5-9]

从上述两方面针对英/日/

德/法语专利文本进行有益的尝试, 但是笔者没有发

现对中文专利文本进行引文信息提取的研究。鉴于此,

本文提出利用模式匹配和机器学习的方法, 从中文专

利说明书的“背景技术”和“具体实施方式”中自动标注

所引用的专利和非专利文献信息。如果把所要标注的

对象作为自动提取的内容, 那么这种自动标注引文信

息的过程, 也可被视为自动提取引文信息的过程。

2 相关研究

文献

[5-6]

面向英文专利, 提出使用模板或人工规

则的方法自动提取专利和非专利文献信息, 小规模的

测试所提取非专利文献的精确度/查全度保持在 70%-

75%。文献

[7]

使用正规表达式(Regular Expressions)建

立大约 50 个引用专利文献的模式自动提取所引用的

专利文献, 然而进一步分析发现该方法会遗漏大约

40%的引用信息。文献

[10]

针对中文专利说明书摘要,

使用规则和机器学习的方法, 自动提取专利的特征、

组成和用途信息。此外, 针对中文专利信息自动提取

的研究还包括面向本体的专利知识提取

[11]

, 基于专利

下载后可阅读完整内容，剩余6页未读，立即下载

五月Eliy

粉丝: 38
资源: 304

中文专利自动引文标注技术

TRIZ理论驱动的专利功能信息自动化标注法

人脸68点标注模型shape_predictor_68_face_landmarks

图像标注新工具：static_edgeflow_cocolvis的推出

尺寸自动标注_尺寸自动标注_CAD自动标注_CAD自动尺寸_

半自动标注系统详细设计方案__邹安平1

BOTSALLY® 赛莉®中文语料自动标注-实体识别标注_精细切分_样例

赛莉®中文语料自动标注_精细切分标注标签展示样例1_新闻

Cad 自动加标高.zip_CAD自动加标高_movementuhx_批量标高标注_标高工具 cad_自动标注标高

12_CAD自动标注_自动标注_

坐标标注自动生成表格CoodSheet_coodsheet.dvb_cadvba_

最新资源