中文专利自动引文标注技术

需积分: 0 0 下载量 123 浏览量 更新于2024-08-05 收藏 235KB PDF 举报
这篇文献主要探讨了自动标注中文专利中引文信息的方法,包括专利、标准、学术论文和其他专著四类引用信息的识别。作者姜春涛通过模式匹配和机器学习两种技术来实现这一目标。 文章首先介绍了研究目的,即自动标注中文专利文本中的各类引用信息,这对于专利信息挖掘、现有技术搜索、专利自动分类以及科学计量学等领域具有重要意义。由于专利正文中的引文信息通常未被检索报告完全覆盖,因此自动提取这些信息具有很高的实用价值。 在方法论上,对于专利、标准和其他专著的引用,采用了模式匹配的方法进行标注,这种方法依赖于对大量专利文件的人工分析来建立识别模式。而对于学术论文的引用,采用了两阶段的机器学习方法,首先自动检测含有引用的句子,然后从中提取六类文献特征信息。 实验结果显示,10层交叉验证下,专利引用的标注精确度和查全度均达到100%,标准引用的精确度为92%,查全度为94%,其他专著引用的精确度和查全度分别为80%和71%。在标注学术论文引用时,第一阶段的精确度和查全度分别为95.7%和96.0%,第二阶段分别为95.3%和94.9%。这表明模式匹配方法在标注专利和标准引用方面的性能较高,而机器学习方法在处理学术论文引用时也表现出较好的平均性能。 然而,该研究也存在局限性,比如模式匹配方法需要大量的人工分析工作,并且训练数据规模相对较小。尽管如此,该研究仍展示了运用模式匹配和机器学习方法在自动标注专利引文信息上的潜力和有效性,对于未来的研究提供了有益的参考。 关键词涉及专利引用、文献提取、专利标注、模式匹配、条件随机场和信息提取,这表明该研究主要关注的是如何利用计算机技术自动处理专利文献中的引用信息,以提高信息处理的效率和准确性。 分类号为TP393,表明该研究属于计算机科学技术领域,具体是信息处理技术的子领域。这篇文献为专利信息自动处理提供了一种新的技术和方法,有助于提升专利分析和检索的效率。