双通道WPOS-GRU专利分类法提升文本自动分类精度

需积分: 46 3 下载量 178 浏览量 更新于2024-08-13 3 收藏 1.34MB PDF 举报
本文主要探讨了一种创新的专利文本自动分类方法——基于双通道特征融合的WPOS-GRU(word2vec and part of speech gated recurrent unit,即词向量和词性标注的门限递归单元)。这项方法旨在提高专利文本分类的效率和准确度,以应对日益增长的专利文献管理和检索需求。 首先,方法的实施流程包括专利摘要文本的获取和预处理,这是确保后续处理质量的基础。通过对专利文本进行清洗,去除无关信息,有助于提高后续处理的效率和准确性。接着,对文本进行词向量表示和词性标注。词向量(word2vec)是将词语转化为数学向量,捕捉词语之间的语义关系,而词性标注则帮助识别每个词在句子中的语法角色,这对于理解专利文本的含义至关重要。 然后,将专利文本映射为word2vec词向量序列和POS词性序列两个特征通道。这两个通道分别关注词汇的语义和语法信息,提供了丰富的特征维度。利用这些特征,研究人员构建了WPOS-GRU模型,这是一种特殊的循环神经网络(RNN)架构,结合了门控机制,能够有效地捕捉文本中的长期依赖关系。 训练过程中,双通道特征融合机制将这两个通道的信息整合,使得模型能更全面地理解专利文本的特性。通过对比传统的专利分类方法和单通道分类方法,WPOS-GRU模型展现出了显著的优势,提高了分类的准确性和效率。这种方法不仅节省了大量的人力成本,还适应了大规模专利文本分类任务对自动化和高效性的需求。 论文的研究背景还包括国家自然科学基金资助项目,这体现了该方法的学术价值和实际应用潜力。作者团队由两位研究者组成,分别在信息系统、知识管理和信息管理与信息系统等领域有着深厚的学术积累,他们的合作推动了专利文本处理技术的发展。 总结来说,这篇论文介绍了一种新颖的专利分类策略,通过融合词向量和词性标注信息,利用WPOS-GRU模型优化了专利文本的自动分类过程。这种方法在提高分类精度和效率方面表现出色,具有广阔的应用前景。