孪生BERT网络在科技文献类目映射中的应用

版权申诉
0 下载量 12 浏览量 更新于2024-07-03 收藏 1.23MB DOCX 举报
"基于孪生BERT网络的科技文献类目映射技术通过利用BERT预训练模型,解决了国际专利分类法(IPC)与中文图书馆分类法(CLC)之间的映射问题,提高了文献检索和浏览的效率。该方法在孪生网络框架下,对IPC和CLC的类目描述进行抽象,通过平均池化处理后得到向量表示,并利用余弦相似度计算类目间的相似度,从而建立映射关系。实验结果显示,这种方法比传统规则方法和多种深度学习模型(如Sia-Multi、Bi-TextCNN、Bi-LSTM)表现更优。相关的代码、模型和人工标注数据集已公开发布,可供进一步研究和应用。" 这篇文档介绍了科技文献分类的重要性和国际专利分类法(IPC)与中文图书馆分类法(CLC)在专利信息和期刊资源管理中的作用。IPC和CLC都是层级结构的分类体系,它们之间存在概念上的相似性,因此可以建立映射关系以促进跨系统的检索和浏览。为了实现这一目标,作者提出了一个基于BERT预训练模型的孪生网络方法。 BERT,全称为Bidirectional Encoder Representations from Transformers,是一种预训练语言模型,它能够理解文本的上下文信息并生成丰富的语义表示。在这个应用场景中,BERT被用来处理IPC和CLC的类目描述,通过学习这些描述的深层次语义特征。孪生网络结构则包括两个共享参数的BERT模型,分别处理IPC和CLC的类目文本,经过平均池化处理后得到固定维度的向量表示。接着,通过计算这两个向量的余弦相似度,可以确定IPC类目与CLC类目的匹配程度,进而建立类目间的映射关系。 实验部分,作者构建了一个人工标注的IPC-CLC映射语料库,对比了所提方法与基于规则的方法和其他深度学习模型(如Sia-Multi、Bi-TextCNN、Bi-LSTM)的性能。结果显示,基于孪生BERT网络的方法在准确性上显著优于其他方法,这表明该方法在处理跨分类法映射问题时具有更高的效率和准确性。 此外,该研究的开放源代码、模型和标注数据集为后续的研究者提供了宝贵的资源,促进了相关领域的研究进展。这不仅有利于提升科技文献检索的智能化水平,也为跨系统的信息整合和资源共享提供了新的解决方案。