孪生BERT网络在科技文献类目映射中的应用
版权申诉
12 浏览量
更新于2024-07-03
收藏 1.23MB DOCX 举报
"基于孪生BERT网络的科技文献类目映射技术通过利用BERT预训练模型,解决了国际专利分类法(IPC)与中文图书馆分类法(CLC)之间的映射问题,提高了文献检索和浏览的效率。该方法在孪生网络框架下,对IPC和CLC的类目描述进行抽象,通过平均池化处理后得到向量表示,并利用余弦相似度计算类目间的相似度,从而建立映射关系。实验结果显示,这种方法比传统规则方法和多种深度学习模型(如Sia-Multi、Bi-TextCNN、Bi-LSTM)表现更优。相关的代码、模型和人工标注数据集已公开发布,可供进一步研究和应用。"
这篇文档介绍了科技文献分类的重要性和国际专利分类法(IPC)与中文图书馆分类法(CLC)在专利信息和期刊资源管理中的作用。IPC和CLC都是层级结构的分类体系,它们之间存在概念上的相似性,因此可以建立映射关系以促进跨系统的检索和浏览。为了实现这一目标,作者提出了一个基于BERT预训练模型的孪生网络方法。
BERT,全称为Bidirectional Encoder Representations from Transformers,是一种预训练语言模型,它能够理解文本的上下文信息并生成丰富的语义表示。在这个应用场景中,BERT被用来处理IPC和CLC的类目描述,通过学习这些描述的深层次语义特征。孪生网络结构则包括两个共享参数的BERT模型,分别处理IPC和CLC的类目文本,经过平均池化处理后得到固定维度的向量表示。接着,通过计算这两个向量的余弦相似度,可以确定IPC类目与CLC类目的匹配程度,进而建立类目间的映射关系。
实验部分,作者构建了一个人工标注的IPC-CLC映射语料库,对比了所提方法与基于规则的方法和其他深度学习模型(如Sia-Multi、Bi-TextCNN、Bi-LSTM)的性能。结果显示,基于孪生BERT网络的方法在准确性上显著优于其他方法,这表明该方法在处理跨分类法映射问题时具有更高的效率和准确性。
此外,该研究的开放源代码、模型和标注数据集为后续的研究者提供了宝贵的资源,促进了相关领域的研究进展。这不仅有利于提升科技文献检索的智能化水平,也为跨系统的信息整合和资源共享提供了新的解决方案。
2024-03-02 上传
2020-11-23 上传
2021-09-16 上传
2022-06-24 上传
2022-11-30 上传
2022-12-15 上传
2021-12-11 上传
罗伯特之技术屋
- 粉丝: 4444
- 资源: 1万+
最新资源
- 基于Python和Opencv的车牌识别系统实现
- 我的代码小部件库:统计、MySQL操作与树结构功能
- React初学者入门指南:快速构建并部署你的第一个应用
- Oddish:夜潜CSGO皮肤,智能爬虫技术解析
- 利用REST HaProxy实现haproxy.cfg配置的HTTP接口化
- LeetCode用例构造实践:CMake和GoogleTest的应用
- 快速搭建vulhub靶场:简化docker-compose与vulhub-master下载
- 天秤座术语表:glossariolibras项目安装与使用指南
- 从Vercel到Firebase的全栈Amazon克隆项目指南
- ANU PK大楼Studio 1的3D声效和Ambisonic技术体验
- C#实现的鼠标事件功能演示
- 掌握DP-10:LeetCode超级掉蛋与爆破气球
- C与SDL开发的游戏如何编译至WebAssembly平台
- CastorDOC开源应用程序:文档管理功能与Alfresco集成
- LeetCode用例构造与计算机科学基础:数据结构与设计模式
- 通过travis-nightly-builder实现自动化API与Rake任务构建