预训练模型驱动的多标签专利分类研究与实践

版权申诉
0 下载量 9 浏览量 更新于2024-07-02 收藏 413KB DOCX 举报
本研究文档聚焦于"基于预训练模型的多标签专利分类研究"这一主题,它针对当前专利文献快速增长带来的分类难题展开深入探讨。专利作为科技创新的载体,其数量庞大使得传统的手工分类和小规模机器学习方法已难以满足高效、精确的分类需求。国际上普遍采用的专利分类标准如IPC、ECLA、UPC/USPC、FI/F-term和CPC,其中IPC因其广泛适用性而备受关注,但也因类别繁多和相似性强导致分类复杂。 文章强调了现有的深度学习方法在专利分类中的应用,尤其是单一主分类号的处理,但往往忽视了细粒度分类的重要性。为了克服这一问题,研究者提出构建了一个大规模的专利分类数据集,涵盖了多标签特性,利用预训练模型BERT、RoBERTa和RBT3进行模型微调。这些模型在Sigmoid激活函数和BCEWithLogitsLoss损失函数的支持下,能够有效地处理多类别专利分类任务。评估指标选用准确率和Micro-F1值,以验证预训练模型在大规模数据集上的性能。 创新点主要表现在两个方面:首先,通过创建可扩展的数据集,使得模型能够适应不断增长的专利文献处理需求;其次,通过微调预训练模型,实现了对专利文献的细粒度多标签分类,突破了传统方法在分类精度和效率上的限制。这种方法有望提高专利检索和审查的效率,对推动技术创新和知识产权管理具有重要意义。整个研究旨在提升专利分类领域的技术水平,并为未来的智能专利管理系统提供技术支持。