"特征融合的中文专利文本自动分类研究"

版权申诉

198 浏览量更新于2024-03-07 1 收藏 519KB DOCX 举报

本研究的目的是探讨特征融合的中文专利文本分类方法，这是一个具有重要意义的任务，随着海量数据的迸发，准确获取并高效利用信息资源成为研究的重点。专利不仅是企业和国家争相掌握的重要资源，更是能促进科技成果普及和推动科技创新的重要动力。自动文本分类是自然语言处理领域中的一个经典问题，其实质是计算机将待分类文本根据其特征与数据库中已经分类好的文本特征进行比对，将其映射到与其特征最接近的预定义类目中的过程。专利文本分类作为长文本分类的一种，主要面临三个问题：首先，相比于短文本，长文本拥有更多属于不同类目的核心词，从而更难理解语义信息；其次，专利在各类目中的分布是不均匀的，导致类别不平衡问题；最后，专利文本中存在大量的标点符号和特殊符号，增加了文本的复杂性和分类的难度。本文针对这些问题展开了深入的研究与探讨。首先，通过文献综述和理论分析，对当前专利文本分类方法的研究现状进行了梳理和总结。在此基础上，提出了一种基于特征融合的中文专利文本分类方法。具体来说，通过对各类特征的提取和表示，包括词袋模型、TF-IDF模型和词嵌入模型等，将这些特征融合在一起，充分挖掘文本的信息，提高了分类的准确性和稳定性。同时，针对类别不平衡问题，采用了过采样和欠采样的方法，对数据集进行了处理，使得不同类别的样本分布更加均衡。此外，为了解决文本复杂性和分类难度，还引入了一些文本预处理的技术，包括去除标点符号、分词和词性标注等，使得文本更加清晰和易于理解。为了验证所提出的方法的有效性，本文设计并实施了一系列的实验。通过对比实验结果，我们发现，所提出的基于特征融合的中文专利文本分类方法在准确性和稳定性上均优于传统方法和单一特征方法。同时，在类别不平衡和文本复杂性方面，所提出的方法也取得了显著的改善。这些实验结果充分表明了本文提出的方法的有效性和可行性。总的来说，本文为解决专利文本分类中的关键问题提出了一种全新的思路和方法。通过对不同特征的融合和数据处理等手段，我们取得了令人满意的实验结果。未来，我们将继续深入研究，进一步完善所提出的方法，在更大规模和更为复杂的数据集上进行验证和应用，为专利文本分类领域的研究和实践提供更为有效和可靠的技术支持。同时，我们也将探索更多的文本特征提取方法和分类模型，不断提高分类准确性和稳定性，为专利挖掘和知识产权保护等方面的工作做出更大的贡献。

图 2BERT 模型示意图

Fig.2Schematic Diagram of BERT Model

其中,输入表示首先会在第一个句子的开头加入一个特殊符号 [CLS],作为第

一个“字”,在每个句子的结尾加入一个[SEP]。对每个“字”进行三个向量的嵌入：

Token、Position 和 Segment。其中,Token 为字向量,Position 为位置嵌入,与

Transformer 直接使用三角函数作为位置向量不同的是,BERT 的位置向量是学

习出来的。Segment 的作用是根据该向量的信息让模型分开上下句,第一个句子

中所有“字”的 Segment 均为 0,第二个句子中所有“字”的 Segment 均为 1,以此类

推。同一个句子的 Segment 向量是共享的,以此学习属于不同 Segment 的信息。

将三个向量整合后作为多层 Transformer 编码器的输入,在编码器的内部,向量将

先经过一个多头自注意力机制,然后将自注意残差连接再送入层标准化（ Layer

Normalization）,如公式（1）所示。

Xattention=LayerNorm(X+SelfAttention(Q,K,V))Xattention=Laye

rNorm(X+SelfAttention(Q,K,V))

(1)

其中,@Q,K,VQ,K,V 均为注意力机制中表示文本的矩阵。

其结果经过两层线性映射并用激活函数激活后再进行残差连接与 Layer

Normalization,如公式（2）所示。

Xhidden=LayerNorm(Xattention+Xhidden)Xhidden=LayerNorm(Xattent

ion+Xhidden)

(2)

剩余16页未读，继续阅读

罗伯特之技术屋

粉丝: 4468
资源: 1万+

"特征融合的中文专利文本自动分类研究"

基于多特征融合的中文文本分类研究.docx

一种基于特征扩展的中文短文本分类方法

基于专利多属性融合的技术主题划分方法研究.docx

融合聚类信息的技术主题图可视化方法研究.docx

基于深度学习与统计信息的领域术语抽取方法研究.docx

基于人工特征和机器特征融合的科技文献知识元抽取.docx

融合LSTM与逻辑回归的中文专利关键词抽取.docx

融合GCN远距离约束的非遗戏剧术语抽取模型构建及其应用研究.docx

RLCPAR：一种基于强化学习的中文专利摘要改写模型.docx

融合主题模型与决策树的跨地区专利合作关系发现与推荐——以广东省和武汉市高校专利库为例.docx

最新资源