LSTM与逻辑回归结合的中文专利关键词抽取方法
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
本文主要探讨的是"融合LSTM与逻辑回归的中文专利关键词抽取"这一技术,它针对中文专利文本的特殊性,尤其是长尾和稀疏的词汇分布,提出了一个创新的模型——LongShot-TermMemory and Logistic Regression Based on Word Reorganization (LLWR)。专利关键词在专利检索、分析等领域扮演着核心角色,它们能够反映一项发明的关键特征和主题思想。 LSTM(长短期记忆)神经网络在此被用于捕捉文本中的语义特征,因为中文文本词与词之间的关系复杂,单个词语的关键词抽取可能不完全表达出完整的意义。LSTM通过其记忆单元和门控机制,能够处理序列数据并学习长期依赖性,这对于理解由多个词语组成的复杂专业术语至关重要。 逻辑回归则被用作后处理步骤,将LSTM提取的特征输入到逻辑回归层,进行预测和分类,以确定候选关键词。这一步骤旨在通过模型预测的强度来筛选出最有可能代表专利主题的重要词汇。 文章提到,相较于英文文本,中文专利文本候选关键词的生成更为复杂,因为需要处理词语间的非空格分隔和潜在的多词短语。现有的研究工作中,候选关键词的生成通常依赖于句法规则,如俞琰等人利用专利树结构来确定候选关键词。然而,这些方法可能无法充分捕捉到专业术语的完整语义。 王志宏等人的工作也是在这个领域的一个例子,他们的方法涉及候选关键词的进一步分类或排序,但文章指出,这些方法可能不足以应对由多个词语构成的专业术语。LLWR模型通过词频、逆文档频率、位置和词性等特征提取,以及候选关键词的重组过滤规则,试图解决这个问题,从而提高中文专利关键词抽取的准确性和完整性。 本文的核心贡献在于提出了一种结合LSTM和逻辑回归的关键词抽取模型,针对中文专利文本的特性设计了词语重组策略,以更好地捕捉和识别具有完整语义的专业术语,从而提升专利检索和分析的效率。这一研究为专利领域的关键词抽取任务提供了新的思路和技术手段。
剩余14页未读,继续阅读
- 粉丝: 4343
- 资源: 1万+
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 计算机人脸表情动画技术发展综述
- 关系数据库的关键字搜索技术综述:模型、架构与未来趋势
- 迭代自适应逆滤波在语音情感识别中的应用
- 概念知识树在旅游领域智能分析中的应用
- 构建is-a层次与OWL本体集成:理论与算法
- 基于语义元的相似度计算方法研究:改进与有效性验证
- 网格梯度多密度聚类算法:去噪与高效聚类
- 网格服务工作流动态调度算法PGSWA研究
- 突发事件连锁反应网络模型与应急预警分析
- BA网络上的病毒营销与网站推广仿真研究
- 离散HSMM故障预测模型:有效提升系统状态预测
- 煤矿安全评价:信息融合与可拓理论的应用
- 多维度Petri网工作流模型MD_WFN:统一建模与应用研究
- 面向过程追踪的知识安全描述方法
- 基于收益的软件过程资源调度优化策略
- 多核环境下基于数据流Java的Web服务器优化实现提升性能