竞争学习网络提升中文关键字提取精度

需积分: 15 112 浏览量更新于2024-08-11 1 收藏 500KB PDF 举报

本文主要探讨了"基于竞争学习网络的中文关键字提取算法"，发表于2013年，由沈学利教授和程宇伟硕士研究生共同完成。他们针对中文关键字提取的准确性问题，提出了一种创新的方法，旨在提升这一任务的性能。首先，论文的背景是由于传统关键字提取算法，如词频-逆文档频率（TF-IDF）和词频算法，可能存在不足，特别是在处理大规模中文文本时，可能会出现关键词识别不准确或鲁棒性较差的问题。为此，作者引入了竞争学习网络这一人工智能领域的技术。在该算法中，作者将中文文章的分词结果视为单个神经元，每个词组或短语作为一个独立的输入单元，输入到竞争学习网络的输入层。输入层的神经元之间通过竞争机制进行交互，即在竞争层上，每个神经元会与其他神经元进行竞争，只有那些与文章内容最相关的词组能获得更高的激活度。这个过程模拟了人类认知中的注意力机制，使得关键信息更容易脱颖而出。一旦获得了活跃的神经元，研究者们采用合并权值和聚类分析方法来进一步确定这些词组是否构成文章的关键字。合并权值可以衡量词组的重要性，而聚类分析则有助于组织相似的词组，形成一组代表性的关键字。通过实验验证，该算法在提高关键字提取的平均命中率方面表现出显著优势，相较于传统方法，能够更准确地识别出文章的核心内容。这表明，竞争学习网络的应用为中文关键字提取提供了一种有效且具有竞争力的解决方案。论文的研究成果对于自然语言处理和信息检索等领域具有实际价值，特别是在处理大规模、非结构化的中文文本时，可以显著提升关键字抽取的效率和精度。此外，该研究也为后续的文本挖掘和搜索引擎优化提供了新的思路和技术支持。 "基于竞争学习网络的中文关键字提取算法"是一篇在工程技术领域的重要论文，通过创新的方法论和实证研究，展示了如何利用竞争学习网络优化中文文本的关键字提取过程，提高了研究领域的技术水平。

————————————

作者简介

作者简介作者简介

作者简介：

：：

：沈学利(1969－)，男，教授，主研方向：人工神经网络，信息检索；程宇伟，硕士研究生

收稿日期

收稿日期收稿日期

收稿日期：

：：

：2012-03-27 修回日期

修回日期修回日期

修回日期：

：：

：2012-05-17 E-mail：

：：

：chengchuang111@126.com

基于竞争学习网络的中文关键字

基于竞争学习网络的中文关键字基于竞争学习网络的中文关键字

基于竞争学习网络的中文关键字提取

提取提取

提取算法

算法算法

算法

沈学利

沈学利沈学利

沈学利，

，，

，程宇伟

程宇伟程宇伟

程宇伟

(辽宁工程技术大学电子与信息工程学院，辽宁葫芦岛 125105)

摘

摘摘

摘要

要要

要：

：：

：为提高中文关键字的提取准确率，提出一种基于竞争学习网络的中文关键字提取算法。对文章进行分词，得到单

个词组或短语，视其为单个神经元，将神经元输入竞争学习网络的输入层，通过竞争层上神经元的相互竞争，获得一个或

几个活跃的神经元，使用合并权值及聚类分析方法得到文章的关键字。实验结果表明，该算法提取关键字的平均命中率高

于词频-逆文档频率算法和传统的词频算法，鲁棒性较好。

关键词

关键词关键词

关键词：

：：

：关键字提取；平均命中率；竞争学习网络；神经元；输入层；竞争层

Chinese Keyword Extraction Algorithm

Based on Competitive Learning Network

SHEN Xue-li, CHENG Yu-wei

(School of Electronics and Information Engineering, Liaoning Technical University, Huludao 125105, China)

【

【【

【Abstract】

】】

】To solve this problem about the accuracy of the present Chinese keyword extraction algorithm, this paper presents a

new keyword extraction algorithm based on competitive learning network. The algorithm adopts the method that it takes the divided

word which comes from the Chinese article as the single neuron. And it can get one or more active neurons after these neurons are

input the input layer and compete with each other on the competition layer. The keywords of the Chinese article are obtained

through merging the weights and clustering analysis. Experimental results show that the hit rate of extracting keywords with this

algorithm is higher than the algorithm of Term Frequency-inverse Document Frequency(TF-IDE) and the traditional algorithm

named Term Frequency(TF), and has a good robustness.

【

【【

【Key words】

】】

】keyword extraction; average hit rate; competitive learning network; neuron; input layer; competitive layer

DOI: 10.3969/j.issn.1000-3428.2013.02.042

计算机工程

Computer Engineering

第 39 卷第 2 期

Vol.39 No.2

2013 年 2 月

February 2013

··

·人工智能及识别技术

人工智能及识别技术人工智能及识别技术

人工智能及识别技术·

··

文章编号

文章编号文章编号

文章编号：

：：

：1000—

——

—3428(2013)02—

——

—0207—

——

—04

文献标识码

文献标识码文献标识码

文献标识码：

：：

：A

中图分类号

中图分类号中图分类号

中图分类号：

：：

：TP391

概述

概述概述

概述

随着信息时代的到来，越来越多的信息使人应接不

暇。在人们想要查找需要的信息时，却发现无从下手，

关键字的出现，减少了没意义的劳动。可想而知，仅输

入几个关键字，就可以搜索到所需要的信息，工作效率

也会得到有效的提高。在当今的信息社会，关键字在

Web

服务、信息检索等领域得到了广泛的应用。现在，人们

查询信息时大多使用搜索引擎，仅输入自己需要信息的

关键字，就可以方便地查询出来，再通过筛选，便得到

自己想要的信息。由此可见，关键字的提取对于信息社

会的发展有着重大而深远的意义。

现在在搜索引擎上使用的模型

Lucene

的评分机制

也是基于词频，而且与其可以整合的

BM25

算法也是基

于词频的，这种评分机制在目前搜索引擎上起着重要的

作用，这是因为大多数的关键字是可以从高频词中找到

的，但是当文章中的每个词语出现的频率都不高时，这

些算法的处理结果不尽人意。为此，本文以竞争学习网

络

[1]

为理论基础，对其加以拓展延伸，提出一种中文关

键字提取算法。将文章进行分词后，通过分析文章词语

的词性，并将其转换为对应的联接权值，兼顾词频和位

置因素的影响，使竞争层的神经元进行一系列竞争，从

而得到一个或者几个活跃的神经元，再经过分析处理得

到较为精确的文章关键字。

算法的实现

算法的实现算法的实现

算法的实现

由于算法的实现依赖于设计的特有词库，为了能够

使算法拥有快速的查询词库，因此在设计词库时采用树

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38576045

粉丝: 6
资源: 881

竞争学习网络提升中文关键字提取精度

关键字提取算法.doc

基于python 编写的 基于tfidf的关键字提取算法。

python关键字提取算法

论文研究-一种基于TextRank的单文本关键字提取算法.pdf

基于Java语言的DFA关键字过滤算法设计源码

基于节点删除指标的关键字提取策略 (2008年)

rake-nltk：使用NLTK的快速自动关键字提取算法的Python实现

keyword-extraction-datasets:用于开发和测试关键字提取算法的不同数据集

rake-php-plus:快速自动关键字提取算法（RAKE）的另一个PHP实现

rakun:通过Metavertex聚合的基于等级的无监督关键字提取

最新资源

基于python 编写的基于tfidf的关键字提取算法。