《红色中华》新闻关键词提取：Python改进算法的高效实践

126 浏览量更新于2024-08-30 2 收藏 1.61MB PDF 举报

"本文主要介绍了基于Python的一种改进的关键词提取算法的实现，该算法应用于8045篇《红色中华》新闻数据集，通过数据清理、结构解析，并结合TFIDF、词位置、词性、词长和词跨度等多个因素计算词语的综合权重，选取最高权重的8个词语作为关键词。实验结果显示，改进算法在准确度、召回率和F1值上优于传统的TFIDF算法，且接近于专家标注的结果，具有较高的应用价值。" 在自然语言处理领域，关键词提取是一项至关重要的任务，它广泛应用于信息检索、文本分类、文本聚类、信息匹配、话题跟踪、自动摘要、人机对话和字符串相似性衡量等多个方面。随着大数据时代的到来，数据量急剧增长，人工标注关键词的方式已无法满足需求，因此，开发有效的自动化关键词提取算法显得尤为重要。关键词提取主要分为监督学习和非监督学习两类。监督学习方法需要大量标注数据，虽然效果较好，但预处理成本高。而非监督学习则无需训练数据，如基于TFIDF统计特征、主题模型和词图模型的关键词抽取，其特点是实现快速，仅利用文本自身信息即可进行，被广泛应用。本文关注的是非监督学习中的关键词提取，特别是基于Python的改进算法。该算法首先对原始数据进行清洗，去除噪声，然后解析每篇新闻的数据结构。在此基础上，算法考虑了多种权重因素：TF-IDF（词频-逆文档频率）衡量一个词在整个文集中的重要性；词位置权重反映词语在文本中的位置信息；词性权重依据词性的语义角色；词长权重假设较短的词汇更可能是关键词；词跨度权重则考虑词语连续出现的范围。通过综合这些权重，算法计算每个词语的综合得分，选取得分最高的8个词作为新闻的关键词。实验结果表明，这种改进的算法在准确性、召回率和F1值三个关键评价指标上都优于传统的TF-IDF算法，与专家手动标注的结果相当接近，这证明了该算法的有效性和实用性，为未来在类似任务中的应用提供了强有力的支持。因此，这一改进的关键词提取算法值得在实际场景中推广使用，以提高文本处理的效率和质量。

电子设计工程

Electronic Design Engineering

第 27卷

Vol.27

第 13期

No.13

2019年 7月

Jul. 2019

收稿日期：2018-10-09 稿件编号：201810018

基金项目：国家社会科学基金项目（18BTQ042）；延安大学继续教育教学改革研究专项（YDJY2016-11）

作者简介：牛永洁（1977—），男，河南许昌人，硕士，副教授。研究方向：数据挖掘、大数据。

关键词的提取是自然语言处理中的基础与核心

技术，在信息检索、文本分类、文本聚类、信息匹配、

话题跟踪、自动摘要、人机对话、字符串相似性衡量

等领域有广泛的应用

[1-5]

。但是针对不同的领域，关

键词的提取要求千差万别，目前在不同的领域大多

依赖人工标注的方法进行，随着数据量的日益激增，

人工标注的方法已经不能胜任，所以依靠计算机自

动提取关键词显得十分重要。

关键词自动提取按照是否进行监督学习分为监

督性和非监督性两大类。通过训练数据构建学习模

型，判断词语是否归属于关键词类别，属于典型的有

指导学习方法。有指导学习需要事先标注高质量的

训练数据，人工预处理的代价较高，但是效果比较

好

[6]

。非监督学习因为无需对数据进行训练，实现快

捷，仅需要文本自身的信息就能进行等优点被广泛

采用，非监督关键词抽取方法可归纳为 3 种: 基于

TFIDF 统计特征的关键词抽取、基于主题模型的关

键词抽取和基于词图模型的关键词抽取方法。这些

方法都有自己的优缺点

[7-8]

。

基于 Python 的改进关键词提取算法的实现

牛永洁

（延安大学数学与计算机学院，陕西延安 716000）

摘要：关键词提取是自然语言研究领域的基础和关键点，在很多领域都有广泛的应用。以本校图

书馆提供的 8045 篇《红色中华》新闻为源数据，首先对数据进行数据清理，去除其中的噪声数据，然

后对每篇新闻进行数据结构解析，在解析的基础上计算了词语的 TFIDF 权重、词位置权重、词性权

重、词长权重和词跨度权重，综合考虑这些权重计算出词语的综合权重，以综合权重最大的前 8 个

词语作为新闻的关键词。从准确度、召回率及 F1 值 3 个指标对改进算法、经典的 TFIDF 算法和专

家标注进行对比，发现改进算法在 3 个指标上均优于经典的 TFIDF 算法，与专家标注比较接近，值

得推广应用。

关键词：TFIDF；词性；词跨度；词长；词位置

中图分类号：TP311.1 文献标识码：A 文章编号：1674-6236（2019）13-0011-05

Implementation of improved keyword extraction algorithm based on Python

NIU Yong⁃jie

（College of Mathematics & Computer Science，Yan’an University，Yan’an 716000，China）

Abstract: Keyword extraction is the foundation and key point in the field of natural language research

and has been widely used in many fields. Based on the data of 8045 pieces of "Red China" news provided

by our university library，this paper firstly cleans up the data，removes the noise data，and then analyzes

the data structure of each news. On the basis of the analysis，it calculates the TFIDF weight of words，the

weight of word position，the weight of part of speech，the weight of word length and the span of words.

Weight，these weights are considered to calculate the comprehensive weight of words，and the first eight

words with the largest comprehensive weight are used as the keywords of news. Comparing the improved

algorithm，the classical TFIDF algorithm and the expert annotation from the three indexes of accuracy，recall

rate and F1 value，it is found that the improved algorithm is superior to the classical TFIDF algorithm in

the three indexes，and is close to the expert annotation，so it is worth popularizing and applying.

Key words: TFIDF；part of speech；word span；word length；word position

-- 11

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38617604

粉丝: 4
资源: 895

《红色中华》新闻关键词提取：Python改进算法的高效实践

基于Python实现中文文本关键词抽取的三种方法.zip

基于python与内容实现推荐算法

nltk关键词提取算法

python 淘宝评论关键词提取 自然语言算法

基于python的点云边缘提取算法

PythonLDA关键词提取

Python 文档关键词提取

关键词提取，python代码，TextRank算法

不导入模块，自己编写TF-IDF算法实现python中文关键词提取代码

jieba高级功能关键词提取怎么实现

最新资源

python 淘宝评论关键词提取自然语言算法