用TF-IDF算法完成关键词提取
时间: 2023-12-19 17:51:14 浏览: 89
python TF-IDF算法实现文本关键词提取
TF-IDF算法是一种常用的关键词提取算法,它可以通过统计文本中每个词的出现频率以及在整个文本集合中的重要程度来计算每个词的TF-IDF值,来衡量每个词在文本中的重要性。下面是用Python实现基于TF-IDF算法的关键词提取的示例代码:
```python
import jieba
import jieba.analyse
# 读取文本文件
with open('text.txt', 'r', encoding='utf-8') as f:
text = f.read()
# 使用jieba分词,获取关键词
keywords = jieba.analyse.extract_tags(text, topK=10, withWeight=True)
# 输出关键词及其TF-IDF值
for keyword, weight in keywords:
print(keyword + ":" + str(weight))
```
在上述代码中,我们首先使用jieba库进行中文分词,然后使用jieba.analyse.extract_tags()函数获取文本的关键词,其中topK参数表示需要提取的关键词数量,withWeight参数表示是否返回关键词的TF-IDF值。最后,我们将提取到的关键词和对应的TF-IDF值输出到控制台。
阅读全文