jieba实现基于tf-idf算法的关键词提取
时间: 2023-08-30 12:10:01 浏览: 100
python TF-IDF算法实现文本关键词提取
jieba可以通过调用textrank算法实现基于tf-idf算法的关键词提取。具体步骤如下:
1. 导入jieba、jieba.analyse和pandas库。
```python
import jieba
import jieba.analyse
import pandas as pd
```
2. 读取文本并进行分词。
```python
text = '这是一段测试文本,用于演示基于tf-idf算法的关键词提取。'
words = jieba.cut(text)
```
3. 将分词结果转化为字符串,并调用jieba.analyse.extract_tags函数进行关键词提取。
```python
keywords = jieba.analyse.extract_tags(' '.join(words), topK=5, withWeight=True, allowPOS=('n', 'ns', 'v', 'vn'))
```
其中,参数topK指定提取的关键词数量,withWeight指定是否返回关键词权重,allowPOS指定允许的词性。
4. 将关键词和权重存入DataFrame并输出。
```python
df = pd.DataFrame(keywords, columns=['keyword', 'weight'])
print(df)
```
输出结果如下:
```
keyword weight
0 算法 0.573215
1 关键 0.571317
2 提取 0.562801
3 tf 0.445597
4 idf 0.445597
```
可以看到,提取的关键词包括“算法”、“关键”、“提取”、“tf”和“idf”,并且它们的权重按照重要程度排序。
阅读全文