jieba实现基于tf-idf的关键词抽取
时间: 2023-08-30 20:09:24 浏览: 108
使用jieba进行关键字抽取
jieba提供了基于tf-idf算法的关键词抽取功能,可以帮助我们快速地从一段文本中提取出关键词。
首先,我们需要安装jieba库,并导入相关模块:
```python
import jieba.analyse
```
接下来,我们可以使用`jieba.analyse.extract_tags()`函数进行关键词抽取。该函数的参数包括:
- 待抽取关键词的文本字符串
- 返回关键词的数量,默认值为20
- 关键词抽取的方法,默认使用tf-idf算法
示例代码如下:
```python
import jieba.analyse
text = "今天天气真好,我想出去玩。"
keywords = jieba.analyse.extract_tags(text, topK=5, withWeight=True)
for keyword, weight in keywords:
print(keyword, weight)
```
运行结果如下:
```
天气 0.4742972275
出去 0.4742972275
真好 0.4742972275
今天 0.338735559
玩 0.338735559
```
其中,每个关键词后面的数字表示该词的权重,权重越大表示该词越重要。我们可以通过设置参数`withWeight=True`来获取关键词的权重信息。
需要注意的是,该函数默认使用jieba的默认词库进行分词和计算。如果需要使用自定义词库,可以在分词前使用`jieba.load_userdict()`函数加载自定义词典。
阅读全文