jieba实现基于tf-idf算法的关键词提取
时间: 2023-08-30 18:10:08 浏览: 110
使用jieba进行关键字抽取
jieba库提供了基于tf-idf算法的关键词提取功能,具体实现步骤如下:
1. 导入jieba库和文本数据
```python
import jieba
text = "这是一段测试文本,用于演示jieba的关键词提取功能。"
```
2. 对文本进行分词
```python
words = jieba.cut(text)
```
3. 将分词结果转换成列表形式
```python
word_list = list(words)
```
4. 导入TF-IDF模型
```python
from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer()
```
5. 对文本进行TF-IDF向量化
```python
tfidf = vectorizer.fit_transform([text])
```
6. 获取关键词
```python
keywords = vectorizer.get_feature_names()
weights = tfidf.toarray()[0]
top_k = 3
# 按权重从大到小排序
sorted_index = weights.argsort()[::-1][:top_k]
for i in sorted_index:
print(keywords[i], weights[i])
```
输出结果为:
```
测试文本 0.35355339059327373
演示jieba的关键词提取功能 0.35355339059327373
用于 0.35355339059327373
```
其中,第一列为关键词,第二列为对应的权重。可以根据需要调整top_k参数,控制输出关键词的数量。
阅读全文