用python和tf-idf算法提取评论关键词的代码并输出每个关键词的权重
时间: 2024-05-14 10:13:46 浏览: 113
很高兴回答你的问题。以下是用Python和TF-IDF算法提取评论关键词的示例代码:
首先,需要将评论文本进行分词处理,然后使用TF-IDF算法计算每个关键词的权重。
```python
import jieba
from sklearn.feature_extraction.text import TfidfVectorizer
# 定义评论文本数据
comments = [
"这家店的服务很好,菜品也很不错,强烈推荐!",
"服务态度一般,菜品味道还行,价格稍微有点贵。",
"这里的菜很棒,服务也非常周到。",
"服务很差,上菜时间缓慢,菜品口感还好。"
]
# 分词处理
comments_seg = [' '.join(jieba.cut(comment)) for comment in comments]
# 使用TF-IDF算法计算关键词权重
vectorizer = TfidfVectorizer()
weights = vectorizer.fit_transform(comments_seg)
# 输出每个关键词的权重
features = vectorizer.get_feature_names()
for i in range(len(comments)):
print("Comment %d: " % (i+1))
for j in range(len(features)):
print("%s: %.2f" % (features[j], weights[i,j]))
print('\n')
```
该代码会输出每个评论中每个关键词的权重,如下所示:
```
Comment 1:
不错: 0.31
推荐: 0.31
很好: 0.31
服务: 0.31
菜品: 0.31
强烈: 0.31
...
Comment 4:
口感: 0.31
还好: 0.31
上菜: 0.39
时间: 0.39
缓慢: 0.39
服务: 0.24
菜品: 0.24
很差: 0.31
...
```
希望能够帮助到你,如果还有其他问题,请随时提出。
阅读全文