从xlsx文件里读取一列评论,通过jieba库分词,一个字的不要,统计结果,按从大到小输出
时间: 2024-05-10 12:21:19 浏览: 53
以下是一个Python代码示例,实现了从xlsx文件中读取一列评论,使用jieba库进行分词,并统计分词结果,最终按照词频从大到小进行输出。
```python
import jieba
import openpyxl
from collections import Counter
# 打开xlsx文件
wb = openpyxl.load_workbook('comments.xlsx')
ws = wb.active
# 读取评论列,并进行分词
comments = []
for cell in ws['A']:
if isinstance(cell.value, str):
seg_list = jieba.cut(cell.value)
for seg in seg_list:
if len(seg) > 1:
comments.append(seg)
# 统计分词结果,按照词频从大到小排序
counter = Counter(comments)
result = counter.most_common()
# 输出结果
for word, freq in result:
print(f'{word}: {freq}')
```
在上述代码中,首先使用openpyxl库打开xlsx文件,并读取评论列。然后使用jieba库对每个评论进行分词,并将分词结果添加到comments列表中。接着使用collections库中的Counter类对comments列表进行统计,得到每个词出现的频率,最终使用most_common()方法按照词频从大到小排序。最后,使用for循环输出结果。
阅读全文