从csv文件里读取一列评论,通过jieba库分词,一个字的不要,统计结果
时间: 2024-05-09 22:19:20 浏览: 227
以下是Python代码实现:
```python
import jieba
import csv
# 读取评论列
comments = []
with open('comments.csv', 'r') as file:
reader = csv.reader(file)
for row in reader:
comments.append(row[0])
# 分词并统计
words_count = {}
for comment in comments:
words = jieba.cut(comment)
for word in words:
if len(word) > 1:
if word in words_count:
words_count[word] += 1
else:
words_count[word] = 1
# 打印统计结果
for word, count in words_count.items():
print(word, count)
```
其中,`comments.csv`是包含评论列的CSV文件。我们使用`csv`库读取CSV文件,将评论列存储在`comments`列表中。接着,我们使用`jieba`库对每个评论进行分词,并统计每个词出现的次数。最后,我们打印出每个词及其出现次数。
需要注意的是,我们在统计词频时将长度为1的词过滤掉了。这是因为单个字很可能不具有实际意义,而且会干扰我们的统计结果。
阅读全文