python评论词频统计
时间: 2023-06-28 10:05:29 浏览: 85
Python之词频统计
以下是Python代码实现评论词频统计的过程:
```python
import re
from collections import Counter
# 读取评论文件
with open('comments.txt', 'r', encoding='utf-8') as f:
comments = f.read()
# 将评论中的标点符号和特殊字符去除
comments = re.sub(r'[^\w\s]','',comments)
# 将评论转换为小写字母
comments = comments.lower()
# 将评论拆分为单词列表
words = comments.split()
# 统计每个单词出现的次数
word_counts = Counter(words)
# 输出前10个最常见的单词及它们的出现次数
for word, count in word_counts.most_common(10):
print(word, count)
```
其中,`comments.txt` 是包含评论内容的文本文件。首先读取评论文件,然后使用正则表达式去除标点符号和特殊字符,再将评论转换为小写字母。接着,将评论拆分为单词列表,并使用 `Counter` 对每个单词进行计数。最后,输出前 10 个最常见的单词及它们的出现次数。
阅读全文