python读取文本doc统计词频
时间: 2023-10-13 21:20:21 浏览: 173
可以使用Python中的Counter模块来统计文本中单词出现的次数。具体步骤如下:
1. 打开doc文件
2. 读取文件内容并保存为一个字符串
3. 对字符串进行预处理,去除标点符号、数字、空格等无用字符,并将所有字母转为小写
4. 将预处理后的字符串转为列表,以便于统计
5. 使用Counter模块进行单词计数
下面是一个示例代码:
```
from collections import Counter
import string
# 打开doc文件
with open('example.doc', 'r') as f:
content = f.read()
# 预处理字符串
content = content.lower() # 将所有字符转为小写
content = content.translate(str.maketrans('', '', string.punctuation)) # 去除标点符号
content = content.translate(str.maketrans('', '', string.digits)) # 去除数字
content = content.replace('\n', ' ') # 替换换行符为空格
content = content.replace('\t', ' ') # 替换制表符为空格
words = content.split(' ') # 将字符串转为列表
# 统计单词出现的次数
word_count = Counter(words)
# 输出结果
for word, count in word_count.items():
print(word, count)
```
注意:以上代码仅供参考,具体实现方式可以根据实际需要进行调整。
阅读全文