首页python读取文本doc统计词频

python读取文本doc统计词频

时间: 2023-10-13 10:20:21 浏览: 176

可以使用Python中的Counter模块来统计文本中单词出现的次数。具体步骤如下： 1. 打开doc文件 2. 读取文件内容并保存为一个字符串 3. 对字符串进行预处理，去除标点符号、数字、空格等无用字符，并将所有字母转为小写 4. 将预处理后的字符串转为列表，以便于统计 5. 使用Counter模块进行单词计数下面是一个示例代码： ``` from collections import Counter import string # 打开doc文件 with open('example.doc', 'r') as f: content = f.read() # 预处理字符串 content = content.lower() # 将所有字符转为小写 content = content.translate(str.maketrans('', '', string.punctuation)) # 去除标点符号 content = content.translate(str.maketrans('', '', string.digits)) # 去除数字 content = content.replace('\n', ' ') # 替换换行符为空格 content = content.replace('\t', ' ') # 替换制表符为空格 words = content.split(' ') # 将字符串转为列表 # 统计单词出现的次数 word_count = Counter(words) # 输出结果 for word, count in word_count.items(): print(word, count) ``` 注意：以上代码仅供参考，具体实现方式可以根据实际需要进行调整。

阅读全文