如何写一个程序可以统计给定英文文本中的词频
时间: 2023-09-07 08:11:24 浏览: 95
您可以按照以下步骤编写一个程序来统计给定英文文本中的词频:
1. 读取文本文件并将其存储在一个字符串变量中。
2. 将字符串变量转换为小写(或大写),以便不区分大小写。
3. 使用正则表达式或其他方法删除所有标点符号和特殊字符,只保留空格和字母。
4. 将字符串分割成单词列表。
5. 创建一个空字典来存储每个单词的出现次数。
6. 循环遍历单词列表,如果单词存在于字典中,则将其对应的值加1,否则将其添加到字典中,并将其初始值设置为1。
7. 输出字典中每个单词及其出现次数。
以下是一个Python代码示例:
```python
import re
from collections import defaultdict
# 读取文本文件并将其存储在一个字符串变量中
with open('textfile.txt', 'r') as f:
text = f.read()
# 将字符串变量转换为小写,以便不区分大小写
text = text.lower()
# 删除所有标点符号和特殊字符,只保留空格和字母
text = re.sub(r'[^\w\s]', '', text)
# 将字符串分割成单词列表
words = text.split()
# 创建一个空字典来存储每个单词的出现次数
word_freq = defaultdict(int)
# 循环遍历单词列表,统计每个单词的出现次数
for word in words:
word_freq[word] += 1
# 输出字典中每个单词及其出现次数
for word, freq in word_freq.items():
print(word, freq)
```
阅读全文