如何统计一段英文文本中每个单词的出现次数?
时间: 2024-12-02 20:18:17 浏览: 31
Python读取英文文件并记录每个单词出现次数后降序输出示例
5星 · 资源好评率100%
统计英文文本中每个单词的出现次数通常涉及以下几个步骤:
1. **预处理**:将文本转换为小写并移除标点符号和其他非字母字符,以统一处理并避免计数时的混淆。
2. **分割**:使用split()函数将文本分割成单词列表。
3. **创建字典**:遍历单词列表,对于每个单词,如果它已经在字典中,则增加其值(出现次数),否则添加新键并将值设为1。
4. **计数**:更新字典,存储每个单词及其对应的出现次数。
5. **排序**:最后按照单词出现次数对字典进行排序,以便于查看频率最高的单词。
下面是一个简单的Python代码示例:
```python
import re
from collections import Counter
def count_words(text):
# 预处理文本
text = re.sub(r'[^\w\s]', '', text.lower())
words = text.split()
# 使用Counter计算词频
word_counts = Counter(words)
# 按照频率降序排序
sorted_word_counts = sorted(word_counts.items(), key=lambda x: x[1], reverse=True)
return sorted_word_counts
# 示例
text = "To be, or not to be that is the question."
word_counts = count_words(text)
for word, count in word_counts:
print(f"{word} {count}")
```
阅读全文