用pycharm编写一个程序实现如下功能:读入一个文本文件,统计在该文本文件中每个英文单词出现的频率,并输出单词频率最 高的 100 个单词。其中,单词的定义是连续的若干个小写英文字母。
时间: 2023-06-01 21:06:30 浏览: 112
统计指定的文本文件(英文)中,每个单词的出现频率,输出按字典序排列的单词频度表。
好的,我明白了。以下是实现该功能的 Python 代码:
```python
import re
from collections import Counter
# 打开文本文件并读取
with open('text_file.txt', 'r') as f:
text = f.read()
# 使用正则表达式匹配连续的小写英文字母
words = re.findall(r'\b[a-z]+\b', text.lower())
# 统计单词出现的频率
word_counts = Counter(words)
# 打印出现频率最高的 100 个单词
for word, count in word_counts.most_common(100):
print(word, count)
```
其中,`text_file.txt` 是要统计的文本文件名。该程序使用正则表达式匹配单词,忽略大小写,并使用 `collections` 模块的 `Counter` 类来统计单词出现的频率。最后打印出现频率最高的 100 个单词及其出现次数。
阅读全文