打开一个内容为一篇英文文章的文本文件,假设文章中的标点只有句号、逗号、叹号 和问号,统计其中单词的出现频率,忽略大小写。输出文章中出现频率最高的5个单词及 出现次数。
时间: 2024-02-06 16:09:34 浏览: 106
统计指定的文本文件(英文)中,每个单词的出现频率,输出按字典序排列的单词频度表。
好的,这个任务可以用Python来实现。下面是代码:
```python
import re
from collections import Counter
# 读取文件内容
with open('article.txt', 'r') as f:
text = f.read()
# 将文本转换为小写,并去除标点符号
text = re.sub(r'[^\w\s]', '', text.lower())
# 统计单词出现次数
words = text.split()
word_counts = Counter(words)
# 输出出现频率最高的5个单词及出现次数
top_words = word_counts.most_common(5)
for word, count in top_words:
print(f'{word}: {count}')
```
这段代码首先读取了一个名为`article.txt`的文本文件,然后将其转换为小写,并使用正则表达式去除了标点符号。接着,使用Python内置的`Counter`类对单词出现次数进行了统计,最后输出了出现频率最高的5个单词及其出现次数。
阅读全文