打开一个内容为一篇英文文章的文本文件,假设文章中的标点只有句号、逗号、叹号 和问号,统计其中单词的出现频率,忽略大小写。输出文章中出现频率最高的5个单词及 出现次数。
时间: 2024-02-09 10:13:02 浏览: 80
福建省高考语文一轮复习10《标点符号用法及常见差错辨析》精品教案.doc
好的,这个问题可以通过编写一个简单的 Python 脚本来解决。以下是示例代码:
```python
import re
# 打开文本文件,读取内容
with open('article.txt', 'r') as file:
text = file.read()
# 将文本中所有非字母字符替换为空格,并将文本转换为小写
text = re.sub(r'[^a-zA-Z\s]', ' ', text)
text = text.lower()
# 将文本分割为单词列表
words = text.split()
# 计算每个单词出现的次数
word_counts = {}
for word in words:
if word in word_counts:
word_counts[word] += 1
else:
word_counts[word] = 1
# 输出出现频率最高的5个单词及出现次数
top_words = sorted(word_counts, key=word_counts.get, reverse=True)[:5]
for word in top_words:
print(word, word_counts[word])
```
这个脚本的思路是首先读取文本文件中的内容,然后将所有非字母字符替换为空格,并将文本转换为小写。接着将文本分割为单词列表,遍历列表并统计每个单词出现的次数。最后,输出出现频率最高的5个单词及它们的出现次数。
注意,这个脚本只考虑了文章中的英文单词,如果需要处理其他语言或标点符号,需要修改正则表达式的模式。
阅读全文