、实现对英文文本文件hamlet.txt的读取; 2、实现对英文文本文件的单词抽取; 3、实现对英文文本文件中出现频次最高的前5个单词的抽取,并降序输出;
时间: 2024-03-05 14:52:30 浏览: 115
好的,我会尽力回答你的问题。以下是对你的问题的回答:
1. 实现对英文文本文件hamlet.txt的读取
要读取文件可以使用Python内置的open函数。以下是一个读取文件的示例代码:
```
with open('hamlet.txt', 'r') as f:
text = f.read()
```
这将打开名为“hamlet.txt”的文件并将其读入名为“text”的变量中。请确保在运行代码之前将文件放在正确的位置。
2. 实现对英文文本文件的单词抽取
要从文本中提取单词,最简单的方法是将文本拆分为单词列表。以下是一个示例代码:
```
import re
# 将文本转换为小写,并删除标点符号和数字
text = re.sub(r'[^\w\s]', '', text.lower())
text = re.sub(r'\d+', '', text)
# 将文本拆分为单词列表
words = text.split()
```
此代码将文本转换为小写,并删除所有标点符号和数字。然后,它将文本拆分为单词列表。
3. 实现对英文文本文件中出现频次最高的前5个单词的抽取,并降序输出
要找到出现频次最高的单词,可以使用Python的collections模块中的Counter类。以下是一个示例代码:
```
from collections import Counter
# 计算单词频次
word_count = Counter(words)
# 提取前5个最常见的单词
top_words = word_count.most_common(5)
# 输出结果
for word, count in top_words:
print(word, count)
```
此代码将使用Counter类计算单词频次,并使用most_common方法提取前5个最常见的单词。然后,它会将结果按降序输出。
阅读全文