Harry Potter 英文词频统计python代码
时间: 2023-10-25 21:36:10 浏览: 386
以下是一个简单的 Python 代码,用于统计《哈利波特》(Harry Potter)第一部小说中单词的出现频率。需要注意的是,这个代码只是一个基础的示例,可能需要根据具体情况进行修改和优化。
```python
# 导入所需的库
import string
# 打开文件并读取文本
with open('harry_potter.txt', 'r') as f:
text = f.read()
# 去除标点符号并转化成小写
text = text.translate(str.maketrans('', '', string.punctuation)).lower()
# 将文本拆分为单词
words = text.split()
# 创建一个字典来存储单词频率
word_freq = {}
# 统计单词频率
for word in words:
if word not in word_freq:
word_freq[word] = 1
else:
word_freq[word] += 1
# 打印最常见的单词
for word, freq in sorted(word_freq.items(), key=lambda x: x[1], reverse=True):
print(f'{word}: {freq}')
```
这个代码使用了 Python 的内置函数和库,包括:
- `open` 函数用于打开文件;
- `string` 模块中的 `punctuation` 常量用于获取标点符号;
- `translate` 方法用于去除文本中的标点符号;
- `lower` 方法用于将文本转化为小写;
- `split` 方法用于将文本拆分为单词;
- 字典用于存储每个单词出现的次数;
- `sorted` 函数用于按照单词频率排序并打印结果。
阅读全文