简爱英文词频统计python
时间: 2024-04-14 13:25:09 浏览: 200
当你想要对《简爱》这本英文小说进行词频统计时,可以使用Python编程语言来实现。下面是一个简单的示例代码,可以帮助你完成这个任务:
```python
import re
from collections import Counter
def word_frequency(file_path):
# 读取文件内容
with open(file_path, 'r', encoding='utf-8') as file:
text = file.read()
# 去除标点符号和换行符
text = re.sub(r'[^\w\s]', '', text)
text = re.sub(r'\n', ' ', text)
# 将文本转换为小写,并按空格分割成单词列表
words = text.lower().split()
# 统计词频
word_count = Counter(words)
return word_count
# 调用函数进行词频统计
file_path = 'jane_eyre.txt' # 替换为你的文件路径
result = word_frequency(file_path)
# 输出前10个出现频率最高的词汇
for word, count in result.most_common(10):
print(word, count)
```
这段代码首先会读取指定路径下的文件内容,然后使用正则表达式去除标点符号和换行符。接着,将文本转换为小写,并按空格分割成单词列表。最后,使用`Counter`类来统计每个单词出现的次数,并返回一个词频字典。
你可以将代码中的`file_path`替换为你实际的文件路径,然后运行代码即可得到词频统计结果。代码中还包含了输出前10个出现频率最高的词汇的部分,你可以根据需要进行修改。
阅读全文
相关推荐









