英文文本词频统计模块设计;(自己下载一个英文文档,完成排名前十的单词词频统计)
时间: 2024-01-20 09:03:49 浏览: 108
好的,以下是 Python 英文文本词频统计的示例代码:
```python
import re
# 读取文本文件
with open('english_text.txt', 'r') as f:
text = f.read()
# 去除标点符号和空格
text = re.sub('[^\w\s]', '', text)
text = re.sub('\s+', ' ', text)
# 将文本按照空格分割成单词
words = text.split(' ')
# 统计单词出现的次数
word_count = {}
for word in words:
if word not in word_count:
word_count[word] = 1
else:
word_count[word] += 1
# 按照词频从高到低排序
sorted_word_count = sorted(word_count.items(), key=lambda x: x[1], reverse=True)
# 输出前10个出现频率最高的单词
for i in range(10):
print(sorted_word_count[i])
```
这段代码会读取名为 `english_text.txt` 的英文文本文件,并对其中的单词进行词频统计。最后会输出出现频率最高的前10个单词及其出现次数。你可以根据实际情况修改文件名、输出数量等参数。
需要注意的是,英文文本的词频统计需要考虑英语的语法和词汇特点,例如要注意处理复数、时态、动词变形等情况。同时,还需要考虑英文的停用词(如 a, an, the 等),这些词在文本中频繁出现但对文本的意义贡献较小,可以通过过滤或者剔除来提高词频统计的准确性。
阅读全文