python全部英文词频统计
时间: 2023-05-21 18:03:57 浏览: 177
可以使用Python内置的collections模块中的Counter类来实现英文词频统计。以下是示例代码:
```python
import collections
with open('input.txt', 'r') as f:
words = f.read().split()
word_counts = collections.Counter(words)
for word, count in word_counts.most_common():
print(word, count)
```
其中,'input.txt'是包含英文文本的文件名,可以根据实际情况修改。运行代码后,会输出每个单词及其出现次数,按照出现次数从高到低排序。
相关问题
python哈姆雷特英文词频统计
以下是使用Python进行哈姆雷特英文词频统计的示例代码:
```python
# 读取文件
with open('hamlet.txt', 'r') as f:
text = f.read()
# 将文本中的标点符号和换行符替换为空格
text = text.replace('\n', ' ')
text = text.translate(str.maketrans('', '', '!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'))
# 将文本转换为小写
text = text.lower()
# 将文本分割为单词
words = text.split()
# 统计每个单词的出现次数
word_counts = {}
for word in words:
if word in word_counts:
word_counts[word] += 1
else:
word_counts[word] = 1
# 按照出现次数从大到小排序
sorted_word_counts = sorted(word_counts.items(), key=lambda x: x[1], reverse=True)
# 输出前20个出现次数最多的单词
for i in range(20):
print(f'{sorted_word_counts[i][0]}: {sorted_word_counts[i][1]}')
```
注意:需要先将哈姆雷特英文原文保存为名为“hamlet.txt”的文本文件,然后将该文件放在Python文件所在的目录中才能运行上述代码。
python中英文词频统计
在Python中,可以使用以下步骤来进行英文词频统计:
1. 准备文本数据:首先,你需要有一个包含英文文本的文件或字符串。你可以从文件中读取文本或直接使用字符串。
2. 文本预处理:对文本进行预处理是一个重要的步骤。你可以使用正则表达式或其他方法去除标点符号、数字和特殊字符,将所有字母转换为小写等。
3. 分词:将文本分割成单词。可以使用空格、标点符号或其他自定义分隔符来拆分文本。
4. 统计词频:使用Python的字典数据结构来统计每个单词的出现次数。遍历分词后的列表,对每个单词进行计数。
5. 排序:根据词频进行排序,可以按照出现次数从高到低或从低到高排序。
下面是一个示例代码,用于展示如何实现英文词频统计:
```python
import re
from collections import Counter
def word_frequency(text):
# 文本预处理
text = text.lower() # 转换为小写
text = re.sub(r'[^a-zA-Z\s]', '', text) # 去除标点符号和特殊字符
# 分词
words = text.split()
# 统计词频
word_count = Counter(words)
return word_count
# 示例文本
text = "This is a sample text. It contains some sample words."
# 统计词频
frequency = word_frequency(text)
# 打印词频结果
for word, count in frequency.most_common():
print(f'{word}: {count}')
```
上述代码将输出:
```
sample: 2
this: 1
is: 1
a: 1
text: 1
it: 1
contains: 1
some: 1
words: 1
```
这是每个单词及其出现次数的词频统计结果。你可以根据实际需求进行进一步的处理和分析。希望对你有帮助!
阅读全文