python利用jieba进行英文文档的词频统计
时间: 2023-07-10 12:26:46 浏览: 122
python学习文本词频统计hamlet三国演义
Python中的jieba库主要用于中文分词,不支持英文文本的处理,但是我们可以使用Python的内置库来完成英文文档的词频统计。以下是一个简单的示例代码:
```python
import re
from collections import Counter
# 读取文本文件
with open('english.txt', 'r') as f:
text = f.read()
# 使用正则表达式去除非字母字符
text = re.sub('[^a-zA-Z]', ' ', text)
# 将文本转换为小写字母
text = text.lower()
# 将文本拆分为单词列表
words = text.split()
# 统计单词出现次数
word_counts = Counter(words)
# 输出前10个出现次数最多的单词
for word, count in word_counts.most_common(10):
print(word, count)
```
其中,`english.txt`是需要统计词频的英文文本文件。这段代码使用正则表达式去除了文本中的非字母字符,然后将所有字母转换为小写,最后使用Python的`collections`库中的`Counter`类对单词进行统计。最后输出了出现次数最多的前10个单词及其出现次数。
阅读全文