利用jieba进行英文文档词频统计
时间: 2023-08-20 08:04:08 浏览: 224
虽然jieba是一个中文分词工具,但是它也可以用来进行英文文档的词频统计。具体步骤如下:
1. 安装jieba库
```python
!pip install jieba
```
2. 导入库并读取文本文件
```python
import jieba
with open('test.txt', 'r', encoding='utf-8') as f:
text = f.read()
```
3. 对文本进行分词
```python
words = jieba.lcut(text)
```
4. 去除停用词
英文文本的停用词可以通过nltk库进行下载和使用。
```python
import nltk
from nltk.corpus import stopwords
nltk.download('stopwords')
stop_words = set(stopwords.words('english'))
filtered_words = []
for word in words:
if word not in stop_words:
filtered_words.append(word)
```
5. 统计词频
```python
from collections import Counter
word_count = Counter(filtered_words)
```
6. 输出结果
```python
print(word_count)
```
结果会输出每个单词出现的次数。
阅读全文