Python用jieba库进行文本词频统计::一篇文章,出现了哪些词?哪些词出现的最多?
时间: 2024-02-17 18:04:31 浏览: 79
用Python中的jieba对文章进行词频统计
好的,针对您的问题,可以使用Python中的jieba库进行文本词频统计,具体操作如下:
1. 安装jieba库:
```
pip install jieba
```
2. 导入jieba库并读取文本文件:
```python
import jieba
with open('text.txt', 'r', encoding='utf-8') as f:
text = f.read()
```
3. 使用jieba库对文本进行分词:
```python
words = jieba.cut(text)
```
4. 统计各词出现的频率:
```python
word_freq = {}
for word in words:
if word not in word_freq:
word_freq[word] = 1
else:
word_freq[word] += 1
```
5. 排序并输出结果:
```python
sorted_word_freq = sorted(word_freq.items(), key=lambda x: x[1], reverse=True)
print('出现最多的前10个词:')
for word, freq in sorted_word_freq[:10]:
print(word, freq)
print('所有出现过的词:')
for word, freq in sorted_word_freq:
print(word, freq)
```
这样,就可以得到该文章中出现的所有词以及它们的出现频率,从而找到出现最多的前10个词。
阅读全文