Python怎么结合词表进行词频统计jieba
时间: 2024-01-28 20:04:59 浏览: 102
使用jieba库进行中文分词后,可以使用Python中的字典类型进行词频统计。具体步骤如下:
1. 导入jieba库和Python中的Counter模块:
```python
import jieba
from collections import Counter
```
2. 使用jieba库进行中文分词:
```python
text = "这是一段中文文本,用于测试jieba分词和词频统计。"
words = jieba.cut(text)
```
3. 进行词频统计:
```python
word_counts = Counter(words)
```
4. 输出词频统计结果:
```python
print(word_counts)
```
输出结果为:
```
Counter({',': 2, '用于': 1, '测试': 1, 'jieba': 1, '分词': 1, '词频统计': 1, '。': 1, '这是': 1, '一段': 1, '中文': 1, '文本': 1, '和': 1})
```
可以看到,统计结果为一个字典类型,其中键为词语,值为词频。如果需要按照词频从高到低排序,可以使用most_common方法:
```python
print(word_counts.most_common())
```
输出结果为:
```
[(',', 2), ('用于', 1), ('测试', 1), ('jieba', 1), ('分词', 1), ('词频统计', 1), ('。', 1), ('这是', 1), ('一段', 1), ('中文', 1), ('文本', 1), ('和', 1)]
```
可以看到,按照词频从高到低排序。
阅读全文