如何用python ,利用中文分词jieba库,统计一篇txt中文文章中出现频率最高的10个中文词。
时间: 2024-02-28 19:53:31 浏览: 194
可以按照以下步骤实现:
1. 安装jieba库
在命令行中输入以下命令安装jieba库:
```
pip install jieba
```
2. 读取txt文件
假设要统计的中文文章保存在一个txt文件中,可以使用Python的open函数读取文件:
```python
with open('article.txt', 'r', encoding='utf-8') as f:
article = f.read()
```
3. 分词并统计词频
使用jieba库对文章进行分词,并统计每个词出现的次数:
```python
import jieba
from collections import Counter
words = jieba.cut(article)
word_counts = Counter(words)
```
4. 输出出现频率最高的10个中文词
使用most_common方法可以得到出现频率最高的10个中文词:
```python
for word, count in word_counts.most_common(10):
print(word, count)
```
完整代码如下:
```python
import jieba
from collections import Counter
with open('article.txt', 'r', encoding='utf-8') as f:
article = f.read()
words = jieba.cut(article)
word_counts = Counter(words)
for word, count in word_counts.most_common(10):
print(word, count)
```
阅读全文