完成jeiba 库的安装和使用,并统计一篇文章的高频词。编写程序,统计出现最多的前10位词
时间: 2024-02-26 21:58:21 浏览: 17
好的,我会根据您的要求进行操作。下面是具体的步骤:
1. 安装jieba库
您可以使用以下命令在命令行中安装jieba库:
```
pip install jieba
```
2. 导入jieba库
您可以在Python程序中导入jieba库,如下所示:
```python
import jieba
```
3. 读取文章
您需要先读取一篇文章,可以使用Python的文件读取方法,例如:
```python
with open('article.txt', 'r', encoding='utf-8') as f:
article = f.read()
```
其中,`article.txt`是您要读取的文章的文件名,需要将其放在程序所在的文件夹内。
4. 分词
使用jieba库的`cut`方法进行分词,将文章分成一个个词语,如下所示:
```python
words = jieba.cut(article)
```
5. 统计高频词
将分好的词语进行统计,统计出现次数最多的前10个词语,如下所示:
```python
word_counts = {}
for word in words:
if len(word) > 1:
if word in word_counts:
word_counts[word] += 1
else:
word_counts[word] = 1
top10_words = sorted(word_counts.items(), key=lambda x: x[1], reverse=True)[:10]
```
其中,我们设置了一个`word_counts`字典,用来统计每个词语出现的次数。我们在遍历每个词语时,先判断该词语的长度是否大于1,如果小于等于1,则不计入统计。然后,我们判断该词语是否在`word_counts`字典中,如果在,则将该词语出现次数加1,否则将该词语加入字典,并将出现次数设置为1。
最后,我们使用`sorted`方法将字典按照出现次数进行排序,并取出前10个词语即可。
完整的程序代码如下所示:
```python
import jieba
# 读取文章
with open('article.txt', 'r', encoding='utf-8') as f:
article = f.read()
# 分词
words = jieba.cut(article)
# 统计高频词
word_counts = {}
for word in words:
if len(word) > 1:
if word in word_counts:
word_counts[word] += 1
else:
word_counts[word] = 1
top10_words = sorted(word_counts.items(), key=lambda x: x[1], reverse=True)[:10]
# 输出结果
for word, count in top10_words:
print(word, count)
```
注意:在运行程序之前,需要将要读取的文章放在程序所在的文件夹内,并将文件名修改为`article.txt`。