徐志摩的《再别康桥》原文保存至文件“zbkq.txt”中,利用jieba库对该文进行分词(采用精确模式),对每个词计数,并保存到字典类型counts中并按降序排列,输出counts的前10项内容。
时间: 2024-09-26 11:12:49 浏览: 112
首先,我们需要确保已经安装了`jieba`库,如果没有,可以通过以下命令安装:
```bash
pip install jieba
```
然后,我们可以按照以下步骤操作:
1. 将《再别康桥》的文本保存到`zbkq.txt`文件中。
2. 读取文本文件的内容。
3. 使用`jieba`进行分词(采用精确模式)。
4. 对分词结果进行计数并存储在字典类型`counts`中。
5. 按照单词出现次数降序排序。
6. 输出前10个单词及其出现次数。
下面是相应的Python代码实现:
```python
import jieba
from collections import Counter
# 假设zbkq.txt已经存在
with open("zbkq.txt", "r", encoding="utf-8") as f:
text = f.read()
# 使用jieba精确模式分词
words = jieba.lcut(text, cut_all=False)
# 计算词频并将结果存入Counter对象
word_counts = Counter(words)
# 按降序排列并获取前10项
top_10_words = word_counts.most_common(10)
# 打印结果
for word, count in top_10_words:
print(f"{word}: {count}")
```
请注意,这段代码假设您的文本文件是UTF-8编码的。如果使用其他编码,请相应地调整`open`函数中的`encoding`参数。另外,运行此代码之前确保`zbkq.txt`文件已准备好并且位于正确路径下。
阅读全文