徐志摩的《再别康桥》原文保存至文件“zbkq.txt”中,利用jieba库对该文进行分词(采用精确模式),对每个词计数,并保存到字典类型counts中并按降序排列,输出counts的前10项内容。
时间: 2024-09-26 09:12:10 浏览: 60
首先,你需要安装`jieba`库,如果你还没有安装,可以使用以下命令安装:
```bash
pip install jieba
```
然后,你可以按照以下步骤操作来完成你的需求:
1. 将《再别康桥》的原文写入"zbkq.txt"文件中:
```python
# 假设你已经有了文本内容,如果没有可以直接用open()函数创建一个空文件并写入
with open("zbkq.txt", "w") as f:
f.write("<插入《再别康桥》原文>")
```
2. 使用`jieba`进行分词:
```python
import jieba
# 读取文件内容
with open("zbkq.txt", "r") as f:
text = f.read()
# 使用jieba分词(精确模式)
words = jieba.lcut(text, cut_all=False)
```
3. 对分词结果计数并保存到字典中:
```python
from collections import defaultdict
counts = defaultdict(int)
for word in words:
counts[word] += 1
```
4. 按照降序排列并输出前10项:
```python
sorted_counts = sorted(counts.items(), key=lambda x: x[1], reverse=True)
# 输出前10个最常见的词及其频率
for i, (word, freq) in enumerate(sorted_counts[:10]):
print(f"{i+1}. {word}: {freq}")
```
以上就是完整的代码,运行后你会看到《再别康桥》文中出现次数最多的前10个词语及它们的频率。
阅读全文