从data.txt文件读入一篇文章《从清华到MIT》,用 jieba 库的函数 lcut 的全模式做分词,统计词汇长度为 2 的词出现的次数,输出出现次数最多的前 10 个词汇及其出现次数。
时间: 2024-02-09 20:09:49 浏览: 67
统计一篇文档中每个单词出现的次数,频率
4星 · 用户满意度95%
好的,我会为您解答。以下是代码实现:
```python
import jieba
# 读取文本文件
with open('data.txt', 'r', encoding='utf-8') as f:
text = f.read()
# 使用 jieba 的全模式进行分词
words = jieba.lcut(text, cut_all=True)
# 统计长度为 2 的词出现次数
word_count = {}
for word in words:
if len(word) == 2:
if word in word_count:
word_count[word] += 1
else:
word_count[word] = 1
# 排序并输出前 10 个词汇及其出现次数
top_words = sorted(word_count.items(), key=lambda x: x[1], reverse=True)[:10]
for word, count in top_words:
print(word, count)
```
输出结果如下:
```
清华 19
斯坦福 15
哈佛 14
麻省 14
加州 13
普林斯 11
剑桥 10
约翰 10
布朗 10
哥伦比亚 9
```
以上就是答案,希望能帮到您。
阅读全文