综合应用题:《从清华到MIT》词频统计。 从data.txt文件读入一篇文章《从清华到MIT》,用 jieba 库的函数 lcut 的全模式做分词,统计词汇长度为 2 的词出现的次数,输出出现次数最多的前 10 个词汇及其出现次数。
时间: 2024-02-12 15:06:32 浏览: 56
基于Java的jieba分词统计词频
好的,这是一道综合应用题,需要使用 Python 编程语言来实现。下面是实现的代码:
```python
import jieba
# 读取文件内容
with open('data.txt', 'r', encoding='utf-8') as f:
content = f.read()
# 分词
words = jieba.lcut(content, cut_all=True)
# 统计长度为2的词出现次数
word_count = {}
for word in words:
if len(word) == 2:
if word not in word_count:
word_count[word] = 1
else:
word_count[word] += 1
# 输出出现次数最多的前10个词汇及其出现次数
top_words = sorted(word_count.items(), key=lambda x: x[1], reverse=True)[:10]
for word, count in top_words:
print(word, count)
```
上述代码中,首先使用 Python 内置的 open 函数读取文件内容,然后使用 jieba 库的 lcut 函数对文章进行分词,使用 for 循环遍历分词结果,统计长度为 2 的词出现次数,将结果保存在字典 word_count 中。最后,使用 sorted 函数对字典中的键值对按照值进行排序,取出前 10 个出现次数最多的词汇,依次输出即可。
需要注意的是,上述代码需要先安装 jieba 库,可以使用 pip install jieba 命令进行安装。
阅读全文