读取 data.txt 文件并借助 jieba 库实现词频统计, 将出现频率最高的 10 个词输出
时间: 2024-01-30 11:02:01 浏览: 73
基于Java的jieba分词统计词频
好的,我可以帮你实现这个功能。首先需要安装`jieba`库,可以使用以下命令进行安装:
```
pip install jieba
```
然后我们可以编写以下代码读取`data.txt`文件并进行词频统计:
```python
import jieba
# 读取文件内容
with open('data.txt', 'r', encoding='utf-8') as f:
content = f.read()
# 进行分词
words = jieba.cut(content)
# 统计词频
word_count = {}
for word in words:
if len(word) > 1: # 只统计长度大于1的词
if word in word_count:
word_count[word] += 1
else:
word_count[word] = 1
# 输出出现频率最高的前10个词
top_words = sorted(word_count.items(), key=lambda x: x[1], reverse=True)[:10]
for word, count in top_words:
print(word, count)
```
以上代码首先使用`open()`函数读取`data.txt`文件的内容,然后使用`jieba.cut()`函数对内容进行分词。接着使用一个字典`word_count`统计每个词出现的次数,最后使用`sorted()`函数对字典进行排序,输出出现频率最高的前10个词。
阅读全文