使用jieba库 假设有一个年度工作报告的文本文件(in.txt)。实现数据统计功能:统计文件中出现次数最多的10个词语,作为主题词,要求词语不少于2个字符。 统计结果写入文件out.txt Python
时间: 2023-07-16 08:17:08 浏览: 97
python使用jieba进行分词统计
5星 · 资源好评率100%
可以使用Python中的jieba库和collections库来完成这个任务。
首先需要安装jieba库,可以使用以下命令安装:
```
pip install jieba
```
然后,可以按照以下步骤来实现数据统计功能:
1. 读取文本文件并进行分词
2. 统计每个词语出现的次数
3. 找到出现次数最多的10个词语
4. 将统计结果写入文件out.txt
下面是完整的代码:
```python
import jieba
from collections import Counter
# 读取文件
with open('in.txt', 'r', encoding='utf-8') as f:
text = f.read()
# 分词
words = jieba.cut(text)
# 统计词频
word_counts = Counter(words)
# 找到出现次数最多的10个词语
top_words = [word for word, count in word_counts.most_common(10) if len(word) >= 2]
# 将统计结果写入文件out.txt
with open('out.txt', 'w', encoding='utf-8') as f:
f.write('\n'.join(top_words))
```
这个代码会将出现次数最多的10个词语写入文件out.txt中,每行一个词语。
阅读全文