使用jieba库 假设有一个年度工作报告的文本文件(in.txt)。实现数据统计功能:统计文件中出现次数最多的10个词语和相应的出险次数,作为主题词,要求词语不少于2个字符。 统计结果写入文件out.txt Python
时间: 2023-07-16 11:17:13 浏览: 94
上市公司年报_Python中jieba_数字化_关键词词频统计_程序+年报样例
5星 · 资源好评率100%
以下是使用Python和jieba库实现数据统计功能的代码:
```python
import jieba
from collections import Counter
# 读取文件内容
with open('in.txt', 'r', encoding='utf-8') as f:
content = f.read()
# 分词并统计词频
words = []
for word in jieba.cut(content):
if len(word) >= 2:
words.append(word)
word_counts = Counter(words)
# 获取出现次数最多的前10个词语
top_10_words = word_counts.most_common(10)
# 写入文件
with open('out.txt', 'w', encoding='utf-8') as f:
for word, count in top_10_words:
f.write(word + '\t' + str(count) + '\n')
```
该代码首先使用jieba库对文本进行分词,并统计每个词语出现的次数。然后,使用collections库的Counter类对词频进行统计,并获取出现次数最多的前10个词语。最后,将结果写入文件out.txt中,每行一个词语和相应的出现次数,用制表符分隔。
阅读全文