编写一个 Python 程序,读取data.txt文件中的文本,对进行分词,统计频率最高的前100个,结果输出到result.csv文件中。
时间: 2024-01-22 07:17:49 浏览: 85
从txt文件中读取并统计字符频率
4星 · 用户满意度95%
以下是一个可能的解决方案:
```python
import jieba
import csv
from collections import Counter
# 读取文本文件
with open('data.txt', 'r', encoding='utf-8') as f:
text = f.read()
# 分词并统计词频
words = [w for w in jieba.cut(text) if len(w) > 1] # 只保留长度大于1的词
counter = Counter(words)
top100 = counter.most_common(100)
# 输出到csv文件
with open('result.csv', 'w', newline='', encoding='utf-8') as f:
writer = csv.writer(f)
writer.writerow(['词语', '频率'])
for word, freq in top100:
writer.writerow([word, freq])
```
这个程序依赖于jieba库和collections.Counter类。首先读取data.txt文件并将其存储在一个字符串变量text中。然后使用jieba库对文本进行分词,只保留长度大于1的词。接下来使用Counter类对词频进行统计,并使用most_common方法提取前100个最频繁出现的词语和它们的频率。最后将结果输出到result.csv文件中。
阅读全文