3.假设有一个年度工作报告的文本文件(in.txt)。实现数据统计功能:统计文件中出现次数最多的10个词语,作为主题词,要求词语不少于2个字符。 统计结果写入文件out.txt,并用逗号分隔
时间: 2023-07-16 11:16:35 浏览: 101
Java实现(统计一段文字中每个字出现的次数)
5星 · 资源好评率100%
以下是一个Python实现,可以实现你的需求。你可以将需要统计的文件放在与代码同一目录下,并将其命名为in.txt,运行代码后,将会在同一目录下生成out.txt文件,里面包含了出现次数最多的10个词语,用逗号分隔。
```python
import re
from collections import Counter
# 读取文件内容
with open('in.txt', 'r', encoding='utf-8') as f:
content = f.read()
# 使用正则表达式匹配单词
words = re.findall(r'\b\w{2,}\b', content)
# 统计单词出现次数
word_count = Counter(words)
# 获取出现次数最多的10个单词
top_words = word_count.most_common(10)
# 将结果写入文件
with open('out.txt', 'w', encoding='utf-8') as f:
f.write(','.join([word[0] for word in top_words]))
```
注意:上述代码中使用了正则表达式来匹配单词。正则表达式`\b\w{2,}\b`表示匹配由字母或数字组成的长度不少于2个字符的单词。如果需要修改匹配规则,可以修改正则表达式的内容。
阅读全文