帮我写一段打开一个文件夹中的三个中文文件,并对其中前六百词频进行计数并输出的代码
时间: 2024-09-17 08:00:52 浏览: 33
这是一个Python示例,使用`os`库来处理文件夹,`jieba`库来进行中文分词,`collections`库计算词频:
```python
import os
import jieba.analyse
from collections import Counter
# 定义函数统计文件中的词频
def count_words_in_folder(folder_path):
counter = Counter()
for filename in os.listdir(folder_path): # 遍历文件夹中的所有文件
if filename.endswith(('.txt', '.doc', '.docx')): # 只考虑文本文件
with open(os.path.join(folder_path, filename), 'r', encoding='utf-8') as file: # 打开文件
content = file.read()[:600] # 取前600字
words = jieba.lcut(content) # 使用jieba分词
counter.update(words) # 更新词频
return counter.most_common() # 返回最常见的前几个词及其频率
# 调用函数并打印结果
folder_path = 'your_folder_path' # 替换为你的文件夹路径
top_words = count_words_in_folder(folder_path)
print(f"前六个最常出现的词及其频率:")
for word, freq in top_words[:6]:
print(f"{word}: {freq}")
阅读全文