编写一个 Python 脚本,读取一个目录中的所有文本文件(假设文件扩展名为 .txt),并统计每个文件中单词的频率。将结果保存到一个名为 word_frequency.json 的文件中,格式如下:
时间: 2024-11-28 15:28:13 浏览: 14
Python解析并读取PDF文件内容的方法
5星 · 资源好评率100%
你可以使用Python的os和collections库来完成这个任务。下面是一个简单的示例脚本:
```python
import os
from collections import Counter
import json
# 定义函数来读取文本文件并统计单词频率
def count_words_in_file(file_path):
with open(file_path, 'r', encoding='utf-8') as file:
text = file.read()
words = text.split() # 分割单词
return Counter(words)
# 定义主函数,遍历指定目录下的所有.txt文件
def process_directory(directory):
all_files = [f for f in os.listdir(directory) if f.endswith('.txt')] # 获取所有.txt文件
total_word_counts = Counter() # 总计单词计数
for file in all_files:
file_path = os.path.join(directory, file)
word_counts = count_words_in_file(file_path)
total_word_counts += word_counts
# 将结果保存到json文件
with open('word_frequency.json', 'w', encoding='utf-8') as json_file:
json.dump(total_word_counts, json_file, ensure_ascii=False, indent=4)
# 使用函数处理指定目录
process_directory('/path/to/your/directory')
阅读全文