如何分别输出文件夹中三个不同文档的词频数呢,并对其中前六百词频进行计数并输出的代码
时间: 2024-09-16 10:03:13 浏览: 55
要在Python中分别统计文件夹中三个不同文档(假设为.txt格式)的词频,并只考虑前600个最常见的词,你可以使用`nltk`库进行文本预处理和`collections`库计算词频。这里是一个简单的示例:
```python
import os
import nltk
from nltk.tokenize import word_tokenize
from collections import Counter
# 准备文件路径
folder_path = "your_folder_path" # 替换为你的文件夹路径
doc_list = ['doc1.txt', 'doc2.txt', 'doc3.txt'] # 文件名列表
# 分别读取每个文件内容
def read_and_tokenize(file_name):
with open(os.path.join(folder_path, file_name), 'r', encoding='utf-8') as f:
text = f.read()
return word_tokenize(text)
# 统计所有文档的词频
all_words = []
for doc in doc_list:
words = read_and_tokenize(doc)
all_words.extend(words)
# 使用Counter进行词频统计,保留前600个最常见的词
counter = Counter(all_words).most_common(600)
# 输出结果
for word, freq in counter:
print(f"{word}: {freq}")
阅读全文