遍历txt文件夹,提取前15个关键词,以每个文件为一行输出到新的txt文档中
时间: 2024-02-28 12:53:47 浏览: 73
遍历某文件夹下的 .txt 文件
4星 · 用户满意度95%
好的,可以使用Python编写脚本来实现。您需要先安装Python和相关的库,如nltk和os。以下是可能的实现方式:
```python
import os
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.probability import FreqDist
# 设置文件夹路径和输出文件名
folder_path = "path/to/folder"
output_file = "output.txt"
# 获取停用词列表
stop_words = set(stopwords.words("english"))
# 遍历文件夹
with open(output_file, "w") as f:
for filename in os.listdir(folder_path):
file_path = os.path.join(folder_path, filename)
if os.path.isfile(file_path):
# 打开文件并读取内容
with open(file_path, "r") as file:
content = file.read()
# 分词
tokens = word_tokenize(content)
# 去除停用词和标点符号
words = [word.lower() for word in tokens if word.isalpha() and word.lower() not in stop_words]
# 计算词频并获取前15个关键词
freq_dist = FreqDist(words)
keywords = [word[0] for word in freq_dist.most_common(15)]
# 将关键词写入输出文件
f.write(" ".join(keywords) + "\n")
```
请将`path/to/folder`替换为您的文件夹路径,将`output.txt`替换为您想要的输出文件名。该脚本将遍历文件夹中的每个文件,提取前15个关键词,并将这些关键词作为一行写入输出文件中。
阅读全文