遍历txt文件 提取前10 的关键词 以每文件一行输出到txt
时间: 2024-02-25 10:56:03 浏览: 80
遍历某文件夹下的 .txt 文件
4星 · 用户满意度95%
好的,针对你的问题,我可以给出以下的解决方案:
1. 首先,你需要使用Python中的第三方库jieba进行分词和关键词提取。你可以通过以下命令来安装jieba库:
```
pip install jieba
```
2. 然后,你需要编写Python代码来实现遍历txt文件和提取关键词的功能。你可以参考以下代码:
```
import os
import jieba.analyse
# 设置要遍历的文件夹路径
folder_path = 'your_folder_path'
# 获取文件夹下所有的txt文件名
file_names = [f for f in os.listdir(folder_path) if f.endswith('.txt')]
# 遍历每一个txt文件
for file_name in file_names:
# 读取txt文件内容
with open(os.path.join(folder_path, file_name), 'r', encoding='utf-8') as f:
content = f.read()
# 使用jieba提取前10个关键词
keywords = jieba.analyse.extract_tags(content, topK=10, withWeight=False, allowPOS=())
# 将关键词写入新的txt文件
with open(os.path.join(folder_path, file_name.split('.')[0] + '_keywords.txt'), 'w', encoding='utf-8') as f:
f.write('\n'.join(keywords))
```
在上述代码中,你需要将`your_folder_path`替换为你的txt文件所在的文件夹路径。代码中的`topK`参数表示要提取的关键词数量,你可以根据需要进行修改。代码中的`allowPOS`参数表示分词的词性,如果你不需要限制词性,则可以将其设置为空元组。
3. 最后,代码会将每个txt文件的前10个关键词以每行一个的形式写入新的txt文件中。
希望这个解决方案能够帮到你!
阅读全文