遍历“C:\Users\84297\Desktop\爬虫\data”路径中的txt文件进行分词,并在out文件夹下生成对应的新文本文件的代码如何编写
时间: 2023-03-29 11:04:29 浏览: 87
遍历某文件夹下的 .txt 文件
4星 · 用户满意度95%
你可以使用Python中的os和jieba库来实现这个任务。具体的代码如下:
```python
import os
import jieba
# 遍历指定路径下的所有txt文件
def traverse_files(path):
for root, dirs, files in os.walk(path):
for file in files:
if file.endswith('.txt'):
yield os.path.join(root, file)
# 对文本进行分词
def segment_text(text):
seg_list = jieba.cut(text)
return ' '.join(seg_list)
# 处理单个文件
def process_file(file_path, out_path):
with open(file_path, 'r', encoding='utf-8') as f:
text = f.read()
seg_text = segment_text(text)
out_file_path = os.path.join(out_path, os.path.basename(file_path))
with open(out_file_path, 'w', encoding='utf-8') as f:
f.write(seg_text)
# 处理整个目录
def process_dir(dir_path, out_path):
if not os.path.exists(out_path):
os.makedirs(out_path)
for file_path in traverse_files(dir_path):
process_file(file_path, out_path)
# 调用函数进行处理
process_dir(r'C:\Users\84297\Desktop\爬虫\data', r'C:\Users\84297\Desktop\爬虫\out')
```
这段代码会遍历指定路径下的所有txt文件,对每个文件进行分词,并将结果保存到out文件夹下对应的新文本文件中。
阅读全文