帮我写一个python代码,能把一个文件夹中的html文件,批量转化为txt文件,存入新的文件夹中。请帮我标注我要修改的路径。
时间: 2024-03-13 07:44:17 浏览: 59
好的,以下是将一个文件夹中的html文件批量转化为txt文件的Python代码,你可以根据注释修改路径。
```python
import os
from bs4 import BeautifulSoup
# 定义一个函数,用于将html文件转化为txt文件
def html_to_txt(html_path, txt_path):
with open(html_path, 'r', encoding='utf-8') as f:
soup = BeautifulSoup(f.read(), 'html.parser')
# 获取html文件中的文本内容
text = soup.get_text()
with open(txt_path, 'w', encoding='utf-8') as f:
f.write(text)
# 定义原始文件夹和目标文件夹路径
source_dir = '/path/to/source/dir' # 将 /path/to/source/dir 替换为原始文件夹路径
target_dir = '/path/to/target/dir' # 将 /path/to/target/dir 替换为目标文件夹路径
# 遍历原始文件夹中的所有文件
for filename in os.listdir(source_dir):
# 判断是否为html文件
if filename.endswith('.html'):
# 构造html文件路径
html_path = os.path.join(source_dir, filename)
# 构造txt文件路径
txt_path = os.path.join(target_dir, filename.replace('.html', '.txt'))
# 调用函数将html文件转化为txt文件
html_to_txt(html_path, txt_path)
```
在代码中,你需要将`/path/to/source/dir`替换为原始文件夹的路径,将`/path/to/target/dir`替换为目标文件夹的路径。同时,需要注意原始文件夹中的文件格式必须为html格式,程序会自动过滤掉其他格式的文件。
阅读全文