使用Python提取相对目录下的HTML文件的文本内容,并将提取的文本内容保存到相对目录的TXT文件中
时间: 2023-03-28 18:01:35 浏览: 110
你可以使用Python中的BeautifulSoup库来提取HTML文件的文本内容,具体步骤如下:
1. 导入BeautifulSoup库和os库
```python
from bs4 import BeautifulSoup
import os
```
2. 定义一个函数,用于提取HTML文件的文本内容并保存到TXT文件中
```python
def extract_text_from_html(html_file):
# 打开HTML文件并读取内容
with open(html_file, 'r', encoding='utf-8') as f:
html_content = f.read()
# 使用BeautifulSoup解析HTML文件
soup = BeautifulSoup(html_content, 'html.parser')
# 提取HTML文件中的文本内容
text_content = soup.get_text()
# 构造TXT文件的文件名
txt_file = os.path.splitext(html_file)[] + '.txt'
# 将提取的文本内容保存到TXT文件中
with open(txt_file, 'w', encoding='utf-8') as f:
f.write(text_content)
```
3. 调用函数,提取相对目录下的HTML文件的文本内容并保存到相对目录的TXT文件中
```python
# 获取当前目录下的所有HTML文件
html_files = [f for f in os.listdir('.') if f.endswith('.html')]
# 遍历HTML文件列表,提取文本内容并保存到TXT文件中
for html_file in html_files:
extract_text_from_html(html_file)
```
以上就是使用Python提取相对目录下的HTML文件的文本内容,并将提取的文本内容保存到相对目录的TXT文件中的方法。
阅读全文