首页使用Python提取HTML文件的文本内容

使用Python提取HTML文件的文本内容

时间: 2023-03-28 08:01:34 浏览: 203

您好，可以使用Python中的BeautifulSoup库来提取HTML文件的文本内容。具体操作可以参考以下代码： ```python from bs4 import BeautifulSoup # 读取HTML文件 with open('example.html', 'r', encoding='utf-8') as f: html = f.read() # 解析HTML文件 soup = BeautifulSoup(html, 'html.parser') # 提取文本内容 text = soup.get_text() # 打印文本内容 print(text) ``` 以上代码中，我们首先使用`open()`函数读取HTML文件，然后使用BeautifulSoup库解析HTML文件。最后使用`soup.get_text()`方法提取HTML文件中的文本内容，并打印输出。

阅读全文