Python去除html标签
时间: 2024-10-29 07:06:26 浏览: 13
python去除所有html标签的方法
5星 · 资源好评率100%
Python中可以使用正则表达式库`re`或第三方库如BeautifulSoup来去除HTML标签。这里提供两种简单的方法:
1. 使用正则表达式:
```python
import re
def remove_html_tags(text):
clean_text = re.sub('<[^<]+?>', '', text)
return clean_text
# 示例
html_string = '<p>这是一个带<a href="https://example.com">HTML</a>的字符串。</p>'
cleaned_text = remove_html_tags(html_string)
```
这会移除所有HTML标签,保留纯文本内容。
2. 使用BeautifulSoup(需要安装`beautifulsoup4`库):
```python
from bs4 import BeautifulSoup
def remove_html_tags_with_bsoup(text):
soup = BeautifulSoup(text, 'html.parser')
cleaned_text = soup.get_text()
return cleaned_text
# 示例
html_string = ... # 同上
cleaned_text = remove_html_tags_with_bsoup(html_string)
```
BeautifulSoup能更智能地处理HTML结构,并且不会误删非标签部分的文本。
阅读全文