python正则去除所有html标签只保留内容
时间: 2023-09-22 14:15:24 浏览: 108
使用正则表达式去除所有html标签只保留文字
5星 · 资源好评率100%
可以使用Python中的re模块和正则表达式来去除HTML标签,只保留内容。具体方法如下:
```python
import re
def remove_html_tags(html):
# 定义正则表达式
pattern = re.compile(r'<[^>]+>')
# 去除HTML标签
result = pattern.sub('', html)
# 返回结果
return result
```
`remove_html_tags`函数接收一个包含HTML标签的字符串作为参数,使用正则表达式去除所有HTML标签并返回结果。在正则表达式中,`<[^>]+>`代表匹配所有的HTML标签。`sub`方法可以将匹配到的内容替换为空字符串,即去除HTML标签。
阅读全文