Python正则表达式如何提取html文档中除去标签的信息
时间: 2023-04-08 11:04:05 浏览: 268
正则表达式清除html标签
5星 · 资源好评率100%
可以使用re模块中的sub函数,将所有的HTML标签替换为空字符串,得到除去标签的文本信息。具体代码如下:
```python
import re
html = '<html><head><title>Test</title></head><body><p>Hello, world!</p></body></html>'
text = re.sub('<[^>]+>', '', html)
print(text)
```
输出结果为:
```
TestHello, world!
```
其中,`<[^>]+>`是一个正则表达式,表示匹配所有的HTML标签。`re.sub`函数将匹配到的标签替换为空字符串,得到除去标签的文本信息。
阅读全文